0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌MIT最新研究證明:高質(zhì)量數(shù)據(jù)獲取不難,大模型就是歸途

CVer ? 來源:新智元 ? 2024-01-15 15:40 ? 次閱讀

【導(dǎo)讀】數(shù)據(jù)獲取最新解,便是從生成模型中學(xué)習(xí)。

獲取高質(zhì)量數(shù)據(jù),已經(jīng)成為當(dāng)前大模型訓(xùn)練的一大瓶頸。

前幾天,OpenAI被《紐約時報》起訴,并要求索賠數(shù)十億美元。訴狀中,列舉了GPT-4抄襲的多項罪證。

甚至,《紐約時報》還呼吁摧毀幾乎所有的GPT等大模型。

236ef1be-b365-11ee-8b88-92fbcf53809c.png

一直以來,AI界多位大佬認(rèn)為「合成數(shù)據(jù)」或許是解決這個問題的最優(yōu)解。

237c6ace-b365-11ee-8b88-92fbcf53809c.png

此前,谷歌團隊還提出了用LLM代替人類標(biāo)記偏好的方法RLAIF,效果甚至不輸人類。

23821e7e-b365-11ee-8b88-92fbcf53809c.png

現(xiàn)如今,谷歌MIT的研究人員發(fā)現(xiàn),從大模型中學(xué)習(xí)可以得到使用真實數(shù)據(jù)訓(xùn)練的最佳模型的表征。

這一最新方法稱SynCLR,一種完全從合成圖像和合成描述學(xué)習(xí)虛擬表征的方法,無需任何真實數(shù)據(jù)。

23864198-b365-11ee-8b88-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2312.17742

實驗結(jié)果表明,通過SynCLR方法學(xué)習(xí)到的表征,能夠與OpenAI的CLIP在ImageNet 上的傳輸效果一樣好。

238a48a6-b365-11ee-8b88-92fbcf53809c.png

從生成模型中學(xué)習(xí)

目前表現(xiàn)最好的「視覺表征」學(xué)習(xí)方法依賴于大規(guī)模的實際數(shù)據(jù)集。然而,真實數(shù)據(jù)的收集卻有不少的困難。

為了降低收集數(shù)據(jù)的成本,研究人員本文中提出了一個問題:

從現(xiàn)成的生成模型中采樣的合成數(shù)據(jù),是否是一條通往大規(guī)模策劃數(shù)據(jù)集的可行之路,從而訓(xùn)練出最先進(jìn)的視覺表征?

2394f6fc-b365-11ee-8b88-92fbcf53809c.png

與直接從數(shù)據(jù)中學(xué)習(xí)不同,谷歌研究人員稱這種模式為「從模型中學(xué)習(xí)」。作為建立大規(guī)模訓(xùn)練集的數(shù)據(jù)源,模型有幾個優(yōu)勢:

- 通過其潛在變量、條件變量和超參數(shù),為數(shù)據(jù)管理提供了新的控制方法。

- 模型也更容易共享和存儲(因為模型比數(shù)據(jù)更容易壓縮),并且可以產(chǎn)生無限數(shù)量的數(shù)據(jù)樣本。

越來越多的文獻(xiàn)研究了生成模型的這些特性和其他優(yōu)點和缺點,并將其作為訓(xùn)練下游模型的數(shù)據(jù)源。

其中一些方法采用混合模式,即混合真實數(shù)據(jù)集和合成數(shù)據(jù)集,或需要一個真實數(shù)據(jù)集來生成另一個合成數(shù)據(jù)集。

其他方法試圖從純粹的「合成數(shù)據(jù)」中學(xué)習(xí)表征,但遠(yuǎn)遠(yuǎn)落后于表現(xiàn)最好的模型。

論文中,研究人員提出的最新方法,使用生成模型重新定義可視化類的粒度。

如圖2所示,使用2個提示生成了四張圖片「一只戴著墨鏡和沙灘帽的金毛獵犬騎著自行車」和「一只可愛的金毛獵犬坐在壽司做成的房子里」。

2398edf2-b365-11ee-8b88-92fbcf53809c.png

傳統(tǒng)的自監(jiān)督方法(如Sim-CLR)會將這些圖像視為不同的類,不同圖像的嵌入會被分開,而不會明確考慮圖像之間的共享語義。

另一個極端是,監(jiān)督學(xué)習(xí)方法(即SupCE)會將所有這些圖像視為單一類(如「金毛獵犬」)。這就忽略了這些圖像在語義上的細(xì)微差別,例如在一對圖像中狗在騎自行車,而在另一對圖像中狗坐在壽司屋內(nèi)。

相反,SynCLR方法將描述視為類,即每個描述一個可視化類。

這樣,我們就可以按照「騎自行車」和「坐在壽司店里」這兩個概念對圖片進(jìn)行分組。

這種粒度很難在真實數(shù)據(jù)中挖掘,因為收集由給定描述的多張圖片并非易事,尤其是當(dāng)描述數(shù)量增加時。

然而,文本到圖像的擴散模型從根本上就具備這種能力。

只需對相同的描述設(shè)定條件,并使用不同的噪聲輸入,文本到圖像的擴散模型就能生成與相同描述相匹配的不同圖像。

具體來說,作者研究了在沒有真實圖像或文本數(shù)據(jù)的情況下,學(xué)習(xí)視覺編碼器的問題。

最新方法依賴3個關(guān)鍵資源的利用:一個語言生成模型(g1),一個文本到圖像的生成模型(g2),以及一個經(jīng)過整理的視覺概念列表(c)。

前處理包括三個步驟:

(1)使用(g1)合成一組全面的圖像描述T,其中涵蓋了C中的各種視覺概念;

(2)對于T中的每個標(biāo)題,使用(g2)生成多個圖像,最終生成一個廣泛的合成圖像數(shù)據(jù)集X;

(3)在X上進(jìn)行訓(xùn)練,以獲得視覺表示編碼器f。

然后,分別使用llama-27b和Stable Diffusion 1.5作為(g1)和(g2),因為其推理速度很快。

合成描述

為了利用強大的文本到圖像模型的能力,來生成大量的訓(xùn)練圖像數(shù)據(jù)集,首先需要一個不僅精確描述圖像而且展示多樣性的描述集合,以包含廣泛的視覺概念。

對此,作者開發(fā)了一種可擴展的方法來創(chuàng)建如此大量的描述集,利用大模型的上下文學(xué)習(xí)能力。

如下展示了三個合成模板的示例。

239dfde2-b365-11ee-8b88-92fbcf53809c.png

如下是使用Llama-2生成上下文描述,研究人員在每次推理運行中隨機抽取三個上下文示例。

23a225c0-b365-11ee-8b88-92fbcf53809c.png

合成圖像

對于每個文本描述,研究人員都會用不同的隨機噪聲啟動反向擴散過程,從而生成各種圖像。

在此過程中,無分類器引導(dǎo)(CFG)比例是一個關(guān)鍵因素。

CFG標(biāo)度越高,樣本的質(zhì)量和文本與圖像之間的一致性就越好,而標(biāo)度越低,樣本的多樣性就越大,也就越符合基于給定文本的圖像原始條件分布。

23acdab0-b365-11ee-8b88-92fbcf53809c.png

表征學(xué)習(xí)

論文中,表征學(xué)習(xí)的方法建立在StableRep的基礎(chǔ)上。

作者提出的方法的關(guān)鍵組成部分是多正對比學(xué)習(xí)損失,它的工作原理是對齊(在嵌入空間)從同一描述生成的圖像。

另外,研究中還結(jié)合了其他自監(jiān)督學(xué)習(xí)方法的多種技術(shù)。

與OpenAI的CLIP相媲美

實驗評估中,研究人員首先進(jìn)行消融研究,以評估管道內(nèi)各種設(shè)計和模塊的有效性,然后繼續(xù)擴大合成數(shù)據(jù)的量。

下圖是不同描述合成策略的比較。

研究人員報告了9個細(xì)粒度數(shù)據(jù)集的ImageNet線性評估準(zhǔn)確性和平均準(zhǔn)確性。這里的每個項目包括1000萬個描述和每個描述4張圖片。

23b2e8ec-b365-11ee-8b88-92fbcf53809c.png

下表是ImageNet線性評估與細(xì)粒度分類的比較。

盡管只使用了合成數(shù)據(jù),但SynCLR與OpenAI的CLIP和DINO v2模型取得了不相上下的結(jié)果。

23b6b3b4-b365-11ee-8b88-92fbcf53809c.png

下表是在相同的合成數(shù)據(jù)上比較SynCLR和CLIP,可以看出,SynCLR明顯優(yōu)于CLIP。

具體設(shè)置為,每個標(biāo)題生成4個圖像,SynCaps-150M為SynCLR和CLIP提供了更好的表示。

23bb41b8-b365-11ee-8b88-92fbcf53809c.png

PCA可視化如下。按照DINO v2,研究人員計算了同一組圖像的斑塊之間的PCA,并根據(jù)其前3個分量進(jìn)行著色。

與DINO v2相比,SynCLR對汽車和飛機的繪制的圖更為準(zhǔn)確,而對能繪制的圖則稍差一些。

23cc3496-b365-11ee-8b88-92fbcf53809c.png

圖6和圖7中,分別展示了不同訓(xùn)練規(guī)模下的ImageNet線性準(zhǔn)確率,以及不同訓(xùn)練參數(shù)規(guī)模下的精細(xì)分類。

23d0c47a-b365-11ee-8b88-92fbcf53809c.png

為什么要從生成模型中學(xué)習(xí)?

一個令人信服的原因是,生成模型可以像數(shù)百個數(shù)據(jù)集一樣同時運作,能夠為策劃訓(xùn)練數(shù)據(jù)提供了一種方便有效的方法。

總而言之,最新論文研究了視覺表征學(xué)習(xí)的新范式——從生成模型中學(xué)習(xí)。

在沒有使用任何實際數(shù)據(jù)的情況下,SynCLR學(xué)習(xí)到的視覺表征,與最先進(jìn)的通用視覺表征學(xué)習(xí)器學(xué)習(xí)到的視覺表征不相上下。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3073

    瀏覽量

    48586
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    348

    瀏覽量

    15255
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1016

    瀏覽量

    6353
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2225

    瀏覽量

    2255

原文標(biāo)題:谷歌MIT最新研究證明:高質(zhì)量數(shù)據(jù)獲取不難,大模型就是歸途

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧

    以及后續(xù)的分析步驟。 確定需要分析的數(shù)據(jù)類型、規(guī)模和復(fù)雜度,以便選擇合適的AI大模型。 二、高質(zhì)量數(shù)據(jù)收集與處理 數(shù)據(jù)來源 :從可靠的來源收集數(shù)據(jù)
    的頭像 發(fā)表于 10-23 15:14 ?249次閱讀

    白皮書下載丨《生成式AI如何改變AI缺陷檢測的傳統(tǒng)范式》

    在自動化和智能化技術(shù)飛速發(fā)展的今天,制造業(yè)對AI視覺技術(shù)的需求日益增長。然而,高質(zhì)量的訓(xùn)練數(shù)據(jù)獲取成為制約AI模型性能提升的關(guān)鍵因素。傳統(tǒng)的數(shù)據(jù)
    的頭像 發(fā)表于 10-18 08:05 ?211次閱讀
    白皮書下載丨《生成式AI如何改變AI缺陷檢測的傳統(tǒng)范式》

    中興通訊引領(lǐng)5G-A高質(zhì)量發(fā)展新紀(jì)元

    中國5G商用5周年之際,以“智聯(lián)未來 無限可能”為主題的2024移動通信高質(zhì)量發(fā)展論壇在北京舉辦。本屆論壇系統(tǒng)呈現(xiàn)總結(jié)我國移動通信,特別是5G產(chǎn)業(yè)自身高質(zhì)量發(fā)展和引領(lǐng)數(shù)字經(jīng)濟高質(zhì)量發(fā)展的成果和經(jīng)驗,展望5G-A、6G協(xié)同創(chuàng)新發(fā)展
    的頭像 發(fā)表于 10-15 10:32 ?356次閱讀

    TVP5146高質(zhì)量、單芯片數(shù)字視頻解碼器數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《TVP5146高質(zhì)量、單芯片數(shù)字視頻解碼器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 07-04 10:00 ?0次下載
    TVP5146<b class='flag-5'>高質(zhì)量</b>、單芯片數(shù)字視頻解碼器<b class='flag-5'>數(shù)據(jù)</b>表

    京東方華燦光電獲評國家級綠色工廠,助力行業(yè)高質(zhì)量發(fā)展

    “綠色發(fā)展是高質(zhì)量發(fā)展的底色,新質(zhì)生產(chǎn)力本身就是綠色生產(chǎn)力”。日前,根據(jù)工業(yè)和信息化部公布的2023年度綠色制造名單所示,京東方華燦光電(浙江)有限公司獲評國家級綠色工廠。綠色發(fā)展,正成為京東方華燦高質(zhì)量發(fā)展新的底色。
    的頭像 發(fā)表于 04-10 11:04 ?594次閱讀

    北斗芯片產(chǎn)業(yè)的高質(zhì)量發(fā)展之路

    高質(zhì)量發(fā)展是全面建設(shè)社會主義現(xiàn)代化國家的首要任務(wù)”,二十大報告中對高質(zhì)量發(fā)展有著明確的論斷和要求。在2023年的全國兩會中還指出,加快實現(xiàn)高水平科技自立自強,是推動高質(zhì)量發(fā)展的必由之路。中國衛(wèi)星
    的頭像 發(fā)表于 03-15 14:03 ?321次閱讀
    北斗芯片產(chǎn)業(yè)的<b class='flag-5'>高質(zhì)量</b>發(fā)展之路

    穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級?高質(zhì)量發(fā)展 | 聯(lián)誠發(fā)高質(zhì)量發(fā)展工作推進(jìn)會議召開

    2月21日下午,聯(lián)誠發(fā)LCF以“穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級?高質(zhì)量發(fā)展”為主題的企業(yè)高質(zhì)量發(fā)展工作推進(jìn)大會在聯(lián)誠發(fā)深圳總部隆重召開。擂起奮進(jìn)催征的戰(zhàn)鼓,爭分奪秒搶抓寶貴春光,明確企業(yè)重點目標(biāo)任務(wù),全力以赴
    的頭像 發(fā)表于 02-22 11:33 ?409次閱讀
    穩(wěn)中創(chuàng)新?產(chǎn)業(yè)升級?<b class='flag-5'>高質(zhì)量</b>發(fā)展 | 聯(lián)誠發(fā)<b class='flag-5'>高質(zhì)量</b>發(fā)展工作推進(jìn)會議召開

    捷易科技出席廣東省韶關(guān)市高質(zhì)量發(fā)展大會

    ABSTRACT摘要2月19日,2024年韶關(guān)市高質(zhì)量發(fā)展招商大會在韶關(guān)舉行,來自政府、科技、企業(yè)各界專家代表共同探討韶關(guān)高質(zhì)量發(fā)展。捷易科技總經(jīng)理韓運恒出席大會。JAEALOT2024年2月19日
    的頭像 發(fā)表于 02-22 08:25 ?405次閱讀
    捷易科技出席廣東省韶關(guān)市<b class='flag-5'>高質(zhì)量</b>發(fā)展大會

    商湯科技與庫醇科技達(dá)成合作 為垂域大模型構(gòu)建高質(zhì)量大規(guī)模的領(lǐng)域微調(diào)數(shù)據(jù)

    數(shù)字化轉(zhuǎn)型,為垂域大模型構(gòu)建高質(zhì)量大規(guī)模的領(lǐng)域微調(diào)數(shù)據(jù)。 ? 本次合作將基于商湯通用大模型進(jìn)行二次開發(fā),給模型注入領(lǐng)域知識, 訓(xùn)練一個專門根
    的頭像 發(fā)表于 01-10 09:46 ?642次閱讀
    商湯科技與庫醇科技達(dá)成合作 為垂域大<b class='flag-5'>模型</b>構(gòu)建<b class='flag-5'>高質(zhì)量</b>大規(guī)模的領(lǐng)域微調(diào)<b class='flag-5'>數(shù)據(jù)</b>

    畢馬威:2023年人工智能全域變革圖景展望

    模型的訓(xùn)練需要大量的高質(zhì)量數(shù)據(jù),但是目前在數(shù)據(jù)質(zhì)量方面還存在一定的問題,包括數(shù)據(jù)噪聲、數(shù)據(jù)缺失
    的頭像 發(fā)表于 01-04 16:02 ?580次閱讀
    畢馬威:2023年人工智能全域變革圖景展望

    信雅達(dá)入選《2023高質(zhì)量數(shù)字化轉(zhuǎn)型產(chǎn)品及服務(wù)全景圖》

    為促進(jìn)數(shù)字化轉(zhuǎn)型相關(guān)產(chǎn)業(yè)發(fā)展,助力產(chǎn)業(yè)需求側(cè)企業(yè)快速完成數(shù)字化轉(zhuǎn)型,中國信通院“鑄基計劃”開展了《2023高質(zhì)量數(shù)字化轉(zhuǎn)型產(chǎn)品及服務(wù)全景圖》編制工作,收錄國內(nèi)數(shù)字化轉(zhuǎn)型領(lǐng)域具有突出市場表現(xiàn)和商業(yè)價值
    的頭像 發(fā)表于 12-15 16:59 ?278次閱讀

    雙目測寬儀高質(zhì)量生產(chǎn)利器 測寬儀價格

    光,它能做到無損檢測,實時監(jiān)測報警,數(shù)據(jù)存儲,數(shù)據(jù)分析,是為軋鋼工作人員提供重要指導(dǎo)依據(jù)的設(shè)備,是高質(zhì)量生產(chǎn)的利器。
    發(fā)表于 12-04 17:10

    卓越領(lǐng)航!廣和通獲評“2023高質(zhì)量發(fā)展領(lǐng)軍企業(yè)”

    ,廣和通榮獲“2023高質(zhì)量發(fā)展領(lǐng)軍企業(yè)”! 該榜單由深圳市企業(yè)高質(zhì)量發(fā)展促進(jìn)會聯(lián)合哈爾濱工業(yè)大學(xué)(深圳)深圳高質(zhì)量發(fā)展與新結(jié)構(gòu)研究院評選發(fā)布,旨在以科學(xué)
    的頭像 發(fā)表于 11-29 18:00 ?443次閱讀
    卓越領(lǐng)航!廣和通獲評“2023<b class='flag-5'>高質(zhì)量</b>發(fā)展領(lǐng)軍企業(yè)”

    研華羅煥城受邀談“大模型時代數(shù)字化轉(zhuǎn)型的機遇與挑戰(zhàn)”

    無論談大模型還是數(shù)字化,其實都離不開數(shù)據(jù)。高質(zhì)量數(shù)據(jù)是支撐大模型的關(guān)鍵,只有高質(zhì)量數(shù)據(jù)才能更好
    的頭像 發(fā)表于 11-27 17:35 ?757次閱讀
    研華羅煥城受邀談“大<b class='flag-5'>模型</b>時代數(shù)字化轉(zhuǎn)型的機遇與挑戰(zhàn)”

    高質(zhì)量LTE網(wǎng)絡(luò)改變傳統(tǒng)天線技術(shù)

    電子發(fā)燒友網(wǎng)站提供《高質(zhì)量LTE網(wǎng)絡(luò)改變傳統(tǒng)天線技術(shù).pdf》資料免費下載
    發(fā)表于 11-10 15:25 ?0次下載
    <b class='flag-5'>高質(zhì)量</b>LTE網(wǎng)絡(luò)改變傳統(tǒng)天線技術(shù)