0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

深度學(xué)習(xí)自然語言處理 ? 來源:SUFE AI Lab ? 2023-03-03 11:20 ? 次閱讀

引言:

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個(gè)字符的語料經(jīng)過預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對(duì)于一個(gè)預(yù)訓(xùn)練模型,對(duì)于不同量級(jí)下的預(yù)訓(xùn)練數(shù)據(jù)能夠提取到的知識(shí)和能力有何不同?是否可以在更少量數(shù)據(jù)上實(shí)現(xiàn)相似的能力與知識(shí)。本文基于不同量級(jí)預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析了在分類探知(Classififier Probe)、信息論探查(info-theoretic probing)、無監(jiān)督相對(duì)可接受性判斷(unsupervised relative acceptability judgment,)和自然語言理解任務(wù)上的微調(diào)(Fine-tuning on NLU Tasks)等任務(wù)上的表現(xiàn),用于衡量模型在語言能力上的差異。

背景介紹:

Probe

BERT類模型的工作模式簡單,但取得的效果也是極佳的,其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個(gè)預(yù)訓(xùn)練模型的究竟學(xué)習(xí)到了什么樣的語言學(xué)文本知識(shí)呢?Probe就是為了測(cè)試模型在語言學(xué)特征角度上的各種能力而設(shè)計(jì)的任務(wù)。以下為本文涉及到的兩種Probe方式:

Edge Probing

Edge Probing(以下簡稱 E-Probe)簡單來說,就是對(duì)于一個(gè)已經(jīng)預(yù)訓(xùn)練好的預(yù)訓(xùn)練模型,E-Probe就是一個(gè)插入在中間層的淺層神經(jīng)網(wǎng)絡(luò),通常為一個(gè)分類器層。示意圖如下:

458d8108-b91e-11ed-bfe3-dac502259ad0.png

對(duì)于每一個(gè)輔助任務(wù),分類器的輸入可能都不一樣。比如在實(shí)體標(biāo)注輔助任務(wù)中,輸入可能為該層某個(gè)區(qū)間的輸出,對(duì)于詞性標(biāo)注輔助任務(wù),輸入即為該層中的單個(gè)輸出。在具體的輔助任務(wù)訓(xùn)練中,原預(yù)訓(xùn)練模型的參數(shù)是不參與更新的,只更新該分類頭的參數(shù)。同時(shí)由于各個(gè)層均可以用于輔助任務(wù)的訓(xùn)練,因此使用到了一個(gè)可學(xué)習(xí)的權(quán)重向量來對(duì)于某個(gè)token在所有層對(duì)應(yīng)的輸出向量來作為最終的表示。最終得到的這個(gè)權(quán)重也可以用于衡量該輔助任務(wù)所需要的信息各個(gè)層之間的占比情況。E-Probe提供了一種更為直觀的方式衡量模型對(duì)于語言學(xué)特征的表征能力。

Probing with MDL

Probing with MDL(以下簡稱 M-Probe)。M-Probe主要就E-Probe中存在的各項(xiàng)問題進(jìn)行了討論,并提出了基于了最小描述長度(minimum description length,MDL)的Probe方法。相較于E-Probe,M-Probe的方法就沒有那么直觀。M-Probe使用了數(shù)據(jù)編碼這一概念,替換了以往E-Probe中預(yù)測(cè)這一個(gè)行為。對(duì)應(yīng)在模型上的改變即為將分類頭轉(zhuǎn)化為了一個(gè)概率模型,然后根據(jù)香農(nóng)編碼,即可得到無損轉(zhuǎn)換編碼時(shí)的最小編碼長度。當(dāng)下對(duì)于輔助任務(wù)上的表現(xiàn)不再是根據(jù)最終輔助任務(wù)上的Accuracy等指標(biāo)來實(shí)現(xiàn)的,而是根據(jù)對(duì)于數(shù)據(jù)編碼后的編碼長度來進(jìn)行比較實(shí)現(xiàn)的。本質(zhì)原理為,對(duì)于輔助任務(wù)所需要的特征能夠更好表達(dá)的模型,具有對(duì)于數(shù)據(jù)分布上更好的規(guī)律分布,那么對(duì)于編碼來說則可以使用更短的編碼長度來實(shí)現(xiàn)對(duì)于數(shù)據(jù)的編碼??梢酝ㄟ^下圖釋義來表示:

45b1b640-b91e-11ed-bfe3-dac502259ad0.png

接下來將會(huì)介紹關(guān)于本文使用到的M-Probe的線上編碼版本,E-Probe存在的一個(gè)問題就是只有在減少分類器訓(xùn)練數(shù)據(jù)量時(shí),他們才能看到指標(biāo)的合理差異。即對(duì)于數(shù)據(jù)量上的差距也會(huì)導(dǎo)致最終效果的不同,因此采用了一個(gè)線上編碼版本的M-Probe。流程如下圖所示:

45c95520-b91e-11ed-bfe3-dac502259ad0.png

首先將數(shù)據(jù)分割為不同大小的部分,對(duì)于第一次兩個(gè)模型訓(xùn)練的輸入均為未壓縮的版本,在后續(xù)的學(xué)習(xí)中B的標(biāo)簽概率分布均為A模型編碼后的結(jié)果。最終直到整個(gè)數(shù)據(jù)集都被傳遞后,得到的編碼長度可以被下式衡量

上式的前半部分為數(shù)據(jù)中第一部分對(duì)于共K個(gè)類別進(jìn)行編碼所需要的編碼長度,后面的部分為各個(gè)數(shù)據(jù)團(tuán)根據(jù)香農(nóng)編碼得到的對(duì)于數(shù)據(jù)進(jìn)行編碼所需要的編碼長度。

綜上M-Probe實(shí)現(xiàn)了一個(gè)基于MDL的Probe方式,最終能夠通過編碼長度來衡量預(yù)訓(xùn)練模型對(duì)于各個(gè)語言學(xué)特征的提取能力。

實(shí)驗(yàn)設(shè)計(jì)

本文主要使用以上的對(duì)于模型表征能力測(cè)評(píng)的方法,對(duì)于分別在1M、10M、100M、1B和30B字符量的預(yù)訓(xùn)練數(shù)據(jù)集上得到的RoBERTa模型進(jìn)行測(cè)試。并對(duì)于結(jié)果進(jìn)行了分析。

Classififier Probing

本實(shí)驗(yàn)主要基于E-Probe的方法,分別對(duì)于詞性標(biāo)注(Part-of-Speech),依存句法分析(Dependencies),成分句法分析(Constituents),關(guān)系抽?。≧elations),語義角色標(biāo)注(SRL對(duì)應(yīng)下圖中的SRL、Sem. Proto Role 1 、Sem. Proto Role 2),共指消解(coreference resolution,對(duì)應(yīng)下表中的OntoNotes coref. )命名實(shí)體識(shí)別(Entities)和常識(shí)推斷(Winograd coref.)等輔助任務(wù)進(jìn)行了測(cè)評(píng)。結(jié)果如下:

45faf0bc-b91e-11ed-bfe3-dac502259ad0.png

其中所有的數(shù)據(jù)結(jié)果均使用了Min-max歸一化,其中None對(duì)應(yīng)的為隨機(jī)初始化的RoBERTa模型。并根據(jù)以上的結(jié)果進(jìn)行了匯總,分別從句法、語義和常識(shí)推斷三個(gè)方面來具體衡量各個(gè)體量數(shù)據(jù)預(yù)訓(xùn)練下的效果。

46123d44-b91e-11ed-bfe3-dac502259ad0.png

由以上的實(shí)驗(yàn)可以得出結(jié)論:大多數(shù)的句法與語法特征的學(xué)習(xí)在1B以下的字符數(shù)量訓(xùn)練集完成,大部分任務(wù)的表征能力在1M附近達(dá)到最快的學(xué)習(xí)速度,而其中較為不同的是知識(shí)推斷任務(wù),本文認(rèn)為是由于關(guān)于知識(shí)內(nèi)容的學(xué)習(xí)需要更為龐大的訓(xùn)練數(shù)據(jù)。同時(shí),在100M量級(jí)上的RoBERTa模型的關(guān)于語義與句法表征能力已經(jīng)非常接近30B量級(jí)下的模型了。

Minimum Description Length Probing

本實(shí)驗(yàn)是基于M-Probe的方法,在同樣的數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)。

462cf580-b91e-11ed-bfe3-dac502259ad0.png

上圖中Winograd的效果差距可能是由于在實(shí)驗(yàn)中基于M-Probe的方法沒辦法很好收斂。同樣的根據(jù)實(shí)驗(yàn)結(jié)果,整體長度的下降也符合M-Probe的思想,包含更多知識(shí)的嵌入會(huì)使得任務(wù)具有更強(qiáng)的規(guī)律性更容易被編碼。在該試驗(yàn)中,大部分的任務(wù)在100M上的效果也已經(jīng)很接近30B的效果了。

Unsupervised Grammaticality Judgement

該任務(wù)主要是基于BLiMP基準(zhǔn)集來測(cè)試模型,BLiMP主要包含了67個(gè)子數(shù)據(jù)集,每一種數(shù)據(jù)集中包含了1000個(gè)句子對(duì),每個(gè)句子對(duì)之間的差距只有一個(gè)編輯距離,但這些句子在語法是否正確上缺失截然相反的,需要模型來識(shí)別。這67個(gè)子數(shù)據(jù)集分別對(duì)應(yīng)了英語語法中的一種特定的表述、句法或者語義現(xiàn)象。對(duì)對(duì)于該任務(wù),使用的方法為,使用MLM的方法,對(duì)于該不同位置上的字符對(duì)應(yīng)在兩個(gè)不同詞上的概率來衡量整體模型對(duì)于該自然語言現(xiàn)象的理解能力。結(jié)果如下:

4651f89e-b91e-11ed-bfe3-dac502259ad0.png

和上述兩個(gè)任務(wù)中表現(xiàn)的一致的是,模型基本上在1M與100M的量級(jí)間上的表現(xiàn)快速增長。對(duì)于大部分的句子對(duì)任務(wù),100M量級(jí)下的模型基本上與人類表現(xiàn)只相差9個(gè)百分點(diǎn),而額外的大量數(shù)據(jù)只能提高6個(gè)百分點(diǎn),對(duì)于一些潛在的語法現(xiàn)象可能需要更大量級(jí)的數(shù)據(jù)。同時(shí)對(duì)于不同任務(wù)之間也進(jìn)行比較,對(duì)于一些頻率高的現(xiàn)象往往在1M到10M就能達(dá)到一個(gè)很好的效果,而對(duì)于頻率較低的現(xiàn)象,往往需要更大量級(jí)的模型才能學(xué)習(xí)到很好的表征。

Unsupervised Language Model Knowledge Probe

本實(shí)驗(yàn)主要基于LAMA數(shù)據(jù)集上的實(shí)驗(yàn)表現(xiàn),該數(shù)據(jù)集主要由五萬個(gè)完型填空句子得到,這些語句主要為針對(duì)于事實(shí)知識(shí)問題的填空問題。

46778abe-b91e-11ed-bfe3-dac502259ad0.png

可以看到針對(duì)于事實(shí)知識(shí)性的測(cè)試實(shí)驗(yàn)中,并沒有一個(gè)很好的可以總結(jié)的瓶頸規(guī)律。其中在ConceptNet任務(wù)中這一個(gè)概念性的填空中的表現(xiàn)可以很好的解釋W(xué)inograd coref.中1B到30B的大幅度提升。對(duì)于知識(shí)類別的表征與學(xué)習(xí)能力可能需要更多的數(shù)據(jù)或者預(yù)訓(xùn)練任務(wù)來進(jìn)行提升。

Fine-tuning on NLU Tasks

本實(shí)驗(yàn)主要基于SuperGLUE這一分類基準(zhǔn)數(shù)據(jù)集來測(cè)試在真正的下游任務(wù)上,不同量級(jí)模型的表現(xiàn)到底有什么區(qū)別。

468d9fd4-b91e-11ed-bfe3-dac502259ad0.png

可以看到在下游NLU任務(wù)上,即是在30B的量級(jí)上也并沒有出現(xiàn)非常顯著的飽和現(xiàn)象,在一些關(guān)鍵的NLU任務(wù)上提供更多的預(yù)訓(xùn)練數(shù)據(jù)可能會(huì)帶來更大的提升。

總結(jié)與討論

本文主要使用了基于Probe的方法來對(duì)模型在不同量級(jí)數(shù)據(jù)下的表征能力進(jìn)行測(cè)試。得出了在10M到100M量級(jí)的數(shù)據(jù)中會(huì)達(dá)到對(duì)于語法和語義表征能力的飽和并和人類的能力想當(dāng),但對(duì)于事實(shí)類的知識(shí)需要更多的預(yù)訓(xùn)練數(shù)據(jù)才能達(dá)到。對(duì)于下游的NLU任務(wù),預(yù)訓(xùn)練數(shù)據(jù)量的提升往往會(huì)帶來較好的性能提升,同時(shí)在目前的30B的情況下仍未達(dá)到飽和。

對(duì)于本文中NLU仍未達(dá)到飽和的原因,文中的解決方案是提供更多的預(yù)訓(xùn)練數(shù)據(jù)這樣的方式,但這樣的方式往往是沒有目的性的,本文后續(xù)對(duì)于該點(diǎn)的討論也集中于無法將對(duì)應(yīng)的語法或者語義性的表征能力與對(duì)應(yīng)的NLU任務(wù)聯(lián)系上去,對(duì)于推動(dòng)NLU任務(wù)的提升的是什么仍然是一個(gè)未解決的問題。但對(duì)于此現(xiàn)象,個(gè)人覺得可能和Unsupervised Grammaticality Judgement這一節(jié)中的類似,因?yàn)殚L尾效應(yīng)的存在,通過堆疊大量的預(yù)訓(xùn)練數(shù)據(jù)確實(shí)會(huì)引入更多的長尾效應(yīng)中20%尾巴的部分,即能夠提高NLU任務(wù)中未被覆蓋到的部分,但這樣的方式確實(shí)低效的,那么是否能夠找到一個(gè)更高效針對(duì)NLU任務(wù)的方法從龐大的預(yù)訓(xùn)練語料庫中找到這一和20%尾巴更相似的數(shù)據(jù)來構(gòu)建新的預(yù)訓(xùn)練語料庫呢?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4722

    瀏覽量

    100308
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    920

    瀏覽量

    54707
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3058

    瀏覽量

    48571
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于不同量級(jí)預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

    NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過數(shù)十億個(gè)字符的語料經(jīng)過預(yù)訓(xùn)練模型匯主導(dǎo)。那么對(duì)于一個(gè)預(yù)訓(xùn)練
    發(fā)表于 03-03 11:21 ?1725次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型預(yù)訓(xùn)練

    增長。DeepMind在相關(guān)論文中指出,模型大小訓(xùn)練Token數(shù)應(yīng)以相似速率增長,以確保最佳性能。因此,構(gòu)建與模型規(guī)模相匹配的預(yù)
    發(fā)表于 05-07 17:10

    為什么要使用預(yù)訓(xùn)練模型?8種優(yōu)秀預(yù)訓(xùn)練模型大盤點(diǎn)

    正如我們?cè)诒疚闹兴?,ULMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對(duì)預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),將其在WikiText-103數(shù)據(jù)集(維基百科的長期依賴語言建模
    的頭像 發(fā)表于 04-04 11:26 ?2.4w次閱讀
    為什么要使用<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>?8種優(yōu)秀<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>大盤點(diǎn)

    小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

    導(dǎo)讀:預(yù)訓(xùn)練模型在NLP大放異彩,并開啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時(shí)代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)雜性,以及工業(yè)應(yīng)用對(duì)推理性能的要求,大規(guī)模
    的頭像 發(fā)表于 12-31 10:17 ?2520次閱讀
    小米在<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>模型</b>的探索與優(yōu)化

    2021 OPPO開發(fā)者大會(huì):NLP預(yù)訓(xùn)練模型

    2021 OPPO開發(fā)者大會(huì):NLP預(yù)訓(xùn)練模型 2021 OPPO開發(fā)者大會(huì)上介紹了融合知識(shí)的NLP預(yù)訓(xùn)練
    的頭像 發(fā)表于 10-27 14:18 ?1685次閱讀
    2021 OPPO開發(fā)者大會(huì):NLP<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>模型</b>

    如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

    NLP中,預(yù)訓(xùn)練模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等
    的頭像 發(fā)表于 03-21 15:33 ?2130次閱讀

    Multilingual多語言預(yù)訓(xùn)練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練多語言模型,整體思路基于BERT,并提出了針對(duì)多語言
    的頭像 發(fā)表于 05-05 15:23 ?2883次閱讀

    一種基于亂序語言模型預(yù)訓(xùn)練模型-PERT

    由于亂序語言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測(cè)空間大小為輸入序列長度,使得計(jì)算效率高于掩碼語言模型
    的頭像 發(fā)表于 05-10 15:01 ?1461次閱讀

    利用視覺語言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語言處理以及計(jì)算機(jī)視覺領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高模型泛化性能的目的。該方法亦可以用于場(chǎng)景文本檢測(cè)當(dāng)中,如最早的使用ImageNet
    的頭像 發(fā)表于 08-08 15:33 ?1301次閱讀

    使用 NVIDIA TAO 工具套件和預(yù)訓(xùn)練模型加快 AI 開發(fā)

    可以訪問預(yù)訓(xùn)練模型的完整源代碼和模型權(quán)重。 該工具套件能夠高效訓(xùn)練視覺和對(duì)話式 AI 模型。由于
    的頭像 發(fā)表于 12-15 19:40 ?956次閱讀

    什么是預(yù)訓(xùn)練 AI 模型

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些
    的頭像 發(fā)表于 04-04 01:45 ?1359次閱讀

    什么是預(yù)訓(xùn)練AI模型

    預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些
    的頭像 發(fā)表于 05-25 17:10 ?944次閱讀

    PyTorch教程-15.9。預(yù)訓(xùn)練 BERT 的數(shù)據(jù)

    實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開筆記本 為了預(yù)訓(xùn)練第 15.8 節(jié)中實(shí)現(xiàn)的 BERT 模型,我們需要以理想的格式生成數(shù)據(jù)集,以促進(jìn)兩項(xiàng)
    的頭像 發(fā)表于 06-05 15:44 ?742次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)
    的頭像 發(fā)表于 07-03 18:20 ?1789次閱讀

    大語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?316次閱讀