0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PyTorch教程-16.6. 針對序列級(jí)和令牌級(jí)應(yīng)用程序微調(diào) BERT

jf_pJlTbmA9 ? 來源:PyTorch ? 作者:PyTorch ? 2023-06-05 15:44 ? 次閱讀

在本章前面的章節(jié)中,我們?yōu)樽匀徽Z言處理應(yīng)用設(shè)計(jì)了不同的模型,例如基于 RNNs、CNNs、attention 和 MLPs。當(dāng)存在空間或時(shí)間限制時(shí),這些模型很有用,但是,為每個(gè)自然語言處理任務(wù)制作一個(gè)特定模型實(shí)際上是不可行的。在 15.8 節(jié)中,我們介紹了一種預(yù)訓(xùn)練模型 BERT,它需要對各種自然語言處理任務(wù)進(jìn)行最少的架構(gòu)更改。一方面,在提出建議時(shí),BERT 改進(jìn)了各種自然語言處理任務(wù)的最新技術(shù)水平。另一方面,如 第 15.10 節(jié)所述,原始 BERT 模型的兩個(gè)版本帶有 1.1 億和 3.4 億個(gè)參數(shù)。因此,當(dāng)有足夠的計(jì)算資源時(shí),我們可以考慮為下游自然語言處理應(yīng)用程序微調(diào) BERT。

在下文中,我們將自然語言處理應(yīng)用程序的一個(gè)子集概括為序列級(jí)和標(biāo)記級(jí)。在序列層面,我們介紹了如何在單個(gè)文本分類和文本對分類或回歸中將文本輸入的 BERT 表示轉(zhuǎn)換為輸出標(biāo)簽。在令牌級(jí)別,我們將簡要介紹文本標(biāo)記和問答等新應(yīng)用,并闡明 BERT 如何表示其輸入并轉(zhuǎn)換為輸出標(biāo)簽。在微調(diào)期間,BERT 在不同應(yīng)用程序中所需的“最小架構(gòu)更改”是額外的全連接層。在下游應(yīng)用程序的監(jiān)督學(xué)習(xí)期間,額外層的參數(shù)是從頭開始學(xué)習(xí)的,而預(yù)訓(xùn)練 BERT 模型中的所有參數(shù)都經(jīng)過微調(diào)。

16.6.1。單一文本分類

單文本分類以單個(gè)文本序列作為輸入并輸出其分類結(jié)果。除了我們在本章中學(xué)習(xí)的情感分析之外,語言可接受性語料庫(CoLA)也是一個(gè)用于單一文本分類的數(shù)據(jù)集,判斷給定的句子是否在語法上可以接受(Warstadt et al . , 2019)。例如,“我應(yīng)該學(xué)習(xí)?!?是可以接受的,但“我應(yīng)該學(xué)習(xí)”。不是。

pYYBAGR9PNKAOMgOAAIY3BeUoOE245.svg

圖 16.6.1針對單一文本分類應(yīng)用微調(diào) BERT,例如情感分析和測試語言可接受性。假設(shè)輸入的單個(gè)文本有六個(gè)標(biāo)記。

15.8 節(jié)描述了 BERT 的輸入表示。BERT 輸入序列明確表示單個(gè)文本和文本對,其中特殊分類標(biāo)記“”用于序列分類,特殊分類標(biāo)記“”標(biāo)記單個(gè)文本的結(jié)尾或分隔一對文本. 如圖 16.6.1所示 ,在單文本分類應(yīng)用中,特殊分類標(biāo)記“”的 BERT 表示對整個(gè)輸入文本序列的信息進(jìn)行編碼。作為輸入單個(gè)文本的表示,它將被送入一個(gè)由全連接(密集)層組成的小型 MLP,以輸出所有離散標(biāo)簽值的分布。

16.6.2。文本對分類或回歸

我們還在本章中研究了自然語言推理。屬于文本對分類,對一對文本進(jìn)行分類的一類應(yīng)用。

以一對文本作為輸入但輸出連續(xù)值, 語義文本相似度是一種流行的文本對回歸任務(wù)。該任務(wù)測量句子的語義相似性。例如,在語義文本相似性基準(zhǔn)數(shù)據(jù)集中,一對句子的相似性得分是從 0(無意義重疊)到 5(意義等同)的有序尺度(Cer等人,2017 年)。目標(biāo)是預(yù)測這些分?jǐn)?shù)。來自語義文本相似性基準(zhǔn)數(shù)據(jù)集的示例包括(句子 1、句子 2、相似性分?jǐn)?shù)):

“一架飛機(jī)正在起飛?!?,“一架飛機(jī)正在起飛?!?,5.000;

“一個(gè)女人在吃東西。”,“一個(gè)女人在吃肉。”,3.000;

“一個(gè)女人在跳舞?!?,“一個(gè)男人在說話?!?,0.000。

pYYBAGR9PNWACEqbAAJBAxhpDWo066.svg

圖 16.6.2為文本對分類或回歸應(yīng)用微調(diào) BERT,例如自然語言推理和語義文本相似性。假設(shè)輸入文本對有兩個(gè)和三個(gè)標(biāo)記。

與 圖16.6.1中的單一文本分類相比,圖16.6.2中用于文本對分類的微調(diào)BERT在輸入表示上有所不同。對于語義文本相似性等文本對回歸任務(wù),可以應(yīng)用微不足道的更改,例如輸出連續(xù)的標(biāo)簽值并使用均方損失:它們在回歸中很常見。

16.6.3。文本標(biāo)記

現(xiàn)在讓我們考慮標(biāo)記級(jí)任務(wù),例如文本標(biāo)記,其中為每個(gè)標(biāo)記分配一個(gè)標(biāo)簽。在文本標(biāo)注任務(wù)中,詞性標(biāo)注根據(jù)詞在句子中的作用為每個(gè)詞分配一個(gè)詞性標(biāo)簽(例如,形容詞和限定詞)。例如,根據(jù) Penn Treebank II 標(biāo)簽集,句子“John Smith's car is new”應(yīng)該被標(biāo)記為“NNP(名詞,專有單數(shù))NNP POS(所有格結(jié)尾)NN(名詞,單數(shù)或質(zhì)量)VB (動(dòng)詞,基本形式)JJ(形容詞)”。

pYYBAGR9PNmAPTV9AAOwL_0zfyY715.svg

圖 16.6.3為文本標(biāo)記應(yīng)用微調(diào) BERT,例如詞性標(biāo)記。假設(shè)輸入的單個(gè)文本有六個(gè)標(biāo)記。

文本標(biāo)記應(yīng)用程序的微調(diào) BERT 如圖 16.6.3所示。與 圖 16.6.1相比,唯一的區(qū)別在于在文本標(biāo)記中,輸入文本的每個(gè)標(biāo)記的 BERT 表示被饋送到相同的額外全連接層以輸出標(biāo)記的標(biāo)簽,例如部分 -詞性標(biāo)簽。

16.6.4。問答

問答作為另一個(gè)token級(jí)的應(yīng)用,體現(xiàn)了閱讀理解能力。例如,斯坦福問答數(shù)據(jù)集 (SQuAD v1.1) 由閱讀文章和問題組成,其中每個(gè)問題的答案只是與問題相關(guān)的文章中的一段文本(文本跨度)(Rajpurkar 等人,2008 年)。 , 2016 年). 為了解釋,請考慮一段話“一些專家報(bào)告說口罩的功效尚無定論。然而,口罩制造商堅(jiān)稱,他們的產(chǎn)品,如 N95 口罩,可以抵御病毒?!?以及“誰說N95口罩可以防病毒?”的問題。答案應(yīng)該是段落中的文本跨度“面具制造商”。因此,SQuAD v1.1 的目標(biāo)是在給定一對問題和段落的情況下預(yù)測段落中文本跨度的開始和結(jié)束。

poYBAGR9PNyAASIyAANglldmxo0985.svg

圖 16.6.4為問答微調(diào) BERT。假設(shè)輸入文本對有兩個(gè)和三個(gè)標(biāo)記。

為了微調(diào) BERT 以進(jìn)行問答,問題和段落分別打包為 BERT 輸入中的第一和第二文本序列。為了預(yù)測文本跨度的開始位置,相同的附加全連接層將從位置通道轉(zhuǎn)換任何標(biāo)記的 BERT 表示i進(jìn)入標(biāo)量分?jǐn)?shù) si. 這樣所有passage token的得分通過softmax操作進(jìn)一步轉(zhuǎn)化為概率分布,使得每個(gè)token位置i在段落中分配了一個(gè)概率pi作為文本跨度的開始。預(yù)測文本跨度的結(jié)束與上述相同,只是其附加的全連接層中的參數(shù)獨(dú)立于預(yù)測開始的參數(shù)。預(yù)測結(jié)束時(shí),位置的任何通道令牌i由相同的全連接層轉(zhuǎn)換為標(biāo)量分?jǐn)?shù)ei. 圖 16.6.4描述了用于問答的微調(diào) BERT。

對于問答,監(jiān)督學(xué)習(xí)的訓(xùn)練目標(biāo)與最大化地面實(shí)況開始和結(jié)束位置的對數(shù)似然一樣簡單。在預(yù)測跨度時(shí),我們可以計(jì)算分?jǐn)?shù)si+ej對于位置的有效跨度i定位j(i≤j), 并輸出得分最高的跨度。

16.6.5。概括

BERT 需要對序列級(jí)和令牌級(jí)自然語言處理應(yīng)用進(jìn)行最小的架構(gòu)更改(額外的全連接層),例如單個(gè)文本分類(例如,情感分析和測試語言可接受性)、文本對分類或回歸(例如,自然語言推理和語義文本相似性)、文本標(biāo)記(例如,詞性標(biāo)記)和問題回答。

在下游應(yīng)用程序的監(jiān)督學(xué)習(xí)期間,額外層的參數(shù)是從頭開始學(xué)習(xí)的,而預(yù)訓(xùn)練 BERT 模型中的所有參數(shù)都經(jīng)過微調(diào)。

16.6.6。練習(xí)

讓我們?yōu)樾侣勎恼略O(shè)計(jì)一個(gè)搜索引算法。當(dāng)系統(tǒng)收到查詢(例如,“冠狀病毒爆發(fā)期間的石油工業(yè)”)時(shí),它應(yīng)該返回與查詢最相關(guān)的新聞文章的排名列表。假設(shè)我們有大量新聞文章和大量查詢。為了簡化問題,假設(shè)已為每個(gè)查詢標(biāo)記了最相關(guān)的文章。我們?nèi)绾?在算法設(shè)計(jì)中應(yīng)用負(fù)采樣(參見第 15.2.1 節(jié))和 BERT?

我們?nèi)绾卫?BERT 訓(xùn)練語言模型?

我們可以在機(jī)器翻譯中利用 BERT 嗎?

Discussions

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    591

    瀏覽量

    13468
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    795

    瀏覽量

    13088
收藏 人收藏

    評論

    相關(guān)推薦

    PyTorch教程-16.7。自然語言推理:微調(diào) BERT

    )。現(xiàn)在我們通過微調(diào) BERT 重新審視這個(gè)任務(wù)。正如16.6 節(jié)所討論的 ,自然語言推理是一個(gè)序列級(jí)文本對分類問題,
    的頭像 發(fā)表于 06-05 15:44 ?1184次閱讀
    <b class='flag-5'>PyTorch</b>教程-16.7。自然語言推理:<b class='flag-5'>微調(diào)</b> <b class='flag-5'>BERT</b>

    封裝級(jí)微調(diào)與其它失調(diào)校正法的比較

    作者:Art Kay德州儀器 封裝級(jí)微調(diào)是一種半導(dǎo)體制造方法,可實(shí)現(xiàn)高度精確的放大器及其它線性電路。放大器精確度的主要測量指標(biāo)是其輸入失調(diào)電壓。輸入失調(diào)電壓是以微伏為單位的放大器輸入端誤差電壓。該
    發(fā)表于 09-18 07:56

    基于單片機(jī)的綜合應(yīng)用程序數(shù)碼管【C語言】595級(jí)聯(lián)控制數(shù)碼管

    基于單片機(jī)的綜合應(yīng)用程序數(shù)碼管【C語言】595級(jí)聯(lián)控制數(shù)碼管
    發(fā)表于 01-06 14:18 ?11次下載

    BERT模型的PyTorch實(shí)現(xiàn)

    BertModel是一個(gè)基本的BERT Transformer模型,包含一個(gè)summed token、位置和序列嵌入層,然后是一系列相同的self-attention blocks(BERT-base是12個(gè)blocks,
    的頭像 發(fā)表于 11-13 09:12 ?1.4w次閱讀

    關(guān)閉WIN10升級(jí)工具應(yīng)用程序免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是關(guān)閉WIN10升級(jí)工具應(yīng)用程序免費(fèi)下載。
    發(fā)表于 01-22 08:00 ?2次下載
    關(guān)閉WIN10升<b class='flag-5'>級(jí)</b>工具<b class='flag-5'>應(yīng)用程序</b>免費(fèi)下載

    allegro free viewer 16.6應(yīng)用程序免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是allegro free viewer 16.6應(yīng)用程序免費(fèi)下載免費(fèi)使用,不需要破解,可以看brd文件快速瀏覽PCB的軟件工具。
    發(fā)表于 04-28 08:00 ?249次下載
    allegro free viewer <b class='flag-5'>16.6</b><b class='flag-5'>應(yīng)用程序</b>免費(fèi)下載

    如何導(dǎo)出硬件平臺(tái)并啟動(dòng)SDK開發(fā)應(yīng)用程序及板級(jí)支持包

    本文介紹如何導(dǎo)出硬件平臺(tái), 并啟動(dòng)SDK開發(fā)應(yīng)用程序及板級(jí)支持包(BSP)。
    的頭像 發(fā)表于 02-08 10:56 ?2352次閱讀
    如何導(dǎo)出硬件平臺(tái)并啟動(dòng)SDK開發(fā)<b class='flag-5'>應(yīng)用程序</b>及板<b class='flag-5'>級(jí)</b>支持包

    文本分類任務(wù)的Bert微調(diào)trick大全

    bert等預(yù)訓(xùn)練模型煉丹一定程度的時(shí)候很難有所提升,分?jǐn)?shù)達(dá)到了瓶頸,這個(gè)時(shí)候需要針對具體的任務(wù)如何進(jìn)行微調(diào)使用,就涉及到了考經(jīng)驗(yàn)積累的tricks。 這篇論文做了非常大的充足實(shí)驗(yàn),為我們提供了寶貴的
    的頭像 發(fā)表于 07-18 09:49 ?2430次閱讀

    PyTorch教程9.2之將原始文本轉(zhuǎn)換為序列數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程9.2之將原始文本轉(zhuǎn)換為序列數(shù)據(jù).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 09:57 ?0次下載
    <b class='flag-5'>PyTorch</b>教程9.2之將原始文本轉(zhuǎn)換為<b class='flag-5'>序列</b>數(shù)據(jù)

    PyTorch教程14.2之微調(diào)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.2之微調(diào).pdf》資料免費(fèi)下載
    發(fā)表于 06-05 14:42 ?0次下載
    <b class='flag-5'>PyTorch</b>教程14.2之<b class='flag-5'>微調(diào)</b>

    PyTorch教程15.9之預(yù)訓(xùn)練BERT的數(shù)據(jù)集

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.9之預(yù)訓(xùn)練BERT的數(shù)據(jù)集.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 11:06 ?0次下載
    <b class='flag-5'>PyTorch</b>教程15.9之預(yù)訓(xùn)練<b class='flag-5'>BERT</b>的數(shù)據(jù)集

    PyTorch教程15.10之預(yù)訓(xùn)練BERT

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程15.10之預(yù)訓(xùn)練BERT.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:53 ?0次下載
    <b class='flag-5'>PyTorch</b>教程15.10之預(yù)訓(xùn)練<b class='flag-5'>BERT</b>

    PyTorch教程16.6針對序列級(jí)令牌級(jí)應(yīng)用程序微調(diào)BERT

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.6針對序列級(jí)令牌
    發(fā)表于 06-05 10:51 ?0次下載
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>16.6</b>之<b class='flag-5'>針對</b><b class='flag-5'>序列</b><b class='flag-5'>級(jí)</b>和<b class='flag-5'>令牌</b><b class='flag-5'>級(jí)</b><b class='flag-5'>應(yīng)用程序</b><b class='flag-5'>微調(diào)</b><b class='flag-5'>BERT</b>

    PyTorch教程16.7之自然語言推理:微調(diào)BERT

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.7之自然語言推理:微調(diào)BERT.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 10:52 ?0次下載
    <b class='flag-5'>PyTorch</b>教程16.7之自然語言推理:<b class='flag-5'>微調(diào)</b><b class='flag-5'>BERT</b>

    PyTorch教程21.7之序列感知推薦系統(tǒng)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程21.7之序列感知推薦系統(tǒng).pdf》資料免費(fèi)下載
    發(fā)表于 06-06 09:31 ?0次下載
    <b class='flag-5'>PyTorch</b>教程21.7之<b class='flag-5'>序列</b>感知推薦系統(tǒng)