0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀一下DeBERTa在BERT上有哪些改造

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2021-04-15 14:44 ? 次閱讀

DeBERTa刷新了GLUE的榜首,本文解讀一下DeBERTa在BERT上有哪些改造

DeBERTa對(duì)BERT的改造主要在三點(diǎn)

分散注意力機(jī)制

為了更充分利用相對(duì)位置信息,輸入的input embedding不再加入pos embedding, 而是input在經(jīng)過transformer編碼后,在encoder段與“decoder”端 通過相對(duì)位置計(jì)算分散注意力

增強(qiáng)解碼器(有點(diǎn)迷)

為了解決預(yù)訓(xùn)練和微調(diào)時(shí),因?yàn)槿蝿?wù)的不同而預(yù)訓(xùn)練和微調(diào)階段的gap,加入了一個(gè)增強(qiáng)decoder端,這個(gè)decoder并非transformer的decoder端(需要decoder端有輸入那種),只是直觀上起到了一個(gè)decoder作用

解碼器前接入了絕對(duì)位置embedding,避免只有相對(duì)位置而丟失了絕對(duì)位置embedding

其實(shí)本質(zhì)就是在原始BERT的倒數(shù)第二層transformer中間層插入了一個(gè)分散注意力計(jì)算

訓(xùn)練trick

訓(xùn)練時(shí)加入了一些數(shù)據(jù)擾動(dòng)

mask策略中不替換詞,變?yōu)樘鎿Q成詞的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力機(jī)制

motivation

BERT加入位置信息的方法是在輸入embedding中加入postion embedding, pos embedding與char embedding和segment embedding混在一起,這種早期就合并了位置信息在計(jì)算self-attention時(shí),表達(dá)能力受限,維護(hù)信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是將pos信息拆分出來,單獨(dú)編碼后去content 和自己求attention,增加計(jì)算 “位置-內(nèi)容” 和 “內(nèi)容-位置” 注意力的分散Disentangled Attention

Disentangled Attention計(jì)算方法

分散注意力機(jī)制首先在input中分離相對(duì)位置embedding,在原始char embedding+segment embedding經(jīng)過編碼成后,與相對(duì)位置計(jì)算attention,

即是內(nèi)容編碼,是相對(duì)的位置編碼, attention的計(jì)算中,融合了位置-位置,內(nèi)容-內(nèi)容,位置-內(nèi)容,內(nèi)容-位置

相對(duì)位置的計(jì)算

限制了相對(duì)距離,相距大于一個(gè)閾值時(shí)距離就無效了,此時(shí)距離設(shè)定為一個(gè)常數(shù),距離在有效范圍內(nèi)時(shí),用參數(shù)用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增強(qiáng)型解碼器

強(qiáng)行叫做解碼器

用 EMD( enhanced mask decoder) 來代替原 BERT 的 SoftMax 層預(yù)測(cè)遮蓋的 Token。因?yàn)槲覀冊(cè)诰{(diào)時(shí)一般會(huì)在 BERT 的輸出后接一個(gè)特定任務(wù)的 Decoder,但是在預(yù)訓(xùn)練時(shí)卻并沒有這個(gè) Decoder;所以本文在預(yù)訓(xùn)練時(shí)用一個(gè)兩層的 Transformer decoder 和一個(gè) SoftMax 作為 Decoder。其實(shí)就是給后層的Transformer encoder換了個(gè)名字,千萬別以為是用到了Transformer 的 Decoder端

絕對(duì)位置embedding

在decoder前有一個(gè)騷操作是在這里加入了一層絕對(duì)位置embedding來彌補(bǔ)一下只有相對(duì)位置的損失,比如“超市旁新開了一個(gè)商場(chǎng)”,當(dāng)mask的詞是“超市”,“商場(chǎng)”,時(shí),只有相對(duì)位置時(shí)沒法區(qū)分這兩個(gè)詞的信息,因此decoder中加入一層

一些訓(xùn)練tricks

將BERT的訓(xùn)練策略中,mask有10%的情況是不做任何替換,這種情況attention偏向自己會(huì)非常明顯,DeBeta將不做替換改成了換位該位置詞絕對(duì)位置的pos embedding, 實(shí)驗(yàn)中明顯能看到這種情況下的attention對(duì)自身依賴減弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在訓(xùn)練下游任務(wù)時(shí),給訓(xùn)練集做了一點(diǎn)擾動(dòng)來增強(qiáng)模型的魯棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任務(wù)上整體效果相比還是有一丟丟提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6762

    瀏覽量

    88630
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    920

    瀏覽量

    54713
  • Decoder
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    10686

原文標(biāo)題:SOTA來啦!BERT又又又又又又魔改了!DeBERTa登頂GLUE~

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AWG和BERT常見問題解答

    隨著信號(hào)的速率越來越高,調(diào)制格式越來越復(fù)雜,對(duì)測(cè)試儀器的性能要求也越來越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT。
    的頭像 發(fā)表于 08-06 17:27 ?407次閱讀

    歡創(chuàng)播報(bào) 支付寶“碰一下”正式發(fā)布

    1 支付寶“碰一下”正式發(fā)布 近日,支付寶開放日上,支付寶宣布升級(jí)條碼支付體驗(yàn),推出“支付寶碰一下”,用戶無需展示付款碼,解鎖手機(jī)碰一下商家收款設(shè)備,最快
    的頭像 發(fā)表于 07-11 11:32 ?792次閱讀
    歡創(chuàng)播報(bào)  支付寶“碰<b class='flag-5'>一下</b>”正式發(fā)布

    今天來解讀一下虛擬電廠的組成模式

    虛擬電廠
    的頭像 發(fā)表于 07-01 16:16 ?344次閱讀
    今天來<b class='flag-5'>解讀</b><b class='flag-5'>一下</b>虛擬電廠的組成模式

    簡(jiǎn)單介紹一下電源紋波與電容嘯叫

    簡(jiǎn)單介紹一下電源紋波與電容嘯叫? 電源紋波與電容嘯叫是電源系統(tǒng)中常見的兩種問題,它們會(huì)影響電子設(shè)備的性能和穩(wěn)定性。本篇文章將詳細(xì)介紹電源紋波和電容嘯叫的定義、原因、對(duì)設(shè)備的影響以及常見的解決方法
    的頭像 發(fā)表于 02-04 09:42 ?903次閱讀

    盤點(diǎn)一下高通CES 2024汽車創(chuàng)新技術(shù)

    CES2024上,我們看到英特爾和AMD加入,加上原來的英偉達(dá),高通需要和這些跨行的對(duì)手個(gè)賽道卷,目前高通在數(shù)字座艙、云連接、人工智能和自動(dòng)駕駛領(lǐng)域是有定的積累的,我們來盤點(diǎn)
    的頭像 發(fā)表于 01-13 15:22 ?1712次閱讀
    盤點(diǎn)<b class='flag-5'>一下</b>高通CES 2024汽車創(chuàng)新技術(shù)

    介紹一下芯片的VIA pillar

    Via pillar,又可以叫Via ladder。貌似Cadence家喜歡叫pillar,synopsis喜歡叫l(wèi)adder,我也不知道它們?yōu)樯恫荒芙y(tǒng)一一下名稱。
    的頭像 發(fā)表于 12-06 14:00 ?673次閱讀

    無需電流采樣電阻的智能電機(jī)驅(qū)動(dòng)IC,不來了解一下么?

    無需電流采樣電阻的智能電機(jī)驅(qū)動(dòng)IC,不來了解一下么?
    的頭像 發(fā)表于 11-30 17:43 ?406次閱讀
    無需電流采樣電阻的智能電機(jī)驅(qū)動(dòng)IC,不來了解<b class='flag-5'>一下</b>么?

    浪涌抗擾度怎么測(cè)?我們用這個(gè)A/D轉(zhuǎn)換器試了一下

    浪涌抗擾度怎么測(cè)?我們用這個(gè)A/D轉(zhuǎn)換器試了一下
    的頭像 發(fā)表于 11-27 15:20 ?656次閱讀
    浪涌抗擾度怎么測(cè)?我們用這個(gè)A/D轉(zhuǎn)換器試了<b class='flag-5'>一下</b>

    盤點(diǎn)一下CST電磁仿真軟件的求解器

    今天我們起來盤點(diǎn)一下CST電磁仿真軟件那些牛叉的求解器??靵頂?shù)一下,你用了里面的幾種吧!
    的頭像 發(fā)表于 11-20 10:18 ?5743次閱讀
    盤點(diǎn)<b class='flag-5'>一下</b>CST電磁仿真軟件的求解器

    個(gè)電路感受一下MOS管和三極管功能上有什么區(qū)別?

    MOS管和三極管功能上有什么區(qū)別?這兩種元件本身就可以看作個(gè)基本單元,個(gè)獨(dú)立的器件,就算拆開外殼,用肉眼也找不出什么差別,從工作原理上理解又謷牙詰屈,這次從
    的頭像 發(fā)表于 11-13 15:57 ?684次閱讀
    <b class='flag-5'>一</b>個(gè)電路感受<b class='flag-5'>一下</b>MOS管和三極管<b class='flag-5'>在</b>功能<b class='flag-5'>上有</b>什么區(qū)別?

    一下IGBT驅(qū)動(dòng)中的參考電位問題

    大家好,今天聊一下IGBT驅(qū)動(dòng)中的**參考電位**問題。我們都知道IGBT的驅(qū)動(dòng)參考電平都是基于 **器件自身的發(fā)射極** ,當(dāng)柵極相對(duì)于發(fā)射極電位 **超過閾值電壓時(shí),器件就會(huì)開通** , **小于閾值電壓后,器件就會(huì)關(guān)斷** 。
    的頭像 發(fā)表于 11-09 15:19 ?1031次閱讀
    聊<b class='flag-5'>一下</b>IGBT驅(qū)動(dòng)中的參考電位問題

    詳細(xì)介紹一下PSS+Pnoise仿真

    PSS+Pnoise仿真是很多電路要用到的仿真,今天我們?cè)敿?xì)介紹一下這個(gè)仿真。
    的頭像 發(fā)表于 11-03 18:13 ?6242次閱讀
    詳細(xì)介紹<b class='flag-5'>一下</b>PSS+Pnoise仿真

    ATMega32可以改造成Arduino嗎?

    上有塊ATMega32A-PU8可以改造成Arduino么?是不是還是要串口轉(zhuǎn)換芯片?
    發(fā)表于 11-01 06:47

    基于BERT算法搭建個(gè)問答搜索引擎

    鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽說過,它是Google推出的NLP領(lǐng)域“王炸級(jí)”預(yù)訓(xùn)練模型,其NLP任務(wù)中刷新了多項(xiàng)記錄,并取得state of the art的成績(jī)。 但是有很多深度
    的頭像 發(fā)表于 10-30 11:46 ?552次閱讀
    基于<b class='flag-5'>BERT</b>算法搭建<b class='flag-5'>一</b>個(gè)問答搜索引擎

    分享一下STM32基于CubeMX獨(dú)立看門狗的使用方法

    項(xiàng)目里面需要加個(gè)獨(dú)立看門狗,就上網(wǎng)了解了一下,具體原理后期有時(shí)間再分享,今天先簡(jiǎn)單分享一下使用方法。
    的頭像 發(fā)表于 10-26 14:38 ?2848次閱讀
    分享<b class='flag-5'>一下</b>STM32基于CubeMX獨(dú)立看門狗的使用方法