0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌大腦CMU聯(lián)手推出XLNet,20項(xiàng)任務(wù)全面超越BERT

gckX_aicapital ? 來(lái)源:YXQ ? 2019-06-22 11:19 ? 次閱讀

谷歌大腦和CMU聯(lián)合團(tuán)隊(duì)提出面向NLP預(yù)訓(xùn)練新方法XLNet,性能全面超越此前NLP領(lǐng)域的黃金標(biāo)桿BERT,在20個(gè)任務(wù)上實(shí)現(xiàn)了性能的大幅提升,刷新了18個(gè)任務(wù)上的SOTA結(jié)果,可謂全面屠榜!

近日,谷歌大腦主任科學(xué)家Quoc V. Le在Twitter上放出一篇重磅論文,立即引發(fā)熱議:

這篇論文提出一種新的NLP模型預(yù)訓(xùn)練方法XLNet,在20項(xiàng)任務(wù)上(如SQuAD、GLUE、RACE) 的性能大幅超越了此前NLP黃金標(biāo)桿BERT。

XLNet:克服BERT固有局限,20項(xiàng)任務(wù)性能強(qiáng)于BERT

本文提出的XLNet是一種廣義自回歸預(yù)訓(xùn)練方法,具有兩大特點(diǎn):(1)通過(guò)最大化分解階的所有排列的預(yù)期可能性來(lái)學(xué)習(xí)雙向語(yǔ)境,(2)由于其自回歸的性質(zhì),克服了BERT的局限性。

此外,XLNet將最先進(jìn)的自回歸模型Transformer-XL的創(chuàng)意整合到預(yù)訓(xùn)練過(guò)程中。實(shí)驗(yàn)顯示,XLNet在20個(gè)任務(wù)上的表現(xiàn)優(yōu)于BERT,而且大都實(shí)現(xiàn)了大幅度性能提升,并在18個(gè)任務(wù)上達(dá)到了SOTA結(jié)果,這些任務(wù)包括問(wèn)答、自然語(yǔ)言推理、情感分析和文檔排名等。

與現(xiàn)有語(yǔ)言預(yù)訓(xùn)練目標(biāo)相比,本文提出了一種廣義的自回歸方法,同時(shí)利用了AR語(yǔ)言建模和AE的優(yōu)點(diǎn),同時(shí)避免了二者的局限性。首先是不再像傳統(tǒng)的AR模型那樣,使用固定的前向或后向分解順序,而是最大化序列的預(yù)期對(duì)數(shù)似然性分解順序的所有可能排列。每個(gè)位置的上下文可以包含來(lái)自該位置前后的令牌,實(shí)現(xiàn)捕獲雙向語(yǔ)境的目標(biāo)。

作為通用AR語(yǔ)言模型,XLNet不依賴于數(shù)據(jù)損壞。因此,XLNet不會(huì)受到BERT受到的預(yù)訓(xùn)練和微調(diào)后的模型之間差異的影響。同時(shí)以自然的方式使用乘積規(guī)則,分解預(yù)測(cè)的令牌的聯(lián)合概率,從而消除了在BERT中做出的獨(dú)立性假設(shè)。

除了新的預(yù)訓(xùn)練目標(biāo)外,XLNet還改進(jìn)了預(yù)訓(xùn)練的架構(gòu)設(shè)計(jì)。 XLNet將Transformer-XL的分段重復(fù)機(jī)制和相對(duì)編碼方案集成到預(yù)訓(xùn)練中,從而憑經(jīng)驗(yàn)改進(jìn)了性能,對(duì)于涉及較長(zhǎng)文本序列的任務(wù)效果尤其明顯。

圖1:在給定相同輸入序列x,但分解順序不同的情況下,對(duì)置換語(yǔ)言建模目標(biāo)的預(yù)測(cè)結(jié)果

圖2:(a):內(nèi)容流注意力機(jī)制,與標(biāo)準(zhǔn)的自注意力機(jī)制相同。(b)查詢流注意力,其中不含關(guān)于內(nèi)容xzt的訪問(wèn)信息。(c):使用雙信息流注意力機(jī)制的置換語(yǔ)言建模訓(xùn)練示意圖。

全面屠榜:大幅刷新18項(xiàng)任務(wù)數(shù)據(jù)集SOTA性能

表1:與閱讀理解任務(wù)RACE測(cè)試集的最新結(jié)果的比較。 *表示使用聚集模型。 RACE中的“Middle”和“High”是代表初中和高中難度水平的兩個(gè)子集。所有BERT和XLNet結(jié)果均采用大小相似的模型(又稱BERT-Large),模型為24層架構(gòu)。我們的XLNet單一模型在精確度方面高出了7.6分

表2:?jiǎn)蝀LNet模型在SQuAD1.1數(shù)據(jù)集上的性能優(yōu)于分別優(yōu)于真人表現(xiàn)和最佳聚集模型性能達(dá)7.6 EM和2.5 EM。

表3:與幾個(gè)文本分類數(shù)據(jù)集的測(cè)試集上錯(cuò)誤率SOTA結(jié)果的比較。所有BERT和XLNet結(jié)果均采用具有相似大小的24層模型架構(gòu)(BERT-Large)

表4:GLUE數(shù)據(jù)集上的結(jié)果。所有結(jié)果都基于具有相似模型尺寸的24層架構(gòu)(也稱BERT-Large)??梢詫⒆钌闲信cBERT和最下行中的結(jié)果直接比較。

表5:與文檔排名任務(wù)ClueWeb09-B的測(cè)試集上的最新結(jié)果的比較。 ?表示XLNet的結(jié)果。

表6:我們使用BERT官方實(shí)現(xiàn)方案和XLNet超參數(shù)搜索空間在其他數(shù)據(jù)集上運(yùn)行BERT,結(jié)果如圖所示,其中K是控制優(yōu)化難度的超參數(shù)。所有模型都在相同的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。

從實(shí)驗(yàn)結(jié)果可以看出,說(shuō)XLNet全面超越BERT其實(shí)一點(diǎn)都不夸張。

知乎熱議:512TPU訓(xùn)練,家里沒(méi)礦真搞不起

有熱心網(wǎng)友一早將這篇“屠榜”論文發(fā)在了知乎上,從網(wǎng)友的評(píng)論上看,一方面承認(rèn)谷歌和CMU此項(xiàng)成果的突破,同時(shí)也有人指出,這樣性能強(qiáng)勁的XLNet,還是要背靠谷歌TPU平臺(tái)的巨額算力資源,“大力出奇跡”果然還是深度學(xué)習(xí)界的第一真理嗎?

比如,網(wǎng)友“Towser”在對(duì)論文核心部分內(nèi)容的簡(jiǎn)要回顧中,提到了XLNet的優(yōu)化方法,其中引人注目的一點(diǎn)是其背后的谷歌爸爸的海量算力資源的支持:

512個(gè)TPU訓(xùn)練了2.5天,訓(xùn)練總計(jì)算量是BERT的5倍!要知道作為谷歌的親兒子,BERT的訓(xùn)練計(jì)算量已經(jīng)讓多數(shù)人望塵莫及了。沒(méi)錢(qián),搞什么深度學(xué)習(xí)?

難怪NLP領(lǐng)域的專家、清華大學(xué)劉知遠(yuǎn)副教授對(duì)XLNet一句評(píng)價(jià)被毫無(wú)懸念地頂?shù)搅酥踝罡哔潱?/p>

目前,XLNet的代碼和預(yù)訓(xùn)練模型也已經(jīng)在GitHub上放出。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6106

    瀏覽量

    104837
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    483

    瀏覽量

    21979

原文標(biāo)題:NLP新標(biāo)桿!谷歌大腦CMU聯(lián)手推出XLNet,20項(xiàng)任務(wù)全面超越BERT

文章出處:【微信號(hào):aicapital,微信公眾號(hào):全球人工智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AWG和BERT常見(jiàn)問(wèn)題解答

    隨著信號(hào)的速率越來(lái)越高,調(diào)制格式越來(lái)越復(fù)雜,對(duì)測(cè)試儀器的性能要求也越來(lái)越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT。
    的頭像 發(fā)表于 08-06 17:27 ?417次閱讀

    阿里云發(fā)布通義千問(wèn)2.5大模型,多項(xiàng)能力超越GPT-4

    阿里云隆重推出了通義千問(wèn) 2.5 版,宣稱其“技術(shù)進(jìn)步,全面超越GPT-4”,尤其是在中文環(huán)境中的多種任務(wù)(如文本理解、文本生成、知識(shí)問(wèn)答及生活建議、臨時(shí)聊天及對(duì)話以及安全風(fēng)險(xiǎn)評(píng)估)方
    的頭像 發(fā)表于 05-09 14:17 ?869次閱讀

    微軟、谷歌聯(lián)手多家科技巨頭保護(hù)兒童安全

     4 月 24 日消息,隨著生成式 AI 的快速發(fā)展,如何保障兒童安全成為了焦點(diǎn)。微軟、谷歌日前與 Thorn、All Tech Is Human 等專業(yè)機(jī)構(gòu)聯(lián)手,以期在生成 AI 技術(shù)中實(shí)施更嚴(yán)格的兒童安全措施。
    的頭像 發(fā)表于 04-24 10:50 ?388次閱讀

    NVIDIA和谷歌云宣布開(kāi)展一項(xiàng)新的合作,加速AI開(kāi)發(fā)

    NVIDIA 和谷歌云宣布開(kāi)展一項(xiàng)新的合作,以幫助全球初創(chuàng)企業(yè)加速創(chuàng)建生成式 AI 應(yīng)用和服務(wù)。
    的頭像 發(fā)表于 04-11 14:03 ?432次閱讀

    谷歌發(fā)布Axion新款數(shù)據(jù)中心AI芯片,性能超越x86及云端

    谷歌預(yù)計(jì)將通過(guò)Google Cloud提供Axion AI芯片給客戶。谷歌強(qiáng)調(diào)這款基于ARM的CPU產(chǎn)品具有優(yōu)越的性能表現(xiàn),甚至超越了傳統(tǒng)的x86芯片及云端通用ARM芯片。
    的頭像 發(fā)表于 04-10 16:32 ?802次閱讀

    谷歌推出能制作旅行攻略的AI工具

    谷歌近日發(fā)布了一項(xiàng)令人矚目的新功能,它是一款能夠借助自然語(yǔ)言對(duì)話幫助用戶生成旅行行程和出游建議的AI工具。這款工具的推出,標(biāo)志著谷歌在人工智能領(lǐng)域的又一重要突破。
    的頭像 發(fā)表于 03-29 11:08 ?583次閱讀

    谷歌宣布在醫(yī)療保健領(lǐng)域推出人工智能計(jì)劃

    谷歌最近公布了一系列激動(dòng)人心的計(jì)劃,將先進(jìn)的人工智能模型引入醫(yī)療保健領(lǐng)域。據(jù)谷歌透露,其研究團(tuán)隊(duì)正聯(lián)手旗下Fitbit公司,共同研發(fā)一項(xiàng)創(chuàng)新的人工智能功能。這一功能能夠從用戶的腕帶設(shè)備
    的頭像 發(fā)表于 03-21 10:54 ?538次閱讀

    Anthropic推出Claude 3大型語(yǔ)言模型,在認(rèn)知任務(wù)性能上創(chuàng)新高

    據(jù)官方披露,Claude 3 旗艦 Opus 在大學(xué)生和研究生范疇的學(xué)術(shù)知識(shí)、復(fù)雜數(shù)理任務(wù)了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。
    的頭像 發(fā)表于 03-05 11:16 ?419次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的一款大型語(yǔ)言模型,
    的頭像 發(fā)表于 03-01 16:20 ?542次閱讀

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢(shì),而且在效率上更勝一籌。
    的頭像 發(fā)表于 02-29 17:37 ?702次閱讀

    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動(dòng),超越了傳統(tǒng)GPU和谷歌TPU。
    的頭像 發(fā)表于 02-26 10:24 ?906次閱讀
    Groq<b class='flag-5'>推出</b>大模型推理芯片 <b class='flag-5'>超越</b>了傳統(tǒng)GPU和<b class='flag-5'>谷歌</b>TPU

    谷歌大型模型終于開(kāi)放源代碼,遲到但重要的開(kāi)源戰(zhàn)略

    在人工智能領(lǐng)域,谷歌可以算是開(kāi)源的鼻祖。今天幾乎所有的大語(yǔ)言模型,都基于谷歌在 2017 年發(fā)布的 Transformer 論文;谷歌的發(fā)布的 BERT、T5,都是最早的一批開(kāi)源 AI
    發(fā)表于 02-22 18:14 ?391次閱讀
    <b class='flag-5'>谷歌</b>大型模型終于開(kāi)放源代碼,遲到但重要的開(kāi)源戰(zhàn)略

    TikTok引入前谷歌VideoPoet負(fù)責(zé)人蔣路,發(fā)力AI視頻生成

    獨(dú)家獲悉,谷歌高級(jí)科學(xué)家、卡內(nèi)基梅隆大學(xué)(CMU)計(jì)算機(jī)學(xué)院兼職教授蔣路,已經(jīng)加入TikTok。
    的頭像 發(fā)表于 02-22 13:36 ?510次閱讀
    TikTok引入前<b class='flag-5'>谷歌</b>VideoPoet負(fù)責(zé)人蔣路,發(fā)力AI視頻生成

    大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

    for Language Understanding》,BERT模型橫空出世,并橫掃NLP領(lǐng)域11項(xiàng)任務(wù)的最佳成績(jī)。而在BERT中發(fā)揮重要作用的結(jié)構(gòu)就是Transformer,之后又
    的頭像 發(fā)表于 12-25 08:36 ?3453次閱讀
    大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

    基于BERT算法搭建一個(gè)問(wèn)答搜索引擎

    鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽(tīng)說(shuō)過(guò),它是Google推出的NLP領(lǐng)域“王炸級(jí)”預(yù)訓(xùn)練模型,其在NLP任務(wù)中刷新了多項(xiàng)記錄,并取得state of the art的成績(jī)。 但是有很多深度
    的頭像 發(fā)表于 10-30 11:46 ?552次閱讀
    基于<b class='flag-5'>BERT</b>算法搭建一個(gè)問(wèn)答搜索引擎