精品国产A级毛片深喉,无码国内精品久久综合88

谷歌大腦和CMU聯(lián)合團(tuán)隊(duì)提出面向NLP預(yù)訓(xùn)練新方法XLNet，性能全面超越此前NLP領(lǐng)域的黃金標(biāo)桿BERT，在20個(gè)任務(wù)上實(shí)現(xiàn)了性能的大幅提升，刷新了18個(gè)任務(wù)上的SOTA結(jié)果，可謂全面屠榜！

近日，谷歌大腦主任科學(xué)家Quoc V. Le在Twitter上放出一篇重磅論文，立即引發(fā)熱議：

這篇論文提出一種新的NLP模型預(yù)訓(xùn)練方法XLNet，在20項(xiàng)任務(wù)上(如SQuAD、GLUE、RACE) 的性能大幅超越了此前NLP黃金標(biāo)桿BERT。

XLNet：克服BERT固有局限，20項(xiàng)任務(wù)性能強(qiáng)于BERT

本文提出的XLNet是一種廣義自回歸預(yù)訓(xùn)練方法，具有兩大特點(diǎn)：（1）通過(guò)最大化分解階的所有排列的預(yù)期可能性來(lái)學(xué)習(xí)雙向語(yǔ)境，（2）由于其自回歸的性質(zhì)，克服了BERT的局限性。

此外，XLNet將最先進(jìn)的自回歸模型Transformer-XL的創(chuàng)意整合到預(yù)訓(xùn)練過(guò)程中。實(shí)驗(yàn)顯示，XLNet在20個(gè)任務(wù)上的表現(xiàn)優(yōu)于BERT，而且大都實(shí)現(xiàn)了大幅度性能提升，并在18個(gè)任務(wù)上達(dá)到了SOTA結(jié)果，這些任務(wù)包括問(wèn)答、自然語(yǔ)言推理、情感分析和文檔排名等。

與現(xiàn)有語(yǔ)言預(yù)訓(xùn)練目標(biāo)相比，本文提出了一種廣義的自回歸方法，同時(shí)利用了AR語(yǔ)言建模和AE的優(yōu)點(diǎn)，同時(shí)避免了二者的局限性。首先是不再像傳統(tǒng)的AR模型那樣，使用固定的前向或后向分解順序，而是最大化序列的預(yù)期對(duì)數(shù)似然性分解順序的所有可能排列。每個(gè)位置的上下文可以包含來(lái)自該位置前后的令牌，實(shí)現(xiàn)捕獲雙向語(yǔ)境的目標(biāo)。

作為通用AR語(yǔ)言模型，XLNet不依賴于數(shù)據(jù)損壞。因此，XLNet不會(huì)受到BERT受到的預(yù)訓(xùn)練和微調(diào)后的模型之間差異的影響。同時(shí)以自然的方式使用乘積規(guī)則，分解預(yù)測(cè)的令牌的聯(lián)合概率，從而消除了在BERT中做出的獨(dú)立性假設(shè)。

除了新的預(yù)訓(xùn)練目標(biāo)外，XLNet還改進(jìn)了預(yù)訓(xùn)練的架構(gòu)設(shè)計(jì)。 XLNet將Transformer-XL的分段重復(fù)機(jī)制和相對(duì)編碼方案集成到預(yù)訓(xùn)練中，從而憑經(jīng)驗(yàn)改進(jìn)了性能，對(duì)于涉及較長(zhǎng)文本序列的任務(wù)效果尤其明顯。

圖1：在給定相同輸入序列x，但分解順序不同的情況下，對(duì)置換語(yǔ)言建模目標(biāo)的預(yù)測(cè)結(jié)果

圖2：（a）：內(nèi)容流注意力機(jī)制，與標(biāo)準(zhǔn)的自注意力機(jī)制相同。（b）查詢流注意力，其中不含關(guān)于內(nèi)容xzt的訪問(wèn)信息。（c）：使用雙信息流注意力機(jī)制的置換語(yǔ)言建模訓(xùn)練示意圖。

全面屠榜：大幅刷新18項(xiàng)任務(wù)數(shù)據(jù)集SOTA性能

表1：與閱讀理解任務(wù)RACE測(cè)試集的最新結(jié)果的比較。 *表示使用聚集模型。 RACE中的“Middle”和“High”是代表初中和高中難度水平的兩個(gè)子集。所有BERT和XLNet結(jié)果均采用大小相似的模型（又稱BERT-Large），模型為24層架構(gòu)。我們的XLNet單一模型在精確度方面高出了7.6分

表2：?jiǎn)蝀LNet模型在SQuAD1.1數(shù)據(jù)集上的性能優(yōu)于分別優(yōu)于真人表現(xiàn)和最佳聚集模型性能達(dá)7.6 EM和2.5 EM。

表3：與幾個(gè)文本分類數(shù)據(jù)集的測(cè)試集上錯(cuò)誤率SOTA結(jié)果的比較。所有BERT和XLNet結(jié)果均采用具有相似大小的24層模型架構(gòu)（BERT-Large）

表4：GLUE數(shù)據(jù)集上的結(jié)果。所有結(jié)果都基于具有相似模型尺寸的24層架構(gòu)（也稱BERT-Large）?？梢詫⒆钌闲信cBERT和最下行中的結(jié)果直接比較。

表5：與文檔排名任務(wù)ClueWeb09-B的測(cè)試集上的最新結(jié)果的比較。 ?表示XLNet的結(jié)果。

表6：我們使用BERT官方實(shí)現(xiàn)方案和XLNet超參數(shù)搜索空間在其他數(shù)據(jù)集上運(yùn)行BERT，結(jié)果如圖所示，其中K是控制優(yōu)化難度的超參數(shù)。所有模型都在相同的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。

從實(shí)驗(yàn)結(jié)果可以看出，說(shuō)XLNet全面超越BERT其實(shí)一點(diǎn)都不夸張。

知乎熱議：512TPU訓(xùn)練，家里沒(méi)礦真搞不起

有熱心網(wǎng)友一早將這篇“屠榜”論文發(fā)在了知乎上，從網(wǎng)友的評(píng)論上看，一方面承認(rèn)谷歌和CMU此項(xiàng)成果的突破，同時(shí)也有人指出，這樣性能強(qiáng)勁的XLNet，還是要背靠谷歌TPU平臺(tái)的巨額算力資源，“大力出奇跡”果然還是深度學(xué)習(xí)界的第一真理嗎？

比如，網(wǎng)友“Towser”在對(duì)論文核心部分內(nèi)容的簡(jiǎn)要回顧中，提到了XLNet的優(yōu)化方法，其中引人注目的一點(diǎn)是其背后的谷歌爸爸的海量算力資源的支持：

512個(gè)TPU訓(xùn)練了2.5天，訓(xùn)練總計(jì)算量是BERT的5倍！要知道作為谷歌的親兒子，BERT的訓(xùn)練計(jì)算量已經(jīng)讓多數(shù)人望塵莫及了。沒(méi)錢(qián)，搞什么深度學(xué)習(xí)？

難怪NLP領(lǐng)域的專家、清華大學(xué)劉知遠(yuǎn)副教授對(duì)XLNet一句評(píng)價(jià)被毫無(wú)懸念地頂?shù)搅酥踝罡哔潱?/p>

目前，XLNet的代碼和預(yù)訓(xùn)練模型也已經(jīng)在GitHub上放出。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴