久本草在线中文无码,中文家族淫乱一级毛片电影天堂,欧美精品久久久久a片一二三区

這兩天，XLNet貌似也引起了NLP圈的極大關(guān)注，從實(shí)驗(yàn)數(shù)據(jù)看，在某些場(chǎng)景下，確實(shí)XLNet相對(duì)Bert有很大幅度的提升。就像我們之前說(shuō)的，感覺(jué)Bert打開(kāi)兩階段模式的魔法盒開(kāi)關(guān)后，在這條路上，會(huì)有越來(lái)越多的同行者，而XLNet就是其中比較引人注目的一位。當(dāng)然，我估計(jì)很快我們會(huì)看到更多的這個(gè)模式下的新工作。

未來(lái)兩年，在兩階段新模式（預(yù)訓(xùn)練+Finetuning）下，應(yīng)該會(huì)有更多的好工作涌現(xiàn)出來(lái)。根本原因在于：這個(gè)模式的潛力還沒(méi)有被充分挖掘，貌似還有很大的提升空間。當(dāng)然，這也意味著NLP在未來(lái)兩年會(huì)有各種技術(shù)或者應(yīng)用的突破，現(xiàn)在其實(shí)是進(jìn)入NLP領(lǐng)域非常好的時(shí)機(jī)。原因有兩個(gè)，一個(gè)是NLP正面臨一個(gè)技術(shù)棧大的改朝換代的時(shí)刻，有很多空白等著你去填補(bǔ)，容易出成績(jī)；另外一點(diǎn)，貌似Bert+Transformer有統(tǒng)一NLP各個(gè)應(yīng)用領(lǐng)域的趨向，這意味著此時(shí)進(jìn)入NLP領(lǐng)域，具備學(xué)習(xí)成本非常低的好處，和之前相比，投入產(chǎn)出比非常合算。

當(dāng)然，即使如此，想要學(xué)好NLP，持續(xù)的精力投入是必不可少的。有句老話說(shuō)得好：“永恒的愛(ài)大約持續(xù)三個(gè)月”，這句話其實(shí)對(duì)于很多對(duì)NLP感興趣的同學(xué)也成立：“對(duì)NLP的永恒的熱情大約能夠持續(xù)3到5天”，希望真的有興趣的同學(xué)能堅(jiān)持一下，起碼持續(xù)7到8天，湊夠一個(gè)星期…..

那么XLNet和Bert比，有什么異同？有什么模型方面的改進(jìn)？在哪些場(chǎng)景下特別有效？原因又是什么？本文通過(guò)論文思想解讀及實(shí)驗(yàn)結(jié)果分析，試圖回答上述問(wèn)題。

首先，XLNet引入了自回歸語(yǔ)言模型以及自編碼語(yǔ)言模型的提法，這個(gè)思維框架我覺(jué)得挺好的，可以先簡(jiǎn)單說(shuō)明下。

自回歸語(yǔ)言模型（Autoregressive LM）

在ELMO／BERT出來(lái)之前，大家通常講的語(yǔ)言模型其實(shí)是根據(jù)上文內(nèi)容預(yù)測(cè)下一個(gè)可能跟隨的單詞，就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù)，或者反過(guò)來(lái)也行，就是根據(jù)下文預(yù)測(cè)前面的單詞，這種類型的LM被稱為自回歸語(yǔ)言模型。GPT 就是典型的自回歸語(yǔ)言模型。ELMO盡管看上去利用了上文，也利用了下文，但是本質(zhì)上仍然是自回歸LM，這個(gè)跟模型具體怎么實(shí)現(xiàn)有關(guān)系。ELMO是做了兩個(gè)方向（從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型），但是是分別有兩個(gè)方向的自回歸LM，然后把LSTM的兩個(gè)方向的隱節(jié)點(diǎn)狀態(tài)拼接到一起，來(lái)體現(xiàn)雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接，本質(zhì)上仍然是自回歸語(yǔ)言模型。

自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn)，缺點(diǎn)是只能利用上文或者下文的信息，不能同時(shí)利用上文和下文的信息，當(dāng)然，貌似ELMO這種雙向都做，然后拼接看上去能夠解決這個(gè)問(wèn)題，因?yàn)槿诤夏Ｊ竭^(guò)于簡(jiǎn)單，所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn)，其實(shí)跟下游NLP任務(wù)有關(guān)，比如生成類NLP任務(wù)，比如文本摘要，機(jī)器翻譯等，在實(shí)際生成內(nèi)容的時(shí)候，就是從左向右的，自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程。而B(niǎo)ert這種DAE模式，在生成類NLP任務(wù)中，就面臨訓(xùn)練過(guò)程和應(yīng)用過(guò)程不一致的問(wèn)題，導(dǎo)致生成類的NLP任務(wù)到目前為止都做不太好。

自編碼語(yǔ)言模型（Autoencoder LM）

自回歸語(yǔ)言模型只能根據(jù)上文預(yù)測(cè)下一個(gè)單詞，或者反過(guò)來(lái)，只能根據(jù)下文預(yù)測(cè)前面一個(gè)單詞。相比而言，Bert通過(guò)在輸入X中隨機(jī)Mask掉一部分單詞，然后預(yù)訓(xùn)練過(guò)程的主要任務(wù)之一是根據(jù)上下文單詞來(lái)預(yù)測(cè)這些被Mask掉的單詞，如果你對(duì)Denoising Autoencoder比較熟悉的話，會(huì)看出，這確實(shí)是典型的DAE的思路。那些被Mask掉的單詞就是在輸入側(cè)加入的所謂噪音。類似Bert這種預(yù)訓(xùn)練模式，被稱為DAE LM。

這種DAE LM的優(yōu)缺點(diǎn)正好和自回歸LM反過(guò)來(lái)，它能比較自然地融入雙向語(yǔ)言模型，同時(shí)看到被預(yù)測(cè)單詞的上文和下文，這是好處。缺點(diǎn)是啥呢？主要在輸入側(cè)引入[Mask]標(biāo)記，導(dǎo)致預(yù)訓(xùn)練階段和Fine-tuning階段不一致的問(wèn)題，因?yàn)镕ine-tuning階段是看不到[Mask]標(biāo)記的。DAE嗎，就要引入噪音，[Mask] 標(biāo)記就是引入噪音的手段，這個(gè)正常。

XLNet的出發(fā)點(diǎn)就是：能否融合自回歸LM和DAE LM兩者的優(yōu)點(diǎn)。就是說(shuō)如果站在自回歸LM的角度，如何引入和雙向語(yǔ)言模型等價(jià)的效果；如果站在DAE LM的角度看，它本身是融入雙向語(yǔ)言模型的，如何拋掉表面的那個(gè)[Mask]標(biāo)記，讓預(yù)訓(xùn)練和Fine-tuning保持一致。當(dāng)然，XLNet還講到了一個(gè)Bert被Mask單詞之間相互獨(dú)立的問(wèn)題，我相信這個(gè)不太重要，原因后面會(huì)說(shuō)。當(dāng)然，我認(rèn)為這點(diǎn)不重要的事情，純粹是個(gè)人觀點(diǎn)，出錯(cuò)難免，看看就完了，不用較真。

XLNet做了些什么

上文說(shuō)過(guò)，Bert這種自編碼語(yǔ)言模型的好處是：能夠同時(shí)利用上文和下文，所以信息利用充分。對(duì)于很多NLP任務(wù)而言，典型的比如閱讀理解，在解決問(wèn)題的時(shí)候，是能夠同時(shí)看到上文和下文的，所以當(dāng)然應(yīng)該把下文利用起來(lái)。

在Bert原始論文中，與GPT1.0的實(shí)驗(yàn)對(duì)比分析也可以看出來(lái)，BERT相對(duì)GPT 1.0的性能提升，主要來(lái)自于雙向語(yǔ)言模型與單向語(yǔ)言模型的差異。這是Bert的好處，很明顯，Bert之后的改進(jìn)模型，如果不能把雙向語(yǔ)言模型用起來(lái)，那明顯是很吃虧的。

當(dāng)然，GPT 2.0的作者不信這個(gè)邪，堅(jiān)持沿用GPT 1.0 單向語(yǔ)言模型的舊瓶，裝進(jìn)去了更高質(zhì)量更大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)的新酒，而它的實(shí)驗(yàn)結(jié)果也說(shuō)明了，如果想改善預(yù)訓(xùn)練語(yǔ)言模型，走這條擴(kuò)充預(yù)序列模型訓(xùn)練數(shù)據(jù)的路子，是個(gè)多快好但是不省錢的方向。這也進(jìn)一步說(shuō)明了，預(yù)訓(xùn)練LM這條路，還遠(yuǎn)遠(yuǎn)沒(méi)有走完，還有很大的提升空間，比如最簡(jiǎn)單的提升方法就是加大數(shù)據(jù)規(guī)模，提升數(shù)據(jù)質(zhì)量。

但是Bert的自編碼語(yǔ)言模型也有對(duì)應(yīng)的缺點(diǎn)，就是XLNet在文中指出的，第一個(gè)預(yù)訓(xùn)練階段因?yàn)椴扇∫隱Mask]標(biāo)記來(lái)Mask掉部分單詞的訓(xùn)練模式，而Fine-tuning階段是看不到這種被強(qiáng)行加入的Mask標(biāo)記的，所以兩個(gè)階段存在使用模式不一致的情形，這可能會(huì)帶來(lái)一定的性能損失；另外一個(gè)是，Bert在第一個(gè)預(yù)訓(xùn)練階段，假設(shè)句子中多個(gè)單詞被Mask掉，這些被Mask掉的單詞之間沒(méi)有任何關(guān)系，是條件獨(dú)立的，而有時(shí)候這些單詞之間是有關(guān)系的，XLNet則考慮了這種關(guān)系（關(guān)于這點(diǎn)原因是否可靠，后面會(huì)專門分析）。

上面兩點(diǎn)是XLNet在第一個(gè)預(yù)訓(xùn)練階段，相對(duì)Bert來(lái)說(shuō)要解決的兩個(gè)問(wèn)題。

其實(shí)從另外一個(gè)角度更好理解XLNet的初衷和做法，我覺(jué)得這個(gè)估計(jì)是XLNet作者真正的思考出發(fā)點(diǎn)，是啥呢？就是說(shuō)自回歸語(yǔ)言模型有個(gè)缺點(diǎn)，要么從左到右，要么從右到左，盡管可以類似ELMO兩個(gè)都做，然后再拼接的方式。但是跟Bert比，效果明顯不足夠好（這里面有RNN弱于Transformer的因素，也有雙向語(yǔ)言模型怎么做的因素）。

那么，能不能類似Bert那樣，比較充分地在自回歸語(yǔ)言模型中，引入雙向語(yǔ)言模型呢？因?yàn)锽ert已經(jīng)證明了這是非常關(guān)鍵的一點(diǎn)。這一點(diǎn)，想法簡(jiǎn)單，但是看上去貌似不太好做，因?yàn)閺淖笙蛴业恼Z(yǔ)言模型，如果我們當(dāng)前根據(jù)上文，要預(yù)測(cè)某個(gè)單詞Ti，那么看上去它沒(méi)法看到下文的內(nèi)容。具體怎么做才能讓這個(gè)模型：看上去仍然是從左向右的輸入和預(yù)測(cè)模式，但是其實(shí)內(nèi)部已經(jīng)引入了當(dāng)前單詞的下文信息呢？XLNet在模型方面的主要貢獻(xiàn)其實(shí)是在這里。

那么XLNet是怎么做到這一點(diǎn)的呢？其實(shí)思路也比較簡(jiǎn)潔，可以這么思考：XLNet仍然遵循兩階段的過(guò)程，第一個(gè)階段是語(yǔ)言模型預(yù)訓(xùn)練階段；第二階段是任務(wù)數(shù)據(jù)Fine-tuning階段。它主要希望改動(dòng)第一個(gè)階段，就是說(shuō)不像Bert那種帶Mask符號(hào)的Denoising-autoencoder的模式，而是采用自回歸LM的模式。

就是說(shuō)，看上去輸入句子X(jué)仍然是自左向右的輸入，看到Ti單詞的上文Context_before，來(lái)預(yù)測(cè)Ti這個(gè)單詞。但是又希望在Context_before里，不僅僅看到上文單詞，也能看到Ti單詞后面的下文Context_after里的下文單詞，這樣的話，Bert里面預(yù)訓(xùn)練階段引入的Mask符號(hào)就不需要了，于是在預(yù)訓(xùn)練階段，看上去是個(gè)標(biāo)準(zhǔn)的從左向右過(guò)程，F(xiàn)ine-tuning當(dāng)然也是這個(gè)過(guò)程，于是兩個(gè)環(huán)節(jié)就統(tǒng)一起來(lái)。當(dāng)然，這是目標(biāo)。剩下是怎么做到這一點(diǎn)的問(wèn)題。

那么，怎么能夠在單詞Ti的上文中Contenxt_before中揉入下文Context_after的內(nèi)容呢？你可以想想。XLNet是這么做的，在預(yù)訓(xùn)練階段，引入Permutation Language Model的訓(xùn)練目標(biāo)。什么意思呢？

就是說(shuō)，比如包含單詞Ti的當(dāng)前輸入的句子X(jué)，由順序的幾個(gè)單詞構(gòu)成，比如x1,x2,x3,x4四個(gè)單詞順序構(gòu)成。我們假設(shè)，其中，要預(yù)測(cè)的單詞Ti是x3，位置在Position 3，要想讓它能夠在上文Context_before中，也就是Position 1或者Position 2的位置看到Position 4的單詞x4?？梢赃@么做：假設(shè)我們固定住x3所在位置，就是它仍然在Position 3，之后隨機(jī)排列組合句子中的4個(gè)單詞，在隨機(jī)排列組合后的各種可能里，再選擇一部分作為模型預(yù)訓(xùn)練的輸入X。比如隨機(jī)排列組合后，抽取出x4,x2，x3,x1這一個(gè)排列組合作為模型的輸入X。于是，x3就能同時(shí)看到上文x2，以及下文x4的內(nèi)容了。

這就是XLNet的基本思想，所以說(shuō)，看了這個(gè)就可以理解上面講的它的初衷了吧：看上去仍然是個(gè)自回歸的從左到右的語(yǔ)言模型，但是其實(shí)通過(guò)對(duì)句子中單詞排列組合，把一部分Ti下文的單詞排到Ti的上文位置中，于是，就看到了上文和下文，但是形式上看上去仍然是從左到右在預(yù)測(cè)后一個(gè)單詞。

當(dāng)然，上面講的仍然是基本思想。難點(diǎn)其實(shí)在于具體怎么做才能實(shí)現(xiàn)上述思想。首先，需要強(qiáng)調(diào)一點(diǎn)，盡管上面講的是把句子X(jué)的單詞排列組合后，再隨機(jī)抽取例子作為輸入，但是，實(shí)際上你是不能這么做的，因?yàn)镕ine-tuning階段你不可能也去排列組合原始輸入。所以，就必須讓預(yù)訓(xùn)練階段的輸入部分，看上去仍然是x1,x2,x3,x4這個(gè)輸入順序，但是可以在Transformer部分做些工作，來(lái)達(dá)成我們希望的目標(biāo)。

具體而言，XLNet采取了Attention掩碼的機(jī)制，你可以理解為，當(dāng)前的輸入句子是X，要預(yù)測(cè)的單詞Ti是第i個(gè)單詞，前面1到i-1個(gè)單詞，在輸入部分觀察，并沒(méi)發(fā)生變化，該是誰(shuí)還是誰(shuí)。但是在Transformer內(nèi)部，通過(guò)Attention掩碼，從X的輸入單詞里面，也就是Ti的上文和下文單詞中，隨機(jī)選擇i-1個(gè)，放到Ti的上文位置中，把其它單詞的輸入通過(guò)Attention掩碼隱藏掉，于是就能夠達(dá)成我們期望的目標(biāo)（當(dāng)然這個(gè)所謂放到Ti的上文位置，只是一種形象的說(shuō)法，其實(shí)在內(nèi)部，就是通過(guò)Attention Mask，把其它沒(méi)有被選到的單詞Mask掉，不讓它們?cè)陬A(yù)測(cè)單詞Ti的時(shí)候發(fā)生作用，如此而已?？粗皖愃朴诎堰@些被選中的單詞放到了上文Context_before的位置了）。

具體實(shí)現(xiàn)的時(shí)候，XLNet是用“雙流自注意力模型”實(shí)現(xiàn)的，細(xì)節(jié)可以參考論文，但是基本思想就如上所述，雙流自注意力機(jī)制只是實(shí)現(xiàn)這個(gè)思想的具體方式，理論上，你可以想出其它具體實(shí)現(xiàn)方式來(lái)實(shí)現(xiàn)這個(gè)基本思想，也能達(dá)成讓Ti看到下文單詞的目標(biāo)。

這里簡(jiǎn)單說(shuō)下“雙流自注意力機(jī)制”，一個(gè)是內(nèi)容流自注意力，其實(shí)就是標(biāo)準(zhǔn)的Transformer的計(jì)算過(guò)程；主要是引入了Query流自注意力，這個(gè)是干嘛的呢？

其實(shí)就是用來(lái)代替Bert的那個(gè)[Mask]標(biāo)記的，因?yàn)閄LNet希望拋掉[Mask]標(biāo)記符號(hào)，但是比如知道上文單詞x1,x2，要預(yù)測(cè)單詞x3，此時(shí)在x3對(duì)應(yīng)位置的Transformer最高層去預(yù)測(cè)這個(gè)單詞，但是輸入側(cè)不能看到要預(yù)測(cè)的單詞x3，Bert其實(shí)是直接引入[Mask]標(biāo)記來(lái)覆蓋掉單詞x3的內(nèi)容的，等于說(shuō)[Mask]是個(gè)通用的占位符號(hào)。

而XLNet因?yàn)橐獟伒鬧Mask]標(biāo)記，但是又不能看到x3的輸入，于是Query流，就直接忽略掉x3輸入了，只保留這個(gè)位置信息，用參數(shù)w來(lái)代表位置的embedding編碼。其實(shí)XLNet只是扔了表面的[Mask]占位符號(hào)，內(nèi)部還是引入Query流來(lái)忽略掉被Mask的這個(gè)單詞。和Bert比，只是實(shí)現(xiàn)方式不同而已。

上面說(shuō)的Attention掩碼，我估計(jì)你還是沒(méi)了解它的意思，我再用例子解釋一下。Attention Mask的機(jī)制，核心就是說(shuō)，盡管當(dāng)前輸入看上去仍然是x1->x2->x3->x4，但是我們已經(jīng)改成隨機(jī)排列組合的另外一個(gè)順序x3->x2->x4->x1了，如果用這個(gè)例子用來(lái)從左到右訓(xùn)練LM，意味著當(dāng)預(yù)測(cè)x2的時(shí)候，它只能看到上文x3；當(dāng)預(yù)測(cè)x4的時(shí)候，只能看到上文x3和x2，以此類推……這樣，比如對(duì)于x2來(lái)說(shuō)，就看到了下文x3了。

這種在輸入側(cè)維持表面的X句子單詞順序，但是其實(shí)在Transformer內(nèi)部，看到的已經(jīng)是被重新排列組合后的順序，是通過(guò)Attention掩碼來(lái)實(shí)現(xiàn)的。如上圖所示，輸入看上去仍然是x1,x2,x3,x4，可以通過(guò)不同的掩碼矩陣，讓當(dāng)前單詞Xi只能看到被排列組合后的順序x3->x2->x4->x1中自己前面的單詞。這樣就在內(nèi)部改成了被預(yù)測(cè)單詞同時(shí)看到上下文單詞，但是輸入側(cè)看上去仍然維持原先的單詞順序了。

關(guān)鍵要看明白上圖右側(cè)那個(gè)掩碼矩陣，我相信很多人剛開(kāi)始沒(méi)看明白，因?yàn)槲覄傞_(kāi)始也沒(méi)看明白，因?yàn)闆](méi)有標(biāo)出掩碼矩陣的單詞坐標(biāo)，它的坐標(biāo)是1-2-3-4，就是表面那個(gè)X的單詞順序，通過(guò)掩碼矩陣，就能改成你想要的排列組合，并讓當(dāng)前單詞看到它該看到的所謂上文，其實(shí)是摻雜了上文和下文的內(nèi)容。這是attention mask來(lái)實(shí)現(xiàn)排列組合的背后的意思。

上面講的Permutation Language Model是XLNet的主要理論創(chuàng)新，所以介紹的比較多，從模型角度講，這個(gè)創(chuàng)新還是挺有意思的，因?yàn)樗_(kāi)啟了自回歸語(yǔ)言模型如何引入下文的一個(gè)思路，相信對(duì)于后續(xù)工作會(huì)有啟發(fā)。當(dāng)然，XLNet不僅僅做了這些，它還引入了其它的因素，也算是一個(gè)當(dāng)前有效技術(shù)的集成體。

感覺(jué)XLNet就是Bert、GPT 2.0和Transformer XL的綜合體變身，首先，它通過(guò)PLM預(yù)訓(xùn)練目標(biāo)，吸收了Bert的雙向語(yǔ)言模型；然后，GPT2.0的核心其實(shí)是更多更高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)，這個(gè)明顯也被XLNet吸收進(jìn)來(lái)了；再然后，Transformer XL的主要思想也被吸收進(jìn)來(lái)，它的主要目標(biāo)是解決Transformer對(duì)于長(zhǎng)文檔NLP應(yīng)用不夠友好的問(wèn)題。

以上是XLNet的幾個(gè)主要改進(jìn)點(diǎn)，有模型創(chuàng)新方面的，有其它模型引入方面的，也有數(shù)據(jù)擴(kuò)充方面的。那么，這些因素各自起到了什么作用呢？在后面我們會(huì)談。在談不同因素各自作用之前，我們先分析下XLNet和Bert的異同問(wèn)題。

與 Bert 的預(yù)訓(xùn)練過(guò)程的異同問(wèn)題

盡管看上去，XLNet在預(yù)訓(xùn)練機(jī)制引入的Permutation Language Model這種新的預(yù)訓(xùn)練目標(biāo)，和Bert采用Mask標(biāo)記這種方式，有很大不同。其實(shí)你深入思考一下，會(huì)發(fā)現(xiàn)，兩者本質(zhì)是類似的。區(qū)別主要在于：Bert是直接在輸入端顯示地通過(guò)引入Mask標(biāo)記，在輸入側(cè)隱藏掉一部分單詞，讓這些單詞在預(yù)測(cè)的時(shí)候不發(fā)揮作用，要求利用上下文中其它單詞去預(yù)測(cè)某個(gè)被Mask掉的單詞；而XLNet則拋棄掉輸入側(cè)的Mask標(biāo)記，通過(guò)Attention Mask機(jī)制，在Transformer內(nèi)部隨機(jī)Mask掉一部分單詞（這個(gè)被Mask掉的單詞比例跟當(dāng)前單詞在句子中的位置有關(guān)系，位置越靠前，被Mask掉的比例越高，位置越靠后，被Mask掉的比例越低），讓這些被Mask掉的單詞在預(yù)測(cè)某個(gè)單詞的時(shí)候不發(fā)生作用。

所以，本質(zhì)上兩者并沒(méi)什么太大的不同，只是Mask的位置，Bert更表面化一些，XLNet則把這個(gè)過(guò)程隱藏在了Transformer內(nèi)部而已。這樣，就可以拋掉表面的[Mask]標(biāo)記，解決它所說(shuō)的預(yù)訓(xùn)練里帶有[Mask]標(biāo)記導(dǎo)致的和Fine-tuning過(guò)程不一致的問(wèn)題。至于說(shuō)XLNet說(shuō)的，Bert里面被Mask掉單詞的相互獨(dú)立問(wèn)題，也就是說(shuō)，在預(yù)測(cè)某個(gè)被Mask單詞的時(shí)候，其它被Mask單詞不起作用，這個(gè)問(wèn)題，你深入思考一下，其實(shí)是不重要的，因?yàn)閄LNet在內(nèi)部Attention Mask的時(shí)候，也會(huì)Mask掉一定比例的上下文單詞，只要有一部分被Mask掉的單詞，其實(shí)就面臨這個(gè)問(wèn)題。

而如果訓(xùn)練數(shù)據(jù)足夠大，其實(shí)不靠當(dāng)前這個(gè)例子，靠其它例子，也能彌補(bǔ)被Mask單詞直接的相互關(guān)系問(wèn)題，因?yàn)榭傆衅渌幽軌驅(qū)W會(huì)這些單詞的相互依賴關(guān)系。

我相信，通過(guò)改造Bert的預(yù)訓(xùn)練過(guò)程，其實(shí)是可以模擬XLNet的Permutation Language Model過(guò)程的：Bert目前的做法是，給定輸入句子X(jué)，隨機(jī)Mask掉15%的單詞，然后要求利用剩下的85%的單詞去預(yù)測(cè)任意一個(gè)被Mask掉的單詞，被Mask掉的單詞在這個(gè)過(guò)程中相互之間沒(méi)有發(fā)揮作用。

如果我們把Bert的預(yù)訓(xùn)練過(guò)程改造成：對(duì)于輸入句子，隨機(jī)選擇其中任意一個(gè)單詞Ti，只把這個(gè)單詞改成Mask標(biāo)記，假設(shè)Ti在句子中是第i個(gè)單詞，那么此時(shí)隨機(jī)選擇X中的任意i個(gè)單詞，只用這i個(gè)單詞去預(yù)測(cè)被Mask掉的單詞。

當(dāng)然，這個(gè)過(guò)程理論上也可以在Transformer內(nèi)采用attention mask來(lái)實(shí)現(xiàn)。如果是這樣，其實(shí)Bert的預(yù)訓(xùn)練模式就和XLNet是基本等價(jià)的了。

或者換個(gè)角度思考，假設(shè)仍然利用Bert目前的Mask機(jī)制，但是把Mask掉15%這個(gè)條件極端化，改成，每次一個(gè)句子只Mask掉一個(gè)單詞，利用剩下的單詞來(lái)預(yù)測(cè)被Mask掉的單詞。那么，這個(gè)過(guò)程其實(shí)跟XLNet的PLM也是比較相像的，區(qū)別主要在于每次預(yù)測(cè)被Mask掉的單詞的時(shí)候，利用的上下文更多一些（XLNet在實(shí)現(xiàn)的時(shí)候，為了提升效率，其實(shí)也是選擇每個(gè)句子最后末尾的1/K單詞被預(yù)測(cè)，假設(shè)K=7，意味著一個(gè)句子X(jué)，只有末尾的1/7的單詞會(huì)被預(yù)測(cè)，這意味著什么呢？意味著至少保留了6/7的Context單詞去預(yù)測(cè)某個(gè)單詞，對(duì)于最末尾的單詞，意味著保留了所有的句子中X的其它單詞，這其實(shí)和上面提到的Bert只保留一個(gè)被Mask單詞是一樣的）。

或者我們站在Bert預(yù)訓(xùn)練的角度來(lái)考慮XLNet，如果XLNet改成對(duì)于句子X(jué)，只需要預(yù)測(cè)句子中最后一個(gè)單詞，而不是最后的1/K（就是假設(shè)K特別大的情況），那么其實(shí)和Bert每個(gè)輸入句子只Mask掉一個(gè)單詞，兩者基本是等價(jià)的。

當(dāng)然，XLNet這種改造，維持了表面看上去的自回歸語(yǔ)言模型的從左向右的模式，這個(gè)Bert做不到，這個(gè)有明顯的好處，就是對(duì)于生成類的任務(wù)，能夠在維持表面從左向右的生成過(guò)程前提下，模型里隱含了上下文的信息。

所以看上去，XLNet貌似應(yīng)該對(duì)于生成類型的NLP任務(wù)，會(huì)比Bert有明顯優(yōu)勢(shì)。另外，因?yàn)閄LNet還引入了Transformer XL的機(jī)制，所以對(duì)于長(zhǎng)文檔輸入類型的NLP任務(wù)，也會(huì)比Bert有明顯優(yōu)勢(shì)。

哪些因素在起作用？

如上分析，XLNet有個(gè)好處，但是感覺(jué)同時(shí)也是個(gè)問(wèn)題，那就是：XLNet其實(shí)同時(shí)引入了很多因素在模型里。說(shuō)是好處，因?yàn)閷?shí)驗(yàn)證明了這樣效果確實(shí)好，即使是跟Bert_Large這種非常強(qiáng)的基準(zhǔn)模型比也是，尤其是長(zhǎng)文檔任務(wù)，這個(gè)效果提升比較明顯；說(shuō)是問(wèn)題，是因?yàn)槠鋵?shí)應(yīng)該在實(shí)驗(yàn)部分充分說(shuō)明，如果模型起了作用，這些因素各自發(fā)揮了多大作用，尤其是在跟Bert進(jìn)行對(duì)比的時(shí)候，感覺(jué)應(yīng)該把數(shù)據(jù)規(guī)模這個(gè)變量磨平進(jìn)行比較，因?yàn)檫@才是單純的模型差異導(dǎo)致的性能差異，而不是訓(xùn)練數(shù)據(jù)量引發(fā)的差異。

當(dāng)然，XLNet最后一組實(shí)驗(yàn)是把這個(gè)預(yù)訓(xùn)練數(shù)據(jù)規(guī)模差異磨平后，和Bert比較的，所以信息含量更大些。而前面的幾組實(shí)驗(yàn)，因?yàn)樘烊淮嬖陬A(yù)訓(xùn)練數(shù)據(jù)量的差異，所以模型導(dǎo)致的差異到底有多大，看得不太明顯。

我們上文提到過(guò)，XLNet起作用的，如果宏觀歸納一下，共有三個(gè)因素；

1. 與Bert采取De-noising Autoencoder方式不同的新的預(yù)訓(xùn)練目標(biāo)：Permutation Language Model(簡(jiǎn)稱PLM)；這個(gè)可以理解為在自回歸LM模式下，如何采取具體手段，來(lái)融入雙向語(yǔ)言模型。這個(gè)是XLNet在模型角度比較大的貢獻(xiàn)，確實(shí)也打開(kāi)了NLP中兩階段模式潮流的一個(gè)新思路。

2. 引入了Transformer-XL的主要思路：相對(duì)位置編碼以及分段RNN機(jī)制。實(shí)踐已經(jīng)證明這兩點(diǎn)對(duì)于長(zhǎng)文檔任務(wù)是很有幫助的；

3. 加大增加了預(yù)訓(xùn)練階段使用的數(shù)據(jù)規(guī)模；Bert使用的預(yù)訓(xùn)練數(shù)據(jù)是BooksCorpus和英文Wiki數(shù)據(jù)，大小13G。XLNet除了使用這些數(shù)據(jù)外，另外引入了Giga5，ClueWeb以及Common Crawl數(shù)據(jù)，并排掉了其中的一些低質(zhì)量數(shù)據(jù)，大小分別是16G,19G和78G?？梢钥闯?，在預(yù)訓(xùn)練階段極大擴(kuò)充了數(shù)據(jù)規(guī)模，并對(duì)質(zhì)量進(jìn)行了篩選過(guò)濾。這個(gè)明顯走的是GPT2.0的路線。

所以實(shí)驗(yàn)部分需要仔細(xì)分析，提升到底是上述哪個(gè)因素或者是哪幾個(gè)因素導(dǎo)致的性能提升？

我們把實(shí)驗(yàn)分成幾個(gè)部分來(lái)分析。

首先，給人最大的印象是：XLNet對(duì)于閱讀理解類任務(wù)，相對(duì)Bert，性能有極大幅度地提升。下面是論文報(bào)道的實(shí)驗(yàn)結(jié)果：

其中，RACE和SQuAD 2.0是文檔長(zhǎng)度較長(zhǎng)的閱讀理解任務(wù)，任務(wù)難度也相對(duì)高?？梢钥闯?，在這兩個(gè)任務(wù)中，XLNet相對(duì) Bert_Large，確實(shí)有大幅性能提升（Race提升13.5%,SQuAD 2.0 F1指標(biāo)提升8.6）。在Squad1.1上提升盡管稍微小些，F(xiàn)1提升3.9%，但是因?yàn)榛鶞?zhǔn)高，所以提升也比較明顯。

說(shuō)XLNet在閱讀理解，尤其是長(zhǎng)文檔的閱讀理解中，性能大幅超過(guò)Bert，這個(gè)是沒(méi)疑問(wèn)的。但是，因?yàn)閄LNet融入了上文說(shuō)的三個(gè)因素，所以不確定每個(gè)因素在其中起的作用有多大，而對(duì)于長(zhǎng)文檔，Transformer XL的引入肯定起了比較大的作用，Bert天然在這種類型任務(wù)中有缺點(diǎn)，其它兩類因素的作用不清楚。

感覺(jué)這里應(yīng)該增加一個(gè)基準(zhǔn)，就是Bert用與XLNet相同大小的預(yù)訓(xùn)練數(shù)據(jù)做，這樣抹平數(shù)據(jù)量差異，更好比較模型差異帶來(lái)的效果差異。當(dāng)然，我覺(jué)得即使是這樣，XLNet應(yīng)該仍然是比Bert效果好的，只是可能不會(huì)差距這么大，因?yàn)閄LNet的長(zhǎng)文檔優(yōu)勢(shì)肯定會(huì)起作用。

下面我們看下其它類型的NLP任務(wù)。

GLUE是個(gè)綜合的NLP任務(wù)集合，包含各種類型的任務(wù)，因?yàn)閑nsemble模式里面包含了各種花式的trick，所以重點(diǎn)看上面一組實(shí)驗(yàn)，這里比較單純。從實(shí)驗(yàn)數(shù)據(jù)看，XLNet相對(duì)Bert也有性能提升，當(dāng)然不像閱讀理解提升那么大，而且性能提升比較大的集中在RTE，MNLI和COLA數(shù)據(jù)集合，其它任務(wù)提升效果還好。

而我一直覺(jué)得，RTE在GLUE里，是個(gè)神奇的存在，如果沒(méi)有它，很多論文的效果可能沒(méi)法看，這個(gè)是閑話，先不講了，后面我會(huì)單說(shuō)。

當(dāng)然，仍然不確定這種性能提升主要來(lái)自于XLNet的哪個(gè)因素，或者哪幾個(gè)因素各自的貢獻(xiàn)，尤其是如果Bert加大預(yù)訓(xùn)練數(shù)據(jù)規(guī)模后，兩者性能差異有多大。感覺(jué)這里Transformer XL的因素可能發(fā)揮的作用不會(huì)太大，其它兩個(gè)因素在起作用，但是作用未知，這里感覺(jué)應(yīng)該補(bǔ)充其它實(shí)驗(yàn)。

上面是文本分類任務(wù)和信息檢索任務(wù)，可以看出，相對(duì)Bert，XLNet效果有提升，但是幅度不算大。仍然是上面的考慮，起作用的三個(gè)因素，到底哪個(gè)發(fā)揮多大作用，從數(shù)據(jù)方面看不太出來(lái)。

下面一組實(shí)驗(yàn)可以仔細(xì)分析一下，這組實(shí)驗(yàn)是排除掉上述第三個(gè)數(shù)據(jù)規(guī)模因素的實(shí)驗(yàn)的對(duì)比，就是說(shuō)XLNet用的是和Bert相同規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)，所以與Bert對(duì)比更具備模型方面的可比較性，而沒(méi)有數(shù)據(jù)規(guī)模的影響。實(shí)驗(yàn)結(jié)果如下：

如果仔細(xì)分析實(shí)驗(yàn)數(shù)據(jù)，實(shí)驗(yàn)結(jié)果說(shuō)明：

因?yàn)楹虰ert比較，XLNet使用相同的預(yù)訓(xùn)練數(shù)據(jù)。所以兩者的性能差異來(lái)自于：Permutation Language Model預(yù)訓(xùn)練目標(biāo)以及Transformer XL的長(zhǎng)文檔因素。

而從中可以看出，DAE+Transformer XL體現(xiàn)的是長(zhǎng)文檔因素的差異，和Bert比，Race提升1個(gè)點(diǎn)，SQuAD F1提升3個(gè)點(diǎn)，MNLI提升0.5個(gè)點(diǎn)，SST-2性能稍微下降。這是Transformer XL因素解決長(zhǎng)文檔因素帶來(lái)的收益，很明顯，長(zhǎng)文檔閱讀理解任務(wù)提升比較明顯，其它任務(wù)提升不太明顯。

而通過(guò)XLNet進(jìn)一步和DAE+Transformer XL及Bert比，這一點(diǎn)應(yīng)該拆解出Permutation Language Model和Mask的方式差異?？梢钥闯觯篨LNet相對(duì)DAE+Transformer XL來(lái)說(shuō)，Race進(jìn)一步提升1個(gè)點(diǎn)左右；SQuAD進(jìn)一步提升1.8個(gè)點(diǎn)左右，NMLI提升1個(gè)點(diǎn)左右，SST-B提升不到1個(gè)點(diǎn)。

雖然不精準(zhǔn)，但是大致是能說(shuō)明問(wèn)題的，這個(gè)應(yīng)該大致是PLM帶來(lái)的模型收益?？梢钥闯?，PLM還是普遍有效的，但是提升幅度并非特別巨大。

如果我們結(jié)合前面Race和SQuAD的實(shí)驗(yàn)結(jié)果看（上面兩組實(shí)驗(yàn)是三個(gè)因素的作用，后面是排除掉數(shù)據(jù)量差異的結(jié)果，所以兩者的差距，很可能就是第三個(gè)因素：數(shù)據(jù)規(guī)模導(dǎo)致的差異，當(dāng)然，因?yàn)橐粋€(gè)是Bert_base，一個(gè)是Bert_Large，所以不具備完全可比性，但是大致估計(jì)不會(huì)偏離真實(shí)結(jié)論太遠(yuǎn)），Race數(shù)據(jù)集合三因素同時(shí)具備的XLNet，超過(guò)Bert絕對(duì)值大約9個(gè)多百分點(diǎn)，Transformer因素+PLM因素估計(jì)貢獻(xiàn)大約在2到4個(gè)點(diǎn)之間，那么意味著預(yù)訓(xùn)練數(shù)據(jù)量導(dǎo)致的差異大概在4到5個(gè)點(diǎn)左右；類似的，可以看出，SQuAD 2.0中，預(yù)訓(xùn)練數(shù)據(jù)量導(dǎo)致的差異大約在2到3個(gè)點(diǎn)左右，也就是說(shuō)，估計(jì)訓(xùn)練數(shù)據(jù)量帶來(lái)的提升，在閱讀理解任務(wù)中大約占比30%到40%左右。

如果從實(shí)驗(yàn)結(jié)果歸納一下的話，可以看出：XLNet綜合而言，效果是優(yōu)于Bert的，尤其是在長(zhǎng)文檔類型任務(wù)，效果提升明顯。如果進(jìn)一步拆解的話，因?yàn)閷?duì)比實(shí)驗(yàn)不足，只能做個(gè)粗略的結(jié)論：預(yù)訓(xùn)練數(shù)據(jù)量的提升，大概帶來(lái)30%左右的性能提升，其它兩個(gè)模型因素帶來(lái)剩余的大約70%的性能提升。

當(dāng)然，這個(gè)主要指的是XLNet性能提升比較明顯的閱讀理解類任務(wù)而言。對(duì)于其它類型任務(wù)，感覺(jué)Transformer XL的因素貢獻(xiàn)估計(jì)不會(huì)太大，主要應(yīng)該是其它兩個(gè)因素在起作用。

對(duì)NLP應(yīng)用任務(wù)的影響

XLNet其實(shí)本質(zhì)上還是ELMO／GPT／Bert這一系列兩階段模型的進(jìn)一步延伸。在將自回歸LM方向引入雙向語(yǔ)言模型方面，感覺(jué)打開(kāi)了一個(gè)新思路，這點(diǎn)還是非常對(duì)人有啟發(fā)的。當(dāng)然，如果深入思考，其實(shí)和Bert并沒(méi)有太大的不同。

如果讓我推論下XLNet的出現(xiàn)，對(duì)后續(xù)NLP工作的影響，我覺(jué)得跟Bert比，最直接的影響應(yīng)該有兩個(gè)，一個(gè)是對(duì)于Bert長(zhǎng)文檔的應(yīng)用，因?yàn)門ransformer天然對(duì)長(zhǎng)文檔任務(wù)處理有弱點(diǎn)，所以XLNet對(duì)于長(zhǎng)文檔NLP任務(wù)相比Bert應(yīng)該有直接且比較明顯的性能提升作用，它在論文中也證明了這點(diǎn)。所以，以后長(zhǎng)文檔類型的NLP應(yīng)用，XLNet明顯跟Bert比占優(yōu)勢(shì)。當(dāng)然，你說(shuō)我把Transformer XL的因素引入Bert，然后繼續(xù)在Bert上做改進(jìn)，明顯這也是可以的。

第二點(diǎn)，對(duì)于生成類的NLP任務(wù)，到目前為止，盡管出了一些改進(jìn)模型，但是從效果看，Bert仍然不能很好地處理。而因?yàn)閄LNet的預(yù)訓(xùn)練模式天然符合下游任務(wù)序列生成結(jié)果，所以按理說(shuō)能夠直接通過(guò)引入XLNet來(lái)改進(jìn)生成類NLP任務(wù)的效果。所以，這點(diǎn)估計(jì)是XLNet會(huì)明顯占優(yōu)勢(shì)的一個(gè)領(lǐng)域。

可以預(yù)計(jì)的是，很快我們就會(huì)看到XLNet在文本摘要，機(jī)器翻譯，信息檢索…..等符合上述XLNet應(yīng)用領(lǐng)域特點(diǎn)和優(yōu)勢(shì)領(lǐng)域的應(yīng)用結(jié)果，以及在這些任務(wù)上的進(jìn)一步改進(jìn)模型。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

nlp

nlp

+關(guān)注

關(guān)注
1

文章
483

瀏覽量
21972

原文標(biāo)題：碾壓Bert？“屠榜”的XLnet對(duì)NLP任務(wù)意味著什么

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

電子設(shè)備有陶瓷電容意味著什么？

陶瓷電容在電子設(shè)備中作用重要，包括高頻濾波、去靜電噪聲、體積小適合便攜設(shè)備和成本低廉。其高頻特性確保信號(hào)穩(wěn)定，去除靜電干擾，且適合空間受限設(shè)備，是經(jīng)濟(jì)實(shí)惠的選擇。

發(fā)表于 09-11 15:33 ?229次閱讀

電子設(shè)備有陶瓷電容<b class='flag-5'>意味著</b>什么？

請(qǐng)問(wèn)固定增益芯片是否意味著不能通過(guò)改變外圍參數(shù)來(lái)改變?cè)鲆妫?/a>

固定增益芯片是否意味著我不能通過(guò)改變外圍參數(shù)來(lái)改變?cè)鲆妫?

發(fā)表于 09-11 07:13

想要對(duì)脈寬3ns的脈沖信號(hào)進(jìn)行放大，是不是意味著我選放大器時(shí)的響應(yīng)時(shí)間要小于3ns？

想要對(duì)脈寬3ns的脈沖信號(hào)進(jìn)行放大，是不是意味著我選放大器時(shí)的響應(yīng)時(shí)間要小于3ns？

發(fā)表于 08-08 07:31

解析OrangePi AIpro：什么是 NPU？它對(duì)你意味著什么？

神經(jīng)處理單元是一種專用的人工智能芯片，它能為計(jì)算機(jī)的CPU或GPU分擔(dān)部分工作，使設(shè)備能更好地工作。人工智能（AI）在過(guò)去幾個(gè)月里取得了巨大進(jìn)步，為個(gè)人電腦提供了更多便利和更快的處理速度。以人工智能為重點(diǎn)的計(jì)算機(jī)效率很大一部分是通過(guò)NPU（神經(jīng)處理單元）實(shí)現(xiàn)的，在即將推出的高通驍龍XElite和英特爾酷睿Ultra處理器中可以找到這種處理器。但究竟什么是NP

發(fā)表于 07-31 14:49 ?2044次閱讀

解析OrangePi AIpro：什么是 NPU？它對(duì)你<b class='flag-5'>意味著</b>什么？

nlp神經(jīng)語(yǔ)言和NLP自然語(yǔ)言的區(qū)別和聯(lián)系

神經(jīng)語(yǔ)言（Neuro-Linguistic Programming，NLP）神經(jīng)語(yǔ)言是一種心理學(xué)方法，它研究人類思維、語(yǔ)言和行為之間的關(guān)系。NLP的核心理念是，我們可以通過(guò)改變我們的思維方式和語(yǔ)言

發(fā)表于 07-09 10:35 ?638次閱讀

nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

的應(yīng)用，如搜索引擎、機(jī)器翻譯、語(yǔ)音識(shí)別、情感分析等。 NLP的主要任務(wù) NLP的主要任務(wù)可以分為以下幾個(gè)方面： 1.1 詞法分析（Lexical Analysis）詞法分析是

發(fā)表于 07-09 10:26 ?590次閱讀

llm模型有哪些格式

Representations from Transformers）：BERT是一種雙向預(yù)訓(xùn)練模型，通過(guò)大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，可以用于各種NLP任務(wù)，如文本分類、問(wèn)答、命名實(shí)體識(shí)別等。 b. GPT（

發(fā)表于 07-09 09:59 ?441次閱讀

芯耀輝科技解讀高速互連對(duì)于AI和大算力芯片而言意味著什么？

近年來(lái)，隨著人工智能技術(shù)的迅猛發(fā)展，大算力芯片已成為推動(dòng)AI技術(shù)創(chuàng)新的關(guān)鍵力量。然而，隨著芯片內(nèi)部計(jì)算單元數(shù)量的增加和任務(wù)復(fù)雜度的提升，互連已成為一個(gè)嚴(yán)重的瓶頸，制約著算力的發(fā)揮。好比飯店里烹飪

發(fā)表于 07-08 11:39 ?809次閱讀

NLP模型中RNN與CNN的選擇

在自然語(yǔ)言處理（NLP）領(lǐng)域，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）與卷積神經(jīng)網(wǎng)絡(luò)（CNN）是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢(shì)，適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN

發(fā)表于 07-03 15:59 ?312次閱讀

以應(yīng)用為導(dǎo)向的芯片設(shè)計(jì)趨勢(shì)，對(duì)EDA廠商意味著什么？

在過(guò)去的幾年中，隨著科技的不斷進(jìn)步和市場(chǎng)需求的快速變化，以“應(yīng)用為導(dǎo)向的芯片設(shè)計(jì)”成為了電子設(shè)計(jì)自動(dòng)化（EDA）行業(yè)的一個(gè)重要趨勢(shì)?！耙詰?yīng)用為導(dǎo)向”也就是從實(shí)際應(yīng)用出發(fā)，側(cè)重于滿足特定應(yīng)用場(chǎng)景的需求。這一趨勢(shì)的興起，主要是因?yàn)槿鏡ISC-V、Chiplet和AI等技術(shù)的爆發(fā)引領(lǐng)了許多新的應(yīng)用需求。同時(shí)，隨著摩爾定律的極限逐漸顯現(xiàn)，PPA越來(lái)越難，傳統(tǒng)的通用解

發(fā)表于 04-26 08:23 ?636次閱讀