0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

碾壓Bert?“屠榜”的XLnet對(duì)NLP任務(wù)意味著什么

WpOh_rgznai100 ? 來(lái)源:YXQ ? 2019-06-25 14:11 ? 次閱讀

這兩天,XLNet貌似也引起了NLP圈的極大關(guān)注,從實(shí)驗(yàn)數(shù)據(jù)看,在某些場(chǎng)景下,確實(shí)XLNet相對(duì)Bert有很大幅度的提升。就像我們之前說(shuō)的,感覺(jué)Bert打開(kāi)兩階段模式的魔法盒開(kāi)關(guān)后,在這條路上,會(huì)有越來(lái)越多的同行者,而XLNet就是其中比較引人注目的一位。當(dāng)然,我估計(jì)很快我們會(huì)看到更多的這個(gè)模式下的新工作。

未來(lái)兩年,在兩階段新模式(預(yù)訓(xùn)練+Finetuning)下,應(yīng)該會(huì)有更多的好工作涌現(xiàn)出來(lái)。根本原因在于:這個(gè)模式的潛力還沒(méi)有被充分挖掘,貌似還有很大的提升空間。當(dāng)然,這也意味著NLP在未來(lái)兩年會(huì)有各種技術(shù)或者應(yīng)用的突破,現(xiàn)在其實(shí)是進(jìn)入NLP領(lǐng)域非常好的時(shí)機(jī)。原因有兩個(gè),一個(gè)是NLP正面臨一個(gè)技術(shù)棧大的改朝換代的時(shí)刻,有很多空白等著你去填補(bǔ),容易出成績(jī);另外一點(diǎn),貌似Bert+Transformer有統(tǒng)一NLP各個(gè)應(yīng)用領(lǐng)域的趨向,這意味著此時(shí)進(jìn)入NLP領(lǐng)域,具備學(xué)習(xí)成本非常低的好處,和之前相比,投入產(chǎn)出比非常合算。

當(dāng)然,即使如此,想要學(xué)好NLP,持續(xù)的精力投入是必不可少的。有句老話說(shuō)得好:“永恒的愛(ài)大約持續(xù)三個(gè)月”,這句話其實(shí)對(duì)于很多對(duì)NLP感興趣的同學(xué)也成立:“對(duì)NLP的永恒的熱情大約能夠持續(xù)3到5天”,希望真的有興趣的同學(xué)能堅(jiān)持一下,起碼持續(xù)7到8天,湊夠一個(gè)星期…..

那么XLNet和Bert比,有什么異同?有什么模型方面的改進(jìn)?在哪些場(chǎng)景下特別有效?原因又是什么?本文通過(guò)論文思想解讀及實(shí)驗(yàn)結(jié)果分析,試圖回答上述問(wèn)題。

首先,XLNet引入了自回歸語(yǔ)言模型以及自編碼語(yǔ)言模型的提法,這個(gè)思維框架我覺(jué)得挺好的,可以先簡(jiǎn)單說(shuō)明下。

自回歸語(yǔ)言模型(Autoregressive LM)

在ELMO/BERT出來(lái)之前,大家通常講的語(yǔ)言模型其實(shí)是根據(jù)上文內(nèi)容預(yù)測(cè)下一個(gè)可能跟隨的單詞,就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù),或者反過(guò)來(lái)也行,就是根據(jù)下文預(yù)測(cè)前面的單詞,這種類型的LM被稱為自回歸語(yǔ)言模型。GPT 就是典型的自回歸語(yǔ)言模型。ELMO盡管看上去利用了上文,也利用了下文,但是本質(zhì)上仍然是自回歸LM,這個(gè)跟模型具體怎么實(shí)現(xiàn)有關(guān)系。ELMO是做了兩個(gè)方向(從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型),但是是分別有兩個(gè)方向的自回歸LM,然后把LSTM的兩個(gè)方向的隱節(jié)點(diǎn)狀態(tài)拼接到一起,來(lái)體現(xiàn)雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接,本質(zhì)上仍然是自回歸語(yǔ)言模型。

自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn),缺點(diǎn)是只能利用上文或者下文的信息,不能同時(shí)利用上文和下文的信息,當(dāng)然,貌似ELMO這種雙向都做,然后拼接看上去能夠解決這個(gè)問(wèn)題,因?yàn)槿诤夏J竭^(guò)于簡(jiǎn)單,所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn),其實(shí)跟下游NLP任務(wù)有關(guān),比如生成類NLP任務(wù),比如文本摘要,機(jī)器翻譯等,在實(shí)際生成內(nèi)容的時(shí)候,就是從左向右的,自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程。而B(niǎo)ert這種DAE模式,在生成類NLP任務(wù)中,就面臨訓(xùn)練過(guò)程和應(yīng)用過(guò)程不一致的問(wèn)題,導(dǎo)致生成類的NLP任務(wù)到目前為止都做不太好。

自編碼語(yǔ)言模型(Autoencoder LM)

自回歸語(yǔ)言模型只能根據(jù)上文預(yù)測(cè)下一個(gè)單詞,或者反過(guò)來(lái),只能根據(jù)下文預(yù)測(cè)前面一個(gè)單詞。相比而言,Bert通過(guò)在輸入X中隨機(jī)Mask掉一部分單詞,然后預(yù)訓(xùn)練過(guò)程的主要任務(wù)之一是根據(jù)上下文單詞來(lái)預(yù)測(cè)這些被Mask掉的單詞,如果你對(duì)Denoising Autoencoder比較熟悉的話,會(huì)看出,這確實(shí)是典型的DAE的思路。那些被Mask掉的單詞就是在輸入側(cè)加入的所謂噪音。類似Bert這種預(yù)訓(xùn)練模式,被稱為DAE LM。

這種DAE LM的優(yōu)缺點(diǎn)正好和自回歸LM反過(guò)來(lái),它能比較自然地融入雙向語(yǔ)言模型,同時(shí)看到被預(yù)測(cè)單詞的上文和下文,這是好處。缺點(diǎn)是啥呢?主要在輸入側(cè)引入[Mask]標(biāo)記,導(dǎo)致預(yù)訓(xùn)練階段和Fine-tuning階段不一致的問(wèn)題,因?yàn)镕ine-tuning階段是看不到[Mask]標(biāo)記的。DAE嗎,就要引入噪音,[Mask] 標(biāo)記就是引入噪音的手段,這個(gè)正常。

XLNet的出發(fā)點(diǎn)就是:能否融合自回歸LM和DAE LM兩者的優(yōu)點(diǎn)。就是說(shuō)如果站在自回歸LM的角度,如何引入和雙向語(yǔ)言模型等價(jià)的效果;如果站在DAE LM的角度看,它本身是融入雙向語(yǔ)言模型的,如何拋掉表面的那個(gè)[Mask]標(biāo)記,讓預(yù)訓(xùn)練和Fine-tuning保持一致。當(dāng)然,XLNet還講到了一個(gè)Bert被Mask單詞之間相互獨(dú)立的問(wèn)題,我相信這個(gè)不太重要,原因后面會(huì)說(shuō)。當(dāng)然,我認(rèn)為這點(diǎn)不重要的事情,純粹是個(gè)人觀點(diǎn),出錯(cuò)難免,看看就完了,不用較真。

XLNet做了些什么

上文說(shuō)過(guò),Bert這種自編碼語(yǔ)言模型的好處是:能夠同時(shí)利用上文和下文,所以信息利用充分。對(duì)于很多NLP任務(wù)而言,典型的比如閱讀理解,在解決問(wèn)題的時(shí)候,是能夠同時(shí)看到上文和下文的,所以當(dāng)然應(yīng)該把下文利用起來(lái)。

在Bert原始論文中,與GPT1.0的實(shí)驗(yàn)對(duì)比分析也可以看出來(lái),BERT相對(duì)GPT 1.0的性能提升,主要來(lái)自于雙向語(yǔ)言模型與單向語(yǔ)言模型的差異。這是Bert的好處,很明顯,Bert之后的改進(jìn)模型,如果不能把雙向語(yǔ)言模型用起來(lái),那明顯是很吃虧的。

當(dāng)然,GPT 2.0的作者不信這個(gè)邪,堅(jiān)持沿用GPT 1.0 單向語(yǔ)言模型的舊瓶,裝進(jìn)去了更高質(zhì)量更大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)的新酒,而它的實(shí)驗(yàn)結(jié)果也說(shuō)明了,如果想改善預(yù)訓(xùn)練語(yǔ)言模型,走這條擴(kuò)充預(yù)序列模型訓(xùn)練數(shù)據(jù)的路子,是個(gè)多快好但是不省錢的方向。這也進(jìn)一步說(shuō)明了,預(yù)訓(xùn)練LM這條路,還遠(yuǎn)遠(yuǎn)沒(méi)有走完,還有很大的提升空間,比如最簡(jiǎn)單的提升方法就是加大數(shù)據(jù)規(guī)模,提升數(shù)據(jù)質(zhì)量。

但是Bert的自編碼語(yǔ)言模型也有對(duì)應(yīng)的缺點(diǎn),就是XLNet在文中指出的,第一個(gè)預(yù)訓(xùn)練階段因?yàn)椴扇∫隱Mask]標(biāo)記來(lái)Mask掉部分單詞的訓(xùn)練模式,而Fine-tuning階段是看不到這種被強(qiáng)行加入的Mask標(biāo)記的,所以兩個(gè)階段存在使用模式不一致的情形,這可能會(huì)帶來(lái)一定的性能損失;另外一個(gè)是,Bert在第一個(gè)預(yù)訓(xùn)練階段,假設(shè)句子中多個(gè)單詞被Mask掉,這些被Mask掉的單詞之間沒(méi)有任何關(guān)系,是條件獨(dú)立的,而有時(shí)候這些單詞之間是有關(guān)系的,XLNet則考慮了這種關(guān)系(關(guān)于這點(diǎn)原因是否可靠,后面會(huì)專門分析)。

上面兩點(diǎn)是XLNet在第一個(gè)預(yù)訓(xùn)練階段,相對(duì)Bert來(lái)說(shuō)要解決的兩個(gè)問(wèn)題。

其實(shí)從另外一個(gè)角度更好理解XLNet的初衷和做法,我覺(jué)得這個(gè)估計(jì)是XLNet作者真正的思考出發(fā)點(diǎn),是啥呢?就是說(shuō)自回歸語(yǔ)言模型有個(gè)缺點(diǎn),要么從左到右,要么從右到左,盡管可以類似ELMO兩個(gè)都做,然后再拼接的方式。但是跟Bert比,效果明顯不足夠好(這里面有RNN弱于Transformer的因素,也有雙向語(yǔ)言模型怎么做的因素)。

那么,能不能類似Bert那樣,比較充分地在自回歸語(yǔ)言模型中,引入雙向語(yǔ)言模型呢?因?yàn)锽ert已經(jīng)證明了這是非常關(guān)鍵的一點(diǎn)。這一點(diǎn),想法簡(jiǎn)單,但是看上去貌似不太好做,因?yàn)閺淖笙蛴业恼Z(yǔ)言模型,如果我們當(dāng)前根據(jù)上文,要預(yù)測(cè)某個(gè)單詞Ti,那么看上去它沒(méi)法看到下文的內(nèi)容。具體怎么做才能讓這個(gè)模型:看上去仍然是從左向右的輸入和預(yù)測(cè)模式,但是其實(shí)內(nèi)部已經(jīng)引入了當(dāng)前單詞的下文信息呢?XLNet在模型方面的主要貢獻(xiàn)其實(shí)是在這里。

那么XLNet是怎么做到這一點(diǎn)的呢?其實(shí)思路也比較簡(jiǎn)潔,可以這么思考:XLNet仍然遵循兩階段的過(guò)程,第一個(gè)階段是語(yǔ)言模型預(yù)訓(xùn)練階段;第二階段是任務(wù)數(shù)據(jù)Fine-tuning階段。它主要希望改動(dòng)第一個(gè)階段,就是說(shuō)不像Bert那種帶Mask符號(hào)的Denoising-autoencoder的模式,而是采用自回歸LM的模式。

就是說(shuō),看上去輸入句子X(jué)仍然是自左向右的輸入,看到Ti單詞的上文Context_before,來(lái)預(yù)測(cè)Ti這個(gè)單詞。但是又希望在Context_before里,不僅僅看到上文單詞,也能看到Ti單詞后面的下文Context_after里的下文單詞,這樣的話,Bert里面預(yù)訓(xùn)練階段引入的Mask符號(hào)就不需要了,于是在預(yù)訓(xùn)練階段,看上去是個(gè)標(biāo)準(zhǔn)的從左向右過(guò)程,F(xiàn)ine-tuning當(dāng)然也是這個(gè)過(guò)程,于是兩個(gè)環(huán)節(jié)就統(tǒng)一起來(lái)。當(dāng)然,這是目標(biāo)。剩下是怎么做到這一點(diǎn)的問(wèn)題。

那么,怎么能夠在單詞Ti的上文中Contenxt_before中揉入下文Context_after的內(nèi)容呢?你可以想想。XLNet是這么做的,在預(yù)訓(xùn)練階段,引入Permutation Language Model的訓(xùn)練目標(biāo)。什么意思呢?

就是說(shuō),比如包含單詞Ti的當(dāng)前輸入的句子X(jué),由順序的幾個(gè)單詞構(gòu)成,比如x1,x2,x3,x4四個(gè)單詞順序構(gòu)成。我們假設(shè),其中,要預(yù)測(cè)的單詞Ti是x3,位置在Position 3,要想讓它能夠在上文Context_before中,也就是Position 1或者Position 2的位置看到Position 4的單詞x4??梢赃@么做:假設(shè)我們固定住x3所在位置,就是它仍然在Position 3,之后隨機(jī)排列組合句子中的4個(gè)單詞,在隨機(jī)排列組合后的各種可能里,再選擇一部分作為模型預(yù)訓(xùn)練的輸入X。比如隨機(jī)排列組合后,抽取出x4,x2,x3,x1這一個(gè)排列組合作為模型的輸入X。于是,x3就能同時(shí)看到上文x2,以及下文x4的內(nèi)容了。

這就是XLNet的基本思想,所以說(shuō),看了這個(gè)就可以理解上面講的它的初衷了吧:看上去仍然是個(gè)自回歸的從左到右的語(yǔ)言模型,但是其實(shí)通過(guò)對(duì)句子中單詞排列組合,把一部分Ti下文的單詞排到Ti的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是從左到右在預(yù)測(cè)后一個(gè)單詞。

當(dāng)然,上面講的仍然是基本思想。難點(diǎn)其實(shí)在于具體怎么做才能實(shí)現(xiàn)上述思想。首先,需要強(qiáng)調(diào)一點(diǎn),盡管上面講的是把句子X(jué)的單詞排列組合后,再隨機(jī)抽取例子作為輸入,但是,實(shí)際上你是不能這么做的,因?yàn)镕ine-tuning階段你不可能也去排列組合原始輸入。所以,就必須讓預(yù)訓(xùn)練階段的輸入部分,看上去仍然是x1,x2,x3,x4這個(gè)輸入順序,但是可以在Transformer部分做些工作,來(lái)達(dá)成我們希望的目標(biāo)。

具體而言,XLNet采取了Attention掩碼的機(jī)制,你可以理解為,當(dāng)前的輸入句子是X,要預(yù)測(cè)的單詞Ti是第i個(gè)單詞,前面1到i-1個(gè)單詞,在輸入部分觀察,并沒(méi)發(fā)生變化,該是誰(shuí)還是誰(shuí)。但是在Transformer內(nèi)部,通過(guò)Attention掩碼,從X的輸入單詞里面,也就是Ti的上文和下文單詞中,隨機(jī)選擇i-1個(gè),放到Ti的上文位置中,把其它單詞的輸入通過(guò)Attention掩碼隱藏掉,于是就能夠達(dá)成我們期望的目標(biāo)(當(dāng)然這個(gè)所謂放到Ti的上文位置,只是一種形象的說(shuō)法,其實(shí)在內(nèi)部,就是通過(guò)Attention Mask,把其它沒(méi)有被選到的單詞Mask掉,不讓它們?cè)陬A(yù)測(cè)單詞Ti的時(shí)候發(fā)生作用,如此而已??粗皖愃朴诎堰@些被選中的單詞放到了上文Context_before的位置了)。

具體實(shí)現(xiàn)的時(shí)候,XLNet是用“雙流自注意力模型”實(shí)現(xiàn)的,細(xì)節(jié)可以參考論文,但是基本思想就如上所述,雙流自注意力機(jī)制只是實(shí)現(xiàn)這個(gè)思想的具體方式,理論上,你可以想出其它具體實(shí)現(xiàn)方式來(lái)實(shí)現(xiàn)這個(gè)基本思想,也能達(dá)成讓Ti看到下文單詞的目標(biāo)。

這里簡(jiǎn)單說(shuō)下“雙流自注意力機(jī)制”,一個(gè)是內(nèi)容流自注意力,其實(shí)就是標(biāo)準(zhǔn)的Transformer的計(jì)算過(guò)程;主要是引入了Query流自注意力,這個(gè)是干嘛的呢?

其實(shí)就是用來(lái)代替Bert的那個(gè)[Mask]標(biāo)記的,因?yàn)閄LNet希望拋掉[Mask]標(biāo)記符號(hào),但是比如知道上文單詞x1,x2,要預(yù)測(cè)單詞x3,此時(shí)在x3對(duì)應(yīng)位置的Transformer最高層去預(yù)測(cè)這個(gè)單詞,但是輸入側(cè)不能看到要預(yù)測(cè)的單詞x3,Bert其實(shí)是直接引入[Mask]標(biāo)記來(lái)覆蓋掉單詞x3的內(nèi)容的,等于說(shuō)[Mask]是個(gè)通用的占位符號(hào)。

而XLNet因?yàn)橐獟伒鬧Mask]標(biāo)記,但是又不能看到x3的輸入,于是Query流,就直接忽略掉x3輸入了,只保留這個(gè)位置信息,用參數(shù)w來(lái)代表位置的embedding編碼。其實(shí)XLNet只是扔了表面的[Mask]占位符號(hào),內(nèi)部還是引入Query流來(lái)忽略掉被Mask的這個(gè)單詞。和Bert比,只是實(shí)現(xiàn)方式不同而已。

上面說(shuō)的Attention掩碼,我估計(jì)你還是沒(méi)了解它的意思,我再用例子解釋一下。Attention Mask的機(jī)制,核心就是說(shuō),盡管當(dāng)前輸入看上去仍然是x1->x2->x3->x4,但是我們已經(jīng)改成隨機(jī)排列組合的另外一個(gè)順序x3->x2->x4->x1了,如果用這個(gè)例子用來(lái)從左到右訓(xùn)練LM,意味著當(dāng)預(yù)測(cè)x2的時(shí)候,它只能看到上文x3;當(dāng)預(yù)測(cè)x4的時(shí)候,只能看到上文x3和x2,以此類推……這樣,比如對(duì)于x2來(lái)說(shuō),就看到了下文x3了。

這種在輸入側(cè)維持表面的X句子單詞順序,但是其實(shí)在Transformer內(nèi)部,看到的已經(jīng)是被重新排列組合后的順序,是通過(guò)Attention掩碼來(lái)實(shí)現(xiàn)的。如上圖所示,輸入看上去仍然是x1,x2,x3,x4,可以通過(guò)不同的掩碼矩陣,讓當(dāng)前單詞Xi只能看到被排列組合后的順序x3->x2->x4->x1中自己前面的單詞。這樣就在內(nèi)部改成了被預(yù)測(cè)單詞同時(shí)看到上下文單詞,但是輸入側(cè)看上去仍然維持原先的單詞順序了。

關(guān)鍵要看明白上圖右側(cè)那個(gè)掩碼矩陣,我相信很多人剛開(kāi)始沒(méi)看明白,因?yàn)槲覄傞_(kāi)始也沒(méi)看明白,因?yàn)闆](méi)有標(biāo)出掩碼矩陣的單詞坐標(biāo),它的坐標(biāo)是1-2-3-4,就是表面那個(gè)X的單詞順序,通過(guò)掩碼矩陣,就能改成你想要的排列組合,并讓當(dāng)前單詞看到它該看到的所謂上文,其實(shí)是摻雜了上文和下文的內(nèi)容。這是attention mask來(lái)實(shí)現(xiàn)排列組合的背后的意思。

上面講的Permutation Language Model是XLNet的主要理論創(chuàng)新,所以介紹的比較多,從模型角度講,這個(gè)創(chuàng)新還是挺有意思的,因?yàn)樗_(kāi)啟了自回歸語(yǔ)言模型如何引入下文的一個(gè)思路,相信對(duì)于后續(xù)工作會(huì)有啟發(fā)。當(dāng)然,XLNet不僅僅做了這些,它還引入了其它的因素,也算是一個(gè)當(dāng)前有效技術(shù)的集成體。

感覺(jué)XLNet就是Bert、GPT 2.0和Transformer XL的綜合體變身,首先,它通過(guò)PLM預(yù)訓(xùn)練目標(biāo),吸收了Bert的雙向語(yǔ)言模型;然后,GPT2.0的核心其實(shí)是更多更高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù),這個(gè)明顯也被XLNet吸收進(jìn)來(lái)了;再然后,Transformer XL的主要思想也被吸收進(jìn)來(lái),它的主要目標(biāo)是解決Transformer對(duì)于長(zhǎng)文檔NLP應(yīng)用不夠友好的問(wèn)題。

以上是XLNet的幾個(gè)主要改進(jìn)點(diǎn),有模型創(chuàng)新方面的,有其它模型引入方面的,也有數(shù)據(jù)擴(kuò)充方面的。那么,這些因素各自起到了什么作用呢?在后面我們會(huì)談。在談不同因素各自作用之前,我們先分析下XLNet和Bert的異同問(wèn)題。

與 Bert 的預(yù)訓(xùn)練過(guò)程的異同問(wèn)題

盡管看上去,XLNet在預(yù)訓(xùn)練機(jī)制引入的Permutation Language Model這種新的預(yù)訓(xùn)練目標(biāo),和Bert采用Mask標(biāo)記這種方式,有很大不同。其實(shí)你深入思考一下,會(huì)發(fā)現(xiàn),兩者本質(zhì)是類似的。區(qū)別主要在于:Bert是直接在輸入端顯示地通過(guò)引入Mask標(biāo)記,在輸入側(cè)隱藏掉一部分單詞,讓這些單詞在預(yù)測(cè)的時(shí)候不發(fā)揮作用,要求利用上下文中其它單詞去預(yù)測(cè)某個(gè)被Mask掉的單詞;而XLNet則拋棄掉輸入側(cè)的Mask標(biāo)記,通過(guò)Attention Mask機(jī)制,在Transformer內(nèi)部隨機(jī)Mask掉一部分單詞(這個(gè)被Mask掉的單詞比例跟當(dāng)前單詞在句子中的位置有關(guān)系,位置越靠前,被Mask掉的比例越高,位置越靠后,被Mask掉的比例越低),讓這些被Mask掉的單詞在預(yù)測(cè)某個(gè)單詞的時(shí)候不發(fā)生作用。

所以,本質(zhì)上兩者并沒(méi)什么太大的不同,只是Mask的位置,Bert更表面化一些,XLNet則把這個(gè)過(guò)程隱藏在了Transformer內(nèi)部而已。這樣,就可以拋掉表面的[Mask]標(biāo)記,解決它所說(shuō)的預(yù)訓(xùn)練里帶有[Mask]標(biāo)記導(dǎo)致的和Fine-tuning過(guò)程不一致的問(wèn)題。至于說(shuō)XLNet說(shuō)的,Bert里面被Mask掉單詞的相互獨(dú)立問(wèn)題,也就是說(shuō),在預(yù)測(cè)某個(gè)被Mask單詞的時(shí)候,其它被Mask單詞不起作用,這個(gè)問(wèn)題,你深入思考一下,其實(shí)是不重要的,因?yàn)閄LNet在內(nèi)部Attention Mask的時(shí)候,也會(huì)Mask掉一定比例的上下文單詞,只要有一部分被Mask掉的單詞,其實(shí)就面臨這個(gè)問(wèn)題。

而如果訓(xùn)練數(shù)據(jù)足夠大,其實(shí)不靠當(dāng)前這個(gè)例子,靠其它例子,也能彌補(bǔ)被Mask單詞直接的相互關(guān)系問(wèn)題,因?yàn)榭傆衅渌幽軌驅(qū)W會(huì)這些單詞的相互依賴關(guān)系。

我相信,通過(guò)改造Bert的預(yù)訓(xùn)練過(guò)程,其實(shí)是可以模擬XLNet的Permutation Language Model過(guò)程的:Bert目前的做法是,給定輸入句子X(jué),隨機(jī)Mask掉15%的單詞,然后要求利用剩下的85%的單詞去預(yù)測(cè)任意一個(gè)被Mask掉的單詞,被Mask掉的單詞在這個(gè)過(guò)程中相互之間沒(méi)有發(fā)揮作用。

如果我們把Bert的預(yù)訓(xùn)練過(guò)程改造成:對(duì)于輸入句子,隨機(jī)選擇其中任意一個(gè)單詞Ti,只把這個(gè)單詞改成Mask標(biāo)記,假設(shè)Ti在句子中是第i個(gè)單詞,那么此時(shí)隨機(jī)選擇X中的任意i個(gè)單詞,只用這i個(gè)單詞去預(yù)測(cè)被Mask掉的單詞。

當(dāng)然,這個(gè)過(guò)程理論上也可以在Transformer內(nèi)采用attention mask來(lái)實(shí)現(xiàn)。如果是這樣,其實(shí)Bert的預(yù)訓(xùn)練模式就和XLNet是基本等價(jià)的了。

或者換個(gè)角度思考,假設(shè)仍然利用Bert目前的Mask機(jī)制,但是把Mask掉15%這個(gè)條件極端化,改成,每次一個(gè)句子只Mask掉一個(gè)單詞,利用剩下的單詞來(lái)預(yù)測(cè)被Mask掉的單詞。那么,這個(gè)過(guò)程其實(shí)跟XLNet的PLM也是比較相像的,區(qū)別主要在于每次預(yù)測(cè)被Mask掉的單詞的時(shí)候,利用的上下文更多一些(XLNet在實(shí)現(xiàn)的時(shí)候,為了提升效率,其實(shí)也是選擇每個(gè)句子最后末尾的1/K單詞被預(yù)測(cè),假設(shè)K=7,意味著一個(gè)句子X(jué),只有末尾的1/7的單詞會(huì)被預(yù)測(cè),這意味著什么呢?意味著至少保留了6/7的Context單詞去預(yù)測(cè)某個(gè)單詞,對(duì)于最末尾的單詞,意味著保留了所有的句子中X的其它單詞,這其實(shí)和上面提到的Bert只保留一個(gè)被Mask單詞是一樣的)。

或者我們站在Bert預(yù)訓(xùn)練的角度來(lái)考慮XLNet,如果XLNet改成對(duì)于句子X(jué),只需要預(yù)測(cè)句子中最后一個(gè)單詞,而不是最后的1/K(就是假設(shè)K特別大的情況),那么其實(shí)和Bert每個(gè)輸入句子只Mask掉一個(gè)單詞,兩者基本是等價(jià)的。

當(dāng)然,XLNet這種改造,維持了表面看上去的自回歸語(yǔ)言模型的從左向右的模式,這個(gè)Bert做不到,這個(gè)有明顯的好處,就是對(duì)于生成類的任務(wù),能夠在維持表面從左向右的生成過(guò)程前提下,模型里隱含了上下文的信息。

所以看上去,XLNet貌似應(yīng)該對(duì)于生成類型的NLP任務(wù),會(huì)比Bert有明顯優(yōu)勢(shì)。另外,因?yàn)閄LNet還引入了Transformer XL的機(jī)制,所以對(duì)于長(zhǎng)文檔輸入類型的NLP任務(wù),也會(huì)比Bert有明顯優(yōu)勢(shì)。

哪些因素在起作用?

如上分析,XLNet有個(gè)好處,但是感覺(jué)同時(shí)也是個(gè)問(wèn)題,那就是:XLNet其實(shí)同時(shí)引入了很多因素在模型里。說(shuō)是好處,因?yàn)閷?shí)驗(yàn)證明了這樣效果確實(shí)好,即使是跟Bert_Large這種非常強(qiáng)的基準(zhǔn)模型比也是,尤其是長(zhǎng)文檔任務(wù),這個(gè)效果提升比較明顯;說(shuō)是問(wèn)題,是因?yàn)槠鋵?shí)應(yīng)該在實(shí)驗(yàn)部分充分說(shuō)明,如果模型起了作用,這些因素各自發(fā)揮了多大作用,尤其是在跟Bert進(jìn)行對(duì)比的時(shí)候,感覺(jué)應(yīng)該把數(shù)據(jù)規(guī)模這個(gè)變量磨平進(jìn)行比較,因?yàn)檫@才是單純的模型差異導(dǎo)致的性能差異,而不是訓(xùn)練數(shù)據(jù)量引發(fā)的差異。

當(dāng)然,XLNet最后一組實(shí)驗(yàn)是把這個(gè)預(yù)訓(xùn)練數(shù)據(jù)規(guī)模差異磨平后,和Bert比較的,所以信息含量更大些。而前面的幾組實(shí)驗(yàn),因?yàn)樘烊淮嬖陬A(yù)訓(xùn)練數(shù)據(jù)量的差異,所以模型導(dǎo)致的差異到底有多大,看得不太明顯。

我們上文提到過(guò),XLNet起作用的,如果宏觀歸納一下,共有三個(gè)因素;

1. 與Bert采取De-noising Autoencoder方式不同的新的預(yù)訓(xùn)練目標(biāo):Permutation Language Model(簡(jiǎn)稱PLM);這個(gè)可以理解為在自回歸LM模式下,如何采取具體手段,來(lái)融入雙向語(yǔ)言模型。這個(gè)是XLNet在模型角度比較大的貢獻(xiàn),確實(shí)也打開(kāi)了NLP中兩階段模式潮流的一個(gè)新思路。

2. 引入了Transformer-XL的主要思路:相對(duì)位置編碼以及分段RNN機(jī)制。實(shí)踐已經(jīng)證明這兩點(diǎn)對(duì)于長(zhǎng)文檔任務(wù)是很有幫助的;

3. 加大增加了預(yù)訓(xùn)練階段使用的數(shù)據(jù)規(guī)模;Bert使用的預(yù)訓(xùn)練數(shù)據(jù)是BooksCorpus和英文Wiki數(shù)據(jù),大小13G。XLNet除了使用這些數(shù)據(jù)外,另外引入了Giga5,ClueWeb以及Common Crawl數(shù)據(jù),并排掉了其中的一些低質(zhì)量數(shù)據(jù),大小分別是16G,19G和78G??梢钥闯?,在預(yù)訓(xùn)練階段極大擴(kuò)充了數(shù)據(jù)規(guī)模,并對(duì)質(zhì)量進(jìn)行了篩選過(guò)濾。這個(gè)明顯走的是GPT2.0的路線。

所以實(shí)驗(yàn)部分需要仔細(xì)分析,提升到底是上述哪個(gè)因素或者是哪幾個(gè)因素導(dǎo)致的性能提升?

我們把實(shí)驗(yàn)分成幾個(gè)部分來(lái)分析。

首先,給人最大的印象是:XLNet對(duì)于閱讀理解類任務(wù),相對(duì)Bert,性能有極大幅度地提升。下面是論文報(bào)道的實(shí)驗(yàn)結(jié)果:

其中,RACE和SQuAD 2.0是文檔長(zhǎng)度較長(zhǎng)的閱讀理解任務(wù),任務(wù)難度也相對(duì)高??梢钥闯?,在這兩個(gè)任務(wù)中,XLNet相對(duì) Bert_Large,確實(shí)有大幅性能提升(Race提升13.5%,SQuAD 2.0 F1指標(biāo)提升8.6)。在Squad1.1上提升盡管稍微小些,F(xiàn)1提升3.9%,但是因?yàn)榛鶞?zhǔn)高,所以提升也比較明顯。

說(shuō)XLNet在閱讀理解,尤其是長(zhǎng)文檔的閱讀理解中,性能大幅超過(guò)Bert,這個(gè)是沒(méi)疑問(wèn)的。但是,因?yàn)閄LNet融入了上文說(shuō)的三個(gè)因素,所以不確定每個(gè)因素在其中起的作用有多大,而對(duì)于長(zhǎng)文檔,Transformer XL的引入肯定起了比較大的作用,Bert天然在這種類型任務(wù)中有缺點(diǎn),其它兩類因素的作用不清楚。

感覺(jué)這里應(yīng)該增加一個(gè)基準(zhǔn),就是Bert用與XLNet相同大小的預(yù)訓(xùn)練數(shù)據(jù)做,這樣抹平數(shù)據(jù)量差異,更好比較模型差異帶來(lái)的效果差異。當(dāng)然,我覺(jué)得即使是這樣,XLNet應(yīng)該仍然是比Bert效果好的,只是可能不會(huì)差距這么大,因?yàn)閄LNet的長(zhǎng)文檔優(yōu)勢(shì)肯定會(huì)起作用。

下面我們看下其它類型的NLP任務(wù)。

GLUE是個(gè)綜合的NLP任務(wù)集合,包含各種類型的任務(wù),因?yàn)閑nsemble模式里面包含了各種花式的trick,所以重點(diǎn)看上面一組實(shí)驗(yàn),這里比較單純。從實(shí)驗(yàn)數(shù)據(jù)看,XLNet相對(duì)Bert也有性能提升,當(dāng)然不像閱讀理解提升那么大,而且性能提升比較大的集中在RTE,MNLI和COLA數(shù)據(jù)集合,其它任務(wù)提升效果還好。

而我一直覺(jué)得,RTE在GLUE里,是個(gè)神奇的存在,如果沒(méi)有它,很多論文的效果可能沒(méi)法看,這個(gè)是閑話,先不講了,后面我會(huì)單說(shuō)。

當(dāng)然,仍然不確定這種性能提升主要來(lái)自于XLNet的哪個(gè)因素,或者哪幾個(gè)因素各自的貢獻(xiàn),尤其是如果Bert加大預(yù)訓(xùn)練數(shù)據(jù)規(guī)模后,兩者性能差異有多大。感覺(jué)這里Transformer XL的因素可能發(fā)揮的作用不會(huì)太大,其它兩個(gè)因素在起作用,但是作用未知,這里感覺(jué)應(yīng)該補(bǔ)充其它實(shí)驗(yàn)。

上面是文本分類任務(wù)和信息檢索任務(wù),可以看出,相對(duì)Bert,XLNet效果有提升,但是幅度不算大。仍然是上面的考慮,起作用的三個(gè)因素,到底哪個(gè)發(fā)揮多大作用,從數(shù)據(jù)方面看不太出來(lái)。

下面一組實(shí)驗(yàn)可以仔細(xì)分析一下,這組實(shí)驗(yàn)是排除掉上述第三個(gè)數(shù)據(jù)規(guī)模因素的實(shí)驗(yàn)的對(duì)比,就是說(shuō)XLNet用的是和Bert相同規(guī)模的預(yù)訓(xùn)練數(shù)據(jù),所以與Bert對(duì)比更具備模型方面的可比較性,而沒(méi)有數(shù)據(jù)規(guī)模的影響。實(shí)驗(yàn)結(jié)果如下:

如果仔細(xì)分析實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)結(jié)果說(shuō)明:

因?yàn)楹虰ert比較,XLNet使用相同的預(yù)訓(xùn)練數(shù)據(jù)。所以兩者的性能差異來(lái)自于:Permutation Language Model預(yù)訓(xùn)練目標(biāo)以及Transformer XL的長(zhǎng)文檔因素。

而從中可以看出,DAE+Transformer XL體現(xiàn)的是長(zhǎng)文檔因素的差異,和Bert比,Race提升1個(gè)點(diǎn),SQuAD F1提升3個(gè)點(diǎn),MNLI提升0.5個(gè)點(diǎn),SST-2性能稍微下降。這是Transformer XL因素解決長(zhǎng)文檔因素帶來(lái)的收益,很明顯,長(zhǎng)文檔閱讀理解任務(wù)提升比較明顯,其它任務(wù)提升不太明顯。

而通過(guò)XLNet進(jìn)一步和DAE+Transformer XL及Bert比,這一點(diǎn)應(yīng)該拆解出Permutation Language Model和Mask的方式差異??梢钥闯觯篨LNet相對(duì)DAE+Transformer XL來(lái)說(shuō),Race進(jìn)一步提升1個(gè)點(diǎn)左右;SQuAD進(jìn)一步提升1.8個(gè)點(diǎn)左右,NMLI提升1個(gè)點(diǎn)左右,SST-B提升不到1個(gè)點(diǎn)。

雖然不精準(zhǔn),但是大致是能說(shuō)明問(wèn)題的,這個(gè)應(yīng)該大致是PLM帶來(lái)的模型收益??梢钥闯?,PLM還是普遍有效的,但是提升幅度并非特別巨大。

如果我們結(jié)合前面Race和SQuAD的實(shí)驗(yàn)結(jié)果看(上面兩組實(shí)驗(yàn)是三個(gè)因素的作用,后面是排除掉數(shù)據(jù)量差異的結(jié)果,所以兩者的差距,很可能就是第三個(gè)因素:數(shù)據(jù)規(guī)模導(dǎo)致的差異,當(dāng)然,因?yàn)橐粋€(gè)是Bert_base,一個(gè)是Bert_Large,所以不具備完全可比性,但是大致估計(jì)不會(huì)偏離真實(shí)結(jié)論太遠(yuǎn)),Race數(shù)據(jù)集合三因素同時(shí)具備的XLNet,超過(guò)Bert絕對(duì)值大約9個(gè)多百分點(diǎn),Transformer因素+PLM因素估計(jì)貢獻(xiàn)大約在2到4個(gè)點(diǎn)之間,那么意味著預(yù)訓(xùn)練數(shù)據(jù)量導(dǎo)致的差異大概在4到5個(gè)點(diǎn)左右;類似的,可以看出,SQuAD 2.0中,預(yù)訓(xùn)練數(shù)據(jù)量導(dǎo)致的差異大約在2到3個(gè)點(diǎn)左右,也就是說(shuō),估計(jì)訓(xùn)練數(shù)據(jù)量帶來(lái)的提升,在閱讀理解任務(wù)中大約占比30%到40%左右。

如果從實(shí)驗(yàn)結(jié)果歸納一下的話,可以看出:XLNet綜合而言,效果是優(yōu)于Bert的,尤其是在長(zhǎng)文檔類型任務(wù),效果提升明顯。如果進(jìn)一步拆解的話,因?yàn)閷?duì)比實(shí)驗(yàn)不足,只能做個(gè)粗略的結(jié)論:預(yù)訓(xùn)練數(shù)據(jù)量的提升,大概帶來(lái)30%左右的性能提升,其它兩個(gè)模型因素帶來(lái)剩余的大約70%的性能提升。

當(dāng)然,這個(gè)主要指的是XLNet性能提升比較明顯的閱讀理解類任務(wù)而言。對(duì)于其它類型任務(wù),感覺(jué)Transformer XL的因素貢獻(xiàn)估計(jì)不會(huì)太大,主要應(yīng)該是其它兩個(gè)因素在起作用。

對(duì)NLP應(yīng)用任務(wù)的影響

XLNet其實(shí)本質(zhì)上還是ELMO/GPT/Bert這一系列兩階段模型的進(jìn)一步延伸。在將自回歸LM方向引入雙向語(yǔ)言模型方面,感覺(jué)打開(kāi)了一個(gè)新思路,這點(diǎn)還是非常對(duì)人有啟發(fā)的。當(dāng)然,如果深入思考,其實(shí)和Bert并沒(méi)有太大的不同。

如果讓我推論下XLNet的出現(xiàn),對(duì)后續(xù)NLP工作的影響,我覺(jué)得跟Bert比,最直接的影響應(yīng)該有兩個(gè),一個(gè)是對(duì)于Bert長(zhǎng)文檔的應(yīng)用,因?yàn)門ransformer天然對(duì)長(zhǎng)文檔任務(wù)處理有弱點(diǎn),所以XLNet對(duì)于長(zhǎng)文檔NLP任務(wù)相比Bert應(yīng)該有直接且比較明顯的性能提升作用,它在論文中也證明了這點(diǎn)。所以,以后長(zhǎng)文檔類型的NLP應(yīng)用,XLNet明顯跟Bert比占優(yōu)勢(shì)。當(dāng)然,你說(shuō)我把Transformer XL的因素引入Bert,然后繼續(xù)在Bert上做改進(jìn),明顯這也是可以的。

第二點(diǎn),對(duì)于生成類的NLP任務(wù),到目前為止,盡管出了一些改進(jìn)模型,但是從效果看,Bert仍然不能很好地處理。而因?yàn)閄LNet的預(yù)訓(xùn)練模式天然符合下游任務(wù)序列生成結(jié)果,所以按理說(shuō)能夠直接通過(guò)引入XLNet來(lái)改進(jìn)生成類NLP任務(wù)的效果。所以,這點(diǎn)估計(jì)是XLNet會(huì)明顯占優(yōu)勢(shì)的一個(gè)領(lǐng)域。

可以預(yù)計(jì)的是,很快我們就會(huì)看到XLNet在文本摘要,機(jī)器翻譯,信息檢索…..等符合上述XLNet應(yīng)用領(lǐng)域特點(diǎn)和優(yōu)勢(shì)領(lǐng)域的應(yīng)用結(jié)果,以及在這些任務(wù)上的進(jìn)一步改進(jìn)模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    483

    瀏覽量

    21972

原文標(biāo)題:碾壓Bert?“屠榜”的XLnet對(duì)NLP任務(wù)意味著什么

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    電子設(shè)備有陶瓷電容意味著什么?

    陶瓷電容在電子設(shè)備中作用重要,包括高頻濾波、去靜電噪聲、體積小適合便攜設(shè)備和成本低廉。其高頻特性確保信號(hào)穩(wěn)定,去除靜電干擾,且適合空間受限設(shè)備,是經(jīng)濟(jì)實(shí)惠的選擇。
    的頭像 發(fā)表于 09-11 15:33 ?229次閱讀
    電子設(shè)備有陶瓷電容<b class='flag-5'>意味著</b>什么?

    請(qǐng)問(wèn)固定增益芯片是否意味著不能通過(guò)改變外圍參數(shù)來(lái)改變?cè)鲆妫?/a>

    固定增益芯片是否意味著我不能通過(guò)改變外圍參數(shù)來(lái)改變?cè)鲆妫?
    發(fā)表于 09-11 07:13

    想要對(duì)脈寬3ns的脈沖信號(hào)進(jìn)行放大,是不是意味著我選放大器時(shí)的響應(yīng)時(shí)間要小于3ns?

    想要對(duì)脈寬3ns的脈沖信號(hào)進(jìn)行放大,是不是意味著我選放大器時(shí)的響應(yīng)時(shí)間要小于3ns?
    發(fā)表于 08-08 07:31

    解析OrangePi AIpro:什么是 NPU?它對(duì)你意味著什么?

    神經(jīng)處理單元是一種專用的人工智能芯片,它能為計(jì)算機(jī)的CPU或GPU分擔(dān)部分工作,使設(shè)備能更好地工作。人工智能(AI)在過(guò)去幾個(gè)月里取得了巨大進(jìn)步,為個(gè)人電腦提供了更多便利和更快的處理速度。以人工智能為重點(diǎn)的計(jì)算機(jī)效率很大一部分是通過(guò)NPU(神經(jīng)處理單元)實(shí)現(xiàn)的,在即將推出的高通驍龍XElite和英特爾酷睿Ultra處理器中可以找到這種處理器。但究竟什么是NP
    的頭像 發(fā)表于 07-31 14:49 ?2044次閱讀
    解析OrangePi AIpro:什么是 NPU?它對(duì)你<b class='flag-5'>意味著</b>什么?

    nlp神經(jīng)語(yǔ)言和NLP自然語(yǔ)言的區(qū)別和聯(lián)系

    神經(jīng)語(yǔ)言(Neuro-Linguistic Programming,NLP) 神經(jīng)語(yǔ)言是一種心理學(xué)方法,它研究人類思維、語(yǔ)言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過(guò)改變我們的思維方式和語(yǔ)言
    的頭像 發(fā)表于 07-09 10:35 ?638次閱讀

    nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

    的應(yīng)用,如搜索引擎、機(jī)器翻譯、語(yǔ)音識(shí)別、情感分析等。 NLP的主要任務(wù) NLP的主要任務(wù)可以分為以下幾個(gè)方面: 1.1 詞法分析(Lexical Analysis) 詞法分析是
    的頭像 發(fā)表于 07-09 10:26 ?590次閱讀

    llm模型有哪些格式

    Representations from Transformers):BERT是一種雙向預(yù)訓(xùn)練模型,通過(guò)大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,可以用于各種NLP任務(wù),如文本分類、問(wèn)答、命名實(shí)體識(shí)別等。 b. GPT(
    的頭像 發(fā)表于 07-09 09:59 ?441次閱讀

    芯耀輝科技解讀高速互連對(duì)于AI和大算力芯片而言意味著什么?

    近年來(lái),隨著人工智能技術(shù)的迅猛發(fā)展,大算力芯片已成為推動(dòng)AI技術(shù)創(chuàng)新的關(guān)鍵力量。然而,隨著芯片內(nèi)部計(jì)算單元數(shù)量的增加和任務(wù)復(fù)雜度的提升,互連已成為一個(gè)嚴(yán)重的瓶頸,制約算力的發(fā)揮。好比飯店里烹飪
    的頭像 發(fā)表于 07-08 11:39 ?809次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語(yǔ)言處理(NLP)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢(shì),適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN
    的頭像 發(fā)表于 07-03 15:59 ?312次閱讀

    以應(yīng)用為導(dǎo)向的芯片設(shè)計(jì)趨勢(shì),對(duì)EDA廠商意味著什么?

    在過(guò)去的幾年中,隨著科技的不斷進(jìn)步和市場(chǎng)需求的快速變化,以“應(yīng)用為導(dǎo)向的芯片設(shè)計(jì)”成為了電子設(shè)計(jì)自動(dòng)化(EDA)行業(yè)的一個(gè)重要趨勢(shì)?!耙詰?yīng)用為導(dǎo)向”也就是從實(shí)際應(yīng)用出發(fā),側(cè)重于滿足特定應(yīng)用場(chǎng)景的需求。這一趨勢(shì)的興起,主要是因?yàn)槿鏡ISC-V、Chiplet和AI等技術(shù)的爆發(fā)引領(lǐng)了許多新的應(yīng)用需求。同時(shí),隨著摩爾定律的極限逐漸顯現(xiàn),PPA越來(lái)越難,傳統(tǒng)的通用解
    的頭像 發(fā)表于 04-26 08:23 ?636次閱讀
    以應(yīng)用為導(dǎo)向的芯片設(shè)計(jì)趨勢(shì),對(duì)EDA廠商<b class='flag-5'>意味著</b>什么?

    請(qǐng)問(wèn)freertos測(cè)試外部1KHz頻率,會(huì)不會(huì)讓系統(tǒng)負(fù)荷加重?

    請(qǐng)問(wèn)我現(xiàn)在測(cè)試頻率有1khz,采用輸入捕獲的模式,就是意味著1ms就進(jìn)中斷,中斷中,釋放信號(hào)量進(jìn)行同步,任務(wù)就會(huì)讀取該頻率,意味著任務(wù)會(huì)每1ms讀取頻率值,這會(huì)不會(huì)時(shí)間太短了, 其他
    發(fā)表于 04-18 08:12

    ADM1191本身芯片電源為3.15到26V,是否意味著SENSE端只能測(cè)試接近這個(gè)范圍的電壓?

    小弟我是一個(gè)尚在學(xué)習(xí)過(guò)程的學(xué)生,現(xiàn)如今試圖用ADM1191芯片測(cè)試其他電路的電流, 有兩個(gè)問(wèn)題想要請(qǐng)教: 1、ADM1191本身芯片電源為3.15到26V,是否意味著SENSE端只能測(cè)試接近這個(gè)
    發(fā)表于 01-09 06:15

    大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

    for Language Understanding》,BERT模型橫空出世,并橫掃NLP領(lǐng)域11項(xiàng)任務(wù)的最佳成績(jī)。而在BERT中發(fā)揮重要作用的結(jié)構(gòu)就是Transformer,之后又
    的頭像 發(fā)表于 12-25 08:36 ?3390次閱讀
    大語(yǔ)言模型背后的Transformer,與CNN和RNN有何不同

    AD5420沒(méi)有CS引腳是否意味著不能和其他SPI接口的芯片共用SPI總線呢?

    請(qǐng)問(wèn)一下,AD5420沒(méi)有CS引腳是否意味著不能和其他SPI接口的芯片共用SPI總線呢?如果必須共用SPI總線有沒(méi)有什么解決方案呢? 我的電路中將AD7715和AD5420同時(shí)連接到MCU的SPI
    發(fā)表于 12-15 07:25

    基于BERT算法搭建一個(gè)問(wèn)答搜索引擎

    鼎鼎大名的 Bert 算法相信大部分同學(xué)都聽(tīng)說(shuō)過(guò),它是Google推出的NLP領(lǐng)域“王炸級(jí)”預(yù)訓(xùn)練模型,其在NLP任務(wù)中刷新了多項(xiàng)記錄,并取得state of the art的成績(jī)。
    的頭像 發(fā)表于 10-30 11:46 ?550次閱讀
    基于<b class='flag-5'>BERT</b>算法搭建一個(gè)問(wèn)答搜索引擎