粗大挺进亲女H晓晓凌寒顾晓晓 ,日本强奷中文字幕在线播放

為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功，谷歌的研究團(tuán)隊(duì)在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索（NAS）之后，使用了翻譯作為一般的序列任務(wù)的代理，并找到了Evolved Transformer這一新的Transformer架構(gòu)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果，與原始的Transformer相比，它還展示了語(yǔ)言建模的改進(jìn)性能。

自幾年前推出以來(lái)，Google的Transformer架構(gòu)已經(jīng)應(yīng)用于從制作奇幻小說(shuō)到編寫(xiě)音樂(lè)和聲的各種挑戰(zhàn)。重要的是，Transformer的高性能已經(jīng)證明，當(dāng)應(yīng)用于序列任務(wù)（例如語(yǔ)言建模和翻譯）時(shí)，前饋神經(jīng)網(wǎng)絡(luò)可以與遞歸神經(jīng)網(wǎng)絡(luò)一樣有效。雖然用于序列問(wèn)題的Transformer和其他前饋模型越來(lái)越受歡迎，但它們的架構(gòu)幾乎完全是手動(dòng)設(shè)計(jì)的，與計(jì)算機(jī)視覺(jué)領(lǐng)域形成鮮明對(duì)比。AutoML方法已經(jīng)找到了最先進(jìn)的模型，其性能優(yōu)于手工設(shè)計(jì)的模型。當(dāng)然，我們想知道AutoML在序列域中的應(yīng)用是否同樣成功。

在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索（NAS）之后，我們使用翻譯作為一般的序列任務(wù)的代理，我們找到了Evolved Transformer，這是一種新的Transformer架構(gòu)，它展示了對(duì)各種自然語(yǔ)言處理（NLP）任務(wù)的有希望的改進(jìn)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果，而且與原始的Transformer相比，它還展示了語(yǔ)言建模的改進(jìn)性能。我們是將此新模型作為Tensor2Tensor的部分發(fā)布，它可用于任何序列問(wèn)題。

開(kāi)發(fā)技術(shù)

要開(kāi)始進(jìn)化NAS，我們有必要開(kāi)發(fā)新技術(shù)，因?yàn)橛糜谠u(píng)估每個(gè)架構(gòu)的“適應(yīng)性”的任務(wù)——WMT'14英語(yǔ)-德語(yǔ)翻譯——計(jì)算量很大。這使得搜索比在視覺(jué)領(lǐng)域中執(zhí)行的類似搜索更加昂貴，這可以利用較小的數(shù)據(jù)集，如CIFAR-10。

這些技術(shù)中的第一種是溫啟動(dòng)——在初始進(jìn)化種群中播種Transformer架構(gòu)而不是隨機(jī)模型。這有助于在我們熟悉的搜索空間區(qū)域中進(jìn)行搜索，從而使其能夠更快地找到更好的模型。

第二種技術(shù)是我們開(kāi)發(fā)的一種稱為漸進(jìn)動(dòng)態(tài)障礙（PDH）（Progressive Dynamic Hurdles）的新方法，這種算法增強(qiáng)了進(jìn)化搜索，以便為最強(qiáng)的候選者分配更多的資源，這與先前的工作相反，其中NAS的每個(gè)候選模型被分配相同的評(píng)估時(shí)的資源量。如果模型明顯不好，PDH允許我們提前終止對(duì)模型的評(píng)估，從而使有前途的架構(gòu)獲得更多資源。

Evolved Transformer簡(jiǎn)介

使用這些方法，我們?cè)诜g任務(wù)上進(jìn)行了大規(guī)模的NAS，并發(fā)現(xiàn)了Evolved Transformer（ET）。與大多數(shù)序列到序列（seq2seq）神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)一樣，它有一個(gè)編碼器，將輸入序列編碼為嵌入，解碼器使用這些嵌入構(gòu)造輸出序列；在翻譯的情況下，輸入序列是要翻譯的句子，輸出序列是翻譯。

演化變壓器最有趣的特征是其編碼器和解碼器模塊底部的卷積層，在兩個(gè)地方都以類似的分支模式添加（即輸入在加到一起之前通過(guò)兩個(gè)單獨(dú)的卷積層）。

Evolved Transformer與原始Transformer編碼器架構(gòu)的比較。注意模塊底部的分支卷積結(jié)構(gòu)，它獨(dú)立地在編碼器和解碼器中形成。

這一點(diǎn)特別有趣，因?yàn)樵贜AS期間編碼器和解碼器架構(gòu)不共享，因此獨(dú)立發(fā)現(xiàn)該架構(gòu)對(duì)編碼器和解碼器都很有用，這說(shuō)明了該設(shè)計(jì)的優(yōu)勢(shì)。雖然最初的Transformer完全依賴于自我關(guān)注，但Evolved Transformer是一種混合體，利用了自我關(guān)注和廣泛卷積的優(yōu)勢(shì)。

對(duì)Evolved Transformer的評(píng)估

為了測(cè)試這種新架構(gòu)的有效性，我們首先將它與我們?cè)谒阉髌陂g使用的英語(yǔ)-德語(yǔ)翻譯任務(wù)的原始Transformer進(jìn)行了比較。我們發(fā)現(xiàn)在所有參數(shù)尺寸下，Evolved Transformer具有更好的BLEU和 perplexity performance，擁有最大增益與移動(dòng)設(shè)備兼容（約700萬(wàn)個(gè)參數(shù)），證明了參數(shù)的有效使用。在更大的尺寸上，Evolved Transformer在WMT'14 En-De上達(dá)到了最先進(jìn)的性能，BLEU得分為29.8，SacreBLEU得分為29.2。

不同尺寸的WMT'14 En-DeEvolved Transformer與原Transformer的比較。性能的最大提高發(fā)生在較小的尺寸上，而ET在較大的尺寸上也顯示出強(qiáng)度，優(yōu)于最大的Transformer，參數(shù)減少37.6%（要比較的模型用綠色圈出）。

為了測(cè)試普遍性，我們還在其他NLP任務(wù)上將ET與Transformer進(jìn)行了比較。首先，我們研究了使用不同語(yǔ)言對(duì)的翻譯，發(fā)現(xiàn)ET表現(xiàn)提升，其邊緣與英語(yǔ)-德語(yǔ)相似;再次，由于其有效使用參數(shù)，對(duì)于中型模型觀察到了最大的提升。我們還比較了使用LM1B進(jìn)行語(yǔ)言建模的兩種模型的解碼器，并且看到性能提升近2個(gè)perplexity。

未來(lái)工作

這些結(jié)果是探索體系結(jié)構(gòu)搜索在前饋序列模型中應(yīng)用的第一步。Evolved Transformer作為T(mén)ensor2Tensor的一部分已開(kāi)源，在那里它可以用于任何序列問(wèn)題。為了提高可重復(fù)性，我們還開(kāi)源了我們用于搜索的搜索空間，以及實(shí)施漸進(jìn)動(dòng)態(tài)障礙的Colab。我們期待著看到研究團(tuán)體用新模型做了什么，并希望其他人能夠利用這些新的搜索技術(shù)！

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴