0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer的復(fù)雜度和高效設(shè)計及Transformer的應(yīng)用

自然語言處理愛好者 ? 來源:AI部落聯(lián)盟 ? 作者:多多 ? 2021-09-01 09:27 ? 次閱讀

來自:AI部落聯(lián)盟

前言

這次我們總結(jié)一下ACL2021中的Transformers,看看2021年了,NLPer在如何使用、應(yīng)用、改進、分析Transformers,希望可以對大家產(chǎn)生idea有幫助。

本文涉及25篇Transformer相關(guān)的文章,對原文感興趣的讀者可以關(guān)注公眾號回復(fù): ACL2021Transformers,下載本文所涉及的所有文章~本文主要內(nèi)容:

前言

ACL 2021中的25個Transformers模型

總結(jié)

ACL 2021中的25個Transformers模型

NLP中的層次結(jié)構(gòu)Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling

2e1671e6-fd9b-11eb-9bcf-12bb97331649.png

高效和長文本transformer模型設(shè)計,短文。如上圖所示,這篇文章主要提出一種解決長文本任務(wù)的transformer模型:首先分別encoder sentence表示,然后再encod document表示,最后再重新encde sentence表示,總體上比較簡單的local+global設(shè)計。

R2D2: Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling

將Transformer和語言文字層次結(jié)構(gòu)相結(jié)合的一篇文章。本文基于可差分CKY樹,提出一種recursive Transformer模型,用于捕獲語言中的層次結(jié)構(gòu)(words, Phrases, sentences),與目前直接堆疊Transformer Layer的模型進行對比(例如BERT,Albert)除了可以學(xué)好表示,還能學(xué)到tree結(jié)構(gòu),與之前基于CKY的parser模型,Tree-LSTM模型比較相似。為了能讓recursive Transformer進行快速、大規(guī)模訓(xùn)練,文章也相應(yīng)提出了優(yōu)化算法。Recursive Transformer語言模型實驗是基于WikiText-2做的,效果還可以。為了凸顯該模型的tree 結(jié)構(gòu)性,文章進一步做了無監(jiān)督Constituency Parse,顯示了該模型結(jié)構(gòu)在學(xué)習(xí)語言層次結(jié)構(gòu)上的能力。

Transformer復(fù)雜度和高效設(shè)計IrEne: Interpretable Energy Prediction for Transformers

本文預(yù)測Transformer運行所消耗的能量,很有趣。首先,這篇文章將Transformer模型結(jié)構(gòu)按照Tree進行拆解:整個模型是root節(jié)點(例如BERT),root節(jié)點下逐步拆分出子模塊(比如BertSelf Attention),最終子模塊由最基本的ML單元組成(例如全連接Dense網(wǎng)絡(luò)),最終自底向上,先預(yù)測單個ML單元的能量消耗,再匯總計算出整體模型的能量消耗。為了驗證該方法的有效性,該文還創(chuàng)建了一個數(shù)據(jù)集來評測Transformer-based模型的能量消耗。IrEne的代碼在:https://github.com/StonyBrookNLP/irene

Optimizing Deeper Transformers on Small Datasets

小數(shù)據(jù)集+更深更大的模型,有點反常識的感覺,不過也很有趣??傮w上,這篇文章通過合適的模型初始化方式和優(yōu)化算法,在很小很難的Text-to-SQL任務(wù)上取得了不錯的結(jié)果,這篇文章的核心是Data-dependent Transformer Fixed-update,那這個DT-Fixup怎么做的呢?比如使用的模型是roberta,在roberta上面再堆疊個幾層隨機Transformer:

對于模型中非預(yù)訓(xùn)練模型初始化的部分,使用Xavier initialization進行初始化。

對于模型中非預(yù)訓(xùn)練模型初始化的部分,將學(xué)習(xí)率的warm-up和所有的layer normalization去掉。

對所有的樣本進行一遍前向傳播獲得輸入的一個估計:,是roberta輸出的表示。

根據(jù)得到的,在新疊加的每層Transformer上,對attention和權(quán)重矩陣進行設(shè)計好的縮放。

文章理論推導(dǎo)較多,建議感興趣的同學(xué)下載文章后閱讀原文進行學(xué)習(xí)。

READONCE Transformers: Reusable Representations of Text for Transformers

2e6714c0-fd9b-11eb-9bcf-12bb97331649.png

Transformer推理提速。文章的思路是:無論是問答任務(wù),摘要生成任務(wù)還是其他任務(wù)里的不同樣本可能會多次涉及到同一個wiki段落,這個時候不用每次都重新encode這個wiki段落,可以只encode這個段落一次然后re-use。文章思路和另一個SIGIR 2020的很像:DC-BERT: Decoupling Question and Document for Efficient Contextual Encoding

Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks

2efb4988-fd9b-11eb-9bcf-12bb97331649.png

parameter-efficient相關(guān)的一篇文章,通過多任務(wù)學(xué)習(xí)和特定的模型參數(shù)共享來達(dá)到更好的遷移學(xué)習(xí)效果??傮w上模型是make sense的。如上圖所示,該論文基于adapter類似的結(jié)構(gòu)設(shè)計來幫助下游任務(wù)finetune,但adapter處的設(shè)計與之前的研究不同的是:給予task id, adapter位置,layer id動態(tài)計算所有l(wèi)ayer的adapter參數(shù)。代碼開源在:https://github.com/rabeehk/hyperformer

Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

3052bf78-fd9b-11eb-9bcf-12bb97331649.png

高效Transformer設(shè)計。文章的主要亮點是:1. transformer中間層的長度自適應(yīng),可以減少參數(shù)量。2. 減少的參數(shù)所對應(yīng)的token表示可以被restore,因此可以用來做抽取式QA任務(wù)。文章在文本分類和QA任務(wù)上進行了驗證。

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences

高效transformer設(shè)計。文章借鑒數(shù)值分析領(lǐng)域的:Hierarchical Matrix和Multigrid method,提出了一種hierarchical attention結(jié)構(gòu),該結(jié)構(gòu)是線性時間復(fù)雜度和空間復(fù)雜度,并進一步優(yōu)化到只使用dense layer運算進行實現(xiàn)。

Transformer分析和可解釋性Personalized Transformer for Explainable Recommendation

推薦、可解釋性、NLP相結(jié)合的一篇文章。該論文提出了PETER模型(如上圖所示),將user, item和item feature,item的explanation當(dāng)作模型輸入,對user,item進行表示學(xué)習(xí),同時也學(xué)習(xí)item特征向量表示和explanation文字的表示,輸出又3個任務(wù),Rating prediction是推薦任務(wù),context Prediction是用item的輸出表示預(yù)測item的生成item的explanation(和doc2vec算法類似),Explanation Generation就是正常的生成任務(wù)。

總體上user、item著兩個輸入和對應(yīng)的表示能讓模型學(xué)到Personalized和recommendation的知識,Explanation預(yù)測就是正常的生成任務(wù)。該模型在Yelp、Amazon,TripAdvisor數(shù)據(jù)集上做了實驗,有不錯的效果。

Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks

對Transformer不同Head重要性進行分析的一篇文章。這篇文章在multi-lingual,Cross-lingual任務(wù)上,對mBERT、XLM-R這兩個Transformer模型進行了分析,實驗結(jié)果顯示:1. 對attention head進行剪裁之后依舊可以獲得與原模型相匹配的效果,甚至可以獲得更好的效果。2. 根據(jù)梯度來確定哪些head可以被剪裁。3. 文章在多語言的POS和NER數(shù)據(jù)集上驗證了結(jié)論和方法的正確性質(zhì)。

Are Pre-trained Convolutions Better than Pre-trained Transformers?

對比CNN和Transformer的效果。該文之前已經(jīng)在公眾號上分享過啦,相關(guān)鏈接: 預(yù)訓(xùn)練的卷積模型比Transformer更好?

Attention Calibration for Transformer in Neural Machine Translation

翻譯的時候decoder需要attention到正確的詞才能獲得更好的效果,但是如果有其他不重要帶來了嚴(yán)重的干擾,那么翻譯效果將會下降,來自騰訊的這篇工作展示了如何修正翻譯中的attention來幫助機器翻譯。

總體結(jié)構(gòu)如上圖所示,通過一個mask perturbation 模型來學(xué)習(xí)如何對attention進行修正,基本思路是:如果mask到了重要的詞,那么翻譯效果下降,如果mask掉了干擾詞(也就是修正了原來的attention分?jǐn)?shù)),那么翻譯效果上升。

What Context Features Can Transformer Language Models Use?

Transformer需要的重要feature分析。這篇文章對transformer模型在中長文本上的效果進行對比分析發(fā)現(xiàn):

1. 對于長文本而言,增加最大token數(shù)量的限制(256到768)有幫助。

2. 對于當(dāng)前的模型而言,長文本的信息主要來源于content words和局部occurrence統(tǒng)計信息:刪除一些function words和局部window內(nèi)隨機shuffle對模型最終影響比較小。

3. 并不是context中所有feature重要性都相同??傮w上文章對:word order,sentence order,order of sections,根據(jù)token屬性對token進行控制變量的刪減等一些列feature進行了控制變量分析。

Reservoir Transformers

Transformer分析文章。文章顯示:固定預(yù)訓(xùn)練模型的部分參數(shù)或者增加一些隨機初始化的模塊(比如加入gru,cnn等模塊)可以提升transformer模型最終效果。文章在語言模型和翻譯任務(wù)上進行驗證。

More Identifiable yet Equally Performant Transformers for Text Classification

對Transformer模型進行可解釋性設(shè)計。文章的主要貢獻(xiàn)是:1. attention不同權(quán)重可鑒別性的理論分析。2. 設(shè)計了一種transformer變體有助于attention權(quán)重的鑒別從而提升可解釋性。3. 在文本分類任務(wù)上做了分析和驗證,提升可鑒別性的同時不降低原有任務(wù)的效果。

長文本處理ERNIE-DOC: A Retrospective Long-Document Modeling Transformer

針對長文本處理的Transformer優(yōu)化,來自百度NLP團隊。入上圖所示,整個長文章的被分成了多片,該文章認(rèn)為之前的Transformer模型都無法利用整個文章的信息,而提出的ERNIE-DOC用到了所有文本信息。

為了讓模型能看到長文本所有信息,該文章主要有以下幾個貢獻(xiàn):

1. 一個長文本feed給模型2次。

2. 由于目前的recurrence Transformer所能看到的最長文本受到最大層數(shù)的限制,所以提出了一個enhanced recurrence mechanism進一步擴大Transformer所能看到的文本范圍。

3. 還提出了一個segment-reordering任務(wù),主要就是將文本中的分片打亂,然后預(yù)測是否是正確的順序。論文在語言模型任務(wù)、document-level的長文本理解任務(wù),以及一系列中英文下游任務(wù)上進行了驗證。

G-Transformer for Document-level Machine Translation

Transformer雖然在單句翻譯中有不錯的效果了,但多句翻譯/document-level的翻譯還遠(yuǎn)不夠好。這篇文章發(fā)現(xiàn)多句翻譯訓(xùn)練的時候容易陷入局部最優(yōu),陷入局部最優(yōu)的原因是因為翻譯的時候需要attention 的source words太多了。

所以這個文章做了一個比較容易理解的事情:把document level的翻譯依舊看作是多個單個句子翻譯,通過句子序號來提醒模型翻譯到哪里了,從而縮小target到source需要attention的范圍。

Transformer有趣的應(yīng)用Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection

結(jié)合Transformer和knowledge base,對對話系統(tǒng)中的Topic和情感傾向進行識別。該文主要貢獻(xiàn)如下:1. 首次基于topic來幫助對話情感識別。2. 使用pointer network和attention機制融入commonsense knowledge。3.在解決對話情感檢測任務(wù)時,設(shè)計了一個基于Transformer encoder-decoder結(jié)構(gòu)的模型,來取代之前通用的recurrent attention一類的網(wǎng)絡(luò)。

Unsupervised Out-of-Domain Detection via Pre-trained Transformers

深度學(xué)習(xí)模型的效果越來越好,但如果遇到和訓(xùn)練樣本分布不一致的輸入會怎么樣?這篇文章基于BERT模型中多層Transformer所提取的feature,在inference階段對out-of-domian的樣本檢測,可以有效排除和訓(xùn)練樣本分布不一致的測試樣本,基于深度學(xué)習(xí)模型對深度學(xué)習(xí)模型的輸入進行檢查,也是很有趣的一個方向。

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

融入中文字形而設(shè)計的一種Transformer,該論文顯示融入了中文字形之后,在多個中文任務(wù)上取得了更好的效果。

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic

擴展Transformer模型到多種語言。文章設(shè)計和實現(xiàn)了兩個ARabic-specific Transformer并在大量的語料和多種datasets上進行了預(yù)訓(xùn)練,文章還提出了一個benchmark ARLUE進行專門的多語言評測。

Glancing Transformer for Non-Autoregressive Neural Machine Translation

Transformer在翻譯上的應(yīng)用,主要是非自回歸翻譯模型方法的提出,來自字節(jié)跳動。文章提出一種非自回歸的翻譯模型,可以并行快速decode。感興趣的讀者可以閱讀中文講解:https://www.aminer.cn/research_report/60f0188430e4d5752f50eafd

在預(yù)訓(xùn)練中用上字形和拼音信息,和上一個MECT同類型的研究。

總結(jié)

本文涉及的transformer相關(guān)研究主要分以下幾個類別:

NLP中的層次結(jié)構(gòu)

Transformer的復(fù)雜度和高效設(shè)計

長文本處理

基于Transformer的一些有趣的應(yīng)用

今天的分享就到這里啦,大家覺得不錯的話,幫點贊和分享一下吧,謝謝~~~

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ACL
    ACL
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    11952
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    137

    瀏覽量

    5961
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    482

    瀏覽量

    21969

原文標(biāo)題:ACL2021中的25個Transformers模型

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    業(yè)務(wù)復(fù)雜度治理方法論--十年系統(tǒng)設(shè)計經(jīng)驗總結(jié)

    一、復(fù)雜度綜述 1、什么是復(fù)雜度 軟件設(shè)計的核心在于降低復(fù)雜性。 --《軟件設(shè)計的哲學(xué)》 業(yè)界對于復(fù)雜度并沒有統(tǒng)一的定義, 斯坦福教授John Ousterhout從認(rèn)知負(fù)擔(dān)和工作量方
    的頭像 發(fā)表于 09-05 14:11 ?882次閱讀
    業(yè)務(wù)<b class='flag-5'>復(fù)雜度</b>治理方法論--十年系統(tǒng)設(shè)計經(jīng)驗總結(jié)

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)在自然語言處理(NLP)、時間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問題,需要從多個維度進行深入探討。
    的頭像 發(fā)表于 07-12 14:07 ?328次閱讀

    Transformer語言模型簡介與實現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于神經(jīng)機器翻譯
    的頭像 發(fā)表于 07-10 11:48 ?917次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)練過程、關(guān)鍵組件以及實現(xiàn)細(xì)節(jié)。
    的頭像 發(fā)表于 07-02 11:41 ?1279次閱讀

    PCB與PCBA工藝復(fù)雜度的量化評估與應(yīng)用初探!

    , 不知道如何區(qū)分普通和復(fù)雜的PCB和 PCBA的設(shè)計,并采用什么樣的方式來處理。 基于上述考慮, 我們參考了業(yè) 界已有的作法, 設(shè)計了一個PCB 和 PCBA的工藝復(fù)雜度計算公式以解決這 方面
    發(fā)表于 06-14 11:15

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機視覺(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?547次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    Transformer壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    隨著人工智能技術(shù)的迅速發(fā)展,Transformer在自然語言處理、機器翻譯、問答系統(tǒng)等領(lǐng)域取得了顯著的性能提升。
    的頭像 發(fā)表于 01-24 14:05 ?1054次閱讀
    <b class='flag-5'>Transformer</b>壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    基于Transformer的多模態(tài)BEV融合方案

    由于大量的相機和激光雷達(dá)特征以及注意力的二次性質(zhì),將 Transformer 架構(gòu)簡單地應(yīng)用于相機-激光雷達(dá)融合問題是很困難的。
    發(fā)表于 01-23 11:39 ?638次閱讀
    基于<b class='flag-5'>Transformer</b>的多模態(tài)BEV融合方案

    語言模型的弱監(jiān)督視頻異常檢測方法

    LGT Adapter由局部關(guān)系Transformer和全局關(guān)系圖卷積串聯(lián)組成??紤]到常規(guī)的Transformer在長時視頻時序關(guān)系建模時冗余信息較多、計算復(fù)雜度較高,我們改進
    的頭像 發(fā)表于 01-02 15:20 ?666次閱讀
    語言模型的弱監(jiān)督視頻異常檢測方法

    更深層的理解視覺Transformer, 對視覺Transformer的剖析

    最后是在ADE20K val上的LeaderBoard,通過榜單也可以看出,在榜單的前幾名中,Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。
    的頭像 發(fā)表于 12-07 09:39 ?679次閱讀
    更深層的理解視覺<b class='flag-5'>Transformer</b>, 對視覺<b class='flag-5'>Transformer</b>的剖析

    降低Transformer復(fù)雜度O(N^2)的方法匯總

    首先來詳細(xì)說明為什么Transformer的計算復(fù)雜度是 。將Transformer中標(biāo)準(zhǔn)的Attention稱為Softmax Attention。令 為長度為 的序列, 其維度為 , 。 可看作Softmax Attenti
    的頭像 發(fā)表于 12-04 15:31 ?989次閱讀
    降低<b class='flag-5'>Transformer</b><b class='flag-5'>復(fù)雜度</b>O(N^2)的方法匯總

    如何降低SigmaDSP音頻系統(tǒng)復(fù)雜度的情形

    電子發(fā)燒友網(wǎng)站提供《如何降低SigmaDSP音頻系統(tǒng)復(fù)雜度的情形.pdf》資料免費下載
    發(fā)表于 11-29 11:13 ?0次下載
    如何降低SigmaDSP音頻系統(tǒng)<b class='flag-5'>復(fù)雜度</b>的情形

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實現(xiàn)方案

    Transformer 本質(zhì)上是一個 Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?474次閱讀
    關(guān)于深度學(xué)習(xí)模型<b class='flag-5'>Transformer</b>模型的具體實現(xiàn)方案

    求助,AD8132諧波測試電路中的transformer有沒有推薦型號?

    AD8132諧波測試電路中的transformer有沒有推薦型號?
    發(fā)表于 11-16 06:15

    LLM的Transformer是否可以直接處理視覺Token?

    多種LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer層都會有提升,而且不同層之間也會體現(xiàn)不同的規(guī)律。
    發(fā)表于 11-03 14:10 ?412次閱讀
    LLM的<b class='flag-5'>Transformer</b>是否可以直接處理視覺Token?