0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

用于NAT的選擇性知識蒸餾框架

深度學習自然語言處理 ? 來源:南大NLP ? 作者:南大NLP ? 2022-12-06 14:44 ? 次閱讀

01

研究動機

在本文中,我們研究了一種能夠高效推理的機器翻譯模型NAT (Non-Autoregressive Transformer)[1]。相較于傳統(tǒng)的Transformer,NAT能夠在解碼階段并行預測,從而大幅提升模型的推理速度。此外,NAT可以使得模型在訓練和測試階段從相同的分布進行預測,從而有效避免了順序解碼模型中經(jīng)常出現(xiàn)的exposure bias問題。在WMT21 news translation shared task for German→English translation中,已經(jīng)有NAT模型在翻譯質(zhì)量上超過了許多順序解碼的模型。

盡管NAT在擁有許多潛在的優(yōu)勢,目前的工作中這類模型仍然在很大程度上依賴于句子級別的知識蒸餾(sequence-level knowledge distillation, KD)[2]。由于需要并行預測所有token,NAT對單詞間依賴關系的建模能力較弱。這個特點使得在真實數(shù)據(jù)集上,NAT很容易受到multi-modality問題的影響:訓練數(shù)據(jù)中一個輸入可能對應多個不同的輸出。在這樣的背景下,Gu提出訓練一個AT (Autoregressive Transformer)[3]模型作為老師,將它的輸出作為NAT的學習對象。這種KD方式可以幫助NAT繞過multi-modality問題,從而大幅提升NAT的翻譯表現(xiàn)。

e0ba8f3e-751e-11ed-8abf-dac502259ad0.png

圖1:Selective KD的流程示意圖

KD在幫助NAT提升表現(xiàn)的同時,也會帶來一些負面影響,例如模型在低頻詞上的準確率較低[4]、AT teacher的錯誤會傳播到NAT上等。此外,如果NAT僅能在AT teacher的輸出上學習,這類模型的翻譯質(zhì)量將很難有更進一步的突破。我們的研究希望能夠在避免multi-modality的情況下,讓NAT能夠從真實的數(shù)據(jù)分布中學到知識蒸餾的過程中缺失的信息,從而提升NAT的表現(xiàn)。

為達到這樣的目的,我們提出了selective KD:在KD數(shù)據(jù)上訓練一個NAT作為評估模型,并通過它來選擇需要蒸餾的句子。通過這種方式,我們可以讓模型接觸到翻譯質(zhì)量更高的真實數(shù)據(jù),同時避免了嚴重的multi-modality情況。受課程學習的影響,我們也在訓練過程中動態(tài)調(diào)整蒸餾數(shù)據(jù)的比例。“用評估模型有選擇地蒸餾數(shù)據(jù)”和“動態(tài)調(diào)節(jié)蒸餾數(shù)據(jù)的比例”共同構成了我們的Selective KD訓練框架。

02

解決方案

2.1評估模型

我們首先將數(shù)據(jù)蒸餾產(chǎn)生的結果劃分為四種不同的情況:

較輕的modality change:某些單詞可能被替換為同義詞,句式和語義并沒有發(fā)生顯著的變化

較輕的錯誤:在保持原有句式和語義的情況下,發(fā)生了一些小錯誤,例如單詞重復

嚴重的modality change:語義不變的情況下,句子的表達方式發(fā)生了顯著的變化

嚴重的錯誤:翻譯的質(zhì)量很糟糕

對于情況1,我們可以容忍較輕的modality change,這種情況下真實數(shù)據(jù)和蒸餾數(shù)據(jù)都可以被視作正確的學習目標,同時引入真實數(shù)據(jù)不會大幅增加數(shù)據(jù)集的復雜程度。情況2中,用真實數(shù)據(jù)替換蒸餾數(shù)據(jù)可以得到更高的翻譯質(zhì)量,找出屬于這種情況的樣本是我們方法的主要目標。情況3中,由于引入真實數(shù)據(jù)會惡化multi-modality問題,我們希望蒸餾這部分數(shù)據(jù)。情況4很少發(fā)生,我們認為這種情況下該訓練樣本對NAT可能太過困難,引入真實數(shù)據(jù)帶來的提升很有限??偟膩碚f,我們希望能找到情況1、2對應的訓練樣本,在訓練過程中將它們的原始數(shù)據(jù)作為學習對象。

e0e43014-751e-11ed-8abf-dac502259ad0.png



圖2:4種不同的情況對應的案例

為了篩選情況1、2中的數(shù)據(jù),我們在蒸餾數(shù)據(jù)上訓練一個NAT作為評估模型,通過比較評估模型的輸出和真實數(shù)據(jù)計算一個score,判斷一個真實翻譯是否適合被直接用于訓練。若對于某個樣本評估模型的輸出和真實數(shù)據(jù)較為接近,則score較高,我們可以認為蒸餾數(shù)據(jù)僅有微小的錯誤或modality change,從而認為它屬于情況1、2,無需蒸餾。反之,可以認為蒸餾數(shù)據(jù)發(fā)生了較大的變化,因此屬于情況3、4,或是這個樣本在蒸餾后不發(fā)生太大變化的情況下對NAT而言仍過于困難。經(jīng)過篩選,我們僅蒸餾那些不適合用于訓練的真實數(shù)據(jù)。

2.2動態(tài)調(diào)整蒸餾比例:由困難到容易

我們在訓練過程中會調(diào)整蒸餾數(shù)據(jù)的比例。一般來說,剛開始訓練時絕大多數(shù)訓練樣本為真實數(shù)據(jù),訓練的尾聲則會蒸餾整個訓練集。具體實現(xiàn)中,我們通過動態(tài)調(diào)節(jié)score的閾值來調(diào)整蒸餾的比例。

e11339ae-751e-11ed-8abf-dac502259ad0.png

圖3:selective KD在第k次update的算法示意

03

實驗

我們在WMT14 EN-DE和WMT16 EN-RO上開展了實驗,包括了兩種代表性的NAT架構:CMLM [5]和GLAT+CTC [6],以及一種inference-efficient的AT架構:DeepShallow [7](6層編碼器,1層解碼器)。

3.1翻譯質(zhì)量與推理速度

我們通過BLEU score [8]和一種learned metric COMET [9]來衡量模型的翻譯質(zhì)量,并通過和標準Transformer比較來衡量推理速度。可以發(fā)現(xiàn),相比于常規(guī)的知識蒸餾,Selective KD可以在不同數(shù)據(jù)集、不同架構以及不同metric上穩(wěn)定取得翻譯質(zhì)量的提升,同時保持模型自身在推理速度上的優(yōu)勢。我們方法在inference-efficient AT上也有明顯的效果,這進一步說明了selective KD具有廣泛的價值。

e128553c-751e-11ed-8abf-dac502259ad0.png



圖4:翻譯質(zhì)量與推理速度。翻譯質(zhì)量括號外為BLEU,括號內(nèi)為COMET

3.2調(diào)節(jié)quality和complexity

真實數(shù)據(jù)的翻譯質(zhì)量往往是優(yōu)于蒸餾數(shù)據(jù)的,通過調(diào)節(jié)蒸餾數(shù)據(jù)的比例,Selective KD可以調(diào)節(jié)訓練集的quality。與此同時,我們希望知道這個方法是否可以靈活調(diào)節(jié)訓練集的complexity。為了更好地觀察這一點,文章中用了兩個metric來衡量數(shù)據(jù)的復雜程度:Translatioin Uncertainty [10]和Alignment Shift。Translation Uncertainty反映了源句單詞對應翻譯結果的多樣性,Alignment Shift反映了句式的變化程度。

e1596ce4-751e-11ed-8abf-dac502259ad0.png

e168ab32-751e-11ed-8abf-dac502259ad0.png

圖5:Translation Uncertainty(左)和Alignment Shift(右)的計算方式

如圖6所示,我們的方法可以有效控制數(shù)據(jù)的complexity。我們保留的真實數(shù)據(jù)(綠色折線)在兩個指標上都遠遠低于被蒸餾的真實數(shù)據(jù)(紅色折線)。在增加真實數(shù)據(jù)的比例同時,整個數(shù)據(jù)集complexity的提升是緩慢而平滑的。

e17f4176-751e-11ed-8abf-dac502259ad0.png



圖6:數(shù)據(jù)的Translation Uncertainty(左)和Alignment Shift(右)

3.3蒸餾數(shù)據(jù)占比的影響

如圖7所示,我們在不同蒸餾比例的數(shù)據(jù)上進行了實驗??梢园l(fā)現(xiàn),通過selective KD僅蒸餾5%的數(shù)據(jù)就可以提升2.4 BLEU。在蒸餾數(shù)據(jù)比例為80%時,模型的表現(xiàn)甚至超過了完全蒸餾的數(shù)據(jù),根據(jù)[10],一種可能的解釋是這種比例下數(shù)據(jù)的complexity更適合我們實驗中采用的GLAT+CTC架構。另外,動態(tài)調(diào)節(jié)真實數(shù)據(jù)的比例(藍色虛線)可以進一步提升模型的表現(xiàn)。

e1a73dac-751e-11ed-8abf-dac502259ad0.png

圖7:在不同蒸餾比例下模型的表現(xiàn)

04

總結

在這篇文章中,我們提出了選擇性知識蒸餾,從而使得NAT模型可以從真實的數(shù)據(jù)分布中學到知識蒸餾過程中缺失的部分信息。具體來說,我們采用一個NAT作為評估模型來判斷哪些句子需要蒸餾,并動態(tài)提高蒸餾數(shù)據(jù)的比例。我們用實驗結果證明了該方法可以有效提升NAT在機器翻譯任務上的表現(xiàn)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NAT
    NAT
    +關注

    關注

    0

    文章

    137

    瀏覽量

    16191
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14851
  • 數(shù)據(jù)集

    關注

    4

    文章

    1199

    瀏覽量

    24594

原文標題:AAAI'23 | 用于NAT的選擇性知識蒸餾框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Nat server技術原理和配置過程

    Nat server:指定公有地址:端口和私有地址:端口形成一對一映射關系——映射表。這也是Nat server與其他nat的區(qū)別之一,Nat server可以指定端口進行映射。
    的頭像 發(fā)表于 10-10 14:38 ?241次閱讀
    <b class='flag-5'>Nat</b> server技術原理和配置過程

    過電流保護的選擇性是靠什么來實現(xiàn)的

    過電流保護的選擇性是指在電力系統(tǒng)中,當發(fā)生短路或過載時,保護裝置能夠按照預定的順序和時間,優(yōu)先切斷故障部分,而不影響其他正常運行的部分。選擇性是電力系統(tǒng)保護設計的重要原則之一,它能夠確保系統(tǒng)的穩(wěn)定性
    的頭像 發(fā)表于 09-26 14:38 ?178次閱讀

    選擇性喚醒如何實現(xiàn)局部聯(lián)網(wǎng)

    電子發(fā)燒友網(wǎng)站提供《選擇性喚醒如何實現(xiàn)局部聯(lián)網(wǎng).pdf》資料免費下載
    發(fā)表于 09-12 10:29 ?0次下載
    <b class='flag-5'>選擇性</b>喚醒如何實現(xiàn)局部聯(lián)網(wǎng)

    NAT技術及其應用

    網(wǎng)絡地址轉換(NAT,Network Address Translation)是一種廣泛應用于現(xiàn)代網(wǎng)絡中的技術,旨在解決IP地址短缺問題,同時增強網(wǎng)絡的安全性和靈活性。本文將詳細解釋NAT技術
    的頭像 發(fā)表于 07-09 16:43 ?396次閱讀
    <b class='flag-5'>NAT</b>技術及其應用

    交流二元繼電器如何具有相位選擇性和頻率選擇性

    在這篇文章中,我們將詳細探討交流二元繼電器的相位選擇性和頻率選擇性。我們將從繼電器的基本原理開始,然后探討這兩種選擇性的原理和實現(xiàn)方法。 1. 繼電器的基本原理 繼電器是一種電子開關,它可以根據(jù)輸入
    的頭像 發(fā)表于 06-29 09:42 ?543次閱讀

    在smt貼片加工廠中選擇性波峰焊存在的作用和意義

    加工廠作為電子產(chǎn)品制造的核心環(huán)節(jié),其生產(chǎn)效率和產(chǎn)品質(zhì)量成為了所有廠商們追求的目標。而選擇性波峰焊正是一項重要的技術,廣泛應用于SMT貼片加工廠中。本文將深入探討選擇性波峰焊在SMT貼片加工廠中的作用,以及它帶來的諸多益處。 ?
    的頭像 發(fā)表于 06-06 09:35 ?369次閱讀

    阿里達摩院提出“知識鏈”框架,降低大模型幻覺

    近日,阿里巴巴達摩院(湖畔實驗室)攜手新加坡南洋理工大學等研究機構,共同推出了大模型知識鏈(CoK)框架。該框架不僅可實時檢索異構知識源,還能逐步糾正推理錯誤,有效提高了大模型在回答
    的頭像 發(fā)表于 05-10 11:46 ?620次閱讀

    SMT加工廠用選擇性波峰焊有什么優(yōu)點嗎?

    我們知道SMT貼片廠都能做后焊插件,后焊插件的話一般會用到波峰焊,近年來SMT加工廠用選擇性波峰焊的也越來越多了,選擇性波峰焊有什么優(yōu)點嗎?
    的頭像 發(fā)表于 03-21 11:04 ?465次閱讀

    什么是NAT?NAT類型有哪些?NAT是如何工作的?NAT解決了什么問題?

    什么是NAT?NAT類型有哪些?NAT是如何工作的?NAT解決了什么問題?如何使用NATNAT
    的頭像 發(fā)表于 02-04 11:03 ?3178次閱讀

    淺談NAT網(wǎng)關

    NAT網(wǎng)關應用
    的頭像 發(fā)表于 02-02 16:26 ?470次閱讀
    淺談<b class='flag-5'>NAT</b>網(wǎng)關

    電子制造業(yè)中的選擇性波峰焊有哪些優(yōu)缺點?

    選擇性波峰焊是一種廣泛應用于電子制造業(yè)的焊接技術,它具有許多獨特的優(yōu)點和一些不足之處。本文將詳細介紹選擇性波峰焊的優(yōu)缺點,幫助讀者全面了解該技術的特點及適用范圍。 選擇性波峰焊的優(yōu)點之
    的頭像 發(fā)表于 01-15 10:41 ?726次閱讀

    NAT網(wǎng)關是什么?NAT網(wǎng)關的作用

    NAT網(wǎng)關(Network Address Translation Gateway)是一種網(wǎng)絡設備,它能夠?qū)?nèi)部網(wǎng)絡的私有IP地址轉換為合法的公網(wǎng)IP地址,使得內(nèi)部網(wǎng)絡的主機可以通過NAT網(wǎng)關訪問外部網(wǎng)絡。
    的頭像 發(fā)表于 12-25 16:00 ?1126次閱讀

    NAT設備常用場景

    1、NAT分類 1.1 基礎型NAT 僅將內(nèi)網(wǎng)主機的私有IP地址轉換成公網(wǎng)的IP地址,并不將TCP/UDP端口信息進行轉換,分為靜態(tài)NAT和動態(tài)NAT。 1.2 NAPT NAPT不但
    的頭像 發(fā)表于 11-11 11:42 ?1111次閱讀
    <b class='flag-5'>NAT</b>設備常用場景

    任意模型都能蒸餾!華為諾亞提出異構模型的知識蒸餾方法

    相比于僅使用logits的蒸餾方法,同步使用模型中間層特征進行蒸餾的方法通常能取得更好的性能。然而在異構模型的情況下,由于不同架構模型對特征的不同學習偏好,它們的中間層特征往往具有較大的差異,直接將針對同架構模型涉及的蒸餾方法遷
    的頭像 發(fā)表于 11-01 16:18 ?895次閱讀
    任意模型都能<b class='flag-5'>蒸餾</b>!華為諾亞提出異構模型的<b class='flag-5'>知識</b><b class='flag-5'>蒸餾</b>方法

    基于PIC單片機的多選擇性漏電保護

    電子發(fā)燒友網(wǎng)站提供《基于PIC單片機的多選擇性漏電保護.pdf》資料免費下載
    發(fā)表于 10-30 09:44 ?0次下載
    基于PIC單片機的多<b class='flag-5'>選擇性</b>漏電保護