0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在風(fēng)格遷移中如何進行數(shù)據(jù)增強

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:丁磊 ? 2021-01-13 09:41 ? 次閱讀

這是一篇關(guān)于風(fēng)格遷移中如何進行數(shù)據(jù)增強的論文。在introduction部分,informal-->formal 的風(fēng)格遷移問題,最大的障礙是訓(xùn)練數(shù)據(jù)的不足。為了解決此問題,本篇論文提出三種數(shù)據(jù)增強的方法來獲得有用的語句對,分別為

back translation (BT)

我們使用原始語料庫訓(xùn)練一個seq2seq模型。其中將formal語句作為模型的輸入,讓seq2seq模型有能力輸出對應(yīng)的informal句子。則 模型輸入的formal語句和輸出的informal語句就構(gòu)成了一個新的語句對。

formality discrimination (F-Dis)

F-Dis方法使用機器翻譯模型,將一個informal句子重寫為formal句子。首先使用Google翻譯API 將這些informal語句翻譯成 其他語種(比如法語),然后又翻譯回英語。如下圖所示:

831f1182-549c-11eb-8b86-12bb97331649.jpg

其中,informal語句可以從網(wǎng)上論壇上收集得到。

表示收集到的第i條句子(informal), 是最后翻譯回的句子(formal), 二者構(gòu)成了一個新的語句對。

本方法同時使用CNN構(gòu)建了一個“格式判別器”:用來給一個句子的“正規(guī)”程度 打分。就是上圖中右邊括號內(nèi)的小數(shù)。最終選出的新數(shù)據(jù)集要求如下:

837b0564-549c-11eb-8b86-12bb97331649.png

其中表示句子的“正規(guī)”程度, 是閾值

multi-task transfer (M-Task)

我們觀察到,formal語句通常語法正確,而informal語句的語法經(jīng)常出錯。

前人研究表明,對FST的輸出再使用一個語法錯誤糾正模型( grammatical error correction model,GEC)可以提高模型效果。受此啟發(fā),本論文直接使用GEC的訓(xùn)練數(shù)據(jù)作為增強的新數(shù)據(jù)集。如下圖

83e7497c-549c-11eb-8b86-12bb97331649.png

模型訓(xùn)練

上面提到的seq2seq模型為Transformer (base)。

本論文首先使用增強的新數(shù)據(jù)用于 預(yù)訓(xùn)練,然后使用原始語料數(shù)據(jù)做微調(diào),將這稱為pre-training & finetuning (PT&FT)方法。下面結(jié)果證明了PT&FT的效果優(yōu)于ST方法。ST是把增強數(shù)據(jù)和原數(shù)據(jù)一起訓(xùn)練。

843ca7b4-549c-11eb-8b86-12bb97331649.jpg

下圖展現(xiàn)了三種數(shù)據(jù)增強方法的效果:

84b0048e-549c-11eb-8b86-12bb97331649.jpg

下圖展現(xiàn)了我們的方法與前人模型的比較結(jié)果:

84cef614-549c-11eb-8b86-12bb97331649.jpg

責(zé)任編輯:xj

原文標(biāo)題:【ACL2020】關(guān)于正式風(fēng)格遷移的數(shù)據(jù)增強方法

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6760

    瀏覽量

    88619
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8323

    瀏覽量

    132165
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    588

    瀏覽量

    13464

原文標(biāo)題:【ACL2020】關(guān)于正式風(fēng)格遷移的數(shù)據(jù)增強方法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    使用AI大模型進行數(shù)據(jù)分析的技巧

    使用AI大模型進行數(shù)據(jù)分析的技巧涉及多個方面,以下是一些關(guān)鍵的步驟和注意事項: 一、明確任務(wù)目標(biāo)和需求 使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務(wù)目標(biāo),這將直接影響模型的選擇、數(shù)據(jù)
    的頭像 發(fā)表于 10-23 15:14 ?148次閱讀

    如何利用海外爬蟲IP進行數(shù)據(jù)抓取

    利用海外爬蟲IP進行數(shù)據(jù)抓取需要綜合考慮多個方面。
    的頭像 發(fā)表于 10-12 07:54 ?101次閱讀

    TINA何進行頻譜分析?

    想問一下TINA何進行頻譜分析,找了好久沒怎么找到,可能設(shè)置不對,望指點,謝謝
    發(fā)表于 09-14 07:56

    何進行電源供應(yīng)設(shè)計

    電子發(fā)燒友網(wǎng)站提供《如何進行電源供應(yīng)設(shè)計.pdf》資料免費下載
    發(fā)表于 09-09 10:33 ?0次下載
    如<b class='flag-5'>何進行</b>電源供應(yīng)設(shè)計

    何進行IP檢測

    排查網(wǎng)絡(luò)連接問題,并及時的防范潛在的網(wǎng)絡(luò)攻擊。 那么,如何進行 IP 地址檢測呢?接下來我將進行圖示哦~ 使用操作系統(tǒng)自帶的工具 ① Windows 系統(tǒng),按win+R,輸入“ipconfig”命令。 ② Mac 系統(tǒng)
    的頭像 發(fā)表于 07-26 14:09 ?381次閱讀
    如<b class='flag-5'>何進行</b>IP檢測

    求助,IR615可以選用哪種vpn協(xié)議?如何進行配置?

    現(xiàn)有多臺IR615路由器,希望將其配置為vpn客戶端,連接云服務(wù)器的vpn服務(wù)端 工程師遠程連接云服務(wù)器對IR615進行管理 IR615可以選用哪種vpn協(xié)議?如何進行配置? 服務(wù)
    發(fā)表于 07-25 07:53

    ESP32-C3SPI-AT模式下進行數(shù)據(jù)透傳,最后一個數(shù)據(jù)包的數(shù)據(jù)偶爾會出現(xiàn)錯誤,為什么?

    目前采用SPI-AT的方式兩個硬件板之間進行數(shù)據(jù)的無線傳輸,一個作為AP開啟TCP服務(wù)器,一個作為STA連接到對應(yīng)的服務(wù)器,傳輸?shù)?b class='flag-5'>數(shù)據(jù)量為3000000字節(jié),測試的過程
    發(fā)表于 06-26 06:07

    stm32f105自動生成的USB主機, 如何進行數(shù)據(jù)的接收?

    stm32f105自動生成的USB 主機, 如何進行數(shù)據(jù)的接收? /** * @briefThe function informs user that data have been sent
    發(fā)表于 03-26 07:29

    【JAVA UI】【HarmonyOS】【Demo】 鴻蒙如何進行 xml 解析

    【鴻蒙】鴻蒙如何進行數(shù)據(jù)解析 【問題描述】有時候我們從服務(wù)器獲取是 xml 格式數(shù)據(jù),我們需要將 xml 轉(zhuǎn)化成 model 對象,該如何使用呢?下面舉個例子說明一下,將分以下幾步進行 1.準(zhǔn)備條件
    的頭像 發(fā)表于 02-19 15:59 ?449次閱讀
    【JAVA UI】【HarmonyOS】【Demo】 鴻蒙如<b class='flag-5'>何進行</b> xml 解析

    隧道沒信號怎么進行數(shù)據(jù)采集

    隧道沒信號怎么進行數(shù)據(jù)采集
    的頭像 發(fā)表于 12-06 13:27 ?816次閱讀

    navicat的數(shù)據(jù)遷移工具

    數(shù)據(jù)遷移是當(dāng)今數(shù)據(jù)管理的核心任務(wù)之一。在數(shù)據(jù)遷移的過程,我們經(jīng)常面臨著
    的頭像 發(fā)表于 11-21 10:55 ?936次閱讀

    如何將數(shù)據(jù)從MySQL遷移到Influxdb

    如果以前是將時序數(shù)據(jù)存放在MySQL,現(xiàn)在為了獲取更好的性能和使用可視化工具,我們需要將數(shù)據(jù)從MySQL遷移到Influxdb。 這看起來是一個常見場景,經(jīng)過一番查閱,發(fā)現(xiàn)了
    的頭像 發(fā)表于 11-02 10:54 ?1110次閱讀

    基于OpenCV的DNN圖像風(fēng)格遷移

    /deep-photo-styletransfer 項目,需要安裝 CUDA、pytorch、cudnn等等,配置能花一天的時間。 不過最近我發(fā)現(xiàn)一個非常好的開源應(yīng)用項目,那就是基于OpenCV的DNN圖像風(fēng)格遷移。你只需要安裝OpenCV就可以使用。 它也有局限性,我們
    的頭像 發(fā)表于 10-30 10:03 ?496次閱讀

    基于PyQT5與ONNXRUNTIME實現(xiàn)風(fēng)格遷移應(yīng)用

    2023年一月份跟二月份創(chuàng)建了一個PyQT5人工智能軟件開發(fā)系列的文章系列,過去的兩個月都沒怎么更新,心里一直想有時間繼續(xù)更新下去,今天又更新了一篇,基于PyQT5實現(xiàn)多線程、界面化、風(fēng)格遷移模型的實時推理。
    的頭像 發(fā)表于 10-25 10:35 ?458次閱讀
    基于PyQT5與ONNXRUNTIME實現(xiàn)<b class='flag-5'>風(fēng)格</b><b class='flag-5'>遷移</b>應(yīng)用