0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:用Cluster-to-Cluster生成更多樣化的新數(shù)據(jù)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2021-02-14 09:19 ? 次閱讀

論文名稱:C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling 論文作者:侯宇泰、陳三元、車萬(wàn)翔、陳成、劉挺 原創(chuàng)作者:侯宇泰 論文鏈接:https://arxiv.org/abs/2012.07004 出處:哈工大SCIR

1. 簡(jiǎn)介

1.1 研究背景

對(duì)話語(yǔ)言理解(Spoken Language Understanding,SLU)[1]經(jīng)常面臨領(lǐng)域和需求的頻繁切換,這常常會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)在數(shù)量和質(zhì)量上的不足。

數(shù)據(jù)增強(qiáng)(Data Augmentation)是一種自動(dòng)生成新數(shù)據(jù)擴(kuò)充訓(xùn)練集的技術(shù),能夠有效地緩解上述數(shù)據(jù)不足的帶來(lái)的挑戰(zhàn) [2,3]。

1.2 研究動(dòng)機(jī)

如圖1(上)所示,現(xiàn)有數(shù)據(jù)增強(qiáng),如基于Seq2Seq 的句子復(fù)述(re-phrasing)方法 [4,5,6],經(jīng)常無(wú)法避免地生成沒(méi)有意義的重復(fù)數(shù)據(jù)。這很大程度要?dú)w咎于現(xiàn)有的one-by-one數(shù)據(jù)生成模式。

相較之下,如圖1(下)所示,one-by-one數(shù)據(jù)生成弊病可以天然地通過(guò)多到多(cluster-to-cluster)生成方式得到緩解。

0b2a19a6-549c-11eb-8b86-12bb97331649.png

圖1 示例:從已有句子生成新表述,現(xiàn)有one-by-one復(fù)述方法無(wú)法避免生成重復(fù)數(shù)據(jù)

1.3 我們的貢獻(xiàn)

我們提出了一種全新的Cluster-to-Cluster生成范式來(lái)生成新數(shù)據(jù),并基于此提出了一個(gè)全新的數(shù)據(jù)增強(qiáng)框架,稱為C2C-GenDA。C2C-GenDA通過(guò)將現(xiàn)有句子重構(gòu)為表達(dá)方式不同但語(yǔ)義相同的新句子,來(lái)擴(kuò)大訓(xùn)練集。與過(guò)往的Data Augmentation(DA)方法逐句(One-by-one)構(gòu)造新句子的做法不同,C2C-GenDA采用一種多到多(Cluster-to-Cluster)的全新的新語(yǔ)料生成方式。

具體的,C2C-GenDA聯(lián)合地編碼具有相同語(yǔ)義的多個(gè)現(xiàn)有句子,并同時(shí)解碼出多個(gè)未見(jiàn)表達(dá)方式的新句子。

這樣種的生成方式會(huì)直接帶來(lái)如下好處:

(1)同時(shí)生成多個(gè)新話語(yǔ)可以讓模型建模生成的新句子之間的關(guān)系,減少新句子間內(nèi)部重復(fù)。

(2)聯(lián)合地對(duì)多個(gè)現(xiàn)有句子進(jìn)行編碼讓模型可以更廣泛地看到已有的現(xiàn)有表達(dá)式,從而減少無(wú)意義的對(duì)已有數(shù)據(jù)的重復(fù)。

1.4實(shí)驗(yàn)效果

當(dāng)只有數(shù)百句訓(xùn)練語(yǔ)料時(shí),C2C-GenDA數(shù)據(jù)增強(qiáng)方法在了兩個(gè)公開(kāi)的槽位提取(slot filling)數(shù)據(jù)集上分別帶來(lái)了 7.99 (11.9%↑) and 5.76 (13.6%↑) F-scores 的提升。

2. 方法

2.1 Cluster2Cluster 生成模型

給定具有相同語(yǔ)義框架(semantic frame)的一組多個(gè)句子,即input cluster, 模型一次性生成多個(gè)新句子,即output cluster。這些輸出與輸入的語(yǔ)義框架相同,但是具有不同的表達(dá)方式。

0b6b5420-549c-11eb-8b86-12bb97331649.png

圖2 Cluster2Cluster 生成模型

如圖2所示,Cluster2Cluster模型采用基于Transformer的Encoder和Decoder。具體的,我們用特殊分割Token拼接input cluster中的句子,作為模型輸入。在解碼時(shí),模型用多個(gè)共享參數(shù)的decoder同步解碼多個(gè)新句子。

我們采用了前人添加Rank Token作為解碼起步的方法[5]來(lái)讓模型區(qū)分不同的輸出句子。

同時(shí),為了進(jìn)一步提升句子的多樣性,我們提出Duplication-aware Attention和Diverse-Oriented Regularization來(lái)進(jìn)一步強(qiáng)化模型,如圖2所示:

(1)Duplication-aware Attention(DAA):通過(guò)Attention為模型提供兩方面的信息,即Input Cluster中已有的表達(dá)方式,和其他正在解碼的句子中的表達(dá)方法。根據(jù)這些信息,我們采用一種類似Coverage Attention的方式對(duì)重復(fù)的表達(dá)生成進(jìn)行懲罰。

(2)Diverse-Oriented Regularization(DOR):我們提出DOR來(lái)從Loss層面引導(dǎo)模型生成多樣的句子。具體的,我們用不同句子,解碼詞分布之間的KL-散度作為loss,來(lái)約束模型避免在不同的句子中的相同step解碼出相同的詞。

2.2 Cluster2Cluster 模型訓(xùn)練

僅有多到多的生成模型顯然不足以生成新的數(shù)據(jù)。為了讓Cluster2Cluster模型具有生成新表述的能力,我們提出了Dispersed Cluster Pairing算法來(lái)構(gòu)造多到多的復(fù)寫(xiě)(Paraphrase)訓(xùn)練數(shù)據(jù)。

具體的,如圖3 和圖4所示,給定具有相同語(yǔ)義的一組數(shù)據(jù),我們首先找到一組表述相近的句子作為Input Cluster,然后貪心地構(gòu)造Output Cluster:每次添加一句和Input Cluster以及現(xiàn)有Output Cluster表述差異最大的句子到 Output Cluster。

這樣的作法旨在模擬從少量說(shuō)法有限的句子生成多樣的未見(jiàn)表述的過(guò)程。

0bb0e382-549c-11eb-8b86-12bb97331649.png

圖3構(gòu)造多到多的Paraphrase訓(xùn)練數(shù)據(jù)

0c082ad4-549c-11eb-8b86-12bb97331649.png

圖4多到多的Paraphrase訓(xùn)練數(shù)據(jù)構(gòu)造算法

2.3 數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)

我們將原有的訓(xùn)練數(shù)據(jù)分為兩份,一份訓(xùn)練C2C-GenDA模型,一份用來(lái)做數(shù)據(jù)增強(qiáng)的輸入。

最后我們用所有新生成的句子和原有的句子作為增強(qiáng)后的訓(xùn)練集。

3. 實(shí)驗(yàn):

3.1 主實(shí)驗(yàn)結(jié)果

如表1所示,我們的方法能夠大幅地提升Slot Filling模型效果(Baseline),并優(yōu)于現(xiàn)有的數(shù)據(jù)增強(qiáng)方法。

表1 主實(shí)驗(yàn)結(jié)果

0c34358e-549c-11eb-8b86-12bb97331649.png

3.2 分析實(shí)驗(yàn)

如表2所示,在消融實(shí)驗(yàn)中,我們提出的各個(gè)模塊都對(duì)最終的實(shí)驗(yàn)效果起到了作用。

表2 消融實(shí)驗(yàn)

0c630a12-549c-11eb-8b86-12bb97331649.png

表3展示不同生成模型的生成數(shù)據(jù)和Inter和Intra多樣性,結(jié)果顯示采用Cluster2Cluster的生成方法可以讓新數(shù)據(jù)的多樣性產(chǎn)生巨大的提升。

表3 多樣性分析實(shí)驗(yàn)

0c8ff928-549c-11eb-8b86-12bb97331649.png

表4展示了由Cluster2Cluster模型生成的一些樣例,可以看到Cluster2Cluster模型可以從多個(gè)角度生成一些有趣的新表述方式。

表4 樣例分析

0ccd8b1c-549c-11eb-8b86-12bb97331649.png

4.參考文獻(xiàn)

[1] Young, S.; Gasiˇ c, M.; Thomson, B.; and Williams, J. D. ′ 2013. Pomdp-based statistical spoken dialog systems: A review. Proc. of the IEEE 101(5): 1160–1179.

[2] Kim, H.-Y.; Roh, Y.-H.; and Kim, Y.-G. 2019. Data Augmentation by Data Noising for Open-vocabulary Slots in Spoken Language Understanding. In Proc. of NAACL, 97– 102.

[3] Shin, Y.; Yoo, K. M.; and Lee, S.-G. 2019. Utterance Generation With Variational Auto-Encoder for Slot Filling in Spoken Language Understanding. IEEE Signal Processing Letters 26(3): 505–509.

[4] Yoo, K. M. 2020. Deep Generative Data Augmentation for Natural Language Processing. Ph.D. thesis, Seoul National University

[5] Hou, Y.; Liu, Y.; Che, W.; and Liu, T. 2018. Sequence-to-Sequence Data Augmentation for Dialogue Language Understanding. In Proc. of COLING, 1234–1245.

[6] Kurata, G.; Xiang, B.; and Zhou, B. 2016. Labeled Data Generation with Encoder-Decoder LSTM for Semantic Slot Filling. In Proc. of INTERSPEECH, 725–729.

責(zé)任編輯:xj

原文標(biāo)題:【SCIR AAAI2021】數(shù)據(jù)增強(qiáng)沒(méi)效果?試試用Cluster-to-Cluster生成更多樣化的新數(shù)據(jù)吧

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6772

    瀏覽量

    88655
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    282

    瀏覽量

    13314
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    483

    瀏覽量

    21979

原文標(biāo)題:【SCIR AAAI2021】數(shù)據(jù)增強(qiáng)沒(méi)效果?試試用Cluster-to-Cluster生成更多樣化的新數(shù)據(jù)吧

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    室內(nèi)人行與導(dǎo)航系統(tǒng)有哪些多樣化的功能?

    多樣化的功能設(shè)計(jì),滿足了不同場(chǎng)景下的多元需求。接下來(lái)我們一起了解一下關(guān)于室內(nèi)人行與導(dǎo)航系統(tǒng)有哪些多樣化的功能? 一、精準(zhǔn)定位與路徑規(guī)劃 室內(nèi)人行與導(dǎo)航系統(tǒng)核心的功能,室內(nèi)導(dǎo)航系統(tǒng)通過(guò)藍(lán)牙、Wi-Fi、RFID、UWB(超寬帶
    的頭像 發(fā)表于 10-09 11:28 ?128次閱讀
    室內(nèi)人行與導(dǎo)航系統(tǒng)有哪些<b class='flag-5'>多樣化</b>的功能?

    雙路設(shè)計(jì),滿足光伏電站與充電樁多樣化計(jì)量需求——安科瑞丁佳雯

    在當(dāng)今快速發(fā)展的可再生能源與電動(dòng)汽車領(lǐng)域,光伏電站與充電樁的計(jì)量需求日益多樣化且復(fù)雜。為了應(yīng)對(duì)這一挑戰(zhàn),DJSF1352-RN電表以其創(chuàng)新的雙路設(shè)計(jì)脫穎而出,成為滿足光伏電站與充電樁多樣化計(jì)量需求
    的頭像 發(fā)表于 09-09 12:54 ?134次閱讀
    雙路設(shè)計(jì),滿足光伏電站與充電樁<b class='flag-5'>多樣化</b>計(jì)量需求——安科瑞丁佳雯

    潤(rùn)和軟件星閃業(yè)務(wù)閃耀海外,亮相“面向智能社會(huì)的技術(shù)多樣化與產(chǎn)品戰(zhàn)略論壇”

    2024年8月30日,“面向智能社會(huì)的技術(shù)多樣化與產(chǎn)品戰(zhàn)略論壇”在日本東京國(guó)際展覽中心成功舉辦,本次論壇由國(guó)際星閃無(wú)線短距通信聯(lián)盟主辦,圍繞“技術(shù)標(biāo)準(zhǔn)、標(biāo)準(zhǔn)產(chǎn)業(yè)、產(chǎn)業(yè)國(guó)際”的方針
    的頭像 發(fā)表于 08-31 08:00 ?232次閱讀
    潤(rùn)和軟件星閃業(yè)務(wù)閃耀海外,亮相“面向智能社會(huì)的技術(shù)<b class='flag-5'>多樣化</b>與產(chǎn)品戰(zhàn)略論壇”

    DC/AC電源模塊:實(shí)現(xiàn)電力系統(tǒng)的多樣化應(yīng)用

    家庭和商業(yè)建筑到工業(yè)設(shè)備和交通運(yùn)輸,都需要穩(wěn)定可靠的電力供應(yīng)。DC/AC電源模塊為這些需求提供了強(qiáng)大的支持。 DC/AC電源模塊:實(shí)現(xiàn)電力系統(tǒng)的多樣化應(yīng)用 首先,DC/AC電源模塊可以將直流電源轉(zhuǎn)換為交流電源,使之能夠適應(yīng)更多的設(shè)備需求。許多電子設(shè)備和家
    的頭像 發(fā)表于 06-18 13:14 ?274次閱讀
    DC/AC電源模塊:實(shí)現(xiàn)電力系統(tǒng)的<b class='flag-5'>多樣化</b>應(yīng)用

    長(zhǎng)電科技為自動(dòng)駕駛芯片客戶提供多樣化高可靠性的封裝測(cè)試解決方案

    長(zhǎng)電科技作為全球領(lǐng)先的集成電路成品制造和技術(shù)服務(wù)提供商,在先進(jìn)封裝領(lǐng)域深耕多年,可為自動(dòng)駕駛芯片客戶提供多樣化、高可靠性的封裝測(cè)試解決方案和配套產(chǎn)能。
    的頭像 發(fā)表于 05-14 10:26 ?1035次閱讀
    長(zhǎng)電科技為自動(dòng)駕駛芯片客戶提供<b class='flag-5'>多樣化</b>高可靠性的封裝測(cè)試解決方案

    【TE Connectivity】泰科電子低溫升 Cluster Block連接器,無(wú)懼高溫,“清新”來(lái)襲!

    低溫升Cluster Block 連接器 TE Connectivity (以下簡(jiǎn)稱“TE”)家電事業(yè)部的 Cluster Block 產(chǎn)品系列專注于為空調(diào)壓縮機(jī)制造商提供高效、清潔的電氣快速連接
    發(fā)表于 04-10 14:04 ?247次閱讀
    【TE Connectivity】泰科電子低溫升 <b class='flag-5'>Cluster</b> Block連接器,無(wú)懼高溫,“清新”來(lái)襲!

    三星半導(dǎo)體分享了面向PC、移動(dòng)端和服務(wù)器的多樣化創(chuàng)新存儲(chǔ)解決方案

    在2024年CFMS閃存市場(chǎng)峰會(huì)上,三星半導(dǎo)體展示了其面向PC、移動(dòng)端和服務(wù)器的多樣化創(chuàng)新存儲(chǔ)解決方案。
    的頭像 發(fā)表于 03-20 17:22 ?543次閱讀

    中國(guó)電信攜手中興通訊聯(lián)合發(fā)布Cluster DRS創(chuàng)新技術(shù)和成果

    2月26日,2024年世界移動(dòng)通信大會(huì)(MWC2024)在西班牙巴塞羅那開(kāi)幕。展會(huì)期間,中國(guó)電信攜手中興通訊聯(lián)合發(fā)布了Cluster DRS(Dynamic Radio Sharing,基站簇級(jí)的動(dòng)態(tài)波束共享)創(chuàng)新技術(shù)和成果。
    的頭像 發(fā)表于 02-27 10:44 ?423次閱讀

    中國(guó)電信聯(lián)合中興通訊推出Cluster DRS解決方案

    在2024年世界移動(dòng)通信大會(huì)(MWC2024)上,中國(guó)電信與中興通訊共同展示了他們的最新創(chuàng)新技術(shù)——Cluster DRS(Dynamic Radio Sharing)解決方案。這項(xiàng)新技術(shù)基于動(dòng)態(tài)波束共享技術(shù),為無(wú)人機(jī)提供了更高效、更穩(wěn)定的通信支持。
    的頭像 發(fā)表于 02-27 10:32 ?616次閱讀

    psci電源管理拓?fù)浣Y(jié)構(gòu)介紹

    組成了層次的拓?fù)浣Y(jié)構(gòu)。 如以下為一塊包含2個(gè)cluster,每個(gè)cluster包含四個(gè)core的soc: 由于其中每個(gè)core以及每個(gè)cluster的電源都可以獨(dú)立地執(zhí)行開(kāi)關(guān)操作,因
    的頭像 發(fā)表于 12-05 16:35 ?428次閱讀
    psci電源管理拓?fù)浣Y(jié)構(gòu)介紹

    錄音模塊:WT588FM01高性能錄音語(yǔ)音芯片IC,功能豐富,音質(zhì)卓越,滿足多樣化需求

    在音頻市場(chǎng)日益繁榮的今天,用戶對(duì)于錄音模塊的需求也日益多樣化。唯創(chuàng)知音針對(duì)這一市場(chǎng)趨勢(shì),推出了高性能錄音模塊WT588FM01。憑借其遠(yuǎn)距離錄音、優(yōu)質(zhì)音質(zhì)以及多樣化的功能,它成為了眾多電子產(chǎn)品中的首選之一。
    的頭像 發(fā)表于 11-29 09:46 ?456次閱讀

    錄音模塊:WT588FM01高性能錄音語(yǔ)音芯片IC,功能豐富,音質(zhì)卓越,滿足多樣化需求

    在音頻市場(chǎng)日益繁榮的今天,用戶對(duì)于錄音模塊的需求也日益多樣化。唯創(chuàng)知音針對(duì)這一市場(chǎng)趨勢(shì),推出了高性能錄音模塊WT588FM01。憑借其遠(yuǎn)距離錄音、優(yōu)質(zhì)音質(zhì)以及多樣化的功能,它成為了眾多電子產(chǎn)品中
    的頭像 發(fā)表于 11-29 09:39 ?451次閱讀
    錄音模塊:WT588FM01高性能錄音語(yǔ)音芯片IC,功能豐富,音質(zhì)卓越,滿足<b class='flag-5'>多樣化</b>需求

    Cloud MemoryStore for Redis Cluster 正式發(fā)布

    以下文章來(lái)源于谷歌云服務(wù),作者 Google Cloud 自從我們推出 Memorystore for Redis Cluster 預(yù)覽版以來(lái),銀行、零售、廣告、制造和社交媒體等各個(gè)行業(yè)的客戶都利用
    的頭像 發(fā)表于 11-24 17:40 ?347次閱讀
    Cloud MemoryStore for Redis <b class='flag-5'>Cluster</b> 正式發(fā)布

    千億級(jí)遠(yuǎn)程醫(yī)療市場(chǎng)爆發(fā),互聯(lián)醫(yī)療設(shè)備如何應(yīng)對(duì)需求多樣化?

    千億級(jí)遠(yuǎn)程醫(yī)療市場(chǎng)爆發(fā),互聯(lián)醫(yī)療設(shè)備如何應(yīng)對(duì)需求多樣化
    的頭像 發(fā)表于 11-24 17:03 ?405次閱讀
    千億級(jí)遠(yuǎn)程醫(yī)療市場(chǎng)爆發(fā),互聯(lián)醫(yī)療設(shè)備如何應(yīng)對(duì)需求<b class='flag-5'>多樣化</b>?

    OTP語(yǔ)音芯片WTN6系列:多樣化選擇,滿足各種產(chǎn)品應(yīng)用需求

    隨著科技的快速發(fā)展,語(yǔ)音芯片已經(jīng)成為了智能產(chǎn)品中不可或缺的核心組件。在這個(gè)領(lǐng)域中,唯創(chuàng)知音OTP語(yǔ)音芯片WTN6系列以其出色的性能和多樣化的選擇,贏得了廣大開(kāi)發(fā)者的青睞。本文將詳細(xì)介紹WTN6系列的幾個(gè)重要型號(hào)及其特點(diǎn),并為讀者提供選型指南。
    的頭像 發(fā)表于 11-23 13:52 ?369次閱讀