欧美一级精品视频,国精一二二产品无人区,日韩午夜无码a级毛片

本文首先介紹傳統(tǒng)的數(shù)據(jù)增強(qiáng)在NER任務(wù)中的表現(xiàn)，然后介紹一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法，這種方法生成的數(shù)據(jù)更具豐富性、數(shù)據(jù)質(zhì)量更高。

前言

在NLP中有哪些數(shù)據(jù)增強(qiáng)技術(shù)？這一定是當(dāng)今NLP面試中的必考題了吧。在《標(biāo)注樣本少怎么辦？》（鏈接：https://zhuanlan.zhihu.com/p/146777068）一文中也詳細(xì)總結(jié)過這個(gè)問題。但是，目前來看：大多數(shù)「數(shù)據(jù)增強(qiáng)」方法通常被用于文本分類、文本匹配等任務(wù)中，這類任務(wù)有一個(gè)共性：是“句子級(jí)別”（sentence level）的分類任務(wù)，大多數(shù)關(guān)于「文本增強(qiáng)」的研究也都針對(duì)這個(gè)任務(wù)。在2020年5月的時(shí)候，JayJay突然在想：NER如何進(jìn)行數(shù)據(jù)增強(qiáng)？有什么奇思妙想可以用上？于是我陷入沉思中......

NER做數(shù)據(jù)增強(qiáng)，和別的任務(wù)有啥不一樣呢？很明顯，NER是一個(gè)token-level的分類任務(wù)，在進(jìn)行全局結(jié)構(gòu)化預(yù)測(cè)時(shí)，一些增強(qiáng)方式產(chǎn)生的數(shù)據(jù)噪音可能會(huì)讓NER模型變得敏感脆弱，導(dǎo)致指標(biāo)下降、最終奔潰。在實(shí)踐中，我們也可以把常用的數(shù)據(jù)增強(qiáng)方法遷移到NER中，比如，我們通常采用的「同類型實(shí)體」隨機(jī)替換等。但這類方法通常需要獲得額外資源（實(shí)體詞典、平行語料等），如果沒有知識(shí)庫信息，NER又該如何做數(shù)據(jù)增強(qiáng)呢？有沒有一種單獨(dú)為NER適配的數(shù)據(jù)增強(qiáng)方法呢？本文JayJay主要介紹在最近頂會(huì)中、對(duì)NER進(jìn)行數(shù)據(jù)增強(qiáng)的2篇paper：

COLING20：《An Analysis of Simple Data Augmentation for Named Entity Recognition》

EMNLP20：《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》

COLING20主要是將傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法應(yīng)用于NER中、并進(jìn)行全面分析與對(duì)比。 EMNLP20主要是提出了一種適配于NER的數(shù)據(jù)增強(qiáng)方法——語言模型生成方法：1）這種方式不依賴于外部資源，比如實(shí)體詞典、平行語料等；2）可同時(shí)應(yīng)用于有監(jiān)督、半監(jiān)督場(chǎng)景。具體效果如何，我們來一探究竟吧～本文的組織結(jié)構(gòu)為：

傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法遷移到NER，效果如何？

在COLING20的paper中，作者借鑒sentence-level的傳統(tǒng)數(shù)據(jù)增強(qiáng)方法，將其應(yīng)用于NER中，共有4種方式（如上圖所示）：

Label-wise token replacement (LwTR)：即同標(biāo)簽token替換，對(duì)于每一token通過二項(xiàng)分布來選擇是否被替換；如果被替換，則從訓(xùn)練集中選擇相同的token進(jìn)行替換。

Synonym replacement (SR)：即同義詞替換，利用WordNet查詢同義詞，然后根據(jù)二項(xiàng)分布隨機(jī)替換。如果替換的同義詞大于1個(gè)token，那就依次延展BIO標(biāo)簽。

Mention replacement (MR)：即實(shí)體提及替換，與同義詞方法類似，利用訓(xùn)練集中的相同實(shí)體類型進(jìn)行替換，如果替換的mention大于1個(gè)token，那就依次延展BIO標(biāo)簽，如上圖：「headache」替換為「neuropathic pain syndrome」，依次延展BIO標(biāo)簽。

Shuffle within segments (SiS)：按照mention來切分句子，然后再對(duì)每個(gè)切分后的片段進(jìn)行shuffle。如上圖，共分為5個(gè)片段： [She did not complain of], [headache], [or], [any other neurological symptoms], [.]. 。也是通過二項(xiàng)分布判斷是否被shuffle（mention片段不會(huì)被shuffle），如果shuffle，則打亂片段中的token順序。

論文也設(shè)置了不同的資源條件：

Small(S)：包含50個(gè)訓(xùn)練樣本；

Medium (M)：包含150個(gè)訓(xùn)練樣本；

Large (L)：包含500個(gè)訓(xùn)練樣本；

Full (F)：包含全量訓(xùn)練集；

由上圖可以看出：

各種數(shù)據(jù)增強(qiáng)方法都超過不使用任何增強(qiáng)時(shí)的baseline效果。

對(duì)于RNN網(wǎng)絡(luò)，實(shí)體提及替換優(yōu)于其他方法；對(duì)于Transformer網(wǎng)絡(luò)，同義詞替換最優(yōu)。

總體上看，所有增強(qiáng)方法一起使用（ALL）會(huì)由于單獨(dú)的增強(qiáng)方法。

低資源條件下，數(shù)據(jù)增強(qiáng)效果增益更加明顯；

充分?jǐn)?shù)據(jù)條件下，數(shù)據(jù)增強(qiáng)可能會(huì)帶來噪聲，甚至導(dǎo)致指標(biāo)下降；

DAGA：?jiǎn)为?dú)適配于NER的數(shù)據(jù)增強(qiáng)方法

EMNLP這篇NER數(shù)據(jù)增強(qiáng)論文DAGA來自阿里達(dá)摩院，其主要是通過語言模型生成來進(jìn)行增強(qiáng)，其整體思路也非常簡(jiǎn)單清晰。

DAGA的核心思路也十分清晰，就是標(biāo)簽線性化：即將原始的「序列標(biāo)注標(biāo)簽」與「句子token」進(jìn)行混合，也就是變成「Tag-Word」的形式，如上圖所示：將「B-PER」放置在「Jose」之前，將「E-PER」放置在「Valentin」之前；對(duì)于標(biāo)簽「O」則不與句子混合。標(biāo)簽線性化后就可以生成一個(gè)句子了，基于這個(gè)句子就可以進(jìn)行「語言模型生成」訓(xùn)練啦～是不是超級(jí)簡(jiǎn)單？！

DAGA 網(wǎng)絡(luò)（如上圖）僅僅通過一層LSTM進(jìn)行自回歸的語言模型訓(xùn)練，網(wǎng)絡(luò)很輕，沒有基于BERT做。 DAGA的一大優(yōu)點(diǎn)就是不需要額外資源，比如同義詞替換就需要一個(gè)WordNet。但是論文也考慮到了使用外部資源時(shí)的情況，比如：1）有大量無標(biāo)注語料時(shí)；2）有外部知識(shí)庫時(shí)；

對(duì)于不同的3種資源條件下，具體的訓(xùn)練語料構(gòu)建如上圖所示：

對(duì)于標(biāo)注語料，用[labeled]在句首作為條件標(biāo)記；

對(duì)于無標(biāo)注語料，用[unlabeled]在句首作為條件標(biāo)記；

對(duì)于知識(shí)庫，對(duì)無標(biāo)注語料進(jìn)行詞典匹配后（正向最大匹配），用[KB]在句首作為條件標(biāo)記；

只要輸入[BOS]+[labeled]/[unlabeled]/[KB]，即可通過上述語言模型、自回歸生成新的增強(qiáng)數(shù)據(jù)啦～下面我們分別對(duì)上述3種資源條件下的生成方法進(jìn)行驗(yàn)證：2.1 只使用標(biāo)注語料進(jìn)行語言生成共采用4種實(shí)驗(yàn)設(shè)置：

gold：通過標(biāo)注語料進(jìn)行NER訓(xùn)練

gen：即DAGA，1）通過標(biāo)注語料進(jìn)行語言模型訓(xùn)練、生成新的數(shù)據(jù):2) 過采樣標(biāo)注語料; 3)新數(shù)據(jù)+過采樣標(biāo)注語料，最后一同訓(xùn)練NER；

rd：1)通過隨機(jī)刪除進(jìn)行數(shù)據(jù)增強(qiáng); 2)過采樣標(biāo)注語料；3)新數(shù)據(jù)+過采樣標(biāo)注語料，最后一同訓(xùn)練NER；

rd*：同rd，只是不過采樣標(biāo)注語料。

具體結(jié)果由上圖展示（設(shè)置了6種不同語言數(shù)據(jù)、不同的原始標(biāo)注數(shù)據(jù)量進(jìn)行對(duì)比），可以看出：DAGA方式（gen）明顯超過其他數(shù)據(jù)增強(qiáng)方法，特別是在低資源條件下（1k和2k數(shù)據(jù)量）。2.2 使用無標(biāo)注語料進(jìn)行語言生成共采用3種實(shí)驗(yàn)設(shè)置：

gold：通過標(biāo)注語料進(jìn)行NER訓(xùn)練；

wt：即弱監(jiān)督方法，采用標(biāo)注語料訓(xùn)練好一個(gè)NER模型，然后通過NER模型對(duì)無標(biāo)注語料偽標(biāo)生成新數(shù)據(jù)，然后再重新訓(xùn)練一個(gè)NER模型；

gen-ud：通過標(biāo)注和無標(biāo)注語料共同進(jìn)行語言模型訓(xùn)練、生成新數(shù)據(jù)，然后再訓(xùn)練NER模型；

由上圖的紅框進(jìn)行對(duì)比，可以看出：DAGA方法在所有設(shè)置下、均超過了弱監(jiān)督數(shù)據(jù)方法。其實(shí)弱監(jiān)督方法生成的數(shù)據(jù)質(zhì)量較低、噪聲較大，而DAGA可以有效改善這一情況。可以預(yù)見的是：當(dāng)有大量無標(biāo)注語料時(shí)，DAGA進(jìn)行的NER數(shù)據(jù)增強(qiáng)，將有效提升NER指標(biāo)。2.3 使用無標(biāo)注語料+知識(shí)庫進(jìn)行語言生成同樣也是采用3種實(shí)驗(yàn)設(shè)置：

gold：通過標(biāo)注語料進(jìn)行NER訓(xùn)練；

kb：從全量訓(xùn)練集中積累實(shí)體詞典（實(shí)體要在訓(xùn)練集上中至少出現(xiàn)2次），然后用實(shí)體詞典匹配標(biāo)注無標(biāo)注語料、生成新數(shù)據(jù)，最后再訓(xùn)練NER模型；

gen-kb：與kb類似，將kb生成的新數(shù)據(jù)訓(xùn)練語言模型，語言模型生成數(shù)據(jù)后、再訓(xùn)練NER模型；

如上圖紅框所示，總體上DAGA超過了kb方式，低資源條件（1k）下，kb方式還是強(qiáng)于DAGA。

DAGA為何如此有效？

DAGA更具多樣性：

如上圖所示，在原始的訓(xùn)練集中「Sandrine」只會(huì)和「Testud」構(gòu)成一個(gè)實(shí)體span，而DAGA生成的數(shù)據(jù)中，「Sandrine」會(huì)和更豐富的token構(gòu)成一個(gè)實(shí)體。

此外，DAGA會(huì)生成更豐富的實(shí)體上下文，論文以相同實(shí)體mention的1-gram作為評(píng)估指標(biāo)進(jìn)行了統(tǒng)計(jì)。如下圖所示，桔色代表DAGA生成的實(shí)體上下文，比原始的訓(xùn)練集會(huì)有更豐富的上下文。

DAGA可以有效利用無標(biāo)注語料：DAGA通過無標(biāo)注語料來生成有用的數(shù)據(jù)，新數(shù)據(jù)中會(huì)出現(xiàn)那些未在標(biāo)注語料中出現(xiàn)的新實(shí)體。

總結(jié)

本文就「NER如何進(jìn)行數(shù)據(jù)增強(qiáng)」進(jìn)行了介紹：

雖然傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法也可用于NER中，不過，JayJay認(rèn)為：傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法應(yīng)用到NER任務(wù)時(shí)，需要外部資源，且數(shù)據(jù)增強(qiáng)的豐富性不足、噪音可能較大。

基于語言生成的DAGA方法是NER數(shù)據(jù)增強(qiáng)的一種新興方式，再不利用外部資源時(shí)會(huì)有較好的豐富性、數(shù)據(jù)質(zhì)量較好。

責(zé)任編輯：xj

原文標(biāo)題：打開你的腦洞：NER如何進(jìn)行數(shù)據(jù)增強(qiáng) ？

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴