0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于標(biāo)簽數(shù)據(jù)提升語法錯誤糾正效果

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-09-23 15:44 ? 次閱讀

語法錯誤糾正 (GEC) 指的是試圖對語法和其他類型的寫作錯誤進行建模,并給出語法和拼寫建議,從而改善文檔、電子郵件、文章甚至非正式聊天中的書面輸出質(zhì)量。在過去 15 年里,GEC 的質(zhì)量有了很大提高,其中很大一部分原因是它將問題重塑為一項“翻譯”任務(wù)。例如,將這種方法引入 Google 文檔后,用戶采納的語法糾正建議數(shù)量顯著增加。

將問題重塑為一項“翻譯”任務(wù)

https://aclanthology.org/P06-1032/

但是,GEC 模型面臨的最大挑戰(zhàn)之一是數(shù)據(jù)稀少。不同于其他語音識別 (Speech recognition) 和機器翻譯 (Machine translation) 等自然語言處理 (NLP) 任務(wù),即便是針對英語這樣的高資源語言,GEC 可用的訓(xùn)練數(shù)據(jù)非常有限。對于這類問題,一個常見的補救措施是使用一系列技術(shù)來生成合成數(shù)據(jù),其中包括啟發(fā)式隨機詞或字符級的損壞,以及基于模型的方法。然而,這些方法往往是簡化的,不能反映實際用戶錯誤類型的真實分布。

在 EACL 第 16 屆創(chuàng)新使用 NLP 構(gòu)建教育應(yīng)用研討會上發(fā)表的《使用有標(biāo)簽損壞模型進行語法錯誤糾正的合成數(shù)據(jù)生成》 (Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models) 一文中,我們介紹了有標(biāo)簽損壞模型。這種方法受到機器翻譯中流行的回譯數(shù)據(jù)合成技術(shù)啟發(fā),能夠精確控制合成數(shù)據(jù)的生成,確保產(chǎn)生與實踐中錯誤分布更加一致的多樣化輸出。我們使用有標(biāo)簽損壞模型來生成一個新的數(shù)據(jù)集(包含 2 億個句子)。目前這個數(shù)據(jù)集應(yīng)發(fā)布,可供研究人員提供真實的 GEC 預(yù)訓(xùn)練數(shù)據(jù)。通過將新的數(shù)據(jù)集整合到訓(xùn)練流水線,我們能夠顯著改善 GEC 的基線。

使用有標(biāo)簽損壞模型進行語法錯誤糾正的合成數(shù)據(jù)生成

https://aclanthology.org/2021.bea-1.4/

回譯

https://aclanthology.org/P16-1009/

數(shù)據(jù)集(包含 2 億個句子)

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有標(biāo)簽損壞模型

將傳統(tǒng)的損壞模型應(yīng)用于 GEC,其背后的理念是,從一個語法正確的句子開始,然后通過添加錯誤“損壞”它。通過在現(xiàn)有 GEC 數(shù)據(jù)集中切換源句和目標(biāo)句,可以輕松地訓(xùn)練出損壞模型,之前的研究已經(jīng)表明,這種方法對生成改進的 GEC 數(shù)據(jù)集非常有效。

提供干凈的輸入句(綠色)后,傳統(tǒng)損壞模型會生成一個不符合語法的句子(紅色)

之前的研究

https://aclanthology.org/D19-1119.pdf

我們提出的有標(biāo)簽損壞模型建立在這一理念的基礎(chǔ)之上,它將一個干凈的句子作為輸入,加上一個錯誤類型標(biāo)簽,描述所要重現(xiàn)的錯誤類型。然后,它為輸入句生成一個包含指定錯誤類型的語法錯誤版本。與傳統(tǒng)的損壞模型相比,為不同句子選擇不同的錯誤類型增加了損壞的多樣性。

有標(biāo)簽損壞模型會根據(jù)錯誤類型標(biāo)簽,為干凈的輸入句(綠色)生成損壞(紅色)。限定詞錯誤可能會導(dǎo)致丟失限定詞 “a”,而名詞屈折變化錯誤可能導(dǎo)致錯誤的復(fù)數(shù)形式 “sheeps”

為使用此模型生成數(shù)據(jù),我們首先從 C4 語料庫中隨機選擇了 2 億個干凈的句子,并為每個句子分配了一個錯誤類型標(biāo)簽,令其相對頻率與小型開發(fā)集 BEA-dev 的錯誤類型標(biāo)簽分布相匹配。由于 BEA-dev 是一個精心制作的集合,涵蓋各種英語水平,范圍很廣,我們預(yù)計其標(biāo)簽分布能夠代表現(xiàn)實中出現(xiàn)的寫作錯誤。然后,我們用一個有標(biāo)簽損壞模型來合成源句。

使用有標(biāo)簽損壞模型生成合成數(shù)據(jù)。在合成的 GEC 訓(xùn)練語料庫中,干凈的 C4 句子(綠色)與損壞的句子(紅色)配對。遵循開發(fā)集(條形圖)中錯誤類型的頻率,使用有標(biāo)簽損壞模型生成損壞的句子

C4 語料庫

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

結(jié)果

在我們的實驗中,有標(biāo)簽損壞模型在兩個標(biāo)準開發(fā)集(CoNLL-13 和 BEA-dev)上表現(xiàn)優(yōu)于無標(biāo)簽損壞模型,比后者高出三個 F0.5-點(GEC 研究中的一個標(biāo)準指標(biāo),結(jié)合了精確率和召回率 (Precision and recall),更注重精確率),并在兩個廣泛使用的學(xué)術(shù)測試集(CoNLL-14 和 BEA-test)上體現(xiàn)了最先進的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

標(biāo)準指標(biāo)

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外,使用有標(biāo)簽損壞模型不僅能在標(biāo)準的 GEC 測試集上獲得收益,還能夠讓 GEC 系統(tǒng)適應(yīng)用戶的語言水平。這一點會十分有用,原因之一是英語母語寫作者的錯誤標(biāo)簽分布往往與非英語母語寫作者的分布有很大不同。例如,英語母語者通常會犯更多標(biāo)點符號和拼寫錯誤,而限定詞錯誤(例如缺少或多加冠詞,如 “a”、“an” 或 “the”)在非英語母語寫作者的文本中更為常見。

結(jié)論

眾所周知,神經(jīng)序列模型對數(shù)據(jù)的需求非常大,但用于語法錯誤糾正的注釋訓(xùn)練數(shù)據(jù)卻很少。新的 C4_200M 語料庫是一個包含各種語法錯誤的合成數(shù)據(jù)集,用于預(yù)訓(xùn)練 GEC 系統(tǒng)時,它體現(xiàn)出了最先進的性能。通過發(fā)布該數(shù)據(jù)集,我們希望為 GEC 研究人員提供寶貴的資源來訓(xùn)練強大的基線系統(tǒng)。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6762

    瀏覽量

    88626
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3065

    瀏覽量

    48578
收藏 人收藏

    評論

    相關(guān)推薦

    基于糾正措施系統(tǒng)(FRACAS)的關(guān)鍵技術(shù)

    故障報告,分析和糾正措施系統(tǒng)是一種系統(tǒng)的方法,用于從一個或多個來源收集失效數(shù)據(jù),針對根本原因?qū)?b class='flag-5'>數(shù)據(jù)進行匯編和分析以及識別糾正措施。
    的頭像 發(fā)表于 02-20 10:34 ?1274次閱讀

    關(guān)于電流提升器和電壓提升器的分析?

    請問我關(guān)于電流提升器和電壓提升器的計算是否正確?這兩個電路是怎么分析的? 電流提升器由虛短虛斷,Uo=RfI,Ⅰ是輸入端電流源電流,但是電流提升
    發(fā)表于 01-11 23:57

    如何糾正三相電源相序

    如何糾正三相電源相序? ? 糾正三相電源相序錯誤是電氣工程中一個非常重要的任務(wù)。相序錯誤可能會導(dǎo)致電氣設(shè)備損壞、功率因數(shù)下降、電路故障等嚴重后果。因此,我們需要在實際工作中及時發(fā)現(xiàn)和
    的頭像 發(fā)表于 01-04 14:30 ?4860次閱讀

    Shell腳本檢查工具ShellCheck介紹

    ShellCheck是一個用于bash/sh shell腳本的靜態(tài)分析工具,可以輔助檢查腳本語法錯誤,給出建議增強腳本健壯性。
    的頭像 發(fā)表于 12-27 13:43 ?1826次閱讀
    Shell腳本檢查工具ShellCheck介紹

    python寫錯了怎么更改

    你找到錯誤的來源。 2.檢查代碼:仔細檢查可能存在錯誤的代碼部分。查看可能導(dǎo)致問題的語法錯誤、語義錯誤、邏輯錯誤或拼寫
    的頭像 發(fā)表于 11-29 17:01 ?1837次閱讀

    python運行完后為什么會閃退

    終止。這可能是由于多種原因引起的,下面我將詳細介紹幾種常見的閃退原因和解決方法。 語法錯誤:在編寫Python代碼時,如果有語法錯誤,程序?qū)o法正確解釋和執(zhí)行代碼,從而導(dǎo)致閃退。這些錯誤可能是拼寫
    的頭像 發(fā)表于 11-29 15:14 ?8189次閱讀

    invalid synrax是什么錯誤

    “invalid synrax” 是英語中的拼寫錯誤,正確的拼法是 “invalid syntax”。語法錯誤是指程序代碼中出現(xiàn)了不符合編程語言規(guī)則的語法結(jié)構(gòu),導(dǎo)致編譯器無法理解和編譯代碼。
    的頭像 發(fā)表于 11-28 15:59 ?7740次閱讀

    python運行程序出現(xiàn)紅色空白

    當(dāng)你運行Python程序時,如果出現(xiàn)紅色空白,這通常意味著有一個錯誤發(fā)生了。這個錯誤可能是由多種原因造成的,本文將詳細介紹可能的原因和解決方法,幫助你解決這個問題。 語法錯誤:Python是一種強
    的頭像 發(fā)表于 11-28 15:30 ?1657次閱讀

    腳本錯誤scripterror怎么解決

    “腳本錯誤”(Script Error)通常是在運行或嘗試運行一段腳本或程序時出現(xiàn)的錯誤。這種錯誤可能源于許多不同的原因,包括語法錯誤、運行環(huán)境問題、依賴庫缺失等。解決腳本
    的頭像 發(fā)表于 11-26 14:46 ?7137次閱讀

    a javascript error怎么修復(fù)

    、出錯的文件和行號。這有助于您了解問題的根本原因。 確認代碼語法錯誤 常見的錯誤包括拼寫錯誤、缺少分號、括號不匹配等。使用代碼編輯器的語法檢查功能可以快速找到并修復(fù)這些
    的頭像 發(fā)表于 11-26 14:41 ?4663次閱讀

    c語言代碼錯誤怎么找

    當(dāng)我們編寫C語言代碼時,常常會遇到一些錯誤。這些錯誤可能是語法錯誤,邏輯錯誤或者是運行時錯誤。無論是什么類型的
    的頭像 發(fā)表于 11-24 10:05 ?3140次閱讀

    Configuration Wizard的語法規(guī)則

    Configuration Wizard的語法規(guī)則 大家如果有使用過HTML語法,這里就非常容易理解了,它和 HTML一樣,使用成對的標(biāo)簽來代表不同的功能,如 >和>,其中 * 代表不同的功能
    的頭像 發(fā)表于 11-23 18:09 ?1101次閱讀
    Configuration Wizard的<b class='flag-5'>語法</b>規(guī)則

    有辦法定義一個特殊寄存器的指針數(shù)組嗎?

    類似這樣的意思 static sfr register_map[]={ CKCONRFCON};但是,這樣子語法錯誤;
    發(fā)表于 11-08 08:16

    關(guān)于單片機點亮LED流水燈的操作疑問

    利用STC89C52RC單片機編寫一個讓雙數(shù)位的LED燈發(fā)光的程序,但是在編譯時顯示undefined indentifier(未定義變量)的報錯,之后進行的變量定位后又顯示syntax error(語法錯誤)的提示,作為一名剛剛?cè)腴T的單片機小白來講真心很迷,請求各位幫忙指點迷津,謝謝大家了
    發(fā)表于 11-06 07:41

    看完本篇,幫你糾正錯誤的去耦方法

    看完本篇,幫你糾正錯誤的去耦方法
    的頭像 發(fā)表于 10-26 15:22 ?410次閱讀
    看完本篇,幫你<b class='flag-5'>糾正</b><b class='flag-5'>錯誤</b>的去耦方法