0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一套新的自然語言處理(NLP)評估基準(zhǔn),名為 SuperGLUE

電子工程師 ? 來源:lq ? 2019-04-29 18:02 ? 次閱讀

自然語言處理(NLP),是機器學(xué)習(xí)領(lǐng)域的一個分支,專門研究如何讓機器理解人類語言和相關(guān)文本,也是發(fā)展通用人工智能技術(shù)亟需攻克的核心難題之一。

不久之后,紐約大學(xué)、華盛頓大學(xué)、劍橋大學(xué)和 Facebook AI 將聯(lián)合推出一套新的自然語言處理(NLP)評估基準(zhǔn),名為 SuperGLUE,全稱是 Super General-Purpose Language Understanding。

該系統(tǒng)是現(xiàn)有 GLUE 基準(zhǔn)的升級版(所以前面加上了 Super)。研究人員刪除了原本 11 項任務(wù)中的 9 項,更新了剩下 2 項,同時加入了 5 項新的評估基準(zhǔn)。新版本將更契合未來 NLP 技術(shù)的發(fā)展方向,難度也是大幅增加,更具挑戰(zhàn)性。

(來源:Nikita Nangia)

這套系統(tǒng)的數(shù)據(jù)集、工具包和具體評估標(biāo)準(zhǔn)預(yù)計將于 5 月初公布。不過從最新發(fā)布的 SuperGLUE 論文中,我們可以先睹為快。

什么是 GLUE?

實現(xiàn) NLP 的方法有很多,主流的方法大多圍繞多任務(wù)學(xué)習(xí)和語言模型預(yù)訓(xùn)練展開,由此孕育出很多種不同模型,比如 BERT、MT-DNN、ALICE 和 Snorkel MeTaL 等等。在某個模型的基礎(chǔ)上,研究團隊還可以借鑒其它模型的精華或者直接結(jié)合兩者。

為了更好地訓(xùn)練模型,同時更準(zhǔn)確地評估和分析其表現(xiàn),紐約大學(xué)、華盛頓大學(xué)和 DeepMind 的 NLP 研究團隊在 2018 年推出了通用語言理解評估基準(zhǔn)(GLUE),其中包含 11 項常見 NLP 任務(wù),都是取自認可度相當(dāng)高的 NLP 數(shù)據(jù)集,最大的語料庫規(guī)模超過 40 萬條,而且種類多變,涉及到自然語言推理、情感分析、閱讀理解和語義相似性等多個領(lǐng)域。

圖 | GLUE的11項任務(wù)

不過GLUE基準(zhǔn)才發(fā)布一年,已經(jīng)有很多 NLP 模型在特定任務(wù)中超過了人類基準(zhǔn),尤其是在 QQP、MRPC 和 QNLI 三項任務(wù)中:

QQP 是“Quora 問題配對”數(shù)據(jù)集,由 40 萬對 Quora 問題組成,模型需要識別兩個問題之間的含義是否相同。

MRPC 是“微軟研究釋義語料庫”,與 QQP 類似,模型需要判斷兩個形式不同的句子是否具有相似的意思(即釋義句)。

QNLI 任務(wù)基于“斯坦福問答數(shù)據(jù)集(SQuAD)”,主要考察模型的閱讀理解能力。它需要根據(jù)維基百科中的文章來回答一些問題,答案可能存在于文章中,也可能不存在。

圖 | NLP 模型在三項任務(wù)中普遍超過了人類基準(zhǔn),越靠右側(cè)的模型分數(shù)越高

目前綜合分數(shù)最高的是微軟提交的 MT-DNN++模型,其核心是多任務(wù)深度神經(jīng)網(wǎng)絡(luò)(MT-DNN)模型,并且在文本編碼層整合了 BERT。僅次于它的是阿里巴巴達摩院 NLP 團隊的 ALICE Large 模型和斯坦福的 Snorkel MeTaL 模型。

從上面圖中我們也能看出,得益于 BERT 和 GPT 模型的引入,模型在很多GLUE 任務(wù)的得分都已經(jīng)接近人類基準(zhǔn),只有 2-3 個任務(wù)與人類有明顯差距。

因此,推出新的評估基準(zhǔn)勢在必行。

圖 | GLUE排行榜前五名

從 GLUE 到 SuperGLUE

新的 SuperGLUE 遵從了 GLUE 的基本原則:為通用語言理解技術(shù)的進步提供通俗,但又具有挑戰(zhàn)性的基準(zhǔn)。

在制定這個新基準(zhǔn)時,研究人員先在 NLP 社區(qū)公開征集任務(wù)提案,獲得了大約 30 份提案,隨后按照如下標(biāo)準(zhǔn)篩選:

任務(wù)本質(zhì):測試系統(tǒng)理解英語的能力。

任務(wù)難度:超出當(dāng)前最先進模型的能力,但是人類可以解決。

可評估性:具備自動評判機制,并且能夠準(zhǔn)確對應(yīng)人類的判斷或表現(xiàn)。

公開數(shù)據(jù):擁有公開的訓(xùn)練數(shù)據(jù)。

任務(wù)格式:SuperGLUE 輸入值的復(fù)雜程度得到了提升,允許出現(xiàn)復(fù)雜句子,段落和文章等。

任務(wù)許可:所用數(shù)據(jù)必須獲得研究和重新分發(fā)的許可。

在篩選過程中,他們首先重新審核了現(xiàn)有的 GLUE 任務(wù)集,從中刪除了模型表現(xiàn)較好的 9 項任務(wù),保留了 2 項表現(xiàn)最差的任務(wù)——Winograd 模式挑戰(zhàn)賽(WSC)和文本蘊含識別(RTE)——它們還有很大的進步空間。

兩項任務(wù)分別屬于自然語言推理和閱讀理解范疇。人類通常比較擅長這樣的任務(wù),甚至于不需要特殊訓(xùn)練就可以精通。比如看到這樣兩句話:

“這本書裝不進書包,因為它太大了?!?/p>

“這本書裝不進書包,因為它太小了?!?/p>

盡管兩個句子包含兩個含義截然相反的形容詞,人類還是可以輕松理解,因為我們知道“它”的指代物不同。但上面那些NLP模型卻表現(xiàn)的很糟糕,平均水平不足人類的 70%。而這其實就是 WSC 任務(wù)的主要內(nèi)容。

最后,研究人員挑選(設(shè)計)了 5 項新任務(wù),分別是 CB,COPA,GAP,MultiRC 和 WiC,主要測試模型回答問題,指代消解和常識推理的能力。

圖 | 新版SuperGLUE任務(wù)集,其中RTE和WSC來自于現(xiàn)有的GLUE任務(wù)

研究人員認為,SuperGLUE 的新任務(wù)更加側(cè)重于測試模型在復(fù)雜文本下的推理能力。

比如 WiC 要求模型在兩段內(nèi)容中,區(qū)分同一個單詞的含義是否一致(聽起來簡單,但對于機器來說非常困難)。CB 和 COPA 都是考察模型在給定“前提”的情況下,對“假設(shè)”或“理由”的正確性進行判斷,只不過有的側(cè)重于分析從句,有的側(cè)重于問答模式。

GAP 則要求模型對性別做出判斷,能夠通過“姐姐”,“哥哥”和“妻子”這樣的詞匯,分辨文本中“他”和“她”的指代對象。

MultiRC 任務(wù)更加復(fù)雜,模型需要完成閱讀理解,然后回答問題。一個典型的例子是這樣的:

圖| 搜索關(guān)鍵詞“speedy recover”,幾乎一眼就能找到答案,但機器未必知道

選擇了新的任務(wù)之后,研究人員用主流 NLP 模型進行了測試。

最流行的 BERT 模型的表現(xiàn)勉強可以接受,但其量化之后的綜合分數(shù)比人類低約 16.8%,說明機器距離人類基準(zhǔn)仍有不小的差距,而且 SuperGLUE 確實比GLUE 難了不少。

圖 | 現(xiàn)有模型在SuperGLUE上的表現(xiàn)

鑒于目前 SuperGLUE 還沒有正式推出,我們還無法查看任務(wù)數(shù)據(jù)集和模型排行榜。在 5 月份推出 SuperGLUE 后,它可能還會經(jīng)歷一些微調(diào),然后在7月份變?yōu)檎桨姹?,供研發(fā) NLP 模型的團隊挑戰(zhàn)。

目前來看,SuperGLUE 和 GLUE 之間的差距是可以接受的,新任務(wù)具有一定的挑戰(zhàn)性,但并非遙不可及,足以為全球的 NLP 團隊樹立一個新的標(biāo)桿。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    490

    瀏覽量

    10225
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    586

    瀏覽量

    13464
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    482

    瀏覽量

    21969

原文標(biāo)題:SuperGLUE!自然語言處理模型新標(biāo)準(zhǔn)即將公布

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    nlp自然語言處理基本概念及關(guān)鍵技術(shù)

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個重要分支,它致力于使計算機能夠理解、解釋和生成人類
    的頭像 發(fā)表于 07-09 10:32 ?354次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學(xué)和人工智能領(lǐng)域的個重要分支,它致力于使計算機能夠理解和
    的頭像 發(fā)表于 07-09 10:28 ?395次閱讀

    nlp自然語言處理的主要任務(wù)及技術(shù)方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的個分支,它研究如何讓計算機能夠理
    的頭像 發(fā)表于 07-09 10:26 ?575次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個重要分支,它涉及到計算機對人類語言的理
    的頭像 發(fā)表于 07-05 09:59 ?431次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學(xué)和人工智能領(lǐng)域的個重要分支,旨在使計算機能夠理解、解釋和生成人類
    的頭像 發(fā)表于 07-05 09:57 ?516次閱讀

    nlp自然語言處理的應(yīng)用有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個分支,它致力于使計算機能夠理解和生成自然語言
    的頭像 發(fā)表于 07-05 09:55 ?2213次閱讀

    使用Python進行自然語言處理

    在探討使用Python進行自然語言處理NLP)的廣闊領(lǐng)域時,我們首先需要理解NLP的基本概念、其重要性、Python在NLP中的優(yōu)勢,以及
    的頭像 發(fā)表于 07-04 14:40 ?338次閱讀

    自然語言處理技術(shù)有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個分支,它致力于使計算機能夠理解、解釋和生成人類
    的頭像 發(fā)表于 07-03 14:30 ?748次閱讀

    自然語言處理模式的優(yōu)點

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個重要分支,它致力于使計算機能夠理解、生成和處理
    的頭像 發(fā)表于 07-03 14:24 ?528次閱讀

    自然語言處理技術(shù)的核心是什么

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個重要分支,其核心目標(biāo)是使計算機能夠理解、生成和
    的頭像 發(fā)表于 07-03 14:20 ?412次閱讀

    自然語言處理是什么技術(shù)的種應(yīng)用

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的個分支,它涉及到使用計算機技術(shù)來
    的頭像 發(fā)表于 07-03 14:18 ?436次閱讀

    自然語言處理包括哪些內(nèi)容

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領(lǐng)域的個重要分支,它涉及到計算機與人類語言之間
    的頭像 發(fā)表于 07-03 14:15 ?601次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的個重要分支,它專注于構(gòu)建能夠理解和生成人類語言
    的頭像 發(fā)表于 07-02 18:16 ?699次閱讀

    自然語言處理技術(shù)的原理的應(yīng)用

    自然語言處理(Natural Language Processing, NLP)作為人工智能(AI)領(lǐng)域的個重要分支,旨在使計算機能夠理解和處理
    的頭像 發(fā)表于 07-02 12:50 ?319次閱讀

    神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

    自然語言處理NLP)是人工智能領(lǐng)域中的個重要分支,它研究的是如何使計算機能夠理解和生成人類自然語言。隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-01 14:09 ?354次閱讀