97久久精品视频,亚洲444KKKK在线观看无码

近日，由阿里巴巴達(dá)摩院語言技術(shù)實(shí)驗(yàn)室研發(fā)的 Multi-Doc Enriched BERT 模型在微軟的 MS MARCO 數(shù) 據(jù)評測任務(wù)，Passage Retrieval Task（文檔檢索排序）和 Q&A Task（開放域自動問答）中雙雙刷新記錄，均取得榜首（截止 2019 年 6 月 26 日）。

MS MARCO 挑戰(zhàn)賽是 AI 閱讀理解領(lǐng)域的權(quán)威比賽，包含 100 多萬問題和近千萬篇文檔，參賽機(jī)構(gòu)提供的 AI 模型需要從這些文檔中找出 100 萬個(gè)問題的正確答案。參與此次評比的還有微軟、Facebook 等公司。

與斯坦福大學(xué)發(fā)起的 SQuAD 挑戰(zhàn)賽不同，MS MARCO 數(shù)據(jù)集模擬了搜索引擎中的真實(shí)應(yīng)用場景，其難度更大，是機(jī)器閱讀理解領(lǐng)域最有應(yīng)用價(jià)值的數(shù)據(jù)集之一。MS MARCO 挑戰(zhàn)賽需要參賽者提交的模型具備理解長文檔多段落，并回答復(fù)雜問題的能力。對于每一個(gè)問題，MS MARCO 提供多篇來自搜索結(jié)果的網(wǎng)頁文檔，AI 需要通過閱讀這些文檔來回答用戶提出的問題。但是，文檔中是否含有答案，以及答案具體在哪一篇文檔或段落中，都需 AI 自己來判斷解決。

更難的是，有一部分問題無法在文檔中直接找到答案，需要 AI 自由發(fā)揮做出判斷。這對機(jī)器閱讀理解提出了更高要求，需要 AI 具備綜合理解多文檔信息、聚合生成問題答案的能力。

阿里的突破在于提出了基于“融合結(jié)構(gòu)化信息 BERT 模型”的“深度級聯(lián)機(jī)器閱讀模型”，可以模仿人類閱讀理解的過程，先對文檔進(jìn)行快速瀏覽，判斷，然后針對相應(yīng)段落進(jìn)行精讀，并根據(jù)“自己的理解”回答問題。其中，阿里巴巴自研的算法成果——“深度級聯(lián)機(jī)器閱讀模型”已被 AAAI 2019 收錄。

這是繼 2018 年《Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering》（ACL 2018）在單文檔閱讀理解（斯坦福 SQuAD 挑戰(zhàn)賽）取得的成果后，阿里巴巴研究團(tuán)隊(duì)在機(jī)器閱讀理解領(lǐng)域的又一次突破。

機(jī)器閱讀理解模型需要的輸入是，業(yè)務(wù)應(yīng)用中，枚舉所有Document，計(jì)算并排序答案后給出最終答案顯然不實(shí)際；另一方面，設(shè)計(jì)完全的 IR+MRC 的端到端（End2End）模型，并輔以 Joint Trainning 在線上部署和實(shí)際使用時(shí)也會遭遇模型過大導(dǎo)致的性能瓶頸。因此，采用 Question 相關(guān)文檔選擇及文檔中段落裁剪，并將有限且相關(guān)的備選段落交給 MRC 模型的方案是兼顧 Effectiveness 和 Efficiency 的核心策略。

阿里巴巴研究團(tuán)隊(duì)在 MS MARCO 上提交的 Multi-Doc Enriched BERT 模型，正是為了解決上述問題。團(tuán)隊(duì)先于2019年初提出了級聯(lián)學(xué)習(xí)框架《A Deep Cascade Model for Multi-Document Reading Comprehension》（AAAI 2019），設(shè)計(jì)出深度級聯(lián)機(jī)器閱讀框架，該方案可有效降低召回階段延時(shí)，并最大化答案準(zhǔn)確率，算法在召回和排序上逐步從文檔級別，段落級別演化，并在最后有限的備選段落中進(jìn)行答案提取工作。

隨后，研究團(tuán)隊(duì)提出了 Enriched BERT 模型，配合 Deep Cascade Model 框架，在多文閱讀理解上超過了之前廣泛使用的 IR Based MRC 模型。其中，負(fù)責(zé)提供語義表征的 Enriched BERT 模型除了在 MS MARCO 上作為語言模型幫助取得雙料冠軍外，在國際公認(rèn)的自然語言理解標(biāo)準(zhǔn)數(shù)據(jù)集 GLUE Benchmark 上也取得了 Top3 的成績（相關(guān)技術(shù)近期公開）。

特別在 MS MARCO Q&A Task 上，阿里方面稱，較之前最先進(jìn)的模型有 1.5% 的 Rouge-L 絕對提升。此外，在 MS MARCO Passage Retrieval Task 上，他們自研的 Enriched BERT Base 模型領(lǐng)先于其他模型。

阿里方面介紹，阿里 AI 可以像人類一樣在閱讀并理解后快速應(yīng)對天馬行空的問題。比如阿里 AI 可以在毫秒內(nèi)讀完 2 億字的巨著，相當(dāng)于 5 本《大英百科全書》，并根據(jù)自己的理解快速回答 100 多萬個(gè)不同領(lǐng)域的不同問題。例如 2014 年足球世界杯的冠軍是誰？哈利波特在哪里上學(xué)的？什么是宇宙中最強(qiáng)的磁場？阿里 AI 可以分別迅速給出答案，這一研究水平可以應(yīng)對高中英語閱讀理解試題。

（這一AI能力已應(yīng)用在阿里電子商務(wù)平臺中）

對人類而言，閱讀是獲取知識、不斷進(jìn)步的重要途徑；對機(jī)器而言，同樣如此。阿里 AI 這一成果揭示了機(jī)器在理解大量復(fù)雜材料以及回答現(xiàn)實(shí)生活中復(fù)雜問題方面的潛力。

據(jù)阿里方面介紹，這一技術(shù)已經(jīng)開始大規(guī)模應(yīng)用，例如去年在 Lazada 一次線上促銷活動前，阿里 AI 僅僅花了 30 毫秒就學(xué)會 25 個(gè)在印尼促銷品銷售中的所有規(guī)則，并成功應(yīng)用到聊天機(jī)器人中，在活動中回答問題方面的準(zhǔn)確率達(dá)到了 96%。

圍繞電商服務(wù)、導(dǎo)購及任務(wù)助理為核心的智能人機(jī)交互產(chǎn)品，在活動，規(guī)則，指南等場景中替代人工構(gòu)建知識，降低人工成本，提升認(rèn) 知智能能力，為海量的活動規(guī)則咨詢提供解答服務(wù)。在近年來的雙 11，雙 12 場景及最近的 618 大促中維護(hù)效率提升 50%，相比通用方案解決率提升 10%。同時(shí)，這一技術(shù)也活躍在政務(wù)場景如市 ?辦事咨詢中，基于浙江省百萬級辦事指南庫，”身份證到哪里換“這類咨詢從等待人工回復(fù)時(shí)? 2.5 天提升到了秒級響應(yīng)。

以多文檔開放問答場景的機(jī)器閱讀為代表的語言理解技術(shù)是自然語言處理的基礎(chǔ)能力之一，在這些基礎(chǔ)能力之上，阿里巴巴可圍繞該技術(shù)構(gòu)建一系列問答類應(yīng)用。在產(chǎn)業(yè)落地方面，問答平臺及聊天機(jī)器人產(chǎn) 品等會伴隨這項(xiàng)技術(shù)豐富其自身能力，降低人力成本提高效率；對于消費(fèi)者來說，智能客服以后可以幫助消費(fèi)者在購物時(shí)有更好的體驗(yàn)。

當(dāng)前，無論是在工業(yè)界還是學(xué)術(shù)界，各方研究團(tuán)隊(duì)都在機(jī)器閱讀理解上投入大量精力。未來，除了對話和問答場景，在搜索場景中，搜索引擎將不僅僅是返回用戶相關(guān)的鏈接和網(wǎng)?，而是通過對互聯(lián)網(wǎng)上的海量資源進(jìn)行閱讀理解，直接得出答案返回給用戶。

附：級聯(lián)機(jī)器閱讀理解模型詳解

阿里方面提供的資料顯示，級聯(lián)學(xué)習(xí)可以通過在不同階段采用不同的特性選擇和樣本篩選策略達(dá)到效果和性能的平衡，阿里巴巴提出的多文檔機(jī)器閱讀模型首先利用簡單特征和排序模型過濾掉與問題無關(guān)的樣本和段落，并得到一組候選文本，供后續(xù)從中提取答案。然后將生成的段落傳遞給基于注意力的深層 MRC 模型（不同于傳統(tǒng)多層 MRC，阿里巴巴研究團(tuán)隊(duì)在近期公布的 Google BERT 進(jìn)行了進(jìn)一步的創(chuàng)新優(yōu)化，并設(shè)計(jì)了基于 Enriched BERT 的新 MRC 模型），該模型用于提取單詞級別的實(shí)際答案跨度。

為了進(jìn)一步提升模型效果，該模型使用文檔提取和段落提取作為輔助任務(wù)，以快速減少搜索空間的范圍。重要的是，這三個(gè)任務(wù)在統(tǒng)一的深層 MRC 模型中共享同一個(gè)底層語言模型（Enriched BERT），這不僅可以實(shí)現(xiàn)粗到細(xì)的演繹過程，還可以通過迭代有效地學(xué)習(xí)更好的模型。

如上圖所示，系統(tǒng)架構(gòu)由三個(gè)核心模塊組成，分別負(fù)責(zé)文檔檢索、段落檢索和答案提取。對于前兩個(gè)功能中的每一個(gè)功能，都定義了一個(gè)排序函數(shù)和一個(gè)提取函數(shù)。排序函數(shù)用于無關(guān)內(nèi)容的過濾（Efficiency）。提取函數(shù)將文檔提取和段落提取作為輔助任務(wù)并與最終答案提取模塊（機(jī)器閱讀理解）聯(lián)合優(yōu)化，以提高性能（Effectiveness）。所采用的方案與以前的方法相比，關(guān)鍵的改進(jìn)是每個(gè)模塊的本地排序功能在成本和復(fù)雜性上逐步增加，在整個(gè)計(jì)算過程中保持效率和有效性競爭因素之間的平衡。

在實(shí)驗(yàn)中（備注：AAAI 2019 的實(shí)驗(yàn)中不包含 Enriched BERT 結(jié)果，后續(xù)公布），模型開發(fā)人員首先用 TriviaQA Web 和 DuReader 基準(zhǔn)數(shù)據(jù)集驗(yàn)證了在離線測試中的有效性，這兩套數(shù)據(jù)集通常被用作多文檔 MRC 評測的標(biāo)準(zhǔn)數(shù)據(jù)集。該基準(zhǔn)數(shù)據(jù)的結(jié)果表明，研究人員所提出的模型明顯超過了以前最先進(jìn)的模型，在每個(gè)包含兩個(gè)段落四個(gè)文檔集的場景中性能最佳；此外，通過額外的輔助任務(wù)在初期排序中消除不相關(guān)的文檔和段落，時(shí)間成本被證明是可以降低的，可以在不顯著影響最終答案提取效果的情況下完成。

經(jīng)過驗(yàn)證，團(tuán)隊(duì)使用阿里小蜜客服機(jī)器人系統(tǒng)進(jìn)行了在線環(huán)境測試，該系統(tǒng)旨在幫助阿里巴巴集團(tuán)電子商務(wù)平臺解決每日約 200 萬名訪問者提出的問題。這些測試表明，該模型能夠以低于 50 微秒的速度滿足請求，同時(shí)也提高了有效性標(biāo)準(zhǔn)。

上述結(jié)果表明，通過減少無關(guān)內(nèi)容的“噪聲”，該模型可以大大改善現(xiàn)有的最先進(jìn)在線答疑系統(tǒng)標(biāo)準(zhǔn)，同時(shí)更好地平衡提取過程各個(gè)階段效率和有效性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
29383

瀏覽量
267668
阿里巴巴

阿里巴巴

+關(guān)注

關(guān)注
7

文章
1605

瀏覽量
46991
模型

模型

+關(guān)注

關(guān)注
1

文章
3062

瀏覽量
48575

原文標(biāo)題：阿里達(dá)摩院刷新紀(jì)錄，開放域問答成績比肩人類水平，超微軟、Facebook

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

認(rèn)識一下阿里的AI殿堂-達(dá)摩院精選資料分享

國內(nèi)三大科技領(lǐng)頭羊BAT，BT我們已經(jīng)介紹過，今天隨我一起揭開阿里巴巴技術(shù)背后的神秘面紗。1達(dá)摩院的誕生1.1 冠名與成立2017年10月11日，第八屆云棲大會在杭州拉開了帷幕，這次大會上，馬云重磅

發(fā)表于 07-28 08:10

阿里要建“達(dá)摩院”,馬云、胡曉明、張建峰他們這樣說

馬云對達(dá)摩院下了三個(gè)原則：“達(dá)摩院要活得比阿里巴巴長，有一天即使阿里巴巴不在了，

發(fā)表于 10-12 10:15 ?2564次閱讀

今年黑五海信再次刷新紀(jì)錄 65萬臺4K高清電視被美國消費(fèi)者搶購一空

繼去年海信“黑色星期五”購物狂歡節(jié)大賣52萬臺4K電視創(chuàng)下紀(jì)錄之后，今年“黑五”海信再次刷新紀(jì)錄，65萬臺4K高清電視被美國消費(fèi)者搶購一空，甚至不少賣場的消費(fèi)者為搶購海信電視都差點(diǎn)打起來了。在這兩天的網(wǎng)絡(luò)上，一些搶購海信電視的視頻被不斷熱傳，讓不少國內(nèi)消費(fèi)者

發(fā)表于 11-26 17:35 ?1514次閱讀

隨著激光電視價(jià)格不斷刷新紀(jì)錄，替代大尺寸液晶電視的時(shí)機(jī)終于來了嗎？

近日，激光電視價(jià)格不斷刷新紀(jì)錄，繼極米科技發(fā)布萬元級1080p激光電視（不含幕布）之后，海信也發(fā)布了兩萬元以內(nèi)的4K激光電視（含幕布），激光電視價(jià)格下滑的趨勢不可阻擋。

發(fā)表于 08-22 16:15 ?3238次閱讀

海信“黑五”刷新紀(jì)錄 65萬臺4K高清電視被美國消費(fèi)者搶購一空

發(fā)表于 11-26 17:21 ?1424次閱讀

阿里達(dá)摩院發(fā)布2019十大科技趨勢

1月2日，阿里達(dá)摩院發(fā)布《2019十大科技趨勢》，在未來的一年，科技領(lǐng)域究竟會再次迎來春天，還是繼續(xù)在寒冬中前行，達(dá)摩院給出了自己的判斷。

發(fā)表于 01-03 10:56 ?3050次閱讀

阿里達(dá)摩院首份科技趨勢報(bào)告出爐：2019年十大科技趨勢預(yù)測

阿里達(dá)摩院發(fā)布了《2019十大科技趨勢》，據(jù)悉這是達(dá)摩院自2017年10月成立以來發(fā)布的首份科技趨勢報(bào)告。

發(fā)表于 02-07 04:36 ?2872次閱讀

阿里達(dá)摩院自然語言理解技術(shù)奪冠 AI技術(shù)將進(jìn)一步落地發(fā)展

3月3日消息，在全球自然語言處理領(lǐng)域頂級賽事GLUE Benchmark中，阿里巴巴達(dá)摩院以平均分90.3分的成績奪冠，刷新自然語言理解技術(shù)

發(fā)表于 03-03 11:46 ?566次閱讀

<b class='flag-5'>阿里</b><b class='flag-5'>達(dá)摩</b><b class='flag-5'>院</b>自然語言理解技術(shù)奪冠 AI技術(shù)將進(jìn)一步落地發(fā)展

阿里巴巴達(dá)摩院刷新自然語言理解技術(shù)世界紀(jì)錄將推進(jìn)AI技術(shù)在各領(lǐng)域的落地

3月3日消息，在全球自然語言處理領(lǐng)域頂級賽事GLUE Benchmark中，阿里巴巴達(dá)摩院以平均分90.3分的成績奪冠，刷新自然語言理解技術(shù)

發(fā)表于 03-03 13:56 ?2663次閱讀

《Beat Saber》賣出200萬份在虛擬現(xiàn)實(shí)社區(qū)中不斷的刷新紀(jì)錄

3月18日消息，F(xiàn)acebook宣布《Beat Saber》在所有VR平臺賣出了超過200萬份。這款游戲在虛擬現(xiàn)實(shí)社區(qū)中不斷的刷新紀(jì)錄，同時(shí)它成功的為藝人和粉絲之間搭建了彼此之間聯(lián)系的平臺：下載內(nèi)容賣出來超過1000萬份單曲。

發(fā)表于 03-18 10:24 ?633次閱讀

阿里達(dá)摩院斬獲AI相關(guān)6大權(quán)威冠軍，部分能力已超越人類

8月26日，阿里達(dá)摩院語言技術(shù)實(shí)驗(yàn)室取得一系列突破，斬獲自然語言處理（NLP）領(lǐng)域6大權(quán)威技術(shù)榜單冠軍。據(jù)介紹，參與競賽的6項(xiàng)自研AI技術(shù)均采用模仿人類的學(xué)習(xí)模式，全方位提升了機(jī)器的語

發(fā)表于 08-27 10:04 ?1656次閱讀

<b class='flag-5'>阿里</b><b class='flag-5'>達(dá)摩</b><b class='flag-5'>院</b>斬獲AI相關(guān)6大權(quán)威冠軍，部分能力已超越<b class='flag-5'>人類</b>

阿里達(dá)摩院到底取得了哪些技術(shù)突破?

系統(tǒng)等等，而就在2月初，阿里旗下的達(dá)摩院也正式對外官宣了一項(xiàng)數(shù)據(jù)成績，馬云攜手阿里在2017年成立了達(dá)摩

發(fā)表于 02-05 16:28 ?3636次閱讀

阿里達(dá)摩院都在研究什么

自從阿里四年前花費(fèi)1000億成立達(dá)摩院以來，外界對達(dá)摩院的質(zhì)疑不斷，那么到底在研究什么？

發(fā)表于 03-30 17:12 ?2796次閱讀

擴(kuò)博智能成功刷新國內(nèi)風(fēng)機(jī)巡檢中單人單機(jī)效率新紀(jì)錄

近期，擴(kuò)博智能飛手在執(zhí)行新疆昌吉回族自治州某風(fēng)場的風(fēng)機(jī)巡檢任務(wù)時(shí)，成功刷新擴(kuò)博智能在國內(nèi)風(fēng)機(jī)巡檢中的單人單機(jī)效率新紀(jì)錄，實(shí)現(xiàn)了單人、單臺無人機(jī)設(shè)備在10小時(shí)內(nèi)巡檢17臺風(fēng)機(jī)的新成績。

發(fā)表于 06-22 11:38 ?2689次閱讀

中國協(xié)作機(jī)器人銷售量曝光!一路狂飆刷新紀(jì)錄！

中國協(xié)作機(jī)器人銷售量曝光!一路狂飆刷新紀(jì)錄！

發(fā)表于 05-23 10:55 ?872次閱讀

搜索歷史

阿里達(dá)摩院刷新紀(jì)錄，開放域問答成績比肩人類水平

評論