0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Meta開源NLLB翻譯模型,支持200種語言互譯

深度學習自然語言處理 ? 來源:量子位 ? 作者:量子位 ? 2022-07-21 11:08 ? 次閱讀

這個翻譯模型,不僅支持200+語言之間任意兩兩互譯,還是開源的。Meta AI在發(fā)布開源大型預訓練模型OPT之后,再次發(fā)布最新成果NLLB。

NLLB的全稱為No Language Left Behind,如果套用某著名電影,可以翻譯成“一個語言都不能少”。

caaf98f6-0818-11ed-ba43-dac502259ad0.png

這其中,中文分為簡體繁體和粵語三種,而除了中英法日語等常用語種外,還包括了許多小眾語言。

cace7ece-0818-11ed-ba43-dac502259ad0.png

▲NLLB支持的部分語種截圖

由于這些語言之間都可以兩兩互譯,所以咱們能用NLLB把阿斯圖里亞語、盧甘達語、烏爾都語等地球上的小眾語言直接譯成中文了。

一位用粵語的靚仔看到這里直接喜大普奔。

caf5c984-0818-11ed-ba43-dac502259ad0.png

要知道,此前的眾多語言模型,要么不支持這么多種語言,要么不能直接完成小眾語言之間的兩兩翻譯。

有了NLLB,世界各地的人都有機會以自己的母語訪問和分享網絡內容;并且無論他們的語言偏好如何,都可以與他人在任意地方溝通。

Meta稱,他們計劃先將這個技術應用于Facebook和Instagram,以提升這些平臺上小眾語言的計算機翻譯水平。

同時,這也是他們元宇宙計劃的一部分。而這項成果正式開源的消息,也受到廣受好評。

cb0a026e-0818-11ed-ba43-dac502259ad0.png

除了AI業(yè)內關心他們如何支持語料稀缺的冷門語言,以及如何在BLEU基準測試上提高7個點以外。也有來自西非的網友認為,語言障礙正是全球互聯(lián)網用戶數(shù)量進一步增長的關鍵。

cb1ccff2-0818-11ed-ba43-dac502259ad0.png

在Hacker News論壇上,大家也對這個AI議論紛紛。一個前端開發(fā)者說,自己的母語就是非常小眾的那種,僅有約一百萬人使用。

這位開發(fā)者此前從未見過對這種語言好用的AI翻譯軟件,而NLLB給他帶來了希望。

不過他認為,連著名的谷歌AI在處理“德-英-德”這樣語料豐富的語言翻譯時,都常常會出問題,所以他暫且對這個聲稱能翻譯好小眾語言的新模型持保留態(tài)度。

cb2b5ad6-0818-11ed-ba43-dac502259ad0.png

有網友給這位開發(fā)者支招兒,告訴他Meta開放了有支持翻譯的兒童書籍,可以去看看翻譯效果。

cb3de7e6-0818-11ed-ba43-dac502259ad0.png

還有人補充道,許多小眾語言有許多不同的自然變體,更偏于口語化,而沒有特定書面化標準,可以用多種文字書寫。所以,如何對小眾語言進行標準化是個棘手的問題。

cb4f5634-0818-11ed-ba43-dac502259ad0.png

怎么支持語料少的語言

這個掌握了200多種語言的AI模型是怎么訓練的?

據Meta AI介紹,他們的AI研究人員主要通過3個方面來解決一些語言語料少的問題。

其一是為語料少的語言自動構建高質量的數(shù)據集。研究者建立了一個多對多的多語言數(shù)據集Flores-200。專業(yè)的真人翻譯員和審稿人采用統(tǒng)一的標準,來保質保量地建立這個數(shù)據集。

首先,譯員們翻譯Flores-200的全部句子,并檢查;然后,獨立審查員小組開始審查翻譯質量,根據他們的評估將一些譯文送去進行后期編輯。

cb5fb39e-0818-11ed-ba43-dac502259ad0.png

如果質量評估表明,質量在90%以上,則認為該語言可以被納入Flores-200中。

cb6be876-0818-11ed-ba43-dac502259ad0.png

最終,F(xiàn)lores-200中包含了842篇不同文章的翻譯,共3001個句子。

其二,是對200種語言建模:研究者開發(fā)了一個語言識別系統(tǒng)LID(language identification systems),標記出某段文字是用哪種語言寫的。

用監(jiān)督方式訓練的LID模型在看似流暢的句子上,可能難以識別處不正確語法和不完整的字符串。

此外,LID很容易學習到沒有意義的相關性。所以,在這個LID開發(fā)的不同階段,工程師們都和語言學家們保持著緊密合作來盡量規(guī)避這些問題。

為了對小眾語言進行較好的建模,研究者開發(fā)了一種“學生-教師挖掘法”(Student-Teacher Mining)該方法的內容是:讓一個大規(guī)模的多語言句子編碼器的教師模型,與幾個語料少的學生模型相互學習整合。

cb7e88fa-0818-11ed-ba43-dac502259ad0.png

這樣能夠在不和多語料語言爭奪容量的情況下,豐富小眾語言的訓練數(shù)據,保持了多語言嵌入空間的兼容性,避免從頭開始重新訓練整個模型。

其三,是將一個人工翻譯的評估基準:FLORES的覆蓋范圍擴大2倍,來評估每一種語言的翻譯質量。雖然自動評分是推動該研究的重要工具,但人工評價對于翻譯質量的評估也是必不可少的。

通過整合AI自動評分和人工評估,能夠廣泛量化翻譯水平,便于提升整理的翻譯質量。

為了讓更多程序員和工程師們能夠使用或完善NLLB,Meta開放了所有的評估基準(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和訓練代碼,以及最終的NLLB-200模型和其小型提煉版本等。

Meta AI已將這些內容開源,就在fariseq倉庫里面,感興趣的小伙伴們可以去看看。

論文地址:
https://research.facebook.com/publications/no-language-left-behind/
開源地址:
https://github.com/facebookresearch/fairseq/tree/nllb

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    493

    瀏覽量

    10230
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14853
  • 數(shù)據集
    +關注

    關注

    4

    文章

    1199

    瀏覽量

    24595

原文標題:機器翻譯做到頭了?Meta開源NLLB翻譯模型,支持200種語言互譯

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    神經機器翻譯的方法有哪些?

    之間的翻譯,也就是通過只訓練一個模型就能夠支持在多個語言之間的翻譯。盡管目前最流行的Transformer
    發(fā)表于 11-23 12:14

    紫米電子推出ZMI旅行助手Z1,支持16語言互譯,實現(xiàn)交流無障礙溝通

    ZMI紫米旅行助手自帶的語音翻譯功能,可以支持中文和16語言互譯,整合微軟人工智能翻譯和獵戶星
    發(fā)表于 09-12 16:57 ?4652次閱讀

    雙11霸榜硬貨全通路銷售冠軍訊飛翻譯機2.0神通何在

    支持中文和全球33語言的即時互譯,精準快速的翻譯功能,覆蓋各類全場景溝通需求;全新INMT翻譯
    的頭像 發(fā)表于 11-13 10:50 ?1739次閱讀

    訊飛翻譯機2.0重磅升級,率先發(fā)布行業(yè)A.I.翻譯

    國家出境需求 第一,首發(fā)行業(yè)A.I.翻譯,首批上線醫(yī)療/金融/計算機三大行業(yè)A.I.翻譯官,解決專業(yè)領域翻譯難點; 第二,語音翻譯從中文與33
    發(fā)表于 12-07 15:15 ?733次閱讀

    小米米家翻譯機最新發(fā)布,4.1英寸屏+18語言互譯

    11月22日消息,今天小米發(fā)布了米家翻譯機,采用4.1英寸大屏,專利6麥克風陣列技術,支持18語言互譯,售價1299元,將于11月26日1
    的頭像 發(fā)表于 11-22 16:43 ?5099次閱讀

    谷歌翻譯新增五語言支持 全世界超7500萬人使用這五語言

    據外媒報道,在過去的4年時間里,Google沒有在谷歌翻譯中增加對新語言支持。 經過長時間的修整后,該家公司今日終于宣布,它將在谷歌翻譯中增加對五
    的頭像 發(fā)表于 02-27 17:20 ?3580次閱讀

    微軟翻譯器新增五印度語言的實時翻譯 印度語言支持總數(shù)達到10

    微軟印度宣布,微軟翻譯器現(xiàn)在將提供古吉拉特語、馬拉地語、卡納達語、馬來語和旁遮普語五語言的實時翻譯。微軟翻譯器允許用戶使用Windows、
    的頭像 發(fā)表于 04-17 10:29 ?3404次閱讀

    Facebook的AI翻譯系統(tǒng)能翻譯100語言!

    質量的 100 分制中,該人工智能的表現(xiàn)比同類翻譯系統(tǒng)高出 10 分。該模型翻譯也由人類進行了翻譯評估,其準確率約為 90%。 Facebook 的研究人員在網上收集了 100
    的頭像 發(fā)表于 10-30 09:25 ?2825次閱讀

    人工智能翻譯mRASP:可翻譯32語言

    利用計算機把一自然語言轉變成另一自然語言的過程就是機器翻譯。 機器翻譯對于信息時代下海量信息
    的頭像 發(fā)表于 12-01 14:03 ?3143次閱讀
    人工智能<b class='flag-5'>翻譯</b>mRASP:可<b class='flag-5'>翻譯</b>32<b class='flag-5'>種</b><b class='flag-5'>語言</b>

    支持Python和Java的BigCode開源輕量級語言模型

    BigCode 是一個開放的科學合作組織,致力于開發(fā)大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型,該
    的頭像 發(fā)表于 01-17 14:29 ?893次閱讀

    Meta發(fā)布開源模型Code Llama 70B

    近日,Meta宣布推出了一款新的開源模型Code Llama 70B,這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型
    的頭像 發(fā)表于 01-31 09:24 ?824次閱讀

    Meta發(fā)布CodeLlama70B開源模型

    Meta發(fā)布CodeLlama70B開源模型 Meta發(fā)布了開源模型CodeLlama70B
    的頭像 發(fā)表于 01-31 10:30 ?1324次閱讀

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT

    公司這次開源了Llama 3 8B與70B兩款不同規(guī)模的模型,開發(fā)者可以免費使用,而Meta公司還將陸續(xù)推出一系列具備多模態(tài)、多語言對話、更長上下文窗口等能力的新
    的頭像 發(fā)表于 04-19 17:00 ?760次閱讀

    高通支持Meta Llama 3大語言模型在驍龍旗艦平臺上實現(xiàn)終端側執(zhí)行

    高通和Meta合作優(yōu)化Meta Llama 3大語言模型支持在未來的驍龍旗艦平臺上實現(xiàn)終端側執(zhí)行。
    的頭像 發(fā)表于 04-20 09:13 ?409次閱讀

    Meta發(fā)布全新開源模型Llama 3.1

    科技巨頭Meta近期震撼發(fā)布了其最新的開源人工智能(AI)模型——Llama 3.1,這一舉措標志著Meta在AI領域的又一重大突破。Meta
    的頭像 發(fā)表于 07-24 18:25 ?1358次閱讀