0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊AI實驗室是如何構(gòu)建的?有什么特點

悟空智能科技 ? 2018-12-01 09:57 ? 次閱讀

又一來自騰訊AI實驗室的資源帖。騰訊AI實驗室宣布,正式開源一個大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集。該數(shù)據(jù)集包含800多萬中文詞匯,相比現(xiàn)有的公開數(shù)據(jù),在覆蓋率、新鮮度及準確性上大幅提高。在對話回復質(zhì)量預(yù)測、醫(yī)療實體識別等自然語言處理方向的業(yè)務(wù)應(yīng)用方面,騰訊內(nèi)部效果提升顯著。

數(shù)據(jù)集特點

總體來講,騰訊AI實驗室此次公開的中文詞向量數(shù)據(jù)集包含800多萬中文詞匯,其中每個詞對應(yīng)一個200維的向量。

具體方面,騰訊自稱,該數(shù)據(jù)集著重在3方面進行了提升:

1. 覆蓋率(Coverage):

該詞向量數(shù)據(jù)包含很多現(xiàn)有公開的詞向量數(shù)據(jù)所欠缺的短語,比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度(Freshness):

該數(shù)據(jù)包含一些最近一兩年出現(xiàn)的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側(cè)改革”、“因吹斯汀”等。

以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

3. 準確性(Accuracy):

由于采用了更大規(guī)模的訓練數(shù)據(jù)和更好的訓練算法,所生成的詞向量能夠更好地表達詞之間的語義關(guān)系,如下列相似詞檢索結(jié)果所示:

在開源前,騰訊內(nèi)部經(jīng)歷了多次測評,認為該數(shù)據(jù)集相比于現(xiàn)有的公開數(shù)據(jù),在相似度和相關(guān)度指標上均達到了更高的分值。

數(shù)據(jù)集構(gòu)建經(jīng)驗

那么這樣的數(shù)據(jù)集,騰訊AI實驗室是如何構(gòu)建的呢?

他們圍繞3方面分享了構(gòu)建及優(yōu)化經(jīng)驗:

1. 語料采集:

訓練詞向量的語料來自騰訊新聞和天天快報的新聞?wù)Z料,以及自行抓取的互聯(lián)網(wǎng)網(wǎng)頁和小說語料。

大規(guī)模多來源語料的組合,使得所生成的詞向量數(shù)據(jù)能夠涵蓋多種類型的詞匯。

而采用新聞數(shù)據(jù)和最新網(wǎng)頁數(shù)據(jù)對新詞建模,也使得詞向量數(shù)據(jù)的新鮮度大為提升。

2. 詞庫構(gòu)建:

除了引入維基百科和百度百科的部分詞條之外,還實現(xiàn)了Shi等人于2010年提出的語義擴展算法,可從海量的網(wǎng)頁數(shù)據(jù)中自動發(fā)現(xiàn)新詞——根據(jù)詞匯模式和超文本標記模式,在發(fā)現(xiàn)新詞的同時計算新詞之間的語義相似度。

3. 訓練算法:

騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓練算法。

DSG算法基于廣泛采用的詞向量訓練算法Skip-Gram (SG),在文本窗口中詞對共現(xiàn)關(guān)系的基礎(chǔ)上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。

意義

最后,表揚一下鵝廠的開源之舉。

目前針對英語環(huán)境,工業(yè)界和學術(shù)界已發(fā)布了一些高質(zhì)量的詞向量數(shù)據(jù),并得到了廣泛的使用和驗證。

其中較為知名的有谷歌公司基于word2vec算法、斯坦福大學基于GloVe算法、Facebook基于fastText項目發(fā)布的數(shù)據(jù)等。

然而,目前公開可下載的中文詞向量數(shù)據(jù)還比較少,并且數(shù)據(jù)的詞匯覆蓋率有所不足,特別是缺乏很多短語和網(wǎng)絡(luò)新詞。

所以有資源有能力的騰訊,還有心做這樣的事情,對業(yè)界實屬利好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29368

    瀏覽量

    267648
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1634

    瀏覽量

    49356

原文標題:資源 | 騰訊開源800萬中文詞的NLP數(shù)據(jù)集

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    蘋果深圳應(yīng)用研究實驗室正式運營

    近日,蘋果公司宣布其在河套深圳園區(qū)的應(yīng)用研究實驗室已正式建成并開始運營。該實驗室被定位為蘋果公司粵港澳大灣區(qū)研發(fā)中心,是蘋果在美國本土以外覆蓋范圍最廣泛的實驗室之一。
    的頭像 發(fā)表于 10-11 15:52 ?193次閱讀

    榮耀與智譜攜手共建AI大模型聯(lián)合實驗室

    近日,榮耀終端有限公司與北京智譜華章科技有限公司正式攜手,共同宣布成立AI大模型技術(shù)聯(lián)合實驗室,并簽署了戰(zhàn)略合作協(xié)議。此次合作標志著雙方在人工智能領(lǐng)域的深度合作邁入新階段,共同致力于為用戶帶來前所未有的智能體驗。
    的頭像 發(fā)表于 09-03 18:15 ?745次閱讀

    中軟國際金融AI實驗室成立 引領(lǐng)金融科技新動力

    進程的新里程碑。 推動金融智能化? 中軟國際金融AI實驗室的使命是通過 AICC 人工智能客戶聯(lián)絡(luò)中心構(gòu)建的金融解決方案,驅(qū)動下一代金融呼叫中心的企業(yè)工作流程。實驗室致力于在金融領(lǐng)域推
    的頭像 發(fā)表于 08-01 18:49 ?863次閱讀

    優(yōu)刻得與聯(lián)想AI實驗室攜手共建高效AI資源池

    近日,云計算服務(wù)提供商優(yōu)刻得(UCloud)與聯(lián)想AI實驗室宣布達成戰(zhàn)略合作,雙方將共同打造一個高效且靈活的本地化AI資源池,旨在加速AI技術(shù)的研發(fā)與應(yīng)用創(chuàng)新。此次合作標志著優(yōu)刻得在推
    的頭像 發(fā)表于 07-14 14:19 ?1016次閱讀

    AI+教育 深圳市中小學聯(lián)合實驗室正式啟用

    4月18日,深圳市中小學人工智能聯(lián)合實驗室在深圳高級中學(集團)南校區(qū)啟用。 去年,深圳市教育局發(fā)布推進中小學人工智能教育工作方案,提出要建成具有深圳特色的人工智能教育課程體系,構(gòu)建社會資源支持
    發(fā)表于 04-22 10:07 ?213次閱讀
    <b class='flag-5'>AI</b>+教育 深圳市中小學聯(lián)合<b class='flag-5'>實驗室</b>正式啟用

    DEKRA德凱為Hisense海信實驗室授予CTF實驗室資質(zhì)

    近日,全球領(lǐng)先的檢驗檢測認證機構(gòu)DEKRA德凱為海信家電集團洗護技術(shù)測試研究中心(以下簡稱:Hisense海信)實驗室授予CTF實驗室資質(zhì)。
    的頭像 發(fā)表于 04-10 14:52 ?449次閱讀

    簡述超聲波清洗機在實驗室中獨特的清洗優(yōu)點

    實驗室超聲波清洗機具有高效、環(huán)保、適用范圍廣、操作簡便和安全可靠等獨特清洗特點。這些特點使得超聲波清洗機在實驗室清洗領(lǐng)域得到了廣泛應(yīng)用,并成為了實驗
    的頭像 發(fā)表于 03-18 09:02 ?281次閱讀
    簡述超聲波清洗機在<b class='flag-5'>實驗室</b>中獨特的清洗優(yōu)點

    Cognizant成立高級人工智能實驗室

    近日,全球領(lǐng)先的IT解決方案提供商Cognizant宣布在舊金山成立高級人工智能(AI實驗室。該實驗室的成立標志著Cognizant在人工智能領(lǐng)域的進一步深耕,旨在通過前沿技術(shù)和創(chuàng)新應(yīng)用,推動人工智能技術(shù)的快速發(fā)展和應(yīng)用落地。
    的頭像 發(fā)表于 03-11 10:36 ?491次閱讀

    加固平板電腦在醫(yī)療實驗室上的應(yīng)用

    加固平板電腦在醫(yī)療實驗室中的發(fā)揮了非常重要的作用。在億道三防onerugged系列產(chǎn)品中,加固平板電腦以其獨特的功能特點和可靠性,為醫(yī)療實驗室的工作帶來了深遠的影響。
    的頭像 發(fā)表于 02-25 11:03 ?302次閱讀

    上海AI實驗室發(fā)布新一代書生·視覺大模型

    近日,上海人工智能實驗室(上海AI實驗室)聯(lián)手多所知名高校及科技公司共同研發(fā)出新一代書生·視覺大模型(InternVL)。
    的頭像 發(fā)表于 02-04 11:25 ?992次閱讀

    實驗室設(shè)備定位管理系統(tǒng)

    實驗室設(shè)備定位管理系統(tǒng)是一種用于實驗室設(shè)備管理和定位的系統(tǒng)。它利用物聯(lián)網(wǎng)技術(shù)和定位技術(shù),幫助實驗室管理人員實時了解實驗室內(nèi)設(shè)備的位置和狀態(tài),提高設(shè)備的利用率和管理效率。 該系統(tǒng)使用傳感
    的頭像 發(fā)表于 01-10 16:13 ?755次閱讀

    實驗室電源電路原理圖

    該臺式電源電路適合您的電子實驗實驗室。該電路不能構(gòu)建在一塊銅層壓板上。臺式電源設(shè)計為使用舊燈籠電池“D”和“C”。
    的頭像 發(fā)表于 12-16 17:58 ?2010次閱讀
    <b class='flag-5'>實驗室</b>電源電路原理圖

    淺析RFID技術(shù)在學校實驗室管理中的應(yīng)用

    一直以來,多數(shù)高校實驗室設(shè)備管理采取傳統(tǒng)手工方式,無法滿足當前高校的發(fā)展需求。同時,對于實驗室設(shè)備的資產(chǎn)進行清查時也多是通過掃描手寫編碼或是條形碼標簽的方式進行核實,這樣的盤查效率極低,且極易出現(xiàn)錯誤,很難實現(xiàn)實驗室設(shè)備的賬物核
    的頭像 發(fā)表于 12-13 16:48 ?414次閱讀
    淺析RFID技術(shù)在學校<b class='flag-5'>實驗室</b>管理中的應(yīng)用

    揭秘TCL實業(yè)盤古實驗室:Mini LED王者背后,“能力冰山”多大?

    很多全球知名的科技巨頭都有自己的神秘實驗室,比如谷歌的創(chuàng)新實驗室Google X、亞馬遜的創(chuàng)新實驗室Amazon Lab126、華為的2012實驗室等。這些神秘
    的頭像 發(fā)表于 11-09 14:42 ?436次閱讀
    揭秘TCL實業(yè)盤古<b class='flag-5'>實驗室</b>:Mini LED王者背后,“能力冰山”<b class='flag-5'>有</b>多大?

    實驗室智能監(jiān)控系統(tǒng)是智能硬件+軟件+云服務(wù)一體化的智慧實驗室解決方案

    實驗室的監(jiān)控項目中,不同實驗室對溫濕度都有要求,而大部分實驗都要在規(guī)定的溫濕度環(huán)境中進行,室內(nèi)的小氣候,包括溫度、濕度和氣流速度等,都對在實驗室工作的人員、儀器設(shè)備、檢測的結(jié)果有影響
    的頭像 發(fā)表于 10-24 12:10 ?1220次閱讀
    <b class='flag-5'>實驗室</b>智能監(jiān)控系統(tǒng)是智能硬件+軟件+云服務(wù)一體化的智慧<b class='flag-5'>實驗室</b>解決方案