又一來自騰訊AI實驗室的資源帖。騰訊AI實驗室宣布,正式開源一個大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集。該數(shù)據(jù)集包含800多萬中文詞匯,相比現(xiàn)有的公開數(shù)據(jù),在覆蓋率、新鮮度及準確性上大幅提高。在對話回復質(zhì)量預(yù)測、醫(yī)療實體識別等自然語言處理方向的業(yè)務(wù)應(yīng)用方面,騰訊內(nèi)部效果提升顯著。
數(shù)據(jù)集特點
總體來講,騰訊AI實驗室此次公開的中文詞向量數(shù)據(jù)集包含800多萬中文詞匯,其中每個詞對應(yīng)一個200維的向量。
具體方面,騰訊自稱,該數(shù)據(jù)集著重在3方面進行了提升:
1. 覆蓋率(Coverage):
該詞向量數(shù)據(jù)包含很多現(xiàn)有公開的詞向量數(shù)據(jù)所欠缺的短語,比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。
以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河
2. 新鮮度(Freshness):
該數(shù)據(jù)包含一些最近一兩年出現(xiàn)的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側(cè)改革”、“因吹斯汀”等。
以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了
3. 準確性(Accuracy):
由于采用了更大規(guī)模的訓練數(shù)據(jù)和更好的訓練算法,所生成的詞向量能夠更好地表達詞之間的語義關(guān)系,如下列相似詞檢索結(jié)果所示:
在開源前,騰訊內(nèi)部經(jīng)歷了多次測評,認為該數(shù)據(jù)集相比于現(xiàn)有的公開數(shù)據(jù),在相似度和相關(guān)度指標上均達到了更高的分值。
數(shù)據(jù)集構(gòu)建經(jīng)驗
那么這樣的數(shù)據(jù)集,騰訊AI實驗室是如何構(gòu)建的呢?
他們圍繞3方面分享了構(gòu)建及優(yōu)化經(jīng)驗:
1. 語料采集:
訓練詞向量的語料來自騰訊新聞和天天快報的新聞?wù)Z料,以及自行抓取的互聯(lián)網(wǎng)網(wǎng)頁和小說語料。
大規(guī)模多來源語料的組合,使得所生成的詞向量數(shù)據(jù)能夠涵蓋多種類型的詞匯。
而采用新聞數(shù)據(jù)和最新網(wǎng)頁數(shù)據(jù)對新詞建模,也使得詞向量數(shù)據(jù)的新鮮度大為提升。
2. 詞庫構(gòu)建:
除了引入維基百科和百度百科的部分詞條之外,還實現(xiàn)了Shi等人于2010年提出的語義擴展算法,可從海量的網(wǎng)頁數(shù)據(jù)中自動發(fā)現(xiàn)新詞——根據(jù)詞匯模式和超文本標記模式,在發(fā)現(xiàn)新詞的同時計算新詞之間的語義相似度。
3. 訓練算法:
騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓練算法。
DSG算法基于廣泛采用的詞向量訓練算法Skip-Gram (SG),在文本窗口中詞對共現(xiàn)關(guān)系的基礎(chǔ)上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。
意義
最后,表揚一下鵝廠的開源之舉。
目前針對英語環(huán)境,工業(yè)界和學術(shù)界已發(fā)布了一些高質(zhì)量的詞向量數(shù)據(jù),并得到了廣泛的使用和驗證。
其中較為知名的有谷歌公司基于word2vec算法、斯坦福大學基于GloVe算法、Facebook基于fastText項目發(fā)布的數(shù)據(jù)等。
然而,目前公開可下載的中文詞向量數(shù)據(jù)還比較少,并且數(shù)據(jù)的詞匯覆蓋率有所不足,特別是缺乏很多短語和網(wǎng)絡(luò)新詞。
所以有資源有能力的騰訊,還有心做這樣的事情,對業(yè)界實屬利好。
-
AI
+關(guān)注
關(guān)注
87文章
29368瀏覽量
267648 -
騰訊
+關(guān)注
關(guān)注
7文章
1634瀏覽量
49356
原文標題:資源 | 騰訊開源800萬中文詞的NLP數(shù)據(jù)集
文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論