0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自然語(yǔ)言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別相對(duì)全面的介紹

8g3K_AI_Thinker ? 來(lái)源:lp ? 2019-04-17 10:12 ? 次閱讀

本文對(duì)自然語(yǔ)言基礎(chǔ)技術(shù)之命名實(shí)體識(shí)別進(jìn)行了相對(duì)全面的介紹,包括定義、發(fā)展歷史、常見(jiàn)方法、以及相關(guān)數(shù)據(jù)集,最后推薦一大波 Python 實(shí)戰(zhàn)利器,并且包括工具的用法。

01

定義

先來(lái)看看維基百科上的定義:Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),又稱作“專名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。簡(jiǎn)單的講,就是識(shí)別自然文本中的實(shí)體指稱的邊界和類別。

02

發(fā)展歷史

命名實(shí)體識(shí)別這個(gè)術(shù)語(yǔ)首次出現(xiàn)在 MUC-6(Message Understanding Conferences),這個(gè)會(huì)議關(guān)注的主要問(wèn)題是信息抽取(Information Extraction),第六屆 MUC 除了信息抽取評(píng)測(cè)任務(wù)還開(kāi)設(shè)了新評(píng)測(cè)任務(wù)即命名實(shí)體識(shí)別任務(wù)。

除此之外,其他相關(guān)的評(píng)測(cè)會(huì)議包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。

在MUC-6之前,大家主要是關(guān)注人名、地名和組織機(jī)構(gòu)名這三類專業(yè)名詞的識(shí)別。自MUC-6起,后面有很多研究對(duì)類別進(jìn)行了更細(xì)致的劃分,比如地名被進(jìn)一步細(xì)化為城市、州和國(guó)家,也有人將人名進(jìn)一步細(xì)分為政治家、藝人等小類。

此外,一些評(píng)測(cè)還擴(kuò)大了專業(yè)名詞的范圍,比如CoNLL某年組織的評(píng)測(cè)中包含了產(chǎn)品名的識(shí)別。一些研究也涉及電影名、書(shū)名、項(xiàng)目名、研究領(lǐng)域名稱、電子郵件地址、電話號(hào)碼以及生物信息學(xué)領(lǐng)域的專有名詞(如蛋白質(zhì)、DNA、RNA等)。甚至有一些工作不限定“實(shí)體”的類型,而是將其當(dāng)做開(kāi)放域的命名實(shí)體識(shí)別和分類。

03

常見(jiàn)方法

早期的命名實(shí)體識(shí)別方法基本都是基于規(guī)則的。之后由于基于大規(guī)模的語(yǔ)料庫(kù)的統(tǒng)計(jì)方法在自然語(yǔ)言處理各個(gè)方面取得不錯(cuò)的效果之后,一大批機(jī)器學(xué)習(xí)的方法也出現(xiàn)在命名實(shí)體類識(shí)別任務(wù)。宗成慶老師在統(tǒng)計(jì)自然語(yǔ)言處理一書(shū)粗略的將這些基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法劃分為以下幾類:

有監(jiān)督的學(xué)習(xí)方法:這一類方法需要利用大規(guī)模的已標(biāo)注語(yǔ)料對(duì)模型進(jìn)行參數(shù)訓(xùn)練。目前常用的模型或方法包括隱馬爾可夫模型、語(yǔ)言模型、最大熵模型、支持向量機(jī)、決策樹(shù)和條件隨機(jī)場(chǎng)等。值得一提的是,基于條件隨機(jī)場(chǎng)的方法是命名實(shí)體識(shí)別中最成功的方法。

半監(jiān)督的學(xué)習(xí)方法:這一類方法利用標(biāo)注的小數(shù)據(jù)集(種子數(shù)據(jù))自舉學(xué)習(xí)。

無(wú)監(jiān)督的學(xué)習(xí)方法:這一類方法利用詞匯資源(如 WordNet)等進(jìn)行上下文聚類。

混合方法:幾種模型相結(jié)合或利用統(tǒng)計(jì)方法和人工總結(jié)的知識(shí)庫(kù)。

值得一提的是,由于深度學(xué)習(xí)在自然語(yǔ)言的廣泛應(yīng)用,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法也展現(xiàn)出不錯(cuò)的效果,此類方法基本還是把命名實(shí)體識(shí)別當(dāng)做序列標(biāo)注任務(wù)來(lái)做,比較經(jīng)典的方法是 LSTM+CRF、BiLSTM+CRF。

04

相關(guān)數(shù)據(jù)集

1. CCKS2017 開(kāi)放的中文的電子病例測(cè)評(píng)相關(guān)的數(shù)據(jù)。

評(píng)測(cè)任務(wù)一:

https://biendata.com/competition/CCKS2017_1/

評(píng)測(cè)任務(wù)二:

https://biendata.com/competition/CCKS2017_2/

2. CCKS2018 開(kāi)放的音樂(lè)領(lǐng)域的實(shí)體識(shí)別任務(wù)。

評(píng)測(cè)任務(wù):

https://biendata.com/competition/CCKS2018_2/

3. (CoNLL 2002)Annotated Corpus for Named Entity Recognition。

地址:

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus

4. NLPCC2018 開(kāi)放的任務(wù)型對(duì)話系統(tǒng)中的口語(yǔ)理解評(píng)測(cè)。

地址:

http://tcci.ccf.org.cn/conference/2018/taskdata.php

5. 一家公司提供的數(shù)據(jù)集,包含人名、地名、機(jī)構(gòu)名、專有名詞。

下載地址:

https://bosonnlp.com/dev/resource

05

工具推薦

1. Stanford NER

斯坦福大學(xué)開(kāi)發(fā)的基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別系統(tǒng),該系統(tǒng)參數(shù)是基于 CoNLL、MUC-6、MUC-7 和 ACE 命名實(shí)體語(yǔ)料訓(xùn)練出來(lái)的。

地址:

https://nlp.stanford.edu/software/CRF-NER.shtml

Python 實(shí)現(xiàn)的 Github 地址:

https://github.com/Lynten/stanford-corenlp

2 .MALLET

麻省大學(xué)開(kāi)發(fā)的一個(gè)統(tǒng)計(jì)自然語(yǔ)言處理的開(kāi)源包,其序列標(biāo)注工具的應(yīng)用中能夠?qū)崿F(xiàn)命名實(shí)體識(shí)別。

官方地址:

http://mallet.cs.umass.edu/

3. Hanlp

HanLP 是一系列模型與算法組成的 NLP 工具包,由大快搜索主導(dǎo)并完全開(kāi)源,目標(biāo)是普及自然語(yǔ)言處理在生產(chǎn)環(huán)境中的應(yīng)用。支持命名實(shí)體識(shí)別。

Github 地址:

https://github.com/hankcs/pyhanlp

官網(wǎng):

http://hanlp.linrunsoft.com/

4. NLTK

NLTK 是一個(gè)高效的 Python 構(gòu)建的平臺(tái),用來(lái)處理人類自然語(yǔ)言數(shù)據(jù)。

Github 地址:

https://github.com/nltk/nltk

官網(wǎng):

http://www.nltk.org/

5. SpaCy

工業(yè)級(jí)的自然語(yǔ)言處理工具,遺憾的是不支持中文。

Gihub 地址:

https://github.com/explosion/spaCy

官網(wǎng):https://spacy.io/

6. Crfsuite

可以載入自己的數(shù)據(jù)集去訓(xùn)練 CRF 實(shí)體識(shí)別模型。

文檔地址:

https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

代碼已上傳:

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/NER.ipynb

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:一文讀懂命名實(shí)體識(shí)別

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    python自然語(yǔ)言

    最近,python自然語(yǔ)言是越來(lái)越火了,那么什么是自然語(yǔ)言。自然語(yǔ)言(Natural Language )廣納了眾多技術(shù),對(duì)自然或人類
    發(fā)表于 05-02 13:50

    自然語(yǔ)言處理技術(shù)介紹

    ,包括:分詞、詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別,以及信息抽取領(lǐng)域的實(shí)體關(guān)系抽取等。2.1.分詞分詞是自然語(yǔ)言處理技術(shù)的基礎(chǔ)構(gòu)成之一,并且是其
    發(fā)表于 09-27 09:57

    hanlp漢語(yǔ)自然語(yǔ)言處理入門基礎(chǔ)知識(shí)介紹

    人工智能。自然語(yǔ)言處理涉及的幾個(gè)層次:作為輸入一共有兩個(gè)來(lái)源,語(yǔ)音與文本。所以第一級(jí)是語(yǔ)音識(shí)別和OCR或分詞(事實(shí)上,跳過(guò)分詞雖然理所當(dāng)然地不能做句法分析,但字符級(jí)也可以直接做不少應(yīng)用)。接下來(lái)是形態(tài)學(xué)
    發(fā)表于 01-02 14:43

    HanLP分詞命名實(shí)體提取詳解

    名、地名等都稱之為實(shí)體。在工程領(lǐng)域,招投標(biāo)文件里的這些實(shí)體信息至關(guān)重要。利用自然語(yǔ)言處理技術(shù)從形式各異的文件中提取出這些實(shí)體,能有效提高工作
    發(fā)表于 01-11 14:32

    HanLP-命名實(shí)體識(shí)別總結(jié)

    的中國(guó)人名自動(dòng)識(shí)別研究》,大家可以百度一下看看 地名識(shí)別 理論指導(dǎo)文章為:《基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別》 機(jī)構(gòu)名識(shí)別 機(jī)構(gòu)名的
    發(fā)表于 07-31 13:11

    【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

    `相信大家對(duì)NLP自然語(yǔ)言處理的技術(shù)都不陌生,它是計(jì)算機(jī)科學(xué)領(lǐng)域和AI領(lǐng)域中的一個(gè)分支,它與計(jì)算機(jī)和人類之間使用自然語(yǔ)言進(jìn)行交互密切相關(guān),而NLP的最終目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解語(yǔ)言
    發(fā)表于 10-09 15:28

    什么是自然語(yǔ)言處理

    什么是自然語(yǔ)言處理?自然語(yǔ)言處理任務(wù)有哪些?自然語(yǔ)言處理的方法是什么?
    發(fā)表于 09-08 06:51

    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實(shí)體識(shí)別中應(yīng)用的分析與總結(jié)

    近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域已經(jīng)取得了不少進(jìn)展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)—命名實(shí)體識(shí)別(Named Entity Recognition,NER)也不例外,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在
    的頭像 發(fā)表于 01-18 09:24 ?4585次閱讀
    基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>中應(yīng)用的分析與總結(jié)

    思必馳中文命名實(shí)體識(shí)別任務(wù)助力AI落地應(yīng)用

    數(shù)據(jù)集基于清華大學(xué)開(kāi)源的文本分類數(shù)據(jù)集THUCTC[2],選出部分進(jìn)行細(xì)粒度命名實(shí)體標(biāo)注。原數(shù)據(jù)來(lái)源于Sina News RSS[3]。這項(xiàng)測(cè)評(píng)是中文自然語(yǔ)言處理領(lǐng)域的大規(guī)模賽事,有眾多知名企業(yè)同臺(tái)競(jìng)技
    的頭像 發(fā)表于 02-22 18:27 ?1828次閱讀

    命名實(shí)體識(shí)別的遷移學(xué)習(xí)相關(guān)研究分析

    命名實(shí)體識(shí)別(NER)是自然語(yǔ)言處理的核心應(yīng)用任務(wù)之一。傳統(tǒng)和深度命名實(shí)體識(shí)別方法嚴(yán)重依賴于大量具有相同分布的標(biāo)注訓(xùn)練數(shù)據(jù),模型可移植性差。
    發(fā)表于 04-02 15:15 ?8次下載
    <b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>的遷移學(xué)習(xí)相關(guān)研究分析

    基于字語(yǔ)言模型的中文命名實(shí)體識(shí)別系統(tǒng)

    造成的數(shù)據(jù)稀缺問(wèn)題,以及傳統(tǒng)字向量不能解決的一字多義問(wèn)題,文中使用在大規(guī)模無(wú)監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練的基于上下文相關(guān)的字向量,即利用語(yǔ)言模型生成上下文相關(guān)字向量以改進(jìn)中文NER模型的性能。同時(shí),為解決命名實(shí)體識(shí)別中的未登
    發(fā)表于 04-08 14:36 ?14次下載
    基于字<b class='flag-5'>語(yǔ)言</b>模型的中文<b class='flag-5'>命名實(shí)體</b><b class='flag-5'>識(shí)別</b>系統(tǒng)

    關(guān)于邊界檢測(cè)增強(qiáng)的中文命名實(shí)體識(shí)別

    引言 命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),是信息抽取等許多任務(wù)的子任務(wù),旨在識(shí)別非結(jié)構(gòu)化文本中屬于預(yù)先定義的類別的
    的頭像 發(fā)表于 09-22 16:05 ?3023次閱讀

    自然語(yǔ)言列舉法描述法各自的特點(diǎn)

    自然語(yǔ)言文本。在自然語(yǔ)言處理中,列舉法和描述法是兩種常見(jiàn)的方法。 列舉法 列舉法是一種基于規(guī)則的方法,它通過(guò)列舉所有可能的情況來(lái)解決問(wèn)題。在自然語(yǔ)言處理中,列舉法通常用于詞性標(biāo)注、命名實(shí)體
    的頭像 發(fā)表于 07-03 14:13 ?840次閱讀

    nlp自然語(yǔ)言處理的主要任務(wù)及技術(shù)方法

    自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的一個(gè)分支,它研究如何讓計(jì)算機(jī)能夠理解、生成和處理人類語(yǔ)言。NLP技術(shù)在許多領(lǐng)域
    的頭像 發(fā)表于 07-09 10:26 ?586次閱讀

    圖像識(shí)別技術(shù)包括自然語(yǔ)言處理嗎

    圖像識(shí)別技術(shù)自然語(yǔ)言處理是人工智能領(lǐng)域的兩個(gè)重要分支,它們?cè)诤芏喾矫嬗兄芮械穆?lián)系,但也存在一些區(qū)別。 一、圖像識(shí)別技術(shù)
    的頭像 發(fā)表于 07-16 10:54 ?502次閱讀