在线亚洲激情文学,国产三级无码视频网址

本文簡(jiǎn)要介紹了自然語(yǔ)言處理中極其重要的句法分析，并側(cè)重對(duì)依存句法分析進(jìn)行了重點(diǎn)總結(jié)，包括定義、重要概念、基本方法、性能評(píng)價(jià)、依存分析數(shù)據(jù)集，最后，分享了一些流行的工具以及工具實(shí)戰(zhàn)例子。

句法分析

句法分析（syntac tic parsing）是自然語(yǔ)言處理中的關(guān)鍵技術(shù)之一，它是對(duì)輸入的文本句子進(jìn)行分析以得到句子的句法結(jié)構(gòu)的處理過(guò)程。

對(duì)句法結(jié)構(gòu)進(jìn)行分析，一方面是語(yǔ)言理解的自身需求，句法分析是語(yǔ)言理解的重要一環(huán)，另一方面也為其它自然語(yǔ)言處理任務(wù)提供支持。例如句法驅(qū)動(dòng)的統(tǒng)計(jì)機(jī)器翻譯需要對(duì)源語(yǔ)言或目標(biāo)語(yǔ)言（或者同時(shí)兩種語(yǔ)言）進(jìn)行句法分析。

語(yǔ)義分析通常以句法分析的輸出結(jié)果作為輸入以便獲得更多的指示信息。根據(jù)句法結(jié)構(gòu)的表示形式不同，最常見(jiàn)的句法分析任務(wù)可以分為以下三種：

句法結(jié)構(gòu)分析（syntactic structure parsing），又稱短語(yǔ)結(jié)構(gòu)分析（phrase structure parsing），也叫成分句法分析（constituent syntactic parsing）。作用是識(shí)別出句子中的短語(yǔ)結(jié)構(gòu)以及短語(yǔ)之間的層次句法關(guān)系。

依存關(guān)系分析，又稱依存句法分析（dependency syntactic parsing），簡(jiǎn)稱依存分析，作用是識(shí)別句子中詞匯與詞匯之間的相互依存關(guān)系。

深層文法句法分析，即利用深層文法，例如詞匯化樹鄰接文法（Lexicalized Tree Adjoining Grammar，LTAG）、詞匯功能文法（Lexical Functional Grammar，LFG）、組合范疇文法（Combinatory Categorial Grammar，CCG）等，對(duì)句子進(jìn)行深層的句法以及語(yǔ)義分析。

依存句法定義

維基百科是這樣描述的：The dependency-based parse trees of dependency grammars see all nodes as terminal, which means they do not acknowledge the distinction between terminal and non-terminal categories. They are simpler on average than constituency-based parse trees because they contain fewer nodes.

依存句法是由法國(guó)語(yǔ)言學(xué)家L.Tesniere最先提出。它將句子分析成一顆依存句法樹，描述出各個(gè)詞語(yǔ)之間的依存關(guān)系。也即指出了詞語(yǔ)之間在句法上的搭配關(guān)系，這種搭配關(guān)系是和語(yǔ)義相關(guān)聯(lián)的。

在自然語(yǔ)言處理中，用詞與詞之間的依存關(guān)系來(lái)描述語(yǔ)言結(jié)構(gòu)的框架稱為依存語(yǔ)法（dependence grammar），又稱從屬關(guān)系語(yǔ)法。利用依存句法進(jìn)行句法分析是自然語(yǔ)言理解的重要技術(shù)之一。

重要概念

依存句法認(rèn)為“謂語(yǔ)”中的動(dòng)詞是一個(gè)句子的中心，其他成分與動(dòng)詞直接或間接地產(chǎn)生聯(lián)系。

依存句法理論中，“依存”指詞與詞之間支配與被支配的關(guān)系，這種關(guān)系不是對(duì)等的，這種關(guān)系具有方向。確切的說(shuō)，處于支配地位的成分稱之為支配者（governor，regent，head），而處于被支配地位的成分稱之為從屬者（modifier，subordinate，dependency）。

依存語(yǔ)法本身沒(méi)有規(guī)定要對(duì)依存關(guān)系進(jìn)行分類，但為了豐富依存結(jié)構(gòu)傳達(dá)的句法信息，在實(shí)際應(yīng)用中，一般會(huì)給依存樹的邊加上不同的標(biāo)記。

依存語(yǔ)法存在一個(gè)共同的基本假設(shè)：句法結(jié)構(gòu)本質(zhì)上包含詞和詞之間的依存（修飾）關(guān)系。一個(gè)依存關(guān)系連接兩個(gè)詞，分別是核心詞（head）和依存詞（dependent）。依存關(guān)系可以細(xì)分為不同的類型，表示兩個(gè)詞之間的具體句法關(guān)系。

常見(jiàn)方法

基于規(guī)則的方法:早期的基于依存語(yǔ)法的句法分析方法主要包括類似CYK的動(dòng)態(tài)規(guī)劃算法、基于約束滿足的方法和確定性分析策略等。

基于統(tǒng)計(jì)的方法：統(tǒng)計(jì)自然語(yǔ)言處理領(lǐng)域也涌現(xiàn)出了一大批優(yōu)秀的研究工作，包括生成式依存分析方法、判別式依存分析方法和確定性依存分析方法，這幾類方法是數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)依存分析中最為代表性的方法。

基于深度學(xué)習(xí)的方法：近年來(lái)，深度學(xué)習(xí)在句法分析課題上逐漸成為研究熱點(diǎn)，主要研究工作集中在特征表示方面。傳統(tǒng)方法的特征表示主要采用人工定義原子特征和特征組合，而深度學(xué)習(xí)則把原子特征(詞、詞性、類別標(biāo)簽)進(jìn)行向量化，在利用多層神經(jīng)元網(wǎng)絡(luò)提取特征。

依存分析器的性能評(píng)價(jià)

通常使用的指標(biāo)包括：無(wú)標(biāo)記依存正確率（unlabeled attachment score，UAS）、帶標(biāo)記依存正確率（labeled attachment score， LAS）、依存正確率（dependency accuracy，DA）、根正確率（root accuracy，RA）、完全匹配率（complete match，CM）等。這些指標(biāo)的具體意思如下：

無(wú)標(biāo)記依存正確率（UAS）：測(cè)試集中找到其正確支配詞的詞（包括沒(méi)有標(biāo)注支配詞的根結(jié)點(diǎn)）所占總詞數(shù)的百分比。

帶標(biāo)記依存正確率（LAS）：測(cè)試集中找到其正確支配詞的詞，并且依存關(guān)系類型也標(biāo)注正確的詞（包括沒(méi)有標(biāo)注支配詞的根結(jié)點(diǎn)）占總詞數(shù)的百分比。

依存正確率（DA）：測(cè)試集中找到正確支配詞非根結(jié)點(diǎn)詞占所有非根結(jié)點(diǎn)詞總數(shù)的百分比。

根正確率（RA）：有二種定義，一種是測(cè)試集中正確根結(jié)點(diǎn)的個(gè)數(shù)與句子個(gè)數(shù)的百分比。另一種是指測(cè)試集中找到正確根結(jié)點(diǎn)的句子數(shù)所占句子總數(shù)的百分比。

完全匹配率（CM）：測(cè)試集中無(wú)標(biāo)記依存結(jié)構(gòu)完全正確的句子占句子總數(shù)的百分比。

數(shù)據(jù)集

Penn Treebank：Penn Treebank 是一個(gè)項(xiàng)目的名稱，項(xiàng)目目的是對(duì)語(yǔ)料進(jìn)行標(biāo)注，標(biāo)注內(nèi)容包括詞性標(biāo)注以及句法分析。

SemEval-2016 Task 9 中文語(yǔ)義依存圖數(shù)據(jù)：http://ir.hit.edu.cn/2461.html

下載地址：

https://github.com/HIT-SCIR/SemEval-2016

CoNLL 經(jīng)常開放句法分析的學(xué)術(shù)評(píng)測(cè)，比如：

2018年的通用句法分析評(píng)測(cè)任務(wù)：

http://universaldependencies.org/conll18/

2009年多語(yǔ)言多語(yǔ)言的句法依存和語(yǔ)義角色聯(lián)合評(píng)測(cè)任務(wù)：http://ufal.mff.cuni.cz/conll2009-st/

2008年英語(yǔ)的依存句法-語(yǔ)義角色聯(lián)合評(píng)測(cè)任務(wù)：https://www.clips.uantwerpen.be/conll2008/

2007年多語(yǔ)言依存分析評(píng)測(cè)：https://www.clips.uantwerpen.be/conll2007/

工具推薦

1. StanfordCoreNLP

斯坦福大學(xué)開發(fā)的，提供依存句法分析功能。

Github 地址：

https://github.com/Lynten/stanford-corenlp

官網(wǎng)：

https://stanfordnlp.github.io/CoreNLP/

2. HanLP

HanLP 是一系列模型與算法組成的 NLP 工具包。提供了中文依存句法分析功能。

Github 地址：

https://github.com/hankcs/pyhanlp

官網(wǎng)：

http://hanlp.linrunsoft.com/

3. SpaCy

工業(yè)級(jí)的自然語(yǔ)言處理工具，遺憾的是目前不支持中文。

Gihub 地址：

https://github.com/explosion/spaCy

官網(wǎng)：

https://spacy.io/

4. FudanNLP

復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室開發(fā)的中文自然語(yǔ)言處理工具包，包含信息檢索：文本分類、新聞聚類；中文處理：中文分詞、詞性標(biāo)注、實(shí)體名識(shí)別、關(guān)鍵詞抽取、依存句法分析、時(shí)間短語(yǔ)識(shí)別；結(jié)構(gòu)化學(xué)習(xí)：在線學(xué)習(xí)、層次分類、聚類。

Github 地址：

https://github.com/FudanNLP/fnlp

代碼已上傳：

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/Dependency.ipynb

參考：

1.統(tǒng)計(jì)自然語(yǔ)言處理

2.中文信息處理報(bào)告-2016

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器翻譯

機(jī)器翻譯

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
14851
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5437

瀏覽量
120790
自然語(yǔ)言處理

自然語(yǔ)言處理

+關(guān)注

關(guān)注
1

文章
588

瀏覽量
13464

原文標(biāo)題：別說(shuō)還不懂依存句法分析

文章出處：【微信號(hào)：AI_Thinker，微信公眾號(hào)：人工智能頭條】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

python自然語(yǔ)言

最近，python自然語(yǔ)言是越來(lái)越火了，那么什么是自然語(yǔ)言。自然語(yǔ)言（Natural Language ）廣納了眾多技術(shù)，對(duì)自然或人類語(yǔ)言進(jìn)

發(fā)表于 05-02 13:50

自然語(yǔ)言處理技術(shù)介紹

，包括：分詞、詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別，以及信息抽取領(lǐng)域的實(shí)體關(guān)系抽取等。2.1.分詞分詞是自然語(yǔ)言處理技術(shù)的基礎(chǔ)構(gòu)成之一，并且是其它技術(shù)的基礎(chǔ)?；诮y(tǒng)計(jì)實(shí)現(xiàn)的詞性標(biāo)注、命名實(shí)體識(shí)別、

發(fā)表于 09-27 09:57

NLPIR語(yǔ)義分析是對(duì)自然語(yǔ)言處理的完美理解

和邏輯表示。語(yǔ)義分析就是對(duì)信息所包含的語(yǔ)義的識(shí)別，并建立一種計(jì)算模型，使其能夠像人那樣理解自然語(yǔ)言。語(yǔ)義分析是自然語(yǔ)言理解的根本問(wèn)題，它在自然語(yǔ)言

發(fā)表于 10-19 11:34

自然語(yǔ)言處理怎么最快入門？

`本文整理自知乎上的一個(gè)問(wèn)答，分享給正在學(xué)習(xí)自然然語(yǔ)言處理的朋友們！一、自然語(yǔ)言處理是什么？自然語(yǔ)言

發(fā)表于 11-28 10:02

hanlp漢語(yǔ)自然語(yǔ)言處理入門基礎(chǔ)知識(shí)介紹

人工智能。自然語(yǔ)言處理涉及的幾個(gè)層次：作為輸入一共有兩個(gè)來(lái)源，語(yǔ)音與文本。所以第一級(jí)是語(yǔ)音識(shí)別和OCR或分詞（事實(shí)上，跳過(guò)分詞雖然理所當(dāng)然地不能做句法分析，但字符級(jí)也可以直接做不少應(yīng)用）。接下來(lái)是形態(tài)學(xué)

發(fā)表于 01-02 14:43

【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

自然語(yǔ)言處理技術(shù)的功勞?？梢哉f(shuō)，只要有大量文本數(shù)據(jù)的應(yīng)用場(chǎng)景，幾乎都涉及到NLP技術(shù)，也都可以使用相關(guān)自然語(yǔ)言處理產(chǎn)品的接口來(lái)做智能分析。比

發(fā)表于 10-09 15:28

自然語(yǔ)言處理的語(yǔ)言模型

自然語(yǔ)言處理——53 語(yǔ)言模型（數(shù)據(jù)平滑）

發(fā)表于 04-16 11:11

什么是自然語(yǔ)言處理

什么是自然語(yǔ)言處理？自然語(yǔ)言處理任務(wù)有哪些？自然語(yǔ)言處理的方法是什么？

發(fā)表于 09-08 06:51

基于本體和句法分析的領(lǐng)域分詞的實(shí)現(xiàn)

針對(duì)基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法所存在的缺陷，提出基于本體和句法分析的某領(lǐng)域分詞方法，通過(guò)建立體裁本體進(jìn)行句法分析，從智能

發(fā)表于 04-09 09:10 ?20次下載

什么是自然語(yǔ)言處理_自然語(yǔ)言處理常用方法舉例說(shuō)明

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言

發(fā)表于 12-28 16:56 ?1.8w次閱讀

自然語(yǔ)言處理怎么最快入門_自然語(yǔ)言處理知識(shí)了解

自然語(yǔ)言處理就是實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信，實(shí)現(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的，造成困難的根本原因是

發(fā)表于 12-28 17:10 ?5269次閱讀

自然語(yǔ)言處理入門基礎(chǔ)之hanlp詳解

人工智能。自然語(yǔ)言處理涉及的幾個(gè)層次：自然語(yǔ)言處理的幾個(gè)層次作為輸入一共有兩個(gè)來(lái)源，語(yǔ)音與文本。所以第一級(jí)是語(yǔ)音識(shí)別和OCR或分詞（事實(shí)上，跳過(guò)分詞雖然理所當(dāng)然地不能做

發(fā)表于 11-29 14:33 ?688次閱讀

什么是句法分析

要深入研究句法分析，首先要知道，什么樣的句法分析算是好的句法分析，所以句法分析方法的評(píng)價(jià)是首要思考的問(wèn)題，目前進(jìn)行句法分析，主要是用依存

發(fā)表于 11-24 09:36 ?7845次閱讀

自然語(yǔ)言列舉法描述法各自的特點(diǎn)

自然語(yǔ)言文本。在自然語(yǔ)言處理中，列舉法和描述法是兩種常見(jiàn)的方法。列舉法列舉法是一種基于規(guī)則的方法，它通過(guò)列舉所有可能的情況來(lái)解決問(wèn)題。在自然語(yǔ)言

發(fā)表于 07-03 14:13 ?840次閱讀

自然語(yǔ)言處理過(guò)程的五個(gè)層次

自然語(yǔ)言處理（NLP）的五個(gè)層次：詞法分析（Lexical Analysis）：詞法分析是NLP的第一步，它涉及將文本分解為基本單位，通常是單詞或標(biāo)記。詞法

發(fā)表于 07-03 14:27 ?317次閱讀

搜索歷史

自然語(yǔ)言處理中極其重要的句法分析

評(píng)論

python自然語(yǔ)言

自然語(yǔ)言處理技術(shù)介紹

NLPIR語(yǔ)義分析是對(duì)自然語(yǔ)言處理的完美理解

自然語(yǔ)言處理怎么最快入門？

hanlp漢語(yǔ)自然語(yǔ)言處理入門基礎(chǔ)知識(shí)介紹

【推薦體驗(yàn)】騰訊云自然語(yǔ)言處理

自然語(yǔ)言處理的語(yǔ)言模型

什么是自然語(yǔ)言處理

基于本體和句法分析的領(lǐng)域分詞的實(shí)現(xiàn)

什么是自然語(yǔ)言處理_自然語(yǔ)言處理常用方法舉例說(shuō)明

自然語(yǔ)言處理怎么最快入門_自然語(yǔ)言處理知識(shí)了解

自然語(yǔ)言處理入門基礎(chǔ)之hanlp詳解

什么是句法分析

自然語(yǔ)言列舉法描述法各自的特點(diǎn)

自然語(yǔ)言處理過(guò)程的五個(gè)層次