欧美在线看片,人人妻人人精品视频

7月28-29日，由中國人工智能學(xué)會(huì)和深圳市羅湖區(qū)人民政府共同主辦，馬上科普承辦的“2018 中國人工智能大會(huì)（CCAI 2018）”完美收官。

大會(huì)第一天下午，蘇州大學(xué)特聘教授、國家杰出青年科學(xué)基金獲得者張民作題為《自然語言處理方法與應(yīng)用》的主題講座。與參會(huì)者共同分享自然語言處理方法，以及應(yīng)用和進(jìn)展。

以下是根據(jù)速記整理的大會(huì)講座實(shí)錄。

蘇州大學(xué)特聘教授、國家杰出青年科學(xué)基金獲得者張民

張民：感謝大會(huì)的邀請(qǐng)，使我有機(jī)會(huì)和大家分享自然語言處理方法，以及應(yīng)用和進(jìn)展。這也是給了我一個(gè)非常大的機(jī)會(huì)和動(dòng)力，讓我自己去總結(jié)、自己去深度挖掘、去想，做了這么多年，到底什么叫自然語言處理，有什么樣的方法，都是怎樣研究的，進(jìn)展在哪里。更重要的是，用什么樣的方法能和在座的各位進(jìn)行交流和溝通。

大家聽了很多次報(bào)告，這是其中一次，我在上面講，用自然語言的方式把想講的東西表達(dá)出來，大家在下面聽。大家有沒有仔細(xì)想過，你是怎樣理解我講的這些話，你學(xué)到了什么，你學(xué)完之后又采取了哪些動(dòng)作，對(duì)你有哪些影響，這個(gè)過程就是一個(gè)很典型的自然語言處理過程。

我主要分四部分進(jìn)行講解。既然是人工智能大會(huì)，自然語言處理本身也是人工智能非常重要的分支，我用一點(diǎn)時(shí)間給大家介紹一下什么是人工智能、什么是自然語言、什么是自然語言處理。然后再介紹自然語言處理方法、應(yīng)用，以及在人工智能時(shí)代自然語言處理的特點(diǎn)。最后給大家一個(gè)結(jié)論。

人工智能、自然語言和自然語言處理

人類社會(huì)的發(fā)展是從農(nóng)業(yè)社會(huì)到工業(yè)社會(huì)，到現(xiàn)在是信息社會(huì)。提到信息社會(huì)會(huì)想到信息爆炸，有各種各樣的名詞出現(xiàn)，比如我們現(xiàn)在處于大數(shù)據(jù)時(shí)代、信息時(shí)代，有數(shù)字經(jīng)濟(jì)，現(xiàn)在人工智能又這么熱。大家有時(shí)是不是很迷惑，到底我們處于什么樣的時(shí)代？其實(shí)所有這些從數(shù)據(jù)到信息、到知識(shí)、到智能都是信息時(shí)代的標(biāo)志，它們之間到底有什么區(qū)別？數(shù)據(jù)是什么？信息是什么？知識(shí)是什么？智能是什么？

數(shù)據(jù)就是對(duì)事實(shí)的記錄，對(duì)我們所看到的主觀世界或客觀世界事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示，以適合在這個(gè)領(lǐng)域中用人工或自然的方式進(jìn)行保存、傳遞和處理。舉個(gè)簡(jiǎn)單的例子，深圳今天的室外溫度很熱，37℃，數(shù)據(jù)是什么？數(shù)據(jù)就是氣溫，37℃。這就是一個(gè)數(shù)據(jù)，對(duì)深圳屬性描述、氣溫、氣壓是多少。僅有數(shù)據(jù)得不到任何信息，如果我說氣溫-20℃，什么意思？大家不知道。

信息就是在數(shù)據(jù)基礎(chǔ)上進(jìn)行加工，能夠傳達(dá)你想聽到的和我所講的。你聽到我講的以后，就知道我講的什么意思了。信息是具有時(shí)效性的有一定含義的、有邏輯的、經(jīng)過加工處理的、對(duì)決策有價(jià)值的數(shù)據(jù)流，也就是加工后有邏輯的數(shù)據(jù)。還是用天氣做例子， “2018年7月28日，中午，深圳的天氣是37℃”，這就是一條信息。如果只說溫度37℃，不知道什么意思。

知識(shí)是什么？小時(shí)候?qū)W的數(shù)學(xué)、化學(xué)、物理的定義和證明就是知識(shí)，知識(shí)就是在信息基礎(chǔ)上進(jìn)行抽象、凝練、總結(jié)、歸納、演繹，使其有價(jià)值的部分沉淀下來，可以結(jié)構(gòu)化、傳承、抽象，有價(jià)值的信息就轉(zhuǎn)變成知識(shí)。

人工智能

什么叫智能？智能包括兩部分，一部分是智，一部分是能；智就是智慧，能就是能力。用一句話總結(jié)，智能就是用知識(shí)來解決問題的能力。僅有數(shù)據(jù)不行，數(shù)據(jù)什么都不是；只有信息也不行，因?yàn)樾畔?shí)在太豐富了；然后就必須要有知識(shí)；但有知識(shí)也不行，有知識(shí)必須要有能力；把知識(shí)運(yùn)用起來，這時(shí)我們就把它叫做智能。這就是知識(shí)和智能關(guān)系。

現(xiàn)在人工智能已上升到國家發(fā)展戰(zhàn)略，科技部、教育部、基金委、工信部和產(chǎn)業(yè)、科研機(jī)構(gòu)、大學(xué)都在談人工智能。從50年代、60年代、70年代到現(xiàn)在，會(huì)發(fā)現(xiàn)人工智能熱時(shí)，大家喊人類要?dú)?，人工智能要替代人類，說你要失業(yè)了。如果人工智能不火時(shí)，說是騙子，騙了國家、用戶的錢，沒幫助我們解決問題。但是冷靜下來想，目前我們研究人工智能雖然取得了很大的進(jìn)步，但是從人工智能的科學(xué)問題和智能的本質(zhì)角度還差得很遠(yuǎn)。如果拿人的年齡作比喻，人工智能最多是一兩歲。所以，第一，我們不是騙子；第二，人類也不會(huì)因?yàn)槿斯ぶ悄軞?，還有很長的路要走。

中國人工智能學(xué)會(huì)理事長李德毅院士講過一句話，他說，講不清楚的人工智能內(nèi)涵的人，都是在忽悠。李院士給人工智能下的定義（見圖1），我非常認(rèn)可。這個(gè)定義就是人工智能的內(nèi)涵，包括腦認(rèn)知基礎(chǔ)、機(jī)器感知與模式識(shí)別、自然語言處理與理解和知識(shí)工程四部分。腦認(rèn)知技術(shù)是基礎(chǔ)，然后是知識(shí)工程。知識(shí)工程做什么？要做的就是怎樣去把人類社會(huì)的知識(shí)用計(jì)算機(jī)表達(dá)出來，怎樣數(shù)學(xué)化建模。人工智能最終體現(xiàn)兩方面，一個(gè)是感知；一個(gè)是認(rèn)知。語音識(shí)別和圖像處理屬于典型的感知問題；而自然語言處理和理解，是一個(gè)認(rèn)知的過程。自然語言理解被認(rèn)為是認(rèn)知智能的核心難題。人工智能的外延是什么？按照李院士的定義來說，包括兩部分，一個(gè)是機(jī)器人；一個(gè)是智能系統(tǒng)。機(jī)器人包括很多，如工業(yè)機(jī)器人、農(nóng)業(yè)機(jī)器人和國防機(jī)器人等；智能系統(tǒng)也包括很多，如智能商務(wù)、智能制造和智慧金融等，這就是人工智能的外延。

圖1 人工智能的內(nèi)涵和外延（李德毅院士）

自然語言處理和理解

我們知道對(duì)一個(gè)智能生物體來講主要包括感知、認(rèn)知和進(jìn)化三部分。進(jìn)化在人工智能領(lǐng)域研究得非常少。圖2示出了人的進(jìn)化過程，左邊是一只老虎，圖上放了三個(gè)術(shù)語。第一點(diǎn)，人類經(jīng)過了億萬年的進(jìn)化，從食物鏈中端進(jìn)化到食物鏈的頂端。這里不講人類有沒有控制世界、破壞世界（那是一個(gè)哲學(xué)問題），只是從生物鏈角度，我們站到食物鏈的頂端,享受人類世界的文明成果，可以作報(bào)告，可以談?wù)撊斯ぶ悄軉栴}，可以談?wù)撜軐W(xué)問題，不用擔(dān)心被老虎吃掉。但是，如果以人的能力，從一個(gè)人的角度來講，肯定打不過老虎（除了武松之外）。第二點(diǎn)，大家都講，腦的容量越大就越聰明。有時(shí)候我給女兒講故事，我反問她，大腦容量越大越聰明對(duì)不對(duì)？她說，爸爸，你的腦容量大還是老虎腦容量大？我沒研究過，估計(jì)老虎腦容量比較大（老虎大腦比人腦重約6倍），但是人比老虎聰明。為什么人類能夠進(jìn)化，處在食物鏈的頂端，和動(dòng)物唯一的的區(qū)別就是有語言。人類通過語言進(jìn)行溝通、合作，打不過老虎沒關(guān)系，在地上挖一個(gè)坑，上面放一塊肉，老虎咬那塊肉肯定會(huì)掉下去，結(jié)果不言而喻。所以，語言非常重要，語言區(qū)別于人與動(dòng)物。

圖2 自然語言與人的進(jìn)化過程

人工智能最核心的一部分就是自然語言處理和理解。

什么是語言？從計(jì)算機(jī)角度來講，語言就是一個(gè)符號(hào)系統(tǒng)。一個(gè)符號(hào)系統(tǒng)有幾個(gè)特點(diǎn)：

第一必須有字母、有詞；

第二，必須有規(guī)則；

第三，必須有起始符號(hào)；

第四，必須有終止?fàn)顟B(tài)。

這就是語言的基本定義。

語言的種類

（1）動(dòng)物語言

如果從語言種類來講分為動(dòng)物語言、人工語言和自然語言三種。動(dòng)物語言和自然語言有什么區(qū)別？動(dòng)物語言有幾個(gè)特點(diǎn)，第一，只有聲音，沒有文字。第二，只有單詞，最多表達(dá)20多種狀態(tài)，這20多個(gè)單詞不可以進(jìn)行組合，而且動(dòng)物語言表達(dá)狀態(tài)都是最基本的、單一的，比如餓了、飽了、敵人來了、遇到危險(xiǎn)了。第三，與生俱來的，不是后天學(xué)出來的。一只在中國的老虎和一只在美國的老虎從來沒見過，它倆的語言可以交流；不像人，美國人和中國人從沒見過，不可以用語言進(jìn)行交流的。第四，動(dòng)物語言和人不一樣，不可以記錄現(xiàn)實(shí)，也不可以對(duì)現(xiàn)在進(jìn)行描述，也不能展望未來。從來沒有老虎媽媽和老虎寶寶講，將來怎樣。

（2）人工語言

人工語言和動(dòng)物語言與自然語言的區(qū)別。人工語言是由人創(chuàng)造的。首先人工語言目的是為了溝通；第二是一些非常有情懷的人做人工語言；第三，人工語言不像人類語言可以進(jìn)行演變。一個(gè)代表性的例子就是世界語，由波蘭人柴門霍夫發(fā)明的，在上世紀(jì)80年代非常流行。隨著全球各國逐漸開放，世界語言不流行了，逐漸被英語取代。

人工語言發(fā)明的原因有多種，比如，人類之間交流、溝通使用；著作者愛好；藝術(shù)語言、文學(xué)作品的溝通……人工語言我比較推崇的，一個(gè)是《魔戒》作者創(chuàng)造的。還有就是《失落的帝國》中古代語言的亞特蘭帝斯語。如果看過這部電影，會(huì)看到其導(dǎo)演費(fèi)了很大的精力，請(qǐng)了歷史學(xué)家、作家、語言學(xué)家坐在一起，為這部電影創(chuàng)造語言。你會(huì)發(fā)現(xiàn)這些人在講的時(shí)候不是亂講，是有規(guī)律的，而且可以進(jìn)行溝通。

（3）自然語言

什么是自然語言？自然語言的定義、起源、種類和分布到底是什么？自然語言的定義非常多，大概有幾十種定義，無論是做語言學(xué)的，還是做文學(xué)的，你會(huì)發(fā)現(xiàn)每種定義都是從某個(gè)側(cè)面對(duì)自然語言某些特征的描述，都會(huì)有漏洞，都會(huì)有它描述不到的地方。到目前為止，還找不到一個(gè)大家公認(rèn)的，一個(gè)科學(xué)的、能被廣泛接受的自然語言定義。

自然語言的起源有幾種說法。第一個(gè)是神授說。不同的宗教，對(duì)語言的起源給出不同的定義。比如，基督教認(rèn)為是耶穌創(chuàng)造的；我國廣西壯族自治區(qū)少數(shù)民族認(rèn)為是山神創(chuàng)造的；印度教也有印度教的說法，認(rèn)為是吠陀創(chuàng)造的。第二個(gè)是人創(chuàng)說。既然人講自然語言，自然語言就是人創(chuàng)造出來的。在我國有一個(gè)非常標(biāo)準(zhǔn)的定義，即恩格斯說的定義，他說：語言是從勞動(dòng)中并和勞動(dòng)中一起產(chǎn)生的。不管理不理解，恩格斯講的都是對(duì)的；但是他不是亂講的，為什么說勞動(dòng)創(chuàng)造語言？恩格斯在講這句話之前先給三個(gè)條件：①人類的思維能力要發(fā)展到一定的水平；②人類要具備一定的生理?xiàng)l件；③人類社會(huì)有了產(chǎn)生語言的必要。滿足這三個(gè)條件就可以創(chuàng)造語言，正好勞動(dòng)滿足三個(gè)條件，所以語言就是由勞動(dòng)創(chuàng)造出來的。

自然語言的種類。目前世界存在語言6 909種，只有2 000多種語言有書面文字，2500種語言瀕危。漢語、西班牙語、英語、阿拉伯語和印度語是世界上使用最多的；英、法、西、葡、荷蘭語是世界上分布最廣的；漢語國際化還不夠。

自然語言處理

自然語言處理就是用計(jì)算機(jī)來處理人類的自然語言。那么，計(jì)算機(jī)怎樣才能處理自然語言？都要做什么？

自然語言處理就做三件事情（見圖3），把這三件事情做好了，可以獲諾貝爾獎(jiǎng)、圖靈獎(jiǎng)。

第一，分析和理解。什么叫分析和理解？就是我在上面講，你聽見了，如果你明白我講什么了，在理解、思考我講的什么，這個(gè)過程就是一個(gè)分析和理解的過程。

第二，生成和應(yīng)用。什么叫生成和應(yīng)用？我講了之后，我們（人與人）進(jìn)行對(duì)話、進(jìn)行溝通，我講了一句話你聽懂反過來你要回答我，這就是一個(gè)互動(dòng)和生成的過程。自然語言還有很多應(yīng)用的過程。

第三，一個(gè)自然語言處理系統(tǒng)還要做一件事情，就是要有動(dòng)作。比如對(duì)機(jī)器人講：“給我倒一杯咖啡”；機(jī)器人聽懂了，它說：“好的，主人，我給你倒一杯咖啡”。不要說好的，然后不動(dòng)，這是不對(duì)的。

圖3 自然語言處理系統(tǒng)

總之，自然語言處理方法目前可以概括四個(gè)方法：

第一，自然語言處理本身算法和理論。作為一門學(xué)科，它有自己的問題、規(guī)則和方法，要定義什么叫詞法、句法、語義，以及其相應(yīng)的分析算法。

第二，更抽象一點(diǎn)，從人工智能和機(jī)器學(xué)習(xí)角度講，包括規(guī)則、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)的方法和目前比較熱深度學(xué)習(xí)的方法。再過幾年之后，隨著研究的深入，肯定會(huì)出現(xiàn)新方法取代深度學(xué)習(xí)。對(duì)這些方法抽象化，要解決自然語言處理時(shí)，要解決表示、推理和學(xué)習(xí)三個(gè)問題。表示什么意思？一個(gè)自然語言在計(jì)算機(jī)里怎樣表達(dá)出來，語意、句話、篇章怎么表達(dá)。

第三，推理。

第四，學(xué)習(xí)過程。如圖4所示。

圖4 自然語言處理方法

自然語言分析、理解和生成，嚴(yán)格意義上講這是自然語言處理最核心的兩個(gè)問題。自然語言處理應(yīng)用有兩個(gè)層面，第一個(gè)是自然語言處理本身的直接應(yīng)用；第二個(gè)是自然語言處理在行業(yè)的應(yīng)用。本身的應(yīng)用很多人都知道，比如問答、對(duì)話系統(tǒng)、機(jī)器翻譯、自動(dòng)文摘、機(jī)器寫作等，這是自然語言處理本身的應(yīng)用。自然語言處理在各行各業(yè)都可以得到應(yīng)用，比如搜索、國際交流、教育、醫(yī)療、司法、金融，以及在公共安全、國防、旅游等行業(yè)應(yīng)用。以教育為例就有很多，如對(duì)小孩的輔導(dǎo)和教學(xué)，無論學(xué)數(shù)學(xué)還是學(xué)英語，高考機(jī)器人等。

自然語言處理的歷史，從廣義理解，一直到秦朝、古希臘時(shí)代。真正的自然語言處理在計(jì)算機(jī)誕生之后，從1950年起就有了。為什么叫做forever？因?yàn)檎Z言本身是人類區(qū)別于動(dòng)物的一個(gè)標(biāo)志，是最智能的行為，如果把語言研究透了，就可以解決人工智能一系列問題。這個(gè)問題只有人存在，只要對(duì)人本身沒有研究透徹，這個(gè)問題就可以一直研究下去。

為什么在人工智能時(shí)代，自然語言處理這么熱？

第一，技術(shù)取得了巨大進(jìn)步，雖然離真正解決問題還差很遠(yuǎn)；

第二，產(chǎn)業(yè)落地的巨大需求。

以前我認(rèn)為，自然語言處理技術(shù)沒有成熟到達(dá)到產(chǎn)業(yè)需求的下限。目前自然語言處理在很多應(yīng)用上已經(jīng)達(dá)到產(chǎn)業(yè)需求的下限。有產(chǎn)業(yè)落地，就催生了技術(shù)需求，技術(shù)達(dá)到了產(chǎn)業(yè)落地的基本需求，反過來大大推動(dòng)了技術(shù)進(jìn)步。在人工智能時(shí)代，自然語言處理這么熱是大勢(shì)所趨。

機(jī)器能不能理解人類自然語言？舉一個(gè)簡(jiǎn)單例子，我買件衣服是紅色的，很高興，所有人對(duì)這句話都能理解。但對(duì)計(jì)算機(jī)來說，它翻譯成英文（見圖5），這是今天早上的翻譯結(jié)果，我測(cè)了很多機(jī)器翻譯系統(tǒng)，幾乎沒有一句話對(duì)的。但是你問機(jī)器，誰是紅色的？機(jī)器可能說衣服是紅色的，也可能說我是紅色的；如果問誰高興，機(jī)器可能會(huì)想到我高興、衣服高興，甚至?xí)氲郊t色高興。翻譯成英文的話，省略都要補(bǔ)齊。

圖5 機(jī)器翻譯示例1

另外一個(gè)例子。一天，小老虎看見一只貓?jiān)谧嚼匣?，身手敏捷，羨慕極了。這是《老虎和貓學(xué)本領(lǐng)》中的一句話，非常簡(jiǎn)單。當(dāng)給我女兒讀故事書時(shí)，怕她不理解，經(jīng)常問她，爸爸給你讀完這個(gè)故事你聽懂了嗎？爸爸講什么？你能講一遍不？她最后都煩了，你為什么老問我這些問題？我說什么叫敏捷？什么叫羨慕？她想了想，不知道，然后她問我。我一想我也不知道，我怎么給小孩解釋什么叫敏捷、什么叫羨慕。于是去Google圖片搜索“敏捷”，有一只老虎跑來跑去；“羨慕”就用表情表達(dá)，我女兒就明白差不多了。但是這對(duì)機(jī)器來說有點(diǎn)“強(qiáng)人所難”。我又問我女兒，既然你和我說你理解了身手敏捷和羨慕極了，我問你，誰身手敏捷，誰羨慕誰？她一看問題比較難就亂講了，一會(huì)說老鼠身手敏捷，一會(huì)又說貓、又說老虎。如果從機(jī)器角度來講，她說的都沒錯(cuò)。誰羨慕誰都可以？老鼠羨慕貓，我每天被你抓來抓去的，不過我辛辛苦苦偷了這么多東西還要被你吃；老虎羨慕貓，貓羨慕老虎都可以。從人的角度來講沒有任何問題，我們有很多常識(shí)，小孩沒有，機(jī)器沒有。我舉這個(gè)例子不是說自然語言處理太難，機(jī)器做不了，我提醒大家不要太樂觀，不要覺得人工智能發(fā)展，人類就要?dú)?，遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)水平。

第三個(gè)例子，籃球放不進(jìn)箱子里，太大了，太小了，形狀不對(duì)。大家肯定知道，第一，籃球太大了，不可能箱子太大。但是問機(jī)器，機(jī)器就開始亂猜了。第二，太小了，形狀不對(duì)，大家都能解決這些問題。但是機(jī)器必須要有知識(shí)庫、要有推理、要有常識(shí)才能解決這個(gè)問題。再看機(jī)器翻譯的結(jié)果，完全沒有對(duì)這句話進(jìn)行理解，“身手敏捷、羨慕極了”，從英文翻譯來看，看不出任何修飾關(guān)系（見圖6）。

圖6 機(jī)器翻譯示例2

這是被我抽象出來的例子，“我們班就一個(gè)女生，班上15個(gè)男生都喜歡她。B就問，那你喜歡她嗎？回答說我們班有17位同學(xué)”。我到底喜歡還是不喜歡你？從正常角度講是不喜歡的，只是很委婉地不想傷那個(gè)女生的自尊心或者不好意思回答。對(duì)機(jī)器來說不好回答，我女兒也沒理解。我們很多問題隱含在語言、隱含在背后的推理和常識(shí)，這些邏輯關(guān)系非常抽象。

我們?cè)倏醋詈笠粋€(gè)例子，這句話很有意思，這個(gè)題目是我女兒給我的。王師傅是賣魚的，每公斤魚進(jìn)價(jià)48元，現(xiàn)38元一斤，顧客買了兩公斤，給了王師傅200元假錢，王師傅沒零錢，于是找了鄰居換了200元。事后鄰居存錢過程中發(fā)現(xiàn)錢是假的，被銀行沒收了，王師傅又賠了鄰居200，請(qǐng)問王師傅一共虧了多少？對(duì)計(jì)算機(jī)來說，怎么明白進(jìn)價(jià)、假錢的意思？這么簡(jiǎn)單例子，可以看出自然語言處理中常識(shí)和知識(shí)的重要性。

自然語言處理為什么這么難？下面從功能、知識(shí)、特點(diǎn)、語用性等方面闡述（見圖7）。第一，語言是對(duì)世界的認(rèn)識(shí)，是對(duì)客觀、主觀世界所有能夠看到的東西、想到的東西的描述。第二，自然語言處理主要是基于語言學(xué)知識(shí)，除了自然語言知識(shí)還有外部世界知識(shí)、領(lǐng)域知識(shí)、常識(shí)知識(shí)。第三，自然語言組合性、開放性、動(dòng)態(tài)性。還有一個(gè)非常重要的特點(diǎn)，是語用性。除了知識(shí)之外，對(duì)自然語言處理要解決另外一個(gè)最重要的問題，就是語言是有特點(diǎn)和環(huán)境的，尤其在對(duì)話過程中是有上下文、有信息、有意圖的。

圖7 自然語言處理為什么這么難？

自然語言處理方法

學(xué)科的內(nèi)涵和外延

自然語言處理方法到底是什么？首先要定義如圖1所示的學(xué)科內(nèi)涵、外延和邊界。自然語言處理三件事，即分析理解、生成和應(yīng)用、動(dòng)作。內(nèi)涵是分析理解和生成；多語言處理、跨語言和單語言理解有不同特點(diǎn)，我把多語言處理也作為自然語言處理學(xué)科內(nèi)涵，包括對(duì)詞法分析、句法分析、語意分析和篇章分析。自然語言生成從內(nèi)部表示生成自然語言的表達(dá)。多語言處理就是語言之間的對(duì)齊和轉(zhuǎn)換。這就是自然語言處理學(xué)科內(nèi)涵問題，也就是“聽得懂、講明白”。學(xué)科外延有機(jī)器翻譯、文本分類、信息檢索、機(jī)器對(duì)答等自然語言本身的直接應(yīng)用和自然語言處理加行業(yè)（見圖8）。下面對(duì)內(nèi)涵和外延所要解決的問題，給大家解釋一下。

圖8 自然語言處理的外延（應(yīng)用）

分詞

第一是分詞，意思是人聽一句話之后理解的是以詞為單位，而不是以句子為單位。計(jì)算機(jī)要解決第一個(gè)問題就是分詞。舉個(gè)例子，“嚴(yán)守一把手機(jī)關(guān)了”有非常多歧義，一把手、機(jī)關(guān)都是詞，這里只有一個(gè)正確分詞結(jié)果就是“嚴(yán)守一/把/手機(jī)/關(guān)了”。自然語言處理解決第一個(gè)問題就是分詞，目前我們把它叫做序列標(biāo)注方法。

一個(gè)圖

B是開始，I是中間，E是結(jié)束，S是單個(gè)；B又是開始，E又是結(jié)束；“關(guān)”是單獨(dú)，“了”也是單獨(dú)。這個(gè)字到底是一個(gè)詞的開始還是一個(gè)詞的中間，還是一個(gè)詞的結(jié)束，還是這個(gè)字本身就是單獨(dú)的。這就是目前分詞所用到的數(shù)學(xué)模型。目前主要包括兩種方法，第一種是基于離散特征的CRF；第二種是神經(jīng)網(wǎng)絡(luò)的方法。

自然語言分詞挑戰(zhàn)有五個(gè)。

第一，交叉歧義、分真歧義和偽歧義，如乒乓球拍賣完了，這就是一個(gè)真歧義。

第二，新詞不斷涌現(xiàn)。

第三，領(lǐng)域移植問題，如在新聞?lì)I(lǐng)域做得非常好，如果放在法律領(lǐng)域、醫(yī)療領(lǐng)域就不一樣。

第四，數(shù)據(jù)融合問題。到底什么是詞？不同人有不同鑒別?，F(xiàn)在有各種各樣的語料，分詞標(biāo)準(zhǔn)不同，在理解這些問題時(shí)怎么樣進(jìn)行標(biāo)注和融合？

第五，粒度不同的問題。

分詞進(jìn)展包括四個(gè)方面。

第一，深度學(xué)習(xí)方法，使分詞定義有了進(jìn)一步提高。

第二，網(wǎng)絡(luò)文本分詞數(shù)據(jù)的人工標(biāo)注，這是由于在互聯(lián)網(wǎng)時(shí)代，尤其互聯(lián)網(wǎng)公司產(chǎn)生了巨大的需求，對(duì)網(wǎng)絡(luò)文本分詞有了進(jìn)展。

第三，多源異構(gòu)數(shù)據(jù)的融合和利用。第四，多粒度分詞。

如圖9所示，第一個(gè)句子“特別是我國經(jīng)濟(jì)下滑”，在CTB，“特別是”做一個(gè)詞，如果在PD描述，把“特別是”分開，“我國”也是。第二個(gè)是“全國各地醫(yī)學(xué)界專家走出人民大會(huì)堂”，可以看到兩個(gè)分詞標(biāo)準(zhǔn)完全不同。統(tǒng)計(jì)表明，90%詞一致性都做不到，這是一個(gè)很大的問題。還有分詞的粒度問題，不同人對(duì)詞語認(rèn)知不同，包括生活環(huán)境、體系不同。還有漢語語素和合成詞的界限很模糊，這也是一個(gè)問題。在1996年，Sproat教授一個(gè)實(shí)驗(yàn)結(jié)果表明，中文的native speaker分詞一致率僅76%。

圖9 分詞的粒度

粗粒度分詞和細(xì)粒度分詞有不同的需求。以前一個(gè)互聯(lián)網(wǎng)公司高層人員說，分詞不需要做了，我們每天有這么多數(shù)據(jù)，每天新詞都能發(fā)現(xiàn)，每天分詞結(jié)果都很準(zhǔn)確。于是讓我的學(xué)生給他一些文章，測(cè)一下其分詞結(jié)果怎樣？結(jié)果可想而知。所以分詞的問題從這里可以看出，遠(yuǎn)沒有解決。

如何能夠在多源異構(gòu)數(shù)據(jù)中學(xué)習(xí)？我們現(xiàn)在用的分詞系統(tǒng)還是機(jī)器協(xié)同的系統(tǒng)，有了這么多異構(gòu)數(shù)據(jù)，怎樣能夠?qū)W出好的分詞模型，這也是目前研究的熱點(diǎn)。多粒度分詞也是這樣，不像最開始講的，把分詞看成線性序列問題，現(xiàn)在把分詞做成一棵樹，樹的任何一個(gè)節(jié)點(diǎn)都可以看作是一個(gè)詞。如圖9所示，如果醫(yī)學(xué)界在圖中1這個(gè)節(jié)點(diǎn)，醫(yī)學(xué)就是一個(gè)詞；如果在圖中2這個(gè)節(jié)點(diǎn)，醫(yī)學(xué)界就是一個(gè)詞。這是目前研究比較有意思的現(xiàn)象，我們叫做多粒度分詞。

圖10 基于樹結(jié)構(gòu)的多粒度分詞示例

命名實(shí)體

在多源數(shù)據(jù)融合，研究的都是基于模糊標(biāo)注的耦合序列學(xué)習(xí)，還有基于樹結(jié)構(gòu)的多粒度分詞。作為自然語言處理要解決第一個(gè)問題就是分詞問題，第二個(gè)問題就是命名實(shí)體識(shí)別問題?！爸軡櫚l(fā)出生香港南丫島，籍貫廣東開平”，這里有很多命名實(shí)體（見圖11）。命名實(shí)體就是指人名、地名、組織機(jī)構(gòu)名、產(chǎn)品名和時(shí)間等；還有很多專有名詞，我們也叫做命名實(shí)體。比如，昆蟲的名字在生物學(xué)界就是很難解決的問題。據(jù)說在英文里，昆蟲的種類大概有幾百萬種，如為每一只昆蟲命名是很難的問題。如圖10所示就出現(xiàn)了非常多的命名實(shí)體。

圖11 命名實(shí)體示例

要解決第二個(gè)問題，怎樣能夠把命名實(shí)體識(shí)別出來。

命名實(shí)體識(shí)別方法有兩種：

第一，規(guī)則系統(tǒng)；第二，基于機(jī)器學(xué)習(xí)的學(xué)習(xí)系統(tǒng)。

研究難點(diǎn)包括三個(gè)方面：

第一，新領(lǐng)域舊實(shí)體類別識(shí)別。在新的領(lǐng)域里面，實(shí)體沒有變過，但是領(lǐng)域發(fā)生變化；第二，新實(shí)體新類別，以前沒有這個(gè)類別，現(xiàn)在出現(xiàn)新的類別怎么樣定義、發(fā)現(xiàn)出來；第三，方法，這是目前研究的熱點(diǎn)和難點(diǎn)。

句法分析

有了分詞、命名實(shí)體，下一步要做的就是句法分析。句法分析要研究的問題就是，從結(jié)構(gòu)的角度，這些詞為什么能夠組成一個(gè)句子？就是說，在這個(gè)句子內(nèi)部，這些詞到底有什么關(guān)系？這里以依存句法分析為例（見圖12）。輸入是一個(gè)句子的詞系列，輸出的是依存關(guān)系句法樹。這些對(duì)應(yīng)關(guān)系我們能夠知道的，或者以前學(xué)過的，比如主、謂、賓、定、狀、補(bǔ)。這是目前在學(xué)術(shù)界或者工業(yè)界常用的句法樹庫，第一個(gè)是格位語法；第二個(gè)是短語結(jié)構(gòu)文法；第三個(gè)是依存語法。

圖12 依存句法分析示例

表1所示的這些句法樹之間，由于不同的人后面有不同的學(xué)術(shù)背景和認(rèn)知背景，都是不完全兼容的。

表1句法樹庫

句法分析方法有兩種：

第一，圖的方法；

第二是轉(zhuǎn)移方法。

從全圖里，怎樣能找到子圖?；谵D(zhuǎn)移的方法是狀態(tài)的轉(zhuǎn)移，每個(gè)狀態(tài)代表了N個(gè)結(jié)構(gòu)里的公共部分。狀態(tài)的方法叫做移進(jìn)規(guī)約的方法。這是句法分析的性能，從圖13可以看到性能進(jìn)步非?？?，尤其在2016和2017年。2016年Google提出了基于深度學(xué)習(xí)的轉(zhuǎn)移句法分析方法，2017年斯坦福提出了基于深度學(xué)習(xí)的圖分析方法，所以目前有近10%的性能進(jìn)步。英文比中文性能高8%~10%；英文句法分析如果在學(xué)術(shù)界里標(biāo)準(zhǔn)測(cè)試題達(dá)到90%~95%，中文86%的水平。

圖13 句法分析性能

句法分析的難點(diǎn)有兩個(gè)：

第一，處理網(wǎng)絡(luò)文本時(shí)準(zhǔn)確率急劇下降5%~10%，我們和企業(yè)合作時(shí)也發(fā)現(xiàn)了這個(gè)問題。不僅句法分析有這個(gè)問題，同樣分詞也有這樣的問題，分詞可以下降到20%。

第二，語義知識(shí)和外部知識(shí)的利用。

研究熱點(diǎn)包括兩部分：

第一，資源構(gòu)建，局部標(biāo)注的主動(dòng)學(xué)習(xí)和樹庫轉(zhuǎn)換。樹庫標(biāo)準(zhǔn)、規(guī)范不一樣，而且要在企業(yè)標(biāo)新的樹庫出來，怎樣把樹庫轉(zhuǎn)換成標(biāo)準(zhǔn)格式，從而能充分利用起來？

第二，知識(shí)驅(qū)動(dòng)的句法分析。

到目前為止分享了分詞、命名實(shí)體，還有句法分析。下一步進(jìn)入語義分析，輸入是自然語言的句子，輸出是自然語言句子含義的結(jié)構(gòu)化和機(jī)器可讀的表示。語義不像句法，句法有標(biāo)準(zhǔn)的表達(dá)形式，在語義層面還沒有形成一個(gè)大家公認(rèn)的、可計(jì)算的、深層次的、能夠在計(jì)算機(jī)里面可用的，在學(xué)術(shù)界得到充分認(rèn)可的表達(dá)。不同的應(yīng)用語義表達(dá)方法也不一樣，分析方法也不一樣。

語義表達(dá)有三種：

第一，淺層語義分析，回答誰做了什么，什么時(shí)候做的，為什么這么做，怎么做的。

第二，邏輯語義分析，是基于邏輯表達(dá)式的分析。

第三，抽象語義表示是南加州大學(xué)提出的ARM。

方法分三種：

第一，基于同步上下文無關(guān)文法。

第二，基于組合范疇語法。

第三，在上述兩種方法加了神經(jīng)網(wǎng)絡(luò)的，基于神經(jīng)網(wǎng)絡(luò)序列到序列方法。

語義分析性能以ARM為例子，1-10個(gè)詞率達(dá)到75%，這是稍微簡(jiǎn)單一點(diǎn)的；如果句子長一些，30、40、50個(gè)詞，性能則急劇下降。這是目前語義分析的性能現(xiàn)狀。

篇章分析

到目前為止我們討論了分詞、實(shí)體、句法、語義，下面看一下篇章的分析。篇章是什么？“比爾來自美國，今天交通非常擁擠。長江貫穿中國多個(gè)省市。因此，自然語言處理是計(jì)算機(jī)科學(xué)與語言學(xué)的融合?！弊x完這句話以后，發(fā)現(xiàn)每句話都沒錯(cuò)，拿出其中任何一句話都覺得是有意義的，但是放在一起，覺得這個(gè)人語無倫次了，邏輯有問題。第二句話，“這里交通非常擁擠，張先生早上6：40之前就得出發(fā)。常常會(huì)提前半個(gè)小時(shí)到辦公室；如果稍晚一點(diǎn)，他很可能會(huì)遲到?！蓖瑯右痪湓挘谝痪湓挶鹊诙湓捴v得還冠冕堂皇，好像文風(fēng)更好，但是第一句話表達(dá)不出任何意思，第二句話就表達(dá)了完整的意義。篇章是做什么？為什么三個(gè)句子、四個(gè)句能夠按照一定順序講，為什么不顛倒過來？這些句子到底有什么關(guān)系？篇章就是解決這些問題的。人在理解自然語言時(shí)是以篇章為單位，不能斷章取義就是這個(gè)意思。

這是學(xué)術(shù)界老前輩宋柔老先生的例子，《圍城》里有一句話：“高松年發(fā)奮辦公，夙夜匪懈，精明得真是睡覺還睜著眼睛，戴著眼睛，做夢(mèng)都不含糊的。搖籃也挑選得很好，在平成縣鄉(xiāng)下一個(gè)本地財(cái)主家的花園里，面溪背山。” 一個(gè)逗號(hào)到底，中間有一個(gè)句號(hào)。讀完雖然有點(diǎn)繞口，基本上能明白它意思。但是這些句子和句子的關(guān)系非常復(fù)雜，它們到底有什么關(guān)系？“帶著眼鏡和睜著眼睛”之間有并列關(guān)系，從計(jì)算機(jī)角度一定要明確；“做夢(mèng)都不含糊”，做夢(mèng)和睡覺也是并列關(guān)系。。

看另外一個(gè)例子。“如果你不出面干預(yù)，他即使把設(shè)備賣了，也沒人組織得了他?！边@里隱含什么關(guān)系？轉(zhuǎn)折關(guān)系、因果關(guān)系或者假設(shè)關(guān)系。這些關(guān)系如果分析不清楚，自然語言處理應(yīng)用，比如理解、問答、對(duì)話都做不了。

篇章分析到底要做什么？其實(shí)就是要解決兩個(gè)問題，一個(gè)是篇章結(jié)構(gòu)；還有一個(gè)是篇章特征。篇章結(jié)構(gòu)包括剛才看到的邏輯語義結(jié)構(gòu)、話題結(jié)構(gòu)、指代結(jié)構(gòu)、功能結(jié)構(gòu)和事件結(jié)構(gòu)等。除了功能結(jié)構(gòu)之外，其他幾個(gè)結(jié)構(gòu)目前在自然語言處理都有所研究（都是非常難的問題）。篇章的基本特征包括銜接性、連貫性、意圖性、可接受性、信息性、情景性和跨篇章性七個(gè)，目前學(xué)術(shù)界研究最多的還是銜接性和連貫性。銜接性指的是你在一段話或在一篇文章里講這個(gè)詞時(shí)，主題基本上都會(huì)用一個(gè)詞、用同樣的詞，不會(huì)跳來跳去，不會(huì)發(fā)生很大變化，這就叫做詞匯鏈的概念。連貫性指的是結(jié)構(gòu)。

篇章分析語言學(xué)理論有中心理論、脈絡(luò)理論、篇章表示理論等，我們統(tǒng)稱叫做修辭結(jié)構(gòu)理論（RST）。RST對(duì)從事計(jì)算機(jī)語言的人影響非常大。目前最大的中英文篇章標(biāo)注樹庫基本上都是基于RST，在它的基礎(chǔ)上進(jìn)行小幅度改進(jìn)所標(biāo)注。這些篇章分析的庫，我們叫做篇章樹庫。

篇章分析的目標(biāo)就是分析篇章所蘊(yùn)含的各種結(jié)構(gòu)，以及構(gòu)成單元之間的各種語義關(guān)系。其任務(wù)：

第一，識(shí)別篇章基本單元；

第二，識(shí)別這些單元之間的篇章關(guān)系。

篇章分析有三種方法：

第一種是線性；

第二種是組塊方法；

第三種是樹結(jié)構(gòu)方法。

篇章里一直在講修辭結(jié)構(gòu)，到底有什么用？

第一個(gè)修辭結(jié)構(gòu)?！皬埲?0出頭，既沒有什么學(xué)歷，又沒有多少新的工作經(jīng)驗(yàn)，但是不論干什么，他都非常認(rèn)真，所以處長總是把一些重要的任務(wù)交給他?！边@句話跳來跳去。問的問題是，為什么處長總把一些重要任務(wù)交給他？如果篇章分析做不好，這個(gè)問題沒法回答，只有在篇章分析基礎(chǔ)上，我們回答，最終原因是，他不論干什么，都非常認(rèn)真，所以處長才把任務(wù)交給他。

第二個(gè)話題結(jié)構(gòu)?！拔易蛱焐辖挚匆娨粋€(gè)人，長得很魁梧，穿著軍大衣，買了兩斤肉?！边@句話比較通俗。問題是誰買了兩斤肉？無外乎就是兩個(gè)答案，一個(gè)是我；一個(gè)是看見的那個(gè)人。如果篇章分析不出來，完全給不出答案，所以篇章非常重要。

自然語言生成

分詞、命名實(shí)體為代表的詞法、句法、語義、篇章這是分析和理解層次，它們是自然語言處理或者自然語言理解必須要解決、要做的事情，這是最核心的科學(xué)問題；此外還有生成。

自然語言生成和分析比起來，研究差得很多。

造成這種情況的原因無外乎兩點(diǎn)：

第一，生成是基于分析的，如果分析做不好，生成也很難做好；

第二，以前產(chǎn)業(yè)界對(duì)生成沒有很大的需求，尤其是近三年或者近五年，隨著人機(jī)對(duì)話、問答，對(duì)生成的要求越來越高。

2000—2005年在國際會(huì)議上舉辦一個(gè)自然語言生成的比賽沒有人參加，但現(xiàn)在自然語言生成變得尤其重要。一個(gè)系統(tǒng)要做人機(jī)交互，要把自己的想法用自然語言表達(dá)出來，表達(dá)得好壞直接決定用戶體驗(yàn)，生成就變得非常有用。自然語言生成有基于規(guī)則方法、基于知識(shí)庫檢索方法和基于深度學(xué)習(xí)的方法。

到此為止，對(duì)自然語言處理方法介紹了詞法、句法、語義和篇章，在生成這個(gè)層次介紹了生成的所采用的不同的方法。

自然語言處理應(yīng)用

自然語言處理應(yīng)用包括兩方面，第一方面是自然語言處理本身應(yīng)用；第二方面是自然語言處理+行業(yè)。下面介紹幾個(gè)代表性的自然語言處理應(yīng)用。

情緒和情感分析

情感和情緒不同。

情感分析主要對(duì)產(chǎn)品評(píng)論和新聞文本表達(dá)的意見、情感、情緒、主客觀性、評(píng)價(jià)等方面的研究。情感分析在工業(yè)界和學(xué)術(shù)界已經(jīng)有著廣泛的應(yīng)用，比如輿情監(jiān)測(cè)，我國做得非常好；還有企業(yè)征信、聊天服務(wù)機(jī)器人等做得也好。情感包括正面、負(fù)面和中性三個(gè)方面。如圖14所示，“這部電影情節(jié)還不錯(cuò)，我很喜歡，但是這家影院的3D效果太爛，以后不會(huì)再來了?！比绻诰渥訉用?，這個(gè)層面是正面；句子二是負(fù)面；既有正面也有負(fù)面，綜合評(píng)價(jià)是負(fù)面，他不會(huì)再來。

圖14 情感分析示例

情感非常重要。學(xué)術(shù)界一般做情感分析都是做一個(gè)句子或者一篇文章，在我們和某電商公司合作之后，發(fā)現(xiàn)了很多在學(xué)術(shù)界所看不到的問題。在電商領(lǐng)域有很多用戶，用戶和用戶之間、用戶和客服之間進(jìn)行交流，產(chǎn)生了很多新的科學(xué)問題和應(yīng)用場(chǎng)景，比如基于問答的情感分析，以及基于單產(chǎn)品、單一問答多用戶的情感分析。這些問題都是在實(shí)際中電商公司必須解決的，都是學(xué)術(shù)界沒有意識(shí)到的問題，沒有數(shù)據(jù)，沒有要求，也沒有科學(xué)問題的驅(qū)動(dòng)，但是企業(yè)界有這樣需求，一歸納就發(fā)現(xiàn)了很多的科學(xué)問題和實(shí)際應(yīng)用。

情緒就是喜怒哀驚，難過、新奇、憤怒等。比如，“今天學(xué)發(fā)了國家獎(jiǎng)學(xué)金太開心了。明天就去買個(gè)LV包包?！边@個(gè)情緒第一個(gè)是太開心；，第二個(gè)產(chǎn)生的結(jié)果就是買個(gè)LV包包，這就是情緒分析。模型從機(jī)器角度來講，各個(gè)方法都有。問題驅(qū)動(dòng)是做自然語言處理更感興趣的，那就是情感和情緒分析到底要哪些解決問題。然后分析完之后又挨個(gè)做一遍。

問答系統(tǒng)

自然語言處理應(yīng)用，第一個(gè)就是情感和情緒；第二個(gè)是問答。問答也非常有意思，問答輸入自然語言句子，輸出是精準(zhǔn)答案。但是很多情況下給不出一個(gè)精準(zhǔn)答案，很多答案是主觀的，或者很多答案你認(rèn)為正確，但是不敢說、不能說。問答任務(wù)分為社區(qū)問答、基于知識(shí)的問答、垂直領(lǐng)域問答、開放領(lǐng)域問答、閱讀理解等。

問答的分類也有很多種。事實(shí)類，2018中國人工智能大會(huì)在哪里召開？深圳。描述性問答，這款新發(fā)布的手機(jī)有什么特點(diǎn)？過程性問答，護(hù)照怎么申請(qǐng)辦理？需要計(jì)算的問答，飛巴黎和飛洛杉磯最短的時(shí)間差多少？這相對(duì)難一些，要找到飛巴黎和飛洛杉磯的時(shí)間，然后互相減掉。很多小學(xué)應(yīng)用題里蘊(yùn)含很多對(duì)自然語言處理很難，以及很多推理、常識(shí)性又是可計(jì)算性的東西。推理因果關(guān)系，為什么中國會(huì)發(fā)生疫苗事件？這個(gè)答案不唯一，政府發(fā)言人是一個(gè)，敵對(duì)勢(shì)力是一個(gè)，受害小孩家長也是一個(gè)，憤青是一個(gè)。觀點(diǎn)性問答，你對(duì)疫苗事件和中美貿(mào)易戰(zhàn)有何看法？二者有關(guān)系嗎？如果讓小冰回答，小冰估計(jì)會(huì)說“跟我沒關(guān)系，我不告訴你”，這也是一種回答。

問答分類分析和理解分為一階和二階，一階比較簡(jiǎn)單，比如喜馬拉雅山有多高？二階問答，比如《紅樓夢(mèng)》作者還寫過哪些書？還有更復(fù)雜的，經(jīng)常用的例子，謝霆峰前妻的什么之類，繞了很多圈最后又繞到謝霆峰這里，推理得非常翔實(shí)。這也是一階、二階邏輯。第二就是要做好問題分類、分析和理解，要做好答案的匹配和檢索。第三個(gè)是答案生成。要看問題是什么，歸歸類，作者意圖是什么。答案匹配和檢索，既然把問題分好了，總要找到答案，無論是知識(shí)庫、社區(qū)還是互聯(lián)網(wǎng)要匹配和檢索出來。答案生成可能涉及到推理、涉及到知識(shí)圖譜、組合、指代等很多東西，一個(gè)問答系統(tǒng)需要做好這三個(gè)模塊。

問答發(fā)展歷史和人工智能歷史是一樣的?，F(xiàn)在測(cè)試人工智能要進(jìn)行圖靈測(cè)試，這就是一個(gè)問答系統(tǒng)；后面有TREC、IBM沃森、社區(qū)問答、看圖說話等。

問答有四個(gè)難點(diǎn)：

第一，多源異構(gòu)大數(shù)據(jù)背景下開放域問答瓶頸；

第二，語義理解問題；

第三，知識(shí)庫與知識(shí)圖譜問題；

第四，多模態(tài)場(chǎng)景下的問答（就是常說的看圖說話）。

研究方法：

第一，針對(duì)多源異構(gòu)大數(shù)據(jù)以前用IR方法，目前就是IR+閱讀理解的方法。

第二，深度理解主要抽取的方法，現(xiàn)在抽取+生成的方法。生成是問答非常重要的一環(huán)，目前生成式問答已經(jīng)成為主流。

第三，知識(shí)圖譜以后專門介紹。

第四，多模態(tài)場(chǎng)景下的問答，最有趣的地方是要把語言學(xué)用的模型和圖像處理模型在一個(gè)框架下統(tǒng)一起來；也就是說，要跨媒體、跨模態(tài)的特征共享、獨(dú)立和抗依賴。

問答系統(tǒng)有什么樣的應(yīng)用？圖15是在網(wǎng)上找到人工智能行業(yè)圖譜，發(fā)現(xiàn)每個(gè)領(lǐng)域只要涉及人機(jī)交互都可以用到問答。

圖15 人工智能行業(yè)圖譜

對(duì)話系統(tǒng)

對(duì)話系統(tǒng)不像問答系統(tǒng)這么單純，一個(gè)是開放域?qū)υ捪到y(tǒng)；一個(gè)是封閉域?qū)υ捪到y(tǒng)，或者面向任務(wù)驅(qū)動(dòng)的對(duì)話系統(tǒng)。比如銀行、客服、旅游就是封閉域?qū)υ捪到y(tǒng)。開放就是隨便問、隨便答。開放域?qū)υ捪到y(tǒng)分兩種，一種是閑聊；一種是解決問題。對(duì)話系統(tǒng)是綜合性問題，主要涉及語言識(shí)別、語言理解、狀態(tài)跟蹤、自然語言生成和語音合成。

知識(shí)圖譜

圖16所示的是我們和某電商公司做的一個(gè)計(jì)劃，叫做藏經(jīng)閣計(jì)劃，是在國內(nèi)幾所科研機(jī)構(gòu)、大學(xué)在某電商公司支持下共同打造的。

圖16 藏經(jīng)閣計(jì)劃（知識(shí)圖譜）

第一個(gè)圖譜知識(shí)建模，就是人工智能內(nèi)涵里很重要的部分知識(shí)工程。知識(shí)工程一個(gè)非常核心的部分叫做知識(shí)建模。如果問你，什么叫知識(shí)？大家回答不出來。經(jīng)常說，你有知識(shí)沒文化；有知識(shí)沒能力，你是一個(gè)書呆子。知識(shí)建模就是要解決這些問題。我們每天都在講這些東西，怎么能用計(jì)算機(jī)表達(dá)出來？是用圖的表達(dá)還是用樹的表達(dá)？屬性是什么？這就是知識(shí)建模。有了建模之后，要進(jìn)行圖譜的構(gòu)建。圖譜包括很多，目前先講的都是實(shí)體之間的關(guān)系，再講實(shí)體的屬性。圖譜非常多，不僅有屬性。比如，某搜索公司做用戶意圖圖譜，某電商公司做用戶購買力圖譜，還可以做事件圖譜。有了知識(shí)建模，有了知識(shí)圖譜構(gòu)建之外，下面要做的就是知識(shí)的融合。有各種各樣的圖譜，有各種各樣的知識(shí)；化學(xué)第一章學(xué)的是有機(jī)化學(xué)，下一章是無機(jī)化學(xué)，怎么樣把知識(shí)融合起來？這就是知識(shí)融合解決的問題。還有知識(shí)推理和計(jì)算。有了知識(shí)和圖譜這些靜態(tài)的東西，如果利用起來，必須要有推理、要有計(jì)算的過程；有了推理和計(jì)算之后要賦能，人很會(huì)造詞。以前對(duì)賦能這個(gè)詞很反感，聽時(shí)間長了，慢慢也接受了。因?yàn)橛⑽牟皇悄愕哪刚Z，沒有文化認(rèn)同感，沒有主人感，如果有一個(gè)新詞就會(huì)很容易接受；但是中文出了一個(gè)新詞，會(huì)思考這樣有沒有道理。

信息抽取

信息抽取做了幾件事情，第一，命名實(shí)體；第二個(gè)叫做mention，是指代的意思；還有關(guān)系，比如北大和清華有什么關(guān)系；還有事件的關(guān)系，比如講破案過程，肯定是先發(fā)生案件，然后被人發(fā)現(xiàn)了，警察去了開始搜集線索，最后破案了，這就是事件的關(guān)系。

舉個(gè)例子，什么叫信息抽取？圖17所示的這段話很長，看起來是不是很費(fèi)力氣？如果用圖18所示的表格表示則非常簡(jiǎn)單，一看就明白了。信息抽取要做什么？信息抽取基本的任務(wù)就是要把那段話變成這種結(jié)構(gòu)化的表達(dá)；也就是說，信息抽取就是要把非結(jié)構(gòu)化數(shù)據(jù)、自然語言數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù)，或者非結(jié)構(gòu)化、或者半結(jié)構(gòu)化數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù)。

圖17 非結(jié)構(gòu)化數(shù)據(jù)

圖18 結(jié)構(gòu)化數(shù)據(jù) （信息抽取的結(jié)果）

機(jī)器翻譯

機(jī)器翻譯有基于詞典的方法、基于規(guī)則轉(zhuǎn)換的方法、基于中間語言的方法、基于實(shí)例的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。舉個(gè)例子看看機(jī)器怎樣做機(jī)器翻譯（見圖19），輸入是“我們必須與友邦建立一種關(guān)系”。這個(gè)短語可以隨便劃分，我們必須與友邦建立關(guān)系。第二步是做短語翻譯，第一步先做短語切分，再做短語的翻譯；第三步做短語的轉(zhuǎn)化，翻譯結(jié)果就出來了。這是短語結(jié)構(gòu)的機(jī)器翻譯，非常簡(jiǎn)單。

圖19 短語結(jié)構(gòu)的機(jī)器翻譯

目前用的神經(jīng)網(wǎng)絡(luò)方法也非常簡(jiǎn)單（圖20）。首先把句子進(jìn)行切分，然后從左向右掃描一遍，再從右向左掃描一遍，掃描過程用的循環(huán)神經(jīng)網(wǎng)絡(luò)。掃描后這個(gè)句子形成一個(gè)向量，有了向量就產(chǎn)生了目標(biāo)源的詞，從左向右一個(gè)個(gè)產(chǎn)生。產(chǎn)生詞時(shí)要用到兩個(gè)條件，一個(gè)是狀態(tài)序列；另一個(gè)就是當(dāng)前詞和源語言每個(gè)詞的attention。神經(jīng)網(wǎng)絡(luò)方法比短語方法更簡(jiǎn)單，先是從左向右，然后是從右向左兩邊掃描，這是編碼過程；然后是從左向右解碼。

圖20 神經(jīng)網(wǎng)絡(luò)方法的機(jī)器翻譯

目前最新進(jìn)展是Google提出的Transformer方法，在大規(guī)模語料上比之前SMT提高了10個(gè)點(diǎn)。Transformer只需要一個(gè)叫做attention的東西，第一詞本身；第二詞的位置；第三個(gè)是詞與詞之間的attention進(jìn)行編碼。

機(jī)器翻譯的挑戰(zhàn)：第一是知識(shí)建模和翻譯引擎，從句法到語義到知識(shí)，沒有知識(shí)就沒有智能。第二，廣度和深度，廣度就是篇章，深度就是深度學(xué)習(xí)。第三，面向產(chǎn)業(yè)化需求，滿足國家重大需求。

上面講了自然語言處理方法和自然語言處理應(yīng)用，最后的自然語言處理+行業(yè)，從目前的發(fā)展來看，自然語言處理在各行各業(yè)有非常大的需求。

AI時(shí)代自然語言處理

AI時(shí)代自然語言處理有什么特點(diǎn)？第一非常熱；第二取得巨大進(jìn)步。技術(shù)進(jìn)步和產(chǎn)業(yè)需求推動(dòng)了行業(yè)的發(fā)展。特點(diǎn)包括表示、搜索、推理和學(xué)習(xí)三個(gè)方面。學(xué)習(xí)有各種各樣的學(xué)習(xí)方法，多任務(wù)學(xué)習(xí)、對(duì)抗學(xué)習(xí)、遷移學(xué)習(xí)等，這些都是自然語言處理發(fā)生的新框架（見圖21）。

圖21 AI時(shí)代自然語言處理的特點(diǎn)

最后簡(jiǎn)單介紹蘇州大學(xué)的自然語言處理。我們目前有200多人的自然語言處理團(tuán)隊(duì)，做了30年的自然語言處理研究，前面講的東西，在我們蘇州大學(xué)自然語言處理實(shí)驗(yàn)室都在做（見圖22）。

圖22 蘇州大學(xué)自然語言處理的研究

總結(jié)

第一，自然語言處理發(fā)展正處于歷史的最好時(shí)期，并取得了很大進(jìn)步。最重要的原因是技術(shù)的進(jìn)步達(dá)到了產(chǎn)業(yè)需求的下限，產(chǎn)業(yè)的巨大需求反過來推動(dòng)了技術(shù)的進(jìn)步。

第二，AI時(shí)代自然語言處理發(fā)展趨勢(shì)，一個(gè)是知識(shí)；一個(gè)是學(xué)習(xí)。

第三，學(xué)科自身發(fā)展和邊界，要凝練自然語言處理本身的科學(xué)問題，研究框架和規(guī)范。

第四，加快產(chǎn)學(xué)研的進(jìn)一步融合。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46316

瀏覽量
236478
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
279

瀏覽量
13309

原文標(biāo)題：CCAI2018演講實(shí)錄丨張民：自然語言處理方法與應(yīng)用

文章出處：【微信號(hào)：CAAI-1981，微信公眾號(hào)：中國人工智能學(xué)會(huì)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

python自然語言

學(xué)和人工智能，但同樣受到諸如機(jī)器學(xué)習(xí)，計(jì)算統(tǒng)計(jì)學(xué)和認(rèn)知科學(xué)這些相對(duì)新興的學(xué)科影響。python下面只要安裝自然語言工具包nltk，下面版主開始正式進(jìn)入學(xué)習(xí)。Natural Language

發(fā)表于 05-02 13:50

hanlp漢語自然語言處理入門基礎(chǔ)知識(shí)介紹

`自然語言處理定義：自然語言處理是一門計(jì)算機(jī)科學(xué)、人工智能以及語言學(xué)的交叉學(xué)科。雖然

發(fā)表于 01-02 14:43

【推薦體驗(yàn)】騰訊云自然語言處理

結(jié)構(gòu)化抽取，有效輔助人工，降低人力參與成本。因?yàn)楝F(xiàn)在騰訊云自然語言處理產(chǎn)品公測(cè)免費(fèi)，所以我注冊(cè)了騰訊云賬號(hào)去專門體驗(yàn)了一下，最直觀的感受就是確實(shí)如產(chǎn)品介紹中說的：開箱即用的NLP能力，滿足各種文本

發(fā)表于 10-09 15:28

自然語言處理的語言模型

自然語言處理——53 語言模型（數(shù)據(jù)平滑）

發(fā)表于 04-16 11:11

什么是自然語言處理

什么是自然語言處理？自然語言處理任務(wù)有哪些？自然語言處理的方法是什么？

發(fā)表于 09-08 06:51

什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理？

領(lǐng)域，包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理和其他幾個(gè)學(xué)科。首先，人工智能涉及使計(jì)算機(jī)具有自我意識(shí)，利用計(jì)算機(jī)視覺、自然語言理解和模仿其他感官。其次，

發(fā)表于 03-22 11:19

什么是自然語言處理_自然語言處理常用方法舉例說明

自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言

發(fā)表于 12-28 16:56 ?1.8w次閱讀

什么是<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>_<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>常用方法舉例說明

解讀人工智能理解的自然語言的原理和概念

人工智能理解自然語言的原理是什么？要有針對(duì)性地回答該問題，需先將它的議題邊界進(jìn)行明確定義。如果將該問題理解為如何利用計(jì)算機(jī)工具處理和分析自然語言，以實(shí)現(xiàn)人與計(jì)算機(jī)通過

發(fā)表于 08-09 14:43 ?6067次閱讀

自然語言處理（NLP）的學(xué)習(xí)方向

自然語言處理（Natural Language Processing，NLP）是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的理論和方法。融

發(fā)表于 07-06 16:30 ?1.3w次閱讀

自然語言處理是什么？有什么用？

“自然語言處理” （Natural Language Processing，簡(jiǎn)稱NLP）是近年來科技界最熱門的詞語之一，也是當(dāng)下人工智能研究最熱門的領(lǐng)域之一。自然語言

發(fā)表于 02-08 16:00 ?5998次閱讀

自然語言處理的概念和應(yīng)用自然語言處理屬于人工智能嗎

　　自然語言處理(Natural Language Processing)是一種人工智能技術(shù)，它是研究自然語言與計(jì)算機(jī)之間的交互和通信的一門學(xué)科。自

發(fā)表于 08-23 17:31 ?1209次閱讀

自然語言處理和人工智能的概念及發(fā)展史 自然語言處理和人工智能的區(qū)別

自然語言處理(Natural Language Processing, NLP)的定義是通過電腦軟件程序?qū)崿F(xiàn)人們?nèi)粘?b class='flag-5'>語言的機(jī)器自動(dòng)處理。為了幫助計(jì)算機(jī)理解，掌握

發(fā)表于 08-23 18:22 ?775次閱讀

自然語言處理和人工智能的區(qū)別

　　自然語言處理(Natural Language Processing，NLP)是人工智能(AI)中的一個(gè)分支，它利用計(jì)算機(jī)技術(shù)對(duì)自然語言進(jìn)行處理

發(fā)表于 08-28 17:32 ?1422次閱讀

自然語言處理屬于人工智能的哪個(gè)領(lǐng)域

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能（Artificial Intelligence，簡(jiǎn)稱AI）領(lǐng)域的一個(gè)重要分支。它涉及到計(jì)算機(jī)與人類

發(fā)表于 07-03 14:09 ?905次閱讀

自然語言處理包括哪些內(nèi)容

自然語言處理（Natural Language Processing，簡(jiǎn)稱NLP）是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到計(jì)算機(jī)與人類語言之間的交互。NLP的目標(biāo)是讓計(jì)算機(jī)能夠理解、生成

發(fā)表于 07-03 14:15 ?601次閱讀

搜索歷史

張民：人工智能、自然語言和自然語言處理

評(píng)論

python自然語言

hanlp漢語自然語言處理入門基礎(chǔ)知識(shí)介紹

【推薦體驗(yàn)】騰訊云自然語言處理

自然語言處理的語言模型

什么是自然語言處理

什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理？

什么是自然語言處理_自然語言處理常用方法舉例說明

解讀人工智能理解的自然語言的原理和概念

自然語言處理（NLP）的學(xué)習(xí)方向

自然語言處理是什么？有什么用？

自然語言處理的概念和應(yīng)用自然語言處理屬于人工智能嗎

自然語言處理和人工智能的概念及發(fā)展史自然語言處理和人工智能的區(qū)別

自然語言處理和人工智能的區(qū)別

自然語言處理屬于人工智能的哪個(gè)領(lǐng)域

自然語言處理包括哪些內(nèi)容

搜索歷史

張民：人工智能、自然語言和自然語言處理

評(píng)論

張民：人工智能、自然語言和自然語言處理