0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

張民:人工智能、自然語言和自然語言處理

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-08-14 15:02 ? 次閱讀

7月28-29日,由中國人工智能學(xué)會(huì)和深圳市羅湖區(qū)人民政府共同主辦,馬上科普承辦的“2018 中國人工智能大會(huì)(CCAI 2018)”完美收官。

大會(huì)第一天下午,蘇州大學(xué)特聘教授、國家杰出青年科學(xué)基金獲得者張民作題為《自然語言處理方法與應(yīng)用》的主題講座。與參會(huì)者共同分享自然語言處理方法,以及應(yīng)用和進(jìn)展。

以下是根據(jù)速記整理的大會(huì)講座實(shí)錄。

蘇州大學(xué)特聘教授、國家杰出青年科學(xué)基金獲得者張民

張民:感謝大會(huì)的邀請(qǐng),使我有機(jī)會(huì)和大家分享自然語言處理方法,以及應(yīng)用和進(jìn)展。這也是給了我一個(gè)非常大的機(jī)會(huì)和動(dòng)力,讓我自己去總結(jié)、自己去深度挖掘、去想,做了這么多年,到底什么叫自然語言處理,有什么樣的方法,都是怎樣研究的,進(jìn)展在哪里。更重要的是,用什么樣的方法能和在座的各位進(jìn)行交流和溝通。

大家聽了很多次報(bào)告,這是其中一次,我在上面講,用自然語言的方式把想講的東西表達(dá)出來,大家在下面聽。大家有沒有仔細(xì)想過,你是怎樣理解我講的這些話,你學(xué)到了什么,你學(xué)完之后又采取了哪些動(dòng)作,對(duì)你有哪些影響,這個(gè)過程就是一個(gè)很典型的自然語言處理過程。

我主要分四部分進(jìn)行講解。既然是人工智能大會(huì),自然語言處理本身也是人工智能非常重要的分支,我用一點(diǎn)時(shí)間給大家介紹一下什么是人工智能、什么是自然語言、什么是自然語言處理。然后再介紹自然語言處理方法、應(yīng)用,以及在人工智能時(shí)代自然語言處理的特點(diǎn)。最后給大家一個(gè)結(jié)論。

1.

人工智能、自然語言和自然語言處理

人類社會(huì)的發(fā)展是從農(nóng)業(yè)社會(huì)到工業(yè)社會(huì),到現(xiàn)在是信息社會(huì)。提到信息社會(huì)會(huì)想到信息爆炸,有各種各樣的名詞出現(xiàn),比如我們現(xiàn)在處于大數(shù)據(jù)時(shí)代、信息時(shí)代,有數(shù)字經(jīng)濟(jì),現(xiàn)在人工智能又這么熱。大家有時(shí)是不是很迷惑,到底我們處于什么樣的時(shí)代?其實(shí)所有這些從數(shù)據(jù)到信息、到知識(shí)、到智能都是信息時(shí)代的標(biāo)志,它們之間到底有什么區(qū)別?數(shù)據(jù)是什么?信息是什么?知識(shí)是什么?智能是什么?

數(shù)據(jù)就是對(duì)事實(shí)的記錄,對(duì)我們所看到的主觀世界或客觀世界事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示,以適合在這個(gè)領(lǐng)域中用人工或自然的方式進(jìn)行保存、傳遞和處理。舉個(gè)簡(jiǎn)單的例子,深圳今天的室外溫度很熱,37℃,數(shù)據(jù)是什么?數(shù)據(jù)就是氣溫,37℃。這就是一個(gè)數(shù)據(jù),對(duì)深圳屬性描述、氣溫、氣壓是多少。僅有數(shù)據(jù)得不到任何信息,如果我說氣溫-20℃,什么意思?大家不知道。

信息就是在數(shù)據(jù)基礎(chǔ)上進(jìn)行加工,能夠傳達(dá)你想聽到的和我所講的。你聽到我講的以后,就知道我講的什么意思了。信息是具有時(shí)效性的有一定含義的、有邏輯的、經(jīng)過加工處理的、對(duì)決策有價(jià)值的數(shù)據(jù)流,也就是加工后有邏輯的數(shù)據(jù)。還是用天氣做例子, “2018年7月28日,中午,深圳的天氣是37℃”,這就是一條信息。如果只說溫度37℃,不知道什么意思。

知識(shí)是什么?小時(shí)候?qū)W的數(shù)學(xué)、化學(xué)、物理的定義和證明就是知識(shí),知識(shí)就是在信息基礎(chǔ)上進(jìn)行抽象、凝練、總結(jié)、歸納、演繹,使其有價(jià)值的部分沉淀下來,可以結(jié)構(gòu)化、傳承、抽象,有價(jià)值的信息就轉(zhuǎn)變成知識(shí)。

人工智能

什么叫智能?智能包括兩部分,一部分是智,一部分是能;智就是智慧,能就是能力。用一句話總結(jié),智能就是用知識(shí)來解決問題的能力。僅有數(shù)據(jù)不行,數(shù)據(jù)什么都不是;只有信息也不行,因?yàn)樾畔?shí)在太豐富了;然后就必須要有知識(shí);但有知識(shí)也不行,有知識(shí)必須要有能力;把知識(shí)運(yùn)用起來,這時(shí)我們就把它叫做智能。這就是知識(shí)和智能關(guān)系。

現(xiàn)在人工智能已上升到國家發(fā)展戰(zhàn)略,科技部、教育部、基金委、工信部和產(chǎn)業(yè)、科研機(jī)構(gòu)、大學(xué)都在談人工智能。從50年代、60年代、70年代到現(xiàn)在,會(huì)發(fā)現(xiàn)人工智能熱時(shí),大家喊人類要?dú)?,人工智能要替代人類,說你要失業(yè)了。如果人工智能不火時(shí),說是騙子,騙了國家、用戶的錢,沒幫助我們解決問題。但是冷靜下來想,目前我們研究人工智能雖然取得了很大的進(jìn)步,但是從人工智能的科學(xué)問題和智能的本質(zhì)角度還差得很遠(yuǎn)。如果拿人的年齡作比喻,人工智能最多是一兩歲。所以,第一,我們不是騙子;第二,人類也不會(huì)因?yàn)槿斯ぶ悄軞?,還有很長的路要走。

中國人工智能學(xué)會(huì)理事長李德毅院士講過一句話,他說,講不清楚的人工智能內(nèi)涵的人,都是在忽悠。李院士給人工智能下的定義(見圖1),我非常認(rèn)可。這個(gè)定義就是人工智能的內(nèi)涵,包括腦認(rèn)知基礎(chǔ)、機(jī)器感知與模式識(shí)別、自然語言處理與理解和知識(shí)工程四部分。腦認(rèn)知技術(shù)是基礎(chǔ),然后是知識(shí)工程。知識(shí)工程做什么?要做的就是怎樣去把人類社會(huì)的知識(shí)用計(jì)算機(jī)表達(dá)出來,怎樣數(shù)學(xué)化建模。人工智能最終體現(xiàn)兩方面,一個(gè)是感知;一個(gè)是認(rèn)知。語音識(shí)別和圖像處理屬于典型的感知問題;而自然語言處理和理解,是一個(gè)認(rèn)知的過程。自然語言理解被認(rèn)為是認(rèn)知智能的核心難題。人工智能的外延是什么?按照李院士的定義來說,包括兩部分,一個(gè)是機(jī)器人;一個(gè)是智能系統(tǒng)。機(jī)器人包括很多,如工業(yè)機(jī)器人、農(nóng)業(yè)機(jī)器人和國防機(jī)器人等;智能系統(tǒng)也包括很多,如智能商務(wù)、智能制造和智慧金融等,這就是人工智能的外延。

圖1 人工智能的內(nèi)涵和外延(李德毅院士)

自然語言處理和理解

我們知道對(duì)一個(gè)智能生物體來講主要包括感知、認(rèn)知和進(jìn)化三部分。進(jìn)化在人工智能領(lǐng)域研究得非常少。圖2示出了人的進(jìn)化過程,左邊是一只老虎,圖上放了三個(gè)術(shù)語。第一點(diǎn),人類經(jīng)過了億萬年的進(jìn)化,從食物鏈中端進(jìn)化到食物鏈的頂端。這里不講人類有沒有控制世界、破壞世界(那是一個(gè)哲學(xué)問題),只是從生物鏈角度,我們站到食物鏈的頂端,享受人類世界的文明成果,可以作報(bào)告,可以談?wù)撊斯ぶ悄軉栴},可以談?wù)撜軐W(xué)問題,不用擔(dān)心被老虎吃掉。但是,如果以人的能力,從一個(gè)人的角度來講,肯定打不過老虎(除了武松之外)。第二點(diǎn),大家都講,腦的容量越大就越聰明。有時(shí)候我給女兒講故事,我反問她,大腦容量越大越聰明對(duì)不對(duì)?她說,爸爸,你的腦容量大還是老虎腦容量大?我沒研究過,估計(jì)老虎腦容量比較大(老虎大腦比人腦重約6倍),但是人比老虎聰明。為什么人類能夠進(jìn)化,處在食物鏈的頂端,和動(dòng)物唯一的的區(qū)別就是有語言。人類通過語言進(jìn)行溝通、合作,打不過老虎沒關(guān)系,在地上挖一個(gè)坑,上面放一塊肉,老虎咬那塊肉肯定會(huì)掉下去,結(jié)果不言而喻。所以,語言非常重要,語言區(qū)別于人與動(dòng)物。

圖2 自然語言與人的進(jìn)化過程

人工智能最核心的一部分就是自然語言處理和理解。

什么是語言?從計(jì)算機(jī)角度來講,語言就是一個(gè)符號(hào)系統(tǒng)。一個(gè)符號(hào)系統(tǒng)有幾個(gè)特點(diǎn):

第一必須有字母、有詞;

第二,必須有規(guī)則;

第三,必須有起始符號(hào);

第四,必須有終止?fàn)顟B(tài)。

這就是語言的基本定義。

語言的種類

(1)動(dòng)物語言

如果從語言種類來講分為動(dòng)物語言、人工語言和自然語言三種。動(dòng)物語言和自然語言有什么區(qū)別?動(dòng)物語言有幾個(gè)特點(diǎn),第一,只有聲音,沒有文字。第二,只有單詞,最多表達(dá)20多種狀態(tài),這20多個(gè)單詞不可以進(jìn)行組合,而且動(dòng)物語言表達(dá)狀態(tài)都是最基本的、單一的,比如餓了、飽了、敵人來了、遇到危險(xiǎn)了。第三,與生俱來的,不是后天學(xué)出來的。一只在中國的老虎和一只在美國的老虎從來沒見過,它倆的語言可以交流;不像人,美國人和中國人從沒見過,不可以用語言進(jìn)行交流的。第四,動(dòng)物語言和人不一樣,不可以記錄現(xiàn)實(shí),也不可以對(duì)現(xiàn)在進(jìn)行描述,也不能展望未來。從來沒有老虎媽媽和老虎寶寶講,將來怎樣。

(2)人工語言

人工語言和動(dòng)物語言與自然語言的區(qū)別。人工語言是由人創(chuàng)造的。首先人工語言目的是為了溝通;第二是一些非常有情懷的人做人工語言;第三,人工語言不像人類語言可以進(jìn)行演變。一個(gè)代表性的例子就是世界語,由波蘭人柴門霍夫發(fā)明的,在上世紀(jì)80年代非常流行。隨著全球各國逐漸開放,世界語言不流行了,逐漸被英語取代。

人工語言發(fā)明的原因有多種,比如,人類之間交流、溝通使用;著作者愛好;藝術(shù)語言、文學(xué)作品的溝通……人工語言我比較推崇的,一個(gè)是《魔戒》作者創(chuàng)造的。還有就是《失落的帝國》中古代語言的亞特蘭帝斯語。如果看過這部電影,會(huì)看到其導(dǎo)演費(fèi)了很大的精力,請(qǐng)了歷史學(xué)家、作家、語言學(xué)家坐在一起,為這部電影創(chuàng)造語言。你會(huì)發(fā)現(xiàn)這些人在講的時(shí)候不是亂講,是有規(guī)律的,而且可以進(jìn)行溝通。

(3)自然語言

什么是自然語言?自然語言的定義、起源、種類和分布到底是什么?自然語言的定義非常多,大概有幾十種定義,無論是做語言學(xué)的,還是做文學(xué)的,你會(huì)發(fā)現(xiàn)每種定義都是從某個(gè)側(cè)面對(duì)自然語言某些特征的描述,都會(huì)有漏洞,都會(huì)有它描述不到的地方。到目前為止,還找不到一個(gè)大家公認(rèn)的,一個(gè)科學(xué)的、能被廣泛接受的自然語言定義。

自然語言的起源有幾種說法。第一個(gè)是神授說。不同的宗教,對(duì)語言的起源給出不同的定義。比如,基督教認(rèn)為是耶穌創(chuàng)造的;我國廣西壯族自治區(qū)少數(shù)民族認(rèn)為是山神創(chuàng)造的;印度教也有印度教的說法,認(rèn)為是吠陀創(chuàng)造的。第二個(gè)是人創(chuàng)說。既然人講自然語言,自然語言就是人創(chuàng)造出來的。在我國有一個(gè)非常標(biāo)準(zhǔn)的定義,即恩格斯說的定義,他說:語言是從勞動(dòng)中并和勞動(dòng)中一起產(chǎn)生的。不管理不理解,恩格斯講的都是對(duì)的;但是他不是亂講的,為什么說勞動(dòng)創(chuàng)造語言?恩格斯在講這句話之前先給三個(gè)條件:①人類的思維能力要發(fā)展到一定的水平;②人類要具備一定的生理?xiàng)l件;③人類社會(huì)有了產(chǎn)生語言的必要。滿足這三個(gè)條件就可以創(chuàng)造語言,正好勞動(dòng)滿足三個(gè)條件,所以語言就是由勞動(dòng)創(chuàng)造出來的。

自然語言的種類。目前世界存在語言6 909種,只有2 000多種語言有書面文字,2500種語言瀕危。漢語、西班牙語、英語、阿拉伯語和印度語是世界上使用最多的;英、法、西、葡、荷蘭語是世界上分布最廣的;漢語國際化還不夠。

自然語言處理

自然語言處理就是用計(jì)算機(jī)來處理人類的自然語言。那么,計(jì)算機(jī)怎樣才能處理自然語言?都要做什么?

自然語言處理就做三件事情(見圖3),把這三件事情做好了,可以獲諾貝爾獎(jiǎng)、圖靈獎(jiǎng)。

第一,分析和理解。什么叫分析和理解?就是我在上面講,你聽見了,如果你明白我講什么了,在理解、思考我講的什么,這個(gè)過程就是一個(gè)分析和理解的過程。

第二,生成和應(yīng)用。什么叫生成和應(yīng)用?我講了之后,我們(人與人)進(jìn)行對(duì)話、進(jìn)行溝通,我講了一句話你聽懂反過來你要回答我,這就是一個(gè)互動(dòng)和生成的過程。自然語言還有很多應(yīng)用的過程。

第三,一個(gè)自然語言處理系統(tǒng)還要做一件事情,就是要有動(dòng)作。比如對(duì)機(jī)器人講:“給我倒一杯咖啡”;機(jī)器人聽懂了,它說:“好的,主人,我給你倒一杯咖啡”。不要說好的,然后不動(dòng),這是不對(duì)的。

圖3 自然語言處理系統(tǒng)

總之,自然語言處理方法目前可以概括四個(gè)方法:

第一,自然語言處理本身算法和理論。作為一門學(xué)科,它有自己的問題、規(guī)則和方法,要定義什么叫詞法、句法、語義,以及其相應(yīng)的分析算法。

第二,更抽象一點(diǎn),從人工智能和機(jī)器學(xué)習(xí)角度講,包括規(guī)則、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)的方法和目前比較熱深度學(xué)習(xí)的方法。再過幾年之后,隨著研究的深入,肯定會(huì)出現(xiàn)新方法取代深度學(xué)習(xí)。對(duì)這些方法抽象化,要解決自然語言處理時(shí),要解決表示、推理和學(xué)習(xí)三個(gè)問題。表示什么意思?一個(gè)自然語言在計(jì)算機(jī)里怎樣表達(dá)出來,語意、句話、篇章怎么表達(dá)。

第三,推理。

第四,學(xué)習(xí)過程。如圖4所示。

圖4 自然語言處理方法

自然語言分析、理解和生成,嚴(yán)格意義上講這是自然語言處理最核心的兩個(gè)問題。自然語言處理應(yīng)用有兩個(gè)層面,第一個(gè)是自然語言處理本身的直接應(yīng)用;第二個(gè)是自然語言處理在行業(yè)的應(yīng)用。本身的應(yīng)用很多人都知道,比如問答、對(duì)話系統(tǒng)、機(jī)器翻譯、自動(dòng)文摘、機(jī)器寫作等,這是自然語言處理本身的應(yīng)用。自然語言處理在各行各業(yè)都可以得到應(yīng)用,比如搜索、國際交流、教育、醫(yī)療、司法、金融,以及在公共安全、國防、旅游等行業(yè)應(yīng)用。以教育為例就有很多,如對(duì)小孩的輔導(dǎo)和教學(xué),無論學(xué)數(shù)學(xué)還是學(xué)英語,高考機(jī)器人等。

自然語言處理的歷史,從廣義理解,一直到秦朝、古希臘時(shí)代。真正的自然語言處理在計(jì)算機(jī)誕生之后,從1950年起就有了。為什么叫做forever?因?yàn)檎Z言本身是人類區(qū)別于動(dòng)物的一個(gè)標(biāo)志,是最智能的行為,如果把語言研究透了,就可以解決人工智能一系列問題。這個(gè)問題只有人存在,只要對(duì)人本身沒有研究透徹,這個(gè)問題就可以一直研究下去。

為什么在人工智能時(shí)代,自然語言處理這么熱?

第一,技術(shù)取得了巨大進(jìn)步,雖然離真正解決問題還差很遠(yuǎn);

第二,產(chǎn)業(yè)落地的巨大需求。

以前我認(rèn)為,自然語言處理技術(shù)沒有成熟到達(dá)到產(chǎn)業(yè)需求的下限。目前自然語言處理在很多應(yīng)用上已經(jīng)達(dá)到產(chǎn)業(yè)需求的下限。有產(chǎn)業(yè)落地,就催生了技術(shù)需求,技術(shù)達(dá)到了產(chǎn)業(yè)落地的基本需求,反過來大大推動(dòng)了技術(shù)進(jìn)步。在人工智能時(shí)代,自然語言處理這么熱是大勢(shì)所趨。

機(jī)器能不能理解人類自然語言?舉一個(gè)簡(jiǎn)單例子,我買件衣服是紅色的,很高興,所有人對(duì)這句話都能理解。但對(duì)計(jì)算機(jī)來說,它翻譯成英文(見圖5),這是今天早上的翻譯結(jié)果,我測(cè)了很多機(jī)器翻譯系統(tǒng),幾乎沒有一句話對(duì)的。但是你問機(jī)器,誰是紅色的?機(jī)器可能說衣服是紅色的,也可能說我是紅色的;如果問誰高興,機(jī)器可能會(huì)想到我高興、衣服高興,甚至?xí)氲郊t色高興。翻譯成英文的話,省略都要補(bǔ)齊。

圖5 機(jī)器翻譯示例1

另外一個(gè)例子。一天,小老虎看見一只貓?jiān)谧嚼匣?,身手敏捷,羨慕極了。這是《老虎和貓學(xué)本領(lǐng)》中的一句話,非常簡(jiǎn)單。當(dāng)給我女兒讀故事書時(shí),怕她不理解,經(jīng)常問她,爸爸給你讀完這個(gè)故事你聽懂了嗎?爸爸講什么?你能講一遍不?她最后都煩了,你為什么老問我這些問題?我說什么叫敏捷?什么叫羨慕?她想了想,不知道,然后她問我。我一想我也不知道,我怎么給小孩解釋什么叫敏捷、什么叫羨慕。于是去Google圖片搜索“敏捷”,有一只老虎跑來跑去;“羨慕”就用表情表達(dá),我女兒就明白差不多了。但是這對(duì)機(jī)器來說有點(diǎn)“強(qiáng)人所難”。我又問我女兒,既然你和我說你理解了身手敏捷和羨慕極了,我問你,誰身手敏捷,誰羨慕誰?她一看問題比較難就亂講了,一會(huì)說老鼠身手敏捷,一會(huì)又說貓、又說老虎。如果從機(jī)器角度來講,她說的都沒錯(cuò)。誰羨慕誰都可以?老鼠羨慕貓,我每天被你抓來抓去的,不過我辛辛苦苦偷了這么多東西還要被你吃;老虎羨慕貓,貓羨慕老虎都可以。從人的角度來講沒有任何問題,我們有很多常識(shí),小孩沒有,機(jī)器沒有。我舉這個(gè)例子不是說自然語言處理太難,機(jī)器做不了,我提醒大家不要太樂觀,不要覺得人工智能發(fā)展,人類就要?dú)?,遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)水平。

第三個(gè)例子,籃球放不進(jìn)箱子里,太大了,太小了,形狀不對(duì)。大家肯定知道,第一,籃球太大了,不可能箱子太大。但是問機(jī)器,機(jī)器就開始亂猜了。第二,太小了,形狀不對(duì),大家都能解決這些問題。但是機(jī)器必須要有知識(shí)庫、要有推理、要有常識(shí)才能解決這個(gè)問題。再看機(jī)器翻譯的結(jié)果,完全沒有對(duì)這句話進(jìn)行理解,“身手敏捷、羨慕極了”,從英文翻譯來看,看不出任何修飾關(guān)系(見圖6)。

圖6 機(jī)器翻譯示例2

這是被我抽象出來的例子,“我們班就一個(gè)女生,班上15個(gè)男生都喜歡她。B就問,那你喜歡她嗎?回答說我們班有17位同學(xué)”。我到底喜歡還是不喜歡你?從正常角度講是不喜歡的,只是很委婉地不想傷那個(gè)女生的自尊心或者不好意思回答。對(duì)機(jī)器來說不好回答,我女兒也沒理解。我們很多問題隱含在語言、隱含在背后的推理和常識(shí),這些邏輯關(guān)系非常抽象。

我們?cè)倏醋詈笠粋€(gè)例子,這句話很有意思,這個(gè)題目是我女兒給我的。王師傅是賣魚的,每公斤魚進(jìn)價(jià)48元,現(xiàn)38元一斤,顧客買了兩公斤,給了王師傅200元假錢,王師傅沒零錢,于是找了鄰居換了200元。事后鄰居存錢過程中發(fā)現(xiàn)錢是假的,被銀行沒收了,王師傅又賠了鄰居200,請(qǐng)問王師傅一共虧了多少?對(duì)計(jì)算機(jī)來說,怎么明白進(jìn)價(jià)、假錢的意思?這么簡(jiǎn)單例子,可以看出自然語言處理中常識(shí)和知識(shí)的重要性。

自然語言處理為什么這么難?下面從功能、知識(shí)、特點(diǎn)、語用性等方面闡述(見圖7)。第一,語言是對(duì)世界的認(rèn)識(shí),是對(duì)客觀、主觀世界所有能夠看到的東西、想到的東西的描述。第二,自然語言處理主要是基于語言學(xué)知識(shí),除了自然語言知識(shí)還有外部世界知識(shí)、領(lǐng)域知識(shí)、常識(shí)知識(shí)。第三,自然語言組合性、開放性、動(dòng)態(tài)性。還有一個(gè)非常重要的特點(diǎn),是語用性。除了知識(shí)之外,對(duì)自然語言處理要解決另外一個(gè)最重要的問題,就是語言是有特點(diǎn)和環(huán)境的,尤其在對(duì)話過程中是有上下文、有信息、有意圖的。

圖7 自然語言處理為什么這么難?

2.

自然語言處理方法

學(xué)科的內(nèi)涵和外延

自然語言處理方法到底是什么?首先要定義如圖1所示的學(xué)科內(nèi)涵、外延和邊界。自然語言處理三件事,即分析理解、生成和應(yīng)用、動(dòng)作。內(nèi)涵是分析理解和生成;多語言處理、跨語言和單語言理解有不同特點(diǎn),我把多語言處理也作為自然語言處理學(xué)科內(nèi)涵,包括對(duì)詞法分析、句法分析、語意分析和篇章分析。自然語言生成從內(nèi)部表示生成自然語言的表達(dá)。多語言處理就是語言之間的對(duì)齊和轉(zhuǎn)換。這就是自然語言處理學(xué)科內(nèi)涵問題,也就是“聽得懂、講明白”。學(xué)科外延有機(jī)器翻譯、文本分類、信息檢索、機(jī)器對(duì)答等自然語言本身的直接應(yīng)用和自然語言處理加行業(yè)(見圖8)。下面對(duì)內(nèi)涵和外延所要解決的問題,給大家解釋一下。

圖8 自然語言處理的外延(應(yīng)用)

分詞

第一是分詞,意思是人聽一句話之后理解的是以詞為單位,而不是以句子為單位。計(jì)算機(jī)要解決第一個(gè)問題就是分詞。舉個(gè)例子,“嚴(yán)守一把手機(jī)關(guān)了”有非常多歧義,一把手、機(jī)關(guān)都是詞,這里只有一個(gè)正確分詞結(jié)果就是“嚴(yán)守一/把/手機(jī)/關(guān)了”。自然語言處理解決第一個(gè)問題就是分詞,目前我們把它叫做序列標(biāo)注方法。

一個(gè)圖

B是開始,I是中間,E是結(jié)束,S是單個(gè);B又是開始,E又是結(jié)束;“關(guān)”是單獨(dú),“了”也是單獨(dú)。這個(gè)字到底是一個(gè)詞的開始還是一個(gè)詞的中間,還是一個(gè)詞的結(jié)束,還是這個(gè)字本身就是單獨(dú)的。這就是目前分詞所用到的數(shù)學(xué)模型。目前主要包括兩種方法,第一種是基于離散特征的CRF;第二種是神經(jīng)網(wǎng)絡(luò)的方法。

自然語言分詞挑戰(zhàn)有五個(gè)。

第一,交叉歧義、分真歧義和偽歧義,如乒乓球拍賣完了,這就是一個(gè)真歧義。

第二,新詞不斷涌現(xiàn)。

第三,領(lǐng)域移植問題,如在新聞?lì)I(lǐng)域做得非常好,如果放在法律領(lǐng)域、醫(yī)療領(lǐng)域就不一樣。

第四,數(shù)據(jù)融合問題。到底什么是詞?不同人有不同鑒別?,F(xiàn)在有各種各樣的語料,分詞標(biāo)準(zhǔn)不同,在理解這些問題時(shí)怎么樣進(jìn)行標(biāo)注和融合?

第五,粒度不同的問題。

分詞進(jìn)展包括四個(gè)方面。

第一,深度學(xué)習(xí)方法,使分詞定義有了進(jìn)一步提高。

第二,網(wǎng)絡(luò)文本分詞數(shù)據(jù)的人工標(biāo)注,這是由于在互聯(lián)網(wǎng)時(shí)代,尤其互聯(lián)網(wǎng)公司產(chǎn)生了巨大的需求,對(duì)網(wǎng)絡(luò)文本分詞有了進(jìn)展。

第三,多源異構(gòu)數(shù)據(jù)的融合和利用。第四,多粒度分詞。

如圖9所示,第一個(gè)句子“特別是我國經(jīng)濟(jì)下滑”,在CTB,“特別是”做一個(gè)詞,如果在PD描述,把“特別是”分開,“我國”也是。第二個(gè)是“全國各地醫(yī)學(xué)界專家走出人民大會(huì)堂”,可以看到兩個(gè)分詞標(biāo)準(zhǔn)完全不同。統(tǒng)計(jì)表明,90%詞一致性都做不到,這是一個(gè)很大的問題。還有分詞的粒度問題,不同人對(duì)詞語認(rèn)知不同,包括生活環(huán)境、體系不同。還有漢語語素和合成詞的界限很模糊,這也是一個(gè)問題。在1996年,Sproat教授一個(gè)實(shí)驗(yàn)結(jié)果表明,中文的native speaker分詞一致率僅76%。

圖9 分詞的粒度

粗粒度分詞和細(xì)粒度分詞有不同的需求。以前一個(gè)互聯(lián)網(wǎng)公司高層人員說,分詞不需要做了,我們每天有這么多數(shù)據(jù),每天新詞都能發(fā)現(xiàn),每天分詞結(jié)果都很準(zhǔn)確。于是讓我的學(xué)生給他一些文章,測(cè)一下其分詞結(jié)果怎樣?結(jié)果可想而知。所以分詞的問題從這里可以看出,遠(yuǎn)沒有解決。

如何能夠在多源異構(gòu)數(shù)據(jù)中學(xué)習(xí)?我們現(xiàn)在用的分詞系統(tǒng)還是機(jī)器協(xié)同的系統(tǒng),有了這么多異構(gòu)數(shù)據(jù),怎樣能夠?qū)W出好的分詞模型,這也是目前研究的熱點(diǎn)。多粒度分詞也是這樣,不像最開始講的,把分詞看成線性序列問題,現(xiàn)在把分詞做成一棵樹,樹的任何一個(gè)節(jié)點(diǎn)都可以看作是一個(gè)詞。如圖9所示,如果醫(yī)學(xué)界在圖中1這個(gè)節(jié)點(diǎn),醫(yī)學(xué)就是一個(gè)詞;如果在圖中2這個(gè)節(jié)點(diǎn),醫(yī)學(xué)界就是一個(gè)詞。這是目前研究比較有意思的現(xiàn)象,我們叫做多粒度分詞。

圖10 基于樹結(jié)構(gòu)的多粒度分詞示例

命名實(shí)體

在多源數(shù)據(jù)融合,研究的都是基于模糊標(biāo)注的耦合序列學(xué)習(xí),還有基于樹結(jié)構(gòu)的多粒度分詞。作為自然語言處理要解決第一個(gè)問題就是分詞問題,第二個(gè)問題就是命名實(shí)體識(shí)別問題?!爸軡櫚l(fā)出生香港南丫島,籍貫廣東開平”,這里有很多命名實(shí)體(見圖11)。命名實(shí)體就是指人名、地名、組織機(jī)構(gòu)名、產(chǎn)品名和時(shí)間等;還有很多專有名詞,我們也叫做命名實(shí)體。比如,昆蟲的名字在生物學(xué)界就是很難解決的問題。據(jù)說在英文里,昆蟲的種類大概有幾百萬種,如為每一只昆蟲命名是很難的問題。如圖10所示就出現(xiàn)了非常多的命名實(shí)體。

圖11 命名實(shí)體示例

要解決第二個(gè)問題,怎樣能夠把命名實(shí)體識(shí)別出來。

命名實(shí)體識(shí)別方法有兩種:

第一,規(guī)則系統(tǒng);第二,基于機(jī)器學(xué)習(xí)的學(xué)習(xí)系統(tǒng)。

研究難點(diǎn)包括三個(gè)方面:

第一,新領(lǐng)域舊實(shí)體類別識(shí)別。在新的領(lǐng)域里面,實(shí)體沒有變過,但是領(lǐng)域發(fā)生變化;第二,新實(shí)體新類別,以前沒有這個(gè)類別,現(xiàn)在出現(xiàn)新的類別怎么樣定義、發(fā)現(xiàn)出來;第三,方法,這是目前研究的熱點(diǎn)和難點(diǎn)。

句法分析

有了分詞、命名實(shí)體,下一步要做的就是句法分析。句法分析要研究的問題就是,從結(jié)構(gòu)的角度,這些詞為什么能夠組成一個(gè)句子?就是說,在這個(gè)句子內(nèi)部,這些詞到底有什么關(guān)系?這里以依存句法分析為例(見圖12)。輸入是一個(gè)句子的詞系列,輸出的是依存關(guān)系句法樹。這些對(duì)應(yīng)關(guān)系我們能夠知道的,或者以前學(xué)過的,比如主、謂、賓、定、狀、補(bǔ)。這是目前在學(xué)術(shù)界或者工業(yè)界常用的句法樹庫,第一個(gè)是格位語法;第二個(gè)是短語結(jié)構(gòu)文法;第三個(gè)是依存語法。

圖12 依存句法分析示例

表1所示的這些句法樹之間,由于不同的人后面有不同的學(xué)術(shù)背景和認(rèn)知背景,都是不完全兼容的。

表1句法樹庫

句法分析方法有兩種:

第一,圖的方法;

第二是轉(zhuǎn)移方法。

從全圖里,怎樣能找到子圖?;谵D(zhuǎn)移的方法是狀態(tài)的轉(zhuǎn)移,每個(gè)狀態(tài)代表了N個(gè)結(jié)構(gòu)里的公共部分。狀態(tài)的方法叫做移進(jìn)規(guī)約的方法。這是句法分析的性能,從圖13可以看到性能進(jìn)步非???,尤其在2016和2017年。2016年Google提出了基于深度學(xué)習(xí)的轉(zhuǎn)移句法分析方法,2017年斯坦福提出了基于深度學(xué)習(xí)的圖分析方法, 所以目前有近10%的性能進(jìn)步。英文比中文性能高8%~10%;英文句法分析如果在學(xué)術(shù)界里標(biāo)準(zhǔn)測(cè)試題達(dá)到90%~95%,中文86%的水平。

圖13 句法分析性能

句法分析的難點(diǎn)有兩個(gè):

第一,處理網(wǎng)絡(luò)文本時(shí)準(zhǔn)確率急劇下降5%~10%,我們和企業(yè)合作時(shí)也發(fā)現(xiàn)了這個(gè)問題。不僅句法分析有這個(gè)問題,同樣分詞也有這樣的問題,分詞可以下降到20%。

第二,語義知識(shí)和外部知識(shí)的利用。

研究熱點(diǎn)包括兩部分:

第一,資源構(gòu)建,局部標(biāo)注的主動(dòng)學(xué)習(xí)和樹庫轉(zhuǎn)換。樹庫標(biāo)準(zhǔn)、規(guī)范不一樣,而且要在企業(yè)標(biāo)新的樹庫出來,怎樣把樹庫轉(zhuǎn)換成標(biāo)準(zhǔn)格式,從而能充分利用起來?

第二,知識(shí)驅(qū)動(dòng)的句法分析。

到目前為止分享了分詞、命名實(shí)體,還有句法分析。下一步進(jìn)入語義分析,輸入是自然語言的句子,輸出是自然語言句子含義的結(jié)構(gòu)化和機(jī)器可讀的表示。語義不像句法,句法有標(biāo)準(zhǔn)的表達(dá)形式,在語義層面還沒有形成一個(gè)大家公認(rèn)的、可計(jì)算的、深層次的、能夠在計(jì)算機(jī)里面可用的,在學(xué)術(shù)界得到充分認(rèn)可的表達(dá)。不同的應(yīng)用語義表達(dá)方法也不一樣,分析方法也不一樣。

語義表達(dá)有三種:

第一,淺層語義分析,回答誰做了什么,什么時(shí)候做的,為什么這么做,怎么做的。

第二,邏輯語義分析,是基于邏輯表達(dá)式的分析。

第三,抽象語義表示是南加州大學(xué)提出的ARM。

方法分三種:

第一,基于同步上下文無關(guān)文法。

第二,基于組合范疇語法。

第三,在上述兩種方法加了神經(jīng)網(wǎng)絡(luò)的,基于神經(jīng)網(wǎng)絡(luò)序列到序列方法。

語義分析性能以ARM為例子,1-10個(gè)詞率達(dá)到75%,這是稍微簡(jiǎn)單一點(diǎn)的;如果句子長一些,30、40、50個(gè)詞,性能則急劇下降。這是目前語義分析的性能現(xiàn)狀。

篇章分析

到目前為止我們討論了分詞、實(shí)體、句法、語義,下面看一下篇章的分析。篇章是什么?“比爾來自美國,今天交通非常擁擠。長江貫穿中國多個(gè)省市。因此,自然語言處理是計(jì)算機(jī)科學(xué)與語言學(xué)的融合?!弊x完這句話以后,發(fā)現(xiàn)每句話都沒錯(cuò),拿出其中任何一句話都覺得是有意義的,但是放在一起,覺得這個(gè)人語無倫次了,邏輯有問題。第二句話,“這里交通非常擁擠,張先生早上6:40之前就得出發(fā)。常常會(huì)提前半個(gè)小時(shí)到辦公室;如果稍晚一點(diǎn),他很可能會(huì)遲到?!蓖瑯右痪湓挘谝痪湓挶鹊诙湓捴v得還冠冕堂皇,好像文風(fēng)更好,但是第一句話表達(dá)不出任何意思,第二句話就表達(dá)了完整的意義。篇章是做什么?為什么三個(gè)句子、四個(gè)句能夠按照一定順序講,為什么不顛倒過來?這些句子到底有什么關(guān)系?篇章就是解決這些問題的。人在理解自然語言時(shí)是以篇章為單位,不能斷章取義就是這個(gè)意思。

這是學(xué)術(shù)界老前輩宋柔老先生的例子,《圍城》里有一句話:“高松年發(fā)奮辦公,夙夜匪懈,精明得真是睡覺還睜著眼睛,戴著眼睛,做夢(mèng)都不含糊的。搖籃也挑選得很好,在平成縣鄉(xiāng)下一個(gè)本地財(cái)主家的花園里,面溪背山。” 一個(gè)逗號(hào)到底,中間有一個(gè)句號(hào)。讀完雖然有點(diǎn)繞口,基本上能明白它意思。但是這些句子和句子的關(guān)系非常復(fù)雜,它們到底有什么關(guān)系?“帶著眼鏡和睜著眼睛”之間有并列關(guān)系,從計(jì)算機(jī)角度一定要明確;“做夢(mèng)都不含糊”,做夢(mèng)和睡覺也是并列關(guān)系。。

看另外一個(gè)例子。“如果你不出面干預(yù),他即使把設(shè)備賣了,也沒人組織得了他?!边@里隱含什么關(guān)系?轉(zhuǎn)折關(guān)系、因果關(guān)系或者假設(shè)關(guān)系。這些關(guān)系如果分析不清楚,自然語言處理應(yīng)用,比如理解、問答、對(duì)話都做不了。

篇章分析到底要做什么?其實(shí)就是要解決兩個(gè)問題,一個(gè)是篇章結(jié)構(gòu);還有一個(gè)是篇章特征。篇章結(jié)構(gòu)包括剛才看到的邏輯語義結(jié)構(gòu)、話題結(jié)構(gòu)、指代結(jié)構(gòu)、功能結(jié)構(gòu)和事件結(jié)構(gòu)等。除了功能結(jié)構(gòu)之外,其他幾個(gè)結(jié)構(gòu)目前在自然語言處理都有所研究(都是非常難的問題)。篇章的基本特征包括銜接性、連貫性、意圖性、可接受性、信息性、情景性和跨篇章性七個(gè),目前學(xué)術(shù)界研究最多的還是銜接性和連貫性。銜接性指的是你在一段話或在一篇文章里講這個(gè)詞時(shí),主題基本上都會(huì)用一個(gè)詞、用同樣的詞,不會(huì)跳來跳去,不會(huì)發(fā)生很大變化,這就叫做詞匯鏈的概念。連貫性指的是結(jié)構(gòu)。

篇章分析語言學(xué)理論有中心理論、脈絡(luò)理論、篇章表示理論等,我們統(tǒng)稱叫做修辭結(jié)構(gòu)理論(RST)。RST對(duì)從事計(jì)算機(jī)語言的人影響非常大。目前最大的中英文篇章標(biāo)注樹庫基本上都是基于RST,在它的基礎(chǔ)上進(jìn)行小幅度改進(jìn)所標(biāo)注。這些篇章分析的庫,我們叫做篇章樹庫。

篇章分析的目標(biāo)就是分析篇章所蘊(yùn)含的各種結(jié)構(gòu),以及構(gòu)成單元之間的各種語義關(guān)系。其任務(wù):

第一,識(shí)別篇章基本單元;

第二,識(shí)別這些單元之間的篇章關(guān)系。

篇章分析有三種方法:

第一種是線性;

第二種是組塊方法;

第三種是樹結(jié)構(gòu)方法。

篇章里一直在講修辭結(jié)構(gòu),到底有什么用?

第一個(gè)修辭結(jié)構(gòu)?!皬埲?0出頭,既沒有什么學(xué)歷,又沒有多少新的工作經(jīng)驗(yàn),但是不論干什么,他都非常認(rèn)真,所以處長總是把一些重要的任務(wù)交給他?!边@句話跳來跳去。問的問題是,為什么處長總把一些重要任務(wù)交給他?如果篇章分析做不好,這個(gè)問題沒法回答,只有在篇章分析基礎(chǔ)上,我們回答,最終原因是,他不論干什么,都非常認(rèn)真,所以處長才把任務(wù)交給他。

第二個(gè)話題結(jié)構(gòu)?!拔易蛱焐辖挚匆娨粋€(gè)人,長得很魁梧,穿著軍大衣,買了兩斤肉?!边@句話比較通俗。問題是誰買了兩斤肉?無外乎就是兩個(gè)答案,一個(gè)是我;一個(gè)是看見的那個(gè)人。如果篇章分析不出來,完全給不出答案,所以篇章非常重要。

自然語言生成

分詞、命名實(shí)體為代表的詞法、句法、語義、篇章這是分析和理解層次,它們是自然語言處理或者自然語言理解必須要解決、要做的事情,這是最核心的科學(xué)問題;此外還有生成。

自然語言生成和分析比起來,研究差得很多。

造成這種情況的原因無外乎兩點(diǎn):

第一,生成是基于分析的,如果分析做不好,生成也很難做好;

第二,以前產(chǎn)業(yè)界對(duì)生成沒有很大的需求,尤其是近三年或者近五年,隨著人機(jī)對(duì)話、問答,對(duì)生成的要求越來越高。

2000—2005年在國際會(huì)議上舉辦一個(gè)自然語言生成的比賽沒有人參加,但現(xiàn)在自然語言生成變得尤其重要。一個(gè)系統(tǒng)要做人機(jī)交互,要把自己的想法用自然語言表達(dá)出來,表達(dá)得好壞直接決定用戶體驗(yàn),生成就變得非常有用。自然語言生成有基于規(guī)則方法、基于知識(shí)庫檢索方法和基于深度學(xué)習(xí)的方法。

到此為止,對(duì)自然語言處理方法介紹了詞法、句法、語義和篇章,在生成這個(gè)層次介紹了生成的所采用的不同的方法。

3.

自然語言處理應(yīng)用

自然語言處理應(yīng)用包括兩方面,第一方面是自然語言處理本身應(yīng)用;第二方面是自然語言處理+行業(yè)。下面介紹幾個(gè)代表性的自然語言處理應(yīng)用。

情緒和情感分析

情感和情緒不同。

情感分析主要對(duì)產(chǎn)品評(píng)論和新聞文本表達(dá)的意見、情感、情緒、主客觀性、評(píng)價(jià)等方面的研究。情感分析在工業(yè)界和學(xué)術(shù)界已經(jīng)有著廣泛的應(yīng)用,比如輿情監(jiān)測(cè),我國做得非常好;還有企業(yè)征信、聊天服務(wù)機(jī)器人等做得也好。情感包括正面、負(fù)面和中性三個(gè)方面。如圖14所示,“這部電影情節(jié)還不錯(cuò),我很喜歡,但是這家影院的3D效果太爛,以后不會(huì)再來了?!比绻诰渥訉用?,這個(gè)層面是正面;句子二是負(fù)面;既有正面也有負(fù)面,綜合評(píng)價(jià)是負(fù)面,他不會(huì)再來。

圖14 情感分析示例

情感非常重要。學(xué)術(shù)界一般做情感分析都是做一個(gè)句子或者一篇文章,在我們和某電商公司合作之后,發(fā)現(xiàn)了很多在學(xué)術(shù)界所看不到的問題。在電商領(lǐng)域有很多用戶,用戶和用戶之間、用戶和客服之間進(jìn)行交流,產(chǎn)生了很多新的科學(xué)問題和應(yīng)用場(chǎng)景,比如基于問答的情感分析,以及基于單產(chǎn)品、單一問答多用戶的情感分析。這些問題都是在實(shí)際中電商公司必須解決的,都是學(xué)術(shù)界沒有意識(shí)到的問題,沒有數(shù)據(jù),沒有要求,也沒有科學(xué)問題的驅(qū)動(dòng),但是企業(yè)界有這樣需求,一歸納就發(fā)現(xiàn)了很多的科學(xué)問題和實(shí)際應(yīng)用。

情緒就是喜怒哀驚,難過、新奇、憤怒等。比如,“今天學(xué)發(fā)了國家獎(jiǎng)學(xué)金太開心了。明天就去買個(gè)LV包包?!边@個(gè)情緒第一個(gè)是太開心;,第二個(gè)產(chǎn)生的結(jié)果就是買個(gè)LV包包,這就是情緒分析。模型從機(jī)器角度來講,各個(gè)方法都有。問題驅(qū)動(dòng)是做自然語言處理更感興趣的,那就是情感和情緒分析到底要哪些解決問題。然后分析完之后又挨個(gè)做一遍。

問答系統(tǒng)

自然語言處理應(yīng)用,第一個(gè)就是情感和情緒;第二個(gè)是問答。問答也非常有意思,問答輸入自然語言句子,輸出是精準(zhǔn)答案。但是很多情況下給不出一個(gè)精準(zhǔn)答案,很多答案是主觀的,或者很多答案你認(rèn)為正確,但是不敢說、不能說。問答任務(wù)分為社區(qū)問答、基于知識(shí)的問答、垂直領(lǐng)域問答、開放領(lǐng)域問答、閱讀理解等。

問答的分類也有很多種。事實(shí)類,2018中國人工智能大會(huì)在哪里召開?深圳。描述性問答,這款新發(fā)布的手機(jī)有什么特點(diǎn)?過程性問答,護(hù)照怎么申請(qǐng)辦理?需要計(jì)算的問答,飛巴黎和飛洛杉磯最短的時(shí)間差多少?這相對(duì)難一些,要找到飛巴黎和飛洛杉磯的時(shí)間,然后互相減掉。很多小學(xué)應(yīng)用題里蘊(yùn)含很多對(duì)自然語言處理很難,以及很多推理、常識(shí)性又是可計(jì)算性的東西。推理因果關(guān)系,為什么中國會(huì)發(fā)生疫苗事件?這個(gè)答案不唯一,政府發(fā)言人是一個(gè),敵對(duì)勢(shì)力是一個(gè),受害小孩家長也是一個(gè),憤青是一個(gè)。觀點(diǎn)性問答,你對(duì)疫苗事件和中美貿(mào)易戰(zhàn)有何看法?二者有關(guān)系嗎?如果讓小冰回答,小冰估計(jì)會(huì)說“跟我沒關(guān)系,我不告訴你”,這也是一種回答。

問答分類分析和理解分為一階和二階,一階比較簡(jiǎn)單,比如喜馬拉雅山有多高?二階問答,比如《紅樓夢(mèng)》作者還寫過哪些書?還有更復(fù)雜的,經(jīng)常用的例子,謝霆峰前妻的什么之類,繞了很多圈最后又繞到謝霆峰這里,推理得非常翔實(shí)。這也是一階、二階邏輯。第二就是要做好問題分類、分析和理解,要做好答案的匹配和檢索。第三個(gè)是答案生成。要看問題是什么,歸歸類,作者意圖是什么。答案匹配和檢索,既然把問題分好了,總要找到答案,無論是知識(shí)庫、社區(qū)還是互聯(lián)網(wǎng)要匹配和檢索出來。答案生成可能涉及到推理、涉及到知識(shí)圖譜、組合、指代等很多東西,一個(gè)問答系統(tǒng)需要做好這三個(gè)模塊。

問答發(fā)展歷史和人工智能歷史是一樣的?,F(xiàn)在測(cè)試人工智能要進(jìn)行圖靈測(cè)試,這就是一個(gè)問答系統(tǒng);后面有TREC、IBM沃森、社區(qū)問答、看圖說話等。

問答有四個(gè)難點(diǎn):

第一,多源異構(gòu)大數(shù)據(jù)背景下開放域問答瓶頸;

第二,語義理解問題;

第三,知識(shí)庫與知識(shí)圖譜問題;

第四,多模態(tài)場(chǎng)景下的問答(就是常說的看圖說話)。

研究方法:

第一,針對(duì)多源異構(gòu)大數(shù)據(jù)以前用IR方法,目前就是IR+閱讀理解的方法。

第二,深度理解主要抽取的方法,現(xiàn)在抽取+生成的方法。生成是問答非常重要的一環(huán),目前生成式問答已經(jīng)成為主流。

第三,知識(shí)圖譜以后專門介紹。

第四,多模態(tài)場(chǎng)景下的問答,最有趣的地方是要把語言學(xué)用的模型和圖像處理模型在一個(gè)框架下統(tǒng)一起來;也就是說,要跨媒體、跨模態(tài)的特征共享、獨(dú)立和抗依賴。

問答系統(tǒng)有什么樣的應(yīng)用?圖15是在網(wǎng)上找到人工智能行業(yè)圖譜,發(fā)現(xiàn)每個(gè)領(lǐng)域只要涉及人機(jī)交互都可以用到問答。

圖15 人工智能行業(yè)圖譜

對(duì)話系統(tǒng)

對(duì)話系統(tǒng)不像問答系統(tǒng)這么單純,一個(gè)是開放域?qū)υ捪到y(tǒng);一個(gè)是封閉域?qū)υ捪到y(tǒng),或者面向任務(wù)驅(qū)動(dòng)的對(duì)話系統(tǒng)。比如銀行、客服、旅游就是封閉域?qū)υ捪到y(tǒng)。開放就是隨便問、隨便答。開放域?qū)υ捪到y(tǒng)分兩種,一種是閑聊;一種是解決問題。對(duì)話系統(tǒng)是綜合性問題,主要涉及語言識(shí)別、語言理解、狀態(tài)跟蹤、自然語言生成和語音合成。

知識(shí)圖譜

圖16所示的是我們和某電商公司做的一個(gè)計(jì)劃,叫做藏經(jīng)閣計(jì)劃,是在國內(nèi)幾所科研機(jī)構(gòu)、大學(xué)在某電商公司支持下共同打造的。

圖16 藏經(jīng)閣計(jì)劃(知識(shí)圖譜)

第一個(gè)圖譜知識(shí)建模,就是人工智能內(nèi)涵里很重要的部分知識(shí)工程。知識(shí)工程一個(gè)非常核心的部分叫做知識(shí)建模。如果問你,什么叫知識(shí)?大家回答不出來。經(jīng)常說,你有知識(shí)沒文化;有知識(shí)沒能力,你是一個(gè)書呆子。知識(shí)建模就是要解決這些問題。我們每天都在講這些東西,怎么能用計(jì)算機(jī)表達(dá)出來?是用圖的表達(dá)還是用樹的表達(dá)?屬性是什么?這就是知識(shí)建模。有了建模之后,要進(jìn)行圖譜的構(gòu)建。圖譜包括很多,目前先講的都是實(shí)體之間的關(guān)系,再講實(shí)體的屬性。圖譜非常多,不僅有屬性。比如,某搜索公司做用戶意圖圖譜,某電商公司做用戶購買力圖譜,還可以做事件圖譜。有了知識(shí)建模,有了知識(shí)圖譜構(gòu)建之外,下面要做的就是知識(shí)的融合。有各種各樣的圖譜,有各種各樣的知識(shí);化學(xué)第一章學(xué)的是有機(jī)化學(xué),下一章是無機(jī)化學(xué),怎么樣把知識(shí)融合起來?這就是知識(shí)融合解決的問題。還有知識(shí)推理和計(jì)算。有了知識(shí)和圖譜這些靜態(tài)的東西,如果利用起來,必須要有推理、要有計(jì)算的過程;有了推理和計(jì)算之后要賦能,人很會(huì)造詞。以前對(duì)賦能這個(gè)詞很反感,聽時(shí)間長了,慢慢也接受了。因?yàn)橛⑽牟皇悄愕哪刚Z,沒有文化認(rèn)同感,沒有主人感,如果有一個(gè)新詞就會(huì)很容易接受;但是中文出了一個(gè)新詞,會(huì)思考這樣有沒有道理。

信息抽取

信息抽取做了幾件事情,第一,命名實(shí)體;第二個(gè)叫做mention,是指代的意思;還有關(guān)系,比如北大和清華有什么關(guān)系;還有事件的關(guān)系,比如講破案過程,肯定是先發(fā)生案件,然后被人發(fā)現(xiàn)了,警察去了開始搜集線索,最后破案了,這就是事件的關(guān)系。

舉個(gè)例子,什么叫信息抽取?圖17所示的這段話很長,看起來是不是很費(fèi)力氣?如果用圖18所示的表格表示則非常簡(jiǎn)單,一看就明白了。信息抽取要做什么?信息抽取基本的任務(wù)就是要把那段話變成這種結(jié)構(gòu)化的表達(dá);也就是說,信息抽取就是要把非結(jié)構(gòu)化數(shù)據(jù)、自然語言數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù),或者非結(jié)構(gòu)化、或者半結(jié)構(gòu)化數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù)。

圖17 非結(jié)構(gòu)化數(shù)據(jù)

圖18 結(jié)構(gòu)化數(shù)據(jù) (信息抽取的結(jié)果)

機(jī)器翻譯

機(jī)器翻譯有基于詞典的方法、基于規(guī)則轉(zhuǎn)換的方法、基于中間語言的方法、基于實(shí)例的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。舉個(gè)例子看看機(jī)器怎樣做機(jī)器翻譯(見圖19),輸入是“我們必須與友邦建立一種關(guān)系”。這個(gè)短語可以隨便劃分,我們必須與友邦建立關(guān)系。第二步是做短語翻譯,第一步先做短語切分,再做短語的翻譯;第三步做短語的轉(zhuǎn)化,翻譯結(jié)果就出來了。這是短語結(jié)構(gòu)的機(jī)器翻譯,非常簡(jiǎn)單。

圖19 短語結(jié)構(gòu)的機(jī)器翻譯

目前用的神經(jīng)網(wǎng)絡(luò)方法也非常簡(jiǎn)單(圖20)。首先把句子進(jìn)行切分,然后從左向右掃描一遍,再從右向左掃描一遍,掃描過程用的循環(huán)神經(jīng)網(wǎng)絡(luò)。掃描后這個(gè)句子形成一個(gè)向量,有了向量就產(chǎn)生了目標(biāo)源的詞,從左向右一個(gè)個(gè)產(chǎn)生。產(chǎn)生詞時(shí)要用到兩個(gè)條件,一個(gè)是狀態(tài)序列;另一個(gè)就是當(dāng)前詞和源語言每個(gè)詞的attention。神經(jīng)網(wǎng)絡(luò)方法比短語方法更簡(jiǎn)單,先是從左向右,然后是從右向左兩邊掃描,這是編碼過程;然后是從左向右解碼。

圖20 神經(jīng)網(wǎng)絡(luò)方法的機(jī)器翻譯

目前最新進(jìn)展是Google提出的Transformer方法,在大規(guī)模語料上比之前SMT提高了10個(gè)點(diǎn)。Transformer只需要一個(gè)叫做attention的東西,第一詞本身;第二詞的位置;第三個(gè)是詞與詞之間的attention進(jìn)行編碼。

機(jī)器翻譯的挑戰(zhàn):第一是知識(shí)建模和翻譯引擎,從句法到語義到知識(shí),沒有知識(shí)就沒有智能。第二,廣度和深度,廣度就是篇章,深度就是深度學(xué)習(xí)。第三,面向產(chǎn)業(yè)化需求,滿足國家重大需求。

上面講了自然語言處理方法和自然語言處理應(yīng)用,最后的自然語言處理+行業(yè),從目前的發(fā)展來看,自然語言處理在各行各業(yè)有非常大的需求。

4.

AI時(shí)代自然語言處理

AI時(shí)代自然語言處理有什么特點(diǎn)?第一非常熱;第二取得巨大進(jìn)步。技術(shù)進(jìn)步和產(chǎn)業(yè)需求推動(dòng)了行業(yè)的發(fā)展。特點(diǎn)包括表示、搜索、推理和學(xué)習(xí)三個(gè)方面。學(xué)習(xí)有各種各樣的學(xué)習(xí)方法,多任務(wù)學(xué)習(xí)、對(duì)抗學(xué)習(xí)、遷移學(xué)習(xí)等,這些都是自然語言處理發(fā)生的新框架(見圖21)。

圖21 AI時(shí)代自然語言處理的特點(diǎn)

最后簡(jiǎn)單介紹蘇州大學(xué)的自然語言處理。我們目前有200多人的自然語言處理團(tuán)隊(duì),做了30年的自然語言處理研究,前面講的東西,在我們蘇州大學(xué)自然語言處理實(shí)驗(yàn)室都在做(見圖22)。

圖22 蘇州大學(xué)自然語言處理的研究

5.

總結(jié)

第一,自然語言處理發(fā)展正處于歷史的最好時(shí)期,并取得了很大進(jìn)步。最重要的原因是技術(shù)的進(jìn)步達(dá)到了產(chǎn)業(yè)需求的下限,產(chǎn)業(yè)的巨大需求反過來推動(dòng)了技術(shù)的進(jìn)步。

第二,AI時(shí)代自然語言處理發(fā)展趨勢(shì),一個(gè)是知識(shí);一個(gè)是學(xué)習(xí)。

第三,學(xué)科自身發(fā)展和邊界,要凝練自然語言處理本身的科學(xué)問題,研究框架和規(guī)范。

第四,加快產(chǎn)學(xué)研的進(jìn)一步融合。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46316

    瀏覽量

    236478
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    279

    瀏覽量

    13309

原文標(biāo)題:CCAI2018演講實(shí)錄丨張民:自然語言處理方法與應(yīng)用

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    python自然語言

    學(xué)和人工智能,但同樣受到諸如機(jī)器學(xué)習(xí),計(jì)算統(tǒng)計(jì)學(xué)和認(rèn)知科學(xué)這些相對(duì)新興的學(xué)科影響。python下面只要安裝自然語言工具包nltk,下面版主開始正式進(jìn)入學(xué)習(xí)。Natural Language
    發(fā)表于 05-02 13:50

    hanlp漢語自然語言處理入門基礎(chǔ)知識(shí)介紹

    `自然語言處理定義:自然語言處理是一門計(jì)算機(jī)科學(xué)、人工智能以及語言學(xué)的交叉學(xué)科。雖然
    發(fā)表于 01-02 14:43

    【推薦體驗(yàn)】騰訊云自然語言處理

    結(jié)構(gòu)化抽取,有效輔助人工,降低人力參與成本。因?yàn)楝F(xiàn)在騰訊云自然語言處理產(chǎn)品公測(cè)免費(fèi),所以我注冊(cè)了騰訊云賬號(hào)去專門體驗(yàn)了一下,最直觀的感受就是確實(shí)如產(chǎn)品介紹中說的:開箱即用的NLP能力,滿足各種文本
    發(fā)表于 10-09 15:28

    自然語言處理語言模型

    自然語言處理——53 語言模型(數(shù)據(jù)平滑)
    發(fā)表于 04-16 11:11

    什么是自然語言處理

    什么是自然語言處理自然語言處理任務(wù)有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理?

    領(lǐng)域,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理和其他幾個(gè)學(xué)科。首先,人工智能涉及使計(jì)算機(jī)具有自我意識(shí),利用計(jì)算機(jī)視覺、自然語言理解和模仿其他感官。其次,
    發(fā)表于 03-22 11:19

    什么是自然語言處理_自然語言處理常用方法舉例說明

    自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言
    發(fā)表于 12-28 16:56 ?1.8w次閱讀
    什么是<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>_<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>常用方法舉例說明

    解讀人工智能理解的自然語言的原理和概念

    人工智能理解自然語言的原理是什么?要有針對(duì)性地回答該問題,需先將它的議題邊界進(jìn)行明確定義。如果將該問題理解為如何利用計(jì)算機(jī)工具處理和分析自然語言,以實(shí)現(xiàn)人與計(jì)算機(jī)通過
    的頭像 發(fā)表于 08-09 14:43 ?6067次閱讀

    自然語言處理(NLP)的學(xué)習(xí)方向

    自然語言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的理論和方法。融
    的頭像 發(fā)表于 07-06 16:30 ?1.3w次閱讀

    自然語言處理是什么?有什么用?

    自然語言處理” (Natural Language Processing,簡(jiǎn)稱NLP) 是近年來科技界最熱門的詞語之一,也是當(dāng)下人工智能研究最熱門的領(lǐng)域之一。自然語言
    的頭像 發(fā)表于 02-08 16:00 ?5998次閱讀

    自然語言處理的概念和應(yīng)用 自然語言處理屬于人工智能

      自然語言處理(Natural Language Processing)是一種人工智能技術(shù),它是研究自然語言與計(jì)算機(jī)之間的交互和通信的一門學(xué)科。
    發(fā)表于 08-23 17:31 ?1209次閱讀

    自然語言處理人工智能的概念及發(fā)展史 自然語言處理人工智能的區(qū)別

    自然語言處理(Natural Language Processing, NLP)的定義是通過電腦軟件程序?qū)崿F(xiàn)人們?nèi)粘?b class='flag-5'>語言的機(jī)器自動(dòng)處理。為了幫助計(jì)算機(jī)理解,掌握
    發(fā)表于 08-23 18:22 ?775次閱讀

    自然語言處理人工智能的區(qū)別

      自然語言處理(Natural Language Processing,NLP)是人工智能(AI)中的一個(gè)分支,它利用計(jì)算機(jī)技術(shù)對(duì)自然語言進(jìn)行處理
    發(fā)表于 08-28 17:32 ?1422次閱讀

    自然語言處理屬于人工智能的哪個(gè)領(lǐng)域

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能(Artificial Intelligence,簡(jiǎn)稱AI)領(lǐng)域的一個(gè)重要分支。它涉及到計(jì)算機(jī)與人類
    的頭像 發(fā)表于 07-03 14:09 ?905次閱讀

    自然語言處理包括哪些內(nèi)容

    自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到計(jì)算機(jī)與人類語言之間的交互。NLP的目標(biāo)是讓計(jì)算機(jī)能夠理解、生成
    的頭像 發(fā)表于 07-03 14:15 ?601次閱讀