0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

張鈸院士: 邁向第三代人工智能

AI智勝未來 ? 來源:德先生 ? 2023-07-11 15:34 ? 次閱讀

人工智能(ArtificialIntelligence,簡(jiǎn)稱 AI)在 60 多年的發(fā)展歷史中,一直存在兩個(gè)相互競(jìng)爭(zhēng)的范式,即符號(hào)主義與連接主義(或稱亞符號(hào)主義)。符號(hào)主義(即第一代人工智能)到上個(gè)世紀(jì)八十年代之前一直主導(dǎo)著 AI 的發(fā)展,而連接主義(即第二代人工智能)從上個(gè)世紀(jì)九十年代逐步發(fā)展,到本世紀(jì)初進(jìn)入高潮,大有替代符號(hào)主義之勢(shì)。但是今天看來,這兩種范式只是從不同的側(cè)面模擬人類的心智 (或大腦),具有各自的片面性,不可能觸及人類真正的智能。 清華大學(xué)人工智能研究院院長(zhǎng)、中國科學(xué)院院士張鈸教授在「紀(jì)念《中國科學(xué)》創(chuàng)刊 70 周年??股习l(fā)表署名文章,首次全面闡述第三代人工智能的理念,提出第三代人工智能的發(fā)展路徑是融合第一代的知識(shí)驅(qū)動(dòng)和第二代的數(shù)據(jù)驅(qū)動(dòng)的人工智能, 同時(shí)利用知識(shí)、數(shù)據(jù)、算法和算力等 4 個(gè)要素, 建立新的可解釋和魯棒的 AI 理論與方法,發(fā)展安全、可信、可靠和可擴(kuò)展的 AI 技術(shù),這是發(fā)展 AI 的必經(jīng)之路。 自 2018 年成立以來,清華大學(xué)人工智能研究院本著「一個(gè)核心、兩個(gè)融合」的發(fā)展戰(zhàn)略,大力推動(dòng)人工智能的基礎(chǔ)理論和基本方法的源頭性和顛覆性創(chuàng)新,在人工智能基礎(chǔ)理論、關(guān)鍵技術(shù)和產(chǎn)學(xué)研合作等諸方面取得了創(chuàng)新成果。人工智能的序幕剛剛拉開,正劇正在上演。基礎(chǔ)研究是科技創(chuàng)新的源頭,尤其在當(dāng)前復(fù)雜多變的國際環(huán)境下,更需要提升我國的原始創(chuàng)新能力,久久為功,努力實(shí)現(xiàn)人工智能領(lǐng)域更多「從 0 到 1」的突破。 以下全文刊載張鈸院士的文章《邁向第三代人工智能》。

1.第一代人工智能

人類的智能行為是怎么產(chǎn)生的, 紐威爾 (A.Newell)、西蒙 (H.A.Simon) 等 提出以下模擬人類大腦的符號(hào)模型, 即物理符號(hào)系統(tǒng)假設(shè)。這種系統(tǒng)包括: (1) 一組任意的符號(hào)集, 一組操作符號(hào)的規(guī)則集; (2) 這些操作是純語法(syntax)的,即只涉及符號(hào)的形式不涉及語義,操作的內(nèi)容包括符號(hào)的組合和重組; (3)這些語法具有系統(tǒng)性的語義解釋,即它所指向的對(duì)象和所描述的事態(tài)。 1955 年麥卡錫 (J.McCarthy) 和明斯基 (M.L.Minsky) 等學(xué)者,在達(dá)特茅斯人工智能夏季研究項(xiàng)目 (the Dartmouth Summer Research Projecton ArtificialIntelligence) 的建議中, 明確提出符號(hào) AI(artificialintelligence) 的基本思路:「人類思維的很大一部分是按照推理和猜想規(guī)則對(duì)‘詞’(words)進(jìn)行操作所組成的」。根據(jù)這一思路,他們提出了基于知識(shí)與經(jīng)驗(yàn)的推理模型,因此我們又把符號(hào) AI 稱為知識(shí)驅(qū)動(dòng)方法。 符號(hào) AI 的開創(chuàng)者最初把注意力放在研究推理(搜索)的通用方法上,如「手段–目的分析」(meanendanalysis)、「分而治之」(divideandconquer)、「試錯(cuò)」(trialanderror)法等,試圖通過通用的方法解決范圍廣泛的現(xiàn)實(shí)問題。由于通用方法是一種弱方法,實(shí)際上只能解決「玩具世界」中的簡(jiǎn)單問題,如機(jī)器人擺放積木,下簡(jiǎn)單的井字棋(tic-tac-toe)等,與解決復(fù)雜現(xiàn)實(shí)問題相差很遠(yuǎn)。尋求通用 AI 的努力遭到了失敗,符號(hào) AI 于 20 世紀(jì) 70 年代初跌入低谷。
幸運(yùn)的是,斯坦福大學(xué)教授費(fèi)根堡姆(E. A. Feigenbaum)等及時(shí)改變了思路,認(rèn)為知識(shí),特別是特定領(lǐng)域的知識(shí)才是人類智能的基礎(chǔ),提出知識(shí)工程(knowledgeengineering)與專家系統(tǒng)(expertsystems)等一系列強(qiáng) AI 方法,給符號(hào) AI 帶來了希望。他們開發(fā)了專家系統(tǒng) DENDRAL(有機(jī)化學(xué)結(jié)構(gòu)分析系統(tǒng),1965~1975),隨后其他學(xué)者相繼開發(fā)了 MYCIN(血液傳染病診斷和抗菌素處方,1971~1977),XCON(計(jì)算機(jī)硬件組合系統(tǒng))等。不過早期的專家系統(tǒng)規(guī)模都較小,難以實(shí)用。 直到 1997 年 5 月 IBM 的深藍(lán)(deepblue)國際象棋程序打敗世界冠軍卡斯帕諾夫(Kasparov),符號(hào) AI 才真正解決大規(guī)模復(fù)雜系統(tǒng)的開發(fā)問題。費(fèi)根堡姆和雷蒂(R. Raddy)作為設(shè)計(jì)與構(gòu)造大型人工智能系統(tǒng)的先驅(qū),共同獲得 1994 年 ACM 圖靈獎(jiǎng)。 符號(hào) AI 同樣可以應(yīng)用于機(jī)器學(xué)習(xí),把「機(jī)器學(xué)習(xí)」看成是基于知識(shí)的(歸納)推理。下面以歸納邏輯編程(inductivelogicprogramming,ILP)為例說明符號(hào) AI 的學(xué)習(xí)機(jī)制。在 ILP 中正負(fù)樣本(具體示例)、背景知識(shí)和學(xué)習(xí)結(jié)果(假設(shè))都以一階邏輯子句(程序)形式表示。學(xué)習(xí)過程是在假設(shè)空間中尋找一個(gè)假設(shè),這個(gè)假設(shè)應(yīng)盡可能多地包含正例,盡量不包含負(fù)例,而且要與背景知識(shí)一致。一般情況下假設(shè)空間很大,學(xué)習(xí)十分困難,不過有了背景知識(shí)之后,就可以極大地限制假設(shè)空間,使學(xué)習(xí)變成可行。顯然,背景知識(shí)越多,學(xué)習(xí)速度越快,效果也越好。 為解決不確定問題,近年來,發(fā)展了概率歸納邏輯編程方法(probabilisticinductivelogicprogramming,PILP)。基于知識(shí)的學(xué)習(xí),由于有背景知識(shí),可以實(shí)現(xiàn)小樣本學(xué)習(xí),而且也很容易推廣到不同的領(lǐng)域,學(xué)習(xí)的魯棒性也很強(qiáng)。以遷移學(xué)習(xí)(transferlearning)為例,可以將學(xué)習(xí)得到的模型從一種場(chǎng)景更新或者遷移到另一場(chǎng)景,實(shí)現(xiàn)跨領(lǐng)域和跨任務(wù)的推廣。 具體做法如下,首先,從學(xué)習(xí)訓(xùn)練的環(huán)境(包括訓(xùn)練數(shù)據(jù)與方法)出發(fā),發(fā)現(xiàn)哪些(即具有某種通用性)知識(shí)可以跨域或者跨任務(wù)進(jìn)行遷移,哪些只是針對(duì)單個(gè)域或單個(gè)任務(wù)的特定知識(shí),并利用通用知識(shí)幫助提升目標(biāo)域或目標(biāo)任務(wù)的性能。這些通用知識(shí)主要通過以下 4 種渠道遷移到目標(biāo)域中去,即源域中可利用的實(shí)例,源域和目標(biāo)域中可共享的特征,源域模型可利用的部分,源域中實(shí)體之間的特定規(guī)則。可見,知識(shí)在遷移學(xué)習(xí)中起關(guān)鍵的作用,因此,符號(hào) AI 易于跨領(lǐng)域和跨任務(wù)推廣。 在創(chuàng)建符號(hào) AI 中做出重大貢獻(xiàn)的學(xué)者中,除費(fèi)根堡姆和雷蒂(1994)之外,還有明斯基(1969),麥卡錫(1971),紐威爾和西蒙(1975)共 6 位先后獲得圖靈獎(jiǎng)(括號(hào)中的數(shù)字表示獲獎(jiǎng)的年份)??傊?,第一代 AI 的成功來自于以下 3 個(gè)基本要素。以深藍(lán)程序?yàn)槔?,?1 是知識(shí)與經(jīng)驗(yàn),「深藍(lán)」從象棋大師已經(jīng)下過的 70 萬盤棋局和大量 5~6 個(gè)棋子的殘局中,總結(jié)出下棋的規(guī)則。另外,在象棋大師與深藍(lán)對(duì)弈的過程中,通過調(diào)試「評(píng)價(jià)函數(shù)」中的 6000 個(gè)參數(shù),把大師的經(jīng)驗(yàn)引進(jìn)程序。第 2 是算法,深藍(lán)采用α?β剪枝算法,有效提高搜索效率。第 3 是算力(計(jì)算能力),為了達(dá)到實(shí)時(shí)的要求,深藍(lán)使用 IBM RS/6000 SP2, 11.38 G FLOPS(浮點(diǎn)運(yùn)算 / 秒),每秒可檢查 2 億步,或 3 分鐘運(yùn)行 5 千萬盤棋局(positions)。 符號(hào) AI 有堅(jiān)實(shí)的認(rèn)知心理學(xué)基礎(chǔ),把符號(hào)系統(tǒng)作為人類高級(jí)心智活動(dòng)的模型,其優(yōu)勢(shì)是,由于符號(hào)具有可組合性(compositionality),可從簡(jiǎn)單的原子符號(hào)組合成復(fù)雜的符號(hào)串。每個(gè)符號(hào)都對(duì)應(yīng)著一定的語義,客觀上反映了語義對(duì)象的可組合性,比如,由簡(jiǎn)單部件組合成整體等,可組合性是推理的基礎(chǔ),因此符號(hào) AI 與人類理性智能一樣具有可解釋性和容易理解。符號(hào) AI 也存在明顯的局限性,目前已有的方法只能解決完全信息和結(jié)構(gòu)化環(huán)境下的確定性問題,其中最具代表性的成果是 IBM「深藍(lán)」國際象棋程序,它只是在完全信息博弈(決策)中戰(zhàn)勝人類,這是博弈中最簡(jiǎn)單的情況。而人類的認(rèn)知行為(cognitivebehavior),如決策等都是在信息不完全和非結(jié)構(gòu)化環(huán)境下完成的,符號(hào) AI 距離解決這類問題還很遠(yuǎn)。 以自然語言形式表示(離散符號(hào))的人類知識(shí),計(jì)算機(jī)難以處理,必須尋找計(jì)算機(jī)易于處理的表示形式,這就是知識(shí)表示問題。我們已有的知識(shí)表示方法,如產(chǎn)生式規(guī)則(productionrules),邏輯程序(logicprogram)等,雖然計(jì)算機(jī)易于處理(如推理等),但都較簡(jiǎn)單,表現(xiàn)能力有限,難以刻畫復(fù)雜和不確定的知識(shí),推理也只限于邏輯推理等確定性的推理方法。更加復(fù)雜的知識(shí)表示與推理形式都在探討之中,如知識(shí)圖譜(knowledgegraph)、概率推理等。符號(hào) AI 缺乏數(shù)學(xué)基礎(chǔ),除數(shù)理邏輯之外,其他數(shù)學(xué)工具很難使用,這也是符號(hào) AI 難以在計(jì)算機(jī)上高效執(zhí)行的重要原因。 基于知識(shí)驅(qū)動(dòng)的強(qiáng) AI 只能就事論事地解決特定問題,有沒有廣泛適用的弱方法,即通用 AI,目前還是一個(gè)值得探討的問題。此外,從原始數(shù)據(jù)(包括文本、圖像、語音和視頻)中獲取知識(shí)目前主要靠人工,效率很低,需要探索有效的自動(dòng)獲取方法。此外,真正的智能系統(tǒng)需要常識(shí),常識(shí)如何獲取、表達(dá)和推理還是一個(gè)有待解決的問題。常識(shí)的數(shù)量巨大,構(gòu)造一個(gè)實(shí)用的常識(shí)庫,無異于一項(xiàng) AI 的「曼哈頓工程」,費(fèi)時(shí)費(fèi)力。

2.第二代人工智能

6c4cea54-1f2b-11ee-962d-dac502259ad0.png

感官信息(視覺、聽覺和觸覺等)是如何存儲(chǔ)在記憶中并影響人類行為的? 有兩種基本觀點(diǎn),一種觀點(diǎn)是,這些信息以某種編碼的方式表示在(記憶)神經(jīng)網(wǎng)絡(luò)中,符號(hào) AI 屬于這一學(xué)派。另一種觀點(diǎn)是,感官的刺激并不存儲(chǔ)在記憶中,而是在神經(jīng)網(wǎng)絡(luò)中建立起「刺激–響應(yīng)」的連接(通道),通過這個(gè)「連接」保證智能行為的產(chǎn)生,這是連接主義的主張,連接主義 AI 就是建立在這個(gè)主張之上。 1958 年羅森布拉特(Rosenblatt)按照連接主義的思路,建立一個(gè)人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)的雛形——感知機(jī)(perceptron)。感知機(jī)的靈感來自于兩個(gè)方面,一是 1943 年麥卡洛克(McCulloch)和皮特(Pitts)提出的神經(jīng)元數(shù)學(xué)模型——「閾值邏輯」線路,它將神經(jīng)元的輸入轉(zhuǎn)換成離散值,通常稱為 M-P 模型。二是來自于 1949 年赫布(D. O. Hebb)提出的 Hebb 學(xué)習(xí)率,即「同時(shí)發(fā)放的神經(jīng)元連接在一起」。感知機(jī)如圖 1 所示。

6c6b66a0-1f2b-11ee-962d-dac502259ad0.png

其中 b 為閾值,w 為權(quán)值。 AI 的創(chuàng)建者從一開始就關(guān)注連接主義的思路。1955 年麥卡錫等在達(dá)特茅斯(Dartmouth)AI 研究建議中寫道「如何安排一組(假想的)神經(jīng)元使之形成概念 ······ 已經(jīng)獲得部分的結(jié)果,但問題是需要更多的理論工作」,并把它列為會(huì)議的研討內(nèi)容之一。由感知機(jī)組成的 ANN 只有一個(gè)隱蔽層,過于簡(jiǎn)單。明斯基等 于 1969 年出版的書《感知機(jī)》中指出,感知機(jī)只能解決線性可分問題,而且即使增加隱層的數(shù)量,由于沒有有效的學(xué)習(xí)算法,感知機(jī)也很難實(shí)用。明斯基對(duì)感知機(jī)的批評(píng)是致命的,使剛剛起步的連接主義 AI 跌入低谷達(dá) 10 多年之久。在困難的時(shí)期里,在許多學(xué)者的共同努力下,30 多年來無論在神經(jīng)網(wǎng)絡(luò)模型還是學(xué)習(xí)算法上均取得重大進(jìn)步,逐步形成了深度學(xué)習(xí)的成熟理論與技術(shù)。 其中重要的進(jìn)展有,第 1,梯度下降法(gradientdescent),這本來是一個(gè)古老的算法,法國數(shù)學(xué)家柯西(Cauchy)早在 1847 年就已經(jīng)提出; 到 1983 年俄國數(shù)學(xué)家尤里 · 涅斯捷諾夫(YuriiNesterov)做了改進(jìn),提出了加強(qiáng)版,使它更加好用。第 2,反向傳播(backpropagation,BP)算法,這是為 ANN 量身定制的,1970 年由芬蘭學(xué)生 SeppoLinnainmaa 在他的碩士論文中首先提出; 1986 年魯梅哈特(D.E.Rumelhart)和辛頓(G.Hinton)等做了系統(tǒng)的分析與肯定 ?!柑荻认陆怠购汀窧P」兩個(gè)算法為 ANN 的學(xué)習(xí)訓(xùn)練注入新的動(dòng)力,它們和「閾值邏輯」、「Hebb 學(xué)習(xí)率」一起構(gòu)成 ANN 的 4 大支柱。 除 4 大支柱之外,還有一系列重要工作,其中包括更好的損失函數(shù),如交叉熵?fù)p失函數(shù)(cross-entropycostfunction); 算法的改進(jìn),如防止過擬合的正則化方法(regularization); 新的網(wǎng)絡(luò)形式,如 1980 年日本福島邦彥(Fukushima)的卷積神經(jīng)網(wǎng)絡(luò)(convolutionneuralnetworks,CNN),遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,RNN),長(zhǎng)短程記憶神經(jīng)網(wǎng)絡(luò)(longshort-termmemoryneuralnetworks,LSTM),辛頓的深度信念網(wǎng)絡(luò)(deepbeliefnets,DBN)等。這些工作共同開啟了以深度學(xué)習(xí)(deeplearning)為基礎(chǔ)的第二代 AI 的新紀(jì)元。 第二代 AI 的學(xué)習(xí)理論有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),為了說明這個(gè)基礎(chǔ),下面舉一個(gè)簡(jiǎn)單的有監(jiān)督學(xué)習(xí)的例子,有監(jiān)督學(xué)習(xí)可以形式化為以下的函數(shù)回歸問題: 從數(shù)據(jù)庫 D 中提取樣本

6c811694-1f2b-11ee-962d-dac502259ad0.png

,對(duì)樣本所反映的輸入–輸出關(guān)系 f:X→Y 做出估計(jì),即從備選函數(shù)族(假設(shè)空間)F={fθ:X?→Y;θ∈A}中選出一個(gè)函數(shù) f^?使它平均逼近于真實(shí) f。在深度學(xué)習(xí)中這個(gè)備選函數(shù)族由深度神經(jīng)網(wǎng)絡(luò)表示:

6c9c7cb8-1f2b-11ee-962d-dac502259ad0.png

參數(shù)學(xué)習(xí)中有 3 項(xiàng)基本假設(shè)。(1)獨(dú)立性假設(shè): 損失函數(shù)和備選函數(shù)族 F(或者神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu))的選擇與數(shù)據(jù)無關(guān)。(2)大容量假設(shè): 樣本(x_i,y_i)數(shù)量巨大(n→∞)。(3)完備性假設(shè): 訓(xùn)練樣本完備且無噪聲。 如果上述假設(shè)均能滿足,f^?將隨樣本數(shù)的增加最后收斂于真實(shí)函數(shù) f。由此可見,如果擁有一定質(zhì)量的大數(shù)據(jù),由于深度神經(jīng)網(wǎng)絡(luò)的通用性(universality),它可以逼近任意的函數(shù),因此利用深度學(xué)習(xí)找到數(shù)據(jù)背后的函數(shù)具有理論的保證。這個(gè)論斷在許多實(shí)際應(yīng)用中得到了印證,比如,在標(biāo)準(zhǔn)圖像庫 ImageNet(2 萬類別,1 千 4 百萬張圖片)上的機(jī)器識(shí)別性能,2011 年誤識(shí)率高達(dá) 50%,到 2015 年微軟公司利用深度學(xué)習(xí)方法,誤識(shí)率大幅度地降到 3.57%,比人類的誤識(shí)率 5.1% 還要低。低噪聲背景下的語音識(shí)別率,2001 年之前基本上停留在 80% 左右,到了 2017 年識(shí)別率達(dá)到 95% 以上,滿足商品化的要求。 2016 年 3 月谷歌圍棋程序 AlphaGo 打敗世界冠軍李世石,是第二代 AI 巔峰之作,因?yàn)樵?2015 年之前計(jì)算機(jī)圍棋程序最高只達(dá)到業(yè)余五段!更加令人驚奇的是,這些超越人類性能成果的取得,并不需要領(lǐng)域知識(shí)的幫助,只需輸入圖像原始像素、語音原始波形和圍棋棋盤的布局(圖像)! 深度學(xué)習(xí)的成功來自于以下 3 個(gè)要素:一是數(shù)據(jù),以 AlphaGo 為例,其中 AlphaGo-Zero 通過強(qiáng)化學(xué)習(xí)自學(xué)了億級(jí)的棋局,而人類在千年的圍棋史中,下過的有效棋局只不過 3000 萬盤。二是算法,包括蒙特卡洛樹搜索(Monte-Carlotreesearch)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(reinforcementlearning) 等。三是算力,運(yùn)行 AlphaGo 的機(jī)器是由 1920 個(gè) CPU 和 280 個(gè) GPU 組成的分布系統(tǒng)。因此第二代 AI 又稱數(shù)據(jù)驅(qū)動(dòng)方法。 在創(chuàng)建第二代 AI 中做出重大貢獻(xiàn)的學(xué)者中,有以下 5 位獲得圖靈獎(jiǎng)。他們是菲麗恩特(L. G. Valiant,2010)、珀?duì)枺↗. Pearl,2011)、本杰奧(Y. Bengio,2018)、辛頓(G. Hinton,2018)、楊立昆(Y. LeCun,2018)等。 早在 2014 年,深度學(xué)習(xí)的諸多缺陷不斷地被發(fā)現(xiàn),預(yù)示著這條道路遇到了瓶頸。下面僅以基于深度學(xué)習(xí)的圖像識(shí)別的一個(gè)例子說明這個(gè)問題(材料引自本團(tuán)隊(duì)的工作)。文獻(xiàn) 表示利用基于動(dòng)量的迭代快速梯度符號(hào)法(momentumiterativefastgradientsignmethod,MI-FGSM)對(duì) Inceptionv3 深度網(wǎng)絡(luò)模型實(shí)施攻擊的結(jié)果。無噪聲的原始圖像——阿爾卑斯山(Alps),模型以 94.39% 的置信度得到正確的分類。利用 MI-FGSM 方法經(jīng) 10 次迭代之后生成攻擊噪聲,將此攻擊噪聲加進(jìn)原圖像后得到攻擊樣本。由于加入的噪聲很小,生成的攻擊樣本與原始圖幾乎沒有差異,人類無法察覺,但 Inceptionv3 模型卻以 99.99% 的置信度識(shí)別為「狗」。 深度學(xué)習(xí)為何如此脆弱,這樣容易受攻擊,被欺騙和不安全,原因只能從機(jī)器學(xué)習(xí)理論本身去尋找。機(jī)器學(xué)習(xí)的成功與否與 3 項(xiàng)假設(shè)密切相關(guān),由于觀察與測(cè)量數(shù)據(jù)的不確定性,所獲取的數(shù)據(jù)一定不完備和含有噪聲,這種情況下,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(備選函數(shù)族)的選擇極為重要,如果網(wǎng)絡(luò)過于簡(jiǎn)單,則存在欠擬合(under-fitting)風(fēng)險(xiǎn),如果網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,則出現(xiàn)過擬合(overfitting)現(xiàn)象。雖然通過各種正則化的手段,一定程度上可以降低過擬合的風(fēng)險(xiǎn),但是如果數(shù)據(jù)的質(zhì)量差,則必然會(huì)導(dǎo)致推廣能力的嚴(yán)重下降。 此外,深度學(xué)習(xí)的「黑箱」性質(zhì)是造成深度學(xué)習(xí)推廣能力差的另一個(gè)原因,以圖像識(shí)別為例,通過深度學(xué)習(xí)只能發(fā)現(xiàn)重復(fù)出現(xiàn)的局部片段(模式),很難發(fā)現(xiàn)具有語義的部件。文獻(xiàn)描述了利用深度網(wǎng)絡(luò)模型 VGG-16 對(duì)「鳥」原始圖像進(jìn)行分類,從該模型 pool5 層 147 號(hào)神經(jīng)元的響應(yīng)可以看出,該神經(jīng)元最強(qiáng)烈的響應(yīng)是「鳥」頭部的某個(gè)局部特征,機(jī)器正利用這個(gè)局部特征作為區(qū)分「鳥」的主要依據(jù),顯然它不是「鳥」的不變語義特征。因此對(duì)于語義完全不同的對(duì)抗樣本(人物、啤酒瓶和馬等),由于具有與「鳥」頭部相似的片段,VGG-16 模型 pool5 層 147 號(hào)神經(jīng)元同樣產(chǎn)生強(qiáng)烈的響應(yīng),于是機(jī)器就把這些對(duì)抗樣本錯(cuò)誤地判斷為「鳥」。

3.第三代人工智能

第一代知識(shí)驅(qū)動(dòng)的 AI,利用知識(shí)、算法和算力 3 個(gè)要素構(gòu)造 AI,第二代數(shù)據(jù)驅(qū)動(dòng)的 AI,利用數(shù)據(jù)、算法與算力 3 個(gè)要素構(gòu)造 AI。由于第一、二代 AI 只是從一個(gè)側(cè)面模擬人類的智能行為,因此存在各自的局限性。為了建立一個(gè)全面反映人類智能的 AI,需要建立魯棒與可解釋的 AI 理論與方法,發(fā)展安全、可信、可靠與可擴(kuò)展的 AI 技術(shù),即第三代 AI。其發(fā)展的思路是,把第一代的知識(shí)驅(qū)動(dòng)和第二代的數(shù)據(jù)驅(qū)動(dòng)結(jié)合起來,通過同時(shí)利用知識(shí)、數(shù)據(jù)、算法和算力等 4 個(gè)要素,構(gòu)造更強(qiáng)大的 AI。目前存在雙空間模型與單一空間模型兩個(gè)方案。

3.1 雙空間模型

6ce6578e-1f2b-11ee-962d-dac502259ad0.png

雙空間模型如圖 2 所示,它是一種類腦模型,符號(hào)空間模擬大腦的認(rèn)知行為,亞符號(hào)(向量)空間模擬大腦的感知行為。這兩層處理在大腦中是無縫融合的,如果能在計(jì)算機(jī)上實(shí)現(xiàn)這種融合,AI 就有可能達(dá)到與人類相似的智能,從根本上解決目前 AI 存在的不可解釋和魯棒性差的問題。為了實(shí)現(xiàn)這種目標(biāo),需要解決以下 3 個(gè)問題。 3.1.1 知識(shí)與推理 知識(shí) (包括常識(shí)) 與推理是理性智能的基礎(chǔ), 在第一代 AI 中, 以物理符號(hào)系統(tǒng)模擬人類的理性 智能, 取得顯著的進(jìn)展, 但無論在知識(shí)表示還是推理方法上都有大量的問題需要進(jìn)一步探討。下面以 IBMDeepQA 項(xiàng)目為例說明最近的進(jìn)展, 之所以選擇這個(gè)例子是因?yàn)榛?DeepQA 構(gòu)成的 Watson 對(duì)話系統(tǒng), 在 2011 年 2 月美國電視 「危險(xiǎn)邊緣」 智力競(jìng)賽節(jié)目中, 以壓倒優(yōu)勢(shì)戰(zhàn)勝全美冠軍 K. 詹寧斯 (KenJennings) 和 B. 拉特 (BradRutter), 表明 Watson 是一個(gè)成功的 AI 系統(tǒng)。Watson 關(guān)于知識(shí) 表示和推理方法的以下經(jīng)驗(yàn)值得借鑒: (1) 從大量非結(jié)構(gòu)化的文本自動(dòng)生成結(jié)構(gòu)化知識(shí)表示的方法, (2) 基于知識(shí)質(zhì)量的評(píng)分表示知識(shí)不確定性的方法, (3) 基于多種推理的融合實(shí)現(xiàn)不確定性推理的方法。

6d135bb2-1f2b-11ee-962d-dac502259ad0.png

Watson 系統(tǒng)將 「問答」(question-answer) 看成是基于知識(shí)的從 「問題」 到 「答案」 的推理, 為了達(dá) 到人類的答題水平, 計(jì)算機(jī)需要擁有與人類冠軍一樣甚至更多的知識(shí)。其中包括百科全書、主題詞表、 詞典、專線新聞報(bào)道、文學(xué)作品等互聯(lián)網(wǎng)上數(shù)量巨大 (相當(dāng)于 2 億頁的紙質(zhì)材料) 的文本, 這些文本是 非結(jié)構(gòu)化的, 而且質(zhì)量參差不齊, 需要把這些非結(jié)構(gòu)化的文本自動(dòng)轉(zhuǎn)換為結(jié)構(gòu)化且易于處理的表達(dá)形 式。Watson 系統(tǒng)使用的表達(dá)形式為 「擴(kuò)展語料庫」(expendedcorpus) , 它的生成步驟如下。首先給出 基線語料庫 (baselinecorpus) 判別種子文件 (seeddocuments) , 根據(jù)種子文件從網(wǎng)上收集相關(guān)文件 并 并 從中挖掘 「文本核 」(textnuggets) , 對(duì)文本核做評(píng)分 按 按照評(píng)分結(jié)果集成為最后的 「擴(kuò)展語料庫」。 除自動(dòng)生成的擴(kuò)展語料庫之外, Watson 的知識(shí)庫中還包括已有的語料庫, 如 dbPedia, WordNet, Yago 等, 以及人工編制的部分庫。Watson 采用多種推理機(jī)制 (多達(dá)百種) 將 「問題」 轉(zhuǎn)換為 「答案」(見圖 3)。先對(duì) 「問題」 做分析、分類和分解, 根據(jù)分解的結(jié)果從答案源 (語料庫) 中搜索假設(shè)與候選答 案, 經(jīng)初步過濾之后, 篩選出 100 個(gè)左右候選答案。再從證據(jù)源中收集證據(jù), 對(duì)候選答案進(jìn)行評(píng)分, 評(píng) 估過程同時(shí)考慮數(shù)據(jù)源的可靠性, 依據(jù)評(píng)分結(jié)果合成出幾種候選答案, 按照置信度大小進(jìn)行排序, 最后輸出排序后的答案。 此外,Watson 還通過 155 場(chǎng)與人類現(xiàn)場(chǎng)對(duì)決和 8000 次的實(shí)驗(yàn),學(xué)習(xí)對(duì)「問題」(自然語言)的理解。 3.1.2 感知 符號(hào)主義用符號(hào)系統(tǒng)作為人類心智的模型, 以實(shí)現(xiàn)與人類相似的推理能力。但從認(rèn)知的角度看, 二者卻有本質(zhì)上的不同, 即存在 「符號(hào)基礎(chǔ)問題」(symbolgroundingproblem)。在物理符號(hào)系統(tǒng)中, 客觀世界的 「對(duì)象」 和 「關(guān)系」 等用符號(hào)表示, 但符號(hào)本身并無語義, 我們只好人為地給它們規(guī)定語義, 也就是說是外部強(qiáng)加的 「寄生語義」(parasiticsemantics) , 機(jī)器本身并不知道。這與人類大腦中存在的 「內(nèi)在語義 」(intrinsicsemantics) 完全不同, 人類大腦中的 「內(nèi)在語義」, 特別是 「原子概念」 和 「常識(shí)」, 除極少數(shù)先天之外, 主要是通過感官 (視聽等) 或者感官與動(dòng)作的結(jié)合自我習(xí)得的, 即將感官圖符式 (iconic) 表示或反映語義不變性的分類 (categorical) 表示轉(zhuǎn)化為符號(hào)表示。這本來是深度學(xué)習(xí)要完成的任務(wù), 但很可惜, 目前深度學(xué)習(xí)的模型并不能完成這項(xiàng)使命。 因?yàn)樯疃葘W(xué)習(xí)所處理的空間是特征空間, 與語義空間差別很大, 它只能學(xué)到?jīng)]有明確語義的 「局部片段」, 這些片段不具備可組合性, 因此不 能用來作為 「物體」 的 「內(nèi)在語義」 表示。換句話講, 目前的深度學(xué)習(xí)只能做到 「感覺」(sensation) , 達(dá)不到感知 為 為達(dá)到感知的水平 , 機(jī)器必須通過自我學(xué)習(xí)獲取 「物體」 的語義部件 (semanticparts) , 如 「狗」 的腿、頭、尾等,才有可能通過這些部件的組合形成 「狗」 的不變 「內(nèi)在語義」。解決這個(gè)問題的基本思路是利用知識(shí)為引導(dǎo),將感覺的信息從向量特征空間提升到符號(hào)語義空間,如圖 2 所示。這方面已經(jīng)有不少的研究工作 ,下面以本團(tuán)隊(duì)的工作闡述這方面工作的初步進(jìn)展。 文獻(xiàn) [40] 描述如何利用一個(gè)三元生成對(duì)抗網(wǎng)絡(luò) (triplegenerativeadversarialnetworks , Triple-GAN) 提高圖像分類性能的方法。三元生成對(duì)抗網(wǎng)絡(luò)由 3 部分組成: 分類器、生成器和鑒別器,分別用于條件化圖像生成和半監(jiān)督學(xué)習(xí)中的分類。生成器在給定真實(shí)標(biāo)簽的情況下生成偽數(shù)據(jù),分類器在給定真實(shí)數(shù)據(jù)的情況下生成偽標(biāo)簽,鑒別器的作用是區(qū)分?jǐn)?shù)據(jù)標(biāo)簽對(duì)是否來自真實(shí)標(biāo)記的數(shù)據(jù)集。如果設(shè)計(jì)好合適的效用函數(shù),利用三元生成對(duì)抗網(wǎng)絡(luò),可以通過無監(jiān)督(或弱監(jiān)督)學(xué)習(xí),讓生成器(網(wǎng)絡(luò))學(xué)到樣本中「物體」的表示(即先驗(yàn)知識(shí)),同時(shí)利用這個(gè)先驗(yàn)知識(shí)改善分類器的性能。 此項(xiàng)研究表明,通過 ANN 的無監(jiān)督學(xué)習(xí)可以學(xué)到「物體」的先驗(yàn)知識(shí),這就是「物體」(符號(hào))的「內(nèi)在語義」。利用這個(gè)具有「內(nèi)在語義」的先驗(yàn)知識(shí)提高分類器的識(shí)別率,從根本上解決計(jì)算機(jī)視覺中存在的「檢測(cè)」(where)與「識(shí)別」(what)之間的矛盾,實(shí)現(xiàn)小樣本學(xué)習(xí),提高魯棒性和推廣能力。 還可以從另外的角度思考,先回到深度學(xué)習(xí)所使用的人工神經(jīng)網(wǎng)絡(luò)(圖 4),以視覺為例,它與人類的視覺神經(jīng)網(wǎng)絡(luò)相比過于簡(jiǎn)單了,既沒有反饋連接,同層之間的橫向連接和抑制連接,也沒有稀疏放電、記憶和注意等機(jī)制。如果我們能夠?qū)⑦@些機(jī)制引進(jìn) ANN,將會(huì)逐步提高計(jì)算機(jī)視覺的感知能力。由于我們對(duì)大腦視神經(jīng)網(wǎng)絡(luò)的工作原理了解得很少,目前只能沿著「腦啟發(fā)計(jì)算」(brianinspiredcomputing)的道路一步一步地往前探索。

6d3922e8-1f2b-11ee-962d-dac502259ad0.png

目前有一些試探性的工作,有些效果但都不夠顯著。下面介紹本團(tuán)隊(duì)的一項(xiàng)研究。如文獻(xiàn) 所述,將稀疏放電的原理運(yùn)用到 ANN 各層的計(jì)算中。網(wǎng)絡(luò)共 6 層,包括 Gabor 濾波和 Max 池化等,在各層的優(yōu)化計(jì)算中加上「稀疏」正則約束項(xiàng),稀疏性的要求迫使 ANN 選擇最具代表性的特征。如果用背景簡(jiǎn)單的「人類」「小汽車」「大象」和「鳥」等圖像作為訓(xùn)練樣本訓(xùn)練網(wǎng)絡(luò),那么神經(jīng)網(wǎng)絡(luò)的輸出層就會(huì)出現(xiàn)代表這些「類別」的神經(jīng)元,分別對(duì)人臉、小汽車、大象和鳥的輪廓做出響應(yīng),即提取了「整個(gè)物體」的語義信息,形成部分的「內(nèi)在語義」。 這種方法也只能提取部分的語義信息,還不能做到提取不同層面上的語義信息,如「整體」、「部件」和「子部件」等,達(dá)到符號(hào)化的水平,因此仍有許多工作有待研究。 3.1.3 強(qiáng)化學(xué)習(xí) 上面說過通過感官信息有可能學(xué)到一些基本知識(shí)(概念),不過僅僅依靠感官信息還不夠,比如「常識(shí)概念」,如「吃飯」「睡覺」等僅依靠感官難以獲取,只有通過與環(huán)境的交互,即親身經(jīng)驗(yàn)之后才能獲得,這是人類最基本的學(xué)習(xí)行為,也是通往真正 AI 的重要道路。強(qiáng)化學(xué)習(xí)(reinforcementlearning)就是用來模擬人類的這種學(xué)習(xí)行為,它通過「交互–試錯(cuò)」機(jī)制,與環(huán)境不斷進(jìn)行交互進(jìn)而學(xué)習(xí)到有效的策略,很大程度上反映了人腦做出決定的反饋系統(tǒng)運(yùn)行機(jī)理,成為當(dāng)前人工智能突破的重要方法,在視頻游戲、棋牌游戲、機(jī)器人導(dǎo)航與控制、人機(jī)交互等領(lǐng)域取得了諸多成果,并在一些任務(wù)上接近甚至超越了人類的水平。 強(qiáng)化學(xué)習(xí)通??闯墒请x散時(shí)間的隨機(jī)控制過程,即智能體與環(huán)境的交互過程。智能體從起始狀態(tài)6d7a4f8e-1f2b-11ee-962d-dac502259ad0.png出發(fā),取得起始觀察值6d973996-1f2b-11ee-962d-dac502259ad0.png,在 t 時(shí)刻,智能體根據(jù)其內(nèi)部的推理機(jī)制采取行動(dòng)6da8d048-1f2b-11ee-962d-dac502259ad0.png之后,獲得回報(bào)6dc68b06-1f2b-11ee-962d-dac502259ad0.png,并轉(zhuǎn)移到下一個(gè)狀態(tài)6de1d410-1f2b-11ee-962d-dac502259ad0.png,得到新的觀察6dfb3928-1f2b-11ee-962d-dac502259ad0.png。強(qiáng)化學(xué)習(xí)的目標(biāo)是,選擇策略π(s,a)使累計(jì)回報(bào)預(yù)期 V^π(s):S→R 最優(yōu)。如果我們考慮簡(jiǎn)單的馬爾可夫(Markov)決策過程,即后一個(gè)狀態(tài)僅取決于前一個(gè)狀態(tài),并且環(huán)境完全可觀察,即觀察值 o 等于狀態(tài)值 s,即 O=S; 并假設(shè)策略穩(wěn)定不變。如圖 5 所示。以 AlphaZero 為例,智能體不依賴人類的標(biāo)注數(shù)據(jù),僅僅通過自我博弈式的環(huán)境交互積累數(shù)據(jù),實(shí)現(xiàn)自身策略的不斷改進(jìn),最終在圍棋任務(wù)上達(dá)到了超越人類頂級(jí)大師的水平,代表強(qiáng)化學(xué)習(xí)算法的一個(gè)巨大進(jìn)步。 ? ?

6e0a643e-1f2b-11ee-962d-dac502259ad0.png

強(qiáng)化學(xué)習(xí)算法在選擇行為策略的過程中,需要考慮環(huán)境模型的不確定性和目標(biāo)的長(zhǎng)遠(yuǎn)性。具體的,通過值函數(shù)也就是未來累積獎(jiǎng)勵(lì)的期望衡量不同策略的性能,即

6e2f100e-1f2b-11ee-962d-dac502259ad0.png

其中γ∈[0,1]是折扣因子。值函數(shù)可以寫成貝爾曼方程(Bellmanequation)的形式。該方程表示了相鄰狀態(tài)之間的關(guān)系,可以利用其將決策過程劃分成多個(gè)不同的階段,其中某一階段的最優(yōu)決策問題可以利用貝爾曼方程轉(zhuǎn)化為下一階段最優(yōu)決策的子問題。 強(qiáng)化學(xué)習(xí)的核心目標(biāo)就是選擇最優(yōu)的策略,使得預(yù)期的累計(jì)獎(jiǎng)勵(lì)最大,即值函數(shù)取得最優(yōu)值

6e4dc1f2-1f2b-11ee-962d-dac502259ad0.png

需要指出的是,盡管強(qiáng)化學(xué)習(xí)在圍棋、視頻游戲等任務(wù)上獲得了極大的成功,但是這些任務(wù)從本質(zhì)上是相對(duì)「簡(jiǎn)單」的,其任務(wù)的環(huán)境是完全可觀察的、反饋是確定的、狀態(tài)主要是離散的、規(guī)則是明確的,同時(shí)可以相對(duì)比較廉價(jià)地得到大量的數(shù)據(jù),這些都是目前人工智能算法所擅長(zhǎng)的。但是在不確定性、不完全信息、數(shù)據(jù)或者知識(shí)匱乏的場(chǎng)景下,目前強(qiáng)化學(xué)習(xí)算法的性能往往會(huì)出現(xiàn)大幅度的下降,這也是目前強(qiáng)化學(xué)習(xí)所面臨的重要挑戰(zhàn)。其中的典型問題如下所述。 (1)部分觀測(cè)馬氏決策過程中強(qiáng)化學(xué)習(xí): 在真實(shí)的問題中,系統(tǒng)往往無法感知環(huán)境狀態(tài)的全部信息,因此不僅需要考慮動(dòng)作的不確定性,同時(shí)也需要考慮狀態(tài)的不確定性。這就導(dǎo)致了部分感知的強(qiáng)化學(xué)習(xí)往往不滿足馬爾可夫環(huán)境假設(shè)。盡管相關(guān)的研究者近年來進(jìn)行了大量的探索,但是部分觀測(cè)馬氏決策(partiallyobservableMarkovdecisionprocess,POMDP)仍然是強(qiáng)化學(xué)習(xí)中比較有挑戰(zhàn)的問題。 (2)領(lǐng)域知識(shí)在強(qiáng)化學(xué)習(xí)中的融合機(jī)制: 如何實(shí)現(xiàn)領(lǐng)域知識(shí)的融合在強(qiáng)化學(xué)習(xí)中同樣是重要科學(xué)問題。對(duì)提高收斂速度、降低采樣復(fù)雜度、改善模型遷移性和算法魯棒性等具有重要意義。本團(tuán)隊(duì)針對(duì)這一問題,在領(lǐng)域知識(shí)指導(dǎo)的動(dòng)作空間抽象壓縮、結(jié)構(gòu)設(shè)計(jì)等方面進(jìn)行了初步探索,但是如何實(shí)現(xiàn)領(lǐng)域知識(shí)和強(qiáng)化學(xué)習(xí)框架的高效融合仍然是亟待解決的問題。 (3)強(qiáng)化學(xué)習(xí)和博弈論的結(jié)合: 博弈論和強(qiáng)化學(xué)習(xí)的結(jié)合是近年來領(lǐng)域內(nèi)研究的熱點(diǎn)問題。二者的結(jié)合可以讓多智能體之間的競(jìng)爭(zhēng)和合作關(guān)系的建模變得更加直觀和清晰,這其中包含了多智能體之間的零和 / 非零和、完全信息 / 非完全信息等多種不同的任務(wù)類型,尤其是在對(duì)抗性的任務(wù)中更具有研究和應(yīng)用價(jià)值。本團(tuán)隊(duì)前期在這方面也進(jìn)行了探索性的研究,將智能體對(duì)環(huán)境的探索建模成智能體和環(huán)境之間的博弈過程,也是目前第一個(gè)在擴(kuò)展型博弈、參數(shù)未知的場(chǎng)景下能夠從理論上保證收斂的算法。 除此之外,強(qiáng)化學(xué)習(xí)所面臨的難題還包括仿真環(huán)境和真實(shí)環(huán)境的差異、探索和利用的矛盾、基于模型的強(qiáng)化學(xué)習(xí)算法等諸多難點(diǎn)的問題,相比于監(jiān)督學(xué)習(xí)所獲得的成功而言,強(qiáng)化學(xué)習(xí)的研究還處于相對(duì)較為初級(jí)的階段。

3.2 單一空間模型

單一空間模型是以深度學(xué)習(xí)為基礎(chǔ),將所有的處理都放在亞符號(hào)(向量)空間,這顯然是為了利用計(jì)算機(jī)的計(jì)算能力,提高處理速度。問題在于深度學(xué)習(xí)與大腦的學(xué)習(xí)機(jī)制不同,在許多方面表現(xiàn)不佳,如可解釋性和魯棒性等。關(guān)鍵是要克服深度學(xué)習(xí)所帶來的缺陷,如圖 6 所示。下面討論幾個(gè)關(guān)鍵問題。

6e641ea2-1f2b-11ee-962d-dac502259ad0.png

3.2.1 符號(hào)表示的向量化 知識(shí)通常以自然語言的離散符號(hào)形式表示,為了實(shí)現(xiàn)單一空間模型,首先要將符號(hào)表示的詞、短語、句子和篇章等轉(zhuǎn)換為向量,或者將知識(shí)圖譜轉(zhuǎn)換為向量表示。關(guān)鍵是「詞」的變換,即詞嵌入(wordembedding)。目前「詞嵌入」已有各種方法,如 Word2Vec[53]和 GloVe等。 下面介紹 Word2Vec 中采用的 Skip-gram[55]策略,用來說明詞是如何由符號(hào)轉(zhuǎn)換為向量的。

6e85658a-1f2b-11ee-962d-dac502259ad0.png

其中 w 是給定的目標(biāo)詞,c 是從其上下文中任選的一個(gè)詞,p(c|w;θ)是給定詞 w 下,詞 c 出現(xiàn)的概率。D 是從語料庫中提取的所有 w?c 對(duì),θ是模型參數(shù),式(5)進(jìn)一步參數(shù)化后,得到

6e9c61cc-1f2b-11ee-962d-dac502259ad0.png

其中

6eb40a98-1f2b-11ee-962d-dac502259ad0.png

是詞 c 和詞 w 的向量表示,C 是所有可用文本。參數(shù)6ec5eaa6-1f2b-11ee-962d-dac502259ad0.png,i=1,2,...d,共 | C|×|W|×d 個(gè)。調(diào)整這些參數(shù)使式(5)最大化,最后得到所有詞 w∈W 的向量表示

6ee36f90-1f2b-11ee-962d-dac502259ad0.png

。 這些詞向量具有以下良好的性質(zhì),即「語義相似的詞,其詞向量也很相似」(見圖 7)。變換后的詞向量之所以具有上述良好的性質(zhì),出自嵌入過程的以下假設(shè),兩個(gè)詞在上下文中同現(xiàn)的頻率越高,這兩個(gè)詞的語義越可能接近,或者越可能存在語義上的某種關(guān)聯(lián)。嵌入詞向量的這些特性,表明它帶有語義信息,因此稱嵌入空間為準(zhǔn)語義空間。式(5)是難計(jì)算的,可以采用深度神經(jīng)網(wǎng)絡(luò)等做近似計(jì)算。利用類似的嵌入法也可以把「短語」「句子」和「篇章」或者知識(shí)圖譜等轉(zhuǎn)換到具有準(zhǔn)語義的向量空間中去。

6ef55c78-1f2b-11ee-962d-dac502259ad0.png

向量形式的知識(shí)表示具有上述良好的性質(zhì),且可以與數(shù)據(jù)一樣,使用大量的數(shù)學(xué)工具,包括深度學(xué)習(xí)方法,因此被大量應(yīng)用于文本處理,如機(jī)器翻譯等,取得明顯的效果。下面以神經(jīng)機(jī)器翻譯(neuralmachinetranslation)為例予以說明。 神經(jīng)機(jī)器翻譯的基本思路是,給定源句子(比如中文)6f15dda4-1f2b-11ee-962d-dac502259ad0.png,尋找目標(biāo)句(比如英文)6f27f2dc-1f2b-11ee-962d-dac502259ad0.png。神經(jīng)翻譯的任務(wù)是,計(jì)算詞一級(jí)翻譯概率的乘積, ? ?

6f525356-1f2b-11ee-962d-dac502259ad0.png

其中θ是一組模型參數(shù),

6f6310c4-1f2b-11ee-962d-dac502259ad0.png

是部分翻譯結(jié)果。詞一級(jí)的翻譯概率可用 softmax 函數(shù) f(·)定義: 6f7b257e-1f2b-11ee-962d-dac502259ad0.png ? 其中6f945cb0-1f2b-11ee-962d-dac502259ad0.png是目標(biāo)句中第 j 個(gè)詞的向量表示,v_x 是源句子的向量表示,6fa83730-1f2b-11ee-962d-dac502259ad0.png是部分翻譯句的向量表示,y=y_j,j=1,2...,J 是要找的目標(biāo)句。 ? 神經(jīng)翻譯模型的構(gòu)造: 給定訓(xùn)練樣本為一組「源句–目標(biāo)句」對(duì)

6fc532a4-1f2b-11ee-962d-dac502259ad0.png

,模型訓(xùn)練的目標(biāo)是最大化 log 似然:

6fd71776-1f2b-11ee-962d-dac502259ad0.png

即選擇一組模型參數(shù)θ,使目標(biāo)函數(shù)最大化。利用這個(gè)模型,通過式(7)計(jì)算(翻譯)目標(biāo)句子。這種翻譯方法盡管可以得到比傳統(tǒng)方法錯(cuò)誤率還低的翻譯結(jié)果,但它具有深度學(xué)習(xí)方法的共性缺陷,如不可解釋、會(huì)發(fā)生重大錯(cuò)誤、魯棒性差等。為克服這些缺陷,需要加入知識(shí),通過先驗(yàn)知識(shí)或后驗(yàn)正則化等方式引入語言知識(shí)等。 3.2.2 深度學(xué)習(xí)方法的改進(jìn) 基于深度學(xué)習(xí)的 AI 具有不可解釋和魯棒性差等缺陷,目前有許多改進(jìn)工作。下面介紹本團(tuán)隊(duì)的一些工作。 (1)可解釋性問題。可解釋人工智能算法的研究近年來引起眾多研究人員的關(guān)注。而人類理解機(jī)器決策過程的核心難點(diǎn)是跨越數(shù)據(jù)特征空間和人類語義空間之間的鴻溝。無論是早期的以手工特征為基礎(chǔ)的算法,還是當(dāng)前以特征學(xué)習(xí)為代表的深度學(xué)習(xí),其核心思想都是將觀測(cè)樣本映射到特征空間中,進(jìn)而在特征空間進(jìn)行分析,發(fā)現(xiàn)樣本在特征空間不同區(qū)域內(nèi)的規(guī)律,從而達(dá)到算法要實(shí)現(xiàn)的任務(wù)目標(biāo)(如分類、回歸等)。與之不同的是,人類的分析和決策是利用自身的背景知識(shí),在語義空間當(dāng)中完成。但是數(shù)據(jù)特征空間和人類的語義空間在結(jié)構(gòu)和內(nèi)涵上存在顯著的區(qū)別,而可解釋人工智能的最終就是要在二者之間架起一座橋梁,進(jìn)而跨越二者之間的鴻溝。 總體而言,相關(guān)的研究主要分為(i)模型的后解釋技術(shù)(post-hocexplanation),也就是給定了人工智能的模型,通過可視化、交互技術(shù)等方式,分析給定模型的工作機(jī)理,為其決策結(jié)果尋找解釋途徑;(ii)可解釋模型,即通過發(fā)展新的網(wǎng)絡(luò)架構(gòu)、損失函數(shù)、訓(xùn)練方式等,發(fā)展具有內(nèi)在可解釋性的新型人工智能模型。從整體來說,兩類方法目前都在發(fā)展過程中,在可解釋性的研究中具有重要作用。 可視分析是人工智能算法可解釋的一種直觀的思路。既然深度學(xué)習(xí)是「黑箱」學(xué)習(xí)法,內(nèi)部的工作機(jī)理是不透明的,「不可解釋」,如果利用可視化,打開「黑箱」,一切不就清楚了嗎? 為了幫助機(jī)器學(xué)習(xí)專家更加理解卷積神經(jīng)網(wǎng)絡(luò)的工作機(jī)理,我們開發(fā)了 CNNVis 這一可視分析工具。CNNVis 旨在幫助專家更好地理解與診斷深度卷積神經(jīng)網(wǎng)絡(luò),作為一種混合可視化方法,綜合應(yīng)用了基于雙聚類技術(shù)的邊綁定方法,以及矩形布局算法、矩陣重排算法和有向無環(huán)圖布局算法等。作為可視化領(lǐng)域的首批深度學(xué)習(xí)可視分析工作,該工作在工業(yè)界和學(xué)術(shù)界都引起了廣泛關(guān)注。在此基礎(chǔ)上,為了分析復(fù)雜神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,我們以深度生成模型(對(duì)抗生成網(wǎng)絡(luò)(generativeadversarialnetworks,GAN)和變分自編碼器(variationalauto-encoder,VAE))為例,研究了如何幫助機(jī)器學(xué)習(xí)專家診斷訓(xùn)練過程中出現(xiàn)的常見問題。 解釋模型的另外一個(gè)思路是利用部分統(tǒng)計(jì)分析的技巧,針對(duì)神經(jīng)網(wǎng)絡(luò)決策過程中的參數(shù)冗余性,對(duì)神經(jīng)網(wǎng)絡(luò)內(nèi)部最后決策起到關(guān)鍵作用的子成分進(jìn)行分析,得到復(fù)雜模型內(nèi)部對(duì)決策起到最關(guān)鍵作用的核心部分。為了更高效發(fā)掘子網(wǎng)絡(luò),我們借鑒了網(wǎng)絡(luò)剪枝(networkpruning)思路,提出一種普適的提取子網(wǎng)絡(luò)的方法,而無需對(duì)模型從頭進(jìn)行訓(xùn)練。具體來說,我們對(duì)網(wǎng)絡(luò)中每一層都附加一組控制門(controlgate)變量,在知識(shí)蒸餾(knowledgedistillation)準(zhǔn)則下優(yōu)化該組變量控制各層輸出通道,用以確定關(guān)鍵子網(wǎng)絡(luò)。具體來說,令 p(y | x;θ)為具有權(quán)重參數(shù)θ的原始模型對(duì)于單個(gè)樣本 X 所做出的預(yù)測(cè)概率。而我們想要提取參數(shù)為θ_s 的關(guān)鍵子網(wǎng)絡(luò),其預(yù)測(cè)輸出應(yīng)為 q(y | x;θ_s),應(yīng)該與原模型輸出結(jié)果在 Kullback-Leibler 散度度量下接近。因此總體最小化目標(biāo)函數(shù)為

6ff2fc5c-1f2b-11ee-962d-dac502259ad0.png

其中?(θ_s)為稀疏正則項(xiàng),即鼓勵(lì)模型通過盡量少的激活神經(jīng)元達(dá)到和原網(wǎng)絡(luò)相似的性能。通過對(duì)關(guān)鍵子網(wǎng)絡(luò)可視化分析,我們觀察到對(duì)于樣本特定子網(wǎng)絡(luò),各層控制門值表征形式隨著層級(jí)增高而展現(xiàn)出類別區(qū)分特性。實(shí)驗(yàn)結(jié)果表明,對(duì)于類別特定子網(wǎng)絡(luò),其整體表征形式與類別語義之間有著密切聯(lián)系。 以上方法更多的關(guān)注是模型的后解釋,也就是給定一個(gè)深度學(xué)習(xí)模型「強(qiáng)行」尋求對(duì)其決策過程的解釋,而這種解釋是否符合神經(jīng)網(wǎng)絡(luò)的內(nèi)在機(jī)理仍然是需要討論的問題。由于深度學(xué)習(xí)模型的不可解釋性是由于機(jī)器推理的特征空間和人類可理解的空間存在著本質(zhì)的區(qū)別,因此深度學(xué)習(xí)要想實(shí)現(xiàn)可解釋性就需要把機(jī)器特征空間和人類的語義空間聯(lián)系起來。本團(tuán)隊(duì)也在此方面進(jìn)行了探索性研究,主要針對(duì)如何將人類的先驗(yàn)知識(shí)融入到深度學(xué)習(xí)模型的訓(xùn)練中,使特征具有更加明確的語義內(nèi)涵,從而能夠做到?jīng)Q策的追溯。具體的,在圖文的聯(lián)合分析中,我們利用文本信息中抽取出來的人類可理解的主題信息指導(dǎo)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,并對(duì)文本和圖像 / 視頻數(shù)據(jù)進(jìn)行協(xié)同訓(xùn)練,引導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到人類可以理解的語義特征。具體的,我們通過在神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)中引入可解釋的正則約束:

700d3bf8-1f2b-11ee-962d-dac502259ad0.png

其中第 1 項(xiàng)是相關(guān)任務(wù)的損失函數(shù),第 2 項(xiàng)是可解釋正則約束。通過這種方法,可以在文本數(shù)據(jù)引導(dǎo)下,通過不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)性,利用可解釋正則約束,提升深度學(xué)習(xí)模型的可解釋性。 (2)魯棒性問題。由于對(duì)抗攻擊給深度學(xué)習(xí)模型帶來的潛在的惡意風(fēng)險(xiǎn),其攻擊不但精準(zhǔn)且?guī)в泻軓?qiáng)的傳遞性,給深度學(xué)習(xí)模型的實(shí)際應(yīng)用帶來了嚴(yán)重的安全隱患,迫切需要增強(qiáng)深度學(xué)習(xí)模型自身的安全性,發(fā)展相應(yīng)的深度學(xué)習(xí)防御算法,降低惡意攻擊帶來的潛在威脅。具體來說,目前的深度學(xué)習(xí)防御算法主要有兩類思路。 第 1 是基于樣本 / 模型輸入控制的對(duì)抗防御。這類方法的核心是在模型的訓(xùn)練或者使用階段,通過對(duì)訓(xùn)練樣本的去噪、增廣、對(duì)抗檢測(cè)等方法,降低對(duì)抗攻擊造成的危害。其中去噪器由于不改變模型自身的結(jié)構(gòu)和性質(zhì),具有「即插即用」的性質(zhì),引起了廣泛的關(guān)注。但是由于對(duì)抗噪聲的特殊屬性,其形成的干擾效應(yīng)往往可以隨著神經(jīng)網(wǎng)絡(luò)的加深逐步放大,因此在普通的高斯噪聲(Gaussiannoise)上具有良好濾除效果的自編碼器往往不能很好地濾除對(duì)抗噪聲。 針對(duì)這一問題,本團(tuán)隊(duì)提出了基于高層表示引導(dǎo)的去噪器(HGD),通過高層特征的約束使得對(duì)抗樣本與正常樣本引起目標(biāo)模型的上層神經(jīng)元響應(yīng)盡可能一致。將傳統(tǒng)像素級(jí)去噪網(wǎng)絡(luò) DAE(denoisingautoencoder)與 U-net 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行結(jié)合,到負(fù)噪聲輸出7025f18e-1f2b-11ee-962d-dac502259ad0.png,用對(duì)抗樣本加上負(fù)噪聲可以得到去噪圖片703970e2-1f2b-11ee-962d-dac502259ad0.png,即704951e2-1f2b-11ee-962d-dac502259ad0.png。研究表明該方法不僅去掉了一部分對(duì)抗擾動(dòng),還增加了一部分「反對(duì)抗擾動(dòng)」,取得了非常好的防御效果,獲得「NIPS2017 對(duì)抗性攻防競(jìng)賽」中對(duì)抗防御任務(wù)冠軍,以及 2018 年在拉斯維加斯(LasVegas)舉辦的 CAADCTF 對(duì)抗樣本邀請(qǐng)賽冠軍。 ? 第 2 是基于模型增強(qiáng)的對(duì)抗防御。這類方法的核心是通過修改網(wǎng)絡(luò)的結(jié)構(gòu)、模型的激活函數(shù)、損失函數(shù)等,訓(xùn)練更加魯棒的深度學(xué)習(xí)模型,從而提高對(duì)對(duì)抗攻擊的防御能力。其中集成模型(ensemble)是近年來出現(xiàn)的一類典型的防御方法。針對(duì)經(jīng)典集成防御由于各個(gè)子模型的相似性導(dǎo)致防御性能下降的問題,本團(tuán)隊(duì)提出自適應(yīng)多樣性增強(qiáng)訓(xùn)練方法(adaptivediversitypromotingtraining,ADP)。相比于經(jīng)典集成模型,ADP 方法在訓(xùn)練函數(shù)中額外引入了多樣性正則項(xiàng),鼓勵(lì)每個(gè)子模型在正確類別上決策一致,而在其他類別上預(yù)測(cè)不一致。由于其他類別包括所有潛在的對(duì)抗樣本的目標(biāo)類別,所以這種不一致性可以使得各個(gè)子模型難以被同時(shí)欺騙,從而增強(qiáng)集成模型的魯棒性。具體來講,在 ADP 方法中,為了保證每個(gè)子模型的最大預(yù)測(cè)都對(duì)應(yīng)于正確的類別,這種多樣性定義在每個(gè)子模型輸出的非最大預(yù)測(cè)上,當(dāng)不同子模型的非最大預(yù)測(cè)向量相互正交時(shí),這種多樣性取得最大值。具體的,其訓(xùn)練的目標(biāo)函數(shù)為 ? ?

7062b8c6-1f2b-11ee-962d-dac502259ad0.png

其中,

7076b146-1f2b-11ee-962d-dac502259ad0.png

;7092e2c6-1f2b-11ee-962d-dac502259ad0.png為每個(gè)子模型 k 的交叉熵(cross-entropy)損失函數(shù)。ADP_α,β(x,y)=α·H(F)+β·log(ED)是模型集成多樣性的度量,鼓勵(lì)不同的子模型形成盡量差異化的決策邊界。實(shí)驗(yàn)結(jié)果表明,通過鼓勵(lì)不同子模型的差異化決策性質(zhì),有效地提升了模型的對(duì)抗魯棒性。但是,總體而言,目前多數(shù)的對(duì)抗防御方法是基于經(jīng)驗(yàn)主義的,研究表明很多防御對(duì)抗樣本的方法在很短的時(shí)間就會(huì)被后來的攻擊算法攻破。其重要原因之一是深度學(xué)習(xí)只是在做簡(jiǎn)單的函數(shù)擬合,缺乏像人一樣對(duì)問題的理解能力。因此通過理解機(jī)器學(xué)習(xí)模型的內(nèi)部工作機(jī)理,發(fā)展數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)融合的第三代人工智能理論框架,將成為提高人工智能算法魯棒性的重要途徑。 ? 但是,總體而言,目前多數(shù)的對(duì)抗防御方法是基于經(jīng)驗(yàn)主義的,研究表明很多防御對(duì)抗樣本的方法在很短的時(shí)間就會(huì)被后來的攻擊算法攻破。其重要原因之一是深度學(xué)習(xí)只是在做簡(jiǎn)單的函數(shù)擬合,缺乏像人一樣對(duì)問題的理解能力。因此通過理解機(jī)器學(xué)習(xí)模型的內(nèi)部工作機(jī)理,發(fā)展數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)融合的第三代人工智能理論框架,將成為提高人工智能算法魯棒性的重要途徑。 ? 3.2.3 貝葉斯深度學(xué)習(xí) ? 如圖 6 所示,圖像和語音等信息是在特征空間中處理的,這些特征語義信息很少,需要提取含有更多語義的特征,其中的一種解決辦法是將知識(shí)引入深度學(xué)習(xí)。下面以貝葉斯深度學(xué)習(xí)為例,說明這一思路。 ? 我們前面說過深度神經(jīng)網(wǎng)絡(luò)沒有考慮數(shù)據(jù)觀測(cè)的不確定性,這種不確定性的存在,以及對(duì)于數(shù)據(jù)背后物理背景的無知,使我們對(duì)深度學(xué)習(xí)結(jié)果的正確性難以判斷。同時(shí),在數(shù)據(jù)量有限但模型逐漸變大(如包括十億甚至千億參數(shù))的過程中,模型的不確定性也變得更嚴(yán)重——存在很多模型在訓(xùn)練集上表現(xiàn)都很好,但在測(cè)試集上的表現(xiàn)差別很大。貝葉斯學(xué)習(xí)充分考慮了先驗(yàn)知識(shí)以及模型和數(shù)據(jù)的不確定性,而且還能從不斷提供的數(shù)據(jù)(證據(jù))中,加深對(duì)數(shù)據(jù)的了解,即根據(jù)新的證據(jù)實(shí)現(xiàn)增量式的學(xué)習(xí),充分發(fā)揮知識(shí)在學(xué)習(xí)中的作用。不僅可以對(duì)學(xué)習(xí)結(jié)果的可信度做出判斷,也因此提高了學(xué)習(xí)的效率和準(zhǔn)確度。 ? 貝葉斯學(xué)習(xí)(Bayesianlearning)定義: 給定觀測(cè)數(shù)據(jù) d∈D,按貝葉斯規(guī)則計(jì)算每個(gè)假設(shè)的概率, ? ?

70a786ae-1f2b-11ee-962d-dac502259ad0.png

其中 D 是所有數(shù)據(jù)。給定 d

70c45e5a-1f2b-11ee-962d-dac502259ad0.png

是對(duì)未知量 X 的預(yù)測(cè),即通過觀測(cè)數(shù)據(jù)確定各個(gè)假設(shè)的概率,再從各個(gè)假設(shè)確定未知量 X 的分布。其中的關(guān)鍵是假設(shè)先驗(yàn) p(h_i)和給定假設(shè) h_i 下數(shù)據(jù) d 的似然 p(d|h_i)。貝葉斯預(yù)測(cè)(式(13))不管樣本量大小,均可達(dá)到最優(yōu),但當(dāng)假設(shè)空間很大時(shí),式(13)的加法計(jì)算量太大(在連續(xù)情況下為積分),難以實(shí)際應(yīng)用。通常需要采用近似算法,主要有兩類近似方法——變分推斷和蒙特卡洛采樣[69]。另外,還有一些常見的簡(jiǎn)化有,(1)對(duì) X 的預(yù)測(cè)不是利用所有的假設(shè),而只利用其中讓 p(h_i|d)最大化的一個(gè) h_i,稱為最大化后驗(yàn)(maximumaposteriori,MAP)假設(shè)。(2)假定 p(h_i)是均勻分布,問題就簡(jiǎn)化為,選擇一個(gè)讓 p(d|h_i)最大化的 hi,稱為最大化似然(maximumlikelihood,ML)假設(shè)。(3)如果不是所有數(shù)據(jù)都可以觀測(cè),即存在隱變量,通常采用 EM(expectationmaximization)算法[70]。該算法分為兩步(式(14)),E 步: 利用觀測(cè)的數(shù)據(jù) x 和θ^(i),計(jì)算 p(Z=z|x;θ^(i));M 步: 利用計(jì)算出來的 z 和 x,計(jì)算模型參數(shù)θ^(i+1)。兩個(gè)步驟交替進(jìn)行,找到最終的模型參數(shù)θ:

70d72878-1f2b-11ee-962d-dac502259ad0.png

貝葉斯準(zhǔn)則 (式 (12)) 是一個(gè)從先驗(yàn)分布和似然函數(shù)推斷后驗(yàn)分布的過程, 為了更靈活地考慮知識(shí), 我 們團(tuán)隊(duì)提出了正則化貝葉斯 (regularized Bayesian inference, RegBayes) , 它基于貝葉斯定理的信息 論描述 , 通過引入后驗(yàn)正則化, 在變分優(yōu)化的框架下可以靈活地考慮領(lǐng)域知識(shí) (如基于邏輯表達(dá)式 的知識(shí) ) 或者學(xué)習(xí)任務(wù)優(yōu)化的目標(biāo) (如最大間隔損失 ) 等。 更進(jìn)一步的, 貝葉斯深度學(xué)習(xí)是將貝葉斯學(xué)習(xí)的基本原理與深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)有機(jī)融合的 一類方法, 融合主要體現(xiàn)在兩個(gè)方面, (1) 用貝葉斯方法更好地學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò) (如貝葉斯神經(jīng)網(wǎng)絡(luò)、 高斯過程等), 包括計(jì)算預(yù)測(cè)的不確定性、避免過擬合等; (2) 用深度神經(jīng)網(wǎng)絡(luò)作為非線性函數(shù)變換定 義更加豐富靈活的貝葉斯模型, 如圖 8 所示, 包括深度生成模型 (如 GAN, VAE, 基于可逆變換的流模 型等). 其中第 1 種融合早在 20 世紀(jì) 90 年代就被霍普菲爾德 (J. Hopfield) 和辛頓指導(dǎo)博士生系統(tǒng)研究過 , 當(dāng)時(shí)的算力和數(shù)據(jù)都很有限, 稍微大一點(diǎn)的神經(jīng)網(wǎng)絡(luò)都面臨著嚴(yán)重的過擬合, 因此, 那時(shí) 候就開始研究用貝葉斯方法保護(hù)神經(jīng)網(wǎng)絡(luò), 并且選擇合適的網(wǎng)絡(luò)結(jié)構(gòu). 隨著神經(jīng)網(wǎng)絡(luò)的加深, 貝葉斯 方法又引起了很多研究興趣, 主要進(jìn)展包括對(duì)深度貝葉斯神經(jīng)網(wǎng)絡(luò)進(jìn)行高效的 (近似) 計(jì)算, 需要克服 的主要困難是深度網(wǎng)絡(luò)過參數(shù)化 (over-parametrization) 帶來的維數(shù)災(zāi)難. 在這方面, 我們團(tuán)隊(duì)進(jìn)行了 深入研究, 先后提出了隱式變分推斷 (implicit variational inference) 算法 , 在泛函空間進(jìn)行粒子 優(yōu)化的推斷算法 (functional variational inference) 等。

70ea1762-1f2b-11ee-962d-dac502259ad0.png

對(duì)于第 2 種融合, 我們知道一個(gè)簡(jiǎn)單分布的隨機(jī)變量 z 經(jīng)過函數(shù) f 變化之后, 得到的變量 x = f(z), 具有更復(fù)雜的分布, 當(dāng) f 是一個(gè)雙射變換時(shí), 我們可以得到 x 分布的解析形式

71313548-1f2b-11ee-962d-dac502259ad0.png

但是, 在處理復(fù)雜數(shù)據(jù)時(shí), f 是未知的, 因此, 我們希望從數(shù)據(jù)中進(jìn)行學(xué)習(xí). 利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能 力, 我們將 f 定義成一個(gè)深度神經(jīng)網(wǎng)絡(luò), 通過一定的準(zhǔn)則學(xué)習(xí)最優(yōu)的 f_θ. 如圖 8 所示, 這種想法被證明是非常有效的, 已經(jīng)發(fā)展了包括 VAE, GAN 以及基于流的模型 (flow-based models), 即使在完全無 監(jiān)督訓(xùn)練下, 這些模型都可以產(chǎn)生高質(zhì)量的自然圖片或人臉等。 具體的, 這幾種模型的區(qū)別在于定義 x 的變化函數(shù), 在 VAE 中, 7142f6fc-1f2b-11ee-962d-dac502259ad0.png ? 其中 ? 是一個(gè)噪聲變量 (如白噪聲對(duì)應(yīng)的標(biāo)準(zhǔn)高斯分布); 在 GAN 和基于流的模型中, 沒有顯式的噪聲變量。這種區(qū)別帶來了參數(shù)估計(jì)上的不同, VAE 和基于流的模型采用最大似然估計(jì), 而 GAN 定義了對(duì)抗學(xué)習(xí)的目標(biāo)——「最大最小博弈」。同樣的, 這些模型雖然功能強(qiáng)大, 但是給推斷和學(xué)習(xí)也帶來了很多挑戰(zhàn)。例如, GAN 網(wǎng)絡(luò)的訓(xùn)練過程經(jīng)常是不穩(wěn)定的, 會(huì)遇到梯度消失或梯度爆炸等問題, 我們團(tuán)隊(duì)最新的成果利用控制論對(duì)這一問題進(jìn)行了分析研究, 提出了有效的反饋機(jī)制, 能夠讓 GAN 的訓(xùn)練更平穩(wěn)。此外, 基于可逆變換的流模型往往受限于維數(shù)的約束, 為此, 我們提出了自適應(yīng)數(shù)據(jù)增廣的流模型, 顯著提升這類模型的表達(dá)能力。 ? 基于上述介紹, 能夠看出貝葉斯深度學(xué)習(xí)提供了一種強(qiáng)大的建模語言, 將不確定性建模和推斷與深度表示學(xué)習(xí)有機(jī)融合, 其關(guān)鍵挑戰(zhàn)在于推斷和學(xué)習(xí)算法。幸運(yùn)的是, 近年來, 在算法方面取得了很多突破進(jìn)展 (如上所述)。同時(shí), 也發(fā)展了性能良好的概率編程庫, 支持貝葉斯深度學(xué)習(xí)模型的開發(fā)和部 署。例如, 我們團(tuán)隊(duì)研制的「珠算」1) , 是最早的系統(tǒng)支持貝葉斯深度學(xué)習(xí)的開源庫之一。在應(yīng)用方面, 貝葉斯深度學(xué)習(xí)的方法已經(jīng)在時(shí)間序列預(yù)測(cè)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、持續(xù)學(xué)習(xí) 等復(fù)雜場(chǎng)景下, 取得良好的效果。 ? 3.2.4 單一空間中的計(jì)算 ? 如圖 6 所示, 我們要在單一的向量空間中, 對(duì)來自文本的嵌入向量和來自視聽覺的特征向量進(jìn)行 計(jì)算, 存在一定的難度. 因?yàn)槲谋局幸苑?hào)表示的詞, 經(jīng)嵌入之后變成向量時(shí)損失了大量語義, 從視聽覺中提取的特征, 雖然我們盡量獲取更多的語義, 但一般情況多屬底層特征, 語義含量很少。 ? 我們將以視覺問答為例介紹這方面的初步嘗試. 在視覺問答中既有圖像又有文本, 需要在單一的向量空間中同時(shí)處理, 涉及單一空間模型的使用。以本團(tuán)隊(duì)關(guān)于 「篇章級(jí)圖文問答」 研究工作為例予以說明 。如圖 9 所示, 根據(jù)給定的圖片, 回答以下問題, 「在大陸地殼下面有多少層 (類型)?」, 除問題以文本形式表示之外, 還有一個(gè)與圖片相關(guān)的篇章「板塊運(yùn)動(dòng)」。 ? ?

715e25a8-1f2b-11ee-962d-dac502259ad0.png

首先通過詞嵌入 (采用 Word2Vec 中的 Skip-gram 策略), 將 「問題」 與 「篇章」 中的以離散符號(hào)表示的詞轉(zhuǎn)換為向量. 圖片經(jīng) ResNet 網(wǎng)絡(luò)處理后, 取 res5c 層的特征作為輸出 , 它是一組高維空間的特征向量。然后將「問題」和「篇章」中的詞向量與「圖片」輸出的特征向量做融合, 以預(yù)測(cè)「答案」。為了更好地融合, 通過注意機(jī)制, 先找出「問題」 和 「篇章」中的「關(guān)鍵詞」, 這些關(guān)鍵詞能夠更好地反映「問題」的主題 (語義)。再依據(jù)關(guān)鍵詞通過「空間注意機(jī)制」找出圖片中關(guān)鍵區(qū)域的特征, 因?yàn)檫@些特征更符合關(guān)鍵詞向量所表達(dá)的主題, 因此融合效果會(huì)更好。這里采用的融合方法是雙線性池化 (multi modal bilinear pooling) 方法?!笀D文問答」是選擇題, 備選方案有 「1」, 「2」, 「3」三種, 將融合后的向量與備選方案的向量相比較, 取最接近的一個(gè)向量作為輸出, 這里是 「2」 (向量)。 圖文問答目前達(dá)到的水平與人類相比相差很遠(yuǎn), 以「選擇題」為例, 目前達(dá)到的水平只比隨機(jī)猜測(cè)略好。

4.總結(jié)

為了實(shí)現(xiàn)第三代 AI 的目標(biāo), 我們采用三空間融合的模型,即融合雙空間與單空間兩種模型,如圖 10 所示。雙空間模型采用類腦的工作機(jī)制,如果實(shí)現(xiàn)的話,機(jī)器就會(huì)像人類大腦的行為一樣,具有可解釋性與魯棒性。此外,當(dāng)把感覺(視覺、聽覺等)信號(hào)提升為感知(符號(hào))時(shí), 機(jī)器就具備一定的理解能力,因此也解決了可解釋和魯棒的問題。當(dāng)機(jī)器中的基本概念(符號(hào))可由感知產(chǎn)生時(shí),符號(hào)就有了基礎(chǔ) (根基),符號(hào)與符號(hào)推理就有了內(nèi)在的語義,從根本上解決了機(jī)器行為的可解釋與魯棒性的問題。單空間模型以深度學(xué)習(xí)為基礎(chǔ),存在不可解釋與不魯棒的缺陷,如果經(jīng)過改進(jìn)提高了其可解釋性與魯棒性,就從另外一個(gè)方向邁向第三代 AI。

71bda960-1f2b-11ee-962d-dac502259ad0.png

雙空間模型模仿了大腦的工作機(jī)制,但由于我們對(duì)大腦的工作機(jī)制了解得很少,這條道路存在某些不確定性,比如,機(jī)器通過與環(huán)境的交互學(xué)習(xí) (強(qiáng)化學(xué)習(xí)) 所建立的「內(nèi)在語義」, 與人類通過感知所獲取的「內(nèi)在語義」是否一樣,機(jī)器是否也能具有意識(shí)? 等,目前還不能肯定。盡管存在這些困難,但我們相信機(jī)器只要朝這個(gè)方向邁出一步,就會(huì)更接近于真正的 AI。單一空間模型是以深度學(xué)習(xí)為基礎(chǔ),優(yōu)點(diǎn)是充分利用計(jì)算機(jī)的算力,在一些方面會(huì)表現(xiàn)出比人類優(yōu)越的性能。但深度學(xué)習(xí)存在一些根本性的缺點(diǎn),通過算法的改進(jìn)究竟能得到多大程度的進(jìn)步,也存在不確定性,需要進(jìn)一步探索。但是,我們也相信對(duì)于深度學(xué)習(xí)的每一步改進(jìn),都將推動(dòng) AI 向前發(fā)展。 考慮以上這些不確定性,為了實(shí)現(xiàn)第三代 AI 的目標(biāo),最好的策略是同時(shí)沿著這兩條路線前進(jìn),即三空間的融合,如圖 10 所示。這種策略的好處是,既最大限度地借鑒大腦的工作機(jī)制,又充分利用計(jì)算機(jī)的算力,二者的結(jié)合,有望建造更加強(qiáng)大的 AI。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:張鈸院士: 邁向第三代人工智能

文章出處:【微信號(hào):AI智勝未來,微信公眾號(hào):AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    萬年芯榮獲2024第三代半導(dǎo)體制造最佳新銳企業(yè)獎(jiǎng)

    10月22日,2024全國第三代半導(dǎo)體大會(huì)暨最佳新銳企業(yè)獎(jiǎng)?lì)C獎(jiǎng)典禮在蘇州隆重舉辦。這場(chǎng)備受矚目的行業(yè)盛會(huì)匯聚了眾多行業(yè)精英,共有30+位企業(yè)高管演講、50+家展商現(xiàn)場(chǎng)展示。在這場(chǎng)行業(yè)盛會(huì)上,江西萬年
    的頭像 發(fā)表于 10-25 15:20 ?57次閱讀
    萬年芯榮獲2024<b class='flag-5'>第三代</b>半導(dǎo)體制造最佳新銳企業(yè)獎(jiǎng)

    芯科科技推出第三代無線開發(fā)平臺(tái),引領(lǐng)物聯(lián)網(wǎng)創(chuàng)新潮流

    America)上發(fā)表了開幕主題演講。公司首席執(zhí)行官M(fèi)att Johnson和首席技術(shù)官Daniel Cooley共同探討了人工智能(AI)對(duì)物聯(lián)網(wǎng)(IoT)領(lǐng)域的深遠(yuǎn)影響,并分享了芯科科技在第二無線開發(fā)平臺(tái)取得的顯著成就以及即將推出的
    的頭像 發(fā)表于 10-15 14:11 ?393次閱讀

    第三代C2000器件上實(shí)現(xiàn)EEPROM的模擬操作

    電子發(fā)燒友網(wǎng)站提供《在第三代C2000器件上實(shí)現(xiàn)EEPROM的模擬操作.pdf》資料免費(fèi)下載
    發(fā)表于 09-09 10:59 ?0次下載
    在<b class='flag-5'>第三代</b>C2000器件上實(shí)現(xiàn)EEPROM的模擬操作

    智平方打通具身智能核心痛點(diǎn):將AGI拓展到物理世界

    ,中國科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長(zhǎng),百川智能創(chuàng)始人兼CEO王小川,易顯智能創(chuàng)始
    的頭像 發(fā)表于 07-25 17:06 ?424次閱讀
    智平方打通具身<b class='flag-5'>智能</b>核心痛點(diǎn):將AGI拓展到物理世界

    瑞薩第三代電容式觸摸技術(shù)解讀

    瑞薩第三代電容式觸控技術(shù)(CTSU2)自2019年推出市場(chǎng),在第二技術(shù)的基礎(chǔ)上做了抗噪聲性的大幅提升,提高了內(nèi)部基準(zhǔn)的精度,增加了低功耗和多按鍵并行掃描功能。
    的頭像 發(fā)表于 06-27 14:54 ?469次閱讀
    瑞薩<b class='flag-5'>第三代</b>電容式觸摸技術(shù)解讀

    瞻芯電子第三代1200V 13.5mΩ SiC MOSFET通過車規(guī)級(jí)可靠性測(cè)試認(rèn)證

    近日,上海瞻芯電子科技股份有限公司(簡(jiǎn)稱“瞻芯電子”)基于第三代工藝平臺(tái)開發(fā)的1200V 13.5mΩ SiC MOSFET產(chǎn)品(IV3Q12013T4Z)通過了車規(guī)級(jí)可靠性(AEC-Q101)測(cè)試
    的頭像 發(fā)表于 06-24 09:13 ?686次閱讀
    瞻芯電子<b class='flag-5'>第三代</b>1200V 13.5mΩ SiC MOSFET通過車規(guī)級(jí)可靠性測(cè)試認(rèn)證

    為什么說第三代驍龍8s恰逢其時(shí)?

    日前,高通舉辦新品發(fā)布會(huì),推出了驍龍8旗艦移動(dòng)平臺(tái)誕生以來的第一款新生旗艦平臺(tái):第三代驍龍8s,這是高通對(duì)驍龍旗艦移動(dòng)平臺(tái)的一次層級(jí)擴(kuò)展,同時(shí)意味著廣大消費(fèi)者未來在旗艦手機(jī)市場(chǎng)也將會(huì)有更多豐富
    的頭像 發(fā)表于 03-21 21:04 ?2629次閱讀
    為什么說<b class='flag-5'>第三代</b>驍龍8s恰逢其時(shí)?

    高通推出第三代驍龍8s移動(dòng)平臺(tái),為智能手機(jī)帶來行業(yè)領(lǐng)先的終端側(cè)AI

    第三代驍龍8s移動(dòng)平臺(tái)通過特選的旗艦功能,帶來出色的終端側(cè)生成式AI特性以及影像和游戲體驗(yàn)。
    的頭像 發(fā)表于 03-18 16:00 ?696次閱讀

    小米14 Ultra發(fā)布,搭載第三代驍龍8移動(dòng)平臺(tái)

    今日,小米召開主題為“新層次”的新品發(fā)布會(huì),正式推出了小米14 Ultra手機(jī)。新機(jī)搭載第三代驍龍8移動(dòng)平臺(tái),集小米領(lǐng)先技術(shù)于一身,帶來全方位跨越的新一專業(yè)影像旗艦,讓真實(shí)有層次。
    的頭像 發(fā)表于 02-23 09:17 ?935次閱讀

    中國第三代自主超導(dǎo)量子計(jì)算機(jī)“本源悟空”上線運(yùn)行

    1月6日上午9時(shí),中國第三代自主超導(dǎo)量子計(jì)算機(jī)“本源悟空”,在本源量子計(jì)算科技(合肥)股份有限公司(簡(jiǎn)稱本源量子)正式上線運(yùn)行。圖為中國第三代自主超導(dǎo)量子計(jì)算機(jī)“本源悟空”該量子計(jì)算機(jī)搭載72位自主
    的頭像 發(fā)表于 01-07 08:21 ?731次閱讀
    中國<b class='flag-5'>第三代</b>自主超導(dǎo)量子計(jì)算機(jī)“本源悟空”上線運(yùn)行

    第三代半導(dǎo)體龍頭涌現(xiàn),全鏈布局從國產(chǎn)化發(fā)展到加速出海

    第三代半導(dǎo)體以此特有的性能優(yōu)勢(shì),在半導(dǎo)體照明、新能源汽車、新一移動(dòng)通信、新能源并網(wǎng)、高速軌道交通等領(lǐng)域具有廣闊的應(yīng)用前景。2020年9月,第三代半導(dǎo)體被寫入“十四五”規(guī)劃,在技術(shù)、市場(chǎng)與政策的
    的頭像 發(fā)表于 01-04 16:13 ?1109次閱讀

    第三代半導(dǎo)體的發(fā)展機(jī)遇與挑戰(zhàn)

    芯聯(lián)集成已全力挺進(jìn)第三代半導(dǎo)體市場(chǎng),自2021年起投入碳化硅MOSFET芯片及模組封裝技術(shù)的研究開發(fā)與產(chǎn)能建設(shè)。短短兩年間,芯聯(lián)集成便已成功實(shí)現(xiàn)技術(shù)創(chuàng)新的次重大飛躍,器件性能與國際頂級(jí)企業(yè)齊肩,并且已穩(wěn)定實(shí)現(xiàn)6英寸5000片/月碳化硅MOSFET芯片的大規(guī)模生產(chǎn)。
    的頭像 發(fā)表于 12-26 10:02 ?835次閱讀

    教授:邁向第三代人工智能

    符號(hào) AI 的開創(chuàng)者最初把注意力放在研究推理(搜索)的通用方法上,如「手段–目的分析」(meanendanalysis)、「分而治之」(divideandconquer)、「試錯(cuò)」(trialanderror)法等,試圖通過通用的方法解決范圍廣泛的現(xiàn)實(shí)問題。
    的頭像 發(fā)表于 12-21 17:05 ?394次閱讀
    <b class='flag-5'>張</b><b class='flag-5'>鈸</b>教授:<b class='flag-5'>邁向</b><b class='flag-5'>第三代人工智能</b>

    是德科技第三代半導(dǎo)體動(dòng)靜態(tài)測(cè)試方案亮相IFWS

    2023年11月29日,第九屆國際第三代半導(dǎo)體論壇(IFWS)和“第三代半導(dǎo)體標(biāo)準(zhǔn)與檢測(cè)研討會(huì)”成功召開,是德科技參加第九屆國際第三代半導(dǎo)體論壇(IFWS),并重磅展出第三代半導(dǎo)體動(dòng)靜
    的頭像 發(fā)表于 12-13 16:15 ?719次閱讀
    是德科技<b class='flag-5'>第三代</b>半導(dǎo)體動(dòng)靜態(tài)測(cè)試方案亮相IFWS

    AMD擴(kuò)展其第三代AMD EPYC處理器家族并推出6款全新產(chǎn)品

    —AMD加強(qiáng)廣受好評(píng)的第三代EPYC CPU產(chǎn)品組合,為支持主要業(yè)務(wù)基礎(chǔ)設(shè)施的服務(wù)器提供性能和能效— —包括Cisco、Dell Technologies、Gigabyte、HPE、Lenovo
    的頭像 發(fā)表于 11-11 10:37 ?1252次閱讀