5月9日,以「機(jī)器智聯(lián)、賦能萬物」為主題的第六屆中國機(jī)器人峰會暨智能經(jīng)濟(jì)人才峰會在浙江寧波余姚盛大開幕。峰會上中國工程院院士,西安交通大學(xué)鄭南寧教授以「AI及機(jī)器人的新方向」為主題進(jìn)行了演講,以下根據(jù)鄭南寧教授演講整理內(nèi)容。
就當(dāng)前的人工智能而言,解決相對人類有一定挑戰(zhàn)的問題相對容易,但是,要讓機(jī)器解決對人類而言看似簡單的問題卻非常困難,無人駕駛就屬于此類問題。人腦實際上對非認(rèn)知性的細(xì)節(jié)內(nèi)容更多是通過直覺進(jìn)行判斷,直覺實際上扮演著人腦認(rèn)知世界中一個非常重要的功能。所以,我今天就來談?wù)?strong>我們?nèi)绾伟l(fā)展直覺性AI,以及如何將直覺性AI和無人駕駛怎么結(jié)合起來。
什么是直覺?
直覺在我們?nèi)粘I钪刑幪帟褂玫?,例如,在人群中我們看到一個熟悉面孔,我們即時做出識別,這主要依靠直覺即使調(diào)用大腦中所存儲的知識;再如,警察在破案過程中,拿到的眾多線索錯綜復(fù)雜,可是一位老警察能夠敏銳感覺到重要線索就在這里,這就是直覺的判斷、決策和執(zhí)行。
人的認(rèn)知可以分為三大類:直覺、邏輯思維及形象思維、靈感和頓悟。
我們當(dāng)前的人工智能依賴符號學(xué),依賴形式化的描述,所以可以在語義上解釋人類的思維。但是直覺不能僅僅使用語義進(jìn)行表達(dá)的,實際上,人類直覺工作的過程和深思熟慮以及有意識的思維過程之間存在著錯綜復(fù)雜的作用。
所以新的人工智能中,我們需要思考如何把人類直覺的這種行為變成機(jī)器實現(xiàn)的功能。這就是我們下一代人工智能一個非常重要的研究方向。
我們把這個問題引申一下,我們的直覺在判斷過程中有哪些規(guī)律?
以圖像識別為例,人類是把一幅圖看成整體或者是一種整體的體驗。所以這里有一個先驗知識的利用,從整體到局部。這是一種直觀決策,如果我們從認(rèn)知心理學(xué)角度看,卻是所謂大范圍首先理論,這是中國科學(xué)院院士在上世紀(jì)80年代通過對人類視覺的研究提出的。
機(jī)器和多數(shù)人工智能方法沒有從這個方面解決問題,機(jī)器對圖象的理解是從一個象素開始的。語音識別也是從語音中每一個量化的數(shù)據(jù)開始識別。但是,人的認(rèn)知過程不是這樣的,特別是直覺。此外,在人的行動上,依然存在對直覺的應(yīng)用。直覺的反映、直覺的決策帶來了直覺的行動。
例如上圖中這四位經(jīng)過訓(xùn)練的芭蕾舞演員,他們動作整齊劃一,非常和諧。這個和諧的背后實際上是人的直覺經(jīng)過長期訓(xùn)練的反映。或者說在這個場合下,對直覺的敏感性。當(dāng)然我們還有更夸張的游泳,這是蝶泳員動作很協(xié)調(diào);還有極限運(yùn)動,在攀巖過程中還能夠翻跟頭。這不是我們用符號和語義所能表達(dá)的,因此,機(jī)器無法直接模仿人類完成復(fù)雜又靈巧的任務(wù)。但是對于人類而言,經(jīng)過專業(yè)訓(xùn)練可以達(dá)到這樣的程度。
為什么要發(fā)展直覺性AI?
實際上我們?nèi)斯ぶ悄馨l(fā)展到今天,由于深度學(xué)習(xí)的出現(xiàn),人工智能迎來了發(fā)展高潮,取得了許多巨大的進(jìn)展。但是,當(dāng)我們仔細(xì)思考時,實際上當(dāng)前的AI系統(tǒng)或AI算法實際上對每個任務(wù)進(jìn)行編程,就會帶來指數(shù)級的復(fù)雜性。有許多難題,人類所面臨的許多難題只能夠在指數(shù)時間內(nèi)得到解決,而且還有一些問題的求解,幾乎需要無限長的時間。因此新一代人工智能面臨巨大的挑戰(zhàn),那就是如何應(yīng)對指數(shù)級復(fù)雜性的任務(wù)。
上圖可以形象地看到人工智能從過去到當(dāng)前,再到未來的四個發(fā)展階段。當(dāng)前的AI和AI2.0中間一個重要的方向就是混合增強(qiáng)智能。那么在混合增強(qiáng)智能之后是什么呢?就是具有人類意識的智能,我們又稱之為通用人工智能,這是人工智能追求的長期的目標(biāo)。當(dāng)然現(xiàn)在在學(xué)術(shù)界對這個觀點(diǎn)還有不同的爭論。
發(fā)展直覺性AI的原因之一是計算復(fù)雜性與指數(shù)爆炸。實際上指數(shù)爆炸問題源于兩個具體的問題,一個是條件問題,即我們不可能枚舉出一個行為的所有條件;另一個是分支問題,即我們不可能預(yù)測一個行為有可能帶來的所有隱性的成果。條件問題和分支問題背后正是指數(shù)級爆炸和計算復(fù)雜性。
傳統(tǒng)人工智能的局限性
傳統(tǒng)人工智能的方法首先需要對一個問題給出精確數(shù)學(xué)意義上的解析模型,如果模型抽象不出來,這個問題就沒有解;模型給出以后還要給出確定的算法,而一個確定的算法設(shè)計完成后,這個人工智能系統(tǒng)的算力、能力或任務(wù)是唯一的,所以又是一個單一任務(wù)。
確定的算法沒有辦法應(yīng)對我們?nèi)祟愃鎸Φ脑S多測不準(zhǔn)或不完備的問題,這就是傳統(tǒng)人工智能方面面臨著在發(fā)展中。
深度學(xué)習(xí)的局限性
深度學(xué)習(xí)給人工智能帶來了春天,而且這個春天會一直發(fā)展下去,但是深度學(xué)習(xí)仍然存在諸多問題:
泛化能力差。而且訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)必須是同分布的,如果不同分布,分類能力就會極大降低;
表達(dá)能力弱。這里提到的表達(dá)能力是指缺乏推理和因果關(guān)系的表達(dá)能力,無法解釋一個深度學(xué)習(xí)模型給出結(jié)果背后的推理過程;
無法引入注意機(jī)制。注意機(jī)制強(qiáng)調(diào)的是計算過程中的路徑選擇和計算負(fù)載的分配。深度學(xué)習(xí)目前還找不到有效的辦法解決這一問題。
大腦的認(rèn)知過程
傳統(tǒng)人工智能的局限性以及深度學(xué)習(xí)還面臨著一些新的挑戰(zhàn)。那么解決這些問題,我們的靈感和啟發(fā)同哪里來呢?來源于人類大腦。
人類大腦實際上對世界的印象是不完整事件的描述,但是,這個不完整的事件的描述是人類直覺判斷和邏輯思維的基礎(chǔ),面對真實世界復(fù)雜的、動態(tài)的變化,如果能將直覺、經(jīng)驗、知識和以數(shù)學(xué)為基礎(chǔ)的演繹歸納結(jié)合,就可能設(shè)計出一種機(jī)器能夠在不完整世界中給出正確的決策或產(chǎn)生相應(yīng)的行為。
如上圖中的兩幅圖,大多數(shù)人會認(rèn)為左邊這幅圖更容易記住。這幅圖描述了一個家庭的客廳,目前在陪著孩子彈鋼琴,母親右手邊掛著世界地圖,世界地圖下有一張桌子。如果我們把這個場景的各個物體(對象)在空間中的位置做一個調(diào)整,得到右邊這幅圖不符合我們大腦中所記憶的先前積累的經(jīng)驗和常識。
從認(rèn)知心理學(xué)角度來看,把這幅圖在大腦形成的這樣一種概念,稱之為認(rèn)知影射,所謂認(rèn)知影射就是人類在理解和描述世界時大腦中形成的對時間的可視化圖象,我們又定義為對環(huán)境表征的認(rèn)知地圖,這是人類對理解世界的一種模型。
直覺性AI的計算框架
本質(zhì)上講,直覺應(yīng)該遵循泛化,即遵循有序的指令集以在有限步驟中給出決策。把直覺和我們的認(rèn)知地圖結(jié)合就形成了直覺性AI的計算框架。
上圖右邊這幅圖是把直覺推理與認(rèn)知地圖結(jié)合的一種計算模型。這種計算模型實際上做了兩項工作:
第一,把先前經(jīng)驗與模式匹配。即把線索的先?;蛘呤挛锬J脚c存儲的模板(大腦中的記憶)進(jìn)行匹配。大腦的神經(jīng)網(wǎng)絡(luò)是一種高效的模式匹配裝置,它依據(jù)先前經(jīng)驗與存儲模板相匹配,從而給出正確決策。
第二,啟發(fā)式搜索和聯(lián)想。特別是直覺型啟發(fā)式搜索,不是去尋找可能性,是要排除不可能,縮小搜索空間,提高決策行動的速度。在邏輯上管理“不確定性”。
這正是直覺性AI的計算框架,下面在這個框架上,我們再把這個問題引申一下,我們怎么能讓機(jī)器像人一樣對物理世界進(jìn)行直觀的理解,這里我給出讓機(jī)器對物理世界進(jìn)行直觀理解三個基本的要素:
第一,特征的識別,并形成記憶;
第二,物體之間的特征關(guān)系與作用的直觀理解;
第三,基于模式匹配和想象力的決策或行為模型產(chǎn)生。
直觀理解對機(jī)器而言如何實現(xiàn)?如下圖所示。
左邊圖中給出兩個小朋友玩滑板車,從坡上向下滑,我們知道這個坡的坡度和滑板車的摩擦力,也知道孩子的重量,就知道這兩個滑板車上面什么時候會到達(dá)目的地,我們稱之為物理世界的約束,直觀推理可以跨越時間與空間去追蹤事物發(fā)展的軌跡。按照這個思路,右邊給出了一個直觀物理層面推理的框架,這一框架有物體間的相互作用的理解,有直觀的感知處理與行為產(chǎn)生,也有對情景產(chǎn)生的交互。這一系統(tǒng)其實相對于其它人工智能應(yīng)用系統(tǒng)而言,可以看作是直覺性AI的基本計算框架。
直覺性AI在無人駕駛中的應(yīng)用
直覺是以一種最少的假設(shè)去描述一個系統(tǒng)或產(chǎn)生相應(yīng)的行為。
如果從直覺推理上來看智能無人駕駛,我們就可能為無人駕駛技術(shù)帶來新的方法。
無人駕駛的問題可以定義為具有先前經(jīng)驗和先驗知識的不確定性,而且有約束環(huán)境條件的推理。2002年我們開始做無人車,2004年我們在校園里能夠?qū)崿F(xiàn)行駛,能夠動起來,當(dāng)時雄心勃勃,可是出了校門就寸步難行了。之后可以在沙漠中的公路上(沒有行人,沒有車輛的情況下),以每小時十幾公里的速度行駛。
經(jīng)過這樣十幾年的研究,到2015年我們無人駕駛技術(shù)有了新的進(jìn)展,在一個鄉(xiāng)村道路上測試時,它的控制是平穩(wěn)型,操控性與人類駕駛員都優(yōu)秀;在2017年中國智能車挑戰(zhàn)賽中,我們的無人駕駛汽車拿到了第一名。
盡管我們?nèi)〉昧巳绱舜蟮倪M(jìn)步,但是能上路嗎?回答是否定的。
上圖是城市經(jīng)常常見的復(fù)雜交通場景,我們即便有了5G,無人駕駛和有人駕駛的車如何進(jìn)行交互依然是很有挑戰(zhàn)性的難題。對于整個十字路口交通場景是不可預(yù)測的,但是各個對象的自身的直覺判斷和他們對相互之間的關(guān)系的理解構(gòu)建了這樣一個穩(wěn)定的系統(tǒng)。而事實上,我們要讓計算機(jī)對交通場景及變化進(jìn)行編碼是做不到的。
人類駕駛員開車就是將車外無窮狀態(tài)空間約簡為動態(tài)變化的可行駛的二域狀態(tài)空間,直覺推理是用排除法尋找一個可行駛區(qū)域。因此,從認(rèn)知層面,要解決的問題就是如何把復(fù)雜未知的現(xiàn)實世界變換成有限空間環(huán)境的語義推理。無人駕駛我們還面臨著如何在這些方面上取得更大的突破。
上圖是用多激光雷達(dá)感知的環(huán)境數(shù)據(jù),實際上也是為了尋找可行駛的區(qū)域,中間是無人駕駛車。因此我們把直覺性AI用到無人駕駛中就是要基于認(rèn)知構(gòu)建一個類人自主駕駛。因為人類駕駛員是對場景認(rèn)知一個連續(xù)的過程,我們現(xiàn)在無人駕駛實際上仍是一個離散的過程。
因此我們怎么能夠來發(fā)展一種具有進(jìn)化的,自主學(xué)習(xí)的無人駕駛系統(tǒng),它的學(xué)習(xí)過程與人類司機(jī)相似,熟能生巧。其中要解決的問題包括以下三點(diǎn):
第一,人類駕駛員如何注意并獲取交通環(huán)境信息;
第二,交通環(huán)境信息如何在大腦中存儲和加工;
第三,產(chǎn)生駕駛行為的背后的存在怎樣的內(nèi)部表征。
這是我們做的一些工作(如上圖),大家可以看視覺深度圖,怎么把視覺和低精度的地圖結(jié)合,生成可行駛區(qū)域和路徑規(guī)劃,實現(xiàn)一個基于認(rèn)知構(gòu)建的無人駕駛,實際上就是「度量-拓?fù)?語義混合」的交通情境認(rèn)知的層次結(jié)構(gòu)。
在無人駕駛當(dāng)中,我們進(jìn)行了20多年的研究。走到今天,我們已經(jīng)取得了一些進(jìn)步,但是無人駕駛真正要進(jìn)入尋常老百姓家還面臨許多艱難的挑戰(zhàn),不是3-5年就能夠?qū)崿F(xiàn)的,可能需要10年乃至更長時間,無論是從技術(shù)的安全性,還是從成本上來看,我們都還需要付出艱難的努力。
-
AI
+關(guān)注
關(guān)注
87文章
29383瀏覽量
267674 -
無人駕駛
+關(guān)注
關(guān)注
98文章
3997瀏覽量
119907
原文標(biāo)題:鄭南寧:無人駕駛商用至少還需10年,直覺性AI技術(shù)將成關(guān)鍵
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論