97se国产在线无码视频,中文字幕被公侵犯的漂亮人妻,亚洲天堂国产

摘要

人工智能和機(jī)器學(xué)習(xí)的最新研究在很大程度上強(qiáng)調(diào)了通用學(xué)習(xí)和越來(lái)越大的訓(xùn)練集以及越來(lái)越多的計(jì)算。

相反，我提出了一種以認(rèn)知模型為中心的混合，知識(shí)驅(qū)動(dòng)，基于推理的方法，該方法可以為比當(dāng)前可能的更豐富，更健壯的AI提供基礎(chǔ)。

1.邁向強(qiáng)大的人工智能

盡管沒(méi)有人完全知道深度學(xué)習(xí)或人工智能將在未來(lái)幾十年發(fā)展，但是如果我們要達(dá)到一個(gè)新的水平，那么既要考慮過(guò)去十年所學(xué)到的知識(shí)，又要研究下一步應(yīng)該研究的東西。

讓我們將其稱為健壯的人工智能新水平：雖然不一定是超人或自我完善的智能，但可以依靠它以系統(tǒng)和可靠的方式將其所學(xué)知識(shí)應(yīng)用到廣泛的問(wèn)題中，從各種知識(shí)中綜合知識(shí)來(lái)源，這樣它就可以靈活，動(dòng)態(tài)地對(duì)世界進(jìn)行推理，以一種我們對(duì)普通成年人所期望的方式，將它在一個(gè)環(huán)境中學(xué)到的東西轉(zhuǎn)移到另一環(huán)境中。

從某種意義上說(shuō)，這是一個(gè)微不足道的目標(biāo)，既不像“超人”或“人工智能”那樣雄心勃勃，也沒(méi)有像它那樣無(wú)邊無(wú)際，但也許是邁出重要的一步，并且是可以實(shí)現(xiàn)的，如果我們要實(shí)現(xiàn)這一目標(biāo)，那是至關(guān)重要的一步。創(chuàng)建我們可以信賴的人工智能，無(wú)論是在我們的家中，在道路上，在醫(yī)生的辦公室和醫(yī)院，在企業(yè)中還是在社區(qū)中，我們都可以信賴。

簡(jiǎn)而言之，如果我們不能指望人工智能能夠可靠地表現(xiàn)，那么我們就不應(yīng)該信任它。（當(dāng)然，事實(shí)并非如此：可靠性不能保證可信度；相反，可靠性不能保證可信度。這只是許多前提條件之一，包括價(jià)值和良好的工程實(shí)踐；請(qǐng)參閱Marcus和Davis（Marcus＆Davis，2019）進(jìn)行進(jìn)一步討論。）

有人可能會(huì)將強(qiáng)大的AI與例如狹義的智能，可以很好地完成單個(gè)狹窄目標(biāo)（例如下棋或識(shí)別狗的品種）的系統(tǒng)進(jìn)行對(duì)比，但這些系統(tǒng)往往以非常單一的任務(wù)為中心，并且不健壯且無(wú)法轉(zhuǎn)移到甚至適度不同的環(huán)境（例如，到不同尺寸的電路板，或從一個(gè)具有相同邏輯但字符和設(shè)置不同的視頻游戲到另一個(gè)視頻游戲），而無(wú)需進(jìn)行大量的重新培訓(xùn)。當(dāng)將這些系統(tǒng)應(yīng)用到要在其上進(jìn)行訓(xùn)練的確切環(huán)境時(shí)，它們通常會(huì)表現(xiàn)出令人印象深刻的良好效果，但是，如果環(huán)境與他們?cè)谄渖线M(jìn)行訓(xùn)練的環(huán)境有所不同，有時(shí)甚至是很小的差異，我們通常就無(wú)法指望它們。這種系統(tǒng)在游戲環(huán)境中已顯示出強(qiáng)大的功能，但在現(xiàn)實(shí)世界的動(dòng)態(tài)，開(kāi)放式流程中尚未被證明是足夠的。

還必須將強(qiáng)大的智能與我稱之為點(diǎn)畫式智能進(jìn)行對(duì)比，點(diǎn)智能在許多情況下都有效，但在許多其他情況下卻失敗了，表面上看起來(lái)很相似，以某種無(wú)法預(yù)測(cè)的方式。圖1展示了一個(gè)視覺(jué)系統(tǒng)，該視覺(jué)系統(tǒng)通?？梢宰R(shí)別校車，但是在積雪的道路中（左）無(wú)法識(shí)別翻倒的校車（左），而閱讀系統(tǒng)（右）可以正確地解釋一些句子，但在閱讀過(guò)程中卻失敗。存在無(wú)關(guān)的干擾物。

任何密切關(guān)注AI文獻(xiàn)的人都將意識(shí)到，健壯性從一開(kāi)始就一直遙遙無(wú)期。盡管已經(jīng)投入了巨大的資源，但深度學(xué)習(xí)迄今仍未解決該問(wèn)題。

相反，到目前為止，深度學(xué)習(xí)技術(shù)已證明是數(shù)據(jù)饑渴，淺薄，易碎且泛化能力有限（Marcus，2018）。或者，正如Francois Chollet（Chollet，2019年）最近所說(shuō)的那樣，人工智能一直未能達(dá)到其理想：盡管我們能夠設(shè)計(jì)出在特定任務(wù)上表現(xiàn)出色的系統(tǒng)，但它們?nèi)匀淮嬖诿黠@的局限性，脆弱性，數(shù)據(jù)量饑餓，無(wú)法理解與培訓(xùn)數(shù)據(jù)或創(chuàng)建者的假設(shè)略有不同的情況，并且在沒(méi)有人類研究人員的大量參與的情況下無(wú)法調(diào)整自己的工作方式來(lái)應(yīng)對(duì)新穎的任務(wù)。

用Facebook AI研究人員團(tuán)隊(duì)的話說(shuō)（Nieet al。，2019）

“越來(lái)越多的證據(jù)表明，最先進(jìn)的模型學(xué)會(huì)了利用數(shù)據(jù)集中的虛假統(tǒng)計(jì)模式……而不是像人類那樣靈活而可概括地學(xué)習(xí)意義。”

正如Yoshua Bengio在最近的一篇文章（Bengio等人，2019年）中所指出的那樣，一個(gè)關(guān)鍵的弱點(diǎn)是當(dāng)需要將機(jī)器學(xué)習(xí)方法推廣到訓(xùn)練分布之外時(shí)，當(dāng)前的機(jī)器學(xué)習(xí)方法似乎很薄弱，而這在實(shí)踐中通常是需要的。

我們?cè)鯓硬拍軐I提升到一個(gè)新的水平？

我認(rèn)為，如果不首先開(kāi)發(fā)具有我和ErnieDavis所說(shuō)的深刻理解的系統(tǒng)的能力，我們就不會(huì)獲得強(qiáng)大的情報(bào)，這不僅具有關(guān)聯(lián)和辨別復(fù)雜數(shù)據(jù)集中細(xì)微模式的能力，而且還具有查看任何場(chǎng)景并解決一些問(wèn)題，例如記者可能會(huì)問(wèn)：誰(shuí)，什么，什么地方，為什么，何時(shí)以及如何。

在美好的一天，像被廣泛討論的神經(jīng)網(wǎng)絡(luò)GPT-2這樣的系統(tǒng)可以產(chǎn)生故事和類似的給定句子片段，可以傳達(dá)表面上似乎反映出深刻理解的東西。例如，給定一個(gè)句子片段（以粗體顯示），例如“兩個(gè)士兵走進(jìn)酒吧”，它通?？梢援a(chǎn)生流利且聽(tīng)起來(lái)似真實(shí)的連續(xù)感，例如人，酒吧，飲料和金錢之間的關(guān)系：

兩名士兵走進(jìn)摩蘇爾的一家酒吧，把所有的錢都花在了喝酒上。

但是，無(wú)論許多GPT-2例子看起來(lái)多么引人注目，事實(shí)都是它的表示很單薄且不可靠，類似于Nie等人（2019）所指出的那樣，通常在密切檢查下會(huì)崩潰（Marcus，2020）。這是兩個(gè)典型案例，取材自我于2019年12月在NeurIPS（Marcus，2019）上提出的開(kāi)發(fā)中基準(zhǔn)測(cè)試。

?昨天我把衣服放在干洗店里了，還沒(méi)撿起來(lái)。我的衣服在哪里？在我媽媽的房子里。

?原木上有六只青蛙。兩只離開(kāi)，三只加入?，F(xiàn)在原木上的青蛙數(shù)是十七。

首先，GPT-2可以正確預(yù)測(cè)查詢片段后面的元素類別（即位置），但無(wú)法跟蹤干洗位置。在第二篇中，GPT-2再次正確預(yù)測(cè)了正確的響應(yīng)類別（在這種情況下為數(shù)字），并且再次無(wú)法掌握細(xì)節(jié)。正如Marcus（Marcus，2020; Marcus，2019）所討論的那樣，這種錯(cuò)誤非常普遍。顯然，我們將需要更穩(wěn)定的基材以實(shí)現(xiàn)堅(jiān)固性。

一切照舊主要集中在穩(wěn)步改善深度學(xué)習(xí)工具箱中的函數(shù)逼近和組合工具，以及收集更大的訓(xùn)練集并擴(kuò)展到越來(lái)越大的GPU和TPU集群?？梢韵胂笸ㄟ^(guò)收集更大的數(shù)據(jù)集，以各種方式擴(kuò)充這些數(shù)據(jù)集以及在基礎(chǔ)架構(gòu)中納入各種改進(jìn)來(lái)改進(jìn)像GPT-2這樣的系統(tǒng)。盡管這些方法具有價(jià)值，但需要進(jìn)行更根本的重新思考。

可能會(huì)采用更多激烈的方法。例如，Yoshua Bengio為大幅擴(kuò)展深度學(xué)習(xí)工具包提出了許多復(fù)雜的建議，包括開(kāi)發(fā)通過(guò)對(duì)分布變化的敏感性統(tǒng)計(jì)提取因果關(guān)系的技術(shù)（Bengio等人，2019）和自動(dòng)提取模塊化的技術(shù)。結(jié)構(gòu)（Goyal et al。，2019），我都十分同情。

但我認(rèn)為這還不夠，可能需要更強(qiáng)有力的藥物。特別是，本文的建議，即我們必須重新集中精力，致力于開(kāi)發(fā)一個(gè)框架，用于構(gòu)建能夠常規(guī)獲取、表示和操作抽象知識(shí)的系統(tǒng)，使用這些知識(shí)來(lái)構(gòu)建、更新和推理復(fù)雜的外部世界內(nèi)部模型。 §

從某種意義上說(shuō)，我將要咨詢的是回歸到三個(gè)問(wèn)題：經(jīng)典人工智能知識(shí)、內(nèi)部模型和推理，但希望以新的方式，用現(xiàn)代的技術(shù)來(lái)解決它們。

這些問(wèn)題都是經(jīng)典人工智能的核心。例如，約翰·麥卡錫在他的開(kāi)創(chuàng)性論文《程序與常識(shí)》（Programs withCommon Sense）中指出了常識(shí)知識(shí)的價(jià)值[McCarthy 1959]；道格·萊納特（Doug Lenat）將常識(shí)知識(shí)的機(jī)器表達(dá)形式作為他畢生的工作來(lái)解釋（Lenat，Prakash，&Shepherd，1985；Lenat，2019）。由TerryWinograd（谷歌創(chuàng)始人Larry Page和Sergey Brin的導(dǎo)師）設(shè)計(jì)的經(jīng)典AI“blocks world”系統(tǒng)SHRLDU圍繞一個(gè)內(nèi)部的、可更新的世界認(rèn)知模型展開(kāi)，該模型表示軟件對(duì)一組堆疊物理對(duì)象的位置和屬性的理解（Winograd，1971）。然后，SHRLDU對(duì)這些認(rèn)知模型進(jìn)行推理，以便推斷出隨著時(shí)間的推移，世界的狀態(tài)。

瀏覽一下機(jī)器學(xué)習(xí)領(lǐng)域最新論文的標(biāo)題，你會(huì)發(fā)現(xiàn)很少有人引用這些觀點(diǎn)。一小部分人會(huì)提到推理，另一小部分人可能會(huì)提到實(shí)現(xiàn)常識(shí)的愿望，大多數(shù)人會(huì)（故意地）缺乏豐富的認(rèn)知模型，比如個(gè)人和物體，它們的屬性，以及它們之間的關(guān)系。

例如，一個(gè)像GPT-2這樣的系統(tǒng)，做它所做的事情，不管是好是壞，沒(méi)有任何明確的（直接表示和隨時(shí)共享的）常識(shí)知識(shí)，沒(méi)有任何明確的推理，也沒(méi)有任何它試圖討論的世界的明確的認(rèn)知模型。

許多人認(rèn)為這種缺乏費(fèi)力編碼的顯性知識(shí)的優(yōu)勢(shì)。GPT-2并不是反常的，而是一種當(dāng)前趨勢(shì)的特征，即遠(yuǎn)離經(jīng)典人工智能的關(guān)注，轉(zhuǎn)向一種不同的、更為數(shù)據(jù)驅(qū)動(dòng)的范式，這種范式是由深度學(xué)習(xí)的復(fù)蘇所推動(dòng)的（大約2012年）。隨著DeepMind備受推崇的Atari游戲系統(tǒng)（Mnihet al.，2015）的出現(xiàn)，這一趨勢(shì)加速發(fā)展，正如后面所討論的，該系統(tǒng)在不使用任何詳細(xì)認(rèn)知模型的情況下成功地玩了各種各樣的游戲。

最近，強(qiáng)化學(xué)習(xí)的創(chuàng)始人之一Rich Sutton在一篇廣為閱讀的文章中明確了這一趨勢(shì)。這篇名為“痛苦的教訓(xùn)”的文章明確建議不要利用人類的知識(shí)：

從70年的人工智能研究中可以得到的最大教訓(xùn)是，利用計(jì)算的一般方法最終是最有效的，而且在很大程度上……研究人員試圖利用人類對(duì)該領(lǐng)域的知識(shí)，但從長(zhǎng)遠(yuǎn)來(lái)看，唯一重要的是利用計(jì)算?！祟愔R(shí)方法傾向于使方法復(fù)雜化，使它們不太適合利用利用計(jì)算的一般方法。

在某種程度上，將人類知識(shí)構(gòu)建到機(jī)器學(xué)習(xí)系統(tǒng)中甚至在機(jī)器學(xué)習(xí)界被視為作弊，當(dāng)然也不可取。在DeepMind最有影響力的論文之一“掌握圍棋的游戲而不需要人類知識(shí)”中，其目標(biāo)是完全放棄人類知識(shí)，以便“學(xué)習(xí)、制表、超人在挑戰(zhàn)領(lǐng)域的熟練程度”（Silver等人，2017）。如果能從大規(guī)模的語(yǔ)料庫(kù)中歸納出常識(shí)，并且有最小的先驗(yàn)約束，那么機(jī)器學(xué)習(xí)社區(qū)的一大群人將非常高興。【當(dāng)然，盲目地同化所有人類所說(shuō)的一切，都會(huì)以自己的方式產(chǎn)生問(wèn)題。正如ConceptNet的主要維護(hù)者Robyn Speer所說(shuō)，我們的雄心壯志應(yīng)該更好：“我們希望避免僅僅因?yàn)?a target="_blank">電腦對(duì)人來(lái)說(shuō)很糟糕就讓電腦對(duì)人來(lái)說(shuō)很糟糕。我們希望提供的（知識(shí)表達(dá)）不僅是技術(shù)上最好的，而且在道德上也很好。】模型構(gòu)建也被證明是一項(xiàng)艱苦的工作，而且普遍的看法是，如果能跳過(guò)這一步，生活會(huì)更輕松。

問(wèn)題是，即使有大量數(shù)據(jù)，也有像GPT-2（Radford等人，2019）那樣的Transformer（Vaswani等人，2017）這樣的基礎(chǔ)，當(dāng)代神經(jīng)網(wǎng)絡(luò)收集的知識(shí)仍然是零散的和點(diǎn)狀的，可以說(shuō)是有用的，當(dāng)然令人印象深刻，但永遠(yuǎn)不可靠（Marcus，2020）。

上面的例子（如果你把洗好的衣服放在家里，顯然不可能還在你媽媽家里）和更明確的GPT-2測(cè)試中都暗含著這種不可靠和不可靠，比如：

如果打破玻璃瓶水，水可能會(huì)滾動(dòng)。

如果打破玻璃瓶水，水可能會(huì)破裂一些并濺到地板上。水會(huì)產(chǎn)生氣泡，當(dāng)瓶子中的水量增加時(shí)氣泡會(huì)膨脹。

如果您打破了一個(gè)裝有玩具兵的玻璃瓶，玩具兵可能會(huì)跟隨您到那里。

至關(guān)重要的是，薩頓關(guān)于用“通用方法”代替人類知識(shí)的價(jià)值的例子來(lái)自封閉性領(lǐng)域，例如游戲，對(duì)象分類和語(yǔ)音識(shí)別，而常識(shí)則是開(kāi)放性的。在Go之類的游戲中獲勝與解釋和評(píng)估新聞故事或解決現(xiàn)實(shí)世界中意料之外的計(jì)劃問(wèn)題大不相同，例如阿波羅13號(hào)機(jī)如何確定如何在宇航員所在的瀕危航天器上解決空氣過(guò)濾器問(wèn)題快速耗盡。這是一種一次性解決方案，似乎超出了無(wú)知識(shí)的深度強(qiáng)化學(xué)習(xí)所可能管理的范圍。當(dāng)要知道干洗地點(diǎn)在哪里時(shí)（就像前面的例子一樣，昨天，我把衣服放在干洗店里了，還沒(méi)有撿起來(lái)。），您需要一個(gè)世界的內(nèi)部模型，以及一種隨著時(shí)間的推移更新模型的方法，這是一些語(yǔ)言學(xué)家稱為話語(yǔ)更新的過(guò)程（Bender＆Lascarides，2019）。像GPT-2這樣的系統(tǒng)根本沒(méi)有那樣的功能。

當(dāng)純粹的計(jì)算能力應(yīng)用于開(kāi)放式領(lǐng)域，如會(huì)話語(yǔ)言理解和對(duì)世界的推理時(shí)，事情就不會(huì)完全按照計(jì)劃進(jìn)行。結(jié)果總是過(guò)于尖刻和零散，不可靠。

是時(shí)候反思一下了：如果我們接受了深度學(xué)習(xí)的教訓(xùn)，但人類的知識(shí)和認(rèn)知模式再次成為尋求人工智能的一流公民，我們的系統(tǒng)會(huì)是什么樣子？

2，一種混合的、知識(shí)驅(qū)動(dòng)的、基于認(rèn)知模型的方法

許多認(rèn)知科學(xué)家，包括我自己，都以一種循環(huán)的方式來(lái)對(duì)待認(rèn)知：有機(jī)體（例如人類）從外部吸收感知信息，他們基于對(duì)信息的感知建立內(nèi)部認(rèn)知模型，然后做出尊重的決策。這些認(rèn)知模型，其中可能包括有關(guān)外部世界中存在哪種類型的實(shí)體，它們的屬性是什么以及這些實(shí)體之間如何關(guān)聯(lián)的信息。認(rèn)知科學(xué)家普遍認(rèn)識(shí)到，此類認(rèn)知模型可能不完整或不準(zhǔn)確，但也將它們視為有機(jī)體如何看待世界的關(guān)鍵（Gallistel，1990； Gallistel＆King，2010）。即使是不完美的形式，認(rèn)知模型也可以作為世界的有力指南。在很大程度上，有機(jī)體在世界上的繁榮程度取決于這些內(nèi)部認(rèn)知模型的良好程度。

電子游戲?qū)嵸|(zhì)上是按照類似的邏輯運(yùn)行的：該系統(tǒng)具有某種世界內(nèi)部模型，并且該模型會(huì)根據(jù)用戶輸入（以及游戲模擬世界中其他實(shí)體的活動(dòng)）定期進(jìn)行更新。游戲的內(nèi)部模型可能會(huì)跟蹤角色的位置，角色的健康狀況和所有物等。）游戲中發(fā)生的事情（用戶朝特定方向移動(dòng)后是否發(fā)生碰撞）是該模型動(dòng)態(tài)更新的功能。

語(yǔ)言學(xué)家通常根據(jù)一個(gè)相似的循環(huán)來(lái)理解語(yǔ)言：句子中的單詞被解析成一個(gè)語(yǔ)法，映射到一個(gè)語(yǔ)義上，這個(gè)語(yǔ)義指定了各種實(shí)體參與的事件之類的事情。該語(yǔ)義用于動(dòng)態(tài)更新世界模型（例如，各種實(shí)體的當(dāng)前狀態(tài)和位置）。機(jī)器人學(xué)的許多工作（雖然不是全部）都是以類似的方式進(jìn)行的：感知、更新模型、做出決策。（有些工作，特別是對(duì)物體抓取的端到端的深度學(xué)習(xí)不起作用。）

當(dāng)前論文最強(qiáng)烈、最核心的觀點(diǎn)是，如果我們不做類似的事情，我們就不會(huì)成功地尋求強(qiáng)大的智能。如果我們的人工智能系統(tǒng)不能利用對(duì)世界及其動(dòng)力學(xué)的大量知識(shí)，對(duì)外部世界的過(guò)于詳細(xì)、結(jié)構(gòu)化、內(nèi)部模型進(jìn)行描述和推理，它們將永遠(yuǎn)類似于GPT-2：它們會(huì)利用大量的相關(guān)數(shù)據(jù)庫(kù)，正確地處理一些事情，但它們不會(huì)理解正在發(fā)生的事情，我們也不會(huì)能夠依靠他們，特別是當(dāng)現(xiàn)實(shí)世界中的情況偏離訓(xùn)練數(shù)據(jù)時(shí)，就像他們經(jīng)常做的那樣。【如果GPT-2的輸入范圍擴(kuò)大到包括感性輸入而不僅僅是文本輸入，它會(huì)做得更好嗎？也許，但我不認(rèn)為僅僅擴(kuò)大輸入范圍就能解決系統(tǒng)缺乏明確的內(nèi)部模型的根本問(wèn)題。同時(shí)，值得注意的是，盲童發(fā)展出豐富的內(nèi)部模型，學(xué)習(xí)了相當(dāng)多的語(yǔ)言以及如何將其與這些模型聯(lián)系起來(lái)，完全沒(méi)有視覺(jué)輸入（Landau，Gleitman，&Landau，2009）。】

為了擁有能夠以健壯的方式對(duì)世界進(jìn)行推理的系統(tǒng)，我們需要什么計(jì)算先決條件？想要將深度學(xué)習(xí)（主要側(cè)重于學(xué)習(xí)）和經(jīng)典AI（更關(guān)注知識(shí)，推理和內(nèi)部認(rèn)知模型）之間的橋梁聯(lián)系起來(lái)，將需要做什么？

作為熱身運(yùn)動(dòng)，可以考慮將簡(jiǎn)單的任務(wù)作為較大挑戰(zhàn)的替代品。假設(shè)您正在構(gòu)建一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)，該系統(tǒng)必須基于少量數(shù)據(jù)來(lái)獲得廣泛范圍的概括，并且您將獲得少量這樣的訓(xùn)練對(duì)，其輸入和輸出均表示為二進(jìn)制數(shù)：

Input	Output
0010	0010
1000	1000
1010	1010
0100	0100

對(duì)于任何人來(lái)說(shuō)，很快就會(huì)發(fā)現(xiàn)這里有一個(gè)籠統(tǒng)的概括（稱為“規(guī)則”），例如恒等式的數(shù)學(xué)定律f（x）= x +0。適用于新案例[f（1111）= 1111; f（10101）= 10101，依此類推]。

令人驚訝的是，一些神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)（例如，多層感知器，最近被一本教科書描述為深度學(xué)習(xí)的典型例子）遇到了麻煩。這是一個(gè)多層感知器的示例，輸入在底部，輸出在頂部，中間是一個(gè)隱藏層。對(duì)于任何接觸過(guò)神經(jīng)網(wǎng)絡(luò)的人來(lái)說(shuō)，它應(yīng)該看起來(lái)很熟悉：

多層感知器接受身份功能訓(xùn)練

這樣的網(wǎng)絡(luò)可以容易地學(xué)習(xí)將輸入與輸出相關(guān)聯(lián)，并且實(shí)際上“通用函數(shù)逼近”的各種定律可以保證這一點(diǎn)。給定足夠的訓(xùn)練數(shù)據(jù)和通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行的足夠迭代，網(wǎng)絡(luò)可以輕松掌握訓(xùn)練數(shù)據(jù)。

當(dāng)一切順利的時(shí)候（例如，如果架構(gòu)設(shè)置正確，并且沒(méi)有陷入學(xué)習(xí)的局部極小值），它還可以推廣到其他示例，這些示例在重要方面與所看到的示例相似。在“培訓(xùn)分配范圍內(nèi)”，例如：

Test Input	Typical Test Output
1110	1110
1100	1100
0110	0110

但是，在訓(xùn)練分布之外進(jìn)行泛化卻是完全不同的局面：

Test Input	Typical Human Response	Typical Test Output
0011	0011	0010
1001	1001	1000
1101	1101	1110
1111	1111	1110

這樣的例子表明，盡管在訓(xùn)練分布范圍內(nèi)的案例表現(xiàn)良好，多層感知器神經(jīng)網(wǎng)絡(luò)畢竟還沒(méi)有學(xué)習(xí)到身份關(guān)系。如果同一系統(tǒng)僅針對(duì)偶數(shù)在f（x）=x上進(jìn)行訓(xùn)練，則不會(huì)將身份函數(shù)擴(kuò)展到奇數(shù)，這不在訓(xùn)練分布范圍內(nèi)（Marcus，1998）。舉幾個(gè)例子，每個(gè)輸出節(jié)點(diǎn)，包括最右邊的代表“ 1”位的節(jié)點(diǎn)，都應(yīng)以類似的方式處理：我們采用了最左邊的位抽象為最右邊的位的抽象概念。經(jīng)過(guò)反向傳播訓(xùn)練的多層感知器對(duì)不同的東西有反應(yīng)。最右邊的節(jié)點(diǎn)始終為零，因此網(wǎng)絡(luò)將繼續(xù)預(yù)測(cè)最右邊的節(jié)點(diǎn)將始終為零，而不管輸入的性質(zhì)如何，例如，得出f（1111）=1110。網(wǎng)絡(luò)以其自己獨(dú)特的方式進(jìn)行了概括，但并未概括人類自然會(huì)發(fā)生的身份關(guān)系。

添加隱藏層不會(huì)改變網(wǎng)絡(luò)的行為（Marcus，1998）；添加具有更多節(jié)點(diǎn)的隱藏層也不會(huì)改變（Marcus，1998）。當(dāng)然，可以將任意數(shù)量的解決方案組合在一起來(lái)解決特定的問(wèn)題（僅從偶數(shù)、二進(jìn)制示例中學(xué)習(xí)身份），我在這里僅使用簡(jiǎn)單的身份示例，僅用于說(shuō)明目的，但是在訓(xùn)練分布之外進(jìn)行外推的問(wèn)題很普遍，并且越來(lái)越得到認(rèn)可。JoelGrus在這里給出了一個(gè)類似的例子，游戲fizz buzz和Lake and Baroni（Lake&Baroni，2017）展示了一些現(xiàn)代自然語(yǔ)言系統(tǒng)如何容易受到類似問(wèn)題的影響，無(wú)法以各種方式將抽象模式概括為新單詞。Bengio在最近的NeurIPS演講（Bengio，2019）中對(duì)現(xiàn)存的中樞神經(jīng)網(wǎng)絡(luò)的能力進(jìn)行了限制。在規(guī)范的神經(jīng)網(wǎng)絡(luò)架構(gòu)中，廣泛的共性（如同一性）的非均勻擴(kuò)展是非常普遍的，在我看來(lái)，它仍然是進(jìn)展的主要障礙。

從本質(zhì)上講，某些種類的現(xiàn)存神經(jīng)網(wǎng)絡(luò)（例如此處討論過(guò)的反向傳播訓(xùn)練的多層感知器）在兩方面表現(xiàn)出色：記憶訓(xùn)練示例，以及在圍繞這些示例的點(diǎn)云內(nèi)插點(diǎn)，這些點(diǎn)圍繞超維空間的某些簇（我稱之為在培訓(xùn)空間中進(jìn)行概括），但在培訓(xùn)空間之外（在Bengio的措辭中，即培訓(xùn)分布）中，它們的推廣效果很差。

多層感知器：善于在訓(xùn)練樣本空間內(nèi)推廣，而不善于在訓(xùn)練樣本空間外推廣同一性函數(shù)。

結(jié)果是出現(xiàn)了兩個(gè)密切相關(guān)的問(wèn)題：

1.特質(zhì)：在開(kāi)放式領(lǐng)域中，如果系統(tǒng)缺乏可靠的方法來(lái)概括超出訓(xùn)練示例空間的內(nèi)容，則不能信任這些系統(tǒng)。如果你把每個(gè)單獨(dú)的系統(tǒng)看作一個(gè)函數(shù)逼近器，那么目前流行的系統(tǒng)往往擅長(zhǎng)于記憶示例，并且擅長(zhǎng)于訓(xùn)練示例附近的許多（盡管不是全部）示例，這使得它們對(duì)于圍繞分類的許多應(yīng)用程序很有用。但是，如果超出培訓(xùn)范圍，他們就很窮了。例如，最近的一個(gè)數(shù)學(xué)學(xué)習(xí)系統(tǒng)擅長(zhǎng)于1+1=2；1+1+1=3到1+1+1+1+1=6，但在1+1+1+1+1+1+1=7和所有更大的例子中都失敗了。（想象一下，在一個(gè)計(jì)算機(jī)程序中編寫一個(gè)FOR循環(huán)，其中只有小于7的計(jì)數(shù)器值才能信任執(zhí)行）。（相比之下，微軟Excel的Flash-fill是一種基于歸納程序綜合的符號(hào)系統(tǒng)，在許多情況下更有效（Polozov&Gulwani，2015）。

2.過(guò)分依賴訓(xùn)練制度的具體細(xì)節(jié)：盡管所有正常的人類學(xué)習(xí)者都掌握了他們的母語(yǔ)和對(duì)世界的理解，但盡管環(huán)境千差萬(wàn)別，神經(jīng)網(wǎng)絡(luò)往往對(duì)確切的細(xì)節(jié)非常敏感，例如訓(xùn)練項(xiàng)目的呈現(xiàn)順序（因此有一篇關(guān)于神經(jīng)網(wǎng)絡(luò)“課程”的文獻(xiàn)）。同樣地，三十年來(lái)人們已經(jīng)知道，它們?nèi)菀资艿綖?zāi)難性干擾的影響，即早期的關(guān)聯(lián)被后來(lái)的關(guān)聯(lián)覆蓋（McCloskey&Cohen，1989），這使得它們對(duì)項(xiàng)目呈現(xiàn)的順序非常敏感。潛在的解決方案仍在定期提出（McClelland，2019年），但問(wèn)題仍然存在。同樣，正如最近的一篇論文（Hillet al.，2019）所說(shuō)，“網(wǎng)絡(luò)表現(xiàn)出的泛化程度在很大程度上取決于給定任務(wù)實(shí)例化的環(huán)境細(xì)節(jié)。”

特質(zhì)和無(wú)法推斷超出訓(xùn)練分布范圍與我們?cè)S多常識(shí)性知識(shí)的普遍性相矛盾。這也使因果關(guān)系難以估量；另見(jiàn)Pearl和Mackenzie（Pearl＆Mackenzie，2018）。

從引言中擴(kuò)展一個(gè)例子，大多數(shù)普通的成年人和兒童將認(rèn)識(shí)到（大概是從特定的經(jīng)驗(yàn)中得出的）以下抽象的因果歸納是正確的：如果您打破了一個(gè)盛裝液體的瓶子，一些液體將會(huì)（其他事情正在發(fā)生）相等）可能會(huì)越過(guò)瓶子。

這樣的真理是抽象的，因?yàn)樗鼈儾粌H適用于某些特定項(xiàng)目，而且適用于大型的，不限成員名額的實(shí)體類別，而與瓶子的顏色或形狀或瓶子的大小無(wú)關(guān)，無(wú)論瓶子是否裝有水，咖啡，或不尋常的軟飲料。我們希望對(duì)于裝有滾珠軸承或游戲骰子的瓶子也能有類似的概括，即使我們以前對(duì)破碎瓶子的經(jīng)驗(yàn)幾乎只涉及盛裝液體的瓶子。

幾乎每個(gè)人也都會(huì)意識(shí)到以下概括是不切實(shí)際的：如果您打破了一個(gè)盛裝液體的瓶子，那么一些液體（其他東西將相等）可能會(huì)卷走300米。

同樣，無(wú)論個(gè)人經(jīng)驗(yàn)如何，我們都可以通過(guò)多種方式擴(kuò)展此知識(shí)，因?yàn)閷?duì)于大小不一的瓶子，甚至比以前遇到的瓶子大或小的瓶子，這種主張都不太可能成立。

在這種意義上，我們?nèi)绾未砗筒倏v并獲得抽象的知識(shí)，不僅涉及特定實(shí)體，還涉及整個(gè)事物類？

外推的挑戰(zhàn)意味著像反向傳播訓(xùn)練的多層感知器這樣的通用工具本身并不是適合該工作的工具。相反，我們必須找到一種替代的機(jī)制來(lái)學(xué)習(xí)，表示和擴(kuò)展抽象知識(shí)。

2.1混合架構(gòu)

2.1.1變量上的符號(hào)運(yùn)算提供了唯一的已知解決方案，但解決方案是局限的

解決方案變量上的符號(hào)運(yùn)算提供了一個(gè)潛在的答案-每天幾乎每秒使用數(shù)萬(wàn)億次的解決方案，幾乎是世界上所有軟件的基礎(chǔ)。特別是，實(shí)際上，每個(gè)計(jì)算程序都包含四個(gè)基本概念：變量，實(shí)例，將變量綁定到實(shí)例的綁定以及對(duì)變量的操作。

這些想法中的每一個(gè)都是小學(xué)代數(shù)所熟悉的，其中像x和y這樣的實(shí)體是變量。特定數(shù)字（2、3.5等）是這些變量可能綁定的實(shí)例（例如，x當(dāng)前可能等于3）。操作包括加法和乘法。這些使得可以表示諸如y = x + 2之類的關(guān)系，這些關(guān)系自動(dòng)擴(kuò)展到某個(gè)類中的所有值（例如，所有數(shù)字）。將變量連接到實(shí)例的過(guò)程有時(shí)也稱為變量綁定。

當(dāng)然，計(jì)算機(jī)程序是建立在同一根基石上的。算法主要是根據(jù)對(duì)變量執(zhí)行的操作來(lái)指定的。將變量綁定到實(shí)例，調(diào)用算法，執(zhí)行操作，并返回值。

重要的是，核心操作的指定方式通常適用于某個(gè)類的所有實(shí)例（例如所有整數(shù)、所有字符串或所有浮點(diǎn)數(shù)）。核心操作通常包括一些基本操作，如算術(shù)運(yùn)算（加法、乘法等）、比較（x的值是否大于y的值）和控制結(jié)構(gòu)（對(duì)變量n當(dāng)前綁定到的任何值執(zhí)行n次操作；如果x的值超過(guò)y的值，則選擇備選方案a），否則選擇備選方案b等）。一級(jí)近似（忽略bug、程序員邏輯中的錯(cuò)誤等），這意味著正確實(shí)現(xiàn)的函數(shù)適用于某個(gè)類中的所有輸入，完全獨(dú)立于它們可能暴露于或不暴露于的輸入。

值得注意的是，這種根據(jù)操作定義的功能定義事物的方法是與標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)完全不同的范例。機(jī)器學(xué)習(xí)系統(tǒng)通常通過(guò)Judea Pearl將其比作曲線擬合的過(guò)程來(lái)學(xué)習(xí)將輸入變量與輸出變量相關(guān)的函數(shù)，而程序員通常根據(jù)變量的運(yùn)算來(lái)獨(dú)立于訓(xùn)練數(shù)據(jù)來(lái)定義其算法。不用說(shuō)，它已經(jīng)很好地服務(wù)于傳統(tǒng)的計(jì)算機(jī)程序員，支持從操作系統(tǒng)到Web瀏覽器到視頻游戲再到電子表格等的所有內(nèi)容。

至關(guān)重要的是，通常將系統(tǒng)對(duì)變量的核心操作構(gòu)建為獨(dú)立于經(jīng)驗(yàn)而系統(tǒng)地工作。例如，微處理器中的循環(huán)移位操作的機(jī)制是由一組并行的子操作定義的，每個(gè)子操作一個(gè)位，直到微處理器字的寬度。不管以前是否使用過(guò)該操作，其操作都相同，因此無(wú)需學(xué)習(xí)。程序員可以放心地預(yù)期，無(wú)論經(jīng)驗(yàn)如何，換檔操作都將起作用，并且無(wú)論經(jīng)驗(yàn)如何，將來(lái)都將以此方式繼續(xù)進(jìn)行。所有這些機(jī)制（變量，實(shí)例，綁定和操作）的優(yōu)點(diǎn)在于，它允許程序員以某種抽象級(jí)別指定事物，并以某種可靠性作為副產(chǎn)品。

總的來(lái)說(shuō)，關(guān)于變量，綁定，實(shí)例和對(duì)變量的操作的這四個(gè)假設(shè)構(gòu)成了符號(hào)操縱的核心（Newell，1980； Marcus，2001）。（符號(hào)本身只是對(duì)其他系統(tǒng)使用的事物進(jìn)行編碼的簡(jiǎn)單方式，例如用于表示ASCII代碼中的字母的二進(jìn)制數(shù)字模式，或允許神經(jīng)網(wǎng)絡(luò)中的輸出節(jié)點(diǎn)表示特定單詞的編碼據(jù)我所知，目前所有的系統(tǒng)都使用它們；請(qǐng)參閱Marcus 2001，第2章。某些符號(hào)處理系統(tǒng)可能只有少量的操作，例如加法，連接和比較，而另一些符號(hào)可能具有更豐富的操作（例如，復(fù)雜邏輯公式的統(tǒng)一），就像微處理器的大小可能有所不同一樣。他們的核心指令集?？梢栽诜?hào)處理體系結(jié)構(gòu)上構(gòu)建遞歸，但這并不是絕對(duì)的邏輯要求。

正如我所說(shuō)（Marcus，2001；Marcus，1998；Marcus，Vijayan，Bandi Rao，＆Vishton，1999；Berent，Marcus，Shimron，＆Gafos，2002；Berent，Vaknin，＆Marcus，2007），某種形式的符號(hào)操縱似乎對(duì)人類認(rèn)知是必不可少的，比如當(dāng)一個(gè)孩子學(xué)會(huì)了一種抽象的語(yǔ)言模式，或者一個(gè)像姐妹這樣的詞的含義可以被理解應(yīng)用于無(wú)限多的家庭，或者當(dāng)一個(gè)成年人以一種新穎的方式擴(kuò)展了一種熟悉的語(yǔ)言模式，這種方式超越了訓(xùn)練分布（Berent et al.，2002；Berent et al.，2007）。一些最有力的證據(jù)來(lái)自1999年的一項(xiàng)研究（Marcus等人。，1999年），我的同事和我展示了7個(gè)月大的嬰兒能夠識(shí)別簡(jiǎn)單的抽象模式，比如拉塔塔中的ABB模式，并將它們從一組訓(xùn)練樣本中推斷出完全由不同音節(jié)組成的新字符串，這些音節(jié)在語(yǔ)音上與他們的訓(xùn)練集沒(méi)有重疊。隨后的研究表明，即使是新生兒似乎也有能力進(jìn)行這種推斷。Gallistel和King（Gallistel和King，2010）認(rèn)為變量的存儲(chǔ)和檢索對(duì)于動(dòng)物認(rèn)知至關(guān)重要。例如，蜜蜂似乎能夠?qū)⑻?yáng)方位角功能擴(kuò)展到它們未曾接觸過(guò)的光照條件。（Dyer和Dickinson，1994年）。

符號(hào)處理的通用機(jī)制也為結(jié)構(gòu)化表示提供了基礎(chǔ)（Marcus，2001）。例如，計(jì)算機(jī)程序通常使用由符號(hào)構(gòu)成的樹(shù)形結(jié)構(gòu)，這些符號(hào)通過(guò)對(duì)變量的操作組合而成，以表示各種各樣的事物（例如層次結(jié)構(gòu)文件夾或目錄）。

同樣，符號(hào)操縱的機(jī)制允許跟蹤個(gè)體隨時(shí)間變化的屬性（例如，以數(shù)據(jù)庫(kù)記錄的形式）。這些能力似乎對(duì)于人類語(yǔ)言（如遞歸句子結(jié)構(gòu)）以及隨著時(shí)間的變化而對(duì)個(gè)體和對(duì)象的了解至關(guān)重要（Marcus，2001）?！尽洞鷶?shù)思維》的第5章提供了一些示例，這些示例在消除連接主義模型的范圍之外，其中許多示例依賴于實(shí)體隨著時(shí)間的推移而存在。）這種機(jī)制非常強(qiáng)大。世界上所有的Web瀏覽器，世界上所有的操作系統(tǒng)，世界上所有的應(yīng)用程序等都建立在它們之上。（具有諷刺意味的是，幾乎在世界上所有神經(jīng)網(wǎng)絡(luò)的規(guī)范和執(zhí)行中都使用了相同的工具）。】

然而，在歷史上，主流的深度學(xué)習(xí)在很大程度上試圖擺脫符號(hào)操縱機(jī)制，而這種機(jī)制往往是有意回避的，這是為什么神經(jīng)網(wǎng)絡(luò)提供了一種替代經(jīng)典范式的號(hào)召的一部分。魯梅爾哈特和麥克萊蘭（1986，#39979；）在著名的PDP書籍中，將符號(hào)操縱視為一種邊緣現(xiàn)象，而不是人類計(jì)算的本質(zhì)。2015年，辛頓將符號(hào)比作“發(fā)光的以太”，認(rèn)為將符號(hào)邏輯作為人工智能的一個(gè)組成部分的追求是，

認(rèn)為光波只能通過(guò)在發(fā)光的以太中造成干擾而在太空中傳播的信念，這是不正確的……與科學(xué)家……被令人信服的但不正確的類比誤導(dǎo)了，他們只知道他們知道具有所需特性的系統(tǒng)。

令人驚訝的是，在神經(jīng)網(wǎng)絡(luò)上的大量工作中也缺少個(gè)人的數(shù)據(jù)庫(kù)式記錄之類的想法，而僅在很小的研究中發(fā)現(xiàn)了諸如層次結(jié)構(gòu)化句子之類的復(fù)雜結(jié)構(gòu)化表示形式，而這兩者的規(guī)范輸入和輸出是簡(jiǎn)單的矢量或二維位圖，而巧妙地避免了針對(duì)個(gè)人的分層數(shù)據(jù)結(jié)構(gòu)和記錄。（DeepMind有趣的新MEMO架構(gòu)（Banino等人，2020年）幾乎代表了一個(gè)記錄數(shù)據(jù)庫(kù)。）

并非一定要這樣。例如，原則上，人們可以嘗試構(gòu)建與符號(hào)操縱兼容的神經(jīng)網(wǎng)絡(luò)采用的術(shù)語(yǔ)中的“實(shí)現(xiàn)連接主義”，也可以嘗試建立與之兼容的神經(jīng)網(wǎng)絡(luò)。無(wú)需依靠符號(hào)操縱原理（“消除聯(lián)系主義”）或兩者之間的某種混合，就可以進(jìn)行操作。到目前為止，絕大多數(shù)工作都是消除主義的，但這種優(yōu)勢(shì)反映了社會(huì)學(xué)事實(shí)，而不是邏輯上的必要性。

我預(yù)計(jì)，幾年內(nèi)，許多人會(huì)想，為什么這么長(zhǎng)時(shí)間以來(lái)，深度學(xué)習(xí)在很大程度上沒(méi)有使用符號(hào)操縱這一極具價(jià)值的工具；實(shí)際上，人類所有偉大的工程成就都依賴于某種符號(hào)推理，人類在日常認(rèn)知中利用它們的證據(jù)是巨大的。事實(shí)上，正如我將在下面討論的，隨著一種新的、更廣泛的實(shí)用主義的暗示，事情終于開(kāi)始改變了，我希望這種實(shí)用主義能夠克服先前的教條。

本文的第一個(gè)主要主張是：要建立一種強(qiáng)大的，知識(shí)驅(qū)動(dòng)的AI方法，我們必須在工具包中使用符號(hào)處理機(jī)制。太多有用的知識(shí)是抽象的，如果沒(méi)有表示和操縱抽象的工具就無(wú)法做到，并且迄今為止，我們知道的唯一可以可靠地操縱這種抽象知識(shí)的機(jī)器就是符號(hào)操縱的設(shè)備。

遺憾的是，就變量本身而言，運(yùn)算的手段對(duì)學(xué)習(xí)沒(méi)有任何幫助。【歸納邏輯編程（Cropper，Morel和Muggleton，2019年）是一種純粹基于規(guī)則的學(xué)習(xí)方法，值得一些考慮，盡管不在本文的討論范圍之內(nèi)。】

正是從那里，混合架構(gòu)的基本需求，結(jié)合符號(hào)操作和其他技術(shù)，如深度學(xué)習(xí)，最根本的東西出現(xiàn)了。深度學(xué)習(xí)提高了學(xué)習(xí)的門檻，特別是在大型數(shù)據(jù)集上，符號(hào)操作為表示和操作抽象設(shè)置標(biāo)準(zhǔn)。很明顯，我們需要把兩者（或類似的東西【雖然我很有信心，強(qiáng)大的智能將依賴于某種混合，將符號(hào)運(yùn)算與機(jī)器學(xué)習(xí)機(jī)制相結(jié)合，但目前尚不清楚深度學(xué)習(xí)（如目前實(shí)踐的）是否會(huì)在其作為主導(dǎo)機(jī)器學(xué)習(xí)機(jī)制的角色中發(fā)揮最后的作用，或者這種角色是否會(huì)在某種繼承者身上發(fā)揮，e、例如，在數(shù)據(jù)和能源使用方面更易處理或更高效。諸如統(tǒng)計(jì)關(guān)系學(xué)習(xí)（Raedt，Kers ting，Natarajan，&Poole，2016）和概率規(guī)劃（Bingham et al.，2019）等受到較少關(guān)注的方法非常值得考慮；有關(guān)概述，請(qǐng)參見(jiàn)van den Broeck（van den Broeck，2019）。】）結(jié)合起來(lái)。

2.1.2混合動(dòng)力通常是有效的

混合動(dòng)力并不是什么新鮮事物：Pinker和我在三年前（Marcus等，1992）提出，關(guān)于兒童如何學(xué)習(xí)英語(yǔ)過(guò)去時(shí)的最好解釋是混合動(dòng)力：一條規(guī)則（添加到動(dòng)詞詞干）形成規(guī)則動(dòng)詞的過(guò)去式，以及類似神經(jīng)網(wǎng)絡(luò)的系統(tǒng)來(lái)獲取和檢索不規(guī)則動(dòng)詞。長(zhǎng)期以來(lái)，明顯需要將符號(hào)知識(shí)與感知知識(shí)相結(jié)合（例如，人們希望能夠通過(guò)將對(duì)馬的外觀的感知知識(shí)與將斑馬比作有條紋的馬相類似的語(yǔ)言定義相結(jié)合來(lái)識(shí)別斑馬【現(xiàn)有的零射擊學(xué)習(xí)文獻(xiàn)試圖整合各種形式的多模態(tài)知識(shí)，但據(jù)我所知，目前沒(méi)有一個(gè)系統(tǒng)能夠利用字典定義中的精確信息?！浚?/p>

像Ron Sun（Sun，1996）這樣的計(jì)算機(jī)科學(xué)家在整個(gè)1990年代都倡導(dǎo)混合模型。 Shavlik（Shavlik，1994）表明，有可能將（有限的）邏輯子集轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)。 D’AvilaGarcez，Lamb和Gabbay（D’Avila Garcez，Lamb和Gabbay，2009年）是有關(guān)神經(jīng)符號(hào)方法的重要早期工作。

壞消息是這些早期的混合方法從來(lái)沒(méi)有受到太大的關(guān)注。當(dāng)時(shí)的結(jié)果并不令人信服（可能部分是因?yàn)樵赥PU之前的日子里，神經(jīng)網(wǎng)絡(luò)本身的能力不足）。而且神經(jīng)網(wǎng)絡(luò)社區(qū)經(jīng)常不屑一顧混合動(dòng)力（以及涉及符號(hào)操縱的任何事物）。直到最近，混合符號(hào)在歷史上一直被困在符號(hào)方法和神經(jīng)方法之間的交火中。

好消息是，符號(hào)操縱世界和深度學(xué)習(xí)領(lǐng)域之間的早就應(yīng)該融化了。例如，Yoshua Bengio在我們2019年12月的辯論中談到了合并可以按名稱傳遞變量的技術(shù)，這是一些早期計(jì)算機(jī)語(yǔ)言中使用的標(biāo)準(zhǔn)符號(hào)操作技術(shù)。越來(lái)越多的努力正在積極嘗試將符號(hào)和神經(jīng)網(wǎng)絡(luò)更緊密地構(gòu)建在一起，有時(shí)出于實(shí)際需要，有時(shí)出于研究工作以開(kāi)發(fā)新方法。

世界上一些最龐大、最活躍的商業(yè)人工智能系統(tǒng)，比如谷歌搜索，實(shí)際上是混合了符號(hào)操作和深度學(xué)習(xí)的混合體。雖然Google搜索并不是我們心目中強(qiáng)大的人工智能，但它是一個(gè)高效的人工智能信息檢索系統(tǒng)，能夠以高精度、大容量的方式工作。它的設(shè)計(jì)者以高度數(shù)據(jù)驅(qū)動(dòng)的方式對(duì)其進(jìn)行了廣泛的優(yōu)化，目前（根據(jù)多種來(lái)源）通過(guò)混合經(jīng)典的、符號(hào)操作的人工智能技術(shù)（例如，表示和查詢谷歌知識(shí)圖的工具，它使用經(jīng)典的符號(hào)圖結(jié)構(gòu)表示知識(shí)，這些符號(hào)圖結(jié)構(gòu)使用神經(jīng)網(wǎng)絡(luò)社區(qū)的工具（例如，BERT和RankBrain）。谷歌做了大量的實(shí)證實(shí)驗(yàn)，看看什么在大范圍內(nèi)運(yùn)作良好，而事實(shí)上，即使在深度學(xué)習(xí)的時(shí)代，他們?nèi)匀皇褂霉雀柚R(shí)圖，這既說(shuō)明了符號(hào)的價(jià)值，也說(shuō)明了混合動(dòng)力車的價(jià)值。（不幸的是，我知道沒(méi)有詳細(xì)的公開(kāi)討論各個(gè)組成部分的相對(duì)優(yōu)勢(shì)和劣勢(shì)。）

OpenAI的Rubik求解器（OpenAI等人，2019）（盡管它并未如此推銷）是用于解決Rubik立方體的認(rèn)知方面的符號(hào)算法與針對(duì)手動(dòng)操作方面的深度強(qiáng)化學(xué)習(xí)的混合體。

Mao等人（Mao，Gan，Kohli，Tenenbaum，&Wu，2019）最近提出了一種用于視覺(jué)問(wèn)答的混合神經(jīng)網(wǎng)絡(luò)符號(hào)系統(tǒng)，稱為NS-CL（神經(jīng)符號(hào)概念學(xué)習(xí)者的縮寫），該系統(tǒng)超過(guò)了他們研究的深度學(xué)習(xí)方案。Janner等人的相關(guān)工作（Janner等人，2018年）。通過(guò)對(duì)單個(gè)對(duì)象的顯式記錄進(jìn)行深度學(xué)習(xí)，以便做出預(yù)測(cè)和基于物理的計(jì)劃，遠(yuǎn)遠(yuǎn)超過(guò)可比的純黑盒深度學(xué)習(xí)方法。Evans和Grefenstette（Evans和Grefenstette，2017）展示了混合模型如何更好地捕捉各種學(xué)習(xí)挑戰(zhàn)，例如挑戰(zhàn)multlayer感知機(jī)的游戲fizzbuzz。Smolensky和Schmidhuber等團(tuán)隊(duì)將BERT與張量積（Smolensky et al.，2016）相結(jié)合，形成了一個(gè)表示符號(hào)變量及其綁定的正式系統(tǒng)（Schlag et al.，2019），創(chuàng)建了一個(gè)稱為TP Transformer的新系統(tǒng)，從而在一個(gè)數(shù)學(xué)問(wèn)題集上取得了更好的結(jié)果。

神經(jīng)符號(hào)模型的基礎(chǔ)工作是（D\\\\\\'Avila Garcez，Lamb，&Gabbay，2009），它檢驗(yàn)了符號(hào)系統(tǒng)和神經(jīng)網(wǎng)絡(luò)之間的映射，并顯示了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中可以表示的知識(shí)種類的重要限制，并從表征和推理能力的角度論證了符號(hào)和神經(jīng)網(wǎng)絡(luò)在構(gòu)建混合系統(tǒng)中的價(jià)值。在一級(jí)近似下，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是命題邏輯的引擎，并且缺乏表示量化語(yǔ)句的好方法，就像在謂詞演算中使用諸如every和some之類的量詞一樣。邏輯張量網(wǎng)絡(luò)（Serafini&Garcez，2016）旨在在深度張量神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)形式邏輯。

統(tǒng)計(jì)關(guān)系學(xué)習(xí)（Raedtet al.，2016）代表了另一種有趣的方法，旨在將邏輯抽象和關(guān)系與概率和統(tǒng)計(jì)結(jié)合起來(lái)，正如Vergari et al.最近關(guān)于概率電路的工作一樣（Vergari，Di Mauro，&Vanden Broek，2019）。Domingo的Markov邏輯網(wǎng)絡(luò)試圖將符號(hào)操作與機(jī)器學(xué)習(xí)的優(yōu)勢(shì)結(jié)合起來(lái)（Richardson&Domingo，2006）。Uber的Pyro（Bingham等人，2019年）

Arabshahi等人（Arabshahi，Lu，Singh，&Anandkumar，2019）展示了如何通過(guò)用作堆棧的外部?jī)?nèi)存來(lái)擴(kuò)充樹(shù)LSTM。Fawzi等人（Fawzi，Malinowski，F(xiàn)awzi，&Fawzi，2019）最近提出了一個(gè)用于搜索多項(xiàng)式不等式證明的混合系統(tǒng)。Minervini等人（Minervini、Bo?njak、Rockt?schel、Riedel和Grefenstette，2019）最近提出了一種混合神經(jīng)符號(hào)推理系統(tǒng)，稱為貪婪神經(jīng)定理證明器（GNTP），可用于大規(guī)模數(shù)據(jù)庫(kù)；Gupta等人（Gupta、Lin、Roth、Singh和Gardner，2019）也在推理方面取得了進(jìn)展。艾倫人工智能研究所（Allen Institute for AI）的亞里士多德（ARISTO）是一個(gè)復(fù)雜的多部分混合系統(tǒng)，在八年級(jí)科學(xué)考試中顯著優(yōu)于其他系統(tǒng)（Clark et al.，2019）。Battaglia已經(jīng)發(fā)表了許多關(guān)于物理推理系統(tǒng)的有趣論文，這些系統(tǒng)集成了符號(hào)圖和深度學(xué)習(xí)（例如，Cranmer，Xu，Battaglia，&Ho，2019）

所有這些只是一個(gè)快速發(fā)展領(lǐng)域的幾個(gè)例子?，F(xiàn)在阻礙勝利者還為時(shí)過(guò)早，但要構(gòu)建將符號(hào)方法的優(yōu)勢(shì)與機(jī)器學(xué)習(xí)的見(jiàn)解相結(jié)合的體系結(jié)構(gòu)，還有很多第一步，以便開(kāi)發(fā)更好的技術(shù)，從大型、通常是嘈雜的數(shù)據(jù)集中提取和概括抽象知識(shí)。2.1.3對(duì)混合模型和符號(hào)操縱的普遍反對(duì)意見(jiàn)

盡管人們對(duì)研究混合模型的興趣日益濃厚，并且有多種考慮，但是在機(jī)器學(xué)習(xí)社區(qū)的某些地方，人們對(duì)符號(hào)操縱的厭惡情緒日益高漲。如前所述，例如，杰弗里·欣頓（Geoffrey Hinton）認(rèn)為，歐洲對(duì)混合動(dòng)力汽車的投資將是“巨大的錯(cuò)誤”，并將混合動(dòng)力汽車的研究比作電動(dòng)汽車時(shí)代使用過(guò)時(shí)的汽油發(fā)動(dòng)機(jī)。

但是據(jù)我所知，Hinton近年來(lái)沒(méi)有寫過(guò)多篇有關(guān)他為何反對(duì)部分象征性混合模型的文章。

以下是我從其他人那里聽(tīng)到的一些常見(jiàn)異議，并對(duì)每個(gè)異議都做出了簡(jiǎn)短回應(yīng)：

?符號(hào)在生物學(xué)上不合理。對(duì)此異議至少存在四個(gè)問(wèn)題（關(guān)于相似的觀點(diǎn)，另請(qǐng)參見(jiàn)Gallistel和King（Gallistel＆King，2010年））。

首先，僅僅因?yàn)槲覀冞€沒(méi)有確定支持符號(hào)操縱的神經(jīng)機(jī)制并不意味著我們永遠(yuǎn)不會(huì)。已經(jīng)確定了一些有希望的可能的神經(jīng)基質(zhì)（Frankland&Greene JD，2019；Marcus，Marblestone，&Dean，2014；Legenstein，Papadimitriou，Vempala，&Maass，2016），其他文獻(xiàn)指出了理論上合理的神經(jīng)基質(zhì)（Marcus，2001）。沒(méi)有令人信服的證據(jù)表明，沒(méi)有這樣的機(jī)制根本不可能存在于大腦的濕部。今年我們已經(jīng)看到樹(shù)突中的一個(gè)小隔間可以計(jì)算XOR（Gidon etal.，2020），這增加了單個(gè)神經(jīng)元可能比通常假設(shè)的復(fù)雜得多的可能性。例如，對(duì)符號(hào)操作至關(guān)重要的變量值的存儲(chǔ)和檢索可能在單個(gè)神經(jīng)元內(nèi)起作用（Gallistel&King，2010）。

第二，大量心理學(xué)證據(jù)（見(jiàn)上文第2.1.1節(jié)）支持這樣一種觀點(diǎn)，即符號(hào)操作在大腦中是具體化的，比如嬰兒將新的抽象模式擴(kuò)展到新項(xiàng)目的能力，成年人將抽象的語(yǔ)言模式概括為他們沒(méi)有直接數(shù)據(jù)的非本族語(yǔ)的能力，蜜蜂將太陽(yáng)方位角函數(shù)概括為他們沒(méi)有直接觀察到的光照條件的能力。人類還可以學(xué)習(xí)在外部表示的符號(hào)上應(yīng)用形式邏輯，并編程和調(diào)試符號(hào)表示的計(jì)算機(jī)程序，所有這些都表明，至少在某些配置中，神經(jīng)軟件確實(shí)可以（在某種程度上，部分受內(nèi)存限制）操縱符號(hào)。我們可以理解語(yǔ)言本質(zhì)上是無(wú)限多樣的，從無(wú)數(shù)的句子中推斷出無(wú)數(shù)的意義。在整個(gè)認(rèn)知過(guò)程中，作為變量運(yùn)算特征的自由概括是普遍存在的。

第三，現(xiàn)有的神經(jīng)認(rèn)知證據(jù)的缺乏幾乎沒(méi)有告訴我們什么。我們目前還沒(méi)有詳細(xì)了解加里·卡斯帕羅夫水平的象棋是如何在大腦中實(shí)現(xiàn)的，但這并不意味著加里·卡斯帕羅夫的象棋在某種程度上依賴于非神經(jīng)機(jī)制。

最后，即使結(jié)果表明大腦沒(méi)有使用符號(hào)操縱機(jī)制，對(duì)于人工智能為什么不能使用這些機(jī)制，也沒(méi)有原則性的論據(jù)。人類沒(méi)有浮點(diǎn)運(yùn)算芯片，但這并不意味著他們?cè)谌斯ぶ悄苤袘?yīng)該是多余的。人類顯然有寫一次的機(jī)制，可以立即檢索短期記憶，這是某種形式變量綁定的前提，但我們不知道相關(guān)機(jī)制是什么。這并不意味著我們不應(yīng)該在人工智能中使用這種機(jī)制。

?過(guò)去，符號(hào)系統(tǒng)/混合系統(tǒng)運(yùn)行不佳。我經(jīng)常聽(tīng)到這種說(shuō)法，但是在我看來(lái)，這是一個(gè)奇怪的說(shuō)法。將混合模型描述為明顯無(wú)效或過(guò)時(shí)的混合體，這并不是現(xiàn)實(shí)的準(zhǔn)確描述，而實(shí)際上已經(jīng)對(duì)其進(jìn)行了積極有效的研究，如2.1.2.10節(jié)中所述。

?符號(hào)操縱/混合系統(tǒng)無(wú)法縮放。盡管這里有一些真正的問(wèn)題需要解決，而且必須花大量的精力來(lái)約束符號(hào)搜索，以便能夠?qū)崟r(shí)處理復(fù)雜的問(wèn)題，Google說(shuō)

知識(shí)圖似乎至少是這一異議的部分反例，最近在軟件和硬件驗(yàn)證方面取得的大規(guī)模成功也是如此。Minervini等人（Minervini等人，2019年）和Yang等人（Yang，Yang，&Cohen，2017年）等論文在構(gòu)建端到端可區(qū)分的混合神經(jīng)符號(hào)系統(tǒng)方面取得了實(shí)際進(jìn)展，這些系統(tǒng)在規(guī)模上起作用。與此同時(shí)。沒(méi)有正式的證據(jù)證明不可能充分縮放，給予適當(dāng)?shù)膯l(fā)，存在。

在過(guò)去的三十年中，我看到了很多對(duì)符號(hào)的偏見(jiàn)，但是我還沒(méi)有看到對(duì)它們的有說(shuō)服力的論據(jù)。

2.1.4確定給定系統(tǒng)是否為混合系統(tǒng)并不總是一件容易的事

一種常見(jiàn)的（雖然不是普遍的）對(duì)符號(hào)的偏見(jiàn)產(chǎn)生了一個(gè)特殊的社會(huì)學(xué)事實(shí)：研究人員偶爾會(huì)建立包含符號(hào)操縱裝置的系統(tǒng)，卻不承認(rèn)（甚至不考慮事實(shí)）他們已經(jīng)這樣做了；我在馬庫(kù)斯，2001中給出了一些具體的例子。例如，如上所述，OpenAI Rubik的立方體解算器（OpenAIet al.，2019）包含了一個(gè)被稱為Kociemba算法的符號(hào)組件，但只有非常細(xì)心和成熟的讀者才會(huì)認(rèn)識(shí)到這一點(diǎn)。“混合”和“象征”這兩個(gè)詞從未被提及。而“神經(jīng)”這個(gè)詞出現(xiàn)了13次。

因?yàn)槟悴荒芸偸峭ㄟ^(guò)粗略的檢查來(lái)告訴我們一個(gè)給定的系統(tǒng)是如何工作的，所以從邏輯上講，有可能無(wú)意中構(gòu)建一臺(tái)有效地執(zhí)行符號(hào)操作的機(jī)器，而沒(méi)有意識(shí)到這樣做。事實(shí)上，一個(gè)網(wǎng)絡(luò)設(shè)計(jì)師可能會(huì)無(wú)意中發(fā)現(xiàn)一些與符號(hào)FPGA同構(gòu)的東西，而從來(lái)沒(méi)有意識(shí)到它。

正如本吉奧在我們最近的辯論后對(duì)話中所建議的那樣，深度學(xué)習(xí)系統(tǒng)可以為符號(hào)操縱提供一個(gè)真正的替代方案，這是可以想象的：

我敢打賭，深度學(xué)習(xí)變體可以實(shí)現(xiàn)人類可能實(shí)際執(zhí)行的類似符號(hào)的計(jì)算形式，但使用的基底與GOFAI非常不同，限制與人類經(jīng)歷的類似（例如，只有很少的遞歸級(jí)別），在GOFAI推理中，除了能夠?qū)W習(xí)和處理不確定性之外，還避免了與搜索問(wèn)題相關(guān)的主要效率問(wèn)題。

我們不能想當(dāng)然地認(rèn)為任何給定的神經(jīng)網(wǎng)絡(luò)都提供了一種替代方法。

評(píng)估一個(gè)系統(tǒng)是執(zhí)行“類似符號(hào)的計(jì)算”的替代方案，還是使用真正的符號(hào)操縱操作進(jìn)行計(jì)算的唯一方法是探索映射：考慮該體系結(jié)構(gòu)及其組件是否映射到符號(hào)操縱的組件（在某種意義上，化學(xué)映射到物理學(xué)）。Marr（Marr，1982）的計(jì)算水平清楚地表明了這一點(diǎn)：任何給定的計(jì)算都可以以多種方式實(shí)現(xiàn)，并且不是每個(gè)實(shí)現(xiàn)都是透明的。化學(xué)映射到物理上，但這并不意味著映射很容易被發(fā)現(xiàn)?！罢_”的神經(jīng)網(wǎng)絡(luò)可能映射到符號(hào)操縱機(jī)器上，也可能映射到符號(hào)操縱機(jī)器上；真相可能很難辨別。

我堅(jiān)信，任何健壯的系統(tǒng)都會(huì)有某種機(jī)制來(lái)綁定變量，并在綁定后對(duì)這些變量執(zhí)行操作。但我們看不出來(lái)。

為了避免這聽(tīng)起來(lái)很奇怪，回想一下映射對(duì)于理解神經(jīng)科學(xué)以及它與計(jì)算的關(guān)系同樣重要。無(wú)論我們的大腦中實(shí)現(xiàn)了什么樣的計(jì)算，都是在沒(méi)有任何有意識(shí)的決策的情況下實(shí)現(xiàn)的；它們是進(jìn)化的。其中很少有透明的。這是神經(jīng)科學(xué)家和那些致力于以大腦為靈感的人工智能方法的人工智能研究人員的工作，他們對(duì)大腦進(jìn)行逆向工程，以找出存在哪些計(jì)算。任何驅(qū)動(dòng)大腦的東西都可能會(huì)或不會(huì)映射到我們目前的理論。當(dāng)我們?cè)u(píng)估大腦如何工作的一些理論時(shí)，我們正在評(píng)估大腦的機(jī)制是否符合這個(gè)理論。有些理論將包含與大腦中發(fā)生的實(shí)際過(guò)程同構(gòu)的結(jié)構(gòu)，而另一些則不會(huì)。Knudsen和Konishi（Knudsen和Konishi，1979）對(duì)谷倉(cāng)貓頭鷹聲音定位的仔細(xì)研究是一個(gè)很好的例子，說(shuō)明了一個(gè)神經(jīng)回路最終是如何被破譯并映射到基礎(chǔ)計(jì)算上的；很少有研究項(xiàng)目能與之相媲美。

人工智能中也出現(xiàn)了類似的問(wèn)題：當(dāng)一個(gè)系統(tǒng)工作時(shí)，理解是什么驅(qū)動(dòng)了它的性能是有價(jià)值的，但往往是不重要的。

一個(gè)系統(tǒng)將所有的經(jīng)驗(yàn)存儲(chǔ)在一個(gè)單獨(dú)的內(nèi)存中，而不是可以檢索和計(jì)算出來(lái)的，可以用“神經(jīng)”的術(shù)語(yǔ)來(lái)描述，但是它的組件可以識(shí)別地起到維護(hù)變量、綁定、實(shí)例和變量操作（如檢索）的作用。

如果我們通過(guò)某種搜索過(guò)程（無(wú)論是隨機(jī)的、試錯(cuò)的、進(jìn)化的、AutoML的或其他方法）來(lái)創(chuàng)建適當(dāng)?shù)木C合系統(tǒng)，我們將解決部分工程問(wèn)題，但不一定科學(xué)地理解是什么使這些模型起作用。后者是逆向工程的工作，是發(fā)現(xiàn)和拒絕可能的映射，就像神經(jīng)科學(xué)一樣。

如果完美的神經(jīng)網(wǎng)絡(luò)降臨到我們身上，我們可能會(huì)通過(guò)廣泛的測(cè)試發(fā)現(xiàn)它是有效的；要理解它是如何工作的，還需要另一個(gè)科學(xué)發(fā)現(xiàn)階段。如果我們發(fā)現(xiàn)一些成功的神經(jīng)網(wǎng)絡(luò)，結(jié)果發(fā)現(xiàn)它的組成部分恰好完美地映射到符號(hào)操作上，那么這將不僅是神經(jīng)網(wǎng)絡(luò)的勝利，而且也是符號(hào)操作的勝利——不管系統(tǒng)設(shè)計(jì)者的意圖是什么。相應(yīng)地，如果沒(méi)有一個(gè)系統(tǒng)的組成部分映射到符號(hào)操縱上，這將是符號(hào)操縱的失敗。

任何一個(gè)通情達(dá)理的人都會(huì)認(rèn)識(shí)到，到目前為止，理解人類大腦是如何工作的是多么的困難，而當(dāng)神經(jīng)網(wǎng)絡(luò)變得越來(lái)越復(fù)雜時(shí)，同樣的道理也會(huì)變成現(xiàn)實(shí)。人類大腦本身就是一個(gè)令人印象深刻的神經(jīng)網(wǎng)絡(luò)的例子，它有效地（通過(guò)進(jìn)化）降臨到我們身上；它似乎工作得很好，但我們不知道為什么【尋求實(shí)現(xiàn)細(xì)節(jié)和算法描述之間的映射（如果它們存在的話）也可能具有實(shí)際價(jià)值，因?yàn)?，例如，一旦發(fā)現(xiàn)了那些映射，一些低級(jí)的神經(jīng)網(wǎng)絡(luò)類計(jì)算可能會(huì)更有效地在純符號(hào)級(jí)別上進(jìn)行計(jì)算。相反，一些被稱為神經(jīng)網(wǎng)絡(luò)的模型，如Lample和Charton最近關(guān)于符號(hào)集成的研究（Lample和Charton，2019），經(jīng)過(guò)仔細(xì)檢查，結(jié)果發(fā)現(xiàn)有嚴(yán)重的局限性，并且嚴(yán)重依賴于符號(hào)處理器（Davis，2019）。對(duì)符號(hào)和神經(jīng)成分如何協(xié)同工作有一個(gè)清晰的、有原則的理解可能是非常有價(jià)值的?！?/p>

2.1.5總結(jié)

符號(hào)操作，特別是對(duì)變量的操作機(jī)制，提供了一個(gè)自然但不完整的解決方案，來(lái)解決在訓(xùn)練機(jī)制之外進(jìn)行外推的挑戰(zhàn)：用對(duì)變量的操作來(lái)表示一個(gè)算法，并且它固有地被定義為擴(kuò)展到某類的所有實(shí)例。它還提供了一個(gè)清晰的基礎(chǔ)來(lái)表示結(jié)構(gòu)化的表示（例如在生成語(yǔ)言學(xué)中被視為基礎(chǔ)的樹(shù)結(jié)構(gòu)）和記錄個(gè)人及其行為屬性。

它所缺乏的是一個(gè)令人滿意的學(xué)習(xí)框架?；旌峡梢允莾蓚€(gè)世界的最佳結(jié)合的一種方式：從大規(guī)模數(shù)據(jù)集學(xué)習(xí)的能力，如深度學(xué)習(xí)所示，以及表示抽象表示的能力，這些抽象表示是世界上所有計(jì)算機(jī)編程語(yǔ)言的語(yǔ)法和語(yǔ)義貨幣。我猜想它們是安全獲得可靠情報(bào)的先決條件。

用于研究混合模型的資源遠(yuǎn)遠(yuǎn)少于用于避免符號(hào)操縱的“純”深度學(xué)習(xí)系統(tǒng)的資源，但第2.1.2節(jié)中回顧的來(lái)自廣泛研究實(shí)驗(yàn)室的越來(lái)越多的工作，更不用說(shuō)谷歌搜索的成功，所有這些都表明了對(duì)混合體系結(jié)構(gòu)進(jìn)行更深入研究的價(jià)值。

遺憾的是，我們還沒(méi)有走出困境。將強(qiáng)大的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)技術(shù)與符號(hào)操作的表示和計(jì)算資源相結(jié)合的混合模型可能是魯棒智能所必需的，但它們肯定是不夠的。接下來(lái)我將描述三個(gè)進(jìn)一步的研究挑戰(zhàn)。

2.2大規(guī)模的、抽象的、有因果關(guān)系的知識(shí)

符號(hào)操作允許抽象知識(shí)的表示，但是積累和表示抽象知識(shí)的經(jīng)典方法，一個(gè)稱為知識(shí)表示的領(lǐng)域，一直是殘酷的艱苦工作，遠(yuǎn)遠(yuǎn)不能令人滿意。在人工智能的歷史上，Doug Lenat于1984年發(fā)起的以機(jī)器可解釋的形式創(chuàng)造常識(shí)知識(shí)的最大努力是被稱為CYC的系統(tǒng)（Lenat等人，1985）。它需要數(shù)千人-年的時(shí)間，幾乎是巨大的努力，以精確的邏輯形式捕捉心理學(xué)、政治學(xué)、經(jīng)濟(jì)學(xué)、生物學(xué)和許多其他領(lǐng)域的事實(shí)。

到目前為止，回報(bào)并不令人信服。關(guān)于CYC的報(bào)道相對(duì)較少（這使得評(píng)估變得很有挑戰(zhàn)性，盡管你可以看到這個(gè)有趣的黑客新聞線索），商業(yè)應(yīng)用程序看起來(lái)很溫和，而不是勢(shì)不可擋。大多數(shù)人，如果他們了解CYC的話，都認(rèn)為它是一種失敗，而目前很少有研究人員廣泛使用它。似乎很少有人愿意嘗試建立具有可比廣度的競(jìng)爭(zhēng)體系。（像googleknowledgegraph、Freebase和YAGO這樣的大型數(shù)據(jù)庫(kù)主要關(guān)注事實(shí)，而不是常識(shí)。）

考慮到CYC需要付出的努力，以及它對(duì)整個(gè)領(lǐng)域的影響是多么的小，很難不被GPT-2這樣的Transformers所激發(fā)。當(dāng)他們工作得很好時(shí)，他們看起來(lái)幾乎是神奇的，好像他們自動(dòng)地、幾乎毫不費(fèi)力地吸收了世界上大量的常識(shí)知識(shí)。從某種程度上說(shuō)，Transformers給人的感覺(jué)是，它將自己所吸收的任何知識(shí)與對(duì)人類語(yǔ)言看似復(fù)雜的理解無(wú)縫地結(jié)合在一起。

這對(duì)比鮮明。然而，知識(shí)表示社區(qū)幾十年來(lái)一直在努力用精確的方式來(lái)描述容器及其內(nèi)容之間的關(guān)系，而自然語(yǔ)言理解社區(qū)幾十年來(lái)一直在努力進(jìn)行語(yǔ)義分析，而GPT2這樣的Transformers似乎是在不借助于語(yǔ)法的情況下解決了棘手的問(wèn)題任何明確的知識(shí)工程（或語(yǔ)義分析）-無(wú)論如何。

例如，在GPT-2中沒(méi)有知識(shí)工程規(guī)則，沒(méi)有相對(duì)于容器的液體規(guī)格，也沒(méi)有關(guān)于水甚至是液體的規(guī)格。在前面的示例中

如果打破玻璃瓶裝的水，裝滿的水可能會(huì)流出，會(huì)發(fā)出飛濺的聲音。

從概念H20（化學(xué)中水的表達(dá)）到單詞water都沒(méi)有映射，也沒(méi)有動(dòng)詞語(yǔ)義的任何顯式表示形式，例如中斷和流動(dòng)。

再舉一個(gè)例子，GPT-2似乎也對(duì)火進(jìn)行了編碼：

點(diǎn)火的一個(gè)好方法是使用打火機(jī)。

點(diǎn)燃火的一個(gè)好方法是使用火柴

與Lenat數(shù)十年的以機(jī)器可解釋的形式對(duì)人類知識(shí)進(jìn)行手工編碼的項(xiàng)目相比，乍看之下，這既代表了一夜的成功，也代表了驚人的勞動(dòng)力節(jié)省。

問(wèn)題在于GPT-2的解決方案只是對(duì)知識(shí)的近似，不能替代知識(shí)本身。特別是，它所獲得的是近似的統(tǒng)計(jì)數(shù)據(jù)，即單詞在大型語(yǔ)料庫(kù)中是如何共存的，而不是概念本身的清晰表述。換句話說(shuō)，它是單詞用法的模型，而不是思想的模型，前者是后者的近似模型。

這樣的近似值就像是一個(gè)復(fù)雜的三維世界的陰影。通過(guò)使用與瓶子相關(guān)的單詞，瓶子和打破的概念在語(yǔ)料庫(kù)上投射了陰影，這些陰影編碼了人類互動(dòng)的一個(gè)子集。 Transformers分析單詞留下的陰影，就像柏拉圖的洞穴寓言中的囚徒一樣。麻煩的是，對(duì)陰影的分析（即在這些語(yǔ)料庫(kù)中如何使用單詞的共現(xiàn)統(tǒng)計(jì)分析）并不一定能揭示瓶的真正含義或破碎含義。

事實(shí)是，GPT-2幾乎不了解與它所分析的單詞相關(guān)的概念的相關(guān)性（無(wú)關(guān)緊要）。考慮一下發(fā)生了什么情況，例如，按照弗蘭克·基爾（Frank Keil，1992）的經(jīng)典實(shí)驗(yàn)，如果您將感知功能與更深的概念理解相對(duì)立：

如果您在浣熊上穿上服裝使它看起來(lái)像臭鼬，那將是臭鼬。

如果將飛機(jī)噴漆成看起來(lái)像龍，那將是龍。

顯然，僅了解某個(gè)概念中如何使用單詞的某些統(tǒng)計(jì)屬性不足以理解基礎(chǔ)概念的本質(zhì)，例如使飛機(jī)變成飛機(jī)而不是龍的原因（反之亦然）。這份最近匿名的，正在審查的手稿也提出了類似的觀點(diǎn)。

我想起了像Nigel Richards這樣的Scrabble冠軍，他們?cè)诓欢ㄕZ(yǔ)的情況下贏得了法國(guó)Scrabble比賽；各個(gè)單詞僅用作游戲代幣，而與它們的含義無(wú)關(guān)。本質(zhì)上，GPT-2可以預(yù)測(cè)單詞序列作為游戲代幣的屬性，而不會(huì)暗示所引用的基本概念。

它做得如此之好，以至于有時(shí)會(huì)引起“伊麗莎效應(yīng)”，在這種效應(yīng)中，幼稚的人對(duì)機(jī)器的歸屬要比對(duì)機(jī)器的實(shí)際歸屬更多，但是除了表面的概念理解之外，別無(wú)所求。

如果我們繼續(xù)探究起火的例子，我們會(huì)得到類似的結(jié)果

點(diǎn)火的一個(gè)好方法是用干燥的棉球遮蓋保險(xiǎn)絲！

點(diǎn)燃火的一個(gè)好方法是使用一品脫大小的爐子

“火”，“融合”，“光”等詞都是相互關(guān)聯(lián)的； GPT-2能夠做到這一點(diǎn)，但這還不足以讓GPT-2引發(fā)對(duì)火的性質(zhì)的概念性理解；結(jié)果參差不齊。換句話說(shuō)，就像朱迪亞·珀?duì)枺↗udea Pearl）所說(shuō)的那樣，這種異常行為是您試圖通過(guò)近似統(tǒng)計(jì)單詞用法的統(tǒng)計(jì)曲線來(lái)誘導(dǎo)世界如何運(yùn)轉(zhuǎn)時(shí)得到的結(jié)果，而不是歸納出對(duì)世界的更抽象，因果的理解。【在深度學(xué)習(xí)社區(qū)的某些部分中，有一種積極的努力試圖整合因果方法；我的猜測(cè)是，如果不在因果知識(shí)的表示和操作上增加一些固有的約束，這就不可能成功，很可能導(dǎo)致某種混合網(wǎng)絡(luò)?！坑袝r(shí)行得通，有時(shí)卻行不通。

一個(gè)人不可能用如此缺乏可靠性保證的零件來(lái)設(shè)計(jì)一個(gè)健壯的系統(tǒng)。

用如此低的可靠性試圖用零件構(gòu)建系統(tǒng)的一個(gè)問(wèn)題是，下游推理將不可避免地受到影響。擁有知識(shí)的全部目的是將其用于行動(dòng)，解釋和決策中。如果您不知道會(huì)引起火災(zāi)的原因，或者瓶子破裂時(shí)會(huì)發(fā)生什么，則很難推斷周圍的情況。同樣，您不能可靠地進(jìn)行計(jì)劃。想象一下，一個(gè)家用機(jī)器人無(wú)法點(diǎn)燃頑固的爐灶，用干燥的棉球花了幾個(gè)小時(shí)，一個(gè)又一個(gè)地覆蓋了一個(gè)保險(xiǎn)絲。

語(yǔ)言理解也不可避免地會(huì)受到影響，因?yàn)槲覀兘?jīng)常根據(jù)話語(yǔ)的真實(shí)性和語(yǔ)境來(lái)消除話語(yǔ)的歧義（Tanenhaus，Spivey-Knowlton，Eberhard和Sedivy，1995）。像GPT這樣的系統(tǒng)具有一定程度的詞語(yǔ)用法語(yǔ)境，但缺乏對(duì)認(rèn)知語(yǔ)境和合理性的可靠表示。

在充滿了如此淺薄的概念理解的系統(tǒng)中，可解釋性和可解釋性也將變得難以捉摸。將棉球和打火機(jī)凝結(jié)成同等有效的點(diǎn)火方式的系統(tǒng)可能沒(méi)有內(nèi)部一致性來(lái)滿足可解釋性的需求。

如果對(duì)基本概念沒(méi)有連貫的因果理解，則可能沒(méi)有辦法在復(fù)雜的實(shí)際環(huán)境中設(shè)計(jì)魯棒性。 Pearl是對(duì)的：如果我們的系統(tǒng)僅依賴于曲線擬合和統(tǒng)計(jì)近似，則它們的推論必然會(huì)很膚淺。

這使我想到了本論文的第二個(gè)主要主張：歸結(jié)，表示和操縱通常具有因果關(guān)系的結(jié)構(gòu)化，抽象知識(shí)的大型數(shù)據(jù)庫(kù)的系統(tǒng)方法是強(qiáng)大情報(bào)的先決條件。

2.2.1強(qiáng)大的人工智能將需要什么樣的知識(shí)？

以下是一些基本注意事項(xiàng)：

?大部分（但重要但并非全部）知識(shí)（請(qǐng)參閱下文）都可以學(xué)習(xí)。沒(méi)有人生來(lái)就知道打火機(jī)會(huì)著火，干燥的棉球不會(huì)起火，玻璃瓶破裂時(shí)可能會(huì)做什么?？梢韵胂螅梢韵馛YC那樣，將這些知識(shí)硬連接到AI系統(tǒng)中，對(duì)每個(gè)事實(shí)進(jìn)行手工硬連接，但是現(xiàn)代機(jī)器學(xué)習(xí)愛(ài)好者顯然不愿意這樣做。而且由于總是有新知識(shí)要收集，因此有必要學(xué)習(xí)新的抽象機(jī)制（通常是因果知識(shí)）。

??一個(gè)健壯的系統(tǒng)可能利用的知識(shí)中，有相當(dāng)一部分是象征性地表現(xiàn)出來(lái)的外部文化知識(shí)。例如，維基百科的絕大多數(shù)內(nèi)容都是口頭表達(dá)的，一個(gè)強(qiáng)大的情報(bào)機(jī)構(gòu)應(yīng)該能夠利用這種知識(shí)。（目前的深度學(xué)習(xí)系統(tǒng)只能在非常有限的范圍內(nèi)做到這一點(diǎn)。）大部分知識(shí)都是根據(jù)變量之間的量化關(guān)系進(jìn)行有效編碼的（例如，對(duì)于所有x、y和z，x、y和z都是人，如果有一個(gè)人y是x的父母和z的孩子，那么x就是z的孫子；對(duì)于所有x，x是一個(gè)物種，x物種的生物體產(chǎn)生的后代也是x物種的后代，等等）。

?健壯的系統(tǒng)需要的知識(shí)中有很大一部分可能是抽象的。當(dāng)前的系統(tǒng)擅長(zhǎng)表示特定事實(shí)，例如BORN（ABRAHAMLINCOLN，KENTUCKY）和CAPITAL（KENTUCKY，F(xiàn)RANKFORT），但缺少表示和有效處理信息的方式，例如如果瓶子壞了，其他條件相等時(shí)，瓶子中的內(nèi)容物可以逃逸。

?規(guī)則和例外必須并存。規(guī)則動(dòng)詞（walk-walked）與不規(guī)則動(dòng)詞（sing-sang）共存。不會(huì)飛的企鵝和其他很多會(huì)飛的鳥(niǎo)類共存。機(jī)器必須能夠以某種方式來(lái)表示知識(shí)，就像語(yǔ)言學(xué)家所說(shuō)的泛型：知識(shí)通常是真實(shí)的，但也有例外（飛機(jī)會(huì)飛，但我們認(rèn)識(shí)到，一架特定的飛機(jī)可能會(huì)被停飛），甚至不必在統(tǒng)計(jì)上準(zhǔn)確地反映病例（蚊子攜帶瘧疾是重要的知識(shí)，但只有一小部分蚊子實(shí)際攜帶瘧疾）。只能獲取規(guī)則而不能獲取例外的系統(tǒng)（例如Evans和Grefenstette（Evans和Grefenstette，2017））是構(gòu)建能夠獲取抽象知識(shí)但還不夠的系統(tǒng)的一個(gè)有趣步驟。 ?一個(gè)健壯的系統(tǒng)可能是因果關(guān)系，并支持反事實(shí)的知識(shí)的一個(gè)重要部分。例如，封閉的人并不知道國(guó)家有首都，他們知道這些首都在政治上是由人民的行動(dòng)決定的，而且這些決定有時(shí)會(huì)被改變。奧爾巴尼是紐約州目前的首府，但如果首府（事實(shí)上）被燒毀，我們認(rèn)識(shí)到該州可能會(huì)選擇一個(gè)新的首府。孩子們知道，當(dāng)玻璃瓶落在堅(jiān)硬的地板上時(shí)，那些瓶子可能會(huì)碎。

?盡管在網(wǎng)上搜集諸如首都和出生地等事實(shí)知識(shí)相對(duì)容易，但我們掌握的許多抽象知識(shí)很難通過(guò)網(wǎng)絡(luò)搜集；例如，很少有人會(huì)寫關(guān)于破碎瓶子及其內(nèi)容的文章。大多數(shù)情況下，正如列納特曾經(jīng)指出的，作家不會(huì)寫下常識(shí)，因?yàn)樗麄兊淖x者已經(jīng)知道了。（盲目拉網(wǎng)也有其他問(wèn)題；例如，歷史偏見(jiàn)，比如醫(yī)生是男性，往往會(huì)被天真的拉網(wǎng)系統(tǒng)自動(dòng)延續(xù)下去。）

?相關(guān)知識(shí)的范圍必須非常廣泛。例如，理解一部小說(shuō)可能需要技術(shù)、政治實(shí)體、金錢、天氣、人際交往、禮儀、性、暴力、貪婪等方面的知識(shí)。例如，約翰·格里沙姆（johngrisham）的第一部暢銷小說(shuō)《公司》（TheFirm）中的關(guān)鍵情節(jié)轉(zhuǎn)折就建立在對(duì)影印機(jī)能做什么、能做多快的理解上，與對(duì)人類動(dòng)機(jī)和時(shí)間推理的深刻理解并列。

?很難將知識(shí)付諸實(shí)踐。擁有一個(gè)龐大的知識(shí)數(shù)據(jù)庫(kù)是一回事，其中包括有關(guān)復(fù)印機(jī)及其運(yùn)行速度的事實(shí)，另一種方法是將這些知識(shí)（在大量其他不太相關(guān)的信息庫(kù)中）整合到關(guān)鍵任務(wù)的時(shí)間推理中，即英雄律師在陷入秘密但高尚的信息收集行為之前所處的狹窄時(shí)間窗口。以一種有效的方式將抽象的知識(shí)與現(xiàn)實(shí)世界中的具體情況聯(lián)系起來(lái)，本質(zhì)上是一個(gè)尚未解決的問(wèn)題。

??人類知識(shí)的一些小而重要的子集可能是天生的；健壯的人工智能也應(yīng)該從一些重要的先驗(yàn)知識(shí)開(kāi)始。在當(dāng)代的ML中，人們常常強(qiáng)烈地希望將知識(shí)和天賦最小化；正如下面第2.2.3節(jié)所討論的，我認(rèn)為這是一個(gè)錯(cuò)誤。

2.2.2案例研究：容器

讓我們更詳細(xì)地考慮一個(gè)案例研究-一個(gè)事實(shí)（在通常情況下），帶蓋的茶壺中的水只能從壺嘴出來(lái)。

正如讀者現(xiàn)在所期望的那樣，GPT-2有時(shí)會(huì)做到這一點(diǎn)。

原則上，我們也許可以通過(guò)眾包獲得這一特定事實(shí)，但由于人們很少陳述如此明顯的事實(shí)，而且更不經(jīng)常精確地陳述，我們不應(yīng)該指望它。盡管我們可能需要在我們的數(shù)據(jù)庫(kù)中有這樣一個(gè)事實(shí)，例如，如果我們正在構(gòu)建人工智能來(lái)支持一個(gè)仿人的老年人機(jī)器人的決策，我們可能不會(huì)提前預(yù)料到這種需要。

如果我們能從更一般的知識(shí)中得出這樣的事實(shí)就更好了，例如，如果我們遇到一個(gè)外表陌生的茶壺，我們就會(huì)知道它是什么，以及如何與它互動(dòng)。

Ernest Davis、NoahFrazier Logue和我提出了一個(gè)框架（Davis、Marcus和Frazier Logue，2017），可以幫助解決這類挑戰(zhàn)：一大套獨(dú)立動(dòng)機(jī)的邏輯公理，這些公理不是茶壺特有的，都是通用的，主要由大多數(shù)普通人在思考后認(rèn)識(shí)到的抽象組成是真的，從中可以對(duì)容器做出正確的推斷。

總的來(lái)說(shuō)，公理所處的框架是相當(dāng)普遍的：關(guān)于時(shí)間、空間、操縱、歷史、行動(dòng)等的公理。這些公理包括如下陳述（這里有一些稍微簡(jiǎn)化的解釋）：

?物理世界由一系列物體組成，這些物體在時(shí)間和空間上移動(dòng)。

?對(duì)象是不同的；也就是說(shuō)，一個(gè)對(duì)象不能是另一個(gè)對(duì)象的一部分，也不能在空間上與另一個(gè)對(duì)象重疊。

?物體占據(jù)某個(gè)三維范圍的區(qū)域；它不能是一維的曲線或二維曲面。

?特定數(shù)量的液體可以占據(jù)特定體積的任何區(qū)域。

?封閉容器是完全包裹內(nèi)腔的一個(gè)物體或一組物體。

?直立開(kāi)口容器是頂部開(kāi)口的開(kāi)口容器。

配備了此類知識(shí)的探索性機(jī)器人（以及將知識(shí)與感知模型和認(rèn)知模型聯(lián)系起來(lái)的其他機(jī)械）也許可以推斷出帶有幾乎隱藏的壺嘴的形狀異常的水壺的使用和功能：

經(jīng)過(guò)一定的擴(kuò)展，這樣一個(gè)系統(tǒng)可以提供一個(gè)系統(tǒng)的基礎(chǔ)，這個(gè)系統(tǒng)可以推理出送紗器的用途，即使人們以前從未見(jiàn)過(guò)送紗器；最終，人們希望，這些基礎(chǔ)可以作為機(jī)器人系統(tǒng)的一個(gè)組成部分，可以在一個(gè)動(dòng)作過(guò)程中應(yīng)用這些知識(shí)，比如編織。

并推斷出新的供料器（或與用戶進(jìn)行交流），甚至是完全不同的供料器：

這種情況在目前的神經(jīng)網(wǎng)絡(luò)方法中并沒(méi)有自然地表現(xiàn)出來(lái)。首先，這樣做可能需要一個(gè)對(duì)象的先驗(yàn)概念，而這個(gè)對(duì)象本身在大多數(shù)當(dāng)前的神經(jīng)網(wǎng)絡(luò)中并不容易表示。然而，這些知識(shí)需要成為健壯的人工智能的核心部分，我們必須擁有獲取這些知識(shí)的策略和能夠獲取、表示和操作這些知識(shí)的體系結(jié)構(gòu)——其中一些在本質(zhì)上似乎是象征性的。

原則上，也許我們提出的公理中有一小部分是天生的，其他人是學(xué)來(lái)的，盡管到目前為止我還不知道有哪個(gè)系統(tǒng)能夠?qū)W習(xí)這類公理。（這里再次強(qiáng)調(diào)，具有嵌入式知識(shí)的神經(jīng)符號(hào)系統(tǒng)可能會(huì)有所幫助。）

重要的是，這組框架本身會(huì)聚集到一組相當(dāng)容易識(shí)別的域中，例如關(guān)于空間、時(shí)間和因果關(guān)系的知識(shí)，如這里所示：

容器知識(shí)框架，摘自（Davis et al。，2017）

2.2.3固有的知識(shí)框架

把我們帶到本土主義。雖然沒(méi)有人可能認(rèn)為所有的抽象知識(shí)都是與生俱來(lái)的，但其中一些可能是與生俱來(lái)的，而讓某些知識(shí)與生俱來(lái)的論點(diǎn)最終非常簡(jiǎn)單：你一開(kāi)始知道的越多，其他知識(shí)就越容易學(xué)習(xí)；如果你能縮小自己的范圍，你就可以限制你試圖尋找的假設(shè)空間尋找。

LeCun關(guān)于卷積的開(kāi)創(chuàng)性工作（LeCun，1989）事實(shí)上是對(duì)這一點(diǎn)的一個(gè)有力的實(shí)證證明，表明在數(shù)字識(shí)別任務(wù)中學(xué)習(xí)，在一個(gè)預(yù)連線的層次結(jié)構(gòu)配備了平移不變特征檢測(cè)器（使用卷積）的系統(tǒng)中，準(zhǔn)確度更好，相對(duì)于一個(gè)更簡(jiǎn)單的體系結(jié)構(gòu)來(lái)說(shuō)。唯一的先天優(yōu)勢(shì)，卷積，已經(jīng)被證明是非常有價(jià)值的。

然而（許多，并非所有）機(jī)器學(xué)習(xí)研究者反對(duì)在他們的系統(tǒng)中加入更多的固有約束，畫出一條看似任意的線，這樣網(wǎng)絡(luò)參數(shù)（有多少層，損失函數(shù)是什么，使用什么輸入節(jié)點(diǎn)編碼方案等等）對(duì)于先天性來(lái)說(shuō)是公平的游戲，但大多數(shù)其他事情通常是公平的預(yù)計(jì)將被學(xué)習(xí)（馬庫(kù)斯，2020年）。有些人甚至認(rèn)為這是一個(gè)值得驕傲的地方；正如一位研究人員在一封電子郵件中告訴我的那樣，“如果你主要對(duì)理解‘學(xué)習(xí)’感興趣，那自然會(huì)導(dǎo)致你貶低‘手工編碼’?！?/p>

我在2019年12月與Yoshua Bengio的辯論同樣具有啟發(fā)性。他說(shuō)，預(yù)先指定卷積是可以接受的，因?yàn)樗恍枰叭写a”，但擔(dān)心將先驗(yàn)知識(shí)（先天/先驗(yàn)知識(shí)的位）的集合遠(yuǎn)遠(yuǎn)擴(kuò)展到卷積之外，特別是如果這些先驗(yàn)知識(shí)需要指定多于幾位的信息

正如我在那里向他表達(dá)的那樣，我不會(huì)太擔(dān)心那些零碎的東西。超過(guò)90%的基因組在大腦發(fā)育過(guò)程中表達(dá)（Miller et al.，2014；Bakkenet al.，2016），其中相當(dāng)數(shù)量的基因在特定區(qū)域選擇性表達(dá)，從而產(chǎn)生詳細(xì)的初始結(jié)構(gòu)。有許多機(jī)制可以通過(guò)使用少量的基因來(lái)指定復(fù)雜的結(jié)構(gòu)；本質(zhì)上，基因組是以半自主的方式構(gòu)建結(jié)構(gòu)的壓縮方式（Marcus，2004）；沒(méi)有理由認(rèn)為生物大腦僅限于幾個(gè)“小”先驗(yàn)。凱文·米切爾最近在辯論后的一次跟進(jìn)中很好地總結(jié)了形勢(shì)。

的確，基因組中沒(méi)有足夠的信息來(lái)說(shuō)明神經(jīng)發(fā)育的確切結(jié)果，即大腦中每個(gè)神經(jīng)元的數(shù)量、位置和連通性。基因組只編碼一組無(wú)意識(shí)的生化規(guī)則，當(dāng)這些規(guī)則在發(fā)育中的胚胎的動(dòng)態(tài)自組織系統(tǒng)中發(fā)揮作用時(shí)，會(huì)導(dǎo)致在自然選擇定義的操作參數(shù)范圍內(nèi)的結(jié)果。但這些操作參數(shù)有很大的空間，包括我們認(rèn)為是先天的各種因素。在許多物種中有大量證據(jù)表明，根據(jù)基因組中的指令，許多不同的先天前驅(qū)確實(shí)預(yù)先連接到神經(jīng)系統(tǒng)中。

如果基因組有足夠的先天先兆的空間，那么現(xiàn)代人工智能系統(tǒng)可能還有更大的空間；我們生活在一個(gè)計(jì)算機(jī)內(nèi)存以千兆字節(jié)和兆字節(jié)來(lái)衡量的時(shí)代，而不是以字節(jié)或千字節(jié)來(lái)衡量的時(shí)代。對(duì)于人工智能來(lái)說(shuō)，真正的問(wèn)題不應(yīng)該是，我們的先驗(yàn)知識(shí)庫(kù)有多??？但是什么樣的先驗(yàn)知識(shí)能最有效地為學(xué)習(xí)創(chuàng)造條件呢？就其本身而言，最小化比特?cái)?shù)并不是目標(biāo)。

如果有三個(gè)關(guān)于先天性的建議反復(fù)出現(xiàn)，它們就是時(shí)間、空間和因果關(guān)系的框架。

例如，康德強(qiáng)調(diào)從時(shí)間、空間和因果關(guān)系的“流形”開(kāi)始的價(jià)值。斯皮爾克長(zhǎng)期以來(lái)一直認(rèn)為，一些基本的，核心的知識(shí)，對(duì)象，集合和地點(diǎn)可能是先決條件，以獲得其他知識(shí)。正如她所說(shuō)（斯佩爾克，1994年）,

如果兒童天生具有感知物體、人、場(chǎng)景和地點(diǎn)的能力，那么他們可能會(huì)利用自己的感知經(jīng)驗(yàn)來(lái)了解這些實(shí)體的屬性和行為……然而，如果他們不能在他們的環(huán)境中挑出那些實(shí)體。兒童如何才能了解某個(gè)領(lǐng)域中的實(shí)體，這還很不清楚.

戴維斯和我在我們對(duì)容器的分析（見(jiàn)上圖（Davis等人，2017））和我們最近的書（Marcus＆Davis，2019）中都同樣強(qiáng)調(diào)了先前的空間，時(shí)間和因果關(guān)系框架的價(jià)值。 ; 多年來(lái)，許多其他發(fā)展心理學(xué)家也指出了類似的方向（Landau，Gleitman和Landau，2009；Carey，2009；Leslie，1982；Mandler，1992）。

正如斯佩爾克（Spelke）和康德（Kant）都強(qiáng)調(diào)的那樣，一旦您了解了物體及其在時(shí)間中的傳播方式，就可以了。您可以開(kāi)始填寫其屬性，并開(kāi)始獲得環(huán)游世界所需的知識(shí)。

殘酷的事實(shí)是，相反的方法（從近乎空白的板塊開(kāi)始，然后在海量數(shù)據(jù)集上對(duì)其進(jìn)行訓(xùn)練）到目前為止還沒(méi)有成功（Marcus 2020）。一些大型公司（例如Google，F(xiàn)acebook，Microsoft等）對(duì)由大數(shù)據(jù)集訓(xùn)練的相對(duì)空白的模型進(jìn)行了全面的測(cè)試，并提供了幾乎無(wú)限的時(shí)間，金錢，計(jì)算人員和研究人員，但他們?nèi)匀粺o(wú)法可靠地推理出時(shí)間，空間或因果關(guān)系。如果沒(méi)有這樣的能力，我們的系統(tǒng)將永遠(yuǎn)不會(huì)足夠強(qiáng)大以應(yīng)付現(xiàn)實(shí)世界的變化。

肯定是時(shí)候考慮一種更自然的方法了。

好消息是，盡管在深度學(xué)習(xí)社區(qū)中人們常常不贊成本土主義，但從歷史上看，越來(lái)越多的跡象表明對(duì)``先驗(yàn)者\(yùn)\\\\\'\\\\\\'更加開(kāi)放（例如Burgess等人，2019年; Rabinowitz等人，2018年） ; Maier等人，2017）。

當(dāng)然，每個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)際上都是先驗(yàn)的，其形式是先天（即預(yù)先建立，而不是通過(guò)相關(guān)系統(tǒng)學(xué)習(xí)）對(duì)特定層數(shù)，特定學(xué)習(xí)規(guī)則，特定連通性模式，特定表示方案的承諾（例如輸入和輸出節(jié)點(diǎn)代表什么），等等。但是，這些先驗(yàn)本質(zhì)上很少是概念性的。

真正的問(wèn)題可能是關(guān)于可以代表什么樣的先驗(yàn)，以及我們所需要的先驗(yàn)是否可以自然地用我們已經(jīng)擁有的工具來(lái)代表，或者我們是否需要新的工具來(lái)代表更廣泛的先驗(yàn)。深度學(xué)習(xí)社區(qū)似乎可以將卷積（自然適合神經(jīng)網(wǎng)絡(luò)框架）用作先驗(yàn)，但是到目前為止，該社區(qū)對(duì)具有更復(fù)雜先驗(yàn)的模型的關(guān)注程度大大降低，例如關(guān)于對(duì)事物永恒性的先天認(rèn)知【參見(jiàn)Marcus（2001），第5章中有關(guān)為什么估計(jì)對(duì)象的軌跡本身不足以進(jìn)行討論的討論】，或用于理解隨時(shí)間變化的事件的時(shí)間演算。

我們應(yīng)該問(wèn)的不是我能去掉的的最起碼的內(nèi)在結(jié)構(gòu)是什么？而是我需要什么樣的先驗(yàn)?zāi)?？以及我現(xiàn)有的體系結(jié)構(gòu)能否有效地將它們合并？我們是否可以建立一個(gè)更豐富的具有深層學(xué)習(xí)基礎(chǔ)的內(nèi)在基礎(chǔ)，或者在這個(gè)框架中可以方便地內(nèi)在地表達(dá)的東西是否有限制？我們是否需要顯式的符號(hào)操縱機(jī)制來(lái)表示其他類型的抽象，比如因果抽象？事實(shí)證明，深度學(xué)習(xí)擅長(zhǎng)表達(dá)關(guān)于物體外觀的知識(shí)，但不太擅長(zhǎng)獲取和表達(dá)關(guān)于物理世界如何運(yùn)作的知識(shí)（Zhang，Wu，Zhang，F(xiàn)reeman&Tenenbaum，2016），關(guān)于人類如何相互作用，以及更普遍的因果關(guān)系。

其他方法，如概率規(guī)劃，允許顯式表示的符號(hào)約束，同時(shí)努力學(xué)習(xí)微妙的統(tǒng)計(jì)信息，值得認(rèn)真考慮。

退一步說(shuō)，人類對(duì)世界的絕大多數(shù)了解都是從中學(xué)到的：

事實(shí)上，船只傾向于漂浮而不是沉沒(méi)

事實(shí)上，如果船只在水線以下形成洞，它們確實(shí)會(huì)下沉。

打火機(jī)比棉球更適合點(diǎn)火

破碎的瓶子會(huì)泄漏

一次又一次，幾乎沒(méi)完沒(méi)了。無(wú)論我們擁有什么樣的核心知識(shí)，都必須有大量的知識(shí)來(lái)補(bǔ)充。

認(rèn)為普通人可能知道（或立即承認(rèn)是真的）數(shù)百萬(wàn)或數(shù)千萬(wàn)這樣的事實(shí)并非沒(méi)有道理；其中絕大多數(shù)必須通過(guò)經(jīng)驗(yàn)、明確的指示或其他方式來(lái)學(xué)習(xí)。重要的是，幾乎所有這些知識(shí)都可以付諸實(shí)踐，指導(dǎo)行動(dòng)和決策（例如，如果我們發(fā)現(xiàn)船在水線以下有一個(gè)洞，我們會(huì)選擇不上船）。

但重要的是，我們所學(xué)到的知識(shí)中有相當(dāng)一部分是因果性和抽象性的，根據(jù)上一節(jié)的討論，這可能需要使用某種混合體系結(jié)構(gòu)。

同時(shí)，純粹的預(yù)先連線永遠(yuǎn)不夠，因?yàn)槭澜绫旧碓诓粩嘧兓?；例如，總?huì)有新的因果原理與新的技術(shù)聯(lián)系在一起。如果有人介紹一個(gè)流行的新玩意兒叫花花公子，我們很快就會(huì)知道虛擬機(jī)是做什么的，如何打開(kāi)和關(guān)閉它，以及如何讓它做自己的事情。正如Gopnik和Sobel（Gopnik和Sobel，2000）優(yōu)雅地展示的那樣，孩子們很自然地做到了這一點(diǎn)；我們需要能夠做到這一點(diǎn)的機(jī)器。

但是我們可能不能也不應(yīng)該僅僅從經(jīng)驗(yàn)中學(xué)習(xí)我們所有的抽象和因果知識(shí)。當(dāng)這么多的知識(shí)已經(jīng)被編成法典的時(shí)候，這樣做將是極其低效的；例如，為什么要讓每個(gè)系統(tǒng)重新認(rèn)識(shí)到，即使物體被遮擋，它們?nèi)匀淮嬖谟诳臻g和時(shí)間中，而這是一個(gè)普遍的真理？此外，正如我們所看到的，例如在GPT-2的討論中，從無(wú)到有的學(xué)習(xí)到目前為止是不可靠的。如果沒(méi)有一些先驗(yàn)知識(shí)，例如生理和心理推理的基礎(chǔ)知識(shí)，我們可以稱之為常識(shí)的東西幾乎都學(xué)不好。我們需要一些核心知識(shí)來(lái)指導(dǎo)剩下的學(xué)習(xí)。

妥協(xié)和創(chuàng)新的必要性再次顯現(xiàn)出來(lái)。我們顯然需要能夠獲得新的因果知識(shí)的系統(tǒng)（可能是神經(jīng)符號(hào)的雜種），但為了獲得這種知識(shí)，我們可能需要比我們迄今使用的更強(qiáng)大的先驗(yàn)知識(shí)。

因此，我的第三個(gè)主要主張是：我們不應(yīng)該把每一個(gè)新的人工智能系統(tǒng)從零開(kāi)始，當(dāng)作一張白板，對(duì)世界知之甚少，而應(yīng)該尋求建立從時(shí)間、空間和因果關(guān)系等領(lǐng)域的初始框架開(kāi)始的學(xué)習(xí)系統(tǒng)，以加快學(xué)習(xí)速度并大量限制假設(shè)空間。

無(wú)論這些框架是用形式邏輯（la-Cyc）表示還是用其他方法表示，也許還沒(méi)有發(fā)明出來(lái)，我強(qiáng)烈懷疑它們是朝著健壯智能方向取得任何重大進(jìn)展的先決條件。再多的天賦也不能代替學(xué)習(xí)，但不專注的學(xué)習(xí)是不夠的。這個(gè)游戲的名字是找到一組先天的先驗(yàn)知識(shí)，無(wú)論是小的還是大的，這將最有利于學(xué)習(xí)我們系統(tǒng)最終需要的巨大知識(shí)庫(kù)。

盡管如此，光靠知識(shí)是不夠的。這些知識(shí)必須用推理工具付諸實(shí)踐，在認(rèn)知模型的背景下，我接下來(lái)要談到的兩個(gè)主題。

2.3.推理

在一個(gè)著名的軼事，可能更好地在復(fù)述，但顯然是基于一個(gè)核心的真相，傳奇演員勞倫斯奧利弗是在現(xiàn)場(chǎng)與年輕的達(dá)斯汀霍夫曼，誰(shuí)放棄了一些睡眠，以使他的角色可能會(huì)出現(xiàn)疲憊不堪。奧利弗對(duì)霍夫曼說(shuō)：“親愛(ài)的孩子，你看起來(lái)真糟糕。你為什么不試著演戲呢？這樣容易多了。”

我對(duì)記憶和推理的看法是一樣的。目前的人工智能方法主要是試圖通過(guò)記憶（或至少是近似地記憶）整個(gè)世界的概率密度函數(shù)來(lái)應(yīng)對(duì)世界的復(fù)雜性，代價(jià)是無(wú)法滿足地需要越來(lái)越多的數(shù)據(jù)?？紤]到世界的指數(shù)級(jí)復(fù)雜性，這一策略不太可能奏效。

推理提供了另一種選擇；你不需要記住所有的東西，也不需要在你以前可能遇到的近鄰之間進(jìn)行插值，而是進(jìn)行推理。你沒(méi)有記住柏拉圖、亞里士多德、歐里庇得斯和我們前面的其他數(shù)十億人都是凡人的事實(shí)，而是學(xué)到了一個(gè)普遍的真理，所有的人都是凡人，并根據(jù)需要將這個(gè)普遍的真理應(yīng)用到這個(gè)范疇的具體實(shí)例中。

正如我們所看到的，神經(jīng)網(wǎng)絡(luò)，如Transformers（至少像目前通常使用的那樣，在端到端的方式中，與符號(hào)操作工具隔離）太不可靠，不適合合理的推理。它們可能在某些時(shí)候起作用，但不太可靠；只要有足夠的知識(shí)可用，符號(hào)操縱至少提供了朝著正確方向前進(jìn)的希望。

在經(jīng)典模型中，推理引擎的最佳例子是CYC（相當(dāng)于一個(gè)符號(hào)系統(tǒng)）能夠在最佳情況下執(zhí)行的那種推理。舉個(gè)例子，CYC的創(chuàng)始人Doug Lenat（Lenat，2019，#3132}，re Romeoand Juliet）最近的一次討論，在這里用兩個(gè)圖抽象出來(lái)，提供了故事的概要，一些與故事相關(guān)的知識(shí)，一些常識(shí)知識(shí)，以及CYC推理的一個(gè)例子（復(fù)雜推理者和大規(guī)模知識(shí)的結(jié)合）在最佳情況下可以得出

圖2羅密歐與朱麗葉，以及一些與故事相關(guān)的知識(shí)樣本，例如故事中的特定時(shí)刻和特定時(shí)間點(diǎn)的知識(shí)；摘自Lenat 2019。正如后面所討論的，中間和右邊的面板反映了CYC對(duì)情節(jié)的認(rèn)知模式的一部分。

圖3相關(guān)常識(shí)知識(shí)樣本，以及CYC得出的復(fù)雜推論；Lenat 2019

上圖中間和右面板的詳細(xì)程度——列出了時(shí)間點(diǎn)和在這些時(shí)間點(diǎn)上保持正確的陳述——是我將稱之為豐富認(rèn)知模型的一個(gè)例子。它是一個(gè)認(rèn)知模型，因?yàn)樗且粋€(gè)復(fù)雜場(chǎng)景的內(nèi)在升華，它的豐富之處在于它充滿了關(guān)于特定主人公在特定時(shí)間點(diǎn)做什么、知道什么、打算什么和期望什么的微妙信息。

同樣地，我們可以認(rèn)為下圖左半部分所示的常識(shí)知識(shí)相當(dāng)豐富，因?yàn)樗幋a的行為、后果和人類互動(dòng)的信息錯(cuò)綜復(fù)雜。其中一些知識(shí)可能被明確地表示出來(lái)（例如，飲用某種毒物的后果可能是立即死亡），一些可以想象的知識(shí)可能是從更一般的事實(shí)在網(wǎng)上衍生出來(lái)的。（例如，“如果一個(gè)人死了，他們就不必和任何人結(jié)婚”可能是從一個(gè)更普遍的觀察中得出的，即義務(wù)往往只適用于活著的人。）無(wú)論哪種方式，擁有如此廣泛的知識(shí)儲(chǔ)備的回報(bào)來(lái)自于可以得出的推論的復(fù)雜程度（下圖右側(cè)），以及在他們的可解釋性水平上，這兩者與迄今為止通過(guò)深度學(xué)習(xí)產(chǎn)生的任何東西都處于完全不同的水平。

一些觀察結(jié)果：

?如果不廣泛使用結(jié)構(gòu)化表示、變量操作和個(gè)人記錄，這種方法是不可能的。

?這是一個(gè)最好的概念證明，表明擁有豐富的認(rèn)知模型和豐富的生物學(xué)、心理理論等知識(shí)的潛在價(jià)值。

?然而，它在很大程度上依賴于知識(shí)工程師手工完成的大量前期工作，這些工程師已將《羅密歐與朱麗葉》手工翻譯成形式邏輯；一個(gè)能夠在可比水平上自動(dòng)生成此類表示和推理的系統(tǒng)將是一個(gè)重大突破。

?推理本身不一定是通往強(qiáng)大人工智能的瓶頸；真正的瓶頸可能在于在現(xiàn)實(shí)世界推理的上下文中獲得正確的信息。

當(dāng)然，CYC遠(yuǎn)非完美。世界上有太少的東西是以充分的預(yù)先包裝的形式提供給CYC的。CYC沒(méi)有太多的自然語(yǔ)言前端，也沒(méi)有遠(yuǎn)見(jiàn)；要讓它變得合理，你需要把你的問(wèn)題用邏輯的形式表示出來(lái)。由于很少有問(wèn)題是以這種方式預(yù)先包裝的，因此直接的商業(yè)應(yīng)用相對(duì)較少。但是，在一個(gè)將大規(guī)模抽象知識(shí)與以各種形式邏輯實(shí)現(xiàn)的高階推理相結(jié)合的系統(tǒng)中，精細(xì)推理是可能的，這是一個(gè)存在的證明。

即便是CYC的推理能力，無(wú)疑也有很大的提升空間。它的表示主要是（或者完全是）高階邏輯的東西；不清楚它能在多大程度上表示不確定性，以及對(duì)統(tǒng)計(jì)分布的推理，等等。正如伯特蘭·羅素曾經(jīng)說(shuō)過(guò)的，“人類所有的知識(shí)都是不確定的、不精確的和部分的”，現(xiàn)在還不清楚CYC能處理多少不確定性、不完整性和不精確性。【另一個(gè)問(wèn)題是人類在推理中面臨的諸多限制，如確認(rèn)偏差、動(dòng)機(jī)推理、語(yǔ)境效應(yīng)、連接謬誤等。在一個(gè)理想的世界里，我們會(huì)從人類做得好的事情中學(xué)到東西，但把這些異?，F(xiàn)象拋在腦后。關(guān)于為什么人類可能進(jìn)化出這種認(rèn)知效率低下的討論，即使這種認(rèn)知錯(cuò)誤在功能上可能不是最優(yōu)的，參見(jiàn)Marcus（Marcus，2008）】

有人懷疑，就像經(jīng)典人工智能和神經(jīng)人工智能中的許多其他東西一樣，它很可能是脆弱的，高度依賴于數(shù)據(jù)庫(kù)中的特定知識(shí)以及復(fù)雜場(chǎng)景映射到其內(nèi)部邏輯的精確方式。

盡管如此，它——或者其他能夠做類似工作的東西，也許使用不同的方法——似乎是通往穩(wěn)健推理的必經(jīng)之路。一個(gè)不能理解羅密歐和朱麗葉的情節(jié)摘要的人工智能不太可能勝任現(xiàn)實(shí)世界的復(fù)雜性。一個(gè)人工智能，可以推理的動(dòng)機(jī)交互人類作為復(fù)雜的事件，因?yàn)樗麄冸S著時(shí)間的推移展開(kāi)有戰(zhàn)斗的機(jī)會(huì)。

樂(lè)觀的可能性是，一旦混合架構(gòu)（architecture）知識(shí)的先決條件得到更好的發(fā)展，推理可能會(huì)自行解決；悲觀的可能性是，我們可能需要在推理本身方面進(jìn)行重大改進(jìn)，至少在可伸縮性和處理不完整知識(shí)的能力方面是如此。在我們把前兩個(gè)房子——建筑學(xué)和知識(shí)表示——整理好之前，我們可能真的無(wú)法分辨。

但我們已經(jīng)知道：由于世界的復(fù)雜性，我們需要這樣的東西。很明顯，我們需要新的基準(zhǔn)來(lái)推動(dòng)我們的系統(tǒng)進(jìn)行羅密歐與朱麗葉場(chǎng)景所體現(xiàn)的那種復(fù)雜的推理。由于我們既不能預(yù)先對(duì)每一個(gè)場(chǎng)景進(jìn)行編碼，也不希望總是在已知的場(chǎng)景之間進(jìn)行插值，因此一個(gè)能夠有效地利用大規(guī)模背景知識(shí)的推理系統(tǒng)，即使在可用信息不完整的情況下，也是魯棒性的先決條件。

Minervini等人最近的研究（Minervini等人，2019年）給了我希望，一種神經(jīng)符號(hào)混合的方法可以開(kāi)辟新的領(lǐng)域。Besold等人（Besold、Garcez、Stenning、van der Torre和van Lambalgen，2017）提供了另一個(gè)起點(diǎn)。人們?cè)谂@一事實(shí)給了我更多的希望；如果我們要前進(jìn)，推理和知識(shí)需要成為一流的公民，看到人們?cè)谂κ羌檬隆?/p>

2.4認(rèn)知模型

一種特殊的知識(shí)是隨著時(shí)間的推移積累起來(lái)的關(guān)于特定事務(wù)狀態(tài)的知識(shí)，例如我們?cè)谡勗掃^(guò)程中可能了解到的關(guān)于一個(gè)朋友的信息，在閱讀新聞過(guò)程中了解到的關(guān)于一個(gè)國(guó)家的信息，或者在讀一本書時(shí)了解到的關(guān)于一群人的信息。在認(rèn)知心理學(xué)中，我們稱這種累積表征為認(rèn)知模型。你的認(rèn)知模式可能和我的不同；你的可能更詳細(xì)，我的可能不太詳細(xì)，但我們都經(jīng)常使用它們。但最起碼，認(rèn)知模型可能包括一些實(shí)體的知識(shí)（例如，故事中的人物和他們擁有的物品），一些屬性的知識(shí)（例如，物品的大小和顏色，人物的目標(biāo)等），以及關(guān)于時(shí)間和事件的信息（角色x在什么時(shí)候遇到角色y，以及x在時(shí)間t知道什么）。

CYC/羅密歐和朱麗葉插圖中的命題和時(shí)間標(biāo)記，例如關(guān)于相信什么和什么時(shí)候相信的復(fù)雜事實(shí)的顯式表示，是豐富的認(rèn)知模型在人工智能系統(tǒng)中可能編碼的一個(gè)例子。人們還可以想到Johnson Laird（Johnson Laird，1983）關(guān)于心理模型的工作。如果我告訴你有一個(gè)空書架，然后解釋說(shuō)我把兩本書放在書架上，你就構(gòu)建了一個(gè)包含兩本書的書架的內(nèi)部表示。如果我告訴你我在書架上又加了一本書，你就更新你的表示，這樣你就有了一個(gè)包含三本書的書架的內(nèi)部表示。理解事物在很大程度上就是推斷出它是什么的模型，并最終能夠推斷出它是如何運(yùn)作的，以及接下來(lái)會(huì)發(fā)生什么。

這絕不是一個(gè)微不足道的過(guò)程。任何一個(gè)GOFAI研究者都可以描述，原則上，一個(gè)人如何手動(dòng)構(gòu)建（一些）復(fù)雜的認(rèn)知模型，但在特定場(chǎng)合推斷正確的認(rèn)知模型可能是一個(gè)復(fù)雜的過(guò)程，在給定的情況下，往往有一個(gè)以上的似是而非的答案，而且目前還不可能自動(dòng)化。

CYC的例子羅密歐和朱麗葉是令人信服的，因?yàn)橄到y(tǒng)得出的推論是復(fù)雜和明智的，但令人失望的是，基本模型是手工編碼的，而不是從劇本中歸納出來(lái)的。這使得該系統(tǒng)可以很好地用于演示目的，但在現(xiàn)實(shí)世界中，為了讓認(rèn)知模型為強(qiáng)大的人工智能鋪平道路，我們需要找到從數(shù)據(jù)流（如視頻或文本）中自動(dòng)推斷它們的方法。

這是一個(gè)如此困難的問(wèn)題（在下面討論的場(chǎng)景理解領(lǐng)域之外）大多數(shù)人轉(zhuǎn)而從事其他的工作，并在令人驚訝的程度上嘗試完全不使用認(rèn)知模型。

例如，DeepMind的Atari游戲系統(tǒng)DQN幾乎完全缺乏明確的認(rèn)知模型。當(dāng)DQN學(xué)會(huì)玩突圍游戲時(shí)，它并沒(méi)有將單個(gè)棋盤的位置抽象成表示單個(gè)棋盤的位置和范圍的場(chǎng)景圖；也沒(méi)有直接表示劃槳的位置、球的速度或游戲的基本物理，也沒(méi)有任何抽象的實(shí)現(xiàn)彈跳的動(dòng)力使游戲如此引人入勝。在強(qiáng)化學(xué)習(xí)語(yǔ)言中，系統(tǒng)是無(wú)模型的。【頭發(fā)分裂者（不知道怎么翻譯hair-splitters）可能會(huì)爭(zhēng)辯說(shuō)，存在某種自我生成的內(nèi)部模型，指出系統(tǒng)的內(nèi)部狀態(tài)在某種程度上與經(jīng)典認(rèn)知狀態(tài)相關(guān)，而MuZero這樣的系統(tǒng)更是如此（Schrittwieser et al.，2019）。在我看來(lái)，這種系統(tǒng)轉(zhuǎn)移到新環(huán)境的能力有限（見(jiàn)正文）破壞了這類強(qiáng)有力的主張?！咳欢说某删鸵呀?jīng)實(shí)現(xiàn)了。（值得注意的是，在一些游戲中，如Pong，在已知的起始條件下是嚴(yán)格確定的，完全不看屏幕就可以成功地玩（Koul，Greydanus，F(xiàn)ern-arXiv預(yù)印本）附件十四：1811.12530, & 2018, ).

但是，像DQN這樣的系統(tǒng)的成功有什么教訓(xùn)呢？在我看來(lái)，這個(gè)領(lǐng)域過(guò)于籠統(tǒng)了。在像Breakout這樣的封閉領(lǐng)域中，只要有足夠的數(shù)據(jù)（通常遠(yuǎn)遠(yuǎn)超過(guò)人類在類似情況下所需的數(shù)據(jù)），無(wú)模型強(qiáng)化學(xué)習(xí)通常效果非常好。但這并不意味著無(wú)模型強(qiáng)化學(xué)習(xí)是解決智力問(wèn)題的一個(gè)好方法。

問(wèn)題在于，無(wú)模型解在誘導(dǎo)它們的精確環(huán)境之外，泛化能力很差。Kansky等人（Kansky等人，2017年）通過(guò)修補(bǔ)Breakout以令人信服的方式展示了這一點(diǎn)；即使是將撥片向上移動(dòng)幾個(gè)像素之類的微小變化也會(huì)導(dǎo)致性能大幅下降。人類通過(guò)內(nèi)部認(rèn)知模型進(jìn)行工作，可以很快得到補(bǔ)償；無(wú)模型的深度強(qiáng)化學(xué)習(xí)系統(tǒng)往往無(wú)法做到這一點(diǎn)，相反，經(jīng)常需要大量的再培訓(xùn)，正是因?yàn)樗鼈內(nèi)狈ωS富的環(huán)境認(rèn)知模型。

GPT-2（見(jiàn)Marcus，2019，2020）等電流互感器在語(yǔ)言理解方面的失敗范圍反映了類似的情況：預(yù)測(cè)總體趨勢(shì)之間的分歧（如短語(yǔ)mom\\\\\\'s house出現(xiàn)在單詞附近的可能性，以及語(yǔ)料庫(kù)GPT-2中的短語(yǔ)drop、off、pick、up和clothing）以及表達(dá)、更新和操縱認(rèn)知模型的能力。當(dāng)BERT和GPT-2未能跟蹤干洗將在何處時(shí)，這直接反映了GPT和BERT不能代表單個(gè)實(shí)體隨時(shí)間演化的特性。如果沒(méi)有認(rèn)知模型，這樣的系統(tǒng)就會(huì)消失。

有時(shí)他們從統(tǒng)計(jì)學(xué)中得到好運(yùn)，但是缺乏認(rèn)知模型，他們沒(méi)有可靠的基礎(chǔ)來(lái)推理。

認(rèn)知模型的缺乏對(duì)于任何希望使用Transformers作為下游推理系統(tǒng)輸入的人來(lái)說(shuō)也是一個(gè)慘淡的消息。語(yǔ)言理解的全部本質(zhì)是從語(yǔ)篇中導(dǎo)出認(rèn)知模型；然后我們可以對(duì)我們導(dǎo)出的模型進(jìn)行推理。Transformers，至少在他們目前的形式，只是沒(méi)有做到預(yù)測(cè)詞類是令人印象深刻的，但就其本身而言，預(yù)測(cè)并不等于理解。

正如我們?cè)诘?.3節(jié)中看到的羅密歐和朱麗葉的例子，CYC是非常好的，因?yàn)樗梢裕ㄖ辽僭谝恍┓乾嵥榈某潭壬希┏^(guò)認(rèn)知模型的推理（例如它的時(shí)間點(diǎn)列表和關(guān)于在不同時(shí)間點(diǎn)已知的人物和地點(diǎn)的事實(shí)，節(jié)選于圖2），與背景（常識(shí)知識(shí)）相關(guān)，但仍然存在著可悲的缺陷，因?yàn)樗鼰o(wú)法單獨(dú)推導(dǎo)出相關(guān)的認(rèn)知模型。任何一個(gè)系統(tǒng)，如果能夠?qū)⒆匀徽Z(yǔ)言維基百科的繪圖摘要（如圖2左面板中的一個(gè)）作為輸入，并自動(dòng)導(dǎo)出自己的詳細(xì)認(rèn)知模型（類似于CYC的程序員手工構(gòu)建的模型），這樣下游的推理者就可以對(duì)其進(jìn)行推理，這將是相對(duì)于傳統(tǒng)推理的一個(gè)重大進(jìn)步當(dāng)前AI。

不幸的是，很少有人致力于從描述隨時(shí)間發(fā)展的事件的文本（更不用說(shuō)視頻）中推導(dǎo)出豐富的認(rèn)知模型。Pasupat和Liang的一篇論文（Pasupat和Liang，2015）試圖將句子解析成可在表上運(yùn)行的可編程查詢，但該系統(tǒng)并不試圖隨著時(shí)間積累模型。Facebook人工智能研究的一些論文，例如記憶網(wǎng)絡(luò)（Bordes，Usunier，Chopra，&Weston，2015）和循環(huán)實(shí)體網(wǎng)絡(luò)（Henaff，Weston，Szlam，Bordes，&LeCun，2016），可以將簡(jiǎn)單的故事作為輸入并回答一些關(guān)于它們的基本問(wèn)題。但是這些系統(tǒng)（a）需要大量的輸入，相對(duì)于他們回答的每個(gè)問(wèn)題，（b）似乎范圍有限，很大程度上依賴于問(wèn)答之間的語(yǔ)言重疊，（c）整合先前知識(shí)的能力非常有限。也許最重要的是，（d）他們沒(méi)有產(chǎn)生豐富的認(rèn)知模型，可以傳遞給推理者作為他們的輸出。彼得·諾維格（Peter Norvig）關(guān)于故事理解的論文（Norvig，1986）試圖在一個(gè)經(jīng)典的符號(hào)操縱框架中做類似的事情，就像沙克和阿貝爾森（Schank&Abelson，1977）的許多開(kāi)創(chuàng)性工作一樣，但據(jù)我所知，故事理解不再是當(dāng)前研究的活躍領(lǐng)域。這是一個(gè)被拋棄而不是解決的重要問(wèn)題。（沙克和阿貝爾森，1977年）

據(jù)我所知，最活躍的文獻(xiàn)是關(guān)于場(chǎng)景理解的研究，其最終目的不僅是解釋視覺(jué)場(chǎng)景中存在的對(duì)象，而且還解釋對(duì)象之間的關(guān)系，例如，不僅僅是識(shí)別一個(gè)玻璃杯和一張桌子，而是注意到一個(gè)特定的玻璃杯在桌子上，在一個(gè)特定的房間里玻璃杯靠近桌子邊緣，由桌子支撐，依此類推。這已經(jīng)超出了藝術(shù)的范疇【在我看來(lái)，目前的工作場(chǎng)景理解能力很差，部分原因是很多工作試圖將場(chǎng)景作為一個(gè)整體（“人做飯”）來(lái)識(shí)別，而不是根據(jù)一組個(gè)人（如人或物體）以及這些實(shí)體之間的關(guān)系來(lái)識(shí)別，部分原因是它的目的主要是在沒(méi)有推理的情況下進(jìn)行，推理有時(shí)對(duì)于構(gòu)建連貫的模型是必不可少的。因?yàn)榭赡苄缘臄?shù)量是指數(shù)級(jí)的，適合于從有限的類別集合中對(duì)圖像進(jìn)行分類的技術(shù)不太可能滿足需要；相反，推理本身必須（與對(duì)象分類一起）有助于從場(chǎng)景中歸納認(rèn)知模型的過(guò)程。最近一個(gè)很有前途的概率生成模型GENESIS明確地建模了場(chǎng)景組件之間的依賴關(guān)系（Engelcke、Kosiorek、Jones和Posner，2019）。另見(jiàn)DeepMind的莫奈（Burgesset al.，2019）和梅林（Wayne et al.，2018）以及（Gregor et al.，2019）中的表達(dá)生成模型。e、 g.，inverse graphics papers by Vicarious（Kanskyet al.，2017；George et al.，2017）和Josh Tenenbaum的團(tuán)隊(duì)（Mao et al.，2019；Veerapaneniet al.，2019）?！浚蛔罱K，認(rèn)知模型歸納需要更進(jìn)一步；例如，我們還需要確定心理關(guān)系，這兩種關(guān)系都是在表面層面上的，例如，人1正在與人2交談，最終達(dá)到一個(gè)更復(fù)雜的水平（例如，人1與人2交談以欺騙人2，這樣人2就會(huì)給人1錢）。至少我們的一些符號(hào)必須以某種方式建立在我們的感知經(jīng)驗(yàn)中，如果我們要用符號(hào)來(lái)解釋場(chǎng)景，我們必須有從輸入中推斷符號(hào)（以及符號(hào)之間的結(jié)構(gòu)化關(guān)系）的方法。建立適當(dāng)?shù)哪Ｐ瓦€需要能夠推斷時(shí)間邊界和時(shí)間關(guān)系的系統(tǒng)，等等。

場(chǎng)景理解只是一個(gè)更大問(wèn)題的一個(gè)例子；每次我們理解一個(gè)故事或閱讀一篇文章時(shí)，我們都需要做同樣的事情，在這種情況下，是從文字而不是直接的視覺(jué)體驗(yàn)。

在我們第一次對(duì)強(qiáng)大智能的探索中，我們不能期望制造出能理解莎士比亞的機(jī)器，但我們可以追求比我們所擁有的多得多的東西。我5.5歲和7歲的孩子可能不會(huì)自發(fā)地理解莎士比亞，但他們所擁有的智力在很大程度上是強(qiáng)大的；他們了解很多關(guān)于日常事物的物理相互作用的知識(shí)，以及足夠了解人類的目標(biāo)和動(dòng)機(jī)，以理解大量的兒童書籍；已經(jīng)，早在小學(xué)階段，他們就掌握了欺騙、誤解和動(dòng)機(jī)等概念，這些概念在《羅密歐與朱麗葉》的故事中非常關(guān)鍵。他們可以在各種各樣的操場(chǎng)上攀爬和機(jī)動(dòng)，還可以談?wù)摳鞣N各樣的話題。

最終，推理和認(rèn)知模型可以以幾乎無(wú)限的方式結(jié)合起來(lái)。例如，假設(shè)在中午12點(diǎn)，一個(gè)孩子被單獨(dú)留在一個(gè)房間里，房間里有一個(gè)裝有餅干的封閉餅干罐。中午12:05，人們注意到罐子是關(guān)著的，但餅干卻不見(jiàn)蹤影。其間發(fā)生了什么？結(jié)合時(shí)間和空間推理，你可以很容易地推斷出（a）孩子打開(kāi)了罐子（b）孩子拿走了餅干，（c）孩子吃了餅干，（d）孩子關(guān)上了罐子。對(duì)于加分，你可以推斷（b）一定發(fā)生在（c）和（d）之前，但是（c）和（d）的順序是未知的。結(jié)合生物學(xué)理論，你可以把孩子理解為一個(gè)容器，并意識(shí)到餅干現(xiàn)在被包含（部分消化）在里面，已經(jīng)從一個(gè)開(kāi)口（一張嘴）進(jìn)入另一個(gè)容器（胃）。沒(méi)有任何理由認(rèn)為，如果沒(méi)有內(nèi)部的認(rèn)知模型和推理機(jī)制，人工智能將能夠有力地做出這種推論。沒(méi)有這一點(diǎn)，就不可能可靠地理解一個(gè)偵探小說(shuō)，一個(gè)超越閑聊的對(duì)話，或者幾乎任何人類互動(dòng)的敘述。

我有兩個(gè)猜想

?如果沒(méi)有混合體系結(jié)構(gòu)、豐富的先驗(yàn)知識(shí)和復(fù)雜的推理技術(shù)，我們就無(wú)法以適當(dāng)、自動(dòng)化的方式構(gòu)建豐富的認(rèn)知模型。舉一個(gè)例子，如果我們看到水體中的漣漪隱約讓人想起汽車，在一般情況下，我們應(yīng)該假設(shè)這些漣漪只是漣漪，例如，基于汽車不會(huì)漂浮的知識(shí)。但我們可能會(huì)在黑幫電影的背景下改變我們的前科，在這部電影中，汽車可能會(huì)被故意推入水中。場(chǎng)景理解最終不僅僅是標(biāo)記對(duì)象，而是使用最好的可用數(shù)據(jù)進(jìn)行連貫的解釋，這需要對(duì)數(shù)據(jù)進(jìn)行一定程度的推理，并結(jié)合先驗(yàn)知識(shí)。任何單純依靠標(biāo)記圖像的自下而上方法都可能在各種異常情況下失敗，正如我們迄今所看到的，即使是在地圖清晰的公共道路上進(jìn)行自主駕駛的狹窄領(lǐng)域，盡管付出了巨大的努力和數(shù)十億美元的投資。

?如果沒(méi)有歸納和表現(xiàn)豐富認(rèn)知模型的能力，我們就無(wú)法獲得強(qiáng)健的智力。例如，閱讀在某種程度上可以被認(rèn)為是一種以句子為輸入，以產(chǎn)生為輸出（內(nèi)部）認(rèn)知模式的功能。當(dāng)我們發(fā)現(xiàn)羅密歐自殺時(shí)，基于對(duì)事實(shí)的誤解，我們更新了我們的模型。一旦我們更新了我們的模型，我們就會(huì)對(duì)它們進(jìn)行推理（考慮到朱麗葉的明顯死亡，羅密歐會(huì)自殺有意義嗎？）。我們的情緒反應(yīng)也來(lái)自于我們對(duì)所發(fā)生事情的內(nèi)部認(rèn)知模式的相對(duì)判斷。（角色剛才表演的動(dòng)作是否合乎道德？安全嗎？愚蠢？悲劇？）。純粹的共現(xiàn)統(tǒng)計(jì)并沒(méi)有可靠地得出這一點(diǎn)。Cyc有能力表示豐富的認(rèn)知模型，但由于它沒(méi)有感知成分，缺乏足夠的自然語(yǔ)言前端，因此不能從數(shù)據(jù)中歸納模型。Transformers，如果他們成功了，就跳過(guò)了歸納和表現(xiàn)豐富認(rèn)知模型的步驟，但這樣做是有風(fēng)險(xiǎn)的，因?yàn)樗麄兡軌蜃龅耐评硪虼耸窍喈?dāng)有限的。同樣，家用機(jī)器人最終也會(huì)被限制在他們能夠安全參與的行動(dòng)范圍內(nèi)，因?yàn)樗麄兡軌蛲ㄟ^(guò)豐富的認(rèn)知模型進(jìn)行歸納、表示和推理。

單靠更多的數(shù)據(jù)可能無(wú)法解決這個(gè)問(wèn)題。在我編輯這篇手稿的時(shí)候，谷歌發(fā)布了Meena（Adiwardana et al.，2020），在341GB的海量語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練，幾乎是GPT-2訓(xùn)練的10倍，相當(dāng)于大約341000本書，遠(yuǎn)遠(yuǎn)超過(guò)大多數(shù)人一輩子的閱讀量。

根據(jù)谷歌的博客“走向一個(gè)可以談?wù)摗魏问虑榈膶?duì)話代理”，Meena“可以進(jìn)行比現(xiàn)有最先進(jìn)的聊天機(jī)器人更明智和具體的對(duì)話?！毕馟PT-2一樣，Meena創(chuàng)作的散文既非常流暢，也非常有主題性。它最好的對(duì)話是驚人的，該報(bào)報(bào)道說(shuō)，它設(shè)置了一個(gè)新的藝術(shù)狀態(tài)，在新的衡量標(biāo)準(zhǔn)“感性和特異性”。但同樣的核心基礎(chǔ)——世界內(nèi)部認(rèn)知模式仍然缺失。

考慮一下這個(gè)片段

你最喜歡的樂(lè)隊(duì)是什么？Avengedsevenfold。

人類：哦，這是個(gè)好答案！你最不喜歡哪個(gè)樂(lè)隊(duì)？Avengedsevenfold。

哦，我以為你喜歡Avengedsevenfold？米娜：是的。那是我最喜歡的樂(lè)隊(duì)。

每個(gè)答案都是連貫的，但從一個(gè)答案到下一個(gè)答案卻沒(méi)有連貫性。Meena抓住了這樣一個(gè)事實(shí)，即某些短語(yǔ)，如樂(lè)隊(duì)名稱，往往與短語(yǔ)，如“最喜愛(ài)的樂(lè)隊(duì)”；但沒(méi)有持久的記錄，Meena的喜好，即使是一個(gè)簡(jiǎn)短的對(duì)話長(zhǎng)度，因此完全不一致。

在第77次對(duì)話中也可以看到大致相同的情況。Meena在自稱“學(xué)習(xí)”廣東話和已經(jīng)母語(yǔ)流利的廣東話之間搖擺不定：

人類：你的新年決心是什么？米娜：減掉60磅學(xué)廣東話學(xué)法語(yǔ)人類：你不覺(jué)得，那很牽強(qiáng)嗎？

米娜：不是真的。我現(xiàn)在瘦了35磅，我已經(jīng)能說(shuō)廣東話到一個(gè)基本的水平，而且我已經(jīng)在學(xué)校學(xué)法語(yǔ)了。

人類：哇！真令人印象深刻！

米娜：我在一邊學(xué)法語(yǔ)，這對(duì)我來(lái)說(shuō)真的很容易，因?yàn)槲业哪刚Z(yǔ)是粵語(yǔ)。

沒(méi)有認(rèn)識(shí)到你不能學(xué)習(xí)一門你已經(jīng)知道的語(yǔ)言（缺少背景知識(shí)），也沒(méi)有內(nèi)在的模式來(lái)判斷米娜是否會(huì)說(shuō)廣東話。一句一句的預(yù)測(cè)很突出；總體上是不連貫的。

當(dāng)我在修改這篇論文的初稿時(shí)，我開(kāi)始用“貓?jiān)趬|子上”這句話起草一個(gè)圖表。我的計(jì)劃是展示如何解釋這個(gè)句子，從語(yǔ)法到語(yǔ)義，再到可更新的認(rèn)知模型，跟蹤實(shí)體（如貓和墊子）及其屬性和彼此之間的關(guān)系；目標(biāo)是展示GPT-2是如何試圖縮短這條路徑，從而得到混合的結(jié)果。

我還沒(méi)來(lái)得及畫完這幅圖，我5.5歲和7歲的孩子們就從我身后望過(guò)去，咯咯地笑著大聲念著“貓?jiān)趬|子上”這句話。我轉(zhuǎn)向年長(zhǎng)的那個(gè)，問(wèn)他：“你能把一頭大象放在墊子上嗎？”他回答說(shuō)，這要看情況；如果這是一個(gè)真正的大墊子，你可以，如果這是一個(gè)小墊子，你不能。他立即形成了一個(gè)虛構(gòu)的世界和實(shí)體的模型，填充了這個(gè)世界，并應(yīng)用他的一般常識(shí)知識(shí)的理論世界，完全沒(méi)有標(biāo)簽的例子。

當(dāng)他離開(kāi)房間時(shí)，我問(wèn)了他妹妹，我5.5歲的女兒。她很好地理解了前面的談話，并對(duì)我的問(wèn)題給出了一個(gè)同樣恰當(dāng)?shù)拇鸢?。?dāng)我問(wèn)她一座房子是否能放在墊子上時(shí)，她證明了自己同樣擅長(zhǎng)構(gòu)建一個(gè)模型，并對(duì)其未指明的參數(shù)進(jìn)行推理，從而得出合理的結(jié)論。

我們不可能建立可靠、健壯的人工智能系統(tǒng)，因?yàn)檫@些系統(tǒng)無(wú)法與小孩子通常做的基本推理和模型構(gòu)建相匹配。等待認(rèn)知模型和推理從越來(lái)越大的訓(xùn)練語(yǔ)料庫(kù)中神奇地出現(xiàn)，就像等待奇跡。

底線是：目前針對(duì)建立認(rèn)知模型系統(tǒng)的研究太少。強(qiáng)調(diào)端到端的學(xué)習(xí)和大量的訓(xùn)練集已經(jīng)從核心的更高層次的認(rèn)知轉(zhuǎn)移。大多數(shù)研究人員甚至沒(méi)有試圖構(gòu)建圍繞認(rèn)知模型的系統(tǒng)，而且（除了在像自動(dòng)駕駛這樣的狹隘領(lǐng)域之外）越來(lái)越少的研究人員專注于發(fā)現(xiàn)相對(duì)于輸入流（如文本或視頻）導(dǎo)出和更新認(rèn)知模型的一般方法這一相關(guān)挑戰(zhàn)。很少有人把重點(diǎn)放在結(jié)合先前的常識(shí)來(lái)推理這些模型上，例如大象相對(duì)于貓的大小，以及這與各種大小的墊子的關(guān)系。

在我看來(lái)，構(gòu)建能夠?qū)⒄Z(yǔ)言和感知輸入映射到豐富的、不斷發(fā)展的認(rèn)知模型的系統(tǒng)應(yīng)該是該領(lǐng)域最優(yōu)先考慮的問(wèn)題之一。

換言之，更緊迫的是，花在改進(jìn)大規(guī)模單詞級(jí)預(yù)測(cè)模型上的每一刻，即lagpt-2和Meena，都是一個(gè)可以更好地用于開(kāi)發(fā)派生、更新和推理認(rèn)知模型的技術(shù)的時(shí)機(jī)。

如果我們想建立健壯的人工智能，我們就不能再等了。

3.討論

3.1.一種圍繞著持久的抽象知識(shí)的智慧

沒(méi)有我們，或者像我們這樣的生物，世界將繼續(xù)存在，但它將無(wú)法被描述、提煉或理解。鳥(niǎo)可以拍打翅膀，也可以帶著它飛行。有關(guān)聯(lián)，但沒(méi)有因果關(guān)系的描述。人類生活充滿了抽象和因果描述。我們的孩子大部分時(shí)間都在問(wèn)為什么；科學(xué)家問(wèn)這樣的問(wèn)題是為了產(chǎn)生理論。我們的力量很大一部分來(lái)自于我們以科學(xué)、文化和技術(shù)的形式理解和描述世界的努力。

大部分的努力都以知識(shí)的形式達(dá)到高潮，有些是具體的，有些是一般的，有些是口頭的，有些不是。經(jīng)典人工智能的很大一部分目標(biāo)是以機(jī)器可解釋的形式提取這些知識(shí)；CYC是這方面最大的項(xiàng)目。

一路上的某個(gè)地方，人工智能領(lǐng)域走了一個(gè)不同的方向。大多數(shù)研究人員，如果他們了解CYC的話，會(huì)認(rèn)為這是一個(gè)失敗，而目前很少有研究人員會(huì)將他們的目標(biāo)描述為積累知識(shí)，就像Lenat所描述的那樣。【也許Google知識(shí)圖（Google Knowledge Graph）最接近，但據(jù)我所知，知識(shí)圖的目標(biāo)是積累有助于消除搜索查詢歧義的具體事實(shí)，比如法國(guó)有一個(gè)叫巴黎的城市，而不是抽象的常識(shí)?！?/p>

像Transformers這樣的系統(tǒng)的部分成功導(dǎo)致了一種虛幻的感覺(jué)，即CYC規(guī)模的機(jī)器可解釋的人類知識(shí)表示是不必要的，但我認(rèn)為這是一個(gè)錯(cuò)誤。然而，正如我們所看到的，盡管Transformers作為統(tǒng)計(jì)推斷引擎給人留下了深刻的印象，但它們離成為強(qiáng)大智能的堅(jiān)實(shí)基礎(chǔ)還有很長(zhǎng)的路要走。他們不可靠，他們的知識(shí)參差不齊。

他們的推理能力很差，而且隨著時(shí)間的推移，他們無(wú)法建立事件的認(rèn)知模型；沒(méi)有明顯的方法將它們與更復(fù)雜的推理和認(rèn)知模型建立系統(tǒng)聯(lián)系起來(lái)，也沒(méi)有辦法將它們用作可解釋、可調(diào)試的智能的框架。

這篇論文的重?fù)?dān)是主張研究重點(diǎn)的轉(zhuǎn)變，轉(zhuǎn)向構(gòu)建健壯人工智能的四個(gè)認(rèn)知前提：混合架構(gòu)，將大規(guī)模學(xué)習(xí)與符號(hào)操作的表征和計(jì)算能力相結(jié)合，大規(guī)模知識(shí)庫(kù)可能利用固有的框架，這些框架將符號(hào)知識(shí)與其他形式的知識(shí)結(jié)合起來(lái)，推理機(jī)制能夠以可處理的方式利用這些知識(shí)庫(kù)，豐富的認(rèn)知模型與這些機(jī)制和知識(shí)庫(kù)協(xié)同工作。

隨之而來(lái)的是對(duì)可能更加異構(gòu)的體系結(jié)構(gòu)的需求。到目前為止，許多機(jī)器學(xué)習(xí)都集中在相對(duì)同質(zhì)的體系結(jié)構(gòu)上，其中單個(gè)神經(jīng)元的能力僅限于求和和和集成，通常不超過(guò)少數(shù)預(yù)先指定的模塊。正如最近的研究所表明的，這是一種過(guò)分簡(jiǎn)單化的說(shuō)法；在宏觀層面上，僅大腦皮層就有數(shù)百個(gè)解剖和可能的功能區(qū)域（Van Essen、Donahue、Dierker和Glasser，2016）；在微觀層面上，如前所述，即使是單個(gè)神經(jīng)元的單個(gè)樹(shù)突室也可以計(jì)算XOR的非線性（Gidon等人，2020）。Adam Marblestone、Tom Dean和我認(rèn)為（Marcus et al.，2014），大腦皮層不太可能用一個(gè)標(biāo)準(zhǔn)電路來(lái)計(jì)算它的所有功能；神經(jīng)計(jì)算中可能存在一個(gè)重要的多樣性，這在計(jì)算神經(jīng)科學(xué)或人工智能中還沒(méi)有被捕捉到。

兩個(gè)數(shù)字以定性的方式反映了我認(rèn)為我們近年來(lái)一直在做的事情，以及我們應(yīng)該做的事情。這些數(shù)據(jù)的第一點(diǎn)也是最重要的一點(diǎn)很簡(jiǎn)單：潛在的人工智能（和機(jī)器學(xué)習(xí)）模型的空間是巨大的，而且只有一小部分可能存在的東西被探索過(guò)。空白板巖經(jīng)驗(yàn)主義模型已經(jīng)得到了很好的研究，并且得到了很好的資助，沉迷于人工智能早期難以想象的計(jì)算資源和數(shù)據(jù)庫(kù)；已經(jīng)有了一些真正的進(jìn)展，但如此多種形式的脆性仍然是一個(gè)嚴(yán)重的問(wèn)題；是時(shí)候探索具有類似活力的其他方法了。

向前發(fā)展至少需要我們建立一個(gè)模型，原則上能夠代表和學(xué)習(xí)我們?cè)谡Z(yǔ)言和更高層次認(rèn)知方面所需要的各種東西。

目前大多數(shù)系統(tǒng)甚至都不在正確的范圍內(nèi)。至少，充分的知識(shí)框架要求我們能夠通過(guò)變量運(yùn)算，以代數(shù)的方式表示和操作我們的知識(shí)的一部分；很可能這些知識(shí)的一些（大的）子集是按照結(jié)構(gòu)化表示進(jìn)行編碼和維護(hù)的，這些知識(shí)中的大部分必須與特定的個(gè)體有關(guān)，并允許對(duì)其進(jìn)行追蹤。

Transformer體系結(jié)構(gòu)有解決所有這些問(wèn)題的方法，但如果不加以補(bǔ)充，最終不太可能成功；同時(shí)，我們絕對(duì)不能期望所有相關(guān)知識(shí)都是預(yù)先固定的。

本文的有力預(yù)測(cè)是，健壯的人工智能必然存在于圖4所示的交叉點(diǎn)。

圖4:Venn圖在廣闊的智能模型空間中勾勒出了一些模型和架構(gòu)，重點(diǎn)關(guān)注學(xué)習(xí)和符號(hào)操作的維度。代數(shù)思維的假設(shè)（馬庫(kù)斯，2001），以及目前猜想的核心是，成功的智力模型需要對(duì)變量、結(jié)構(gòu)表征和個(gè)體記錄進(jìn)行運(yùn)算。NS-CL[第2.1.2節(jié)中提到的神經(jīng)符號(hào)概念學(xué)習(xí)者（Mao et al 2019）]代表了許多此類可能的混合模型之一，其中許多尚待發(fā)明。本文認(rèn)為，在新的十年里，這一交叉區(qū)域應(yīng)該成為通用智能研究的中心。

同時(shí)，這個(gè)交叉點(diǎn)內(nèi)可能模型的空間是巨大的，甚至可能是無(wú)限的；說(shuō)正確的架構(gòu)是有一個(gè)開(kāi)始，但只是一個(gè)開(kāi)始，就像說(shuō)一個(gè)網(wǎng)絡(luò)瀏覽器可能應(yīng)該用一種語(yǔ)言來(lái)編寫，那就是圖靈等價(jià)物。很好，很真實(shí)，而且。?！，F(xiàn)在怎么辦？擁有一套合適的基本體只是一個(gè)開(kāi)始。

這里有一種方法來(lái)思考這個(gè)問(wèn)題：有無(wú)限多的可能的計(jì)算機(jī)程序，其中只有一些例示應(yīng)用程序，如（例如）web瀏覽器或電子表格，并且只有一個(gè)子集表示健壯的web瀏覽器或電子表格。類似地，有無(wú)限多的系統(tǒng)包含結(jié)構(gòu)化表示、個(gè)人記錄、對(duì)變量的操作，所有這些都在允許學(xué)習(xí)的框架內(nèi)，但只有其中一些系統(tǒng)會(huì)實(shí)例化健壯的智能。如果本文的主旨是正確的，那么結(jié)合學(xué)習(xí)和符號(hào)操作的混合體系結(jié)構(gòu)對(duì)于健壯的智能是必要的，但還不夠。

例如，還需要正確的宏觀結(jié)構(gòu)，包括多個(gè)領(lǐng)域的豐富知識(shí)，如圖5所示：

圖5:Venn圖強(qiáng)調(diào)系統(tǒng)的需要，包括空間、物理、心理、時(shí)間和因果推理的機(jī)制。大多數(shù)當(dāng)前的神經(jīng)網(wǎng)絡(luò)缺乏明確的機(jī)制來(lái)進(jìn)行這些形式的推理，也缺乏對(duì)這些領(lǐng)域進(jìn)行表示和推理的自然方式（但參見(jiàn)Cranmer et al.，2019）

將這兩個(gè)數(shù)字的要點(diǎn)與當(dāng)前的趨勢(shì)相比較。大多數(shù)（并非全部）深度學(xué)習(xí)的當(dāng)前工作都回避了對(duì)變量、結(jié)構(gòu)化表示和個(gè)人記錄的操作；同樣地，深度學(xué)習(xí)在很大程度上沒(méi)有大規(guī)模抽象知識(shí)、豐富的認(rèn)知模型和明確的推理模塊?？偟膩?lái)說(shuō)，關(guān)于合成認(rèn)知的原語(yǔ)應(yīng)該是什么的討論還不夠。深度學(xué)習(xí)在很大程度上取得了它所取得的成就，沒(méi)有了這種傳統(tǒng)的計(jì)算精確性，也沒(méi)有任何看起來(lái)像是物理推理、心理推理等明確模塊的東西。

但是，如果認(rèn)為在諸如語(yǔ)音識(shí)別和對(duì)象標(biāo)記等主要圍繞分類的領(lǐng)域中，效果相當(dāng)好的東西，必然會(huì)可靠地用于語(yǔ)言理解和更高層次的推理，這是一種謬誤?？梢钥隙ǖ氖牵恍┱Z(yǔ)言基準(zhǔn)已經(jīng)被打破，但一些深刻的東西仍然缺失。當(dāng)前的深度學(xué)習(xí)系統(tǒng)可以學(xué)習(xí)任意一點(diǎn)信息之間無(wú)盡的關(guān)聯(lián)，但仍然無(wú)法深入；它們無(wú)法代表世界的豐富性，甚至根本不了解外部世界的存在。

那不是我們想去的地方。

在重新啟動(dòng)人工智能即將結(jié)束時(shí)，我和歐內(nèi)斯特·戴維斯敦促

簡(jiǎn)言之，我們實(shí)現(xiàn)常識(shí)和最終的一般智力的方法是：首先開(kāi)發(fā)能夠代表人類知識(shí)核心框架的系統(tǒng)：時(shí)間、空間、因果關(guān)系、物理對(duì)象及其相互作用的基本知識(shí)、人類及其相互作用的基本知識(shí)。將這些嵌入到一個(gè)可以自由擴(kuò)展到各種知識(shí)的體系結(jié)構(gòu)中，始終牢記抽象性、組合性和個(gè)體跟蹤的中心原則。

開(kāi)發(fā)強(qiáng)大的推理技術(shù)，能夠處理復(fù)雜的知識(shí)，

不確定，不完整，可以自上而下和自下而上自由工作。將這些與感知、操縱和語(yǔ)言聯(lián)系起來(lái)。用這些來(lái)建立豐富的世界認(rèn)知模型。最后一個(gè)重點(diǎn)是：構(gòu)建一種人類啟發(fā)的學(xué)習(xí)系統(tǒng)，使用人工智能擁有的所有知識(shí)和認(rèn)知能力；將所學(xué)知識(shí)融入其先前的知識(shí)；像孩子一樣，貪婪地從各種可能的信息來(lái)源學(xué)習(xí)：與世界互動(dòng)，與人互動(dòng)，閱讀，看視頻，甚至被明確教導(dǎo)。把這些放在一起，你就可以得到深刻的理解。（馬庫(kù)斯和戴維斯，2019年）。

我們的結(jié)論是“這是一個(gè)很高的要求，但這是必須要做的。”即使在GPT-2這樣的Transformers在我們付印之后出現(xiàn)了戲劇性的增長(zhǎng)，我認(rèn)為沒(méi)有理由改變我們的要求。

Weconcluded "It’s a tall order, but it’s what has to be done."Even after the dramatic rise of Transformers such GPT-2,which came out after we went to press, Isee no reason to change ourorder.

3.2我們還能做些什么嗎？

很顯然，是的。

3.2.1工程實(shí)踐

首先，實(shí)現(xiàn)穩(wěn)健性不僅僅是發(fā)展正確的認(rèn)知前提，也是發(fā)展正確的工程實(shí)踐。戴維斯和我在第十章“重新啟動(dòng)人工智能”中簡(jiǎn)要討論了這一點(diǎn)，而湯姆·迪特里希在他的AAAI Presidential Address 演講（迪特里希，2017）中有一個(gè)非常好的討論，我在《重新啟動(dòng)人工智能》問(wèn)世后才發(fā)現(xiàn)這一點(diǎn)。Davis和我強(qiáng)調(diào)了冗余和指定公差等技術(shù)，這些技術(shù)長(zhǎng)期以來(lái)一直適用于其他形式的工程。Dieterich提出了八條建議，非常值得一讀，比如構(gòu)造對(duì)獎(jiǎng)勵(lì)敏感的優(yōu)化函數(shù)和直接構(gòu)造檢測(cè)模型故障的機(jī)器；和我們一樣，他也強(qiáng)調(diào)了因果模型的必要性和冗余的價(jià)值。Joelle Pineau關(guān)于可復(fù)制性的觀點(diǎn)也很重要（Henderson et al.，2017）。

3.2.2.文化

還有一件事需要解決，既與認(rèn)知前提有關(guān)，也與良好的工程實(shí)踐無(wú)關(guān)，那就是文化：某些東西與深度學(xué)習(xí)社區(qū)的某些元素嚴(yán)重不符，不利于進(jìn)步。這是一個(gè)房間里的大象，必須承認(rèn)和解決，如果我們要向前邁進(jìn)。

尤其是外界的觀點(diǎn)，尤其是批評(píng)的觀點(diǎn)，往往被視為一種極端的侵略（雙方幾十年的敵對(duì)行動(dòng)所導(dǎo)致的）【第二個(gè)文化問(wèn)題，正如這篇手稿的一位讀者所指出的，是深度學(xué)習(xí)的倡導(dǎo)者經(jīng)常過(guò)于看重大數(shù)據(jù)，常常假設(shè)（有時(shí)是錯(cuò)誤的）復(fù)雜問(wèn)題的答案基本上可以在越來(lái)越大的數(shù)據(jù)集和越來(lái)越大的計(jì)算集群中找到。整個(gè)領(lǐng)域，如語(yǔ)言學(xué)，在很大程度上都被忽視了。這不可能是好事?！?，這種侵略不應(yīng)在知識(shí)論述中占有一席之地，特別是在一個(gè)幾乎肯定需要成為跨學(xué)科的領(lǐng)域，如果要取得進(jìn)展。

學(xué)生們并不是對(duì)這種動(dòng)態(tài)視而不見(jiàn)，他們逐漸認(rèn)識(shí)到，公開(kāi)宣稱符號(hào)操縱是人工智能的一個(gè)組成部分，可能會(huì)對(duì)他們的職業(yè)生涯造成損害。例如，在我與Bengio辯論之后，一位來(lái)自著名深度學(xué)習(xí)實(shí)驗(yàn)室的年輕研究人員私下給我寫信，說(shuō)“其實(shí)我兩年來(lái)一直想寫一些……關(guān)于符號(hào)人工智能的東西，每次都不想寫，因?yàn)閾?dān)心它會(huì)對(duì)我未來(lái)的職業(yè)道路產(chǎn)生這樣或那樣的影響?！?/p>

這是一種適得其反的狀態(tài)。正如辛頓本人曾經(jīng)說(shuō)過(guò)的那樣，“馬克斯·普朗克說(shuō)過(guò)，‘科學(xué)跨過(guò)此次葬禮而前進(jìn)?！磥?lái)取決于某個(gè)對(duì)我所說(shuō)的一切深表懷疑的研究生?！边M(jìn)步往往取決于學(xué)生認(rèn)識(shí)到長(zhǎng)輩理論的局限性；如果學(xué)生不敢說(shuō)話，那就是一個(gè)嚴(yán)重的問(wèn)題。

3.3.一點(diǎn)一點(diǎn)地看清整個(gè)大象（事物）

好消息是，如果我們能夠開(kāi)始共同努力，進(jìn)展可能并不遙遠(yuǎn)。如果健壯智能的問(wèn)題已經(jīng)解決了，就完全沒(méi)有必要寫這篇文章了。但是，也許，只是也許已經(jīng)足夠了，如果我們瞇著眼睛，看看周圍的碎片，如果我們把它們放在一起的話，我們也許能夠想象大象的樣子。

一些想法：

?深度學(xué)習(xí)向我們展示了從海量數(shù)據(jù)中可以學(xué)到多少。同現(xiàn)統(tǒng)計(jì)等可能只是可靠知識(shí)的影子，但確實(shí)有很多影子，只要我們敏銳地意識(shí)到它們的優(yōu)點(diǎn)和局限性，也許我們可以利用這些影子，使用更復(fù)雜的技術(shù)。

?在豐富的知識(shí)基礎(chǔ)和豐富的認(rèn)知模型存在的情況下，CYC顯示了復(fù)雜推理的潛在能力，即使它本身不能直接從語(yǔ)言或知覺(jué)輸入中推導(dǎo)出這些模型。

?像NS-CL（Mao等人，2019年）這樣的系統(tǒng)向我們表明，符號(hào)操縱和深度學(xué)習(xí)至少在原則上可以整合成一個(gè)無(wú)縫的整體，既能感知又能推理。

這樣的例子太多了。如果我們能夠打破僵局，停止60年來(lái)阻礙進(jìn)展的敵對(duì)行動(dòng)，轉(zhuǎn)而集中精力，努力在這些世界之間架起橋梁，前景就是好的。稍微混合一些比喻，也許避開(kāi)下一個(gè)可能的人工智能冬天的最好方法可能是讓我們的帳篷不是在一根柱子上休息，而是在許多柱子上休息。

3.4結(jié)論、前景和影響

沒(méi)有什么要求我們放棄深度學(xué)習(xí)，也不放棄正在進(jìn)行的專注于新硬件、學(xué)習(xí)規(guī)則、評(píng)估指標(biāo)和培訓(xùn)制度等主題的工作，但它促使我們從學(xué)習(xí)或多或少是唯一一等公民的觀點(diǎn)轉(zhuǎn)變?yōu)閷W(xué)習(xí)是更廣泛的聯(lián)盟的核心成員的觀點(diǎn)歡迎使用變量、先驗(yàn)知識(shí)、推理和豐富的認(rèn)知模型。

我提倡一個(gè)四步計(jì)劃：首先開(kāi)發(fā)混合的神經(jīng)-符號(hào)結(jié)構(gòu)，然后構(gòu)建豐富的、部分先天的認(rèn)知框架和大規(guī)模知識(shí)數(shù)據(jù)庫(kù)，然后進(jìn)一步開(kāi)發(fā)對(duì)這些框架進(jìn)行抽象推理的工具，最終開(kāi)發(fā)出更為復(fù)雜的認(rèn)知機(jī)制認(rèn)知模型的表征與歸納。綜上所述，朝著這四個(gè)先決條件取得進(jìn)展，可能會(huì)為比目前更豐富、更智能的系統(tǒng)提供基礎(chǔ)。最終，我認(rèn)為這將重新定義我們所說(shuō)的學(xué)習(xí)的含義，導(dǎo)致一種（也許是新的）學(xué)習(xí)形式，它通過(guò)抽象的、類似語(yǔ)言的概括，從數(shù)據(jù)中，相對(duì)于知識(shí)和認(rèn)知模型，將推理作為學(xué)習(xí)過(guò)程的一部分。

如果我所描述的沒(méi)有一個(gè)是單獨(dú)的或者甚至是集體的，我相信，它至少足以讓我們更接近一個(gè)我們可以信任的人工智能框架。

把事情說(shuō)得稍微不同一點(diǎn)：我呼吁的一種研究方法是，首先確定一組動(dòng)機(jī)良好的初始原語(yǔ)（可能包括對(duì)變量的操作、注意機(jī)制等），然后學(xué)習(xí)如何在之后重新組合這些原語(yǔ)，考慮到這些原語(yǔ)，從本質(zhì)上說(shuō)，學(xué)習(xí)什么是良好的實(shí)踐。直到后來(lái)，一旦這些優(yōu)秀軟件工程的原則被確定，我們才有可能進(jìn)入極其復(fù)雜的現(xiàn)實(shí)世界能力。大多數(shù)機(jī)器學(xué)習(xí)工作基本上都試圖跳過(guò)開(kāi)頭的步驟，以經(jīng)驗(yàn)的方式處理復(fù)雜的問(wèn)題，而從未試圖建立一個(gè)關(guān)于語(yǔ)言和更高層次認(rèn)知真正需要什么初始原語(yǔ)的堅(jiān)定理解。跳過(guò)這些最初的步驟，到目前為止還沒(méi)有使我們獲得語(yǔ)言理解和可靠的、可信賴的、能夠應(yīng)對(duì)意外情況的系統(tǒng)；現(xiàn)在是重新考慮的時(shí)候了。

在我看來(lái)，如果我們不改變方向，我們就不可能解決我們對(duì)人工智能最直接的擔(dān)憂。當(dāng)前的范式長(zhǎng)期依賴數(shù)據(jù)，但缺乏知識(shí)、推理和認(rèn)知模型，根本無(wú)法讓我們獲得可以信任的人工智能（Marcus&Davis，2019）。無(wú)論我們想建造與我們一起生活在家中的通用機(jī)器人，還是在不可預(yù)知的地方駕駛我們四處走動(dòng)的自動(dòng)車輛，或是對(duì)罕見(jiàn)疾病和普通疾病同樣有效的醫(yī)療診斷系統(tǒng)，我們需要的系統(tǒng)不僅僅是挖掘大量數(shù)據(jù)集以獲得更微妙的關(guān)聯(lián)。為了做得更好，實(shí)現(xiàn)安全性和可靠性，我們需要對(duì)世界有豐富的因果理解的系統(tǒng)，這需要從更加注重如何用抽象的因果知識(shí)和詳細(xì)的內(nèi)部認(rèn)知模型來(lái)表示、獲取和推理開(kāi)始。

羅馬不是一天建成的。孩子們有大量的常識(shí)，能夠推理，并學(xué)習(xí)復(fù)雜的知識(shí)，但他們?nèi)匀恍枰獢?shù)年的時(shí)間才能擁有（大多數(shù)）成年人的成熟度、廣度和能力。他們已經(jīng)開(kāi)始獲得一些知識(shí)，具體的方面，在這里和現(xiàn)在，但仍然要學(xué)習(xí)，特別是有關(guān)微妙的領(lǐng)域，如政治，經(jīng)濟(jì)，社會(huì)學(xué)，生物學(xué)和日常人際交往。

通過(guò)利用混合體系結(jié)構(gòu)中的創(chuàng)新，弄清楚如何利用認(rèn)知模型和大規(guī)模背景知識(shí)可靠地構(gòu)建、表示和推理，如第2.1.2節(jié)所述，將是一個(gè)重要的步驟，并可能在未來(lái)十年中占據(jù)大部分時(shí)間，但不會(huì)是整個(gè)過(guò)程。

重要的是，這些關(guān)鍵認(rèn)知前提的進(jìn)步可能會(huì)使人工智能成為一個(gè)自給自足的學(xué)習(xí)者，就像一個(gè)聰明的學(xué)童一樣，但它們本身并不能保證產(chǎn)生一個(gè)完整的認(rèn)知存在。也就是說(shuō)，它們可能會(huì)導(dǎo)致自我教育的機(jī)器，在某些方面就像一個(gè)孩子，對(duì)世界有著不完全的了解，但卻有著獲取新思想的強(qiáng)大天賦。這當(dāng)然只是一個(gè)開(kāi)始，但它將使已經(jīng)發(fā)生的事情看起來(lái)只是序幕，一些我們還不能完全預(yù)見(jiàn)的新事物。

4.致謝

為了紀(jì)念雅克·梅勒，1936-2020，科學(xué)家，《認(rèn)知》雜志的創(chuàng)始人，跨學(xué)科認(rèn)知科學(xué)的偉大倡導(dǎo)者，我們需要將人工智能提升到一個(gè)新的水平。

這篇文章的一部分是對(duì)我與Yoshua Bengio于2019年12月23日在加拿大蒙特利爾，由蒙特利爾AI的Vince Boucher組織的AI辯論的反思。我感謝約書亞和文斯使這成為可能我也感謝迪恩阿比奧拉，道格貝米斯，艾米莉本德，文斯鮑徹，厄尼戴維斯，湯姆迪特里奇，佩德羅多明戈斯，查茲費(fèi)爾斯通，阿圖爾達(dá)維拉加塞茲，丹尼爾卡尼曼，卡蒂婭卡彭科，克里斯蒂安克斯汀，路易斯蘭姆，亞當(dāng)馬布爾斯通，梅蘭妮米切爾，艾亞德納瓦爾，巴尼佩爾，Jean-Louis Villecroze和Brad Wyble，他們閱讀并評(píng)論了本手稿的早期草稿，Mohamed Amer和Dylan Bourgeous進(jìn)行了有益的討論。最重要的是，要特別感謝厄尼戴維斯，我在人工智能這么多的共鳴板；這篇論文很大程度上歸功于我們的對(duì)話，和我們的聯(lián)合研究。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

電路板

電路板

+關(guān)注

關(guān)注
140

文章
4835

瀏覽量
96907
人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46348

瀏覽量
236517
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8323

瀏覽量
132165