国产优优a片在线观看,好吊看视频永久免费,xx视频在线永久免费观看

來源：新智元

編輯：昕朋好困

導讀

最近，LSTM之父Jürgen Schmidhuber梳理了17世紀以來人工智能的歷史。在這篇萬字長文中，Schmidhuber為讀者提供了一個大事年表，其中包括神經(jīng)網(wǎng)絡、深度學習、人工智能等領域的重要事件，以及那些為AI奠定基礎的科學家們。

「人工智能」一詞，首次在1956年達特茅斯會議上，由約翰麥卡錫等人正式提出。

實用AI的提出，最早可以追溯到1914年。當時Leonardo Torres y Quevedo構建了第一個工作的國際象棋機器終端游戲玩家。當時，國際象棋被認為是一種僅限于智能生物領域的活動。至于人工智能理論，則可以追溯到1931-34年。當時庫爾特·哥德爾（Kurt G?del ）確定了任何類型的基于計算的人工智能的基本限制。

時間來到1980年代，此時的AI歷史會強調(diào)定理證明、邏輯編程、專家系統(tǒng)和啟發(fā)式搜索等主題。

2000年代初期的AI歷史會更加強調(diào)支持向量機和內(nèi)核方法等主題。貝葉斯推理（Bayesian reasoning）和其他概率論和統(tǒng)計概念、決策樹、集成方法、群體智能和進化計算，此類技術推動了許多成功的AI應用。

2020年代的AI研究反而更加「復古」，比如強調(diào)諸如鏈式法則和通過梯度下降（gradient descent）訓練的深度非線性人工神經(jīng)網(wǎng)絡，特別是基于反饋的循環(huán)網(wǎng)絡等概念。

Schmidhuber表示，這篇文章對之前具有誤導性的「深度學習歷史」進行糾正。在他看來，之前的深度學習史忽略了文章中提到的大部分開創(chuàng)性工作。
此外，Schmidhuber還駁斥了一個常見的錯誤，即神經(jīng)網(wǎng)絡「作為幫助計算機識別模式和模擬人類智能的工具是在1980年代引入的」。因為事實上，神經(jīng)網(wǎng)絡早在80年代前就已出現(xiàn)。

一、1676年：反向信用分配的鏈式法則

1676年，戈特弗里德·威廉·萊布尼茨（Gottfried Wilhelm Leibniz）在回憶錄中發(fā)表了微積分的鏈式法則。如今，這條規(guī)則成為了深度神經(jīng)網(wǎng)絡中信用分配的核心，是現(xiàn)代深度學習的基礎。

神經(jīng)網(wǎng)絡具有計算來自其他神經(jīng)元的輸入的可微函數(shù)的節(jié)點或神經(jīng)元，這些節(jié)點或神經(jīng)元又計算來自其他神經(jīng)元的輸入的可微函數(shù)。如果想要知道修改早期函數(shù)的參數(shù)或權值后，最終函數(shù)輸出的變化，就需要用到鏈式法則。這個答案也被用于梯度下降技術。為了教會神經(jīng)網(wǎng)絡將來自訓練集的輸入模式轉(zhuǎn)換為所需的輸出模式，所有神經(jīng)網(wǎng)絡權值都朝著最大局部改進的方向迭代改變一點，以創(chuàng)建稍微更好的神經(jīng)網(wǎng)絡，依此類推，逐漸靠近權值和偏置的最佳組合，從而最小化損失函數(shù)。值得注意的是，萊布尼茨也是第一個發(fā)現(xiàn)微積分的數(shù)學家。他和艾薩克·牛頓先后獨立發(fā)現(xiàn)了微積分，而且他所使用的微積分的數(shù)學符號被更廣泛的使用，萊布尼茨所發(fā)明的符號被普遍認為更綜合，適用范圍更加廣泛。此外，萊布尼茨還是「世界上第一位計算機科學家」。他于1673年設計了第一臺可以執(zhí)行所有四種算術運算的機器，奠定了現(xiàn)代計算機科學的基礎。

二、19世紀初：神經(jīng)網(wǎng)絡、線性回歸與淺層學習

1805 年，阿德利昂·瑪利·?！だ兆尩拢?a target="_blank">Adrien-Marie Legendre）發(fā)表了現(xiàn)在通常稱為線性神經(jīng)網(wǎng)絡的內(nèi)容。

阿德利昂·瑪利·?！だ兆尩?/span>后來，約翰·卡爾·弗里德里?！じ咚梗↗ohann Carl Friedrich Gauss）也因類似的研究而受到贊譽。這個來自2個多世紀前的神經(jīng)網(wǎng)絡有兩層：一個具有多個輸入單元的輸入層和一個輸出層。每個輸入單元都可以保存一個實數(shù)值，并通過具有實數(shù)值權值的連接連接到輸出。神經(jīng)網(wǎng)絡的輸出是輸入與其權值的乘積之和。給定輸入向量的訓練集和每個向量的期望目標值，調(diào)整權值，使神經(jīng)網(wǎng)絡輸出與相應目標之間的平方誤差之和最小化。當然，那時候這還不叫神經(jīng)網(wǎng)絡。它被稱為最小二乘法（least squares），也被廣泛稱為線性回歸。但它在數(shù)學上與今天的線性神經(jīng)網(wǎng)絡相同：相同的基本算法、相同的誤差函數(shù)、相同的自適應參數(shù)/權值。

這種簡單的神經(jīng)網(wǎng)絡執(zhí)行「淺層學習」，與具有許多非線性層的「深度學習」相反。事實上，許多神經(jīng)網(wǎng)絡課程都是從介紹這種方法開始的，然后轉(zhuǎn)向更復雜、更深入的神經(jīng)網(wǎng)絡。當今，所有技術學科的學生都必須上數(shù)學課，尤其是分析、線性代數(shù)和統(tǒng)計學。在所有這些領域中，許多重要的結果和方法都要歸功于高斯：代數(shù)基本定理、高斯消元法、統(tǒng)計的高斯分布等。這位號稱「自古以來最偉大的數(shù)學家」的人也開創(chuàng)了微分幾何、數(shù)論（他最喜歡的科目）和非歐幾何。如果沒有他的成果，包括AI在內(nèi)的現(xiàn)代工程將不可想象。

三、1920-1925年：第一個循環(huán)神經(jīng)網(wǎng)絡

與人腦相似，循環(huán)神經(jīng)網(wǎng)絡（RNN）具有反饋連接，因此可以遵循從某些內(nèi)部節(jié)點到其他節(jié)點的定向連接，并最終在起點處結束。這對于在序列處理期間實現(xiàn)對過去事件的記憶至關重要。

物理學家恩斯特·伊辛（Ernst Ising）和威廉·楞次（Wilhelm Lenz）在 1920 年代引入并分析了第一個非學習RNN架構：伊辛模型（Ising model）。它根據(jù)輸入條件進入平衡狀態(tài)，是第一個RNN學習模型的基礎。1972 年，甘利俊一（Shun-Ichi Amari）使伊辛模型循環(huán)架構具有自適應性，可以通過改變其連接權值來學習將輸入模式與輸出模式相關聯(lián)。這是世界上第一個學習型RNN。

目前，最流行的RNN就是Schmidhuber提出的長短期記憶網(wǎng)絡LSTM。它已經(jīng)成為20世紀被引用最多的神經(jīng)網(wǎng)絡。

四、1958年：多層前饋神經(jīng)網(wǎng)絡

1958年，弗蘭克·羅森布拉特（Frank Rosenblatt）結合了線性神經(jīng)網(wǎng)絡和閾值函數(shù)，設計出了更深層次的多層感知器 (MLP)。

多層感知器遵循人類神經(jīng)系統(tǒng)原理，學習并進行數(shù)據(jù)預測。它首先學習，然后使用權值存儲數(shù)據(jù)，并使用算法來調(diào)整權值并減少訓練過程中的偏差，即實際值和預測值之間的誤差。由于多層前饋網(wǎng)絡的訓練經(jīng)常采用誤差反向傳播算法，在模式識別的領域中算是標準監(jiān)督學習算法，并在計算神經(jīng)學及并行分布式處理領域中，持續(xù)成為被研究的課題。

五、1965年：第一個深度學習

深度前饋網(wǎng)絡架構的成功學習始于1965年的烏克蘭，當時Alexey Ivakhnenko和Valentin Lapa為具有任意多個隱藏層的深度MLP引入了第一個通用的工作學習算法。

給定一組具有相應目標輸出向量的輸入向量訓練集，層逐漸增長并通過回歸分析進行訓練，然后借助單獨的驗證集進行修剪，其中正則化用于清除多余的單元。層數(shù)和每層單元以問題相關的方式學習。與后來的深度神經(jīng)網(wǎng)絡一樣，Ivakhnenko的網(wǎng)絡學會了為傳入數(shù)據(jù)創(chuàng)建分層的、分布式的、內(nèi)部表示。他沒有稱它們?yōu)樯疃葘W習神經(jīng)網(wǎng)絡，但它們就是這樣。事實上，「深度學習」這個術語最早是由Dechter于1986年引入機器學習的，而Aizenberg等人在2000則引入了「神經(jīng)網(wǎng)絡」的概念。

六、1967-68年：隨機梯度下降

1967年，甘利俊一首次提出通過隨機梯度下降 (SGD)訓練神經(jīng)網(wǎng)絡。甘利俊一與他的學生Saito在具有兩個可修改層的五層MLP中學習了內(nèi)部表示，該層被訓練用于對非線性可分離模式類進行分類。Rumelhart和Hinton等人在1986年做出了類似的工作，并將其命名為反向傳播算法。

七、1970年：反向傳播算法

1970 年，Seppo Linnainmaa率先發(fā)表了反向傳播的算法，這是一種著名的可微節(jié)點網(wǎng)絡信用分配算法，也稱為「自動微分的反向模式」。

首次描述了在任意、離散的稀疏連接情況下的類神經(jīng)網(wǎng)絡的高效誤差反向傳播方式。它現(xiàn)在是廣泛使用的神經(jīng)網(wǎng)絡軟件包的基礎，例如PyTorch和谷歌的Tensorflow。反向傳播本質(zhì)上是為深度網(wǎng)絡實施萊布尼茨鏈式法則的有效方式?？挛鳎–auchy）提出的梯度下降在許多試驗過程中使用它逐漸削弱某些神經(jīng)網(wǎng)絡連接并加強其他連接。1985年，計算成本已比1970年減少約1,000倍，當臺式計算機剛剛在富裕的學術實驗室中普及時，David Rumelhart等人對已知方法進行實驗分析。

通過實驗，魯姆哈特等人證明反向傳播可以在神經(jīng)網(wǎng)絡的隱藏層中產(chǎn)生有用的內(nèi)部表示。至少對于監(jiān)督學習，反向傳播通常比甘利俊一通過SGD方法進行的上述深度學習更有效。2010年之前，許多人認為訓練多層神經(jīng)網(wǎng)絡需要無監(jiān)督預訓練。2010年，Schmidhuber的團隊與Dan Ciresan表明深度FNN可以通過簡單的反向傳播進行訓練，并且根本不需要對重要應用進行無監(jiān)督預訓練。

八、1979年：首個卷積神經(jīng)網(wǎng)絡

1979年，福島邦彥（Kunihiko Fukushima）在STRL開發(fā)了一種用于模式識別的神經(jīng)網(wǎng)絡模型：Neocognitron。

但這個Neocognitron用今天的話來說，叫卷積神經(jīng)網(wǎng)絡（CNN），是深度神經(jīng)網(wǎng)絡基本結構的最偉大發(fā)明之一，也是當前人工智能的核心技術。福島博士引入的Neocognitron，是第一個使用卷積和下采樣的神經(jīng)網(wǎng)絡，也是卷積神經(jīng)網(wǎng)絡的雛形。福島邦彥設計的具有學習能力的人工多層神經(jīng)網(wǎng)絡，可以模仿大腦的視覺網(wǎng)絡，這種「洞察力」成為現(xiàn)代人工智能技術的基礎。福島博士的工作帶來了一系列實際應用，從自動駕駛汽車到面部識別，從癌癥檢測到洪水預測，還會有越來越多的應用。1987年，Alex Waibel將具有卷積的神經(jīng)網(wǎng)絡與權值共享和反向傳播相結合，提出了延時神經(jīng)網(wǎng)絡（TDNN）的概念。1989年以來，Yann LeCun的團隊為CNN的改進做出了貢獻，尤其是在圖像方面。

2011年末，Schmidhuber的團隊大大加快了深度CNN的訓練速度，使其在機器學習社區(qū)中變得更加流行。團隊推出基于GPU的CNN：DanNet，比早期的CNN更深入、運算更快。同年，DanNet成為第一個贏得計算機視覺競賽的純深度CNN。由Microsoft Research的4位學者提出的殘差神經(jīng)網(wǎng)絡（ResNet），在2015年的ImageNet大規(guī)模視覺識別競賽拔得頭籌。Schmidhuber 表示，ResNet是其團隊研發(fā)的高速神經(jīng)網(wǎng)絡（Highway Net）的一個早期版本。相較于以前的神經(jīng)網(wǎng)絡最多只有幾十層，這是第一個真正有效的、具有數(shù)百層的深度前饋神經(jīng)網(wǎng)絡。

九、1987-1990年代：圖神經(jīng)網(wǎng)絡與隨機Delta法則

可以操縱結構化數(shù)據(jù)（例如圖形）的深度學習架構于1987年由Pollack提出，并在20世紀90年代初由 Sperduti、Goller和Küchler進行擴展和改進。如今，圖神經(jīng)網(wǎng)絡被用于許多應用程序中。

Paul Werbos和R. J. Williams等人分析了在RNN中實現(xiàn)梯度下降的方法。Teuvo Kohonen的自組織映射（Self-Organizing Map）也流行起來。

1990年，Stephen Hanson引入了隨機Delta法則，這是一種通過反向傳播訓練神經(jīng)網(wǎng)絡的隨機方法。幾十年后，這個方法在「dropout」的綽號下流行起來。

十、1990年2月：生成式對抗網(wǎng)絡/好奇心

生成對抗網(wǎng)絡（GAN）最早于1990年在以「人工智能好奇心」為名發(fā)表。

兩個對抗的NN（一個概率生成器和一個預測器）試圖在一個最小極限游戲中使對方的損失最大化。其中：

生成器（稱為控制器）生成概率輸出（使用隨機單元，如后來的StyleGAN）。

預測器（稱為世界模型）看到控制器的輸出并預測環(huán)境對它們的反應。使用梯度下降法，預測器NN將其誤差最小化，而生成器NN試圖這個誤差最大化——一個網(wǎng)的損失就是另一個網(wǎng)絡的收益。

之前4年，Schmidhuber就在著名的2010年調(diào)查中，將1990年的生成式對抗NN總結如下：「作為預測世界模型的神經(jīng)網(wǎng)絡被用來最大化控制器的內(nèi)在獎勵，它與模型的預測誤差成正比」。而之后發(fā)布的GAN，只是一個實例。其中，試驗非常短，環(huán)境只是根據(jù)控制器（或生成器）的輸出是否在一個給定的集合中而返回1或0。

1990年的原理被廣泛用于強化學習的探索和現(xiàn)實圖像的合成，盡管后者的領域最近被Rombach等人的Latent Diffusion接替。1991年，Schmidhuber發(fā)表了另一個基于兩個對抗性NN的ML方法，稱為可預測性最小化，用于創(chuàng)建部分冗余數(shù)據(jù)的分離表征，1996年應用于圖像。

十一、1990年4月：生成子目標/按指令工作

近幾個世紀以來，大多數(shù)NN都致力于簡單的模式識別，而不是高級推理。

然而，在20世紀90年代初，首次出現(xiàn)了例外。這項工作將傳統(tǒng)的「符號」層次式人工智能的概念注入到端到端的可區(qū)分的「次符號」（sub-symbolic）NN中。1990年，Schmidhuber團隊的NN學會了用端到端可微分NN的子目標生成器來生成層次化的行動計劃，用于層次化強化學習（HRL）。

一個RL機器得到額外的命令輸入，其形式為（開始，目標）。一個評估器NN學習預測從開始到目標的當前獎勵/成本。一個基于(R)NN的子目標生成器也看到了（開始，目標），并使用評估器NN的（副本）通過梯度下降學習一連串成本最低的中間子目標。RL機器試圖使用這種子目標序列來實現(xiàn)最終目標。該系統(tǒng)在多個抽象層次和多個時間尺度上學習行動計劃，并在原則上解決了最近被稱為「開放性問題」的問題。

十二、1991年3月：具有線性自注意力的Transformer

具有「線性自注意力」的Transformer首次發(fā)表于1991年3月。

這些所謂的「快速權重程序員」（Fast Weight Programmers）或「快速權重控制器」（Fast Weight Controllers）就像傳統(tǒng)計算機一樣分離了存儲和控制，但以一種端到端差異化、自適應，以及神經(jīng)網(wǎng)絡的方式。

此外，今天的Transformer大量使用無監(jiān)督預訓練，這是Schmidhuber在1990-1991年首次發(fā)表的一種深度學習方法。

十三、1991年4月：通過自監(jiān)督的預訓練進行深度學習

今天最強大的NN往往是非常深的，也就是說，它們有很多層的神經(jīng)元或很多后續(xù)的計算階段。

然而，在20世紀90年代之前，基于梯度的訓練對深度NN并不奏效（只對淺層NN有效）。與前饋NN（FNN）不同的是，RNN有反饋連接。這使得RNN成為強大的、通用的、平行序列的計算機，可以處理任意長度的輸入序列（比如語音或者視頻）。然而，在20世紀90年代之前，RNN在實踐中未能學習深層次的問題。為此，Schmidhuber建立了一個自監(jiān)督的RNN層次結構，來嘗試實現(xiàn)「通用深度學習」。

1991年4月：將一個NN蒸餾成另一個NN

通過使用Schmidhuber在1991年提出的NN蒸餾程序，上述神經(jīng)歷史壓縮機的分層內(nèi)部表征可以被壓縮成一個單一的遞歸NN（RNN）。在這里，教師NN的知識被「蒸餾」到學生NN中，方法是訓練學生NN模仿教師NN的行為（同時也重新訓練學生NN，從而保證之前學到的技能不會被忘記）。NN蒸餾法也在許多年后被重新發(fā)表，并在今天被廣泛使用。

十四、1991年6月：基本問題——梯度消失

Schmidhuber的第一個學生Sepp Hochreiter在1991年的畢業(yè)論文中發(fā)現(xiàn)并分析了基本的深度學習問題。

深度NN受到現(xiàn)在著名的梯度消失問題的困擾：在典型的深度或遞歸網(wǎng)絡中，反向傳播的錯誤信號要么迅速縮小，要么超出界限增長。在這兩種情況下，學習都會失敗。

十五、1991年6月：LSTM/Highway Net/ResNet的基礎

長短期記憶（LSTM）遞歸神經(jīng)網(wǎng)絡克服了Sepp Hochreiter在上述1991年的畢業(yè)論文中指出的基本深度學習問題。

在1997年發(fā)表了經(jīng)同行評審的論文之后（現(xiàn)在是20世紀被引用最多的NN文章），Schmidhuber的學生Felix Gers和Alex Graves等人，進一步改進了LSTM及其訓練程序。1999-2000年發(fā)表的LSTM變體——帶有遺忘門的「vanilla LSTM架構」，在如今谷歌的Tensorflow中依然還在應用。2005年，Schmidhuber首次發(fā)表了LSTM在時間上完全反向傳播和雙向傳播的文章（同樣也被廣泛使用）。

2006年一個里程碑式的訓練方法是「聯(lián)結主義時間分類」（CTC），用于同時對齊和識別序列。Schmidhuber的團隊在2007年成功地將CTC訓練的LSTM應用于語音（也有分層的LSTM堆棧），第一次實現(xiàn)了卓越的端到端神經(jīng)語音識別效果。2009年，通過Alex的努力，由CTC訓練的LSTM成為第一個贏得國際比賽的RNN，即三個ICDAR 2009手寫比賽（法語、波斯語、阿拉伯語）。這引起了業(yè)界的極大興趣。LSTM很快被用于所有涉及序列數(shù)據(jù)的場合，比如語音和視頻。2015年，CTC-LSTM的組合極大地改善了谷歌在安卓智能手機上的語音識別性能。直到2019年，谷歌在移動端搭載的語音識別仍然是基于LSTM。

1995年：神經(jīng)概率語言模型

1995年，Schmidhuber提出了一個優(yōu)秀的神經(jīng)概率文本模型，其基本概念在2003年被重新使用。2001年，Schmidhuber表明LSTM可以學習HMM等傳統(tǒng)模型無法學習的語言。2016年的谷歌翻譯，則是基于兩個連接的LSTM（白皮書提到LSTM超過50次），一個用于傳入文本，一個用于傳出翻譯。同年，谷歌數(shù)據(jù)中心用于推理的超強計算能力中，有超過四分之一用于LSTM（還有5%用于另一種流行的深度學習技術，即CNN）。到了2017年，LSTM還為Facebook的機器翻譯（每周超過300億次翻譯）、蘋果在大約10億部iPhone上的Quicktype、亞馬遜的Alexa的語音、谷歌的圖像標題生成和自動電子郵件回答等提供支持。當然，Schmidhuber的LSTM也被大量用于醫(yī)療保健和醫(yī)療診斷——簡單的谷歌學術搜索就能找到無數(shù)標題中帶有「LSTM」的醫(yī)學文章。

2015年5月，Schmidhuber團隊基于LSTM原理提出了Highway Network，第一個具有數(shù)百層的非常深的FNN（以前的NN最多只有幾十層）。微軟的ResNet（贏得了ImageNet 2015比賽）便是它的一個版本。早期Highway Net在ImageNet上的表現(xiàn)與ResNet大致相同。Highway Net的變體也被用于某些算法任務，在這些任務中，純殘差層的效果并不理想。

LSTM/Highway Net原理是現(xiàn)代深度學習的核心

深度學習的核心是NN深度。在20世紀90年代，LSTM為有監(jiān)督的遞歸NN帶來了基本無限的深度；在2000年，受LSTM啟發(fā)的Highway Net為前饋NN帶來了深度。

現(xiàn)在，LSTM已經(jīng)成為20世紀被引用最多的NN，而Highway Net的其中一個版本ResNet，則是21世紀被引用最多的NN。

十六、1980至今：在沒有老師的情況下學習行動的NNN

此外，NN也與強化學習（RL）有關。

雖然部分問題可以通過早在20世紀80年代之前發(fā)明的非神經(jīng)技術來解決。比如，蒙特卡洛樹搜索（MC）、動態(tài)規(guī)劃（DP）、人工進化、α-β-剪枝、控制理論和系統(tǒng)識別、隨機梯度下降，以及通用搜索技術。但深度FNN和RNN可以為某些類型的RL任務帶來更好的效果。一般來說，強化學習智能體必須學會如何在沒有老師的幫助下，與一個動態(tài)的、最初未知的、部分可觀察的環(huán)境互動，從而使預期的累積獎勵信號最大化。在行動和可感知的結果之間可能存在任意的、先驗的未知延遲。當環(huán)境有一個馬爾可夫接口，使RL智能體的輸入可以傳達確定下一個最佳行動所需的所有信息時，基于動態(tài)規(guī)劃（DP）/時序差分（TD）/蒙特卡洛樹搜索（MC）的RL會非常成功。對于沒有馬爾可夫接口的更復雜的情況，智能體不僅要考慮現(xiàn)在的輸入，還要考慮以前輸入的歷史。對此，由RL算法和LSTM形成的組合已經(jīng)成為了一種標準方案，特別是通過策略梯度訓練的LSTM。

例如，在2018年，一個經(jīng)過PG訓練的LSTM是OpenAI著名的Dactyl的核心，它在沒有老師的情況下學會了控制一只靈巧的機器人手。視頻游戲也是如此。2019年，DeepMind（由Schmidhuber實驗室的一名學生共同創(chuàng)立）在《星際爭霸》游戲中擊敗了職業(yè)選手，其中用到的Alphastar，就是有一個由PG訓練的深度LSTM核心。

與此同時，RL LSTM（占模型總參數(shù)數(shù)的84%）也是著名的OpenAI Five的核心，它在Dota 2中擊敗了專業(yè)的人類玩家。RL的未來將是用復雜輸入流的緊湊時空抽象來學習/組合/規(guī)劃，也就是關于常識推理和學習思考。Schmidhuber在1990-91年發(fā)表的論文中提出，自監(jiān)督的神經(jīng)歷史壓縮器，可以學習多層次的抽象和多時間尺度上的表征概念；而基于端到端的可區(qū)分NN的子目標生成器，則可以通過梯度下降學習分層的行動計劃。在隨后的1997年和2015-18年，更復雜的學習抽象思維的方法被發(fā)表。

十七、是硬件問題，呆子!

在過去的一千年里，如果沒有不斷改進和加速升級的計算機硬件，深度學習算法不可能迎來重大突破。

我們第一個已知的齒輪計算設備是2000多年前古希臘的安提基特拉機械（Antikythera mechanism）。這是現(xiàn)今所知的最古老的復雜科學計算機，同時也是世界上第一臺模擬計算機。

安而世界上第一臺實用的可編程機器，是古希臘機械學家海倫于公元1世紀發(fā)明的。17世紀的機器變得更為靈活，可以根據(jù)輸入數(shù)據(jù)計算答案。第一臺用于簡單算術的機械計算器由威廉·契克卡德（Wilhelm Schickard）于1623年發(fā)明制造。1673年，萊布尼茨設計了第一臺可以執(zhí)行所有四種算術運算，并帶有內(nèi)存的機器。他還描述了由穿孔卡控制的二進制計算機的原理并提出鏈式法則，構成了深度學習和現(xiàn)代人工智能的重要組成部分。

800年左右，約瑟夫·瑪麗·雅卡爾 (Joseph Marie Jacquard) 等人在法國制造了第一臺首臺可設計織布機——雅卡爾織布機（Jacquard machine）。該發(fā)明對將來發(fā)展出其他可編程機器（例如計算機）起了重要作用。

他們啟發(fā)了阿達·洛芙萊斯（Ada Lovelace）和她的導師查爾斯·巴貝奇（Charles Babbage）發(fā)明了一臺現(xiàn)代電子計算機的前身：巴貝奇差分機。在隨后的1843年，洛芙萊斯公布了世界上第一套計算機算法。

巴貝奇差分機1914年，西班牙人Leonardo Torres y Quevedo成為20世紀第一位人工智能先驅(qū)，他創(chuàng)造了第一個國際象棋終端機器玩家。1935年至1941年間，康拉德·楚澤（Konrad Zuse）發(fā)明了世界上第一臺可運行的可編程通用計算機：Z3。

與巴貝奇分析機不同，楚澤使用萊布尼茨的二進制計算原理，而不是傳統(tǒng)的十進制計算。這大大簡化了硬件的負荷。1944年，霍華德·艾肯（Howard Aiken）帶領團隊，發(fā)明世界上第一臺大型自動數(shù)字計算機Mark Ⅰ（馬克一號）。1948年，弗雷德里克·威廉姆斯（Frederic Williams）、湯姆·基爾伯恩（Tom Kilburn）和杰夫·托蒂（Geoff Tootill）發(fā)明了世界第一臺電子存儲程序計算機：小型實驗機 (SSEM)，又被稱為「曼徹斯特寶貝」（Manchester Baby）。

從那時起，計算機的運算在集成電路（IC）的幫助下變得更快。1949年，西門子的維爾納·雅各比（Werner Jacobi）申請了一項集成電路半導體專利，使一個公共基板可以有多個晶體管。1958年，Jack Kilby展示了帶有外部導線的集成電路。1959年，羅伯特·諾伊斯 (Robert Noyce) 提出了單片集成電路。自上世紀70年代以來，圖形處理單元 (GPU) 已被用于通過并行處理來加速計算?，F(xiàn)在，計算機的GPU包含數(shù)十億個晶體管。物理極限在哪里？根據(jù)漢斯·約阿希姆·布雷默曼（Hans Joachim Bremermann）提出的布雷默曼極限，一臺質(zhì)量為1千克、體積為1升的計算機最多可以在最多10的32次方位上每秒執(zhí)行最多10的51次方操作。

然而，太陽系的質(zhì)量只有2x10^30千克，這一趨勢勢必會在幾個世紀內(nèi)打破，因為光速會嚴重限制以其他太陽系的形式獲取額外質(zhì)量。因此，物理學的限制要求未來高效的計算硬件必須像大腦一樣，在三維空間中有許多緊湊放置的處理器以最小化總連接成本，其基本架構本質(zhì)上是一種深度的、稀疏連接的三維RNN。Schmidhuber推測，此類RNN的深度學習方法將變得更加重要。

十八、1931年以來的人工智能理論

現(xiàn)代人工智能和深度學習的核心主要是基于近幾個世紀的數(shù)學：微積分、線性代數(shù)和統(tǒng)計學。

20世紀30年代初，哥德爾創(chuàng)立了現(xiàn)代理論計算機科學。他引入了一種以整數(shù)為基礎的通用編碼語言，允許以公理形式將任何數(shù)字計算機的操作正規(guī)化。同時，哥德爾還構建了著名的形式化語句，通過給定一個計算性的定理檢驗器，從可列舉的公理集合中系統(tǒng)地列舉所有可能的定理。因此，他確定了算法定理證明、計算以及任何類型的基于計算的人工智能的基本限制。此外，哥德爾在寫給約翰·馮·諾伊曼的著名信件中，確定了計算機科學中最著名的開放問題「P=NP？」。

1935年，Alonzo Church通過證明Hilbert和Ackermann的決策問題沒有一般的解決方案，得出了哥德爾結果的一個推論。為了做到這一點，他使用了他的另一種通用編碼語言，稱為Untyped Lambda Calculus，它構成了極具影響力的編程語言LISP的基礎。1936年，阿蘭·圖靈引入了另一個通用模型：圖靈機，重新得出了上述結果。同年，Emil Post發(fā)表了另一個獨立的計算通用模型。康拉德·楚澤不僅創(chuàng)造了世界上第一臺可用的可編程通用計算機，并且還設計了第一種高級編程語言——Plankalkül。他在1945年將其應用于國際象棋，在1948年應用于定理證明。

Plankalkül20世紀40-70年代的大部分早期人工智能實際上是關于定理證明和通過專家系統(tǒng)和邏輯編程進行哥德爾式的推導。1964年，Ray Solomonoff將貝葉斯（實際上是拉普拉斯）概率推理和理論計算機科學結合起來，得出一種數(shù)學上最優(yōu)（但計算上不可行）的學習方式，從過去的觀察中預測未來數(shù)據(jù)。他與Andrej Kolmogorov一起創(chuàng)立了柯氏復雜性或算法信息論（AIT）的理論，通過計算數(shù)據(jù)的最短程序的概念，將奧卡姆剃刀的概念正式化，從而超越了傳統(tǒng)的信息論。

柯氏復雜性自指哥德爾機更通用的最優(yōu)性并不局限于漸進式最優(yōu)。盡管如此，由于各種原因，這種數(shù)學上的最優(yōu)人工智能在實踐上還不可行。相反，實用的現(xiàn)代人工智能是基于次優(yōu)的、有限的、但并不被極度理解的技術，如NN和深度學習則是重點。但誰知道20年后的人工智能歷史會是什么樣的呢？

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1789

文章
46397

瀏覽量
236600
深度學習

深度學習

+關注

關注
73

文章
5442

瀏覽量
120800

《AI for Science：人工智能驅(qū)動科學創(chuàng)新》第6章人AI與能源科學讀后感

不僅提高了能源的生產(chǎn)效率和管理水平，還為未來的可持續(xù)發(fā)展提供了有力保障。隨著技術的不斷進步和應用場景的不斷拓展，人工智能將在能源科學領域發(fā)揮更加重要的作用。總結《AI for Science：

發(fā)表于 10-14 09:27

AI for Science：人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

。 4. 對未來生命科學發(fā)展的展望在閱讀這一章后，我對未來生命科學的發(fā)展充滿了期待。我相信，在人工智能技術的推動下，生命科學將取得更加顯著的進展。例如，在藥物研發(fā)領域，AI技術將幫助

發(fā)表于 10-14 09:21

《AI for Science：人工智能驅(qū)動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得

人工智能在科學研究中的核心技術，包括機器學習、深度學習、神經(jīng)網(wǎng)絡等。這些技術構成了AI for Science的基石，使得

發(fā)表于 10-14 09:16

《AI for Science：人工智能驅(qū)動科學創(chuàng)新》第一章人工智能驅(qū)動的科學創(chuàng)新學習心得

人工智能：科學研究的加速器第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習、深度學習等先進技術，

發(fā)表于 10-14 09:12

人工智能ai4s試讀申請

目前人工智能在繪畫對話等大模型領域應用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題，本書對ai4s基本原理和原則，方法進行描訴，有利于總結經(jīng)驗，擬

發(fā)表于 09-09 15:36

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅(qū)動科學創(chuàng)新

后2個星期內(nèi)提交不少于2篇試讀報告要求300字以上圖文并茂。 4、試讀報告發(fā)表在電子發(fā)燒友論壇>>社區(qū)活動專版標題名稱必須包含【「AI for Science：人工智能

發(fā)表于 09-09 13:54

FPGA在人工智能中的應用有哪些？

定制化的硬件設計，提高了硬件的靈活性和適應性。綜上所述，F(xiàn)PGA在人工智能領域的應用前景廣闊，不僅可以用于深度學習的加速和云計算的加速，還可以針對特定應用場景進行定制化計算，為人工智能

發(fā)表于 07-29 17:05

人工智能、機器學習和深度學習是什么

在科技日新月異的今天，人工智能（Artificial Intelligence, AI）、機器學習（Machine Learning, ML）和深度

發(fā)表于 07-03 18:22 ?898次閱讀

人工智能深度學習的五大模型及其應用領域

隨著科技的飛速發(fā)展，人工智能（AI）技術特別是深度學習在各個領域展現(xiàn)出了強大的潛力和廣泛的應用價值。深度

發(fā)表于 07-03 18:20 ?3063次閱讀

阿里通義千問重磅升級，免費開放1000萬字長文檔處理功能

近日，阿里巴巴旗下的人工智能應用通義千問迎來重磅升級，宣布向所有人免費開放1000萬字的長文檔處理功能，這一創(chuàng)新舉措使得通義千問成為全球文檔處理容量第一的AI應用。

發(fā)表于 03-26 11:09 ?698次閱讀

電阻柜的發(fā)展史

電阻柜發(fā)展史

發(fā)表于 03-08 15:22 ?353次閱讀

嵌入式人工智能的就業(yè)方向有哪些?

于工業(yè)、農(nóng)業(yè)、醫(yī)療、城市建設、金融、航天軍工等多個領域。在新時代發(fā)展背景下，嵌入式人工智能已是大勢所趨，成為當前最熱門的AI商業(yè)化途徑之一。

發(fā)表于 02-26 10:17

“單純靠大模型無法實現(xiàn) AGI”！萬字長文看人工智能演進

人工智能是指讓計算機或機器具有類似于人類智能的能力，如學習、推理、解決問題和使用語言、常識、創(chuàng)造力、情感和道德等。

發(fā)表于 02-19 14:22 ?993次閱讀

如何用AI聊天機器人寫出萬字長文

如何用AI聊天機器人寫出萬字長文

發(fā)表于 12-26 16:25 ?1004次閱讀

深度學習在人工智能中的 8 種常見應用

深度學習簡介深度學習是人工智能（AI）的一個分支，它教神經(jīng)網(wǎng)絡

發(fā)表于 12-01 08:27 ?3116次閱讀

搜索歷史