0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)并非“簡(jiǎn)單的統(tǒng)計(jì)”

電子工程師 ? 來源:圖靈人工智能 ? 作者:Boaz Barak ? 2022-08-09 10:01 ? 次閱讀

上世紀(jì)九十年代,斯坦福大學(xué)的知名生物信息學(xué)教授 Rob Tibshirani 曾擬了一個(gè)詞匯表,將機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)中的不同概念作了簡(jiǎn)單而粗暴的對(duì)應(yīng)關(guān)系:

8902fca2-1710-11ed-ba43-dac502259ad0.png

一方面,這個(gè)表格為理解機(jī)器學(xué)習(xí)提供了基礎(chǔ)的認(rèn)識(shí),但同時(shí),其簡(jiǎn)單地將深度學(xué)習(xí)或機(jī)器學(xué)習(xí)中的概念歸納為統(tǒng)計(jì)學(xué)中的詞義,也引起了大多數(shù)人對(duì)深度學(xué)習(xí)本質(zhì)的認(rèn)知偏差:即深度學(xué)習(xí)是“簡(jiǎn)單的統(tǒng)計(jì)”。

然而,在深入探討中,這樣的認(rèn)知在一定程度上阻礙了研究者理解深度學(xué)習(xí)成功的本質(zhì)原因。在今年六月的一篇文章“The uneasy relationship between deep learning and (classical) statistics”中,哈佛大學(xué)知名教授、理論計(jì)算機(jī)科學(xué)家 Boaz Barak 就將深度學(xué)習(xí)與統(tǒng)計(jì)學(xué)進(jìn)行了對(duì)比區(qū)分,指出深度學(xué)習(xí)的根本構(gòu)成因素就與統(tǒng)計(jì)學(xué)有諸多不同。

Boaz Barak 提出一個(gè)重要的觀察:從模型的用途來看,如果是側(cè)重預(yù)測(cè)與觀察,那么具備黑匣子特性的深度學(xué)習(xí)模型可能是最好的選擇;但如果是希望獲取對(duì)事物的因果關(guān)系理解、提高可解釋性,那么“簡(jiǎn)單”的模型可能表現(xiàn)更佳。這與馬毅、曹穎、沈向洋三位科學(xué)家在上個(gè)月提出的構(gòu)成智能兩大原理之一的“簡(jiǎn)約性”見解不謀而合。

與此同時(shí),Boaz Barak 通過展示擬合統(tǒng)計(jì)模型和學(xué)習(xí)數(shù)學(xué)這兩個(gè)不同的場(chǎng)景案例,探討其與深度學(xué)習(xí)的匹配性;他認(rèn)為,雖然深度學(xué)習(xí)的數(shù)學(xué)和代碼與擬合統(tǒng)計(jì)模型幾乎相同,但在更深層次上,深度學(xué)習(xí)中的極大部分都可在“向?qū)W生傳授技能”場(chǎng)景中被捕獲。

統(tǒng)計(jì)學(xué)習(xí)在深度學(xué)習(xí)中扮演著重要的角色,這是毋庸置疑的。但可以肯定的是,統(tǒng)計(jì)角度無法為理解深度學(xué)習(xí)提供完整的畫面,要理解深度學(xué)習(xí)的不同方面,仍需要人們從不同的角度出發(fā)來實(shí)現(xiàn)。

下面是 Boaz Barak 的論述:

幾千年來,科學(xué)家們一直在為觀測(cè)結(jié)果擬合模型。比如在科學(xué)哲學(xué)書皮中所提到的,埃及天文學(xué)家托勒密提出了一個(gè)巧妙的行星運(yùn)動(dòng)模型。托勒密的模型是地心的(即行星圍繞地球旋轉(zhuǎn)),但有一系列“旋鈕”(knobs,具體來說就是“本輪”),使其具有出色的預(yù)測(cè)準(zhǔn)確性。相比之下,哥白尼最初的日心說模型則是假設(shè)行星圍繞太陽的圓形軌道。它比托勒密的模型更簡(jiǎn)單(“可調(diào)節(jié)旋鈕”更少)、且整體上更正確,但在預(yù)測(cè)觀察方面卻不太準(zhǔn)確。(哥白尼在后來也添加了他自己的本輪,從而與托勒密的表現(xiàn)可以相媲美。)

托勒密和哥白尼的模型是無與倫比的。當(dāng)你需要一個(gè)“黑匣子”來進(jìn)行預(yù)測(cè)時(shí),那托勒密的地心模型更勝一籌。而如果你想要一個(gè)可以“窺視內(nèi)部”的簡(jiǎn)單模型,并作為解釋星星運(yùn)動(dòng)的理論起點(diǎn),那哥白尼的模型就更好。

事實(shí)上,開普勒最終將哥白尼的模型改進(jìn)為橢圓軌道,并提出了他的行星運(yùn)動(dòng)三定律,這使得牛頓能夠使用地球上適用的相同引力定律來解釋它們。為此,至關(guān)重要的是,日心模型并不僅是一個(gè)提供預(yù)測(cè)的“黑匣子”,而是由幾乎沒有“活動(dòng)部件”的簡(jiǎn)單數(shù)學(xué)方程給出的。多年來,天文學(xué)一直是發(fā)展統(tǒng)計(jì)技術(shù)的靈感來源。高斯和勒讓德(獨(dú)立地)在 1800 年左右發(fā)明了最小二乘回歸,用于預(yù)測(cè)小行星和其他天體的軌道;柯西在1847年發(fā)明的梯度下降,也是受到了天文預(yù)測(cè)的推動(dòng)。

在物理學(xué)中,(至少有時(shí))你可以“擁有一切”——找到能夠?qū)崿F(xiàn)最佳預(yù)測(cè)準(zhǔn)確性和數(shù)據(jù)最佳解釋的“正確”理論,這被諸如奧卡姆剃刀原理之類的觀點(diǎn)所捕捉,假設(shè)簡(jiǎn)單性、預(yù)測(cè)能力和解釋性洞察力都是相互一致的。然而在許多其他領(lǐng)域,解釋(或一般情況下稱,洞察力)和預(yù)測(cè)的雙重目標(biāo)之間存在張力。如果只是想預(yù)測(cè)觀察結(jié)果,“黑匣子”可能是最好的選擇。但如果你提取因果模型、一般原理或重要特征,那么一個(gè)容易理解和解釋的簡(jiǎn)單模型可能會(huì)更好。

模型的正確選擇取決于其用途。例如,考慮一個(gè)包含許多個(gè)體的基因表達(dá)和表型(比如某種疾?。┑臄?shù)據(jù)集,如果其目標(biāo)是預(yù)測(cè)個(gè)人生病的幾率,往往會(huì)希望為該任務(wù)使用最佳模型,不管它有多復(fù)雜或它依賴于多少基因。相比之下,如果你的目標(biāo)是在濕實(shí)驗(yàn)室中識(shí)別一些基因來進(jìn)一步研究,那么復(fù)雜的黑匣子的用途將是有限的,即使它非常準(zhǔn)確。

2001年, Leo Breiman 在關(guān)于統(tǒng)計(jì)建模兩種文化的著名文章“Statistical Modeling: The Two Cultures”中,就有力地闡述了這一點(diǎn)?!皵?shù)據(jù)建模文化”側(cè)重于解釋數(shù)據(jù)的簡(jiǎn)單生成模型,而“算法建模文化 ”對(duì)數(shù)據(jù)是如何產(chǎn)生的并不了解,而是專注于尋找能夠預(yù)測(cè)數(shù)據(jù)的模型。Breiman 認(rèn)為,統(tǒng)計(jì)數(shù)據(jù)太受第一文化的支配,而這種關(guān)注“導(dǎo)致了不相關(guān)的理論和有問題的科學(xué)結(jié)論” 和“阻止統(tǒng)計(jì)學(xué)家研究令人興奮的新問題?!?/p>

但是,Breiman 的論文充滿爭(zhēng)議。雖然 Brad Efron 對(duì)部分觀點(diǎn)表示贊同,但“看第一遍,Leo Breiman 那篇令人振奮的論文看起來像是反對(duì)簡(jiǎn)約和科學(xué)洞察力,支持很多旋鈕可操縱的黑盒子。而看第二遍,還是那個(gè)樣子” 。但在近期一篇文章(“Prediction, Estimation, and Attribution”)中,Efron 大方承認(rèn)“事實(shí)證明,Breiman 比我更有先見之明:純粹的預(yù)測(cè)算法在 21 世紀(jì)占據(jù)了統(tǒng)計(jì)的風(fēng)頭,其發(fā)展方向與 Leo 此前提到的差不多?!?/p>

無論機(jī)器學(xué)習(xí)是否“深度”,它都屬于 Breiman 所說的第二種文化,即專注于預(yù)測(cè),這種文化已流傳很長一段時(shí)間。例如 Duda 和 Hart 1973 年的教科書《Deconstructing Distributions: A Pointwise Framework of Learning》、以及Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的論文片段,對(duì)于今天的深度學(xué)習(xí)從業(yè)者來說,其辨識(shí)度非常高:

891ce66c-1710-11ed-ba43-dac502259ad0.png

同樣地,Highleyman 的手寫字符數(shù)據(jù)集和被用來與數(shù)據(jù)集擬合的架構(gòu) Chow(準(zhǔn)確率約為 58%)也引起了現(xiàn)代讀者的共鳴。

896a10c2-1710-11ed-ba43-dac502259ad0.png

1992 年,Stuart Geman、Elie Bienenstock 和 Rene Doursat 共同寫了一篇題為“Neural Networks and the Bias/Varian Dilemma”的論文,其中談到一些悲觀的看法,例如,“當(dāng)前的前饋神經(jīng)網(wǎng)絡(luò),在很大程度上不足以解決機(jī)器感知和機(jī)器學(xué)習(xí)中的難題”;具體來說,他們認(rèn)為通用神經(jīng)網(wǎng)絡(luò)無法成功解決困難的任務(wù),神經(jīng)網(wǎng)絡(luò)成功的唯一途徑是通過手工設(shè)計(jì)特征。用他們的話來說,即是:“重要的特征必須是內(nèi)置的或‘硬連線的’(hard-wired)……而不是通過統(tǒng)計(jì)的方法來學(xué)習(xí)?!?/p>

事后看來,他們的觀點(diǎn)完全錯(cuò)了。而且,現(xiàn)代神經(jīng)網(wǎng)絡(luò)的架構(gòu)如 Transformer 甚至比當(dāng)時(shí)的卷積網(wǎng)絡(luò)更通用。但理解他們犯錯(cuò)的背后原因是很有趣的。

我認(rèn)為,他們犯錯(cuò)的原因是深度學(xué)習(xí)確實(shí)與其他學(xué)習(xí)方法不同。一個(gè)先驗(yàn)的現(xiàn)象是:深度學(xué)習(xí)似乎只是多了一個(gè)預(yù)測(cè)模型,像最近的鄰居或隨機(jī)森林。它可能有更多的“旋鈕”(knobs),但這似乎是數(shù)量上而不是質(zhì)量上的差異。用 PW Andreson 的話來說,就是“more is different”(多的就是不同的)。

在物理學(xué)中,一旦規(guī)模發(fā)生了幾個(gè)數(shù)量級(jí)的變化,我們往往只需要一個(gè)完全不同的理論就可以解釋,深度學(xué)習(xí)也是如此。事實(shí)上,深度學(xué)習(xí)與經(jīng)典模型(參數(shù)或非參數(shù))的運(yùn)行過程是完全不同的,即使從更高的角度看,方程(和 Python 代碼)看起來相同。

為了解釋這一點(diǎn),我們來看兩個(gè)非常不同例子的學(xué)習(xí)過程:擬合統(tǒng)計(jì)模型,與教學(xué)生學(xué)習(xí)數(shù)學(xué)。

場(chǎng)景A:擬合統(tǒng)計(jì)模型

通常來說,將統(tǒng)計(jì)模型與數(shù)據(jù)進(jìn)行擬合的步驟如下:

1、我們觀察一些數(shù)據(jù) x 與y??蓪?x 視為一個(gè) n x p 的矩陣,y 視為一個(gè) n 維向量;數(shù)據(jù)來源于一個(gè)結(jié)構(gòu)和噪聲模型:每個(gè)坐標(biāo)89a9b830-1710-11ed-ba43-dac502259ad0.png的得到形式是89b4824c-1710-11ed-ba43-dac502259ad0.png,其中89c2c758-1710-11ed-ba43-dac502259ad0.png是對(duì)應(yīng)的噪聲,為簡(jiǎn)單起見使用了加性噪聲,而89d0ab5c-1710-11ed-ba43-dac502259ad0.png是正確的真實(shí)標(biāo)簽。)

2、通過運(yùn)行某種優(yōu)化算法,我們可以將模型89ddd4ee-1710-11ed-ba43-dac502259ad0.png擬合到數(shù)據(jù)中,使89ddd4ee-1710-11ed-ba43-dac502259ad0.png的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小。也就是說,我們使用優(yōu)化算法來找到89ddd4ee-1710-11ed-ba43-dac502259ad0.png的最小化數(shù)量8a11a0bc-1710-11ed-ba43-dac502259ad0.png,其中8a20d4f6-1710-11ed-ba43-dac502259ad0.png是一個(gè)損失項(xiàng)(捕捉8a361802-1710-11ed-ba43-dac502259ad0.png距離 y 有多近),8a3e91d0-1710-11ed-ba43-dac502259ad0.png是一個(gè)可選的規(guī)范化項(xiàng) (試圖使得89ddd4ee-1710-11ed-ba43-dac502259ad0.png偏向更簡(jiǎn)單的模型)。

3、我們希望,我們的模型能具有良好的總體損失,因?yàn)榉夯`差/損失8a6030f6-1710-11ed-ba43-dac502259ad0.png很?。ㄟ@種預(yù)測(cè)是基于實(shí)驗(yàn)數(shù)據(jù)所在的總體數(shù)據(jù)來獲得的)。

8a6ee5d8-1710-11ed-ba43-dac502259ad0.png

圖注:Bradley Efron經(jīng)過對(duì)噪音的觀察所復(fù)現(xiàn)的牛頓第一定律漫畫

這種非常通用的范式包含了許多設(shè)置,包括最小二乘線性回歸、最近鄰、神經(jīng)網(wǎng)絡(luò)訓(xùn)練等等。在經(jīng)典的統(tǒng)計(jì)設(shè)置中,我們期望觀察到以下情況:

偏差/方差權(quán)衡:將 F 作為優(yōu)化的模型集。(當(dāng)我們處于非凸設(shè)置和/或有一個(gè)正則器項(xiàng),我們可以讓 F作為這種模型的集合,考慮到算法選擇和正則器的影響,這些模型可以由算法以不可忽略的概率實(shí)現(xiàn)。)

F 的偏差是對(duì)正確標(biāo)簽的最佳近似,可以通過元素8aa58f2a-1710-11ed-ba43-dac502259ad0.png來實(shí)現(xiàn)。F 的類越大,偏差越小,當(dāng)8ab49c54-1710-11ed-ba43-dac502259ad0.png,偏差甚至可以是零。然而,當(dāng) F 類越大, 則需要越多樣本來縮小其成員范圍,從而算法輸出模型中的方差就越大??傮w泛化誤差是偏差項(xiàng)和方差貢獻(xiàn)的總和。

因此,統(tǒng)計(jì)學(xué)習(xí)通常會(huì)顯示偏差/方差權(quán)衡,并通過正確模型復(fù)雜性的“金發(fā)姑娘選擇”來最小化整體誤差。事實(shí)上,Geman 等人也是這么做的,通過說“偏差-方差困境導(dǎo)致的基本限制適用于包括神經(jīng)網(wǎng)絡(luò)在內(nèi)的所有非參數(shù)推理模型”來證明他們對(duì)神經(jīng)網(wǎng)絡(luò)的悲觀情緒是合理的。

更多并非總是最好的。在統(tǒng)計(jì)學(xué)習(xí)中,獲得更多的特征或數(shù)據(jù)并不一定能提高性能。例如,從包含許多不相關(guān)特征的數(shù)據(jù)中學(xué)習(xí)更具挑戰(zhàn)性。類似地,從混合模型中學(xué)習(xí),其中數(shù)據(jù)來自兩個(gè)分布之一(例如8abff752-1710-11ed-ba43-dac502259ad0.png8ace342a-1710-11ed-ba43-dac502259ad0.png),比獨(dú)立學(xué)習(xí)單個(gè)更難。

收益遞減。在許多情況下,將預(yù)測(cè)噪聲降低到某個(gè)參數(shù)8ae05aec-1710-11ed-ba43-dac502259ad0.png,其所需的數(shù)據(jù)點(diǎn)數(shù)量在某些參數(shù) k 下以8aef14e2-1710-11ed-ba43-dac502259ad0.png的形式拓展。在這種情況下,需要大約 k 個(gè)樣本來“起飛”,而一旦這樣做,則會(huì)面臨收益遞減的制度,即假設(shè)花耗 n 個(gè)點(diǎn)來達(dá)到(比如)90%的準(zhǔn)確度,那么想要將準(zhǔn)確度提高到95%,則大約需要另外 3n 個(gè)點(diǎn)。一般來說,隨著資源增加(無論是數(shù)據(jù)、模型的復(fù)雜性,還是計(jì)算),我們希望捕捉到更多更細(xì)的區(qū)別,而不是解鎖新的質(zhì)量上的能力。

對(duì)損失、數(shù)據(jù)的強(qiáng)烈依賴。在將模型擬合到高維數(shù)據(jù)時(shí),一個(gè)很小的細(xì)節(jié)就有可能造成結(jié)果的很大不同。統(tǒng)計(jì)學(xué)家知道,諸如 L1 或 L2 正則化器之類的選擇很重要,更不用說使用完全不同的數(shù)據(jù)集,不同數(shù)量的高維優(yōu)化器將具有極大的差異性。

數(shù)據(jù)點(diǎn)沒有自然的“難度”(至少在某些情況下)。傳統(tǒng)上認(rèn)為,數(shù)據(jù)點(diǎn)是獨(dú)立于某個(gè)分布進(jìn)行采樣的。盡管靠近決策邊界的點(diǎn)可能更難分類,但考慮到高維度的測(cè)量集中現(xiàn)象,可預(yù)計(jì)大多數(shù)點(diǎn)的距離將存在相似的情況。因此,至少在經(jīng)典數(shù)據(jù)分布中,并不期望點(diǎn)在其難度水平上有很大差異。然而,混合模型可以顯示這種差異的不同難度級(jí)別,所以與上述其他問題不同,這種差異在統(tǒng)計(jì)設(shè)置中不會(huì)非常令人驚訝。

場(chǎng)景B:學(xué)習(xí)數(shù)學(xué)

與上述相反,我們來談?wù)劷虒W(xué)生一些特定的數(shù)學(xué)題目(如計(jì)算導(dǎo)數(shù)),給予他們常規(guī)指導(dǎo)及要做的練習(xí)。這不是一個(gè)正式定義的設(shè)置,但可考慮它的一些定性特征:

8b2865c6-1710-11ed-ba43-dac502259ad0.png

圖注:從IXL 網(wǎng)站學(xué)習(xí)特定數(shù)學(xué)技能的練習(xí)

學(xué)習(xí)一項(xiàng)技能,而不是近似分布。在這種情況下,學(xué)生是學(xué)習(xí)一種技能,而非某個(gè)數(shù)量的估計(jì)器/預(yù)測(cè)器。雖然定義“技能”不是一項(xiàng)微不足道的任務(wù),但卻是一個(gè)性質(zhì)不同的目標(biāo)。特別是,即使函數(shù)映射練習(xí)不能用作解決某些相關(guān)任務(wù) X 的“黑匣子”,但我們相信,學(xué)生在解決這些問題時(shí)所形成的內(nèi)部表征,仍是對(duì) X 有用的。

越多越好。一般來說,學(xué)生練習(xí)更多問題和不同類型問題,會(huì)取得更好的成績。但事實(shí)上,“混合模型”——做一些微積分問題和代數(shù)問題——不會(huì)影響學(xué)生在微積分上的表現(xiàn),反而會(huì)幫助他們學(xué)習(xí)。

“探索”或解鎖功能,轉(zhuǎn)向自動(dòng)表示。雖然在某些時(shí)候解決問題也會(huì)出現(xiàn)收益遞減,但學(xué)生似乎確實(shí)經(jīng)歷了幾個(gè)階段,有的階段做一些問題有助于概念“點(diǎn)擊”并解鎖新功能。另外,當(dāng)學(xué)生們重復(fù)某一特定類型的問題時(shí),他們似乎將自己的能力和對(duì)這些問題的表述轉(zhuǎn)移至較低的水平,使他們能夠?qū)@些問題產(chǎn)生某些以前所沒有的自動(dòng)性。

性能部分獨(dú)立于損失和數(shù)據(jù)。教授數(shù)學(xué)概念的方法不止一種,即使學(xué)生使用不同書籍、教育方法或評(píng)分系統(tǒng)學(xué)習(xí),但最終仍可學(xué)習(xí)到相同的材料和相似的內(nèi)部表示。

一些問題更難。在數(shù)學(xué)練習(xí)中,我們經(jīng)??梢钥吹讲煌瑢W(xué)生在解決同一個(gè)問題時(shí)所采取的方法存在很強(qiáng)的相關(guān)性。一個(gè)問題的難度似乎是固定的,解決難題的順序也是固定的,這就使學(xué)習(xí)的過程能夠優(yōu)化。這事實(shí)上也是IXL等平臺(tái)正在做的事情。

那么,上述兩個(gè)比喻中,哪個(gè)更恰當(dāng)?shù)孛枋隽爽F(xiàn)代深度學(xué)習(xí),特別是它如此成功的原因呢?統(tǒng)計(jì)模型擬合似乎更符合數(shù)學(xué)和代碼。實(shí)際上,規(guī)范的 Pytorch 訓(xùn)練循環(huán),就是通過如上所述的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化來訓(xùn)練深度網(wǎng)絡(luò)的:

8b43ae9e-1710-11ed-ba43-dac502259ad0.png

然而,在更深層次上,這兩種設(shè)置之間的關(guān)系并不那么清楚。具體而言,可以通過修復(fù)一個(gè)特定的學(xué)習(xí)任務(wù)來展開,使用“自監(jiān)督學(xué)習(xí) + 線性探頭(linear probe)”的方法訓(xùn)練分類算法,其算法訓(xùn)練如下:

1、假設(shè)數(shù)據(jù)是一個(gè)序列8b67c112-1710-11ed-ba43-dac502259ad0.png,其中8b753e8c-1710-11ed-ba43-dac502259ad0.png是某個(gè)數(shù)據(jù)點(diǎn)(例如具體的圖像)、89a9b830-1710-11ed-ba43-dac502259ad0.png是一個(gè)標(biāo)簽。

2、首先找到一個(gè)深度神經(jīng)網(wǎng)絡(luò)來表示函數(shù)8b8fc82e-1710-11ed-ba43-dac502259ad0.png,這個(gè)函數(shù)的訓(xùn)練只使用數(shù)據(jù)點(diǎn)8b9ec0fe-1710-11ed-ba43-dac502259ad0.png而不使用標(biāo)簽,通過最小化某種類型的自監(jiān)督損失函數(shù)。這種損失函數(shù)的例子是重建或畫中畫(從另一個(gè)輸入 x 的某些部分恢復(fù))或?qū)Ρ葘W(xué)習(xí)(找到8bac5962-1710-11ed-ba43-dac502259ad0.png使8bc4ad5a-1710-11ed-ba43-dac502259ad0.png顯著更小,當(dāng)8bccf528-1710-11ed-ba43-dac502259ad0.png是同一個(gè)數(shù)據(jù)點(diǎn)的增量時(shí),并列關(guān)系比兩個(gè)隨機(jī)點(diǎn)的并列關(guān)系要小得多)。

3、然后我們使用完整的標(biāo)記數(shù)據(jù)8bd42a14-1710-11ed-ba43-dac502259ad0.png來擬合線性分類器8be98094-1710-11ed-ba43-dac502259ad0.png(其中 C 是類的數(shù)量),使交叉熵?fù)p失最小。最終的分類器得出了8bf55ffe-1710-11ed-ba43-dac502259ad0.png的映射。

第 3 步僅適合線性分類器,因此“魔法”發(fā)生在第 2 步(深度網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí))。在自監(jiān)督學(xué)習(xí)中,可以看到的一些屬性包括:

學(xué)習(xí)一項(xiàng)技能,而不是逼近一個(gè)函數(shù)。自監(jiān)督學(xué)習(xí)不是逼近一個(gè)函數(shù),而是學(xué)習(xí)可用于各種下游任務(wù)的表示。假設(shè)這是自然語言處理中的主導(dǎo)范式,那么下游任務(wù)是通過線性探測(cè)、微調(diào)還是提示獲得,都是次要的。

越多越好。在自監(jiān)督學(xué)習(xí)中,表征的質(zhì)量隨著數(shù)據(jù)量的增加而提高。而且,數(shù)據(jù)越多樣越好。

8c00d294-1710-11ed-ba43-dac502259ad0.png

圖注:谷歌 PaLM 模型的數(shù)據(jù)集

解鎖能力。隨著資源(數(shù)據(jù)、計(jì)算、模型大?。┑耐卣?,深度學(xué)習(xí)模型的不連續(xù)改進(jìn)一次又一次地被看到,這在一些合成環(huán)境中也得到了證明。

8c2c6454-1710-11ed-ba43-dac502259ad0.png

圖注:隨著模型大小的增加,PaLM 模型在一些基準(zhǔn)測(cè)試中顯示出一些不連續(xù)的改進(jìn)(上述圖中只有三個(gè)大小的警告),并解鎖了一些令人驚訝的功能,比如解釋笑話。

性能在很大程度上與損失或數(shù)據(jù)無關(guān)。不止一種自監(jiān)督損失,有幾種對(duì)比性和重建性損失被用于圖像。語言模型有時(shí)采用單面重建(預(yù)測(cè)下一個(gè)標(biāo)記),有時(shí)則是使用掩蔽模型,其目標(biāo)是預(yù)測(cè)來自左右標(biāo)記的掩蔽輸入。

也可以使用稍微不同的數(shù)據(jù)集,這可能會(huì)影響效率,但只要做出“合理”的選擇,常規(guī)情況下,原始資源比使用的特定損失或數(shù)據(jù)集更能預(yù)測(cè)性能。

有些實(shí)例比其他實(shí)例更難。這一點(diǎn)不只限于自監(jiān)督學(xué)習(xí),數(shù)據(jù)點(diǎn)或存在一些固有的“難度級(jí)別”。

事實(shí)上,有幾個(gè)實(shí)際證據(jù)表明,不同的學(xué)習(xí)算法有不同的“技能水平”,不同的點(diǎn)有不同的“難度水平”(分類器 f 對(duì) x 進(jìn)行正確分類的概率,隨著 f 的技能單向遞增,隨 x 的難度單向遞減)?!凹寄芘c難度”范式是對(duì) Recht 和 Miller 等人所發(fā)現(xiàn)的“線上準(zhǔn)確性”現(xiàn)象最清晰的解釋,在我同 Kaplun、Ghosh、Garg 和 Nakkiran 的合著論文中,還展示了數(shù)據(jù)集中的不同輸入如何具有固有的“難度特征”,常規(guī)情況下,該特征似乎對(duì)不同的模型來說是穩(wěn)健的。

8c3f0280-1710-11ed-ba43-dac502259ad0.png

圖注:Miller 等人的圖表顯示了在 CIFAR-10 上訓(xùn)練并在 CINIC-10 上測(cè)試的分類器的線現(xiàn)象準(zhǔn)確性

8c538fac-1710-11ed-ba43-dac502259ad0.png

圖注:將數(shù)據(jù)集解構(gòu)為來自 Kaplun 和 Ghosh 等人在論文“Deconstructing Distributions: A Pointwise Framework of Learning”中的不同“難度概況”點(diǎn),以獲得越來越多的資源分類器。頂部圖表描述了最可能類的不同 softmax 概率,作為由訓(xùn)練時(shí)間索引的某個(gè)類別分類器的全局精度的函數(shù);底部餅圖展示了將不同數(shù)據(jù)集分解為不同類型的點(diǎn)。值得注意的是,這種分解對(duì)于不同的神經(jīng)架構(gòu)是相似的。

訓(xùn)練即教學(xué)?,F(xiàn)代對(duì)大模型的訓(xùn)練似乎更像是在教學(xué)生,而不是讓模型適應(yīng)數(shù)據(jù),在學(xué)生不理解或看起來疲勞(訓(xùn)練偏離)時(shí)采取“休息”或嘗試其他方式。Meta 大模型的訓(xùn)練日志很有啟發(fā)性——除了硬件問題外,還可以看到一些干預(yù)措施,例如在訓(xùn)練過程中切換不同的優(yōu)化算法,甚至考慮“熱交換”激活函數(shù)(GELU 到 RELU)。如果將模型訓(xùn)練視為擬合數(shù)據(jù)而不是學(xué)習(xí)表示,則后者沒有多大意義。

8c817cd2-1710-11ed-ba43-dac502259ad0.png

8c917ed4-1710-11ed-ba43-dac502259ad0.png

圖注:Meta 的訓(xùn)練日志節(jié)選

下面探討兩種情況:

情況1:監(jiān)督學(xué)習(xí)

到目前為止,我們只討論了自監(jiān)督學(xué)習(xí),但深度學(xué)習(xí)的典型例子仍然是監(jiān)督學(xué)習(xí),畢竟深度學(xué)習(xí)的 “ImageNet時(shí)刻”是來自ImageNet。那么,我們上面所探討的內(nèi)容是否適用于監(jiān)督學(xué)習(xí)呢?

首先,有監(jiān)督的大規(guī)模深度學(xué)習(xí)的出現(xiàn),在某種程度上是一個(gè)歷史性的意外,這得益于大型高質(zhì)量標(biāo)記數(shù)據(jù)集(即 ImageNet)的可用性??梢韵胂罅硪环N歷史:深度學(xué)習(xí)首先通過無監(jiān)督學(xué)習(xí)在自然語言處理方面取得突破性進(jìn)展,然后才轉(zhuǎn)移到視覺和監(jiān)督學(xué)習(xí)中。

其次,有一些證據(jù)表明,即使監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí)使用完全不同的損失函數(shù),它們?cè)凇澳缓蟆钡男袨橐蚕嗨?。兩者通常都能達(dá)到相同的性能。在“Revisiting Model Stitching to Compare Neural Representations”這篇論文中也發(fā)現(xiàn),它們學(xué)習(xí)了相似的內(nèi)部表示。具體來說,對(duì)于每一個(gè)8ca220b8-1710-11ed-ba43-dac502259ad0.png,都可以將通過自監(jiān)督訓(xùn)練的深度 d 模型的首 k 層數(shù)與監(jiān)督模型的最后 d-k 層數(shù)“縫合”起來,并且使性能幾乎保持原有水平。

8cb7ee3e-1710-11ed-ba43-dac502259ad0.png

圖注:來自 Hinton 團(tuán)隊(duì)論文“Big Self-Supervised Models are Strong Semi-Supervised Learners”的表格。請(qǐng)注意監(jiān)督學(xué)習(xí)、微調(diào) (100%) 自監(jiān)督和自監(jiān)督 + 線性探測(cè)在性能上的普遍相似性

8cc74a3c-1710-11ed-ba43-dac502259ad0.png

圖注:摘自論文“Revisiting Model Stitching to Compare Neural Representations”的自監(jiān)督與監(jiān)督模型。左圖——如果自監(jiān)督模型的準(zhǔn)確度比監(jiān)督模型低3%,那么,完全兼容的表示將造成 p·3% 的拼接懲罰(p層來自自監(jiān)督模型時(shí))。如果模型完全不兼容,那么隨著更多模型的縫合,預(yù)計(jì)準(zhǔn)確度會(huì)急劇下降。右圖——拼接不同自監(jiān)督模型的實(shí)際結(jié)果。

自監(jiān)督 + 簡(jiǎn)單模型的優(yōu)勢(shì)在于,它們可以將特征學(xué)習(xí)或“深度學(xué)習(xí)魔法”(深度表示函數(shù)的結(jié)果)與統(tǒng)計(jì)模型擬合(由線性或其他“簡(jiǎn)單”分類器完成,分離出來在此表示之上)。

最后,雖然是推測(cè),但“元學(xué)習(xí)”似乎通常等同于學(xué)習(xí)表示這一事實(shí)(詳情看論文“Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML”),可以視為另一個(gè)支持本文觀點(diǎn)的證據(jù),不管模型表面上優(yōu)化的目標(biāo)是什么。

情況2:過度參數(shù)化

讀者可能已經(jīng)注意到,我跳過了統(tǒng)計(jì)學(xué)習(xí)模型與深度學(xué)習(xí)模型在實(shí)際應(yīng)用中存在差異的典型例子,即缺少“偏差-方差權(quán)衡”以及過度參數(shù)化模型出色的泛化能力。

我不詳細(xì)講這些例子的原因有兩個(gè):

一是如果監(jiān)督學(xué)習(xí)確實(shí)等于自監(jiān)督 + 簡(jiǎn)單的“底層”學(xué)習(xí),那么就可以解釋它的泛化能力(詳情請(qǐng)看論文“For self-supervised learning, Rationality implies generalization, provably”);

二是我認(rèn)為過度參數(shù)化并不是深度學(xué)習(xí)成功的關(guān)鍵。深度網(wǎng)絡(luò)之所以特別,并不是因?yàn)樗鼈兣c樣本數(shù)量相比很大,而是因?yàn)樗鼈兊慕^對(duì)值很大。實(shí)際上,無監(jiān)督/自監(jiān)督學(xué)習(xí)模型中通常沒有過度參數(shù)化。即使是大規(guī)模的語言模型,它們也只是數(shù)據(jù)集更大,但這也并沒有減少它們性能的神秘性。

8cd1f2f2-1710-11ed-ba43-dac502259ad0.png

圖注:在“The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers”這篇論文中,研究者的發(fā)現(xiàn)表明,如今的深度學(xué)習(xí)架構(gòu)在“過度參數(shù)化”與“欠采樣”狀態(tài)下表現(xiàn)相似(其中,模型在有限數(shù)據(jù)上訓(xùn)練多代,直到過度擬合:也就是上圖所示的“真實(shí)世界”),在“參數(shù)化不足”與“在線”情況下也如此(其中,模型只訓(xùn)練一代,每個(gè)樣本只看到一次:也就是上圖中的“理想世界”)

毫無疑問,統(tǒng)計(jì)學(xué)習(xí)在深度學(xué)習(xí)中扮演著重要的角色。但是,如果僅僅將深度學(xué)習(xí)視為一個(gè)比經(jīng)典模型擬合更多旋鈕(knobs)的模型,則會(huì)忽略其成功背后的許多因素。所謂的“人類學(xué)生”隱喻更是不恰當(dāng)表述。

深度學(xué)習(xí)與生物進(jìn)化相似,雖然對(duì)同一規(guī)則(即經(jīng)驗(yàn)損失的梯度下降)有許多重復(fù)的應(yīng)用,但會(huì)產(chǎn)生高度復(fù)雜的結(jié)果。在不同的時(shí)間內(nèi),神經(jīng)網(wǎng)絡(luò)的不同組成部分似乎會(huì)學(xué)習(xí)不同的內(nèi)容,包括表示學(xué)習(xí)、預(yù)測(cè)擬合、隱式正則化和純?cè)肼暤?。目前我們?nèi)栽趯ふ艺_的視角來提出有關(guān)深度學(xué)習(xí)的問題,更別說回答這些問題了。

任重道遠(yuǎn),與君共勉。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3062

    瀏覽量

    48575
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8323

    瀏覽量

    132171
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5437

    瀏覽量

    120794

原文標(biāo)題:理論計(jì)算機(jī)科學(xué)家 Boaz Barak:深度學(xué)習(xí)并非“簡(jiǎn)單的統(tǒng)計(jì)”,二者距離已越來越遠(yuǎn)

文章出處:【微信號(hào):AI智勝未來,微信公眾號(hào):AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?111次閱讀

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法

    基于Python的深度學(xué)習(xí)人臉識(shí)別方法是一個(gè)涉及多個(gè)技術(shù)領(lǐng)域的復(fù)雜話題,包括計(jì)算機(jī)視覺、深度學(xué)習(xí)、以及圖像處理等。在這里,我將概述一個(gè)基本的流程,包括數(shù)據(jù)準(zhǔn)備、模型選擇、訓(xùn)練過程、以及
    的頭像 發(fā)表于 07-14 11:52 ?1056次閱讀

    深度學(xué)習(xí)中的時(shí)間序列分類方法

    時(shí)間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動(dòng)識(shí)別、系統(tǒng)監(jiān)測(cè)、金融預(yù)測(cè)、醫(yī)療診斷等多個(gè)領(lǐng)域。隨著深度
    的頭像 發(fā)表于 07-09 15:54 ?527次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域。然而,深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-09 10:50 ?284次閱讀

    深度學(xué)習(xí)與nlp的區(qū)別在哪

    深度學(xué)習(xí)和自然語言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域中兩個(gè)非常重要的研究方向。它們之間既有聯(lián)系,也有區(qū)別。本文將介紹深度學(xué)習(xí)與NLP的區(qū)別。 深度
    的頭像 發(fā)表于 07-05 09:47 ?653次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)化、管理以及應(yīng)用等多個(gè)方面,深入探討
    的頭像 發(fā)表于 07-04 11:49 ?609次閱讀

    深度學(xué)習(xí)常用的Python庫

    深度學(xué)習(xí)作為人工智能的一個(gè)重要分支,通過模擬人類大腦中的神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜問題。Python作為一種流行的編程語言,憑借其簡(jiǎn)潔的語法和豐富的庫支持,成為了深度學(xué)習(xí)研究和應(yīng)用的首選工具。
    的頭像 發(fā)表于 07-03 16:04 ?473次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)深度學(xué)習(xí)無疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器學(xué)習(xí)的范疇,但
    的頭像 發(fā)表于 07-01 11:40 ?947次閱讀

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計(jì)算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測(cè)、識(shí)別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入深度學(xué)習(xí)技術(shù),使得
    發(fā)表于 04-23 17:18 ?1161次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM

    統(tǒng)計(jì)算機(jī)視覺對(duì)比深度學(xué)習(xí)

    深度學(xué)習(xí)是一種技術(shù),它使用一種稱為梯度反向傳播的優(yōu)化技術(shù)來生成“程序”(也稱為“神經(jīng)網(wǎng)絡(luò)”),就像上面故事中學(xué)者學(xué)生編寫的那些程序一樣。
    發(fā)表于 03-31 09:48 ?401次閱讀

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,已成為人工智能領(lǐng)域的一項(xiàng)變革性技術(shù),在從計(jì)算機(jī)視覺、自然語言處理到自動(dòng)駕駛汽車等廣泛的應(yīng)用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?540次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    什么是深度學(xué)習(xí)?機(jī)器學(xué)習(xí)深度學(xué)習(xí)的主要差異

    2016年AlphaGo 擊敗韓國圍棋冠軍李世石,在媒體報(bào)道中,曾多次提及“深度學(xué)習(xí)”這個(gè)概念。
    的頭像 發(fā)表于 01-15 10:31 ?911次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>?機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的主要差異

    GPU在深度學(xué)習(xí)中的應(yīng)用與優(yōu)勢(shì)

    人工智能的飛速發(fā)展,深度學(xué)習(xí)作為其重要分支,正在推動(dòng)著諸多領(lǐng)域的創(chuàng)新。在這個(gè)過程中,GPU扮演著不可或缺的角色。就像超級(jí)英雄電影中的主角一樣,GPU在深度學(xué)習(xí)中擁有舉足輕重的地位。那么
    的頭像 發(fā)表于 12-06 08:27 ?1157次閱讀
    GPU在<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中的應(yīng)用與優(yōu)勢(shì)

    深度學(xué)習(xí)在人工智能中的 8 種常見應(yīng)用

    深度學(xué)習(xí)簡(jiǎn)介深度學(xué)習(xí)是人工智能(AI)的一個(gè)分支,它教神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和推理。近年來,它解決復(fù)雜問題并在各個(gè)領(lǐng)域提供尖端性能的能力引起了極大的興
    的頭像 發(fā)表于 12-01 08:27 ?3105次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>在人工智能中的 8 種常見應(yīng)用

    深度學(xué)習(xí)技術(shù)在AI智能分析盒子人數(shù)統(tǒng)計(jì)中的應(yīng)用與優(yōu)勢(shì)

    在AI盒子的人數(shù)統(tǒng)計(jì)中,當(dāng)多人同時(shí)出入視野范圍時(shí),傳統(tǒng)的算法模型很難準(zhǔn)確識(shí)別和計(jì)算人數(shù),容易導(dǎo)致重復(fù)統(tǒng)計(jì)。為解決這一難題,AI算法模型可以采用目標(biāo)檢測(cè)與追蹤相結(jié)合、深度學(xué)習(xí)技術(shù)和傳感器
    的頭像 發(fā)表于 11-29 09:07 ?458次閱讀