ww久久综合久中文字幕,精品无码国产中文一区二区,久久久久久综合一区中文字幕

作者：Preetum Nakkiran，Gal Kaplun，Yamini Bansal，Tristan Yang，Boaz Barak，Ilya Sutskever

編譯：ronghuaiyang

導(dǎo)讀

深度學(xué)習(xí)中的雙下降現(xiàn)象，可能大家也遇到過，但是沒有深究，OpenAI這里給出了他們的解答。

我們展示了 CNN，ResNet 以及 transformers 中的雙下降現(xiàn)象，隨著模型的尺寸，數(shù)據(jù)集的大小以及訓(xùn)練時(shí)間的增加，performance 先提升，然后變差，然后再次提升。這種效果通?？梢酝ㄟ^仔細(xì)的正則化來避免。雖然這種行為似乎是相當(dāng)普遍的，但我們還沒有完全理解它為什么會(huì)發(fā)生，并把對這種現(xiàn)象的進(jìn)一步研究作為一個(gè)重要的研究方向。

深度學(xué)習(xí)的雙下降現(xiàn)象解答

論文：https://arxiv.org/abs/1912.02292

包括 CNNs、ResNets、transformer 在內(nèi)的許多現(xiàn)代深度學(xué)習(xí)模型，在不使用 early stopping 或正則化時(shí)，都表現(xiàn)出之前觀察到的雙下降現(xiàn)象。峰值發(fā)生在一個(gè)可以預(yù)見的“特殊的時(shí)刻”，此時(shí)模型剛好可以去擬合訓(xùn)練集。當(dāng)我們增加神經(jīng)網(wǎng)絡(luò)參數(shù)的數(shù)量，剛開始的時(shí)候，測試誤差減少，然后會(huì)增加，而且，模型開始能夠擬合訓(xùn)練集，進(jìn)行了第二次下降。

傳統(tǒng)統(tǒng)計(jì)學(xué)家認(rèn)為“模型越大越糟”的傳統(tǒng)觀點(diǎn)，以及“模型越大越好”的現(xiàn)代機(jī)器學(xué)習(xí)范式，都沒有得到支持。我們發(fā)現(xiàn)雙下降也發(fā)生在訓(xùn)練過程中。令人驚訝的是，我們發(fā)現(xiàn)這些現(xiàn)象會(huì)導(dǎo)致數(shù)據(jù)越多效果越差，此時(shí)在更大的訓(xùn)練集上訓(xùn)練一個(gè)深層網(wǎng)絡(luò)的效果實(shí)際上更差。

模型的雙下降

1. 在一段時(shí)間內(nèi)，模型越大效果越差。

深度學(xué)習(xí)的雙下降現(xiàn)象解答

模型的雙下降現(xiàn)象會(huì)導(dǎo)致對更多數(shù)據(jù)的訓(xùn)練效果越差。在上面的圖中，測試誤差的峰值出現(xiàn)在插值閾值附近，此時(shí)模型剛好足夠大到能擬合訓(xùn)練集。

在我們觀察到的所有情況下，影響插值閾值的變化(如改變優(yōu)化算法、訓(xùn)練樣本數(shù)量或標(biāo)簽噪聲量)也會(huì)相應(yīng)地影響測試誤差峰值的位置。在添加標(biāo)簽噪聲的情況下，雙下降現(xiàn)象最為突出，如果沒有它，峰值會(huì)更小，很容易被忽略。添加標(biāo)簽噪聲會(huì)放大這種普遍的行為，讓我們可以很容易地進(jìn)行研究。

樣本的非單調(diào)性

2. 在一段時(shí)間內(nèi)，樣本越多效果越差。

深度學(xué)習(xí)的雙下降現(xiàn)象解答

上面的圖顯示了在沒有添加標(biāo)簽噪聲的情況下，在語言翻譯任務(wù)訓(xùn)練的 transformers。正如預(yù)期的那樣，增加樣本數(shù)量會(huì)使曲線向下移動(dòng)，從而降低測試誤差。然而，由于更多的樣本需要更大的模型來擬合，增加樣本的數(shù)量也會(huì)使插值閾值(以及測試誤差的峰值)向右移動(dòng)。對于中等大小的模型(紅色箭頭)，這兩個(gè)效果結(jié)合在一起，我們可以看到在 4.5 倍的樣本上進(jìn)行訓(xùn)練實(shí)際上會(huì)影響測試性能。

訓(xùn)練 epoch 的雙下降

3. 在一段時(shí)間內(nèi)，訓(xùn)練時(shí)間越長，過擬合情況就越嚴(yán)重。

深度學(xué)習(xí)的雙下降現(xiàn)象解答

上面的圖顯示了測試和訓(xùn)練誤差與模型大小和優(yōu)化步驟數(shù)量的關(guān)系。對于給定數(shù)量的優(yōu)化步驟(固定 y 坐標(biāo))，測試和訓(xùn)練誤差表現(xiàn)為隨著模型的大小出現(xiàn)了雙下降。對于給定的模型尺寸(固定的 x 坐標(biāo))，隨著訓(xùn)練的進(jìn)行，測試和訓(xùn)練誤差不斷地減小、增大、再減小，我們把這種現(xiàn)象稱為 epoch-wise 的雙下降。

一般情況下，當(dāng)模型剛好能夠擬合訓(xùn)練集時(shí)，會(huì)出現(xiàn)測試誤差的峰值

我們的直覺是，對于插值閾值處的模型，實(shí)際上只有一個(gè)模型正好擬合了數(shù)據(jù)集，而強(qiáng)迫它擬合即使是稍微有一點(diǎn)噪聲或錯(cuò)誤的標(biāo)簽也會(huì)破壞它的全局結(jié)構(gòu)。也就是說，沒有既能在插值閾值處擬合訓(xùn)練集又能在測試集上表現(xiàn)良好的“好模型”。然而，在參數(shù)化的情況下，有許多模型可以擬合訓(xùn)練集，并且存在這樣的好模型。此外，隨機(jī)梯度下降法(SGD)的隱式偏差導(dǎo)致了這樣好模型出現(xiàn)，其原因我們還不清楚。

我們把對深層神經(jīng)網(wǎng)絡(luò)的雙下降機(jī)制仍的充分認(rèn)識作為一個(gè)重要的開放性問題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5439

瀏覽量
120797
cnn

cnn

+關(guān)注

關(guān)注
3

文章
350

瀏覽量
22095

Nanopi深度學(xué)習(xí)之路(1)深度學(xué)習(xí)框架分析

學(xué)習(xí)，也就是現(xiàn)在最流行的深度學(xué)習(xí)領(lǐng)域，關(guān)注論壇的朋友應(yīng)該看到了，開發(fā)板試用活動(dòng)中有【NanoPi K1 Plus試用】的申請，介紹中NanopiK1plus的高大上優(yōu)點(diǎn)之一就是“可運(yùn)行深度

發(fā)表于 06-04 22:32

深度學(xué)習(xí)存在哪些問題？

深度學(xué)習(xí)常用模型有哪些？深度學(xué)習(xí)常用軟件工具及平臺有哪些？深度學(xué)習(xí)存在哪些問題？

發(fā)表于 10-14 08:20

深度學(xué)習(xí)模型是如何創(chuàng)建的？

具有深度學(xué)習(xí)模型的嵌入式系統(tǒng)應(yīng)用程序帶來了巨大的好處。深度學(xué)習(xí)嵌入式系統(tǒng)已經(jīng)改變了各個(gè)行業(yè)的企業(yè)和組織。深度

發(fā)表于 10-27 06:34

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

什么是深度學(xué)習(xí)為了解釋深度學(xué)習(xí)，有必要了解神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦的神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的計(jì)算模型。作為具體示例，讓我們考慮一個(gè)輸入圖像并識別圖像中對象類別的示例。這個(gè)例子對應(yīng)機(jī)器

發(fā)表于 02-17 16:56

電磁現(xiàn)象的普遍規(guī)律_電動(dòng)力學(xué)習(xí)題解答

電磁現(xiàn)象的普遍規(guī)律_電動(dòng)力學(xué)習(xí)題解答

發(fā)表于 01-05 16:39 ?0次下載

如何估算深度神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率（附代碼教程）

深度學(xué)習(xí)課程中學(xué)習(xí)相關(guān)知識。目前這門課程還沒有對公眾開放，但是現(xiàn)在網(wǎng)絡(luò)上有去年的版本。 學(xué)習(xí)率如何影響訓(xùn)練？深度

發(fā)表于 12-07 11:05 ?2451次閱讀

深度學(xué)習(xí)領(lǐng)域Facebook等巨頭在2017都做了什么

過去一年間，谷歌、Facebook、微軟等巨頭加持下，深度學(xué)習(xí)框架格局發(fā)生了極大改變，深度學(xué)習(xí)領(lǐng)域Facebook等巨頭在2017都做了什么，我們一一來

發(fā)表于 01-02 10:19 ?2803次閱讀

深度學(xué)習(xí)和機(jī)器學(xué)習(xí)深度的不同之處淺談深度學(xué)習(xí)的訓(xùn)練和調(diào)參

近年來，深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)中比較火的一種方法出現(xiàn)在我們面前，但是和非深度學(xué)習(xí)的機(jī)器學(xué)習(xí)相比（我

發(fā)表于 05-02 10:30 ?4295次閱讀

深度學(xué)習(xí)是什么？了解深度學(xué)習(xí)難嗎?讓你快速了解深度學(xué)習(xí)的視頻講解

本深度學(xué)習(xí)是什么？了解深度學(xué)習(xí)難嗎?讓你快速了解深度學(xué)習(xí)的視頻講解本文檔視頻讓你4分鐘快速了解

發(fā)表于 08-23 14:36 ?16次下載

深度強(qiáng)化學(xué)習(xí)已經(jīng)達(dá)到了盡頭？

不可否認(rèn)，深度學(xué)習(xí)的熱度已經(jīng)大大下降，贊美深度學(xué)習(xí)作為AI終極算法的推文少得多了，而且論文正在變得不那么“革命”，現(xiàn)在大家換了個(gè)詞，叫：進(jìn)化

發(fā)表于 04-29 08:56 ?3336次閱讀

讀懂深度學(xué)習(xí)，走進(jìn)“深度學(xué)習(xí)+”階段

人工智能的概念在1956年就被提出，如今終于走入現(xiàn)實(shí)，離不開一種名為“深度學(xué)習(xí)”的技術(shù)。深度學(xué)習(xí)的運(yùn)作模式，如同一場傳話游戲。給神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)，對數(shù)據(jù)的特征進(jìn)行描述，在神經(jīng)網(wǎng)絡(luò)中層層

發(fā)表于 01-14 23:34 ?832次閱讀

深度學(xué)習(xí)算法簡介深度學(xué)習(xí)算法是什么深度學(xué)習(xí)算法有哪些

深度學(xué)習(xí)算法簡介深度學(xué)習(xí)算法是什么?深度學(xué)習(xí)算法有哪些?? 作為一種現(xiàn)代化、前沿化的技術(shù)，

發(fā)表于 08-17 16:02 ?8550次閱讀

什么是深度學(xué)習(xí)算法？深度學(xué)習(xí)算法的應(yīng)用

什么是深度學(xué)習(xí)算法？深度學(xué)習(xí)算法的應(yīng)用深度學(xué)習(xí)算法被認(rèn)為是人工智能的核心，它是一種模仿人類大腦

發(fā)表于 08-17 16:03 ?2004次閱讀

深度學(xué)習(xí)框架是什么？深度學(xué)習(xí)框架有哪些？

深度學(xué)習(xí)框架是什么？深度學(xué)習(xí)框架有哪些？? 深度學(xué)習(xí)框架是一種軟件工具，它可以幫助開發(fā)者輕松快速

發(fā)表于 08-17 16:03 ?2579次閱讀

深度學(xué)習(xí)框架和深度學(xué)習(xí)算法教程

深度學(xué)習(xí)框架和深度學(xué)習(xí)算法教程深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)

發(fā)表于 08-17 16:11 ?1005次閱讀

搜索歷史

深度學(xué)習(xí)的雙下降現(xiàn)象解答

評論

Nanopi深度學(xué)習(xí)之路(1)深度學(xué)習(xí)框架分析

深度學(xué)習(xí)存在哪些問題？

深度學(xué)習(xí)模型是如何創(chuàng)建的？

什么是深度學(xué)習(xí)？使用FPGA進(jìn)行深度學(xué)習(xí)的好處？

電磁現(xiàn)象的普遍規(guī)律_電動(dòng)力學(xué)習(xí)題解答

如何估算深度神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率（附代碼教程）

深度學(xué)習(xí)領(lǐng)域Facebook等巨頭在2017都做了什么

深度學(xué)習(xí)和機(jī)器學(xué)習(xí)深度的不同之處淺談深度學(xué)習(xí)的訓(xùn)練和調(diào)參

深度學(xué)習(xí)是什么？了解深度學(xué)習(xí)難嗎?讓你快速了解深度學(xué)習(xí)的視頻講解

深度強(qiáng)化學(xué)習(xí)已經(jīng)達(dá)到了盡頭？

讀懂深度學(xué)習(xí)，走進(jìn)“深度學(xué)習(xí)+”階段

深度學(xué)習(xí)算法簡介深度學(xué)習(xí)算法是什么深度學(xué)習(xí)算法有哪些

什么是深度學(xué)習(xí)算法？深度學(xué)習(xí)算法的應(yīng)用

深度學(xué)習(xí)框架是什么？深度學(xué)習(xí)框架有哪些？

深度學(xué)習(xí)框架和深度學(xué)習(xí)算法教程