0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度神經(jīng)網(wǎng)絡(luò)不同超參數(shù)調(diào)整規(guī)則總結(jié)

汽車玩家 ? 來(lái)源:工程師曾玲 ? 2019-08-29 15:53 ? 次閱讀

在深度神經(jīng)網(wǎng)絡(luò)中,超參數(shù)的調(diào)整是一項(xiàng)必備技能,通過觀察在訓(xùn)練過程中的監(jiān)測(cè)指標(biāo)如損失loss和準(zhǔn)確率來(lái)判斷當(dāng)前模型處于什么樣的訓(xùn)練狀態(tài),及時(shí)調(diào)整超參數(shù)以更科學(xué)地訓(xùn)練模型能夠提高資源利用率。下面將分別介紹并總結(jié)不同超參數(shù)的調(diào)整規(guī)則。

(1)學(xué)習(xí)率

學(xué)習(xí)率(learning rate或作lr)是指在優(yōu)化算法中更新網(wǎng)絡(luò)權(quán)重的幅度大小。學(xué)習(xí)率可以是恒定的、逐漸降低的,基于動(dòng)量的或者是自適應(yīng)的。不同的優(yōu)化算法決定不同的學(xué)習(xí)率。當(dāng)學(xué)習(xí)率過大則可能導(dǎo)致模型不收斂,損失loss不斷上下震蕩;學(xué)習(xí)率過小則導(dǎo)致模型收斂速度偏慢,需要更長(zhǎng)的時(shí)間訓(xùn)練。通常lr取值為[0.01,0.001,0.0001]

(2)批次大小batch_size

批次大小是每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),在卷積神經(jīng)網(wǎng)絡(luò)中,大批次通常可使網(wǎng)絡(luò)更快收斂,但由于內(nèi)存資源的限制,批次過大可能會(huì)導(dǎo)致內(nèi)存不夠用或程序內(nèi)核崩潰。bath_size通常取值為[16,32,64,128]

(3)優(yōu)化器optimizer

目前Adam是快速收斂且常被使用的優(yōu)化器。隨機(jī)梯度下降(SGD)雖然收斂偏慢,但是加入動(dòng)量Momentum可加快收斂,同時(shí)帶動(dòng)量的隨機(jī)梯度下降算法有更好的最優(yōu)解,即模型收斂后會(huì)有更高的準(zhǔn)確性。通常若追求速度則用Adam更多。

(4)迭代次數(shù)

迭代次數(shù)是指整個(gè)訓(xùn)練集輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的次數(shù),當(dāng)測(cè)試錯(cuò)誤率和訓(xùn)練錯(cuò)誤率相差較小時(shí),可認(rèn)為當(dāng)前迭代次數(shù)合適;當(dāng)測(cè)試錯(cuò)誤率先變小后變大時(shí)則說明迭代次數(shù)過大了,需要減小迭代次數(shù),否則容易出現(xiàn)過擬合。

(5)激活函數(shù)

在神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)不是真的去激活什么,而是用激活函數(shù)給神經(jīng)網(wǎng)絡(luò)加入一些非線性因素,使得網(wǎng)絡(luò)可以更好地解決較為復(fù)雜的問題。比如有些問題是線性可分的,而現(xiàn)實(shí)場(chǎng)景中更多問題不是線性可分的,若不使用激活函數(shù)則難以擬合非線性問題,測(cè)試時(shí)會(huì)有低準(zhǔn)確率。所以激活函數(shù)主要是非線性的,如sigmoid、tanh、relu。sigmoid函數(shù)通常用于二分類,但要防止梯度消失,故適合淺層神經(jīng)網(wǎng)絡(luò)且需要配備較小的初始化權(quán)重,tanh函數(shù)具有中心對(duì)稱性,適合于有對(duì)稱性的二分類。在深度學(xué)習(xí)中,relu是使用最多的激活函數(shù),簡(jiǎn)單又避免了梯度消失。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    殘差網(wǎng)絡(luò)(Residual Network,通常簡(jiǎn)稱為ResNet) 是深度神經(jīng)網(wǎng)絡(luò)的一種 ,其獨(dú)特的結(jié)構(gòu)設(shè)計(jì)在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題上取得了顯著的突破,并因此成為
    的頭像 發(fā)表于 07-11 18:13 ?850次閱讀

    神經(jīng)網(wǎng)絡(luò)優(yōu)化器有哪些

    神經(jīng)網(wǎng)絡(luò)優(yōu)化器是深度學(xué)習(xí)中用于調(diào)整網(wǎng)絡(luò)參數(shù)以最小化損失函數(shù)的重要工具。這些優(yōu)化器通過不同的策略來(lái)更新網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-11 16:33 ?414次閱讀

    簡(jiǎn)單認(rèn)識(shí)深度神經(jīng)網(wǎng)絡(luò)

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)作為機(jī)器學(xué)習(xí)領(lǐng)域中的一種重要技術(shù),特別是在深度學(xué)習(xí)領(lǐng)域,已經(jīng)取得了顯著的成就。它們通過模擬人類大腦的處理方式,利用多層神經(jīng)
    的頭像 發(fā)表于 07-10 18:23 ?824次閱讀

    深度神經(jīng)網(wǎng)絡(luò)中的前饋過程

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)中的前饋過程是其核心操作之一,它描述了數(shù)據(jù)從輸入層通過隱藏層最終到達(dá)輸出層的過程,期間不涉及任何反向傳播或權(quán)重調(diào)整。這一過程是
    的頭像 發(fā)表于 07-08 17:29 ?259次閱讀

    深度神經(jīng)網(wǎng)絡(luò)概述及其應(yīng)用

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)作為機(jī)器學(xué)習(xí)的一種復(fù)雜形式,是廣義人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANNs)的重要分支。它們
    的頭像 發(fā)表于 07-04 16:08 ?514次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指?jìng)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時(shí),我們需
    的頭像 發(fā)表于 07-04 13:20 ?498次閱讀

    深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)方法

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)作為人工智能領(lǐng)域的重要技術(shù)之一,通過模擬人腦神經(jīng)元之間的連接,實(shí)現(xiàn)了對(duì)復(fù)雜數(shù)據(jù)的自主學(xué)習(xí)和智能判斷。其設(shè)計(jì)方法不僅涉及網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-04 13:13 ?335次閱讀

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法有哪些

    神經(jīng)網(wǎng)絡(luò)優(yōu)化算法是深度學(xué)習(xí)領(lǐng)域中的核心技術(shù)之一,旨在通過調(diào)整網(wǎng)絡(luò)中的參數(shù)(如權(quán)重和偏差)來(lái)最小化損失函數(shù),從而提高模型的性能和效率。本文將詳
    的頭像 發(fā)表于 07-03 16:01 ?341次閱讀

    bp神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種常見的前饋神經(jīng)網(wǎng)絡(luò),它使用反向傳播算法來(lái)訓(xùn)練網(wǎng)絡(luò)。雖然BP神經(jīng)網(wǎng)絡(luò)在某些方面與
    的頭像 發(fā)表于 07-03 10:14 ?496次閱讀

    bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

    結(jié)構(gòu)、原理、應(yīng)用場(chǎng)景等方面都存在一定的差異。以下是對(duì)這兩種神經(jīng)網(wǎng)絡(luò)的比較: 基本結(jié)構(gòu) BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱藏層和輸出層組成。每個(gè)神經(jīng)元之間通過權(quán)重連接,并通
    的頭像 發(fā)表于 07-03 10:12 ?730次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    化能力。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為人工智能領(lǐng)域的重要技術(shù)之一。卷積神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)
    的頭像 發(fā)表于 07-02 14:24 ?1764次閱讀

    深度神經(jīng)網(wǎng)絡(luò)模型有哪些

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)是一類具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),它們?cè)谠S多領(lǐng)域取得了顯著的成功,如計(jì)算機(jī)視覺、自然語(yǔ)言處理、語(yǔ)音識(shí)別等。以下是一些常見的深度
    的頭像 發(fā)表于 07-02 10:00 ?880次閱讀

    如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的重要分支,廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等多個(gè)領(lǐng)域。然而,要使神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中取得良好效果,必須進(jìn)行有效的訓(xùn)練和優(yōu)化。本文將從神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程、常用優(yōu)化算法、
    的頭像 發(fā)表于 07-01 14:14 ?325次閱讀

    利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)心電圖降噪

    。可以使用深度學(xué)習(xí)的正則化技術(shù)來(lái)克服這 個(gè)問題,調(diào)整參數(shù)可能會(huì)獲得比本文更好 的性能。另一個(gè)重要的結(jié)論來(lái)自于合成訓(xùn)練數(shù) 據(jù)對(duì)網(wǎng)絡(luò)性能影響的
    發(fā)表于 05-15 14:42

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    處理技術(shù)也可以通過深度學(xué)習(xí)來(lái)獲得更優(yōu)異的效果,比如去噪、分辨率和跟蹤算法等。為了跟上時(shí)代的步伐,必須對(duì)深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)有所學(xué)習(xí)和研究。本文將介紹
    的頭像 發(fā)表于 01-11 10:51 ?1758次閱讀
    詳解<b class='flag-5'>深度</b>學(xué)習(xí)、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用