0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何為深度學(xué)習(xí)模型尋找最佳超參數(shù)集?

MqC7_CAAI_1981 ? 來源:未知 ? 作者:胡薇 ? 2018-09-28 11:49 ? 次閱讀

在文章開始之前,我想問你一個問題:你已經(jīng)厭倦了小心翼翼地照看你的深度學(xué)習(xí)模型嗎?如果是的話,那你就來對地方了。近日,F(xiàn)loydHub Blog發(fā)表了一篇文章,詳細(xì)討論了為深度學(xué)習(xí)模型尋找最佳超參數(shù)集的有效策略。

文章在一開頭就說,讀完之后能夠讓你在找最佳配置的過程中變得事半功倍。要知道,與機器學(xué)習(xí)模型不同,深度學(xué)習(xí)模型里面充滿了各種超參數(shù)。而且,并非所有參數(shù)變量都能對模型的學(xué)習(xí)過程產(chǎn)生同樣的貢獻(xiàn)。

考慮到這種額外的復(fù)雜性,在一個多維空間中找到這些參數(shù)變量的最佳配置并不是件容易的事情。每一位科學(xué)家和研究人員,都希望在現(xiàn)有的資源條件下(計算、金錢和時間),找到最佳的模型。

通常情況下,研究人員和業(yè)余愛好者會在開發(fā)的最后階段嘗試一種搜索策略。這可能會有助改進他們辛辛苦訓(xùn)練出來的模型。此外,在半自動/全自動深度學(xué)習(xí)過程中,超參數(shù)搜索也是的一個非常重要的階段。

說了這么久,你可能已經(jīng)等不及了吧?

好的,暖場結(jié)束,讓我們進入正題~

超參數(shù)到底是什么?

先讓我們從最簡單的定義開始:

超參數(shù)是在構(gòu)建機器/深度學(xué)習(xí)模型時可以轉(zhuǎn)動的旋鈕。

或者這樣說:

超參數(shù)是開始訓(xùn)練前,用預(yù)先確定的值,手動設(shè)置的所有訓(xùn)練變量。

我們應(yīng)該都會認(rèn)可Learning Rate和Dropout Rate是超參數(shù),但是模型設(shè)計變量呢?比如嵌入、層數(shù)、激活函數(shù)等。我們是否應(yīng)該將這些變量視為超參數(shù)?

△模型設(shè)計變量 + 超參數(shù)→模型參數(shù)

簡單起見,我們也將模型設(shè)計變量視為超參數(shù)集的一部分。

那么,從訓(xùn)練過程中獲得的參數(shù),以及從數(shù)據(jù)中獲得的變量應(yīng)該怎么考慮呢?這被稱為模型參數(shù)。我們將把它們排除在超參數(shù)集之外。

讓我們來舉個例子。請看下圖,用一個例子說明了深度學(xué)習(xí)模型中變量的不同分類。

△變量分類示例

我們的下一個問題:搜索的代價很高

尋找超參數(shù)的最佳配置,通常會面臨的挑戰(zhàn)是,超參數(shù)搜索是一個受計算、金錢和時間約束的迭代過程。

△超參數(shù)搜索周期

從一個有潛力的配置的猜測(步驟1 )開始,等到一次完整的訓(xùn)練(步驟2 )結(jié)束后,來獲得對相關(guān)有益度量的實際評估(步驟3 )。然后,我們將跟蹤搜索過程(步驟4 ),再根據(jù)我們的搜索策略,選擇新的猜測(步驟1 )。

我們會一直這樣下去,直到我們結(jié)束。通常情況下,是錢或者時間用完了。

讓我們來談?wù)劜呗?/p>

我們有四種主要策略可用于搜索最佳配置:

Babysitting,又名試錯(Trial & Error)網(wǎng)格搜索(Grid Search)隨機搜索(Random Search)貝葉斯優(yōu)化(Bayesian Optimization)

Babysitting

在學(xué)術(shù)領(lǐng)域,Babysitting也被稱為“試錯”或“研究生下降”(Grad Student Descent)。這種方法是100%的手工操作,通常被研究人員、學(xué)生和業(yè)余愛好者采用。

流程非常簡單:比如一個學(xué)生設(shè)計一個新的實驗后,她會遵循學(xué)習(xí)過程的所有步驟,從數(shù)據(jù)收集到特征映射可視化,然后她會按照順序迭代超參數(shù),直到她到了截止日期或耗完了其他的驅(qū)動力。

△Babysitting

當(dāng)然,如果你上過deeplearning.ai的課程,你對這種方法應(yīng)該會很熟悉。這就是吳恩達(dá)教授所描述的熊貓工作流程。

這種方法非常有教育意義。但是,在一個團隊或者一個公司里,這種方法并不適用,因為數(shù)據(jù)科學(xué)家的時間是非常寶貴的。

這就給我們提出了一個問題:

“有沒有更好的方法來利用我們的時間?”

當(dāng)然有,我們可以通過定義一個自動的超參數(shù)搜索策略來利用你的時間。

網(wǎng)格搜索

網(wǎng)格搜索,是一種簡單嘗試所有可能配置的方法。

下面是工作流程:

在n維上定義一個網(wǎng)格,其中每一個映射代表一個超參數(shù)。例如,n= (learning_rate, dropout_rate, batch_size)

對于每個維度,定義可能值的范圍:例如batch _ size = [ 4、8、16、32、64、128、256 ]

搜索所有可能的配置并等待結(jié)果來建立最佳配置:例如 C1 = (0.1, 0.3, 4) -> acc = 92%, C2 = (0.1, 0.35, 4) -> acc = 92.3%, 等等……

下圖展示了一個簡單的二維網(wǎng)格搜索的Dropout和Learning rate。

△并行執(zhí)行兩個變量的網(wǎng)格搜索

通常情況下,這種并行策略會使人為難,因為它沒有考慮到計算背景。使用網(wǎng)格搜索,你擁有的計算資源越多,你能同時嘗試的猜測就會越多。

這種方法的真正痛點被稱為維數(shù)災(zāi)難。即我們增加的維度越多,搜索就變得越困難,最終會導(dǎo)致這種策略難以為繼。

當(dāng)維度小于或等于4時,可以使用這種方法。但在實踐中,即使它能保證最終找到最佳配置,它仍然是不可取的。相反,最好使用隨機搜索。

隨機搜索

幾年前,Bergstra和Bengio發(fā)表了一篇論文,論證了網(wǎng)格搜索的效率低下。

網(wǎng)格搜索和隨機搜索之間唯一真正的區(qū)別是第一步:隨機搜索從配置空間中隨機選擇點。

讓我們使用下面的一些圖片,來展示研究人員的論證結(jié)果。

△網(wǎng)格搜索 vs 隨機搜索

圖片中, 主要是通過在兩個超參數(shù)空間上搜索最佳配置來比較這兩種方法。它還假設(shè)一個參數(shù)比另一個更重要。

這是一個安全的假設(shè),正如開頭提到的那樣,深度學(xué)習(xí)模型中確實充滿了各種超參數(shù),通常研究者/科學(xué)家/學(xué)生知道哪些參數(shù)對訓(xùn)練的影響最大。

在網(wǎng)格搜索中,我們很容易注意到,即使我們訓(xùn)練了9個模型,但每個變量只使用了3個值。

在隨機搜索中,多次地選擇相同變量的可能性微乎其微。如果使用第二種方法,每個變量會使用9個不同值來訓(xùn)練9個模型。

劃重點:如果你的搜索空間包含3到4個維度,不要使用網(wǎng)格搜索。相反,使用隨機搜索,它會為每個搜索任務(wù)提供一個非常好的基準(zhǔn)。

△網(wǎng)格搜索和隨機搜索的優(yōu)缺點

后退一步,前進兩步

另外,當(dāng)你需要為每個維度設(shè)置空間時,為每個變量設(shè)定正確的尺度是非常重要的。

△批次大小和learning rate的通用比例空間

例如,使用批量大小的值作為2的冪,并且在日志中對learning rate進行抽樣是很常見的。

△放大!

另一個很常見的做法是,在一定次數(shù)的迭代中,從上面的一個布局開始,然后通過在每個變量范圍內(nèi)更密集地采樣,來放大有潛力的子空間,甚至用相同或不同的搜索策略開始新的搜索。

還有一個問題:獨立猜測

不幸的是,網(wǎng)格搜索和隨機搜索有一個共同的缺點:

“每個新的猜測都獨立于之前的運行!”

相比之下,Babysitting的優(yōu)勢就顯現(xiàn)出來了。Babysitting之所以有效,是因為科學(xué)家有能力利用過去的猜測,并將其作為改進下一步工作的資源,來有效地推動搜索和實驗。

等一下,這聽起來很熟悉……如果我們試著將超參數(shù)搜索作為一個機器學(xué)習(xí)任務(wù)來建模呢?會發(fā)生什么?

好了,請允許我“請出”貝葉斯優(yōu)化。

貝葉斯優(yōu)化

這種搜索策略是建立一個代理模型,試圖從超參數(shù)配置中預(yù)測我們關(guān)心的度量指標(biāo)。

在每一次迭代中,代理將會變得越來越有信心,新的猜測會帶來新的改進。像其他搜索策略一樣,它也會等到一切都耗盡的時候停止。

△貝葉斯優(yōu)化工作流程

這好像聽起來讓人有點懵逼,不要擔(dān)心,我們再來舉一個例子。

高斯過程

高斯過程( Gaussian Process )不僅會產(chǎn)生預(yù)測值,還會給我們一個不確定性的范圍,通常是均值和方差。

讓我們來深入研究一下這個很棒的教程提供的例子。

傳送門:https://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summerschool/slides/Ryan_adams_140814_bayesopt_ncap.pdf

△2點高斯過程

在上圖中,我們在單個變量上(橫軸上)遵循高斯過程優(yōu)化的第一步。在這個例子中,可以代表learning rate或dropout rate。

在縱軸上,我們將某個度量指標(biāo)繪制為單個超參數(shù)的函數(shù)。因為我們在尋找盡可能低的值,所以我們可以把它看作損失函數(shù)。

黑點代表迄今為止訓(xùn)練出來的模型。紅線是真實值(ground truth),換句話說,是我們試圖學(xué)習(xí)的函數(shù)。

黑線表示我們對真實值函數(shù)假設(shè)的平均值,灰色區(qū)域表示空間中的不確定性或方差。

正如我們能注意到的,點周圍的不確定性減少了,因為我們對這些點周圍的結(jié)果非常有信心,主要是因為我們已經(jīng)在這里訓(xùn)練了模型。

因此,在信息較少的領(lǐng)域,不確定性會增加。

既然已經(jīng)定義了起點,我們已經(jīng)準(zhǔn)備好選擇下一個有潛力的變量來訓(xùn)練模型。我們需要定義一個采集函數(shù),來告訴我們在哪里采樣下一個配置。

在這個例子中,我們使用了Expected Improvement:如果我們使用不確定性區(qū)域中的推薦配置,這個函數(shù)的目的是為了找到盡可能低的值。

上面圖表中的藍(lán)點顯示了Expected Improvement函數(shù)為下一次訓(xùn)練選擇的點。

△3點高斯過程

我們訓(xùn)練的模型越多,代理對下一個有潛力采樣的點就越有信心。以下是經(jīng)過8次訓(xùn)練后的模型圖表:

△8點高斯過程

高斯過程屬于一類稱為基于序列模型的優(yōu)化(SMBO)的算法。正如我們剛剛看到的,這些算法為搜索最佳超參數(shù)提供了非常好的基準(zhǔn)。

但是,就像所有工具一樣,它們也有缺點:

根據(jù)定義,這個過程是循序漸進的它只能處理數(shù)字參數(shù)如果訓(xùn)練表現(xiàn)不佳,它也沒有任何機制來終止訓(xùn)練

請注意,對這個話題,我們只是淺嘗輒止,如果你想深入研究,并對如何擴展SMBO感興趣,可以看看這篇論文。

傳送門:https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf

搜索策略比較

好了,具體的搜索策略已經(jīng)介紹完了,是時候總結(jié)一下了,這樣才能更好地了解每個方案的優(yōu)缺點。

△總結(jié)

只要你或你的團隊不受資源的約束,貝葉斯SMBO可能是最好的選擇,但是你也應(yīng)該考慮建立一個隨機搜索的基準(zhǔn)。

另一方面,如果你還在學(xué)習(xí)或處于開發(fā)階段,即使在空間探索方面不切實際,Babysitting也是可行的。

正如我在上一節(jié)中提到的,如果一個訓(xùn)練表現(xiàn)不佳,這些策略都不能提供節(jié)省資源的機制,我們必須等到計算結(jié)束。

這就引申出了這樣的一個問題:

“我們能優(yōu)化訓(xùn)練時間嗎?”

讓我們來研究研究。

提前停止的力量

提前停止,不僅是一種著名的正則化技術(shù),而且在訓(xùn)練方向不正確時,它還是一種能夠防止資源浪費的機制。

下面是最常用的停止標(biāo)準(zhǔn)的圖表:

前三個標(biāo)準(zhǔn)不用多說,大家都明白,所以讓我們把注意力集中在最后一個標(biāo)準(zhǔn)上。

通常情況下,研究者都會根據(jù)實驗類別來限定訓(xùn)練時間。這可以優(yōu)化團隊內(nèi)部的資源。

在訓(xùn)練模型的過程時,可以手動應(yīng)用這些標(biāo)準(zhǔn),或者通過最常見的框架中提供的鉤子/回調(diào)組件,將這些規(guī)則集成到實驗中,你可以做得更好,比如說:

Keras提供了一個很好的提前停止功能,甚至還有一套回調(diào)組件。由于Keras最近已經(jīng)集成到了Tensorflow中,你可以使用Tensorflow代碼中的回調(diào)組件。

Tensorflow提供了訓(xùn)練鉤子,這些鉤子可能不像Keras回調(diào)那樣直觀,但是它們能讓你對執(zhí)行狀態(tài)有更多的控制。

Pytorch還沒有提供鉤子或回調(diào)組件,但是你可以在論壇上查看TorchSample報告。我不太清楚Pytorch 1.0的功能列表,這個功能可能會隨新版本一起發(fā)布。

Fast.ai庫也提供回調(diào)組件,即使它目前沒有提供任何類型的文檔( WIP ),你也可以在這里找到一個不錯的教程。

傳送門:https://github.com/sgugger/Deep-Learning/blob/master/Using%20the%20callback%20system%20in%20fastai.ipynb

Ignite ( Pytorch的高級庫)提供類似于Keras的回調(diào),雖然還在開發(fā)階段,但它看起來確實是一個不錯的選擇。

這并不是結(jié)束

機器學(xué)習(xí)有一個子領(lǐng)域叫做“AutoML” (Automatic Machine Learning,自動機器學(xué)習(xí)),目的是將模型選擇、特征提取和/或超參數(shù)優(yōu)化變得自動化。

這就引申出了這個指南的最后一個問題:

“我們能了解整個過程嗎?”

你可以認(rèn)為,AutoML是一個解決了另一個機器學(xué)習(xí)任務(wù)的機器學(xué)習(xí)任務(wù)。本質(zhì)上是元機器學(xué)習(xí)。

研究:AutoML和PBT

你很可能聽說過谷歌的AutoML。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索是AutoML的子領(lǐng)域,目的是為給定任務(wù)找到最佳模型。關(guān)于這個主題的全面討論需要一系列文章。幸運的是,F(xiàn)ast.ai的Rachel Thomas博士做了一份很棒的工作。

傳送門:http://www.fast.ai/2018/07/12/auto-ml-1/

我想和大家分享另一個來自 DeepMind 的有趣的研究成果,他們使用遺傳算法的一種變體來執(zhí)行超參數(shù)搜索,稱為基于群體的訓(xùn)練(Population Based Training)。

PTB 也是 DeepMind 的另一項令人驚訝的研究的基礎(chǔ),我強烈建議你去看看,(傳送門:https://deepmind.com/blog/capture-the-flag/)。引用自DeepMind:

就像隨機搜索一樣,PBT首先需要以隨機超參數(shù)的方式訓(xùn)練許多并行的網(wǎng)絡(luò)。但是這些網(wǎng)絡(luò)并不是獨立訓(xùn)練的,而是使用其它網(wǎng)絡(luò)的訓(xùn)練信息來修正這些超參數(shù),并將計算資源分配到那些有潛力的模型上。這種方法的靈感來自于遺傳算法:其中一個群體中的每個個體(worker),可以利用除自身外其余個體的信息。例如,個體可能會從表現(xiàn)較好的個體那里復(fù)制模型參數(shù),它還能通過隨機改變當(dāng)前的值而探索新的超參數(shù)集。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:干貨 | 深度學(xué)習(xí)模型超參數(shù)搜索實用指南

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度學(xué)習(xí)應(yīng)用在分辨率領(lǐng)域的9個模型

    我們曾分享過的實時圖像識別只是其中一種應(yīng)用。我們還可以利用深度學(xué)習(xí)來做分辨率。我們這次就分享一下用于分辨率的深度
    的頭像 發(fā)表于 07-13 09:40 ?1.5w次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>應(yīng)用在<b class='flag-5'>超</b>分辨率領(lǐng)域的9個<b class='flag-5'>模型</b>

    深度融合模型的特點

    深度融合模型的特點,背景深度學(xué)習(xí)模型在訓(xùn)練完成之后,部署并應(yīng)用在生產(chǎn)環(huán)境的這一步至關(guān)重要,畢竟訓(xùn)練出來的
    發(fā)表于 07-16 06:08

    深度學(xué)習(xí)模型是如何創(chuàng)建的?

    具有深度學(xué)習(xí)模型的嵌入式系統(tǒng)應(yīng)用程序帶來了巨大的好處。深度學(xué)習(xí)嵌入式系統(tǒng)已經(jīng)改變了各個行業(yè)的企業(yè)和組織。
    發(fā)表于 10-27 06:34

    什么是深度學(xué)習(xí)?使用FPGA進行深度學(xué)習(xí)的好處?

    什么是深度學(xué)習(xí)為了解釋深度學(xué)習(xí),有必要了解神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦的神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的計算模型。作為具體示例,讓我們考慮一個輸入圖像
    發(fā)表于 02-17 16:56

    參數(shù)優(yōu)化是深度學(xué)習(xí)中的重要組成部分

    參數(shù)優(yōu)化是深度學(xué)習(xí)中的重要組成部分。其原因在于,神經(jīng)網(wǎng)絡(luò)是公認(rèn)的難以配置,而又有很多參數(shù)需要設(shè)置。最重要的是,個別
    發(fā)表于 09-30 16:22 ?2次下載

    深度學(xué)習(xí)如何確定最佳深度?

    確定最佳深度可以降低運算成本,同時可以進一步提高精度。針對深度置信網(wǎng)絡(luò)深度選擇的問題,文章分析了通過設(shè)定閾值方法選擇最佳
    發(fā)表于 04-04 15:46 ?3802次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>如何確定<b class='flag-5'>最佳</b><b class='flag-5'>深度</b>?

    機器學(xué)習(xí)的幾個參數(shù)調(diào)試方法

    optimization或tuning是為學(xué)習(xí)算法選擇一組最優(yōu)的hyperparameters的問題。 ML工作流中最困難的部分之一是為模型找到最好的參數(shù)。ML
    的頭像 發(fā)表于 10-09 14:17 ?2790次閱讀

    關(guān)于Pre-trained模型加速模型學(xué)習(xí)的建議

    首先,為什么要調(diào)整模型? 像卷積神經(jīng)網(wǎng)絡(luò)( CNN )這樣的深度學(xué)習(xí)模型具有大量的參數(shù);一般稱之為
    的頭像 發(fā)表于 11-03 18:08 ?2254次閱讀

    何為深度學(xué)習(xí)模型設(shè)計審計方案

      在本文中,我們開發(fā)了一個深度學(xué)習(xí)( DL )模型審計框架。越來越多的人開始關(guān)注 DL 模型中的固有偏見,這些模型部署在廣泛的環(huán)境中,并且
    的頭像 發(fā)表于 04-19 14:50 ?1395次閱讀
    如<b class='flag-5'>何為</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>設(shè)計審計方案

    模型為什么是深度學(xué)習(xí)的未來?

    與傳統(tǒng)機器學(xué)習(xí)相比,深度學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí),而大模型則是通過使用大量的模型來訓(xùn)練數(shù)據(jù)。
    的頭像 發(fā)表于 02-16 11:32 ?2020次閱讀

    深度學(xué)習(xí)如何訓(xùn)練出好的模型

    和足夠的計算資源,還需要根據(jù)任務(wù)和數(shù)據(jù)的特點進行合理的參數(shù)調(diào)整、數(shù)據(jù)增強和模型微調(diào)。在本文中,我們將會詳細(xì)介紹深度學(xué)習(xí)
    的頭像 發(fā)表于 12-07 12:38 ?1010次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>如何訓(xùn)練出好的<b class='flag-5'>模型</b>

    深度學(xué)習(xí)模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型在訓(xùn)練過程中,往往會遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:41 ?570次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-01 16:13 ?779次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是
    的頭像 發(fā)表于 07-04 11:49 ?609次閱讀

    AI大模型深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過程,實現(xiàn)對復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識別。AI大模型則是指模型參數(shù)數(shù)量巨大,需要龐大的計算資源來進行訓(xùn)練和推理。
    的頭像 發(fā)表于 10-23 15:25 ?101次閱讀