任何一個(gè)機(jī)器學(xué)習(xí)問題都有著不止一種算法來解決,在機(jī)器學(xué)習(xí)領(lǐng)域“沒有免費(fèi)的午餐”的意思就是沒有一個(gè)對(duì)于所有問題都很好的算法。機(jī)器學(xué)習(xí)算法的表現(xiàn)很大程度上與數(shù)據(jù)的結(jié)構(gòu)和規(guī)模有關(guān)。所以判斷算法性能最好的辦法就是在數(shù)據(jù)上運(yùn)行比較結(jié)果。
不過與此同時(shí)我們對(duì)于算法的優(yōu)缺點(diǎn)有一定的了解可以幫助我們找需要的算法。本文將會(huì)介紹三種回歸算法及其優(yōu)缺點(diǎn),將會(huì)為我們理解和選擇算法提供很好的幫助。
線性和多項(xiàng)式回歸
在這一簡(jiǎn)單的模型中,單變量線性回歸的任務(wù)是建立起單個(gè)輸入的獨(dú)立變量與因變量之間的線性關(guān)系;而多變量回歸則意味著要建立多個(gè)獨(dú)立輸入變量與輸出變量之間的關(guān)系。除此之外,非線性的多項(xiàng)式回歸則將輸入變量進(jìn)行一系列非線性組合以建立與輸出之間的關(guān)系,但這需要擁有輸入輸出之間關(guān)系的一定知識(shí)。訓(xùn)練回歸算法模型一般使用隨機(jī)梯度下降法(SGD)。
優(yōu)點(diǎn):
建模迅速,對(duì)于小數(shù)據(jù)量、簡(jiǎn)單的關(guān)系很有效;
線性回歸模型十分容易理解,有利于決策分析。
缺點(diǎn):
對(duì)于非線性數(shù)據(jù)或者數(shù)據(jù)特征間具有相關(guān)性多項(xiàng)式回歸難以建模;
難以很好地表達(dá)高度復(fù)雜的數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)由一系列稱為神經(jīng)元的節(jié)點(diǎn)通過內(nèi)部網(wǎng)絡(luò)連接而成,數(shù)據(jù)的特征通過輸入層被逐級(jí)傳遞到網(wǎng)絡(luò)中,形成多個(gè)特征的線性組合,每個(gè)特征會(huì)與網(wǎng)絡(luò)中的權(quán)重相互作用。隨后神經(jīng)元對(duì)線性組合進(jìn)行非線性變化,這使得神經(jīng)網(wǎng)絡(luò)模型具有對(duì)多特征復(fù)雜的非線性表征能力。神經(jīng)網(wǎng)絡(luò)可以具有多層結(jié)構(gòu),以增強(qiáng)對(duì)于輸入數(shù)據(jù)特征的表征。人們一般利用隨機(jī)梯度下降法和反向傳播法來對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,請(qǐng)參照上述圖解。
優(yōu)點(diǎn):
多層的非線性結(jié)構(gòu)可以表達(dá)十分復(fù)雜的非線性關(guān)系;
模型的靈活性使得我們不需要關(guān)心數(shù)據(jù)的結(jié)構(gòu);
數(shù)據(jù)越多網(wǎng)絡(luò)表現(xiàn)越好。
缺點(diǎn):
模型過于復(fù)雜,難以解釋;
訓(xùn)練過程需要強(qiáng)大算力、并且需要微調(diào)超參數(shù);
對(duì)數(shù)據(jù)量依賴大,但常規(guī)機(jī)器學(xué)習(xí)問題則使用較小量數(shù)據(jù)。
回歸樹和回歸森林
讓我們從最基本的概念出發(fā),決策樹是通過遍歷樹的分支并根據(jù)節(jié)點(diǎn)的決策選擇下一個(gè)分支的模型。樹型感知利用訓(xùn)練數(shù)據(jù)作為數(shù)據(jù),根據(jù)最適合的特征進(jìn)行拆分,并不斷進(jìn)行循環(huán)指導(dǎo)訓(xùn)練數(shù)據(jù)被分到一類中去。建立樹的過程中需要將分離建立在最純粹的子節(jié)點(diǎn)上,從而在分離特征的情況下保持分離數(shù)目盡可能的小。純粹性是來源于信息增益的概念,它表示對(duì)于一個(gè)未曾謀面的樣本需要多大的信息量才能將它正確的分類。實(shí)際上通過比較熵或者分類所需信息的數(shù)量來定義。而隨機(jī)森林則是決策樹的簡(jiǎn)單集合,輸入矢量通過多個(gè)決策樹的處理,最終的對(duì)于回歸需要對(duì)輸出數(shù)據(jù)取平均、對(duì)于分類則引入投票機(jī)制來決定分類結(jié)果。
優(yōu)點(diǎn):
具有很高的復(fù)雜度和高度的非線性關(guān)系,比多項(xiàng)式擬合擁有更好的效果;
模型容易理解和闡述,訓(xùn)練過程中的決策邊界容易實(shí)踐和理解。
缺點(diǎn):
由于決策樹有過擬合的傾向,完整的決策樹模型包含很多過于復(fù)雜和非必須的結(jié)構(gòu)。但可以通過擴(kuò)大隨機(jī)森林或者剪枝的方法來緩解這一問題;
較大的隨機(jī)數(shù)表現(xiàn)很好,但是卻帶來了運(yùn)行速度慢和內(nèi)存消耗高的問題。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4726瀏覽量
100332 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8325瀏覽量
132208
原文標(biāo)題:如何為回歸問題選擇一個(gè)合適的算法呢?我們先從模型的優(yōu)缺點(diǎn)講起...
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論