【導(dǎo)語(yǔ)】本文對(duì)梯度函數(shù)和損失函數(shù)間的關(guān)系進(jìn)行了介紹,并通過(guò)可視化方式進(jìn)行了詳細(xì)展示。另外,作者對(duì)三種常見的損失函數(shù)和兩種常用的激活函數(shù)也進(jìn)行了介紹和可視化。
你需要掌握關(guān)于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基礎(chǔ)知識(shí)。本文嘗試通過(guò)可視化方法,對(duì)損失函數(shù)、梯度下降和反向傳播之間的關(guān)系進(jìn)行介紹。
損失函數(shù)和梯度下降之間的關(guān)系
為了對(duì)梯度下降過(guò)程進(jìn)行可視化,我們先來(lái)看一個(gè)簡(jiǎn)單的情況:假設(shè)神經(jīng)網(wǎng)絡(luò)的最后一個(gè)節(jié)點(diǎn)輸出一個(gè)權(quán)重?cái)?shù)w,該網(wǎng)絡(luò)的目標(biāo)值是0。在這種情況下,網(wǎng)絡(luò)所使用的損失函數(shù)為均方誤差(MSE)。
當(dāng)w大于0時(shí),MSE的導(dǎo)數(shù) dy/dw 值為正。dy/dw 為正的原因可以解釋為,w中的正方向變化將導(dǎo)致y的正方向變化。為了減少損失值,需要在w的負(fù)方向上進(jìn)行如下變換:
當(dāng)w小于0時(shí),MSE的導(dǎo)數(shù) dy/dw 值為負(fù),這意味著w中的正方向變化將導(dǎo)致y的負(fù)方向變化。 為了減少損失,需要在w的正方向上做如下變換:
因此,權(quán)重更新的公式如下:
其中 learning_rate 是一個(gè)常量,用于調(diào)節(jié)每次更新的導(dǎo)數(shù)的百分比。調(diào)整 Learning_rate 值主要是用于防止w更新步伐太小或太大,或者避免梯度爆炸(梯度太大)或梯度消失的問(wèn)題(梯度太小)。
下圖展示了一個(gè)更長(zhǎng)且更貼近實(shí)際的計(jì)算過(guò)程,在該計(jì)算過(guò)程中,需要使用sigmoid激活函數(shù)對(duì)權(quán)重進(jìn)行處理。為了更新權(quán)重w1,相對(duì)于w1的損失函數(shù)的導(dǎo)數(shù)可以以如下的方式得到:
損失函數(shù)對(duì)權(quán)重的求導(dǎo)過(guò)程
從上面闡釋的步驟可以看出,神經(jīng)網(wǎng)絡(luò)中的權(quán)重由損失函數(shù)的導(dǎo)數(shù)而不是損失函數(shù)本身來(lái)進(jìn)行更新或反向傳播。因此,損失函數(shù)本身對(duì)反向傳播并沒有影響。下面對(duì)各類損失函數(shù)進(jìn)行了展示:
L2損失函數(shù)
MSE(L2損失)的導(dǎo)數(shù)更新的步長(zhǎng)幅度為2w。 當(dāng)w遠(yuǎn)離目標(biāo)值0時(shí),MSE導(dǎo)數(shù)的步長(zhǎng)幅度變化有助于向w反向傳播更大的步長(zhǎng),當(dāng)w更接近目標(biāo)值0時(shí),該變化使得向w進(jìn)行反向傳播的步長(zhǎng)變小。
L1損失函數(shù)
MAE(L1損失)的導(dǎo)數(shù)是值為1或負(fù)1的常數(shù),這可能不是理想的區(qū)分w與目標(biāo)值之間距離的方式。
交叉熵?fù)p失函數(shù)
交叉熵?fù)p失函數(shù)中w的范圍是0和1之間。當(dāng)w接近1時(shí),交叉熵減少到0。交叉熵的導(dǎo)數(shù)是 -1/w。
Sigmoid激活函數(shù)
Sigmoid函數(shù)的導(dǎo)數(shù)值域范圍在0到0.25之間。 sigmoid函數(shù)導(dǎo)數(shù)的多個(gè)乘積可能會(huì)得到一個(gè)接近于0的非常小的數(shù)字,這會(huì)使反向傳播失效。這類問(wèn)題常被稱為梯度消失。
Relu激活函數(shù)
Relu是一個(gè)較好的激活函數(shù),其導(dǎo)數(shù)為1或0,在反向傳播中使網(wǎng)絡(luò)持續(xù)更新權(quán)重或不對(duì)權(quán)重進(jìn)行更新。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4256瀏覽量
62223 -
梯度
+關(guān)注
關(guān)注
0文章
30瀏覽量
10300 -
可視化
+關(guān)注
關(guān)注
1文章
1154瀏覽量
20812
原文標(biāo)題:可視化深入理解損失函數(shù)與梯度下降 | 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論