91香蕉视频IOS在线,最近新免费韩国电影

本文將介紹信息量，熵，交叉熵，相對(duì)熵的定義，以及它們與機(jī)器學(xué)習(xí)算法中代價(jià)函數(shù)的定義的聯(lián)系。

1. 信息量

信息的量化計(jì)算：

解釋如下：

信息量的大小應(yīng)該可以衡量事件發(fā)生的“驚訝程度”或不確定性：

如果有人告訴我們一個(gè)相當(dāng)不可能的事件發(fā)生了，我們收到的信息要多于我們被告知某個(gè)很可能發(fā)?的事件發(fā)?時(shí)收到的信息。如果我們知道某件事情?定會(huì)發(fā)?，那么我們就不會(huì)接收到信息。也就是說，信息量應(yīng)該連續(xù)依賴于事件發(fā)生的概率分布p(x)。因此，我們想要尋找一個(gè)基于概率p(x)計(jì)算信息量的函數(shù)h(x)，它應(yīng)該具有如下性質(zhì)：

h(x) >= 0，因?yàn)樾畔⒘勘硎镜玫蕉嗌傩畔ⅲ粦?yīng)該為負(fù)數(shù)。

h(x, y) = h(x) + h(y)，也就是說，對(duì)于兩個(gè)不相關(guān)事件x和y，我們觀察到兩個(gè)事件x, y同時(shí)發(fā)?時(shí)獲得的信息應(yīng)該等于觀察到事件各?發(fā)?時(shí)獲得的信息之和；

h(x)是關(guān)于p(x)的單調(diào)遞減函數(shù)，也就是說，事件x越容易發(fā)生（概率p(x)越大），信息量h(x)越小。

又因?yàn)槿绻麅蓚€(gè)不相關(guān)事件是統(tǒng)計(jì)獨(dú)?的，則有p(x, y) =p(x)p(y)。根據(jù)不相關(guān)事件概率可乘、信息量可加，很容易想到對(duì)數(shù)函數(shù)，看出h(x)一定與p(x)的對(duì)數(shù)有關(guān)。因此，有滿足上述性質(zhì)。

2. 熵（信息熵）

對(duì)于一個(gè)隨機(jī)變量X而言，它的所有可能取值的信息量的期望就稱為熵。熵的本質(zhì)的另一種解釋：最短平均編碼長(zhǎng)度（對(duì)于離散變量）。

離散變量：

連續(xù)變量：

3. 交叉熵

現(xiàn)有關(guān)于樣本集的2個(gè)概率分布p和q，其中p為真實(shí)分布，q非真實(shí)分布。按照真實(shí)分布p來衡量識(shí)別一個(gè)樣本的熵，即基于分布p給樣本進(jìn)行編碼的最短平均編碼長(zhǎng)度為：

如果使用非真實(shí)分布q來給樣本進(jìn)行編碼，則是基于分布q的信息量的期望（最短平均編碼長(zhǎng)度），由于用q來編碼的樣本來自分布p，所以期望與真實(shí)分布一致。所以基于分布q的最短平均編碼長(zhǎng)度為：

上式CEH(p, q)即為交叉熵的定義。

4. 相對(duì)熵

將由q得到的平均編碼長(zhǎng)度比由p得到的平均編碼長(zhǎng)度多出的bit數(shù)，即使用非真實(shí)分布q計(jì)算出的樣本的熵(交叉熵)，與使用真實(shí)分布p計(jì)算出的樣本的熵的差值，稱為相對(duì)熵，又稱KL散度。

KL(p, q) = CEH(p, q) - H(p)=

相對(duì)熵（KL散度）用于衡量?jī)蓚€(gè)概率分布p和q的差異。注意，KL(p, q)意味著將分布p作為真實(shí)分布，q作為非真實(shí)分布，因此KL(p, q) != KL(q, p)。

5. 機(jī)器學(xué)習(xí)中的代價(jià)函數(shù)與交叉熵

若 p(x)是數(shù)據(jù)的真實(shí)概率分布， q(x)是由數(shù)據(jù)計(jì)算得到的概率分布。機(jī)器學(xué)習(xí)的目的就是希望q(x)盡可能地逼近甚至等于p(x) ，從而使得相對(duì)熵接近最小值0. 由于真實(shí)的概率分布是固定的，相對(duì)熵公式的后半部分（-H(p)）就成了一個(gè)常數(shù)。那么相對(duì)熵達(dá)到最小值的時(shí)候，也意味著交叉熵達(dá)到了最小值。對(duì)q(x)的優(yōu)化就等效于求交叉熵的最小值。另外，對(duì)交叉熵求最小值，也等效于求最大似然估計(jì)（maximum likelihood estimation）。

特別的，在logistic regression中，p:真實(shí)樣本分布，服從參數(shù)為p的0-1分布，即X～B(1,p)

p(x = 1) = y

p(x = 0) = 1 - yq:待估計(jì)的模型，服從參數(shù)為q的0-1分布，即X～B(1,q)

p(x = 1) = h(x)

p(x = 0) = 1-h(x)

其中h(x)為logistic regression的假設(shè)函數(shù)。兩者的交叉熵為：

對(duì)所有訓(xùn)練樣本取均值得：

這個(gè)結(jié)果與通過最大似然估計(jì)方法求出來的結(jié)果一致。使用最大似然估計(jì)方法參加博客Logistic Regression.

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4263

瀏覽量
62247
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8325

瀏覽量
132216
交叉熵

交叉熵

+關(guān)注

關(guān)注
0

文章
4

瀏覽量
2345

原文標(biāo)題：信息量，熵，交叉熵，相對(duì)熵與代價(jià)函數(shù)

文章出處：【微信號(hào)：AI_shequ，微信公眾號(hào)：人工智能愛好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

信息熵是什么？

2018-04-22 開胃學(xué)習(xí)數(shù)學(xué)系列 - 信息熵

發(fā)表于 03-14 10:02

什么是交叉熵？

2018-04-22 開胃學(xué)習(xí)數(shù)學(xué)系列 - 交叉熵

發(fā)表于 03-21 11:08

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)參數(shù)的代價(jià)函數(shù)

吳恩達(dá)機(jī)器學(xué)習(xí)筆記之神經(jīng)網(wǎng)絡(luò)參數(shù)的反向傳播算法

發(fā)表于 05-22 15:11

交叉熵的作用原理

交叉熵作為損失函數(shù)在神經(jīng)網(wǎng)絡(luò)中的作用和幾種常用的交叉熵損失函

發(fā)表于 06-03 09:10

機(jī)器學(xué)習(xí)的分類器

各種機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景分別是什么？例如，k近鄰,貝葉斯，決策樹，svm，邏輯斯蒂回歸和最大熵模型

發(fā)表于 09-10 10:53

大數(shù)據(jù)中邊界向量調(diào)節(jié)熵函數(shù)支持向量機(jī)研究

大數(shù)據(jù)中邊界向量調(diào)節(jié)熵函數(shù)支持向量機(jī)研究_林蔚

發(fā)表于 01-07 19:08 ?0次下載

采用交叉熵支持向量機(jī)和模糊積分的電網(wǎng)故障診斷_邊莉

采用交叉熵支持向量機(jī)和模糊積分的電網(wǎng)故障診斷_邊莉

發(fā)表于 01-08 13:26 ?0次下載

機(jī)器學(xué)習(xí)經(jīng)典損失函數(shù)比較

所有的機(jī)器學(xué)習(xí)算法都或多或少的依賴于對(duì)目標(biāo)函數(shù)最大化或者最小化的過程。我們常常將最小化的函數(shù)稱為損失函數(shù)，它主要用于衡量模型的預(yù)測(cè)能力。

發(fā)表于 06-13 17:53 ?8495次閱讀

機(jī)器學(xué)習(xí)的logistic函數(shù)和softmax函數(shù)總結(jié)

本文簡(jiǎn)單總結(jié)了機(jī)器學(xué)習(xí)最常見的兩個(gè)函數(shù)，logistic函數(shù)和softmax函數(shù)。首先介紹兩者的定義和應(yīng)用，最后對(duì)兩者的聯(lián)系和區(qū)別進(jìn)行了總結(jié)

發(fā)表于 12-30 09:04 ?9677次閱讀

基于交叉熵算法的跟馳模型標(biāo)定

的確定性標(biāo)定方法會(huì)導(dǎo)致大量局部最優(yōu)值的出現(xiàn)。在此基礎(chǔ)上，本文提出了基于交叉熵算法的跟馳模型標(biāo)定的框架，基于蒙地卡羅與重要樣本策略逐步逼近參數(shù)的最優(yōu)概率密度函數(shù)。實(shí)例分別采用合成數(shù)據(jù)與實(shí)測(cè)數(shù)據(jù)標(biāo)定智能駕駛模型

發(fā)表于 01-11 16:23 ?8次下載

當(dāng)機(jī)器學(xué)習(xí)遇上SSD，會(huì)擦出怎樣的火花呢?

判斷一個(gè)函數(shù)的好壞，這需要確定一個(gè)衡量標(biāo)準(zhǔn)，也就是我們通常說的損失函數(shù)(Loss Function)，損失函數(shù)的確定也需要依據(jù)具體問題而定，如回歸問題一般采用歐式距離，分類問題一般采用交叉

發(fā)表于 09-07 16:12 ?2613次閱讀

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中分類與回歸常用的幾種損失函數(shù)

本文將介紹機(jī)器學(xué)習(xí)、深度學(xué)習(xí)中分類與回歸常用的幾種損失函數(shù)，包括均方差損失 Mean Squared Loss、平均絕對(duì)誤差損失 Mean Absolute Error Loss、Hu

發(fā)表于 10-09 16:36 ?6158次閱讀

機(jī)器學(xué)習(xí)中若干典型的目標(biāo)函數(shù)構(gòu)造方法

幾乎所有的機(jī)器學(xué)習(xí)算法都?xì)w結(jié)為求解最優(yōu)化問題。有監(jiān)督學(xué)習(xí)算法在訓(xùn)練時(shí)通過優(yōu)化一個(gè)目標(biāo)函數(shù)而得到模型，然后用模型進(jìn)行預(yù)測(cè)。無監(jiān)督學(xué)習(xí)算法通常通

發(fā)表于 12-26 09:52 ?4202次閱讀

機(jī)器學(xué)習(xí)找一個(gè)好用的函數(shù)的原因是什么

（1）機(jī)器學(xué)習(xí)中經(jīng)典的“支持向量機(jī)（SVM）”的主要提出者弗拉基米爾·萬普尼克（Vladimir Vapnik），在其著作《統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)》中這樣定義

發(fā)表于 11-02 16:15 ?727次閱讀

機(jī)器學(xué)習(xí)中的交叉驗(yàn)證方法

在機(jī)器學(xué)習(xí)中，交叉驗(yàn)證（Cross-Validation）是一種重要的評(píng)估方法，它通過將數(shù)據(jù)集分割成多個(gè)部分來評(píng)估模型的性能，從而避免過擬合或欠擬合問題，并幫助選擇最優(yōu)的超參數(shù)。本文將

發(fā)表于 07-10 16:08 ?607次閱讀