亚洲人成伊人成综合网76,久久精品无码砖区

????Content：

9.1 Supervised Learning and Unsupervised Learning

9.2 K-means algorithm

9.3 Optimization objective

9.4 Random Initialization

9.5 Choosing the Number of Clusters

9.1 Supervised Learning and Unsupervised Learning

我們已經(jīng)學(xué)習(xí)了許多機(jī)器學(xué)習(xí)算法，包括線性回歸，Logistic回歸，神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)。這些算法都有一個(gè)共同點(diǎn)，即給出的訓(xùn)練樣本自身帶有標(biāo)記。比如，使用線性回歸預(yù)測(cè)房?jī)r(jià)時(shí)，我們所使用的每一個(gè)訓(xùn)練樣本是一個(gè)或多個(gè)變量(如面積，樓層等)以及自身帶有的標(biāo)記即房?jī)r(jià)。而使用Logistic回歸，神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)處理分類問(wèn)題時(shí)，也是利用訓(xùn)練樣本自身帶有標(biāo)記即種類，例如進(jìn)行垃圾郵件分類時(shí)是利用已有的垃圾郵件(標(biāo)記為1)和非垃圾郵件(標(biāo)記為0)，進(jìn)行數(shù)字識(shí)別時(shí)，變量是每個(gè)像素點(diǎn)的值，而標(biāo)記是數(shù)字本身的值。我們把使用帶有標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)的算法稱為監(jiān)督學(xué)習(xí)(Supervised Learning)。監(jiān)督學(xué)習(xí)的訓(xùn)練樣本可以統(tǒng)一成如下形式，其中x為變量，y為標(biāo)記。

顯然，現(xiàn)實(shí)生活中不是所有數(shù)據(jù)都帶有標(biāo)記(或者說(shuō)標(biāo)記是未知的)。所以我們需要對(duì)無(wú)標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律。我們把這種學(xué)習(xí)稱為無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)。所以，無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練樣本如下形式，它僅包含特征量。

圖9-1形象的表示了監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的區(qū)別。圖(1)表示給帶標(biāo)記的樣本進(jìn)行分類，分界線兩邊為不同的類(一類為圈，另一類為叉)；圖(2)是基于變量x1和x2對(duì)無(wú)標(biāo)記的樣本(表面上看起來(lái)都是圈)進(jìn)行聚類(Clustering)。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-1 一個(gè)監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的區(qū)別實(shí)例

無(wú)監(jiān)督學(xué)習(xí)也有很多應(yīng)用，一個(gè)聚類的例子是：對(duì)于收集到的論文，根據(jù)每個(gè)論文的特征量如詞頻，句子長(zhǎng)，頁(yè)數(shù)等進(jìn)行分組。聚類還有許多其它應(yīng)用，如圖9-2所示。一個(gè)非聚類的例子是雞尾酒會(huì)算法，即從帶有噪音的數(shù)據(jù)中找到有效數(shù)據(jù)(信息)，例如在嘈雜的雞尾酒會(huì)你仍然可以注意到有人叫你。所以雞尾酒會(huì)算法可以用于語(yǔ)音識(shí)別(詳見wikipedia)。

quora上有更多關(guān)于監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間的區(qū)別的討論。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-2 一些聚類的應(yīng)用

9.2 K-means algorithm

聚類的基本思想是將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集，每個(gè)子集稱為一個(gè)"簇"(cluster)。劃分后，每個(gè)簇可能有對(duì)應(yīng)的概念(性質(zhì))，比如根據(jù)頁(yè)數(shù)，句長(zhǎng)等特征量給論文做簇?cái)?shù)為2的聚類，可能得到一個(gè)大部分是包含碩士畢業(yè)論文的簇，另一個(gè)大部分是包含學(xué)士畢業(yè)論文的簇。

K均值(K-means)算法是一個(gè)廣泛使用的用于簇劃分的算法。下面說(shuō)明K均值算法的步驟：

隨機(jī)初始化K個(gè)樣本(點(diǎn))，稱之為簇中心(cluster centroids)；

簇分配: 對(duì)于所有的樣本，將其分配給離它最近的簇中心；

移動(dòng)簇中心：對(duì)于每一個(gè)簇，計(jì)算屬于該簇的所有樣本的平均值，移動(dòng)簇中心到平均值處；

重復(fù)步驟2和3，直到找到我們想要的簇（即優(yōu)化目標(biāo)，詳解下節(jié)9.3）

圖9-3演示了以特征量個(gè)數(shù)和簇?cái)?shù)K均為2的情況。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-3 K均值算法的演示

通過(guò)上述描述，下面我們形式化K均值算法。

輸入：

K (number of clusters)

Training set

算法:

Randomly initialize K cluster centroids

Repeat {

for i = 1 to m

for k = 1 to K

}

上述算法中，第一個(gè)循環(huán)對(duì)應(yīng)了簇分配的步驟：我們構(gòu)造向量c，使得c(i)的值等于x(i)所屬簇的索引，即離x(i)最近簇中心的索引。用數(shù)學(xué)的方式表示如下：

第二個(gè)循環(huán)對(duì)應(yīng)移動(dòng)簇中心的步驟，即移動(dòng)簇中心到該簇的平均值處。更數(shù)學(xué)的方式表示如下：

其中

如果有一個(gè)簇中心沒(méi)有分配到一個(gè)樣本，我們既可以重新初始化這個(gè)簇中心，也可以直接將其去除。

經(jīng)過(guò)若干次迭代后，該算法將會(huì)收斂，也就是繼續(xù)迭代不會(huì)再影響簇的情況。

在某些應(yīng)用中，樣本可能比較連續(xù)，看起來(lái)沒(méi)有明顯的簇劃分，但是我們還是可以用K均值算法將樣本分為K個(gè)子集供參考。例如根據(jù)人的身高和體重劃分T恤的大小碼，如圖9-4所示。

圖9-4K-means for non-separated clusters

9.3 Optimization objective

重新描述在K均值算法中使用的變量：

使用這些變量，定義我們的cost function如下：

所以我們的優(yōu)化目標(biāo)就是

結(jié)合9.2節(jié)所描述的算法，可以發(fā)現(xiàn)：

在簇分配步驟中，我們的目標(biāo)是通過(guò)改變

在移動(dòng)簇中心步驟中，我們的目標(biāo)通過(guò)改變

注意，在K均值算法中，cost function不可能能增加，它應(yīng)該總是下降的(區(qū)別于梯度下降法)。

9.4 Random Initialization

下面介紹一種值得推薦的初始化簇中心的方法。

確保K < m，也就是確保簇的數(shù)量應(yīng)該小于樣本數(shù)；

隨機(jī)選擇K個(gè)訓(xùn)練樣本；

令K個(gè)簇中心

K均值算法可能陷入局部最優(yōu)。為了減少這種情況的發(fā)生，我們可以基于隨機(jī)初始化，多次運(yùn)行K均值算法。所以，算法變成如下形式(以運(yùn)行100次為例：效率與準(zhǔn)確性的tradeoff)

For i = 1 to 100 {

Randomly initialize K-means.

Run K-means. Get

Compute cost function (distortion)

}

Pick clustering that gave lowest cost

9.5 Choosing the Number of Clusters

選擇K的取值通常是主觀的，不明確的。也就是沒(méi)有一種方式確保K的某個(gè)取值一定優(yōu)于其他取值。但是，有一些方法可供參考。

The elbow method: 畫出代價(jià)J關(guān)于簇?cái)?shù)K的函數(shù)圖，J值應(yīng)該隨著K的增加而減小，然后趨于平緩，選擇當(dāng)J開始趨于平衡時(shí)的K的取值。如圖9-5的(1)所示。

但是，通常這條曲線是漸變的，沒(méi)有很顯然的"肘部"。如圖9-5的(2)所示。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-5 代價(jià)J關(guān)于簇?cái)?shù)K的曲線圖

注意：隨著K的增加J應(yīng)該總是減少的，否則，一種出錯(cuò)情況可能是K均值陷入了一個(gè)糟糕的局部最優(yōu)。

一些其他的方法參見wikipedia。

當(dāng)然，我們有時(shí)應(yīng)該根據(jù)后續(xù)目的( later/downstream purpose )來(lái)確定K的取值。還是以根據(jù)人的身高和體重劃分T恤的大小碼為例，若我們想將T恤大小劃分為S/M/L這3種類型，那么K的取值應(yīng)為3；若想要?jiǎng)澐譃閄S/S/M/L/XL這5種類型，那么K的取值應(yīng)為5。如圖9-6所示。

機(jī)器學(xué)習(xí)算法的無(wú)監(jiān)督學(xué)習(xí)的詳細(xì)介紹

圖9-6 劃分T恤size的兩種不同情況

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)算法

機(jī)器學(xué)習(xí)算法

+關(guān)注

關(guān)注
2

文章
47

瀏覽量
6441
無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)

+關(guān)注

關(guān)注
1

文章
16

瀏覽量
2749

原文標(biāo)題：Stanford機(jī)器學(xué)習(xí)筆記-9. 聚類(Clustering)

文章出處：【微信號(hào)：AI_shequ，微信公眾號(hào)：人工智能愛好者社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí)，還包括對(duì)語(yǔ)言的深層次理解，如文化背景、語(yǔ)境含義和情感色彩等。自監(jiān)督學(xué)習(xí)：模型采用自監(jiān)督學(xué)習(xí)策略，在大量無(wú)標(biāo)簽文本數(shù)據(jù)

發(fā)表于 08-02 11:03

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

章節(jié)最后總結(jié)了機(jī)器學(xué)習(xí)的分類：有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自

發(fā)表于 07-25 14:33

神經(jīng)網(wǎng)絡(luò)如何用無(wú)監(jiān)督算法訓(xùn)練

標(biāo)記數(shù)據(jù)的處理尤為有效，能夠充分利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)資源。以下將詳細(xì)探討神經(jīng)網(wǎng)絡(luò)如何用無(wú)監(jiān)督算法進(jìn)行訓(xùn)練，包括常見的無(wú)

發(fā)表于 07-09 18:06 ?634次閱讀

深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

應(yīng)用中往往難以實(shí)現(xiàn)。因此，無(wú)監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來(lái)越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)

發(fā)表于 07-09 10:50 ?282次閱讀

機(jī)器學(xué)習(xí)算法原理詳解

機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支，其目標(biāo)是通過(guò)讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能，而無(wú)需進(jìn)行明確的編程。本文將深入解讀幾種常見的機(jī)器學(xué)習(xí)

發(fā)表于 07-02 11:25 ?541次閱讀

深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

在人工智能的浪潮中，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無(wú)疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步，為眾多領(lǐng)域帶來(lái)了革命性的變化。然而，盡管它們都屬于機(jī)器

發(fā)表于 07-01 11:40 ?944次閱讀

機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù)，讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集，在統(tǒng)計(jì)學(xué)習(xí)和

發(fā)表于 06-27 08:27 ?1496次閱讀

機(jī)器學(xué)習(xí)怎么進(jìn)入人工智能

，人工智能已成為一個(gè)熱門領(lǐng)域，涉及到多個(gè)行業(yè)和領(lǐng)域，例如語(yǔ)音識(shí)別、機(jī)器翻譯、圖像識(shí)別等。在編程中進(jìn)行人工智能的關(guān)鍵是使用機(jī)器學(xué)習(xí)算法，這是一類基于樣本數(shù)據(jù)和模型訓(xùn)練來(lái)進(jìn)行預(yù)測(cè)和判斷的

發(fā)表于 04-04 08:41 ?198次閱讀

機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)全攻略

有監(jiān)督學(xué)習(xí)通常是利用帶有專家標(biāo)注的標(biāo)簽的訓(xùn)練數(shù)據(jù)，學(xué)習(xí)一個(gè)從輸入變量X到輸入變量Y的函數(shù)映射。Y = f (X)，訓(xùn)練數(shù)據(jù)通常是(n×x,y)的形式，其中n代表訓(xùn)練樣本的大小，x和y分別是變量X和Y的樣本值。

發(fā)表于 02-25 13:53 ?189次閱讀

2024年AI領(lǐng)域?qū)?huì)有哪些新突破呢？

傳統(tǒng)的機(jī)器學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練，但自監(jiān)督學(xué)習(xí)可以通過(guò)無(wú)監(jiān)督的方式從大規(guī)模未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)

發(fā)表于 01-24 09:58 ?1891次閱讀

基于transformer和自監(jiān)督學(xué)習(xí)的路面異常檢測(cè)方法分享

鋪設(shè)異常檢測(cè)可以幫助減少數(shù)據(jù)存儲(chǔ)、傳輸、標(biāo)記和處理的壓力。本論文描述了一種基于Transformer和自監(jiān)督學(xué)習(xí)的新方法，有助于定位異常區(qū)域。

發(fā)表于 12-06 14:57 ?1337次閱讀

無(wú)監(jiān)督域自適應(yīng)場(chǎng)景：基于檢索增強(qiáng)的情境學(xué)習(xí)實(shí)現(xiàn)知識(shí)遷移

本文對(duì)比了多種基線方法，包括無(wú)監(jiān)督域自適應(yīng)的傳統(tǒng)方法（如Pseudo-labeling和對(duì)抗訓(xùn)練）、基于檢索的LM方法（如REALM和RAG）和情境學(xué)習(xí)方法（如In-context learning）。

發(fā)表于 12-05 14:14 ?497次閱讀

全面總結(jié)機(jī)器學(xué)習(xí)中的優(yōu)化算法

幾乎所有的機(jī)器學(xué)習(xí)算法最后都?xì)w結(jié)為求一個(gè)目標(biāo)函數(shù)的極值，即最優(yōu)化問(wèn)題，例如對(duì)于有監(jiān)督學(xué)習(xí)，我們要找到一個(gè)最佳的映射函數(shù)f (x)，使得對(duì)訓(xùn)練樣本的損失函數(shù)最小化（最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)或結(jié)構(gòu)風(fēng)

發(fā)表于 11-02 10:18 ?380次閱讀

機(jī)器學(xué)習(xí)的基本流程和十大算法

為了進(jìn)行機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘任務(wù)，數(shù)據(jù)科學(xué)家們提出了各種模型，在眾多的數(shù)據(jù)挖掘模型中，國(guó)際權(quán)威的學(xué)術(shù)組織 ICDM（the IEEE International Conference on Data Mining）評(píng)選出了十大經(jīng)典的算法

發(fā)表于 10-31 11:30 ?924次閱讀

什么是強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一，它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列，是三種

發(fā)表于 10-30 11:36 ?3726次閱讀