0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳談機(jī)器學(xué)習(xí)及其三大分類

如意 ? 來源:大數(shù)據(jù)DT ? 作者:小川雄太郎 ? 2020-08-14 12:24 ? 次閱讀

01 術(shù)語整理

本節(jié)概述機(jī)器學(xué)習(xí)及其三個分類(監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí))。首先,與機(jī)器學(xué)習(xí)相關(guān)的術(shù)語有人工智能(Artificial Intelligence,AI)、機(jī)器學(xué)習(xí)(Machine Learning,ML)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等,這里對這些術(shù)語進(jìn)行簡單的整理。

AI意味著人工智能,其定義因研究人員而異。從廣義上講,它指“像人類一樣具有智能的系統(tǒng)和配備這種系統(tǒng)的機(jī)器人”。實現(xiàn)AI的方法之一是機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)可以簡單地描述為“向系統(tǒng)提供數(shù)據(jù)(稱為訓(xùn)練數(shù)據(jù)或?qū)W習(xí)數(shù)據(jù))并通過數(shù)據(jù)自動確定系統(tǒng)的參數(shù)(變量值)”。相反,基于規(guī)則的系統(tǒng)是非機(jī)器學(xué)習(xí)系統(tǒng)的一個例子。在基于規(guī)則的系統(tǒng)中,由人類來清楚地定義分支條件的參數(shù),例如實現(xiàn)代碼中所存在的if語句等。

另一方面,機(jī)器學(xué)習(xí)自動根據(jù)訓(xùn)練數(shù)據(jù)確定代碼中的參數(shù),以使系統(tǒng)運(yùn)行良好。之所以稱為機(jī)器學(xué)習(xí),正是因為系統(tǒng)能根據(jù)訓(xùn)練數(shù)據(jù)計算和確定系統(tǒng)運(yùn)行所需的參數(shù)。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種。機(jī)器學(xué)習(xí)可分為三大類:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。我們稍后會討論這三個分類,這里只需要認(rèn)識到強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分即可。

接下來是深度學(xué)習(xí)。深度學(xué)習(xí)是實現(xiàn)機(jī)器學(xué)習(xí)的算法之一。機(jī)器學(xué)習(xí)的算法包括邏輯回歸、支持向量機(jī)(Support Vector Machine,SVM)、決策樹、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)等。深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中的一種。

最后是深度強(qiáng)化學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。

02 監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)

這里對三種機(jī)器學(xué)習(xí)(監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí))分別進(jìn)行介紹。

首先說明監(jiān)督學(xué)習(xí)。

例如,“對郵政編碼中的手寫數(shù)字進(jìn)行分類”是一種監(jiān)督學(xué)習(xí)。郵政編碼分類系統(tǒng)將每個數(shù)字的手寫圖像分類為0~9中的一個。諸如0到9的數(shù)據(jù)的分類目標(biāo)被稱為標(biāo)簽或類。這種系統(tǒng)被稱為監(jiān)督學(xué)習(xí),因為給事先提供的訓(xùn)練數(shù)據(jù)預(yù)先標(biāo)記出了正確的標(biāo)簽。換句話說,帶標(biāo)簽的訓(xùn)練數(shù)據(jù)成了系統(tǒng)的教師。

監(jiān)督學(xué)習(xí)包括學(xué)習(xí)階段和推理階段。我們將以圖為例來解釋手寫數(shù)字的分類(見圖1.1)。

詳談機(jī)器學(xué)習(xí)及其三大分類

▲圖1.1 使用監(jiān)督學(xué)習(xí)區(qū)分手寫數(shù)字的示例

在學(xué)習(xí)階段,準(zhǔn)備許多0到9的手寫數(shù)字圖像數(shù)據(jù),這些數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)有一個標(biāo)簽(0到9中的某個數(shù)值),根據(jù)標(biāo)簽可以找到關(guān)于手寫數(shù)字圖像的正確答案信息,例如“此手寫數(shù)字圖像為1”。在學(xué)習(xí)階段,當(dāng)將手寫數(shù)字圖像輸入系統(tǒng)時,調(diào)整(學(xué)習(xí))系統(tǒng)的參數(shù)以盡量將輸入圖像分類為正確的標(biāo)簽。

在應(yīng)用階段,將無標(biāo)簽的未知手寫數(shù)字圖像數(shù)據(jù)輸入系統(tǒng),圖像被分類為0到9中的某一個輸出標(biāo)簽并給出結(jié)果。如果已經(jīng)學(xué)習(xí)到正確的結(jié)果,當(dāng)輸入未知的手寫數(shù)字圖像時,系統(tǒng)將輸出正確的數(shù)值標(biāo)簽。除了手寫數(shù)字的分類之外,還可使用監(jiān)督學(xué)習(xí)來對圖像、聲音和文本數(shù)據(jù)進(jìn)行分類。

此外,除了上面例子中提到的分類任務(wù),監(jiān)督學(xué)習(xí)也用于回歸等任務(wù)。

接下來,介紹非監(jiān)督學(xué)習(xí)。用一個詞表達(dá)非監(jiān)督學(xué)習(xí)就是“分組”。它將大量數(shù)據(jù)中類似的數(shù)據(jù)分為一組(稱為聚類)。例如,“根據(jù)購買數(shù)據(jù)對客戶進(jìn)行分組的系統(tǒng)”是非監(jiān)督學(xué)習(xí)。根據(jù)購買歷史記錄的特征對客戶進(jìn)行分組,可以為每個組實施不同的銷售策略。

我們使用圖來說明購買數(shù)據(jù)分析的例子(見圖1.2)。假設(shè)存儲了每個客戶過去一年的購買數(shù)量和每次平均消費(fèi)金額的數(shù)據(jù),并對此數(shù)據(jù)進(jìn)行分析。根據(jù)這些數(shù)據(jù),客戶可以分為兩組。A組(左上角)是以較低頻次購買高價商品的組,B組(右下角)是多次重復(fù)但每次消費(fèi)金額較低的組。

詳談機(jī)器學(xué)習(xí)及其三大分類

▲圖1.2 使用非監(jiān)督學(xué)習(xí)根據(jù)購買數(shù)據(jù)對客戶分組的示例

使用非監(jiān)督學(xué)習(xí)進(jìn)行分組將有助于了解每個客戶所屬的組,并針對每個組實施最佳銷售策略(盡管部分業(yè)務(wù)還需要更詳細(xì)的分析)。除了本例中提到的分組(聚類)以外,非監(jiān)督學(xué)習(xí)也用于降維和推薦系統(tǒng)。

最后,我們討論強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是一種主要用于“時變系統(tǒng)控制規(guī)則構(gòu)建”和“對戰(zhàn)博弈策略構(gòu)建”的方法。例如,強(qiáng)化學(xué)習(xí)用于機(jī)器人的步行控制和圍棋對戰(zhàn)程序。

在我們熟悉的例子中,可能更容易想象一個孩子學(xué)會騎自行車的情形。當(dāng)一個孩子學(xué)習(xí)騎自行車時,并沒有人去教其諸如牛頓力學(xué)等力學(xué)法則以及如何騎車的詳細(xì)方法,也不必通過觀看視頻來學(xué)習(xí)騎自行車。事實上,自己嘗試騎自行車,在多次失敗的過程中找到一種騎自行車的方法。

強(qiáng)化學(xué)習(xí)正如學(xué)騎自行車的例子,它是一種學(xué)習(xí)方法,它在不知道控制對象的物理定律的情況下重復(fù)試錯,以學(xué)習(xí)到所希望的控制方法。

強(qiáng)化學(xué)習(xí)中沒有帶標(biāo)簽的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),但這并不意味著根本沒有監(jiān)督信息。系統(tǒng)根據(jù)強(qiáng)化學(xué)習(xí)程序運(yùn)行,在獲得所需結(jié)果時給出稱為獎勵的信號。例如,在機(jī)器人的步行控制中,可以走的距離就是獎勵。在圍棋的比賽程序中,贏或輸?shù)慕Y(jié)果就是獎勵。失敗時的獎勵是負(fù)值,也稱為懲罰。

如果想通過監(jiān)督學(xué)習(xí)來學(xué)習(xí)機(jī)器人的步行控制,就需要盡可能多的“如果腿的關(guān)節(jié)處于這個角度并且速度是某值,那么就像這樣轉(zhuǎn)動電動機(jī)A”這樣的模式,并預(yù)先給出其正確的做法。然而,當(dāng)機(jī)器人行走時,對于每個時刻變化的狀態(tài),很難預(yù)先給出控制該電動機(jī)的正確做法。

另一方面,在強(qiáng)化學(xué)習(xí)中,將行走距離作為獎勵提供給步行控制系統(tǒng),并且重復(fù)試驗多次。

這樣一來,強(qiáng)化學(xué)習(xí)系統(tǒng)會根據(jù)重復(fù)試驗和獲得的獎勵自行改變控制規(guī)則,以“如果之前的試驗中所做改變使我可以走得更遠(yuǎn),則這種改變是正確的”為基礎(chǔ)。因此,可以在不教導(dǎo)機(jī)器人如何行走的情況下讓機(jī)器人能漸漸行走更長的距離。

即使在像圍棋這樣的對戰(zhàn)游戲的策略構(gòu)建中,也無須在每個階段將強(qiáng)者視為教師數(shù)據(jù)來進(jìn)行教導(dǎo),僅通過將成功或失敗作為獎勵來重復(fù)試驗即可。這樣做,強(qiáng)化學(xué)習(xí)系統(tǒng)會一點一點地改變游戲方式并變得更強(qiáng)。

學(xué)到的圍棋或?qū)⑵逑到y(tǒng)比設(shè)計者本人更強(qiáng)大,這一點通過強(qiáng)化學(xué)習(xí)可以很容易實現(xiàn)。只聽這個解釋,強(qiáng)化學(xué)習(xí)就像魔術(shù),但在實踐中卻存在著種種困難。

強(qiáng)化學(xué)習(xí)主要適用于“時變系統(tǒng)控制規(guī)則構(gòu)建”和“對戰(zhàn)博弈策略構(gòu)建”,本書以前者“系統(tǒng)控制”為目標(biāo)任務(wù),通過編寫相關(guān)程序來學(xué)習(xí)強(qiáng)化學(xué)習(xí)。

關(guān)于作者:小川雄太郎,東京大學(xué)博士,曾在東京大學(xué)從事腦機(jī)能測量及計算論的神經(jīng)科學(xué)研究。現(xiàn)就職于株式會社電通國際信息服務(wù)技術(shù)開發(fā)部,從事機(jī)器學(xué)習(xí)相關(guān)技術(shù)的研究開發(fā)。

本文摘編自《邊做邊學(xué)深度強(qiáng)化學(xué)習(xí):PyTorch程序設(shè)計實踐》,經(jīng)出版方授權(quán)發(fā)布。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    計算機(jī)存儲器的分類及其區(qū)別

    計算機(jī)存儲器是計算機(jī)系統(tǒng)中不可或缺的重要部分,用于存放程序和數(shù)據(jù)。隨著科技的進(jìn)步,存儲器的種類越來越多,功能和性能也日益豐富。一般來說,計算機(jī)存儲器可以按照不同的分類標(biāo)準(zhǔn)進(jìn)行分類,以下是詳細(xì)的分類
    的頭像 發(fā)表于 09-05 10:40 ?661次閱讀

    pcb金屬基板分類及其優(yōu)點分析

    一站式PCBA智造廠家今天為大家講講PCB金屬基板分類及其優(yōu)點都有哪些?PCB金屬基板分類及其優(yōu)點。金屬基板是一種特殊類型的印制電路板(PCB),其基底材料主要是金屬而非傳統(tǒng)的玻璃纖維
    的頭像 發(fā)表于 07-18 09:18 ?357次閱讀

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨
    的頭像 發(fā)表于 07-09 15:54 ?520次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨特的方式推動著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器
    的頭像 發(fā)表于 07-01 11:40 ?931次閱讀

    機(jī)器視覺圖像采集卡及其使用接口概述

    分類?用于機(jī)器視覺的圖像采集卡、NIC和主機(jī)適配器外圍機(jī)器視覺計算卡通常分為類:主機(jī)適配器、NIC和圖像采集卡。簡單來說,主機(jī)適配器通過授予額外端口來擴(kuò)展主機(jī)P
    的頭像 發(fā)表于 06-27 18:15 ?464次閱讀
    <b class='flag-5'>機(jī)器</b>視覺圖像采集卡<b class='flag-5'>及其</b>使用接口概述

    電機(jī)的六大分類形式

    電機(jī),作為電能轉(zhuǎn)換與傳遞的核心裝置,廣泛應(yīng)用于各個領(lǐng)域,從家庭日常使用的家電到工業(yè)自動化的關(guān)鍵設(shè)備,都離不開電機(jī)的支持。電機(jī)的種類繁多,根據(jù)不同的分類標(biāo)準(zhǔn),可以將其劃分為多種類型。本文將詳細(xì)解析電機(jī)的六大分類形式,并探討其各自的特點、應(yīng)用場景以及未來的發(fā)展趨勢。
    的頭像 發(fā)表于 06-14 10:33 ?2575次閱讀

    交換機(jī)的分類及其特點

    交換機(jī)作為現(xiàn)代網(wǎng)絡(luò)通信中不可或缺的設(shè)備,其種類繁多,各具特色。本文將對交換機(jī)的分類及其特點進(jìn)行詳細(xì)的介紹,旨在為讀者提供全面且深入的了解。
    的頭像 發(fā)表于 05-28 15:50 ?1084次閱讀

    深入探討機(jī)器學(xué)習(xí)的可視化技術(shù)

    機(jī)器學(xué)習(xí)可視化(簡稱ML可視化)一般是指通過圖形或交互方式表示機(jī)器學(xué)習(xí)模型、數(shù)據(jù)及其關(guān)系的過程。目標(biāo)是使理解模型的復(fù)雜算法和數(shù)據(jù)模式更容易,
    發(fā)表于 04-25 11:17 ?339次閱讀
    深入探討<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的可視化技術(shù)

    深度學(xué)習(xí)與度量學(xué)習(xí)融合的綜述

    如今,機(jī)器學(xué)習(xí)的應(yīng)用廣泛,包括人臉識別、醫(yī)療診斷等,為復(fù)雜問題和大量數(shù)據(jù)提供解決方案。機(jī)器學(xué)習(xí)算法能基于數(shù)據(jù)產(chǎn)生成功的分類模型,但每個數(shù)據(jù)都
    發(fā)表于 04-24 09:49 ?343次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>與度量<b class='flag-5'>學(xué)習(xí)</b>融合的綜述

    機(jī)器視覺圖像采集卡及其接口概述

    本文主要是介紹機(jī)器視覺圖像采集卡及其使用的各種接口。首先,我們將概述外圍計算機(jī)卡,然后探索圖像采集卡中使用的不同類型的機(jī)器視覺接口。我們先來說一個常見的問題:什么是電腦外設(shè)卡,如何分類
    的頭像 發(fā)表于 04-15 20:42 ?388次閱讀
    <b class='flag-5'>機(jī)器</b>視覺圖像采集卡<b class='flag-5'>及其</b>接口概述

    機(jī)器學(xué)習(xí)分類任務(wù)深度解析

    一對其余其實更加好理解,每次將一個類別作為正類,其余類別作為負(fù)類。此時共有(N個分類器)。在測試的時候若僅有一個分類器預(yù)測為正類,則對應(yīng)的類別標(biāo)記為最終的分類結(jié)果。
    發(fā)表于 03-18 10:58 ?1363次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>多<b class='flag-5'>分類</b>任務(wù)深度解析

    什么是特征工程?機(jī)器學(xué)習(xí)的特征工程詳解解讀

    One-hot 編碼對于用機(jī)器學(xué)習(xí)模型能夠理解的簡單數(shù)字?jǐn)?shù)據(jù)替換分類數(shù)據(jù)很有用。
    發(fā)表于 12-28 17:14 ?271次閱讀
    什么是特征工程?<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的特征工程詳解解讀

    一文詳解機(jī)器學(xué)習(xí)中的梯度提升機(jī)

    AdaBoost(自適應(yīng)增強(qiáng))是機(jī)器學(xué)習(xí)歷史上第一個將各種弱分類器組合成單個強(qiáng)分類器的增強(qiáng)算法。它主要致力于解決二元分類
    發(fā)表于 12-19 14:24 ?1074次閱讀
    一文詳解<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>中的梯度提升機(jī)

    機(jī)器視覺LED光源分類及特點解析

    、細(xì)致地介紹LED光源的分類及其特點。 LED光源,全稱發(fā)光二極管( Light Emitting Diode),由于其高亮度、低能耗、長壽命等優(yōu)點,已經(jīng)成為機(jī)器視覺系統(tǒng)中最常用的光源之一。根據(jù)不同的應(yīng)用需求,LED光源可以分為
    的頭像 發(fā)表于 12-15 10:31 ?1199次閱讀

    力控機(jī)器人控制方法的框架及其性能分析

    人交互控制框架是用于實現(xiàn)機(jī)器人與外部環(huán)境或操作者之間的力互動的控制系統(tǒng)。 在力控機(jī)器人交互控制中,主要涉及直接力控制、阻抗控制和導(dǎo)納控制種主要方法。下面是這些控制方法的框架及其性能分
    的頭像 發(fā)表于 11-09 15:59 ?1068次閱讀
    力控<b class='flag-5'>機(jī)器</b>人控制方法的框架<b class='flag-5'>及其</b>性能分析