0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強(qiáng)化學(xué)習(xí)究竟是什么?它與機(jī)器學(xué)習(xí)技術(shù)有什么聯(lián)系?

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-04-15 10:32 ? 次閱讀

強(qiáng)化學(xué)習(xí)在當(dāng)今世界可謂是日漸流行,讓我們來看一看關(guān)于強(qiáng)化學(xué)習(xí)你不得不知道的5件事。

強(qiáng)化學(xué)習(xí)是當(dāng)今社會最熱門的研究課題之一,而且其熱度正與日俱增。讓我們一起來學(xué)習(xí)下關(guān)于強(qiáng)化學(xué)習(xí)的5個有用知識點(diǎn)。

▌1.強(qiáng)化學(xué)習(xí)究竟是什么?它與機(jī)器學(xué)習(xí)技術(shù)有什么聯(lián)系?

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是機(jī)器學(xué)習(xí)的一個分支,它的原理是:在交互環(huán)境中,智能體利用自身的經(jīng)驗(yàn)和反饋,通過試驗(yàn)和錯誤經(jīng)驗(yàn)來進(jìn)行學(xué)習(xí)。

有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都會明確指出輸入和輸出之間的映射關(guān)系,但不同點(diǎn)在于,有監(jiān)督學(xué)習(xí)給智能體的反饋是執(zhí)行正確任務(wù)的行為集合,而強(qiáng)化學(xué)習(xí)反饋的則將獎勵和懲罰轉(zhuǎn)為積極和消極行為的信號進(jìn)行反饋。

對于無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)的目標(biāo)顯得更加難以實(shí)現(xiàn)。無監(jiān)督學(xué)習(xí)的目標(biāo)僅僅是找到數(shù)據(jù)之間的相似和不同,而強(qiáng)化學(xué)習(xí)的目標(biāo)卻是找到一個能最大化智能體總累計(jì)獎勵的模型。

強(qiáng)化學(xué)習(xí)模型中涉及的基本思想和元素見下圖:

▌2.如何確定一個基本的強(qiáng)化學(xué)習(xí)問題?

描述強(qiáng)化學(xué)習(xí)問題的幾個關(guān)鍵元素是:

環(huán)境:智能體所處的物理世界;

狀態(tài):智能體目前的狀態(tài);

獎勵:從環(huán)境中得到的反饋;

方案:將智能體狀態(tài)映射到行動的方法;

價(jià)值:智能體在特定狀態(tài)下執(zhí)行某項(xiàng)行動獲取未來的獎勵。

一些游戲可以幫助我們很好的理解強(qiáng)化學(xué)習(xí)問題。以PacMan游戲?yàn)槔涸谶@個游戲中,智能體(PacMan)的目標(biāo)就是在避免與鬼相遇的情況下,盡量在網(wǎng)格中吃到更多的豆子。網(wǎng)格世界就是智能體的交互環(huán)境,如果PacMan吃到了豆子就接受獎勵,如果被鬼殺死了(游戲結(jié)束)就接受懲罰。在該游戲中,“狀態(tài)”就是PacMan在網(wǎng)格中的各個位置,而總累計(jì)獎勵就是贏得比賽的勝利。

為了得到最優(yōu)的方案,智能體既需要探索新的狀態(tài),又要同時(shí)盡量取得最多的獎勵。這就是所謂的“探測與開采的權(quán)衡”問題。

馬爾可夫決策過程(MDP)是所有強(qiáng)化學(xué)習(xí)環(huán)境的數(shù)學(xué)框架,幾乎所有強(qiáng)化學(xué)習(xí)問題都可以使用MDP來搭建模型。一個MDP過程包含一個環(huán)境集合(S),每個狀態(tài)中包含一個可能的行動集合(A),還包含一個實(shí)值獎勵函數(shù)R(s)和一個轉(zhuǎn)移矩陣P(s',s | a)。不過,現(xiàn)實(shí)世界的環(huán)境中,環(huán)境動態(tài)的先驗(yàn)信息可能是未知的,在這種情況下,運(yùn)用“不理解環(huán)境強(qiáng)化學(xué)習(xí)”算法(model-free RL)去進(jìn)行預(yù)測會更加方便、好用。

Q-learning模型就是一種應(yīng)用廣泛的不理解環(huán)境強(qiáng)化學(xué)習(xí)模型,因此可以用它來模擬PacMan智能體。Q-learning模型的規(guī)則是,在狀態(tài)S下執(zhí)行行動a,不停更新Q值,而迭代更新變量值算法就是該算法的核心。

Figure 2: Reinforcement Learning Update Rule

這是利用一個深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)PacMan游戲的視頻

https://www.youtube.com/watch?v=QilHGSYbjDQ

▌3.最常用的深度學(xué)習(xí)算法原理是什么?

Q-learning和SARSA是兩種最常見的不理解環(huán)境強(qiáng)化學(xué)習(xí)算法,這兩者的探索原理不同,但是開發(fā)原理是相似的。Q-learning是一種離線學(xué)習(xí)算法,智能體需要從另一項(xiàng)方案中學(xué)習(xí)到行為a*的價(jià)值;SARSA則是一種在線學(xué)習(xí)算法,智能體可從現(xiàn)有方案指定的當(dāng)前行為來學(xué)習(xí)價(jià)值。這兩種方法都很容易實(shí)現(xiàn),但缺乏一般性,因?yàn)樗鼈儫o法預(yù)估未知狀態(tài)的值。

一些更加高級的算法可以克服這個問題,如:Deep Q-Networks(其原理為利用神經(jīng)網(wǎng)絡(luò)來估計(jì)Q值)算法,但DQN算法只能應(yīng)用在離散的低維動作空間中;DDPG(深度確定性策略梯度算法)則是一個理解環(huán)境的、在線的算法,它基于行動者-評論家(Actor-Critic,AC)框架,可用于解決連續(xù)動作空間上的深度強(qiáng)化學(xué)習(xí)問題。

▌4.強(qiáng)化學(xué)習(xí)有哪些實(shí)際應(yīng)用?

由于強(qiáng)化學(xué)習(xí)需要大量的數(shù)據(jù),因此它最適用于模擬數(shù)據(jù)領(lǐng)域,如游戲、機(jī)器人等。

強(qiáng)化學(xué)習(xí)廣泛應(yīng)用于設(shè)計(jì)游戲中的AI玩家。AlphaGo Zero在傳統(tǒng)中國游戲圍棋中打敗了世界冠軍,這是AI第一次擊敗現(xiàn)實(shí)中的世界冠軍。AI還在ATARI游戲、西洋雙陸棋等游戲中有出色的表現(xiàn)。

機(jī)器人和工業(yè)自動化領(lǐng)域中,深度學(xué)習(xí)也被廣泛應(yīng)用,機(jī)器人能夠?yàn)樽约捍罱ㄒ粋€高效的自適應(yīng)控制系統(tǒng),從而學(xué)習(xí)自己的經(jīng)驗(yàn)和行為。DeepMind關(guān)于“帶有異步策略更新的機(jī)器人操縱的深度強(qiáng)化學(xué)習(xí)”就是一個很好的例子。

觀看這個有趣的演示視頻video(https://www.youtube.com/watch?v=ZhsEKTo7V04&t=48s)

強(qiáng)化學(xué)習(xí)的其他應(yīng)用包括:文本摘要引擎、從用戶交互中學(xué)習(xí)并隨時(shí)間改進(jìn)的(文本、語音)對話代理、醫(yī)療保健領(lǐng)域的最優(yōu)治療政策、基于強(qiáng)化學(xué)習(xí)的在線股票交易代理。

▌5.我該如何開始強(qiáng)化學(xué)習(xí)?

讀者可以從以下鏈接中了解更多關(guān)于強(qiáng)化學(xué)習(xí)的基本概念:

《Reinforcement Learning-An Introduction》——本書由強(qiáng)化學(xué)習(xí)之父Richard Sutton和他的博士生導(dǎo)師Andrew Barto共同撰寫。該書的電子版以在http://incompleteideas.net/book/the-book-2nd.html找到。

由David Silver提供的Teaching material視頻課程可供讀者很好的了解強(qiáng)化學(xué)習(xí)的基礎(chǔ)課程:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

Pieter Abbeel和John Schulman的視頻technical tutoria也是不錯的學(xué)習(xí)資料:http://people.eecs.berkeley.edu/~pabbeel/nips-tutorial-policy-optimization-Schulman-Abbeel.pdf

開始構(gòu)建和測試RL代理

若想要開始學(xué)習(xí)搭建和測試強(qiáng)化學(xué)習(xí)的智能體,Andrej Karpathy的博客This blog中詳細(xì)講述了如何用原始像素的策略梯度來訓(xùn)練神經(jīng)網(wǎng)絡(luò)ATARI Pong智能體,并提供了130行Python代碼來幫助你建立你的第一個強(qiáng)化學(xué)習(xí)智能體:http://karpathy.github.io/2016/05/31/rl/

DeepMind Lab是一個開源的3D游戲式平臺,它為機(jī)遇智能體可以的人工智能研究提供豐富的模擬環(huán)境。

Project Malmo是另一個提供基礎(chǔ)AI研究的在線平臺:https://www.microsoft.com/en-us/research/project/project-malmo/

OpenAI gym則是一個用于構(gòu)建和比較強(qiáng)化學(xué)習(xí)算法的工具包:https://gym.openai.com/

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:關(guān)于強(qiáng)化學(xué)習(xí)你不得不知道的5件事

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    圖解:IGBT究竟是什么?

    圖解:IGBT究竟是什么? IGBT究竟是什么?
    發(fā)表于 08-10 08:01

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    電感飽和究竟是什么

    電感飽和究竟是什么
    發(fā)表于 03-11 08:13

    分貝究竟是什么?如何去理解它?

    分貝究竟是什么?如何去理解它?
    發(fā)表于 05-31 07:05

    那uMCP究竟是什么?它與eMCP什么聯(lián)系?

    那uMCP究竟是什么?它與eMCP什么聯(lián)系?為何eMCP在中低端市場仍占據(jù)優(yōu)勢?那么uMCP5會迅速取代eMCP嗎?
    發(fā)表于 06-18 07:35

    retain,copy與assign究竟是什么區(qū)別呢

    retain,copy與assign究竟是什么區(qū)別呢?
    發(fā)表于 09-30 09:25

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向

    薩頓在專訪中(再次)科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力,以及接下來的發(fā)展方向:預(yù)測學(xué)習(xí)
    的頭像 發(fā)表于 12-27 09:07 ?1.1w次閱讀

    強(qiáng)化學(xué)習(xí)新方法,機(jī)器究竟是怎么學(xué)習(xí)新動作的呢?

    強(qiáng)化學(xué)習(xí)方法教機(jī)器人(模擬器里的智能體),能學(xué)會的動作花樣繁多,細(xì)致到拿東西、豪放到奔跑都能搞定,還可以給機(jī)器人設(shè)置一個明確的目的。但是,總難免上演一些羞恥或驚喜play。
    的頭像 發(fā)表于 04-13 11:00 ?9712次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號(強(qiáng)化信號)函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1380次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強(qiáng)化學(xué)習(xí)的框架中,智能體通過與環(huán)境互動,來學(xué)習(xí)采取何種動作能使其在給定環(huán)境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來學(xué)習(xí)
    的頭像 發(fā)表于 07-15 10:56 ?1.7w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>有</b>什么的致命缺陷?

    一文詳談機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個子集,它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。
    發(fā)表于 11-06 15:33 ?1697次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種
    發(fā)表于 04-08 11:41 ?11次下載
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

    什么是強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)的方式之一,它與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列,是三種
    的頭像 發(fā)表于 10-30 11:36 ?3720次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>