最新精品在线,国产精品午夜在线播放a

摘要：眾所周知，強(qiáng)化學(xué)習(xí)的工作原理就是最大化策略預(yù)期回報(bào)。當(dāng)智能體能輕而易舉地從環(huán)境中收集到密集回報(bào)時(shí)，算法很好用，效果也很好；但當(dāng)環(huán)境中的回報(bào)非常稀疏時(shí)，模型往往會(huì)訓(xùn)練失敗。再加上我們不可能為每個(gè)任務(wù)設(shè)計(jì)密集回報(bào)函數(shù)，在這些情況下，讓智能體以有針對(duì)性的方式探索環(huán)境是必要的。近日，OpenAI提出了一種回報(bào)設(shè)置方法RND，在雅達(dá)利游戲《蒙特祖瑪?shù)膹?fù)仇》里獲得了state-of-art的表現(xiàn).

為什么是《蒙特祖瑪?shù)膹?fù)仇》？

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域，它強(qiáng)調(diào)讓“智能體”學(xué)會(huì)如何基于環(huán)境而行動(dòng)，以取得最大化的預(yù)期回報(bào)。為了模擬現(xiàn)實(shí)，游戲是現(xiàn)在訓(xùn)練強(qiáng)化學(xué)習(xí)智能體的常用環(huán)境，因?yàn)樗粌H能提供可交互的環(huán)境、直接的獎(jiǎng)勵(lì)信號(hào)和游戲目標(biāo)，還能模擬包括物理、社交等在內(nèi)的現(xiàn)實(shí)場(chǎng)景。因此強(qiáng)化學(xué)習(xí)成果大多都以“XXX在XX游戲中達(dá)到了超人水平”結(jié)尾。

2013年，DeepMind提出DQN算法，被譽(yù)為強(qiáng)化學(xué)習(xí)的“開山鼻祖”。在那篇論文中，算法成功玩轉(zhuǎn)多款雅達(dá)利游戲，表現(xiàn)超出人類玩家平均水平。但其中有一個(gè)例外，就是《蒙特祖瑪?shù)膹?fù)仇》，這是唯一一款人類玩家平均得分4700，而DQN望塵莫及的游戲。

從那之后，《蒙特祖瑪?shù)膹?fù)仇》就成了強(qiáng)化學(xué)習(xí)算法的試金石，也被人視為探索進(jìn)步的代名詞。

上圖是近幾年來使用不同算法的智能體在《蒙特祖瑪?shù)膹?fù)仇》中的得分，粉色虛線為人類平均得分。可以看到，在2016年，通過結(jié)合DQN和基于計(jì)數(shù)的探索回報(bào)，學(xué)界在這個(gè)游戲上取得了重大突破：智能體成功探索了15個(gè)房間，最高得分高達(dá)6600，平均得分也達(dá)到了3700。從那時(shí)起，研究人員們提出了不少高分算法，但它們的性能提升主要依賴人為示范，或是參考其他演示機(jī)器人。

顯然，這并不完全是人類的學(xué)習(xí)方式。人類探索世界有時(shí)是無目的的，有時(shí)是模仿他人，但更多時(shí)候是出于好奇心。既然手動(dòng)為環(huán)境設(shè)置密集回報(bào)不現(xiàn)實(shí)，那么智能體能不能不依賴人，自發(fā)地去進(jìn)行不可預(yù)測(cè)的探索呢？

用好奇心驅(qū)動(dòng)學(xué)習(xí)

在開發(fā)RND之前，OpenAI的研究人員和加州大學(xué)伯克利分校的學(xué)者進(jìn)行了合作，他們測(cè)試了在沒有環(huán)境特定回報(bào)的情況下，智能體的學(xué)習(xí)情況。因?yàn)閺睦碚撋蟻碚f，好奇心提供了一種更簡(jiǎn)單的方法來教授智能體如何與各種環(huán)境進(jìn)行交互，它不需要人為的回報(bào)設(shè)計(jì)。

根據(jù)當(dāng)時(shí)的論文，他們?cè)诎ˋtari游戲在內(nèi)的54個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試環(huán)境中進(jìn)行了大規(guī)模實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果出人意料：在某些環(huán)境中，智能體實(shí)現(xiàn)了游戲目標(biāo)，即使游戲目標(biāo)并沒有通過外在回報(bào)傳達(dá)給它，而且內(nèi)在好奇心驅(qū)動(dòng)的智能體和手動(dòng)設(shè)置外在獎(jiǎng)勵(lì)的表現(xiàn)高度一致。

下面是當(dāng)時(shí)的一些實(shí)驗(yàn)案例：

Pong（乒乓球）：研究人員訓(xùn)練了一個(gè)能同時(shí)控制兩個(gè)球拍的智能體，經(jīng)過訓(xùn)練，它學(xué)會(huì)了讓球在球拍之間保持長(zhǎng)時(shí)間反彈。之后，這個(gè)智能體被放進(jìn)對(duì)抗游戲中和另一個(gè)AI比賽，它雖然沒有輸贏意識(shí)，只是想拉長(zhǎng)比賽時(shí)間，但表現(xiàn)非常好。

Bowling（保齡球）：比起有最大化外在獎(jiǎng)勵(lì)目標(biāo)的智能體，好奇心智能體在這個(gè)游戲中的表現(xiàn)更好，對(duì)此，一個(gè)推測(cè)是當(dāng)玩家擊倒最后一個(gè)球瓶時(shí)，游戲得分會(huì)閃爍一下，這干擾了智能體的預(yù)測(cè)。

Mario：在這個(gè)游戲里，研究人員設(shè)置的內(nèi)在回報(bào)是通關(guān)，每到一個(gè)新房間，智能體就會(huì)獲得獎(jiǎng)勵(lì)，因?yàn)樾路块g的詳細(xì)信息是無法預(yù)測(cè)的。在這種簡(jiǎn)單設(shè)置下，智能體連通11關(guān)，找到了秘密房間，甚至還擊殺了boss。

在常規(guī)強(qiáng)化學(xué)習(xí)設(shè)置中，對(duì)于每個(gè)離散的時(shí)間步，智能體會(huì)先向環(huán)境發(fā)送一個(gè)ac tion，然后由環(huán)境返回下一個(gè)observation、當(dāng)前action得到的回報(bào)和結(jié)束指示。為了讓智能體探索未知領(lǐng)域，OpenAI要求環(huán)境只返回observation，不再提供回報(bào)信息，這就使智能體只能從自己的經(jīng)驗(yàn)中學(xué)習(xí)怎么預(yù)測(cè)下一步的環(huán)境狀態(tài)，并用預(yù)測(cè)誤差作為內(nèi)在獎(jiǎng)勵(lì)。

這就是“好奇心”的實(shí)現(xiàn)方式。舉個(gè)簡(jiǎn)單的例子，同樣一個(gè)智能體，如果使用常規(guī)設(shè)置，它就只會(huì)關(guān)注游戲得分，只要分?jǐn)?shù)能上升，它就學(xué)著去做；而如果用的是好奇心，它就會(huì)積極地和新對(duì)象佳偶，并發(fā)現(xiàn)其中有益的東西。比起預(yù)測(cè)其他環(huán)境因素，這種對(duì)象間的互動(dòng)更難預(yù)測(cè)。

Noisy-TV問題

就像做作業(yè)的小學(xué)生容易被窗外飛過的花蝴蝶所吸引，好奇心也給智能體帶來了“注意力不夠集中”的問題——Noisy-TV。下面是一個(gè)例子：同一個(gè)智能體穿行在兩個(gè)不同的迷宮中，其中一個(gè)是正常的迷宮，另一個(gè)是有一面“電視墻”、上面正在播放視頻的迷宮：

正常迷宮

“電視墻”迷宮

在正常迷宮中，智能體一直在保持前進(jìn)，而在“電視墻”迷宮中，智能體一看到視頻就“走不動(dòng)路”了。對(duì)于像《蒙特祖瑪?shù)膹?fù)仇》這樣的大型復(fù)雜環(huán)境，這是好奇心智能體需要注意的一個(gè)重要問題。而對(duì)此，OpenAI提出了一種解決方法，就是讓智能體通過噪聲控制器控制環(huán)境，該控制器有一定概率讓智能體重復(fù)之前的最后一個(gè)動(dòng)作，防止從舊房間到新房間的過渡變得不可預(yù)測(cè)。

集大成者：RND

從本質(zhì)上看，Noisy-TV問題就是好奇心智能體對(duì)下一狀態(tài)的預(yù)測(cè)會(huì)固有的受當(dāng)前環(huán)境噪聲影響，之前提到了，好奇心智能體的內(nèi)在回報(bào)是預(yù)測(cè)誤差，誤差越小，回報(bào)越大。我們先來看看導(dǎo)致預(yù)測(cè)誤差過大的幾個(gè)因素：

因素1：當(dāng)預(yù)測(cè)模型無法把之前的經(jīng)驗(yàn)推廣到當(dāng)前時(shí)，預(yù)測(cè)誤差會(huì)很高——當(dāng)前學(xué)到的經(jīng)驗(yàn)是新的。

因素2：如果預(yù)測(cè)目標(biāo)是隨機(jī)的，預(yù)測(cè)誤差也會(huì)很高。

因素3：如果缺少預(yù)測(cè)所需的信息，或者目標(biāo)函數(shù)太復(fù)雜而預(yù)測(cè)種類太受限，預(yù)測(cè)誤差也會(huì)很高。

在這三個(gè)中，因素1對(duì)智能體是有用的，因?yàn)樗炕私?jīng)驗(yàn)的新穎性。而因素2和3是導(dǎo)致Noisy-TV問題的元兇，為了避免這兩種情況，OpenAI提出了一種新的exploration回報(bào)RND：給定下一環(huán)境狀態(tài)，它能預(yù)測(cè)這個(gè)固定的、隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)（預(yù)測(cè)模型）的輸出，如下圖所示。

這背后的思路是預(yù)測(cè)模型在類似訓(xùn)練過的狀態(tài)中誤差較低。對(duì)于從沒見過的環(huán)境狀態(tài)，智能體對(duì)神經(jīng)網(wǎng)絡(luò)的輸出預(yù)測(cè)會(huì)更不準(zhǔn)確（因素1），這促進(jìn)了探索。合成預(yù)測(cè)設(shè)計(jì)確保了預(yù)測(cè)目標(biāo)的確定性和類別的適配，能有效防止Noisy-TV問題。

連接exploration回報(bào)和外部回報(bào)的OpenAI之前提出的近端策略優(yōu)化（PPO）的變體，具體這里我們不再展開。下圖是智能體在玩《蒙特祖瑪?shù)膹?fù)仇》時(shí)獲得的內(nèi)在回報(bào)的可視化：

未來發(fā)展

最后，研究人員表示對(duì)于設(shè)計(jì)性能更好的算法來說，Noisy-TV問題的易感性等重要因素還是非常重要。他們發(fā)現(xiàn)簡(jiǎn)單算法中看似很小的細(xì)節(jié)，可能直接影響著智能體是不能走出第一個(gè)房間還是通過第一關(guān)。為了增加訓(xùn)練穩(wěn)定性，他們避免了特征的飽和，并將內(nèi)在獎(jiǎng)勵(lì)帶到了可預(yù)測(cè)的范圍。每次發(fā)現(xiàn)并修復(fù)錯(cuò)誤，RND的性能都會(huì)有顯著提高。

他們建議未來研究人員可以在這幾方面繼續(xù)探索：

分析不同探索方法的好處，并找到結(jié)合它們的新方法。

在沒有回報(bào)的情況下，在多種不同環(huán)境中訓(xùn)練好奇心智能體，使他們朝著目標(biāo)靠近。

測(cè)試好奇心智能體的“大局觀”意識(shí)和長(zhǎng)遠(yuǎn)視角。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8320

瀏覽量
132165
智能體

智能體

+關(guān)注

關(guān)注
1

文章
121

瀏覽量
10547
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
264

瀏覽量
11182

原文標(biāo)題：OpenAI新作：基于預(yù)測(cè)回報(bào)的強(qiáng)化學(xué)習(xí)

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

一種簡(jiǎn)單的逆變器輸出直流分量消除方法

逆變器輸出直流分量會(huì)對(duì)逆變器本身和交流負(fù)載產(chǎn)生不利影響,必須消除直流分量來保障逆變器的可靠運(yùn)行。提出了一種簡(jiǎn)單的消除輸出直流分量的方法,并在理論分析的基礎(chǔ)上,通過對(duì)1臺(tái)220V、1 kW的逆變器系統(tǒng)

發(fā)表于 12-27 11:20

一種基于FPGA的UART實(shí)現(xiàn)方法設(shè)計(jì)

摘要：UART作為RS232協(xié)議的控制接口得到了廣泛的應(yīng)用，將UART的功能集成在FPGA芯片中，可使整個(gè)系統(tǒng)更為靈活、緊湊，減小整個(gè)電路的體積，提高系統(tǒng)的可靠性和穩(wěn)定性。提出了一種基于FPGA

發(fā)表于 06-21 07:17

請(qǐng)問有沒有一種提高A／D轉(zhuǎn)換分辨率的方法？

本文提出了一種提高A／D轉(zhuǎn)換分辨率的方法，并給出了相應(yīng)的理論分析和應(yīng)用實(shí)例。

發(fā)表于 04-12 06:17

求一種基于FPGA的微處理器的IP的設(shè)計(jì)方法

本文根據(jù)FPGA的結(jié)構(gòu)特點(diǎn)，圍繞在FPGA上設(shè)計(jì)實(shí)現(xiàn)八位微處理器軟核設(shè)計(jì)方法進(jìn)行探討，研究了片上系統(tǒng)的設(shè)計(jì)方法和設(shè)計(jì)復(fù)用技術(shù)，并給出了指令集和其調(diào)試方法，

發(fā)表于 04-29 06:38

為什么要提出一種并行通信方法？并行通信方法有什么特點(diǎn)？

發(fā)表于 05-27 06:16

淺談一種高斯隨機(jī)噪聲生成方法

本文提出了一種面向硬件的均值、方差的高斯隨機(jī)噪聲生成方法。

發(fā)表于 06-03 07:05

求大佬分享一種基于JPEG2000的新型率控制方法

通過對(duì)JPEG2000的分析，本文提出了一種通過估計(jì)率失真信息來控制碼率的方法。

發(fā)表于 06-04 06:45

一種實(shí)用的混沌保密編碼方法

一種實(shí)用的混沌保密編碼方法基于實(shí)用符號(hào)動(dòng)力學(xué)的基礎(chǔ)理論，提出了一種實(shí)用的混沌保密編碼方法，該方法

發(fā)表于 11-18 10:55 ?10次下載

一種特殊陣列實(shí)現(xiàn)DOA估計(jì)的方法

一種特殊陣列實(shí)現(xiàn)DOA估計(jì)的方法:提出了一種基于特殊陣列形式實(shí)現(xiàn)doa估計(jì)的方法，在均勻線性陣列（ＵｎｉｆｏｒｍＬｉｎｅａｒＡｒｒａｙ，ＵＬ

發(fā)表于 03-18 16:18 ?19次下載

Boost電路的一種軟開關(guān)實(shí)現(xiàn)方法

Boost電路的一種軟開關(guān)實(shí)現(xiàn)方法摘要：提出了一種Boost電路軟開關(guān)實(shí)現(xiàn)方法，即同步整流加上電感電流反向。根據(jù)兩

發(fā)表于 07-11 10:12 ?7678次閱讀

一種全新的深亞微米IC設(shè)計(jì)方法

一種全新的深亞微米IC設(shè)計(jì)方法本文分析了傳統(tǒng)IC設(shè)計(jì)流程存在的一些缺陷，并且提出了一種基于Logical Effort理論的全新IC設(shè)計(jì)

發(fā)表于 12-27 13:28 ?679次閱讀

從電路的角度出發(fā)，提出了一種新的SOC跨時(shí)鐘域同步電路設(shè)計(jì)的方法

針對(duì)當(dāng)前SOC內(nèi)部時(shí)鐘越來越復(fù)雜、接口越來越多以及亞穩(wěn)態(tài)、漏信號(hào)等常見的各種問題，分析了以往的優(yōu)化方法的優(yōu)缺點(diǎn)，然后從電路的角度出發(fā)，提出了一種新的SOC跨時(shí)鐘域同步電路設(shè)計(jì)的方法。

發(fā)表于 02-09 14:30 ?6599次閱讀

斯坦福大學(xué)提出了一種可以大幅降低區(qū)塊鏈存儲(chǔ)數(shù)據(jù)大小的方法

斯坦福大學(xué)的應(yīng)用加密學(xué)小組（ACG）提出了一種可以大幅降低區(qū)塊鏈存儲(chǔ)數(shù)據(jù)大小（約為十倍）的方法——Bulletproofs。ACG團(tuán)隊(duì)認(rèn)為，如果使用集合來進(jìn)行交易驗(yàn)證，并且縮減區(qū)塊的大小，那么就能夠?qū)崿F(xiàn)

發(fā)表于 10-18 12:49 ?2801次閱讀

OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

本文提出的迭代放大，是一種在確定性假設(shè)下為后續(xù)任務(wù)生成訓(xùn)練假設(shè)的方法。實(shí)際上，雖然人類不能在全局上直接把握復(fù)雜的問題，但我們可以假設(shè)人類可以有效的評(píng)估復(fù)雜任務(wù)中的一小塊任務(wù)是否符合要求

發(fā)表于 10-26 10:52 ?3202次閱讀

英偉達(dá)提出了一種稱為安全力場(chǎng)的方法避免車輛碰撞

SFF主要由兩個(gè)交通主體當(dāng)前的狀態(tài)決定，它將描述其中一個(gè)主體在另一個(gè)主體出現(xiàn)時(shí)將如何行動(dòng)，如果主體服從約束將避免不安全的碰撞發(fā)生。它在基本的碰撞規(guī)避層上提出了一種可計(jì)算機(jī)制，可以有效地

發(fā)表于 10-01 16:40 ?2760次閱讀