0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI 把在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案遷移到機(jī)械手上

mK5P_AItists ? 來(lái)源:未知 ? 作者:工程師郭婷 ? 2018-08-03 14:27 ? 次閱讀

這些具有一定難度的任務(wù) OpenAI 自己也在研究,他們認(rèn)為這是深度強(qiáng)化學(xué)習(xí)發(fā)展到新時(shí)代之后可以作為新標(biāo)桿的算法測(cè)試任務(wù),而且也歡迎其它機(jī)構(gòu)與學(xué)校的研究人員一同研究這些任務(wù),把深度強(qiáng)化學(xué)習(xí)的表現(xiàn)推上新的臺(tái)階。

OpenAI 已經(jīng)就機(jī)械手任務(wù)之二的轉(zhuǎn)方塊出了自己答案,展示了一個(gè)異常靈活的轉(zhuǎn)方塊的機(jī)械手。而且更精彩的是,這個(gè)完全在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案還可以不需任何微調(diào)就直接遷移到真實(shí)的機(jī)械手上。

OpenAI 把這套系統(tǒng)稱作 Dactyl。OpenAI 過(guò)去一年中研究強(qiáng)化學(xué)習(xí)系統(tǒng)的偏好思路再次得到了體現(xiàn):在完全模擬的環(huán)境中訓(xùn)練,然后把訓(xùn)練結(jié)果遷移到現(xiàn)實(shí)世界的機(jī)械結(jié)構(gòu)中。

得益于可以大規(guī)模高速并行訓(xùn)練的模擬環(huán)境以及 OpenAI 在過(guò)去的研究中積累的系統(tǒng)設(shè)計(jì)與變量選擇經(jīng)驗(yàn),這樣的做法已經(jīng)可以得到很好的效果。強(qiáng)化學(xué)習(xí)算法方面,OpenAI 再次選擇了之前在 DOTA2 5v5 AI 中使用的 PPO(近端策略優(yōu)化),這當(dāng)然也再次展示了 PPO 作為通用強(qiáng)化學(xué)習(xí)算法的優(yōu)越性。當(dāng)然,系統(tǒng)最大的亮點(diǎn)還是可以完全在虛擬環(huán)境中訓(xùn)練,不需要對(duì)真實(shí)世界有準(zhǔn)確的物理模型也可以直接遷移到真實(shí)機(jī)械手、真實(shí)物體的控制上。

任務(wù)介紹

任務(wù)中使用的機(jī)械手模型是參照 Shadow Dexterous Hand 設(shè)計(jì)的。這是一個(gè)完全仿照人手設(shè)計(jì)的具有 20 個(gè)驅(qū)動(dòng)自由度、4 個(gè)半驅(qū)動(dòng)自由度、共 24 個(gè)關(guān)節(jié)的機(jī)械手,它的大小也和人手大小相同。任務(wù)的要求是在機(jī)械手的掌心放置一個(gè)方塊或者六棱柱,然后要求機(jī)械手把它翻轉(zhuǎn)到一個(gè)指定的角度,比如把某個(gè)側(cè)面翻到上方。系統(tǒng)只能觀察到五指指尖的空間坐標(biāo)以及三個(gè)固定角度的彩色攝像機(jī)采集到的畫面。

雖然這種機(jī)械手面世已經(jīng)有幾十年了,但是如何讓它像人類一樣高效地控制物體一直都是機(jī)器人控制領(lǐng)域的老大難問題。與空間定位移動(dòng)之類的問題不同,非常多自由度的機(jī)械手控制用傳統(tǒng)控制方法不僅運(yùn)行緩慢,而且必須對(duì)自由度做出一些限制,這也就隨之限制了它們控制真實(shí)世界物體的能力。

想通過(guò)深度強(qiáng)化學(xué)習(xí)的方法讓機(jī)械手翻轉(zhuǎn)一個(gè)物體,需要考慮這幾個(gè)問題:

能在真實(shí)世界中工作。強(qiáng)化學(xué)習(xí)雖然已經(jīng)在很多模擬器環(huán)境以及游戲中展現(xiàn)出了優(yōu)秀的表現(xiàn),但是強(qiáng)化學(xué)習(xí)解決真實(shí)世界任務(wù)的研究仍然非常有限。OpenAI 的最終目標(biāo)就是要讓 Dactyl 在真實(shí)的機(jī)器人上完成任務(wù)。

高自由度控制。一般的機(jī)械臂(比如末端為夾子工業(yè)機(jī)械臂)只有 7 個(gè)自由度,而機(jī)械手有多達(dá) 24 個(gè)自由度,僅僅是不讓 5 個(gè)指頭打架都有相當(dāng)?shù)碾y度。

有噪聲的部分信息觀察。Dactyl 在真實(shí)世界中工作的時(shí)候不可避免地會(huì)遇到傳感器讀數(shù)的噪聲和延遲問題。當(dāng)某一個(gè)手指的傳感器受到其它手指或者物體的影響而無(wú)法返回讀數(shù)的時(shí)候,Dactyl 只能在部分信息的狀況下工作。而且,真實(shí)物理系統(tǒng)許多細(xì)節(jié)(比如摩擦和滑動(dòng))是無(wú)法直接觀察到的,系統(tǒng)必須自己做出推斷。

能操作多個(gè)物體。Dactyl 的設(shè)計(jì)目標(biāo)是要足夠靈活,能夠翻轉(zhuǎn)、定向多種不同種類的物體。這就意味著不能選用只對(duì)某一些特定的幾何形狀有效的策略。

OpenAI 的解決方法

總的來(lái)說(shuō),OpenAI 完全在模擬器環(huán)境中、不借助任何人類輸入進(jìn)行,讓 Dactyl 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練物體定向任務(wù)。在訓(xùn)練結(jié)束后,學(xué)到的策略不需要任何微調(diào)環(huán)節(jié)就可以直接在真實(shí)機(jī)器人上工作。

不過(guò)其實(shí),學(xué)習(xí)機(jī)器人控制方法面臨著兩難的困境。模擬環(huán)境中的機(jī)器人固然可以輕松地獲得大量數(shù)據(jù)、訓(xùn)練出足夠復(fù)雜的策略,但是大多數(shù)控制問題本身的建模都不夠精確,導(dǎo)致學(xué)習(xí)到的策略難以遷移到真實(shí)世界的機(jī)器人上。即便只是對(duì)「兩個(gè)物體接觸」這樣的簡(jiǎn)單現(xiàn)象建模,都還是一個(gè)開放性的科研問題,沒有什么廣為接受的、足夠好的模型。直接在真實(shí)的機(jī)器人上進(jìn)行訓(xùn)練自然可以根據(jù)真實(shí)世界的物理規(guī)律學(xué)習(xí)到好的策略,不過(guò)真實(shí)世界中的訓(xùn)練就只能按照真實(shí)世界的速度運(yùn)行,目前的強(qiáng)化學(xué)習(xí)算法受限于樣本效率問題,需要相當(dāng)于好幾年的嘗試經(jīng)驗(yàn)才能夠解決物體轉(zhuǎn)向這樣的已經(jīng)相對(duì)簡(jiǎn)單的問題。(財(cái)大氣粗的谷歌還真的就這樣做了,具體請(qǐng)見今天推文的第二篇??梢哉f(shuō),谷歌利用自己的財(cái)力優(yōu)勢(shì)替整個(gè)領(lǐng)域嘗試了很多僅僅理論上可行的研究方法)

OpenAI 的訓(xùn)練技巧具體來(lái)說(shuō)是「任務(wù)隨機(jī)化」(domain randomization),它并不追求建模的最佳擬真化,而是在充滿了豐富的變化的環(huán)境中學(xué)習(xí)到各種知識(shí)和經(jīng)驗(yàn)。這樣的做法兼?zhèn)淞四M器和真實(shí)環(huán)境學(xué)習(xí)兩種做法的優(yōu)點(diǎn):在模擬器環(huán)境中學(xué)習(xí),可以讓模擬器運(yùn)行速度高于真實(shí)世界速度,快速積累經(jīng)驗(yàn);同時(shí)用「多變」替代了「逼真」之后,它也可以在模擬器只能近似建模的任務(wù)中得到更好的表現(xiàn)。

包括 OpenAI 在內(nèi)的許多研究者都已經(jīng)通過(guò)實(shí)驗(yàn)展示出了任務(wù)隨機(jī)化對(duì)于越來(lái)越復(fù)雜的任務(wù)的明顯的提升作用,近期的最有力的例子就是 OpenAI 訓(xùn)練出的 DOTA2 5v5 AI。在這個(gè)機(jī)械手控制的任務(wù)中,OpenAI 也是在探索大規(guī)模運(yùn)行的任務(wù)隨機(jī)化能否帶來(lái)超出現(xiàn)有機(jī)器人控制方法的表現(xiàn)。

MuJoCo 物理模擬器相比真實(shí)的物理系統(tǒng)有這些不足:

在真實(shí)機(jī)器人和方塊上測(cè)量摩擦、阻尼、翻轉(zhuǎn)阻力等物理屬性很麻煩、很困難。而且隨著機(jī)械手磨損、這些值也會(huì)逐漸發(fā)生變化;模擬器中只有帶有固定參數(shù)的近似模型;

MuJoCo 是一個(gè)剛體運(yùn)動(dòng)的模擬器,這意味著它無(wú)法模擬機(jī)械手指尖的橡膠發(fā)生的接觸形變,也無(wú)法模擬手指上肌腱的拉伸;

在這個(gè)任務(wù)中機(jī)械手只能夠靠多次接觸方塊來(lái)改變方塊的方向,但接觸力又眾所周知地難以準(zhǔn)確在模擬器中復(fù)現(xiàn)。

如果仔細(xì)地調(diào)節(jié)模擬器中的參數(shù),模擬的機(jī)械手的行為確實(shí)可以和真實(shí)機(jī)械手的行為做到比較好的匹配,但是上面的這些作用以目前的模擬器就很難準(zhǔn)確建模了,調(diào)節(jié)參數(shù)也無(wú)濟(jì)于事。

所以 OpenAI 轉(zhuǎn)而使用的方法是使用大規(guī)模分布式的模擬訓(xùn)練環(huán)境,而且這些環(huán)境中的物理屬性和視覺特征都是隨機(jī)選擇的。隨機(jī)地選擇這些值是一種很自然的表征各種真實(shí)物理系統(tǒng)的不確定性的做法,當(dāng)然這樣也可以防止系統(tǒng)過(guò)擬合到一組特定的環(huán)境設(shè)置中。根據(jù) OpenAI 研究人員們的想法,如果一種策略在所有這些不同的模擬環(huán)境中都可以完成任務(wù),那么它也就很有可能可以直接在真實(shí)環(huán)境中完成任務(wù)。

在開發(fā)和測(cè)試階段,OpenAI 通過(guò)內(nèi)置的運(yùn)動(dòng)控制傳感器對(duì)學(xué)習(xí)到的機(jī)械手控制策略進(jìn)行驗(yàn)證,這也是為了能夠隔絕 Dactyl 自身的控制網(wǎng)絡(luò)與視覺網(wǎng)絡(luò),可以對(duì)系統(tǒng)表現(xiàn)做出「客觀」的評(píng)價(jià)。

系統(tǒng)設(shè)計(jì)示意圖 - 模擬環(huán)境中訓(xùn)練

A. 分布式工作站從大量隨機(jī)環(huán)境中收集經(jīng)驗(yàn)

B. 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練控制策略。這個(gè)策略根據(jù)物體的位姿和五個(gè)手指指尖的位置選擇接下來(lái)的行動(dòng)

C. 訓(xùn)練一個(gè) CNN 根據(jù)三路模擬環(huán)境中的攝像頭畫面估計(jì)物體的位姿

系統(tǒng)設(shè)計(jì)示意圖 - 遷移到真實(shí)世界

D. 位姿估計(jì)網(wǎng)絡(luò)和控制策略網(wǎng)絡(luò)共同工作,把任務(wù)從虛擬環(huán)境遷移到真實(shí)環(huán)境

學(xué)習(xí)控制

通過(guò)構(gòu)建可以支持遷移的模擬環(huán)境,OpenAI 把真實(shí)世界的機(jī)器人控制問題簡(jiǎn)化為了模擬環(huán)境中完成任務(wù)的問題,現(xiàn)在它就很適合用強(qiáng)化學(xué)習(xí)解決。當(dāng)然了,即便是在模擬器中,控制如此多自由度的機(jī)械手完成任務(wù)仍然是一個(gè)有挑戰(zhàn)性的目標(biāo),何況不同的模擬環(huán)境中還有不同的隨機(jī)物理屬性,這意味著物體的運(yùn)動(dòng)方式都會(huì)與真實(shí)世界有所不同。

為了能夠在不同的環(huán)境之間泛化,策略最好能夠在不同物理參數(shù)的環(huán)境中做出不同的行為。考慮到大多數(shù)的動(dòng)態(tài)物理參數(shù)都無(wú)法從單次觀察中得出推斷結(jié)果,OpenAI 選用了帶有一定記憶能力的 LSTM 網(wǎng)絡(luò)架構(gòu),實(shí)際上在模擬環(huán)境中基于 LSTM 得到的策略做出的旋轉(zhuǎn)動(dòng)作也要比其它不具有記憶能力的策略多一倍。

Dactyl 使用的大規(guī)模分布式 PPO 實(shí)現(xiàn)「Rapid」是和 DOTA2 5v5 AI 一樣的。在這個(gè)任務(wù)中,模型架構(gòu)、環(huán)境、超參數(shù)有所區(qū)別,但算法和訓(xùn)練代碼是一致的。Rapid 訓(xùn)練策略使用了 6144 個(gè) CPU 和 8 個(gè) GPU,訓(xùn)練 50 小時(shí)就可以采集到相當(dāng)于真實(shí)世界中 100 年長(zhǎng)度的經(jīng)驗(yàn)。

學(xué)習(xí)觀察

OpenAI 的設(shè)計(jì)目標(biāo)是讓 Dactyl 能夠控制任意的物體,不局限于那些經(jīng)過(guò)專門的改動(dòng)以后更好追蹤的物體。所以 Dactyl 也就選用了一組正常的彩色攝像頭對(duì)物體的位置和姿態(tài)進(jìn)行估計(jì)。

OpenAI 訓(xùn)練了一個(gè) CNN 用來(lái)估計(jì)位姿。這個(gè)網(wǎng)絡(luò)把布置在機(jī)械手周圍的三個(gè)攝像頭采集的視頻流作為輸入,然后輸出估計(jì)的物體位置和物體姿態(tài)。多個(gè)攝像頭的使用是為了避免判斷不清以及信號(hào)延遲。訓(xùn)練這個(gè)網(wǎng)絡(luò)時(shí) OpenAI 也使用了任務(wù)隨機(jī)化的做法,環(huán)境隨之暫時(shí)切換為了 Unity 游戲開發(fā)平臺(tái),它對(duì)各種視覺效果的支持豐富程度要比 MuJoCo 高得多。

「控制」與「觀察」兩個(gè)獨(dú)立的網(wǎng)絡(luò)互相配合,控制網(wǎng)絡(luò)可以根據(jù)給定的物體位姿重新調(diào)整它的位姿,視覺網(wǎng)絡(luò)根據(jù)攝像頭采集的畫面確認(rèn)物體當(dāng)前的實(shí)際位姿。Dactyl 就這樣通過(guò)觀察控制了手里的物體。

學(xué)習(xí)位姿估計(jì)的圖像的一些示例

實(shí)驗(yàn)結(jié)果

逐漸產(chǎn)生的行為

在部署系統(tǒng)的時(shí)候,OpenAI 的研究人員們注意到 Dactyl 會(huì)使用一系列豐富的靈活手掌內(nèi)操縱技巧來(lái)解決在這個(gè)任務(wù);人類其實(shí)也經(jīng)常會(huì)使用這些技巧。而及這些技巧并不需要人類顯式地教會(huì)算法,它們?nèi)际撬惴ㄗ约喊l(fā)掘、自己學(xué)到的。

兩指夾住旋轉(zhuǎn)、滑動(dòng)、手指同步旋轉(zhuǎn),三種 Dactyl 完全自動(dòng)學(xué)到的與人類類似的運(yùn)動(dòng)模式

Dactyl 學(xué)到的六種不同的握持姿勢(shì)。根據(jù)握持分類學(xué),從左上到右下依次為:指尖捏、掌心捏、三指握持、四指握持、強(qiáng)力握持以及 5 指精確握持。

OpenAI 通過(guò)觀察發(fā)現(xiàn),對(duì)于幾種高精確度的握持方法,比如兩指指尖捏,Dactyl 傾向于使用大拇指和小拇指;人類比較習(xí)慣的自然是用大拇指+食指或者大拇指+中指。不過(guò)值得指出的是,機(jī)械手的小拇指比人類的多出一個(gè)自由度,更為靈活,這可以作為 Dactyl 學(xué)會(huì)了這樣行為的一個(gè)解釋。這也可以理解為,Dactyl 一面可以自己發(fā)現(xiàn)人類常用的手部姿態(tài),同時(shí)也可以重新適應(yīng)這些姿態(tài),讓它們更符合自己的肢體的限制和能力。

( AI 科技評(píng)論注:多提供一個(gè)思考角度,從生物進(jìn)化的角度來(lái)說(shuō),手指握持的方式是和手指的結(jié)構(gòu)相互適應(yīng)的。使用一個(gè)「類人」的機(jī)械手,學(xué)習(xí)到「類人」的握持姿勢(shì)并不奇怪。另一方面,握持姿勢(shì)的選擇除了自由度,也與生物結(jié)構(gòu)有關(guān),食指比小拇指更有力、也更靈活,這與人類更常用食指也是相輔相成)

系統(tǒng)表現(xiàn)的遷移

OpenAI 在真實(shí)環(huán)境的機(jī)械手與攝像頭配置上測(cè)試了 Dactyl 在物體脫手、或者時(shí)間用完之前能翻轉(zhuǎn)的次數(shù),最高計(jì)數(shù) 50 次。在模擬器環(huán)境中訓(xùn)練出的策略可以直接成功地操控真實(shí)世界中的物體。

對(duì)于控制方塊的任務(wù),使用了「任務(wù)隨機(jī)化」訓(xùn)練得到的策略能成功完成翻轉(zhuǎn)的次數(shù)要多得多,如下表。并且,通過(guò)攝像頭信號(hào)估計(jì)位姿進(jìn)行控制得到的結(jié)果和使用運(yùn)動(dòng)追蹤傳感器得到的結(jié)果差不多,這也體現(xiàn)出了視覺估計(jì)網(wǎng)絡(luò)的高準(zhǔn)確率。

OpenAI 把在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案遷移到機(jī)械手上

學(xué)習(xí)過(guò)程

訓(xùn)練過(guò)程中的大多數(shù)時(shí)間都花在了提升策略在不同物理屬性環(huán)境中的魯棒性上。在不使用隨機(jī)化時(shí),在虛擬環(huán)境中學(xué)會(huì)翻轉(zhuǎn)物體需要的經(jīng)驗(yàn)大概相當(dāng)于 3 年那么長(zhǎng),而在全面使用了隨機(jī)化的設(shè)置下達(dá)到類似的表現(xiàn)需要大概相當(dāng)于 100 年的經(jīng)驗(yàn)。(不過(guò)我們也別忘了,不使用隨機(jī)化時(shí)訓(xùn)練出的策略是無(wú)法直接遷移到真實(shí)世界的機(jī)器人的,因?yàn)閷W(xué)到的策略只針對(duì)模擬器中那一組特定的物理參數(shù)有效)

實(shí)驗(yàn)中的有趣發(fā)現(xiàn)

對(duì)于真實(shí)世界物體的控制來(lái)說(shuō),觸覺感知并不是必須的。Dactyl 接收到的信號(hào)只包括 5 個(gè)手指指尖的位置以及方塊的位置和方向。機(jī)械手上確實(shí)帶有觸覺傳感器,但是 OpenAI 并沒有使用它們就可以達(dá)到目標(biāo)。總地來(lái)說(shuō),相比于有一大批傳感器、一大批難以建模的數(shù)值,OpenAI 認(rèn)為一組數(shù)目有限但可以在模擬環(huán)境中高效建模的傳感器可以幫助帶來(lái)更好的表現(xiàn)。

為某一個(gè)物體做的隨機(jī)化設(shè)定可以泛化到其它屬性類似的物體上。在控制方塊的系統(tǒng)開發(fā)完成之后,OpenAI 制作了一個(gè)六棱柱,根據(jù)它的外型訓(xùn)練了一個(gè)新的策略,然后嘗試讓機(jī)械手控制它。有點(diǎn)出乎他們意料的是,只依靠一開始為控制方塊設(shè)計(jì)的隨機(jī)化設(shè)置,機(jī)械手就能很好地控制六棱柱了。相比之下,重新訓(xùn)練一個(gè)控制圓球的策略就不能連續(xù)成功很多次,可能是因?yàn)椴]有針對(duì)轉(zhuǎn)動(dòng)行為設(shè)計(jì)適合的隨機(jī)化模擬參數(shù)。

對(duì)于真實(shí)機(jī)器人來(lái)說(shuō),好的系統(tǒng)工程和好的算法一樣重要。在研究過(guò)程中,OpenAI 團(tuán)隊(duì)發(fā)現(xiàn)幾個(gè)工程師都嘗試一樣的策略的時(shí)候,其中一位得到的表現(xiàn)總是要比其他幾位的好得多。后來(lái)他們發(fā)現(xiàn)是因?yàn)檫@位工程師的筆記本電腦比較快,一個(gè)會(huì)影響表現(xiàn)的計(jì)時(shí)器 bug 從而就不會(huì)出現(xiàn)。這個(gè) bug 解決之后,整個(gè)團(tuán)隊(duì)運(yùn)行策略的表現(xiàn)都得到了提高。

沒有達(dá)到預(yù)期效果的項(xiàng)目

除了上面的驚喜之外,OpenAI 也驚訝地發(fā)現(xiàn)一些強(qiáng)化學(xué)習(xí)連續(xù)控制中的常用技巧并沒能幫助他們提高系統(tǒng)的表現(xiàn)。

減短反應(yīng)時(shí)間并沒有提高系統(tǒng)表現(xiàn)。大家普遍認(rèn)為減短做出動(dòng)作的時(shí)間間隔能夠提高系統(tǒng)表現(xiàn),因?yàn)檫@樣一來(lái)前后狀態(tài)之間的變化會(huì)比較小,也就更容易預(yù)測(cè)。目前 OpenAI 設(shè)定的動(dòng)作時(shí)間間隔是 80ms,要比人類一般的反應(yīng)時(shí)間 150~250ms 短一些,但是仍然比神經(jīng)網(wǎng)絡(luò)計(jì)算所需的大概 25ms 左右的時(shí)間長(zhǎng)得多。令人驚訝的是,把動(dòng)作時(shí)間間隔縮短到 40ms 需要花費(fèi)更長(zhǎng)的訓(xùn)練時(shí)間,但同時(shí)并沒有給真實(shí)世界機(jī)械手的表現(xiàn)帶來(lái)可感的提升。有一種可能是,這種公認(rèn)有效的做法用在神經(jīng)網(wǎng)絡(luò)模型上的效果確實(shí)要比用在目前廣泛使用的線性控制模型的效果差一些。

用真實(shí)數(shù)據(jù)訓(xùn)練視覺策略并沒有帶來(lái)什么提升。在早期的實(shí)驗(yàn)中,OpenAI 綜合使用了模擬的以及真實(shí)的數(shù)據(jù)用來(lái)改進(jìn)模型。真實(shí)數(shù)據(jù)的采集來(lái)自一個(gè)帶有追蹤標(biāo)記的物體在測(cè)試策略的機(jī)械手上的實(shí)驗(yàn)過(guò)程。然而,真實(shí)數(shù)據(jù)相比模擬的數(shù)據(jù)有著顯著的劣勢(shì)。從追蹤標(biāo)記得到的位置信息帶有延遲和測(cè)量誤差,而且更糟糕的是,隨便改變一點(diǎn)參數(shù)就會(huì)讓已經(jīng)采集到的真實(shí)數(shù)據(jù)變得完全沒用。隨著 OpenAI 持續(xù)改進(jìn)自己的方法,只使用模擬數(shù)據(jù)訓(xùn)練的模型的表現(xiàn)也在不停提高,已經(jīng)達(dá)到了模擬和真實(shí)數(shù)據(jù)混合訓(xùn)練的模型的錯(cuò)誤率水平。最終使用的模型也就完全沒有使用真實(shí)數(shù)據(jù)。

總結(jié)

對(duì) OpenAI 來(lái)說(shuō),這個(gè)項(xiàng)目是他們過(guò)去兩年中追求的完整 AI 研發(fā)循環(huán)的最好體現(xiàn):先開發(fā)新的強(qiáng)化學(xué)習(xí)算法,再拓展它的運(yùn)行規(guī)模、在模擬環(huán)境中訓(xùn)練解決困難的問題,最后再把得到的系統(tǒng)應(yīng)用在真實(shí)世界中。以越來(lái)越大的規(guī)模沿著這種途徑不停前進(jìn)也是 OpenAI 為自己規(guī)劃的通往安全的通用人工智能的主要路徑。

OpenAI 已經(jīng)展示了聯(lián)通強(qiáng)化學(xué)習(xí)理論研究與現(xiàn)實(shí)世界問題探索的一座橋梁,我們也期待看到這個(gè)領(lǐng)域內(nèi)更多的理論和現(xiàn)實(shí)世界問題聯(lián)動(dòng)的案例。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2542

    文章

    50307

    瀏覽量

    750296
  • 控制網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    9479

原文標(biāo)題:有史以來(lái)最精彩的自問自答:OpenAI 轉(zhuǎn)方塊的機(jī)械手

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    從USCI模塊遷移到eUSCI模塊

    電子發(fā)燒友網(wǎng)站提供《從USCI模塊遷移到eUSCI模塊.pdf》資料免費(fèi)下載
    發(fā)表于 10-18 10:39 ?0次下載
    從USCI模塊<b class='flag-5'>遷移到</b>eUSCI模塊

    負(fù)載模擬器是干什么的,負(fù)載模擬器需要接電源嗎

    負(fù)載模擬器是一種用于模擬各種負(fù)載條件的設(shè)備,它在多個(gè)領(lǐng)域都有著廣泛的應(yīng)用。以下是對(duì)負(fù)載模擬器的主要功能和用途的詳細(xì)解析:
    的頭像 發(fā)表于 10-01 15:57 ?195次閱讀

    IT資源遷移到云服務(wù)的關(guān)鍵因素

    以及遷移過(guò)程中需要考慮的關(guān)鍵因素。 1. 為什么選擇將IT資源遷移到云服務(wù) 成本效益: 通過(guò)使用云服務(wù),企業(yè)可以避免昂貴的硬件設(shè)備和維護(hù)成本,以按需付費(fèi)的方式使用計(jì)算資源,降低總體
    的頭像 發(fā)表于 09-18 11:21 ?228次閱讀

    機(jī)械手 OEM 的應(yīng)用

    方案,并通過(guò)精確的動(dòng)作控制,幫助患者進(jìn)行肢體的運(yùn)動(dòng)訓(xùn)練,促進(jìn)患者的康復(fù)。 科研教育領(lǐng)域 : 科學(xué)研究 :科學(xué)研究,機(jī)械手 OEM 可以用于實(shí)驗(yàn)的操作和數(shù)據(jù)的采集。例如,
    發(fā)表于 09-18 10:31

    電池模擬器的原理和運(yùn)用介紹

    電池模擬器是一種功能強(qiáng)大的設(shè)備,它能夠精確模擬電池實(shí)際使用的多種特性,包括電壓、電流和內(nèi)阻等。這種設(shè)備現(xiàn)代科技中發(fā)揮著重要作用,特別是
    的頭像 發(fā)表于 09-11 16:11 ?346次閱讀
    電池<b class='flag-5'>模擬器</b>的原理和運(yùn)用介紹

    致茂負(fù)載模擬器LED電源測(cè)試方案

    致茂獨(dú)家提供負(fù)載模擬器LED電源測(cè)試方案
    的頭像 發(fā)表于 08-28 10:55 ?345次閱讀

    PLC機(jī)械手控制系統(tǒng)的具體應(yīng)用

    隨著工業(yè)自動(dòng)化技術(shù)的飛速發(fā)展,機(jī)械手作為現(xiàn)代制造業(yè)不可或缺的重要設(shè)備,其智能化、自動(dòng)化水平不斷提高。機(jī)械手控制系統(tǒng),PLC(可編程邏輯
    的頭像 發(fā)表于 06-17 10:46 ?1080次閱讀

    通過(guò)強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。本文中,我們將介紹并實(shí)現(xiàn)一種新的通過(guò)強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí),尤其是馬爾可夫決策
    的頭像 發(fā)表于 06-05 08:27 ?288次閱讀
    通過(guò)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

    電路仿真模擬器怎么用

    電路仿真模擬器是電子工程師和學(xué)生必備的一類軟件工具。通過(guò)使用電路仿真模擬器,用戶可以計(jì)算機(jī)上模擬和分析各種電路設(shè)計(jì),從而避免實(shí)際搭建電路
    的頭像 發(fā)表于 05-04 10:53 ?1829次閱讀

    電池模擬器鋰電池保護(hù)板測(cè)試應(yīng)用

    還是零部件制造商,他們一般不會(huì)總是使用真電池進(jìn)行實(shí)際測(cè)試。大多數(shù)客戶會(huì)使用電池模擬器而不是實(shí)際的電池來(lái)完成各種測(cè)試。 一、 什么是電池模擬器,它有什么作用? 電池模擬器的作用是模擬電池
    的頭像 發(fā)表于 03-18 13:19 ?516次閱讀
    電池<b class='flag-5'>模擬器</b><b class='flag-5'>在</b>鋰電池保護(hù)板測(cè)試<b class='flag-5'>中</b>應(yīng)用

    【鴻蒙 HarmonyOS】鴻蒙手機(jī)模擬器 ( 鴻蒙遠(yuǎn)程模擬器 | 鴻蒙遠(yuǎn)程模擬器運(yùn)行手機(jī)應(yīng)用 )

    一、鴻蒙遠(yuǎn)程模擬器 選擇 菜單欄 / Tools / HVD Manager , 首次點(diǎn)擊 , 會(huì)提示下載模擬器相關(guān)資源 , 下載完成后可以通過(guò)瀏覽連接遠(yuǎn)程模擬器 ; ? 點(diǎn)擊 HV
    的頭像 發(fā)表于 01-26 15:02 ?2288次閱讀
    【鴻蒙 HarmonyOS】鴻蒙手機(jī)<b class='flag-5'>模擬器</b> ( 鴻蒙遠(yuǎn)程<b class='flag-5'>模擬器</b> | 鴻蒙遠(yuǎn)程<b class='flag-5'>模擬器</b>運(yùn)行手機(jī)應(yīng)用 )

    坐標(biāo)機(jī)械手配件有哪些?

    直線模組是一種常見的機(jī)械傳動(dòng)裝置,廣泛應(yīng)用于機(jī)械手等自動(dòng)化設(shè)備機(jī)械手中的主要作用是實(shí)現(xiàn)機(jī)械手
    的頭像 發(fā)表于 12-07 17:38 ?828次閱讀
    坐標(biāo)<b class='flag-5'>機(jī)械手</b>配件有哪些?

    滾珠螺桿注塑機(jī)械手中起什么作用?

    注塑機(jī)械手的配件滾珠螺桿是重要的一環(huán),注塑機(jī)械手中起著重要的作用。注塑機(jī)械手是一種自動(dòng)化設(shè)備,可以
    的頭像 發(fā)表于 11-13 17:41 ?544次閱讀
    滾珠螺桿<b class='flag-5'>在</b>注塑<b class='flag-5'>機(jī)械手</b>中起什么作用?

    什么是光伏模擬器?光伏模擬器能做什么?

    什么是光伏模擬器?光伏模擬器能做什么? 光伏模擬器是一種用來(lái)模擬太陽(yáng)能光伏電池的工作原理和性能的軟硬件設(shè)備。它可以提供光伏電池不同光照、溫
    的頭像 發(fā)表于 11-10 15:57 ?1357次閱讀

    什么是強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一,它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列,是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。 圍棋
    的頭像 發(fā)表于 10-30 11:36 ?3754次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>