和丰满少妇作爱过程视频,成人国产精品一区二区网站,精品一区二区三区在线观看

這些具有一定難度的任務(wù) OpenAI 自己也在研究，他們認(rèn)為這是深度強(qiáng)化學(xué)習(xí)發(fā)展到新時(shí)代之后可以作為新標(biāo)桿的算法測(cè)試任務(wù)，而且也歡迎其它機(jī)構(gòu)與學(xué)校的研究人員一同研究這些任務(wù)，把深度強(qiáng)化學(xué)習(xí)的表現(xiàn)推上新的臺(tái)階。

OpenAI 已經(jīng)就機(jī)械手任務(wù)之二的轉(zhuǎn)方塊出了自己答案，展示了一個(gè)異常靈活的轉(zhuǎn)方塊的機(jī)械手。而且更精彩的是，這個(gè)完全在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案還可以不需任何微調(diào)就直接遷移到真實(shí)的機(jī)械手上。

OpenAI 把這套系統(tǒng)稱作 Dactyl。OpenAI 過(guò)去一年中研究強(qiáng)化學(xué)習(xí)系統(tǒng)的偏好思路再次得到了體現(xiàn)：在完全模擬的環(huán)境中訓(xùn)練，然后把訓(xùn)練結(jié)果遷移到現(xiàn)實(shí)世界的機(jī)械結(jié)構(gòu)中。

得益于可以大規(guī)模高速并行訓(xùn)練的模擬環(huán)境以及 OpenAI 在過(guò)去的研究中積累的系統(tǒng)設(shè)計(jì)與變量選擇經(jīng)驗(yàn)，這樣的做法已經(jīng)可以得到很好的效果。強(qiáng)化學(xué)習(xí)算法方面，OpenAI 再次選擇了之前在 DOTA2 5v5 AI 中使用的 PPO（近端策略優(yōu)化），這當(dāng)然也再次展示了 PPO 作為通用強(qiáng)化學(xué)習(xí)算法的優(yōu)越性。當(dāng)然，系統(tǒng)最大的亮點(diǎn)還是可以完全在虛擬環(huán)境中訓(xùn)練，不需要對(duì)真實(shí)世界有準(zhǔn)確的物理模型也可以直接遷移到真實(shí)機(jī)械手、真實(shí)物體的控制上。

任務(wù)介紹

任務(wù)中使用的機(jī)械手模型是參照 Shadow Dexterous Hand 設(shè)計(jì)的。這是一個(gè)完全仿照人手設(shè)計(jì)的具有 20 個(gè)驅(qū)動(dòng)自由度、4 個(gè)半驅(qū)動(dòng)自由度、共 24 個(gè)關(guān)節(jié)的機(jī)械手，它的大小也和人手大小相同。任務(wù)的要求是在機(jī)械手的掌心放置一個(gè)方塊或者六棱柱，然后要求機(jī)械手把它翻轉(zhuǎn)到一個(gè)指定的角度，比如把某個(gè)側(cè)面翻到上方。系統(tǒng)只能觀察到五指指尖的空間坐標(biāo)以及三個(gè)固定角度的彩色攝像機(jī)采集到的畫面。

雖然這種機(jī)械手面世已經(jīng)有幾十年了，但是如何讓它像人類一樣高效地控制物體一直都是機(jī)器人控制領(lǐng)域的老大難問題。與空間定位移動(dòng)之類的問題不同，非常多自由度的機(jī)械手控制用傳統(tǒng)控制方法不僅運(yùn)行緩慢，而且必須對(duì)自由度做出一些限制，這也就隨之限制了它們控制真實(shí)世界物體的能力。

想通過(guò)深度強(qiáng)化學(xué)習(xí)的方法讓機(jī)械手翻轉(zhuǎn)一個(gè)物體，需要考慮這幾個(gè)問題：

能在真實(shí)世界中工作。強(qiáng)化學(xué)習(xí)雖然已經(jīng)在很多模擬器環(huán)境以及游戲中展現(xiàn)出了優(yōu)秀的表現(xiàn)，但是強(qiáng)化學(xué)習(xí)解決真實(shí)世界任務(wù)的研究仍然非常有限。OpenAI 的最終目標(biāo)就是要讓 Dactyl 在真實(shí)的機(jī)器人上完成任務(wù)。

高自由度控制。一般的機(jī)械臂（比如末端為夾子的工業(yè)機(jī)械臂）只有 7 個(gè)自由度，而機(jī)械手有多達(dá) 24 個(gè)自由度，僅僅是不讓 5 個(gè)指頭打架都有相當(dāng)?shù)碾y度。

有噪聲的部分信息觀察。Dactyl 在真實(shí)世界中工作的時(shí)候不可避免地會(huì)遇到傳感器讀數(shù)的噪聲和延遲問題。當(dāng)某一個(gè)手指的傳感器受到其它手指或者物體的影響而無(wú)法返回讀數(shù)的時(shí)候，Dactyl 只能在部分信息的狀況下工作。而且，真實(shí)物理系統(tǒng)許多細(xì)節(jié)（比如摩擦和滑動(dòng)）是無(wú)法直接觀察到的，系統(tǒng)必須自己做出推斷。

能操作多個(gè)物體。Dactyl 的設(shè)計(jì)目標(biāo)是要足夠靈活，能夠翻轉(zhuǎn)、定向多種不同種類的物體。這就意味著不能選用只對(duì)某一些特定的幾何形狀有效的策略。

OpenAI 的解決方法

總的來(lái)說(shuō)，OpenAI 完全在模擬器環(huán)境中、不借助任何人類輸入進(jìn)行，讓 Dactyl 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練物體定向任務(wù)。在訓(xùn)練結(jié)束后，學(xué)到的策略不需要任何微調(diào)環(huán)節(jié)就可以直接在真實(shí)機(jī)器人上工作。

不過(guò)其實(shí)，學(xué)習(xí)機(jī)器人控制方法面臨著兩難的困境。模擬環(huán)境中的機(jī)器人固然可以輕松地獲得大量數(shù)據(jù)、訓(xùn)練出足夠復(fù)雜的策略，但是大多數(shù)控制問題本身的建模都不夠精確，導(dǎo)致學(xué)習(xí)到的策略難以遷移到真實(shí)世界的機(jī)器人上。即便只是對(duì)「兩個(gè)物體接觸」這樣的簡(jiǎn)單現(xiàn)象建模，都還是一個(gè)開放性的科研問題，沒有什么廣為接受的、足夠好的模型。直接在真實(shí)的機(jī)器人上進(jìn)行訓(xùn)練自然可以根據(jù)真實(shí)世界的物理規(guī)律學(xué)習(xí)到好的策略，不過(guò)真實(shí)世界中的訓(xùn)練就只能按照真實(shí)世界的速度運(yùn)行，目前的強(qiáng)化學(xué)習(xí)算法受限于樣本效率問題，需要相當(dāng)于好幾年的嘗試經(jīng)驗(yàn)才能夠解決物體轉(zhuǎn)向這樣的已經(jīng)相對(duì)簡(jiǎn)單的問題。（財(cái)大氣粗的谷歌還真的就這樣做了，具體請(qǐng)見今天推文的第二篇?？梢哉f(shuō)，谷歌利用自己的財(cái)力優(yōu)勢(shì)替整個(gè)領(lǐng)域嘗試了很多僅僅理論上可行的研究方法）

OpenAI 的訓(xùn)練技巧具體來(lái)說(shuō)是「任務(wù)隨機(jī)化」（domain randomization），它并不追求建模的最佳擬真化，而是在充滿了豐富的變化的環(huán)境中學(xué)習(xí)到各種知識(shí)和經(jīng)驗(yàn)。這樣的做法兼?zhèn)淞四M器和真實(shí)環(huán)境學(xué)習(xí)兩種做法的優(yōu)點(diǎn)：在模擬器環(huán)境中學(xué)習(xí)，可以讓模擬器運(yùn)行速度高于真實(shí)世界速度，快速積累經(jīng)驗(yàn)；同時(shí)用「多變」替代了「逼真」之后，它也可以在模擬器只能近似建模的任務(wù)中得到更好的表現(xiàn)。

包括 OpenAI 在內(nèi)的許多研究者都已經(jīng)通過(guò)實(shí)驗(yàn)展示出了任務(wù)隨機(jī)化對(duì)于越來(lái)越復(fù)雜的任務(wù)的明顯的提升作用，近期的最有力的例子就是 OpenAI 訓(xùn)練出的 DOTA2 5v5 AI。在這個(gè)機(jī)械手控制的任務(wù)中，OpenAI 也是在探索大規(guī)模運(yùn)行的任務(wù)隨機(jī)化能否帶來(lái)超出現(xiàn)有機(jī)器人控制方法的表現(xiàn)。

MuJoCo 物理模擬器相比真實(shí)的物理系統(tǒng)有這些不足：

在真實(shí)機(jī)器人和方塊上測(cè)量摩擦、阻尼、翻轉(zhuǎn)阻力等物理屬性很麻煩、很困難。而且隨著機(jī)械手磨損、這些值也會(huì)逐漸發(fā)生變化；模擬器中只有帶有固定參數(shù)的近似模型；

MuJoCo 是一個(gè)剛體運(yùn)動(dòng)的模擬器，這意味著它無(wú)法模擬機(jī)械手指尖的橡膠發(fā)生的接觸形變，也無(wú)法模擬手指上肌腱的拉伸；

在這個(gè)任務(wù)中機(jī)械手只能夠靠多次接觸方塊來(lái)改變方塊的方向，但接觸力又眾所周知地難以準(zhǔn)確在模擬器中復(fù)現(xiàn)。

如果仔細(xì)地調(diào)節(jié)模擬器中的參數(shù)，模擬的機(jī)械手的行為確實(shí)可以和真實(shí)機(jī)械手的行為做到比較好的匹配，但是上面的這些作用以目前的模擬器就很難準(zhǔn)確建模了，調(diào)節(jié)參數(shù)也無(wú)濟(jì)于事。

所以 OpenAI 轉(zhuǎn)而使用的方法是使用大規(guī)模分布式的模擬訓(xùn)練環(huán)境，而且這些環(huán)境中的物理屬性和視覺特征都是隨機(jī)選擇的。隨機(jī)地選擇這些值是一種很自然的表征各種真實(shí)物理系統(tǒng)的不確定性的做法，當(dāng)然這樣也可以防止系統(tǒng)過(guò)擬合到一組特定的環(huán)境設(shè)置中。根據(jù) OpenAI 研究人員們的想法，如果一種策略在所有這些不同的模擬環(huán)境中都可以完成任務(wù)，那么它也就很有可能可以直接在真實(shí)環(huán)境中完成任務(wù)。

在開發(fā)和測(cè)試階段，OpenAI 通過(guò)內(nèi)置的運(yùn)動(dòng)控制傳感器對(duì)學(xué)習(xí)到的機(jī)械手控制策略進(jìn)行驗(yàn)證，這也是為了能夠隔絕 Dactyl 自身的控制網(wǎng)絡(luò)與視覺網(wǎng)絡(luò)，可以對(duì)系統(tǒng)表現(xiàn)做出「客觀」的評(píng)價(jià)。

系統(tǒng)設(shè)計(jì)示意圖 - 模擬環(huán)境中訓(xùn)練

A. 分布式工作站從大量隨機(jī)環(huán)境中收集經(jīng)驗(yàn)

B. 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練控制策略。這個(gè)策略根據(jù)物體的位姿和五個(gè)手指指尖的位置選擇接下來(lái)的行動(dòng)

C. 訓(xùn)練一個(gè) CNN 根據(jù)三路模擬環(huán)境中的攝像頭畫面估計(jì)物體的位姿

系統(tǒng)設(shè)計(jì)示意圖 - 遷移到真實(shí)世界

D. 位姿估計(jì)網(wǎng)絡(luò)和控制策略網(wǎng)絡(luò)共同工作，把任務(wù)從虛擬環(huán)境遷移到真實(shí)環(huán)境

學(xué)習(xí)控制

通過(guò)構(gòu)建可以支持遷移的模擬環(huán)境，OpenAI 把真實(shí)世界的機(jī)器人控制問題簡(jiǎn)化為了模擬環(huán)境中完成任務(wù)的問題，現(xiàn)在它就很適合用強(qiáng)化學(xué)習(xí)解決。當(dāng)然了，即便是在模擬器中，控制如此多自由度的機(jī)械手完成任務(wù)仍然是一個(gè)有挑戰(zhàn)性的目標(biāo)，何況不同的模擬環(huán)境中還有不同的隨機(jī)物理屬性，這意味著物體的運(yùn)動(dòng)方式都會(huì)與真實(shí)世界有所不同。

為了能夠在不同的環(huán)境之間泛化，策略最好能夠在不同物理參數(shù)的環(huán)境中做出不同的行為。考慮到大多數(shù)的動(dòng)態(tài)物理參數(shù)都無(wú)法從單次觀察中得出推斷結(jié)果，OpenAI 選用了帶有一定記憶能力的 LSTM 網(wǎng)絡(luò)架構(gòu)，實(shí)際上在模擬環(huán)境中基于 LSTM 得到的策略做出的旋轉(zhuǎn)動(dòng)作也要比其它不具有記憶能力的策略多一倍。

Dactyl 使用的大規(guī)模分布式 PPO 實(shí)現(xiàn)「Rapid」是和 DOTA2 5v5 AI 一樣的。在這個(gè)任務(wù)中，模型架構(gòu)、環(huán)境、超參數(shù)有所區(qū)別，但算法和訓(xùn)練代碼是一致的。Rapid 訓(xùn)練策略使用了 6144 個(gè) CPU 和 8 個(gè) GPU，訓(xùn)練 50 小時(shí)就可以采集到相當(dāng)于真實(shí)世界中 100 年長(zhǎng)度的經(jīng)驗(yàn)。

學(xué)習(xí)觀察

OpenAI 的設(shè)計(jì)目標(biāo)是讓 Dactyl 能夠控制任意的物體，不局限于那些經(jīng)過(guò)專門的改動(dòng)以后更好追蹤的物體。所以 Dactyl 也就選用了一組正常的彩色攝像頭對(duì)物體的位置和姿態(tài)進(jìn)行估計(jì)。

OpenAI 訓(xùn)練了一個(gè) CNN 用來(lái)估計(jì)位姿。這個(gè)網(wǎng)絡(luò)把布置在機(jī)械手周圍的三個(gè)攝像頭采集的視頻流作為輸入，然后輸出估計(jì)的物體位置和物體姿態(tài)。多個(gè)攝像頭的使用是為了避免判斷不清以及信號(hào)延遲。訓(xùn)練這個(gè)網(wǎng)絡(luò)時(shí) OpenAI 也使用了任務(wù)隨機(jī)化的做法，環(huán)境隨之暫時(shí)切換為了 Unity 游戲開發(fā)平臺(tái)，它對(duì)各種視覺效果的支持豐富程度要比 MuJoCo 高得多。

「控制」與「觀察」兩個(gè)獨(dú)立的網(wǎng)絡(luò)互相配合，控制網(wǎng)絡(luò)可以根據(jù)給定的物體位姿重新調(diào)整它的位姿，視覺網(wǎng)絡(luò)根據(jù)攝像頭采集的畫面確認(rèn)物體當(dāng)前的實(shí)際位姿。Dactyl 就這樣通過(guò)觀察控制了手里的物體。

學(xué)習(xí)位姿估計(jì)的圖像的一些示例

實(shí)驗(yàn)結(jié)果

逐漸產(chǎn)生的行為

在部署系統(tǒng)的時(shí)候，OpenAI 的研究人員們注意到 Dactyl 會(huì)使用一系列豐富的靈活手掌內(nèi)操縱技巧來(lái)解決在這個(gè)任務(wù)；人類其實(shí)也經(jīng)常會(huì)使用這些技巧。而及這些技巧并不需要人類顯式地教會(huì)算法，它們?nèi)际撬惴ㄗ约喊l(fā)掘、自己學(xué)到的。

兩指夾住旋轉(zhuǎn)、滑動(dòng)、手指同步旋轉(zhuǎn)，三種 Dactyl 完全自動(dòng)學(xué)到的與人類類似的運(yùn)動(dòng)模式

Dactyl 學(xué)到的六種不同的握持姿勢(shì)。根據(jù)握持分類學(xué)，從左上到右下依次為：指尖捏、掌心捏、三指握持、四指握持、強(qiáng)力握持以及 5 指精確握持。

OpenAI 通過(guò)觀察發(fā)現(xiàn)，對(duì)于幾種高精確度的握持方法，比如兩指指尖捏，Dactyl 傾向于使用大拇指和小拇指；人類比較習(xí)慣的自然是用大拇指+食指或者大拇指+中指。不過(guò)值得指出的是，機(jī)械手的小拇指比人類的多出一個(gè)自由度，更為靈活，這可以作為 Dactyl 學(xué)會(huì)了這樣行為的一個(gè)解釋。這也可以理解為，Dactyl 一面可以自己發(fā)現(xiàn)人類常用的手部姿態(tài)，同時(shí)也可以重新適應(yīng)這些姿態(tài)，讓它們更符合自己的肢體的限制和能力。

（ AI 科技評(píng)論注：多提供一個(gè)思考角度，從生物進(jìn)化的角度來(lái)說(shuō)，手指握持的方式是和手指的結(jié)構(gòu)相互適應(yīng)的。使用一個(gè)「類人」的機(jī)械手，學(xué)習(xí)到「類人」的握持姿勢(shì)并不奇怪。另一方面，握持姿勢(shì)的選擇除了自由度，也與生物結(jié)構(gòu)有關(guān)，食指比小拇指更有力、也更靈活，這與人類更常用食指也是相輔相成）

系統(tǒng)表現(xiàn)的遷移

OpenAI 在真實(shí)環(huán)境的機(jī)械手與攝像頭配置上測(cè)試了 Dactyl 在物體脫手、或者時(shí)間用完之前能翻轉(zhuǎn)的次數(shù)，最高計(jì)數(shù) 50 次。在模擬器環(huán)境中訓(xùn)練出的策略可以直接成功地操控真實(shí)世界中的物體。

對(duì)于控制方塊的任務(wù)，使用了「任務(wù)隨機(jī)化」訓(xùn)練得到的策略能成功完成翻轉(zhuǎn)的次數(shù)要多得多，如下表。并且，通過(guò)攝像頭信號(hào)估計(jì)位姿進(jìn)行控制得到的結(jié)果和使用運(yùn)動(dòng)追蹤傳感器得到的結(jié)果差不多，這也體現(xiàn)出了視覺估計(jì)網(wǎng)絡(luò)的高準(zhǔn)確率。

OpenAI 把在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案遷移到機(jī)械手上

學(xué)習(xí)過(guò)程

訓(xùn)練過(guò)程中的大多數(shù)時(shí)間都花在了提升策略在不同物理屬性環(huán)境中的魯棒性上。在不使用隨機(jī)化時(shí)，在虛擬環(huán)境中學(xué)會(huì)翻轉(zhuǎn)物體需要的經(jīng)驗(yàn)大概相當(dāng)于 3 年那么長(zhǎng)，而在全面使用了隨機(jī)化的設(shè)置下達(dá)到類似的表現(xiàn)需要大概相當(dāng)于 100 年的經(jīng)驗(yàn)。（不過(guò)我們也別忘了，不使用隨機(jī)化時(shí)訓(xùn)練出的策略是無(wú)法直接遷移到真實(shí)世界的機(jī)器人的，因?yàn)閷W(xué)到的策略只針對(duì)模擬器中那一組特定的物理參數(shù)有效）

實(shí)驗(yàn)中的有趣發(fā)現(xiàn)

對(duì)于真實(shí)世界物體的控制來(lái)說(shuō)，觸覺感知并不是必須的。Dactyl 接收到的信號(hào)只包括 5 個(gè)手指指尖的位置以及方塊的位置和方向。機(jī)械手上確實(shí)帶有觸覺傳感器，但是 OpenAI 并沒有使用它們就可以達(dá)到目標(biāo)。總地來(lái)說(shuō)，相比于有一大批傳感器、一大批難以建模的數(shù)值，OpenAI 認(rèn)為一組數(shù)目有限但可以在模擬環(huán)境中高效建模的傳感器可以幫助帶來(lái)更好的表現(xiàn)。

為某一個(gè)物體做的隨機(jī)化設(shè)定可以泛化到其它屬性類似的物體上。在控制方塊的系統(tǒng)開發(fā)完成之后，OpenAI 制作了一個(gè)六棱柱，根據(jù)它的外型訓(xùn)練了一個(gè)新的策略，然后嘗試讓機(jī)械手控制它。有點(diǎn)出乎他們意料的是，只依靠一開始為控制方塊設(shè)計(jì)的隨機(jī)化設(shè)置，機(jī)械手就能很好地控制六棱柱了。相比之下，重新訓(xùn)練一個(gè)控制圓球的策略就不能連續(xù)成功很多次，可能是因?yàn)椴]有針對(duì)轉(zhuǎn)動(dòng)行為設(shè)計(jì)適合的隨機(jī)化模擬參數(shù)。

對(duì)于真實(shí)機(jī)器人來(lái)說(shuō)，好的系統(tǒng)工程和好的算法一樣重要。在研究過(guò)程中，OpenAI 團(tuán)隊(duì)發(fā)現(xiàn)幾個(gè)工程師都嘗試一樣的策略的時(shí)候，其中一位得到的表現(xiàn)總是要比其他幾位的好得多。后來(lái)他們發(fā)現(xiàn)是因?yàn)檫@位工程師的筆記本電腦比較快，一個(gè)會(huì)影響表現(xiàn)的計(jì)時(shí)器 bug 從而就不會(huì)出現(xiàn)。這個(gè) bug 解決之后，整個(gè)團(tuán)隊(duì)運(yùn)行策略的表現(xiàn)都得到了提高。

沒有達(dá)到預(yù)期效果的項(xiàng)目

除了上面的驚喜之外，OpenAI 也驚訝地發(fā)現(xiàn)一些強(qiáng)化學(xué)習(xí)連續(xù)控制中的常用技巧并沒能幫助他們提高系統(tǒng)的表現(xiàn)。

減短反應(yīng)時(shí)間并沒有提高系統(tǒng)表現(xiàn)。大家普遍認(rèn)為減短做出動(dòng)作的時(shí)間間隔能夠提高系統(tǒng)表現(xiàn)，因?yàn)檫@樣一來(lái)前后狀態(tài)之間的變化會(huì)比較小，也就更容易預(yù)測(cè)。目前 OpenAI 設(shè)定的動(dòng)作時(shí)間間隔是 80ms，要比人類一般的反應(yīng)時(shí)間 150~250ms 短一些，但是仍然比神經(jīng)網(wǎng)絡(luò)計(jì)算所需的大概 25ms 左右的時(shí)間長(zhǎng)得多。令人驚訝的是，把動(dòng)作時(shí)間間隔縮短到 40ms 需要花費(fèi)更長(zhǎng)的訓(xùn)練時(shí)間，但同時(shí)并沒有給真實(shí)世界機(jī)械手的表現(xiàn)帶來(lái)可感的提升。有一種可能是，這種公認(rèn)有效的做法用在神經(jīng)網(wǎng)絡(luò)模型上的效果確實(shí)要比用在目前廣泛使用的線性控制模型的效果差一些。

用真實(shí)數(shù)據(jù)訓(xùn)練視覺策略并沒有帶來(lái)什么提升。在早期的實(shí)驗(yàn)中，OpenAI 綜合使用了模擬的以及真實(shí)的數(shù)據(jù)用來(lái)改進(jìn)模型。真實(shí)數(shù)據(jù)的采集來(lái)自一個(gè)帶有追蹤標(biāo)記的物體在測(cè)試策略的機(jī)械手上的實(shí)驗(yàn)過(guò)程。然而，真實(shí)數(shù)據(jù)相比模擬的數(shù)據(jù)有著顯著的劣勢(shì)。從追蹤標(biāo)記得到的位置信息帶有延遲和測(cè)量誤差，而且更糟糕的是，隨便改變一點(diǎn)參數(shù)就會(huì)讓已經(jīng)采集到的真實(shí)數(shù)據(jù)變得完全沒用。隨著 OpenAI 持續(xù)改進(jìn)自己的方法，只使用模擬數(shù)據(jù)訓(xùn)練的模型的表現(xiàn)也在不停提高，已經(jīng)達(dá)到了模擬和真實(shí)數(shù)據(jù)混合訓(xùn)練的模型的錯(cuò)誤率水平。最終使用的模型也就完全沒有使用真實(shí)數(shù)據(jù)。

總結(jié)

對(duì) OpenAI 來(lái)說(shuō)，這個(gè)項(xiàng)目是他們過(guò)去兩年中追求的完整 AI 研發(fā)循環(huán)的最好體現(xiàn)：先開發(fā)新的強(qiáng)化學(xué)習(xí)算法，再拓展它的運(yùn)行規(guī)模、在模擬環(huán)境中訓(xùn)練解決困難的問題，最后再把得到的系統(tǒng)應(yīng)用在真實(shí)世界中。以越來(lái)越大的規(guī)模沿著這種途徑不停前進(jìn)也是 OpenAI 為自己規(guī)劃的通往安全的通用人工智能的主要路徑。

OpenAI 已經(jīng)展示了聯(lián)通強(qiáng)化學(xué)習(xí)理論研究與現(xiàn)實(shí)世界問題探索的一座橋梁，我們也期待看到這個(gè)領(lǐng)域內(nèi)更多的理論和現(xiàn)實(shí)世界問題聯(lián)動(dòng)的案例。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2542

文章
50307

瀏覽量
750296
控制網(wǎng)絡(luò)

控制網(wǎng)絡(luò)

+關(guān)注

關(guān)注
0

文章
27

瀏覽量
9479

原文標(biāo)題：有史以來(lái)最精彩的自問自答：OpenAI 轉(zhuǎn)方塊的機(jī)械手

文章出處：【微信號(hào)：AItists，微信公眾號(hào)：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

從USCI模塊遷移到eUSCI模塊

電子發(fā)燒友網(wǎng)站提供《從USCI模塊遷移到eUSCI模塊.pdf》資料免費(fèi)下載

發(fā)表于 10-18 10:39 ?0次下載

負(fù)載模擬器是干什么的，負(fù)載模擬器需要接電源嗎

負(fù)載模擬器是一種用于模擬各種負(fù)載條件的設(shè)備，它在多個(gè)領(lǐng)域都有著廣泛的應(yīng)用。以下是對(duì)負(fù)載模擬器的主要功能和用途的詳細(xì)解析：

發(fā)表于 10-01 15:57 ?195次閱讀

IT資源遷移到云服務(wù)器的關(guān)鍵因素

以及遷移過(guò)程中需要考慮的關(guān)鍵因素。 1. 為什么選擇將IT資源遷移到云服務(wù)器成本效益：通過(guò)使用云服務(wù)器，企業(yè)可以避免昂貴的硬件設(shè)備和維護(hù)成本，以按需付費(fèi)的方式使用計(jì)算資源，降低總體

發(fā)表于 09-18 11:21 ?228次閱讀

機(jī)械手 OEM 的應(yīng)用

方案，并通過(guò)精確的動(dòng)作控制，幫助患者進(jìn)行肢體的運(yùn)動(dòng)訓(xùn)練，促進(jìn)患者的康復(fù)。科研教育領(lǐng)域：科學(xué)研究：在科學(xué)研究中，機(jī)械手 OEM 可以用于實(shí)驗(yàn)的操作和數(shù)據(jù)的采集。例如，

發(fā)表于 09-18 10:31

電池模擬器的原理和運(yùn)用介紹

電池模擬器是一種功能強(qiáng)大的設(shè)備，它能夠精確模擬電池在實(shí)際使用中的多種特性，包括電壓、電流和內(nèi)阻等。這種設(shè)備在現(xiàn)代科技中發(fā)揮著重要作用，特別是

發(fā)表于 09-11 16:11 ?346次閱讀

電池<b class='flag-5'>模擬器</b>的原理和運(yùn)用介紹

致茂負(fù)載模擬器LED電源測(cè)試方案

致茂獨(dú)家提供負(fù)載模擬器LED電源測(cè)試方案

發(fā)表于 08-28 10:55 ?345次閱讀

PLC在機(jī)械手控制系統(tǒng)中的具體應(yīng)用

隨著工業(yè)自動(dòng)化技術(shù)的飛速發(fā)展，機(jī)械手作為現(xiàn)代制造業(yè)中不可或缺的重要設(shè)備，其智能化、自動(dòng)化水平不斷提高。在機(jī)械手控制系統(tǒng)中，PLC（可編程邏輯

發(fā)表于 06-17 10:46 ?1080次閱讀

通過(guò)強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中，我們將介紹并實(shí)現(xiàn)一種新的通過(guò)強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí)，尤其是馬爾可夫決策

發(fā)表于 06-05 08:27 ?288次閱讀

通過(guò)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>策略進(jìn)行特征選擇

電路仿真模擬器怎么用

電路仿真模擬器是電子工程師和學(xué)生必備的一類軟件工具。通過(guò)使用電路仿真模擬器，用戶可以在計(jì)算機(jī)上模擬和分析各種電路設(shè)計(jì)，從而避免在實(shí)際搭建電路

發(fā)表于 05-04 10:53 ?1829次閱讀

電池模擬器在鋰電池保護(hù)板測(cè)試中應(yīng)用

還是零部件制造商，他們一般不會(huì)總是使用真電池進(jìn)行實(shí)際測(cè)試。大多數(shù)客戶會(huì)使用電池模擬器而不是實(shí)際的電池來(lái)完成各種測(cè)試。一、什么是電池模擬器，它有什么作用？電池模擬器的作用是模擬電池

發(fā)表于 03-18 13:19 ?516次閱讀

電池<b class='flag-5'>模擬器</b><b class='flag-5'>在</b>鋰電池保護(hù)板測(cè)試<b class='flag-5'>中</b>應(yīng)用

【鴻蒙 HarmonyOS】鴻蒙手機(jī)模擬器 ( 鴻蒙遠(yuǎn)程模擬器 | 鴻蒙遠(yuǎn)程模擬器運(yùn)行手機(jī)應(yīng)用 )

一、鴻蒙遠(yuǎn)程模擬器 選擇菜單欄 / Tools / HVD Manager , 首次點(diǎn)擊 , 會(huì)提示下載模擬器相關(guān)資源 , 下載完成后可以通過(guò)瀏覽器連接遠(yuǎn)程模擬器 ; ? 點(diǎn)擊 HV

發(fā)表于 01-26 15:02 ?2288次閱讀

【鴻蒙 HarmonyOS】鴻蒙手機(jī)<b class='flag-5'>模擬器</b> ( 鴻蒙遠(yuǎn)程<b class='flag-5'>模擬器</b> | 鴻蒙遠(yuǎn)程<b class='flag-5'>模擬器</b>運(yùn)行手機(jī)應(yīng)用 )

坐標(biāo)機(jī)械手配件有哪些？

直線模組是一種常見的機(jī)械傳動(dòng)裝置，廣泛應(yīng)用于機(jī)械手等自動(dòng)化設(shè)備中，在機(jī)械手中的主要作用是實(shí)現(xiàn)機(jī)械手

發(fā)表于 12-07 17:38 ?828次閱讀

滾珠螺桿在注塑機(jī)械手中起什么作用？

注塑機(jī)械手的配件中滾珠螺桿是重要的一環(huán)，在注塑機(jī)械手中起著重要的作用。注塑機(jī)械手是一種自動(dòng)化設(shè)備，可以在

發(fā)表于 11-13 17:41 ?544次閱讀

什么是光伏模擬器？光伏模擬器能做什么？

什么是光伏模擬器？光伏模擬器能做什么？光伏模擬器是一種用來(lái)模擬太陽(yáng)能光伏電池的工作原理和性能的軟硬件設(shè)備。它可以提供光伏電池在不同光照、溫

發(fā)表于 11-10 15:57 ?1357次閱讀

什么是強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一，它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列，是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。在圍棋

發(fā)表于 10-30 11:36 ?3754次閱讀

搜索歷史