夜月直播视频直播免费观看,久久嫩草影院免费看夜色

之前在DOTA2團(tuán)隊(duì)?wèi)?zhàn)中戰(zhàn)勝人類玩家的OpenAI Five，現(xiàn)在被用于訓(xùn)練機(jī)器手，取得了前所未有的靈活度。這只機(jī)器手完全在虛擬環(huán)境中自我學(xué)習(xí)和訓(xùn)練，然后成功遷移到現(xiàn)實(shí)世界解決實(shí)際問(wèn)題。OpenAI使用6144個(gè)CPU和8個(gè)GPU來(lái)訓(xùn)練，50小時(shí)內(nèi)收集了大約100年的經(jīng)驗(yàn)。

還記得OpenAI那個(gè)在DOTA2有限制5v5團(tuán)戰(zhàn)中戰(zhàn)勝人類玩家的OpenAI Five嗎？

這次，OpenAI的研究人員將同樣的算法和同樣的代碼用在了訓(xùn)練機(jī)器手上，所得到的機(jī)器手能以前所未有的靈活度操縱立方體、圓柱體等物體。

Dactyl自主學(xué)習(xí)的靈巧操作行為

這個(gè)系統(tǒng)名為Dactyl，與其他機(jī)器人系統(tǒng)不同的地方在于，它完全在模擬環(huán)境中進(jìn)行訓(xùn)練，并將其虛擬世界中得到的知識(shí)轉(zhuǎn)化為現(xiàn)實(shí)，并且適應(yīng)現(xiàn)實(shí)世界的物理學(xué)。所有的行為都是自主發(fā)現(xiàn)的。

研究人員表示，他們的結(jié)果表明，完全可以在純模擬環(huán)境中訓(xùn)練智能體，無(wú)需對(duì)現(xiàn)實(shí)世界進(jìn)行精確的物理建模（一項(xiàng)極端復(fù)雜且浩大的工程），就能讓智能體解決實(shí)際的任務(wù)。

雖然 Dactyl 機(jī)器手跟人手相比仍有一定距離，但這項(xiàng)工作表明，機(jī)器學(xué)習(xí)有可能解鎖機(jī)器新的能力——將來(lái)，AI完全可以在虛擬世界中自己教自己新的技能，大大加快學(xué)習(xí)速度，然后轉(zhuǎn)移至物理世界。

OpenAI還在這次研究中發(fā)現(xiàn)了一些令他們感到意外的結(jié)果：

首先，觸覺(jué)感應(yīng)對(duì)于操縱現(xiàn)實(shí)世界物體并不是必要的。Dactyl 機(jī)器手操縱只接收五個(gè)指尖的位置以及立方體的位置和方向。有限的傳感器可以獲得更好的性能，因?yàn)檫@些傳感器可以在模擬器中有效建模，由很多傳感器組成的傳感器組建模起來(lái)非常復(fù)雜。

其次，為一個(gè)對(duì)象開發(fā)的隨機(jī)化（Randomizations）也能推廣到具有類似屬性的其他對(duì)象身上。在玩轉(zhuǎn)立方體后，OpenAI的研究人員打印了一個(gè)八角棱鏡，結(jié)果 Dactyl 機(jī)器手僅使用他們?yōu)榱⒎襟w設(shè)計(jì)的隨機(jī)化就實(shí)現(xiàn)了高的性能。不過(guò)，操縱球體還略有難度，可能是因?yàn)樗麄儧](méi)有隨機(jī)化模擬滾動(dòng)行為的參數(shù)。

此外，對(duì)于現(xiàn)實(shí)世界的機(jī)器人來(lái)說(shuō)，要讓運(yùn)作性能高，好的系統(tǒng)工程與好的算法同等重要。

減少反應(yīng)時(shí)間并沒(méi)有改善性能。傳統(tǒng)觀點(diǎn)認(rèn)為，減少動(dòng)作之間的時(shí)間應(yīng)該可以提高性能，因?yàn)闋顟B(tài)之間的變化更小，因此更容易預(yù)測(cè)。但實(shí)驗(yàn)中，研究人員將機(jī)器手動(dòng)作之間的時(shí)間減少到 40ms，訓(xùn)練時(shí)間反而變長(zhǎng)，而且沒(méi)有顯著改善其在現(xiàn)實(shí)世界中的性能。他們得出的結(jié)論是，這種經(jīng)驗(yàn)法則可能適用于線性模型，但可能不太適用于神經(jīng)網(wǎng)絡(luò)模型。

最后，使用真實(shí)數(shù)據(jù)來(lái)訓(xùn)練結(jié)果不一定更好。與模擬數(shù)據(jù)相比，真實(shí)數(shù)據(jù)有很明顯的缺點(diǎn)，比如跟蹤標(biāo)記的位置信息有延遲和測(cè)量誤差。更糟糕的是，實(shí)際配置的更改很容易讓實(shí)際數(shù)據(jù)變得無(wú)效，而且收集足夠多、足夠有用的數(shù)據(jù)十分困難。最終 Dactyl 機(jī)器手的視覺(jué)模型，是在沒(méi)有任何實(shí)際數(shù)據(jù)的情況下完成的。

機(jī)器手靈活控制物體有四大難點(diǎn)，一直未取得重大突破

Dactyl是一個(gè)使用Shadow Dexterous Hand操縱目標(biāo)的系統(tǒng)。我們將一個(gè)木塊或棱鏡這樣的物體放在Dactyl的手掌中，讓Dactyl將其重新定位至不同的方向;比如旋轉(zhuǎn)木塊，讓其新的一面朝上。網(wǎng)絡(luò)僅負(fù)責(zé)觀察指尖的坐標(biāo)以及來(lái)自三個(gè)普通RGB相機(jī)的圖像。

雖然第一個(gè)擬人化的機(jī)器手早在幾十年前就出現(xiàn)了，但如何利用這些手有效地操縱物體，一直是機(jī)器人控制領(lǐng)域內(nèi)的長(zhǎng)期挑戰(zhàn)。與運(yùn)動(dòng)之類的其他問(wèn)題不同，人們?cè)诶脗鹘y(tǒng)機(jī)器人方法實(shí)施靈巧的操作方面的進(jìn)展一直很緩慢，并且當(dāng)前的技術(shù)在操縱現(xiàn)實(shí)世界中的物體上仍然存在局限性。

要對(duì)機(jī)器手中的物體實(shí)施重新定向，需要解決以下問(wèn)題：

在現(xiàn)實(shí)世界中奏效。強(qiáng)化學(xué)習(xí)在模擬和視頻游戲中取得了許多成功，但在現(xiàn)實(shí)世界中取得的成果卻相對(duì)有限。我們?cè)谡鎸?shí)的機(jī)器人身上對(duì)Dactyl進(jìn)行了測(cè)試。

高維控制。Shadow Dexterous Hand的自由度為24，而一般的機(jī)器人手臂的自由度為7。

噪音和觀察部分目標(biāo)。 Dactyl是在真實(shí)世界中工作，因此必須處理噪聲和延遲的傳感器數(shù)據(jù)。當(dāng)指尖的傳感器被其他手指或物體遮擋時(shí)，Dactyl必須能夠處理不完整信息。像摩擦和滑動(dòng)等物理體系中的許多組成部分，是無(wú)法直接通過(guò)觀察得到的，必須由推理得出。

操縱多個(gè)對(duì)象。 Dactyl在設(shè)計(jì)上的高靈活性，足以重新定向多個(gè)目標(biāo)。也就是說(shuō)，我們的方法不能使用僅適用于特定形狀目標(biāo)的策略。

無(wú)需任何人工輸入：領(lǐng)域隨機(jī)化，再現(xiàn)模擬奇跡！

Dactyl完全是在模擬環(huán)境中學(xué)習(xí)如何解決目標(biāo)重定向任務(wù)（object reorientation task）的，無(wú)需任何的人工輸入。在此訓(xùn)練階段之后，學(xué)習(xí)策略會(huì)在沒(méi)有任何微調(diào)的情況下對(duì)真實(shí)機(jī)器人起一定作用。

在操縱機(jī)器人的學(xué)習(xí)方法方面，通常會(huì)面臨一個(gè)兩難的選擇。模擬的機(jī)器人可以輕松提供充足的數(shù)據(jù)來(lái)訓(xùn)練復(fù)雜的策略，但是大多數(shù)操作問(wèn)題都無(wú)法準(zhǔn)確地建模，從而無(wú)法使這些策略轉(zhuǎn)移到真實(shí)機(jī)器人身上。即使是對(duì)兩個(gè)物體接觸時(shí)發(fā)生的情況進(jìn)行建模（這是操作中最基本的問(wèn)題）也是一個(gè)活躍的研究領(lǐng)域，并且目前沒(méi)有廣泛統(tǒng)一且接受的解決方案。直接在物理機(jī)器人上展開訓(xùn)練可以讓策略從現(xiàn)實(shí)世界物理層面進(jìn)行學(xué)習(xí)，但現(xiàn)今的算法需要多年的經(jīng)驗(yàn)才能解決類似對(duì)象重定向這樣的問(wèn)題。

而領(lǐng)域隨機(jī)化（domain randomization）是在模擬中進(jìn)行學(xué)習(xí)的，旨在提供各種經(jīng)驗(yàn)而不是將現(xiàn)實(shí)進(jìn)行最大化。這種思路提供了最好的兩種方法：在模擬中學(xué)習(xí)，可以通過(guò)擴(kuò)展來(lái)快速收集更多的經(jīng)驗(yàn)；不強(qiáng)調(diào)現(xiàn)實(shí)主義，可以解決模擬器只能近似模擬的問(wèn)題。

利用MuJoCo物理引擎構(gòu)建機(jī)器人系統(tǒng)的模擬版本。這個(gè)模擬僅僅是真實(shí)機(jī)器人的粗略近似:

對(duì)摩擦、阻尼和滾動(dòng)阻力等物理屬性進(jìn)行測(cè)量是既麻煩又困難的。隨著機(jī)器人的磨損，這些屬性也會(huì)隨時(shí)間而改變。

MuJoCo是一個(gè)剛體模擬器，這意味著它不能模擬手指上或肌腱的拉伸時(shí)的可變形橡膠。

機(jī)器人只能通過(guò)反復(fù)接觸來(lái)操縱物體。然而，眾所周知，接觸力難以在模擬中準(zhǔn)確地再現(xiàn)。

通過(guò)校準(zhǔn)其參數(shù)來(lái)匹配機(jī)器人的行為，可以使模擬更加逼真，但在目前的模擬器中，許多這樣的效果是無(wú)法精確建模的。

相反，該方法是在模擬環(huán)境的分布上對(duì)策略進(jìn)行訓(xùn)練，其中物理和視覺(jué)屬性是隨機(jī)選擇的。隨機(jī)值是表示物理系統(tǒng)不確定性的一種自然方法，它還可以防止對(duì)單個(gè)模擬環(huán)境的過(guò)度擬合。如果策略可以在所有模擬環(huán)境中完成任務(wù)，則更有可能在現(xiàn)實(shí)世界中完成該任務(wù)。

6144個(gè)CPU和8個(gè)GPU，50小時(shí)內(nèi)收集大約100年的經(jīng)驗(yàn)

學(xué)習(xí)控制

通過(guò)構(gòu)建支持遷移的模擬，我們減輕了在現(xiàn)實(shí)世界中控制機(jī)器人來(lái)完成模擬任務(wù)的困難，這是一個(gè)非常適合強(qiáng)化學(xué)習(xí)的問(wèn)題。雖然用一只模擬的手來(lái)操縱物體這個(gè)任務(wù)已經(jīng)有些困難，但是要在所有隨機(jī)物理參數(shù)組合中學(xué)習(xí)進(jìn)行這樣的操作實(shí)際上要更加困難。

為了在不同環(huán)境中進(jìn)行推廣（generalize），策略可以在具有不同動(dòng)態(tài)的環(huán)境中執(zhí)行不同的操作。由于大多數(shù)動(dòng)力學(xué)參數(shù)不能從單個(gè)觀測(cè)中推斷出來(lái)，所以我們使用LSTM（一種具有記憶的神經(jīng)網(wǎng)絡(luò)）使網(wǎng)絡(luò)能夠了解環(huán)境的動(dòng)態(tài)。LSTM在模擬中實(shí)現(xiàn)的旋轉(zhuǎn)大約兩倍于不具有記憶的策略的旋轉(zhuǎn)。

Dactyl使用Rapid學(xué)習(xí)，這是一個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)，之前解決了Dota2的OpenAI Five使用的也是它。我們使用了與OpenAI Five不同的模型架構(gòu)、環(huán)境和超參數(shù)，但是使用的算法和訓(xùn)練代碼是完全相同的。Rapid使用6144個(gè)CPU內(nèi)核和8個(gè)GPU來(lái)訓(xùn)練我們的策略，在50小時(shí)內(nèi)收集了大約100年的經(jīng)驗(yàn)。

為了進(jìn)行開發(fā)和測(cè)試，我們使用嵌入式運(yùn)動(dòng)跟蹤傳感器來(lái)驗(yàn)證我們的控制策略，以分別了解控制策略和視覺(jué)網(wǎng)絡(luò)的性能。

學(xué)習(xí)觀察

Dactyl的設(shè)計(jì)目的是能夠操縱任意物體，而不僅僅是為了支持跟蹤進(jìn)行過(guò)特殊修改的物體。因此，Dactyl使用常規(guī)的RGB相機(jī)圖像來(lái)估計(jì)物體的位置和方向。

我們使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)姿態(tài)估計(jì)器（pose estimator）。神經(jīng)網(wǎng)絡(luò)從機(jī)器手周圍的三個(gè)攝像機(jī)中獲取視頻流，并輸出目標(biāo)的預(yù)估位置和方向。我們使用多臺(tái)攝像機(jī)來(lái)解決模糊和遮擋問(wèn)題。我們?cè)俅问褂肬nity游戲開發(fā)平臺(tái)，僅在模擬中使用域隨機(jī)化來(lái)訓(xùn)練這個(gè)網(wǎng)絡(luò)，該平臺(tái)可以模擬比Mujoco更廣泛的視覺(jué)現(xiàn)象。

控制網(wǎng)絡(luò)（control network）根據(jù)對(duì)象的姿態(tài)重新定位，視覺(jué)網(wǎng)絡(luò)（vision network）將圖像從攝像機(jī)映射到對(duì)象的姿態(tài)，通過(guò)結(jié)合這兩個(gè)獨(dú)立的網(wǎng)絡(luò)，Dactyl可以通過(guò)觀察來(lái)操縱對(duì)象。

用于學(xué)習(xí)估計(jì)立方塊的姿勢(shì)的訓(xùn)練示例

所有行為都由機(jī)器自主發(fā)現(xiàn)，采用與人不同的策略

在部署系統(tǒng)時(shí)，我們注意到Dactyl使用了一組多樣的靈巧操作策略來(lái)解決任務(wù)。這些策略也是人類經(jīng)常使用的。但是，我們并沒(méi)有明確地將這些策略教給系統(tǒng)；所有的行為都是自主發(fā)現(xiàn)的。

Dactyl自主學(xué)習(xí)的靈巧操作行為

Dactyl根據(jù)GRASP分類法了解類型。從左上到右下分別是：指尖捏、掌心捏、三指握、四指握、強(qiáng)力抓握、五指精準(zhǔn)抓握。

我們觀察到，對(duì)于精準(zhǔn)抓握，比如指尖捏，Dactyl會(huì)使用拇指和小指。人類則傾向于使用拇指和食指或拇指和中指。然而，由于由額外的自由度，機(jī)器手的小指更加靈活，這也許可以解釋為什么Dactyl更喜歡用小指。這意味著Dactyl可以調(diào)整人類的策略，以更好地適應(yīng)自身的局限性和能力。

改變實(shí)驗(yàn)方式時(shí)的表現(xiàn)

我們測(cè)試了Dactyl在掉落物體、超時(shí)或成功翻轉(zhuǎn)目標(biāo)50次前的成功翻轉(zhuǎn)次數(shù)。我們?cè)诩兡M訓(xùn)練的結(jié)果表明，該策略能夠成功操縱現(xiàn)實(shí)世界中的目標(biāo)。

我們?cè)趯?shí)驗(yàn)室中使用Shadow Dexterous Hand、PhaseSpace動(dòng)作跟蹤相機(jī)和Basler RGB相機(jī)進(jìn)行實(shí)驗(yàn)。

對(duì)于操作立方體的任務(wù)而言，使用隨機(jī)化訓(xùn)練的策略可能比未隨機(jī)化訓(xùn)練的策略實(shí)現(xiàn)更多的翻轉(zhuǎn)次數(shù)，具體結(jié)果如下表所示。此外，使用由視覺(jué)估計(jì)姿態(tài)的控制網(wǎng)絡(luò)的表現(xiàn)，幾乎與直接從運(yùn)動(dòng)跟蹤傳感器中讀取數(shù)據(jù)的網(wǎng)絡(luò)一樣好。

隨機(jī)化情況	目標(biāo)跟蹤方式	最大成功翻轉(zhuǎn)次數(shù)	成功次數(shù)中位數(shù)
全部隨機(jī)化	視覺(jué)跟蹤	46	11.5
全部隨機(jī)化	運(yùn)動(dòng)跟蹤	50	13
未隨機(jī)化	運(yùn)動(dòng)跟蹤	6	0

學(xué)習(xí)過(guò)程

為了讓我們的策略在面向不同的物理動(dòng)態(tài)目標(biāo)時(shí)變得更加強(qiáng)大，OpenAI研究人員將絕大部分的訓(xùn)練時(shí)間花費(fèi)在這件事上。在沒(méi)有隨機(jī)化的情況下，要在模擬實(shí)驗(yàn)中學(xué)會(huì)翻轉(zhuǎn)立方體需要大約3年時(shí)間。在完全隨機(jī)化模擬實(shí)驗(yàn)中，實(shí)現(xiàn)類似的目標(biāo)性能則需要大約100年。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2542

文章
50279

瀏覽量
750217
智能體

智能體

+關(guān)注

關(guān)注
1

文章
121

瀏覽量
10547
機(jī)器手

機(jī)器手

+關(guān)注

關(guān)注
0

文章
12

瀏覽量
2579

原文標(biāo)題：【2天=100年】OpenAI用打Dota2的算法造了一只會(huì)轉(zhuǎn)方塊的機(jī)器手

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

中國(guó)大陸AMOLED DDIC將于2024年迎來(lái)前所未有的需求高峰

　在全球顯示技術(shù)的浪潮中，OLED顯示驅(qū)動(dòng)芯片（DDIC）市場(chǎng)正步入一個(gè)需求井噴的新階段，尤以智能手機(jī)領(lǐng)域的AMOLED DDIC市場(chǎng)為甚，預(yù)計(jì)其將于2024年迎來(lái)前所未有的需求高峰。這一趨勢(shì)中，中國(guó)大陸廠商的表現(xiàn)尤為搶眼，成為推動(dòng)市場(chǎng)增長(zhǎng)的重要力量。

發(fā)表于 08-27 14:35 ?759次閱讀

OpenAI今年收支缺口或達(dá)50億美元

科技界巨頭OpenAI正面臨前所未有的財(cái)務(wù)挑戰(zhàn)，據(jù)最新估算，其今年收支缺口可能高達(dá)驚人的50億美元。這一數(shù)字不僅凸顯了公司在推動(dòng)人工智能前沿技術(shù)上的巨大投入，也反映了其商業(yè)化進(jìn)程中的艱巨任務(wù)。

發(fā)表于 07-26 17:00 ?470次閱讀

創(chuàng)意挑戰(zhàn)丨從0自制“自平衡立方體”（分享開源資料）

立方體的機(jī)械設(shè)計(jì)與最初的 Cubli 基本相同，但也有一些細(xì)微的差別。主體結(jié)構(gòu)由八個(gè)轉(zhuǎn)角組件和六塊面板組成。其中三塊面板具有額外的功能，可支持電機(jī)和反作用力輪組件。所有部件都是在Fusion360中繪制的。我的學(xué)生時(shí)代已經(jīng)結(jié)束，因此不得不告別西門子NX。

發(fā)表于 06-19 15:06 ?828次閱讀

創(chuàng)意挑戰(zhàn)丨從0自制“自平衡<b class='flag-5'>立方體</b>”（分享開源資料）

創(chuàng)意挑戰(zhàn)丨從0自制“自平衡立方體”（分享開源資料）

一個(gè)非常有意思的項(xiàng)目，利用反作用力輪保持平衡的立方體！項(xiàng)目概覽這個(gè)立方體能夠在頂點(diǎn)處保持平衡，同時(shí)還能以受控方式繞軸旋轉(zhuǎn)。這一功能是通過(guò)巧妙地控制和一組三個(gè)反作用力輪來(lái)實(shí)現(xiàn)的。這個(gè)裝置

發(fā)表于 06-19 14:00

基于超導(dǎo)納米線單光子探測(cè)器的40萬(wàn)像素相機(jī)提供前所未有的宇宙視野

一臺(tái)基于超導(dǎo)納米線單光子探測(cè)器（SNSPD）的40萬(wàn)像素相機(jī)為天文學(xué)和量子技術(shù)應(yīng)用提供了前所未有的低噪聲、高分辨率成像能力。在探索遙遠(yuǎn)恒星和系外行星等微弱天體的過(guò)程中，捕捉每一個(gè)光子對(duì)于最大

發(fā)表于 06-04 09:46 ?1.6w次閱讀

OpenAI推出ChatGPT實(shí)時(shí)數(shù)據(jù)分析新功能

近日，OpenAI在ChatGPT中推出了令人矚目的實(shí)時(shí)數(shù)據(jù)分析新功能。這一創(chuàng)新功能為用戶提供了前所未有的數(shù)據(jù)處理體驗(yàn)，極大地提升了數(shù)據(jù)處理的便捷性。

發(fā)表于 05-20 11:28 ?534次閱讀

Figure首發(fā)OpenAI大模型加持的機(jī)器人

近日，機(jī)器人初創(chuàng)公司Figure在業(yè)界引起了廣泛關(guān)注，該公司成功發(fā)布了首個(gè)由OpenAI大模型加持的機(jī)器人demo。這一創(chuàng)新成果不僅展示了Figure在機(jī)器人技術(shù)領(lǐng)域的深厚實(shí)力，也為整

發(fā)表于 03-16 14:21 ?994次閱讀