国产精品国产三级国产普通,久久性网

在這篇博文中，伯克利人工智能實(shí)驗(yàn)室的科學(xué)家們將展示深度強(qiáng)化學(xué)習(xí)將如何控制機(jī)械臂的靈活動作。另外還會討論如何用低成本的硬件，高效地使用強(qiáng)化學(xué)習(xí)，以及如何能加速學(xué)習(xí)速度。以下是論智帶來的編譯。

為什么用機(jī)械抓手？

目前市面上大部分機(jī)器人都是用簡單的抓手進(jìn)行控制，對工廠來說已經(jīng)足夠了。但是，對于非結(jié)構(gòu)化的、以人為中心的環(huán)境（例如家庭），能進(jìn)行多任務(wù)的操控器是非常重要的。多手指的機(jī)械手是最常見的操控器之一，它能完成多種日常生活中的動作，例如移動物體、開門、打字、繪畫等。

但是，控制靈活的機(jī)械手非常困難。其中精密的傳感器和驅(qū)動器使得高級機(jī)械手價(jià)格很高。深度強(qiáng)化學(xué)習(xí)的出現(xiàn)能在便宜的硬件上實(shí)現(xiàn)復(fù)雜任務(wù)的自動控制，但是很多深度強(qiáng)化學(xué)習(xí)應(yīng)用都需要大量模擬數(shù)據(jù)，這讓他們在成本和安裝上都很復(fù)雜。人類可以快速學(xué)習(xí)各種動作，無需大量的動作示例。我們首先會展示深度強(qiáng)化學(xué)習(xí)是如果通過在現(xiàn)實(shí)世界中的訓(xùn)練而用于學(xué)習(xí)復(fù)雜操控行為的，無需任何模型或模擬器，使用低廉的機(jī)器人硬件。之后，我們會展示加入額外的監(jiān)督機(jī)制，包括示范和模擬，從而能加速學(xué)習(xí)的時(shí)間。我們在兩個(gè)硬件平臺上進(jìn)行學(xué)習(xí)：一個(gè)是有三根手指的簡易機(jī)械手，價(jià)格不到2500美元。另一個(gè)是高級的Allegro機(jī)械手，價(jià)格為15000美元。

現(xiàn)實(shí)中的無模型強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)算法通過試錯(cuò)法進(jìn)行學(xué)習(xí)，從經(jīng)驗(yàn)中將獎勵函數(shù)最大化。我們將用一個(gè)氣門轉(zhuǎn)動任務(wù)當(dāng)做示范，閥門或者水龍頭必須旋轉(zhuǎn)180°才能開啟。

獎勵函數(shù)僅僅是目前閥門的方向和目標(biāo)位置之間的負(fù)面距離，機(jī)器人手臂必須自己思考如何移動旋轉(zhuǎn)。深度強(qiáng)化學(xué)習(xí)的中心問題是如何利用微弱的獎勵信號找到能讓該任務(wù)成功的復(fù)雜且協(xié)調(diào)的行為策略。該策略由一個(gè)多層神經(jīng)網(wǎng)絡(luò)表示，通常這需要大量實(shí)驗(yàn)，由于數(shù)量太多，領(lǐng)域內(nèi)專業(yè)人士都在討論深度強(qiáng)化學(xué)習(xí)方法能否用于模擬之外的訓(xùn)練。然而，這樣會對模型的可用性施加很多限制：在現(xiàn)實(shí)環(huán)境中直接學(xué)習(xí)可以從經(jīng)驗(yàn)中學(xué)到任意一種任務(wù)，然而用使用模擬器則需要設(shè)計(jì)合適的示例，對任務(wù)和機(jī)器人進(jìn)行建模，并仔細(xì)調(diào)整它們的參數(shù)，以實(shí)現(xiàn)良好結(jié)果。首先，我們將證明現(xiàn)有的強(qiáng)化學(xué)習(xí)算法是可以直接在真是硬件上直接學(xué)習(xí)這一任務(wù)的。

我們用Truncated Natural Policy Gradient來學(xué)習(xí)這一任務(wù)，在真實(shí)硬件上需要大約9個(gè)小時(shí)。

直接的強(qiáng)化學(xué)習(xí)方法很有吸引力，它無需過多假設(shè)，而且能自動掌握很多技能。由于這種方法除了建立函數(shù)無需其他信息，所以很容易在改進(jìn)后的環(huán)境中重新學(xué)習(xí)技能，例如更換了目標(biāo)物體或機(jī)械手。

下圖用了不同的材料（海綿），也能使用一樣的方法讓機(jī)械手學(xué)習(xí)旋轉(zhuǎn)閥門。如果用模擬法，很難精確學(xué)習(xí)，而直接在現(xiàn)實(shí)中訓(xùn)練可以不需要精確的示范。

另一個(gè)任務(wù)是在水平平面上翻轉(zhuǎn)180°的板子，在沒有模擬案例的情況下，用了8小時(shí)解決了這一問題。

這些行為都是在不到2500美元的設(shè)備上實(shí)現(xiàn)的，另外還有一臺定制的臺式機(jī)。

用人類示范加速學(xué)習(xí)

無需模型的強(qiáng)化學(xué)習(xí)可以很通用，但是假如人類專家在其中加入監(jiān)督，將更有助于學(xué)習(xí)速度的加快。具體方法可以參考我們的論文Demonstration Augmented Policy Gradient(DAPG)。DAPG背后的思想是，人類示范可以從兩方面加速強(qiáng)化學(xué)習(xí)：

通過行為克隆對策略提供好的初始狀態(tài)

在學(xué)習(xí)過程中添加輔助學(xué)習(xí)信號，用輔助獎勵引導(dǎo)研究探索

強(qiáng)化學(xué)習(xí)中的輔助目標(biāo)能阻止策略在強(qiáng)化學(xué)習(xí)過程中偏離示范。用有限的數(shù)據(jù)克隆的純粹行為通常無法訓(xùn)練成功的策略，因?yàn)榉植计詈陀邢薜臄?shù)據(jù)支持。強(qiáng)化學(xué)習(xí)對魯棒性和泛化很重要，利用示范的確可以加速學(xué)習(xí)過程。下圖是我們在不同任務(wù)上做出的驗(yàn)證：

在現(xiàn)實(shí)世界，我們能用帶有多功能傳感器的抓手和算法顯著加快學(xué)習(xí)速度。下面的示例中，是人類老師直接移動機(jī)器人的手指，結(jié)果將訓(xùn)練時(shí)間減少到了4個(gè)小時(shí)以下。

示范將人類的先驗(yàn)知識用一種自然的方式結(jié)合到了算法中，并且加速學(xué)習(xí)過程。然而，并不是所有任務(wù)都能用示范加速，我們還需要尋找其他替代的加速方法。

通過模仿加速學(xué)習(xí)

某種任務(wù)的模擬模型能通過大量的模擬數(shù)據(jù)對顯示數(shù)據(jù)進(jìn)行增強(qiáng)。對于要表示現(xiàn)實(shí)世界復(fù)雜性的莫數(shù)據(jù)，通常需要對多種模擬參數(shù)進(jìn)行隨機(jī)選擇。此前的研究證明這樣的隨機(jī)結(jié)果有助于產(chǎn)生穩(wěn)定的策略，可以用于人臉的遷移。我們的實(shí)驗(yàn)也證明了用隨機(jī)數(shù)據(jù)從模擬到現(xiàn)實(shí)的遷移很有效。

雖然對脆弱的機(jī)器人來說，通過隨機(jī)化進(jìn)行遷移是很不錯(cuò)的選擇，但這種方法會有幾點(diǎn)弊端。首先，由于是隨機(jī)的，最終策略會過于保守。另外，參數(shù)的選擇也是產(chǎn)生好結(jié)果的重要一點(diǎn)，某一領(lǐng)域中好的結(jié)果也許不能遷移到其他領(lǐng)域中，第三，在復(fù)雜模型中增加了大量隨機(jī)的結(jié)果，會使得訓(xùn)練時(shí)間大大增加，也需要更多計(jì)算量。最后，可能也是最重要的一點(diǎn)，一個(gè)精準(zhǔn)的模擬器必須手動搭建，進(jìn)行每項(xiàng)新任務(wù)時(shí)都要手動調(diào)整，需要很多時(shí)間。

用學(xué)習(xí)過的模型加速學(xué)習(xí)

此前，我們同樣研究了經(jīng)過學(xué)習(xí)的動態(tài)模型是如何加速現(xiàn)實(shí)中強(qiáng)化學(xué)習(xí)的，同時(shí)無需手動調(diào)整模擬器。用這種方法，動態(tài)模型中的局部導(dǎo)數(shù)能近似計(jì)算出來，可以對局部進(jìn)行迭代優(yōu)化策略。這種方法能從現(xiàn)實(shí)中獲得多種隨時(shí)可用的操控策略。另外，我們可以看到算法還能在軟體機(jī)器人抓手上學(xué)會控制動作。

然而，這種方法的表現(xiàn)也受到模型質(zhì)量的影響，未來會朝著基于模型的強(qiáng)化學(xué)習(xí)的方向研究。

結(jié)語

雖然現(xiàn)實(shí)環(huán)境中的訓(xùn)練很普遍，但它仍有幾處挑戰(zhàn)：

由于需要進(jìn)行大量探索行為，我們發(fā)現(xiàn)機(jī)械抓手很快就會發(fā)熱，所以需要時(shí)間暫停，以免造成損壞。

由于抓手要處理多種任務(wù)，我們需要搭建一個(gè)自動重啟裝置。未來如果想取消這一裝置，就需要自動學(xué)習(xí)如何重啟了。

強(qiáng)化學(xué)習(xí)方法需要提供獎勵，而這一獎勵需要手動設(shè)計(jì)。最近我們正在研究自動獎勵機(jī)制。

但是，讓機(jī)器人直接從真實(shí)世界學(xué)習(xí)復(fù)雜技巧是創(chuàng)建完全通用的機(jī)器人的必經(jīng)之路。和人類學(xué)習(xí)一樣，機(jī)器人也可以通過簡單的試錯(cuò)獲取技巧。同時(shí)加上示范、模擬器和先驗(yàn)知識，可以大大減少訓(xùn)練時(shí)間。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4726

瀏覽量
100315
機(jī)械臂

機(jī)械臂

+關(guān)注

關(guān)注
12

文章
504

瀏覽量
24415
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
264

瀏覽量
11182

原文標(biāo)題：強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)例：讓機(jī)械手靈活多變的高效通用法

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知，人類擅長解決各種挑戰(zhàn)性的問題，從低級的運(yùn)動控制(如：步行、跑步、打網(wǎng)球)到高級的認(rèn)知任務(wù)。

發(fā)表于 07-01 10:29 ?1370次閱讀

什么是<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

一：深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn)：1 月 15日— 1 月18 日二：深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn)： 1 月 27 日— 1 月30 日(第一天報(bào)到授課三天；提前

發(fā)表于 01-10 13:42

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

深度強(qiáng)化學(xué)習(xí)DRL自提出以來，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo，將深

發(fā)表于 06-29 18:36 ?2.8w次閱讀

薩頓科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)，并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向

薩頓在專訪中（再次）科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)，并談到了這項(xiàng)技術(shù)的潛力，以及接下來的發(fā)展方向：預(yù)測學(xué)習(xí)

發(fā)表于 12-27 09:07 ?1.1w次閱讀

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎勵信號（強(qiáng)化信號）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督

發(fā)表于 05-30 06:53 ?1380次閱讀

如何使用深度強(qiáng)化學(xué)習(xí)進(jìn)行機(jī)械臂視覺抓取控制的優(yōu)化方法概述

針對提高視覺圖像特征與優(yōu)化控制之間契合度的問題，本文提出一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂視覺抓取控制

發(fā)表于 12-19 15:23 ?22次下載

深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載

本文檔的主要內(nèi)容詳細(xì)介紹的是深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載。

發(fā)表于 03-10 08:00 ?0次下載

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分，都已經(jīng)

發(fā)表于 06-13 11:39 ?5942次閱讀

基于深度強(qiáng)化學(xué)習(xí)的路口單交叉信號控制

利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)路口信號控制是智能交通領(lǐng)域的硏究熱點(diǎn)?，F(xiàn)有硏究大多利用強(qiáng)化學(xué)習(xí)來全面刻畫交通狀態(tài)以及設(shè)計(jì)有效強(qiáng)化學(xué)習(xí)算法以解決信號配

發(fā)表于 04-23 15:30 ?21次下載

基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

壓邊為改善板料拉深制造的成品質(zhì)量，釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限元仿真集成的壓邊力

發(fā)表于 05-27 10:32 ?0次下載

基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法

基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法

發(fā)表于 06-23 14:59 ?46次下載

《自動化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

多Agent 深度強(qiáng)化學(xué)習(xí)綜述來源：《自動化學(xué)報(bào)》，作者梁星星等摘要?近年來,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement le

發(fā)表于 01-18 10:08 ?1523次閱讀

ESP32上的深度強(qiáng)化學(xué)習(xí)

電子發(fā)燒友網(wǎng)站提供《ESP32上的深度強(qiáng)化學(xué)習(xí).zip》資料免費(fèi)下載

發(fā)表于 12-27 10:31 ?0次下載

基于深度強(qiáng)化學(xué)習(xí)的視覺反饋機(jī)械臂抓取系統(tǒng)

機(jī)械臂抓取擺放及堆疊物體是智能工廠流水線上常見的工序，可以有效的提升生產(chǎn)效率，本文針對機(jī)械臂的抓取擺放、抓取堆疊等常見任務(wù)，結(jié)合深度

發(fā)表于 06-12 11:25 ?2068次閱讀

模擬矩陣在深度強(qiáng)化學(xué)習(xí)智能控制系統(tǒng)中的應(yīng)用

訊維模擬矩陣在深度強(qiáng)化學(xué)習(xí)智能控制系統(tǒng)中的應(yīng)用主要是通過構(gòu)建一個(gè)包含多種環(huán)境信息和動作空間的模擬矩陣，來模擬和預(yù)測深度

發(fā)表于 09-04 14:26 ?521次閱讀