0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度強(qiáng)化學(xué)習(xí)將如何控制機(jī)械臂的靈活動作

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-05 08:54 ? 次閱讀

在這篇博文中,伯克利人工智能實(shí)驗(yàn)室的科學(xué)家們將展示深度強(qiáng)化學(xué)習(xí)將如何控制機(jī)械臂的靈活動作。另外還會討論如何用低成本的硬件,高效地使用強(qiáng)化學(xué)習(xí),以及如何能加速學(xué)習(xí)速度。以下是論智帶來的編譯。

為什么用機(jī)械抓手?

目前市面上大部分機(jī)器人都是用簡單的抓手進(jìn)行控制,對工廠來說已經(jīng)足夠了。但是,對于非結(jié)構(gòu)化的、以人為中心的環(huán)境(例如家庭),能進(jìn)行多任務(wù)的操控器是非常重要的。多手指的機(jī)械手是最常見的操控器之一,它能完成多種日常生活中的動作,例如移動物體、開門、打字、繪畫等。

但是,控制靈活的機(jī)械手非常困難。其中精密的傳感器驅(qū)動器使得高級機(jī)械手價(jià)格很高。深度強(qiáng)化學(xué)習(xí)的出現(xiàn)能在便宜的硬件上實(shí)現(xiàn)復(fù)雜任務(wù)的自動控制,但是很多深度強(qiáng)化學(xué)習(xí)應(yīng)用都需要大量模擬數(shù)據(jù),這讓他們在成本和安裝上都很復(fù)雜。人類可以快速學(xué)習(xí)各種動作,無需大量的動作示例。 我們首先會展示深度強(qiáng)化學(xué)習(xí)是如果通過在現(xiàn)實(shí)世界中的訓(xùn)練而用于學(xué)習(xí)復(fù)雜操控行為的,無需任何模型或模擬器,使用低廉的機(jī)器人硬件。之后,我們會展示加入額外的監(jiān)督機(jī)制,包括示范和模擬,從而能加速學(xué)習(xí)的時(shí)間。我們在兩個(gè)硬件平臺上進(jìn)行學(xué)習(xí):一個(gè)是有三根手指的簡易機(jī)械手,價(jià)格不到2500美元。另一個(gè)是高級的Allegro機(jī)械手,價(jià)格為15000美元。

現(xiàn)實(shí)中的無模型強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)算法通過試錯(cuò)法進(jìn)行學(xué)習(xí),從經(jīng)驗(yàn)中將獎勵函數(shù)最大化。我們將用一個(gè)氣門轉(zhuǎn)動任務(wù)當(dāng)做示范,閥門或者水龍頭必須旋轉(zhuǎn)180°才能開啟。

獎勵函數(shù)僅僅是目前閥門的方向和目標(biāo)位置之間的負(fù)面距離,機(jī)器人手臂必須自己思考如何移動旋轉(zhuǎn)。深度強(qiáng)化學(xué)習(xí)的中心問題是如何利用微弱的獎勵信號找到能讓該任務(wù)成功的復(fù)雜且協(xié)調(diào)的行為策略。該策略由一個(gè)多層神經(jīng)網(wǎng)絡(luò)表示,通常這需要大量實(shí)驗(yàn),由于數(shù)量太多,領(lǐng)域內(nèi)專業(yè)人士都在討論深度強(qiáng)化學(xué)習(xí)方法能否用于模擬之外的訓(xùn)練。然而,這樣會對模型的可用性施加很多限制:在現(xiàn)實(shí)環(huán)境中直接學(xué)習(xí)可以從經(jīng)驗(yàn)中學(xué)到任意一種任務(wù),然而用使用模擬器則需要設(shè)計(jì)合適的示例,對任務(wù)和機(jī)器人進(jìn)行建模,并仔細(xì)調(diào)整它們的參數(shù),以實(shí)現(xiàn)良好結(jié)果。首先,我們將證明現(xiàn)有的強(qiáng)化學(xué)習(xí)算法是可以直接在真是硬件上直接學(xué)習(xí)這一任務(wù)的。

我們用Truncated Natural Policy Gradient來學(xué)習(xí)這一任務(wù),在真實(shí)硬件上需要大約9個(gè)小時(shí)。

直接的強(qiáng)化學(xué)習(xí)方法很有吸引力,它無需過多假設(shè),而且能自動掌握很多技能。由于這種方法除了建立函數(shù)無需其他信息,所以很容易在改進(jìn)后的環(huán)境中重新學(xué)習(xí)技能,例如更換了目標(biāo)物體或機(jī)械手。

下圖用了不同的材料(海綿),也能使用一樣的方法讓機(jī)械手學(xué)習(xí)旋轉(zhuǎn)閥門。如果用模擬法,很難精確學(xué)習(xí),而直接在現(xiàn)實(shí)中訓(xùn)練可以不需要精確的示范。

另一個(gè)任務(wù)是在水平平面上翻轉(zhuǎn)180°的板子,在沒有模擬案例的情況下,用了8小時(shí)解決了這一問題。

這些行為都是在不到2500美元的設(shè)備上實(shí)現(xiàn)的,另外還有一臺定制的臺式機(jī)。

用人類示范加速學(xué)習(xí)

無需模型的強(qiáng)化學(xué)習(xí)可以很通用,但是假如人類專家在其中加入監(jiān)督,將更有助于學(xué)習(xí)速度的加快。具體方法可以參考我們的論文Demonstration Augmented Policy Gradient(DAPG)。DAPG背后的思想是,人類示范可以從兩方面加速強(qiáng)化學(xué)習(xí):

通過行為克隆對策略提供好的初始狀態(tài)

在學(xué)習(xí)過程中添加輔助學(xué)習(xí)信號,用輔助獎勵引導(dǎo)研究探索

強(qiáng)化學(xué)習(xí)中的輔助目標(biāo)能阻止策略在強(qiáng)化學(xué)習(xí)過程中偏離示范。用有限的數(shù)據(jù)克隆的純粹行為通常無法訓(xùn)練成功的策略,因?yàn)榉植计詈陀邢薜臄?shù)據(jù)支持。強(qiáng)化學(xué)習(xí)對魯棒性和泛化很重要,利用示范的確可以加速學(xué)習(xí)過程。下圖是我們在不同任務(wù)上做出的驗(yàn)證:

在現(xiàn)實(shí)世界,我們能用帶有多功能傳感器的抓手和算法顯著加快學(xué)習(xí)速度。下面的示例中,是人類老師直接移動機(jī)器人的手指,結(jié)果將訓(xùn)練時(shí)間減少到了4個(gè)小時(shí)以下。

示范將人類的先驗(yàn)知識用一種自然的方式結(jié)合到了算法中,并且加速學(xué)習(xí)過程。然而,并不是所有任務(wù)都能用示范加速,我們還需要尋找其他替代的加速方法。

通過模仿加速學(xué)習(xí)

某種任務(wù)的模擬模型能通過大量的模擬數(shù)據(jù)對顯示數(shù)據(jù)進(jìn)行增強(qiáng)。對于要表示現(xiàn)實(shí)世界復(fù)雜性的莫數(shù)據(jù),通常需要對多種模擬參數(shù)進(jìn)行隨機(jī)選擇。此前的研究證明這樣的隨機(jī)結(jié)果有助于產(chǎn)生穩(wěn)定的策略,可以用于人臉的遷移。我們的實(shí)驗(yàn)也證明了用隨機(jī)數(shù)據(jù)從模擬到現(xiàn)實(shí)的遷移很有效。

雖然對脆弱的機(jī)器人來說,通過隨機(jī)化進(jìn)行遷移是很不錯(cuò)的選擇,但這種方法會有幾點(diǎn)弊端。首先,由于是隨機(jī)的,最終策略會過于保守。另外,參數(shù)的選擇也是產(chǎn)生好結(jié)果的重要一點(diǎn),某一領(lǐng)域中好的結(jié)果也許不能遷移到其他領(lǐng)域中,第三,在復(fù)雜模型中增加了大量隨機(jī)的結(jié)果,會使得訓(xùn)練時(shí)間大大增加,也需要更多計(jì)算量。最后,可能也是最重要的一點(diǎn),一個(gè)精準(zhǔn)的模擬器必須手動搭建,進(jìn)行每項(xiàng)新任務(wù)時(shí)都要手動調(diào)整,需要很多時(shí)間。

用學(xué)習(xí)過的模型加速學(xué)習(xí)

此前,我們同樣研究了經(jīng)過學(xué)習(xí)的動態(tài)模型是如何加速現(xiàn)實(shí)中強(qiáng)化學(xué)習(xí)的,同時(shí)無需手動調(diào)整模擬器。用這種方法,動態(tài)模型中的局部導(dǎo)數(shù)能近似計(jì)算出來,可以對局部進(jìn)行迭代優(yōu)化策略。這種方法能從現(xiàn)實(shí)中獲得多種隨時(shí)可用的操控策略。另外,我們可以看到算法還能在軟體機(jī)器人抓手上學(xué)會控制動作。

然而,這種方法的表現(xiàn)也受到模型質(zhì)量的影響,未來會朝著基于模型的強(qiáng)化學(xué)習(xí)的方向研究。

結(jié)語

雖然現(xiàn)實(shí)環(huán)境中的訓(xùn)練很普遍,但它仍有幾處挑戰(zhàn):

由于需要進(jìn)行大量探索行為,我們發(fā)現(xiàn)機(jī)械抓手很快就會發(fā)熱,所以需要時(shí)間暫停,以免造成損壞。

由于抓手要處理多種任務(wù),我們需要搭建一個(gè)自動重啟裝置。未來如果想取消這一裝置,就需要自動學(xué)習(xí)如何重啟了。

強(qiáng)化學(xué)習(xí)方法需要提供獎勵,而這一獎勵需要手動設(shè)計(jì)。最近我們正在研究自動獎勵機(jī)制。

但是,讓機(jī)器人直接從真實(shí)世界學(xué)習(xí)復(fù)雜技巧是創(chuàng)建完全通用的機(jī)器人的必經(jīng)之路。和人類學(xué)習(xí)一樣,機(jī)器人也可以通過簡單的試錯(cuò)獲取技巧。同時(shí)加上示范、模擬器和先驗(yàn)知識,可以大大減少訓(xùn)練時(shí)間。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)例:讓機(jī)械手靈活多變的高效通用法

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級的運(yùn)動控制(如:步行、跑步、打網(wǎng)球)到高級的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?1370次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前
    發(fā)表于 01-10 13:42

    深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向

    薩頓在專訪中(再次)科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力,以及接下來的發(fā)展方向:預(yù)測學(xué)習(xí)
    的頭像 發(fā)表于 12-27 09:07 ?1.1w次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號(強(qiáng)化信號)函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1380次閱讀

    如何使用深度強(qiáng)化學(xué)習(xí)進(jìn)行機(jī)械視覺抓取控制的優(yōu)化方法概述

    針對提高視覺圖像特征與優(yōu)化控制之間契合度的問題,本文提出一種基于深度強(qiáng)化學(xué)習(xí)機(jī)械視覺抓取控制
    發(fā)表于 12-19 15:23 ?22次下載
    如何使用<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>進(jìn)行<b class='flag-5'>機(jī)械</b><b class='flag-5'>臂</b>視覺抓取<b class='flag-5'>控制</b>的優(yōu)化方法概述

    深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載。
    發(fā)表于 03-10 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的筆記資料免費(fèi)下載

    深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)
    的頭像 發(fā)表于 06-13 11:39 ?5942次閱讀

    基于深度強(qiáng)化學(xué)習(xí)的路口單交叉信號控制

    利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)路口信號控制是智能交通領(lǐng)域的硏究熱點(diǎn)?,F(xiàn)有硏究大多利用強(qiáng)化學(xué)習(xí)來全面刻畫交通狀態(tài)以及設(shè)計(jì)有效強(qiáng)化學(xué)習(xí)算法以解決信號配
    發(fā)表于 04-23 15:30 ?21次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的路口單交叉信號<b class='flag-5'>控制</b>

    基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質(zhì)量,釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限元仿真集成的壓邊力
    發(fā)表于 05-27 10:32 ?0次下載

    基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法

    基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法
    發(fā)表于 06-23 14:59 ?46次下載

    《自動化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

    多Agent 深度強(qiáng)化學(xué)習(xí)綜述 來源:《自動化學(xué)報(bào)》,作者梁星星等 摘 要?近年來,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement le
    發(fā)表于 01-18 10:08 ?1523次閱讀
    《自動<b class='flag-5'>化學(xué)</b>報(bào)》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>綜述

    ESP32上的深度強(qiáng)化學(xué)習(xí)

    電子發(fā)燒友網(wǎng)站提供《ESP32上的深度強(qiáng)化學(xué)習(xí).zip》資料免費(fèi)下載
    發(fā)表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    基于深度強(qiáng)化學(xué)習(xí)的視覺反饋機(jī)械抓取系統(tǒng)

    機(jī)械抓取擺放及堆疊物體是智能工廠流水線上常見的工序,可以有效的提升生產(chǎn)效率,本文針對機(jī)械的抓取擺放、抓取堆疊等常見任務(wù),結(jié)合深度
    的頭像 發(fā)表于 06-12 11:25 ?2068次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的視覺反饋<b class='flag-5'>機(jī)械</b><b class='flag-5'>臂</b>抓取系統(tǒng)

    模擬矩陣在深度強(qiáng)化學(xué)習(xí)智能控制系統(tǒng)中的應(yīng)用

    訊維模擬矩陣在深度強(qiáng)化學(xué)習(xí)智能控制系統(tǒng)中的應(yīng)用主要是通過構(gòu)建一個(gè)包含多種環(huán)境信息和動作空間的模擬矩陣,來模擬和預(yù)測深度
    的頭像 發(fā)表于 09-04 14:26 ?521次閱讀
    模擬矩陣在<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>智能<b class='flag-5'>控制</b>系統(tǒng)中的應(yīng)用