0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

四足機器人走著走著突然斷了一條腿,還能繼續(xù)前進嗎?

天津機器人 ? 來源:QbitAI ? 2023-08-08 15:40 ? 次閱讀

四足機器人走著走著突然斷了一條腿,還能繼續(xù)前進嗎?

來自谷歌和密歇根大學(xué)的最新成果,給出了非??隙ǖ拇鸢?。

bd3c230e-3537-11ee-9e74-dac502259ad0.jpg

他們發(fā)明的一種叫做AutoRobotics-Zero (ARZ)的搜索算法,既不靠大模型,也不用神經(jīng)網(wǎng)絡(luò),可以讓機器人一旦遇到劇烈的環(huán)境變化,就立刻自動更改行動策略。

譬如斷腿照樣走:

bd81c0d0-3537-11ee-9e74-dac502259ad0.gif

相比之下,別的神經(jīng)網(wǎng)絡(luò)方法還是這樣嬸兒的(手動狗頭):

bf3d1d8e-3537-11ee-9e74-dac502259ad0.gif

英偉達AI科學(xué)家Jim Fan評價:

這個方法非常令人耳目一新。

bf8bc3a8-3537-11ee-9e74-dac502259ad0.jpg

機器人再也不怕被忽悠瘸了

具體如何實現(xiàn)?

讓機器人斷腿繼續(xù)走的秘密

快速適應(yīng)環(huán)境變化是機器人部署到現(xiàn)實世界中非常重要的一項技能。

但目前常用的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)技術(shù)存在策略單一、重參數(shù)化導(dǎo)致推理時間長、可解釋性差等問題。

為此,作者直接“另起爐灶”,基于AutoML Zero技術(shù)開發(fā)了這項全新的四足機器人環(huán)境自適應(yīng)策略:AutoRobotics-Zero (ARZ)。

關(guān)于,不熟悉的朋友再了解一下:

它是2020年誕生的一種“從零開始的自動機器學(xué)習(xí)”算法,出自谷歌大腦Quoc V.Le大神等人之手,僅使用基本數(shù)學(xué)運算為基礎(chǔ),它就能從一段空程序開始,自動發(fā)現(xiàn)解決機器學(xué)習(xí)任務(wù)的計算機程序。

在此,作者也將各種機器人行動策略表示為程序,而非神經(jīng)網(wǎng)絡(luò),并僅使用基本的數(shù)學(xué)運算作為構(gòu)建塊,從頭開始演化出可適應(yīng)性策略及其初始參數(shù)。

bfae1354-3537-11ee-9e74-dac502259ad0.jpg

隨著不斷的進化,該方法能夠發(fā)現(xiàn)控制程序(即Python代碼,如下圖所示),從而在與環(huán)境互動的同時,利用感覺運動經(jīng)驗來微調(diào)策略參數(shù)或改變控制邏輯(也就是當(dāng)隨機分支在隨機時間突然中斷時運行新的分支)。最終就可以在不斷變化的環(huán)境下實現(xiàn)自適應(yīng)。

bfc36d6c-3537-11ee-9e74-dac502259ad0.jpg

具體而言,ARZ的算法由兩個核心函數(shù)組成:StartEpisode()和GetAction(),前者在機器人與環(huán)境交互的每個階段開始時就開始運行,后者負責(zé)調(diào)整內(nèi)存狀態(tài)(因為策略被表示為作用于虛擬內(nèi)存的線性寄存器)和代碼修改。

在進化搜索上,ARZ則采用兩種控制算法:負責(zé)多目標(biāo)搜索的非支配排序遺傳算法II(NSGA-II)和負責(zé)單目標(biāo)搜索的正則化進化算法(RegEvo)。

如下圖所示進化控制算法的評估過程,單目標(biāo)進化搜索使用平均情節(jié)獎勵作為算法的適應(yīng)度,而多目標(biāo)搜索優(yōu)化了兩個適應(yīng)度指標(biāo):平均獎勵(第一個返回值)和每次episode的平均步數(shù)(第二個返回值)。

bfc9d5a8-3537-11ee-9e74-dac502259ad0.jpg

以及作者介紹,為了預(yù)測動態(tài)環(huán)境中給定情況下的最佳行動,策略必須能夠?qū)?dāng)前情況與過去的情況和行動進行比較。

因此,ARZ所有策略都被設(shè)計為“有狀態(tài)的”,即內(nèi)存內(nèi)容在一個事件的時間步長內(nèi)是持續(xù)存在的,由此才得以完成自適應(yīng)。

此外,有所不同的是,該方法還去掉了原始AutoML Zero技術(shù)中的監(jiān)督學(xué)習(xí)模式,最終無需明確接收任何監(jiān)督輸入(如獎勵信號)就可以讓進化程序在整個生命周期內(nèi)進行調(diào)整。

比神經(jīng)網(wǎng)絡(luò)更有效

作者用宇樹科技的“萊卡狗”(Laikago)四足機器人模擬器在模擬環(huán)境中進行了效果測試。

最終,只有ARZ可以進化出在隨機斷腿情況下保持向前運動和避免摔倒的自適應(yīng)策略。

bfed9ac4-3537-11ee-9e74-dac502259ad0.gif

相比之下,進行了全面超參數(shù)調(diào)整并使用最先進強化學(xué)習(xí)方法完成訓(xùn)練的MLP和LSTM基線都失敗了:

要么不具有魯棒性,不能每次都成功;

c4151424-3537-11ee-9e74-dac502259ad0.gif

要么一次都沒有成功過。

c4eba804-3537-11ee-9e74-dac502259ad0.gif

需要注意的,這還是在ARZ使用的參數(shù)和FLOPS比MLP和LSTM都少得多的情況下。

下圖則是統(tǒng)計數(shù)據(jù):只要任何一列中的reward<400就表示該腿的大多數(shù)測試都以摔倒告終。

我們可以再次看到,除了ARZ,只有MLP方法能夠在右后腿成功一次。

c6cda14a-3537-11ee-9e74-dac502259ad0.jpg

除了以上這些,ARZ還顯現(xiàn)出了目前的RNN技術(shù)都做不到的可解釋性。

如圖所示,它在斷腿案例中發(fā)現(xiàn)的各種策略可以都符號化為如下表示:

c6f3f070-3537-11ee-9e74-dac502259ad0.jpg

最后,除了機器人斷腿走路,ARZ還可以在“具有隨機傾斜軌道的cartpole系統(tǒng)”中自動保持平衡。

c71fdd2a-3537-11ee-9e74-dac502259ad0.gif

論文地址:

https://arxiv.org/abs/2307.16890

— 完 —

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    210

    文章

    27989

    瀏覽量

    205535
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4722

    瀏覽量

    100307
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2206

    瀏覽量

    2227

原文標(biāo)題:機器人也不怕被忽悠瘸了

文章出處:【微信號:tjrobot,微信公眾號:天津機器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    鷗鵬機器人-龍視頻演示

    機器人是有六的仿生機器人,每條有兩個自
    發(fā)表于 03-23 17:49

    什么是龍機器人?

    機器人種仿生機器人,由Openduino控制板控制,有
    發(fā)表于 03-24 16:17

    鷗鵬機器人還有六的,帶你去見識下哦

    機器人機器人是有六
    發(fā)表于 03-24 16:25

    爬蟲機器人,鷗鵬獨家制作,兒童益智玩具,教學(xué)游戲

    爬蟲機器人由Basicduino控制器控制。個連續(xù)旋轉(zhuǎn)舵機和字舵盤構(gòu)成它的四條
    發(fā)表于 03-28 16:28

    仿生機器人

    本帖最后由 紅塵。破 于 2016-8-19 14:59 編輯 今天整理資料時發(fā)現(xiàn)了年前做的仿生機器人,當(dāng)時買了
    發(fā)表于 08-19 14:59

    【NUCLEO-F412ZG申請】六仿生機器人

    ,大部分六機器人采用了仿昆蟲的結(jié)構(gòu),6分布在身體的兩側(cè),身體左側(cè)的前、后足及右側(cè)的中
    發(fā)表于 11-14 18:54

    機器人

    `這是創(chuàng)客集結(jié)號的作品機器人身體和都是通過3D打印技術(shù)打印出來的,通過自己安裝連接上超聲波傳感器,制作成功的
    發(fā)表于 09-29 09:55

    求六機器人的圖紙

    `業(yè)余,想想做做六機器人。但是苦于無大致圖紙,卡在建模的問題上。求六機器人的圖紙,有清晰的尺寸就行(主要是
    發(fā)表于 03-26 18:43

    機器人與編程的區(qū)別

    在前篇文章中講了機器人與編程的區(qū)別,但總感覺講的比較空泛,這篇文章繼續(xù)講講那些區(qū)別。計算機編程和機器人編程最大的區(qū)別就是個是控制虛擬的,
    發(fā)表于 09-01 07:12

    機器人】SOLO技術(shù)詳解--(1)介紹(2)平臺和機器人概述【翻譯】精選資料分享

    傳感器。機器人重2.2kg,有8個自由度,四條腿上都搭配了足底傳感器。其他零件由3D打印和現(xiàn)成的零件構(gòu)成,可以做出重量輕且低成本的機器人
    發(fā)表于 09-13 06:33

    機器人的機構(gòu)設(shè)計

    機器人屬于復(fù)雜機電系統(tǒng),需要綜合生物、機械、電子、控制等學(xué)科內(nèi)容,具體涉及仿生機構(gòu)設(shè)計、靈巧運動機構(gòu)設(shè)計、高性能驅(qū)動器制造,行走穩(wěn)定性控制、強化學(xué)習(xí)等在內(nèi)的多個研究方向。其中,機構(gòu)設(shè)計是保障
    發(fā)表于 09-15 06:54

    如何完整的組裝機器人?

    如何完整的組裝機器人
    發(fā)表于 09-24 07:00

    基于ADAMS的仿生機器人結(jié)構(gòu)設(shè)計

    利用ADAMS軟件虛擬樣機技術(shù),設(shè)計了液壓驅(qū)動的仿生機器人機械結(jié)構(gòu)。通過分析哺乳類動
    發(fā)表于 03-01 11:41 ?3次下載

    機器人Mochibot擁有32 能夠全方位移動

    以目前的技術(shù)而言,一條機器人很難站得穩(wěn),雙相對好點,四條則非常穩(wěn)當(dāng),你可以發(fā)現(xiàn)
    發(fā)表于 05-10 17:19 ?894次閱讀

    +輪式動力!瑞士機器人展示最佳混合步態(tài)、運動更靈活

    +輪式動力!瑞士機器人ANYmal展示最佳混合步態(tài),運動更靈活,機器人,
    發(fā)表于 02-20 13:44 ?2435次閱讀
    <b class='flag-5'>腿</b>+輪式動力!瑞士<b class='flag-5'>四</b><b class='flag-5'>足</b><b class='flag-5'>機器人</b>展示最佳混合步態(tài)、運動更靈活