国产欧美日韩第一页,久草综合视频,亚洲品质自拍

人類具有適應(yīng)環(huán)境變化的強(qiáng)大能力：我們可以迅速地學(xué)會住著拐杖走路、也可以在撿起位置物品時迅速地調(diào)整自己的力量輸出，甚至小朋友在不同地面上行走都能輕松自如地切換自己的步態(tài)和行走模式。這樣的適應(yīng)能力對于在復(fù)雜多變的環(huán)境中生存活動十分重要。但這些看似是人類與生俱來的能力，機(jī)器人拼盡全力也未必能實現(xiàn)。

絕大部分的機(jī)器人都被部署在固定環(huán)境中重復(fù)執(zhí)行固定的動作，但面對未知的全新情況機(jī)器人就會失效，甚至是運行環(huán)境的些許變化，比如一陣風(fēng)來了、負(fù)載質(zhì)量改變或意外的擾動都會給機(jī)器人帶來難以處理的困難。為了縮小機(jī)器人與人類對于環(huán)境適應(yīng)能力間的差距，研究人員認(rèn)為機(jī)器人預(yù)測狀態(tài)與實際觀測狀態(tài)間如果存在較大的誤差，那么這個誤差應(yīng)該要引導(dǎo)機(jī)器人更新自身模型，以更好地描述當(dāng)前狀態(tài)，也就是快速的環(huán)境適應(yīng)性。

有一個形象的例子來解釋這種適應(yīng)性，很多小伙伴在開車時，特別在北方的冬天都遇到過車輛側(cè)滑的情況，駕駛員發(fā)現(xiàn)預(yù)測車的行駛狀況與實際不符，本來該直走的車怎么橫著開了！這時駕駛員就根據(jù)這個誤差迅速調(diào)整自身操作來糾正車輛行駛狀態(tài)。這個過程就是我們期望機(jī)器人能夠?qū)W會的快速適應(yīng)能力。

對于一個要面對錯綜復(fù)雜真實世界的機(jī)器人來說，從先前經(jīng)驗中迅速、靈活地調(diào)整自身狀態(tài)和行為適應(yīng)環(huán)境是十分重要的。為了實現(xiàn)這個目標(biāo)，研究人員開發(fā)了一種基于模型的元強(qiáng)化學(xué)習(xí)算法用于提高快速適應(yīng)性。先前的工作主要基于試錯的方法和無模型的元強(qiáng)化學(xué)習(xí)方法來處理這一問題，而在本文的研究人員將這一問題拓展到了極端情況，機(jī)器人在面對新情況時需要實時在線、在幾個時間周期內(nèi)迅速完成適應(yīng)，所以實現(xiàn)這一目標(biāo)的難度可想而知。基于模型的元學(xué)習(xí)方法不像先前方法基于目標(biāo)的獎勵來優(yōu)化，而是利用每一時刻預(yù)測與觀測間的誤差作為數(shù)據(jù)輸入來處理模型。這種基于模型的方法使機(jī)器人在使用少量數(shù)據(jù)的情況下實現(xiàn)對環(huán)境的實時更新。

這一方法利用了最近的觀測數(shù)據(jù)來對模型進(jìn)行更新，但真正的挑戰(zhàn)在于如何基于少量的數(shù)據(jù)對復(fù)雜、非線性、大容量的模型（例如神經(jīng)網(wǎng)絡(luò)）進(jìn)行自適應(yīng)控制。簡單的隨機(jī)梯度下降方法對于需要快速適應(yīng)的方法效率很低，神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)來訓(xùn)練模型才能實現(xiàn)有效的更新。所以為了實現(xiàn)快速的自適應(yīng)調(diào)整，研究人員提出了新的方法。首先利用自適應(yīng)目標(biāo)對進(jìn)行（元）訓(xùn)練，而后在使用時利用少量的數(shù)據(jù)進(jìn)行精細(xì)訓(xùn)練以實現(xiàn)快速適應(yīng)性調(diào)整。在不同情況下訓(xùn)練出的元模型將學(xué)會如何去適應(yīng)，機(jī)器人就可以利用元模型在每一個時間步長上進(jìn)行適應(yīng)性更新以處理當(dāng)前所面對的環(huán)境，以實現(xiàn)快速在線適應(yīng)的目標(biāo)。

元訓(xùn)練

機(jī)器人的運動離不開對狀態(tài)的估計。在任意時刻下我們都可以對當(dāng)前狀態(tài)St，施加一定的行為at，從而得到下一時刻的狀態(tài)St+1，這一狀態(tài)的變化主要由狀態(tài)轉(zhuǎn)移函數(shù)決定。在真實世界中，我們無法精確建立狀態(tài)轉(zhuǎn)移動力學(xué)過程，但可以利用學(xué)習(xí)到的動力學(xué)模型進(jìn)行近似，這樣就可以基于觀測數(shù)據(jù)進(jìn)行預(yù)測。上圖中的規(guī)劃器就可以利用這一估計的動力學(xué)模型來進(jìn)行行為調(diào)整。在訓(xùn)練時模型會選取最近的（M+K）連續(xù)的數(shù)據(jù)點序列，首先利用M個數(shù)據(jù)來更新模型的權(quán)重，隨后利用身下的K個點來優(yōu)化跟新后的模型對于新狀態(tài)的預(yù)測能力。模型的損失函數(shù)可以表達(dá)為在先前K個點上進(jìn)行適應(yīng)后，在未來K個點上的預(yù)測誤差。這意味著訓(xùn)練模型可以利用鄰近的數(shù)據(jù)點迅速調(diào)整權(quán)重使自身可以進(jìn)行較好的動力學(xué)預(yù)測。

為了測試這種方法對于環(huán)境突變的適應(yīng)能力，研究人員首先在仿真機(jī)器人系統(tǒng)中進(jìn)行了實驗。研究人員在相同擾動下的環(huán)境中多所有主體進(jìn)行了元訓(xùn)練，而在主體從未見過的環(huán)境及變化中進(jìn)行測試。下面的獵豹模型在隨機(jī)浮動的擾動上進(jìn)行訓(xùn)練，隨后在水上浮動的情況下進(jìn)行了測試，機(jī)器人展現(xiàn)了快速適應(yīng)環(huán)境變化的能力。右圖顯示了在斷腿的情況下機(jī)器人的適應(yīng)性：

機(jī)器人面對環(huán)境變化后的適應(yīng)能力，圖中展示了基于模型的方法和基于在線自適應(yīng)的方法

對于多足機(jī)器人來說，在不同腿配置的情況下進(jìn)行了訓(xùn)練，而在不同腿部損傷情況下進(jìn)行了測試。這種基于模型的元強(qiáng)化學(xué)習(xí)方法使得機(jī)器人具有快速適應(yīng)能力，更多的比較測試詳見文末論文。

硬件實驗

為了更好地驗證算法在真實世界中的有效性，研究人員使用了具有高度隨機(jī)性和動力學(xué)特性微型6足機(jī)器人。

快速制造技術(shù)和多種定制化的設(shè)計，使得每一個機(jī)器人的動力學(xué)特性都獨一無二。它的零部件性能會隨著使用逐漸退化，同時也能在不同地面上快速移動。這使機(jī)器人控制算法面臨著會隨時變化的環(huán)境狀況，十分適合用于驗證算法。研究人員首先在不同的地面狀況下對機(jī)器人進(jìn)行元訓(xùn)練，隨后測試了機(jī)器在新情況下的在線適應(yīng)能力。在斷腿、新地表、斜坡路況、負(fù)載變化、錯誤標(biāo)定擾動等情況下都表現(xiàn)良好?？梢钥吹讲煌闆r下最右邊的在線適應(yīng)方法更為穩(wěn)定，適應(yīng)不同情況的能力更強(qiáng)。腿斷了也能盡力走直線了：

加上負(fù)載也不會走的歪歪扭扭：

位姿錯誤標(biāo)定也能及時更新糾正：

在和標(biāo)準(zhǔn)基于模型的方法(MB)、動力學(xué)評測的方法(MB+DE)比較中都顯示了這種方法的優(yōu)勢。在各個指標(biāo)上都取得了遠(yuǎn)超傳統(tǒng)方法的結(jié)果。

在未來研究人員計劃對模型進(jìn)行改進(jìn)，使它的能力隨著時間逐漸增長而不是每次都需要從預(yù)訓(xùn)練模型進(jìn)行精調(diào)。并能夠記住在學(xué)習(xí)過程中學(xué)到的技能，將在線適應(yīng)的學(xué)習(xí)到的新能力作為未來遇到新情況時的先驗技能提高模型表現(xiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
27990

瀏覽量
205547
算法

算法

+關(guān)注

關(guān)注
23

文章
4575

瀏覽量
92339
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
264

瀏覽量
11182

原文標(biāo)題：伯克利提出高效在線適應(yīng)算法，讓機(jī)器人擁有快速適應(yīng)環(huán)境變化的新能力

文章出處：【微信號：thejiangmen，微信公眾號：將門創(chuàng)投】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于MPEG心理聲學(xué)模型II的自適應(yīng)音頻水印算法

音頻水印作為保護(hù)音頻作品的版權(quán)和秘密通信的可行方法，成為近年數(shù)字水印研究領(lǐng)域中的一個熱點。針對目前音頻水印算法研究中自適應(yīng)性能沒有得到重視的問題，提出一種基于心理聲學(xué)

發(fā)表于 03-04 22:13

反向強(qiáng)化學(xué)習(xí)的思路

強(qiáng)化學(xué)習(xí)的另一種策略（二）

發(fā)表于 04-03 12:10

深度強(qiáng)化學(xué)習(xí)實戰(zhàn)

內(nèi)容2:課程一： TensoRFlow入門到熟練：課程二：圖像分類：課程三：物體檢測：課程四：人臉識別：課程五：算法實現(xiàn)：1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL4、對抗性生成

發(fā)表于 01-10 13:42

一種適用于室內(nèi)復(fù)雜環(huán)境的高精度、環(huán)境自適應(yīng)性強(qiáng)的定位算法

摘要對于室內(nèi)復(fù)雜環(huán)境來說, 適用于室外定位的 GPS 系統(tǒng)和蜂窩移動網(wǎng)絡(luò)在室內(nèi)中的定位精度明顯惡化, 無法滿足室內(nèi)用戶精確定位的需求。因此, 研究一種適用于室內(nèi)復(fù)雜環(huán)境的高精度、環(huán)境自適應(yīng)性

發(fā)表于 08-18 08:12

一種新的具適應(yīng)性的程序結(jié)構(gòu)

TRAP/J結(jié)構(gòu)可以將可適應(yīng)性透明地加入已有的應(yīng)用程序中，不用修改應(yīng)用程序源代碼和虛擬機(jī)。該文提出一種新的具適應(yīng)性的結(jié)構(gòu)，采用包裝類和AspectJ獲得對原類的封裝和替代，使用

發(fā)表于 04-09 09:25 ?11次下載

一種新的快速自適應(yīng)車牌定位方法

針對現(xiàn)存車牌定位方法自適應(yīng)性差和魯棒性不強(qiáng)的情況，本文提出了一種新的快速自適應(yīng)車牌定位算法．此

發(fā)表于 08-26 08:19 ?27次下載

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實現(xiàn)

之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個智能體的強(qiáng)化學(xué)習(xí)算法，但是也有很多重要的應(yīng)用場景牽涉到多個智能體之間的交互。

發(fā)表于 11-02 16:18 ?2.2w次閱讀

如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法

本文作者通過簡單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法，可以為初學(xué)者提供快速入門的經(jīng)驗。

發(fā)表于 11-12 14:47 ?4805次閱讀

如何測試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

強(qiáng)化學(xué)習(xí)（RL）能通過獎勵或懲罰使智能體實現(xiàn)目標(biāo)，并將它們學(xué)習(xí)到的經(jīng)驗轉(zhuǎn)移到新環(huán)境中。

發(fā)表于 12-24 09:29 ?3180次閱讀

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分，都已經(jīng)得到廣泛的研究和應(yīng)用。

發(fā)表于 06-13 11:39 ?5939次閱讀

機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

強(qiáng)化學(xué)習(xí)（ Reinforcement learning，RL）作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種

發(fā)表于 04-08 11:41 ?11次下載

模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

強(qiáng)化學(xué)習(xí)。無模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過程需要大量樣本，當(dāng)采樣預(yù)算不足，無法收集大量樣本時，很難達(dá)到預(yù)期效果。然而，模型化強(qiáng)化學(xué)習(xí)可以充分利用環(huán)

發(fā)表于 04-12 11:01 ?9次下載

基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

壓邊為改善板料拉深制造的成品質(zhì)量，釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限元仿真集成的壓邊力控制模型

發(fā)表于 05-27 10:32 ?0次下載

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

發(fā)表于 06-23 10:42 ?36次下載

7個流行的強(qiáng)化學(xué)習(xí)算法及代碼實現(xiàn)

已被用于在游戲、機(jī)器人和決策制定等各種應(yīng)用中，并且這些流行的算法還在不斷發(fā)展和改進(jìn)，本文我們將對其做一個簡單的介紹。 1、Q-learning Q-learning：Q-learning 是一

發(fā)表于 02-03 20:15 ?1044次閱讀

搜索歷史

一種基于模型的元強(qiáng)化學(xué)習(xí)算法用于提高快速適應(yīng)性

評論

基于MPEG心理聲學(xué)模型II的自適應(yīng)音頻水印算法

反向強(qiáng)化學(xué)習(xí)的思路

深度強(qiáng)化學(xué)習(xí)實戰(zhàn)

一種適用于室內(nèi)復(fù)雜環(huán)境的高精度、環(huán)境自適應(yīng)性強(qiáng)的定位算法

一種新的具適應(yīng)性的程序結(jié)構(gòu)

一種新的快速自適應(yīng)車牌定位方法

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實現(xiàn)

如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法

如何測試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

深度強(qiáng)化學(xué)習(xí)到底是什么？它的工作原理是怎么樣的

機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

7個流行的強(qiáng)化學(xué)習(xí)算法及代碼實現(xiàn)