0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種從視頻中學(xué)習(xí)技能的框架(skills from videos,SFV)

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-10-18 14:32 ? 次閱讀

無論是日常簡(jiǎn)單的動(dòng)作還是令人驚嘆的雜技,人類可以通過觀察別人的動(dòng)作學(xué)會(huì)一系列驚人的技能。今天如果你想要學(xué)習(xí)新的技能,像YouTube一樣的視頻網(wǎng)站上擁有豐富的資源供你學(xué)習(xí)。

但遺憾的是,對(duì)于機(jī)器來說通過大量的視覺數(shù)據(jù)來進(jìn)行技能學(xué)習(xí)依然面臨著很大的挑戰(zhàn)。目前絕大多數(shù)的模仿學(xué)習(xí)需要精確的動(dòng)作記錄,例如精密的動(dòng)作捕捉系統(tǒng)。但獲取動(dòng)作捕捉數(shù)據(jù)很多時(shí)候十分復(fù)雜,極大的依賴于設(shè)備,將環(huán)境局限于于室內(nèi)無遮擋的場(chǎng)景,這限制了可以被記錄的技能類型。那么如果存在一個(gè)智能體可以從視頻中學(xué)習(xí)技能就好了!

在這一工作中,伯克利BAIR的研究人員提出了一種從視頻中學(xué)習(xí)技能的框架(skills from videos,SFV),結(jié)合了前沿的計(jì)算機(jī)視覺和強(qiáng)化學(xué)習(xí)技術(shù)構(gòu)建的系統(tǒng)可以從視頻中學(xué)習(xí)種類繁多的技能,包括后空翻和很滾翻等高難度動(dòng)作。同時(shí)智能體還學(xué)會(huì)了在仿真物理環(huán)境中復(fù)現(xiàn)這些技能的策略,而無需任何的手工位姿標(biāo)記。

SFV問題在計(jì)算機(jī)圖形學(xué)領(lǐng)域一直受到廣泛關(guān)注,先前的技術(shù)主要依靠手工的控制結(jié)構(gòu)來限制可以產(chǎn)生的行為,這使得主體可以學(xué)習(xí)到的技能非常有限,同時(shí)表現(xiàn)出來的動(dòng)作也很不自然。近年來,深度學(xué)習(xí)技術(shù)在視覺模仿鄰域取得了很大的進(jìn)展,包括Atari游戲和簡(jiǎn)單的機(jī)器人任務(wù)都取得的不錯(cuò)的成績(jī),但這些任務(wù)在所描述的與主體運(yùn)行的環(huán)境只有些許的不同,并且所得到的結(jié)果也只是相對(duì)簡(jiǎn)單的動(dòng)力學(xué)過程。

基于深度學(xué)習(xí)視覺模仿的Atrai和簡(jiǎn)單的機(jī)器人任務(wù)

框 架

研究人員提出的系統(tǒng)由三個(gè)部分構(gòu)成:位姿估計(jì)、運(yùn)動(dòng)重建和運(yùn)動(dòng)模仿。

-首先利用輸入的視頻實(shí)現(xiàn)位姿估計(jì),從每一幀中預(yù)測(cè)出主角的位姿;

-隨后在運(yùn)動(dòng)重建階段,將上一階段預(yù)測(cè)的位姿進(jìn)行銜接得到參考的運(yùn)動(dòng)過程,并修正一些在位姿估計(jì)階段的缺陷;

-最終將參考運(yùn)動(dòng)過程傳輸給模仿階段,模擬的主體將會(huì)利用強(qiáng)化學(xué)習(xí)來訓(xùn)練模仿這些動(dòng)作。

這一框架主要包括位姿估計(jì)、運(yùn)動(dòng)重建和運(yùn)動(dòng)模仿三個(gè)過程

位姿估計(jì)

研究人員利用基于視覺的運(yùn)動(dòng)估計(jì)器來預(yù)測(cè)給定視頻中主角的在每一幀的運(yùn)動(dòng)。位姿估計(jì)器利用人體網(wǎng)格恢復(fù)中的方法來構(gòu)建,利用了弱監(jiān)督對(duì)抗的方法訓(xùn)練從單目圖像中預(yù)測(cè)出位姿。

從視頻中恢復(fù)人體位姿

雖然在訓(xùn)練位姿估計(jì)器的時(shí)候需要進(jìn)行位姿標(biāo)記,但在訓(xùn)練完成后它就可以用于新的圖像而無需額外的標(biāo)記。

基于視覺的位姿估計(jì)器從每一幀中預(yù)測(cè)出主角的動(dòng)作

運(yùn)動(dòng)重建

由于基于單幀圖像預(yù)測(cè)的位姿是不連續(xù)的,在上圖中可以看到明顯不連貫的動(dòng)作。同時(shí)由于估計(jì)器某些錯(cuò)誤估計(jì)的存在會(huì)產(chǎn)生一系列奇異結(jié)果造成估計(jì)的位姿出現(xiàn)跳變。這會(huì)造成智能體在物理上無法模仿。所以運(yùn)動(dòng)重建的目的就在于減輕上述原因帶來的影響,得到更為符合物理實(shí)際的參考運(yùn)動(dòng),以便于智能體模擬。所以研究人員提出了下面的目標(biāo)函數(shù)來優(yōu)化新的參考運(yùn)動(dòng):

其中保證了參考運(yùn)動(dòng)與原始運(yùn)動(dòng)接近,而則保證了相鄰幀之間運(yùn)動(dòng)相近以便得到更加平滑的運(yùn)動(dòng)結(jié)果,這兩個(gè)損失對(duì)應(yīng)了不同的權(quán)重w。

經(jīng)過優(yōu)化后的參考運(yùn)動(dòng)結(jié)果如下,可以看到明顯地改善了位姿之間的連續(xù)性,讓生成的運(yùn)動(dòng)估計(jì)更為平滑。

運(yùn)動(dòng)模仿

在獲取了參考運(yùn)動(dòng)序列后,就可以訓(xùn)練智能體來模擬這些技能了。研究人員使用了強(qiáng)化學(xué)習(xí)來訓(xùn)練智能體學(xué)習(xí)這些技能,其中獎(jiǎng)勵(lì)函數(shù)也十分簡(jiǎn)單,主要用于鼓勵(lì)智能體采取不斷減小t時(shí)刻與每一幀參考運(yùn)動(dòng)位姿之間差距的策略。

雖然簡(jiǎn)單,但得到了很好的結(jié)果。智能體學(xué)會(huì)了一系列高難度動(dòng)作,從不同的技能視頻片段中學(xué)會(huì)了不同的技能。

來一個(gè)側(cè)手翻

再來一個(gè)前空翻

鯉魚打挺也不賴

嘿!看我的回旋踢!

結(jié)果

在訓(xùn)練完成后,這一智能體可以學(xué)會(huì)從youtube中收集的20中不同的技能。

能唱能跳、能翻滾跳躍、武術(shù)也不在話下。

甚至對(duì)于與視頻中主角人類在形態(tài)上很不相似的Atlas機(jī)器,這一策略依然十分有效。

研究人員同時(shí)還發(fā)現(xiàn),模擬智能體學(xué)習(xí)到的行為具有很強(qiáng)的泛化性。在新的環(huán)境中依舊可以學(xué)習(xí)如何適應(yīng)崎嶇的地面。

運(yùn)動(dòng)平滑而又穩(wěn)定

這一研究取得良好效果的關(guān)鍵在于,將SFV這一復(fù)雜問題分解成多個(gè)可控的部分,并選取合適的方法來解決這些問題,并將他們有機(jī)高效的結(jié)合起來。然而這一領(lǐng)域依舊面臨著很大挑戰(zhàn),下面就是一個(gè)學(xué)習(xí)失敗的例子:

但這一工作依舊表明,充分合理地利用已有的技術(shù)我們可以在充滿挑戰(zhàn)的問題中得到不錯(cuò)的結(jié)果。希望這一研究可以啟發(fā)小伙伴們對(duì)于相關(guān)領(lǐng)域的研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1690

    瀏覽量

    45876
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    122

    瀏覽量

    10547
  • Youtube
    +關(guān)注

    關(guān)注

    0

    文章

    142

    瀏覽量

    15496

原文標(biāo)題:看看Youtube就能學(xué)會(huì)雜技,伯克利新算法讓智能體學(xué)會(huì)高難度動(dòng)作

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    入門到精通,你不可錯(cuò)過的CCES進(jìn)階十大培訓(xùn)視頻

    /education/education-library/videos/3164562428001.html VisualDSP++?遷移到CrossCore? Embedded Studiohttp
    發(fā)表于 05-14 17:19

    一種基于圖像平移的目標(biāo)檢測(cè)框架

    1、摘要近年來,在深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的幫助下,圖像和視頻監(jiān)控在智能交通系統(tǒng)(ITS)中取得了長(zhǎng)足的進(jìn)展。作為一種先進(jìn)的感知方法,智能交通系統(tǒng)對(duì)視頻監(jiān)控中每幀感興趣的目標(biāo)進(jìn)行
    發(fā)表于 08-31 07:43

    分享一種無人機(jī)開發(fā)的基礎(chǔ)技能體系

    分享一種無人機(jī)開發(fā)的基礎(chǔ)技能體系
    發(fā)表于 11-22 07:22

    如何去實(shí)現(xiàn)一種ThreadX內(nèi)核框架的設(shè)計(jì)呢

    ThreadX內(nèi)核模板框架是怎樣去設(shè)計(jì)的?如何去實(shí)現(xiàn)一種ThreadX內(nèi)核框架的設(shè)計(jì)呢?
    發(fā)表于 11-29 07:08

    在RK3399開發(fā)板上如何去實(shí)現(xiàn)一種人工智能深度學(xué)習(xí)框架

    在RK3399開發(fā)板上如何去實(shí)現(xiàn)一種人工智能深度學(xué)習(xí)框架呢?
    發(fā)表于 03-07 07:00

    一種基于Deep U-Net的多任務(wù)學(xué)習(xí)框架

    提出了一種基于Deep U-Net的多任務(wù)學(xué)習(xí)框架,用于GE-MRI左心房分割,該框架同時(shí)執(zhí)行心房分割和消融前后分類。雖然論文已經(jīng)很老了,但是改論文提出的多任務(wù)和后處理方法到現(xiàn)在還是可
    發(fā)表于 11-10 15:35

    一種基于USB2.0的視頻圖像處理芯片設(shè)計(jì)

    本文給出了一種基于USB2.0 的視頻圖像處理芯片的實(shí)現(xiàn)方案,首先介紹了系統(tǒng)的整體設(shè)計(jì)框架,然后針對(duì)框架內(nèi)核心模塊闡述了相應(yīng)的硬件實(shí)現(xiàn)原理,最后以Xilinx FPGA 開發(fā)板系列ML
    發(fā)表于 08-17 13:57 ?4178次閱讀
    <b class='flag-5'>一種</b>基于USB2.0的<b class='flag-5'>視頻</b>圖像處理芯片設(shè)計(jì)

    一種成分取證的理論分析模式的分類框架

    一種成分取證的理論分析模式的分類框架
    發(fā)表于 03-20 11:04 ?0次下載

    一種用深度學(xué)習(xí)框架對(duì)普通視頻進(jìn)行流暢穩(wěn)定的慢動(dòng)作回放的技術(shù)

    接著,研究人員YouTube和攝像機(jī)中選取了些240fps的視頻,其中包括The Slow Mo Guys(個(gè)總共有11000個(gè)視頻
    的頭像 發(fā)表于 06-21 10:14 ?4259次閱讀
    <b class='flag-5'>一種</b>用深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>框架</b>對(duì)普通<b class='flag-5'>視頻</b>進(jìn)行流暢穩(wěn)定的慢動(dòng)作回放的技術(shù)

    實(shí)現(xiàn)機(jī)器學(xué)習(xí)一種重要框架是深度學(xué)習(xí)

    人工智能的概念起源于1956年,所謂的人工智能就是給機(jī)器賦予人的智能,讓機(jī)器能夠像人樣地思考問題,做出決策。而一種較為有效的、可行的實(shí)現(xiàn)人工智能的方法就是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)最基本的做
    的頭像 發(fā)表于 07-06 14:37 ?3263次閱讀

    最新機(jī)器學(xué)習(xí)開源項(xiàng)目Top10

    Learning Acrobatics by Watching Youtube 是 Berkeley 研究人員提出的一種可以視頻中學(xué)習(xí)技能
    的頭像 發(fā)表于 11-20 09:47 ?2344次閱讀

    一種基于框架特征的共指消解方法

    基于框架語(yǔ)義的推理是實(shí)現(xiàn)語(yǔ)篇理解、冋答系統(tǒng)等任務(wù)中語(yǔ)義理解的一種有效手段,框架語(yǔ)乂推理通過構(gòu)建漢語(yǔ)篇章句子框架之間的聯(lián)系尋找推理路徑,但框架
    發(fā)表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種用于交通流預(yù)測(cè)的深度學(xué)習(xí)框架

    學(xué)習(xí)框架。方面,針對(duì)道路網(wǎng)絡(luò)非歐氏的空間關(guān)聯(lián)以及交通流時(shí)序數(shù)據(jù)的時(shí)間關(guān)聯(lián),設(shè)計(jì)了一種融合圖卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特征抽取子網(wǎng)絡(luò);另
    發(fā)表于 04-14 15:54 ?3次下載
    <b class='flag-5'>一種</b>用于交通流預(yù)測(cè)的深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>框架</b>

    個(gè)通用的時(shí)空預(yù)測(cè)學(xué)習(xí)框架

    。這篇論文介紹了一種用于高效時(shí)空預(yù)測(cè)的時(shí)間注意力單元(Temporal Attention Unit,TAU)。該方法改進(jìn)了現(xiàn)有框架,對(duì)時(shí)間和空間上的依賴關(guān)系分別學(xué)習(xí),提出了時(shí)間維度上的可并行化時(shí)序注意力單元
    的頭像 發(fā)表于 06-19 10:27 ?1332次閱讀
    <b class='flag-5'>一</b>個(gè)通用的時(shí)空預(yù)測(cè)<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>框架</b>

    深度學(xué)習(xí)框架是什么?深度學(xué)習(xí)框架有哪些?

    深度學(xué)習(xí)框架是什么?深度學(xué)習(xí)框架有哪些?? 深度學(xué)習(xí)框架
    的頭像 發(fā)表于 08-17 16:03 ?2589次閱讀