0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

UC Berkeley大學(xué)的研究人員們利用深度姿態(tài)估計(jì)和深度學(xué)習(xí)技術(shù)

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-12 09:06 ? 次閱讀

UC Berkeley大學(xué)的研究人員們利用深度姿態(tài)估計(jì)和深度學(xué)習(xí)技術(shù),讓智能體從單一視頻中學(xué)習(xí)人物動(dòng)作,并生成近乎相同的結(jié)果。更重要的是,智能體還能將所學(xué)到的技能應(yīng)用于不同環(huán)境中。以下是論智對(duì)其博文的編譯。

不論是像洗手這樣日常的動(dòng)作,還是表演雜技,人類都可以通過觀察學(xué)習(xí)一系列技能。隨著網(wǎng)絡(luò)上越來越多視頻資源的出現(xiàn),想找到自己感興趣的視頻比之前更容易了。在YouTube,每分鐘都有300小時(shí)的視頻上傳成功。但是,對(duì)于機(jī)器來說,從如此大量的視覺數(shù)據(jù)中學(xué)習(xí)技能仍然困難。大多數(shù)動(dòng)作模仿的學(xué)習(xí)方法都需要有簡(jiǎn)潔地表示,例如從動(dòng)作捕捉獲取的記錄。但想得到動(dòng)作捕捉的數(shù)據(jù)可能也非常麻煩,需要大量設(shè)備。另外,動(dòng)作捕捉系統(tǒng)也僅限于遮擋較少的室內(nèi)環(huán)境,所以有很多無法記錄的動(dòng)作技能。那么,如果智能體可以通過觀看視頻片段來學(xué)習(xí)技能,不是很好嗎?

在這一項(xiàng)目中,我們提出了一種可以從視頻中學(xué)習(xí)技能的框架,通過結(jié)合計(jì)算機(jī)視覺和強(qiáng)化學(xué)習(xí)中出現(xiàn)的先進(jìn)技術(shù),該框架能讓智能體學(xué)會(huì)視頻中出現(xiàn)的全部技能。例如給定一段單目視頻,其中一個(gè)人在做側(cè)手翻或后空翻,該系統(tǒng)的智能體就可以學(xué)習(xí)這些動(dòng)作,并重現(xiàn)出一樣的行為,無需人類對(duì)動(dòng)作進(jìn)行標(biāo)注。

從視頻中學(xué)習(xí)身體動(dòng)作的技能最近得到很多人的關(guān)注,此前的技術(shù)大多依靠人們手動(dòng)調(diào)整框架結(jié)構(gòu),對(duì)生成的行為有很多限制。所以,這些方法也僅在有限的幾種情境下使用,生成的動(dòng)作看起來也不太自然。最近,深度學(xué)習(xí)在視覺模擬領(lǐng)域表現(xiàn)出了良好的前景,例如能玩雅達(dá)利游戲,機(jī)器人任務(wù)

框架

我們提出的框架包含三個(gè)階段:姿態(tài)估計(jì)、動(dòng)作重建和動(dòng)作模擬。在第一階段,框架首先對(duì)輸入的視頻進(jìn)行處理,在每一幀預(yù)測(cè)人物動(dòng)作。第二步,動(dòng)作重建階段會(huì)將預(yù)測(cè)出的動(dòng)作合并成參考動(dòng)作,并對(duì)動(dòng)作預(yù)測(cè)生成的人工痕跡做出修正。最后,參考動(dòng)作被傳遞到動(dòng)作模擬階段,其中的模擬人物經(jīng)過訓(xùn)練,可以用強(qiáng)化學(xué)習(xí)模仿動(dòng)作。

動(dòng)作估計(jì)

給定一段視頻,我們用基于視覺的動(dòng)作估計(jì)器預(yù)測(cè)每一幀演員的動(dòng)作qt。該動(dòng)作預(yù)測(cè)器是建立在人類網(wǎng)格復(fù)原這一工作之上的(akanazawa.github.io/hmr/),它用弱監(jiān)督對(duì)抗的方法訓(xùn)練動(dòng)作估計(jì)器,從單目圖像中預(yù)測(cè)動(dòng)作。雖然在訓(xùn)練該估計(jì)器的時(shí)候需要標(biāo)注動(dòng)作,不過一旦訓(xùn)練完成,估計(jì)器在應(yīng)用到新圖片上時(shí)就無需再次訓(xùn)練了。

用于估計(jì)人物動(dòng)作的姿態(tài)估計(jì)器

動(dòng)作重建

姿態(tài)估計(jì)給視頻中的每一幀都做出了單獨(dú)的動(dòng)作預(yù)測(cè),但兩幀之間的預(yù)測(cè)可能會(huì)出現(xiàn)抖動(dòng)偽影。另外,雖然近些年基于是覺得姿態(tài)估計(jì)器得到了很大進(jìn)步,但有時(shí)它們也可能會(huì)出現(xiàn)較大失誤。所以,這一步的動(dòng)作重建就是減少出現(xiàn)的偽影,從而生成更逼真的參考動(dòng)作,能讓智能體更輕易地模擬。為了實(shí)現(xiàn)這一點(diǎn),我們對(duì)參考動(dòng)作進(jìn)行了優(yōu)化Q={q0,q1,…,qt},以滿足以下目標(biāo):

其中l(wèi)p(Q^)是為了讓參考動(dòng)作和原始動(dòng)作預(yù)測(cè)更接近,lsm(Q^)是為了讓相鄰的幀之間的動(dòng)作更相近,從而生成更流暢的動(dòng)作。另外,wp和wsm是不同損失的權(quán)重。

這一過程可以顯著提高參考動(dòng)作的質(zhì)量,并且修正一些人工生成的痕跡。

動(dòng)作模擬

有了參考動(dòng)作{q^0,q^1,…,q^t}之后,我們就可以訓(xùn)練智能體模仿這些動(dòng)作了。這一階段用到的強(qiáng)化學(xué)習(xí)方法和之前我們?yōu)槟M動(dòng)作捕捉數(shù)據(jù)而提出的方法相似,獎(jiǎng)勵(lì)函數(shù)僅僅是為了讓智能體的動(dòng)作和重建后的參考動(dòng)作之間的差異最小化。

這一方法表現(xiàn)得很好,我們的智能體可以學(xué)習(xí)很多雜技動(dòng)作,每個(gè)動(dòng)作只需要一段視頻就能學(xué)會(huì)。

結(jié)果

最終我們的智能體從YouTube上的視頻中學(xué)習(xí)了20多種不同的技能。

盡管智能體的形態(tài)有時(shí)和視頻中的人物不太一樣,但這一框架仍然能逼真地重現(xiàn)很多動(dòng)作。除此之外,研究人員還用模擬的Atlas機(jī)器人模仿視頻動(dòng)作。

使用模擬人物(智能體)的好處之一就是,在新環(huán)境下可以用模擬對(duì)象生成相應(yīng)的動(dòng)作。這里,我們訓(xùn)練智能體在不規(guī)則平面上采取不同動(dòng)作,而它所對(duì)應(yīng)的原始視頻是在平地上運(yùn)動(dòng)的。

雖然和原始視頻中的環(huán)境大不相同,學(xué)習(xí)算法仍然能生成相對(duì)可靠的策略來應(yīng)對(duì)不同路面情況。

總的來說,我們的框架采用的都是視頻模仿問題中常見的方法,關(guān)鍵是要將問題分解成更加易處理的組合部分,針對(duì)每個(gè)部分采取正確的方法,然后高效地把它們組合在一起。但是模擬視頻中的動(dòng)作仍然是非常有挑戰(zhàn)性的工作,目前還有很多我們無法復(fù)現(xiàn)的視頻片段:

這種江南style的舞步,智能體就難以模仿

但是看到目前我們實(shí)現(xiàn)的成果,還是很振奮人心。未來我們還有很多需要改進(jìn)的地方,希望這項(xiàng)工作能作為基礎(chǔ),為智能體在未來處理大量視頻數(shù)據(jù)的能力奠定了基礎(chǔ)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1688

    瀏覽量

    45870
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    121

    瀏覽量

    10546
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5431

    瀏覽量

    120790

原文標(biāo)題:僅需一段視頻,伯克利研究者就讓智能體學(xué)會(huì)了雜技

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    2017全國(guó)深度學(xué)習(xí)技術(shù)應(yīng)用大會(huì)

    Record)數(shù)據(jù),醫(yī)學(xué)影像數(shù)據(jù),基因信息數(shù)據(jù),等。其中,醫(yī)學(xué)影像數(shù)據(jù)占現(xiàn)階段醫(yī)療數(shù)據(jù)的絕大部分。如何將醫(yī)療大數(shù)據(jù)運(yùn)用于臨床實(shí)踐?這是醫(yī)學(xué)和計(jì)算機(jī)研究人員都很關(guān)心的問題,而智能影像與深度學(xué)習(xí)提供了一個(gè)很好
    發(fā)表于 03-22 17:16

    基于深度學(xué)習(xí)的異常檢測(cè)的研究方法

    異常檢測(cè)的深度學(xué)習(xí)研究綜述原文:arXiv:1901.03407摘要異常檢測(cè)是一個(gè)重要的問題,在不同的研究領(lǐng)域和應(yīng)用領(lǐng)域都得到了很好的研究
    發(fā)表于 07-12 07:10

    基于深度學(xué)習(xí)的異常檢測(cè)的研究方法

    ABSTRACT1.基于深度學(xué)習(xí)的異常檢測(cè)的研究方法進(jìn)行結(jié)構(gòu)化和全面的概述2.回顧這些方法在各個(gè)領(lǐng)域這個(gè)中的應(yīng)用情況,并評(píng)估他們的有效性。3.根據(jù)基本假設(shè)和采用的方法將最先進(jìn)的深度異常
    發(fā)表于 07-12 06:36

    討論紋理分析在圖像分類中的重要性及其在深度學(xué)習(xí)中使用紋理分析

    的復(fù)雜性,最后一層捕獲圖像的復(fù)雜特征。這些特征提供了關(guān)于物體形狀的信息,但不適合基于圖像中的重復(fù)模式來識(shí)別紋理細(xì)節(jié)。為了以一種優(yōu)雅的方式解決這個(gè)問題,研究人員提出了將紋理提取技術(shù)與CNN結(jié)合起來的概念。這樣
    發(fā)表于 10-26 16:57

    研究人員提出了一系列新的點(diǎn)云處理模塊

    為了探索這些問題的解決辦法、來自倫敦大學(xué)學(xué)院的研究人員提出了一系列新的點(diǎn)云處理模塊,從效率、信息共享和點(diǎn)云卷積操作等方面進(jìn)行了研究,得到了更寬、更深、更快效率更高的點(diǎn)云處理網(wǎng)絡(luò),讓更
    的頭像 發(fā)表于 08-02 14:44 ?3004次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>們</b>提出了一系列新的點(diǎn)云處理模塊

    谷歌發(fā)明自主學(xué)習(xí)機(jī)器人 結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種類型的技術(shù)

    )的研究人員聯(lián)合發(fā)表了一篇論文,詳細(xì)介紹了他們構(gòu)建的一個(gè)通過 AI 技術(shù)自學(xué)走路的機(jī)器人。該機(jī)器人結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種不同類型的 A
    發(fā)表于 03-17 15:15 ?1454次閱讀

    研究人員推出了一種新的基于深度學(xué)習(xí)的策略

    蘇黎世聯(lián)邦理工學(xué)院的研究人員最近推出了一種新的基于深度學(xué)習(xí)的策略,該策略可以在不需要大量真實(shí)數(shù)據(jù)的情況下在機(jī)器人中實(shí)現(xiàn)觸覺傳感。在arXiv上預(yù)先發(fā)表的一篇論文中概述了他們的方法,該方法需要完全在模擬數(shù)據(jù)上訓(xùn)練
    的頭像 發(fā)表于 03-26 15:47 ?2547次閱讀

    研究人員開發(fā)了一種基于深度學(xué)習(xí)的智能算法

    這項(xiàng)工作發(fā)表在《NPJ計(jì)算材料》上,是南卡羅來納大學(xué)工程與計(jì)算機(jī)學(xué)院的研究人員與貴州大學(xué)(位于中國(guó)貴陽的研究大學(xué))的
    的頭像 發(fā)表于 09-10 11:45 ?2223次閱讀

    (KAIST)研究人員提供了一種深度學(xué)習(xí)供電的單應(yīng)變電子皮膚傳感器

    傳感器應(yīng)用韓國(guó)科學(xué)技術(shù)高等研究院(KAIST)研究人員提供了一種深度學(xué)習(xí)供電的單應(yīng)變電子皮膚傳感器,可以從遠(yuǎn)處捕獲人體運(yùn)動(dòng)。 韓國(guó)科學(xué)
    的頭像 發(fā)表于 09-22 14:28 ?1959次閱讀

    研究人員開發(fā)出深度學(xué)習(xí)算法用于患者的診斷

    醫(yī)療技術(shù)應(yīng)當(dāng)對(duì)所有人都有所幫助,為了應(yīng)對(duì)這一挑戰(zhàn),改善糖尿病視網(wǎng)膜病變篩查,人們已經(jīng)做出了很多努力。Google AI的研究人員利用機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 11-16 09:15 ?1782次閱讀

    基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)方法

    基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)方法通過構(gòu)建特定的神經(jīng)網(wǎng)絡(luò)架構(gòu),將提取的特征信息根據(jù)相應(yīng)的特征融合方法進(jìn)行信息關(guān)聯(lián)處理,最終獲得人體姿態(tài)
    發(fā)表于 03-22 15:51 ?5次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的二維人體<b class='flag-5'>姿態(tài)</b><b class='flag-5'>估計(jì)</b>方法

    基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)算法

    ,更能充分地提取圖像信息,獲取更具有魯棒性的特征,因此基于深度學(xué)習(xí)的方法已成為二維人體姿態(tài)估計(jì)算法研究的主流方向。然而,
    發(fā)表于 04-27 16:16 ?7次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的二維人體<b class='flag-5'>姿態(tài)</b><b class='flag-5'>估計(jì)</b>算法

    研究人員提出將深度學(xué)習(xí)技術(shù)引入細(xì)胞成像和分析中

    近日,研究人員提出,希望將深度學(xué)習(xí)技術(shù)引入細(xì)胞成像和分析中,可以將混亂的生物學(xué)問題轉(zhuǎn)化為可解決的計(jì)算。該研究以「Small images,
    的頭像 發(fā)表于 05-06 11:27 ?2231次閱讀

    AI深度相機(jī)-人體姿態(tài)估計(jì)應(yīng)用

    我們非常高興地發(fā)布一個(gè)新的代碼示例,展示虹科AI深度相機(jī)SDK的驚人功能。只需6行源代碼,您就可以實(shí)時(shí)準(zhǔn)確地估計(jì)和跟蹤人體姿態(tài)!我們最新的代碼示例使用AI機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-31 17:42 ?933次閱讀
    AI<b class='flag-5'>深度</b>相機(jī)-人體<b class='flag-5'>姿態(tài)</b><b class='flag-5'>估計(jì)</b>應(yīng)用

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計(jì)算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測(cè)、識(shí)別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入
    發(fā)表于 04-23 17:18 ?1152次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM