0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于去遮擋和移除的3D交互手姿態(tài)估計框架

工程師鄧生 ? 來源:商湯學術 ? 作者:孟浩、金晟 ? 2022-09-14 16:30 ? 次閱讀

本文主要介紹商湯智能感知終端團隊,發(fā)表在 ECCV 2022 上的工作。針對3D交互雙手姿態(tài)估計問題,作者采用分而治之的策略,把交互的雙手姿態(tài)估計問題,解耦成兩個單手姿態(tài)估計問題。

作者提出了一種基于去遮擋和移除的3D交互手姿態(tài)估計框架,補全目標手被遮擋的部分,并移除另一只有干擾的手。此外,作者還構建了一個大規(guī)模數據集Amodal InterHand Dataset (AIH),用以訓練手勢去遮擋和移除網絡。實驗結果表明,論文提出的框架在InterHand2.6M 和 Tzionas 兩個主流的公開數據集上,都獲得了顯著的性能提升。

7bb4cbfa-305d-11ed-ba43-dac502259ad0.png ? ? ?

Part 1動機和背景

7c04d99c-305d-11ed-ba43-dac502259ad0.jpg

圖1 本文算法(右)與baseline(左)的對比

手,是人和世界交互的主要工具。3D交互手姿態(tài)估計,指從單目彩色圖中,恢復出一個人兩只互相交互的手的骨架。它是人機交互、AR/VR、手語理解等諸多現(xiàn)實應用的基礎。 與被充分研究的單手姿態(tài)估計任務不同,交互手3D姿態(tài)估計是近兩年來剛興起的學術方向。

現(xiàn)存的工作會直接同時預測交互手的左右兩手的姿態(tài),而我們則另辟蹊徑,將交互手姿態(tài)估計任務,解耦成左右兩手分別的單手姿態(tài)估計任務。這樣,我們就可以充分利用當下單手姿態(tài)估計技術的最新進展。 然而相比通常的單手姿態(tài)估計任務來說,交互手姿態(tài)估計有以下兩個難點:一是左右手間可能存在的嚴重的遮擋,難以估計被遮擋的手的姿態(tài);二是左右手顏色紋理相近有歧義性,預測一只手的姿態(tài)可能會因另一只手的存在而被干擾。

為了解決這兩個困難,我們提出了去遮擋和移除框架,旨在預測一只手的姿態(tài)時,補全它被遮擋的部分,并移除有干擾的另一只手的部分。由圖1的示例可見,在用去遮擋和移除框架后,交互手的圖片會恢復右手被遮擋的部分,也會移除有干擾的左手的部分,進而轉換成右手的單手姿態(tài)估計任務。

此外,我們還構建了第一個大規(guī)模的合成交互手數據集(Amodal InterHand Dataset)。該數據集具有很多應用前景,如交互式雙手姿態(tài)估計、Amodal & modal的實例分割、以及手部去遮擋。

Part 2方法

7c365d00-305d-11ed-ba43-dac502259ad0.jpg

圖2 本文提出的框架示意圖

本文的框架包括三個部分:手部非模態(tài)分割模塊(HASM)、手部去遮擋和移除模塊(HDRM)、單手姿態(tài)估計模塊(SHPE)。

我們首先用HASM去分割圖像中左右手的模態(tài)和非模態(tài)掩碼,在得到掩碼后,我們可以分別定位左右兩手的位置并對圖片進行裁剪。

之后,我們利用HDRM恢復手被遮擋的部分并移除另一只有干擾的手。

這樣,一個交互手的圖片會被轉換成左右兩手的單個手的圖片,通過SHPE后可以得到左右手分別的姿態(tài)。

2.1 手部非模態(tài)分割模塊(HASM)

我們基于mmsegmentation框架,從交互手的圖片中分割出四種掩碼:左手可見區(qū)域、左手完整區(qū)域、右手可見區(qū)域和右手完整區(qū)域。

2.2 手部去遮擋和移除模塊(HDRM)

7c4e1c60-305d-11ed-ba43-dac502259ad0.jpg

圖3 HDRNet示意圖 以右手為例,首先根據2.1預測的掩碼,以右手完整部分掩碼為中心,裁剪得到圖片。

而HDRNet的輸入則有以下四部分拼接而成:(1)圖片右手被遮擋區(qū)域被涂黑;(2)右手可見部分掩碼;(3)I圖片左手多余區(qū)域被涂黑;(4)除左右兩手外的背景區(qū)域的掩碼。

我們借鑒經典的inpainting方法中的網絡結構(UNet + Partial Convolutions),并在其中加入了一些Transformer結構,來增強圖像特征、擴大感受野,以及讓網絡關注更重要的圖像區(qū)域。

網絡HDRNet最終預測出右手被遮擋區(qū)域的像素,以及左手多余區(qū)域背后背景的像素,這樣最終預測結果即為單個右手的圖片。

2.3 單手姿態(tài)估計模塊(SHPE)

由于SHPE不是本文的重點,因此我們使用了一個簡單有效的開源方法MinimalHand作為我們的baseline。

Part3AIH虛擬交互手數據集

7c741712-305d-11ed-ba43-dac502259ad0.jpg

圖4 AIH數據集中的樣例 為了充分訓練我們提出的HDRM網絡,我們基于InterHand2.6M V1.0數據集,構建了第一個大規(guī)模的虛擬合成的Amodal交互手數據集(AIH)。

AIH有大約300萬樣本組成,其中AIH_Syn 有220萬樣本,AIH_Render有70萬樣本。前者是將InterHand2.6M V1.0數據集的單個右手或單個左手的圖片,進行復制粘貼,合成的交互手圖片。

后者是將InterHand2.6M V1.0數據集的雙手mesh裝飾上紋理,經過隨機的旋轉和平移,最終渲染到隨機的數據集背景上得到的圖片。圖4展示了AIH數據集的可視化效果。

Part 4實驗結果

我們在 InterHand2.6M V1.0 和 Tzionas 兩個主流的數據集上做了實驗。如表1和表2所示,定量實驗表明,我們提出的算法,取得了最優(yōu)的精度。

而且在耗時方面,在Tesla P40機器上單個樣本預測,HDRM(我們的主要貢獻點)只需要0.6ms,占整個框架預測時間47.2ms中很小一部分。更多可視化效果見圖5。

表1InterHand2.6M V1.0 數據集的定量結果對比

7c9c08da-305d-11ed-ba43-dac502259ad0.jpg

表2Tzionas 數據集的定量結果對比

7cbac54a-305d-11ed-ba43-dac502259ad0.jpg7cd8c9dc-305d-11ed-ba43-dac502259ad0.jpg

圖5 更多可視化結果



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1789

    文章

    46316

    瀏覽量

    236479
  • 智能傳感器
    +關注

    關注

    16

    文章

    577

    瀏覽量

    55220
  • 計算機視覺
    +關注

    關注

    8

    文章

    1688

    瀏覽量

    45870

原文標題:ECCV 2022 | 基于去遮擋和移除的3D交互雙手姿態(tài)估計

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    相關推薦

    機器人3D視覺引導系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準確并且快速地獲取場景的點云圖像,通過3D識別算法,可實現(xiàn)在對點云圖中的多種目標物體進行識別和位姿估計。
    發(fā)表于 04-29 09:31 ?276次閱讀
    機器人<b class='flag-5'>3D</b>視覺引導系統(tǒng)<b class='flag-5'>框架</b>介紹

    有了2D NAND,為什么要升級到3D呢?

    2D NAND和3D NAND都是非易失性存儲技術(NVM Non-VolatileMemory),屬于Memory(存儲器)的一種。
    的頭像 發(fā)表于 03-17 15:31 ?847次閱讀
    有了2<b class='flag-5'>D</b> NAND,為什么要升級到<b class='flag-5'>3D</b>呢?

    3D HMI應用場景和發(fā)展趨勢

    的革命性趨勢。本文將探討3DHMI設計的概念、優(yōu)勢、應用場景以及未來發(fā)展趨勢。3DHMI設計的概念3DHMI設計是一種基于三維界面和人機交互
    的頭像 發(fā)表于 02-19 13:27 ?862次閱讀
    <b class='flag-5'>3D</b> HMI應用場景和發(fā)展趨勢

    怎么使用激光掃描技術(VCJ)增強的3D打印呢?

    一種創(chuàng)新型的激光掃描技術可以快速地實現(xiàn)多種材料3D打印,實現(xiàn):結構更精細,材料更多樣。
    的頭像 發(fā)表于 01-15 16:47 ?446次閱讀

    介紹一種使用2D材料進行3D集成的新方法

    美國賓夕法尼亞州立大學的研究人員展示了一種使用2D材料進行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?963次閱讀

    一種用于2D/3D圖像處理算法的指令集架構以及對應的算法部署方法

    二維(2D)和三維(3D)雙模視覺信息在自動駕駛、工業(yè)機器人、人機交互等前沿領域具有廣泛的應用前景。
    的頭像 發(fā)表于 01-05 10:35 ?397次閱讀
    <b class='flag-5'>一種</b>用于2<b class='flag-5'>D</b>/<b class='flag-5'>3D</b>圖像處理算法的指令集架構以及對應的算法部署方法

    【愛芯派 Pro 開發(fā)板試用體驗】人體姿態(tài)估計模型部署前期準備

    的。 2、VR游戲:大家可能用過像kinect這樣的設備,用于VR體感游戲。kinect同樣會識別當前用戶的姿態(tài),然后用于VR交互中。 3、活動識別。通過得到人體姿態(tài)后,再通過
    發(fā)表于 01-01 01:04

    文了解3D視覺和2D視覺的區(qū)別

    文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩不同的視覺模式,其區(qū)別主要體現(xiàn)在立體感
    的頭像 發(fā)表于 12-25 11:15 ?2587次閱讀

    個用于6D姿態(tài)估計和跟蹤的統(tǒng)基礎模型

    今天筆者將為大家分享NVIDIA的最新開源方案FoundationPose,是個用于 6D 姿態(tài)估計和跟蹤的統(tǒng)基礎模型。只要給出CAD模
    的頭像 發(fā)表于 12-19 09:58 ?742次閱讀
    <b class='flag-5'>一</b>個用于6<b class='flag-5'>D</b><b class='flag-5'>姿態(tài)</b><b class='flag-5'>估計</b>和跟蹤的統(tǒng)<b class='flag-5'>一</b>基礎模型

    提供3D打印材料與解決方案,助力3D打印產業(yè)發(fā)展

    提供3D打印材料與解決方案,助力3D打印產業(yè)發(fā)展
    的頭像 發(fā)表于 12-12 11:12 ?458次閱讀

    3D 封裝與 3D 集成有何區(qū)別?

    3D 封裝與 3D 集成有何區(qū)別?
    的頭像 發(fā)表于 12-05 15:19 ?882次閱讀
    <b class='flag-5'>3D</b> 封裝與 <b class='flag-5'>3D</b> 集成有何區(qū)別?

    一種在線激光雷達語義分割框架MemorySeg

    。該框架旨在解決在激光雷達表示中引入記憶的若干挑戰(zhàn),包括遮擋、資源限制和動態(tài)場景。作者引入了一種點級鄰域變化正則化器,用于抑制局部三維鄰域內預測的劇烈變化,并在SemanticKITTI
    的頭像 發(fā)表于 11-21 10:48 ?504次閱讀
    <b class='flag-5'>一種</b>在線激光雷達語義分割<b class='flag-5'>框架</b>MemorySeg

    研究人員設計一種新的3D噴墨打印技術

    據悉,只帶韌帶和肌腱的骨骼機械現(xiàn)在可以通過3D打印完成 —— 這是通過一種新的增材制造方法實現(xiàn)的,這種方法可以同時以高分辨率打印剛性
    的頭像 發(fā)表于 11-20 17:01 ?649次閱讀

    基于飛控的姿態(tài)估計算法作用及原理

    ? 姿態(tài)估計的作用? 姿態(tài)估計是飛控算法的個基礎部分,而且十分重要。為了完成飛行器平穩(wěn)的姿態(tài)
    發(fā)表于 11-13 11:00 ?847次閱讀
    基于飛控的<b class='flag-5'>姿態(tài)</b><b class='flag-5'>估計</b>算法作用及原理

    一種利用幾何信息的自監(jiān)督單目深度估計框架

    本文方法是一種自監(jiān)督的單目深度估計框架,名為GasMono,專門設計用于室內場景。本方法通過應用多視圖幾何的方式解決了室內場景中幀間大旋轉和低紋理導致自監(jiān)督深度估計困難的挑戰(zhàn)。
    發(fā)表于 11-06 11:47 ?360次閱讀
    <b class='flag-5'>一種</b>利用幾何信息的自監(jiān)督單目深度<b class='flag-5'>估計</b><b class='flag-5'>框架</b>