国产精品99亚发布,精品无码Ⅴ

三維全身人體網(wǎng)格重建（3D Whole-Body Mesh Recovery）是三維人體重建領(lǐng)域的一個(gè)基礎(chǔ)任務(wù)，是人類行為建模的一個(gè)重要環(huán)節(jié)，用于從單目圖像中捕獲出準(zhǔn)確的全身人體姿態(tài)和形狀，在人體重建、人機(jī)交互等許多下游任務(wù)中有著廣泛的應(yīng)用。

來自粵港澳大灣區(qū)研究院（IDEA）與清華大學(xué)深研院的研究者們提出了首個(gè)用于全身人體網(wǎng)格重建的一階段算法OSX，通過模塊感知的Transformer網(wǎng)絡(luò)，高效、準(zhǔn)確地重建出全身人體網(wǎng)格，并提出了一個(gè)大規(guī)模、關(guān)注真實(shí)應(yīng)用場景的上半身人體重建數(shù)據(jù)集UBody.

本文提出的算法從投稿至今（2022.11~2023.04），是AGORA榜單SMPL-X賽道的第一名。該工作已經(jīng)被計(jì)算機(jī)視覺頂會CVPR2023接收，算法代碼和預(yù)訓(xùn)練模型已經(jīng)全部開源。

三維全身人體網(wǎng)格重建（3D Whole-Body Mesh Recovery）是人類行為建模的一個(gè)重要環(huán)節(jié)，用于從單目圖像中估計(jì)出人體姿態(tài)（Body Pose），手勢（Hand Gesture）和臉部表情（Facial Expressions），該任務(wù)在許多下游現(xiàn)實(shí)場景中有著廣泛的應(yīng)用，例如動作捕捉、人機(jī)交互等。得益于SMPLX等參數(shù)化模型的發(fā)展，全身人體網(wǎng)格重建精度得到了提升，該任務(wù)也得到越來越多的關(guān)注。

相比于身體姿態(tài)估計(jì)（Body-Only Mesh Recovery），全身人體網(wǎng)格重建需要額外估計(jì)手和臉部的參數(shù)，而手和臉部的分辨率往往較小，導(dǎo)致難以通過一個(gè)一階段的網(wǎng)絡(luò)，將全身參數(shù)估計(jì)出來。之前的方法大多采用多階段的復(fù)制-粘貼（Copy-Paste）框架，提前檢測出手和臉的包圍框（Bounding Box），將其裁剪出來并放大，輸入三個(gè)獨(dú)立的網(wǎng)絡(luò)，分別估計(jì)出身體（Body），手（Hand），和臉（Face）的參數(shù)，再進(jìn)行融合。這種多階段的做法可以解決手和臉分辨率過小的問題，然而，由于三部分的參數(shù)估計(jì)相對獨(dú)立，容易導(dǎo)致最后的結(jié)果以及三部分之間的連接不夠自然和真實(shí)，同時(shí)也會增加模型的復(fù)雜度。為了解決以上問題，我們提出了首個(gè)一階段的算法OSX，我們使用一個(gè)模塊感知的Transformer模型，同時(shí)估計(jì)出人體姿態(tài)，手勢和臉部表情。該算法在較小計(jì)算量和運(yùn)行時(shí)間的情況下，在3個(gè)公開數(shù)據(jù)集（AGORA， EHF， 3DPW）上，超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

我們注意到，目前的全身人體網(wǎng)格重建數(shù)據(jù)集，大部分是在實(shí)驗(yàn)室環(huán)境或者仿真環(huán)境下采集的，而這些數(shù)據(jù)集與現(xiàn)實(shí)場景有著較大的分布差異。這就容易導(dǎo)致訓(xùn)練出來的模型在應(yīng)用于現(xiàn)實(shí)場景時(shí)，重建效果不佳。此外，現(xiàn)實(shí)中的許多場景，如直播、手語等，人往往只有上半身出現(xiàn)在畫面中，而目前的數(shù)據(jù)集全部都是全身人體，手和臉的分辨率往往較低。為了彌補(bǔ)這方面數(shù)據(jù)集的缺陷，我們提出了一個(gè)大規(guī)模的上半身數(shù)據(jù)集UBody，該數(shù)據(jù)集涵蓋了15個(gè)真實(shí)場景，包括100萬幀圖片和對應(yīng)的全身關(guān)鍵點(diǎn)（2D Whole-Body Keypoint），人體包圍框（Person BBox）、人手包圍框（Hand BBox）以及SMPLX標(biāo)簽。下圖是UBody的部分?jǐn)?shù)據(jù)可視化。

圖1 UBody數(shù)據(jù)集展示

本工作的貢獻(xiàn)點(diǎn)可以概括為：

我們提出了首個(gè)一階段的全身人體網(wǎng)格重建算法OSX，能夠用一個(gè)簡單、高效的方式，估計(jì)出SMPLX參數(shù)。

我們的算法OSX在三個(gè)公開數(shù)據(jù)集上，超過了現(xiàn)有的全身人體網(wǎng)格重建算法。

我們提出了一個(gè)大規(guī)模的上半身數(shù)據(jù)集UBody，用以促進(jìn)全身人體網(wǎng)格重建這個(gè)基礎(chǔ)任務(wù)在現(xiàn)實(shí)場景中的應(yīng)用。

2. 一階段重建算法介紹

2.1 OSX整體框架

如下圖所示，我們提出了一個(gè)模塊感知（Component-Aware）的Transoformer模型，來同時(shí)估計(jì)全身人體參數(shù)，再將其輸入SMPLX模型，得到全身人體網(wǎng)格。我們注意到，身體姿態(tài)（Body Pose）估計(jì)需要利用到全局的人體依賴信息，而手勢（Hand Gesture）和臉部表情（Facial Expression）則更多的聚焦于局部的區(qū)域特征。因而，我們設(shè)計(jì)了一個(gè)全局編碼器和一個(gè)局部解碼器，編碼器借助于全局自注意力機(jī)制（Global Self-attention），捕獲人體的全身依賴關(guān)系，估計(jì)出身體姿態(tài)和形狀（Body Pose and Shape），解碼器則對特征圖進(jìn)行上采樣，使用關(guān)鍵點(diǎn)引導(dǎo)的交叉注意力機(jī)制（Cross-Attention），用以估計(jì)手和臉部的參數(shù)。

圖2 OSX網(wǎng)絡(luò)結(jié)構(gòu)示意圖

2.2 全局編碼器

在全局編碼器中，人體圖片首先被切為多個(gè)互不重蛩的塊，這些塊通過一個(gè)卷積層，加上位置編碼，轉(zhuǎn)換為特征令牌（Feature Token），接著，我們再將其與若干個(gè)由可學(xué)習(xí)參數(shù)構(gòu)成的人體令牌（Body Token）進(jìn)行連接，輸入全局編碼器。全局編碼器由多個(gè)Transformer塊組成，每個(gè)塊包含一個(gè)多頭自注意力、一個(gè)前饋網(wǎng)絡(luò)和兩個(gè)層歸一化模塊（Layer Normization）。經(jīng)過這些塊之后，人體各個(gè)部分之間的信息得到了交互，body token 捕捉了人體的全身依賴關(guān)系，輸入全連接層，回歸出人體姿態(tài)和形狀。 Feature token則進(jìn)行重組（Reshape），轉(zhuǎn)換為特征圖，供解碼器使用。

2.3 高分辨率局部解碼器

在解碼器中，我們首先對特征圖進(jìn)行上采樣，以解決手和臉分辨率過低的問題。具體的，我們使用一個(gè)可微分的感興趣區(qū)域?qū)R （Region of Interest Alignment）操作，將手和臉部的特征圖進(jìn)行上采樣，因而獲得多尺度的手、臉高分辨率特征。接著，我們定義多個(gè)模塊令牌（Component Token），每一個(gè)token代表一個(gè)關(guān)鍵點(diǎn)，將這些token輸入解碼器，通過關(guān)鍵點(diǎn) 引導(dǎo)的交叉注意力機(jī)制，從高分辨率特征中捕獲有用的信息，更新Component Token：

最終，這些模塊token通過全連接層，轉(zhuǎn)換為手勢和臉部表情，并與身體姿態(tài)和形狀一起，輸入SMPLX模型，轉(zhuǎn)換為人體網(wǎng)格。

3. 上半身數(shù)據(jù)集UBody介紹

3.1 數(shù)據(jù)集亮點(diǎn)

為了縮小全身人體網(wǎng)格重建這一基礎(chǔ)任務(wù)與下游任務(wù)的差異，我們從15個(gè)現(xiàn)實(shí)場景，包括音樂演奏、脫口秀、手語、魔術(shù)表演等，收集了超過100萬的圖片，對其進(jìn)行標(biāo)注。這些場景與現(xiàn)有的數(shù)據(jù)集AGORA相比，由于只包含上半身，因而手和臉的分辨率更大，具有更加豐富的手部動作和人臉表情。同時(shí)，這些場景含有非常多樣的遮擋、交互、切鏡、背景和光照變化，因而更加具有挑戰(zhàn)性，更加符合現(xiàn)實(shí)場景。此外，UBody是視頻的形式，每個(gè)視頻都包含了音頻（Audio），因而未來也可以應(yīng)用于多模態(tài)等任務(wù)。

圖3 UBody 15個(gè)場景展示

3.2 IDEA自研高精度全身動捕標(biāo)注框架

為了標(biāo)注這些大規(guī)模的數(shù)據(jù)，我們提出了一個(gè)自動化標(biāo)注方案，如下圖所示，我們首先訓(xùn)練一個(gè)基于ViT的關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)，估計(jì)出高精度的全身人體關(guān)鍵點(diǎn)。接著，我們使用一個(gè)多階段漸進(jìn)擬合技術(shù)（Progreesive Fitting），將OSX輸出的人體網(wǎng)格轉(zhuǎn)換為三維關(guān)鍵點(diǎn)（3D Keypoints），并投影到圖像平面，與估計(jì)的二維關(guān)鍵點(diǎn)（2D Keypoints）計(jì)算損失，用以優(yōu)化OSX網(wǎng)絡(luò)參數(shù)，直至估計(jì)出來的網(wǎng)格與2D關(guān)鍵點(diǎn)能夠高度貼合。

圖4 全身動捕標(biāo)注框架圖

以下是UBody數(shù)據(jù)集的15個(gè)場景及其標(biāo)注結(jié)果的展示：

SignLanguage

Singing

OnlineClass

Olympic

Entertainment

Fitness

LiveVlog

Conference

TVShow

ConductMusic

Speech

TalkShow

MagicShow

4. 實(shí)驗(yàn)結(jié)果

4.1 定量實(shí)驗(yàn)對比

OSX從投稿至今（2022.11~2023.04），是AGORA榜單上SMPLX賽道的榜首，在AGORA-test （https://agora-evaluation.is.tuebingen.mpg.de/）上的定量對比結(jié)果如下表所示：

表1 OSX與SOTA算法在AGORA-test上的定量結(jié)果

在AGORA-val上的定量對比結(jié)果如下表所示：

表2 OSX與SOTA算法在AGORA-val上的定量結(jié)果

在EHF和3DPW的定量結(jié)果如下：

表3 OSX與SOTA算法在EHF及3DPW上的定量結(jié)果

可以看出，OSX由于使用了模塊感知的Transformer網(wǎng)絡(luò)，能夠同時(shí)保證全局依賴關(guān)系的建模和局部特征的捕獲，在現(xiàn)有數(shù)據(jù)集，特別是AGORA這一較為困難的數(shù)據(jù)集上，顯著超過了之前的方法。

4.2 定性實(shí)驗(yàn)對比

在AGORA上的定性對比結(jié)果如圖所示：

從左到右依次為：輸入圖， ExPose， Hand4Whole， OSX（Ours）

在EHF上的定性對比結(jié)果如圖所示：

從左到右依次為：輸入圖， ExPose， Hand4Whole， OSX（Ours）

在UBody數(shù)據(jù)集上的對比結(jié)果如圖所示：

從左到右依次為：輸入圖， ExPose， Hand4Whole， OSX（Ours）

可以看出，我們的算法OSX能夠估計(jì)出更加準(zhǔn)確的身體姿勢，手部動作和臉部表情，重建出來的人體網(wǎng)格更加準(zhǔn)確，與原圖貼合的更好，更加魯棒。

5. 總結(jié)

OSX是首個(gè)一階段全身人體網(wǎng)格重建的算法，通過一個(gè)模塊感知的Transformer模型，同時(shí)估計(jì)了body pose， hand pose和facial experssion，在三個(gè)公開榜單上取得了目前最好whole-body mesh recovery最好的結(jié)果。此外，我們提出了一個(gè)大規(guī)模的上半身場景數(shù)據(jù)集UBody，用以促進(jìn)人體網(wǎng)格重建任務(wù)在下游場景中的應(yīng)用。我們的代碼已經(jīng)進(jìn)行了開源，希望能夠推動該領(lǐng)域的發(fā)展。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4575

瀏覽量
92339
網(wǎng)格

網(wǎng)格

+關(guān)注

關(guān)注
0

文章
139

瀏覽量
15965
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24590

原文標(biāo)題：CVPR2023：IDEA與清華提出首個(gè)一階段3D全身人體網(wǎng)格重建算法，代碼開源！

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何將一個(gè)3D散點(diǎn)圖與3D網(wǎng)格圖在一個(gè)三維坐標(biāo)系中顯示呢？

發(fā)表于 03-08 18:18

【ELT.ZIP】OpenHarmony啃論文俱樂部——即刻征服3D網(wǎng)格壓縮編碼

算法會碰撞出什么火花呢？圖像、醫(yī)療、機(jī)器人、通信都在這里了你可能少有聽說的TinyOS操作系統(tǒng)揭秘 3D 網(wǎng)格壓縮的三類方式殿堂級 WARP 寄存器壓縮技術(shù)【技術(shù)DNA】[外鏈圖片轉(zhuǎn)存失敗,源站可能有

發(fā)表于 07-20 21:51

基于約束的地質(zhì)網(wǎng)格曲面重建算法

提出一種基于地質(zhì)約束的地質(zhì)曲面重建算法，為在三維地質(zhì)建模中構(gòu)造線性不連續(xù)層位面片提供一種解決方案。應(yīng)用“移動立方體”

發(fā)表于 04-03 09:04 ?8次下載

一種基于量化方法的3D模型盲水印算法

相對非盲算法而言，盲算法因在水印檢測時(shí)不需要傳輸原始載體而使其應(yīng)用更為廣泛。雖然盲水印算法的魯棒性稍弱，但仍有提高的空間。該文提出一種

發(fā)表于 02-10 11:53 ?11次下載

基于STL曲面網(wǎng)格重建算法

快速獲得完整拓?fù)潢P(guān)系且其存在大量冗余信息的缺點(diǎn)，制約了STL網(wǎng)格模型的進(jìn)一步優(yōu)化處理與應(yīng)用．為此，需要針對STL網(wǎng)格模型進(jìn)行網(wǎng)格重建．針對2

發(fā)表于 12-25 11:52 ?1次下載

基于STL曲面<b class='flag-5'>網(wǎng)格</b><b class='flag-5'>重建</b><b class='flag-5'>算法</b>

基于局部姿態(tài)先驗(yàn)的深度圖像3D人體運(yùn)動捕獲方法

提出一種基于局部姿態(tài)先驗(yàn)的從深度圖像中實(shí)時(shí)在線捕獲3D人體運(yùn)動的方法，關(guān)鍵思路是根據(jù)從捕獲的深度圖像中自動提取具有語義信息的虛擬稀疏3D標(biāo)記

發(fā)表于 01-03 14:33 ?0次下載

FAIR和INRIA的合作提出人體姿勢估計(jì)新模型，適用于人體3D表面構(gòu)建

FAIR和INRIA的合作研究提出一個(gè)在Mask-RCNN基礎(chǔ)上改進(jìn)的密集人體姿態(tài)評估模型DensePose-RCNN，適用于人體3D表面構(gòu)

發(fā)表于 02-05 11:21 ?5753次閱讀

我國首個(gè)衛(wèi)星物聯(lián)網(wǎng)完成第一階段建設(shè)

我國首個(gè)衛(wèi)星物聯(lián)網(wǎng)完成第一階段建設(shè)。根據(jù)麥肯錫預(yù)測，預(yù)計(jì)2025年前，天基物聯(lián)網(wǎng)產(chǎn)值可達(dá)5600億美元至8500億美元。

發(fā)表于 10-20 16:19 ?2536次閱讀

3D的感知技術(shù)及實(shí)踐

測量表面法向量估計(jì) 幾何測量平面提取 3D重建從離散點(diǎn)云得到光滑曲面 3D重建ICP點(diǎn)云配準(zhǔn) 3D重建

發(fā)表于 10-23 09:40 ?3138次閱讀

大規(guī)模3D重建的Power Bundle Adjustment

BA (BA) 是一個(gè)經(jīng)典的計(jì)算機(jī)視覺問題，它構(gòu)成了許多 3D 重建和運(yùn)動結(jié)構(gòu) (SfM) 算法的核心組成部分。它指的是通過最小化非線性重投影誤差來聯(lián)合估計(jì)相機(jī)參數(shù)和

發(fā)表于 12-15 11:20 ?624次閱讀

用于快速高保真RGB-D表面重建的神經(jīng)特征網(wǎng)格優(yōu)化的GO-Surf

我們提出了GO-Surf，一種直接的特征網(wǎng)格優(yōu)化方法，用于從RGB-D序列中準(zhǔn)確和快速地重建表面。

發(fā)表于 03-17 16:35 ?686次閱讀

生成高質(zhì)量 3D 網(wǎng)格，從重建到生成式 AI

新一代 AI 工作流已經(jīng)在生成高保真 3D 模型方面取得了巨大成功，從基于給定圖像的場景重建，到能夠?yàn)榻换ナ襟w驗(yàn)制作資產(chǎn)的生成式 AI。這些生成的 3D 模型通常被提取成標(biāo)準(zhǔn)的三角

發(fā)表于 08-17 19:15 ?662次閱讀

NeurIPS 2023 | 清華ETH提出首個(gè)二值化光譜重建算法

壓縮重建工具包 BiSCI 內(nèi)，該工具包支持八類最主要的二值網(wǎng)絡(luò)，歡迎大家來使用。同時(shí)，我們還將 BiSRNet 嵌入到了我們之前開發(fā)的光譜重建工具箱 MST 當(dāng)中。目前 MST 工具包已支持超過 12 類深度學(xué)習(xí)算法

發(fā)表于 12-03 20:20 ?597次閱讀

3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

在 3D 生成領(lǐng)域，根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷一系列人工制作的過程，如

發(fā)表于 12-20 16:37 ?1413次閱讀

Nullmax提出多相機(jī)3D目標(biāo)檢測新方法QAF2D

今天上午，計(jì)算機(jī)視覺領(lǐng)域頂會CVPR公布了最終的論文接收結(jié)果，Nullmax感知部門的3D目標(biāo)檢測研究《Enhancing 3D Object Detection with 2D De

發(fā)表于 02-27 16:38 ?1003次閱讀