0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta提出Make-A-Video3D:一行文本,生成3D動態(tài)場景!

CVer ? 來源:機(jī)器之心 ? 2023-03-24 10:47 ? 次閱讀

不再需要任何 3D 或 4D 數(shù)據(jù),來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態(tài)場景的方法 MAV3D (Make-A-Video3D)。

僅輸入一行文本,就能生成 3D 動態(tài)場景?

沒錯,已經(jīng)有研究者做到了??梢钥闯鰜?,目前的生成效果還處于初級階段,只能生成一些簡單的對象。不過這種「一步到位」的方法仍然引起了大量研究者的關(guān)注:

023b7032-c9bc-11ed-bfe3-dac502259ad0.gif

在最近的一篇論文中,來自 Meta 的研究者首次提出了可以從文本描述中生成三維動態(tài)場景的方法 MAV3D (Make-A-Video3D)。

04995f24-c9bc-11ed-bfe3-dac502259ad0.png

Text-To-4D Dynamic Scene Generation

論文鏈接:https://arxiv.org/abs/2301.11280

項(xiàng)目鏈接:https://make-a-video3d.github.io/

具體而言,該方法運(yùn)用 4D 動態(tài)神經(jīng)輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴(kuò)散的模型,優(yōu)化場景外觀、密度和運(yùn)動的一致性。任意機(jī)位或角度都可以觀看到提供的文本生成的動態(tài)視頻輸出,并可以合成到任何 3D 環(huán)境中。 MAV3D 不需要任何 3D 或 4D 數(shù)據(jù),T2V 模型只對文本圖像對和未標(biāo)記的視頻進(jìn)行訓(xùn)練。

04d5c93c-c9bc-11ed-bfe3-dac502259ad0.png

讓我們看一下 MAV3D 從文本生成 4D 動態(tài)場景的效果:

0516304e-c9bc-11ed-bfe3-dac502259ad0.gif

05d3d46e-c9bc-11ed-bfe3-dac502259ad0.gif

此外,它也能從圖像直接到 4D,效果如下:

065e0382-c9bc-11ed-bfe3-dac502259ad0.gif

06e2b55a-c9bc-11ed-bfe3-dac502259ad0.gif

研究者通過全面的定量和定性實(shí)驗(yàn)證明了該方法的有效性,先前建立的內(nèi)部 baseline 也得到了改進(jìn)。據(jù)悉,這是第一個根據(jù)文本描述生成 3D 動態(tài)場景的方法。方法

該研究的目標(biāo)在于開發(fā)一項(xiàng)能從自然語言描述中生成動態(tài) 3D 場景表征的方法。這極具挑戰(zhàn)性,因?yàn)榧葲]有文本或 3D 對,也沒有用于訓(xùn)練的動態(tài) 3D 場景數(shù)據(jù)。因此,研究者選擇依靠預(yù)訓(xùn)練的文本到視頻(T2V)的擴(kuò)散模型作為場景先驗(yàn),該模型已經(jīng)學(xué)會了通過對大規(guī)模圖像、文本和視頻數(shù)據(jù)的訓(xùn)練來建模場景的真實(shí)外觀和運(yùn)動。

從更高層次來看,在給定一個文本 prompt p 的情況下,研究可以擬合一個 4D 表征08b1b28c-c9bc-11ed-bfe3-dac502259ad0.png,它模擬了在時空任意點(diǎn)上與 prompt 匹配的場景外觀。沒有配對訓(xùn)練數(shù)據(jù),研究無法直接監(jiān)督08ceee24-c9bc-11ed-bfe3-dac502259ad0.png的輸出;

然而,給定一系列的相機(jī)姿勢08e3ae72-c9bc-11ed-bfe3-dac502259ad0.png就可以從08f7c33a-c9bc-11ed-bfe3-dac502259ad0.png渲染出圖像序列090a8fe2-c9bc-11ed-bfe3-dac502259ad0.png092017c2-c9bc-11ed-bfe3-dac502259ad0.png并將它們堆疊成一個視頻 V。然后,將文本 prompt p 和視頻 V 傳遞給凍結(jié)和預(yù)訓(xùn)練的 T2V 擴(kuò)散模型,由該模型對視頻的真實(shí)性和 prompt alignment 進(jìn)行評分,并使用 SDS(得分蒸餾采樣)來計算場景參數(shù) θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的擴(kuò)展,為場景模型添加了一個時間維度,并使用 T2V 模型而不是文本到圖像(T2I)模型進(jìn)行監(jiān)督。然而,要想實(shí)現(xiàn)高質(zhì)量的文本到 4D 的生成還需要更多的創(chuàng)新:

第一,需要使用新的、允許靈活場景運(yùn)動建模的 4D 表征;

第二,需要使用多級靜態(tài)到動態(tài)優(yōu)化方案來提高視頻質(zhì)量和提高模型收斂性,該方案利用幾個 motion regularizer 來生成真實(shí)的運(yùn)動;

第三,需要使用超分辨率微調(diào)(SRFT)提高模型的分辨率。

具體說明見下圖:

09510f76-c9bc-11ed-bfe3-dac502259ad0.png

實(shí)驗(yàn)

在實(shí)驗(yàn)中,研究者評估了 MAV3D 從文本描述生成動態(tài)場景的能力。首先,研究者評估了該方法在 Text-To-4D 任務(wù)上的有效性。據(jù)悉,MAV3D 是首個該任務(wù)的解決方案,因此研究開發(fā)了三種替代方法作為基線。其次,研究者評估了 T2V 和 Text-To-3D 子任務(wù)模型的簡化版本,并將其與文獻(xiàn)中現(xiàn)有的基線進(jìn)行比較。第三,全面的消融研究證明了方法設(shè)計的合理性。第四,實(shí)驗(yàn)描述了將動態(tài) NeRF 轉(zhuǎn)換為動態(tài)網(wǎng)格的過程,最終將模型擴(kuò)展到 Image-to-4D 任務(wù)。

指標(biāo)

研究使用 CLIP R-Precision 來評估生成的視頻,它可以測量文本和生成場景之間的一致性。報告的指標(biāo)是從呈現(xiàn)的幀中檢索輸入 prompt 的準(zhǔn)確性。研究者使用 CLIP 的 ViT-B/32 變體,并在不同的視圖和時間步長中提取幀,并且還通過詢問人工評分人員在兩個生成的視頻中的偏好來使用四個定性指標(biāo),分別是:(i) 視頻質(zhì)量;(ii) 忠實(shí)于文本 prompt;(iii) 活動量;(四) 運(yùn)動的現(xiàn)實(shí)性。研究者評估了在文本 prompt 分割中使用的所有基線和消融。

圖 1 和圖 2 為示例。要想了解更詳細(xì)的可視化效果,請參見 make-a-video3d.github.io。

098d529c-c9bc-11ed-bfe3-dac502259ad0.png

結(jié)果

表 1 顯示了與基線的比較(R - 精度和人類偏好)。人工測評以在特定環(huán)境下與該模型相比,贊成基線多數(shù)票的百分比形式呈現(xiàn)。

09deb010-c9bc-11ed-bfe3-dac502259ad0.png

表 2 展示了消融實(shí)驗(yàn)的結(jié)果:

0a038eee-c9bc-11ed-bfe3-dac502259ad0.png

實(shí)時渲染

使用傳統(tǒng)圖形引擎的虛擬現(xiàn)實(shí)和游戲等應(yīng)用程序需要標(biāo)準(zhǔn)的格式,如紋理網(wǎng)格。HexPlane 模型可以輕易轉(zhuǎn)換為如下的動畫網(wǎng)格。首先,使用 marching cube 算法從每個時刻 t 生成的不透明度場中提取一個簡單網(wǎng)格,然后進(jìn)行網(wǎng)格抽?。榱颂岣咝剩┎⑶胰コ≡肼曔B接組件。XATLAS 算法用于將網(wǎng)格頂點(diǎn)映射到紋理圖集,紋理初始化使用以每個頂點(diǎn)為中心的小球體中平均的 HexPlane 顏色。最后,為了更好地匹配一些由 HexPlane 使用可微網(wǎng)格渲染的示例幀,紋理會被進(jìn)一步優(yōu)化。這將產(chǎn)生一個紋理網(wǎng)格集合,可以在任何現(xiàn)成的 3D 引擎中回放。

圖像到 4D

圖 6 和圖 10 展示了該方法能夠從給定的輸入圖像產(chǎn)生深度和運(yùn)動,從而生成 4D 資產(chǎn)。

0a21de6c-c9bc-11ed-bfe3-dac502259ad0.png

0a5156a6-c9bc-11ed-bfe3-dac502259ad0.png

0a8d6b96-c9bc-11ed-bfe3-dac502259ad0.png

0acb4894-c9bc-11ed-bfe3-dac502259ad0.png

0af39d76-c9bc-11ed-bfe3-dac502259ad0.png

更多研究細(xì)節(jié),可參考原論文。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2843

    瀏覽量

    107184
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    250

    瀏覽量

    11303
  • 三維動態(tài)管理
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    743

原文標(biāo)題:Meta提出Make-A-Video3D:一行文本,生成3D動態(tài)場景!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    3D模型文件格式之OBJ詳解

    文件由一行行文本組成,注釋以符號“#”為開頭,空格和空行可以隨意加到文件中以增加文件的可讀性。有字的行都由一兩個標(biāo)記字母也就是關(guān)鍵字(Keyword)開頭,關(guān)鍵字可以說明這一行是什么樣的數(shù)據(jù)。多行
    發(fā)表于 04-27 17:02

    3D軟件中如何應(yīng)用文本特征?3D文本特征應(yīng)用技巧

    精準(zhǔn)的標(biāo)注。浩辰3D軟件的文本特征應(yīng)用,能幫助設(shè)計工程師以順序建模設(shè)計方式,快速創(chuàng)建特征,實(shí)現(xiàn)精準(zhǔn)化標(biāo)注。下面,小編給大家介紹下如何使用浩辰3D軟件的
    發(fā)表于 04-22 17:28

    VR全景看房3D場景的制作方法

    技術(shù)構(gòu)建的VR房地產(chǎn)展示VR全景看房3D場景可視化制作解決方案,創(chuàng)建3D虛擬現(xiàn)實(shí)世界體驗(yàn)的展示,運(yùn)用先進(jìn)技術(shù)生成種模擬環(huán)境多信息化融合、
    發(fā)表于 04-23 10:21 ?9885次閱讀

    基于視覺注意力的全卷積網(wǎng)絡(luò)3D內(nèi)容生成方法

     由于在某些特殊場景中獲取深度線索的難度較高,使得已有3D內(nèi)容生成方法的應(yīng)用受到限制。為此,以顯著圖代替深度圖進(jìn)行2D-3D轉(zhuǎn)換,提出
    發(fā)表于 05-13 16:13 ?11次下載

    NVIDIA提出Magic3D:高分辨率文本3D內(nèi)容創(chuàng)建

    Magic3D 還可以執(zhí)行基于提示的 3D 網(wǎng)格編輯:給定低分辨率 3D 模型和基本提示,可以更改文本從而修改生成的模型內(nèi)容。此外,作者還展
    的頭像 發(fā)表于 11-25 11:33 ?1069次閱讀

    3D模型場景展示哪個平臺做的好?

    體驗(yàn)。 3D模型場景建設(shè)能夠?qū)λ璧哪P瓦M(jìn)行材質(zhì)替換、燈光、虛擬場景、動畫生成、3D互動展示等
    的頭像 發(fā)表于 12-30 15:39 ?1018次閱讀
    <b class='flag-5'>3D</b>模型<b class='flag-5'>場景</b>展示哪個平臺做的好?

    清華朱軍團(tuán)隊(duì)提出ProlificDreamer:直接文本生成高質(zhì)量3D內(nèi)容

    將 Imagen 生成的照片(下圖靜態(tài)圖)和 ProlificDreamer(基于 Stable-Diffusion)生成3D(下圖動態(tài)圖)進(jìn)行對比。有網(wǎng)友感慨:短短
    的頭像 發(fā)表于 05-29 10:02 ?848次閱讀
    清華朱軍團(tuán)隊(duì)<b class='flag-5'>提出</b>ProlificDreamer:直接<b class='flag-5'>文本生成</b>高質(zhì)量<b class='flag-5'>3D</b>內(nèi)容

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    和驅(qū)動等。為了自動化 3D 內(nèi)容生成,此前的些典型工作(比如 DreamFusion [1] )提出了分?jǐn)?shù)蒸餾采樣 (Score Distillation Sampling),通過優(yōu)
    的頭像 發(fā)表于 12-20 16:37 ?1416次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實(shí)現(xiàn)原理

    4DGen:基于動態(tài)3D高斯的可控4D生成新工作

    盡管3D和視頻生成取得了飛速的發(fā)展,由于缺少高質(zhì)量的4D數(shù)據(jù)集,4D生成始終面臨著巨大的挑戰(zhàn)。
    的頭像 發(fā)表于 01-04 15:57 ?778次閱讀
    4DGen:基于<b class='flag-5'>動態(tài)</b><b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D
    的頭像 發(fā)表于 01-30 16:20 ?752次閱讀
    Adobe<b class='flag-5'>提出</b>DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓<b class='flag-5'>文本</b>、圖像都動起來的新方法!

    Adobe Substance 3D整合AI功能:基于文本生成紋理、背景

    Substance 3D Stager是以Adobe Dimension為基礎(chǔ)改造而成,使用者可直觀地進(jìn)行3D場景構(gòu)建,包括模型、材質(zhì)和燈光等要素。借助其強(qiáng)大功能,能夠生成極具觀賞性的
    的頭像 發(fā)表于 03-20 10:28 ?601次閱讀

    Stability AI推出Stable Video 3D模型,可制作多視角3D視頻

    SV3D_u是Stable Video 3D個版本,僅需單幅圖片即可生成運(yùn)動軌跡視頻,無須進(jìn)行相機(jī)調(diào)整。擴(kuò)充版本的SV
    的頭像 發(fā)表于 03-21 14:57 ?882次閱讀

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨(dú)特的功能吸引了眾多關(guān)注。此模型具備從單張圖像中生成多視圖3D視頻的能力,為視頻制作領(lǐng)域帶
    的頭像 發(fā)表于 03-22 10:30 ?711次閱讀

    NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實(shí)現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?414次閱讀
    NVIDIA<b class='flag-5'>生成</b>式AI研究實(shí)現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形狀

    歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應(yīng)用

    App。 騰訊元寶APP發(fā)布時,就圍繞工作效率場景、日常生活等場景提供了豐富的應(yīng)用,并有創(chuàng)建個人智能體等個性化體驗(yàn),“3D角色夢工廠”則將大模型生成技術(shù)和
    的頭像 發(fā)表于 07-18 11:39 ?661次閱讀
    歡創(chuàng)播報 騰訊元寶首發(fā)<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應(yīng)用