0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于文本驅(qū)動(dòng)的三維模型風(fēng)格化方法

3D視覺(jué)工坊 ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-10-31 16:56 ? 次閱讀

來(lái)自華南理工大學(xué)、香港理工大學(xué)、跨維智能、鵬城實(shí)驗(yàn)室等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種基于文本驅(qū)動(dòng)的三維模型風(fēng)格化方法,該方法可對(duì)輸入的三維模型根據(jù)文本進(jìn)行更具真實(shí)性和魯棒性的風(fēng)格化。

根據(jù)給定輸入創(chuàng)建 3D 內(nèi)容(例如,根據(jù)文本提示、圖像或 3D 形狀)在計(jì)算機(jī)視覺(jué)和圖形領(lǐng)域具有重要應(yīng)用。然而這個(gè)問(wèn)題是具有挑戰(zhàn)性的,現(xiàn)實(shí)中通常需要專業(yè)藝術(shù)家(Technical Artist)耗費(fèi)大量的時(shí)間成本去創(chuàng)作 3D 內(nèi)容。同時(shí),許多網(wǎng)上的三維模型庫(kù)中的資源通常是沒(méi)有任何材質(zhì)的裸露三維模型,要想將他們應(yīng)用到現(xiàn)階段的渲染引擎中,需要 Technical Artist 為它們創(chuàng)作高質(zhì)量的材質(zhì),燈光和法向貼圖。因此,如果有辦法可以實(shí)現(xiàn)自動(dòng)化、多樣化和逼真的三維模型資產(chǎn)生成,將是很有前景的。

因此,華南理工大學(xué)、香港理工大學(xué)、跨維智能、鵬城實(shí)驗(yàn)室等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種基于文本驅(qū)動(dòng)的三維模型風(fēng)格化方法——TANGO,該方法對(duì)于給定的三維模型和文本,可以自動(dòng)生成更具有真實(shí)性的 SVBRDF 材質(zhì),法向貼圖和燈光,并且對(duì)低質(zhì)量三維模型有更好的魯棒性。該研究已被 NeurIPS 2022 接收。

模型效果

對(duì)于給定的文本輸入和三維模型,TANGO 可以產(chǎn)生精細(xì)程度較高的具有照片級(jí)真實(shí)感的細(xì)節(jié),并且不會(huì)在三維模型表面產(chǎn)生自交問(wèn)題。如下圖 1 所示, TANGO 不僅在光滑的材料(如金,銀等材質(zhì))上呈現(xiàn)出了逼真的反射效果,而且對(duì)于不平整的材質(zhì)(例如磚塊等)也能通過(guò)逐點(diǎn)法線的估計(jì)渲染出凹凸不平的效果。

89d58f72-57a8-11ed-a3b6-dac502259ad0.gif

圖 1. TANGO 的風(fēng)格化結(jié)果

TANGO 能夠生成真實(shí)渲染結(jié)果的關(guān)鍵在于能夠精準(zhǔn)地把著色模型中的每一個(gè)部件(SVBRDF,法向貼圖,燈光)拆分開,并分別學(xué)習(xí),最后這些拆分的部件再通過(guò)球高斯可微分渲染器輸出圖片,并送到 CLIP 中和輸入文本計(jì)算 loss。為了展現(xiàn)解耦部件的合理性,該研究對(duì)每個(gè)部件都進(jìn)行了可視化。圖 2 (a)展示了 “一雙磚塊做成的鞋子” 的風(fēng)格化結(jié)果,(b)展示了三維模型原本的法向,(c)是 TANGO 對(duì)三維模型上每個(gè)點(diǎn)預(yù)測(cè)的法向,(d)(e)(f)分別表示 SVBRDF 中的漫反射,粗糙度和鏡面反射參數(shù),(g)是 TANGO預(yù)測(cè)的用球高斯函數(shù)表達(dá)的環(huán)境光。

8a5dff10-57a8-11ed-a3b6-dac502259ad0.gif

圖 2 解耦的渲染部件可視化

同時(shí),該研究也可以對(duì) TANGO 輸出的結(jié)果進(jìn)行編輯。例如在圖 3 中,該研究可以換用其他的光照貼圖對(duì) TANGO 的結(jié)果進(jìn)行重新打光;在圖 4 中,可以對(duì)粗糙度和鏡面反射度參數(shù)進(jìn)行編輯,實(shí)現(xiàn)對(duì)物體表面反射程度的改變。

8acfdd10-57a8-11ed-a3b6-dac502259ad0.png

圖 3 對(duì) TANGO 風(fēng)格化結(jié)果進(jìn)行重新打光

8ae541b4-57a8-11ed-a3b6-dac502259ad0.png

圖 4 對(duì)物體材質(zhì)進(jìn)行編輯

另外,由于 TANGO 采用預(yù)測(cè)法向貼圖的方式增添物體表面細(xì)節(jié),因此對(duì)于頂點(diǎn)數(shù)較少的三維模型也有很好的魯棒性。如圖 5 所示,原始的 lamp 和 alien 模型分別有 41160 和 68430 個(gè)面,研究人員對(duì)原始模型進(jìn)行了降采樣,得到了只有 5000 個(gè)面的模型??梢钥吹?TANGO 在原始模型和降采樣模型上的表現(xiàn)基本相似,而 Text2Mesh 則在低質(zhì)量的模型上出現(xiàn)了較為嚴(yán)重的自交現(xiàn)象。

8b01e2b0-57a8-11ed-a3b6-dac502259ad0.png

圖 5 魯棒性測(cè)試

原理方法

TANGO 主要關(guān)注于由文本指導(dǎo)三維物體風(fēng)格化的方法。這一領(lǐng)域目前最相關(guān)的工作是 Text2Mesh,它使用了預(yù)訓(xùn)練模型 CLIP 作為指導(dǎo),預(yù)測(cè)三維模型表面頂點(diǎn)的顏色和位置偏移,從而實(shí)現(xiàn)風(fēng)格化。然而簡(jiǎn)單地預(yù)測(cè)表面頂點(diǎn)顏色通常會(huì)產(chǎn)生不真實(shí)的渲染效果,且不規(guī)則的頂點(diǎn)偏移會(huì)造成很嚴(yán)重的自交。因此,該研究借鑒傳統(tǒng)的基于物理的渲染管線,將整個(gè)渲染過(guò)程解耦為 SVBRDF 材質(zhì),法向貼圖和燈光的預(yù)測(cè)過(guò)程,并分別用球高斯函數(shù)表達(dá)解耦的元素。這種基于物理的解耦方式使得 TANGO 可以正確產(chǎn)生具有真實(shí)感的渲染效果,并具有很好的魯棒性。

8b21d070-57a8-11ed-a3b6-dac502259ad0.png

圖 6 TANGO 流程圖

圖 6 展示了 TANGO 的工作流程。給定一個(gè)三維模型和文本(例如圖中的“一個(gè)金子做成的鞋”),該研究先把這個(gè)三維模型縮放到一個(gè)單位球內(nèi),接著在三維模型的附近采樣相機(jī)位置,在這個(gè)相機(jī)位置發(fā)射射線找到與三維模型的交點(diǎn)xp和該交點(diǎn)的法線方向np。接下來(lái),xp和np會(huì)被送入SVBRDF網(wǎng)絡(luò)和 Normal 網(wǎng)絡(luò)中,預(yù)測(cè)該點(diǎn)的材質(zhì)參數(shù)和法線方向,同時(shí),用多個(gè)球高斯函數(shù)來(lái)表達(dá)場(chǎng)景中的光照。對(duì)于每一次訓(xùn)練迭代,該研究使用可微分的球高斯渲染器渲染圖像,然后使用 CLIP 模型的圖像編碼器對(duì)增強(qiáng)圖像進(jìn)行編碼,最后 CLIP 模型反向傳播梯度更新所有可學(xué)習(xí)的參數(shù)。

總結(jié)

本文提出了 TANGO,一種根據(jù)輸入文本對(duì)三維模型生成逼真外觀風(fēng)格,對(duì)低質(zhì)量模型具有魯棒性的新方法。通過(guò)將外觀風(fēng)格解耦 SVBRDF,局部幾何變化(逐點(diǎn)法向)和光照條件,并將這些用球高斯函數(shù)表示并渲染,能夠用 CLIP 作為 loss 監(jiān)督并進(jìn)行學(xué)習(xí)。 與現(xiàn)有方法相比,即使對(duì)于低質(zhì)量的三維模型,TANGO 也可以具有很好的魯棒性。然而,逐點(diǎn)法向提供幾何細(xì)節(jié)的方式在避免產(chǎn)生自交的同時(shí),也會(huì)使得能表達(dá)的材質(zhì)表面凹凸程度略微降低,該研究認(rèn)為 TANGO 和基于頂點(diǎn)偏移的 Text2Mesh 在各自的方向上都進(jìn)行了很好的初步嘗試,會(huì)啟發(fā)更多的后續(xù)研究。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2829

    瀏覽量

    106938
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    8

    文章

    1676

    瀏覽量

    45790
  • 三維模型
    +關(guān)注

    關(guān)注

    0

    文章

    47

    瀏覽量

    13053

原文標(biāo)題:NeurIPS 2022 | 基于文本驅(qū)動(dòng)的三維模型風(fēng)格化方法

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于OpenGL 的汽車轉(zhuǎn)向三維模型設(shè)計(jì)

    汽車軌跡的誤差。使用OpenGL 設(shè)計(jì)汽車三維模型,通過(guò)估算橫擺角速度得出簡(jiǎn)化的轉(zhuǎn)向軌跡模型。據(jù)此設(shè)計(jì)汽車轉(zhuǎn)向三維動(dòng)畫,實(shí)驗(yàn)結(jié)果表明汽車軌跡和姿態(tài)都取得了較好的可視
    發(fā)表于 05-17 11:53

    三維快速建模技術(shù)與三維掃描建模的應(yīng)用

    相關(guān)處理,構(gòu)建其三維模型和對(duì)模型進(jìn)行紋路映射,最終完成物體的三維模型構(gòu)建。該三維掃描建模流程
    發(fā)表于 08-07 11:14

    Altium Designer三維PCB可視引擎

      Altium Limited為 Altium Designer 新增了三維PCB可視引擎,讓所有設(shè)計(jì)師體驗(yàn)逼真的板卡設(shè)計(jì)。通過(guò) Altium Designer 6.8的三維 PCB 可視
    發(fā)表于 08-31 11:23

    三維可視的應(yīng)用和優(yōu)勢(shì)

    ,為此三維可視運(yùn)維系統(tǒng)登場(chǎng)了?! ?b class='flag-5'>三維可視的應(yīng)用  宏觀場(chǎng)景可視:在特定的環(huán)境中對(duì)隨著時(shí)間推移而不斷變化的目標(biāo)實(shí)體進(jìn)行檢測(cè),可以直觀、
    發(fā)表于 12-02 11:52

    如何導(dǎo)入機(jī)械臂的三維模型

    目的   本文手把手教你如何在 Mathematica 軟件中搭建機(jī)械臂的三維仿真環(huán)境,包括以下幾部分:   1. 如何導(dǎo)入機(jī)械臂的三維模型;   2. 如何進(jìn)行(正/逆)運(yùn)動(dòng)學(xué)仿真;   3.
    發(fā)表于 09-07 09:25

    Web環(huán)境下的三維虛擬人模型研究

    針對(duì)用戶有聲、可視獲取網(wǎng)頁(yè)文本信息需求,提出嵌入式三維虛擬人方法,以實(shí)現(xiàn)Web環(huán)境下的可視語(yǔ)音合成。建立連桿結(jié)構(gòu)的
    發(fā)表于 01-06 17:17 ?15次下載

    三維模型教材

    三維模型教材
    發(fā)表于 11-20 17:44 ?0次下載

    三維模型的空間匹配與拼接

    為獲得敦煌莫高窟第172窟的全景三維模型,實(shí)現(xiàn)文化遺產(chǎn)數(shù)字保護(hù),提出一種三維模型的空間匹配與拼接方法
    發(fā)表于 11-22 16:46 ?0次下載
    <b class='flag-5'>三維</b><b class='flag-5'>模型</b>的空間匹配與拼接

    基于非量測(cè)相片的三維模型重建

    隨著地球數(shù)字、信息、智能的發(fā)展,快速將物體的原態(tài)呈現(xiàn)出來(lái),建立物體的三維模型成為當(dāng)前的研究熱點(diǎn)。目前,已有的
    發(fā)表于 02-23 10:30 ?0次下載
    基于非量測(cè)相片的<b class='flag-5'>三維</b><b class='flag-5'>模型</b>重建

    三維數(shù)字三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場(chǎng)的有效紐帶

    劇院三維數(shù)字三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場(chǎng)的有效紐帶 三維激光掃描技術(shù)是整個(gè)三維數(shù)
    發(fā)表于 04-10 17:37 ?1111次閱讀

    三維數(shù)字三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場(chǎng)的有效紐帶

    劇院三維數(shù)字三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場(chǎng)的有效紐帶 三維激光掃描技術(shù)是整個(gè)三維數(shù)
    發(fā)表于 04-12 09:51 ?1090次閱讀

    劇院三維數(shù)字三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場(chǎng)

    劇院三維數(shù)字三維激光掃描技術(shù)是連接BIM模型和工程現(xiàn)場(chǎng)的有效紐帶 三維激光掃描技術(shù)是整個(gè)三維數(shù)
    發(fā)表于 04-24 15:33 ?768次閱讀

    智慧城市_實(shí)景三維|物業(yè)樓三維掃描案例分享_泰來(lái)三維

    三維激光掃描技術(shù)是近年來(lái)發(fā)展的新型測(cè)量方法,通過(guò)三維掃描獲取大量全面點(diǎn)云數(shù)據(jù),形成三維立體模型,實(shí)現(xiàn)快速掌握被測(cè)目標(biāo)信息。
    的頭像 發(fā)表于 05-16 13:56 ?845次閱讀
    智慧城市_實(shí)景<b class='flag-5'>三維</b>|物業(yè)樓<b class='flag-5'>三維</b>掃描案例分享_泰來(lái)<b class='flag-5'>三維</b>

    泰來(lái)三維|三維掃描助力變電站數(shù)字建設(shè)

    通過(guò)三維激光掃描儀對(duì)變電站進(jìn)行三維掃描,獲取精準(zhǔn)三維掃描模型,實(shí)現(xiàn)數(shù)字孿生精準(zhǔn)數(shù)據(jù)支持。1、數(shù)字
    的頭像 發(fā)表于 08-22 14:09 ?722次閱讀
    泰來(lái)<b class='flag-5'>三維</b>|<b class='flag-5'>三維</b>掃描助力變電站數(shù)字<b class='flag-5'>化</b>建設(shè)

    泰來(lái)三維|文物三維掃描,文物三維模型怎樣制作

    文物三維掃描,文物三維模型怎樣制作:我們都知道文物是不可再生的,要繼續(xù)保存?zhèn)鞒校枰奈?b class='flag-5'>三維數(shù)字保護(hù),所以
    的頭像 發(fā)表于 03-12 11:10 ?397次閱讀
    泰來(lái)<b class='flag-5'>三維</b>|文物<b class='flag-5'>三維</b>掃描,文物<b class='flag-5'>三維</b><b class='flag-5'>模型</b>怎樣制作