0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種用于生成3D對象的替代方法

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-02-10 10:58 ? 次閱讀

摘要

雖然最近關(guān)于根據(jù)文本提示生成 3D點云的工作已經(jīng)顯示出可喜的結(jié)果,但最先進的方法通常需要多個 GPU 小時來生成單個樣本。這與最先進的生成圖像模型形成鮮明對比,后者在幾秒或幾分鐘內(nèi)生成樣本。在本文中,我們探索了一種用于生成 3D 對象的替代方法,該方法僅需 1-2 分鐘即可在單個 GPU 上生成 3D 模型。

我們的方法首先使用文本到圖像的擴散模型生成單個合成視圖,然后使用以生成的圖像為條件的第二個擴散模型生成 3D 點云。雖然我們的方法在樣本質(zhì)量方面仍未達到最先進的水平,但它的采樣速度要快一到兩個數(shù)量級,為某些用例提供了實際的權(quán)衡。

316d2028-a8db-11ed-bfe3-dac502259ad0.png

背景介紹

poYBAGPlsyWAZgTOAACVRNGDTM4056.jpg

3185c2a4-a8db-11ed-bfe3-dac502259ad0.png

poYBAGPlszeAF9yaAADRmvRNnE8287.jpg

3194c4e8-a8db-11ed-bfe3-dac502259ad0.png

pYYBAGPls1CAKJM9AANLAptF4S0323.jpg

31a49e0e-a8db-11ed-bfe3-dac502259ad0.png

這種方法實施起來很簡單,只需要在訓(xùn)練期間隨機丟棄條件信息。我們在整個模型中采用這種技術(shù),使用丟棄概率 為0.1。

簡介

我們不是訓(xùn)練單個生成模型直接生成以文本為條件的點云,而是將生成過程分為三個步驟。首先,我們生成一個以文本標題為條件的綜合視圖。接下來,我們生成一個基于合成視圖的粗略點云(1,024 個點)。最后,我們生成了一個以低分辨率點云和合成視圖為條件的精細點云(4,096 個點)。在實踐中,我們假設(shè)圖像包含來自文本的相關(guān)信息,并且不明確地以文本為條件點云。

1、數(shù)據(jù)集

我們在數(shù)百萬個 3D 模型上訓(xùn)練我們的模型。我們發(fā)現(xiàn)數(shù)據(jù)集的數(shù)據(jù)格式和質(zhì)量差異很大,促使我們開發(fā)各種后處理步驟以確保更高的數(shù)據(jù)質(zhì)量。 為了將我們所有的數(shù)據(jù)轉(zhuǎn)換為一種通用格式,我們使用 Blender(Community,2018)從 20 個隨機攝像機角度將每個 3D 模型渲染為 RGBAD 圖像,Blender 支持多種 3D 格式并帶有優(yōu)化的渲染引擎。對于每個模型,我們的 Blender 腳本將模型標準化為邊界立方體,配置標準照明設(shè)置,最后使用 Blender 的內(nèi)置實時渲染引擎導(dǎo)出 RGBAD 圖像。

然后,我們使用渲染將每個對象轉(zhuǎn)換為彩色點云。特別地,我們首先通過計算每個 RGBAD 圖像中每個像素的點來為每個對象構(gòu)建一個稠密點云。這些點云通常包含數(shù)十萬個不均勻分布的點,因此我們還使用最遠點采樣來創(chuàng)建均勻的 4K 點云。通過直接從渲染構(gòu)建點云,我們能夠避免嘗試直接從 3D 網(wǎng)格采樣點時可能出現(xiàn)的各種問題,例如模型中包含的采樣點或處理以不尋常文件格式存儲的 3D 模型 。

最后,我們采用各種啟發(fā)式方法來減少數(shù)據(jù)集中低質(zhì)量模型的出現(xiàn)頻率。首先,我們通過計算每個點云的 SVD 來消除平面對象,只保留那些最小奇異值高于某個閾值的對象。接下來,我們通過 CLIP 特征對數(shù)據(jù)集進行聚類(對于每個對象,我們對所有渲染的特征進行平均)。我們發(fā)現(xiàn)一些集群包含許多低質(zhì)量的模型類別,而其他集群則顯得更加多樣化或可解釋。

我們將這些集群分到幾個不同質(zhì)量的容器中,并使用所得容器的加權(quán)混合作為我們的最終數(shù)據(jù)集。

2、查看合成 GLIDE 模型

本文的點云模型以文中數(shù)據(jù)集的渲染視圖為條件,這些視圖都是使用相同的渲染器和照明設(shè)置生成的。因此,為了確保這些模型正確處理生成的合成視圖,我們的目標是顯式生成與數(shù)據(jù)集分布相匹配的 3D 渲染。 為此,我們微調(diào)了 GLIDE,混合了其原始的數(shù)據(jù)集和我們的 3D 渲染數(shù)據(jù)集。由于我們的 3D 數(shù)據(jù)集與原始 GLIDE 訓(xùn)練集相比較小,因此我們僅在 5% 的時間內(nèi)從 3D 數(shù)據(jù)集中采樣圖像,其余 95% 使用原始數(shù)據(jù)集。我們對 100K 次迭代進行了微調(diào),這意味著該模型已經(jīng)在 3D 數(shù)據(jù)集上進行了多次迭代(但從未兩次看到完全相同的渲染視點)。

31b91618-a8db-11ed-bfe3-dac502259ad0.png

為了確保我們始終對分布渲染進行采樣(而不是僅在 5% 的時間內(nèi)對其進行采樣),我們在每個 3D 渲染的文本提示中添加了一個特殊標記,表明它是 3D 渲染;然后我們在測試時使用此標記進行采樣。

3、點云擴散

poYBAGPls6yAfS7oAAIukYDBAZQ954.jpg

值得注意的是,我們沒有為這個模型使用位置編碼。因此,模型本身對于輸入點云是排列不變的(盡管輸出順序與輸入順序相關(guān))。

4、點云上采樣

對于圖像擴散模型,最好的質(zhì)量通常是通過使用某種形式的層級結(jié)構(gòu)來實現(xiàn)的,其中低分辨率基礎(chǔ)模型產(chǎn)生輸出,然后由另一個模型進行上采樣。我們采用這種方法來生成點云,首先使用大型基礎(chǔ)模型生成 1K 點,然后使用較小的上采樣模型上采樣到 4K 點。

值得注意的是,我們模型的計算需求隨點數(shù)的增加而增加,因此對于固定模型大小,生成 4K 點的成本是生成 1K 點的四倍。 我們的上采樣器使用與我們的基本模型相同的架構(gòu),為低分辨率點云提供額外的條件標記。為了達到 4K 點,上采樣器以 1K 點為條件并生成額外的 3K 點,這些點被添加到低分辨率點云中。我們通過一個單獨的線性嵌入層傳遞條件點,而不是用于 的線性嵌入層,從而允許模型將條件信息與新點區(qū)分開來,而無需使用位置嵌入。

5、點云網(wǎng)格

對于基于渲染的評估,我們不直接渲染生成的點云。相反,我們將點云轉(zhuǎn)換為帶紋理的網(wǎng)格并使用 Blender 渲染這些網(wǎng)格。從點云生成網(wǎng)格是一個經(jīng)過充分研究的問題,有時甚至是一個難題。我們的模型生成的點云通常有裂縫、異常值或其他類型的噪聲,使問題特別具有挑戰(zhàn)性。

為此,我們簡要嘗試使用預(yù)訓(xùn)練的 SAP 模型(Peng 等人,2021 年),但發(fā)現(xiàn)生成的網(wǎng)格有時會丟失點云中存在的大部分形狀或重要的形狀細節(jié)。我們沒有訓(xùn)練新的 SAP 模型,而是選擇了一種更簡單的方法。 為了將點云轉(zhuǎn)換為網(wǎng)格,我們使用基于回歸的模型來預(yù)測給定點云的對象的符號距離場,然后將行進立方體 (Lorensen & Cline, 1987) 應(yīng)用于生成的 SDF 以提取網(wǎng)格。然后,我們使用距離原始點云最近的點的顏色為網(wǎng)格的每個頂點分配顏色。

實驗結(jié)果

由于通過文本條件合成3D是一個相當新的研究領(lǐng)域,因此還沒有針對此任務(wù)的標準基準集。然而,其他幾項工作使用 CLIP R-Precision 評估 3D 生成,我們在表 1 中與這些方法進行了比較。除了 CLIP R-Precision 之外,我們還注意到報告的每種方法的采樣計算要求。

31cf5090-a8db-11ed-bfe3-dac502259ad0.png

雖然我們的方法比當前最先進的方法表現(xiàn)要差些,但我們注意到此評估的兩個微妙之處,它們可以解釋部分(但可能不是全部)這種差異:

與 DreamFusion 等基于多視圖優(yōu)化的方法不同,Point E 不會明確優(yōu)化每個視圖以匹配文本提示。這可能會導(dǎo)致 CLIP R-Precision 降低,因為某些物體不容易從所有角度識別。

我們的方法生成的點云必須在渲染前進行預(yù)處理。將點云轉(zhuǎn)換為網(wǎng)格是一個難題,我們使用的方法有時會丟失點云本身中存在的信息。

總結(jié)與展望

本文介紹了 Point E,一個用于從文本生成點云的方法,它首先生成合成視圖,然后生成以這些視圖為條件的彩色點云。我們發(fā)現(xiàn) Point E 能夠根據(jù)文本提示有效地生成多樣化和復(fù)雜的 3D 形狀。希望我們的方法可以作為文本到 3D這一塊研究領(lǐng)域進一步工作的起點。








審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4639

    瀏覽量

    128479
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    795

    瀏覽量

    58310
  • SVD
    SVD
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    12146
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    30

    瀏覽量

    6633

原文標題:使用擴散模型從文本提示中生成3D點云

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需張照片,便能迅速打造獨無二的3D角色。7月16日,騰訊旗下大模型應(yīng)用“騰訊元寶”上線了“
    的頭像 發(fā)表于 07-18 11:39 ?668次閱讀
    歡創(chuàng)播報 騰訊元寶首發(fā)<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應(yīng)用

    奧比中光3D相機打造高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案

    高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案。 Moverse公司總部位于希臘塞薩洛尼基,是三維動畫相關(guān)媒體和娛樂行業(yè)的家科技創(chuàng)業(yè)公司?;趭W比中光
    的頭像 發(fā)表于 06-25 16:37 ?944次閱讀

    3D建模的特點和優(yōu)勢都有哪些?

    3D建模是一種用于創(chuàng)建三維對象的過程,它在許多領(lǐng)域都有著廣泛的應(yīng)用,包括動畫、游戲開發(fā)、建筑設(shè)計、工程以及制造業(yè)等。下面古河云科技將介紹
    的頭像 發(fā)表于 05-13 16:41 ?2070次閱讀

    ad19中3d模型不顯示?

    封裝庫導(dǎo)入3d模型不顯示,但導(dǎo)入3d模型后的封裝庫生成pcb文件時顯示3d模型,這是什么原因?qū)е碌摹?
    發(fā)表于 04-24 13:41

    包含具有多種類型信息的3D模型

    、安全和高效的建筑系統(tǒng),讓居住者能夠擁有可持續(xù)、彈性舒適且符合人體工程學(xué)的建筑。建筑信息模型 (BIM) 是建筑工程師在建筑物和其他結(jié)構(gòu)設(shè)計中使用的一種3D建模過程。BIM軟件提供了個基于模型
    發(fā)表于 03-28 17:18

    NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?417次閱讀
    NVIDIA<b class='flag-5'>生成</b>式AI研究實現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形狀

    Stability AI推出Stable Video 3D模型,可制作多視角3D視頻

    SV3D_u是Stable Video 3D個版本,僅需單幅圖片即可生成運動軌跡視頻,無須進行相機調(diào)整。擴充版本的SV3D_p加入了軌道
    的頭像 發(fā)表于 03-21 14:57 ?886次閱讀

    Adobe Substance 3D整合AI功能:基于文本生成紋理、背景

    Substance 3D Stager是以Adobe Dimension為基礎(chǔ)改造而成,使用者可直觀地進行3D場景構(gòu)建,包括模型、材質(zhì)和燈光等要素。借助其強大功能,能夠生成極具觀賞性的虛擬照片。
    的頭像 發(fā)表于 03-20 10:28 ?608次閱讀

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動起來的新方法

    因此,本文研究者的目標是實現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D一種全新的單階段的全類別擴散模型,能
    的頭像 發(fā)表于 01-30 16:20 ?755次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓文本、圖像都動起來的新<b class='flag-5'>方法</b>!

    介紹一種使用2D材料進行3D集成的新方法

    美國賓夕法尼亞州立大學(xué)的研究人員展示了一種使用2D材料進行3D集成的新穎方法。
    的頭像 發(fā)表于 01-13 11:37 ?972次閱讀

    4DGen:基于動態(tài)3D高斯的可控4D生成新工作

    盡管3D和視頻生成取得了飛速的發(fā)展,由于缺少高質(zhì)量的4D數(shù)據(jù)集,4D生成始終面臨著巨大的挑戰(zhàn)。
    的頭像 發(fā)表于 01-04 15:57 ?779次閱讀
    4DGen:基于動態(tài)<b class='flag-5'>3D</b>高斯的可控4<b class='flag-5'>D</b><b class='flag-5'>生成</b>新工作

    應(yīng)用于3D對象檢測的點云深度學(xué)習(xí)方法

    隨著激光雷達傳感器(“光檢測和測距”的縮寫,有時稱為“激光掃描”,現(xiàn)在在些最新的 iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,
    的頭像 發(fā)表于 01-03 10:32 ?803次閱讀
    兩<b class='flag-5'>種</b>應(yīng)<b class='flag-5'>用于</b><b class='flag-5'>3D</b><b class='flag-5'>對象</b>檢測的點云深度學(xué)習(xí)<b class='flag-5'>方法</b>

    3D人體生成模型HumanGaussian實現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠程呈現(xiàn)等應(yīng)用有深遠的意義。傳統(tǒng)方法需要經(jīng)歷系列人
    的頭像 發(fā)表于 12-20 16:37 ?1420次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實現(xiàn)原理

    研究人員設(shè)計一種新的3D噴墨打印技術(shù)

    據(jù)悉,只帶韌帶和肌腱的骨骼機械手現(xiàn)在可以通過3D打印完成 —— 這是通過一種新的增材制造方法實現(xiàn)的,這種
    的頭像 發(fā)表于 11-20 17:01 ?656次閱讀

    基于深度學(xué)習(xí)的3D點云實例分割方法

    3D實例分割(3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點云表示的 3D 場景,我們尋求為每個點分配語義類和唯的實例標簽。
    發(fā)表于 11-13 10:34 ?1962次閱讀
    基于深度學(xué)習(xí)的<b class='flag-5'>3D</b>點云實例分割<b class='flag-5'>方法</b>