日韩一级片免费观看,精品无人区一线二线三线区别 ,91sex国产

訓(xùn)練計(jì)算機(jī)視覺(jué)模型通常需要在各種場(chǎng)景配置和屬性下收集和標(biāo)注大量圖像。這個(gè)過(guò)程非常耗時(shí)，確保捕獲的數(shù)據(jù)分布很好地映射到應(yīng)用程序場(chǎng)景的目標(biāo)域也是一個(gè)挑戰(zhàn)。

最近，合成數(shù)據(jù)已成為解決這兩個(gè)問(wèn)題的一種方法。然而，現(xiàn)有的方法要么需要人類(lèi)專(zhuān)家手動(dòng)調(diào)整每個(gè)場(chǎng)景屬性，要么用幾乎沒(méi)有控制的自動(dòng)方法；這需要渲染大量隨機(jī)的數(shù)據(jù)變異，其過(guò)程很慢，并且對(duì)于目標(biāo)域來(lái)說(shuō)通常是次優(yōu)的。

作者提出了第一個(gè)完全可微分的合成數(shù)據(jù)流水線，在閉環(huán)中用神經(jīng)輻射場(chǎng)（NERF），其具備目標(biāo)應(yīng)用的損失函數(shù)。這個(gè)方法按需生成數(shù)據(jù)，無(wú)需人力，最大限度地提高目標(biāo)任務(wù)的準(zhǔn)確性。

該方法在合成和真實(shí)目標(biāo)檢測(cè)任務(wù)中具備有效性。一個(gè)新的“YCB-in-the-Wild”數(shù)據(jù)集和基準(zhǔn)，為現(xiàn)實(shí)環(huán)境中具有不同姿態(tài)的目標(biāo)檢測(cè)提供了測(cè)試場(chǎng)景。

最近，圖像生成技術(shù)神經(jīng)輻射場(chǎng)（NeRF），作為用基于神經(jīng)網(wǎng)絡(luò)的渲染器，替代傳統(tǒng)光柵化和光線跟蹤圖形學(xué)流水線的方法。這種方法可以生成高質(zhì)量的場(chǎng)景新視圖，無(wú)需進(jìn)行明確的3D理解。NeRF的最新進(jìn)展允許控制其他渲染參數(shù)，如照明、材質(zhì)、反照率、外觀等。因此，被廣泛應(yīng)用于各種圖形和視覺(jué)任務(wù)。

NeRF及其變型具有一些誘人的特性：（i）可差分渲染，（ii）與GANs和VAEs不同的對(duì)場(chǎng)景屬性的控制，以及（iii）與傳統(tǒng)渲染器相比，數(shù)據(jù)驅(qū)動(dòng)的模式，而傳統(tǒng)渲染器需要精心制作3D模型和場(chǎng)景。這些屬性適合于為給定目標(biāo)任務(wù)按需生成最佳數(shù)據(jù)。

NeRF更適合學(xué)習(xí)生成合成數(shù)據(jù)集的優(yōu)勢(shì)在于兩個(gè)方面。首先，NeRF學(xué)習(xí)僅基于圖像數(shù)據(jù)和攝像頭姿態(tài)信息從新視圖生成數(shù)據(jù)。

相反，傳統(tǒng)的圖形學(xué)流水線需要目標(biāo)的3D模型作為輸入。獲得具有正確幾何、材質(zhì)和紋理屬性的精確3D模型通常需要人類(lèi)專(zhuān)家（即藝術(shù)家或建模師）。這反過(guò)來(lái)限制了傳統(tǒng)圖形學(xué)流水線在許多新目標(biāo)或場(chǎng)景的大規(guī)模渲染中的可擴(kuò)展性。

其次，NeRF是一種可微分的渲染器，因此允許通過(guò)渲染流水線進(jìn)行反向傳播，學(xué)習(xí)如何以模型和場(chǎng)景為中心的方式控制數(shù)據(jù)生成。工作目標(biāo)是自動(dòng)合成最佳訓(xùn)練數(shù)據(jù)，最大限度地提高目標(biāo)任務(wù)的準(zhǔn)確性，取名為Neural-Sim。

在這項(xiàng)工作中，將目標(biāo)檢測(cè)作為目標(biāo)任務(wù)。此外，最近，NeRF及其變型（NeRFs）已用于合成復(fù)雜場(chǎng)景的高分辨率真實(shí)感圖像。這里提出了一種優(yōu)化NERF渲染參數(shù)的技術(shù)，生成用于訓(xùn)練目標(biāo)檢測(cè)模型的最佳圖像集。

如圖所示：（a）按需合成數(shù)據(jù)生成：給定目標(biāo)任務(wù)和測(cè)試數(shù)據(jù)集，Neural- Sim使用完全可微分的合成數(shù)據(jù)生成流水線按需生成數(shù)據(jù)，最大限度地提高目標(biāo)任務(wù)的精度。（b）訓(xùn)練/測(cè)試域間隙導(dǎo)致檢測(cè)精度顯著下降（黃色條至灰色條）。動(dòng)態(tài)優(yōu)化渲染參數(shù)（姿勢(shì)/縮放/照明），生成填充該間隙的最佳數(shù)據(jù)（藍(lán)色條）。

NeRF模型

NeRF表示為V =（φ，ρ），把觀察方向（或攝像頭姿態(tài)）作為輸入，并渲染沿V觀看的場(chǎng)景圖像x=NeRF（V）。注意，這里技術(shù)通常廣泛適用于不同的渲染器。這項(xiàng)工作中還優(yōu)化了NeRF-in-the-wild（NeRF-w），允許外觀和照明變化以及姿勢(shì)變化。

合成訓(xùn)練數(shù)據(jù)生成

考慮渲染參數(shù)V的參數(shù)概率分布pψ，其中ψ表示分布的參數(shù)。應(yīng)注意，ψ對(duì)應(yīng)于所有渲染參數(shù)，包括姿勢(shì)/縮放/照明，這里，為了簡(jiǎn)單起見(jiàn)，ψ表示姿勢(shì)變量。為了生成合成訓(xùn)練數(shù)據(jù)，首先采樣渲染參數(shù)V1、V2、…、VN～ pψ。然后，用NeRF生成具有各自渲染參數(shù)Vi的合成訓(xùn)練圖像xi=NeRF（Vi）。使用現(xiàn)成的前景提取器獲得標(biāo)簽y1，y2，…，yN。由此生成的訓(xùn)練數(shù)據(jù)集表示為Dtrain = {（x1，y1）、（x2，y2），…，（xN，yN）}。

優(yōu)化合成數(shù)據(jù)生成

目標(biāo)是優(yōu)化渲染分布pψ，在Dtrain上訓(xùn)練目標(biāo)檢測(cè)模型使得在Dval上獲得良好的性能。如此構(gòu)建一個(gè)兩層優(yōu)化，即：

其中

這里求解方法采用如下的梯度計(jì)算：其分成兩個(gè)項(xiàng)分別估計(jì)，?NeRF對(duì)應(yīng)于通過(guò)從NeRF生成數(shù)據(jù)集的反向傳播，以及?TV對(duì)應(yīng)于通過(guò)訓(xùn)練和驗(yàn)證的近似反向傳播

如圖所示Neural-Sim的流水線：從經(jīng)過(guò)訓(xùn)練的神經(jīng)渲染器（NeRF）中找到生成視圖的最佳參數(shù)，用作目標(biāo)檢測(cè)的訓(xùn)練數(shù)據(jù)。目標(biāo)是找到能夠生成合成訓(xùn)練數(shù)據(jù)Dtrain的最佳NeRF渲染參數(shù)ψ，在Dtrain上訓(xùn)練的模型（取RetinaNet為例）最大化驗(yàn)證集Dval表示的下游任務(wù)的精度。

近似計(jì)算：

然后基于鏈?zhǔn)椒▌t得到：

為計(jì)算采用一些近似方法：

對(duì)于位姿參數(shù)離散區(qū)間上的分布pψ，提出了一種ψ的重新參數(shù)化，提供了dVi/dψ的有效近似（工具 1）。

用一種兩次向前一次向后（twice-forward-once-backward）的方法（工具2），大大減少了（2）中梯度近似的內(nèi)存和計(jì)算開(kāi)銷(xiāo)。如果沒(méi)有這種新技術(shù)，實(shí)現(xiàn)中需要涉及大矩陣和計(jì)算圖的高計(jì)算開(kāi)銷(xiāo)。

即使使用上述技術(shù)，在GPU內(nèi)存方面，（3）中計(jì)算第一項(xiàng)和第二項(xiàng)的開(kāi)銷(xiāo)很大，取決于圖像大小。用逐塊梯度計(jì)算方法（工具 3）克服了這一問(wèn)題。

關(guān)于工具1中重新參數(shù)化的實(shí)現(xiàn)，采用bin-samplinng，如圖所示：首先將位姿空間離散為一組k個(gè)bins，然后對(duì)其進(jìn)行采樣以生成NeRF的視圖參數(shù)。為了在采樣過(guò)程中反向傳播，用Gumble softmax的“重新參數(shù)化技巧”，從類(lèi)別（即bin）分布中近似樣本。在每個(gè)bin中，均勻采樣。

這里y的計(jì)算如下

這樣?NeRF的計(jì)算變成：

整個(gè)梯度計(jì)算包括三項(xiàng)：

?

而工具2提出的“兩次向前一次向后“方法是這樣的：在第一個(gè)前向路徑中，不計(jì)算梯度，只渲染圖像形成Dtrain，保存用于渲染的y，φj的隨機(jī)樣本。然后，轉(zhuǎn)向梯度計(jì)算（3）。在第二次通路NeRF時(shí)，保持相同的樣本，去計(jì)算梯度（1）和（2）。所謂工具3的逐塊梯度計(jì)算如下：

NeRF-in-the-wild（NeRF-w）擴(kuò)展了普通NeRF模型，允許依賴(lài)于圖像的外觀和照明變化，從而可以顯式模擬圖像之間的光度差異。

NeRF-w沿觀看方向V作為輸入的是外觀嵌入，表示為l，圖像呈現(xiàn)為x＝NeRF（V，l）。

對(duì)于NERF-w，位姿（V）的優(yōu)化與上述相同。照明的有效優(yōu)化，則利用NeRF-w的一個(gè)值得注意的特性：允許在顏色和照明之間進(jìn)行平滑插值。這能夠?qū)⒄彰鲀?yōu)化為連續(xù)變量，其中照明（l）可以寫(xiě)成可用照明嵌入（li）的仿射函數(shù)，l = sum（ψi? li）其中sum（ψi）= 1。

為從等式（3）計(jì)算梯度，?xi/?l使用工具2和工具3，以與上述相同的方式計(jì)算l，并且dl/dψ項(xiàng)計(jì)算是直接的，并通過(guò)投影梯度下降（projected gradient descent）進(jìn)行優(yōu)化。

實(shí)現(xiàn)細(xì)節(jié)如下：用傳統(tǒng)渲染Blender-Proc，100幅具有不同攝像頭姿態(tài)和縮放因子的圖像，為每個(gè)YCB目標(biāo)訓(xùn)練一個(gè)NeRF-w模型。用RetinaNet作為下游目標(biāo)檢測(cè)器。

為了加速優(yōu)化，在訓(xùn)練期間固定主干。在雙層優(yōu)化步驟中，用Gumble softmax 溫度τ = 0.1。在每次優(yōu)化迭代中，為每個(gè)目標(biāo)類(lèi)渲染50幅圖像，并訓(xùn)練兩個(gè)epoch的 RetinaNet。

基線方法包括：提出的方法與學(xué)習(xí)模擬器參數(shù)的兩種流行方法進(jìn)行比較。第一個(gè)基線是“Learning to simulate （LTS）“，它提出了一種基于REINFORCE的方法來(lái)優(yōu)化模擬器參數(shù)。

還要注意，meta-sim是一種基于REINFORCE的方法。接下來(lái)，第二個(gè)考慮Auto-Sim，它提出了一種學(xué)習(xí)模擬器參數(shù)的有效優(yōu)化方法。

NS是指提出的方法沒(méi)有做兩層優(yōu)化的情況，NSO是指提出的方法采用兩層優(yōu)化的情況。

實(shí)驗(yàn)結(jié)果如下：

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
27

文章
4632

瀏覽量
128446
攝像頭

攝像頭

+關(guān)注

關(guān)注
59

文章
4776

瀏覽量
95101
3D模型

3D模型

+關(guān)注

關(guān)注
1

文章
71

瀏覽量
15662
提取器

提取器

+關(guān)注

關(guān)注
0

文章
14

瀏覽量
8106

原文標(biāo)題：Neural-Sim: 采用NeRF學(xué)習(xí)如何生成訓(xùn)練數(shù)據(jù)

文章出處：【微信號(hào)：3D視覺(jué)工坊，微信公眾號(hào)：3D視覺(jué)工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

NVIDIA Nemotron-4 340B模型幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)

Nemotron-4 340B 是針對(duì) NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列，該系列包含最先進(jìn)的指導(dǎo)和獎(jiǎng)勵(lì)模型，以及一個(gè)用于生成式 AI 訓(xùn)練的數(shù)

發(fā)表于 09-06 14:59 ?215次閱讀

基于大模型的仿真系統(tǒng)研究一——三維重建大模型

一基于大模型的仿真系統(tǒng)框架 ? ?傳統(tǒng)的仿真測(cè)試驗(yàn)證普遍基于場(chǎng)景，而場(chǎng)景的構(gòu)建主要由道路和場(chǎng)景編輯器來(lái)人工搭建靜態(tài)場(chǎng)景和動(dòng)態(tài)

發(fā)表于 07-30 14:51 ?1159次閱讀

NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

Foundry 提供從數(shù)據(jù)策管、合成數(shù)據(jù)生成、微調(diào)、檢索、防護(hù)到評(píng)估的全方位生成式 AI 模型服務(wù)，以便部署自定義 Llama 3.1 N

發(fā)表于 07-24 09:39 ?663次閱讀

深度學(xué)習(xí)模型有哪些應(yīng)用場(chǎng)景

深度學(xué)習(xí)模型作為人工智能領(lǐng)域的重要分支，已經(jīng)在多個(gè)應(yīng)用場(chǎng)景中展現(xiàn)出其巨大的潛力和價(jià)值。這些應(yīng)用不僅改變了我們的日常生活，還推動(dòng)了科技進(jìn)步和產(chǎn)業(yè)升級(jí)。以下將詳細(xì)探討深度學(xué)習(xí)模型的20個(gè)主要應(yīng)用場(chǎng)

發(fā)表于 07-16 18:25 ?1104次閱讀

AI時(shí)代，我們需要怎樣的數(shù)據(jù)中心？AI重新定義數(shù)據(jù)中心

超過(guò)60%的中國(guó)企業(yè)計(jì)劃在未來(lái)12至24個(gè)月內(nèi)部署生成式人工智能。AI、模型的構(gòu)建，將顛覆數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)、運(yùn)維和運(yùn)營(yíng)。一個(gè)全新的數(shù)據(jù)中心智能化時(shí)代已經(jīng)拉開(kāi)序幕。

發(fā)表于 07-16 11:33 ?513次閱讀

DDS重要特性之--以數(shù)據(jù)為中心#DDS

數(shù)據(jù)中心DDS

北匯信息POLELINK
發(fā)布于 :2024年05月20日 18:18:28

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

任務(wù)、評(píng)測(cè)集構(gòu)建標(biāo)準(zhǔn)和評(píng)測(cè)方式三個(gè)部分。特別地，為了關(guān)注大語(yǔ)言模型在中文場(chǎng)景的優(yōu)化和應(yīng)用，該框架特別注重中文特有語(yǔ)境下的能力考察。其貢獻(xiàn)在于不僅能更準(zhǔn)確地反映模型在實(shí)際應(yīng)用中的表現(xiàn)，還

發(fā)表于 05-07 17:12

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

用于文本生成，根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本，為故事創(chuàng)作等提供無(wú)限可能。大語(yǔ)言模型也面臨挑戰(zhàn)。一方面，其計(jì)算資源需求巨大，訓(xùn)練和推理耗時(shí)；另一方面，

發(fā)表于 05-04 23:55

請(qǐng)教兩個(gè)FPGA開(kāi)發(fā)板通信，如何以直連的方式，通200MHz速率的數(shù)據(jù)？

請(qǐng)教兩個(gè)FPGA開(kāi)發(fā)板通信，如何以直連的方式，通200MHz速率的數(shù)據(jù)？

發(fā)表于 04-29 15:49

生成式 AI 進(jìn)入模型驅(qū)動(dòng)時(shí)代

隨著ChatGPT和大型語(yǔ)言模型(LLM)呈現(xiàn)爆炸式增長(zhǎng)，生成式人工智能(GenerativeAI)成為近來(lái)的一大熱詞。由此引發(fā)了一場(chǎng)爭(zhēng)論：哪種AI模型使用的訓(xùn)練參數(shù)最多？與此同時(shí)，更多

發(fā)表于 04-13 08:12 ?438次閱讀

KOALA人工智能圖像生成模型問(wèn)世

近日，韓國(guó)科學(xué)團(tuán)隊(duì)宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型，該模型在速度和質(zhì)量上均實(shí)現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成高質(zhì)量圖片，同時(shí)大幅降低了對(duì)硬件的需

發(fā)表于 03-05 10:46 ?682次閱讀

如何以HAE(諧波分析引擎) 方式改善智能電網(wǎng)的集成度

電子發(fā)燒友網(wǎng)站提供《如何以HAE(諧波分析引擎) 方式改善智能電網(wǎng)的集成度.pdf》資料免費(fèi)下載

發(fā)表于 11-28 11:48 ?0次下載

從HumanEval到CoderEval: 你的代碼生成模型真的work嗎？

項(xiàng)目中的選取了代碼生成任務(wù)來(lái)構(gòu)建CoderEval，并根據(jù)對(duì)外部依賴(lài)的程度為標(biāo)準(zhǔn)將這些任務(wù)分為6個(gè)等級(jí)、根據(jù)生成的目標(biāo)分為3類(lèi)生成任務(wù)，以更多維地評(píng)估不同大

發(fā)表于 11-25 15:55 ?1450次閱讀

大模型時(shí)代，數(shù)據(jù)中心將轉(zhuǎn)向何方？

數(shù)據(jù)中心大模型

腦極體
發(fā)布于 :2023年11月22日 09:01:41

基于大語(yǔ)言模型的共情回復(fù)生成：實(shí)證研究和改進(jìn)

對(duì)以ChatGPT為代表的LLMs在共情回復(fù)生成上的表現(xiàn)進(jìn)行了全面的實(shí)證研究，LLMs在現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上，對(duì)比以往的SOTA模型，表現(xiàn)極其優(yōu)越。

發(fā)表于 11-21 09:25 ?997次閱讀