欧美成人免费观看一级a片,成人亚洲精品久久99狠狠

介紹一下我們最新開源的工作：FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators. 給定部分重疊的圖像和點云，F(xiàn)reeReg能夠估計可靠的像素-三維點同名關(guān)系并解算圖像-點云相對位姿關(guān)系。值得注意的是，F(xiàn)reeReg不需要任何訓練/微調(diào)！

基于FreeReg估計的準確的同名關(guān)系，我們可以把圖像patch投影到點云的對應(yīng)位置：

主頁：https://whu-usi3dv.github.io/FreeReg/

代碼：github.com/WHU-USI3DV/FreeReg

論文：https://arxiv.org/abs/2310.03420

太長不看（TL,DR）:

區(qū)別于現(xiàn)有方法利用Metric Learning直接學習跨模態(tài)(圖像和點云)一直特征，F(xiàn)reeReg提出首先進行基于預(yù)訓練大模型的模態(tài)對齊，隨后進行同模態(tài)同名估計：

Diffusion大模型實現(xiàn)點云到圖像模態(tài)的統(tǒng)一并構(gòu)建跨模態(tài)數(shù)據(jù)的粗粒度魯棒語義特征，
單目深度估計大模型實現(xiàn)圖像到點云模態(tài)的統(tǒng)一并刻畫跨模態(tài)數(shù)據(jù)的細粒度顯著幾何特征，
FreeReg通過融合兩種特征，無需任何針對圖像-點云配準任務(wù)的訓練，實現(xiàn)室內(nèi)外圖像-點云配準SoTA表現(xiàn)。

任務(wù)概述：圖像-點云（Image-to-point cloud, I2P）配準

輸入：部分重疊的圖像和點云
輸出：圖像相機相對于點云的位置姿態(tài)
典型框架：
- Step I (關(guān)鍵) : 構(gòu)建圖像-點云跨模態(tài)一致特征
- Step II: 基于特征一致性的 pixel(from 圖像)-point(from 點云) 同名估計
- Step III: 基于所構(gòu)建同名匹配的相對姿態(tài)估計 (PnP+RANSAC)

FreeReg和現(xiàn)有方法的比較？

現(xiàn)有方法往往是：用一個2D特征提取網(wǎng)絡(luò)提取圖像特征；用一個3D特征提取網(wǎng)絡(luò)提取點云特征；然后根據(jù)pixel-to-point對應(yīng)關(guān)系真值通過Metric Learning (Triplet/Batch hard/Circle loss/InfoCE...)的方式訓練網(wǎng)絡(luò)去提取跨模態(tài)一致的特征，這存在幾個問題：
圖像和點云存在故有的模態(tài)差異：圖像-紋理、點云-幾何，這給網(wǎng)絡(luò)可靠收斂帶來了困難，而影響特征的魯棒性(Wang et al, 2021);
需要長時間的訓練 (Pham，2020)；
場景間泛化能力弱 (Li，2023)。
FreeReg:
通過預(yù)訓練大模型實現(xiàn)模態(tài)對齊，消除模態(tài)差異，顯著提升特征魯棒性；
不需要任何針對I2P配準任務(wù)的訓練/微調(diào)；
能夠處理室內(nèi)外等多類型場景。

FreeReg pipeline:

Section I: FreeReg-D

在這一部分，我們首先利用Diffusion大模型將點云對齊到圖像模態(tài)，然后基于圖像模態(tài)下的特征進行同名估計。Naive Solution：利用現(xiàn)在圖像生成大殺器的ControlNet (Zhang et al, 2023; depth-to-image diffusion model)實現(xiàn)從點云(深度圖)中渲染出一個圖像，然后和query圖像做match不就行了？不行！如下圖，一個depth map可能對應(yīng)各種各樣的RGB圖像，ControlNet基于點云渲染出來的圖像合理，但是和query input image差異忒大，match不起來。

但是，我們注意到，ControlNet雖然生成的紋理和query差異很大，但是語義很正確而且和query RGB是對應(yīng)的，那么我們怎么提取這種跨模態(tài)一致的語義特征呢？受到相關(guān)研究的啟發(fā)（Mingi et al, 2022）一種基于Diffusion大模型的多模特Diffusion Feature

Diffusion Feature提取

RGB image diffusion feature：預(yù)訓練圖像生成大模型Stable Diffusion (SD，Dhariwal et al,2022)能夠通過迭代T步去噪的方式從純噪聲生成一張符合某種text-prompt（包含一些代表語義的名詞）的圖像，證明它能認識、區(qū)分和表征這些語義。而我們就把圖像加上一些噪聲讓SD去處理，然后看看哪些SD深層特征具有語義性。
Depth diffusion feature：我們用預(yù)訓練的ControlNet處理來自點云投影的深度圖，并基于其引導SD的圖像生成(迭代去噪)過程使生成的圖像符合深度圖，當去噪到某種程度時候我們把SD的中間層特征拿出來，看看哪些特征保證了生成圖像不僅符合深度圖而且語義性也是對的。
如上圖的c，我們發(fā)現(xiàn)，SD的0-6層輸出特征具有可靠的語義性和跨模態(tài)一致性！后面的特征才關(guān)注紋理。所以我們之用0-6層的特征（我們最終選擇concate0,4,6層的特征）作為我們的語義特征就好了，叫做Diffusion Feature！

Section II: FreeReg-G

在這一部分，我們利預(yù)訓練的單目深度估計網(wǎng)絡(luò)Zoe-Depth (Bhat et al, 2023)去恢復(fù)input RGB的深度，并將其恢復(fù)到3D點云分布，然后對RGB恢復(fù)的點云和input點云分別提取幾何特征（Geometric feature， Choy et al, 2019）用于match。此外，由于match得到的同名關(guān)系存在于點云空間，我們的變換估計可以采用Kabsch算法而非PnP方法，Kabsch利用Zoe-depth預(yù)測深度的約束可以僅使用3對同名關(guān)系就實現(xiàn)變換解算，更高效、更可靠，但是受到Zoe的影響不太精準（具體可以間我們的原文）。

Section III: FreeReg = FreeReg-D + FreeReg-G

在這一部分，我們?nèi)诤锨懊嬖诓煌B(tài)空間中提取的Diffusion Feature和Geometric Feature，作為我們最終的跨模特特征。如下圖所示：

Diffusion Feature具有很強的語義相關(guān)性和跨模特一致的可靠性，但是因為語義信息關(guān)聯(lián)自圖像的比較大的區(qū)域，這種大感受野使得基于特征相似性和雙向最近鄰篩選得到的pixel-to-point同名對準確但是稀疏。
Geometric Feature能夠關(guān)注幾何細節(jié)構(gòu)建更加dense的pixel-to-point correspondences，但是很容易受到zoe-depth預(yù)測誤差和噪聲的影響，導致得到的pixel-to-point同名對存在大量的outliers。
通過Fuse兩種特征(L2 normalization + weighted concatenate, Zhang et al, 2023)，F(xiàn)reeReg特征兼具語義可靠性和幾何顯著性，得到了更加可靠且dense的pixel-to-point correspondences！

實驗結(jié)果：

定性評價：得益于大模型模態(tài)對齊，F(xiàn)reeReg-D/G在沒有任何訓練和微調(diào)的情況下，就在室內(nèi)外三個數(shù)據(jù)集上取得了SoTA表現(xiàn)，而FreeReg進一步提升算法表現(xiàn)，取得了平均20%的內(nèi)點比例提升和48.6%的配準成功率提升！

定量評價：

更多的結(jié)果：實現(xiàn)細節(jié)、消融實驗、精度評價、同模態(tài)配準表現(xiàn)（也是SoTA?。⒑屯诠ぷ鞯谋容^（FreeReg更優(yōu)）、尚存問題請見我們的論文！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1078

瀏覽量
40345
點云

點云

+關(guān)注

關(guān)注
0

文章
58

瀏覽量
3773
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2206

瀏覽量
2227

原文標題：武大&港大提出FreeReg：預(yù)訓練擴散大模型取得點云-圖像配準SoTA！

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于擴散模型的圖像生成過程

等很難用文本指定。 ? 最近，谷歌發(fā)布了MediaPipe Diffusion插件，可以在移動設(shè)備上運行「可控文本到圖像生成」的低成本解決方案，支持現(xiàn)有的預(yù)訓練擴散

發(fā)表于 07-17 11:00 ?2560次閱讀

基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b>生成過程

如何在PyTorch中使用擴散模型生成圖像

除了頂尖的圖像質(zhì)量，擴散模型還帶來了許多其他好處，包括不需要對抗性訓練。對抗訓練的困難是有據(jù)可查的。在訓

發(fā)表于 11-22 15:51 ?446次閱讀

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓練

大語言模型的核心特點在于其龐大的參數(shù)量，這賦予了模型強大的學習容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學習容量的增加，對預(yù)訓練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

基于角點的紅外與可見光圖像自動配準方法

基于角點的紅外與可見光圖像自動配準方法摘要：針對紅外圖像與可見光圖像的自動配

發(fā)表于 05-12 09:11 ?29次下載

SAR圖像自動配準性能分析

合成孔徑雷達(SAR)圖像的自動配準長期以來都未能很好的解決，特別是高分辨率SAR圖像其配準的關(guān)

發(fā)表于 04-28 15:04 ?26次下載

基于多模型表示的高分辨率遙感圖像配準方法_項盛文

基于多模型表示的高分辨率遙感圖像配準方法_項盛文

發(fā)表于 03-19 19:19 ?0次下載

基于GPU加速的醫(yī)學圖像配準技術(shù)

針對目前醫(yī)學圖像配準技術(shù)無法滿足臨床實時性需求問題，對基于圖形處理器（ GPU）加速的醫(yī)學圖像配準

發(fā)表于 01-03 11:08 ?1次下載

基于SIFT特征的圖像配準（圖像匹配）

　SIFT圖像處理代碼，必須和三個文件一起下載使用：基于SIFT特征的圖像配準（Matlab源代碼）、基于SIFT特征的圖像

發(fā)表于 08-06 08:00 ?3次下載

基于SIFT特征的圖像配準（仿真圖片）

SIFT圖像處理代碼，必須和三個文件一起下載使用：基于SIFT特征的圖像配準（Matlab源代碼）、基于SIFT特征的圖像

發(fā)表于 08-06 08:00 ?3次下載

基于U-net分割的遙感圖像配準方法

在利用航拍遙感圖像進行土地測量與變化檢測時，需要對圖像進行配準處理。為實現(xiàn)目標區(qū)域的高精度匹配，提出一種遙感圖像

發(fā)表于 05-28 14:41 ?2次下載

預(yù)訓練數(shù)據(jù)大小對于預(yù)訓練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學習到的文本表征能力。那么如何從語言學的特征角度來衡量一個預(yù)訓練

發(fā)表于 03-03 11:20 ?1292次閱讀

什么是預(yù)訓練 AI 模型？

該向孩子展示這種生物的圖像并描述其獨有特征。那么，如果要教一臺人工智能（AI）機器什么是獨角獸，該從什么地方做起呢？ 預(yù)訓練 AI 模型提供了解決方案。

發(fā)表于 04-04 01:45 ?1359次閱讀

什么是預(yù)訓練AI模型？

預(yù)訓練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓練的深度學習模型。這些模型既可以直接使用，

發(fā)表于 05-25 17:10 ?944次閱讀

預(yù)訓練模型的基本原理和應(yīng)用

預(yù)訓練模型（Pre-trained Model）是深度學習和機器學習領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計算機視覺（CV）等領(lǐng)域中得到了廣泛應(yīng)用。預(yù)

發(fā)表于 07-03 18:20 ?1788次閱讀

大語言模型的預(yù)訓練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標簽數(shù)據(jù)上進行訓練，使模型學習到語言的通用知識

發(fā)表于 07-11 10:11 ?316次閱讀

搜索歷史

預(yù)訓練擴散大模型取得點云-圖像配準SoTA！

太長不看（TL,DR）:

任務(wù)概述：圖像-點云（Image-to-point cloud, I2P）配準

FreeReg pipeline:

實驗結(jié)果：

評論

基于擴散模型的圖像生成過程

如何在PyTorch中使用擴散模型生成圖像

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓練

基于角點的紅外與可見光圖像自動配準方法

SAR圖像自動配準性能分析

基于多模型表示的高分辨率遙感圖像配準方法_項盛文

基于GPU加速的醫(yī)學圖像配準技術(shù)

基于SIFT特征的圖像配準（圖像匹配）

基于SIFT特征的圖像配準（仿真圖片）

基于U-net分割的遙感圖像配準方法

預(yù)訓練數(shù)據(jù)大小對于預(yù)訓練模型的影響

什么是預(yù)訓練 AI 模型？

什么是預(yù)訓練AI模型？

預(yù)訓練模型的基本原理和應(yīng)用

大語言模型的預(yù)訓練

搜索歷史

預(yù)訓練擴散大模型取得點云-圖像配準SoTA！

太長不看（TL,DR）:

任務(wù)概述：圖像-點云（Image-to-point cloud, I2P）配準

FreeReg pipeline:

實驗結(jié)果：

評論

預(yù)訓練擴散大模型取得點云-圖像配準SoTA！