国产成人无码VA在线观看,五月天亚洲成女图区

2. 引言

這篇論文提出了一種創(chuàng)新的3D室內(nèi)場(chǎng)景分割方法，這在增強(qiáng)現(xiàn)實(shí)、機(jī)器人技術(shù)等領(lǐng)域是一個(gè)關(guān)鍵的任務(wù)。該任務(wù)的核心是從多種3D場(chǎng)景表現(xiàn)形式（如網(wǎng)格或點(diǎn)云）中預(yù)測(cè)3D物體掩膜。歷史上，傳統(tǒng)方法在分割訓(xùn)練過程中未遇到的新物體類別時(shí)常常遇到困難，這限制了它們?cè)谀吧h(huán)境中的有效性。

最近的進(jìn)展，如Segment Anything Model（SAM），在2D圖像分割方面顯示出潛力，能夠在無(wú)需額外訓(xùn)練的情況下分割陌生的圖像。本文探討了將SAM原理應(yīng)用于3D場(chǎng)景分割的可能性，具體研究了是否可以直接將SAM應(yīng)用于2D幀，以分割3D場(chǎng)景，而無(wú)需額外訓(xùn)練。這一探索基于SAM的一個(gè)獨(dú)特特點(diǎn)：它的提示功能，即它接受各種輸入類型來指定圖像中的分割目標(biāo)。

作者指出了一個(gè)關(guān)鍵挑戰(zhàn)：確保同一3D物體在不同幀中的2D分割的一致性。他們觀察到，像SAM3D這樣的現(xiàn)有方法，它將自動(dòng)化SAM應(yīng)用于單個(gè)幀，但在不同幀中存在不一致性，導(dǎo)致3D分割效果不佳。另一種方法，SAM-PT，在視頻跟蹤中效果顯著，但在3D場(chǎng)景中失敗，因?yàn)槲矬w并非始終出現(xiàn)在所有幀中。

為了應(yīng)對(duì)這些挑戰(zhàn)，論文提出了一個(gè)名為SAMPro3D的新框架，該框架在輸入場(chǎng)景中定位3D點(diǎn)作為SAM提示。這些3D提示被投影到2D幀上，確保了跨幀一致的像素提示和相應(yīng)的掩膜。這種方法確保了同一3D物體在不同視角下的分割掩膜的一致性。

SAMPro3D首先初始化3D提示，使用SAM在各個(gè)幀中生成相應(yīng)的2D掩膜。然后，它根據(jù)所有幀中相應(yīng)掩膜的質(zhì)量過濾3D提示，優(yōu)先選擇在所有視圖中都能產(chǎn)生高質(zhì)量結(jié)果的提示。為了解決部分物體分割的問題，該框架合并了重疊的3D提示，整合信息以實(shí)現(xiàn)更全面的分割。SAMPro3D累積跨幀的預(yù)測(cè)結(jié)果，以得出最終的3D分割。值得注意的是，該方法不需要額外的領(lǐng)域特定訓(xùn)練或3D預(yù)訓(xùn)練網(wǎng)絡(luò)，這保持了SAM的零樣本能力，是之前方法所不具備的顯著優(yōu)勢(shì)。

該論文通過廣泛的實(shí)驗(yàn)驗(yàn)證了SAMPro3D的有效性，展示了它在實(shí)現(xiàn)高質(zhì)量和多樣化分割方面的能力，通常甚至超過了人類級(jí)別的標(biāo)注和現(xiàn)有方法。此外，它還展示了在2D分割模型（如HQ-SAM和Mobile-SAM）中的改進(jìn)可以有效地轉(zhuǎn)化為改進(jìn)的3D結(jié)果。這篇論文為3D室內(nèi)場(chǎng)景分割引入了一種開創(chuàng)性的方法，巧妙地利用了2D圖像分割模型的能力，并將其創(chuàng)新地應(yīng)用于3D領(lǐng)域。結(jié)果是一種強(qiáng)大的、零樣本的分割方法，顯著推進(jìn)了3D視覺理解領(lǐng)域的最新發(fā)展。

3. 方法

本文提出的方法名為SAMPro3D，旨在直接應(yīng)用Segment Anything Model (SAM) 對(duì)室內(nèi)場(chǎng)景的3D點(diǎn)云及其關(guān)聯(lián)的2D幀進(jìn)行零樣本3D場(chǎng)景分割。

3D Prompt Proposal

首先，針對(duì)一個(gè)3D場(chǎng)景的點(diǎn)云，包含個(gè)點(diǎn)，我們使用最遠(yuǎn)點(diǎn)采樣（Furthest-Point Sampling, FPS）從中采樣個(gè)點(diǎn)作為初始3D提示。FPS幫助我們實(shí)現(xiàn)了場(chǎng)景中物體的良好覆蓋。簡(jiǎn)化地，我們用和分別表示單個(gè)輸入點(diǎn)和一個(gè)3D提示。

接著，我們僅考慮針孔相機(jī)配置。具體來說，給定幀的相機(jī)內(nèi)參矩陣和世界到相機(jī)的外參矩陣，我們通過以下公式計(jì)算點(diǎn)提示的對(duì)應(yīng)像素投影：

其中，和分別是和的齊次坐標(biāo)。我們通過深度值執(zhí)行遮擋測(cè)試，以確保當(dāng)且僅當(dāng)點(diǎn) 在幀中可見時(shí)，像素才有效。

然后，在圖像幀上執(zhí)行SAM分割。SAM能接受像素坐標(biāo)、邊界框或掩膜等多種輸入，并預(yù)測(cè)與每個(gè)提示相關(guān)的分割區(qū)域。在我們的框架中，我們將所有計(jì)算出的像素坐標(biāo)用于提示SAM，并在所有幀上獲取2D分割掩膜。通過在3D空間中定位提示，源自不同幀但由同一3D提示投影的像素提示將在3D空間中對(duì)齊，從而帶來幀間一致性。

2D-Guided Prompt Filter

在之前的提示初始化過程中，某些提示可能會(huì)生成低質(zhì)量且冗余的掩膜，這將降低最終結(jié)果的質(zhì)量。為解決這個(gè)問題，我們引入了一個(gè)機(jī)制來“收集所有幀的反饋”。我們首先采用自動(dòng)化SAM提出的策略在每個(gè)單獨(dú)的幀上過濾提示?；旧?，這種策略會(huì)消除那些對(duì)應(yīng)掩膜置信度低或與其他掩膜重疊度大的提示。如果一個(gè)3D提示在某幀中有有效的像素投影，則它的計(jì)數(shù)器會(huì)增加。如果該提示在該幀的過濾階段成功存活，則它的得分會(huì)累積。在評(píng)估所有幀后，我們計(jì)算保留一個(gè)3D提示的概率，并在其概率超過預(yù)定義閾值時(shí)保留該提示。這個(gè)算法使我們能夠通過考慮所有2D視圖的反饋來"讓所有幀都滿意"。它優(yōu)先選擇高質(zhì)量的提示，同時(shí)在幀間保持提示的一致性，最終提升3D分割結(jié)果。

Prompt Consolidation

有時(shí)，由單個(gè)3D提示對(duì)齊的2D掩膜可能只分割了對(duì)象的一部分，因?yàn)?D幀的覆蓋范圍有限。為解決這個(gè)問題，我們?cè)O(shè)計(jì)了一個(gè)提示合并策略。該策略涉及檢查不同3D提示生成的掩膜，并識(shí)別它們之間的一定重疊。在這種情況下，我們認(rèn)為這些提示可能正在分割同一個(gè)對(duì)象，并將它們合并為單個(gè)偽提示。這個(gè)過程促進(jìn)了提示間信息的整合，導(dǎo)致更全面的對(duì)象分割。

3D Scene Segmentation

在前面的步驟之后，我們獲得了最終的3D提示集合及其在幀間的2D分割掩膜。此外，我們還確保了每個(gè)3D對(duì)象由單個(gè)提示分割，允許提示ID自然地作為對(duì)象ID。

為了分割3D場(chǎng)景中的所有點(diǎn)，我們繼續(xù)將 extit{所有}場(chǎng)景輸入點(diǎn)投影到每個(gè)分割幀上，并使用以下步驟計(jì)算它們的預(yù)測(cè)：對(duì)于場(chǎng)景中的每個(gè)單獨(dú)輸入點(diǎn) ，如果它被投影到幀中由提示分割的掩膜區(qū)域內(nèi)，我們將其在該幀中的預(yù)測(cè)指定為提示ID 。我們累積在所有幀中的預(yù)測(cè)，并根據(jù)最多次分配給它的提示ID確定其最終預(yù)測(cè)ID。通過對(duì)所有輸入點(diǎn)重復(fù)此過程，我們可以實(shí)現(xiàn)輸入場(chǎng)景的完整3D分割。

4. 實(shí)驗(yàn)

從這個(gè)表格中提供的實(shí)驗(yàn)數(shù)據(jù)中，我們可以得出一些結(jié)論關(guān)于3D室內(nèi)場(chǎng)景分割性能。這些數(shù)據(jù)基于ScanNet200數(shù)據(jù)集的標(biāo)注，評(píng)價(jià)指標(biāo)是mIoU（mean Intersection over Union），一個(gè)常用的衡量圖像分割效果的指標(biāo)。

與其他方法的比較：在mIoU 和mIoU 這兩個(gè)指標(biāo)上，我們的方法與其他兩個(gè)主要對(duì)比方法Mask3D和SAM3D相比，表現(xiàn)更優(yōu)。特別是在mIoU 上，我們的方法達(dá)到了82.60%，高于Mask3D的79.03%和SAM3D的74.82%。

過濾和合并提示的重要性：不使用2D引導(dǎo)的提示過濾（w/o Fil.）和不使用提示合并（w/o Con.）的情況下，性能有所下降，這表明這兩個(gè)步驟對(duì)于最終的分割效果是重要的。

提示數(shù)量的影響：在不同數(shù)量的提示下（即），我們的方法表現(xiàn)出相對(duì)穩(wěn)定的性能，其中使用時(shí)性能最佳。

投票機(jī)制的影響：在提示過濾時(shí)使用的兩種不同投票機(jī)制（soft和top-k）中，soft策略略優(yōu)于top-k策略，尤其是在mIoU 指標(biāo)上。

增強(qiáng)SAM的作用：引入HQ-SAM（+HQ.）和Mobile-SAM（+Mob.）后，可以觀察到性能提升，尤其是HQ-SAM，它在mIoU 指標(biāo)上達(dá)到了83.19%，顯示了進(jìn)一步優(yōu)化SAM模型在3D室內(nèi)場(chǎng)景分割中的潛力。

這些實(shí)驗(yàn)結(jié)果表明，本文提出的方法在3D室內(nèi)場(chǎng)景分割任務(wù)上具有強(qiáng)大的性能，尤其是在采用2D引導(dǎo)的提示過濾和提示合并策略，以及進(jìn)一步增強(qiáng)SAM模型時(shí)。此外，這些結(jié)果還揭示了不同提示數(shù)量和投票機(jī)制對(duì)性能的影響，以及優(yōu)化3D提示的潛力。

5. 討論

這篇論文在3D室內(nèi)場(chǎng)景分割領(lǐng)域提出了一種創(chuàng)新的方法，展示了顯著的性能提升，尤其是在處理具有挑戰(zhàn)性的零樣本場(chǎng)景時(shí)。其主要優(yōu)勢(shì)在于有效地利用了Segment Anything Model（SAM），通過一系列精心設(shè)計(jì)的步驟，如3D提示提議、2D引導(dǎo)的提示過濾和提示合并策略，來改善3D場(chǎng)景的分割效果。這種方法充分利用了SAM在2D圖像分割領(lǐng)域的強(qiáng)大能力，并巧妙地將其擴(kuò)展到3D場(chǎng)景，顯示了跨領(lǐng)域應(yīng)用的巨大潛力。

特別是，該方法通過3D提示的初始化和精確過濾，確保了3D分割的精度和一致性。此外，通過集成HQ-SAM和Mobile-SAM，該方法進(jìn)一步提升了其性能，顯示了在不斷發(fā)展的深度學(xué)習(xí)領(lǐng)域中，通過集成新技術(shù)以適應(yīng)更復(fù)雜應(yīng)用場(chǎng)景的重要性。

然而，該方法也存在一些潛在的限制。首先，盡管實(shí)驗(yàn)結(jié)果表明該方法在多個(gè)指標(biāo)上表現(xiàn)出色，但它依賴于SAM模型，這可能限制了其在沒有大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)時(shí)的適用性。此外，3D提示的初始化和過濾策略雖然有效，但可能需要顯著的計(jì)算資源，尤其是在處理大規(guī)?；驈?fù)雜的3D場(chǎng)景時(shí)。此外，該方法的泛化能力尚需在更多不同類型的3D場(chǎng)景中進(jìn)行測(cè)試和驗(yàn)證。

綜上所述，盡管這篇論文在3D室內(nèi)場(chǎng)景分割方面取得了顯著進(jìn)展，但其依賴于特定的深度學(xué)習(xí)模型和可能需要較高計(jì)算資源的處理流程，這些因素可能會(huì)影響其在實(shí)際應(yīng)用中的廣泛可行性。

6. 結(jié)論

總的來說，這篇論文提出了一種創(chuàng)新且有效的方法，用于提升3D室內(nèi)場(chǎng)景分割的準(zhǔn)確度和效率。其通過集成先進(jìn)的2D圖像分割模型并將其擴(kuò)展到3D領(lǐng)域，展示了顯著的性能提升。盡管存在一些潛在的限制，如對(duì)預(yù)訓(xùn)練數(shù)據(jù)的依賴和高計(jì)算資源需求，但這項(xiàng)工作無(wú)疑為3D視覺理解領(lǐng)域帶來了新的見解和方法。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
28012

瀏覽量
205613
圖像分割

圖像分割

+關(guān)注

關(guān)注
4

文章
182

瀏覽量
17954
增強(qiáng)現(xiàn)實(shí)

增強(qiáng)現(xiàn)實(shí)

+關(guān)注

關(guān)注
1

文章
707

瀏覽量
44888

原文標(biāo)題：三維場(chǎng)景零樣本分割新突破：SAMPro3D技術(shù)解讀

文章出處：【微信號(hào)：GiantPandaCV，微信公眾號(hào)：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

三維觸控技術(shù)突破“二向箔”的束縛

》中被二向箔擊中的文明一樣。很自然地，我們會(huì)想到：既然人類生活在三維的空間里，為什么用戶與設(shè)備的交互只能是在二維空間里呢？有沒有可能實(shí)現(xiàn)三維的交互方法呢？要實(shí)現(xiàn)

發(fā)表于 12-19 15:53

三維快速建模技術(shù)與三維掃描建模的應(yīng)用

相關(guān)處理，構(gòu)建其三維模型和對(duì)模型進(jìn)行紋路映射，最終完成物體的三維模型構(gòu)建。該三維掃描建模流程方法對(duì)復(fù)雜物件的三維建模可取得較好的效果。同時(shí)，三維

發(fā)表于 08-07 11:14

Handyscan三維掃描儀機(jī)械零部件三維掃描抄數(shù)服務(wù)

的樣件進(jìn)行了分析，在和技術(shù)溝通完其主要的需求后，我們向客戶推薦了這款便攜式的Handyscan SAOMIAO3D,CN激光三維掃描儀。因客戶平時(shí)測(cè)量的是這類圓形產(chǎn)品，需要對(duì)其形狀和一些孔位進(jìn)行尺寸

發(fā)表于 07-21 16:52

SMARTSCAN三維掃描儀電子產(chǎn)品配件三維掃描服務(wù)

后，3天內(nèi)給出完整的CAD數(shù)據(jù)。跟據(jù)與客戶的深入溝通后，我司就采用了這款最新的smartscansaomiao3d,cn桌面型全自動(dòng)三維掃描儀對(duì)工件進(jìn)行了抄數(shù)，并根據(jù)掃描后的

發(fā)表于 09-17 16:16

基于Creator的三維場(chǎng)景優(yōu)化技術(shù)的應(yīng)用

高質(zhì)量的三維場(chǎng)景是虛擬現(xiàn)實(shí)系統(tǒng)中重要的組成部分，在三維場(chǎng)景的處理中存在兩個(gè)主要問題：一是載入場(chǎng)景文件要花費(fèi)很多時(shí)間；二是即使在高性能的PC

發(fā)表于 08-13 10:31 ?8次下載

三維立體視覺技術(shù)的應(yīng)用及其三維恢復(fù)方法介紹

感知與建模、機(jī)器人導(dǎo)航、雙目物體跟蹤與檢測(cè)以及圖像分割等領(lǐng)域。三維立體視覺就是研究由2D圖像恢復(fù)場(chǎng)景目標(biāo)即3D信息的一門學(xué)科。目前用于

發(fā)表于 10-20 11:51 ?5次下載

3D動(dòng)畫技術(shù)在計(jì)算機(jī)三維技術(shù)中實(shí)現(xiàn)了不斷發(fā)展

、建模動(dòng)畫、雕刻渲染、產(chǎn)品宣傳等三維動(dòng)畫技術(shù)。商迪3D運(yùn)用Blender軟件技術(shù)，創(chuàng)作了高質(zhì)量的三維動(dòng)畫產(chǎn)品擁有著全方面展示作品、隨意旋轉(zhuǎn)角度、場(chǎng)景

發(fā)表于 12-25 16:28 ?973次閱讀

3D三維可視化虛擬現(xiàn)實(shí)技術(shù)應(yīng)用于玉雕器皿

三維可視化技術(shù)、VR線上虛擬現(xiàn)實(shí)技術(shù)、H5三維展示技術(shù)、3D建模

發(fā)表于 03-26 11:49 ?832次閱讀

3D建模技術(shù)以及智能家具三維模型的展示

當(dāng)家居環(huán)境中的各類智能家具模型在線上展示，3D建模技術(shù)成為家居行業(yè)創(chuàng)新的源動(dòng)力。商迪3D運(yùn)用3D建模技術(shù)、

發(fā)表于 04-26 17:17 ?3113次閱讀

基于聚類分析的三維網(wǎng)格分割技術(shù)綜述

三維網(wǎng)格分割是計(jì)算機(jī)圖形學(xué)的一個(gè)重要的研究方向，近年來不斷涌現(xiàn)出各種新的分割技術(shù)。主要關(guān)注基于聚類分析的三維網(wǎng)格

發(fā)表于 04-29 14:15 ?3次下載

工業(yè)工廠3D沉浸式三維數(shù)字化管理系統(tǒng)

3D技術(shù)改變了很多領(lǐng)域的展示方式，使用戶能夠沉浸在三維數(shù)字化場(chǎng)景當(dāng)中，并能夠音頻，圖文等互動(dòng)方式，創(chuàng)建一個(gè)全新的三維虛擬空間。商迪

發(fā)表于 09-17 10:40 ?1157次閱讀

基于三維集成技術(shù)的紅外探測(cè)器

三維集成技術(shù)可分為三維晶圓級(jí)封裝、基于三維中介層（interposer）的集成、三維堆疊式集成電路（3D

發(fā)表于 04-25 15:35 ?1888次閱讀

彩色3D打印仕女圖三維掃描數(shù)字化3d打印

教與智能制造部（CASAIM）】的彩色3D打印仕女圖及三維掃描數(shù)字化服務(wù)的解決方案。三維掃描：三維掃描是目前還原物品、場(chǎng)景的理想方式，具

發(fā)表于 02-28 09:52 ?794次閱讀

什么是零樣本學(xué)習(xí)？為什么要搞零樣本學(xué)習(xí)？

零樣本分類的技術(shù)目前正處于高速發(fā)展時(shí)期，所涉及的具體應(yīng)用已經(jīng)從最初的圖像分類任務(wù)擴(kuò)展到了其他計(jì)算機(jī)視覺任務(wù)乃至自然語(yǔ)言處理等多個(gè)相關(guān)領(lǐng)域。對(duì)此，本文將其稱為廣義零

發(fā)表于 09-22 11:10 ?1996次閱讀

3D ToF三維場(chǎng)景距離(景深)測(cè)量系統(tǒng)簡(jiǎn)介

電子發(fā)燒友網(wǎng)站提供《3D ToF三維場(chǎng)景距離(景深)測(cè)量系統(tǒng)簡(jiǎn)介.pdf》資料免費(fèi)下載

發(fā)表于 09-29 10:55 ?0次下載