0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

實時語義建圖與潛在先驗網(wǎng)絡(luò)和準平面分割

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-07-19 15:55 ? 次閱讀

e5bae73e-25bf-11ee-962d-dac502259ad0.png

文章摘要

實時語義的可獲得性極大地提高了SLAM系統(tǒng)的基本幾何功能,使得許多機器人和AR/VR應用成為可能。論文提出了一種新的基于RGB-D序列的實時語義建圖方法,該方法結(jié)合了2D神經(jīng)網(wǎng)絡(luò)和基于SLAM系統(tǒng)的3D網(wǎng)絡(luò)。在分割新幀時,論文基于可微渲染進行從先前幀的潛在特征重投影。與獨立處理圖像的基線相比,融合重投影的特征圖極大地改善了圖像分割質(zhì)量。對于3D地圖處理,論文提出了一種新的基于幾何的準平面超分段方法,依靠表面法線對可能屬于相同語義類別的3D地圖元素進行分組。論文還描述了語義地圖后處理的新型輕量級神經(jīng)網(wǎng)絡(luò)設(shè)計。論文的系統(tǒng)在2D-3D網(wǎng)絡(luò)為基礎(chǔ)的系統(tǒng)中實現(xiàn)了最先進的語義建圖質(zhì)量,并與三個真實室內(nèi)數(shù)據(jù)集上的基于3D網(wǎng)絡(luò)的方法相匹配,同時仍保持實時性能。此外,與僅基于3D網(wǎng)絡(luò)相比,它顯示了更好的跨傳感器泛化能力。代碼和數(shù)據(jù)將在項目頁面上發(fā)布//jingwenwang95.github.io/SeMLaPS。

背景補充

3D網(wǎng)絡(luò)用于語義建圖。這一類方法直接處理場景的3D重建,并生成語義標簽作為輸出?;赑ointNet的語義分割方法在多個尺度上處理無序點云。PointConv和KPConv提出了點云上的卷積操作。稀疏子流形卷積和MinkowskiNet僅處理密集體素網(wǎng)格中的占用表面體素,具有合理的內(nèi)存需求。BP-Net利用了3D網(wǎng)絡(luò)和2D網(wǎng)絡(luò),由特征投影機制連接。INS-Conv展示了一種在線運行基于3D網(wǎng)絡(luò)的推理的方式,匹配離線3D網(wǎng)絡(luò)的精度,然而它不能產(chǎn)生SLAM其他語義任務所需的圖像級語義標簽。

論文方法介紹

A. 系統(tǒng)概述

論文在III-B部分描述了論文方法背后的SLAM管道。論文的2D潛在先驗網(wǎng)絡(luò)(LPN)在III-C中描述。LPN輸出融合到論文在III-D中描述的論文新穎的準平面超分段(QPOS)方法分割的地圖中。接下來,論文運行III-E中描述的Section-Convolutional Network,以獲得估計的語義類別。圖1顯示了整體管道。

e61e7452-25bf-11ee-962d-dac502259ad0.png

B. 實時稠密3D占用建圖

論文依靠一個特征為基礎(chǔ)的視覺慣性SLAM系統(tǒng),它另外輸出全局校正軌跡,當檢測到環(huán)路閉合并進行優(yōu)化時。論文將深度圖像和6自由度(DoF)姿態(tài)融合到一個子圖為基礎(chǔ)的3D占用地圖中。在每個子圖內(nèi)部,占用信息存儲在遵循的自適應分辨率八叉樹中。

C. 潛在先驗網(wǎng)絡(luò)

論文的方法通過使用序列中的其他幀的知識來改進RGB-D幀分割,見圖3。大多數(shù)系統(tǒng)重復獨立地分割幀。論文旨在盡可能早地將這種先驗知識注入管道中。論文采用SSMA,使用RGB和深度輸入的獨立編碼器,但將ResNet-50編碼器替換為計算復雜性方面的輕量級MobileNetV3,見圖2。

e68881b2-25bf-11ee-962d-dac502259ad0.png

為了強制執(zhí)行來自多個先前視圖的潛在先驗,論文提出重新投影不同分辨率的特征圖到一個共同的參考視圖,使用SLAM系統(tǒng)提供的深度圖和相機姿態(tài)。論文使用x4、x8和x16下采樣的特征圖進行重投影,見圖2。為了獲得平滑的梯度傳播,論文使用PyTorch3D提供的可微分渲染器來獲得重投影的特征圖。然后使用平均池化將重投影的特征圖與參考視圖特征圖融合。

在訓練過程中,在每次迭代中,論文對N個相鄰幀進行采樣,并隨機選擇一個作為參考視圖。來自N-1個相鄰視圖的潛在特征先驗被變形到參考視圖上。然后論文計算交叉熵損失:Lsem來自參考視圖輸出,和Laux鄰近視圖,以鼓勵單視圖預測的合理性。論文的最終損失是加權(quán)和L = Lsem + wLaux。

注意,論文的LPN設(shè)計為從附近的幀中編碼潛在先驗知識提供了靈活性。首先,盡管N在訓練期間是固定的,但在測試時論文的LPN可以接受任意數(shù)量的視圖。其次,論文可以以順序模式進行推理,即按順序即時處理幀。這允許論文重用在先前視圖中計算的特征圖,因此LPN僅對每個幀進行一次處理。最后,雖然論文的LPN需要深度進行特征重投影和跨視圖融合,但在特征提取階段,論文可以僅依賴于RGB輸入并刪除深度編碼器(圖3中的紅色部分)。

D. 準平面超分段

論文旨在通過將體素分組為段來減少地圖基數(shù),提取表面體素的列表,并使用距離場估計它們的法線,構(gòu)建帶權(quán)無向圖(V,E,w),其中體素為頂點V,邊E在共面體素之間。超分段S將體素映射到段標簽。論文設(shè)S(i)=i,按權(quán)重排序邊,如果代價F(S)減小則逐個合并:

其中L(S)是段標簽集合,是期望的空間段大小。

為了改善段邊界的質(zhì)量,論文應用一個快速的后處理步驟,將體素分配給關(guān)聯(lián)成本最低的段:

其中,是體素i的位置和法線,,,是段l的中心,協(xié)方差和法線,是加權(quán)因子。 為了效率,論文使用段中心的KD樹。

QPOS方法具有O(|E|)復雜度,論文以增量方式在地圖更新后使用它,僅使用更新的V和E中的體素,在使用(2)與觀察到的段關(guān)聯(lián)之前,試圖將新體素與觀察到的段關(guān)聯(lián)。論文將QPOS結(jié)果用作輸入到下面描述的分段卷積網(wǎng)絡(luò)。

E. 分段卷積網(wǎng)絡(luò)

段的大小可能不同:在低頻場景部分如地板或墻壁中它們更大,而對于桌面上的物體它們更小。論文提出定制非均勻大小段的卷積操作,而SVCNN假設(shè)大小統(tǒng)一。

與PointConv 類似,論文將權(quán)重網(wǎng)W(·)定義為多層感知器(MLP)以預測卷積核,將特征網(wǎng)Φ(·)定義為特征處理的MLP:

其中是x的相鄰段,,是段的中心, 是段內(nèi)平均特征, 是10D特征向量定義為:

其中是段的表面法線,是兩個段之間的位移向量,r、v、w通過格拉姆-施米特正交化過程從和構(gòu)建正交基。,,其中,表示和的空間協(xié)方差。論文的通過方差,增強了中提出的視點不變(VI)特征。 輸入段特征,論文使用體素級預測類概率的平均值以及由RGB顏色、位置和表面法線組成的9D幾何特征。 對于每個段卷積層,論文使用隱藏維度為8的2層MLP作為W(·),使用隱藏維度為64的2層MLP作為Φ(·)。論文堆疊3個段卷積層形成論文的分段卷積網(wǎng)絡(luò)。

F. 使用RealSense的語義建圖

為了理解不同語義建圖方法的跨傳感器泛化能力,論文提出了一個使用RealSense D455 [17]采集的四個RGB-D測試序列數(shù)據(jù)集。它具有使用論文的視覺慣性SLAM系統(tǒng)獲得的真實姿態(tài),并使用基于體素大小為0.01米的TSDF融合的稠密映射系統(tǒng)重建網(wǎng)格。 網(wǎng)格使用與ScanNet一致的語義標簽進行手動注釋。 有四個室內(nèi)場景(會議室、實驗室、廚房和休息室)

G. 系統(tǒng)實現(xiàn)細節(jié)

最后,論文提供了整個系統(tǒng)及所提出網(wǎng)絡(luò)的實現(xiàn)細節(jié),以執(zhí)行在線實時語義建圖。

潛在先驗網(wǎng)絡(luò)。論文在ScanNet v2數(shù)據(jù)集的1201個訓練序列上訓練LPN,相鄰幀之間的步長為20,使用Adam訓練20個epoch,初始學習率為1e-4和one-cycle學習率計劃器;論文使用N=3并對數(shù)據(jù)進行隨機縮放、裁剪、翻轉(zhuǎn)、高斯模糊和隨機視圖順序排列以進行數(shù)據(jù)增強。 在單個nVidia RTX-3090ti GPU上訓練大約需要3天,批量大小為8。

分段卷積網(wǎng)絡(luò)。論文在ScanNet v2訓練拆分的1201個網(wǎng)格上訓練III-E部分描述的分段卷積網(wǎng)絡(luò)。論文首先對具有段大小ar{s}=60頂點的網(wǎng)格運行論文的QPOS,并通過多數(shù)投票將頂點級GT標簽傳輸?shù)蕉渭塆T標簽。論文順序地在每個場景上運行論文訓練好的LPN,使用貝葉斯融合將2D標簽預測轉(zhuǎn)移到3D網(wǎng)格。

上述數(shù)據(jù)生成過程總共創(chuàng)建了約200萬個段。論文使用初始學習率為5e-4和one-cycle調(diào)度器的Adam 優(yōu)化器訓練分段卷積網(wǎng)絡(luò)。在單個Nvidia RTX-3090ti GPU上,批量大小為12,訓練100個epoch需要大約2小時。

系統(tǒng)設(shè)計細節(jié)。論文按照順序運行潛在先驗網(wǎng)絡(luò),并在后端SLAM系統(tǒng)更新地圖幾何時在每個關(guān)鍵幀處執(zhí)行貝葉斯融合。因此,每個幀僅由LPN處理一次,參考幀將非參考幀的重投影特征圖作為輸入。接下來,如III-D所述,論文僅針對地圖更新受影響的區(qū)域執(zhí)行QPOS。這將更新這些段的屬性(特征、段中心、連接拓撲等)。最后,受影響的那些段及其K近鄰被饋送到分段卷積網(wǎng)絡(luò)以預測更新后的類別標簽。

方法結(jié)論

論文提出了SeMLaPS方法,一個遵循2D-3D通道的實時在線語義建圖系統(tǒng)。它受益于利用新穎的潛在先驗網(wǎng)絡(luò)融合歷史視圖的潛在特征,而準平面超分段和分段卷積網(wǎng)絡(luò)進一步改善了最終結(jié)果,與3D離線方法相匹敵,同時仍保持實時性能。與僅3D網(wǎng)絡(luò)相比,SeMLaPS實現(xiàn)了更好的跨傳感器泛化能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2542

    文章

    50241

    瀏覽量

    750099
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    411

    瀏覽量

    31739
  • 感知器
    +關(guān)注

    關(guān)注

    0

    文章

    34

    瀏覽量

    11819

原文標題:arXiv2023 | 實時語義建圖與潛在先驗網(wǎng)絡(luò)和準平面分割

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    PCB中的平面分割

    ,距離越小越好?而電容兩端的網(wǎng)絡(luò)分別對應信號穿過的參考平面網(wǎng)絡(luò),見圖一中電容兩端連接的網(wǎng)絡(luò),兩種顏色高亮的兩種不同網(wǎng)絡(luò):B.跨線橋接?常見
    發(fā)表于 10-09 13:10

    【Altium小課專題 第117篇】如何對PCB的電源平面進行平面分割?

    的區(qū)域一定是封閉的區(qū)域,如圖5-68所示。2)然后雙擊被分割的封閉區(qū)域平面,在彈出的平面分割的窗口中輸出相對應的電源網(wǎng)絡(luò),即可完成
    發(fā)表于 07-21 16:35

    van-自然和醫(yī)學圖像的深度語義分割網(wǎng)絡(luò)結(jié)構(gòu)

    ?;诖俗髡咭敕淳矸e(deconvolution)操作,對縮小后的特征進行上采樣,恢復原始圖像大小。跳躍結(jié)構(gòu):語義分割包括語義識別和目標定位。卷積網(wǎng)絡(luò)的高層特征
    發(fā)表于 12-28 11:03

    van-自然和醫(yī)學圖像的深度語義分割網(wǎng)絡(luò)結(jié)構(gòu)

    ?;诖俗髡咭敕淳矸e(deconvolution)操作,對縮小后的特征進行上采樣,恢復原始圖像大小。跳躍結(jié)構(gòu):語義分割包括語義識別和目標定位。卷積網(wǎng)絡(luò)的高層特征
    發(fā)表于 12-28 11:06

    聚焦語義分割任務,如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割?

    同一對象。作者將沿著該領(lǐng)域的研究脈絡(luò),說明如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割的任務。 更具體地講,語義圖像分割的目標在于標記圖片中每一個像素
    發(fā)表于 09-17 15:21 ?541次閱讀

    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時完成實例分割語義分割

    這一新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了一個用于語義分割的分支。這一新架構(gòu)可以同時對圖像進行實例和語義分割,而且精確度
    的頭像 發(fā)表于 04-22 11:46 ?2818次閱讀
    Facebook AI使用單一神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>架構(gòu)來同時完成實例<b class='flag-5'>分割</b>和<b class='flag-5'>語義</b><b class='flag-5'>分割</b>

    用圖卷積網(wǎng)絡(luò)解決語義分割問題

    為了避免上述問題,來自中科院自動化所、北京中醫(yī)藥大學的研究者們提出一個執(zhí)行圖像語義分割任務的模型 Graph-FCN,該模型由全卷積網(wǎng)絡(luò)(FCN)進行初始化。
    的頭像 發(fā)表于 05-13 15:21 ?7001次閱讀

    RGPNET:復雜環(huán)境下實時通用語義分割網(wǎng)絡(luò)

    本文介紹的論文提出了一種新的實時通用語義分割體系結(jié)構(gòu)RGPNet,在復雜環(huán)境下取得了顯著的性能提升。作者: Tom Hardy首發(fā):3D視覺工坊...
    的頭像 發(fā)表于 12-10 19:15 ?613次閱讀

    詳解ENet:CPU可以實時的道路分割網(wǎng)絡(luò)

    OpenCV DNN模塊支持的圖像語義分割網(wǎng)絡(luò)FCN是基于VGG16作為基礎(chǔ)網(wǎng)絡(luò),運行速度很慢,無法做到實時
    的頭像 發(fā)表于 12-15 00:18 ?623次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    隨著深度學習技術(shù)的快速發(fā)展及其在語義分割領(lǐng)域的廣泛應用,語義分割效果得到顯著提升。對基于深度神經(jīng)網(wǎng)絡(luò)的圖像
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>方法

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    對應用于圖像語義分割的幾種深度神經(jīng)網(wǎng)絡(luò)模型進行簡單介紹,接著詳細闡述了現(xiàn)有主流的基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義
    發(fā)表于 04-02 13:59 ?11次下載
    基于深度神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>方法

    普通視覺Transformer(ViT)用于語義分割的能力

    本文探討了普通視覺Transformer(ViT)用于語義分割的能力,并提出了SegViT。以前基于ViT的分割網(wǎng)絡(luò)通常從ViT的輸出中學習像素級表示。不同的是,本文利用基本的組件注意
    的頭像 發(fā)表于 10-31 09:57 ?4805次閱讀

    PyTorch教程-14.9. 語義分割和數(shù)據(jù)集

    劃分為屬于不同語義類的區(qū)域。與目標檢測不同,語義分割在像素級別識別和理解圖像中的內(nèi)容:它對語義區(qū)域的標記和預測是在像素級別。 14.9
    的頭像 發(fā)表于 06-05 15:44 ?583次閱讀
    PyTorch教程-14.9. <b class='flag-5'>語義</b><b class='flag-5'>分割</b>和數(shù)據(jù)集

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機視覺領(lǐng)域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學習的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?490次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務,它旨在將圖像中的每個像素分配到相應的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應用,如自動駕駛、醫(yī)學圖像分析、機器人導航等。 一、圖像語義
    的頭像 發(fā)表于 07-17 09:56 ?295次閱讀