0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

用于3D點云形狀分析的跨模態(tài)知識遷移統(tǒng)一架構(gòu)的構(gòu)建

電子工程師 ? 來源:3D視覺工坊 ? 作者:Qijian Zhang, Junhui ? 2022-08-10 11:19 ? 次閱讀

作者:Qijian Zhang, Junhui Hou, Yue Qian

作為 3D 對象的兩種基本表示方式,2D 多視圖圖像和 3D 點云從視覺外觀和幾何結(jié)構(gòu)的不同方面反映了形狀信息。與基于深度學習的 2D 多視圖圖像建模不同,2D 多視圖已經(jīng)在各種 3D 形狀分析任務中表現(xiàn)出領先的性能,而基于 3D 點云的幾何建模仍然存在學習能力不足等問題。在本文中,我們創(chuàng)新性地構(gòu)建了一個跨模態(tài)知識遷移的統(tǒng)一架構(gòu),將 2D 圖像中具有判別性的視覺描述符蒸餾成為 3D 點云的幾何描述符。從技術上講,在經(jīng)典的 teacher-student學習范式下,我們提出了多視圖 vision-to-geometry 蒸餾,由作為teacher的深度 2D 圖像encoder和作為 student的深度 3D 點云encoder組成。為了實現(xiàn)異構(gòu)特征的對齊,我們進一步提出了可見性感知的特征投影,通過它可以將各點 embeddings 聚合成多視圖幾何描述符。對 3D 形狀分類、部件分割和無監(jiān)督學習進行了廣泛實驗,驗證了我們方法的優(yōu)越性。我們將會公開代碼和數(shù)據(jù)。

1 引言

在 3D 數(shù)據(jù)采集和感知方面的一些最新進展的促進下,基于深度學習的 3D 形狀分析在工業(yè)界和學術界受到越來越多的關注。根據(jù) 3D 形狀模型的不同表征方式,主流的學習范式可分為:

基于圖像的

基于體素的

基于點的

目前,3D 形狀理解沒有統(tǒng)一的建模范式,因為每種方法都有不同的優(yōu)點和局限性。

基于圖像的方法 通過多個視點渲染出的多視圖 2D 圖像的集合,來表示 3D 模型。受益于先進的圖像建模架構(gòu),以及大規(guī)模存在豐富標注的圖像數(shù)據(jù)集,多視圖學習在各種形狀識別任務中展示了主導性能。然而,形狀渲染是基于高質(zhì)量的人造的多邊形網(wǎng)格來實現(xiàn)的,這些網(wǎng)格不能直接從現(xiàn)實世界的傳感器或掃描儀中獲得,并且不可避免地會丟失內(nèi)部的幾何結(jié)構(gòu)和詳細的空間紋理信息。

基于體素的方法 使用體積網(wǎng)格來描述 3D 模型的空間占用,這樣標準的 3D 卷積架構(gòu)可以自然地擴展到用于特征提取,而無需額外去開發(fā)特定的學習算子。不幸的是,由于計算復雜度和內(nèi)存占用的指數(shù)增長,這種學習范式更適合處理低分辨率的volumes,并且需要精心配置的、復雜的分層 3D 索引結(jié)構(gòu),用于處理更密集的體素并獲取幾何細節(jié)信息。

基于點的方法 近年來,基于點的方法逐漸流行,能直接對非結(jié)構(gòu)化 3D 點云進行操作而無需任何進行預處理。作為最直接的幾何表征形式,點云是許多 3D 采集設備的原始輸出,并能夠充分的記錄空間信息。然而,與在規(guī)則網(wǎng)格上定義的圖像和體素不同,點云具有不規(guī)則和無序的特點,這給特征提取帶來了很大困難。因此,基于點的學習框架仍有很大的性能提升空間。

受基于圖像的視覺建模和基于點的幾何建模之間互補特性的啟發(fā),本文探索了從強大的深度圖像encoders中提取的知識遷移到深度點encoders,從而提高下游形狀分析任務的性能。在技術上,我們創(chuàng)新性地提出了多視圖vision-to-geometry蒸餾(MV-V2GD),這是一種遵循標準的 teacher-student架構(gòu)設計的統(tǒng)一處理pipeline,用于跨模態(tài)的知識遷移。如圖1所示,給定一個 3D shape,我們將一組多視圖 2D 圖像輸入到teacher分支的預訓練深度 2D 圖像encoder中,進而生成多視圖的視覺描述符。而在student分支中,我們將3D點云輸入一個深度點encoder,進而產(chǎn)生高維的per-point embeddings。在相同的相機位姿下,我們計算特定視圖的point-wise可見性。在此基礎上,我們生成多視圖的幾何描述符。通過在多視圖視覺和幾何描述符之間執(zhí)行特征對齊,可以引導student模型學習更多有區(qū)分性的point-wise特征,進而理解幾何形狀。為了驗證提出的 MV-V2GD 框架的有效性,我們選擇了常見的深度點encoder作為 student模型的baseline ,并在三個benchmark任務上進行了實驗,包括形狀分類、部件分割和無監(jiān)督學習,我們實現(xiàn)了明顯且穩(wěn)定的性能提升。

總之,本文的主要貢獻有三方面:

? 我們提出了一個統(tǒng)一的 MV-V2GD 學習框架,首次嘗試從多視圖 2D 視覺建模將知識遷移到 3D 幾何建模,從而進行 3D 點云的形狀分析。

? 為了促進多視圖visual-geometric特征對齊,我們特別開發(fā)了一種簡單而有效的 VAFP 機制,該機制將 per-point embeddings聚合到特定視圖的幾何描述符中。

? 在大量下游任務和baseline模型中,我們觀察到性能的提升很大,這揭示了一種新的用于增強點云網(wǎng)絡學習能力的通用范式。

本文的其余部分安排如下。在第2章中,我們討論了與多視圖 3D 形狀分析、deep set架構(gòu)以及 2D-3D 知識遷移等密切相關的研究工作。在第3章中,我們首先在3.1 節(jié)總結(jié)我們提出的方法的工作機制;在 3.2 節(jié)和3.3 節(jié)分別介紹了主流的深度 2D 圖像和 3D 點encoders的一般形式,且這也基于 3.4節(jié)中我們構(gòu)建的統(tǒng)一的多視圖跨模態(tài)的特征對齊方案。然后,介紹了一種新穎的 visibility-aware的特征投影機制(VAFP),它可以較好地生成特定視圖的 visual-geometric表示對。最后,在3.5節(jié)中我們總結(jié)了總體的訓練目標和策略。在第4章中,我們報告了不同baseline的深度點encoders和benchmark任務的實驗結(jié)果。最后,我們在第5章中提出了一些批判性的討論,并在第6章中總結(jié)整篇論文。

1c36a2ca-17e4-11ed-ba43-dac502259ad0.png

圖 1 提出的 MV-V2GD 跨模態(tài)知識遷移框架的總體流程圖,其中包括:一個預訓練的基于圖像的teacher分支(右),一個基于點的、通過多視圖特征對齊進行蒸餾的student分支(左)。在訓練階段,整個teacher分支是固定的,用于提供discriminative knowledge。而在測試階段teacher分支被移除,以便我們僅從點云進行推理。

2 相關工作

多視圖 3D 形狀分析。作為 2D 深度學習的擴展,多視圖 3D 形狀建模,通常建立在多輸入的 2D 卷積神經(jīng)網(wǎng)絡 (CNNs) 的各種變體之上。由 MVCNN 開創(chuàng),它輸入從預定義的相機位姿渲染出的多視圖圖像,并通過跨視圖的max-pooling來生成全局的形狀signature。許多后續(xù)的工作,致力于設計更高級的視圖聚合或選擇的策略。GVCNN 構(gòu)建了一個三級分層的相關建模框架,該框架將多視圖描述符自適應地分組到不同的簇中。MHBN 和 RelationNet 進一步利用patch-level的交互來豐富視圖間的關系。RotationNet 將視點索引作為可學習的潛在變量,并提出聯(lián)合估計目標姿態(tài)和類別。EMV 提出了一種分組卷積的方法,該方法對旋轉(zhuǎn)組的離散子群進行操作,并提取旋轉(zhuǎn)等變的形狀描述符。最近,View-GCN將多視圖視為圖節(jié)點,從而形成相應的視圖graph,在該視圖graph上應用圖卷積來學習多視圖關系。MVTN通過引入可微分渲染來自適應地回歸得到最佳視點,從而實現(xiàn)端到端訓練。

3D 點云的深度學習。由 PointNet 率先采用point-wise多層感知機 (MLP),實現(xiàn)了置換不變的特征提取,并直接在點云上進行 3D 幾何建模,這樣的深度集architecture迅速流行。PointNet++繼承了深度 CNN 的設計范式,引入了局部鄰域聚合,并采用漸進式的下采樣進行分層提取。在后來的工作中,已經(jīng)研究了各種各樣的高專業(yè)化的點卷積算子。通過學習核匹配的自適應權(quán)重,進而來模仿標準卷積進行了更復雜的點特征聚合策略,進而增強網(wǎng)絡容量。DGCNN 提出了一種基于圖的動態(tài)特征更新機制,可以捕獲全局的上下文信息。探索了基于學習的,而不是啟發(fā)式的子集選擇技術。最近,transformer架構(gòu)也應用于點云建模。

2D 和 3D 之間的跨模態(tài)知識遷移。正如中指出的那樣,盡管知識蒸餾研究激增,但由于缺乏配對樣本,在具有明顯模態(tài)差距的跨模態(tài)場景上的研究相對較少,而當在 2D域 和 3D 域之間進行時,這項任務變得更具挑戰(zhàn)性。xMUDA 提出通過基于pixel-point對應關系來對齊 2D 和 3D 輸出,從單視圖圖像的源域和點云的目標域?qū)崿F(xiàn)無監(jiān)督的域自適應。PPKT 構(gòu)建了一個 3D 預訓練pipeline,將對比學習策略應用于正負像素點對,從而利用 2D 預訓練知識。在相反的遷移方向上,Pri3D探索了 3D 引導的對比預訓練,用于提升 2D 感知方面。除了保持成對的 2D 像素和 3D 點之間的特征一致性外,這項工作還在于學習不變像素描述符,通過從不同視點捕獲的圖像掃描。在 有更靈活的3Dto-2D的蒸餾框架,通過特定維度的歸一化,進而對齊 2D 和 3D CNN 特征的統(tǒng)計分布。特別地是,為了擺脫對 2D 和 3D 模態(tài)之間細粒度對應關系的依賴,且這些模態(tài)通常獲取成本很高,這項工作還探索了一種語義感知的對抗訓練方案,用來處理不成對的 2D 圖像和 3D 體積網(wǎng)格。通常,由于 2D 和 3D 數(shù)據(jù)之間的對應信息的可用性,現(xiàn)有工作主要集中在場景級別的理解上。目前,據(jù)我們所知,之前沒有關于形狀分析任務的跨模態(tài)知識遷移的研究。

3 提出的方法

3.1 問題概述

我們考慮了兩種互補的 3D 形狀理解的學習范式,即由2D多視圖圖像驅(qū)動的2D視覺建模和由 3D點云驅(qū)動的3D幾何建模。如上所述,由于規(guī)則的數(shù)據(jù)結(jié)構(gòu)和強大的學習架構(gòu),基于圖像的深度模型可以提取 discriminative feature表征,盡管丟失了部分幾何信息。相比之下,3D點云雖然保留了完整的3D幾何結(jié)構(gòu),但其結(jié)構(gòu)的不規(guī)則性給特征提取帶來了很大挑戰(zhàn),因此基于點的深度模型的學習能力相對不足。因此,我們的目標是從深度 2D 圖像encoder中提取判別知識,蒸餾到深度 3D 點encoder中。這實際上是一個相當具有挑戰(zhàn)性的問題,因為在網(wǎng)絡架構(gòu)和數(shù)據(jù)模態(tài)方面存在顯著的域差距。

1c5b2cd0-17e4-11ed-ba43-dac502259ad0.png

我們的工作機制與多模態(tài)融合本質(zhì)上不同。在多模態(tài)融合中,多模態(tài)數(shù)據(jù)在訓練和測試階段都被作為輸入。在功能上,我們強調(diào) MV-V2GD 作為一種通用的學習范式,可以自然地應用于通用深度點的encoders,用于增強網(wǎng)絡容量。

3.2 用于 2D 圖像建模的Teacher網(wǎng)絡

深度卷積架構(gòu),已經(jīng)展示了從 2D 圖像中學習discriminative視覺特征的顯著能力。在大規(guī)模圖像數(shù)據(jù)集上,受益于預訓練的成熟的 2D CNN 的backbone網(wǎng)絡激增 ,我們可以方便地選擇合適且功能強大的現(xiàn)有深度 2D 圖像encoder作為我們的 2D teacher模型Mt ,它分別將多視圖圖像作為輸入,并相應地生成高維卷積特征圖。形式上,我們可以將teacher模型的一般形式表述為:

1ca097e8-17e4-11ed-ba43-dac502259ad0.png

3.3 3D 點云建模的Student網(wǎng)絡

與成熟的 2D 圖像建模相比,3D 點云的深度學習仍然是一個新興但快速發(fā)展的研究領域。受限于大規(guī)模形狀數(shù)據(jù)集的稀缺性和 3D 標注的難度,當前的深度set architectures實際上還遠遠不夠深,為了緩解參數(shù)過擬合,在應用于下游任務時通常需要從頭開始訓練。因此,基于點的學習模型,在捕獲discriminative幾何特征表征方面,表現(xiàn)出學習能力不足。

1cc4af16-17e4-11ed-ba43-dac502259ad0.png

圖 2 多視圖可見性checking示意圖。在預定義的相機位姿下,我們相應地生成了一組多視圖圖像和部分點云,放置在第一行和第二行。在第三行中,我們還提供了從相反的方位角觀察時,可見點的可視化效果。

我們將深度 3D 點encoder Ms視為 3D student模型,也就是被蒸餾的目標。它使用一組不規(guī)則的空間點作為輸入,并產(chǎn)生高維的point-wise embeddings。不失一般性,我們可以將student模型的形式描述為:

1cf6de5a-17e4-11ed-ba43-dac502259ad0.png

1d14276c-17e4-11ed-ba43-dac502259ad0.png

3.4 多視圖可見性感知的特征對齊

1d3d9818-17e4-11ed-ba43-dac502259ad0.png

1d65216c-17e4-11ed-ba43-dac502259ad0.png

1d90c646-17e4-11ed-ba43-dac502259ad0.png

通過單個全連接層 (FC)實現(xiàn),實現(xiàn)了視覺和幾何描述符之間的通道對齊。在4.4節(jié),我們驗證了 VAFP 驅(qū)動的知識遷移框架,相比于傳統(tǒng)蒸餾范式的優(yōu)越性。

3.5 總體目標

1db6d3a4-17e4-11ed-ba43-dac502259ad0.png

4 實驗

我們評估了我們提出的 MV-V2GD 框架在三個應用場景中的有效性,即形狀分類(第 4.1 節(jié))、部件分割(第 4.2 節(jié))和reconstruction-driven的無監(jiān)督學習(第 4.3 節(jié))。在每個小節(jié)中,我們介紹了benchmark數(shù)據(jù)集和數(shù)據(jù)的準備操作,之后我們提供了teacher和student模型架構(gòu)的主要實現(xiàn)技術。最后,我們提供了具體的對比實驗和性能分析。

4.1 形狀分類

數(shù)據(jù)準備。ModelNet40 是一個常見的 3D 對象數(shù)據(jù)集,包含 12311 個多邊形網(wǎng)格模型,涵蓋 40 個人造類別。在官方拆分之后,我們使用 9843 個形狀數(shù)據(jù)集進行訓練,其余 2468 個數(shù)據(jù)集進行測試。

1dd784a0-17e4-11ed-ba43-dac502259ad0.png

具體來說,我們采用輕量級的 2D CNN backbone(即 MobileNetV2 ),從輸入的多視圖圖像中提取深度卷積特征和矢量化視覺描述符。此外,除了從單個的全局形狀signature輸出最終的類別分數(shù)(logits)外,我們還傾向于單獨預測來自所有視圖的形狀類別,通過添加側(cè)輸出的supervisions。

Student網(wǎng)絡的架構(gòu)。我們選擇了三種具有代表性的深度點云建模架構(gòu),包括 1) PointNet 、2) PointNet++ 和 3) DGCNN 作為目標student點encoder 。此外,我們還嘗試了 CurveNet,一種更新的SOTA學習模型。在最初的實現(xiàn)中,分類頭由三個全連接層組成,它們將全局形狀signature轉(zhuǎn)換為類別 logits。而在我們所有的實驗中,我們將 統(tǒng)一簡化為單個線性層。請注意,在測試階段,我們沒有采用任何投票技術 ,這些技術變得非常繁瑣且不穩(wěn)定。

定量結(jié)果。我們在表 1 中列出了原始模型和蒸餾模型的形狀分類準確率。作為早期設計的簡單架構(gòu)的工作,PointNet 官方報告的整體準確率為 89.2%,這被認為遠不能令人滿意。令人驚訝的是,在 MV-V2GD 的驅(qū)動下,該模型的性能甚至比原來的 PointNet++ 還要好,后者涉及更復雜的學習patterns。得益于增強的建模能力,PointNet++ 在蒸餾后進一步達到了極具競爭力的 93.3%。DGCNN 代表了一種常見的強大的graph-style點云建模范式,從 92.9% 提升到 93.7%,性能明顯提升 0.8%。即使對于SOTA的 CurveNet,我們的方法仍然獲得了令人滿意的性能提升,從 93.8% 提高到 94.1%。。

4.2 部件分割

數(shù)據(jù)準備。ShapeNetPart 是一個流行的 3D 對象的部分分割benchmark數(shù)據(jù)集,它提供了在 16 個對象類上定義的 50 個不同部件類別的語義標注。官方拆分后,我們有 14007 個形狀數(shù)據(jù)集用于訓練,其余 2874 個數(shù)據(jù)集用于測試。

1df85ea0-17e4-11ed-ba43-dac502259ad0.png

Teacher分支的架構(gòu)。與許多已經(jīng)存在的成熟的多視圖學習框架的形狀分類或檢索相比,基于圖像的形狀分割方面的研究相對較少。因此,我們設計了一個標準的單圖像分割架構(gòu)作為teacher分支,如圖4所示。整體的架構(gòu)設計遵循經(jīng)典的encoder-decoder pipeline(例如:U-Net [19]),用來生成全分辨率分割圖。在這里,teacher分支單獨使用單視圖的圖像進行預測,而不是同時對同一形狀模型的整組多視圖圖像進行分割。因為我們憑經(jīng)驗發(fā)現(xiàn),這種學習范式計算量大且在訓練期間難以收斂。

更具體地說,我們選擇 VGG11 作為backbone特征提取器,并移除了最后一個空間max-pooling層,從而擴大了特征圖分辨率。為了增強網(wǎng)絡容量,我們將 中提出的位置和通道上的attention機制添加到了原始的卷積階段。然后,通過重建從訓練shape渲染得到的視圖圖像,進而fine-tune整個backbone網(wǎng)絡。遵循之前部件分割框架中的常見做法,我們還集成了一個分類向量,該向量將輸入圖像的對象類別,encode到中間視覺描述符中。

Student分支的架構(gòu)。我們再次采用 PointNet、PointNet++ 和 DGCNN 作為student的點encodersMs ,并使用他們初始的head網(wǎng)絡Hs ,用來預測每個點的語義標簽,而無需投票。

定量結(jié)果。我們在表 2 中列出了原始模型和蒸餾模型的部件分割精度。從中我們可以觀察到,我們的方法始終增強了不同類型的深度set architectures。特別是,PointNet 從 83.7% 提高到 85.9%,在 mIoU 方面具有很大的獲益。另外兩個更強大的學習框架,即 PointNet++ 和 DGCNN,也從 MV-V2GD 中受益很多,分別有 1.3% 和 1.7% 的明顯性能提升。

1e1fef6a-17e4-11ed-ba43-dac502259ad0.png

圖 3 用于2D多視圖圖像驅(qū)動的形狀分類的的Teacher學習分支表 1 ModelNet40 上 3D 形狀分類的總體準確率 (%)

1e4054a8-17e4-11ed-ba43-dac502259ad0.png

1e533c08-17e4-11ed-ba43-dac502259ad0.png

圖 4 用于 2D 圖像驅(qū)動的目標部件分割的Teacher學習分支

表 2 ShapeNetPart 上目標部件分割的實例平均mIoU(%)

1e7c1aba-17e4-11ed-ba43-dac502259ad0.png

1e9b547a-17e4-11ed-ba43-dac502259ad0.png

圖 5 用于單視圖圖像重建的 Teacher 學習分支

表 3 ModelNet40 上的Transfer分類準確率 (%)

1ec0d65a-17e4-11ed-ba43-dac502259ad0.png

4.3 無監(jiān)督學習

以前的實驗已經(jīng)證明了 MV-V2GD 在有監(jiān)督學習方面的有效性,這需要特定領域的數(shù)據(jù)和標注。在本節(jié)中,我們探討了遷移通過無監(jiān)督特征學習獲得的通用 2D 視覺知識,從而促進 3D 幾何建模的可能性。

遵循與 中構(gòu)建的相同開發(fā)協(xié)議(稱為transfer classification),我們首先在源數(shù)據(jù)集(即 ShapeNetCoreV2)上預訓練深度點云 auto-encoder。之后,我們部署預訓練的encoder網(wǎng)絡,進而從不同的目標數(shù)據(jù)集(即 ModelNet40 )生成矢量化的形狀signatures。最后,在目標數(shù)據(jù)集上訓練線性 SVM 分類器,用來評估形狀signatures的判別能力。

數(shù)據(jù)準備。 ShapeNetCoreV2 [63] 是一個大型 3D 對象數(shù)據(jù)集,包含 52472 個多邊形網(wǎng)格模型,涵蓋 55 個對象類別。

對于幾何建模,我們應用 PDS,從 ShapeNetCoreV2 數(shù)據(jù)集和 ModelNet40 數(shù)據(jù)集中統(tǒng)一采樣 2048 個空間點。對于視覺建模,我們采用了與第 4.2 節(jié)中描述相同的viewpoint配置,進而在ShapeNetCoreV2 數(shù)據(jù)集上生成多視圖的圖像渲染。

Teacher 分支的架構(gòu)。如圖 5所示。我們構(gòu)建了一個標準卷積的 auto-encoder,用于無監(jiān)督圖像的特征學習。在encode階段,我們應用了與部件分割實驗中采用的相同的backbone網(wǎng)絡,將輸入的視圖圖像緊湊地表征為一個矢量化的形狀signature。在decode階段,我們部署了一個全連接層來提升特征維度,以及多階段的反卷積層來實現(xiàn)全分辨率的圖像重建。

Student分支的架構(gòu)。我們嘗試了一個經(jīng)典的點云驅(qū)動的無監(jiān)督幾何特征學習的架構(gòu),即 FoldingNet,作為目標student分支。從技術上講,它將給定的點encodes為一個緊湊的全局codeword向量,從而驅(qū)動隨后的lattice deformation過程,用來重建輸入的點云。

定量結(jié)果。我們在表 3 中列出了原始模型和蒸餾模型的transfer classification的準確率,我們可以觀察到,F(xiàn)oldingNet 從 88.4% 提高到 89.1%。

此外,在沒有特定任務預訓練的情況下,我們對遷移從自然圖像統(tǒng)計中學習到的常見視覺線索的潛力感興趣。為此,我們直接部署了在 ImageNet 上預訓練的原始 VGG11 的backbone網(wǎng)絡,用來提供teacher知識,這也增強了目標student模型,精度提高了 0.4%。

4.4 額外探索

通過設計不同的架構(gòu)變體,并評估它們在 ModelNet40 上的分類性能,我們進行了額外的探索。

超參數(shù)分析。為了全面探索我們的學習框架的特點,我們通過調(diào)整兩個關鍵的超參數(shù)來修改原始 MV-V2GD 設置:1)視點數(shù)量 K ;2)加權(quán)因子Wt (等式 6)。

1ee5c244-17e4-11ed-ba43-dac502259ad0.png

我們嘗試將原始點云而不是網(wǎng)格直接渲染到多視圖圖像中,以訓練教師分支,進一步部署為學生分支提供視覺知識。圖 6 顯示了基于點的渲染的一些典型視覺示例以及它們的網(wǎng)格驅(qū)動對應物。顯然,這種學習策略對于無法獲得高質(zhì)量的基于網(wǎng)格的幾何表示的應用程序更加靈活和實用。如表 6 所示,該變體在所有蒸餾模型上仍然顯示出令人滿意的性能提升,這證明了我們提出的圖像到點知識轉(zhuǎn)移范式的普遍性。

基于點的渲染Pipeline。我們嘗試直接使用原始點云而不是網(wǎng)格,將其渲染到多視圖圖像中,從而訓練teacher分支,并進一步為student分支提供視覺知識。圖 6 顯示了基于點的渲染的一些典型視覺示例,以及它們的mesh-driven對應物。顯然,對于無法獲得高質(zhì)量的基于網(wǎng)格的幾何表征的應用程序,這種學習策略更加靈活和實用。如表 6 所示,該變體在所有蒸餾模型上仍然顯示出令人滿意的性能提升,這證明了我們提出的image-to-point知識遷移范式的普遍性。

從頭開始訓練 Teacher 模型。所提出的跨模態(tài)(visual-togeometric)知識遷移框架的主要優(yōu)點之一是,我們可以方便地利用現(xiàn)成成熟的視覺識別網(wǎng)絡,這些網(wǎng)絡在大規(guī)模帶標注的 2D 圖像數(shù)據(jù)集上充分預訓練,例如:ImageNet。一個更有趣且有前景的問題是,探索 2D 視覺和 3D 幾何建模范式之間的交互機制本身是否有益。事實上,在我們的無監(jiān)督學習實驗中,我們試圖通過從頭開始訓練teacher分支來驗證這個問題,這仍然帶來了性能提升。在這里,我們進一步進行了實驗以在有監(jiān)督學習場景下加強此類主張。

更具體地說,在這個基于點的渲染實驗中,我們保持所有的開發(fā)協(xié)議不變。除了,我們沒有為teacher分支的backbone網(wǎng)絡加載 ImageNet 預訓練權(quán)重。定量結(jié)果如表 7 所示,從中我們可以驚奇地觀察到,在點云渲染上,完全從頭開始訓練teacher分支仍然顯示出極具競爭力的性能,甚至優(yōu)于其在 PointNet [11] 上的 ImageNet 預訓練和mesh-driven對應物。這種現(xiàn)象有力地證明了,所提出的visual-geometric學習范式的巨大潛力。

表 4 不同的渲染視點數(shù)量 (K) 的影響。

1f13e020-17e4-11ed-ba43-dac502259ad0.png

表 5 不同加權(quán)方案 () 對訓練目標的影響

1f3a656a-17e4-11ed-ba43-dac502259ad0.png

1f647364-17e4-11ed-ba43-dac502259ad0.png

圖 6 基于網(wǎng)格和基于點的渲染結(jié)果的可視化示例傳統(tǒng)蒸餾范式的適應。為了揭示我們方法的必要性和優(yōu)越性,我們進一步設計了兩個baseline知識遷移pipelines,它們直接改編自經(jīng)典的基于響應的 [53] 和基于特征的 [64] 蒸餾范式。第一個baseline旨在對齊從teacher分支和student分支的最后一層輸出的最終類 logits,我們稱之為 Lgt-V2GD。第二個baseline稱為 Ftr-V2GD,它專注于feature-level的指導,通過對齊矢量化的全局視覺和幾何描述符,然后將它們輸入到后續(xù)的全連接分類器。我們在表 8 中列出了不同baseline框架的性能,并通過結(jié)合表 1 中報告的相應實驗結(jié)果,觀察了一致性趨勢的幾個方面。

首先,我們的實驗結(jié)果強烈表明,vision-to-geometry知識遷移,提供了一種增強點云學習模型的通用且穩(wěn)定的方法。即使是最直接的蒸餾框架 (Lgt-V2GD) ,也會在所有實驗setups中獲得不同程度的性能提升。其次,特征級的teacher指導往往比軟目標(即 logits)提供更多信息,因為我們發(fā)現(xiàn) Ftr-V2GD 總是優(yōu)于 LgtV2GD。第三,在我們提出的 MV-V2GD 處理pipeline下,考慮到所有蒸餾模型的性能顯著提升,許多現(xiàn)有點云學習框架的建模能力可能被低估了。

表 6 從原始點云渲染多視圖圖像的有效性

1f7e8b1e-17e4-11ed-ba43-dac502259ad0.png

表 7 ModelNet40 上 3D 形狀分類的總體準確率 (%),其中teacher模型是從頭開始訓練的(即,未加載 ImageNet 預訓練的權(quán)重)

1f912d46-17e4-11ed-ba43-dac502259ad0.png

表 8 logit-driven和feature-driven的蒸餾baselines的比較。

1fb2dc70-17e4-11ed-ba43-dac502259ad0.png

5 討論在本節(jié)中,我們重新強調(diào)了我們在設計整體處理流程時的核心動機和原則,以及我們論文帶來的新見解,在此基礎上,我們簡要討論了未來工作中可能的擴展。

最終,本文重點揭示了將知識從 2D 視覺領域遷移到 3D 幾何領域的潛力。因此,我們避免在整個工作流程中設計復雜的學習架構(gòu)或策略,因為我們相信簡潔的技術實現(xiàn)和穩(wěn)定的性能提升可以有力地證明我們方法的價值。可以預期,更先進的多視圖 visual-geometric特征對齊技術,以及蒸餾目標將進一步增強當前的 MV-V2GD 框架。

在實驗setups方面,我們注意到現(xiàn)有的多視圖學習方法主要針對全局幾何建模任務,例如分類和檢索。由于特定領域的數(shù)據(jù)集準備不便,而該工作將應用場景擴展到部件分割和無監(jiān)督學習,形成了更全面的評估協(xié)議。

更重要的是,我們令人鼓舞的結(jié)果激勵了研究和開發(fā)人員,在模型設計之外更加關注數(shù)據(jù)開發(fā)。考慮到大規(guī)模豐富標注的 2D 視覺數(shù)據(jù)的可用性,以及 3D 幾何對應物的稀缺性,通過 image-to-point蒸餾來增強點云學習模型,這是一種非常有前景且低成本的方法。

6 結(jié)論

在本文中,我們最先嘗試并探索了將跨模態(tài)知識從多視圖 2D 視覺建模遷移到 3D 幾何建模,從而促進 3D 點云形狀的理解。在技術上,我們研究了一個統(tǒng)一的 MV-V2GD 學習pipeline,適用于常見類型的、基于深度 3D 點云的學習范式,并專門定制了一種新穎的 VAFP 機制來實現(xiàn)多視圖圖像和點云之間的異構(gòu)特征對齊。在各種應用上的大量實驗,有力地證明了我們方法的優(yōu)越性、普遍性和穩(wěn)定性。我們相信,我們的工作將為發(fā)展強大的深度set architectures開辟新的可能性,并促使沿著這個有前景的方向進行更多的探索。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關注

    關注

    9

    文章

    2843

    瀏覽量

    107204
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4726

    瀏覽量

    100344

原文標題:用于 3D 點云形狀分析的多視圖Vision-to-Geometry知識遷移

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于深度學習的方法在處理3D進行缺陷分類應用

    背景部分介紹了3D應用領域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關重要。研究人員專門設計了各種數(shù)據(jù)集,包括用于
    的頭像 發(fā)表于 02-22 16:16 ?904次閱讀
    基于深度學習的方法在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進行缺陷分類應用

    Powerpc架構(gòu)與X86架構(gòu)的區(qū)別

    目錄1、ARM1.1 ARM歷史1.2 ARM內(nèi)核系列2、MIPS應用范圍發(fā)展歷史3、PowerPC三巨頭4、X86架構(gòu)X86歷史5、PowerPC架構(gòu)相比于ARM的優(yōu)勢6、Powerpc架構(gòu)
    發(fā)表于 07-26 06:16

    ARM GIC(八)GICv3架構(gòu)的變化

    GICv4。不過從GICv3開始,架構(gòu)就和之前的架構(gòu),變化就比較大了。、變化:cpu interface下圖是GICv2
    發(fā)表于 04-07 10:59

    請問在Keil uVision5下怎么為某一架構(gòu)重新生成libmicroros.a?

    生成 libmicroros.a。那我想請教下在Keil uVision5下怎么為某一架構(gòu)重新生成libmicroros.a。謝謝!
    發(fā)表于 04-12 10:02

    面向3D機器視覺應用并采用DLP技術的精確生成參考設計

    3D 。高度差異化 3D 機器視覺系統(tǒng)利用 DLP? LightCrafter? 4500 估模塊 (EVM)(采用 DLP? 0.45 英寸 WXGA 芯片組),能夠靈活控制工
    發(fā)表于 09-22 10:20

    IA:利用SoC實現(xiàn)單一架構(gòu)的廣泛靈活性

    IA:利用SoC實現(xiàn)單一架構(gòu)的廣泛靈活性 自英特爾(Intel)重新將嵌入式產(chǎn)品列為業(yè)務重點以來,由于其與ARM的IP業(yè)務模式完全不同,業(yè)界對英特爾架構(gòu)(IA)最大的疑慮
    發(fā)表于 02-02 10:01 ?601次閱讀

    3D技術介紹及其與VR體驗的關系

    ;x>nkedIn上發(fā)表了篇跟澳大利亞科技公司優(yōu)立(Euclideon)所使用的數(shù)據(jù)有關的文章,并在業(yè)內(nèi)引起了番討論。 1.
    發(fā)表于 09-15 09:28 ?20次下載

    嵌入式應用程序:遷移到Intel x86架構(gòu)

    嵌入式應用 - 遷移到Intel的x86架構(gòu)
    的頭像 發(fā)表于 11-07 06:49 ?3731次閱讀

    紅獅控制Crimson 3.1新增可用于OPC統(tǒng)一架構(gòu)的增強型功能

    美國紅獅控制公司宣布其屢獲殊榮的Crimson?軟件增加了新功能,包括支持加密功能的OPC統(tǒng)一架構(gòu)客戶端驅(qū)動程序、OPC統(tǒng)一架構(gòu)歷史訪問功能、用于谷歌 (Google Cloud)
    的頭像 發(fā)表于 02-22 09:38 ?3633次閱讀

    CANOpen系列教程11_ 深度分析CanFestival_3架構(gòu)

    CANOpen系列教程11_深度分析CanFestival_3架構(gòu)
    的頭像 發(fā)表于 03-06 15:43 ?6951次閱讀

    基于圖卷積的層級圖網(wǎng)絡用于基于3D目標檢測

    (例如稀疏性),所以些關鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了種基于層級圖網(wǎng)絡(HGNet)的 圖卷積 (GConv),可以直接將
    的頭像 發(fā)表于 06-21 12:15 ?6146次閱讀
    基于圖卷積的層級圖網(wǎng)絡<b class='flag-5'>用于</b>基于<b class='flag-5'>點</b><b class='flag-5'>云</b>的<b class='flag-5'>3D</b>目標檢測

    何為3D語義分割

    融合標注使用的3D標注工具仍以3D立體框為主,但在3D數(shù)據(jù)以外,還需要使用2D標注工具在
    的頭像 發(fā)表于 07-21 15:52 ?8439次閱讀

    淺談工業(yè)4.0的OPC統(tǒng)一架構(gòu)

    OPC統(tǒng)一架構(gòu)(OPC UA) 即“工業(yè)互操作標準”,是獨立OPC基金會(康耐視是成員之)建立的。它是德國工業(yè)4.0委員會提出的。2016年,與歐洲自動工程組織VDMA起,OPC基金會創(chuàng)立了
    發(fā)表于 12-29 10:32 ?823次閱讀

    3D數(shù)據(jù)集在3D數(shù)字化技術中的應用

    隨著計算機視覺技術的不斷發(fā)展,3D 數(shù)字化技術已經(jīng)成為了當今工業(yè)制造領域和三維醫(yī)學影像領域的關鍵技術。然而,構(gòu)建高精度、高分辨率的 3D
    的頭像 發(fā)表于 05-06 16:46 ?1297次閱讀

    m3芯片和a17架構(gòu)樣嗎

    m3芯片和a17架構(gòu)樣嗎? M3芯片和A17架構(gòu)是兩個略有不同的概念。M3
    的頭像 發(fā)表于 09-01 14:23 ?1731次閱讀