0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

兩種應(yīng)用于3D對象檢測的點云深度學(xué)習(xí)方法

新機器視覺 ? 來源:新機器視覺 ? 2024-01-03 10:32 ? 次閱讀

隨著激光雷達傳感器(“光檢測和測距”的縮寫,有時稱為“激光掃描”,現(xiàn)在在一些最新iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,3D 數(shù)據(jù)變得越來越廣泛。D 圖像是標準 RGB 圖像與其關(guān)聯(lián)的“深度圖”的組合,目前由 Kinect 或英特爾實感技術(shù)使用。3D 數(shù)據(jù)可以對傳感器周圍環(huán)境進行豐富的空間表示,并可應(yīng)用于機器人、智能家居設(shè)備、無人駕駛汽車或醫(yī)學(xué)成像

3D 數(shù)據(jù)可以采用多種格式:RGB-D 圖像、多邊形網(wǎng)格、體素、點云。點云只是一組無序的坐標三元組 (x, y, z),這種格式已經(jīng)變得非常流行,因為它保留了所有原始 3D 信息,不使用任何離散化或 2D 投影。從根本上講,基于 2D 的方法無法提供準確的 3D 位置信息,這對于機器人或自動駕駛等許多關(guān)鍵應(yīng)用來說是個問題。

因此,直接在點云輸入上應(yīng)用機器學(xué)習(xí)技術(shù)非常有吸引力:它可以避免執(zhí)行 2D 投影或體素化時發(fā)生的幾何信息丟失。由于 3D 數(shù)據(jù)固有的豐富特征表示,點云深度學(xué)習(xí)在過去 5 年中引起了廣泛關(guān)注。

但也存在一些挑戰(zhàn):輸入的高維度和非結(jié)構(gòu)化性質(zhì),以及可用數(shù)據(jù)集的小規(guī)模及其噪聲水平。此外,點云本質(zhì)上是被遮擋和稀疏的:3D 對象的某些部分對傳感器來說只是隱藏的,或者信號可能會丟失或被阻擋。除此之外,點云本質(zhì)上是不規(guī)則的,使得 3D 卷積與 2D 情況非常不同(見下圖)。

受 ML6 客戶的幾個用例的啟發(fā),我們研究了兩種應(yīng)用于 3D 對象檢測的點云深度學(xué)習(xí)方法(VoteNet 和 3DETR)。兩者都是由 Facebook 研究團隊發(fā)明的(請參閱下面的鏈接部分中 Facebook 研究文章的鏈接[5]、[6]和[7])。該模型的目標是使用點云(從 RGB-D 圖像預(yù)處理)并估計定向 3D 邊界框以及對象的語義類別。

1、數(shù)據(jù)預(yù)處理

我們一直使用的主要數(shù)據(jù)集是 SUN RGB-D 數(shù)據(jù)集。它包括室內(nèi)場景(臥室、家具店、辦公室、教室、浴室、實驗室、會議室等)的 10,335 個 RGB-D 圖像。這些場景使用圍繞 37 種對象的 64,595 個定向 3D 邊界框進行注釋,其中包括椅子、桌子、枕頭、沙發(fā)……(請參閱鏈接[1]、[2]、[3]和[4]鏈接部分詳細說明數(shù)據(jù)集的各種來源以及用于創(chuàng)建數(shù)據(jù)集的方法)。在訓(xùn)練期間通過應(yīng)用點云的隨機子采樣、翻轉(zhuǎn)、旋轉(zhuǎn)和隨機縮放來使用數(shù)據(jù)增強。

RGB-D 圖像到濁點的轉(zhuǎn)換是通過圖像中給定坐標處的 2D 坐標和深度值的線性變換來完成的,同時考慮到相機的固有特性。基本的三角學(xué)考慮導(dǎo)致了這種線性變換的數(shù)學(xué)公式(有關(guān)更詳細的解釋,請參閱[8])。下圖(由 yodayoda Inc. 在[8]中提供)說明了該操作。預(yù)處理可以使用 Matlab 函數(shù)來完成,例如 Facebook 團隊的代碼(需要對代碼進行一些更改才能使其與免費版本 Octave 一起使用,這會顯著減慢預(yù)處理速度)或使用 Open3D 開源庫(請參閱 鏈接部分鏈接[9]到圖書館的主頁)。

2、Pointnet++ 和 VoteNet

第一種方法 VoteNet ([5]) 使用 Pointnet++ ([7]) 作為主干(均來自同一作者 Charles R. Qi)。

Pointnet++ 將點云作為輸入并輸出輸入云的子集,但每個點都有更多特征,并且現(xiàn)在豐富了有關(guān)局部幾何圖案的上下文。這與卷積網(wǎng)絡(luò)類似,只是輸入云以數(shù)據(jù)相關(guān)的方式進行子采樣,特定點周圍的鄰域由度量距離定義,并且該鄰域中的點數(shù)是可變的。下圖(摘自[7])說明了 Pointnet++ 架構(gòu)。

df971f00-a9ca-11ee-8b88-92fbcf53809c.png

圖片

該圖像上的 Pointnet 層創(chuàng)建每個局部區(qū)域的抽象(由固定半徑定義)。每個局部區(qū)域都被轉(zhuǎn)換為由其質(zhì)心和豐富特征組成的向量,從而形成鄰域的抽象表示。在我們的特定情況下,原始輸入點云由可變數(shù)量(20,000 或 40,000)的三元組(x、y、z)組成,Pointnet++ 主干網(wǎng)的輸出是一組 1,024 個維度為 3+256 的點。主干中的每個 Pointnet 層只是一個多層感知器(每個 1 或 2 個隱藏層)。

用于 3D 對象檢測的 VoteNet 方法使用 Pointnet++ 的輸出并應(yīng)用“深度霍夫投票”。下圖說明了該方法(摘自[5])。

dfa90364-a9ca-11ee-8b88-92fbcf53809c.png

圖片

主干輸出的每個點(具有豐富的特征)都被輸入到共享的多層感知器中以生成投票(“投票模塊”):該投票神經(jīng)網(wǎng)絡(luò)輸出點(其輸入)和點的質(zhì)心之間的位移三元組。它所屬的對象(如果有)。它經(jīng)過訓(xùn)練,可以最大限度地減少位移的范數(shù),并添加一些有助于投票聚合的額外功能。

如上圖所示,投票被聚集。每個簇都被饋送到“提議和分類模塊”(實際上是 2 個多層感知器),該模塊輸出一個預(yù)測向量,包括:客觀性得分、邊界框參數(shù)和語義分類得分。這三個元素中的每一個都構(gòu)成一個損失函數(shù)(如果我們添加上面提到的投票回歸損失,那么總共 4 個元素):對象交叉熵損失、邊界框估計損失和類別預(yù)測損失。

3、3DETR

3DETR 方法(在[6]中描述)是一種純粹基于Transformer的方法,與普通transformer架構(gòu)相比幾乎沒有任何修改,這是非常了不起的。3DETR 架構(gòu)如下圖所示(摘自[6])。

dfc38612-a9ca-11ee-8b88-92fbcf53809c.png

圖片

Transformer 編碼器從子采樣+集合聚合層接收輸入,就像上面描述的 Pointnet++ 主干一樣(除了在這種情況下該操作僅應(yīng)用一次,而不是在 Pointnet++ 中應(yīng)用多次)。然后,Transformer 編碼器應(yīng)用多層自注意力和非線性投影(在我們的例子中,有 3 個多頭注意力層,每個層有 8 個頭)。不需要位置嵌入,因為該信息已包含在輸入中。自注意力機制是排列不變的,并且允許表示長范圍依賴。話雖這么說,編碼器中的自注意力層可以使用掩碼進行修改,以便關(guān)注局部模式而不是全局模式。

解碼器由多個transformer塊組成(在我們的例子中為 8 個)。它接收查詢并預(yù)測 3D 邊界框。查詢是通過從輸入云中采樣一些點(在我們的例子中為 128 個)并將它們輸入到位置嵌入層和隨后的多層感知器中來生成的。

4、實戰(zhàn)案例

這是來自 SUN RGB-D 數(shù)據(jù)集的 RGB-D 圖像的示例。

然后圖像被預(yù)處理成 20,000 或 80,000 個點的點云。你可以使用 MeshLab 可視化各種 3D 數(shù)據(jù),包括點云。

VoteNet 或 3DETR 算法現(xiàn)在可以預(yù)測邊界框(和對象類)。

5、性能表現(xiàn)

為了評估 3D 對象檢測技術(shù),最廣泛使用的指標是平均精度 (mAP):平均精度 (AP) 是精度-召回率曲線下的面積,平均精度 (mAP) 是所有對象的平均值 類。IoU(交并集)閾值固定為 0.25 或 0.5,為我們提供 AP25 或 AP50 指標。這控制了預(yù)測邊界框和真實邊界框之間所需的重疊。

我們在 Google Cloud Platform 虛擬機上的 SUN RGB-D 訓(xùn)練集上對 VoteNet 模型進行了 180 個 epoch 的訓(xùn)練(如[5]的作者所建議),并在測試集上獲得了 57% 的 AP25(如[5])。我們的 VoteNet 模型大小合理,具有大約 100 萬個可訓(xùn)練參數(shù)。

至于3DETR模型,該模型更大,有700萬個可訓(xùn)練參數(shù),需要訓(xùn)練360個epoch才能在SUN RGB-D數(shù)據(jù)集上達到57%的AP25。這需要幾天的訓(xùn)練。幸運的是,[6]的作者公開了一個在 SUN RGB-D 上預(yù)訓(xùn)練了 1080 個 epoch 的模型。我們對其進行了測試,得到了與 VoteNet 相同的 AP25,即 57%。編碼器中帶有屏蔽自注意力的 3DETR 模型版本也可用,并且性能稍好一些。應(yīng)該指出的是,根據(jù)[6]的作者的說法,性能增益在另一個數(shù)據(jù)集上更為重要(ScanNetV2 請參閱下面該數(shù)據(jù)集的更多信息)。

6、遷移學(xué)習(xí)

一個重要的考慮因素是將預(yù)訓(xùn)練模型(例如[5]和[6]的作者提供的模型)轉(zhuǎn)移到我們客戶的數(shù)據(jù)上的能力。這在 3D 對象檢測的情況下尤其重要,因為數(shù)據(jù)難以注釋、被遮擋且有噪聲。

我們測試了在 ScanNetV2 數(shù)據(jù)集上訓(xùn)練的 VoteNet 到 SUN RGB-D 數(shù)據(jù)集的可遷移性。ScanNetV2(詳細信息請參閱[10])是一個由室內(nèi)場景重建的 1,200 個 3D 網(wǎng)格的帶注釋數(shù)據(jù)集。它確實包括 18 個對象類別 雖然 SUN RGB-D 和 ScanNetV2 都屬于相似的室內(nèi)場景領(lǐng)域,但它們實際上完全不同:ScanNetV2 中的場景覆蓋更大的表面、更完整并包含更多對象。對 ScanNetV2 數(shù)據(jù)集中的頂點進行采樣以創(chuàng)建輸入點云。

我們使用在 ScanNetV2 上預(yù)訓(xùn)練了 180 個 epoch 的 VoteNet 模型。我們盡可能保留了這個模型的內(nèi)容:主干模塊、投票模塊以及除最后一個輸出層之外的所有提案和分類模塊。有趣的是,該模型僅在 SUN RGB-D 上進行了 30 個 epoch 的微調(diào),就達到了與在 SUN RGB-D 上從頭開始訓(xùn)練 180 個 epoch 的相同 VoteNet 模型相同的性能。

這是一個令人鼓舞的結(jié)果,讓我們相信我們的預(yù)訓(xùn)練模型可以輕松地從其他類型的室內(nèi)域轉(zhuǎn)移到 ML6 客戶端的數(shù)據(jù),而不需要大型注釋數(shù)據(jù)集。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2542

    文章

    50241

    瀏覽量

    750096
  • 攝像頭
    +關(guān)注

    關(guān)注

    59

    文章

    4772

    瀏覽量

    95096
  • 激光雷達
    +關(guān)注

    關(guān)注

    967

    文章

    3886

    瀏覽量

    189195
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5431

    瀏覽量

    120790

原文標題:點云目標識別深度網(wǎng)絡(luò)

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于深度學(xué)習(xí)方法在處理3D進行缺陷分類應(yīng)用

    背景部分介紹了3D應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計了各種數(shù)據(jù)集,包括用于3D
    的頭像 發(fā)表于 02-22 16:16 ?884次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>方法</b>在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進行缺陷分類應(yīng)用

    兩種建立元件3D圖形的方法

    使用 Altium Desinger繪制的PCB封裝默認情況下為平面,也就是將其切換到 3D 視圖時,只能看到的是封裝的形狀,并不是元件的外觀,這里給大家介紹兩種建立元件3D圖形的方法
    發(fā)表于 07-12 07:37

    基于深度學(xué)習(xí)3D圖像處理的精密加工件外觀缺陷檢測系統(tǒng)

    的要求; 創(chuàng)新三:深度學(xué)習(xí)應(yīng)用于3D圖像的分析處理。直接聯(lián)通三維圖像數(shù)據(jù)與深度
    發(fā)表于 03-08 13:59

    3D技術(shù)介紹及其與VR體驗的關(guān)系

    ;x>nkedIn上發(fā)表了一篇跟澳大利亞科技公司優(yōu)立(Euclideon)所使用的數(shù)據(jù)有關(guān)的文章,并在業(yè)內(nèi)引起了一番討論。 1. 的問題
    發(fā)表于 09-15 09:28 ?20次下載

    問題的介紹及3D技術(shù)在VR中的應(yīng)用

    1. 的問題 是由3D掃描硬件收集的數(shù)據(jù),如FARO的Focus 3D激光掃描儀和Shi
    發(fā)表于 09-27 15:27 ?17次下載

    基于圖卷積的層級圖網(wǎng)絡(luò)用于基于3D目標檢測

    論文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds 由于大多數(shù)現(xiàn)有的對象
    的頭像 發(fā)表于 06-21 12:15 ?6141次閱讀
    基于圖卷積的層級圖網(wǎng)絡(luò)<b class='flag-5'>用于</b>基于<b class='flag-5'>點</b><b class='flag-5'>云</b>的<b class='flag-5'>3D</b>目標<b class='flag-5'>檢測</b>

    3D 的無監(jiān)督膠囊網(wǎng)絡(luò) 多任務(wù)上實現(xiàn)SOTA

    這是一3D 提出的無監(jiān)督膠囊架構(gòu),并且在 3D
    的頭像 發(fā)表于 01-02 09:39 ?2026次閱讀

    基于層級圖網(wǎng)絡(luò)的圖卷積,用完成3D目標檢測

    由于大多數(shù)現(xiàn)有的對象檢測方法不能充分適應(yīng)點的特征(例如稀疏性),所以一些關(guān)鍵的語義信息(如
    的頭像 發(fā)表于 12-24 15:25 ?597次閱讀

    如何在LiDAR上進行3D對象檢測

    該項目將借助KV260上的PYNQ-DPU覆蓋,從而能夠使我們在LiDAR上進行3D對象檢測比以往任何時候都更加高效!
    的頭像 發(fā)表于 04-26 17:41 ?2089次閱讀
    如何在LiDAR<b class='flag-5'>點</b><b class='flag-5'>云</b>上進行<b class='flag-5'>3D</b><b class='flag-5'>對象</b><b class='flag-5'>檢測</b>

    何為3D語義分割

    融合標注使用的3D標注工具仍以3D立體框為主,但在3D數(shù)據(jù)以外,還需要使用2D標注工具在
    的頭像 發(fā)表于 07-21 15:52 ?8425次閱讀

    用于處理三維深度學(xué)習(xí)方法的分析

    3D學(xué)習(xí)( Point Clouds)作為近年來的研究熱點之一,受到了廣泛關(guān)注,每年在各大會議上都有大量的相關(guān)文章發(fā)表。
    的頭像 發(fā)表于 11-02 15:07 ?996次閱讀

    設(shè)計時空自監(jiān)督學(xué)習(xí)框架來學(xué)習(xí)3D云表示

    1)方法優(yōu)于現(xiàn)有技術(shù)。通過使用 STRL 進行預(yù)訓(xùn)練并將學(xué)習(xí)到的模型應(yīng)用于下游任務(wù),它在 ModelNet40上優(yōu)于最先進的無監(jiān)督方法,并通過線性評估達到 90.9% 的
    的頭像 發(fā)表于 12-06 10:23 ?733次閱讀

    有效將3D分割成平面組件的多分辨率方法

    在實驗中,將改方法與使用 SegComp 數(shù)據(jù)庫的最先進方法進行了比較。實驗結(jié)果表明,我們以高幀率和高質(zhì)量處理 3D 激光和深度傳感器(例如 Kinect)的
    的頭像 發(fā)表于 01-09 11:28 ?967次閱讀

    基于深度學(xué)習(xí)分割的方法介紹

      摘 要:分割是數(shù)據(jù)理解中的一個關(guān)鍵技術(shù),但傳統(tǒng)算法無法進行實時語義分割。近年來深度學(xué)習(xí)
    發(fā)表于 07-20 15:23 ?0次下載

    基于深度學(xué)習(xí)3D實例分割方法

    3D實例分割(3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由云表示的
    發(fā)表于 11-13 10:34 ?1917次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>實例分割<b class='flag-5'>方法</b>