0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

點(diǎn)云分割相較圖像分割的優(yōu)勢(shì)是啥?

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 作者:3D視覺(jué)工坊 ? 2022-12-14 14:25 ? 次閱讀

0. 筆者個(gè)人體會(huì)

近年來(lái),自動(dòng)駕駛領(lǐng)域的各項(xiàng)下游任務(wù)基本上都要求了對(duì)場(chǎng)景的語(yǔ)義理解,比如自動(dòng)駕駛車(chē)輛要能夠理解哪個(gè)是路面、哪個(gè)是交通燈、哪個(gè)是行人、哪個(gè)是樹(shù)木,因此點(diǎn)云分割的作用就不言而喻。

但隨著Transformer模型的大火,用于點(diǎn)云分割的深度神經(jīng)網(wǎng)絡(luò)參數(shù)量越來(lái)越龐大,動(dòng)不動(dòng)就上億參數(shù)。想要訓(xùn)練如此龐大的模型,除了需要足夠強(qiáng)的GPU外,還需要大量的標(biāo)簽和數(shù)據(jù)。數(shù)據(jù)很容易得到,64線的激光雷達(dá)一幀可以打出十幾萬(wàn)個(gè)點(diǎn)云,現(xiàn)有的雷達(dá)數(shù)據(jù)集也不少了。但標(biāo)簽?zāi)??給點(diǎn)云打過(guò)label的人都知道這個(gè)過(guò)程有多繁瑣(haaaaa)。

由此,點(diǎn)云分割模型便出現(xiàn)了各種各樣的訓(xùn)練范式,主要包括有監(jiān)督、弱監(jiān)督、無(wú)監(jiān)督以及半監(jiān)督。那么哪種訓(xùn)練方法才是最優(yōu)的?顯然這個(gè)問(wèn)題在不同場(chǎng)景下有不同的答案。本文將帶領(lǐng)讀者閱讀幾種主流的頂會(huì)框架,探討不同訓(xùn)練方法的基本原理。當(dāng)然筆者水平有限,若有理解不當(dāng)?shù)牡胤?,歡迎大家一起探討,共同學(xué)習(xí)!

劃重點(diǎn),本文提到的算法都是開(kāi)源的!文末附代碼鏈接!各位讀者可在現(xiàn)有模型的基礎(chǔ)上設(shè)計(jì)自己的點(diǎn)云分割模型。

1. 點(diǎn)云分割相較圖像分割的優(yōu)勢(shì)是啥?

自動(dòng)駕駛領(lǐng)域的下游任務(wù),我認(rèn)為主要包括目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割和全景分割。其中目標(biāo)檢測(cè)是指在區(qū)域中提取目標(biāo)的候選框并分類(lèi),語(yǔ)義分割是對(duì)區(qū)域中不同類(lèi)別的物體進(jìn)行區(qū)域性劃分,實(shí)例分割是將每個(gè)類(lèi)別進(jìn)一步細(xì)化為單獨(dú)的實(shí)例,全景分割則要求對(duì)區(qū)域中的每一個(gè)像素/點(diǎn)云都進(jìn)行分類(lèi)。

因?yàn)閳D像中存在大量且豐富的紋理信息,且相機(jī)相較于雷達(dá)很便宜,所以對(duì)圖像進(jìn)行分割非常容易。近年來(lái)也涌現(xiàn)了一大批圖像語(yǔ)義分割的深度模型,比如我們所熟知的ViT、TransUNet、YOLOP等等。各自架構(gòu)層出不窮,不停的在各種排行榜上提點(diǎn),似乎圖像語(yǔ)義分割已經(jīng)非常完美。

1acf8f4a-7b63-11ed-8abf-dac502259ad0.png

那么為啥還要對(duì)雷達(dá)點(diǎn)云進(jìn)行分割呢?

主要有三個(gè)原因:

(1) 激光雷達(dá)可以獲得絕對(duì)尺度。

我們知道單目圖像是無(wú)法獲得絕對(duì)尺度的,并且自動(dòng)駕駛汽車(chē)在長(zhǎng)時(shí)間運(yùn)行過(guò)程中也會(huì)發(fā)生尺度漂移問(wèn)題。雖然現(xiàn)有的一些方法在嘗試從單目圖像中恢復(fù)出絕對(duì)尺度,但基本上也都不太準(zhǔn)確。這就導(dǎo)致了單純從圖像中提取出來(lái)的語(yǔ)義信息,很難直接應(yīng)用于軌跡規(guī)劃、避障、巡航等自動(dòng)駕駛?cè)蝿?wù)。

(2) 激光雷達(dá)對(duì)強(qiáng)/弱光線非常魯棒

視覺(jué)語(yǔ)義分割非常受光照和惡劣天氣影響,在過(guò)強(qiáng)、過(guò)弱、模糊等光線條件下,分割結(jié)果往往會(huì)出現(xiàn)很?chē)?yán)重的畸變。但對(duì)于自動(dòng)駕駛?cè)蝿?wù)來(lái)說(shuō),惡劣天氣顯然是無(wú)法避免的。

(3) 激光雷達(dá)可以對(duì)環(huán)境進(jìn)行3D感知

我們希望自動(dòng)駕駛汽車(chē)能夠?qū)χ車(chē)恼w環(huán)境進(jìn)行全方位的感知,這對(duì)于激光雷達(dá)來(lái)說(shuō)很容易。但對(duì)于圖像來(lái)說(shuō)就很難了,僅僅依靠單目圖像很難恢復(fù)出完整的環(huán)境。依靠環(huán)視相機(jī)進(jìn)行BEV感知的話也會(huì)帶來(lái)像素畸變問(wèn)題。

1acf8f4a-7b63-11ed-8abf-dac502259ad0.png

2. 都用啥數(shù)據(jù)集?

這里介紹幾個(gè)主流的點(diǎn)云分割數(shù)據(jù)集,用于模型的訓(xùn)練和評(píng)估。

2.1 nuScenes-Lidarseg數(shù)據(jù)集

數(shù)據(jù)集鏈接:https://www.nuscenes.org/nuscenes#lidarseg(注意總文件有293G)

nuScenes數(shù)據(jù)集是由Motional公司在2019年3月發(fā)布的用于自動(dòng)駕駛的共有大型數(shù)據(jù)集。數(shù)據(jù)集來(lái)源于波士頓和新加坡采集的1000個(gè)駕駛場(chǎng)景,每個(gè)場(chǎng)景選取了20秒長(zhǎng)的視頻,共計(jì)大約15小時(shí)的駕駛數(shù)據(jù)。場(chǎng)景選取時(shí)充分考慮多樣化的駕駛操作、交通情況和意外情況等,例如不同地點(diǎn)、天氣條件、車(chē)輛類(lèi)型、植被、道路標(biāo)和駕駛規(guī)則等。

完整的nuScenes數(shù)據(jù)集包括大約140萬(wàn)個(gè)圖像、40萬(wàn)個(gè)激光雷達(dá)點(diǎn)云、140萬(wàn)個(gè)雷達(dá)掃描和4萬(wàn)個(gè)關(guān)鍵幀中的140萬(wàn)個(gè)對(duì)象邊界框。其傳感器包括6個(gè)攝像頭、1個(gè)32線激光雷達(dá)、5個(gè)毫米波雷達(dá)、GPS和IMU,如下圖所示。2020年7月發(fā)布的nuScenes-lidarseg數(shù)據(jù)集,增加了激光雷達(dá)點(diǎn)云的語(yǔ)義分割標(biāo)注,涵蓋了23個(gè)前景類(lèi)和9個(gè)背景類(lèi)。nuScenes-lidarseg在40萬(wàn)個(gè)點(diǎn)云和1000個(gè)場(chǎng)景(850個(gè)用于訓(xùn)練和驗(yàn)證的場(chǎng)景,150個(gè)用于測(cè)試的場(chǎng)景)中包含14億個(gè)注釋點(diǎn)。

1ba199cc-7b63-11ed-8abf-dac502259ad0.png

1bd9a2fe-7b63-11ed-8abf-dac502259ad0.png

2.2 SemanticKITTI數(shù)據(jù)集

數(shù)據(jù)集地址:http://www.semantic-kitti.org/index.html

SemanticKITTI數(shù)據(jù)集是一個(gè)基于KITTI Vision Benchmark里程計(jì)數(shù)據(jù)集的大型戶(hù)外點(diǎn)云數(shù)據(jù)集,顯示了市中心的交通、住宅區(qū),以及德國(guó)卡爾斯魯厄周?chē)母咚俟穲?chǎng)景和鄉(xiāng)村道路。原始里程計(jì)數(shù)據(jù)集由22個(gè)序列組成,作者將序列00到10拆分為訓(xùn)練集,將11到21拆分為測(cè)試集,并且為了與原始基準(zhǔn)保持一致,作者對(duì)訓(xùn)練和測(cè)試集采用相同的劃分,采用和KITTI數(shù)據(jù)集相同的標(biāo)定方法,這使得該數(shù)據(jù)集和KITTI數(shù)據(jù)集等數(shù)據(jù)集可以通用。

SemanticKITTI數(shù)據(jù)集作者提供了精確的序列掃描注釋?zhuān)⑶以邳c(diǎn)注釋中顯示了前所未有的細(xì)節(jié),包含28個(gè)類(lèi)。

1c3f6f9e-7b63-11ed-8abf-dac502259ad0.png

2.3 ScribbleKITTI數(shù)據(jù)集

這個(gè)數(shù)據(jù)集很新,是CVPR2022 Oral的成果。

論文鏈接:https://arxiv.org/abs/2203.08537

數(shù)據(jù)集鏈接:http://github.com/ouenal/scribblekitti

ScribbleKITTI數(shù)據(jù)集希望通過(guò)利用弱監(jiān)督(weak supervision)來(lái)實(shí)現(xiàn)3D語(yǔ)義分割方法,首次提出了使用涂鴉(scribbles)對(duì)雷達(dá)點(diǎn)云進(jìn)行標(biāo)注。但這也導(dǎo)致那些包含邊緣信息的未標(biāo)注點(diǎn)并未被使用,且由于缺乏大量標(biāo)注點(diǎn)(該方法只使用8%的標(biāo)注點(diǎn))的數(shù)據(jù),影響了具有長(zhǎng)尾分布的類(lèi)置信度,最終使得模型性能有所下降。

因此,ScribbleKITTI還提出了一個(gè)額外的pipeline,用以減少這種性能差距。該pipeline由三個(gè)獨(dú)立的部分組成,可以與任何LiDAR語(yǔ)義分割模型相結(jié)合。論文代碼采用Cylinder3D模型,在只使用8%標(biāo)注的情況下,可達(dá)到95.7%的全監(jiān)督性能。

1cfc1be4-7b63-11ed-8abf-dac502259ad0.png

論文提出的pipeline可分為訓(xùn)練、偽標(biāo)簽和蒸餾這三個(gè)階段:在訓(xùn)練期間,首先通過(guò)PLS來(lái)對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),再訓(xùn)練mean teacher,這有利于后面生成更高質(zhì)量的偽標(biāo)簽。在偽標(biāo)簽階段,通過(guò)CRB來(lái)產(chǎn)生目標(biāo)標(biāo)簽,降低由于點(diǎn)云自身屬性降低生成偽標(biāo)簽的質(zhì)量。在蒸餾階段,通過(guò)前面生成的偽標(biāo)簽再對(duì)mean teacher進(jìn)行訓(xùn)練。

1d572386-7b63-11ed-8abf-dac502259ad0.png

3. 雷達(dá)點(diǎn)云表征

深度學(xué)習(xí)模型都需要一個(gè)規(guī)范化的數(shù)據(jù)表征,才能進(jìn)行合理的特征提取和融合。對(duì)于圖像來(lái)說(shuō),是一個(gè)非常規(guī)整的2D表征,即每個(gè)像素位置都是固定的,這有利于模型訓(xùn)練和測(cè)試。但對(duì)于3D點(diǎn)云來(lái)說(shuō),每幀點(diǎn)云有十幾萬(wàn)個(gè)點(diǎn),雜亂無(wú)章的點(diǎn)云必然不利于模型訓(xùn)練。因此需要對(duì)雷達(dá)點(diǎn)云進(jìn)行合理表征。

1d8bb628-7b63-11ed-8abf-dac502259ad0.png

雷達(dá)點(diǎn)云主要的表征模式有四種:

(1) 2D Range View表征

非常接近圖像,將點(diǎn)云投影到平面,直接進(jìn)行2D表征,得到x、y坐標(biāo)。有時(shí)投影過(guò)程中還會(huì)考慮點(diǎn)云強(qiáng)度、深度以及每個(gè)方格是否有點(diǎn)云。網(wǎng)絡(luò)輸入也就是2D Range View,首先提取特征,然后進(jìn)行特征融合,最后根據(jù)不同的分割頭進(jìn)行語(yǔ)義訓(xùn)練。

1dac3b14-7b63-11ed-8abf-dac502259ad0.png

(2) 2D BEV表征

對(duì)于很多自動(dòng)駕駛場(chǎng)景,往往是x和y坐標(biāo)范圍有幾十米上百米,但z方向的坐標(biāo)只有幾米。因此有些表征就直接省略掉z方向的表達(dá),通過(guò)俯視圖得到極坐標(biāo)表征。

(3) 3D Cylinder Voxel表征

在點(diǎn)云z方向進(jìn)行Cylinder的劃分,是一種3D描述,典型代表就是Cylinder3D。注意為什么要用Cylinder來(lái)表征而不是其他正方體呢?這是因?yàn)辄c(diǎn)云分布的密度是不一樣的,在自車(chē)周?chē)狞c(diǎn)云密度很大,在周?chē)狞c(diǎn)云密度很小。通過(guò)這種不規(guī)則的劃分就更有利于特征提取。

1e352f64-7b63-11ed-8abf-dac502259ad0.png

(4) 混合表征

顯然每種表征方法都有各自的特點(diǎn)和優(yōu)劣,那么有些文章就將不同的表征模式進(jìn)行混合,進(jìn)而得到更強(qiáng)的表征。具體執(zhí)行過(guò)程中會(huì)先通過(guò)不同的支路單獨(dú)進(jìn)行特征提取,之后進(jìn)行特征融合并輸出頭。

1e89114c-7b63-11ed-8abf-dac502259ad0.png

而針對(duì)不同的表征,也有不同的操作。對(duì)于3D表征來(lái)說(shuō),主要是Conv3d和SparseConv,對(duì)于2D表征來(lái)說(shuō),主要是Conv2d和線性Linear。對(duì)于直接將點(diǎn)作為輸入的一維表征,使用Conv1d和線性Linear。

1f4e46d8-7b63-11ed-8abf-dac502259ad0.png

4. 全監(jiān)督算法

華南理工大學(xué)今年11月在arXiv上傳了論文“Superpoint Transformer for 3D Scene Instance Segmentation”,基于Transformer構(gòu)建了一個(gè)新的點(diǎn)云分割框架,名為SPFormer。具體來(lái)說(shuō),作者提出一種基于Superpoint Transformer的新型端到端三維實(shí)例分割方法,它將點(diǎn)云中的隱特征分組為超點(diǎn),并通過(guò)查詢(xún)向量直接預(yù)測(cè)實(shí)例,而不依賴(lài)目標(biāo)檢測(cè)或語(yǔ)義分割的結(jié)果。

SPFormer其實(shí)針對(duì)的不是自動(dòng)駕駛場(chǎng)景,它主要是在ScanNet和S3DIS這兩個(gè)室內(nèi)數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估。感覺(jué)最近很少有自動(dòng)駕駛場(chǎng)景的全監(jiān)督算法了,主要還是因?yàn)閷?duì)數(shù)據(jù)量和標(biāo)注要求太大。

這個(gè)框架的關(guān)鍵步驟是一個(gè)帶有Transformer的新型查詢(xún)解碼器,它可以通過(guò)超點(diǎn)交叉關(guān)注機(jī)制捕捉實(shí)例信息并生成實(shí)例的超點(diǎn)掩碼。通過(guò)基于超點(diǎn)掩碼的雙點(diǎn)匹配,SPFormer可以實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練,而不需要中間的聚合步驟,這就加速了網(wǎng)絡(luò)的發(fā)展。

1f7c3aac-7b63-11ed-8abf-dac502259ad0.png

SPFormer的結(jié)果也很漂亮,在ScanNetv2 hidden上的mAP達(dá)到了54.9%,比之前最好的結(jié)果高出4.3%。對(duì)于具體的18個(gè)類(lèi)別,SPFormer在其中的8個(gè)類(lèi)別上取得了最高的AP得分。特別是在counter類(lèi)別中,SPFormer超過(guò)了之前最好的AP分?jǐn)?shù)10%以上。

1fb1788e-7b63-11ed-8abf-dac502259ad0.png

總結(jié)一下,全監(jiān)督算法的精度應(yīng)該是最高的,因?yàn)榻邮芰送耆臉?biāo)簽訓(xùn)練,但是對(duì)數(shù)據(jù)量和標(biāo)注的要求越來(lái)越大。

5. 弱監(jiān)督算法

感覺(jué)ScribbleKITTI中提出的弱監(jiān)督Pipeline非常妙了,可以與任何LiDAR語(yǔ)義分割模型相結(jié)合,這里再回顧一下。

1d572386-7b63-11ed-8abf-dac502259ad0.png

這里再介紹一個(gè)基于雷達(dá)引導(dǎo)的圖像弱監(jiān)督分割算法,感覺(jué)很有意思:

是由北京理工大學(xué)和上海AI Lab聯(lián)合提出的LWSIS,今年12月7日上傳到arXiv,錄用到了2023 AAAI,可以說(shuō)非常新!論文題目是“LWSIS: LiDAR-guidedWeakly Supervised Instance Segmentation for Autonomous Driving”。

LWSIS利用現(xiàn)有的點(diǎn)云和3D框,作為訓(xùn)練2D圖像實(shí)例分割模型的自然弱監(jiān)督。LWSIS不僅在訓(xùn)練過(guò)程中利用了多模態(tài)數(shù)據(jù)中的互補(bǔ)信息,而且顯著降低了稠密二維掩膜的標(biāo)注成本。具體來(lái)說(shuō),LWSIS包括兩個(gè)關(guān)鍵模塊:點(diǎn)標(biāo)簽分配(PLA)和基于圖的一致性正則化(GCR)。前者旨在將三維點(diǎn)云自動(dòng)分配為二維逐點(diǎn)標(biāo)簽,而后者通過(guò)增強(qiáng)多模態(tài)數(shù)據(jù)的幾何和外觀一致性來(lái)進(jìn)一步優(yōu)化預(yù)測(cè)。此外,作者對(duì)nuScenes進(jìn)行了二次實(shí)例分割標(biāo)注,命名為nuInsSeg,以鼓勵(lì)多模態(tài)感知任務(wù)的進(jìn)一步研究。

2010878e-7b63-11ed-8abf-dac502259ad0.png

在nuInsSeg和大規(guī)模Waymo上的大量實(shí)驗(yàn)表明,LWSIS在訓(xùn)練過(guò)程中只涉及三維數(shù)據(jù),可以顯著改進(jìn)現(xiàn)有的弱監(jiān)督分割模型。此外,LWSIS還可以與Point Painting等3D目標(biāo)檢測(cè)器結(jié)合,提升3D檢測(cè)性能。

204b81cc-7b63-11ed-8abf-dac502259ad0.png

總結(jié)一下,感覺(jué)弱監(jiān)督算法是現(xiàn)在的一個(gè)主流發(fā)展趨勢(shì)。也就是說(shuō),放棄標(biāo)注復(fù)雜的目標(biāo),轉(zhuǎn)而去用一些容易得到的表情來(lái)引導(dǎo)訓(xùn)練。感覺(jué)這種思想非常巧妙!當(dāng)然用來(lái)引導(dǎo)的標(biāo)簽不一定要是涂鴉或者點(diǎn)云,也可以是其他形式,讀者可以由此設(shè)計(jì)自己的弱監(jiān)督分割網(wǎng)絡(luò)。

6. 無(wú)監(jiān)督算法

點(diǎn)云分割算法是否可以完全不依賴(lài)標(biāo)簽?

這似乎是個(gè)很難回答的問(wèn)題,沒(méi)有標(biāo)簽,也就完全無(wú)法知道物體的類(lèi)別先驗(yàn),就更加無(wú)法進(jìn)行訓(xùn)練。

但香港理工大學(xué)的2022 NeurIPS論文“OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds”似乎回答了這個(gè)問(wèn)題。作者的思路也很巧妙:一輛汽車(chē)上的所有點(diǎn)一起向前運(yùn)動(dòng),而場(chǎng)景中其他的點(diǎn)則保持靜止。那么理論上,我們可以基于每個(gè)點(diǎn)的運(yùn)動(dòng),將場(chǎng)景中屬于汽車(chē)的點(diǎn)和其他點(diǎn)分割開(kāi),實(shí)現(xiàn)右圖中的效果。

2085b798-7b63-11ed-8abf-dac502259ad0.png

OGC是一種通用的、能分割多個(gè)物體的無(wú)監(jiān)督3D物體分割方法,這種方法在完全無(wú)標(biāo)注的點(diǎn)云序列上進(jìn)行訓(xùn)練,從運(yùn)動(dòng)信息中學(xué)習(xí)3D物體分割。經(jīng)過(guò)訓(xùn)練后,能夠直接在單幀點(diǎn)云上進(jìn)行物體分割。OGC框架的核心是:以物體在運(yùn)動(dòng)中保持幾何形狀一致作為約束條件,設(shè)計(jì)一組損失函數(shù),能夠有效地利用運(yùn)動(dòng)信息為物體分割提供監(jiān)督信號(hào)

OGC以單點(diǎn)云作為輸入,并直接在一次向前傳遞中估計(jì)多個(gè)對(duì)象遮罩。OGC利用連續(xù)點(diǎn)云的潛在動(dòng)態(tài)作為監(jiān)督信號(hào)。具體架構(gòu)由三個(gè)主要組件組成: (1)目標(biāo)分割網(wǎng)絡(luò)提取每一點(diǎn)的特征,并從單一點(diǎn)云估計(jì)所有對(duì)象掩模如橙色塊所示;(2)輔助自監(jiān)督網(wǎng)絡(luò)來(lái)估計(jì)來(lái)自一對(duì)點(diǎn)云的每點(diǎn)運(yùn)動(dòng)矢量;3)一系列損失函數(shù)充分利用運(yùn)動(dòng)動(dòng)態(tài)來(lái)監(jiān)控目標(biāo)分割骨干。對(duì)于前兩個(gè)組件,實(shí)際上可以靈活地采用現(xiàn)有的提取器和自監(jiān)督運(yùn)動(dòng)估計(jì)器。

20e92922-7b63-11ed-8abf-dac502259ad0.png

211c4370-7b63-11ed-8abf-dac502259ad0.png

總結(jié)一下,無(wú)監(jiān)督算法現(xiàn)在應(yīng)該還比較少。OGC是利用了運(yùn)動(dòng)約束,可以很巧妙得訓(xùn)練點(diǎn)云分割網(wǎng)絡(luò)。但是靜止的物體呢?比如樹(shù)木、交通燈、建筑。未來(lái)應(yīng)該還會(huì)有很多大神提出更多巧妙的思路,讓我們拭目以待。

7. 半監(jiān)督算法

全監(jiān)督和弱監(jiān)督都要求對(duì)每幀點(diǎn)云都進(jìn)行標(biāo)注,只是弱監(jiān)督標(biāo)注的少,無(wú)監(jiān)督不需要標(biāo)注。那么半監(jiān)督呢?這里半監(jiān)督指的是,一部分的點(diǎn)云需要進(jìn)行標(biāo)注,另外一部分不需要任何標(biāo)注。即,在充分利用到現(xiàn)有的已標(biāo)注數(shù)據(jù)的基礎(chǔ)上,結(jié)合便于收集的大量無(wú)標(biāo)注數(shù)據(jù),訓(xùn)練泛化能力優(yōu)異的模型。

本文介紹的算法是新加坡國(guó)立大學(xué)今年6月提出的LaserMix for Semi-Supervised LiDAR Semantic Segmentation。

這項(xiàng)工作的思路非常巧妙!作者發(fā)現(xiàn),無(wú)論是靜態(tài)背景還是動(dòng)態(tài)前景對(duì)象,都在LiDAR點(diǎn)云場(chǎng)景中表現(xiàn)出很強(qiáng)的結(jié)構(gòu)先驗(yàn),而這種先驗(yàn)可以很好地由LiDAR的激光束所表征。以最常見(jiàn)的旋轉(zhuǎn)型LiDAR傳感器為例,其以自車(chē)為中心向周?chē)飨蛲缘匕l(fā)射具有固定傾角的激光射線,由于不同類(lèi)別本身具有特殊的分布,由激光射線探測(cè)并返回的點(diǎn)便能夠較為精準(zhǔn)地捕捉到這些不同類(lèi)別所蘊(yùn)藏的結(jié)構(gòu)化信息。

例如,road類(lèi)在靠近自車(chē)周?chē)膮^(qū)域中大量分布,主要由位于下部的射線所收集;vegetation類(lèi)分布在遠(yuǎn)離自車(chē)的區(qū)域,主要由位于上部的具有較大正向傾角(inclination)的射線所收集;而car類(lèi)主要分布在LiDAR點(diǎn)云場(chǎng)景的中部區(qū)域,主要由中間的射線所收集。

21385a24-7b63-11ed-8abf-dac502259ad0.png

216dbac0-7b63-11ed-8abf-dac502259ad0.png

LaserMix管道有兩個(gè)分支,一個(gè)有標(biāo)注的學(xué)生分支和沒(méi)有標(biāo)注的教師分支。在訓(xùn)練過(guò)程中,一個(gè)batch由一半有標(biāo)簽數(shù)據(jù)和一半無(wú)標(biāo)簽數(shù)據(jù)組成。LaserMix收集來(lái)自學(xué)生和教師的預(yù)測(cè),并使用預(yù)定義的置信度閾值從教師網(wǎng)絡(luò)的預(yù)測(cè)中生成偽標(biāo)簽。對(duì)于有標(biāo)記數(shù)據(jù),LaserMix計(jì)算學(xué)生網(wǎng)絡(luò)的預(yù)測(cè)和真實(shí)值之間的交叉熵?fù)p失。對(duì)于無(wú)標(biāo)簽數(shù)據(jù),LaserMix將每次掃描與隨機(jī)標(biāo)記掃描混合在一起,加上偽標(biāo)記或真值。然后,令學(xué)生對(duì)混合數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算交叉熵?fù)p失。

21985be0-7b63-11ed-8abf-dac502259ad0.png

LaserMix在Range View和Voxel這兩種點(diǎn)云表征上都進(jìn)行了驗(yàn)證,體現(xiàn)出該方法的普適性和適配性。此外,作者將nuScenes、SemanticKITTI、ScribbleKITTI三個(gè)數(shù)據(jù)集按照1%,10%,20%和50%的有標(biāo)注數(shù)據(jù)比例進(jìn)行了劃分,并認(rèn)為其余數(shù)據(jù)均為未標(biāo)注數(shù)據(jù)。結(jié)果顯示,LaserMix極大地提升了半監(jiān)督條件下的LiDAR分割結(jié)果。無(wú)論是在不同的數(shù)據(jù)集還是不同的LiDAR點(diǎn)云表征下,LaserMix的分割結(jié)果都明顯地超過(guò)了Sup.-only和SOTA的半監(jiān)督學(xué)習(xí)方法。其中Sup.-only代表僅使用有標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練后的結(jié)果,可以理解為該任務(wù)的下界(lower bound)。

21c1039c-7b63-11ed-8abf-dac502259ad0.png

總結(jié)一下,半監(jiān)督算法其實(shí)同時(shí)結(jié)合了弱監(jiān)督和監(jiān)督的優(yōu)點(diǎn)。弱監(jiān)督雖然標(biāo)注的簡(jiǎn)單了,但本質(zhì)上還是需要對(duì)每幀數(shù)據(jù)都進(jìn)行標(biāo)注,這個(gè)工程量也非常大。但是半監(jiān)督居然可以在僅有1%標(biāo)簽數(shù)據(jù)的情況下進(jìn)行訓(xùn)練,訓(xùn)練效果還超過(guò)了很多同類(lèi)型的算法,所以我感覺(jué)半監(jiān)督在未來(lái)也會(huì)成為主流發(fā)展趨勢(shì),

8. 結(jié)論

本文首先介紹了點(diǎn)云分割相較于圖像分割的優(yōu)勢(shì),然后闡述了一些點(diǎn)云分割必備的基礎(chǔ)知識(shí),最后分別探討了全監(jiān)督、弱監(jiān)督、無(wú)監(jiān)督、半監(jiān)督點(diǎn)云分割算法的網(wǎng)絡(luò)架構(gòu)和基本原理。其中,全監(jiān)督算法精度最高,但要求的數(shù)據(jù)量和標(biāo)簽也很大。無(wú)監(jiān)督往往是依靠環(huán)境中的某種特殊假設(shè)進(jìn)行訓(xùn)練,在特殊場(chǎng)景下會(huì)非常高效。弱監(jiān)督和半監(jiān)督在很少的數(shù)據(jù)標(biāo)注條件下,達(dá)到了和全監(jiān)督幾乎相當(dāng)?shù)木?。筆者認(rèn)為,在未來(lái),弱監(jiān)督和半監(jiān)督是點(diǎn)云分割領(lǐng)域的重要發(fā)展趨勢(shì)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40345
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24590
  • 點(diǎn)云
    +關(guān)注

    關(guān)注

    0

    文章

    58

    瀏覽量

    3773

原文標(biāo)題:點(diǎn)云分割訓(xùn)練哪家強(qiáng)?監(jiān)督,弱監(jiān)督,無(wú)監(jiān)督還是半監(jiān)督?

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    語(yǔ)義分割25種損失函數(shù)綜述和展望

    本綜述提供了對(duì)25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類(lèi)法,并詳細(xì)審查了這些損失函數(shù)如何在圖像分割中被定制和利用,強(qiáng)調(diào)了它們的重要特征和應(yīng)用,并進(jìn)行了系統(tǒng)
    的頭像 發(fā)表于 10-22 08:04 ?26次閱讀
    語(yǔ)義<b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望

    畫(huà)面分割器怎么調(diào)試

    畫(huà)面分割器,通常指的是視頻畫(huà)面分割器,它是一種可以將一個(gè)視頻信號(hào)分割成多個(gè)小畫(huà)面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多畫(huà)面顯示等場(chǎng)景。調(diào)試畫(huà)面分割器是一個(gè)技術(shù)性很強(qiáng)的工作,需
    的頭像 發(fā)表于 10-17 09:32 ?148次閱讀

    畫(huà)面分割器怎么連接

    器的基本原理 畫(huà)面分割器的工作原理是通過(guò)數(shù)字信號(hào)處理技術(shù),將多個(gè)視頻信號(hào)源(如攝像頭、DVR等)的圖像數(shù)據(jù)進(jìn)行處理,然后在一個(gè)監(jiān)視器上以分割的形式顯示出來(lái)。這些分割可以是1畫(huà)面、4畫(huà)面
    的頭像 發(fā)表于 10-17 09:29 ?124次閱讀

    圖像語(yǔ)義分割的實(shí)用性是什么

    什么是圖像語(yǔ)義分割 圖像語(yǔ)義分割是一種將圖像中的所有像素點(diǎn)按照其語(yǔ)義類(lèi)別進(jìn)行分類(lèi)的任務(wù)。與傳統(tǒng)的圖像
    的頭像 發(fā)表于 07-17 09:56 ?296次閱讀

    圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

    圖像分割和語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念,它們?cè)?b class='flag-5'>圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像
    的頭像 發(fā)表于 07-17 09:55 ?515次閱讀

    圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

    圖像分割與目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要任務(wù),它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而,盡管它們?cè)谀承┓矫嬗邢嗨浦?,但它們的目?biāo)、方法和應(yīng)用場(chǎng)景有很大的不同。本文將介紹圖像分割
    的頭像 發(fā)表于 07-17 09:53 ?833次閱讀

    圖像分割與語(yǔ)義分割中的CNN模型綜述

    圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在
    的頭像 發(fā)表于 07-09 11:51 ?493次閱讀

    機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

    機(jī)器人視覺(jué)技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程,這些區(qū)域或?qū)ο缶哂心撤N共同的特征,如顏
    的頭像 發(fā)表于 07-09 09:31 ?328次閱讀

    機(jī)器人視覺(jué)技術(shù)中圖像分割方法有哪些

    機(jī)器人視覺(jué)技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支,它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割是機(jī)器人視覺(jué)技術(shù)中的一個(gè)重要環(huán)節(jié),它的目標(biāo)是從一幅圖像中將目標(biāo)物體與背景分離出來(lái),以
    的頭像 發(fā)表于 07-04 11:34 ?597次閱讀

    改進(jìn)棉花根系圖像分割方法

    棉花是錦葵科棉屬植物,棉花生產(chǎn)的纖維是我國(guó)各類(lèi)衣服、家具布和工業(yè)用布的材料,目前我國(guó)的棉花產(chǎn)量也非常高,主要以新疆地區(qū)為主。根系是植物組成的重要部分,其生長(zhǎng)發(fā)育至關(guān)重要。 根系圖像分割是根系表型分析
    的頭像 發(fā)表于 01-18 16:18 ?250次閱讀

    【愛(ài)芯派 Pro 開(kāi)發(fā)板試用體驗(yàn)】+ 圖像分割和填充的Demo測(cè)試

    測(cè)試的程序是官方提供的交互式圖像分割和修復(fù)(Segment and Inpaint Anything)。所謂交互式圖像分割和修復(fù),就是軟件提供了一個(gè)基于QT6的GUI交互界面,實(shí)現(xiàn)了交
    發(fā)表于 12-26 11:22

    基于YOLOv8的自定義醫(yī)學(xué)圖像分割

    YOLOv8是一種令人驚嘆的分割模型;它易于訓(xùn)練、測(cè)試和部署。在本教程中,我們將學(xué)習(xí)如何在自定義數(shù)據(jù)集上使用YOLOv8。但在此之前,我想告訴你為什么在存在其他優(yōu)秀的分割模型時(shí)應(yīng)該使用YOLOv8呢?
    的頭像 發(fā)表于 12-20 10:51 ?674次閱讀
    基于YOLOv8的自定義醫(yī)學(xué)<b class='flag-5'>圖像</b><b class='flag-5'>分割</b>

    三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)

    MasQCLIP在開(kāi)放詞匯實(shí)例分割、語(yǔ)義分割和全景分割三項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA,漲點(diǎn)非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與
    的頭像 發(fā)表于 12-12 11:23 ?691次閱讀
    三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用<b class='flag-5'>圖像</b><b class='flag-5'>分割</b>新網(wǎng)絡(luò)

    基于深度學(xué)習(xí)的3D點(diǎn)實(shí)例分割方法

    3D實(shí)例分割(3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問(wèn)題。給定由點(diǎn)云表示的 3D 場(chǎng)景,我們尋求為每個(gè)點(diǎn)分配語(yǔ)義類(lèi)和唯一的實(shí)例標(biāo)簽。 3DIS 是一項(xiàng)重要的 3D 感知任務(wù),在自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域有著廣泛的應(yīng)用,其中
    發(fā)表于 11-13 10:34 ?1921次閱讀
    基于深度學(xué)習(xí)的3D<b class='flag-5'>點(diǎn)</b><b class='flag-5'>云</b>實(shí)例<b class='flag-5'>分割</b>方法

    機(jī)器視覺(jué)圖像分割的方法有哪些?

    現(xiàn)有的圖像分割方法主要分以下幾類(lèi):基于閾值(threshold)的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的
    發(fā)表于 11-02 10:26 ?1032次閱讀
    機(jī)器視覺(jué)<b class='flag-5'>圖像</b><b class='flag-5'>分割</b>的方法有哪些?