水野优香的AV在线一区二区,麻豆安全网址入口,99久久精品免费看国产

0. 筆者個(gè)人體會(huì)

近年來(lái)，自動(dòng)駕駛領(lǐng)域的各項(xiàng)下游任務(wù)基本上都要求了對(duì)場(chǎng)景的語(yǔ)義理解，比如自動(dòng)駕駛車(chē)輛要能夠理解哪個(gè)是路面、哪個(gè)是交通燈、哪個(gè)是行人、哪個(gè)是樹(shù)木，因此點(diǎn)云分割的作用就不言而喻。

但隨著Transformer模型的大火，用于點(diǎn)云分割的深度神經(jīng)網(wǎng)絡(luò)的參數(shù)量越來(lái)越龐大，動(dòng)不動(dòng)就上億參數(shù)。想要訓(xùn)練如此龐大的模型，除了需要足夠強(qiáng)的GPU外，還需要大量的標(biāo)簽和數(shù)據(jù)。數(shù)據(jù)很容易得到，64線的激光雷達(dá)一幀可以打出十幾萬(wàn)個(gè)點(diǎn)云，現(xiàn)有的雷達(dá)數(shù)據(jù)集也不少了。但標(biāo)簽?zāi)?？給點(diǎn)云打過(guò)label的人都知道這個(gè)過(guò)程有多繁瑣（haaaaa）。

由此，點(diǎn)云分割模型便出現(xiàn)了各種各樣的訓(xùn)練范式，主要包括有監(jiān)督、弱監(jiān)督、無(wú)監(jiān)督以及半監(jiān)督。那么哪種訓(xùn)練方法才是最優(yōu)的？顯然這個(gè)問(wèn)題在不同場(chǎng)景下有不同的答案。本文將帶領(lǐng)讀者閱讀幾種主流的頂會(huì)框架，探討不同訓(xùn)練方法的基本原理。當(dāng)然筆者水平有限，若有理解不當(dāng)?shù)牡胤?，歡迎大家一起探討，共同學(xué)習(xí)！

劃重點(diǎn)，本文提到的算法都是開(kāi)源的！文末附代碼鏈接！各位讀者可在現(xiàn)有模型的基礎(chǔ)上設(shè)計(jì)自己的點(diǎn)云分割模型。

1. 點(diǎn)云分割相較圖像分割的優(yōu)勢(shì)是啥？

自動(dòng)駕駛領(lǐng)域的下游任務(wù)，我認(rèn)為主要包括目標(biāo)檢測(cè)、語(yǔ)義分割、實(shí)例分割和全景分割。其中目標(biāo)檢測(cè)是指在區(qū)域中提取目標(biāo)的候選框并分類(lèi)，語(yǔ)義分割是對(duì)區(qū)域中不同類(lèi)別的物體進(jìn)行區(qū)域性劃分，實(shí)例分割是將每個(gè)類(lèi)別進(jìn)一步細(xì)化為單獨(dú)的實(shí)例，全景分割則要求對(duì)區(qū)域中的每一個(gè)像素/點(diǎn)云都進(jìn)行分類(lèi)。

因?yàn)閳D像中存在大量且豐富的紋理信息，且相機(jī)相較于雷達(dá)很便宜，所以對(duì)圖像進(jìn)行分割非常容易。近年來(lái)也涌現(xiàn)了一大批圖像語(yǔ)義分割的深度模型，比如我們所熟知的ViT、TransUNet、YOLOP等等。各自架構(gòu)層出不窮，不停的在各種排行榜上提點(diǎn)，似乎圖像語(yǔ)義分割已經(jīng)非常完美。

那么為啥還要對(duì)雷達(dá)點(diǎn)云進(jìn)行分割呢？

主要有三個(gè)原因：

（1）激光雷達(dá)可以獲得絕對(duì)尺度。

我們知道單目圖像是無(wú)法獲得絕對(duì)尺度的，并且自動(dòng)駕駛汽車(chē)在長(zhǎng)時(shí)間運(yùn)行過(guò)程中也會(huì)發(fā)生尺度漂移問(wèn)題。雖然現(xiàn)有的一些方法在嘗試從單目圖像中恢復(fù)出絕對(duì)尺度，但基本上也都不太準(zhǔn)確。這就導(dǎo)致了單純從圖像中提取出來(lái)的語(yǔ)義信息，很難直接應(yīng)用于軌跡規(guī)劃、避障、巡航等自動(dòng)駕駛?cè)蝿?wù)。

（2）激光雷達(dá)對(duì)強(qiáng)/弱光線非常魯棒

視覺(jué)語(yǔ)義分割非常受光照和惡劣天氣影響，在過(guò)強(qiáng)、過(guò)弱、模糊等光線條件下，分割結(jié)果往往會(huì)出現(xiàn)很?chē)?yán)重的畸變。但對(duì)于自動(dòng)駕駛?cè)蝿?wù)來(lái)說(shuō)，惡劣天氣顯然是無(wú)法避免的。

（3）激光雷達(dá)可以對(duì)環(huán)境進(jìn)行3D感知

我們希望自動(dòng)駕駛汽車(chē)能夠?qū)χ車(chē)恼w環(huán)境進(jìn)行全方位的感知，這對(duì)于激光雷達(dá)來(lái)說(shuō)很容易。但對(duì)于圖像來(lái)說(shuō)就很難了，僅僅依靠單目圖像很難恢復(fù)出完整的環(huán)境。依靠環(huán)視相機(jī)進(jìn)行BEV感知的話也會(huì)帶來(lái)像素畸變問(wèn)題。

2. 都用啥數(shù)據(jù)集？

這里介紹幾個(gè)主流的點(diǎn)云分割數(shù)據(jù)集，用于模型的訓(xùn)練和評(píng)估。

2.1 nuScenes-Lidarseg數(shù)據(jù)集

數(shù)據(jù)集鏈接：https://www.nuscenes.org/nuscenes#lidarseg（注意總文件有293G）

nuScenes數(shù)據(jù)集是由Motional公司在2019年3月發(fā)布的用于自動(dòng)駕駛的共有大型數(shù)據(jù)集。數(shù)據(jù)集來(lái)源于波士頓和新加坡采集的1000個(gè)駕駛場(chǎng)景，每個(gè)場(chǎng)景選取了20秒長(zhǎng)的視頻，共計(jì)大約15小時(shí)的駕駛數(shù)據(jù)。場(chǎng)景選取時(shí)充分考慮多樣化的駕駛操作、交通情況和意外情況等，例如不同地點(diǎn)、天氣條件、車(chē)輛類(lèi)型、植被、道路標(biāo)和駕駛規(guī)則等。

完整的nuScenes數(shù)據(jù)集包括大約140萬(wàn)個(gè)圖像、40萬(wàn)個(gè)激光雷達(dá)點(diǎn)云、140萬(wàn)個(gè)雷達(dá)掃描和4萬(wàn)個(gè)關(guān)鍵幀中的140萬(wàn)個(gè)對(duì)象邊界框。其傳感器包括6個(gè)攝像頭、1個(gè)32線激光雷達(dá)、5個(gè)毫米波雷達(dá)、GPS和IMU，如下圖所示。2020年7月發(fā)布的nuScenes-lidarseg數(shù)據(jù)集，增加了激光雷達(dá)點(diǎn)云的語(yǔ)義分割標(biāo)注，涵蓋了23個(gè)前景類(lèi)和9個(gè)背景類(lèi)。nuScenes-lidarseg在40萬(wàn)個(gè)點(diǎn)云和1000個(gè)場(chǎng)景（850個(gè)用于訓(xùn)練和驗(yàn)證的場(chǎng)景，150個(gè)用于測(cè)試的場(chǎng)景）中包含14億個(gè)注釋點(diǎn)。

2.2 SemanticKITTI數(shù)據(jù)集

數(shù)據(jù)集地址：http://www.semantic-kitti.org/index.html

SemanticKITTI數(shù)據(jù)集是一個(gè)基于KITTI Vision Benchmark里程計(jì)數(shù)據(jù)集的大型戶(hù)外點(diǎn)云數(shù)據(jù)集，顯示了市中心的交通、住宅區(qū)，以及德國(guó)卡爾斯魯厄周?chē)母咚俟穲?chǎng)景和鄉(xiāng)村道路。原始里程計(jì)數(shù)據(jù)集由22個(gè)序列組成，作者將序列00到10拆分為訓(xùn)練集，將11到21拆分為測(cè)試集，并且為了與原始基準(zhǔn)保持一致，作者對(duì)訓(xùn)練和測(cè)試集采用相同的劃分，采用和KITTI數(shù)據(jù)集相同的標(biāo)定方法，這使得該數(shù)據(jù)集和KITTI數(shù)據(jù)集等數(shù)據(jù)集可以通用。

SemanticKITTI數(shù)據(jù)集作者提供了精確的序列掃描注釋?zhuān)⑶以邳c(diǎn)注釋中顯示了前所未有的細(xì)節(jié)，包含28個(gè)類(lèi)。

2.3 ScribbleKITTI數(shù)據(jù)集

這個(gè)數(shù)據(jù)集很新，是CVPR2022 Oral的成果。

論文鏈接：https://arxiv.org/abs/2203.08537

數(shù)據(jù)集鏈接：http://github.com/ouenal/scribblekitti

ScribbleKITTI數(shù)據(jù)集希望通過(guò)利用弱監(jiān)督（weak supervision）來(lái)實(shí)現(xiàn)3D語(yǔ)義分割方法，首次提出了使用涂鴉（scribbles）對(duì)雷達(dá)點(diǎn)云進(jìn)行標(biāo)注。但這也導(dǎo)致那些包含邊緣信息的未標(biāo)注點(diǎn)并未被使用，且由于缺乏大量標(biāo)注點(diǎn)（該方法只使用8%的標(biāo)注點(diǎn)）的數(shù)據(jù)，影響了具有長(zhǎng)尾分布的類(lèi)置信度，最終使得模型性能有所下降。

因此，ScribbleKITTI還提出了一個(gè)額外的pipeline，用以減少這種性能差距。該pipeline由三個(gè)獨(dú)立的部分組成，可以與任何LiDAR語(yǔ)義分割模型相結(jié)合。論文代碼采用Cylinder3D模型，在只使用8%標(biāo)注的情況下，可達(dá)到95.7%的全監(jiān)督性能。

論文提出的pipeline可分為訓(xùn)練、偽標(biāo)簽和蒸餾這三個(gè)階段：在訓(xùn)練期間，首先通過(guò)PLS來(lái)對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)，再訓(xùn)練mean te acher，這有利于后面生成更高質(zhì)量的偽標(biāo)簽。在偽標(biāo)簽階段，通過(guò)CRB來(lái)產(chǎn)生目標(biāo)標(biāo)簽，降低由于點(diǎn)云自身屬性降低生成偽標(biāo)簽的質(zhì)量。在蒸餾階段，通過(guò)前面生成的偽標(biāo)簽再對(duì)mean teacher進(jìn)行訓(xùn)練。

3. 雷達(dá)點(diǎn)云表征

深度學(xué)習(xí)模型都需要一個(gè)規(guī)范化的數(shù)據(jù)表征，才能進(jìn)行合理的特征提取和融合。對(duì)于圖像來(lái)說(shuō)，是一個(gè)非常規(guī)整的2D表征，即每個(gè)像素位置都是固定的，這有利于模型訓(xùn)練和測(cè)試。但對(duì)于3D點(diǎn)云來(lái)說(shuō)，每幀點(diǎn)云有十幾萬(wàn)個(gè)點(diǎn)，雜亂無(wú)章的點(diǎn)云必然不利于模型訓(xùn)練。因此需要對(duì)雷達(dá)點(diǎn)云進(jìn)行合理表征。

雷達(dá)點(diǎn)云主要的表征模式有四種：

（1） 2D Range View表征

非常接近圖像，將點(diǎn)云投影到平面，直接進(jìn)行2D表征，得到x、y坐標(biāo)。有時(shí)投影過(guò)程中還會(huì)考慮點(diǎn)云強(qiáng)度、深度以及每個(gè)方格是否有點(diǎn)云。網(wǎng)絡(luò)輸入也就是2D Range View，首先提取特征，然后進(jìn)行特征融合，最后根據(jù)不同的分割頭進(jìn)行語(yǔ)義訓(xùn)練。

（2） 2D BEV表征

對(duì)于很多自動(dòng)駕駛場(chǎng)景，往往是x和y坐標(biāo)范圍有幾十米上百米，但z方向的坐標(biāo)只有幾米。因此有些表征就直接省略掉z方向的表達(dá)，通過(guò)俯視圖得到極坐標(biāo)表征。

（3） 3D Cylinder Voxel表征

在點(diǎn)云z方向進(jìn)行Cylinder的劃分，是一種3D描述，典型代表就是Cylinder3D。注意為什么要用Cylinder來(lái)表征而不是其他正方體呢？這是因?yàn)辄c(diǎn)云分布的密度是不一樣的，在自車(chē)周?chē)狞c(diǎn)云密度很大，在周?chē)狞c(diǎn)云密度很小。通過(guò)這種不規(guī)則的劃分就更有利于特征提取。

（4）混合表征

顯然每種表征方法都有各自的特點(diǎn)和優(yōu)劣，那么有些文章就將不同的表征模式進(jìn)行混合，進(jìn)而得到更強(qiáng)的表征。具體執(zhí)行過(guò)程中會(huì)先通過(guò)不同的支路單獨(dú)進(jìn)行特征提取，之后進(jìn)行特征融合并輸出頭。

而針對(duì)不同的表征，也有不同的操作。對(duì)于3D表征來(lái)說(shuō)，主要是Conv3d和SparseConv，對(duì)于2D表征來(lái)說(shuō)，主要是Conv2d和線性Linear。對(duì)于直接將點(diǎn)作為輸入的一維表征，使用Conv1d和線性Linear。

4. 全監(jiān)督算法

華南理工大學(xué)今年11月在arXiv上傳了論文“Superpoint Transformer for 3D Scene Instance Segmentation”，基于Transformer構(gòu)建了一個(gè)新的點(diǎn)云分割框架，名為SPFormer。具體來(lái)說(shuō)，作者提出一種基于Superpoint Transformer的新型端到端三維實(shí)例分割方法，它將點(diǎn)云中的隱特征分組為超點(diǎn)，并通過(guò)查詢(xún)向量直接預(yù)測(cè)實(shí)例，而不依賴(lài)目標(biāo)檢測(cè)或語(yǔ)義分割的結(jié)果。

SPFormer其實(shí)針對(duì)的不是自動(dòng)駕駛場(chǎng)景，它主要是在ScanNet和S3DIS這兩個(gè)室內(nèi)數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)估。感覺(jué)最近很少有自動(dòng)駕駛場(chǎng)景的全監(jiān)督算法了，主要還是因?yàn)閷?duì)數(shù)據(jù)量和標(biāo)注要求太大。

這個(gè)框架的關(guān)鍵步驟是一個(gè)帶有Transformer的新型查詢(xún)解碼器，它可以通過(guò)超點(diǎn)交叉關(guān)注機(jī)制捕捉實(shí)例信息并生成實(shí)例的超點(diǎn)掩碼。通過(guò)基于超點(diǎn)掩碼的雙點(diǎn)匹配，SPFormer可以實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練，而不需要中間的聚合步驟，這就加速了網(wǎng)絡(luò)的發(fā)展。

SPFormer的結(jié)果也很漂亮，在ScanNetv2 hidden上的mAP達(dá)到了54.9%，比之前最好的結(jié)果高出4.3%。對(duì)于具體的18個(gè)類(lèi)別，SPFormer在其中的8個(gè)類(lèi)別上取得了最高的AP得分。特別是在counter類(lèi)別中，SPFormer超過(guò)了之前最好的AP分?jǐn)?shù)10%以上。

總結(jié)一下，全監(jiān)督算法的精度應(yīng)該是最高的，因?yàn)榻邮芰送耆臉?biāo)簽訓(xùn)練，但是對(duì)數(shù)據(jù)量和標(biāo)注的要求越來(lái)越大。

5. 弱監(jiān)督算法

感覺(jué)ScribbleKITTI中提出的弱監(jiān)督Pipeline非常妙了，可以與任何LiDAR語(yǔ)義分割模型相結(jié)合，這里再回顧一下。

這里再介紹一個(gè)基于雷達(dá)引導(dǎo)的圖像弱監(jiān)督分割算法，感覺(jué)很有意思：

是由北京理工大學(xué)和上海AI Lab聯(lián)合提出的LWSIS，今年12月7日上傳到arXiv，錄用到了2023 AAAI，可以說(shuō)非常新！論文題目是“LWSIS： LiDAR-guidedWeakly Supervised Instance Segmentation for Autonomous Driving”。

LWSIS利用現(xiàn)有的點(diǎn)云和3D框，作為訓(xùn)練2D圖像實(shí)例分割模型的自然弱監(jiān)督。LWSIS不僅在訓(xùn)練過(guò)程中利用了多模態(tài)數(shù)據(jù)中的互補(bǔ)信息，而且顯著降低了稠密二維掩膜的標(biāo)注成本。具體來(lái)說(shuō)，LWSIS包括兩個(gè)關(guān)鍵模塊：點(diǎn)標(biāo)簽分配（PLA）和基于圖的一致性正則化（GCR）。前者旨在將三維點(diǎn)云自動(dòng)分配為二維逐點(diǎn)標(biāo)簽，而后者通過(guò)增強(qiáng)多模態(tài)數(shù)據(jù)的幾何和外觀一致性來(lái)進(jìn)一步優(yōu)化預(yù)測(cè)。此外，作者對(duì)nuScenes進(jìn)行了二次實(shí)例分割標(biāo)注，命名為nuInsSeg，以鼓勵(lì)多模態(tài)感知任務(wù)的進(jìn)一步研究。

在nuInsSeg和大規(guī)模Waymo上的大量實(shí)驗(yàn)表明，LWSIS在訓(xùn)練過(guò)程中只涉及三維數(shù)據(jù)，可以顯著改進(jìn)現(xiàn)有的弱監(jiān)督分割模型。此外，LWSIS還可以與Point Painting等3D目標(biāo)檢測(cè)器結(jié)合，提升3D檢測(cè)性能。

總結(jié)一下，感覺(jué)弱監(jiān)督算法是現(xiàn)在的一個(gè)主流發(fā)展趨勢(shì)。也就是說(shuō)，放棄標(biāo)注復(fù)雜的目標(biāo)，轉(zhuǎn)而去用一些容易得到的表情來(lái)引導(dǎo)訓(xùn)練。感覺(jué)這種思想非常巧妙！當(dāng)然用來(lái)引導(dǎo)的標(biāo)簽不一定要是涂鴉或者點(diǎn)云，也可以是其他形式，讀者可以由此設(shè)計(jì)自己的弱監(jiān)督分割網(wǎng)絡(luò)。

6. 無(wú)監(jiān)督算法

點(diǎn)云分割算法是否可以完全不依賴(lài)標(biāo)簽？

這似乎是個(gè)很難回答的問(wèn)題，沒(méi)有標(biāo)簽，也就完全無(wú)法知道物體的類(lèi)別先驗(yàn)，就更加無(wú)法進(jìn)行訓(xùn)練。

但香港理工大學(xué)的2022 NeurIPS論文“OGC： Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds”似乎回答了這個(gè)問(wèn)題。作者的思路也很巧妙：一輛汽車(chē)上的所有點(diǎn)一起向前運(yùn)動(dòng)，而場(chǎng)景中其他的點(diǎn)則保持靜止。那么理論上，我們可以基于每個(gè)點(diǎn)的運(yùn)動(dòng)，將場(chǎng)景中屬于汽車(chē)的點(diǎn)和其他點(diǎn)分割開(kāi)，實(shí)現(xiàn)右圖中的效果。

OGC是一種通用的、能分割多個(gè)物體的無(wú)監(jiān)督3D物體分割方法，這種方法在完全無(wú)標(biāo)注的點(diǎn)云序列上進(jìn)行訓(xùn)練，從運(yùn)動(dòng)信息中學(xué)習(xí)3D物體分割。經(jīng)過(guò)訓(xùn)練后，能夠直接在單幀點(diǎn)云上進(jìn)行物體分割。OGC框架的核心是：以物體在運(yùn)動(dòng)中保持幾何形狀一致作為約束條件，設(shè)計(jì)一組損失函數(shù)，能夠有效地利用運(yùn)動(dòng)信息為物體分割提供監(jiān)督信號(hào)。

OGC以單點(diǎn)云作為輸入，并直接在一次向前傳遞中估計(jì)多個(gè)對(duì)象遮罩。OGC利用連續(xù)點(diǎn)云的潛在動(dòng)態(tài)作為監(jiān)督信號(hào)。具體架構(gòu)由三個(gè)主要組件組成：（1）目標(biāo)分割網(wǎng)絡(luò)提取每一點(diǎn)的特征，并從單一點(diǎn)云估計(jì)所有對(duì)象掩模如橙色塊所示；（2）輔助自監(jiān)督網(wǎng)絡(luò)來(lái)估計(jì)來(lái)自一對(duì)點(diǎn)云的每點(diǎn)運(yùn)動(dòng)矢量；3）一系列損失函數(shù)充分利用運(yùn)動(dòng)動(dòng)態(tài)來(lái)監(jiān)控目標(biāo)分割骨干。對(duì)于前兩個(gè)組件，實(shí)際上可以靈活地采用現(xiàn)有的提取器和自監(jiān)督運(yùn)動(dòng)估計(jì)器。

總結(jié)一下，無(wú)監(jiān)督算法現(xiàn)在應(yīng)該還比較少。OGC是利用了運(yùn)動(dòng)約束，可以很巧妙得訓(xùn)練點(diǎn)云分割網(wǎng)絡(luò)。但是靜止的物體呢？比如樹(shù)木、交通燈、建筑。未來(lái)應(yīng)該還會(huì)有很多大神提出更多巧妙的思路，讓我們拭目以待。

7. 半監(jiān)督算法

全監(jiān)督和弱監(jiān)督都要求對(duì)每幀點(diǎn)云都進(jìn)行標(biāo)注，只是弱監(jiān)督標(biāo)注的少，無(wú)監(jiān)督不需要標(biāo)注。那么半監(jiān)督呢？這里半監(jiān)督指的是，一部分的點(diǎn)云需要進(jìn)行標(biāo)注，另外一部分不需要任何標(biāo)注。即，在充分利用到現(xiàn)有的已標(biāo)注數(shù)據(jù)的基礎(chǔ)上，結(jié)合便于收集的大量無(wú)標(biāo)注數(shù)據(jù)，訓(xùn)練泛化能力優(yōu)異的模型。

本文介紹的算法是新加坡國(guó)立大學(xué)今年6月提出的LaserMix for Semi-Supervised LiDAR Semantic Segmentation。

這項(xiàng)工作的思路非常巧妙！作者發(fā)現(xiàn)，無(wú)論是靜態(tài)背景還是動(dòng)態(tài)前景對(duì)象，都在LiDAR點(diǎn)云場(chǎng)景中表現(xiàn)出很強(qiáng)的結(jié)構(gòu)先驗(yàn)，而這種先驗(yàn)可以很好地由LiDAR的激光束所表征。以最常見(jiàn)的旋轉(zhuǎn)型LiDAR傳感器為例，其以自車(chē)為中心向周?chē)飨蛲缘匕l(fā)射具有固定傾角的激光射線，由于不同類(lèi)別本身具有特殊的分布，由激光射線探測(cè)并返回的點(diǎn)便能夠較為精準(zhǔn)地捕捉到這些不同類(lèi)別所蘊(yùn)藏的結(jié)構(gòu)化信息。

例如，road類(lèi)在靠近自車(chē)周?chē)膮^(qū)域中大量分布，主要由位于下部的射線所收集；vegetation類(lèi)分布在遠(yuǎn)離自車(chē)的區(qū)域，主要由位于上部的具有較大正向傾角（inclination）的射線所收集；而car類(lèi)主要分布在LiDAR點(diǎn)云場(chǎng)景的中部區(qū)域，主要由中間的射線所收集。

LaserMix管道有兩個(gè)分支，一個(gè)有標(biāo)注的學(xué)生分支和沒(méi)有標(biāo)注的教師分支。在訓(xùn)練過(guò)程中，一個(gè)batch由一半有標(biāo)簽數(shù)據(jù)和一半無(wú)標(biāo)簽數(shù)據(jù)組成。LaserMix收集來(lái)自學(xué)生和教師的預(yù)測(cè)，并使用預(yù)定義的置信度閾值從教師網(wǎng)絡(luò)的預(yù)測(cè)中生成偽標(biāo)簽。對(duì)于有標(biāo)記數(shù)據(jù)，LaserMix計(jì)算學(xué)生網(wǎng)絡(luò)的預(yù)測(cè)和真實(shí)值之間的交叉熵?fù)p失。對(duì)于無(wú)標(biāo)簽數(shù)據(jù)，LaserMix將每次掃描與隨機(jī)標(biāo)記掃描混合在一起，加上偽標(biāo)記或真值。然后，令學(xué)生對(duì)混合數(shù)據(jù)進(jìn)行預(yù)測(cè)，計(jì)算交叉熵?fù)p失。

LaserMix在Range View和Voxel這兩種點(diǎn)云表征上都進(jìn)行了驗(yàn)證，體現(xiàn)出該方法的普適性和適配性。此外，作者將nuScenes、SemanticKITTI、ScribbleKITTI三個(gè)數(shù)據(jù)集按照1%，10%，20%和50%的有標(biāo)注數(shù)據(jù)比例進(jìn)行了劃分，并認(rèn)為其余數(shù)據(jù)均為未標(biāo)注數(shù)據(jù)。結(jié)果顯示，LaserMix極大地提升了半監(jiān)督條件下的LiDAR分割結(jié)果。無(wú)論是在不同的數(shù)據(jù)集還是不同的LiDAR點(diǎn)云表征下，LaserMix的分割結(jié)果都明顯地超過(guò)了Sup.-only和SOTA的半監(jiān)督學(xué)習(xí)方法。其中Sup.-only代表僅使用有標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練后的結(jié)果，可以理解為該任務(wù)的下界（lower bound）。

總結(jié)一下，半監(jiān)督算法其實(shí)同時(shí)結(jié)合了弱監(jiān)督和監(jiān)督的優(yōu)點(diǎn)。弱監(jiān)督雖然標(biāo)注的簡(jiǎn)單了，但本質(zhì)上還是需要對(duì)每幀數(shù)據(jù)都進(jìn)行標(biāo)注，這個(gè)工程量也非常大。但是半監(jiān)督居然可以在僅有1%標(biāo)簽數(shù)據(jù)的情況下進(jìn)行訓(xùn)練，訓(xùn)練效果還超過(guò)了很多同類(lèi)型的算法，所以我感覺(jué)半監(jiān)督在未來(lái)也會(huì)成為主流發(fā)展趨勢(shì)，

8. 結(jié)論

本文首先介紹了點(diǎn)云分割相較于圖像分割的優(yōu)勢(shì)，然后闡述了一些點(diǎn)云分割必備的基礎(chǔ)知識(shí)，最后分別探討了全監(jiān)督、弱監(jiān)督、無(wú)監(jiān)督、半監(jiān)督點(diǎn)云分割算法的網(wǎng)絡(luò)架構(gòu)和基本原理。其中，全監(jiān)督算法精度最高，但要求的數(shù)據(jù)量和標(biāo)簽也很大。無(wú)監(jiān)督往往是依靠環(huán)境中的某種特殊假設(shè)進(jìn)行訓(xùn)練，在特殊場(chǎng)景下會(huì)非常高效。弱監(jiān)督和半監(jiān)督在很少的數(shù)據(jù)標(biāo)注條件下，達(dá)到了和全監(jiān)督幾乎相當(dāng)?shù)木?。筆者認(rèn)為，在未來(lái)，弱監(jiān)督和半監(jiān)督是點(diǎn)云分割領(lǐng)域的重要發(fā)展趨勢(shì)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1078

瀏覽量
40345
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24590
點(diǎn)云

點(diǎn)云

+關(guān)注

關(guān)注
0

文章
58

瀏覽量
3773

原文標(biāo)題：點(diǎn)云分割訓(xùn)練哪家強(qiáng)？監(jiān)督，弱監(jiān)督，無(wú)監(jiān)督還是半監(jiān)督？

文章出處：【微信號(hào)：3D視覺(jué)工坊，微信公眾號(hào)：3D視覺(jué)工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

語(yǔ)義分割25種損失函數(shù)綜述和展望

本綜述提供了對(duì)25種用于圖像分割的損失函數(shù)的全面且統(tǒng)一的回顧。我們提供了一種新穎的分類(lèi)法，并詳細(xì)審查了這些損失函數(shù)如何在圖像分割中被定制和利用，強(qiáng)調(diào)了它們的重要特征和應(yīng)用，并進(jìn)行了系統(tǒng)

發(fā)表于 10-22 08:04 ?26次閱讀

語(yǔ)義<b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望

畫(huà)面分割器怎么調(diào)試

畫(huà)面分割器，通常指的是視頻畫(huà)面分割器，它是一種可以將一個(gè)視頻信號(hào)分割成多個(gè)小畫(huà)面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會(huì)議、多畫(huà)面顯示等場(chǎng)景。調(diào)試畫(huà)面分割器是一個(gè)技術(shù)性很強(qiáng)的工作，需

發(fā)表于 10-17 09:32 ?148次閱讀

畫(huà)面分割器怎么連接

器的基本原理畫(huà)面分割器的工作原理是通過(guò)數(shù)字信號(hào)處理技術(shù)，將多個(gè)視頻信號(hào)源（如攝像頭、DVR等）的圖像數(shù)據(jù)進(jìn)行處理，然后在一個(gè)監(jiān)視器上以分割的形式顯示出來(lái)。這些分割可以是1畫(huà)面、4畫(huà)面

發(fā)表于 10-17 09:29 ?124次閱讀

圖像語(yǔ)義分割的實(shí)用性是什么

什么是圖像語(yǔ)義分割圖像語(yǔ)義分割是一種將圖像中的所有像素點(diǎn)按照其語(yǔ)義類(lèi)別進(jìn)行分類(lèi)的任務(wù)。與傳統(tǒng)的圖像

發(fā)表于 07-17 09:56 ?296次閱讀

圖像分割和語(yǔ)義分割的區(qū)別與聯(lián)系

圖像分割和語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中兩個(gè)重要的概念，它們?cè)?b class='flag-5'>圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分

發(fā)表于 07-17 09:55 ?515次閱讀

圖像分割與目標(biāo)檢測(cè)的區(qū)別是什么

圖像分割與目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)重要任務(wù)，它們?cè)谠S多應(yīng)用場(chǎng)景中都發(fā)揮著關(guān)鍵作用。然而，盡管它們?cè)谀承┓矫嬗邢嗨浦?，但它們的目?biāo)、方法和應(yīng)用場(chǎng)景有很大的不同。本文將介紹圖像分割

發(fā)表于 07-17 09:53 ?833次閱讀

圖像分割與語(yǔ)義分割中的CNN模型綜述

圖像分割與語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù)，旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的一種核心模型，在

發(fā)表于 07-09 11:51 ?493次閱讀

機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

機(jī)器人視覺(jué)技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程，這些區(qū)域或?qū)ο缶哂心撤N共同的特征，如顏

發(fā)表于 07-09 09:31 ?328次閱讀

機(jī)器人視覺(jué)技術(shù)中圖像分割方法有哪些

機(jī)器人視覺(jué)技術(shù)是人工智能領(lǐng)域的一個(gè)重要分支，它涉及到圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)等多個(gè)學(xué)科。圖像分割是機(jī)器人視覺(jué)技術(shù)中的一個(gè)重要環(huán)節(jié)，它的目標(biāo)是從一幅圖像中將目標(biāo)物體與背景分離出來(lái)，以

發(fā)表于 07-04 11:34 ?597次閱讀

改進(jìn)棉花根系圖像分割方法

棉花是錦葵科棉屬植物，棉花生產(chǎn)的纖維是我國(guó)各類(lèi)衣服、家具布和工業(yè)用布的材料，目前我國(guó)的棉花產(chǎn)量也非常高，主要以新疆地區(qū)為主。根系是植物組成的重要部分，其生長(zhǎng)發(fā)育至關(guān)重要。根系圖像分割是根系表型分析

發(fā)表于 01-18 16:18 ?250次閱讀

【愛(ài)芯派 Pro 開(kāi)發(fā)板試用體驗(yàn)】+ 圖像分割和填充的Demo測(cè)試

測(cè)試的程序是官方提供的交互式圖像分割和修復(fù)（Segment and Inpaint Anything）。所謂交互式圖像分割和修復(fù)，就是軟件提供了一個(gè)基于QT6的GUI交互界面，實(shí)現(xiàn)了交

發(fā)表于 12-26 11:22

基于YOLOv8的自定義醫(yī)學(xué)圖像分割

YOLOv8是一種令人驚嘆的分割模型；它易于訓(xùn)練、測(cè)試和部署。在本教程中，我們將學(xué)習(xí)如何在自定義數(shù)據(jù)集上使用YOLOv8。但在此之前，我想告訴你為什么在存在其他優(yōu)秀的分割模型時(shí)應(yīng)該使用YOLOv8呢？

發(fā)表于 12-20 10:51 ?674次閱讀

三項(xiàng)SOTA！MasQCLIP：開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)

MasQCLIP在開(kāi)放詞匯實(shí)例分割、語(yǔ)義分割和全景分割三項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA，漲點(diǎn)非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM：VINS-Fusion原理精講與

發(fā)表于 12-12 11:23 ?691次閱讀

基于深度學(xué)習(xí)的3D點(diǎn)云實(shí)例分割方法

3D實(shí)例分割（3DIS）是3D領(lǐng)域深度學(xué)習(xí)的核心問(wèn)題。給定由點(diǎn)云表示的 3D 場(chǎng)景，我們尋求為每個(gè)點(diǎn)分配語(yǔ)義類(lèi)和唯一的實(shí)例標(biāo)簽。 3DIS 是一項(xiàng)重要的 3D 感知任務(wù)，在自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域有著廣泛的應(yīng)用，其中

發(fā)表于 11-13 10:34 ?1921次閱讀

機(jī)器視覺(jué)圖像分割的方法有哪些？

現(xiàn)有的圖像分割方法主要分以下幾類(lèi)：基于閾值（threshold）的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的

發(fā)表于 11-02 10:26 ?1032次閱讀

搜索歷史

點(diǎn)云分割相較圖像分割的優(yōu)勢(shì)是啥？

評(píng)論

點(diǎn)云分割相較圖像分割的優(yōu)勢(shì)是啥？