01??BEV感知算法概念?
Bird’s-Eye-View,鳥瞰圖(俯視圖)。BEV感知算法存在許多的優(yōu)勢。
首先,BEV視圖存在遮擋小的優(yōu)點(diǎn),由于視覺的透視效應(yīng),現(xiàn)實(shí)世界的物體在2D圖像中很容易受到其他物體的遮擋,因此,傳統(tǒng)的基于2D的感知方式只能感知可見的目標(biāo),對于被遮擋的部分算法將無能為力。
而在BEV空間內(nèi),時(shí)序信息可以很容易地被融合,算法可以基于先驗(yàn)知識,對被遮擋的區(qū)域進(jìn)行預(yù)測,“腦補(bǔ)”出被遮擋的區(qū)域是否有物體。雖然“腦補(bǔ)”出來的物體固然有“想象”的成分,但對后續(xù)的控制模塊來說,還是有不少益處。
此外,BEV感知算法的尺度變化小,將尺度相對一致的數(shù)據(jù)輸入到網(wǎng)絡(luò)中,可以得到更好的感知結(jié)果。
02??BEV感知算法數(shù)據(jù)集介紹
2.1 kitti-360數(shù)據(jù)集
kitti-360是一個(gè)包含豐富感官信息和完整注釋的大規(guī)模數(shù)據(jù)集。我們記錄了德國卡爾斯魯厄的幾個(gè)郊區(qū),在73.7公里的駕駛距離內(nèi),對應(yīng)超過32萬張圖像和10萬個(gè)激光掃描。我們用粗糙的邊界基元對靜態(tài)和動態(tài)的三維場景元素進(jìn)行注釋,并將這些信息轉(zhuǎn)移到圖像領(lǐng)域,從而為三維點(diǎn)云和二維圖像提供了密集的語義和實(shí)例注釋。
為了收集數(shù)據(jù),旅行車兩邊各配備了一個(gè)180°的魚眼相機(jī),前面一個(gè)90°的透視立體相機(jī)(基線60厘米)。此外,在車頂上安裝了一個(gè)Velodyne HDL-64E和一個(gè)SICK LMS 200激光掃描裝置,采用推桿式配置。這個(gè)裝置與KITTI使用的裝置類似,只是由于額外的魚眼相機(jī)和推帚式激光掃描儀,獲得了一個(gè)完整的360°視野,而KITTI只提供透視圖像和Velodyne激光掃描,垂直視野為26.8°。此外,系統(tǒng)還配備了一個(gè)IMU/GPS定位系統(tǒng)。采集車的傳感器布置如圖所示。
圖1 Kitti-360數(shù)據(jù)集采集車
2.2 nuScenes數(shù)據(jù)集
nuScenes是第一個(gè)提供 自動汽車 全套傳感器數(shù)據(jù)的大型數(shù)據(jù)集,包括了6個(gè)相機(jī)、1個(gè)激光雷達(dá)、5個(gè)毫米波雷達(dá)、以及GPS和IMU。與kitti數(shù)據(jù)集相比,其包含的對象注釋多了7倍多。采集車的傳感器布置如圖所示。
圖2 nuScenes數(shù)據(jù)集采集車模型
03??BEV感知算法分類
基于輸入數(shù)據(jù),將BEV感知研究主要分為三個(gè)部分——BEV Camera、BEV LiDAR和BEV Fusion。下圖描述了BEV 感知家族的概況。具體來說,BEV Camera表示僅有視覺或以視覺為中心的算法,用于從多個(gè)周圍攝像機(jī)進(jìn)行三維目標(biāo)檢測或分割;BEV LiDAR描述了點(diǎn)云輸入的檢測或分割任務(wù);BEV Fusion描述了來自多個(gè)傳感器輸入的融合機(jī)制,例如攝像頭、激光雷達(dá)、全球?qū)Ш叫l(wèi)星系統(tǒng)、里程計(jì)、高清地圖、CAN總線等。
圖3 自動駕駛的基本感知算法
如圖所示,將自主駕駛的基本感知算法(分類、檢測、分割、跟蹤等)分為三個(gè)級別,其中BEV感知的概念位于在中間?;趥鞲衅鬏斎雽?、基本任務(wù)和產(chǎn)品場景的不同組合,某種BEV感知算法可以相應(yīng)表明。例如,M2BEV和BEVFormer屬于視覺BEV方向,用于執(zhí)行包括3D目標(biāo)檢測和BEV地圖分割在內(nèi)的多項(xiàng)任務(wù)。BEVFusion在BEV空間設(shè)計(jì)了一種融合策略,同時(shí)從攝像機(jī)和激光雷達(dá)輸入執(zhí)行3D檢測和跟蹤。
BEV Camrea中的代表之作是BEVFormer。BEVFormer 通過提取環(huán)視相機(jī)采集到的圖像特征,并將提取的環(huán)視特征通過模型學(xué)習(xí)的方式轉(zhuǎn)換到 BEV 空間(模型去學(xué)習(xí)如何將特征從圖像坐標(biāo)系轉(zhuǎn)換到 BEV 坐標(biāo)系),從而實(shí)現(xiàn) 3D 目標(biāo)檢測和地圖分割任務(wù),并取得了 SOTA 的效果。
3.1 BEVFormer 的 Pipeline:
1)Backbone + Neck (ResNet-101-DCN + FPN)提取環(huán)視圖像的多尺度特征;
2)論文提出的 Encoder 模塊(包括 Temporal Self-Attention 模塊和Spatial Cross-Attention 模塊)完成環(huán)視圖像特征向 BEV 特征的建模;
3)類似 Deformable DETR 的 Decoder 模塊完成 3D 目標(biāo)檢測的分類和定位任務(wù);
4)正負(fù)樣本的定義(采用 Transformer 中常用的匈牙利匹配算法,F(xiàn)ocal Loss + L1 Loss 的總損失和最小);
5)損失的計(jì)算(Focal Loss 分類損失 + L1 Loss 回歸損失);
6)反向傳播,更新網(wǎng)絡(luò)模型參數(shù);
圖4 BEVFormer框架圖
BEVFusion算法離不開BEV LiDAR和BEV Camera算法,通常使用一個(gè)fusion模塊進(jìn)行點(diǎn)云和圖像特征的融合。其中BEV Fusion是其中的代表之作。
3.2 BEVFusion的 Pipeline:
1)給定不同的感知輸入,首先應(yīng)用特定于模態(tài)的編碼器來提取其特征;
2)將多模態(tài)特征轉(zhuǎn)換為一個(gè)統(tǒng)一的BEV表征,其同時(shí)保留幾何和語義信息;
3)存在的視圖轉(zhuǎn)換效率瓶頸,可以通過預(yù)計(jì)算和間歇降低來加速BEV池化過程;
4)然后,將基于卷積的BEV編碼器應(yīng)用到統(tǒng)一的BEV特征中,以緩解不同特征之間的局部偏準(zhǔn);
5)最后,添加一些特定任務(wù)頭支持不同的3D場景理解工作。
圖5 BEV Fusion框架圖
04??BEV感知算法的優(yōu)劣
目前業(yè)界基于純視覺的感知、預(yù)測算法研究通常僅針對上述流程中的單個(gè)子問題的image-view方案,如3D目標(biāo)檢測、語義地圖識別或物體運(yùn)動預(yù)測,通過前融合或后融合的方式將不同網(wǎng)絡(luò)的感知結(jié)果進(jìn)行融合。這導(dǎo)致了在搭建整體系統(tǒng)時(shí)只能以線性結(jié)構(gòu)堆疊多個(gè)子模塊。盡管上述方式能夠?qū)崿F(xiàn)問題分解、便于獨(dú)立的學(xué)術(shù)研究,但這種串行架構(gòu)具有幾個(gè)重要的缺陷:
1)上游模塊的模型誤差會不斷向下游傳遞,然而在子問題的獨(dú)立研究中通常以真值作為輸入,這使得累積誤差會顯著影響下游任務(wù)的性能表現(xiàn)。
2)不同子模塊中存在重復(fù)的特征提取、維度轉(zhuǎn)換等運(yùn)算過程,但是串行架構(gòu)無法實(shí)現(xiàn)這些冗余計(jì)算的共享,不利于提升系統(tǒng)的整體效率。
3)無法充分利用時(shí)序信息,一方面,時(shí)序信息可以作為空間信息的補(bǔ)充,更好地檢測當(dāng)前時(shí)刻被遮擋的物體,為定位物體的位置提供更多參考信息。另一方面,時(shí)序信息能夠幫助判斷物體的運(yùn)動狀態(tài),在缺少時(shí)序信息的條件下,基于純視覺的方法幾乎無法有效判斷物體的運(yùn)動速度。
區(qū)別于image-view方案,BEV方案通過多攝像頭或雷達(dá)將視覺信息轉(zhuǎn)換至鳥瞰視角進(jìn)行相關(guān)感知任務(wù),這樣的方案能夠?yàn)樽詣玉{駛感知提供更大的視野并且能夠并行地完成多項(xiàng)感知任務(wù)。同時(shí),BEV感知算法是要將信息融合到BEV空間中來,所以這有利于探索2D到3D的轉(zhuǎn)換過程。
與此同時(shí),BEV感知算法當(dāng)前在3D檢測任務(wù)上,與現(xiàn)有的點(diǎn)云方案有有差距。探索視覺BEV感知算法有利于降低成本。一套LiDAR設(shè)備的成本往往是視覺設(shè)備的10倍,所以視覺BEV是未來的真理,但同時(shí)帶來的巨大數(shù)據(jù)量需要巨大的計(jì)算資源。
審核編輯:黃飛
?
評論
查看更多