0. 引言
雖然近年來無監(jiān)督單目深度學(xué)習(xí)取得了很大的進(jìn)展,但仍然存在一些基本問題。首先,目前的方法存在尺度模糊性問題,因?yàn)榉赐七^程對(duì)于深度和平移來說相當(dāng)于任意尺度因子。其次,光度誤差對(duì)照明變化和移動(dòng)物體敏感。此外,盡管在無監(jiān)督學(xué)習(xí)框架下已經(jīng)為光度誤差圖引入了不確定性,但自我運(yùn)動(dòng)的不確定性度量仍然是重要的。在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics",作者提出了一種感知框架,通過集成視覺和IMU來進(jìn)行真實(shí)尺度估計(jì),算法已經(jīng)開源。
1. 論文信息
2. 摘要
近年來,無監(jiān)督單目深度和自我運(yùn)動(dòng)估計(jì)引起了廣泛的研究關(guān)注。盡管當(dāng)前的方法已經(jīng)達(dá)到了很高的尺度精度,但是由于利用單目序列進(jìn)行訓(xùn)練所固有的尺度模糊性,它們通常不能學(xué)習(xí)真實(shí)的尺度度量。在這項(xiàng)工作中,我們解決了這個(gè)問題,并提出了DynaDepth,一種新的尺度感知框架,集成了視覺和IMU運(yùn)動(dòng)動(dòng)力學(xué)的信息。
具體來說,我們首先提出了IMU光度損失和跨傳感器光度一致性損失,以提供稠密的監(jiān)督和絕對(duì)尺度。為了充分利用來自兩個(gè)傳感器的互補(bǔ)信息,我們進(jìn)一步驅(qū)動(dòng)一個(gè)可微分的以相機(jī)為中心的擴(kuò)展卡爾曼濾波器(EKF),以在觀察視覺測(cè)量時(shí)更新IMU預(yù)積分。
此外,EKF公式使得能夠?qū)W習(xí)自我運(yùn)動(dòng)不確定性測(cè)量,這對(duì)于無監(jiān)督的方法來說不是微不足道的。通過在訓(xùn)練過程中利用IMU,DynaDepth不僅學(xué)習(xí)了絕對(duì)尺度,還提供了更好的泛化能力和對(duì)光照變化和移動(dòng)物體等視覺退化的魯棒性。我們通過在KITTI和Make3D數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)和仿真,驗(yàn)證了DynaDepth的有效性。
3. 算法分析
如圖1所示是作者提出的單目尺度感知深度估計(jì)和自我運(yùn)動(dòng)預(yù)測(cè)方法DynaDepth的概述,該系統(tǒng)在以相機(jī)為中心的擴(kuò)展卡爾曼濾波器(EKF)框架下,將IMU運(yùn)動(dòng)動(dòng)力學(xué)顯式集成到基于視覺的系統(tǒng)中。DynaDepth旨在聯(lián)合訓(xùn)練尺度感知深度網(wǎng)絡(luò)Md,以及融合IMU和相機(jī)信息的自我運(yùn)動(dòng)網(wǎng)絡(luò)Mp。
圖1 DynaDepth概述
DynaDepth通過使用IMU的估計(jì)運(yùn)動(dòng)執(zhí)行反向操作,來構(gòu)建尺度感知的IMU光度損失,并使用基于外觀的光度損失。為了校正由光照變化和運(yùn)動(dòng)物體引起的誤差,作者進(jìn)一步提出了跨傳感器光度一致性損失,分別使用網(wǎng)絡(luò)預(yù)測(cè)和IMU集成自我運(yùn)動(dòng)的合成目標(biāo)視圖。
與積累來自初始幀的重力和速度估計(jì)的經(jīng)典VIO-SLAM系統(tǒng)不同,對(duì)于無監(jiān)督深度估計(jì)方法,這兩個(gè)度量是未知的。為了解決這個(gè)問題,DynaDepth訓(xùn)練兩個(gè)超輕型網(wǎng)絡(luò),這兩個(gè)網(wǎng)絡(luò)將兩個(gè)連續(xù)幀作為輸入,并在訓(xùn)練期間預(yù)測(cè)以相機(jī)為中心的重力和速度。
考慮到IMU和相機(jī)提供兩種互補(bǔ)的獨(dú)立傳感模式,作者進(jìn)一步為DynaDepth導(dǎo)出了一個(gè)可區(qū)分的以相機(jī)為中心的EKF框架,以充分利用這兩種傳感器。當(dāng)從相機(jī)觀察新的自我運(yùn)動(dòng)預(yù)測(cè)時(shí),DynaDepth根據(jù)IMU誤差狀態(tài)和視覺預(yù)測(cè)的協(xié)方差更新IMU預(yù)積分。
這樣一方面可以通過視覺來糾正IMU噪聲偏差,另一方面還提供了一種學(xué)習(xí)預(yù)測(cè)自我運(yùn)動(dòng)的不確定性測(cè)量的方式,這對(duì)于最近出現(xiàn)的將深度學(xué)習(xí)納入經(jīng)典SLAM系統(tǒng)以實(shí)現(xiàn)學(xué)習(xí)、幾何和優(yōu)化的協(xié)同作用的研究方法是有益的。
綜上所述,作者所做工作的主要貢獻(xiàn)如下:
(1) 提出了IMU光度損失和交叉?zhèn)鞲衅鞴舛纫恢滦該p失,以提供稠密的監(jiān)督和絕對(duì)尺度;
(2) 為傳感器融合推導(dǎo)了一個(gè)可微分的以相機(jī)為中心的EKF框架;
(3) 通過在KITTI和Make3D數(shù)據(jù)集上的大量實(shí)驗(yàn)和仿真證明了DynaDepth有利于:<1>絕對(duì)尺度的學(xué)習(xí);<2>泛化能力;<3>對(duì)諸如照明變化和移動(dòng)物體的視覺退化的魯棒性;<4>自我運(yùn)動(dòng)不確定性度量的學(xué)習(xí)。
3.1 IMU光度損失
如果直接將訓(xùn)練損失寫為IMU預(yù)積分項(xiàng)上的殘差,那么就只能為自我運(yùn)動(dòng)網(wǎng)絡(luò)提供稀疏的監(jiān)督,作者提出了一種IMU光度損失:
其中K和N是相機(jī)的固有特性,yi和zi是圖像中的像素坐標(biāo)系以及由Md預(yù)測(cè)的深度,I(yi)是yi處的像素強(qiáng)度,ψ()表示深度歸一化函數(shù),SSIM()表示結(jié)構(gòu)相似性索引。
3.2 交叉?zhèn)鞲衅鞴舛纫恢滦該p失
作者進(jìn)一步提出跨傳感器光度一致性損失來對(duì)齊IMU預(yù)積分和Mp的自我運(yùn)動(dòng),而不是直接比較。對(duì)于自我運(yùn)動(dòng),作者使用反向圖像之間的光度誤差,這為Md和Mp提供了更密集的監(jiān)督信號(hào):
此外,DynaDepth中的總訓(xùn)練損失Ltotal還包括基于視覺的光度損失Lvis、平滑度損失Ls以及弱L2范數(shù)損失Lvg:
3.3 以相機(jī)為中心的EKF融合框架
為了充分利用互補(bǔ)的IMU和相機(jī),作者提出了一個(gè)以相機(jī)為中心的EKF框架。與之前將EKF集成到基于深度學(xué)習(xí)的框架中以處理IMU數(shù)據(jù)的方法不同,DynaDepth不需要真實(shí)的自我運(yùn)動(dòng)和速度來獲得每個(gè)IMU幀的對(duì)齊速度和重力,而是提出{Mv,Mg}來預(yù)測(cè)。在論文中,作者推導(dǎo)了該EKF的傳播和更新過程。
EKF傳播:設(shè)ck表示時(shí)刻tk的相機(jī)幀,bt表示tk到tk+1之間的IMU幀,誤差狀態(tài)為:
EKF利用一階泰勒近似將狀態(tài)轉(zhuǎn)移模型在每個(gè)時(shí)間步線性化進(jìn)行傳播,誤差狀態(tài)的連續(xù)時(shí)間傳播模型為:δx*bt = Fδxbt + Gn,其中F和G為:
EKF更新公式為:
DynaDepth將觀測(cè)量定義為Mp預(yù)測(cè)的自我運(yùn)動(dòng),為了完成以相機(jī)為中心的EKF更新步驟,可推導(dǎo)h和H為:
4. 實(shí)驗(yàn)
作者評(píng)估了DynaDepth在KITTI上的有效性,以及在Make3D上的泛化能力。此外,作者對(duì)IMU損耗、EKF框架、學(xué)習(xí)到的自我運(yùn)動(dòng)不確定性以及對(duì)光照變化和移動(dòng)物體的魯棒性進(jìn)行了消融實(shí)驗(yàn)。在具體試驗(yàn)階段,損失函數(shù)的四個(gè)權(quán)重依次為0.001,0.5,0.01,0.001,初始學(xué)習(xí)率為1e-4,在一個(gè)NVIDIA V100 GPU上訓(xùn)練了30輪。
4.1 KITTI上的尺度感知深度估計(jì)
如表1所示是將DynaDepth與最新的單目深度估計(jì)方法進(jìn)行比較的結(jié)果,作者為了公平比較只給出了圖像分辨率為640x192和尺寸適中的編碼器所取得的結(jié)果,即ResNet18(R18)和ResNet50(R50)。
表1 對(duì)KITTI進(jìn)行的每張圖像的重定標(biāo)深度評(píng)估
除了標(biāo)準(zhǔn)的深度評(píng)價(jià)指標(biāo)之外,作者還報(bào)告了重尺度因子的均值和標(biāo)準(zhǔn)誤差來證明尺度感知能力。值得注意的是DynaDepth達(dá)到了一個(gè)近乎完美的絕對(duì)尺度,在尺度感知方面甚至R18版本也優(yōu)于G2S R50 ,而后者使用了更重的編碼器。
如表2所示是對(duì)比結(jié)果,并與利用GPS信息構(gòu)造速度約束的PackNet-SfM和G2S進(jìn)行了比較。在這種情況下,DynaDepth實(shí)現(xiàn)了所有度量指標(biāo)的最佳性能,為單目方法的非尺度深度評(píng)估設(shè)定了一個(gè)新的基準(zhǔn)。為了更好的說明,圖1(b)給出了包含IMU和不包含IMU的比例直方圖。
表2 在KITTI進(jìn)行深度評(píng)估結(jié)果
4.2 Make3D上的泛化
作者利用KITTI上訓(xùn)練的模型進(jìn)一步檢驗(yàn)DynaDepth在Make3D上的泛化能力,圖1(c)給出了一個(gè)定性示例,其中沒有IMU的模型在玻璃和陰影區(qū)域失效,而DynaDepth實(shí)現(xiàn)了可區(qū)分的預(yù)測(cè)。定量結(jié)果如表3所示,DynaDepth取得了相當(dāng)好的尺度比例,表明DynaDepth學(xué)習(xí)的尺度能力可以很好地推廣到不可觀測(cè)的數(shù)據(jù)集。
此外,僅利用陀螺儀和加速度計(jì)IMU信息的DynaDepth取得了最好的泛化效果。作者解釋了可能的原因:首先,由于建模能力的提高,完整模型可能會(huì)過擬合KITTI數(shù)據(jù)集。第二,因?yàn)镸v和Mg都以圖像作為輸入,性能退化可能是由于視覺數(shù)據(jù)的域間隙造成的,這也解釋了這種情況下G2S的尺度損失。
此外,實(shí)驗(yàn)也表明EKF有明顯的提高泛化能力,可能是因?yàn)镋KF融合框架考慮了不確定性,以更合理的方式融合了可泛化IMU動(dòng)力學(xué)和特定視覺信息。
表3 Make 3d上的泛化結(jié)果
4.3 消融研究
作者對(duì)KITTI進(jìn)行了消融研究,并關(guān)注IMU相關(guān)損失、EKF融合框架和學(xué)習(xí)自我運(yùn)動(dòng)不確定性對(duì)KITTI的影響,結(jié)果如表4所示。此外,還設(shè)計(jì)了模擬實(shí)驗(yàn)來驗(yàn)證DynaDepth對(duì)光照變化和運(yùn)動(dòng)物體等視覺退化的魯棒性。
表4 KITTI上IMU相關(guān)損失和EKF融合框架的消融結(jié)果
結(jié)果顯示,IMU光度損失具有重要作用。但僅用IMU光度損失學(xué)習(xí)的只是一個(gè)粗略的尺度。將IMU光度損失和交叉?zhèn)鞲衅鞴舛葥p失結(jié)合在一起,可以提高準(zhǔn)確性,Lvg的使用進(jìn)一步增強(qiáng)了評(píng)價(jià)結(jié)果。
針對(duì)光照變化和運(yùn)動(dòng)物體,這兩種情況違反了光度損失的底層假設(shè)。作者通過在0.5范圍內(nèi)隨機(jī)交替的圖像對(duì)比度來模擬光照變化,通過隨機(jī)插入三個(gè)150x150的黑色方塊來模擬運(yùn)動(dòng)物體,結(jié)果如表5所示。在光照變化下,Mono deep2的精度按預(yù)期下降,DynaDepth則在一定程度上挽救了精度,保持了正確的絕對(duì)尺度。
在這種情況下,EKF幾乎改進(jìn)了所有的度量指標(biāo),使用EKF和Lvg在AbsRel上達(dá)到了最優(yōu)。然而,沒有Lvg的模型在大多數(shù)度量指標(biāo)上都取得了最好的性能,其原因可能是Lvg對(duì)視覺數(shù)據(jù)的依賴性,對(duì)圖像質(zhì)量更加敏感。當(dāng)存在移動(dòng)對(duì)象時(shí),Mono deep2完全失敗,使用EKF顯著地提高了性能,但考慮到任務(wù)的難度,仍然難以學(xué)習(xí)到尺度。在這種情況下,使用Lvg顯著提供了強(qiáng)有力的規(guī)模監(jiān)管,取得了良好的規(guī)模效果。
表5 對(duì)來自KITTI的模擬數(shù)據(jù)的魯棒性消融結(jié)果
作者以平均協(xié)方差作為不確定性度量,圖2說明了自我運(yùn)動(dòng)不確定性的訓(xùn)練過程。學(xué)習(xí)的不確定性表現(xiàn)出與深度誤差(AbsRel)類似的模式,這意味著隨著訓(xùn)練的繼續(xù),模型對(duì)其預(yù)測(cè)變得更加確定。此外,DynaDepth R50比R18具有更低的不確定性,表明更大的模型容量也有助于提高預(yù)測(cè)的可信度,但這種差異并不明顯。
圖2 訓(xùn)練過程
5. 結(jié)論
在2022 ECCV論文"Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics"中,作者提出了DynaDepth,這是一個(gè)使用IMU運(yùn)動(dòng)動(dòng)力學(xué)的尺度感知、魯棒和可推廣的單目深度估計(jì)框架。具體來說,作者提出了IMU光度損失和跨傳感器光度一致性損失,以提供稠密的監(jiān)督和絕對(duì)尺度。
此外,作者為傳感器融合推導(dǎo)了一個(gè)以攝像機(jī)為中心的EKF框架,它也提供了在無監(jiān)督學(xué)習(xí)設(shè)置下的自我運(yùn)動(dòng)不確定性度量。最后作者通過實(shí)驗(yàn)證明了DynaDepth在學(xué)習(xí)絕對(duì)尺度、泛化能力和抵抗視覺退化的魯棒性方面具有優(yōu)勢(shì)。
-
傳感器
+關(guān)注
關(guān)注
2542文章
50307瀏覽量
750292 -
濾波器
+關(guān)注
關(guān)注
159文章
7674瀏覽量
177235 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5442瀏覽量
120800
原文標(biāo)題:基于整合IMU運(yùn)動(dòng)動(dòng)力學(xué)的無監(jiān)督單目深度估計(jì)
文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論