亚洲一区中文字幕在线观看 ,亚洲小说区图片区另类春色63

Geiger 的研究主要集中在用于自動(dòng)駕駛系統(tǒng)的三維視覺理解、分割、重建、材質(zhì)與動(dòng)作估計(jì)等方面。他主導(dǎo)了自動(dòng)駕駛領(lǐng)域著名數(shù)據(jù)集 KITTI 及多項(xiàng)自動(dòng)駕駛計(jì)算機(jī)視覺任務(wù)的基準(zhǔn)體系建設(shè)，KITTI 是目前最大的用于自動(dòng)駕駛的計(jì)算機(jī)視覺公開數(shù)據(jù)集。

在今年 6 月召開的 CVPR2018 上，德國圖賓根大學(xué)及馬克斯·普朗克研究所（MPI）自動(dòng)視覺組負(fù)責(zé)人 Andreas Geiger 教授摘得了 PAMI Young Researcher Award，該獎(jiǎng)項(xiàng)頒發(fā)給 7 年內(nèi)獲得博士學(xué)位且早期研究極為有潛力的研究人員。

圖中為 Andreas Geiger，圖右為另一名獲獎(jiǎng)?wù)?，來?Facebook 的青年科學(xué)家何愷明

2018 年年初，Geiger 出任了北京沖浪科技有限公司 (Surfingtech) 的首席科學(xué)家，沖浪科技是一家致力于為全球自動(dòng)駕駛公司提供多傳感器數(shù)據(jù)解決方案的公司。7 月，機(jī)器之心在沖浪科技對(duì) Geiger 進(jìn)行了專訪，談了談自動(dòng)駕駛領(lǐng)域的計(jì)算機(jī)視覺任務(wù)的特點(diǎn)、研究前沿及 KITTI 數(shù)據(jù)集的最新進(jìn)展。

自動(dòng)駕駛系統(tǒng)都由哪些模塊組成？它們之間的依賴關(guān)系是什么？

自動(dòng)駕駛系統(tǒng)通常有一個(gè)非常經(jīng)典的、模塊化的流水線。

首先是感知模塊（perception stack），感知模塊將地圖、三維傳感器、二維傳感器中的信息給到「世界模型」（world model），世界模型將上述信息，匯總在一張地圖中，理解每一個(gè)時(shí)刻不同的物體相對(duì)于路面、道線等的位置，預(yù)測下一刻的可選路徑都有哪些。隨后是一個(gè)規(guī)劃模塊（planning model），進(jìn)行決策。決策的內(nèi)容也是分層級(jí)的。粗粒度的決策需要決定如何從 A 點(diǎn)到 B 點(diǎn)，完成的是類似 GPS 的工作。除此之外還有諸多細(xì)粒度的決策工作，例如決定走哪一條車道，是否要暫時(shí)占用對(duì)向車道完成超車，車速應(yīng)該設(shè)定為多少等。最后是控制模塊（control module），控制模塊操縱所有的控制器，有高層的控制器，比如電子穩(wěn)定系統(tǒng) ESP，也有最基層的控制器，比如控制每一個(gè)輪子進(jìn)行加速和剎車的控制器。

想要讓一個(gè)自動(dòng)駕駛系統(tǒng)作出正確的決策，首先要完成哪些計(jì)算機(jī)視覺任務(wù)？

首先是車輛定位：衡量車輛的運(yùn)動(dòng)并在地圖中進(jìn)行定位。完成這部分工作的是視覺測距（visual odometry）系統(tǒng)和定位（localization）系統(tǒng)。二者的區(qū)別是，視覺測距估計(jì)的是車輛相對(duì)于前一時(shí)間步進(jìn)行的相對(duì)運(yùn)動(dòng)，而定位是對(duì)車輛在地圖中的運(yùn)動(dòng)進(jìn)行全局的估計(jì)。定位是可以精確到厘米級(jí)的，車輛相對(duì)于一些地圖中固定的物體（例如電線桿）的距離已經(jīng)是已知的，基于這些信息，車輛已經(jīng)可以進(jìn)行相當(dāng)不錯(cuò)的路徑規(guī)劃了。

然后是三維視覺重建，重建范圍通常在 50-80 米，具體需求視行駛速度而定。大部分 STOA 自動(dòng)駕駛系統(tǒng)會(huì)使用激光雷達(dá)（LiDAR）進(jìn)行三維重建。不過也有少部分團(tuán)隊(duì)試圖直接從圖像中恢復(fù)三維信息。由于圖像中的數(shù)據(jù)相比之下更為嘈雜，因此完全基于圖像的重建是一項(xiàng)更具有挑戰(zhàn)性的工作。

基于單張激光雷達(dá)點(diǎn)云與二維圖片的三維視覺重建

除了重建之外，你也需要對(duì)車輛正前方正在發(fā)生的事有充分的理解。因此，你需要進(jìn)行物體檢測，也需要在理解物體是什么的基礎(chǔ)上對(duì)其進(jìn)行進(jìn)一步的分類，而檢測和分類會(huì)幫助預(yù)測其未來軌跡。進(jìn)行檢測和分類的方式是多樣的，你可以給每一個(gè)物體畫一個(gè)邊界框（bounding box）：這是最常見的方式，但是自動(dòng)駕駛需要在三維的物理世界中進(jìn)行運(yùn)動(dòng)規(guī)劃，所以你至少要需要一個(gè)三維的邊界框。

更精確的是實(shí)例分割（instance segmentation）和語義分割（semantic segmentation）。當(dāng)物體是形狀為凹或者是隧道之類需要穿行的物體時(shí)，邊界框顯然是不夠的。實(shí)例分割將圖像里屬于一些特定目標(biāo)類別的每個(gè)實(shí)例的所有像素分為一類。實(shí)例分割通常在二維圖像上進(jìn)行，但也有三維版本，三維實(shí)例分割基本等同于物體重建。而語義分割為圖像里每一個(gè)像素分配一個(gè)語義標(biāo)簽，同一類別的不同實(shí)例不做區(qū)分。除此之外，全景分割（panoptic segmentation）基本上可以視作實(shí)例分割和語義分割的結(jié)合。全景分割對(duì)那些沒有實(shí)例只有整體的類別也進(jìn)行區(qū)分，例如天空和植被。天空無法用一個(gè)邊界框框柱，而植被需要在平時(shí)避開，但系統(tǒng)也需要知道在緊急情況下汽車沖上草坪并無大礙（相比之下撞上樹或者行人就有很大問題了）。因此語義信息是必要的。

接下來是運(yùn)動(dòng)估計(jì)。根據(jù)之前的一幀或數(shù)幀，預(yù)估視野里的每一個(gè)點(diǎn)，或者說每一個(gè)物體，在下一幀的位置。一些物體，例如車輛，它們的移動(dòng)是比較容易預(yù)判的，因此運(yùn)動(dòng)模型可以進(jìn)行準(zhǔn)確率較高的預(yù)測。而另外一些物體，例如行人，會(huì)非常突然地變更其運(yùn)動(dòng)軌跡，導(dǎo)致運(yùn)動(dòng)模型的建立更為艱難。即便如此，較短時(shí)間區(qū)間（2-3 秒）的動(dòng)作預(yù)測，在動(dòng)態(tài)物體較多的擁擠場景下的決策過程中也仍然扮演著至關(guān)重要的角色。

上述任務(wù)都是各自獨(dú)立的，但是實(shí)際上，收集上述信息的系統(tǒng)并不是各自獨(dú)立運(yùn)轉(zhuǎn)的。因此情境推理（contextual reasoning）也有助于給出更準(zhǔn)確的預(yù)測。例如一群行人通常會(huì)同時(shí)等紅燈、同時(shí)過馬路，一輛車試圖并線時(shí)另一輛車會(huì)剎車讓路，以這些外部信息、先驗(yàn)知識(shí)做約束，理解復(fù)雜場景會(huì)變得更為容易。

最后，一個(gè)我認(rèn)為十分重要但是并沒有引起較多重視的領(lǐng)域是不確定性推理（reasoning under uncertainty）。人類感官或者車輛傳感器拿到的數(shù)據(jù)中必然包含著不確定性，因此，如何準(zhǔn)確地評(píng)估不確定性，并兼顧「最小化風(fēng)險(xiǎn)」和「完成任務(wù)」，是一個(gè)重要的話題。理想情況下，所有上述檢測、分割、重建、定位任務(wù)都應(yīng)該在不確定性約束下進(jìn)行，系統(tǒng)在行進(jìn)之前應(yīng)該知道它可能犯哪些錯(cuò)誤。

如何對(duì)與自動(dòng)駕駛相關(guān)的計(jì)算機(jī)視覺任務(wù)進(jìn)行分類？分類的標(biāo)準(zhǔn)是什么？

以輸入進(jìn)行分類是一種常見做法。按照輸入的來源，可以分為來自激光雷達(dá)、攝像頭、雷達(dá)、乃至車內(nèi)的其他儀表的數(shù)據(jù)。按照輸入表征也可以進(jìn)行分類，激光雷達(dá)給出的稀疏的點(diǎn)云和攝像頭給出的密集的二維圖像就是兩種不同的表征，采取的算法也有所不同。按照維度也可以進(jìn)行分類，用于三維輸入的算法通常更為復(fù)雜，因?yàn)槿绻徊扇√厥庾龇ǎS輸入會(huì)快速耗盡內(nèi)存資源。

另一種分法是按照線索分類。線索可以分為語義線索（semantic cues）和幾何線索（geometric cues），幾何線索是利用多張圖片通過特征匹配和三角對(duì)齊得到深度信息。但是因?yàn)檫@種估算的誤差與距離呈平方關(guān)系，因此有很大的局限性。換言之，人類的視覺系統(tǒng)其實(shí)也是不適合開車的，因?yàn)槲覀兊囊曈X系統(tǒng)只是為了在兩手張開的距離內(nèi)進(jìn)行操作而設(shè)計(jì)的。人類在開車的時(shí)候利用語義線索彌補(bǔ)了這一缺陷：即使只有一張圖片，理論上其中并不包含距離信息，人類仍然可以根據(jù)大量的先驗(yàn)知識(shí)估計(jì)其中物體的相對(duì)距離?？偠灾?，自動(dòng)駕駛系統(tǒng)可以通過安裝多個(gè)攝像頭獲得三維信息，也可以通過安裝一個(gè)攝像頭，但是通過強(qiáng)先驗(yàn)來預(yù)判會(huì)看到什么。理想情況下，我們希望將二者結(jié)合。

還有一種方法是根據(jù)物體是否運(yùn)動(dòng)以及如何運(yùn)動(dòng)進(jìn)行分類。首先分為靜態(tài)部分識(shí)別和運(yùn)動(dòng)物體識(shí)別。對(duì)于靜態(tài)場景來說，有專門的標(biāo)準(zhǔn)重建算法，基于「所有的東西都是靜態(tài)的」這一假設(shè)進(jìn)行重構(gòu)。但是事實(shí)上，我們需要從多幅拍攝于不同時(shí)間的圖像中重建場景，這就需要我們?cè)O(shè)計(jì)專門的算法來處理場景中的運(yùn)動(dòng)物體。運(yùn)動(dòng)物體又可以分為剛性物體和非剛性物體。剛性物體的所有部分一起運(yùn)動(dòng)，可以用六自由度變化來描述它在三維空間中的運(yùn)動(dòng)軌跡。汽車就是一個(gè)剛性物體，而行人就屬于非剛性物體，行人有胳膊、腿，彼此之間以關(guān)節(jié)相連，在運(yùn)動(dòng)中，每一個(gè)部分的運(yùn)動(dòng)軌跡大相徑庭，因此刻畫行人的運(yùn)動(dòng)需要額外的自由度。

任務(wù)之間是否有先后順序？是否存在一個(gè)自動(dòng)駕駛系統(tǒng)通常采用的完成任務(wù)的流程？

首先，確實(shí)存在一些依賴關(guān)系。例如三維物體識(shí)別需要以三維信息為基礎(chǔ)。如果你只有普通的圖像，那么通常就要從三維重建開始。雖然這不是必須要做的，但是大多數(shù)研究者選擇采用這個(gè)流程。也有人選擇用動(dòng)作（motion）來輔助識(shí)別，但是動(dòng)作只是一個(gè)非常弱的線索。

三維重建也不僅僅對(duì)三維識(shí)別有幫助，它也有助于運(yùn)動(dòng)估計(jì)?；?RGBD 信息的運(yùn)動(dòng)估計(jì)難度要小于僅基于 RGB 信息的運(yùn)動(dòng)估計(jì)。

而基于地圖的定位也有助于行人及其他交通參與者的行為預(yù)判。例如，人行道的常見位置、紅綠燈的常見位置給出了一個(gè)關(guān)于行人運(yùn)動(dòng)軌跡的強(qiáng)先驗(yàn)。另外，定位還能幫助你「穿墻透視」：即使路的轉(zhuǎn)角被高樓大廈遮擋住了，根據(jù)地圖定位，你仍然知道樓后面是馬路，而馬路上會(huì)有其他交通參與者存在。

來自不同傳感器的數(shù)據(jù)如何共同作為輸入服務(wù)于同一模型？

總的來說，識(shí)別或者檢測類任務(wù)是靠著找出物體的形狀和外觀進(jìn)行的。不同的傳感器的長處各不相同，激光雷達(dá)給出距離信息，但是很難描述外觀，因?yàn)榧す饫走_(dá)捕捉反射率，反射率與外觀并不直接相關(guān)。而圖像中雖然包含豐富的外觀信息，但是缺少距離信息。毫米波雷達(dá)的視野非常窄，但是可以進(jìn)行遠(yuǎn)距離測距和測速。

理想情況下，你要根據(jù)不同傳感器的特點(diǎn)去將它們生成的數(shù)據(jù)組合在一起。例如，如果你同時(shí)擁有立體視覺數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)，你希望利用激光雷達(dá)的遠(yuǎn)場數(shù)據(jù)和立體視覺的近場數(shù)據(jù)。這是因?yàn)樵?10-15 米范圍內(nèi)，立體視覺要比激光雷達(dá)精確，但是超出了這個(gè)范圍，激光雷達(dá)反而更為精確。

由于不同傳感器之間的校準(zhǔn)是非常困難的，因此在每一個(gè)點(diǎn)選擇信任哪個(gè)傳感器的數(shù)據(jù)是一道世界性的難題。而結(jié)合的做法有很多，總得來說就是把不同的數(shù)據(jù)類型投射到同一個(gè)空間內(nèi)。你可以用立體攝像機(jī)找到每個(gè)三維點(diǎn)陣?yán)飳?duì)應(yīng)的像素值，把它和激光雷達(dá)數(shù)據(jù)結(jié)合，也可以把激光雷達(dá)中的深度信息投影回圖片里。

將二維色彩信息映射到三維點(diǎn)云中

當(dāng)然，這只是研究者通常采用的方法，從很多汽車制造商的角度，他們希望擁有信息冗余，讓不同的傳感器各自為政，作出獨(dú)立的決策。這樣一旦某一個(gè)傳感器失靈了，其余的傳感器仍然能提供決策所必要的信息。

研究者所采用的系統(tǒng)和汽車制造商使用的系統(tǒng)有哪些不同？

如今的車輛和駕駛員輔助系統(tǒng)通常都存在算力非常分散化的現(xiàn)狀。用于研究的車輛可以有一個(gè)集中的處理器，但是如今的車輛中系統(tǒng)的現(xiàn)狀是，攝像頭的算力只與攝像頭相連，控制系統(tǒng)的計(jì)算單元算力也非常小，你只能把物體基本信息提交給它，無法把深度信息全部提交給它。

但是理論上，只有當(dāng)你集成了所有傳感器獲得的信息，才能獲得最佳的性能。因此這也是從當(dāng)今的駕駛輔助系統(tǒng)到自動(dòng)駕駛汽車需要完成的一個(gè)轉(zhuǎn)變。

現(xiàn)如今，絕大多數(shù)自動(dòng)駕駛公司仍然選用不同類型、數(shù)量的傳感器，開發(fā)自己的系統(tǒng)。不同傳感器帶來的差異有多大？

大多數(shù)傳感器的工作原理還是相似的。例如，對(duì)于攝像頭而言，大多數(shù)公司都選擇對(duì)光線變化盡可能敏感的，或者說動(dòng)態(tài)范圍（dynamic range）盡可能大的攝像頭。這是因?yàn)槿缃駭z像頭的動(dòng)態(tài)范圍仍然遠(yuǎn)小于人眼，例如，從陽光下駛?cè)胨淼篮缶鸵笙到y(tǒng)迅速更換攝像頭的結(jié)構(gòu)以適應(yīng)突如其來的黑暗。此外，世界上生產(chǎn)感光元件也只有屈指可數(shù)的幾家，因此攝像頭之間的差別并不大。

但是，即使完全相同的攝像頭，安裝的高度、位置不同，視野里看到的東西就會(huì)存在很大的差異。比如卡車車頂?shù)臄z像頭和普通的小型車車頂?shù)臄z像頭，其相對(duì)于路面的相對(duì)位置的巨大差異就決定了他們的很多配置和算法無法通用。這是一個(gè)有待解決的研究課題。

至于激光雷達(dá)，如今的大多數(shù)激光雷達(dá)都來自 Velodyne。但是現(xiàn)在也有越來越多新牌子涌現(xiàn)。同時(shí)，在傳統(tǒng)的旋轉(zhuǎn)式雷達(dá)之外也發(fā)展出了更便宜、更容易裝配的固態(tài)雷達(dá)。從學(xué)習(xí)的角度，這都是需要適應(yīng)的部分。

毫米波雷達(dá)更為神秘，各家都將其工作原理視為機(jī)密，拿到毫米波雷達(dá)的原始數(shù)據(jù)都很困難。

總體來講，如今用于研究的設(shè)備配置方法都非常類似：例如把攝像頭放在盡可能高的地方、盡可能在每個(gè)方向都設(shè)置攝像頭等等。如今也有越來越多功能更為強(qiáng)大的攝像頭問世，有的攝像頭的分辨率已經(jīng)接近人眼，有的致力于更遠(yuǎn)的焦距。

現(xiàn)在的自動(dòng)駕駛視覺領(lǐng)域都有哪些前沿問題？

一個(gè)非常重要的問題是如何處理那些分布里極少出現(xiàn)的稀有事件、個(gè)案。如今行之有效的自動(dòng)駕駛算法都是監(jiān)督算法，而我們?cè)谑占?xùn)練集的時(shí)候無法拿到大量的稀有事件標(biāo)記數(shù)據(jù)。我認(rèn)為，我們需要找到好的稀有事件生成模型，現(xiàn)在，稀有事件刻畫的領(lǐng)軍團(tuán)隊(duì)無疑是 Waymo，但是他們采用的方法是搭建一個(gè)大實(shí)驗(yàn)室，把各種稀有事件人工演出來。

領(lǐng)域遷移是另一個(gè)大問題，我們不希望換了環(huán)境/車之后就要重新訓(xùn)練模型。遷移學(xué)習(xí)能夠一定程度上通過在一個(gè)數(shù)據(jù)集上訓(xùn)練、在另一個(gè)上面精調(diào)來解決這個(gè)問題，但是這并不是最終的解決方案。

此外，仿真（simulation）雖然不像前兩項(xiàng)那么重要，也仍然有進(jìn)步的空間。尤其是如何跨越從仿真到真實(shí)以及從真實(shí)到仿真的差距。仿真永遠(yuǎn)只是仿真，仿真能夠表達(dá)出的維度永遠(yuǎn)無法達(dá)到真實(shí)世界的復(fù)雜程度，紋理、幾何關(guān)系都過于簡單了。前面談到的稀有事件也是無法通過仿真習(xí)得的。

最后，自動(dòng)駕駛終歸需要作出「主觀判斷」，這是整個(gè)人工智能領(lǐng)域面對(duì)的一個(gè)挑戰(zhàn)：系統(tǒng)需要在前所未見的場景中進(jìn)行決策，并且決策時(shí)可能需要稍微「違背規(guī)則」，這是計(jì)算機(jī)所不擅長的事情。

能否介紹下您在圖賓根大學(xué)/馬普所的自動(dòng)視覺組的工作重點(diǎn)？

上文提到的研究我們大部分都有涉及。

我們進(jìn)行一些底層的研究，例如三維重建和三維動(dòng)作預(yù)測。我們研究生成模型，我希望能將現(xiàn)有的生成模型擴(kuò)展到能夠生成整個(gè)「世界」的模型：生成內(nèi)容包括幾何信息、動(dòng)作信息等等。當(dāng)然，整個(gè)學(xué)術(shù)界距離實(shí)現(xiàn)這一步還有很長的路要走，但是一旦實(shí)現(xiàn)，這將對(duì)仿真以及自動(dòng)駕駛的訓(xùn)練給予極大幫助。

另一方面，我們也在研究小數(shù)據(jù)學(xué)習(xí)，因?yàn)閿?shù)據(jù)是一個(gè)太大的問題。在 KITTI 360 數(shù)據(jù)集中，我們就做了一些嘗試，例如在三維空間進(jìn)行標(biāo)注，然后由此獲得二維的標(biāo)注。對(duì)于動(dòng)作估計(jì)來說更是如此，因?yàn)槿祟惿踔敛荒芎芎玫貙?duì)動(dòng)作數(shù)據(jù)進(jìn)行標(biāo)注。

還有仿真與真實(shí)世界的連接，例如我們近期的工作在研究如何把虛擬的物體放進(jìn)真實(shí)場景中，這樣我們只需要對(duì)我們真正關(guān)注的部分建模。

在通過多幀三維點(diǎn)云建立的三維重構(gòu)空間里進(jìn)行一次標(biāo)注，能夠同時(shí)得到多張二維圖像的標(biāo)注

從模型的角度來看，我們主要研究深度學(xué)習(xí)模型和概率模型。我們對(duì)學(xué)術(shù)界的貢獻(xiàn)主要在于將深度學(xué)習(xí)應(yīng)用在三維數(shù)據(jù)、稀疏數(shù)據(jù)等由于存儲(chǔ)或模型能力限制而在現(xiàn)階段無法獲得較好效果的子領(lǐng)域。我們也在思考，分模塊的自動(dòng)駕駛系統(tǒng)是不是最優(yōu)的解決方案？不考慮中間輸出的端到端的自動(dòng)駕駛模型會(huì)不會(huì)是更優(yōu)的解決方案？最極端的端到端模型是用一個(gè)單獨(dú)模型拿到圖像之后直接進(jìn)行方向盤、油門剎車的控制，但是建立這樣的模型也非常難，我想二者中間某處可能存在更好的解決方案。

我們也致力于提供基準(zhǔn)（benchmarking），提供一個(gè)比較不同模型的公允基礎(chǔ)。包括 KITTI 等一系列數(shù)據(jù)集、學(xué)術(shù)會(huì)議上的研討會(huì)和挑戰(zhàn)賽。KITTI 數(shù)據(jù)集本身就提供了超過了 10 項(xiàng)挑戰(zhàn)。

您如何選擇研究課題？

研究的終極原則是，不應(yīng)以「最大化論文數(shù)量」為目標(biāo)，應(yīng)該以「最大化領(lǐng)域貢獻(xiàn)」為目標(biāo)。這也是為什么我們致力于建立基準(zhǔn)：自動(dòng)駕駛研究領(lǐng)域在 KITTI 的影響下發(fā)生了很多變化。

另一個(gè)原則是「更進(jìn)一步」，在直接能夠投入業(yè)界應(yīng)用的算法之外，我們更關(guān)心那些高風(fēng)險(xiǎn)，但是也潛在具有高收益的算法：它們有很大的概率會(huì)失敗，但是一旦成功，就會(huì)是跨時(shí)代的一步。

能否簡要介紹一下 KITTI 數(shù)據(jù)集？

我們一共進(jìn)行了超過六小時(shí)的行駛，并且公開了三小時(shí)的行駛數(shù)據(jù)。這聽起來并不多，但是相比于之前的自動(dòng)駕駛公開數(shù)據(jù)集，已經(jīng)有了一個(gè)非常巨大的數(shù)量上的提升。

KITTI 的優(yōu)勢在于我們?cè)谲嚿习惭b了各種傳感器。第一代數(shù)據(jù)集包括了激光雷達(dá)、攝像頭、GPS、IMU 等不同傳感器的信號(hào)數(shù)據(jù)。

KITTI 數(shù)據(jù)采集車

我們?cè)诰W(wǎng)上以挑戰(zhàn)賽的形式發(fā)布了一系列任務(wù)，任務(wù)包括立體視覺、光流、場景流、二維物體識(shí)別和三維物體識(shí)別、鳥瞰圖物體識(shí)別、語義分割、實(shí)體分割、道路與車道檢測、單圖像深度估計(jì)、深度完成（depth completion，把稀疏的激光雷達(dá)點(diǎn)云數(shù)據(jù)變?yōu)槊芗膱D像）等。當(dāng)前的自動(dòng)駕駛系統(tǒng)需要的各類任務(wù)我們都有涵蓋。

每個(gè)任務(wù)的訓(xùn)練集大小主要取決于標(biāo)注難度，例如立體視覺和光流有 400 張標(biāo)記數(shù)據(jù)，動(dòng)作估計(jì)有超過 10,000 張標(biāo)記數(shù)據(jù)，單圖像深度估計(jì)有 90,000 張。

我們給出了訓(xùn)練集和不包含真實(shí)標(biāo)簽的測試集。研究者每個(gè)月可以向服務(wù)器上傳他們的結(jié)果，我們則給出性能反饋。我們不向研究者提供測試集的真實(shí)標(biāo)簽，這在一定程度上解決了過擬合問題。

如何選擇衡量標(biāo)準(zhǔn)（evaluation metrics）？衡量標(biāo)準(zhǔn)與損失函數(shù)之間的區(qū)別是什么？

我們通常采用業(yè)界已有的衡量標(biāo)準(zhǔn)。例如，在立體視覺和光流任務(wù)中，我們計(jì)算正確與錯(cuò)誤的像素?cái)?shù)；在物體識(shí)別任務(wù)中，我們計(jì)算平均精度，即預(yù)測和真值之間重疊的面積與總面積的比例。

損失函數(shù)通常是我們想要實(shí)現(xiàn)的目標(biāo)，在自動(dòng)駕駛中，的確存在目標(biāo)和損失函數(shù)錯(cuò)位的問題，我們的一些研究也在致力于彌合這種錯(cuò)位。例如，在光流任務(wù)里，一個(gè)左上角的代表天空的像素點(diǎn)真的和代表路面的像素點(diǎn)一樣重要嗎？如果不是的話，如何設(shè)置新的衡量標(biāo)準(zhǔn)？這都是我們?cè)谒伎嫉膯栴}。

在數(shù)據(jù)集、衡量標(biāo)準(zhǔn)等方面，與自動(dòng)駕駛相關(guān)的計(jì)算機(jī)視覺任務(wù)和通用計(jì)算機(jī)視覺任務(wù)有什么差異？

首先是多樣性程度不一樣。自動(dòng)駕駛是一個(gè)非常特殊的領(lǐng)域，這甚至讓算法起步變得更「容易」：車輛不會(huì)行駛到下水道里、不會(huì)行駛在房頂上，如果你不知道身處何方，那么預(yù)測面前的像素是「道路」，準(zhǔn)確率其實(shí)很高。

但是另一個(gè)角度，自動(dòng)駕駛和通用計(jì)算機(jī)視覺對(duì)算法精度的要求也是截然不同的，一個(gè)準(zhǔn)確率 99% 的人臉識(shí)別算法已經(jīng)很令人滿意，但是一個(gè)準(zhǔn)確率 99% 的自動(dòng)駕駛模型大概每天都要撞翻點(diǎn)什么。因此自動(dòng)駕駛需要注意圖片里的細(xì)部，注意那些此刻距離我們很遠(yuǎn)，但是過一會(huì)兒就會(huì)出現(xiàn)在我們眼前的物體，通用視覺任務(wù)不需要如此。

此外，數(shù)據(jù)收集的難度也截然不同，通用視覺任務(wù)的數(shù)據(jù)集大部分來自互聯(lián)網(wǎng)，但自動(dòng)駕駛所需的數(shù)據(jù)不是天然存在的。也很難標(biāo)注。在業(yè)界，僅僅 Mobileye 一家公司每天就有近千人在專門進(jìn)行數(shù)據(jù)標(biāo)注，業(yè)界的算法與學(xué)界公開的算法相比，未必有顯著的優(yōu)勢，其性能優(yōu)勢主要來源于數(shù)據(jù)優(yōu)勢。

KITTI 360 相比于之前的版本有哪些更新？沖浪科技在數(shù)據(jù)集的建設(shè)方面做出了哪些工作？

KITTI 360 仍然沿用了同一輛車，我們?cè)黾恿艘粋€(gè)激光雷達(dá)，給出了更多、更加精確的三維信息。我們也增加了 360 度圖像，為數(shù)據(jù)擴(kuò)增建立了環(huán)境地圖。我們希望這能讓我們更好地標(biāo)記視野中的物體。

我們和沖浪科技合作開發(fā)了 KITTI 360 用到的三維標(biāo)注工具（文中大部分示例圖片截取自該點(diǎn)云數(shù)據(jù)標(biāo)注平臺(tái)）。自動(dòng)駕駛的標(biāo)注是一項(xiàng)十分復(fù)雜的工作，例如像素級(jí)別的語義和實(shí)例分割，通常情況下一張圖像的標(biāo)注要耗時(shí) 60 - 90 分鐘。而利用我們共同開發(fā)的標(biāo)注工具，標(biāo)注時(shí)間被極大縮短，這對(duì)于實(shí)驗(yàn)室而言是至關(guān)重要的。

標(biāo)注工具界面

今年年底我們會(huì)公開一些與三維視覺理解相關(guān)的新任務(wù)，比如圖像中所有物體的識(shí)別以及方向估計(jì)，我們?nèi)匀辉谔接懞线m的組織方式。同時(shí)我們也很關(guān)注時(shí)序連貫的分割，因?yàn)闀r(shí)序連貫是自動(dòng)駕駛數(shù)據(jù)的固有特性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1689

瀏覽量
45875
自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
782

文章
13532

瀏覽量
165742

原文標(biāo)題：自動(dòng)駕駛中的計(jì)算機(jī)視覺——CVPR PAMI青年研究員獎(jiǎng)得主Andreas Geiger

文章出處：【微信號(hào)：IV_Technology，微信公眾號(hào)：智車科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

機(jī)器視覺在自動(dòng)駕駛中的應(yīng)用

如果能夠?qū)⑷祟?b class='flag-5'>視覺系統(tǒng)應(yīng)用到自動(dòng)駕駛領(lǐng)域，無疑將會(huì)大幅度提高自動(dòng)駕駛的準(zhǔn)確性，而這正是當(dāng)前計(jì)算機(jī)科學(xué)和自動(dòng)駕駛領(lǐng)域最熱門的研究方向之一，它就

發(fā)表于 12-30 09:40 ?2385次閱讀

FPGA在自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用？

數(shù)據(jù)的實(shí)時(shí)處理和反饋，為自動(dòng)駕駛汽車的決策提供實(shí)時(shí)、準(zhǔn)確的數(shù)據(jù)支持。三、控制系統(tǒng)優(yōu)化自動(dòng)駕駛汽車的控制系統(tǒng)是復(fù)雜的，需要實(shí)現(xiàn)對(duì)車速、轉(zhuǎn)向、

發(fā)表于 07-29 17:09

FPGA在自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢?

對(duì)實(shí)時(shí)性要求極高，任何延遲都可能導(dǎo)致安全事故。FPGA的硬件特性使得其能夠?qū)崿F(xiàn)極低的延遲，確保自動(dòng)駕駛系統(tǒng)能夠?qū)崟r(shí)響應(yīng)環(huán)境變化并做出正確的決策。高能效比：盡管FPGA的功耗相對(duì)于

發(fā)表于 07-29 17:11

機(jī)器視覺與計(jì)算機(jī)視覺的關(guān)系簡述

應(yīng)用提高產(chǎn)品質(zhì)量、生產(chǎn)效率以及操作安全性。計(jì)算機(jī)視覺主要有兩種工作模式，一種是參照仿生學(xué)的方法，以人類視覺系統(tǒng)的結(jié)構(gòu)為主要工作原理，建立相應(yīng)的處理模塊完成類似的功能和工作；另一種是偏于

發(fā)表于 05-13 14:57

自動(dòng)駕駛真的會(huì)來嗎？

，這些周邊的技術(shù)和系統(tǒng)扮演著非常重要的角色?！　　巴晟频?b class='flag-5'>自動(dòng)駕駛需要海量數(shù)據(jù)，需要對(duì)每個(gè)城市道路交通情況有充分地認(rèn)知過程。還需要在感應(yīng)器、大數(shù)據(jù)、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和車聯(lián)網(wǎng)等諸多領(lǐng)域

發(fā)表于 07-21 09:00

細(xì)說關(guān)于自動(dòng)駕駛那些事兒

越來越便宜和普及，讓自動(dòng)駕駛車終能成形。拆解自動(dòng)駕駛技術(shù)Toyota研究機(jī)構(gòu)負(fù)責(zé)人Gill Pratt列出幾點(diǎn)和無人車相關(guān)的技術(shù)。首先是智能手機(jī)，其相關(guān)技術(shù)、低電壓計(jì)算機(jī)處理器、計(jì)算機(jī)

發(fā)表于 05-15 17:49

高級(jí)安全駕駛員輔助系統(tǒng)助力自動(dòng)駕駛

作者：Hannes Estl要實(shí)現(xiàn)汽車自動(dòng)駕駛，需要消除很多法律、社會(huì)和結(jié)構(gòu)障礙。盡管幾乎我們所有人都在科幻小說或電影中見識(shí)過“自動(dòng)駕駛”汽車，但真要相信機(jī)器或車載電腦能在各種條件下帶著我們四處游蕩

發(fā)表于 09-14 11:03

自動(dòng)駕駛的目標(biāo)：比最好的人類司機(jī)更快更及時(shí)地作出決策

沒有贏家的困境。除非我們能避免其發(fā)生。這正是自動(dòng)駕駛的主要目標(biāo)之一：車輛中的傳感器、通信能力、執(zhí)行器和人工智能(AI)協(xié)同工作，收集并分析信息，從而比最好的人類司機(jī)更快、更及時(shí)地作出決策。擴(kuò)展感知

發(fā)表于 10-26 11:25

轉(zhuǎn)發(fā):聊聊邊緣計(jì)算在自動(dòng)駕駛中的應(yīng)用場景

了全世界第一輛真正意義上的自動(dòng)駕駛車輛，該車輛利用激光雷達(dá)、計(jì)算機(jī)視覺及自動(dòng)控制技術(shù)完成對(duì)周邊環(huán)境的感知，并據(jù)此做出

發(fā)表于 07-21 14:12

自動(dòng)駕駛系統(tǒng)要完成哪些計(jì)算機(jī)視覺任務(wù)？

Geiger 的研究主要集中在用于自動(dòng)駕駛系統(tǒng)的三維視覺理解、分割、重建、材質(zhì)與動(dòng)作估計(jì)等方面。他主導(dǎo)了自動(dòng)駕駛領(lǐng)域著名數(shù)據(jù)集 KITTI 及多項(xiàng)自

發(fā)表于 07-30 06:49

視覺系統(tǒng)對(duì)自動(dòng)駕駛的重要性

為什么視覺系統(tǒng)對(duì)自動(dòng)駕駛至關(guān)重要？

發(fā)表于 01-25 07:51

邊緣計(jì)算在自動(dòng)駕駛汽車的應(yīng)用

有時(shí)更快的數(shù)據(jù)處理是一種奢侈——有時(shí)它生死攸關(guān)。例如，自動(dòng)駕駛汽車本質(zhì)上是一臺(tái)裝有輪子的高性能計(jì)算機(jī)，它通過大量的傳感器來收集數(shù)據(jù)。為了使得這些車輛能夠安全可靠地運(yùn)行，它們需要立即對(duì)周圍的環(huán)境做出

發(fā)表于 07-12 08:07

基于視覺的slam自動(dòng)駕駛

基于視覺的slam自動(dòng)駕駛，這是我們測試的視頻《基于slam算法的智能機(jī)器人》調(diào)研分析報(bào)告項(xiàng)目背景分析機(jī)器人曾經(jīng)是科幻電影中的形象，可目前已經(jīng)漸漸走入我們的生活。機(jī)器人技術(shù)以包含機(jī)械、電子、自動(dòng)

發(fā)表于 08-09 09:37

自動(dòng)駕駛系統(tǒng)設(shè)計(jì)及應(yīng)用的相關(guān)資料分享

傳感器技術(shù)1.3.1 攝像頭1.3.2 毫米波雷達(dá)1.3.3 激光雷達(dá)1.3.4 超聲波雷達(dá)1.4 導(dǎo)航與定位技術(shù)1.4.1 衛(wèi)星定位系統(tǒng)和捷聯(lián)慣導(dǎo)航系統(tǒng)的組合定位技術(shù)1.4.2 激光雷達(dá)點(diǎn)云和高精地圖的匹配定位技術(shù)1.4.3 計(jì)算機(jī)

發(fā)表于 08-30 08:36

分析 | 激光雷達(dá)vs純計(jì)算機(jī)視覺 自動(dòng)駕駛的兩大流派

激光雷達(dá)流派和純計(jì)算機(jī)視覺流派一直在自動(dòng)駕駛技術(shù)中的感知層解決方案上喋喋不休。

發(fā)表于 04-29 15:32 ?4432次閱讀

搜索歷史

自動(dòng)駕駛系統(tǒng)作出正確的決策，要完成哪些計(jì)算機(jī)視覺任務(wù)？

評(píng)論

機(jī)器視覺在自動(dòng)駕駛中的應(yīng)用

FPGA在自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用？

FPGA在自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢?

機(jī)器視覺與計(jì)算機(jī)視覺的關(guān)系簡述

自動(dòng)駕駛真的會(huì)來嗎？

細(xì)說關(guān)于自動(dòng)駕駛那些事兒

高級(jí)安全駕駛員輔助系統(tǒng)助力自動(dòng)駕駛

自動(dòng)駕駛的目標(biāo)：比最好的人類司機(jī)更快更及時(shí)地作出決策

轉(zhuǎn)發(fā):聊聊邊緣計(jì)算在自動(dòng)駕駛中的應(yīng)用場景

自動(dòng)駕駛系統(tǒng)要完成哪些計(jì)算機(jī)視覺任務(wù)？

視覺系統(tǒng)對(duì)自動(dòng)駕駛的重要性

邊緣計(jì)算在自動(dòng)駕駛汽車的應(yīng)用

基于視覺的slam自動(dòng)駕駛

自動(dòng)駕駛系統(tǒng)設(shè)計(jì)及應(yīng)用的相關(guān)資料分享

分析 | 激光雷達(dá)vs純計(jì)算機(jī)視覺自動(dòng)駕駛的兩大流派

搜索歷史

自動(dòng)駕駛系統(tǒng)作出正確的決策，要完成哪些計(jì)算機(jī)視覺任務(wù)？

評(píng)論

自動(dòng)駕駛系統(tǒng)作出正確的決策，要完成哪些計(jì)算機(jī)視覺任務(wù)？