0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動(dòng)駕駛感知算法提升處理策略

jf_C6sANWk1 ? 來(lái)源:焉知汽車(chē) ? 2023-12-28 09:56 ? 次閱讀

作者 |Jone

出品 | 焉知汽車(chē)

現(xiàn)代自動(dòng)駕駛系統(tǒng)的特點(diǎn)是按順序排列的模塊化任務(wù),傳統(tǒng)的方法是基于標(biāo)準(zhǔn)的感知-規(guī)劃-控制這種序列式架構(gòu)的主流處理方式。即首先將感知信息處理成人類(lèi)可以理解的語(yǔ)義信息和道路交通信息,然后基于常態(tài)化知識(shí)和規(guī)則進(jìn)行決策規(guī)劃,這種處理方式在先前常規(guī)的高速路、快速路上實(shí)現(xiàn)L2級(jí)以后以下的駕駛輔助而言是基本沒(méi)有問(wèn)題的。然而,針對(duì)高階自動(dòng)駕駛而言,這類(lèi)專(zhuān)家和規(guī)則的處理方式卻難以勝任在復(fù)雜不確定的城市甚至鄉(xiāng)村場(chǎng)景中需要執(zhí)行的自動(dòng)給駕駛?cè)蝿?wù)。

最近,自動(dòng)駕駛領(lǐng)域無(wú)論是在CVPR上發(fā)表的論文還是工程化實(shí)踐中,最火的專(zhuān)業(yè)領(lǐng)域莫過(guò)于端到端End to End的大模型了。該模型實(shí)際上是一個(gè)抽象的概念,即只需要輸入原始數(shù)據(jù)到模型端,即可得出對(duì)應(yīng)期待的輸出。實(shí)際上,隱藏在大模型背后的便是以人工智能基礎(chǔ)深度學(xué)習(xí)之上的強(qiáng)化深度學(xué)習(xí)。

那么什么是強(qiáng)化深度學(xué)習(xí)呢,實(shí)際上,這是一種將感知、規(guī)劃、決策能力相結(jié)合的計(jì)算能力。且這種學(xué)習(xí)方式根據(jù)輸入的圖像為基礎(chǔ),輸出段以最大限度地模仿真人思考對(duì)環(huán)境的判斷和處理,使得駕駛體驗(yàn)具備靈活性、自適應(yīng)、擬人化程度更佳。更進(jìn)一步講,強(qiáng)化深度學(xué)習(xí)實(shí)際是一種以時(shí)間線(xiàn)為決策基準(zhǔn)的方式,智能體通過(guò)與環(huán)境的交互獲得必要的反饋。對(duì)這種反饋的處理模式與當(dāng)前典型深度學(xué)習(xí)(監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí))的不同之處在于:強(qiáng)化學(xué)習(xí)對(duì)于目標(biāo)訓(xùn)練采用的是獎(jiǎng)勵(lì)函數(shù)而非代價(jià)函數(shù)。

wKgZomWM1diAWgXrAAHfsXqgNh4066.png

眾所周知,對(duì)于自動(dòng)駕駛環(huán)境場(chǎng)景理解中,一般使用監(jiān)督學(xué)習(xí)算法實(shí)際是標(biāo)準(zhǔn)庫(kù)的匹配過(guò)程,這是可以既快又好的學(xué)習(xí)到環(huán)境目標(biāo)。而針對(duì)規(guī)劃決策而言,則是更加擬人化的處理過(guò)程,也就是規(guī)劃與處理不再是標(biāo)準(zhǔn)的公式套用,而是將高維感知信息通過(guò)不斷的反饋、回歸映射處理實(shí)現(xiàn)到動(dòng)作空間的有效映射。實(shí)踐證明,基于深度強(qiáng)化學(xué)習(xí)的端到端控制架構(gòu)可以規(guī)避傳統(tǒng)方式以來(lái)處理更高維度更復(fù)雜場(chǎng)景的自動(dòng)駕駛決策規(guī)劃能力。

因此,從整體優(yōu)化角度上說(shuō),隨著深度學(xué)習(xí)的成功發(fā)展,自動(dòng)駕駛算法將集合一系列任務(wù),包括感知中的檢測(cè)、跟蹤、建圖,以及預(yù)測(cè)中的運(yùn)動(dòng)和占用預(yù)測(cè)。本文將跳出常規(guī)基于AI感知的數(shù)據(jù)處理模式,而將目光轉(zhuǎn)向感知后端的預(yù)測(cè)、規(guī)劃和決策模塊,將AI處理邏輯應(yīng)用在這些模塊上實(shí)現(xiàn)更加智能化的處理過(guò)程。

為了執(zhí)行各種各樣的任務(wù)并實(shí)現(xiàn)高級(jí)智能,先進(jìn)的算法是要么為單個(gè)任務(wù)部署獨(dú)立模型,要么設(shè)計(jì)具有單獨(dú)頭的多任務(wù)范例。然而,他們可能會(huì)遇到累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足的問(wèn)題。因此,基于AI大模型的自動(dòng)駕駛汽車(chē)規(guī)劃則是一種優(yōu)化整體設(shè)計(jì)框架的有效手段。以此為導(dǎo)向,需要重新審視感知和預(yù)測(cè)中的關(guān)鍵組成部分,并確定任務(wù)的優(yōu)先級(jí),以便所有這些任務(wù)都有助于后續(xù)的任務(wù)規(guī)劃。因此,有必要推出統(tǒng)一自動(dòng)駕駛(UniAD)綜合框架,將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中。充分利用每個(gè)模塊的優(yōu)勢(shì),并從全局角度為代理交互提供互補(bǔ)的特征抽象。各個(gè)任務(wù)間可以通過(guò)統(tǒng)一的查詢(xún)接口進(jìn)行通信,以方便彼此進(jìn)行規(guī)劃。

wKgZomWM1diAAQBqAADVco4syTI429.png

如上圖(a)所示,只要板載芯片的資源帶寬允許,大多數(shù)行業(yè)解決方案都會(huì)為每個(gè)任務(wù)分配獨(dú)立部署獨(dú)立模型。這樣的設(shè)計(jì)雖然簡(jiǎn)化了跨團(tuán)隊(duì)的研發(fā)難度,但由于各個(gè)任務(wù)之間相互隔離,也存在跨模塊信息丟失、錯(cuò)誤累積、功能錯(cuò)位的風(fēng)險(xiǎn)。

一種更優(yōu)雅的設(shè)計(jì)是將多個(gè)特定任務(wù)頭插入共享特征提取器中,將廣泛的任務(wù)納入多任務(wù)學(xué)習(xí)(MTL)范式中,如上圖(b)所示。這是許多領(lǐng)域的流行做法,包括自動(dòng)駕駛通用視覺(jué)算法(例如 Transformer、BEV )以及芯片行業(yè)(例如 Mobileye、Tesla、Nvidia 等)。在 MTL 中,跨任務(wù)的協(xié)同訓(xùn)練策略可以利用特征抽象毫不費(fèi)力地?cái)U(kuò)展到額外任務(wù),并節(jié)省板載芯片的計(jì)算成本。然而,這樣的方案可能會(huì)導(dǎo)致不良的“負(fù)遷移”。

相比之下,端到端自動(dòng)駕駛模型的出現(xiàn)將所有節(jié)點(diǎn)從感知、預(yù)測(cè)到規(guī)劃統(tǒng)一為一個(gè)整體。前面任務(wù)的選擇和優(yōu)先級(jí)將有利于后續(xù)任務(wù)的規(guī)劃。系統(tǒng)應(yīng)該以規(guī)劃為導(dǎo)向,對(duì)某些組件進(jìn)行精心設(shè)計(jì),使得很少有像獨(dú)立選項(xiàng)那樣的累積誤差或像MTL方案中的負(fù)轉(zhuǎn)移。

遵循端到端范式,一種“白板”實(shí)踐是直接預(yù)測(cè)計(jì)劃軌跡,無(wú)需對(duì)感知和預(yù)測(cè)進(jìn)行任何明確的監(jiān)督,如上圖(c.1)所示。雖然這樣的方向值得進(jìn)一步探索,但其安全保障和可解釋性不足,尤其是對(duì)于高度動(dòng)態(tài)的城市場(chǎng)景。在本文中,我們從另一個(gè)角度提出以下問(wèn)題:對(duì)于一個(gè)可靠的、面向規(guī)劃的自動(dòng)駕駛系統(tǒng),如何設(shè)計(jì)有利于規(guī)劃的管道?哪些前面的任務(wù)是必需的?

直觀(guān)的解決方案是感知周?chē)奈矬w、預(yù)測(cè)未來(lái)的行為并明確地計(jì)劃安全的操作,如上圖(c.2)所示。在這方面已經(jīng)有不少實(shí)踐提供了很好的見(jiàn)解并取得了令人印象深刻的表現(xiàn)。然而,細(xì)節(jié)決定成敗,以前的工作或多或少?zèng)]有考慮某些組成部分,比如以規(guī)劃為導(dǎo)向的必要性。

統(tǒng)一的自動(dòng)駕駛算法框架

最近的研究證明了Transformer 結(jié)構(gòu)在感知任務(wù)上的有效性,受此啟發(fā),在端到端設(shè)置中也將這種時(shí)序上的預(yù)測(cè)模式應(yīng)用到了各個(gè)后端處理中,這里我們簡(jiǎn)稱(chēng)為“xxxFormer”。 首先,我們引入一個(gè)統(tǒng)一的自動(dòng)駕駛算法框架---UniAD ,即利用 ffve 基本任務(wù)來(lái)構(gòu)建安全、魯棒的系統(tǒng)。UniAD 的設(shè)計(jì)本著以規(guī)劃為導(dǎo)向的精神,這不僅僅是一個(gè)簡(jiǎn)單的工程任務(wù)堆棧,而是一個(gè)連接所有節(jié)點(diǎn)的基于查詢(xún)?cè)O(shè)計(jì)的關(guān)鍵組件。與經(jīng)典的邊界框表示相比,查詢(xún)受益于更大的接受場(chǎng),以減輕上游預(yù)測(cè)的復(fù)合誤差。此外,查詢(xún)可以靈活地對(duì)各種交互進(jìn)行建模和編碼,例如多個(gè)代理之間的關(guān)系。UniAD是一個(gè)全面研究自動(dòng)駕駛領(lǐng)域感知、預(yù)測(cè)和規(guī)劃等多種任務(wù)的聯(lián)合工作。通過(guò)這樣的設(shè)計(jì)希望能夠?qū)ψ詣?dòng)駕駛系統(tǒng)的目標(biāo)驅(qū)動(dòng)設(shè)計(jì)有所啟發(fā),為協(xié)調(diào)各種駕駛?cè)蝿?wù)提供一個(gè)起點(diǎn)。

這種遵循以規(guī)劃為導(dǎo)向的理念精心設(shè)計(jì),不是簡(jiǎn)單的任務(wù)堆棧,而是研究每個(gè)模塊在感知和預(yù)測(cè)中的效果,利用從先前節(jié)點(diǎn)到駕駛場(chǎng)景中最終規(guī)劃的聯(lián)合優(yōu)勢(shì)。所有感知和預(yù)測(cè)模塊均采用 Transformer Decoder 結(jié)構(gòu)設(shè)計(jì),以任務(wù)查詢(xún)作為連接各個(gè)節(jié)點(diǎn)的接口。一個(gè)簡(jiǎn)單的基于注意力的規(guī)劃器最終會(huì)考慮從先前節(jié)點(diǎn)提取的知識(shí)來(lái)預(yù)測(cè)自車(chē)未來(lái)路徑點(diǎn)。期間,將會(huì)使用基于視覺(jué)形成的占用地圖。

wKgZomWM1diAPaZhAAICiImfPnk449.png

接下來(lái)將對(duì)如上圖所示的整個(gè)數(shù)據(jù)鏈路中的預(yù)測(cè)模型進(jìn)行完整性說(shuō)明。

首先,軌跡生成是聯(lián)合執(zhí)行檢測(cè)和多目標(biāo)跟蹤(MOT),這種方式無(wú)需后處理,而是采用取查詢(xún)?cè)O(shè)計(jì)的方式。除了對(duì)象檢測(cè)中使用的傳統(tǒng)檢測(cè)查詢(xún)之外,還引入了額外的跟蹤查詢(xún)來(lái)處理跨幀跟蹤代理。具體來(lái)說(shuō),就是在每個(gè)時(shí)間步,初始化的檢測(cè)查詢(xún)負(fù)責(zé)檢測(cè)第一次感知到的新生代理,而跟蹤查詢(xún)則保持對(duì)在先前幀中檢測(cè)到的那些代理進(jìn)行建模。檢測(cè)查詢(xún)和跟蹤查詢(xún)都通過(guò)關(guān)注 BEV 特征 B 來(lái)捕獲代理抽象。隨著場(chǎng)景不斷發(fā)展,當(dāng)前幀的跟蹤查詢(xún)與自注意力模塊中先前記錄的查詢(xún)進(jìn)行交互,以聚合時(shí)間信息,直到在特定時(shí)間段內(nèi)未跟蹤到目標(biāo)且相應(yīng)的代理完全消失。

如上圖所示,UniAD最終包括四個(gè)基于Transformer解碼器的感知和預(yù)測(cè)模塊以及一個(gè)規(guī)劃器。查詢(xún) Q 起到連接管道的作用,以對(duì)駕駛場(chǎng)景中實(shí)體的不同交互進(jìn)行建模。具體來(lái)說(shuō),需要將一系列多攝像頭圖像輸入特征提取器,并通過(guò) BEVFormer 中現(xiàn)成的 BEV 編碼器將所得透視圖特征轉(zhuǎn)換為無(wú)擴(kuò)散鳥(niǎo)瞰圖 (BEV) 特征B。UniAD 并不局限于特定的 BEV 編碼器,并且可以利用其他替代方案通過(guò)長(zhǎng)期時(shí)間的多模態(tài)融合來(lái)提取更豐富的 BEV 表示。 在 TrackFormer 中,從特征圖 B 查詢(xún)到可學(xué)習(xí)的跟蹤信息代理。TrackFormer 包含 N 層,最終輸出狀態(tài) QA 為下游預(yù)測(cè)任務(wù)提供 Na 個(gè)有效代理的知識(shí)。除了對(duì)自車(chē)周?chē)钠渌磉M(jìn)行編碼的查詢(xún)之外,還在查詢(xún)集中引入了一個(gè)特定的自車(chē)查詢(xún),以顯式地對(duì)自動(dòng)駕駛車(chē)輛本身進(jìn)行建模,這將進(jìn)一步用于規(guī)劃。

MapFormer 則將地圖作為道路元素(例如車(chē)道和分隔線(xiàn))的語(yǔ)義抽象進(jìn)行查詢(xún),并執(zhí)行地圖的全景分割。這種基于 2D 全景分割方法 Panoptic SegFormer進(jìn)行地圖設(shè)計(jì)原理是將道路元素稀疏地表示為地圖查詢(xún),以幫助下游進(jìn)行運(yùn)動(dòng)預(yù)測(cè),并對(duì)位置和結(jié)構(gòu)知識(shí)進(jìn)行編碼。對(duì)于不同的駕駛場(chǎng)景而言,將車(chē)道、分隔線(xiàn)和十字路口設(shè)置為關(guān)注目標(biāo),并將可行駛區(qū)域設(shè)置為某一特定的其他目標(biāo)。此外,MapFormer還有N個(gè)堆疊層,每層的輸出結(jié)果都受到監(jiān)督,而只有最后一層中更新的查詢(xún)QM被轉(zhuǎn)發(fā)到MotionFormer以進(jìn)行智駕車(chē)與地圖的交互。

通過(guò)上述表示代理和地圖的查詢(xún),MotionFormer 捕獲代理和地圖之間的交互,并預(yù)測(cè)每個(gè)代理的未來(lái)軌跡。接下來(lái),OccFormer 采用 BEV 特征 B 作為查詢(xún),配備智能體作為鍵和值,并在保留智駕車(chē)輛的情況下預(yù)測(cè)多步未來(lái)占用情況。最后,Planner利用 MotionFormer 富有表現(xiàn)力的自車(chē)查詢(xún)來(lái)預(yù)測(cè)規(guī)劃結(jié)果,并使其遠(yuǎn)離 OccFormer 預(yù)測(cè)的占用區(qū)域以避免碰撞。

以上過(guò)程中,如果考慮自車(chē)行駛的周邊場(chǎng)景都是智能體,且由于每個(gè)智能體的動(dòng)作都會(huì)對(duì)場(chǎng)景中的其他智能體產(chǎn)生重大影響,因此該模塊對(duì)所有考慮的智能體都可以進(jìn)行聯(lián)合預(yù)測(cè)。同時(shí),通過(guò)設(shè)計(jì)一個(gè)自車(chē)查詢(xún)來(lái)顯式地建模,并使其能夠在這種以場(chǎng)景為中心的范例中與其他代理進(jìn)行交互。

運(yùn)動(dòng)預(yù)測(cè)與占用預(yù)測(cè)

接下來(lái)將詳細(xì)介紹相關(guān)運(yùn)動(dòng)預(yù)測(cè)和占用預(yù)測(cè)的詳細(xì)方法。

1、運(yùn)動(dòng)預(yù)測(cè)

首先,通過(guò)分別從 TrackFormer 和 MapFormer 對(duì)動(dòng)態(tài)代理 QA 和靜態(tài)地圖 QM 進(jìn)行高度抽象的查詢(xún),MotionFormer 以場(chǎng)景為中心的方式預(yù)測(cè)所有代理的多模態(tài)未來(lái)運(yùn)動(dòng),即前 k 個(gè)可能的軌跡。這種范例通過(guò)一次前向傳遞在幀中產(chǎn)生多智能體軌跡,這大大節(jié)省了將整個(gè)場(chǎng)景與每個(gè)智能體坐標(biāo)對(duì)齊的計(jì)算成本。同時(shí),考慮到未來(lái)的動(dòng)態(tài),通過(guò) MotionFormer 傳遞來(lái)自 TrackFormer 的自車(chē)查詢(xún),以使自車(chē)與其他環(huán)境目標(biāo)進(jìn)行交互。形式上,輸出運(yùn)動(dòng)被表述為 {x?i, k ∈ RT×2|i = 1,......N; k=1,... ..., K} ,其中 i 表示索引代理,k 索引軌跡模態(tài),T 是預(yù)測(cè)范圍的長(zhǎng)度。

運(yùn)動(dòng)預(yù)測(cè)由 N 層組成,每層捕獲三種類(lèi)型的交互:自車(chē)與周邊環(huán)境目標(biāo)、自車(chē)與地圖和自車(chē)與潛在風(fēng)險(xiǎn)目標(biāo)。對(duì)于每個(gè)運(yùn)動(dòng)查詢(xún) Qi,k,其與其他代理 QA 或地圖元素 QM 之間的交互可以表示為:

wKgaomWM1diATq3bAAAYjZUNbCc255.png

其中,MHCA、MHSA 分別表示多頭交叉注意力和多頭自注意力。由于在完善預(yù)測(cè)軌跡中更加關(guān)注預(yù)期位置(即目標(biāo)點(diǎn)),因此通過(guò)可變形注意力可以設(shè)計(jì)一個(gè)代理目標(biāo)點(diǎn)注意力,如下所示:

wKgaomWM1diAS2vNAAAZ_kpOgHc348.png

其中 x^l?1T 是上一層預(yù)測(cè)軌跡的端點(diǎn)。DeformAttn(q,r,x) 是一個(gè)可變形注意力模塊,接收查詢(xún)q、參考點(diǎn) r 和空間特征 x。它對(duì)參考點(diǎn)周?chē)目臻g特征進(jìn)行稀疏關(guān)注,通過(guò)這種方式,隨著了解端點(diǎn)周?chē)h(huán)境,預(yù)測(cè)軌跡將進(jìn)一步細(xì)化。所有這三種交互都是并行建模的,其中生成的 Qa、Qm 和 Qg 被連接并傳遞到多層感知器 (MLP),從而生成查詢(xún)上下文 Qctx。然后,Qctx被發(fā)送到后續(xù)層進(jìn)行細(xì)化或解碼為最后一層的預(yù)測(cè)結(jié)果。

2、占用網(wǎng)格圖預(yù)測(cè)

“占用網(wǎng)格圖”這是一個(gè)當(dāng)前智能駕駛相對(duì)較火的術(shù)語(yǔ),其本身是一種離散化的 BEV 表示,其中每個(gè)單元格都持有一個(gè)指示其是否被占用的信念,而占用預(yù)測(cè)任務(wù)是發(fā)現(xiàn)網(wǎng)格圖未來(lái)如何變化。先前經(jīng)典的方法利用 RNN 結(jié)構(gòu)根據(jù)觀(guān)察到的 BEV 特征在時(shí)間上擴(kuò)展未來(lái)預(yù)測(cè) 。

然而,這種高度依賴(lài)于手工制作的聚類(lèi)后處理來(lái)生成每個(gè)智能體占用圖,因?yàn)樗鼈兺ㄟ^(guò)將 BEV 特征作為一個(gè)整體壓縮到 RNN 隱藏狀態(tài),而這其中大多與智能體無(wú)關(guān)。由于代理知識(shí)的使用不足,他們很難預(yù)測(cè)全局所有代理的行為,這對(duì)于理解場(chǎng)景如何演變至關(guān)重要。為了解決這個(gè)問(wèn)題,就需要進(jìn)一步詳細(xì)介紹占用網(wǎng)絡(luò)預(yù)測(cè) OccFormer 。

在占用網(wǎng)格預(yù)測(cè)中,主要在兩個(gè)方面結(jié)合了場(chǎng)景級(jí)和代理級(jí)語(yǔ)義:

(1)密集場(chǎng)景特征在展開(kāi)到未來(lái)視野時(shí)通過(guò)精心設(shè)計(jì)的注意力模塊獲取代理級(jí)特征;

(2)我們通過(guò)代理級(jí)特征和密集場(chǎng)景特征之間的矩陣乘法輕松產(chǎn)生實(shí)例占用率,而無(wú)需進(jìn)行繁重的后處理。

OccFormer 由 To 順序塊組成,其中 To 表示預(yù)測(cè)范圍。由于密集表示占用的計(jì)算成本較高,因此在運(yùn)動(dòng)任務(wù)中 To 通常小于 T。每個(gè)塊將來(lái)自前一層的豐富代理特征 Gt 和狀態(tài)(密集特征)F t?1 作為輸入,并考慮實(shí)例級(jí)和場(chǎng)景級(jí)信息生成時(shí)間步 t 的密集特征 Ft。

為了獲得具有動(dòng)態(tài)和空間先驗(yàn)的代理特征Gt,可表示為 QX ∈ R Na×D 的模態(tài)維度中對(duì)來(lái)自 MotionFormer 的最大池運(yùn)動(dòng)查詢(xún)進(jìn)行最大池化,其中 D 作為特征維度。通過(guò)a將其與上游軌跡查詢(xún)QA和當(dāng)前位置嵌入PA融合時(shí)間特定 MLP:

wKgaomWM1diAD3U4AAAai49zAwU327.png

其中[·]表示串聯(lián)。對(duì)于場(chǎng)景級(jí)知識(shí),為了提高訓(xùn)練效率,將 BEV 特征 B 縮小到 1/4 分辨率,以作為第一個(gè)塊輸入 F0。為了進(jìn)一步節(jié)省訓(xùn)練內(nèi)存,每個(gè)塊都遵循下采樣-上采樣方式,并注意中間的模塊以 1/8 自縮放特征進(jìn)行像素代理交互,表示為 Ftds。

像素與代理交互旨在預(yù)測(cè)未來(lái)占用情況時(shí)輸出統(tǒng)一場(chǎng)景和代理級(jí)別的理解。將密集特征 Ftds 作為查詢(xún)輸入,將實(shí)例級(jí)特征作為鍵和值,以隨著時(shí)間的推移更新密集特征。具體來(lái)說(shuō),F(xiàn)tds 通過(guò)自注意力層來(lái)對(duì)遠(yuǎn)處網(wǎng)格之間的響應(yīng)進(jìn)行建模,然后交叉注意力層對(duì)代理特征Gt 和每個(gè)網(wǎng)格特征之間的交互進(jìn)行建模。此外,為了對(duì)齊像素-代理對(duì)應(yīng)關(guān)系,通過(guò)注意掩模來(lái)約束交叉注意,該掩模限制每個(gè)像素僅在時(shí)間步 t 處查看占據(jù)它的代理。稠密特征的更新過(guò)程可表述為:

wKgZomWM1diAEOaoAAAi7MlHqlI950.png

注意掩碼 Ot m 在語(yǔ)義上與占用相似,是通過(guò)將額外的代理級(jí)特征與密集特征 Ftds 相乘而生成的,其中將此處的代理級(jí)特征命名為掩碼特征Mt = MLP(Gt )。經(jīng)過(guò)方程式中的交互過(guò)程后,Dtds 被上采樣到 B 的 1/4 大小。進(jìn)一步將 Dtds 與塊輸入 Ft?1 作為殘差連接相加,并將得到的特征 Ft 傳遞到下一個(gè)塊。

接下來(lái)是生成實(shí)例級(jí)占用率。它代表保留每個(gè)代理身份的占用情況。它可以通過(guò)矩陣乘法簡(jiǎn)單地繪制出來(lái),就像最近基于查詢(xún)的分割工作一樣。形式上,為了獲得 BEV 特征 B 的原始大小 H ×W 的占用預(yù)測(cè),場(chǎng)景級(jí)特征 Ft需要通過(guò)卷積解碼器上采樣Ft dec ∈ R C×H×W,其中 C 是通道維度。對(duì)于代理級(jí)特征,我們進(jìn)一步通過(guò)另一個(gè) MLP 將粗掩模特征 Mt 更新為占用特征 Ut ∈ R Na×C。從經(jīng)驗(yàn)發(fā)現(xiàn),從掩碼特征 Mt 而不是原始代理特征 Gt 所生成的 Ut 會(huì)帶來(lái)更加優(yōu)越的性能。最終以時(shí)間t 為步長(zhǎng)的最終實(shí)例級(jí)占用率可以表示為:

wKgaomWM1diAPIJXAAANAx9Kd6U823.png

運(yùn)動(dòng)軌跡規(guī)劃與查詢(xún)

在沒(méi)有高清 (HD) 地圖或預(yù)定義路線(xiàn)的情況下進(jìn)行規(guī)劃通常需要高級(jí)命令來(lái)指示前進(jìn)方向。對(duì)于智能車(chē)而言,其對(duì)應(yīng)的行駛動(dòng)作無(wú)非包括車(chē)道保持、加減速、變道等。因此,可以粗略的將原始導(dǎo)航信號(hào)(即左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn))轉(zhuǎn)換為三個(gè)可學(xué)習(xí)的嵌入,稱(chēng)為命令嵌入。由于 MotionFormer 的自車(chē)查詢(xún)已經(jīng)表達(dá)了其多模式意圖,因此,需要為其配備命令嵌入以形成“計(jì)劃查詢(xún)”。

這里對(duì) BEV 特征 B 進(jìn)行計(jì)劃查詢(xún),使其了解周?chē)h(huán)境,然后將其解碼為未來(lái)的航路點(diǎn) τ?。為了進(jìn)一步避免碰撞,可以通過(guò)以下方式進(jìn)行推理優(yōu)化τ?:

wKgaomWM1diAdsPDAAASWrPUUm8463.png

其中τ?是原始規(guī)劃預(yù)測(cè),τ*表示優(yōu)化規(guī)劃,它是從multipleshooting軌跡τ中選擇的,以最小化成本函數(shù)f(·)。O^ 是從 OccFormer 的實(shí)例占用預(yù)測(cè)合并而來(lái)的經(jīng)典二進(jìn)制占用圖。

MotionFormer 每層的輸入查詢(xún)(稱(chēng)為運(yùn)動(dòng)查詢(xún))包含兩個(gè)組成部分:如前所述由前一層產(chǎn)生的查詢(xún)上下文 Qctx 以及查詢(xún)位置 Qpos。具體來(lái)說(shuō),Qpos 將位置知識(shí)四重整合,如下式中所示。

wKgZomWM1diAcbueAAAvZiEHITA788.png

其中們這些位置包括場(chǎng)景級(jí)錨點(diǎn) Is 的位置;代理級(jí)錨點(diǎn) Ia 的位置;智能體 i 的當(dāng)前位置x0和預(yù)測(cè)目標(biāo)點(diǎn)xl-1T。

這里利用正弦位置編碼 PE(·) 后跟 MLP 對(duì)位置點(diǎn)進(jìn)行編碼,并將 x0T 設(shè)置為 I s

在第一層(下標(biāo)i、k也被省略)。場(chǎng)景級(jí)錨點(diǎn)表示全局視圖中的先前運(yùn)動(dòng)統(tǒng)計(jì)數(shù)據(jù),而代理級(jí)錨點(diǎn)捕獲局部坐標(biāo)中可能的意圖。它們都通過(guò) k-means 算法在真實(shí)軌跡的端點(diǎn)上進(jìn)行聚類(lèi),以縮小預(yù)測(cè)的不確定性。

與先驗(yàn)知識(shí)相反,起點(diǎn)為每個(gè)智能體提供定制的位置嵌入,預(yù)測(cè)的終點(diǎn)作為動(dòng)態(tài)錨以粗到細(xì)的方式逐層優(yōu)化。

基于自學(xué)習(xí)的非線(xiàn)性?xún)?yōu)化

與直接訪(fǎng)問(wèn)地面真實(shí)感知結(jié)果(即代理的位置和相應(yīng)軌跡)的傳統(tǒng)運(yùn)動(dòng)預(yù)測(cè)工作不同,在端到端范式中考慮了先前模塊的預(yù)測(cè)不確定性。從不完美的檢測(cè)位置或航向角回歸地面實(shí)況航跡點(diǎn),這可能會(huì)導(dǎo)致預(yù)測(cè)軌跡產(chǎn)生不合實(shí)際的較大曲率和加速度。為了解決這個(gè)問(wèn)題,可以采用非線(xiàn)性平滑器來(lái)調(diào)整目標(biāo)軌跡,并在上游模塊預(yù)測(cè)的起始點(diǎn)不精確的情況下使它們也可以用于未來(lái)的預(yù)測(cè)。其過(guò)程是:

wKgaomWM1diAVjuRAAAPcQZgJ24606.png

其中x和x*表示真實(shí)軌跡和平滑軌跡,x是通過(guò)多次觀(guān)測(cè)生成的數(shù)據(jù),相應(yīng)的成本函數(shù)如下:

wKgZomWM1diAeQWPAAAjIpUJWJg574.png

其中λxy和λgoal是超參數(shù),運(yùn)動(dòng)學(xué)函數(shù)集Φ有5個(gè)項(xiàng),包括橫縱向加速度及其變化率、曲率、曲率變化率。成本函數(shù)規(guī)范目標(biāo)軌跡且遵守運(yùn)動(dòng)學(xué)約束,這種目標(biāo)軌跡優(yōu)化僅在訓(xùn)練時(shí)進(jìn)行,不影響推理。

最后,UniAD 框架中的模塊學(xué)習(xí)分兩個(gè)階段。首先聯(lián)合訓(xùn)練幾個(gè) epoch感知部分,即跟蹤和映射模塊,然后使用所有感知、預(yù)測(cè)和規(guī)劃模塊端到端地訓(xùn)練模型 20 個(gè) epoch。且經(jīng)驗(yàn)發(fā)現(xiàn)兩階段學(xué)習(xí)訓(xùn)練更穩(wěn)定。由于 UniAD 涉及實(shí)例建模,因此在感知和預(yù)測(cè)任務(wù)中需要將預(yù)測(cè)與地面實(shí)況集配對(duì)。這里,需要在跟蹤和在線(xiàn)建圖階段采用二分匹配算法。至于跟蹤,來(lái)自檢測(cè)查詢(xún)的候選者與新生的地面實(shí)況對(duì)象配對(duì),來(lái)自跟蹤查詢(xún)的預(yù)測(cè)繼承了先前幀的分配。跟蹤模塊中的匹配結(jié)果在運(yùn)動(dòng)和占用節(jié)點(diǎn)中可以被重用,以在端到端框架中對(duì)從歷史軌跡到未來(lái)運(yùn)動(dòng)的代理進(jìn)行一致的建模。

總結(jié)

基于深度強(qiáng)化學(xué)習(xí)的端到端(End-to-end)的控制架構(gòu)是自動(dòng)駕駛領(lǐng)域中新興的研究熱點(diǎn),它能克服傳統(tǒng)方式依賴(lài)先驗(yàn)環(huán)境建模的問(wèn)題,可以直接實(shí)現(xiàn)通過(guò)從感知到控制功能的映射。即,將transformer的思想整個(gè)貫穿于感知、預(yù)測(cè)、規(guī)劃、決策的整個(gè)處理過(guò)程。

本文介紹的處理算法遵循以規(guī)劃為導(dǎo)向的理念,擁抱自動(dòng)駕駛框架的新前景,并證明有效任務(wù)協(xié)調(diào)的必要性,而不是獨(dú)立設(shè)計(jì)或簡(jiǎn)單的多任務(wù)學(xué)習(xí)。并且這種UniAD作為一個(gè)利用廣泛任務(wù)的綜合性端到端系統(tǒng),可以很好的啟動(dòng)關(guān)鍵組件,將查詢(xún)?cè)O(shè)計(jì)為連接所有節(jié)點(diǎn)的接口。因此,本文中的UniAD 享有靈活的中間表示和交換多任務(wù)知識(shí)以進(jìn)行規(guī)劃。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46316

    瀏覽量

    236469
  • 感知算法
    +關(guān)注

    關(guān)注

    0

    文章

    19

    瀏覽量

    7621
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    782

    文章

    13525

    瀏覽量

    165728
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    136

    瀏覽量

    5961

原文標(biāo)題:從Transformer探索自動(dòng)駕駛感知算法提升處理策略

文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    未來(lái)已來(lái),多傳感器融合感知自動(dòng)駕駛破局的關(guān)鍵

    的架構(gòu),預(yù)計(jì)未來(lái)許多智能駕駛團(tuán)隊(duì)都會(huì)引入“占用網(wǎng)絡(luò)”來(lái)提升系統(tǒng)能力。多維像素的應(yīng)用前景非常廣闊。昱感微的融合感知技術(shù)+BEV +Transformer+占用網(wǎng)格有望成為L(zhǎng)3/L4級(jí)自動(dòng)駕駛
    發(fā)表于 04-11 10:26

    FPGA在自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用?

    是FPGA在自動(dòng)駕駛領(lǐng)域的主要應(yīng)用: 一、感知算法加速 圖像處理自動(dòng)駕駛中需要通過(guò)攝像頭獲取并識(shí)別道路信息和行駛環(huán)境,這涉及到大量的圖像
    發(fā)表于 07-29 17:09

    FPGA在自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢(shì)?

    領(lǐng)域的主要優(yōu)勢(shì): 高性能與并行處理能力: FPGA內(nèi)部包含大量的邏輯門(mén)和可配置的連接,能夠同時(shí)處理多個(gè)數(shù)據(jù)流和計(jì)算任務(wù)。這種并行處理能力使得FPGA在處理
    發(fā)表于 07-29 17:11

    自動(dòng)駕駛的到來(lái)

      傳統(tǒng)汽車(chē)廠(chǎng)商更趨向于通過(guò)技術(shù)的不斷積累,場(chǎng)景的不斷豐富,逐步從輔助駕駛過(guò)渡到半自動(dòng)駕駛,進(jìn)而在將來(lái)最終實(shí)現(xiàn)無(wú)人駕駛;某些高科技公司則希望通過(guò)各種外部傳感器實(shí)時(shí)采集海量數(shù)據(jù),處理器經(jīng)
    發(fā)表于 06-08 15:25

    速騰聚創(chuàng)首次發(fā)布LiDAR算法 六大模塊助力自動(dòng)駕駛

    、三維數(shù)據(jù)處理算法和深度學(xué)習(xí)技術(shù)相結(jié)合,讓機(jī)器人擁有超越人類(lèi)眼睛的環(huán)境感知能力,目前主要致力自動(dòng)駕駛領(lǐng)域的研發(fā)。2016年12月底,牛車(chē)網(wǎng)曾采訪(fǎng)速騰聚創(chuàng)創(chuàng)始人兼CEO邱純鑫,2年多的時(shí)間,他已帶領(lǐng)企業(yè)完成
    發(fā)表于 10-13 16:08

    即插即用的自動(dòng)駕駛LiDAR感知算法盒子 RS-Box

    RS-LiDAR-Algorithms 感知算法。經(jīng)過(guò)與多個(gè)自動(dòng)駕駛汽車(chē)研發(fā)團(tuán)隊(duì)的聯(lián)合調(diào)試打磨,RS-LiDAR-Algorithms 目前已經(jīng)可以駕馭常見(jiàn)的大部分自動(dòng)駕駛場(chǎng)景,其以
    發(fā)表于 12-15 14:20

    智能感知方案怎么幫助實(shí)現(xiàn)安全的自動(dòng)駕駛

    未來(lái),自動(dòng)駕駛將不再是科幻電影里的橋段,這是未來(lái)汽車(chē)的一個(gè)趨勢(shì),感知自動(dòng)駕駛的重要組成部分,同時(shí)安全性至關(guān)重要。作為全球第7大汽車(chē)半導(dǎo)體供應(yīng)商,安森美半導(dǎo)體提供全面的智能感知方案,包
    發(fā)表于 07-31 07:11

    自動(dòng)駕駛汽車(chē)的處理能力怎么樣?

    作在未來(lái)20 - 30年中,自動(dòng)駕駛汽車(chē)(AV)將改變我們的駕駛習(xí)慣、運(yùn)輸行業(yè)并更廣泛地影響社會(huì)。 我們不僅能夠?qū)⑵?chē)召喚到我們的家門(mén)口并在使用后將其送走,自動(dòng)駕駛汽車(chē)還將挑戰(zhàn)個(gè)人擁有汽車(chē)的想法,并
    發(fā)表于 08-07 07:13

    自動(dòng)駕駛汽車(chē)中傳感器的分析

    特斯拉在五月份發(fā)生的自動(dòng)駕駛事故,和最近在Defcon上演示的如何干擾傳感器,都充分說(shuō)明了傳感器在自動(dòng)駕駛中的重要性:環(huán)境感知自動(dòng)駕駛實(shí)現(xiàn)的基礎(chǔ),如果不能正確地
    發(fā)表于 05-14 07:34

    從輔助駕駛自動(dòng)駕駛: 感知型車(chē)輛建立在底層高質(zhì)量的傳感器數(shù)據(jù)基礎(chǔ)之上

    的。就像最初的登月一樣,在通往安全自動(dòng)駕駛車(chē)輛的道路上還存在許多障礙。最近發(fā)生的涉及自動(dòng)駕駛車(chē)輛的事故助長(zhǎng)了唱反調(diào)者的聲勢(shì),他們認(rèn)為車(chē)輛及其行駛環(huán)境太復(fù)雜,變數(shù)太多,而算法和軟件仍然錯(cuò)誤太多。對(duì)于參與了
    發(fā)表于 06-16 18:53

    網(wǎng)聯(lián)化自動(dòng)駕駛的含義及發(fā)展方向

      隨著自動(dòng)駕駛的快速發(fā)展,新技術(shù)逐漸涌現(xiàn),通信技術(shù)被產(chǎn)業(yè)認(rèn)為是未來(lái)網(wǎng)聯(lián)化自動(dòng)駕駛發(fā)展的關(guān)鍵技術(shù)。從通信角度出發(fā),分析通信技術(shù)為自動(dòng)駕駛在技術(shù)及可靠性、成本控制、以及社會(huì)效益方面帶來(lái)的提升
    發(fā)表于 01-12 15:42

    基于視覺(jué)的slam自動(dòng)駕駛

    基于視覺(jué)的slam自動(dòng)駕駛,這是我們測(cè)試的視頻《基于slam算法的智能機(jī)器人》調(diào)研分析報(bào)告項(xiàng)目背景分析機(jī)器人曾經(jīng)是科幻電影中的形象,可目前已經(jīng)漸漸走入我們的生活。機(jī)器人技術(shù)以包含機(jī)械、電子、自動(dòng)
    發(fā)表于 08-09 09:37

    自動(dòng)駕駛技術(shù)的實(shí)現(xiàn)

    的帶寬有了更高的要求。從而使用以太網(wǎng)技術(shù)及中央域控制(Domain)和區(qū)域控制(Zonal)架構(gòu)是下一代車(chē)載網(wǎng)絡(luò)的發(fā)展方向。然而對(duì)于自動(dòng)駕駛技術(shù)的實(shí)現(xiàn),涉及到感知、規(guī)劃、執(zhí)行三個(gè)層面。由于車(chē)輛行...
    發(fā)表于 09-03 08:31

    詳細(xì)說(shuō)明多項(xiàng)自動(dòng)駕駛底層軟件技術(shù)

    軟件中,針對(duì)面向服務(wù)架構(gòu)SOA開(kāi)發(fā)需要使用高性能的處理器,自適應(yīng)汽車(chē)開(kāi)放系統(tǒng)架構(gòu)AP Autosar有著不可比擬的優(yōu)勢(shì)。  而應(yīng)用軟件中,自動(dòng)駕駛整體架構(gòu)主要涉及感知、規(guī)劃、決策、控制等節(jié)點(diǎn)。通過(guò)
    發(fā)表于 11-09 16:09

    淺析自動(dòng)駕駛視覺(jué)感知算法

    環(huán)境感知自動(dòng)駕駛的第一環(huán),是車(chē)輛和環(huán)境交互的紐帶。一個(gè)自動(dòng)駕駛系統(tǒng)整體表現(xiàn)的好壞,很大程度上都取決于感知系統(tǒng)的好壞。目前,環(huán)境感知技術(shù)有兩
    發(fā)表于 07-25 10:36 ?499次閱讀
    淺析<b class='flag-5'>自動(dòng)駕駛</b>視覺(jué)<b class='flag-5'>感知</b><b class='flag-5'>算法</b>