作者 |Jone
出品 | 焉知汽車(chē)
現(xiàn)代自動(dòng)駕駛系統(tǒng)的特點(diǎn)是按順序排列的模塊化任務(wù),傳統(tǒng)的方法是基于標(biāo)準(zhǔn)的感知-規(guī)劃-控制這種序列式架構(gòu)的主流處理方式。即首先將感知信息處理成人類(lèi)可以理解的語(yǔ)義信息和道路交通信息,然后基于常態(tài)化知識(shí)和規(guī)則進(jìn)行決策規(guī)劃,這種處理方式在先前常規(guī)的高速路、快速路上實(shí)現(xiàn)L2級(jí)以后以下的駕駛輔助而言是基本沒(méi)有問(wèn)題的。然而,針對(duì)高階自動(dòng)駕駛而言,這類(lèi)專(zhuān)家和規(guī)則的處理方式卻難以勝任在復(fù)雜不確定的城市甚至鄉(xiāng)村場(chǎng)景中需要執(zhí)行的自動(dòng)給駕駛?cè)蝿?wù)。
最近,自動(dòng)駕駛領(lǐng)域無(wú)論是在CVPR上發(fā)表的論文還是工程化實(shí)踐中,最火的專(zhuān)業(yè)領(lǐng)域莫過(guò)于端到端End to End的大模型了。該模型實(shí)際上是一個(gè)抽象的概念,即只需要輸入原始數(shù)據(jù)到模型端,即可得出對(duì)應(yīng)期待的輸出。實(shí)際上,隱藏在大模型背后的便是以人工智能基礎(chǔ)深度學(xué)習(xí)之上的強(qiáng)化深度學(xué)習(xí)。
那么什么是強(qiáng)化深度學(xué)習(xí)呢,實(shí)際上,這是一種將感知、規(guī)劃、決策能力相結(jié)合的計(jì)算能力。且這種學(xué)習(xí)方式根據(jù)輸入的圖像為基礎(chǔ),輸出段以最大限度地模仿真人思考對(duì)環(huán)境的判斷和處理,使得駕駛體驗(yàn)具備靈活性、自適應(yīng)、擬人化程度更佳。更進(jìn)一步講,強(qiáng)化深度學(xué)習(xí)實(shí)際是一種以時(shí)間線(xiàn)為決策基準(zhǔn)的方式,智能體通過(guò)與環(huán)境的交互獲得必要的反饋。對(duì)這種反饋的處理模式與當(dāng)前典型深度學(xué)習(xí)(監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí))的不同之處在于:強(qiáng)化學(xué)習(xí)對(duì)于目標(biāo)訓(xùn)練采用的是獎(jiǎng)勵(lì)函數(shù)而非代價(jià)函數(shù)。
眾所周知,對(duì)于自動(dòng)駕駛環(huán)境場(chǎng)景理解中,一般使用監(jiān)督學(xué)習(xí)算法實(shí)際是標(biāo)準(zhǔn)庫(kù)的匹配過(guò)程,這是可以既快又好的學(xué)習(xí)到環(huán)境目標(biāo)。而針對(duì)規(guī)劃決策而言,則是更加擬人化的處理過(guò)程,也就是規(guī)劃與處理不再是標(biāo)準(zhǔn)的公式套用,而是將高維感知信息通過(guò)不斷的反饋、回歸映射處理實(shí)現(xiàn)到動(dòng)作空間的有效映射。實(shí)踐證明,基于深度強(qiáng)化學(xué)習(xí)的端到端控制架構(gòu)可以規(guī)避傳統(tǒng)方式以來(lái)處理更高維度更復(fù)雜場(chǎng)景的自動(dòng)駕駛決策規(guī)劃能力。
因此,從整體優(yōu)化角度上說(shuō),隨著深度學(xué)習(xí)的成功發(fā)展,自動(dòng)駕駛算法將集合一系列任務(wù),包括感知中的檢測(cè)、跟蹤、建圖,以及預(yù)測(cè)中的運(yùn)動(dòng)和占用預(yù)測(cè)。本文將跳出常規(guī)基于AI感知的數(shù)據(jù)處理模式,而將目光轉(zhuǎn)向感知后端的預(yù)測(cè)、規(guī)劃和決策模塊,將AI處理邏輯應(yīng)用在這些模塊上實(shí)現(xiàn)更加智能化的處理過(guò)程。
為了執(zhí)行各種各樣的任務(wù)并實(shí)現(xiàn)高級(jí)智能,先進(jìn)的算法是要么為單個(gè)任務(wù)部署獨(dú)立模型,要么設(shè)計(jì)具有單獨(dú)頭的多任務(wù)范例。然而,他們可能會(huì)遇到累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足的問(wèn)題。因此,基于AI大模型的自動(dòng)駕駛汽車(chē)規(guī)劃則是一種優(yōu)化整體設(shè)計(jì)框架的有效手段。以此為導(dǎo)向,需要重新審視感知和預(yù)測(cè)中的關(guān)鍵組成部分,并確定任務(wù)的優(yōu)先級(jí),以便所有這些任務(wù)都有助于后續(xù)的任務(wù)規(guī)劃。因此,有必要推出統(tǒng)一自動(dòng)駕駛(UniAD)綜合框架,將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中。充分利用每個(gè)模塊的優(yōu)勢(shì),并從全局角度為代理交互提供互補(bǔ)的特征抽象。各個(gè)任務(wù)間可以通過(guò)統(tǒng)一的查詢(xún)接口進(jìn)行通信,以方便彼此進(jìn)行規(guī)劃。
如上圖(a)所示,只要板載芯片的資源帶寬允許,大多數(shù)行業(yè)解決方案都會(huì)為每個(gè)任務(wù)分配獨(dú)立部署獨(dú)立模型。這樣的設(shè)計(jì)雖然簡(jiǎn)化了跨團(tuán)隊(duì)的研發(fā)難度,但由于各個(gè)任務(wù)之間相互隔離,也存在跨模塊信息丟失、錯(cuò)誤累積、功能錯(cuò)位的風(fēng)險(xiǎn)。
一種更優(yōu)雅的設(shè)計(jì)是將多個(gè)特定任務(wù)頭插入共享特征提取器中,將廣泛的任務(wù)納入多任務(wù)學(xué)習(xí)(MTL)范式中,如上圖(b)所示。這是許多領(lǐng)域的流行做法,包括自動(dòng)駕駛通用視覺(jué)算法(例如 Transformer、BEV )以及芯片行業(yè)(例如 Mobileye、Tesla、Nvidia 等)。在 MTL 中,跨任務(wù)的協(xié)同訓(xùn)練策略可以利用特征抽象毫不費(fèi)力地?cái)U(kuò)展到額外任務(wù),并節(jié)省板載芯片的計(jì)算成本。然而,這樣的方案可能會(huì)導(dǎo)致不良的“負(fù)遷移”。
相比之下,端到端自動(dòng)駕駛模型的出現(xiàn)將所有節(jié)點(diǎn)從感知、預(yù)測(cè)到規(guī)劃統(tǒng)一為一個(gè)整體。前面任務(wù)的選擇和優(yōu)先級(jí)將有利于后續(xù)任務(wù)的規(guī)劃。系統(tǒng)應(yīng)該以規(guī)劃為導(dǎo)向,對(duì)某些組件進(jìn)行精心設(shè)計(jì),使得很少有像獨(dú)立選項(xiàng)那樣的累積誤差或像MTL方案中的負(fù)轉(zhuǎn)移。
遵循端到端范式,一種“白板”實(shí)踐是直接預(yù)測(cè)計(jì)劃軌跡,無(wú)需對(duì)感知和預(yù)測(cè)進(jìn)行任何明確的監(jiān)督,如上圖(c.1)所示。雖然這樣的方向值得進(jìn)一步探索,但其安全保障和可解釋性不足,尤其是對(duì)于高度動(dòng)態(tài)的城市場(chǎng)景。在本文中,我們從另一個(gè)角度提出以下問(wèn)題:對(duì)于一個(gè)可靠的、面向規(guī)劃的自動(dòng)駕駛系統(tǒng),如何設(shè)計(jì)有利于規(guī)劃的管道?哪些前面的任務(wù)是必需的?
直觀(guān)的解決方案是感知周?chē)奈矬w、預(yù)測(cè)未來(lái)的行為并明確地計(jì)劃安全的操作,如上圖(c.2)所示。在這方面已經(jīng)有不少實(shí)踐提供了很好的見(jiàn)解并取得了令人印象深刻的表現(xiàn)。然而,細(xì)節(jié)決定成敗,以前的工作或多或少?zèng)]有考慮某些組成部分,比如以規(guī)劃為導(dǎo)向的必要性。
統(tǒng)一的自動(dòng)駕駛算法框架
最近的研究證明了Transformer 結(jié)構(gòu)在感知任務(wù)上的有效性,受此啟發(fā),在端到端設(shè)置中也將這種時(shí)序上的預(yù)測(cè)模式應(yīng)用到了各個(gè)后端處理中,這里我們簡(jiǎn)稱(chēng)為“xxxFormer”。 首先,我們引入一個(gè)統(tǒng)一的自動(dòng)駕駛算法框架---UniAD ,即利用 ffve 基本任務(wù)來(lái)構(gòu)建安全、魯棒的系統(tǒng)。UniAD 的設(shè)計(jì)本著以規(guī)劃為導(dǎo)向的精神,這不僅僅是一個(gè)簡(jiǎn)單的工程任務(wù)堆棧,而是一個(gè)連接所有節(jié)點(diǎn)的基于查詢(xún)?cè)O(shè)計(jì)的關(guān)鍵組件。與經(jīng)典的邊界框表示相比,查詢(xún)受益于更大的接受場(chǎng),以減輕上游預(yù)測(cè)的復(fù)合誤差。此外,查詢(xún)可以靈活地對(duì)各種交互進(jìn)行建模和編碼,例如多個(gè)代理之間的關(guān)系。UniAD是一個(gè)全面研究自動(dòng)駕駛領(lǐng)域感知、預(yù)測(cè)和規(guī)劃等多種任務(wù)的聯(lián)合工作。通過(guò)這樣的設(shè)計(jì)希望能夠?qū)ψ詣?dòng)駕駛系統(tǒng)的目標(biāo)驅(qū)動(dòng)設(shè)計(jì)有所啟發(fā),為協(xié)調(diào)各種駕駛?cè)蝿?wù)提供一個(gè)起點(diǎn)。
這種遵循以規(guī)劃為導(dǎo)向的理念精心設(shè)計(jì),不是簡(jiǎn)單的任務(wù)堆棧,而是研究每個(gè)模塊在感知和預(yù)測(cè)中的效果,利用從先前節(jié)點(diǎn)到駕駛場(chǎng)景中最終規(guī)劃的聯(lián)合優(yōu)勢(shì)。所有感知和預(yù)測(cè)模塊均采用 Transformer Decoder 結(jié)構(gòu)設(shè)計(jì),以任務(wù)查詢(xún)作為連接各個(gè)節(jié)點(diǎn)的接口。一個(gè)簡(jiǎn)單的基于注意力的規(guī)劃器最終會(huì)考慮從先前節(jié)點(diǎn)提取的知識(shí)來(lái)預(yù)測(cè)自車(chē)未來(lái)路徑點(diǎn)。期間,將會(huì)使用基于視覺(jué)形成的占用地圖。
接下來(lái)將對(duì)如上圖所示的整個(gè)數(shù)據(jù)鏈路中的預(yù)測(cè)模型進(jìn)行完整性說(shuō)明。
首先,軌跡生成是聯(lián)合執(zhí)行檢測(cè)和多目標(biāo)跟蹤(MOT),這種方式無(wú)需后處理,而是采用取查詢(xún)?cè)O(shè)計(jì)的方式。除了對(duì)象檢測(cè)中使用的傳統(tǒng)檢測(cè)查詢(xún)之外,還引入了額外的跟蹤查詢(xún)來(lái)處理跨幀跟蹤代理。具體來(lái)說(shuō),就是在每個(gè)時(shí)間步,初始化的檢測(cè)查詢(xún)負(fù)責(zé)檢測(cè)第一次感知到的新生代理,而跟蹤查詢(xún)則保持對(duì)在先前幀中檢測(cè)到的那些代理進(jìn)行建模。檢測(cè)查詢(xún)和跟蹤查詢(xún)都通過(guò)關(guān)注 BEV 特征 B 來(lái)捕獲代理抽象。隨著場(chǎng)景不斷發(fā)展,當(dāng)前幀的跟蹤查詢(xún)與自注意力模塊中先前記錄的查詢(xún)進(jìn)行交互,以聚合時(shí)間信息,直到在特定時(shí)間段內(nèi)未跟蹤到目標(biāo)且相應(yīng)的代理完全消失。
如上圖所示,UniAD最終包括四個(gè)基于Transformer解碼器的感知和預(yù)測(cè)模塊以及一個(gè)規(guī)劃器。查詢(xún) Q 起到連接管道的作用,以對(duì)駕駛場(chǎng)景中實(shí)體的不同交互進(jìn)行建模。具體來(lái)說(shuō),需要將一系列多攝像頭圖像輸入特征提取器,并通過(guò) BEVFormer 中現(xiàn)成的 BEV 編碼器將所得透視圖特征轉(zhuǎn)換為無(wú)擴(kuò)散鳥(niǎo)瞰圖 (BEV) 特征B。UniAD 并不局限于特定的 BEV 編碼器,并且可以利用其他替代方案通過(guò)長(zhǎng)期時(shí)間的多模態(tài)融合來(lái)提取更豐富的 BEV 表示。 在 TrackFormer 中,從特征圖 B 查詢(xún)到可學(xué)習(xí)的跟蹤信息代理。TrackFormer 包含 N 層,最終輸出狀態(tài) QA 為下游預(yù)測(cè)任務(wù)提供 Na 個(gè)有效代理的知識(shí)。除了對(duì)自車(chē)周?chē)钠渌磉M(jìn)行編碼的查詢(xún)之外,還在查詢(xún)集中引入了一個(gè)特定的自車(chē)查詢(xún),以顯式地對(duì)自動(dòng)駕駛車(chē)輛本身進(jìn)行建模,這將進(jìn)一步用于規(guī)劃。
MapFormer 則將地圖作為道路元素(例如車(chē)道和分隔線(xiàn))的語(yǔ)義抽象進(jìn)行查詢(xún),并執(zhí)行地圖的全景分割。這種基于 2D 全景分割方法 Panoptic SegFormer進(jìn)行地圖設(shè)計(jì)原理是將道路元素稀疏地表示為地圖查詢(xún),以幫助下游進(jìn)行運(yùn)動(dòng)預(yù)測(cè),并對(duì)位置和結(jié)構(gòu)知識(shí)進(jìn)行編碼。對(duì)于不同的駕駛場(chǎng)景而言,將車(chē)道、分隔線(xiàn)和十字路口設(shè)置為關(guān)注目標(biāo),并將可行駛區(qū)域設(shè)置為某一特定的其他目標(biāo)。此外,MapFormer還有N個(gè)堆疊層,每層的輸出結(jié)果都受到監(jiān)督,而只有最后一層中更新的查詢(xún)QM被轉(zhuǎn)發(fā)到MotionFormer以進(jìn)行智駕車(chē)與地圖的交互。
通過(guò)上述表示代理和地圖的查詢(xún),MotionFormer 捕獲代理和地圖之間的交互,并預(yù)測(cè)每個(gè)代理的未來(lái)軌跡。接下來(lái),OccFormer 采用 BEV 特征 B 作為查詢(xún),配備智能體作為鍵和值,并在保留智駕車(chē)輛的情況下預(yù)測(cè)多步未來(lái)占用情況。最后,Planner利用 MotionFormer 富有表現(xiàn)力的自車(chē)查詢(xún)來(lái)預(yù)測(cè)規(guī)劃結(jié)果,并使其遠(yuǎn)離 OccFormer 預(yù)測(cè)的占用區(qū)域以避免碰撞。
以上過(guò)程中,如果考慮自車(chē)行駛的周邊場(chǎng)景都是智能體,且由于每個(gè)智能體的動(dòng)作都會(huì)對(duì)場(chǎng)景中的其他智能體產(chǎn)生重大影響,因此該模塊對(duì)所有考慮的智能體都可以進(jìn)行聯(lián)合預(yù)測(cè)。同時(shí),通過(guò)設(shè)計(jì)一個(gè)自車(chē)查詢(xún)來(lái)顯式地建模,并使其能夠在這種以場(chǎng)景為中心的范例中與其他代理進(jìn)行交互。
運(yùn)動(dòng)預(yù)測(cè)與占用預(yù)測(cè)
接下來(lái)將詳細(xì)介紹相關(guān)運(yùn)動(dòng)預(yù)測(cè)和占用預(yù)測(cè)的詳細(xì)方法。
1、運(yùn)動(dòng)預(yù)測(cè)
首先,通過(guò)分別從 TrackFormer 和 MapFormer 對(duì)動(dòng)態(tài)代理 QA 和靜態(tài)地圖 QM 進(jìn)行高度抽象的查詢(xún),MotionFormer 以場(chǎng)景為中心的方式預(yù)測(cè)所有代理的多模態(tài)未來(lái)運(yùn)動(dòng),即前 k 個(gè)可能的軌跡。這種范例通過(guò)一次前向傳遞在幀中產(chǎn)生多智能體軌跡,這大大節(jié)省了將整個(gè)場(chǎng)景與每個(gè)智能體坐標(biāo)對(duì)齊的計(jì)算成本。同時(shí),考慮到未來(lái)的動(dòng)態(tài),通過(guò) MotionFormer 傳遞來(lái)自 TrackFormer 的自車(chē)查詢(xún),以使自車(chē)與其他環(huán)境目標(biāo)進(jìn)行交互。形式上,輸出運(yùn)動(dòng)被表述為 {x?i, k ∈ RT×2|i = 1,......N; k=1,... ..., K} ,其中 i 表示索引代理,k 索引軌跡模態(tài),T 是預(yù)測(cè)范圍的長(zhǎng)度。
運(yùn)動(dòng)預(yù)測(cè)由 N 層組成,每層捕獲三種類(lèi)型的交互:自車(chē)與周邊環(huán)境目標(biāo)、自車(chē)與地圖和自車(chē)與潛在風(fēng)險(xiǎn)目標(biāo)。對(duì)于每個(gè)運(yùn)動(dòng)查詢(xún) Qi,k,其與其他代理 QA 或地圖元素 QM 之間的交互可以表示為:
其中,MHCA、MHSA 分別表示多頭交叉注意力和多頭自注意力。由于在完善預(yù)測(cè)軌跡中更加關(guān)注預(yù)期位置(即目標(biāo)點(diǎn)),因此通過(guò)可變形注意力可以設(shè)計(jì)一個(gè)代理目標(biāo)點(diǎn)注意力,如下所示:
其中 x^l?1T 是上一層預(yù)測(cè)軌跡的端點(diǎn)。DeformAttn(q,r,x) 是一個(gè)可變形注意力模塊,接收查詢(xún)q、參考點(diǎn) r 和空間特征 x。它對(duì)參考點(diǎn)周?chē)目臻g特征進(jìn)行稀疏關(guān)注,通過(guò)這種方式,隨著了解端點(diǎn)周?chē)h(huán)境,預(yù)測(cè)軌跡將進(jìn)一步細(xì)化。所有這三種交互都是并行建模的,其中生成的 Qa、Qm 和 Qg 被連接并傳遞到多層感知器 (MLP),從而生成查詢(xún)上下文 Qctx。然后,Qctx被發(fā)送到后續(xù)層進(jìn)行細(xì)化或解碼為最后一層的預(yù)測(cè)結(jié)果。
2、占用網(wǎng)格圖預(yù)測(cè)
“占用網(wǎng)格圖”這是一個(gè)當(dāng)前智能駕駛相對(duì)較火的術(shù)語(yǔ),其本身是一種離散化的 BEV 表示,其中每個(gè)單元格都持有一個(gè)指示其是否被占用的信念,而占用預(yù)測(cè)任務(wù)是發(fā)現(xiàn)網(wǎng)格圖未來(lái)如何變化。先前經(jīng)典的方法利用 RNN 結(jié)構(gòu)根據(jù)觀(guān)察到的 BEV 特征在時(shí)間上擴(kuò)展未來(lái)預(yù)測(cè) 。
然而,這種高度依賴(lài)于手工制作的聚類(lèi)后處理來(lái)生成每個(gè)智能體占用圖,因?yàn)樗鼈兺ㄟ^(guò)將 BEV 特征作為一個(gè)整體壓縮到 RNN 隱藏狀態(tài),而這其中大多與智能體無(wú)關(guān)。由于代理知識(shí)的使用不足,他們很難預(yù)測(cè)全局所有代理的行為,這對(duì)于理解場(chǎng)景如何演變至關(guān)重要。為了解決這個(gè)問(wèn)題,就需要進(jìn)一步詳細(xì)介紹占用網(wǎng)絡(luò)預(yù)測(cè) OccFormer 。
在占用網(wǎng)格預(yù)測(cè)中,主要在兩個(gè)方面結(jié)合了場(chǎng)景級(jí)和代理級(jí)語(yǔ)義:
(1)密集場(chǎng)景特征在展開(kāi)到未來(lái)視野時(shí)通過(guò)精心設(shè)計(jì)的注意力模塊獲取代理級(jí)特征;
(2)我們通過(guò)代理級(jí)特征和密集場(chǎng)景特征之間的矩陣乘法輕松產(chǎn)生實(shí)例占用率,而無(wú)需進(jìn)行繁重的后處理。
OccFormer 由 To 順序塊組成,其中 To 表示預(yù)測(cè)范圍。由于密集表示占用的計(jì)算成本較高,因此在運(yùn)動(dòng)任務(wù)中 To 通常小于 T。每個(gè)塊將來(lái)自前一層的豐富代理特征 Gt 和狀態(tài)(密集特征)F t?1 作為輸入,并考慮實(shí)例級(jí)和場(chǎng)景級(jí)信息生成時(shí)間步 t 的密集特征 Ft。
為了獲得具有動(dòng)態(tài)和空間先驗(yàn)的代理特征Gt,可表示為 QX ∈ R Na×D 的模態(tài)維度中對(duì)來(lái)自 MotionFormer 的最大池運(yùn)動(dòng)查詢(xún)進(jìn)行最大池化,其中 D 作為特征維度。通過(guò)a將其與上游軌跡查詢(xún)QA和當(dāng)前位置嵌入PA融合時(shí)間特定 MLP:
其中[·]表示串聯(lián)。對(duì)于場(chǎng)景級(jí)知識(shí),為了提高訓(xùn)練效率,將 BEV 特征 B 縮小到 1/4 分辨率,以作為第一個(gè)塊輸入 F0。為了進(jìn)一步節(jié)省訓(xùn)練內(nèi)存,每個(gè)塊都遵循下采樣-上采樣方式,并注意中間的模塊以 1/8 自縮放特征進(jìn)行像素代理交互,表示為 Ftds。
像素與代理交互旨在預(yù)測(cè)未來(lái)占用情況時(shí)輸出統(tǒng)一場(chǎng)景和代理級(jí)別的理解。將密集特征 Ftds 作為查詢(xún)輸入,將實(shí)例級(jí)特征作為鍵和值,以隨著時(shí)間的推移更新密集特征。具體來(lái)說(shuō),F(xiàn)tds 通過(guò)自注意力層來(lái)對(duì)遠(yuǎn)處網(wǎng)格之間的響應(yīng)進(jìn)行建模,然后交叉注意力層對(duì)代理特征Gt 和每個(gè)網(wǎng)格特征之間的交互進(jìn)行建模。此外,為了對(duì)齊像素-代理對(duì)應(yīng)關(guān)系,通過(guò)注意掩模來(lái)約束交叉注意,該掩模限制每個(gè)像素僅在時(shí)間步 t 處查看占據(jù)它的代理。稠密特征的更新過(guò)程可表述為:
注意掩碼 Ot m 在語(yǔ)義上與占用相似,是通過(guò)將額外的代理級(jí)特征與密集特征 Ftds 相乘而生成的,其中將此處的代理級(jí)特征命名為掩碼特征Mt = MLP(Gt )。經(jīng)過(guò)方程式中的交互過(guò)程后,Dtds 被上采樣到 B 的 1/4 大小。進(jìn)一步將 Dtds 與塊輸入 Ft?1 作為殘差連接相加,并將得到的特征 Ft 傳遞到下一個(gè)塊。
接下來(lái)是生成實(shí)例級(jí)占用率。它代表保留每個(gè)代理身份的占用情況。它可以通過(guò)矩陣乘法簡(jiǎn)單地繪制出來(lái),就像最近基于查詢(xún)的分割工作一樣。形式上,為了獲得 BEV 特征 B 的原始大小 H ×W 的占用預(yù)測(cè),場(chǎng)景級(jí)特征 Ft需要通過(guò)卷積解碼器上采樣Ft dec ∈ R C×H×W,其中 C 是通道維度。對(duì)于代理級(jí)特征,我們進(jìn)一步通過(guò)另一個(gè) MLP 將粗掩模特征 Mt 更新為占用特征 Ut ∈ R Na×C。從經(jīng)驗(yàn)發(fā)現(xiàn),從掩碼特征 Mt 而不是原始代理特征 Gt 所生成的 Ut 會(huì)帶來(lái)更加優(yōu)越的性能。最終以時(shí)間t 為步長(zhǎng)的最終實(shí)例級(jí)占用率可以表示為:
運(yùn)動(dòng)軌跡規(guī)劃與查詢(xún)
在沒(méi)有高清 (HD) 地圖或預(yù)定義路線(xiàn)的情況下進(jìn)行規(guī)劃通常需要高級(jí)命令來(lái)指示前進(jìn)方向。對(duì)于智能車(chē)而言,其對(duì)應(yīng)的行駛動(dòng)作無(wú)非包括車(chē)道保持、加減速、變道等。因此,可以粗略的將原始導(dǎo)航信號(hào)(即左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn))轉(zhuǎn)換為三個(gè)可學(xué)習(xí)的嵌入,稱(chēng)為命令嵌入。由于 MotionFormer 的自車(chē)查詢(xún)已經(jīng)表達(dá)了其多模式意圖,因此,需要為其配備命令嵌入以形成“計(jì)劃查詢(xún)”。
這里對(duì) BEV 特征 B 進(jìn)行計(jì)劃查詢(xún),使其了解周?chē)h(huán)境,然后將其解碼為未來(lái)的航路點(diǎn) τ?。為了進(jìn)一步避免碰撞,可以通過(guò)以下方式進(jìn)行推理優(yōu)化τ?:
其中τ?是原始規(guī)劃預(yù)測(cè),τ*表示優(yōu)化規(guī)劃,它是從multipleshooting軌跡τ中選擇的,以最小化成本函數(shù)f(·)。O^ 是從 OccFormer 的實(shí)例占用預(yù)測(cè)合并而來(lái)的經(jīng)典二進(jìn)制占用圖。
MotionFormer 每層的輸入查詢(xún)(稱(chēng)為運(yùn)動(dòng)查詢(xún))包含兩個(gè)組成部分:如前所述由前一層產(chǎn)生的查詢(xún)上下文 Qctx 以及查詢(xún)位置 Qpos。具體來(lái)說(shuō),Qpos 將位置知識(shí)四重整合,如下式中所示。
其中們這些位置包括場(chǎng)景級(jí)錨點(diǎn) Is 的位置;代理級(jí)錨點(diǎn) Ia 的位置;智能體 i 的當(dāng)前位置x0和預(yù)測(cè)目標(biāo)點(diǎn)xl-1T。
這里利用正弦位置編碼 PE(·) 后跟 MLP 對(duì)位置點(diǎn)進(jìn)行編碼,并將 x0T 設(shè)置為 I s
在第一層(下標(biāo)i、k也被省略)。場(chǎng)景級(jí)錨點(diǎn)表示全局視圖中的先前運(yùn)動(dòng)統(tǒng)計(jì)數(shù)據(jù),而代理級(jí)錨點(diǎn)捕獲局部坐標(biāo)中可能的意圖。它們都通過(guò) k-means 算法在真實(shí)軌跡的端點(diǎn)上進(jìn)行聚類(lèi),以縮小預(yù)測(cè)的不確定性。
與先驗(yàn)知識(shí)相反,起點(diǎn)為每個(gè)智能體提供定制的位置嵌入,預(yù)測(cè)的終點(diǎn)作為動(dòng)態(tài)錨以粗到細(xì)的方式逐層優(yōu)化。
基于自學(xué)習(xí)的非線(xiàn)性?xún)?yōu)化
與直接訪(fǎng)問(wèn)地面真實(shí)感知結(jié)果(即代理的位置和相應(yīng)軌跡)的傳統(tǒng)運(yùn)動(dòng)預(yù)測(cè)工作不同,在端到端范式中考慮了先前模塊的預(yù)測(cè)不確定性。從不完美的檢測(cè)位置或航向角回歸地面實(shí)況航跡點(diǎn),這可能會(huì)導(dǎo)致預(yù)測(cè)軌跡產(chǎn)生不合實(shí)際的較大曲率和加速度。為了解決這個(gè)問(wèn)題,可以采用非線(xiàn)性平滑器來(lái)調(diào)整目標(biāo)軌跡,并在上游模塊預(yù)測(cè)的起始點(diǎn)不精確的情況下使它們也可以用于未來(lái)的預(yù)測(cè)。其過(guò)程是:
其中x和x*表示真實(shí)軌跡和平滑軌跡,x是通過(guò)多次觀(guān)測(cè)生成的數(shù)據(jù),相應(yīng)的成本函數(shù)如下:
其中λxy和λgoal是超參數(shù),運(yùn)動(dòng)學(xué)函數(shù)集Φ有5個(gè)項(xiàng),包括橫縱向加速度及其變化率、曲率、曲率變化率。成本函數(shù)規(guī)范目標(biāo)軌跡且遵守運(yùn)動(dòng)學(xué)約束,這種目標(biāo)軌跡優(yōu)化僅在訓(xùn)練時(shí)進(jìn)行,不影響推理。
最后,UniAD 框架中的模塊學(xué)習(xí)分兩個(gè)階段。首先聯(lián)合訓(xùn)練幾個(gè) epoch感知部分,即跟蹤和映射模塊,然后使用所有感知、預(yù)測(cè)和規(guī)劃模塊端到端地訓(xùn)練模型 20 個(gè) epoch。且經(jīng)驗(yàn)發(fā)現(xiàn)兩階段學(xué)習(xí)訓(xùn)練更穩(wěn)定。由于 UniAD 涉及實(shí)例建模,因此在感知和預(yù)測(cè)任務(wù)中需要將預(yù)測(cè)與地面實(shí)況集配對(duì)。這里,需要在跟蹤和在線(xiàn)建圖階段采用二分匹配算法。至于跟蹤,來(lái)自檢測(cè)查詢(xún)的候選者與新生的地面實(shí)況對(duì)象配對(duì),來(lái)自跟蹤查詢(xún)的預(yù)測(cè)繼承了先前幀的分配。跟蹤模塊中的匹配結(jié)果在運(yùn)動(dòng)和占用節(jié)點(diǎn)中可以被重用,以在端到端框架中對(duì)從歷史軌跡到未來(lái)運(yùn)動(dòng)的代理進(jìn)行一致的建模。
總結(jié)
基于深度強(qiáng)化學(xué)習(xí)的端到端(End-to-end)的控制架構(gòu)是自動(dòng)駕駛領(lǐng)域中新興的研究熱點(diǎn),它能克服傳統(tǒng)方式依賴(lài)先驗(yàn)環(huán)境建模的問(wèn)題,可以直接實(shí)現(xiàn)通過(guò)從感知到控制功能的映射。即,將transformer的思想整個(gè)貫穿于感知、預(yù)測(cè)、規(guī)劃、決策的整個(gè)處理過(guò)程。
本文介紹的處理算法遵循以規(guī)劃為導(dǎo)向的理念,擁抱自動(dòng)駕駛框架的新前景,并證明有效任務(wù)協(xié)調(diào)的必要性,而不是獨(dú)立設(shè)計(jì)或簡(jiǎn)單的多任務(wù)學(xué)習(xí)。并且這種UniAD作為一個(gè)利用廣泛任務(wù)的綜合性端到端系統(tǒng),可以很好的啟動(dòng)關(guān)鍵組件,將查詢(xún)?cè)O(shè)計(jì)為連接所有節(jié)點(diǎn)的接口。因此,本文中的UniAD 享有靈活的中間表示和交換多任務(wù)知識(shí)以進(jìn)行規(guī)劃。
審核編輯:湯梓紅
-
人工智能
+關(guān)注
關(guān)注
1789文章
46316瀏覽量
236469 -
感知算法
+關(guān)注
關(guān)注
0文章
19瀏覽量
7621 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
782文章
13525瀏覽量
165728 -
Transformer
+關(guān)注
關(guān)注
0文章
136瀏覽量
5961
原文標(biāo)題:從Transformer探索自動(dòng)駕駛感知算法提升處理策略
文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論