av中文字幕在线亚洲,制服丝袜中文字幕亚洲欧美,亚洲精品国产精品乱码无卡

作者 |Jone

出品 | 焉知汽車(chē)

現(xiàn)代自動(dòng)駕駛系統(tǒng)的特點(diǎn)是按順序排列的模塊化任務(wù)，傳統(tǒng)的方法是基于標(biāo)準(zhǔn)的感知-規(guī)劃-控制這種序列式架構(gòu)的主流處理方式。即首先將感知信息處理成人類(lèi)可以理解的語(yǔ)義信息和道路交通信息，然后基于常態(tài)化知識(shí)和規(guī)則進(jìn)行決策規(guī)劃，這種處理方式在先前常規(guī)的高速路、快速路上實(shí)現(xiàn)L2級(jí)以后以下的駕駛輔助而言是基本沒(méi)有問(wèn)題的。然而，針對(duì)高階自動(dòng)駕駛而言，這類(lèi)專(zhuān)家和規(guī)則的處理方式卻難以勝任在復(fù)雜不確定的城市甚至鄉(xiāng)村場(chǎng)景中需要執(zhí)行的自動(dòng)給駕駛?cè)蝿?wù)。

最近，自動(dòng)駕駛領(lǐng)域無(wú)論是在CVPR上發(fā)表的論文還是工程化實(shí)踐中，最火的專(zhuān)業(yè)領(lǐng)域莫過(guò)于端到端End to End的大模型了。該模型實(shí)際上是一個(gè)抽象的概念，即只需要輸入原始數(shù)據(jù)到模型端，即可得出對(duì)應(yīng)期待的輸出。實(shí)際上，隱藏在大模型背后的便是以人工智能基礎(chǔ)深度學(xué)習(xí)之上的強(qiáng)化深度學(xué)習(xí)。

那么什么是強(qiáng)化深度學(xué)習(xí)呢，實(shí)際上，這是一種將感知、規(guī)劃、決策能力相結(jié)合的計(jì)算能力。且這種學(xué)習(xí)方式根據(jù)輸入的圖像為基礎(chǔ)，輸出段以最大限度地模仿真人思考對(duì)環(huán)境的判斷和處理，使得駕駛體驗(yàn)具備靈活性、自適應(yīng)、擬人化程度更佳。更進(jìn)一步講，強(qiáng)化深度學(xué)習(xí)實(shí)際是一種以時(shí)間線(xiàn)為決策基準(zhǔn)的方式，智能體通過(guò)與環(huán)境的交互獲得必要的反饋。對(duì)這種反饋的處理模式與當(dāng)前典型深度學(xué)習(xí)（監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)）的不同之處在于：強(qiáng)化學(xué)習(xí)對(duì)于目標(biāo)訓(xùn)練采用的是獎(jiǎng)勵(lì)函數(shù)而非代價(jià)函數(shù)。

眾所周知，對(duì)于自動(dòng)駕駛環(huán)境場(chǎng)景理解中，一般使用監(jiān)督學(xué)習(xí)算法實(shí)際是標(biāo)準(zhǔn)庫(kù)的匹配過(guò)程，這是可以既快又好的學(xué)習(xí)到環(huán)境目標(biāo)。而針對(duì)規(guī)劃決策而言，則是更加擬人化的處理過(guò)程，也就是規(guī)劃與處理不再是標(biāo)準(zhǔn)的公式套用，而是將高維感知信息通過(guò)不斷的反饋、回歸映射處理實(shí)現(xiàn)到動(dòng)作空間的有效映射。實(shí)踐證明，基于深度強(qiáng)化學(xué)習(xí)的端到端控制架構(gòu)可以規(guī)避傳統(tǒng)方式以來(lái)處理更高維度更復(fù)雜場(chǎng)景的自動(dòng)駕駛決策規(guī)劃能力。

因此，從整體優(yōu)化角度上說(shuō)，隨著深度學(xué)習(xí)的成功發(fā)展，自動(dòng)駕駛算法將集合一系列任務(wù)，包括感知中的檢測(cè)、跟蹤、建圖，以及預(yù)測(cè)中的運(yùn)動(dòng)和占用預(yù)測(cè)。本文將跳出常規(guī)基于AI感知的數(shù)據(jù)處理模式，而將目光轉(zhuǎn)向感知后端的預(yù)測(cè)、規(guī)劃和決策模塊，將AI處理邏輯應(yīng)用在這些模塊上實(shí)現(xiàn)更加智能化的處理過(guò)程。

為了執(zhí)行各種各樣的任務(wù)并實(shí)現(xiàn)高級(jí)智能，先進(jìn)的算法是要么為單個(gè)任務(wù)部署獨(dú)立模型，要么設(shè)計(jì)具有單獨(dú)頭的多任務(wù)范例。然而，他們可能會(huì)遇到累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足的問(wèn)題。因此，基于AI大模型的自動(dòng)駕駛汽車(chē)規(guī)劃則是一種優(yōu)化整體設(shè)計(jì)框架的有效手段。以此為導(dǎo)向，需要重新審視感知和預(yù)測(cè)中的關(guān)鍵組成部分，并確定任務(wù)的優(yōu)先級(jí)，以便所有這些任務(wù)都有助于后續(xù)的任務(wù)規(guī)劃。因此，有必要推出統(tǒng)一自動(dòng)駕駛（UniAD）綜合框架，將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中。充分利用每個(gè)模塊的優(yōu)勢(shì)，并從全局角度為代理交互提供互補(bǔ)的特征抽象。各個(gè)任務(wù)間可以通過(guò)統(tǒng)一的查詢(xún)接口進(jìn)行通信，以方便彼此進(jìn)行規(guī)劃。

如上圖（a）所示，只要板載芯片的資源帶寬允許，大多數(shù)行業(yè)解決方案都會(huì)為每個(gè)任務(wù)分配獨(dú)立部署獨(dú)立模型。這樣的設(shè)計(jì)雖然簡(jiǎn)化了跨團(tuán)隊(duì)的研發(fā)難度，但由于各個(gè)任務(wù)之間相互隔離，也存在跨模塊信息丟失、錯(cuò)誤累積、功能錯(cuò)位的風(fēng)險(xiǎn)。

一種更優(yōu)雅的設(shè)計(jì)是將多個(gè)特定任務(wù)頭插入共享特征提取器中，將廣泛的任務(wù)納入多任務(wù)學(xué)習(xí)（MTL）范式中，如上圖（b）所示。這是許多領(lǐng)域的流行做法，包括自動(dòng)駕駛通用視覺(jué)算法（例如 Transformer、BEV ）以及芯片行業(yè)（例如 Mobileye、Tesla、Nvidia 等）。在 MTL 中，跨任務(wù)的協(xié)同訓(xùn)練策略可以利用特征抽象毫不費(fèi)力地?cái)U(kuò)展到額外任務(wù)，并節(jié)省板載芯片的計(jì)算成本。然而，這樣的方案可能會(huì)導(dǎo)致不良的“負(fù)遷移”。

相比之下，端到端自動(dòng)駕駛模型的出現(xiàn)將所有節(jié)點(diǎn)從感知、預(yù)測(cè)到規(guī)劃統(tǒng)一為一個(gè)整體。前面任務(wù)的選擇和優(yōu)先級(jí)將有利于后續(xù)任務(wù)的規(guī)劃。系統(tǒng)應(yīng)該以規(guī)劃為導(dǎo)向，對(duì)某些組件進(jìn)行精心設(shè)計(jì)，使得很少有像獨(dú)立選項(xiàng)那樣的累積誤差或像MTL方案中的負(fù)轉(zhuǎn)移。

遵循端到端范式，一種“白板”實(shí)踐是直接預(yù)測(cè)計(jì)劃軌跡，無(wú)需對(duì)感知和預(yù)測(cè)進(jìn)行任何明確的監(jiān)督，如上圖（c.1）所示。雖然這樣的方向值得進(jìn)一步探索，但其安全保障和可解釋性不足，尤其是對(duì)于高度動(dòng)態(tài)的城市場(chǎng)景。在本文中，我們從另一個(gè)角度提出以下問(wèn)題：對(duì)于一個(gè)可靠的、面向規(guī)劃的自動(dòng)駕駛系統(tǒng)，如何設(shè)計(jì)有利于規(guī)劃的管道？哪些前面的任務(wù)是必需的？

直觀(guān)的解決方案是感知周?chē)奈矬w、預(yù)測(cè)未來(lái)的行為并明確地計(jì)劃安全的操作，如上圖（c.2）所示。在這方面已經(jīng)有不少實(shí)踐提供了很好的見(jiàn)解并取得了令人印象深刻的表現(xiàn)。然而，細(xì)節(jié)決定成敗，以前的工作或多或少?zèng)]有考慮某些組成部分，比如以規(guī)劃為導(dǎo)向的必要性。

統(tǒng)一的自動(dòng)駕駛算法框架

最近的研究證明了Transformer 結(jié)構(gòu)在感知任務(wù)上的有效性，受此啟發(fā)，在端到端設(shè)置中也將這種時(shí)序上的預(yù)測(cè)模式應(yīng)用到了各個(gè)后端處理中，這里我們簡(jiǎn)稱(chēng)為“xxxFormer”。首先，我們引入一個(gè)統(tǒng)一的自動(dòng)駕駛算法框架---UniAD ，即利用 ffve 基本任務(wù)來(lái)構(gòu)建安全、魯棒的系統(tǒng)。UniAD 的設(shè)計(jì)本著以規(guī)劃為導(dǎo)向的精神，這不僅僅是一個(gè)簡(jiǎn)單的工程任務(wù)堆棧，而是一個(gè)連接所有節(jié)點(diǎn)的基于查詢(xún)?cè)O(shè)計(jì)的關(guān)鍵組件。與經(jīng)典的邊界框表示相比，查詢(xún)受益于更大的接受場(chǎng)，以減輕上游預(yù)測(cè)的復(fù)合誤差。此外，查詢(xún)可以靈活地對(duì)各種交互進(jìn)行建模和編碼，例如多個(gè)代理之間的關(guān)系。UniAD是一個(gè)全面研究自動(dòng)駕駛領(lǐng)域感知、預(yù)測(cè)和規(guī)劃等多種任務(wù)的聯(lián)合工作。通過(guò)這樣的設(shè)計(jì)希望能夠?qū)ψ詣?dòng)駕駛系統(tǒng)的目標(biāo)驅(qū)動(dòng)設(shè)計(jì)有所啟發(fā)，為協(xié)調(diào)各種駕駛?cè)蝿?wù)提供一個(gè)起點(diǎn)。

這種遵循以規(guī)劃為導(dǎo)向的理念精心設(shè)計(jì)，不是簡(jiǎn)單的任務(wù)堆棧，而是研究每個(gè)模塊在感知和預(yù)測(cè)中的效果，利用從先前節(jié)點(diǎn)到駕駛場(chǎng)景中最終規(guī)劃的聯(lián)合優(yōu)勢(shì)。所有感知和預(yù)測(cè)模塊均采用 Transformer Decoder 結(jié)構(gòu)設(shè)計(jì)，以任務(wù)查詢(xún)作為連接各個(gè)節(jié)點(diǎn)的接口。一個(gè)簡(jiǎn)單的基于注意力的規(guī)劃器最終會(huì)考慮從先前節(jié)點(diǎn)提取的知識(shí)來(lái)預(yù)測(cè)自車(chē)未來(lái)路徑點(diǎn)。期間，將會(huì)使用基于視覺(jué)形成的占用地圖。

接下來(lái)將對(duì)如上圖所示的整個(gè)數(shù)據(jù)鏈路中的預(yù)測(cè)模型進(jìn)行完整性說(shuō)明。

首先，軌跡生成是聯(lián)合執(zhí)行檢測(cè)和多目標(biāo)跟蹤（MOT），這種方式無(wú)需后處理，而是采用取查詢(xún)?cè)O(shè)計(jì)的方式。除了對(duì)象檢測(cè)中使用的傳統(tǒng)檢測(cè)查詢(xún)之外，還引入了額外的跟蹤查詢(xún)來(lái)處理跨幀跟蹤代理。具體來(lái)說(shuō)，就是在每個(gè)時(shí)間步，初始化的檢測(cè)查詢(xún)負(fù)責(zé)檢測(cè)第一次感知到的新生代理，而跟蹤查詢(xún)則保持對(duì)在先前幀中檢測(cè)到的那些代理進(jìn)行建模。檢測(cè)查詢(xún)和跟蹤查詢(xún)都通過(guò)關(guān)注 BEV 特征 B 來(lái)捕獲代理抽象。隨著場(chǎng)景不斷發(fā)展，當(dāng)前幀的跟蹤查詢(xún)與自注意力模塊中先前記錄的查詢(xún)進(jìn)行交互，以聚合時(shí)間信息，直到在特定時(shí)間段內(nèi)未跟蹤到目標(biāo)且相應(yīng)的代理完全消失。

如上圖所示，UniAD最終包括四個(gè)基于Transformer解碼器的感知和預(yù)測(cè)模塊以及一個(gè)規(guī)劃器。查詢(xún) Q 起到連接管道的作用，以對(duì)駕駛場(chǎng)景中實(shí)體的不同交互進(jìn)行建模。具體來(lái)說(shuō)，需要將一系列多攝像頭圖像輸入特征提取器，并通過(guò) BEVFormer 中現(xiàn)成的 BEV 編碼器將所得透視圖特征轉(zhuǎn)換為無(wú)擴(kuò)散鳥(niǎo)瞰圖 (BEV) 特征B。UniAD 并不局限于特定的 BEV 編碼器，并且可以利用其他替代方案通過(guò)長(zhǎng)期時(shí)間的多模態(tài)融合來(lái)提取更豐富的 BEV 表示。在 TrackFormer 中，從特征圖 B 查詢(xún)到可學(xué)習(xí)的跟蹤信息代理。TrackFormer 包含 N 層，最終輸出狀態(tài) QA 為下游預(yù)測(cè)任務(wù)提供 Na 個(gè)有效代理的知識(shí)。除了對(duì)自車(chē)周?chē)钠渌磉M(jìn)行編碼的查詢(xún)之外，還在查詢(xún)集中引入了一個(gè)特定的自車(chē)查詢(xún)，以顯式地對(duì)自動(dòng)駕駛車(chē)輛本身進(jìn)行建模，這將進(jìn)一步用于規(guī)劃。

MapFormer 則將地圖作為道路元素（例如車(chē)道和分隔線(xiàn)）的語(yǔ)義抽象進(jìn)行查詢(xún)，并執(zhí)行地圖的全景分割。這種基于 2D 全景分割方法 Panoptic SegFormer進(jìn)行地圖設(shè)計(jì)原理是將道路元素稀疏地表示為地圖查詢(xún)，以幫助下游進(jìn)行運(yùn)動(dòng)預(yù)測(cè)，并對(duì)位置和結(jié)構(gòu)知識(shí)進(jìn)行編碼。對(duì)于不同的駕駛場(chǎng)景而言，將車(chē)道、分隔線(xiàn)和十字路口設(shè)置為關(guān)注目標(biāo)，并將可行駛區(qū)域設(shè)置為某一特定的其他目標(biāo)。此外，MapFormer還有N個(gè)堆疊層，每層的輸出結(jié)果都受到監(jiān)督，而只有最后一層中更新的查詢(xún)QM被轉(zhuǎn)發(fā)到MotionFormer以進(jìn)行智駕車(chē)與地圖的交互。

通過(guò)上述表示代理和地圖的查詢(xún)，MotionFormer 捕獲代理和地圖之間的交互，并預(yù)測(cè)每個(gè)代理的未來(lái)軌跡。接下來(lái)，OccFormer 采用 BEV 特征 B 作為查詢(xún)，配備智能體作為鍵和值，并在保留智駕車(chē)輛的情況下預(yù)測(cè)多步未來(lái)占用情況。最后，Planner利用 MotionFormer 富有表現(xiàn)力的自車(chē)查詢(xún)來(lái)預(yù)測(cè)規(guī)劃結(jié)果，并使其遠(yuǎn)離 OccFormer 預(yù)測(cè)的占用區(qū)域以避免碰撞。

以上過(guò)程中，如果考慮自車(chē)行駛的周邊場(chǎng)景都是智能體，且由于每個(gè)智能體的動(dòng)作都會(huì)對(duì)場(chǎng)景中的其他智能體產(chǎn)生重大影響，因此該模塊對(duì)所有考慮的智能體都可以進(jìn)行聯(lián)合預(yù)測(cè)。同時(shí)，通過(guò)設(shè)計(jì)一個(gè)自車(chē)查詢(xún)來(lái)顯式地建模，并使其能夠在這種以場(chǎng)景為中心的范例中與其他代理進(jìn)行交互。

運(yùn)動(dòng)預(yù)測(cè)與占用預(yù)測(cè)

接下來(lái)將詳細(xì)介紹相關(guān)運(yùn)動(dòng)預(yù)測(cè)和占用預(yù)測(cè)的詳細(xì)方法。

1、運(yùn)動(dòng)預(yù)測(cè)

首先，通過(guò)分別從 TrackFormer 和 MapFormer 對(duì)動(dòng)態(tài)代理 QA 和靜態(tài)地圖 QM 進(jìn)行高度抽象的查詢(xún)，MotionFormer 以場(chǎng)景為中心的方式預(yù)測(cè)所有代理的多模態(tài)未來(lái)運(yùn)動(dòng)，即前 k 個(gè)可能的軌跡。這種范例通過(guò)一次前向傳遞在幀中產(chǎn)生多智能體軌跡，這大大節(jié)省了將整個(gè)場(chǎng)景與每個(gè)智能體坐標(biāo)對(duì)齊的計(jì)算成本。同時(shí)，考慮到未來(lái)的動(dòng)態(tài)，通過(guò) MotionFormer 傳遞來(lái)自 TrackFormer 的自車(chē)查詢(xún)，以使自車(chē)與其他環(huán)境目標(biāo)進(jìn)行交互。形式上，輸出運(yùn)動(dòng)被表述為 {x?i, k ∈ RT×2|i = 1,......N; k=1，... ..., K} ，其中 i 表示索引代理，k 索引軌跡模態(tài)，T 是預(yù)測(cè)范圍的長(zhǎng)度。

運(yùn)動(dòng)預(yù)測(cè)由 N 層組成，每層捕獲三種類(lèi)型的交互：自車(chē)與周邊環(huán)境目標(biāo)、自車(chē)與地圖和自車(chē)與潛在風(fēng)險(xiǎn)目標(biāo)。對(duì)于每個(gè)運(yùn)動(dòng)查詢(xún) Qi,k，其與其他代理 QA 或地圖元素 QM 之間的交互可以表示為：

其中，MHCA、MHSA 分別表示多頭交叉注意力和多頭自注意力。由于在完善預(yù)測(cè)軌跡中更加關(guān)注預(yù)期位置（即目標(biāo)點(diǎn)），因此通過(guò)可變形注意力可以設(shè)計(jì)一個(gè)代理目標(biāo)點(diǎn)注意力，如下所示：

其中 x^l?1T 是上一層預(yù)測(cè)軌跡的端點(diǎn)。DeformAttn(q,r,x) 是一個(gè)可變形注意力模塊，接收查詢(xún)q、參考點(diǎn) r 和空間特征 x。它對(duì)參考點(diǎn)周?chē)目臻g特征進(jìn)行稀疏關(guān)注，通過(guò)這種方式，隨著了解端點(diǎn)周?chē)h(huán)境，預(yù)測(cè)軌跡將進(jìn)一步細(xì)化。所有這三種交互都是并行建模的，其中生成的 Qa、Qm 和 Qg 被連接并傳遞到多層感知器 (MLP)，從而生成查詢(xún)上下文 Qctx。然后，Qctx被發(fā)送到后續(xù)層進(jìn)行細(xì)化或解碼為最后一層的預(yù)測(cè)結(jié)果。

2、占用網(wǎng)格圖預(yù)測(cè)

“占用網(wǎng)格圖”這是一個(gè)當(dāng)前智能駕駛相對(duì)較火的術(shù)語(yǔ)，其本身是一種離散化的 BEV 表示，其中每個(gè)單元格都持有一個(gè)指示其是否被占用的信念，而占用預(yù)測(cè)任務(wù)是發(fā)現(xiàn)網(wǎng)格圖未來(lái)如何變化。先前經(jīng)典的方法利用 RNN 結(jié)構(gòu)根據(jù)觀(guān)察到的 BEV 特征在時(shí)間上擴(kuò)展未來(lái)預(yù)測(cè) 。

然而，這種高度依賴(lài)于手工制作的聚類(lèi)后處理來(lái)生成每個(gè)智能體占用圖，因?yàn)樗鼈兺ㄟ^(guò)將 BEV 特征作為一個(gè)整體壓縮到 RNN 隱藏狀態(tài)，而這其中大多與智能體無(wú)關(guān)。由于代理知識(shí)的使用不足，他們很難預(yù)測(cè)全局所有代理的行為，這對(duì)于理解場(chǎng)景如何演變至關(guān)重要。為了解決這個(gè)問(wèn)題，就需要進(jìn)一步詳細(xì)介紹占用網(wǎng)絡(luò)預(yù)測(cè) OccFormer 。

在占用網(wǎng)格預(yù)測(cè)中，主要在兩個(gè)方面結(jié)合了場(chǎng)景級(jí)和代理級(jí)語(yǔ)義：

（1）密集場(chǎng)景特征在展開(kāi)到未來(lái)視野時(shí)通過(guò)精心設(shè)計(jì)的注意力模塊獲取代理級(jí)特征；

（2）我們通過(guò)代理級(jí)特征和密集場(chǎng)景特征之間的矩陣乘法輕松產(chǎn)生實(shí)例占用率，而無(wú)需進(jìn)行繁重的后處理。

OccFormer 由 To 順序塊組成，其中 To 表示預(yù)測(cè)范圍。由于密集表示占用的計(jì)算成本較高，因此在運(yùn)動(dòng)任務(wù)中 To 通常小于 T。每個(gè)塊將來(lái)自前一層的豐富代理特征 Gt 和狀態(tài)（密集特征）F t?1 作為輸入，并考慮實(shí)例級(jí)和場(chǎng)景級(jí)信息生成時(shí)間步 t 的密集特征 Ft。

為了獲得具有動(dòng)態(tài)和空間先驗(yàn)的代理特征Gt，可表示為 QX ∈ R Na×D 的模態(tài)維度中對(duì)來(lái)自 MotionFormer 的最大池運(yùn)動(dòng)查詢(xún)進(jìn)行最大池化，其中 D 作為特征維度。通過(guò)a將其與上游軌跡查詢(xún)QA和當(dāng)前位置嵌入PA融合時(shí)間特定 MLP：

其中[·]表示串聯(lián)。對(duì)于場(chǎng)景級(jí)知識(shí)，為了提高訓(xùn)練效率，將 BEV 特征 B 縮小到 1/4 分辨率，以作為第一個(gè)塊輸入 F0。為了進(jìn)一步節(jié)省訓(xùn)練內(nèi)存，每個(gè)塊都遵循下采樣-上采樣方式，并注意中間的模塊以 1/8 自縮放特征進(jìn)行像素代理交互，表示為 Ftds。

像素與代理交互旨在預(yù)測(cè)未來(lái)占用情況時(shí)輸出統(tǒng)一場(chǎng)景和代理級(jí)別的理解。將密集特征 Ftds 作為查詢(xún)輸入，將實(shí)例級(jí)特征作為鍵和值，以隨著時(shí)間的推移更新密集特征。具體來(lái)說(shuō)，F(xiàn)tds 通過(guò)自注意力層來(lái)對(duì)遠(yuǎn)處網(wǎng)格之間的響應(yīng)進(jìn)行建模，然后交叉注意力層對(duì)代理特征Gt 和每個(gè)網(wǎng)格特征之間的交互進(jìn)行建模。此外，為了對(duì)齊像素-代理對(duì)應(yīng)關(guān)系，通過(guò)注意掩模來(lái)約束交叉注意，該掩模限制每個(gè)像素僅在時(shí)間步 t 處查看占據(jù)它的代理。稠密特征的更新過(guò)程可表述為：

注意掩碼 Ot m 在語(yǔ)義上與占用相似，是通過(guò)將額外的代理級(jí)特征與密集特征 Ftds 相乘而生成的，其中將此處的代理級(jí)特征命名為掩碼特征Mt = MLP(Gt )。經(jīng)過(guò)方程式中的交互過(guò)程后，Dtds 被上采樣到 B 的 1/4 大小。進(jìn)一步將 Dtds 與塊輸入 Ft?1 作為殘差連接相加，并將得到的特征 Ft 傳遞到下一個(gè)塊。

接下來(lái)是生成實(shí)例級(jí)占用率。它代表保留每個(gè)代理身份的占用情況。它可以通過(guò)矩陣乘法簡(jiǎn)單地繪制出來(lái)，就像最近基于查詢(xún)的分割工作一樣。形式上，為了獲得 BEV 特征 B 的原始大小 H ×W 的占用預(yù)測(cè)，場(chǎng)景級(jí)特征 Ft需要通過(guò)卷積解碼器上采樣Ft dec ∈ R C×H×W，其中 C 是通道維度。對(duì)于代理級(jí)特征，我們進(jìn)一步通過(guò)另一個(gè) MLP 將粗掩模特征 Mt 更新為占用特征 Ut ∈ R Na×C。從經(jīng)驗(yàn)發(fā)現(xiàn)，從掩碼特征 Mt 而不是原始代理特征 Gt 所生成的 Ut 會(huì)帶來(lái)更加優(yōu)越的性能。最終以時(shí)間t 為步長(zhǎng)的最終實(shí)例級(jí)占用率可以表示為：

運(yùn)動(dòng)軌跡規(guī)劃與查詢(xún)

在沒(méi)有高清 (HD) 地圖或預(yù)定義路線(xiàn)的情況下進(jìn)行規(guī)劃通常需要高級(jí)命令來(lái)指示前進(jìn)方向。對(duì)于智能車(chē)而言，其對(duì)應(yīng)的行駛動(dòng)作無(wú)非包括車(chē)道保持、加減速、變道等。因此，可以粗略的將原始導(dǎo)航信號(hào)（即左轉(zhuǎn)、右轉(zhuǎn)和保持前進(jìn)）轉(zhuǎn)換為三個(gè)可學(xué)習(xí)的嵌入，稱(chēng)為命令嵌入。由于 MotionFormer 的自車(chē)查詢(xún)已經(jīng)表達(dá)了其多模式意圖，因此，需要為其配備命令嵌入以形成“計(jì)劃查詢(xún)”。

這里對(duì) BEV 特征 B 進(jìn)行計(jì)劃查詢(xún)，使其了解周?chē)h(huán)境，然后將其解碼為未來(lái)的航路點(diǎn) τ?。為了進(jìn)一步避免碰撞，可以通過(guò)以下方式進(jìn)行推理優(yōu)化τ?：

其中τ?是原始規(guī)劃預(yù)測(cè)，τ*表示優(yōu)化規(guī)劃，它是從multipleshooting軌跡τ中選擇的，以最小化成本函數(shù)f(·)。O^ 是從 OccFormer 的實(shí)例占用預(yù)測(cè)合并而來(lái)的經(jīng)典二進(jìn)制占用圖。

MotionFormer 每層的輸入查詢(xún)（稱(chēng)為運(yùn)動(dòng)查詢(xún)）包含兩個(gè)組成部分：如前所述由前一層產(chǎn)生的查詢(xún)上下文 Qctx 以及查詢(xún)位置 Qpos。具體來(lái)說(shuō)，Qpos 將位置知識(shí)四重整合，如下式中所示。

其中們這些位置包括場(chǎng)景級(jí)錨點(diǎn) Is 的位置；代理級(jí)錨點(diǎn) Ia 的位置；智能體 i 的當(dāng)前位置x0和預(yù)測(cè)目標(biāo)點(diǎn)xl-1T。

這里利用正弦位置編碼 PE(·) 后跟 MLP 對(duì)位置點(diǎn)進(jìn)行編碼，并將 x0T 設(shè)置為 I s

在第一層（下標(biāo)i、k也被省略）。場(chǎng)景級(jí)錨點(diǎn)表示全局視圖中的先前運(yùn)動(dòng)統(tǒng)計(jì)數(shù)據(jù)，而代理級(jí)錨點(diǎn)捕獲局部坐標(biāo)中可能的意圖。它們都通過(guò) k-means 算法在真實(shí)軌跡的端點(diǎn)上進(jìn)行聚類(lèi)，以縮小預(yù)測(cè)的不確定性。

與先驗(yàn)知識(shí)相反，起點(diǎn)為每個(gè)智能體提供定制的位置嵌入，預(yù)測(cè)的終點(diǎn)作為動(dòng)態(tài)錨以粗到細(xì)的方式逐層優(yōu)化。

基于自學(xué)習(xí)的非線(xiàn)性?xún)?yōu)化

與直接訪(fǎng)問(wèn)地面真實(shí)感知結(jié)果（即代理的位置和相應(yīng)軌跡）的傳統(tǒng)運(yùn)動(dòng)預(yù)測(cè)工作不同，在端到端范式中考慮了先前模塊的預(yù)測(cè)不確定性。從不完美的檢測(cè)位置或航向角回歸地面實(shí)況航跡點(diǎn)，這可能會(huì)導(dǎo)致預(yù)測(cè)軌跡產(chǎn)生不合實(shí)際的較大曲率和加速度。為了解決這個(gè)問(wèn)題，可以采用非線(xiàn)性平滑器來(lái)調(diào)整目標(biāo)軌跡，并在上游模塊預(yù)測(cè)的起始點(diǎn)不精確的情況下使它們也可以用于未來(lái)的預(yù)測(cè)。其過(guò)程是：

其中x和x*表示真實(shí)軌跡和平滑軌跡，x是通過(guò)多次觀(guān)測(cè)生成的數(shù)據(jù)，相應(yīng)的成本函數(shù)如下：

其中λxy和λgoal是超參數(shù)，運(yùn)動(dòng)學(xué)函數(shù)集Φ有5個(gè)項(xiàng)，包括橫縱向加速度及其變化率、曲率、曲率變化率。成本函數(shù)規(guī)范目標(biāo)軌跡且遵守運(yùn)動(dòng)學(xué)約束，這種目標(biāo)軌跡優(yōu)化僅在訓(xùn)練時(shí)進(jìn)行，不影響推理。

最后，UniAD 框架中的模塊學(xué)習(xí)分兩個(gè)階段。首先聯(lián)合訓(xùn)練幾個(gè) epoch感知部分，即跟蹤和映射模塊，然后使用所有感知、預(yù)測(cè)和規(guī)劃模塊端到端地訓(xùn)練模型 20 個(gè) epoch。且經(jīng)驗(yàn)發(fā)現(xiàn)兩階段學(xué)習(xí)訓(xùn)練更穩(wěn)定。由于 UniAD 涉及實(shí)例建模，因此在感知和預(yù)測(cè)任務(wù)中需要將預(yù)測(cè)與地面實(shí)況集配對(duì)。這里，需要在跟蹤和在線(xiàn)建圖階段采用二分匹配算法。至于跟蹤，來(lái)自檢測(cè)查詢(xún)的候選者與新生的地面實(shí)況對(duì)象配對(duì)，來(lái)自跟蹤查詢(xún)的預(yù)測(cè)繼承了先前幀的分配。跟蹤模塊中的匹配結(jié)果在運(yùn)動(dòng)和占用節(jié)點(diǎn)中可以被重用，以在端到端框架中對(duì)從歷史軌跡到未來(lái)運(yùn)動(dòng)的代理進(jìn)行一致的建模。

總結(jié)

基于深度強(qiáng)化學(xué)習(xí)的端到端（End-to-end）的控制架構(gòu)是自動(dòng)駕駛領(lǐng)域中新興的研究熱點(diǎn)，它能克服傳統(tǒng)方式依賴(lài)先驗(yàn)環(huán)境建模的問(wèn)題，可以直接實(shí)現(xiàn)通過(guò)從感知到控制功能的映射。即，將transformer的思想整個(gè)貫穿于感知、預(yù)測(cè)、規(guī)劃、決策的整個(gè)處理過(guò)程。

本文介紹的處理算法遵循以規(guī)劃為導(dǎo)向的理念，擁抱自動(dòng)駕駛框架的新前景，并證明有效任務(wù)協(xié)調(diào)的必要性，而不是獨(dú)立設(shè)計(jì)或簡(jiǎn)單的多任務(wù)學(xué)習(xí)。并且這種UniAD作為一個(gè)利用廣泛任務(wù)的綜合性端到端系統(tǒng)，可以很好的啟動(dòng)關(guān)鍵組件，將查詢(xún)?cè)O(shè)計(jì)為連接所有節(jié)點(diǎn)的接口。因此，本文中的UniAD 享有靈活的中間表示和交換多任務(wù)知識(shí)以進(jìn)行規(guī)劃。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46316

瀏覽量
236469
感知算法

感知算法

+關(guān)注

關(guān)注
0

文章
19

瀏覽量
7621
自動(dòng)駕駛

自動(dòng)駕駛

+關(guān)注

關(guān)注
782

文章
13525

瀏覽量
165728
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
136

瀏覽量
5961

原文標(biāo)題：從Transformer探索自動(dòng)駕駛感知算法提升處理策略

文章出處：【微信號(hào)：阿寶1990，微信公眾號(hào)：阿寶1990】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

未來(lái)已來(lái)，多傳感器融合感知是自動(dòng)駕駛破局的關(guān)鍵

的架構(gòu)，預(yù)計(jì)未來(lái)許多智能駕駛團(tuán)隊(duì)都會(huì)引入“占用網(wǎng)絡(luò)”來(lái)提升系統(tǒng)能力。多維像素的應(yīng)用前景非常廣闊。昱感微的融合感知技術(shù)+BEV +Transformer+占用網(wǎng)格有望成為L(zhǎng)3/L4級(jí)自動(dòng)駕駛

發(fā)表于 04-11 10:26

FPGA在自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用？

是FPGA在自動(dòng)駕駛領(lǐng)域的主要應(yīng)用：一、感知算法加速圖像處理：自動(dòng)駕駛中需要通過(guò)攝像頭獲取并識(shí)別道路信息和行駛環(huán)境，這涉及到大量的圖像

發(fā)表于 07-29 17:09

FPGA在自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢(shì)?

領(lǐng)域的主要優(yōu)勢(shì)：高性能與并行處理能力： FPGA內(nèi)部包含大量的邏輯門(mén)和可配置的連接，能夠同時(shí)處理多個(gè)數(shù)據(jù)流和計(jì)算任務(wù)。這種并行處理能力使得FPGA在處理

發(fā)表于 07-29 17:11

自動(dòng)駕駛的到來(lái)

　　傳統(tǒng)汽車(chē)廠(chǎng)商更趨向于通過(guò)技術(shù)的不斷積累，場(chǎng)景的不斷豐富，逐步從輔助駕駛過(guò)渡到半自動(dòng)駕駛，進(jìn)而在將來(lái)最終實(shí)現(xiàn)無(wú)人駕駛;某些高科技公司則希望通過(guò)各種外部傳感器實(shí)時(shí)采集海量數(shù)據(jù)，處理器經(jīng)

發(fā)表于 06-08 15:25

速騰聚創(chuàng)首次發(fā)布LiDAR算法六大模塊助力自動(dòng)駕駛

、三維數(shù)據(jù)處理算法和深度學(xué)習(xí)技術(shù)相結(jié)合，讓機(jī)器人擁有超越人類(lèi)眼睛的環(huán)境感知能力，目前主要致力自動(dòng)駕駛領(lǐng)域的研發(fā)。2016年12月底，牛車(chē)網(wǎng)曾采訪(fǎng)速騰聚創(chuàng)創(chuàng)始人兼CEO邱純鑫，2年多的時(shí)間，他已帶領(lǐng)企業(yè)完成

發(fā)表于 10-13 16:08

即插即用的自動(dòng)駕駛LiDAR感知算法盒子 RS-Box

RS-LiDAR-Algorithms 感知算法。經(jīng)過(guò)與多個(gè)自動(dòng)駕駛汽車(chē)研發(fā)團(tuán)隊(duì)的聯(lián)合調(diào)試打磨，RS-LiDAR-Algorithms 目前已經(jīng)可以駕馭常見(jiàn)的大部分自動(dòng)駕駛場(chǎng)景，其以

發(fā)表于 12-15 14:20

智能感知方案怎么幫助實(shí)現(xiàn)安全的自動(dòng)駕駛？

未來(lái)，自動(dòng)駕駛將不再是科幻電影里的橋段，這是未來(lái)汽車(chē)的一個(gè)趨勢(shì)，感知是自動(dòng)駕駛的重要組成部分，同時(shí)安全性至關(guān)重要。作為全球第7大汽車(chē)半導(dǎo)體供應(yīng)商，安森美半導(dǎo)體提供全面的智能感知方案，包

發(fā)表于 07-31 07:11

自動(dòng)駕駛汽車(chē)的處理能力怎么樣？

作在未來(lái)20 - 30年中，自動(dòng)駕駛汽車(chē)（AV）將改變我們的駕駛習(xí)慣、運(yùn)輸行業(yè)并更廣泛地影響社會(huì)。我們不僅能夠?qū)⑵?chē)召喚到我們的家門(mén)口并在使用后將其送走，自動(dòng)駕駛汽車(chē)還將挑戰(zhàn)個(gè)人擁有汽車(chē)的想法，并

發(fā)表于 08-07 07:13

自動(dòng)駕駛汽車(chē)中傳感器的分析

特斯拉在五月份發(fā)生的自動(dòng)駕駛事故，和最近在Defcon上演示的如何干擾傳感器，都充分說(shuō)明了傳感器在自動(dòng)駕駛中的重要性：環(huán)境感知是自動(dòng)駕駛實(shí)現(xiàn)的基礎(chǔ)，如果不能正確地

發(fā)表于 05-14 07:34

從輔助駕駛到自動(dòng)駕駛: 感知型車(chē)輛建立在底層高質(zhì)量的傳感器數(shù)據(jù)基礎(chǔ)之上

的。就像最初的登月一樣，在通往安全自動(dòng)駕駛車(chē)輛的道路上還存在許多障礙。最近發(fā)生的涉及自動(dòng)駕駛車(chē)輛的事故助長(zhǎng)了唱反調(diào)者的聲勢(shì)，他們認(rèn)為車(chē)輛及其行駛環(huán)境太復(fù)雜，變數(shù)太多，而算法和軟件仍然錯(cuò)誤太多。對(duì)于參與了

發(fā)表于 06-16 18:53

網(wǎng)聯(lián)化自動(dòng)駕駛的含義及發(fā)展方向

　　隨著自動(dòng)駕駛的快速發(fā)展，新技術(shù)逐漸涌現(xiàn)，通信技術(shù)被產(chǎn)業(yè)認(rèn)為是未來(lái)網(wǎng)聯(lián)化自動(dòng)駕駛發(fā)展的關(guān)鍵技術(shù)。從通信角度出發(fā)，分析通信技術(shù)為自動(dòng)駕駛在技術(shù)及可靠性、成本控制、以及社會(huì)效益方面帶來(lái)的提升

發(fā)表于 01-12 15:42

基于視覺(jué)的slam自動(dòng)駕駛

基于視覺(jué)的slam自動(dòng)駕駛，這是我們測(cè)試的視頻《基于slam算法的智能機(jī)器人》調(diào)研分析報(bào)告項(xiàng)目背景分析機(jī)器人曾經(jīng)是科幻電影中的形象，可目前已經(jīng)漸漸走入我們的生活。機(jī)器人技術(shù)以包含機(jī)械、電子、自動(dòng)

發(fā)表于 08-09 09:37

自動(dòng)駕駛技術(shù)的實(shí)現(xiàn)

的帶寬有了更高的要求。從而使用以太網(wǎng)技術(shù)及中央域控制(Domain)和區(qū)域控制(Zonal)架構(gòu)是下一代車(chē)載網(wǎng)絡(luò)的發(fā)展方向。然而對(duì)于自動(dòng)駕駛技術(shù)的實(shí)現(xiàn)，涉及到感知、規(guī)劃、執(zhí)行三個(gè)層面。由于車(chē)輛行...

發(fā)表于 09-03 08:31

詳細(xì)說(shuō)明多項(xiàng)自動(dòng)駕駛底層軟件技術(shù)

軟件中，針對(duì)面向服務(wù)架構(gòu)SOA開(kāi)發(fā)需要使用高性能的處理器，自適應(yīng)汽車(chē)開(kāi)放系統(tǒng)架構(gòu)AP Autosar有著不可比擬的優(yōu)勢(shì)。　　而應(yīng)用軟件中，自動(dòng)駕駛整體架構(gòu)主要涉及感知、規(guī)劃、決策、控制等節(jié)點(diǎn)。通過(guò)

發(fā)表于 11-09 16:09

淺析自動(dòng)駕駛視覺(jué)感知算法

環(huán)境感知是自動(dòng)駕駛的第一環(huán)，是車(chē)輛和環(huán)境交互的紐帶。一個(gè)自動(dòng)駕駛系統(tǒng)整體表現(xiàn)的好壞，很大程度上都取決于感知系統(tǒng)的好壞。目前，環(huán)境感知技術(shù)有兩

發(fā)表于 07-25 10:36 ?499次閱讀

搜索歷史

自動(dòng)駕駛感知算法提升處理策略

評(píng)論

未來(lái)已來(lái)，多傳感器融合感知是自動(dòng)駕駛破局的關(guān)鍵

FPGA在自動(dòng)駕駛領(lǐng)域有哪些應(yīng)用？

FPGA在自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢(shì)?

自動(dòng)駕駛的到來(lái)

速騰聚創(chuàng)首次發(fā)布LiDAR算法六大模塊助力自動(dòng)駕駛

即插即用的自動(dòng)駕駛LiDAR感知算法盒子 RS-Box

智能感知方案怎么幫助實(shí)現(xiàn)安全的自動(dòng)駕駛？

自動(dòng)駕駛汽車(chē)的處理能力怎么樣？

自動(dòng)駕駛汽車(chē)中傳感器的分析

從輔助駕駛到自動(dòng)駕駛: 感知型車(chē)輛建立在底層高質(zhì)量的傳感器數(shù)據(jù)基礎(chǔ)之上

網(wǎng)聯(lián)化自動(dòng)駕駛的含義及發(fā)展方向

基于視覺(jué)的slam自動(dòng)駕駛

自動(dòng)駕駛技術(shù)的實(shí)現(xiàn)

詳細(xì)說(shuō)明多項(xiàng)自動(dòng)駕駛底層軟件技術(shù)

淺析自動(dòng)駕駛視覺(jué)感知算法