0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

決策規(guī)劃:行為決策常用算法

3D視覺(jué)工坊 ? 來(lái)源:十一號(hào)組織 ? 2023-04-12 10:09 ? 次閱讀

作為L(zhǎng)4級(jí)自動(dòng)駕駛的優(yōu)秀代表Robotaxi,部分人可能已經(jīng)在自己的城市欣賞過(guò)他們不羈的造型,好奇心強(qiáng)烈的可能都已經(jīng)體驗(yàn)過(guò)他們的無(wú)人“推背”服務(wù)。作為一個(gè)占有天時(shí)地利優(yōu)勢(shì)的從業(yè)人員,我時(shí)常在周末選一個(gè)人和的時(shí)間,叫個(gè)免費(fèi)Robotaxi去超市買(mǎi)個(gè)菜。

剛開(kāi)始幾次乘坐,我的注意力全都放在安全員的雙手,觀察其是否在接管;過(guò)了一段時(shí)間,我的注意力轉(zhuǎn)移到中控大屏,觀察其夢(mèng)幻般的交互方式;而現(xiàn)在,我的注意力轉(zhuǎn)移到了智能上,觀察其在道路上的行為決策是否足夠聰明。

而這一觀察,竟真總結(jié)出不少共性問(wèn)題。比如十字路口左轉(zhuǎn),各家Robotaxi總是表現(xiàn)的十分小心謹(jǐn)慎,人類(lèi)司機(jī)一腳油門(mén)過(guò)去的場(chǎng)景,Robotaxi總是再等等、再看看。且不同十字路口同一廠家的Robotaxi左轉(zhuǎn)的策略基本一致,完全沒(méi)有人類(lèi)司機(jī)面對(duì)不同十字路口、不同交通流、不同天氣環(huán)境時(shí)的“隨機(jī)應(yīng)變”。

面對(duì)復(fù)雜多變場(chǎng)景時(shí)自動(dòng)駕駛行為決策表現(xiàn)出來(lái)的小心謹(jǐn)慎,像極了人類(lèi)進(jìn)入一個(gè)新環(huán)境時(shí)采取的猥瑣發(fā)育策略。但在自動(dòng)駕駛終局到來(lái)的那天,自動(dòng)駕駛的決策規(guī)劃能否像人類(lèi)一樣,在洞悉了人情社會(huì)的生活法則之后,做到“見(jiàn)人說(shuō)人話”、“見(jiàn)人下飯”呢?

在讓自動(dòng)駕駛車(chē)輛的行為決策變得越來(lái)越像老司機(jī)的努力過(guò)程中,主要誕生了基于規(guī)則和基于學(xué)習(xí)的兩大類(lèi)行為決策方法。

基于規(guī)則的方法 在基于規(guī)則的方法中,通過(guò)對(duì)自動(dòng)駕駛車(chē)輛的駕駛行為進(jìn)行劃分,并基于感知環(huán)境、交通規(guī)則等信息建立駕駛行為規(guī)則庫(kù)。自動(dòng)駕駛車(chē)輛在行駛過(guò)程中,實(shí)時(shí)獲取交通環(huán)境、交通規(guī)則等信息,并與駕駛行為規(guī)則庫(kù)中的經(jīng)驗(yàn)知識(shí)進(jìn)行匹配,進(jìn)而推理決策出下一時(shí)刻的合理自動(dòng)駕駛行為。

正如全局路徑規(guī)劃的前提是地圖一樣,自動(dòng)駕駛行為分析也成為基于規(guī)則的行為決策的前提。不同應(yīng)用場(chǎng)景下的自動(dòng)駕駛行為不完全相同,以高速主干路上的L4自動(dòng)駕駛卡車(chē)為例,其自動(dòng)駕駛行為可簡(jiǎn)單分解為單車(chē)道巡航、自主變道、自主避障三個(gè)典型行為。

單車(chē)道巡航是卡車(chē)L4自動(dòng)駕駛系統(tǒng)激活后的默認(rèn)狀態(tài),車(chē)道保持的同時(shí)進(jìn)行自適應(yīng)巡航。此駕駛行為還可以細(xì)分定速巡航、跟車(chē)巡航等子行為,而跟車(chē)巡航子行為還可以細(xì)分為加速、加速等子子行為,真是子子孫孫無(wú)窮盡也。

自主變道是在變道場(chǎng)景(避障變道場(chǎng)景、主干路變窄變道場(chǎng)景等)發(fā)生及變道空間(與前車(chē)和后車(chē)的距離、時(shí)間)滿(mǎn)足后進(jìn)行左/右變道。自主避障是在前方出現(xiàn)緊急危險(xiǎn)情況且不具備自主變道條件時(shí),采取的緊急制動(dòng)行為,避免與前方障礙物或車(chē)輛發(fā)生碰撞。其均可以繼續(xù)細(xì)分,此處不再展開(kāi)。

上面列舉的駕駛行為之間不是獨(dú)立的,而是相互關(guān)聯(lián)的,在一定條件滿(mǎn)足后可以進(jìn)行實(shí)時(shí)切換,從而支撐起L4自動(dòng)駕駛卡車(chē)在高速主干路上的自由自在?,F(xiàn)將例子中的三種駕駛行為之間的切換條件簡(jiǎn)單匯總?cè)绫?,真實(shí)情況比這嚴(yán)謹(jǐn)、復(fù)雜的多,此處僅為后文解釋基于規(guī)則的算法所用。

表2 狀態(tài)間的跳轉(zhuǎn)事件

29ceaa18-d8be-11ed-bfe3-dac502259ad0.png

在基于規(guī)則的方法中,有限狀態(tài)機(jī)(FiniteStateMaechine,F(xiàn)SM)成為最具有代表性的方法。2007年斯坦福大學(xué)參加DARPA城市挑戰(zhàn)賽時(shí)的無(wú)人車(chē)“Junior”,其行為決策采用的就是有限狀態(tài)機(jī)方法。

有限狀態(tài)機(jī)是一種離散的數(shù)學(xué)模型,也正好符合自動(dòng)駕駛行為決策的非連續(xù)特點(diǎn),主要用來(lái)描述對(duì)象生命周期內(nèi)的各種狀態(tài)以及如何響應(yīng)來(lái)自外界的各種事件。有限狀態(tài)機(jī)包含四大要素:狀態(tài)、事件、動(dòng)作和轉(zhuǎn)移。事件發(fā)生后,對(duì)象產(chǎn)生相應(yīng)的動(dòng)作,從而引起狀態(tài)的轉(zhuǎn)移,轉(zhuǎn)移到新?tīng)顟B(tài)或維持當(dāng)前狀態(tài)。

我們將上述駕駛行為定義為有限狀態(tài)機(jī)的狀態(tài),每個(gè)狀態(tài)之間在滿(mǎn)足一定的事件(或條件)后,自動(dòng)駕駛車(chē)輛執(zhí)行一定的動(dòng)作后,就可以轉(zhuǎn)移到新的狀態(tài)。比如單車(chē)道巡航狀態(tài)下,前方車(chē)輛低速行駛,自車(chē)在判斷旁邊車(chē)道滿(mǎn)足變道條件要求后,切換到自主變道狀態(tài)。自主變道完成后,系統(tǒng)再次回到單車(chē)道巡航狀態(tài)。

結(jié)合表2中的切換條件,各個(gè)狀態(tài)在滿(mǎn)足一定事件(或條件)后的狀態(tài)跳轉(zhuǎn)示意圖如圖25所示。

29d73d2c-d8be-11ed-bfe3-dac502259ad0.png

圖25 狀態(tài)跳轉(zhuǎn)示意圖

基于有限狀態(tài)機(jī)理論構(gòu)建的智能車(chē)輛自動(dòng)駕駛行為決策系統(tǒng),可將復(fù)雜的自動(dòng)駕駛過(guò)程分解為有限個(gè)自動(dòng)駕駛駕駛行為,邏輯推理清晰、應(yīng)用簡(jiǎn)單、實(shí)用性好等特點(diǎn),使其成為當(dāng)前自動(dòng)駕駛領(lǐng)域目前最廣泛使用的行為決策方法。

但該方法沒(méi)有考慮環(huán)境的動(dòng)態(tài)性、不確定性以及車(chē)輛運(yùn)動(dòng)學(xué)以及動(dòng)力學(xué)特性對(duì)駕駛行為決策的影響,因此多適用于簡(jiǎn)單場(chǎng)景下,很難勝任具有豐富結(jié)構(gòu)化特征的城區(qū)道路環(huán)境下的行為決策任務(wù)。

基于學(xué)習(xí)的方法

行為決策水平直接決定了車(chē)輛的智能化水平,同時(shí)伴隨著自動(dòng)駕駛等級(jí)的提高,人們不僅要求其在復(fù)雜場(chǎng)景下做出正確的決策,還要求在無(wú)法預(yù)測(cè)的突發(fā)情況下做出正確的決策,更過(guò)分的是還要求在無(wú)法完全感知周?chē)煌ōh(huán)境的情況下,進(jìn)行合理的決策。

上文介紹的基于規(guī)則的行為決策方法依靠專(zhuān)家經(jīng)驗(yàn)搭建的駕駛行為規(guī)則庫(kù),但是由于人類(lèi)經(jīng)驗(yàn)的有限性,智能性不足成為基于規(guī)則的行為決策方法的最大制約,復(fù)雜交通工況的事故率約為人類(lèi)駕駛員的百倍以上。鑒于此,科研工作者開(kāi)始探索基于學(xué)習(xí)的方法,并在此基礎(chǔ)上了誕生了數(shù)據(jù)驅(qū)動(dòng)型學(xué)習(xí)方法和強(qiáng)化學(xué)習(xí)方法。

數(shù)據(jù)驅(qū)動(dòng)型學(xué)習(xí)是一種依靠自然駕駛數(shù)據(jù)直接擬合神經(jīng)網(wǎng)絡(luò)模型的方法,首先用提前采集到的老司機(jī)開(kāi)車(chē)時(shí)的自然駕駛數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練的目標(biāo)是讓自動(dòng)駕駛行為決策水平接近老司機(jī)。而后將訓(xùn)練好的算法模型部署到車(chē)上,此時(shí)車(chē)輛的行為決策就像老司機(jī)一樣,穿行在大街小巷。讀者可參見(jiàn)端到端自動(dòng)駕駛章節(jié)中介紹的NVIDIA demo案例。

強(qiáng)化學(xué)習(xí)方法通過(guò)讓智能體(行為決策主體)在交互環(huán)境中以試錯(cuò)方式運(yùn)行,并基于每一步行動(dòng)后環(huán)境給予的反饋(獎(jiǎng)勵(lì)或懲罰),來(lái)不斷調(diào)整智能體行為,從而實(shí)現(xiàn)特定目的或使得整體行動(dòng)收益最大。通過(guò)這種試錯(cuò)式學(xué)習(xí),智能體能夠在動(dòng)態(tài)環(huán)境中自己作出一系列行為決策,既不需要人為干預(yù),也不需要借助顯式編程來(lái)執(zhí)行任務(wù)。

強(qiáng)化學(xué)習(xí)可能不是每個(gè)人都聽(tīng)過(guò),但DeepMind開(kāi)發(fā)的圍棋智能AlphaGo(阿爾法狗),2016年3月戰(zhàn)勝世界圍棋冠軍李世石,2017年5月后又戰(zhàn)勝?lài)迨澜缗琶谝豢聺嵉氖?,大家?yīng)該都有所耳聞。更過(guò)分的是,半年后DeepMind在發(fā)布的新一代圍棋智能AlphaZero(阿爾法狗蛋),通過(guò)21天的閉關(guān)修煉,就戰(zhàn)勝了家族出現(xiàn)的各種狗子們,成功當(dāng)選狗蛋之王。

而賦予AlphaGo及AlphaZero戰(zhàn)勝人類(lèi)棋手的魔法正是強(qiáng)化學(xué)習(xí),機(jī)器學(xué)習(xí)的一種。機(jī)器學(xué)習(xí)目前有三大派別:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)算法基于歸納推理,通過(guò)使用有標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,以執(zhí)行分類(lèi)或回歸;無(wú)監(jiān)督學(xué)習(xí)一般應(yīng)用于未標(biāo)記數(shù)據(jù)的密度估計(jì)或聚類(lèi);

強(qiáng)化學(xué)習(xí)自成一派,通過(guò)讓智能體在交互環(huán)境中以試錯(cuò)方式運(yùn)行,并基于每一步行動(dòng)后環(huán)境給予的反饋(獎(jiǎng)勵(lì)或懲罰),來(lái)不斷調(diào)整智能體行為,從而實(shí)現(xiàn)特定目的或使得整體行動(dòng)收益最大。通過(guò)這種試錯(cuò)式學(xué)習(xí),智能體能夠在動(dòng)態(tài)環(huán)境中自己作出一系列決策,既不需要人為干預(yù),也不需要借助顯式編程來(lái)執(zhí)行任務(wù)。

這像極了馬戲團(tuán)訓(xùn)練各種動(dòng)物的過(guò)程,馴獸師一個(gè)抬手動(dòng)作(環(huán)境),動(dòng)物(智能體)若完成相應(yīng)動(dòng)作,則會(huì)獲得美味的食物(正反饋),若沒(méi)有完成相應(yīng)動(dòng)作,食物可能換成了皮鞭(負(fù)反饋)。時(shí)間一久,動(dòng)物就學(xué)會(huì)基于馴獸師不同的手勢(shì)完成不同動(dòng)作,來(lái)使自己獲得最多數(shù)量的美食。

大道至簡(jiǎn),強(qiáng)化學(xué)習(xí)亦如此。一個(gè)戰(zhàn)勝人類(lèi)圍棋冠軍的“智能”也僅由五部分組成:智能體(Agent)、環(huán)境(Environment)、狀態(tài)(State)、行動(dòng)(Action)和獎(jiǎng)勵(lì)(Reward)。強(qiáng)化學(xué)習(xí)系統(tǒng)架構(gòu)如圖26所示,結(jié)合自動(dòng)駕駛代客泊車(chē)中的泊入功能,我們介紹一下各組成的定義及作用。

29dd5b08-d8be-11ed-bfe3-dac502259ad0.png

圖26 強(qiáng)化學(xué)習(xí)系統(tǒng)架構(gòu)

代客泊車(chē)泊入功能的追求非常清晰,就是在不發(fā)生碰撞的前提下,實(shí)現(xiàn)空閑停車(chē)位的快速泊入功能。這個(gè)過(guò)程中,承載強(qiáng)化學(xué)習(xí)算法的控制器(域控制器/中央計(jì)算單元)就是智能體,也是強(qiáng)化學(xué)習(xí)訓(xùn)練的主體。智能體之外的整個(gè)泊車(chē)場(chǎng)景都是環(huán)境,包括停車(chē)場(chǎng)中的立柱、車(chē)輛、行人、光照等。

訓(xùn)練開(kāi)始后,智能體實(shí)時(shí)從車(chē)載傳感器(激光雷達(dá)、相機(jī)、IMU、超聲波雷達(dá)等)讀取環(huán)境狀態(tài),并基于當(dāng)前的環(huán)境狀態(tài),采取相應(yīng)的轉(zhuǎn)向、制動(dòng)和加速行動(dòng)。如果基于當(dāng)前環(huán)境狀態(tài)采用的行動(dòng),是有利于車(chē)輛快速泊入,則智能體會(huì)得到一個(gè)獎(jiǎng)勵(lì),反之則會(huì)得到一個(gè)懲罰。

在獎(jiǎng)勵(lì)和懲罰的不斷刺激下,智能體學(xué)會(huì)了適應(yīng)環(huán)境,學(xué)會(huì)了下次看到空閑車(chē)位時(shí)可以一把倒入,學(xué)會(huì)了面對(duì)不同車(chē)位類(lèi)型時(shí)采取不同的風(fēng)騷走位。

從上述例子,我們也可以總結(jié)出訓(xùn)練出一個(gè)優(yōu)秀的“智能”,大概有如下幾個(gè)步驟:

(1)創(chuàng)建環(huán)境。定義智能體可以學(xué)習(xí)的環(huán)境,包括智能體和環(huán)境之間的接口。環(huán)境可以是仿真模型,也可以是真實(shí)的物理系統(tǒng)。仿真環(huán)境通常是不錯(cuò)的起點(diǎn),一是安全,二是可以試驗(yàn)。

(2)定義獎(jiǎng)勵(lì)。指定智能體用于根據(jù)任務(wù)目標(biāo)衡量其性能的獎(jiǎng)勵(lì)信號(hào),以及如何根據(jù)環(huán)境計(jì)算該信號(hào)??赡苄枰?jīng)過(guò)數(shù)次迭代才能實(shí)現(xiàn)正確的獎(jiǎng)勵(lì)塑造。

(3)創(chuàng)建智能體。智能體由策略和訓(xùn)練算法組成,因此您需要:

(a)選擇一種表示策略的方式(例如,使用神經(jīng)網(wǎng)絡(luò)或查找表)。思考如何構(gòu)造參數(shù)和邏輯,由此構(gòu)成智能體的決策部分。

(b)選擇合適的訓(xùn)練算法。大多數(shù)現(xiàn)代強(qiáng)化學(xué)習(xí)算法依賴(lài)于神經(jīng)網(wǎng)絡(luò),因?yàn)楹笳叻浅_m合處理大型狀態(tài)/動(dòng)作空間和復(fù)雜問(wèn)題。

(4)訓(xùn)練和驗(yàn)證智能體。設(shè)置訓(xùn)練選項(xiàng)(如停止條件)并訓(xùn)練智能體以調(diào)整策略。要驗(yàn)證經(jīng)過(guò)訓(xùn)練的策略,最簡(jiǎn)單的方法是仿真。

(5)部署策略。使用生成的 C/C++ 或 CUDA 代碼等部署經(jīng)過(guò)訓(xùn)練的策略表示。此時(shí)無(wú)需擔(dān)心智能體和訓(xùn)練算法;策略是獨(dú)立的決策系統(tǒng)。

強(qiáng)化學(xué)習(xí)方法除了具有提高行為決策智能水平的能力,還具備合并決策和控制兩個(gè)任務(wù)到一個(gè)整體、進(jìn)行統(tǒng)一求解的能力。將決策與控制進(jìn)行合并,這樣既發(fā)揮了強(qiáng)化學(xué)習(xí)的求解優(yōu)勢(shì),又能進(jìn)一步提高自動(dòng)駕駛系統(tǒng)的智能性。實(shí)際上,人類(lèi)駕駛員也是具有很強(qiáng)的整體性的,我們很難區(qū)分人類(lèi)的行為中哪一部分是自主決策,哪一部分是運(yùn)動(dòng)控制。

現(xiàn)階段強(qiáng)化學(xué)習(xí)方法的應(yīng)用還處在摸索階段,應(yīng)用在自動(dòng)駕駛的潛力還沒(méi)有被完全發(fā)掘出來(lái),這讓我想起了母校的一句校歌:“能不奮勉乎吾曹?”

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4726

    瀏覽量

    100311
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4576

    瀏覽量

    92339
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    782

    文章

    13530

    瀏覽量

    165739

原文標(biāo)題:決策規(guī)劃:行為決策常用算法

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    粒子群算法對(duì)決策變量和適應(yīng)度函數(shù)的約束問(wèn)題

    本人最近在做粒子群算法的相關(guān)研究,遇到如下問(wèn)題:要求決策變量為整數(shù)(0或1),初始化時(shí)已隨機(jī)設(shè)置成0或1的形式,決策變量范圍設(shè)置成(0-1間),在更新過(guò)程中如何對(duì)速度和位置進(jìn)行設(shè)置呢,不設(shè)置的話還是會(huì)隨機(jī)產(chǎn)生一些數(shù),比如0.23
    發(fā)表于 06-10 11:01

    關(guān)于決策樹(shù),這些知識(shí)點(diǎn)不可錯(cuò)過(guò)

    的一種算法。它既是分類(lèi)算法,也是回歸算法,還可以用在隨機(jī)森林中。咱們學(xué)計(jì)算機(jī)的同學(xué)經(jīng)常敲if 、else if、else其實(shí)就已經(jīng)在用到決策樹(shù)的思想了。
    發(fā)表于 05-23 09:38

    機(jī)器學(xué)習(xí)的決策樹(shù)介紹

    機(jī)器學(xué)習(xí)——決策樹(shù)算法分析
    發(fā)表于 04-02 11:48

    基于決策論的Agent個(gè)性化行為選擇

    Agent 不同的主觀態(tài)度對(duì)行為策略的偏好具有重要影響,但Agent 的個(gè)性化態(tài)度難于在量化或符號(hào)化的數(shù)值決策模型中體現(xiàn)。該文參照定性決策理論,在現(xiàn)有效用最大化決策模型基礎(chǔ)
    發(fā)表于 04-18 08:39 ?7次下載

    一個(gè)基于粗集的決策樹(shù)規(guī)則提取算法

    一個(gè)基于粗集的決策樹(shù)規(guī)則提取算法:摘要:決策樹(shù)是數(shù)據(jù)挖掘任務(wù)中分類(lèi)的常用方法。在構(gòu)造決策樹(shù)的過(guò)程中,分離屬性的選擇標(biāo)準(zhǔn)直接影響到分類(lèi)的效果,
    發(fā)表于 10-10 15:13 ?12次下載

    改進(jìn)決策樹(shù)算法的應(yīng)用研究

    該方法利用決策樹(shù)算法構(gòu)造決策樹(shù),通過(guò)對(duì)分類(lèi)結(jié)果中主客觀屬性進(jìn)行標(biāo)記并邏輯運(yùn)算,最終得到較客觀的決策信息,并進(jìn)行實(shí)驗(yàn)驗(yàn)證。
    發(fā)表于 02-07 11:38 ?27次下載
    改進(jìn)<b class='flag-5'>決策</b>樹(shù)<b class='flag-5'>算法</b>的應(yīng)用研究

    基于人工情感的Q_學(xué)習(xí)算法在機(jī)器人行為決策中的應(yīng)用_谷學(xué)靜

    基于人工情感的Q_學(xué)習(xí)算法在機(jī)器人行為決策中的應(yīng)用_谷學(xué)靜
    發(fā)表于 01-12 19:56 ?1次下載

    無(wú)人駕駛汽車(chē)決策技術(shù)

    ,以及控制規(guī)劃等多個(gè)模塊的協(xié)同配合工作。作者認(rèn)為最關(guān)鍵的部分是感知預(yù)測(cè)和決策控制規(guī)劃的緊密配合。狹義上的決策規(guī)劃控制部分,包含了無(wú)人車(chē)行為
    發(fā)表于 09-28 19:43 ?0次下載
    無(wú)人駕駛汽車(chē)<b class='flag-5'>決策</b>技術(shù)

    使決策樹(shù)規(guī)模最小化算法

    包含多個(gè)決策值,多個(gè)決策屬性用一個(gè)集合表示。針對(duì)已有的啟發(fā)式算法,如貪心算法,由于性能不穩(wěn)定的特點(diǎn),該算法獲得的
    發(fā)表于 12-05 15:47 ?0次下載
    使<b class='flag-5'>決策</b>樹(shù)規(guī)模最小化<b class='flag-5'>算法</b>

    配電網(wǎng)規(guī)劃決策中的可計(jì)算性問(wèn)題研究

    規(guī)劃決策的標(biāo)準(zhǔn)數(shù)學(xué)模型和算法公式。利用該數(shù)學(xué)模型和算法對(duì)66 kV變電站的供電半徑規(guī)劃進(jìn)行建模計(jì)算。計(jì)算結(jié)果表明,基于可接受偏差的配電網(wǎng)
    發(fā)表于 03-10 10:02 ?0次下載

    決策樹(shù)的構(gòu)成要素及算法

    決策樹(shù)是一種解決分類(lèi)問(wèn)題的算法,決策樹(shù)算法采用樹(shù)形結(jié)構(gòu),使用層層推理來(lái)實(shí)現(xiàn)最終的分類(lèi)。
    發(fā)表于 08-27 09:52 ?4184次閱讀

    強(qiáng)化學(xué)習(xí)與智能駕駛決策規(guī)劃

    本文介紹了強(qiáng)化學(xué)習(xí)與智能駕駛決策規(guī)劃。智能駕駛中的決策規(guī)劃模塊負(fù)責(zé)將感知模塊所得到的環(huán)境信息轉(zhuǎn)化成具體的駕駛策略,從而指引車(chē)輛安全、穩(wěn)定的行駛。真實(shí)的駕駛場(chǎng)景往往具有高度的復(fù)雜性及不確
    的頭像 發(fā)表于 02-08 14:05 ?1741次閱讀

    決策規(guī)劃系列:運(yùn)動(dòng)規(guī)劃常用算法

    有了全局路徑參考信息,有了局部環(huán)境信息了,有了行為決策模塊輸入的決策信息,下一步自然而然的就要進(jìn)行運(yùn)動(dòng)規(guī)劃,從而生成一條局部的更加具體的行駛軌跡,并且這條軌跡要滿(mǎn)足安全性和舒適性要求。
    的頭像 發(fā)表于 04-17 09:46 ?934次閱讀

    自動(dòng)駕駛決策概況

    文章目錄1. 第一章行為決策在自動(dòng)駕駛系統(tǒng)架構(gòu)中的位置 2. 行為決策算法的種類(lèi) 2.1 基于規(guī)則的決策
    發(fā)表于 06-01 16:24 ?0次下載
    自動(dòng)駕駛<b class='flag-5'>決策</b>概況

    自動(dòng)駕駛決策規(guī)劃算法第一章筆記

    第一章 自動(dòng)駕駛決策規(guī)劃算法數(shù)學(xué)基礎(chǔ) 第一節(jié):決策規(guī)劃算法的地位和作用 該筆記來(lái)自b站up主(偶像):憨厚老實(shí)的老王 視頻鏈接主頁(yè) 第二節(jié):為什么規(guī)
    發(fā)表于 06-02 14:17 ?0次下載
    自動(dòng)駕駛<b class='flag-5'>決策</b><b class='flag-5'>規(guī)劃算法</b>第一章筆記