0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于MADDPG迭代的編隊(duì)協(xié)同控制框架

AI智勝未來 ? 來源:防務(wù)快訊 ? 2024-04-20 09:30 ? 次閱讀

作者:文永明,李博研,張寧寧,李小建,熊楚依,劉潔璽

采用深度強(qiáng)化學(xué)習(xí)算法解決了多智能體編隊(duì)協(xié)同控制問題?;诙嘀悄荏w深度確定性策略梯度算法(MADDPG)構(gòu)建分布式編隊(duì)控制架構(gòu),并結(jié)合集中式訓(xùn)練-分布式執(zhí)行框架進(jìn)行求解。針對多智能體環(huán)境不穩(wěn)定問題,依據(jù)單個(gè)智能體的局部信息構(gòu)建對應(yīng)獎勵函數(shù)。針對大規(guī)模編隊(duì)協(xié)同控制,實(shí)現(xiàn)了多個(gè)多智能體環(huán)境下的算法訓(xùn)練與評估。試驗(yàn)結(jié)果表明,應(yīng)用該算法的多智能體能夠完成協(xié)同任務(wù),且所有智能體都可得到合理的協(xié)同控制策略。

0引言

多智能體系統(tǒng)(MAS)由若干單獨(dú)控制的、通過無線網(wǎng)絡(luò)連接的智能體構(gòu)成,在諸如控制、編隊(duì)、分配、博弈和分布式估計(jì)等問題中廣泛研究并取得了一定進(jìn)展。在已知系統(tǒng)動力學(xué)模型基礎(chǔ)上,研究者們對多智能體系統(tǒng)基礎(chǔ)理論開展了大量研究。傳統(tǒng)的系統(tǒng)識別試驗(yàn)依據(jù)輸入-輸出數(shù)據(jù)確定分析模型,但在實(shí)際應(yīng)用中,復(fù)雜過程建模困難且昂貴。此外,傳統(tǒng)的控制方法在與復(fù)雜環(huán)境交互時(shí)存在局限性,固定策略不能應(yīng)用于不同環(huán)境或任務(wù)場景中。深度強(qiáng)化學(xué)習(xí)關(guān)注一個(gè)智能體的策略模型,借鑒了不完全可知馬爾可夫決策中的最優(yōu)控制思想,智能體通過與環(huán)境交互來最大化長期累積獎勵,控制優(yōu)化與策略學(xué)習(xí)之間存在著緊密聯(lián)系。因此,深度強(qiáng)化學(xué)習(xí)技術(shù)在系統(tǒng)控制方面存在廣闊的應(yīng)用前景。 深度強(qiáng)化學(xué)習(xí)算法分為基于值的強(qiáng)化學(xué)習(xí)算法和基于策略的強(qiáng)化學(xué)習(xí)算法2類。

1) Q學(xué)習(xí)及深度Q學(xué)習(xí)算法是最常用且直接的基于值的算法,它通過動作值函數(shù)來獲得最優(yōu)策略。通過每個(gè)智能體學(xué)習(xí)一個(gè)獨(dú)立的最優(yōu)方程,將基于值的算法直接應(yīng)用于多智能體系統(tǒng)。然而,在學(xué)習(xí)過程中鄰居智能體更新時(shí),當(dāng)前智能體的獎勵和狀態(tài)轉(zhuǎn)移等信息也會發(fā)生改變。在這種情況下,環(huán)境就會出現(xiàn)不穩(wěn)定性問題,并且也不再滿足馬爾可夫性,最終導(dǎo)致基于值的算法的收斂性得不到保證。

2) 基于策略的算法是另一類深度強(qiáng)化學(xué)習(xí)算法,該類算法通過獨(dú)立的神經(jīng)網(wǎng)絡(luò)來近似隨機(jī)策略。執(zhí)行者-評估者 (Actor-Critic, AC) 算法結(jié)合了基于值和基于策略的算法,其中執(zhí)行者代表生成動作的策略函數(shù),評估者代表評價(jià)動作獎勵的值逼近器。深度確定性策略梯度算法(DDPG)是一種無模型的AC算法,它結(jié)合了確定性策略梯度和深度Q學(xué)習(xí)算法,其中執(zhí)行者和評估者均用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近。多智能體深度確定性策略梯度方法(MADDPG)將DDPG擴(kuò)展到一個(gè)多智能體協(xié)同完成的任務(wù)環(huán)境,在這個(gè)環(huán)境中智能體智能獲得局部信息。MADDPG是一個(gè)針對多智能體場景重新設(shè)計(jì)的AC模型,旨在解決不斷變化的環(huán)境和多智能體間的復(fù)雜問題。

1理論基礎(chǔ)

1.1 代數(shù)圖論

5f2fa5f8-fe6b-11ee-a297-92fbcf53809c.png

5f3f9454-fe6b-11ee-a297-92fbcf53809c.png

1.2 問題描述

5f4c854c-fe6b-11ee-a297-92fbcf53809c.png

2基于MADDPG迭代的編隊(duì)協(xié)同控制框架

2.1 傳統(tǒng)控制設(shè)計(jì)

5f722932-fe6b-11ee-a297-92fbcf53809c.png

2.2 編隊(duì)協(xié)同控制算法框架設(shè)計(jì)

5f89d3c0-fe6b-11ee-a297-92fbcf53809c.png

5fa56b30-fe6b-11ee-a297-92fbcf53809c.png

圖1 編隊(duì)控制算法框架

2.3 學(xué)習(xí)目標(biāo)設(shè)計(jì)

5fb3d940-fe6b-11ee-a297-92fbcf53809c.png

5fc6fdb8-fe6b-11ee-a297-92fbcf53809c.png

2.4 編隊(duì)協(xié)同控制算法流程

5fd67cf2-fe6b-11ee-a297-92fbcf53809c.png

5fe6f294-fe6b-11ee-a297-92fbcf53809c.png

3試驗(yàn)結(jié)果與分析

3.1 試驗(yàn)設(shè)置

600a7354-fe6b-11ee-a297-92fbcf53809c.png

圖2 試驗(yàn)交互拓?fù)鋱D

3.2 結(jié)果與分析

本文在3.1節(jié)展示的環(huán)境中運(yùn)行并評估本文算法,仿真結(jié)果如圖3所示,圖4給出了智能體訓(xùn)練前后運(yùn)動軌跡對比。 4個(gè)智能體的長期累計(jì)獎勵得分如圖3(a)所示。在學(xué)習(xí)過程中得分是逐漸增加的,并且在50?000次迭代后收斂到6以內(nèi),這意味著MAS在50?000次迭代后可以有效消除初始誤差;同時(shí),這個(gè)得分也意味著MAS實(shí)現(xiàn)理想編隊(duì)和到達(dá)目標(biāo)位置所需的代價(jià)。圖3(b)是智能體最后50次訓(xùn)練收斂時(shí)的穩(wěn)定獎勵。由圖可見,4個(gè)智能體可以快速實(shí)現(xiàn)穩(wěn)定編隊(duì),且跟蹤誤差同樣意味著獎懲可以在1?s內(nèi)收斂至接近于0。 4個(gè)智能體在訓(xùn)練前后的初始、1?s、2?s、3?s和4?s編隊(duì)狀態(tài)如圖4所示。圖中藍(lán)色點(diǎn)為領(lǐng)航者,對應(yīng)圖2中0號藍(lán)色點(diǎn),粉色、灰色和綠色點(diǎn)分別對應(yīng)圖2中1號粉色點(diǎn)、2號紫色點(diǎn)和3號橙色點(diǎn)。試驗(yàn)結(jié)果表明,由于缺乏環(huán)境的先驗(yàn)知識,MAS在首次嘗試時(shí)會偏離隊(duì)形。當(dāng)智能體通過在環(huán)境中反復(fù)試錯(cuò)積累經(jīng)驗(yàn),MAS會收斂形成一個(gè)穩(wěn)定的編隊(duì)。最終,領(lǐng)航者可以到達(dá)目標(biāo)位置且追隨者可以與領(lǐng)航者保持編隊(duì)位置穩(wěn)定。

601ba912-fe6b-11ee-a297-92fbcf53809c.png

圖 3 試驗(yàn)環(huán)境下仿真結(jié)果

60288ec0-fe6b-11ee-a297-92fbcf53809c.png

圖 4 智能體訓(xùn)練前后狀態(tài)對比

4結(jié)束語

本文采用多智能體策略梯度算法,結(jié)合集中訓(xùn)練和分布執(zhí)行的框架,研究并求解多智能體協(xié)同編隊(duì)控制問題,設(shè)計(jì)構(gòu)建了一種基于多智能體深度確定性策略梯度算法的分布式編隊(duì)控制框架,并給出了算法的訓(xùn)練流程。通過對多智能體合作環(huán)境的仿真訓(xùn)練與評估,驗(yàn)證了本文算法的有效性。試驗(yàn)結(jié)果表明,本文算法能夠使智能體在動力學(xué)模型先驗(yàn)知識未知的情況下協(xié)同完成任務(wù),有助于解決數(shù)學(xué)模型過于復(fù)雜而難以識別的控制問題。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:基于深度強(qiáng)化學(xué)習(xí)的多智能體編隊(duì)協(xié)同控制

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    請問迭代器的實(shí)現(xiàn)原理是什么?

    什么是集合框架?LIST接口的實(shí)際應(yīng)用?迭代器的實(shí)現(xiàn)原理是什么?
    發(fā)表于 11-04 09:45

    【飛控開發(fā)高級篇7】瘋殼·開源編隊(duì)無人機(jī)-編隊(duì)飛行

    COCOFLY教程——瘋殼無人機(jī)·系列編隊(duì)飛行圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行,編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以及CO
    發(fā)表于 06-14 18:41

    【飛控開發(fā)高級教程7】瘋殼·開源編隊(duì)無人機(jī)-編隊(duì)飛行

    COCOFLY教程——瘋殼·無人機(jī)·系列編隊(duì)飛行 圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行,編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以
    發(fā)表于 07-25 19:06

    【瘋殼·無人機(jī)教程29】開源編隊(duì)無人機(jī)-編隊(duì)飛行

    COCOFLY教程——瘋殼·無人機(jī)·系列編隊(duì)飛行圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行,編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以及CO
    發(fā)表于 09-05 17:40

    多機(jī)器人的積分滑模編隊(duì)控制_錢殿偉

    多機(jī)器人的積分滑模編隊(duì)控制_錢殿偉
    發(fā)表于 01-08 13:26 ?1次下載

    一種欠驅(qū)動船舶編隊(duì)滑模魯棒控制方法_楊震

    一種欠驅(qū)動船舶編隊(duì)滑模魯棒控制方法_楊震
    發(fā)表于 01-08 13:58 ?1次下載

    無線通信網(wǎng)絡(luò)的多智能小車編隊(duì)控制系統(tǒng)_申忠宇

    無線通信網(wǎng)絡(luò)的多智能小車編隊(duì)控制系統(tǒng)_申忠宇
    發(fā)表于 01-12 22:26 ?3次下載

    無線通信網(wǎng)絡(luò)的多小車編隊(duì)控制系統(tǒng)

    無線通信網(wǎng)絡(luò)的多小車編隊(duì)控制系統(tǒng)
    發(fā)表于 09-01 10:51 ?3次下載
    無線通信網(wǎng)絡(luò)的多小車<b class='flag-5'>編隊(duì)</b><b class='flag-5'>控制</b>系統(tǒng)

    基于二層鄰居信息的多智能體系統(tǒng)編隊(duì)控制

    為了加快多智能體編隊(duì)控制過程中的狀態(tài)收斂,提出基于多跳式網(wǎng)絡(luò)技術(shù)的編隊(duì)控制方法。首先將多智能體系統(tǒng)(MAS)中的每個(gè)智能體之間的相對速度偏移引入到
    發(fā)表于 11-29 15:34 ?3次下載
    基于二層鄰居信息的多智能體系統(tǒng)<b class='flag-5'>編隊(duì)</b><b class='flag-5'>控制</b>

    基于迭代填充的內(nèi)存計(jì)算框架分區(qū)映射算法

    針對內(nèi)存計(jì)算框架Spark在作業(yè)Shuffle階段一次分區(qū)產(chǎn)生的數(shù)據(jù)傾斜問題,提出一種內(nèi)存計(jì)算框架迭代填充分區(qū)映射算法(IFPM)。首先,分析Spark作業(yè)的執(zhí)行機(jī)制,建立作業(yè)效率模型和分區(qū)映射
    發(fā)表于 12-05 16:32 ?0次下載
    基于<b class='flag-5'>迭代</b>填充的內(nèi)存計(jì)算<b class='flag-5'>框架</b>分區(qū)映射算法

    多無人機(jī)協(xié)同編隊(duì)飛行控制的關(guān)鍵技術(shù)和發(fā)展展望

    搭建滿足多無人機(jī)協(xié)同編隊(duì)仿真的多無人機(jī)仿真平臺,對于加快開發(fā)周期,降低多無人機(jī)編隊(duì)試驗(yàn)成本,具有十分重要的意義。當(dāng)前國內(nèi)外已有一些針對無人機(jī)編隊(duì)或多無人機(jī)仿真系統(tǒng)的研究,主要分為如下4
    發(fā)表于 07-26 10:09 ?9599次閱讀
    多無人機(jī)<b class='flag-5'>協(xié)同</b><b class='flag-5'>編隊(duì)</b>飛行<b class='flag-5'>控制</b>的關(guān)鍵技術(shù)和發(fā)展展望

    基于改進(jìn)一致性的多無人機(jī)編隊(duì)控制算法

    基于改進(jìn)一致性的多無人機(jī)編隊(duì)控制算法
    發(fā)表于 06-22 16:02 ?16次下載

    基于虛擬結(jié)構(gòu)的機(jī)器人編隊(duì)控制方法

    目前,實(shí)現(xiàn)多 AUV 系統(tǒng)編隊(duì)航行的控制方法主要包括基于領(lǐng)航者-跟隨者的方法。
    的頭像 發(fā)表于 10-10 17:39 ?2591次閱讀

    集群無人艇協(xié)同微波網(wǎng)絡(luò)通信技術(shù)探討

    通信互聯(lián) 、協(xié)同控制、工業(yè)化量產(chǎn)的系統(tǒng)工程; 探討了海上無人艇微波通信組網(wǎng)的解決方案,為無人艇編隊(duì)在軍事領(lǐng)域的深入研究提供了一定的參考價(jià)值。?
    發(fā)表于 05-18 09:49 ?0次下載

    想做無人機(jī)編隊(duì)表演?需要掌握哪些?

    最近”低空經(jīng)濟(jì)“火了,嵌入式工程師應(yīng)該學(xué)習(xí)哪些技術(shù)棧才能做無人機(jī)編隊(duì)表演?一、什么是無人機(jī)編隊(duì)表演?無人機(jī)編隊(duì)表演是一種通過多架無人機(jī)協(xié)同飛行和執(zhí)行各種精確動作和
    的頭像 發(fā)表于 03-29 08:09 ?808次閱讀
    想做無人機(jī)<b class='flag-5'>編隊(duì)</b>表演?需要掌握哪些?