亚洲九九热在线观看,天天摸天天做天天爽天天舒服

作者：文永明，李博研，張寧寧，李小建，熊楚依，劉潔璽

采用深度強(qiáng)化學(xué)習(xí)算法解決了多智能體編隊(duì)協(xié)同控制問題?；诙嘀悄荏w深度確定性策略梯度算法（MADDPG）構(gòu)建分布式編隊(duì)控制架構(gòu)，并結(jié)合集中式訓(xùn)練-分布式執(zhí)行框架進(jìn)行求解。針對多智能體環(huán)境不穩(wěn)定問題，依據(jù)單個(gè)智能體的局部信息構(gòu)建對應(yīng)獎勵函數(shù)。針對大規(guī)模編隊(duì)協(xié)同控制，實(shí)現(xiàn)了多個(gè)多智能體環(huán)境下的算法訓(xùn)練與評估。試驗(yàn)結(jié)果表明，應(yīng)用該算法的多智能體能夠完成協(xié)同任務(wù)，且所有智能體都可得到合理的協(xié)同控制策略。

0引言

多智能體系統(tǒng)（MAS）由若干單獨(dú)控制的、通過無線網(wǎng)絡(luò)連接的智能體構(gòu)成，在諸如控制、編隊(duì)、分配、博弈和分布式估計(jì)等問題中廣泛研究并取得了一定進(jìn)展。在已知系統(tǒng)動力學(xué)模型基礎(chǔ)上，研究者們對多智能體系統(tǒng)基礎(chǔ)理論開展了大量研究。傳統(tǒng)的系統(tǒng)識別試驗(yàn)依據(jù)輸入-輸出數(shù)據(jù)確定分析模型，但在實(shí)際應(yīng)用中，復(fù)雜過程建模困難且昂貴。此外，傳統(tǒng)的控制方法在與復(fù)雜環(huán)境交互時(shí)存在局限性，固定策略不能應(yīng)用于不同環(huán)境或任務(wù)場景中。深度強(qiáng)化學(xué)習(xí)關(guān)注一個(gè)智能體的策略模型，借鑒了不完全可知馬爾可夫決策中的最優(yōu)控制思想，智能體通過與環(huán)境交互來最大化長期累積獎勵，控制優(yōu)化與策略學(xué)習(xí)之間存在著緊密聯(lián)系。因此，深度強(qiáng)化學(xué)習(xí)技術(shù)在系統(tǒng)控制方面存在廣闊的應(yīng)用前景。深度強(qiáng)化學(xué)習(xí)算法分為基于值的強(qiáng)化學(xué)習(xí)算法和基于策略的強(qiáng)化學(xué)習(xí)算法2類。

1) Q學(xué)習(xí)及深度Q學(xué)習(xí)算法是最常用且直接的基于值的算法，它通過動作值函數(shù)來獲得最優(yōu)策略。通過每個(gè)智能體學(xué)習(xí)一個(gè)獨(dú)立的最優(yōu)方程，將基于值的算法直接應(yīng)用于多智能體系統(tǒng)。然而，在學(xué)習(xí)過程中鄰居智能體更新時(shí)，當(dāng)前智能體的獎勵和狀態(tài)轉(zhuǎn)移等信息也會發(fā)生改變。在這種情況下，環(huán)境就會出現(xiàn)不穩(wěn)定性問題，并且也不再滿足馬爾可夫性，最終導(dǎo)致基于值的算法的收斂性得不到保證。

2) 基于策略的算法是另一類深度強(qiáng)化學(xué)習(xí)算法，該類算法通過獨(dú)立的神經(jīng)網(wǎng)絡(luò)來近似隨機(jī)策略。執(zhí)行者-評估者 (Actor-Critic, AC) 算法結(jié)合了基于值和基于策略的算法，其中執(zhí)行者代表生成動作的策略函數(shù)，評估者代表評價(jià)動作獎勵的值逼近器。深度確定性策略梯度算法（DDPG）是一種無模型的AC算法，它結(jié)合了確定性策略梯度和深度Q學(xué)習(xí)算法，其中執(zhí)行者和評估者均用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近。多智能體深度確定性策略梯度方法（MADDPG）將DDPG擴(kuò)展到一個(gè)多智能體協(xié)同完成的任務(wù)環(huán)境，在這個(gè)環(huán)境中智能體智能獲得局部信息。MADDPG是一個(gè)針對多智能體場景重新設(shè)計(jì)的AC模型，旨在解決不斷變化的環(huán)境和多智能體間的復(fù)雜問題。

1理論基礎(chǔ)

1.1 代數(shù)圖論

1.2 問題描述

2基于MADDPG迭代的編隊(duì)協(xié)同控制框架

2.1 傳統(tǒng)控制設(shè)計(jì)

2.2 編隊(duì)協(xié)同控制算法框架設(shè)計(jì)

圖1 編隊(duì)控制算法框架

2.3 學(xué)習(xí)目標(biāo)設(shè)計(jì)

2.4 編隊(duì)協(xié)同控制算法流程

3試驗(yàn)結(jié)果與分析

3.1 試驗(yàn)設(shè)置

圖2 試驗(yàn)交互拓?fù)鋱D

3.2 結(jié)果與分析

本文在3.1節(jié)展示的環(huán)境中運(yùn)行并評估本文算法，仿真結(jié)果如圖3所示，圖4給出了智能體訓(xùn)練前后運(yùn)動軌跡對比。 4個(gè)智能體的長期累計(jì)獎勵得分如圖3(a)所示。在學(xué)習(xí)過程中得分是逐漸增加的，并且在50?000次迭代后收斂到6以內(nèi)，這意味著MAS在50?000次迭代后可以有效消除初始誤差；同時(shí)，這個(gè)得分也意味著MAS實(shí)現(xiàn)理想編隊(duì)和到達(dá)目標(biāo)位置所需的代價(jià)。圖3(b)是智能體最后50次訓(xùn)練收斂時(shí)的穩(wěn)定獎勵。由圖可見，4個(gè)智能體可以快速實(shí)現(xiàn)穩(wěn)定編隊(duì)，且跟蹤誤差同樣意味著獎懲可以在1?s內(nèi)收斂至接近于0。 4個(gè)智能體在訓(xùn)練前后的初始、1?s、2?s、3?s和4?s編隊(duì)狀態(tài)如圖4所示。圖中藍(lán)色點(diǎn)為領(lǐng)航者，對應(yīng)圖2中0號藍(lán)色點(diǎn)，粉色、灰色和綠色點(diǎn)分別對應(yīng)圖2中1號粉色點(diǎn)、2號紫色點(diǎn)和3號橙色點(diǎn)。試驗(yàn)結(jié)果表明，由于缺乏環(huán)境的先驗(yàn)知識，MAS在首次嘗試時(shí)會偏離隊(duì)形。當(dāng)智能體通過在環(huán)境中反復(fù)試錯(cuò)積累經(jīng)驗(yàn)，MAS會收斂形成一個(gè)穩(wěn)定的編隊(duì)。最終，領(lǐng)航者可以到達(dá)目標(biāo)位置且追隨者可以與領(lǐng)航者保持編隊(duì)位置穩(wěn)定。

圖 3 試驗(yàn)環(huán)境下仿真結(jié)果

圖 4 智能體訓(xùn)練前后狀態(tài)對比

4結(jié)束語

本文采用多智能體策略梯度算法，結(jié)合集中訓(xùn)練和分布執(zhí)行的框架，研究并求解多智能體協(xié)同編隊(duì)控制問題，設(shè)計(jì)構(gòu)建了一種基于多智能體深度確定性策略梯度算法的分布式編隊(duì)控制框架，并給出了算法的訓(xùn)練流程。通過對多智能體合作環(huán)境的仿真訓(xùn)練與評估，驗(yàn)證了本文算法的有效性。試驗(yàn)結(jié)果表明，本文算法能夠使智能體在動力學(xué)模型先驗(yàn)知識未知的情況下協(xié)同完成任務(wù)，有助于解決數(shù)學(xué)模型過于復(fù)雜而難以識別的控制問題。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4722

瀏覽量
100306
算法

算法

+關(guān)注

關(guān)注
23

文章
4574

瀏覽量
92333
無線網(wǎng)絡(luò)

無線網(wǎng)絡(luò)

+關(guān)注

關(guān)注
6

文章
1417

瀏覽量
65804
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5430

瀏覽量
120787

原文標(biāo)題：基于深度強(qiáng)化學(xué)習(xí)的多智能體編隊(duì)協(xié)同控制

文章出處：【微信號：AI智勝未來，微信公眾號：AI智勝未來】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

請問迭代器的實(shí)現(xiàn)原理是什么？

什么是集合框架？LIST接口的實(shí)際應(yīng)用?迭代器的實(shí)現(xiàn)原理是什么？

發(fā)表于 11-04 09:45

【飛控開發(fā)高級篇7】瘋殼·開源編隊(duì)無人機(jī)-編隊(duì)飛行

COCOFLY教程——瘋殼無人機(jī)·系列編隊(duì)飛行圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行，編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以及CO

發(fā)表于 06-14 18:41

【飛控開發(fā)高級教程7】瘋殼·開源編隊(duì)無人機(jī)-編隊(duì)飛行

COCOFLY教程——瘋殼·無人機(jī)·系列編隊(duì)飛行圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行，編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以

發(fā)表于 07-25 19:06

【瘋殼·無人機(jī)教程29】開源編隊(duì)無人機(jī)-編隊(duì)飛行

COCOFLY教程——瘋殼·無人機(jī)·系列編隊(duì)飛行圖1 一、編隊(duì)飛行 COCOFLY 支持編隊(duì)飛行，編隊(duì)飛行需要依托編隊(duì)的圖形碼地圖以及CO

發(fā)表于 09-05 17:40

多機(jī)器人的積分滑模編隊(duì)控制_錢殿偉

多機(jī)器人的積分滑模編隊(duì)控制_錢殿偉

發(fā)表于 01-08 13:26 ?1次下載

一種欠驅(qū)動船舶編隊(duì)滑模魯棒控制方法_楊震

一種欠驅(qū)動船舶編隊(duì)滑模魯棒控制方法_楊震

發(fā)表于 01-08 13:58 ?1次下載

無線通信網(wǎng)絡(luò)的多智能小車編隊(duì)控制系統(tǒng)_申忠宇

無線通信網(wǎng)絡(luò)的多智能小車編隊(duì)控制系統(tǒng)_申忠宇

發(fā)表于 01-12 22:26 ?3次下載

無線通信網(wǎng)絡(luò)的多小車編隊(duì)控制系統(tǒng)

無線通信網(wǎng)絡(luò)的多小車編隊(duì)控制系統(tǒng)

發(fā)表于 09-01 10:51 ?3次下載

無線通信網(wǎng)絡(luò)的多小車<b class='flag-5'>編隊(duì)</b><b class='flag-5'>控制</b>系統(tǒng)

基于二層鄰居信息的多智能體系統(tǒng)編隊(duì)控制

為了加快多智能體編隊(duì)控制過程中的狀態(tài)收斂，提出基于多跳式網(wǎng)絡(luò)技術(shù)的編隊(duì)控制方法。首先將多智能體系統(tǒng)（MAS）中的每個(gè)智能體之間的相對速度偏移引入到控

發(fā)表于 11-29 15:34 ?3次下載

基于迭代填充的內(nèi)存計(jì)算框架分區(qū)映射算法

針對內(nèi)存計(jì)算框架Spark在作業(yè)Shuffle階段一次分區(qū)產(chǎn)生的數(shù)據(jù)傾斜問題，提出一種內(nèi)存計(jì)算框架的迭代填充分區(qū)映射算法（IFPM）。首先，分析Spark作業(yè)的執(zhí)行機(jī)制，建立作業(yè)效率模型和分區(qū)映射

發(fā)表于 12-05 16:32 ?0次下載

多無人機(jī)協(xié)同編隊(duì)飛行控制的關(guān)鍵技術(shù)和發(fā)展展望

搭建滿足多無人機(jī)協(xié)同編隊(duì)仿真的多無人機(jī)仿真平臺，對于加快開發(fā)周期，降低多無人機(jī)編隊(duì)試驗(yàn)成本，具有十分重要的意義。當(dāng)前國內(nèi)外已有一些針對無人機(jī)編隊(duì)或多無人機(jī)仿真系統(tǒng)的研究，主要分為如下4

發(fā)表于 07-26 10:09 ?9599次閱讀

基于改進(jìn)一致性的多無人機(jī)編隊(duì)控制算法

基于改進(jìn)一致性的多無人機(jī)編隊(duì)控制算法

發(fā)表于 06-22 16:02 ?16次下載

基于虛擬結(jié)構(gòu)的機(jī)器人編隊(duì)控制方法

目前，實(shí)現(xiàn)多 AUV 系統(tǒng)編隊(duì)航行的控制方法主要包括基于領(lǐng)航者-跟隨者的方法。

發(fā)表于 10-10 17:39 ?2591次閱讀

集群無人艇協(xié)同微波網(wǎng)絡(luò)通信技術(shù)探討

通信互聯(lián) 、協(xié)同控制、工業(yè)化量產(chǎn)的系統(tǒng)工程；探討了海上無人艇微波通信組網(wǎng)的解決方案，為無人艇編隊(duì)在軍事領(lǐng)域的深入研究提供了一定的參考價(jià)值。?

發(fā)表于 05-18 09:49 ?0次下載

想做無人機(jī)編隊(duì)表演？需要掌握哪些？

最近”低空經(jīng)濟(jì)“火了，嵌入式工程師應(yīng)該學(xué)習(xí)哪些技術(shù)棧才能做無人機(jī)編隊(duì)表演？一、什么是無人機(jī)編隊(duì)表演?無人機(jī)編隊(duì)表演是一種通過多架無人機(jī)協(xié)同飛行和執(zhí)行各種精確動作和

發(fā)表于 03-29 08:09 ?808次閱讀