首頁(yè): 電子電路圖,電子技術(shù)資料網(wǎng)站首頁(yè)

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發(fā)創(chuàng)新靈感的新方案、新的參考設(shè)計(jì)、新的設(shè)計(jì)構(gòu)想等可下載的電子資料！

電子技術(shù)應(yīng)用: 電子技術(shù)應(yīng)用頻道 -- 為電子工程師提供電子產(chǎn)品設(shè)計(jì)所需的技術(shù)分析、設(shè)計(jì)技巧、設(shè)計(jì)工具、測(cè)試工具等技術(shù)文章！

電子元器件: 專業(yè)的電子元器件平臺(tái) -- 及時(shí)發(fā)布大量最新IC、分立器件、模組等電子元器件產(chǎn)品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機(jī)電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術(shù)論壇: 構(gòu)建電子工程師交流的平臺(tái) -- 在交流中進(jìn)一步學(xué)習(xí)設(shè)計(jì)技巧、規(guī)劃技術(shù)人生、提升自我價(jià)值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語(yǔ)言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅(qū)動(dòng)程序單片機(jī)編程數(shù)值算法/人工智能

您的位置：電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

一種解決連續(xù)問(wèn)題的真實(shí)在線自然梯度行動(dòng)者-評(píng)論家算法

大?。?/span>0.85 MB 人氣： 2017-12-19 需要積分：0

推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論（0）

前往下載地址

分享到:

標(biāo)簽：

　　策略梯度作為一種能有效解決連續(xù)空間決策問(wèn)題的方法被廣泛研究．然而，由于在策略估計(jì)過(guò)程中存在較大的方差，因此基于策略梯度的方法往往受到樣本利用率低、收斂速度幔等限制．針對(duì)該問(wèn)題。提出了真實(shí)在線增量式自然梯度行動(dòng)者一評(píng)論家算法（TOINAC）.TOINAC算法采用優(yōu)于傳統(tǒng)梯度的自然梯度，在真實(shí)在線時(shí)間差分（TOTD）算法的基礎(chǔ)上。提出了一種新型的向前觀點(diǎn)，改進(jìn)了自然梯度行動(dòng)者一評(píng)論家算法．在評(píng)論家部分，利用TOTD算法高效性的特點(diǎn)來(lái)估計(jì)值函數(shù)：在行動(dòng)者部分。引入一種新的向前觀點(diǎn)來(lái)估計(jì)自然梯度。再利用資格跡將自然梯度估計(jì)變?yōu)樵诰€估計(jì)。提高了自然梯度估計(jì)的準(zhǔn)確性和算法的效率．將TOINAC算法與核方法以及正態(tài)策略分布結(jié)合，解決連續(xù)空間問(wèn)題．最后。在平衡桿、Mountain Car、以及Acrobot等連續(xù)問(wèn)題上進(jìn)行了仿真實(shí)驗(yàn)。驗(yàn)證算法的有效性．

一種解決連續(xù)問(wèn)題的真實(shí)在線自然梯度行動(dòng)者-評(píng)論家算法

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

下載地址

不能下載？請(qǐng)通知我們

一種解決連續(xù)問(wèn)題的真實(shí)在線自然梯度行動(dòng)者-評(píng)論家算法下載

普通下載普通下載

用戶評(píng)論

發(fā)表評(píng)論即可獲得積分！ 詳見(jiàn)積分規(guī)則

發(fā)表評(píng)論

用戶評(píng)論

評(píng)價(jià):好評(píng)中評(píng)差評(píng)

發(fā)表評(píng)論，獲取積分！請(qǐng)遵守相關(guān)規(guī)定！

注冊(cè)會(huì)員

游客:

一種解決連續(xù)問(wèn)題的真實(shí)在線自然梯度行動(dòng)者-評(píng)論家算法

下載地址

一種解決連續(xù)問(wèn)題的真實(shí)在線自然梯度行動(dòng)者-評(píng)論家算法下載

相關(guān)電子資料下載

用戶評(píng)論

發(fā)表評(píng)論

分享你我的電子世界

實(shí)用電子設(shè)計(jì)資料下載

源碼下載排行

熱門詞