一種解決連續(xù)問(wèn)題的真實(shí)在線自然梯度行動(dòng)者-評(píng)論家算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
策略梯度作為一種能有效解決連續(xù)空間決策問(wèn)題的方法被廣泛研究.然而,由于在策略估計(jì)過(guò)程中存在較大的方差,因此基于策略梯度的方法往往受到樣本利用率低、收斂速度幔等限制.針對(duì)該問(wèn)題。提出了真實(shí)在線增量式自然梯度行動(dòng)者一評(píng)論家算法(TOINAC).TOINAC算法采用優(yōu)于傳統(tǒng)梯度的自然梯度,在真實(shí)在線時(shí)間差分(TOTD)算法的基礎(chǔ)上。提出了一種新型的向前觀點(diǎn),改進(jìn)了自然梯度行動(dòng)者一評(píng)論家算法.在評(píng)論家部分,利用TOTD算法高效性的特點(diǎn)來(lái)估計(jì)值函數(shù):在行動(dòng)者部分。引入一種新的向前觀點(diǎn)來(lái)估計(jì)自然梯度。再利用資格跡將自然梯度估計(jì)變?yōu)樵诰€估計(jì)。提高了自然梯度估計(jì)的準(zhǔn)確性和算法的效率.將TOINAC算法與核方法以及正態(tài)策略分布結(jié)合,解決連續(xù)空間問(wèn)題.最后。在平衡桿、Mountain Car、以及Acrobot等連續(xù)問(wèn)題上進(jìn)行了仿真實(shí)驗(yàn)。驗(yàn)證算法的有效性.
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%