0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用強化學(xué)習(xí)來更好地進行商品搜索的項目

DPVg_AI_era ? 來源:lp ? 2019-03-05 09:06 ? 次閱讀

南京大學(xué)LAMDA Jing-Cheng Shi、俞揚等人團隊的最新研究,描述了在淘寶這個大型在線零售平臺、同時也是一個采樣成本較高的物理環(huán)境中,利用強化學(xué)習(xí)來更好地進行商品搜索的項目。

在物理世界的任務(wù)中應(yīng)用強化學(xué)習(xí)是極具挑戰(zhàn)性的。根據(jù)當前強化學(xué)習(xí)方法的要求,在物理環(huán)境中進行大量實驗是不可行的。

南京大學(xué)LAMDA侍競成、俞揚等人團隊最近發(fā)表在AAAI 2019的論文,描述了在淘寶這個大型在線零售平臺、同時也是一個采樣成本較高的物理環(huán)境中,利用強化學(xué)習(xí)來更好地進行商品搜索的項目。

論文地址:https://arxiv.org/pdf/1805.10000.pdf

他們沒有直接在淘寶上訓(xùn)練強化學(xué)習(xí),而是提出了一個環(huán)境構(gòu)建方法:先構(gòu)建虛擬淘寶(Virtual-Taobao),這是一個從歷史客戶行為數(shù)據(jù)中學(xué)習(xí)的模擬器,然后在虛擬淘寶上訓(xùn)練策略,不需要實物采樣成本。

此外,本研究的貢獻如下:

為了提高仿真精度,我們提出了GAN-SD(GAN for simulation distribution),用于更好地匹配分布的客戶特征生成;

我們還提出MAIL(Multiagent Adversarial Imitation Learning)來產(chǎn)生更好的一般化的客戶行為。

為了進一步避免過擬合模擬器的缺陷,我們提出了ANC(Action Norm Constraint)策略來規(guī)范策略模型。

為強化學(xué)習(xí)構(gòu)建的Virtual-Taobao架構(gòu)

在實驗中,Virtual-Taobao是從數(shù)以億計的真實淘寶客戶記錄中訓(xùn)練出來的。與真實淘寶相比,虛擬淘寶忠實地還原了真實環(huán)境的重要屬性。

該研究進一步證明,純粹在虛擬淘寶上訓(xùn)練的策略,通過在線A/B測試,其物理采樣成本為零,可以顯著優(yōu)于傳統(tǒng)的監(jiān)督方法在現(xiàn)實世界中的性能。

研究人員希望這項工作可以為在復(fù)雜物理環(huán)境中應(yīng)用強化學(xué)習(xí)提供一些啟示。

此外,Virtual-Taobao模型也已經(jīng)開源:

https://github.com/eyounx/VirtualTaobao

接下來,新智元帶來這篇論文的翻譯解讀:

在物理世界應(yīng)用RL為何重要

隨著深度神經(jīng)網(wǎng)絡(luò)的融合,強化學(xué)習(xí)(RL)最近取得了許多重要進展,在游戲、機器人、自然語言處理等領(lǐng)域取得了很多成功。然而,關(guān)于RL在物理世界任務(wù)中的應(yīng)用的研究較少,如與客戶交互的大型在線系統(tǒng),這可能對用戶體驗和社會財富產(chǎn)生很大的影響。

大型在線系統(tǒng)雖然很少與RL方法相結(jié)合,但確實追求應(yīng)用RL。實際上,許多在線系統(tǒng)都涉及到序列決策和延遲反饋。

例如,自動化交易系統(tǒng)需要根據(jù)歷史指標和所有相關(guān)信息高頻率地管理投資組合,并通過分析長期收益仔細調(diào)整其策略。

同樣的,電子商務(wù)搜索引擎也會觀察到買家的需求,并將排名好的商品頁面顯示給買家,然后在得到用戶反饋后更新其決策模型,追求收益最大化。在這期間,如果買家繼續(xù)瀏覽,它會根據(jù)買家的最新信息不斷顯示新的頁面。

以往的解決方案主要基于監(jiān)督學(xué)習(xí)。它們無法學(xué)習(xí)序列決策和最大化長期回報。因此,RL解決方案非常有吸引力。

三大算法克服虛擬淘寶應(yīng)用RL的障礙

在這些場景中直接應(yīng)用RL的一個主要障礙是,當前的RL算法通常需要與環(huán)境進行大量的交互,這需要很高的物理成本,比如實際的金錢、幾天到幾個月的時間、糟糕的用戶體驗,甚至是生命(醫(yī)療任務(wù)中)。

為了避免物理成本,RL訓(xùn)練經(jīng)常使用模擬器。谷歌在數(shù)據(jù)中心冷卻方面的應(yīng)用(Gao and Jamidar 2014)就展示了一個很好的實踐:用一個神經(jīng)網(wǎng)絡(luò)來模擬系統(tǒng)動態(tài),然后通過一些最先進的RL算法在模擬環(huán)境中訓(xùn)練策略。

在這個淘寶商品搜索項目中,我們使用了類似的過程:建立一個模擬器,即Virtual-Taobao,然后就可以在模擬器中離線訓(xùn)練策略,利用RL算法實現(xiàn)長期收益最大化。

理想情況下,這樣獲得的策略在真實環(huán)境中可以同樣表現(xiàn)良好,或者至少可以為更便宜的在線調(diào)優(yōu)提供良好的初始化。

然而,與模擬數(shù)據(jù)中心的動態(tài)不同,模擬數(shù)億客戶在動態(tài)環(huán)境中的行為更具挑戰(zhàn)性。

我們處理了根據(jù)客戶策略生成的客戶行為數(shù)據(jù)?,F(xiàn)有的模仿學(xué)習(xí)方法可以實現(xiàn)從數(shù)據(jù)中推導(dǎo)出一個策略。

行為克隆(behavior cloning, BC)方法(Pomerleau 1992)主要是從狀態(tài)-行為數(shù)據(jù)中通過監(jiān)督方法來學(xué)習(xí)策略。BC要求對RL任務(wù)中不滿足的演示數(shù)據(jù)進行i.i.d.假設(shè)。

逆強化學(xué)習(xí)(IRL)方法從數(shù)據(jù)中學(xué)習(xí)一個獎勵函數(shù),然后根據(jù)這個獎勵函數(shù)訓(xùn)練一個策略。IRL放松了數(shù)據(jù)的i.i.d.假設(shè),但仍然假設(shè)環(huán)境是靜態(tài)的。當環(huán)境(即淘寶平臺)發(fā)生變化時,學(xué)習(xí)策略可能會失敗。上述問題使得這些方法在構(gòu)建虛擬淘寶時不太實用。

在這項工作中,我們通過生成客戶和生成交互來構(gòu)建虛擬淘寶。有搜索需求的客戶進入淘寶并觸發(fā)平臺搜索引擎,這類搜索需求的分布非常復(fù)雜和廣泛。

但是,從數(shù)據(jù)庫中抽取的樣本并不能生成數(shù)據(jù)之外的客戶,從而導(dǎo)致最終模型的泛化程度較低。我們提出了GAN-for-SimulatingDistribution(GAN-SD)方法來生成虛擬客戶,因為我們發(fā)現(xiàn)傳統(tǒng)的方法,如GMM和GAN,并不適合這種高維數(shù)據(jù)。

為了生成交互(interactions),我們提出多主體對抗模仿學(xué)習(xí)(Multi-agent Adversarial Imitation Learning, MAIL)方法。我們可以直接在虛擬淘寶中調(diào)用淘寶平臺策略,但這會導(dǎo)致創(chuàng)造一個無法適應(yīng)真實環(huán)境變化的靜態(tài)環(huán)境。因此,MAIL同時學(xué)習(xí)客戶策略和平臺策略。

為了同時學(xué)習(xí)這兩個策略,MAIL采用了GAIL (Ho and Ermon 2016)的思想,使用生成對抗框架(Goodfellow et al. 2014)。MAIL訓(xùn)練一個鑒別器來區(qū)分模擬的交互和真實的交互;區(qū)別信號作為獎勵反饋,以訓(xùn)練客戶策略和平臺策略,從而產(chǎn)生更真實的交互。

在生成客戶和交互后,虛擬淘寶就完成了,接下來可以用于訓(xùn)練平臺策略。然而,我們注意到強化學(xué)習(xí)算法的強大程度足以過擬合虛擬淘寶的不足,這意味著它可以在虛擬環(huán)境中做得很好,但在現(xiàn)實中卻很差。因此,我們提出行動規(guī)范約束(Action Norm Constraint, ANC)來使策略規(guī)范化。

在實驗中,我們從數(shù)以億計的客戶記錄中構(gòu)建了虛擬淘寶,并與真實環(huán)境進行對比。我們的結(jié)果顯示,虛擬淘寶成功地重構(gòu)了非常接近真實環(huán)境的屬性。然后,我們利用虛擬淘寶訓(xùn)練平臺策略,以實現(xiàn)收入最大化。

與傳統(tǒng)的監(jiān)督學(xué)習(xí)方法相比,虛擬淘寶訓(xùn)練的策略在真實環(huán)境下的收益提高了2%以上,物理實驗成本為零。

接下來,本文繼續(xù)介紹虛擬淘寶方法、離線和在線實驗,以及結(jié)論。

如何構(gòu)建一個虛擬淘寶?

問題描述

商品搜索是淘寶的核心業(yè)務(wù)。淘寶可以被視為搜索引擎與客戶交互的系統(tǒng)。淘寶的搜索引擎負責處理對數(shù)十億商品搜索請求的毫秒級響應(yīng),而客戶對商品的偏好也豐富多樣。從引擎的角度來看,淘寶平臺的工作原理如下??蛻粼L問,向搜索引擎發(fā)送搜索請求。

然后,搜索引擎對相關(guān)商品進行排序,并向客戶顯示頁面視圖(PV),對搜索請求做出適當響應(yīng)。客戶給出反饋信號,比如買東西,然后轉(zhuǎn)到下一頁,或根據(jù)頁面試圖或買方自身意愿離開淘寶。搜索引擎接收反饋信號,并為下一個 PV 請求做出新的決定。淘寶的業(yè)務(wù)目標之一是通過優(yōu)化顯示 PV 的策略來實現(xiàn)銷售量的最大化。

作為反饋信號,比如,會受之前的 PV 影響的客戶行為,在優(yōu)化搜索引擎策略時,將其視為多步驟決策問題,而不是單步監(jiān)督學(xué)習(xí)問題,是更為合理的選擇。因此,考慮到搜索引擎作為代理,以及客戶的反饋作為相應(yīng)的環(huán)境,淘寶中的商品搜索是一個連續(xù)決策問題。假設(shè)客戶只記住有限數(shù)量的最新 PV,這是合理的,這意味著反饋信號僅受搜索代理的 m 個歷史行為的影響。

圖 2:搜索引擎視角和客戶視角下的淘寶搜索

注意,如果假設(shè) m = 1,即客戶的反饋僅受最后一個引擎行為的影響,這就是標準馬爾可夫決策過程。

另一方面,如果我們將客戶視為 agent,將搜索引擎視為環(huán)境,那么客戶的購物流程也就可視作順序決策流程??蛻魧ε琶蟮纳唐罚簿褪撬阉饕娴膭幼髯龀鲰憫?yīng)??蛻舻男袨榧捶答佇盘枺鼤艿阶罱?m 個 PV 的影響,這些 PV 由搜索引擎生成,并受到來自客戶的最后反饋的影響??蛻舻男袨橐簿哂旭R爾可夫?qū)傩?。為客戶制定購物政策的過程可以視為對客戶的淘寶購物偏好的優(yōu)化過程。

如圖 2 所示,搜索引擎和客戶互為彼此的環(huán)境,二者的策略是耦合在一起的。

如果客戶只是轉(zhuǎn)向下一頁而沒有其他行為,那么負責記錄客戶特征和搜索請求的引擎的觀察結(jié)果將保持不變。如果客戶發(fā)送了另一個請求,或離開了淘寶,記錄狀態(tài)就會發(fā)生變化。

與搜索引擎相比,客戶個人對環(huán)境往往更敏感,因此我們?yōu)榭蛻暨M行了一些特別的設(shè)計。客戶行為將受到 TA 想要的以及 TA 看到的內(nèi)容的影響,分別用 S 和 A 表示,其中 S 是引擎觀察結(jié)果,即包含請求的客戶特征,A 是引擎動作,即向客戶顯示的頁面視圖??紤]到顧客的購買意圖會隨瀏覽頁數(shù)的變化而變化,設(shè) Sc = S×A×N,其中 N 表示頁面索引空間。

Trasition 函數(shù)定義如下:

對于搜索引擎而言,如果客戶買了東西,我們給引擎獎勵為 1,否則為 0。對于客戶,獎勵函數(shù)目前尚不明確。

GAN-SD:生成客戶特征

為了構(gòu)建虛擬淘寶,需要首先生成客戶特征,即對包括來自 P c 的請求的用戶 U c 進行采樣,以觸發(fā)交互過程。生成的客戶分布應(yīng)與真實分布相似。

在高維空間中對分布進行學(xué)習(xí)很具有挑戰(zhàn)性。像高斯混合模型(GMM)之類的經(jīng)典方法很難實現(xiàn)這種相似分布。而眾所周知,GAN 框架可以很好地生成接近于原始數(shù)據(jù)的樣本,并在生成圖像方面取得了巨大成功。

然而,傳統(tǒng)的 GAN 判別器能夠判定某一實例是否來自真實世界,但缺乏捕獲客戶分布架構(gòu)的能力。為了生成分布而不是單個實例,我們提出了用于模擬分布的生成性對抗網(wǎng)絡(luò)(GAN-SD),如算法 1 中所示。

GAN-SD 算法偽代碼示意圖

與 GAN 類似,GAN-SD 也包括生成器 G 和判別器 D。其中,判別器試圖通過最大化以下目標函數(shù):

來正確區(qū)分生成的數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。

而更新后的生成器則在實現(xiàn)以下目標函數(shù)的最大化:

利用 KL 分歧和熵約束,GAN-SD 從真實數(shù)據(jù)中學(xué)習(xí)具有更多引導(dǎo)信息的生成器,并且可以產(chǎn)生比傳統(tǒng) GAN 更好的分布。

MAIL:生成交互過程

通過模擬客戶策略,在虛擬淘寶之間生成客戶與平臺之間的交互。本文通過基于 GAIL 思想的多智能體對抗模仿學(xué)習(xí)(MAIL)方法來實現(xiàn)這一目標。 GAIL 允許智能體在訓(xùn)練期間與環(huán)境交互,同時獎勵功能也在不斷優(yōu)化。注意,在 GAIL 訓(xùn)練期間應(yīng)該能夠訪問環(huán)境。但是,訓(xùn)練客戶策略需要將引擎視為未知環(huán)境或動態(tài)環(huán)境。

與在靜態(tài)環(huán)境中訓(xùn)練一個智能體策略的 GAIL 不同,MAIL 是一種面向多智能體的訓(xùn)練策略,可用于訓(xùn)練客戶策略和引擎策略。以這種方式得到客戶策略能夠包含不同的搜索引擎策略。

由于 MAIL 將兩個策略一起訓(xùn)練,即代理和環(huán)境,只需要歷史數(shù)據(jù),不需要訪問真實環(huán)境。MAIL 算法偽代碼如下圖所示:

實驗設(shè)定及結(jié)果

為了驗證 “虛擬淘寶” 的效果,我們使用以下量度指標:

總營業(yè)額(TT):所售商品的總價值。

總量(TV):銷售商品的數(shù)量。

購買頁面的購買(R2P):產(chǎn)生購買行為的 PV 數(shù)量占總 PV 的比例。

圖 3:學(xué)習(xí)后的顧客分布的對比

圖 4:真實淘寶和虛擬淘寶之間的 R2P 對比

本文在線實驗中采用了全部測量方式。在離線實驗中只使用了 R2P 方法,因為我們沒有對客戶數(shù)量和商品價格做出預(yù)測。了便于在真實環(huán)境和虛擬環(huán)境之間比較這些指標,我們提前在真實環(huán)境(特別是淘寶網(wǎng)的在線 A/B 測試)中部署了隨機引擎策略,并收集了相應(yīng)的軌跡作為歷史數(shù)據(jù)(約 4 億條記錄)。本文沒有假設(shè)生成數(shù)據(jù)的引擎策略,也就是說,在構(gòu)建虛擬環(huán)境時,可能采用的是任何未知的復(fù)雜模型。

表 1:虛擬數(shù)據(jù)和真實數(shù)據(jù)之間的 KL 分歧

表 2:采用行為克隆和 MAIL 算法的模擬器隨時間的 R2P 性能提升

結(jié)論

為了解決淘寶網(wǎng)站中面向商品搜索的強化學(xué)習(xí)的高成本問題,本文提出了一個 “虛擬淘寶模擬器”,根據(jù)歷史數(shù)據(jù)進行訓(xùn)練的。首先通過 GAN-SD 生成虛擬客戶,并通過 MAIL 生成虛擬交互過程。研究結(jié)果表明,“虛擬淘寶” 能夠忠實反映真實環(huán)境中的特征。

本文提出通過 ANC 策略訓(xùn)練性能更高的平臺策略,讓新的策略具備比傳統(tǒng)監(jiān)督學(xué)習(xí)方法更好的真實環(huán)境下的性能?!疤摂M淘寶” 具備實際應(yīng)用意義,也頗具挑戰(zhàn)性。希望這項工作能夠為將強化學(xué)習(xí)應(yīng)用于復(fù)雜物理任務(wù)提供一些啟示。

開源模型:VirtualTaobao

VirtualTaobao開源項目提供了以淘寶的真實數(shù)據(jù)為基礎(chǔ)訓(xùn)練的虛擬淘寶模擬器。在淘寶上,當客戶輸入一些查詢時,推薦系統(tǒng)將根據(jù)查詢和客戶配置文件返回一個商品列表。該系統(tǒng)預(yù)計將返回一個良好的列表,讓客戶有很高的可能性點擊這些商品。

使用 VirtualTaobao模擬器,用戶可以像訪問真實的淘寶環(huán)境一樣訪問“實時”環(huán)境。每次生成一次虛擬客戶,虛擬客戶啟動查詢,推薦系統(tǒng)需要返回一個商品列表。虛擬客戶將決定是否單擊列表中的商品,類似于真實客戶。

本次開源的虛擬淘寶模型,用于推薦系統(tǒng)研究和強化學(xué)習(xí)研究(參見下面的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)用例)。

目前,我們提供 VirtualTaobao V0 模型(VirtualTB-v0),該模型是在中等規(guī)模的匿名淘寶數(shù)據(jù)集進行訓(xùn)練的。更大型的模型即將發(fā)布。

安裝

pipinstall-e.

模擬環(huán)境

虛擬淘寶模擬客戶、商品和推薦系統(tǒng)。

一個客戶與13個靜態(tài)屬性和3個動態(tài)屬性相關(guān)聯(lián)。這里,靜態(tài)/動態(tài)表示該屬性是否會在交互過程中發(fā)生變化。屬性信息包括客戶年齡、客戶性別、客戶瀏覽歷史等。

一個商品與27維屬性相關(guān)聯(lián),這些屬性指示價格、銷售額、CTR等。

系統(tǒng)和客戶之間的交互過程如下:

虛擬淘寶采用客戶的特征向量,包括客戶描述和客戶查詢。

系統(tǒng)根據(jù)整個商品集的查詢表單檢索一組相關(guān)的商品。

系統(tǒng)使用一個模型來分配與商品屬性對應(yīng)的權(quán)重向量。

系統(tǒng)計算每個商品的權(quán)重向量與商品屬性的乘積,并選擇值最高的前10個商品。

選定的10個商品將發(fā)送給客戶。然后,客戶將選擇單擊某些項(CTR++),瀏覽下一頁,或離開平臺。

在上述過程中,將訓(xùn)練步驟3中的模型。模型輸入客戶特征,輸出27維權(quán)重向量。

監(jiān)督學(xué)習(xí)的用法

數(shù)據(jù)集在:

virtualTB/SupervisedLearning/dataset.txt

數(shù)據(jù)集的每一行都包含一個特性、標簽和單擊次數(shù)的實例,由制表符分隔。

為了從數(shù)據(jù)集訓(xùn)練模型,下面的代碼使用PyTorch進行了演示

virtualTB/SupervisedLearning/main.py

它包含從數(shù)據(jù)集加載、模型訓(xùn)練和模型測試的完整過程。

強化學(xué)習(xí)的用法

下面是一個使用VirtualTaobao作為強化學(xué)習(xí)環(huán)境的最簡單示例。每一步都取樣一個隨機操作來執(zhí)行推薦。

import gymimport virtualTBenv = gym.make('VirtualTB-v0')print(env.action_space)print(env.observation_space)print(env.observation_space.low)print(env.observation_space.high)state = env.reset()while True: env.render() action = env.action_space.sample() state, reward, done, info = env.step(action) if done: breakenv.render()

下面是一個采用DDPG強化學(xué)習(xí)算法和PyTorch的更完整的例子

virtualTB/ReinforcementLearning/main.py

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4577

    瀏覽量

    92346
  • 模擬器
    +關(guān)注

    關(guān)注

    2

    文章

    862

    瀏覽量

    43087
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    264

    瀏覽量

    11182

原文標題:物理實驗成本為零!南大LAMDA開源虛擬RL訓(xùn)練環(huán)境

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    使用Isaac Gym 強化學(xué)習(xí)mycobot 抓取任務(wù)

    使用Isaac Gym強化學(xué)習(xí)mycobot抓取任務(wù)
    的頭像 發(fā)表于 04-11 14:57 ?6782次閱讀
    使用Isaac Gym <b class='flag-5'>來</b><b class='flag-5'>強化學(xué)習(xí)</b>mycobot 抓取任務(wù)

    反向強化學(xué)習(xí)的思路

    強化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強化學(xué)習(xí)實戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實戰(zhàn)時間地點:1 月 15日— 1 月18 日二:深度強化學(xué)習(xí)核心技術(shù)實戰(zhàn)時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強化學(xué)習(xí)相結(jié)合的深度強化學(xué)習(xí)DRL

    深度強化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強化學(xué)習(xí)DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    人工智能機器學(xué)習(xí)強化學(xué)習(xí)

    強化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號(強化信號)函數(shù)值最大,強化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1380次閱讀

    什么是強化學(xué)習(xí)?純強化學(xué)習(xí)有意義嗎?強化學(xué)習(xí)有什么的致命缺陷?

    強化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強化學(xué)習(xí)的框架中,智能體通過與環(huán)境互動,學(xué)習(xí)采取何種動作能使其在給定環(huán)境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動
    的頭像 發(fā)表于 07-15 10:56 ?1.7w次閱讀
    什么是<b class='flag-5'>強化學(xué)習(xí)</b>?純<b class='flag-5'>強化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強化學(xué)習(xí)</b>有什么的致命缺陷?

    如何構(gòu)建強化學(xué)習(xí)模型訓(xùn)練無人車算法

    本文作者通過簡單的方式構(gòu)建了強化學(xué)習(xí)模型訓(xùn)練無人車算法,可以為初學(xué)者提供快速入門的經(jīng)驗。
    的頭像 發(fā)表于 11-12 14:47 ?4808次閱讀

    對NAS任務(wù)中強化學(xué)習(xí)的效率進行深入思考

    在一些情況下,我們會用策略函數(shù)(policy, 總得分,也就是搭建的網(wǎng)絡(luò)在測試集上的精度(accuracy),通過強化學(xué)習(xí)(Reinforcement Learning)這種通用黑盒算法優(yōu)化。然而,因為強化學(xué)習(xí)本身具有數(shù)據(jù)
    的頭像 發(fā)表于 01-28 09:54 ?4960次閱讀

    基于PPO強化學(xué)習(xí)算法的AI應(yīng)用案例

    Viet Nguyen就是其中一個。這位來自德國的程序員表示自己只玩到了第9個關(guān)卡。因此,他決定利用強化學(xué)習(xí)AI算法幫他完成未通關(guān)的遺憾。
    發(fā)表于 07-29 09:30 ?2715次閱讀

    4種解決旅行商問題的強化學(xué)習(xí)求解算法

    基準算法,其僅利用城市間的距離等靜態(tài)結(jié)構(gòu)信息構(gòu)造初始解,解構(gòu)造方法2~解構(gòu)造方法4則嘗試利用搜索過程中積累的歷史數(shù)據(jù),通過強化學(xué)習(xí)挖掘有用
    發(fā)表于 03-17 11:42 ?16次下載
    4種解決旅<b class='flag-5'>行商</b>問題的<b class='flag-5'>強化學(xué)習(xí)</b>求解算法

    機器學(xué)習(xí)中的無模型強化學(xué)習(xí)算法及研究綜述

    強化學(xué)習(xí)( Reinforcement learning,RL)作為機器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)范式,通過與環(huán)境
    發(fā)表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強化學(xué)習(xí)</b>算法及研究綜述

    使用Matlab進行強化學(xué)習(xí)電子版資源下載

    使用Matlab進行強化學(xué)習(xí)電子版資源下載
    發(fā)表于 07-16 11:17 ?0次下載

    《自動化學(xué)報》—多Agent深度強化學(xué)習(xí)綜述

    突破.由于融合了深度學(xué)習(xí)強大的表征能力和強化學(xué)習(xí)有效的策略搜索能力,深度強化學(xué)習(xí)已經(jīng)成為實現(xiàn)人工智能頗有前景的學(xué)習(xí)范式.然而,深度
    發(fā)表于 01-18 10:08 ?1523次閱讀
    《自動<b class='flag-5'>化學(xué)</b>報》—多Agent深度<b class='flag-5'>強化學(xué)習(xí)</b>綜述

    徹底改變算法交易:強化學(xué)習(xí)的力量

    強化學(xué)習(xí)(RL)是人工智能的一個子領(lǐng)域,專注于決策過程。與其他形式的機器學(xué)習(xí)相比,強化學(xué)習(xí)模型通過與環(huán)境交互并以獎勵或懲罰的形式接收反饋學(xué)習(xí)
    發(fā)表于 06-09 09:23 ?486次閱讀

    基于強化學(xué)習(xí)的目標檢測算法案例

    摘要:基于強化學(xué)習(xí)的目標檢測算法在檢測過程中通常采用預(yù)定義搜索行為,其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一,導(dǎo)致目標檢測精確度較低。為此,在基于深度強化學(xué)習(xí)的視覺目標檢測算法基礎(chǔ)上,提出聯(lián)合回歸與深度
    發(fā)表于 07-19 14:35 ?0次下載