0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度強(qiáng)化學(xué)習(xí)給推薦系統(tǒng)以及CTR預(yù)估工業(yè)界帶來的最新進(jìn)展

WpOh_rgznai100 ? 來源:lq ? 2019-07-18 11:11 ? 次閱讀

導(dǎo)讀:本文將介紹在深度學(xué)習(xí)的強(qiáng)力驅(qū)動(dòng)下,給推薦系統(tǒng)工業(yè)界所帶來的最前沿的變化。本文主要根據(jù)幾大頂會(huì)2019的最新論文,總結(jié)一下深度強(qiáng)化學(xué)習(xí)給推薦系統(tǒng)以及CTR預(yù)估工業(yè)界帶來的最新進(jìn)展。

凡是Google出品,必屬精品。遙想當(dāng)年(其實(shí)也就近在2016),YoutubeDNN[1]以及WDL[2]的橫空出世引領(lǐng)了推薦系統(tǒng)以及CTR預(yù)估工業(yè)界潮流至今,掀起了召回層與排序?qū)?a href="http://srfitnesspt.com/v/tag/2562/" target="_blank">算法大規(guī)模優(yōu)雅而高效地升級(jí)深度學(xué)習(xí)模型的浪潮。發(fā)展至今其實(shí)已經(jīng)形成了工業(yè)界推薦系統(tǒng)與廣告CTR預(yù)估的龐大家族群,具體可以參見下文中的家族圖譜。

https://zhuanlan.zhihu.com/p/69050253

當(dāng)然,本文的重點(diǎn)不是回首往事。好漢不提當(dāng)年勇,而是立足當(dāng)下看看接下來推薦系統(tǒng)和CTR預(yù)估工業(yè)界的路在何方。起因就在于Google先后在WSDM 2019和IJCAI 2019發(fā)表了極具工業(yè)界風(fēng)格應(yīng)用強(qiáng)化學(xué)習(xí)的論文,而且聲稱已經(jīng)在Youtube推薦排序?qū)拥木€上實(shí)驗(yàn)中相對(duì)線上已有的深度學(xué)習(xí)模型獲得了顯著的收益。因此,本文就總結(jié)一下幾大頂會(huì)2019上強(qiáng)化學(xué)習(xí)應(yīng)用于推薦系統(tǒng)和CTR預(yù)估工業(yè)界的最新進(jìn)展,也歡迎各位有經(jīng)驗(yàn)的同行多多交流共同進(jìn)步。

眾所周知,強(qiáng)化學(xué)習(xí)雖然在圍棋、游戲等領(lǐng)域大放異彩,但是在推薦系統(tǒng)以及CTR預(yù)估上的應(yīng)用一直有很多難點(diǎn)尚未解決。一方面是因?yàn)閺?qiáng)化學(xué)習(xí)與推薦系統(tǒng)結(jié)合的探索剛剛開始,目前的方案尚未像傳統(tǒng)機(jī)器學(xué)習(xí)升級(jí)深度學(xué)習(xí)那樣效果顯著,升級(jí)強(qiáng)化學(xué)習(xí)在效果上相對(duì)已有的深度學(xué)習(xí)模型暫時(shí)還無法做到有質(zhì)的飛躍;另外一方面,就是離線模型訓(xùn)練與線上實(shí)驗(yàn)在線學(xué)習(xí)環(huán)境搭建較為復(fù)雜。這就造成了目前在工業(yè)界應(yīng)用強(qiáng)化學(xué)習(xí)模型性價(jià)比并不高。而且尷尬的是,很多論文在升級(jí)RL比較效果的時(shí)候使用的Baseline都是傳統(tǒng)機(jī)器學(xué)習(xí)算法而不是最新的深度學(xué)習(xí)模型,其實(shí)從某種程度上來說是很難讓人信服的。

所以,Google這兩篇強(qiáng)化學(xué)習(xí)應(yīng)用于YouTube推薦論文的出現(xiàn)給大家?guī)砹吮容^振奮人心的希望。首先,論文中宣稱效果對(duì)比使用的Baseline就是YouTube推薦線上最新的深度學(xué)習(xí)模型;其次,兩篇論文從不同的指標(biāo)維度都帶來了比較明顯的效果增長。而且其中一篇論文的作者M(jìn)inmin Chen大神在Industry Day上也提到線上實(shí)驗(yàn)效果顯示這個(gè)是YouTube單個(gè)項(xiàng)目近兩年來最大的reward增長。這雖然不代表著強(qiáng)化學(xué)習(xí)與推薦系統(tǒng)的結(jié)合方案已經(jīng)很成熟了,至少給大家?guī)砹艘恍┰诠I(yè)界積極嘗試的動(dòng)力。

Top-K Off-Policy Correction for a REINFORCE Recommender System,WSDM 2019

本文的主要亮點(diǎn)是提出了一種Top-K的Off-Policy修正方案將RL中Policy-Gradient類算法得以應(yīng)用在動(dòng)作空間數(shù)以百萬計(jì)的Youtube在線推薦系統(tǒng)中。

眾所周知[1],Youtube推薦系統(tǒng)架構(gòu)主要分為兩層:召回和排序。本文中的算法應(yīng)用在召回側(cè)。建模思路與RNN召回類似,給定用戶的行為歷史,預(yù)測(cè)用戶下一次的點(diǎn)擊item。受限于On-Policy方法對(duì)系統(tǒng)訓(xùn)練架構(gòu)要求復(fù)雜,所以本文中轉(zhuǎn)而采用Off-Policy的訓(xùn)練策略。也就是說并不是根據(jù)用戶的交互進(jìn)行實(shí)時(shí)的策略更新,而是根據(jù)收集到日志中用戶反饋進(jìn)行模型訓(xùn)練。

這種Off-Policy的訓(xùn)練方式會(huì)給Policy-Gradient類的模型訓(xùn)練帶來一定的問題,一方面策略梯度是由不同的policy計(jì)算出來的;另一方面同一個(gè)用戶的行為歷史也收集了其他召回策略的數(shù)據(jù)。所以文中提出了一種基于importance weighting的Off-Policy修正方案,針對(duì)策略梯度的計(jì)算進(jìn)行了一階的近似推導(dǎo)。

因?yàn)槭腔谟脩舻慕换v史預(yù)測(cè)下一個(gè)用戶點(diǎn)擊的item,所以文中也采用RNN針對(duì)用戶State的轉(zhuǎn)換進(jìn)行建模。文中提到實(shí)驗(yàn)了包括LSTM、GRU等RNN單元,發(fā)現(xiàn)Chaos Free的RNN單元因?yàn)榉€(wěn)定高效而使用起來效果最好。

在上述的策略修正公式(3)中最難獲取到的是用戶的行為策略,理想情況下是收集日志的時(shí)候同時(shí)把用戶相應(yīng)的用戶策略也就是點(diǎn)擊概率給收集下來,但由于策略不同等客觀原因文中針對(duì)用戶的行為策略使用另外一組θ'參數(shù)進(jìn)行預(yù)估,而且防止它的梯度回傳影響主RNN網(wǎng)絡(luò)的訓(xùn)練。

另外,由于在推薦系統(tǒng)中,用戶可以同時(shí)看到k個(gè)展示給用戶的候選item,用戶可能同時(shí)與一次展示出來的多個(gè)item進(jìn)行交互。因此需要擴(kuò)展策略根據(jù)用戶的行為歷史預(yù)測(cè)下一次用戶可能點(diǎn)擊的top-K個(gè)item。

假設(shè)同時(shí)展示K個(gè)不重復(fù)item的reward獎(jiǎng)勵(lì)等于每個(gè)item的reward的之和,根據(jù)公式推導(dǎo)我們可以得到Top-K的Off-Policy修正的策略梯度如下,與上面Top 1的修正公式相比主要是多了一個(gè)包含K的系數(shù)。也就是說,隨著K的增長,策略梯度會(huì)比原來的公式更快地降到0。

從實(shí)驗(yàn)結(jié)果的角度,文中進(jìn)行了一系列的實(shí)驗(yàn)進(jìn)行效果比較和驗(yàn)證,其中Top-K的Off-Policy修正方案帶來了線上0.85%的播放時(shí)長提升。而且前文也提到過,Minmin Chen大神在Industry Day上也提到線上實(shí)驗(yàn)效果顯示這個(gè)是YouTube單個(gè)項(xiàng)目近兩年來最大的reward增長。

另外,在最新一期的Google AI Blog[3]上,宣布提出了一種基于強(qiáng)化學(xué)習(xí)Off-Policy的分類方法,可以預(yù)測(cè)出哪種機(jī)器學(xué)習(xí)模型會(huì)產(chǎn)生最好結(jié)果。感興趣的可以繼續(xù)延伸閱讀一下。

Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology,IJCAI 2019

這篇文章相比于第一篇文章時(shí)間要晚一點(diǎn),提出的方法也不盡相同,不過類似的是都宣稱在Youtube線上推薦系統(tǒng)上取得了不錯(cuò)的效果。主要貢獻(xiàn)是提出了一種名為SLATEQ的Q-Learning算法,優(yōu)化推薦系統(tǒng)里面同時(shí)展示給用戶多個(gè)item情況的長期收益LTV(Long-term Value)。

這里首先講一下這篇文章與第一篇文章的不同,首先,第一篇文章假設(shè)了在推薦系統(tǒng)中同時(shí)展示K個(gè)不重復(fù)item(本文中稱為Slate)的獎(jiǎng)勵(lì)reward等于每個(gè)item的reward的之和,這個(gè)在本文中認(rèn)為實(shí)際上是不合理的,因此建模了Slate的LTV和單個(gè)item的LTV之間的關(guān)系;其次,本文顯式的建模與評(píng)估了整個(gè)系統(tǒng)LTV的收益。

從系統(tǒng)架構(gòu)的角度,本文擴(kuò)展了Youtube現(xiàn)有的只注重即時(shí)收益的ranker,也就是針對(duì)CTR等指標(biāo)以及長期收益LTV進(jìn)行多目標(biāo)前向深度網(wǎng)絡(luò)學(xué)習(xí)。值得注意的是,為了保證線上實(shí)驗(yàn)的公正性,這里除了多目標(biāo)外,其他與Youtube線上的特征以及網(wǎng)絡(luò)參數(shù)都完全一樣。

最后實(shí)驗(yàn)部分,本文中評(píng)估的是User engagement,可以從下圖中看到效果提升是明顯且穩(wěn)定的。

其他業(yè)界進(jìn)展

除了Google的上述兩篇論文外,工業(yè)界其他公司也在積極嘗試強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的實(shí)戰(zhàn),下面主要簡要列出來一些到目前為止的進(jìn)展:

Generative Adversarial User Model for Reinforcement Learning Based Recommendation System,ICML 2019

在螞蟻金服被 ICML 2019 接收的這篇論文中,作者們提出用生成對(duì)抗用戶模型作為強(qiáng)化學(xué)習(xí)的模擬環(huán)境,先在此模擬環(huán)境中進(jìn)行線下訓(xùn)練,再根據(jù)線上用戶反饋進(jìn)行即時(shí)策略更新,以此大大減少線上訓(xùn)練樣本需求。此外,作者提出以集合(set)為單位而非單個(gè)物品(item)為單位進(jìn)行推薦,并利用 Cascading-DQN 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)解決組合推薦策略搜索空間過大的問題[1]。

Virtual-Taobao: Virtualizing real-world online retail environment for reinforcement learning,AAAI 2019

阿里 at AAAI 2019,“虛擬淘寶”模擬器,利用RL與GAN規(guī)劃最佳商品搜索顯示策略,在真實(shí)環(huán)境中讓淘寶的收入提高2%。美中不足的是baseline仍然是傳統(tǒng)監(jiān)督學(xué)習(xí)而不是深度學(xué)習(xí)方案。

Large-scale Interactive Recommendation with Tree-structured Policy Gradient,AAAI 2019

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4577

    瀏覽量

    92347
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    264

    瀏覽量

    11182

原文標(biāo)題:強(qiáng)化學(xué)習(xí)大規(guī)模應(yīng)用還遠(yuǎn)嗎?Youtube推薦已強(qiáng)勢(shì)上線

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    風(fēng)光互補(bǔ)技術(shù)及應(yīng)用新進(jìn)展

    風(fēng)光互補(bǔ)技術(shù)及應(yīng)用新進(jìn)展   [hide]風(fēng)光互補(bǔ)技術(shù)及應(yīng)用新進(jìn)展.rar[/hide] [此貼子已經(jīng)被作者于2009-10-22 11:52:24編輯過]
    發(fā)表于 10-22 11:51

    風(fēng)光互補(bǔ)技術(shù)原理及最新進(jìn)展

    風(fēng)光互補(bǔ)技術(shù)原理及最新進(jìn)展摘要: 簡要回顧國內(nèi)外風(fēng)電、光伏技術(shù)與應(yīng)用發(fā)展態(tài)勢(shì),結(jié)合風(fēng)光互補(bǔ)系統(tǒng)應(yīng)用, 分析、介紹了風(fēng)光互補(bǔ)LED路燈照明系統(tǒng)、智能控制器設(shè)計(jì)、分布式供電電源、風(fēng)光互補(bǔ)水泵系統(tǒng)
    發(fā)表于 10-26 13:45

    DIY懷表設(shè)計(jì)正式啟動(dòng),請(qǐng)關(guān)注最新進(jìn)展

    ``我們的電子懷表正式啟動(dòng),強(qiáng)烈邀請(qǐng)各電子工程師嚴(yán)重關(guān)注,本次PCB板由華強(qiáng)PCB(http://www.hqpcb.com/ )提供。DIY懷表設(shè)計(jì)正式啟動(dòng),請(qǐng)關(guān)注最新進(jìn)展。做電子的如
    發(fā)表于 01-13 09:27

    車聯(lián)網(wǎng)技術(shù)的最新進(jìn)展

    `直播主題及亮點(diǎn):在介紹中國車聯(lián)網(wǎng)的發(fā)展歷史的基礎(chǔ)上,分析目前的車聯(lián)網(wǎng)產(chǎn)品類型和技術(shù)路線,分析5G的技術(shù)特點(diǎn)、優(yōu)勢(shì)和未來市場(chǎng)發(fā)展趨勢(shì),介紹北斗與GPS的區(qū)別和北斗衛(wèi)星的最新進(jìn)展和應(yīng)用。針對(duì)即將成為車
    發(fā)表于 09-21 14:01

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前
    發(fā)表于 01-10 13:42

    介紹IXIAIP測(cè)試平臺(tái)和所提供測(cè)試方案的最新進(jìn)展

    介紹IXIAIP測(cè)試平臺(tái)和所提供測(cè)試方案的最新進(jìn)展
    發(fā)表于 05-26 06:46

    ITU-T FG IPTV標(biāo)準(zhǔn)化最新進(jìn)展如何?

    ITU-T FG IPTV標(biāo)準(zhǔn)化最新進(jìn)展如何?
    發(fā)表于 05-27 06:06

    CMOS圖像傳感器最新進(jìn)展及發(fā)展趨勢(shì)是什么?

    CMOS圖像傳感器最新進(jìn)展及發(fā)展趨勢(shì)是什么?
    發(fā)表于 06-08 06:20

    VisionFive 2 AOSP最新進(jìn)展即將發(fā)布!

    非常開心地在這里和大家提前預(yù)告,我們即將發(fā)布VisionFive 2 集成 AOSP的最新進(jìn)展!請(qǐng)大家多多期待吧~ 此次通過眾多社區(qū)成員的支持和貢獻(xiàn)(https://github.com
    發(fā)表于 10-08 09:15

    UWB通信技術(shù)最新進(jìn)展及發(fā)展趨勢(shì)

    UWB通信技術(shù)最新進(jìn)展及發(fā)展趨勢(shì),下來看看
    發(fā)表于 02-07 12:44 ?11次下載

    工業(yè)機(jī)器人市場(chǎng)的最新進(jìn)展淺析

    靈活的自動(dòng)化正變得越來越有能力,可用和負(fù)擔(dān)得起。我們采訪了FANUC America工業(yè)和汽車機(jī)器人部門總經(jīng)理Claude Dinsmoor,了解工業(yè)機(jī)器人市場(chǎng)的最新進(jìn)展。
    發(fā)表于 12-14 14:14 ?1102次閱讀

    不同神經(jīng)網(wǎng)絡(luò)量子態(tài)的最新進(jìn)展以及面臨的挑戰(zhàn)

    量子態(tài),其物理性質(zhì)與典型應(yīng)用場(chǎng)景,最新進(jìn)展以及面臨的挑戰(zhàn)。 01 ? ?引 言? ?? ? ? 人工智能主要有三條發(fā)展路線:符號(hào)主義、連接主義與行為主義[1]。人工神經(jīng)網(wǎng)絡(luò)是連接主義的基石,也是最近幾年深度
    的頭像 發(fā)表于 03-02 09:56 ?3005次閱讀

    關(guān)于深度學(xué)習(xí)最新進(jìn)展

    綜述論文是非常有益的,特別是對(duì)某一特定領(lǐng)域的新研究人員。一個(gè)研究領(lǐng)域如果在不久的將來及相關(guān)應(yīng)用領(lǐng)域中有很大的價(jià)值,那通常很難被實(shí)時(shí)跟蹤到最新進(jìn)展
    的頭像 發(fā)表于 08-30 11:06 ?1094次閱讀

    ASML***的最新進(jìn)展

    、與 Mike在SEMICON 上的一些討論以及 ASML 最近的財(cái)報(bào)電話會(huì)議中的一些內(nèi)容。以分享了ASML光刻機(jī)的最新進(jìn)展。
    的頭像 發(fā)表于 07-30 10:39 ?2225次閱讀
    ASML***的<b class='flag-5'>最新進(jìn)展</b>

    5G最新進(jìn)展深度解析.zip

    5G最新進(jìn)展深度解析
    發(fā)表于 01-13 09:06 ?1次下載