91亚洲中文字幕在线视频,91桃色视频下载

OpenAI舉辦的首屆遷移學(xué)習(xí)競賽Retro Contest結(jié)束，在全部229支隊伍里，來自中國的團隊獲得了冠亞軍。冠軍是一個6人團隊，其中有南京大學(xué)和阿里巴巴搜索事業(yè)部的研究人員；亞軍是中科院的兩名研究生。

這個競賽的目標(biāo)，是評估強化學(xué)習(xí)算法從以往的經(jīng)驗中泛化的能力。具體說，就是讓AI玩視頻游戲《刺猬索尼克》，這是世嘉公司開發(fā)的一款競速式2D動作游戲，其基本上模擬馬里奧的游戲方式，玩家在盡可能短的時間內(nèi)到達目的地，索尼克可以通過不停加速來快速完成關(guān)卡。最后可能需要對抗BOSS。

冠軍方案展示：由南大和阿里研究人員組成的Dharmaraja隊的agent，學(xué)習(xí)穿越游戲中海洋廢墟區(qū)域（Aquatic Ruin Zone）。Agent已經(jīng)在游戲的其他關(guān)進行過預(yù)訓(xùn)練，但這是第一次遇到這一關(guān)。

OpenAI的這個競賽Retro Contest從2018年4月5日發(fā)布，持續(xù)時間為2個月。開始有923支隊伍報名，但最終只有229個提交了解決方案。OpenAI的自動評估系統(tǒng)對這些結(jié)果進行了評估。為了避免參賽者擬合數(shù)據(jù)集，評審時使用了完全不同的數(shù)據(jù)集。此外，OpenAI還將前十名的最終提交結(jié)果進行了再測試，讓這些agents在11個由游戲設(shè)計師特別設(shè)計的關(guān)卡中，分別進行了3次測試，每次都從環(huán)境中隨機生成初始狀態(tài)。最終得到的排名如下：

前五名排名

其中，冠軍Dharmaraja在測試和評審中始終排名第一，mistake以微弱的優(yōu)勢戰(zhàn)勝aborg取得第二。這張圖顯示了排名前三的三個方案的agent在同一個關(guān)卡學(xué)習(xí)的情況。紅點代表初期，藍點代表后期。從上到下分別是Dharmaraja、aborg和mistake。

所有關(guān)卡平均下來，這幾支隊伍的學(xué)習(xí)曲線是這樣的：

值得注意的是，Dharmaraja和aborg在開始階段分?jǐn)?shù)相近，而mistake的則要低很多。這是因為前兩支隊伍的方法，是對預(yù)訓(xùn)練網(wǎng)絡(luò)進行微調(diào)（使用PPO），而mistake則是從零開始訓(xùn)練（使用Rainbow DQN）。mistake的學(xué)習(xí)曲線提前結(jié)束，是因為他們在12小時的時候時間用完了。

OpenAI對這次的競賽的評價是，從整體看，雖然參賽隊伍嘗試了很多方法，但主要的結(jié)果都來自對現(xiàn)有算法（如PPO和Rainbow）的微調(diào)或擴展。同時，結(jié)果也顯示了我們還有很長的路要走：訓(xùn)練后AI玩的最高成績是4,692分，而理論最好成績是10,000分。

但是，獲勝的解決方案是一般的機器學(xué)習(xí)方法，而不是針對這次競賽進行的hacking，表明作弊是不可能的，也就證實了OpenAI的Sonic基準(zhǔn)是機器學(xué)習(xí)研究界一個值得去關(guān)注的問題。

獲獎團隊及方案：PPO和Rainbow優(yōu)化

Dharmaraja（法王）是一個6人組成的團隊：Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中，Qing Da和Anxiang Zeng來自阿里巴巴搜索事業(yè)部AI團隊，他們最近與南京大學(xué)副教授Yang Yu合作，研究如何將強化學(xué)習(xí)用于現(xiàn)實世界問題，尤其是電子商務(wù)場景。

Dharmaraja的解決方案是聯(lián)合PPO的變體。PPO（proximal policy optimization，近端策略優(yōu)化算法），是此前OpenAI為強化學(xué)習(xí)提出的一類新的策略梯度法，可以通過與環(huán)境的交互在樣本數(shù)據(jù)中進行轉(zhuǎn)換，使用隨機梯度下降優(yōu)化替代目標(biāo)函數(shù)（surrogate objective function）。標(biāo)準(zhǔn)的策略梯度法是在每一個數(shù)據(jù)樣本上執(zhí)行一次梯度更新，而PPO的新目標(biāo)函數(shù)可以在多個訓(xùn)練步驟（epoch）中實現(xiàn)小批量（minibatch）的更新。PPO 擁有置信域策略優(yōu)化（TRPO）的一些好處，但更加容易實現(xiàn)，也更通用，并且有更好的樣本復(fù)雜度。OpenAI研究人員認(rèn)為，考慮到總體的復(fù)雜度、操作簡便性和 wall-time，PPO 是比在線策略梯度法更好的選擇。

在PPO的基礎(chǔ)上，Dharmaraja的解決方案做了一些改進。首先，使用RGB圖像而不是灰度圖做輸入。其次，使用了稍微擴大的動作空間，并使用更常見的按鈕組合。第三，使用了增強獎勵功能，獎勵agent訪問新的狀態(tài)（根據(jù)屏幕的感知散列來判斷）。

除了這些改進外，團隊還嘗試了許多東西，比如DeepMimic，使用YOLO進行對象檢測，以及一些針對索尼克游戲的特定想法。不過這些方法并沒有特別起效。

代碼：https://github.com/eyounx/RetroCodes

Mistake

Mistake隊有兩名成員，Peng Xu和Qiaoling Zhong。他們都是研二的學(xué)生，來自中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室。

他們的解決方案是基于Rainbow基準(zhǔn)。Rainbow是DeepMind對DQN算法進行的組合改良。DeepMind的實驗表明，從數(shù)據(jù)效率和最終性能方面來說，Rainbow能夠在Atari 2600基準(zhǔn)上提供最為先進的性能。

Mistake團隊進行了一些有助于提升性能的修改：n對n步Q-learning的更好的值；額外添加了一層CNN層到模型，這使得訓(xùn)練速度更慢但更好；DQN目標(biāo)更新間隔更短。此外，團隊還嘗試與Rainbow進行聯(lián)合訓(xùn)練，但發(fā)現(xiàn)這樣做實際上降低了性能。

代碼：https://github.com/xupe/mistake-in-retro-contest-of-OpenAI

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

阿里巴巴

阿里巴巴

+關(guān)注

關(guān)注
7

文章
1605

瀏覽量
47007
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8325

瀏覽量
132219
強化學(xué)習(xí)

強化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
264

瀏覽量
11186

原文標(biāo)題：OpenAI首屆遷移學(xué)習(xí)競賽，南大阿里團隊奪冠，中科院第二

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

學(xué)校舉辦嵌入式物聯(lián)網(wǎng)競賽，需要確定一個課題，求大神們給點兒建議！

學(xué)校舉辦嵌入式物聯(lián)網(wǎng)競賽，需要確定一個課題，一點思路都沒有，求大神們給點兒建議！

發(fā)表于 11-20 21:15

遷移學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)

keras 之遷移學(xué)習(xí),改變VGG16輸出層,用imagenet權(quán)重retrain

發(fā)表于 09-09 11:02

遷移學(xué)習(xí)

經(jīng)典機器學(xué)習(xí)算法介紹章節(jié)目標(biāo)：機器學(xué)習(xí)是人工智能的重要技術(shù)之一，詳細了解機器學(xué)習(xí)的原理、機制和方法，為學(xué)習(xí)深度學(xué)習(xí)與

發(fā)表于 04-21 15:15

我國首屆人工智能·多媒體信息識別技術(shù)競賽啟動儀式在京召開

中國青年網(wǎng)北京3月21日電（記者郭凱薇）3月20日，首屆中國人工智能·多媒體信息識別技術(shù)競賽啟動儀式暨新聞發(fā)布會在北京召開。據(jù)悉，競賽旨在打造國內(nèi)具有權(quán)威性和國際水準(zhǔn)的人工智能領(lǐng)域競賽

發(fā)表于 03-22 08:34 ?1359次閱讀

意法半導(dǎo)體在深圳舉辦首屆工業(yè)峰會

橫跨多重電子應(yīng)用領(lǐng)域的全球領(lǐng)先的半導(dǎo)體供應(yīng)商意法半導(dǎo)體（STMicroelectronics，簡稱ST;紐約證券交易所代碼：STM）將在中國深圳君悅酒店舉辦首屆ST工業(yè)峰會。

發(fā)表于 05-28 13:53 ?2248次閱讀

首屆國網(wǎng)北京電力人工智能數(shù)據(jù)競賽正式啟動

為深入貫徹黨中央國務(wù)院關(guān)于加快發(fā)展數(shù)字經(jīng)濟的戰(zhàn)略部署，全面落實習(xí)近平總書記提出的科技創(chuàng)新具有引領(lǐng)國家發(fā)展的重要戰(zhàn)略意義，要大力推動科技創(chuàng)新在實際生產(chǎn)中的落地應(yīng)用的要求，國網(wǎng)北京市電力公司舉辦了首屆國

發(fā)表于 12-02 15:57 ?1693次閱讀

騰訊宣布其人工智能球隊獲首屆谷歌足球Kaggle競賽冠軍

12月30日，騰訊宣布其人工智能球隊摘得了首屆谷歌足球Kaggle競賽冠軍。這是一場由Google Research與英超曼城俱樂部在Kaggle平臺上聯(lián)合舉辦的足球AI比賽，經(jīng)過多輪角逐，騰訊AI Lab研發(fā)的絕悟WeKick

發(fā)表于 12-30 15:58 ?1855次閱讀

ESPlay Retro Emulation復(fù)古模擬游戲機

./oschina_soft/esplay-retro-emulation.zip

發(fā)表于 06-21 11:32 ?1次下載

一文詳解遷移學(xué)習(xí)

遷移學(xué)習(xí)需要將預(yù)訓(xùn)練好的模型適應(yīng)新的下游任務(wù)。然而，作者觀察到，當(dāng)前的遷移學(xué)習(xí)方法通常無法關(guān)注與任務(wù)相關(guān)的特征。在這項工作中，作者探索了重新聚焦模型注意力以進行

發(fā)表于 08-11 16:56 ?6065次閱讀

商密大會傳捷報｜海泰方圓喜獲首屆“熵密杯”密碼應(yīng)用安全競賽優(yōu)勝獎

8月10日，國內(nèi)首屆“熵密杯”密碼應(yīng)用安全競賽在“2023商用密碼大會”期間隆重舉辦。本次競賽是貫徹落實《中華人民共和國密碼法》和新修訂的《商用密碼管理條例》的具體舉措和創(chuàng)新實踐，旨在

發(fā)表于 08-15 16:37 ?837次閱讀

視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

Torchvision是基于Pytorch的視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架，當(dāng)前支持的圖像分類、對象檢測、實例分割、語義分割、姿態(tài)評估模型的遷移學(xué)習(xí)

發(fā)表于 09-22 09:49 ?816次閱讀

OpenAI首屆開發(fā)者日舉辦，新模型實現(xiàn)六大升級

　openai最初提供32k的上下文長度，而gpt-4 turbo則提供128k，相當(dāng)于300頁文檔。openai還為開發(fā)者提供了更好的api、函數(shù)調(diào)用、一次調(diào)用多個函數(shù)并將響應(yīng)整合到消息輸出中的控制功能。

發(fā)表于 11-08 09:59 ?534次閱讀

高能回顧 | 首屆OpenHarmony競賽訓(xùn)練營精彩瞬間

點擊藍字 ╳ 關(guān)注我們開源項目 OpenHarmony 是每個人的 OpenHarmony 首屆OpenAtom OpenHarmony（以下簡稱“OpenHarmony”）競賽訓(xùn)練營線下決賽成功

發(fā)表于 11-11 21:10 ?450次閱讀

深圳舉辦首屆網(wǎng)絡(luò)創(chuàng)新發(fā)展峰會，OpenAI市值突破1000億美元

大家好，歡迎收看河套 IT WALK 第 132 期。今天，首屆網(wǎng)絡(luò)創(chuàng)新發(fā)展峰會在深圳舉辦；AI領(lǐng)域的翹楚——OpenAI市值在資本市場上突破了重要里程碑，超過1000億美元。首屆

發(fā)表于 12-25 19:50 ?934次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域中的兩個重要概念，它們在提高模型性能、減少訓(xùn)練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細探討預(yù)訓(xùn)

發(fā)表于 07-11 10:12 ?587次閱讀