0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind團(tuán)隊(duì)游戲新突破,AI和人類進(jìn)行組隊(duì)

8g3K_AI_Thinker ? 來源:未知 ? 作者:胡薇 ? 2018-07-05 09:51 ? 次閱讀

我們還時(shí)常感嘆兩年前 AlphaGo 的一舉成名,今天Deep Mind 的另一個(gè)游戲項(xiàng)目獲得新的突破。不僅和人類進(jìn)行一對一作戰(zhàn),還可以進(jìn)行團(tuán)隊(duì)作戰(zhàn),與人類進(jìn)行組隊(duì)。

Deep Mind 在周二發(fā)表推文 “ 我們最新的工作演示了如何在一個(gè)復(fù)雜的第一人稱多人游戲中實(shí)現(xiàn)多人游戲的性能,甚至可以與人類隊(duì)友進(jìn)行合作!”Deep Mind 開發(fā)了創(chuàng)新和強(qiáng)化學(xué)習(xí)技術(shù),是人工智能系統(tǒng)在奪旗游戲中達(dá)到人類的水平,不僅各個(gè)人工智能獨(dú)立行動(dòng),同時(shí)學(xué)會(huì)配合,進(jìn)行團(tuán)隊(duì)?wèi)?zhàn)。Deep Mind 表示這項(xiàng)工作凸顯了多智能體培訓(xùn)對促進(jìn)人工智能發(fā)展的潛力。不得不說,在看完模擬游戲的視頻確實(shí)覺得挺有意思的,今天人工智能頭條就為大家介紹這個(gè)首款具有“團(tuán)隊(duì)精神” 的智能代理。

▌背景

Quake III Arena Capture the Flag——Quake III Arena 中文名稱:雷神之錘III競技場,是 1999 年在 PC 上推出的 一款FPS(第一人稱射擊類游戲)大作。Capture the flag 簡稱 CTF,CTF 在Quake 3 里分成藍(lán)紅兩邊在通常是一個(gè)對稱的(也有不對稱的)地圖中競賽。

競賽的目的是將對方的旗子帶回來,并且碰觸未被移動(dòng)過的我方旗子,我隊(duì)就得一分,稱作一個(gè) capture。一般會(huì)設(shè)定兩個(gè)要素,得分的極限以及時(shí)間極限,先到達(dá)分?jǐn)?shù)極限的隊(duì)伍獲勝,若是兩隊(duì)勢均力敵而難以得分,則通常會(huì)由時(shí)間的設(shè)定來結(jié)束一個(gè)游戲(match)。在奪旗模式中,殺死對手得1分,自己非正常死亡扣1分,奪取對方旗子得3分,殺死奪旗者得2分,重新拿到己方旗子得1分,成功奪取一次旗子(將旗子送回己方基地中)得5分。

▌前言

掌握多人視頻游戲中涉及的策略,戰(zhàn)術(shù)理解和團(tuán)隊(duì)配合一直是AI研究的關(guān)鍵性挑戰(zhàn)。如今,隨著強(qiáng)化學(xué)習(xí)的不斷發(fā)展,DeepMind 提出的的智能代理能夠在雷神之錘 III競技場奪旗游戲(Quake III Arena Capture the Flag) 中實(shí)現(xiàn)人類玩家的水平。

該游戲涉及復(fù)雜的多智能體環(huán)境,也是一個(gè)典型的 3D第一人稱視角的多人游戲。DeepMind 提出的智能代理展示了與人工智能體及人類玩家合作的能力。

下面我們將解讀 DeppMind 最新的這篇博文,進(jìn)一步了解這個(gè) AI 智能體背后的技術(shù)及其在游戲中的表現(xiàn)。

所謂的多智能體學(xué)習(xí)的設(shè)置:指的是多個(gè)單智能體必須獨(dú)立行動(dòng),并學(xué)會(huì)與其他智能體進(jìn)行互動(dòng)與合作。通過共適適應(yīng)智能體,世界在不斷變化,因而這是一個(gè)非常困難的問題。

我們的智能代理面臨的挑戰(zhàn)是直接從原始像素中進(jìn)行學(xué)習(xí)并產(chǎn)生動(dòng)作,這種復(fù)雜性使得第一人稱視角的多人游戲,成為AI社區(qū)的一個(gè)碩果累累且活躍的研究領(lǐng)域。

在這項(xiàng)工作中,我們關(guān)注的游戲是 Quake III Arena(雷神之錘 III 競技場,我們從美學(xué)的角度對游戲進(jìn)行部分修改,但所有游戲機(jī)制都保持不變。)Quake III Arena是現(xiàn)代許多第一人稱視頻游戲的基礎(chǔ),并吸引了具備長期競爭力的電子競技場景。

我們訓(xùn)練了一些能夠單獨(dú)學(xué)習(xí)并采取行動(dòng)的智能代理,但它們必須要能夠在游戲中共同協(xié)作,以便抵御其他智能體 (不論是人工智能體還是人類游戲玩家) 的攻擊。

在這里CTF的規(guī)則很簡單,但其具有復(fù)雜的動(dòng)態(tài)性。兩隊(duì)的游戲玩家要在給定的地圖上競爭,目標(biāo)是在保護(hù)己方旗幟不被奪走的同時(shí),奪取對方的旗幟。為了獲得戰(zhàn)術(shù)優(yōu)勢,玩家可以射擊對方戰(zhàn)隊(duì)的玩家,并將它們送回復(fù)活點(diǎn) (spawn point)。游戲時(shí)長為五分鐘,最終擁有旗幟最多的隊(duì)伍將獲勝。

從多智能代理的角度來看,CTF既要求玩家們能與己方隊(duì)友妥善合作,又要與敵方玩家相互競爭,同時(shí)還要靈活應(yīng)變可能遇到的游戲風(fēng)格的轉(zhuǎn)變。

為了讓這件事情更有意思,在這項(xiàng)工作中我們考慮CTF游戲的一種變體,其中每場游戲中的地圖布局都會(huì)發(fā)生變化。因此,我們的智能代理必須要學(xué)會(huì)一種通用的策略,而非記住某種游戲地圖的布局。此外,為了保證游戲競爭環(huán)境的公平,我們的智能體需要以與人類玩家類似的方式體驗(yàn)CTF游戲世界:即通過觀察圖像的像素流,模擬游戲控制器并采取相應(yīng)的行動(dòng)。

▌FTW 智能體

奪旗游戲是在程序生成的不同環(huán)境中進(jìn)行的,因此智能體必須能夠泛化到未知的地圖。智能體必須從零開始學(xué)習(xí)如何在未知的環(huán)境中進(jìn)行觀察,行動(dòng),合作及競爭,每場游戲都是一個(gè)單獨(dú)的強(qiáng)化信號:他們的團(tuán)隊(duì)是否獲得勝利。這是一個(gè)具有挑戰(zhàn)性的學(xué)習(xí)問題,其解決方案主要基于強(qiáng)化學(xué)習(xí)的三個(gè)基本概念:

我們不是訓(xùn)練一個(gè)單獨(dú)的智能體,而是訓(xùn)練一群的智能體。他們互相學(xué)習(xí),合作,甚至競爭,彼此成為隊(duì)友或?qū)κ郑员氵m應(yīng)多樣化的游戲方式。

智能體們都需要各自學(xué)習(xí)自身內(nèi)部的獎(jiǎng)勵(lì)信號,這將促使智能體能夠生成自身內(nèi)部的目標(biāo),如奪取一面旗幟。雙重優(yōu)化過程 (two-tier) 可直接優(yōu)化智能體內(nèi)部的獲勝獎(jiǎng)勵(lì),并基于內(nèi)部獎(jiǎng)勵(lì),運(yùn)用強(qiáng)化學(xué)習(xí)方法來進(jìn)一步地學(xué)習(xí)智能體的游戲策略。

智能體分別以快速和慢速兩種時(shí)間尺度開始游戲,這有助于提高它們使用內(nèi)存和生成一致動(dòng)作序列的能力。

FTW(for the win) 智能體的結(jié)構(gòu)示意圖

該智能體的結(jié)構(gòu)結(jié)合了快速和慢速時(shí)間尺度上的循環(huán)神經(jīng)網(wǎng)絡(luò)(Fast RNN & Slow RNN),其中包括一個(gè)共享記憶模塊,并學(xué)習(xí)從游戲點(diǎn)到內(nèi)部的獎(jiǎng)勵(lì)轉(zhuǎn)換。

由此產(chǎn)生的智能體,我們稱之為For The Win(FTW) 智能體,它學(xué)會(huì)了以非常高的標(biāo)準(zhǔn)玩CTF。更重要的是,該智能體學(xué)習(xí)到的游戲策略對地圖的大小,隊(duì)友的數(shù)量以及團(tuán)隊(duì)中的其他玩家都是穩(wěn)健魯棒的。

▌FTW的性能

下面演示了探索一些室外環(huán)境的游戲(其中FTW智能體互相競爭),以及一些智能體與人類玩家在室內(nèi)環(huán)境中一起玩的游戲。

交互式的CTF 游戲?yàn)g覽器,具有室內(nèi)和室外的程序生成環(huán)境游戲

室外環(huán)境的游戲是 FTW 智能體之間的游戲,而室內(nèi)環(huán)境下則是混合了人類玩家和 FTW 智能體的游戲。

在原文中通過6個(gè)不同場景,每個(gè)場景下3個(gè)不同角度的攝像頭為大家呈現(xiàn)更多的游戲過程,如果大家希望看到所有場景與角度的視頻,可以通過文章最后的原文鏈接進(jìn)行查看。

我們進(jìn)行了一場包括 40 名人類玩家的游戲比賽,在比賽中人類和智能體隨機(jī)配對,既有可能成為對手,也可能成為隊(duì)友。

在早前的一場 CTF 測試賽中,比賽雙方是經(jīng)過訓(xùn)練的智能體與人類玩家組成的隊(duì)伍

經(jīng)過訓(xùn)練學(xué)習(xí),F(xiàn)TW 智能體已經(jīng)比強(qiáng)大的基線方法更強(qiáng)大,并且超過了人類玩家的勝率。事實(shí)上,在一份對游戲參與者的調(diào)查報(bào)告中顯示它們比人類玩家更具有合作性。

智能體在訓(xùn)練中的表現(xiàn)

FTW智能體的 Elo 評級 -- 獲勝概率超過了人類玩家和 Self-play + RS、Self-play 等基線方法。

此外,我們不僅僅只對智能體進(jìn)行了性能評估,還進(jìn)一步探索了這些智能體的行為及內(nèi)部表征的復(fù)雜度。

▌FTW的表征

為了理解智能體內(nèi)部是如何表征游戲狀態(tài),我們觀察并在平面上繪制智能體中神經(jīng)網(wǎng)絡(luò)的激活模式。下圖中的點(diǎn)表示游戲中的情形,鄰近的點(diǎn)表示相似的激活模式。這些點(diǎn)根據(jù)不同的 CTF 游戲狀態(tài)進(jìn)行相應(yīng)地著色,這些狀態(tài)包括:智能體在哪個(gè)房間?旗幟的狀態(tài)怎樣?可以看到哪些隊(duì)友和對手?我們觀察到同樣顏色的簇表示該智能體以相似的方式表示類似的高級游戲狀態(tài)。

智能體是如何表征游戲世界狀態(tài)?智能體將不同情況下相同的游戲狀態(tài)進(jìn)行相似的表征。訓(xùn)練后的智能體甚至能夠直接用一些人工神經(jīng)元來編碼特定情況。

我們的智能體從未得知任何的游戲規(guī)則,卻能夠?qū)W習(xí)基本的游戲概念并有效地發(fā)展對CTF游戲的直觀認(rèn)識。實(shí)際上,我們可以發(fā)現(xiàn),智能體中某些特定的神經(jīng)元可直接對最重要的游戲狀態(tài)進(jìn)行編碼,例如當(dāng)智能體的旗幟被奪走時(shí),某個(gè)神經(jīng)元就會(huì)被激活;或者當(dāng)智能體的隊(duì)友奪取旗幟時(shí),某個(gè)神經(jīng)元就將被激活等。我們的論文提供了進(jìn)一步的分析,涉及的內(nèi)容包括智能體在游戲過程中是如何利用記憶和視覺注意力機(jī)制的。

▌FTW的行為

除了豐富的游戲狀態(tài)表征外,智能體在游戲中又是如何采取行動(dòng)的呢?

首先,需要注意的是我們的智能體有非??斓姆磻?yīng)時(shí)間及非常準(zhǔn)確的命中率,這能解釋它們在游戲中的卓越表現(xiàn)。人為地減少反應(yīng)時(shí)間并降低命中率后,這僅是智能體獲得成功的其中一個(gè)因素。

訓(xùn)練后,我們?nèi)藶榈販p少反應(yīng)時(shí)間和降低命中率,智能體所取得的游戲表現(xiàn)。即使是與人類玩家保持相近的反應(yīng)時(shí)間和準(zhǔn)確率,我們的智能體的游戲表現(xiàn)也優(yōu)于人類玩家。

通過無監(jiān)督學(xué)習(xí)的方式,我們在智能體和人類的原型行為之間建立聯(lián)系,研究發(fā)現(xiàn)實(shí)際上智能體能夠?qū)W習(xí)了類似人類的行為,例如跟隨隊(duì)友并敵方的基地扎營等行為。

已訓(xùn)練的智能體所展示的三個(gè)行為示例行為

在訓(xùn)練過程中,這些行為是伴隨著強(qiáng)化學(xué)習(xí)和群體級進(jìn)化而出現(xiàn)的。隨著智能體以更加互補(bǔ)的方式進(jìn)行學(xué)習(xí)合作,諸如在訓(xùn)練初期跟隨隊(duì)友的類似行為將逐漸變少。

FTW 智能體群體的訓(xùn)練進(jìn)展

左上角展示了 30 個(gè)智能體在訓(xùn)練和互相演化過程中的 Elo 評級評分。右上角展示了這些演化事件的遺傳樹。底部展示了智能體訓(xùn)練過程中知識、內(nèi)部獎(jiǎng)勵(lì)和行為概率的情況。

▌結(jié)束語

研究界最近在星際爭霸II 和 Dota 2這樣的復(fù)雜游戲中做了非常令人印象深刻的工作,雖然我們的研究側(cè)重于奪旗游戲,但研究貢獻(xiàn)是具有普遍性的,我們很高興看到其他人如何在不同的復(fù)雜環(huán)境中建立我們的技術(shù)。在未來,我們還希望進(jìn)一步改進(jìn)目前的強(qiáng)化學(xué)習(xí)和基于人口的培訓(xùn)方法??偟膩碚f,我們認(rèn)為這項(xiàng)工作突出了多智能體培訓(xùn)推動(dòng)人工智能發(fā)展的潛力

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46401

    瀏覽量

    236650

原文標(biāo)題:DeepMind在團(tuán)隊(duì)游戲領(lǐng)域取得新突破,AI和人類一起游戲真是越來越6了

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    谷歌Vertex AI助力企業(yè)生成式AI應(yīng)用

    DeepMind 在模型技術(shù)方面積極探索創(chuàng)新,尤其著力于 Gemini 和 Imagen 的改進(jìn)。我們的企業(yè) AI 平臺 Vertex AI 也推出了數(shù)十項(xiàng)突破性功能。
    的頭像 發(fā)表于 09-09 15:59 ?383次閱讀

    谷歌研究人員推出革命性首個(gè)AI驅(qū)動(dòng)游戲引擎

    在科技日新月異的今天,人工智能(AI)正以前所未有的速度滲透到我們生活的每一個(gè)角落,從自動(dòng)駕駛汽車到智能家居,無一不彰顯著其巨大的潛力和無限可能。而最近,谷歌研究團(tuán)隊(duì)的一項(xiàng)突破性成果更是將AI
    的頭像 發(fā)表于 08-29 17:21 ?473次閱讀

    戴爾重組銷售架構(gòu),成立AI團(tuán)隊(duì)

    戴爾公司近期宣布了一項(xiàng)重大戰(zhàn)略調(diào)整,旨在通過銷售團(tuán)隊(duì)重組及新團(tuán)隊(duì)的成立,加速其向人工智能(AI)領(lǐng)域的轉(zhuǎn)型步伐。此次重組中,戴爾不僅裁減了部分銷售人員以優(yōu)化成本結(jié)構(gòu),更關(guān)鍵的是,公司正式成立了專注于
    的頭像 發(fā)表于 08-07 17:22 ?562次閱讀

    谷歌AI突破:為無聲視頻智能配音

    近日,谷歌DeepMind團(tuán)隊(duì)公布了一項(xiàng)革命性的技術(shù)——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術(shù)。這一技術(shù)的出現(xiàn),不僅為視頻創(chuàng)作領(lǐng)域帶來了新的可能,也為觀眾帶來了更加豐富的視聽體驗(yàn)。
    的頭像 發(fā)表于 06-21 10:50 ?433次閱讀

    育碧將運(yùn)用AI技術(shù)打造活力四溢的游戲

    Guillemot 稱,AI 將被廣泛應(yīng)用于公司業(yè)務(wù)的“自動(dòng)化”過程。目前,育碧已組建兩支科研團(tuán)隊(duì)研究生成式 AI —— 一隊(duì)負(fù)責(zé)市場營銷、銷售、IT、法律等事項(xiàng);另一隊(duì)專注提升游戲
    的頭像 發(fā)表于 05-20 17:00 ?490次閱讀

    谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發(fā)AI模型,這一創(chuàng)新技術(shù)將為科學(xué)家們提供前所未有的幫助,使他們能更精確地理解疾病機(jī)制,進(jìn)而開發(fā)出更高效的治療藥物。
    的頭像 發(fā)表于 05-10 09:35 ?340次閱讀

    谷歌DeepMind推出SIMI通用AI智能體

    和視頻游戲中理解并遵循自然語言指令。這一突破性的技術(shù)成果標(biāo)志著人工智能領(lǐng)域的一大步,使得機(jī)器能夠更好地理解和適應(yīng)人類的各種需求。
    的頭像 發(fā)表于 03-18 11:39 ?832次閱讀

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺

    據(jù)報(bào)道,谷歌公司的DeepMind團(tuán)隊(duì)近期發(fā)布了AI模型Genie,此模型擁有多達(dá)110億個(gè)參數(shù),能夠依據(jù)用戶提供的圖片及提示詞創(chuàng)建出相當(dāng)完整的2D游戲場景。
    的頭像 發(fā)表于 02-27 14:53 ?688次閱讀

    富士通發(fā)布最新的人工智能(AI)戰(zhàn)略,聚焦深化人類AI之間的協(xié)作

    富士通株式會(huì)社(以下簡稱“富士通”)發(fā)布了最新的集團(tuán)人工智能(AI)戰(zhàn)略,聚焦深化人類AI之間的協(xié)作,并提出了將AI作為“可信賴的助手”這一愿景,為提升
    的頭像 發(fā)表于 02-21 17:09 ?688次閱讀
    富士通發(fā)布最新的人工智能(<b class='flag-5'>AI</b>)戰(zhàn)略,聚焦深化<b class='flag-5'>人類</b>與<b class='flag-5'>AI</b>之間的協(xié)作

    谷歌DeepMind資深AI研究員創(chuàng)辦AI Agent創(chuàng)企

    近日,剛從谷歌DeepMind離職的資深AI研究員Ioannis Antonoglou宣布創(chuàng)辦了一家名為“AI Agent”的創(chuàng)企。Ioannis Antonoglou常駐倫敦,此前曾擔(dān)任谷歌
    的頭像 發(fā)表于 02-04 10:02 ?687次閱讀

    奧特曼稱相信AI無法替代人類

    奧特曼稱相信AI無法替代人類 AI對于人類的威脅一直有很多討論,各有不同觀點(diǎn),很多人對于科幻電影中的場景AI機(jī)器人傷害
    的頭像 發(fā)表于 01-19 11:43 ?830次閱讀

    再登Nature!DeepMind大模型突破60年數(shù)學(xué)難題,解法超出人類已有認(rèn)知

    用大模型解決困擾數(shù)學(xué)家60多年的問題,谷歌DeepMind最新成果再登 Nature。 作者之一、谷歌DeepMind研究副總裁Pushmeet Kohli表示: 訓(xùn)練數(shù)據(jù)中不會(huì)有這個(gè)方案,它之前
    的頭像 發(fā)表于 12-24 21:40 ?483次閱讀
    再登Nature!<b class='flag-5'>DeepMind</b>大模型<b class='flag-5'>突破</b>60年數(shù)學(xué)難題,解法超出<b class='flag-5'>人類</b>已有認(rèn)知

    AWS和英偉達(dá)攜手推進(jìn)AI,谷歌DeepMind重塑材料科學(xué)

    DeepMind在材料科學(xué)領(lǐng)域的最新發(fā)現(xiàn),即220萬種晶體結(jié)構(gòu)的識別,將如何徹底改變我們對新材料發(fā)現(xiàn)和應(yīng)用的理解。這些突破性成就不僅代表了科技的巨大進(jìn)步,也為未來的產(chǎn)業(yè)發(fā)展鋪平了道路。 AWS與英偉達(dá)加強(qiáng)合作,推動(dòng)AI技術(shù)發(fā)展
    的頭像 發(fā)表于 11-30 21:50 ?503次閱讀
    AWS和英偉達(dá)攜手推進(jìn)<b class='flag-5'>AI</b>,谷歌<b class='flag-5'>DeepMind</b>重塑材料科學(xué)

    小米造車傳來大消息,中國團(tuán)隊(duì)研發(fā)出模擬人類指紋細(xì)膩感知系統(tǒng)

    技術(shù)論文稱,中國研究團(tuán)隊(duì)研發(fā)成功一個(gè)類似人類手指的高分辨人工傳感系統(tǒng),能分辨細(xì)膩質(zhì)地,如斜紋布、燈芯絨和羊毛。該研究成果或能提高機(jī)器人和人類義肢的精細(xì)觸覺和細(xì)膩感知能力,有望應(yīng)用于虛擬現(xiàn)實(shí)。 這項(xiàng)機(jī)器人技術(shù)領(lǐng)域重要
    的頭像 發(fā)表于 11-16 08:38 ?592次閱讀
    小米造車傳來大消息,中國<b class='flag-5'>團(tuán)隊(duì)</b>研發(fā)出模擬<b class='flag-5'>人類</b>指紋細(xì)膩感知系統(tǒng)

    人類認(rèn)知如何幫助我們制造更好的AI系統(tǒng)?

    我們重點(diǎn)關(guān)注“一致性”問題,即AI系統(tǒng)思考和表征世界的方式與人類相比,有多大的一致性?我們需要做的是進(jìn)行更多的研究,找出AI系統(tǒng)擅長的事情,并幫助人們了解在哪些情況下可以與這些
    的頭像 發(fā)表于 11-15 16:34 ?356次閱讀