DeepMind將與暴雪聯手打造一個基于星際II的AI研究平臺

OliXPR 8年前發布 | 42K 次閱讀 電子游戲

2016年10月4日,DeepMind的研究人員出現在了暴雪嘉年華大會現場,他們與暴雪的工程師一起為全世界的星際玩家和AI研究者們帶來了一個好消息:雙方已經開始合作,要基于星際II打造成一個AI研究平臺,并向所有人開放。

您可能不知道DeepMind是誰,但一定聽說過半年前那場轟動全球的人機大戰,有八個世界圍棋冠軍頭銜的李世石最終以1:4不敵人工智能AlphaGo。DeepMind就是開發AlphaGo的公司,他們是人工智能研究及應用領域的翹楚,于2010年在倫敦創立,2014年被谷歌收購,目前隸屬于Alphabet集團。

自成立以來,DeepMind一直致力于拓展AI研究領域的邊界,希望計算機能夠像人類一樣,利用學到的知識做出決策,解決各種復雜的問題。一直以來,DeepMind都在借助游戲開發更智能、更靈活的AI算法。游戲能對算法的表現提供即時反饋,可以快速有效地檢查開發成果,因此是開展這種研究的理想平臺。AlphaGo就是這樣的產物,雖然很多人誤以為AlaphaGo跟1997年擊敗國際象棋世界棋王卡斯帕羅夫的DeeperBlue是同類產品,但實際上兩者有著本質差別。DeeperBlue的勝利靠的是超越人類的運算速度和預先寫好的國際象棋算法,通過暴力窮舉和邏輯推演來決定每一步的走法。而AlphaGo更像人類,它遵循一套應用試錯法的學習范式,在獎懲機制下從原始輸入的知識中發展出能夠得到長期回報的最優策略。

在達成預設目標的過程中,AI代理必須不斷進行價值判斷,以便選擇執行最優的動作。判斷所依據的知識來源于Q網絡,AI代理依靠這些知識估算作出某種動作后得到的回報。兩年前,DeepMind開始利用深度神經網絡表征Q網絡,在訓練代理預測總體獎勵之后用深度Q網絡(DQN)將代理的所有經驗都保存下來,經過反復隨機取樣和重放這些經驗來提供多元化和去相關性的訓練數據。在此之前,將神經網絡和優化學習算法相結合時,總會因為學習不穩定導致失敗。在解決了學習不穩定的問題之后,DeepMind用 游戲主機Atari 2600 中50個不同的游戲來驗證深度強化學習的效果,讓代理根據屏幕上的像素和獎勵信號選擇游戲桿的方向來控制游戲。在沒有游戲規則作為先驗知識的情況下,DRL在幾乎一半的游戲上的表現都達到了人類的水準,超出了之前的任何一種方法, 這一成果被發表在《自然》雜志上 。自那之后,DeepMind一直在改進深度Q網絡算法。他們建立了一個大規模分布式深度強化學習系統 Gorila;推出了基于異步強化學習(Asynchronous RL)的方法,利用標準CPU的多線程功能讓代理的多個實例并行運行在同一個模型上;即將推出用于3D導航和解密環境的DeepMind迷宮。

近20年來,星際系列一直是1v1視頻競技游戲的巔峰之作,也是有史以來最好的PC游戲之一。星際能在競技游戲中長盛不衰,是暴雪多年以來的設計,以及他們平衡和完善游戲中的世界所付出的持續努力的明證。開始游戲之前,玩家先要從神族、人族和蟲族三個種族里挑選自己的游戲種族。每個種族的單位都有各自的技能,因此玩法也各不相同。玩家要根據游戲里的經濟狀況來決定應該采取什么樣的操作,建造建筑和生產新的單位都要靠采礦來支撐。所有玩家都在同時建設自己的基地,但每個玩家只能看到自己單位視野范圍內的部分地圖。所以,為了收集敵人的信息,玩家還必須派出自己的單位去偵查探圖,并記住偵查得到的信息。

是不是應該建造更多單位?需不需要建造新的防御設施?要不要去把對手沖掉,或者還是先集中力量發展科技?我們在玩游戲時要解決很多問題,對于要看著屏幕玩游戲的計算機來說,隨便拿出一個來都是非常有挑戰性的前沿課題。因為環境是部分可見的,所以對AI來說這個游戲比象棋或圍棋之類的游戲更具有挑戰性。并且這是一個實施策略游戲,所有玩家都在同時操作,每個決定都需要快速有效的計算支持。

能把星際玩好的AI代理需要有高效的內存利用能力、長期規劃能力、基于新獲取的信息調整計劃的能力。雖然計算機有極其準確迅速的控制能力,但那不是拼智慧,所以AI代理跟游戲交互的速度必須跟人類的“操作數/每分鐘”指標保持一致。星際中的這種高維動作空間跟強化學習之前研究的領域非常不一樣;比如說,要執行“將基地擴展到某一地點”這樣簡單的操作,就必須協調好鼠標點擊、攝像頭和可用的資源。這會讓操作和規劃變成層級化結構,這對強化學習來說是個不小的挑戰。更別提還要學會挖礦、放置和建造基本的建筑、探索地圖找到隱藏的對手等等復雜的技能了。

DeepMind正在星際II這個高能實驗室中研究如何解決這些問題,目前他們正在開發 一套API ,跟之前那種基于“腳本”編寫的機器人類似,可以用程序控制游戲中的每個單位,獲取整個游戲的狀態(還會有些新功能),預計將在2017年一季度推出。但最終AI代理會跟人一樣,要基于它們“看到”的游戲界面來玩這個游戲,所以還會有一個基于圖片的新接口,能夠輸出經過簡化的低分辨率圖形數據,并且能將游戲界面分解成不同的圖層,比如地形高度場、單位類型、單位健康狀況等等,如下圖所示:

此外,DeepMind和暴雪還會非常貼心地制作一系列的“教學”場景,任何水平的研究人員都能從中找到難度適當的任務,啟動一個AI代理來檢驗自己的算法。此外,研究人員還可以用星際II現有的編輯工具創建自己的任務。

等到明年的時候,這個由DeepMind和暴雪共同構建的研究平臺就可以開放給所有人了。業內的開發者和研究人員在DeepMind最近幾年研究巢穴戰爭時作出的貢獻給DeepMind團隊留下了非常深刻的印象,因此他們希望這個直接得到暴雪團隊支持的新平臺依然能博得大家的青睞,共同推進這一偉大的事業。雖然目前跟職業玩家還有很大差距,但AI代理強大的深度學習能力還是讓人覺得非常期待的。

對于普通玩家來講,接著玩游戲就是在為這項研究做貢獻,玩游戲的數據可以幫助AI代理們更好地理解這個游戲。游戲中復雜的規則可以作為AI進入混亂的真實世界的橋梁,星際II中提供的小宇宙是繼續推進AI研究的理想平臺。在訓練AI代理玩星際的過程中取得的進展和成果,最終將用來解決我們在現實世界中遇到的問題。

 

 

來自:http://www.infoq.com/cn/news/2016/11/DeepMind-Star-2-baoxue

 

 本文由用戶 OliXPR 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!