OpenAI通過近5億次“躲貓貓”游戲發現AI新潛能,或將用于醫療診斷

五嘎子 5年前發布 | 2K 次閱讀 AI

  在地球生命的早期,生物有機體非常簡單。它們是微小的單細胞生物,幾乎沒有協調能力。然而,數十億年的進化通過競爭和自然選擇,形成了我們今天的復雜的生命形式,以及復雜的人類智能。

  由諸多硅谷大亨聯合建立的人工智能非營利組織 OpenAI 正在驗證一個假設:如果能在虛擬環境中模擬這種競爭,它是否也會像人一樣產生更復雜的人工智能?

  視頻 Multi-Agent Hide and Seek(來源:OpenAI)

  在近日發表的一篇論文里,OpenAI 公布了它的初步結果。通過幾億次簡單的躲貓貓游戲,兩支相互對立的 AI 智能體(agent)團隊找到了復雜的游戲策略,其中甚至有工具的使用和團隊協作。

  測試結果表明,兩支團隊通過競爭模式進行自我改進的速度,遠遠超過任何單一智能體的進化速度。論文合著者稱,我們可以在其他 AI 領域充分發揮這種力量來提高效率。

  此外,這項研究也讓我們更深入了解了 OpenAI 的主導研究策略:大幅擴展現有的 AI 技術會產生什么特性。這個躲貓貓環境集合了很多包括 OpenAI、DeepMind 及其姐妹公司 Google 的開源系統。包括 CoinRun、Neural MMO、Research Football Environment 和 OpenSpiel 等。

  一、策略進階的六個階段

  該實驗基于人工智能領域現有的兩種理念:多智能體學習(multi-agent learning)和強化學習(reinforcement learning)。前者是將多個算法置于競爭或協調中,以引發緊急行為;后者是通過不斷的試錯來達到目標的特定機器學習技術,AlphaGo 是其中一個典型例證。

  研究人員設計的虛擬環境包括一個封閉的空間,里面有各種各樣的物體,比如積木、坡道、移動障礙物和固定障礙物。這些智能體本身由強化學習算法控制。在每一場比賽中,這些智能體被分成兩組:隱藏者(藍色)和搜尋者(紅色)。隱藏者成功躲避搜尋者即接受獎勵,反之則進行懲罰;搜尋者找到隱藏者即為獎勵,反之懲罰。和人類的捉迷藏游戲一樣,隱藏者有幾秒鐘的時間藏起來。除此以外,研究人員沒有給這些智能體任何其他指示。

  在幾億回合的博弈過程中,智能體們“想出”了多種應對方法和破解策略。在第一階段,隱藏者和搜尋者通過在空間中移動但不操縱任何物體,發展出非常簡單的躲避和追逐策略。

  但是在 2500 萬場比賽之后,比賽開始變得復雜。躲藏者學會了移動和固定箱子以及環境中的障礙物,在自己周圍建造堡壘,這樣搜尋者就不會看到它們。不僅如此,它們還制定了協調策略,如互相傳遞物體,以加快堡壘的建設過程。

  然而,在 7500 萬場比賽之后,搜尋者發現了一個破解策略將搜索過程推進到第三階段。它們學會了移動堡壘旁邊的斜坡,并用它爬過墻。又過了 1000 萬回合之后進入到第四階段,隱藏者們已經學會了在建造堡壘之前把坡道固定好。


動圖第三階段,智能體學會利用斜坡FQ(來源:OpenAI)

  起初,OpenAI 的研究人員認為這時候應該要進入游戲的最后階段了,但在 3.8 億場游戲之后,又出現了兩種策略。搜尋者們通過使用一個已經被固定的斜坡爬上被固定的盒子,然后“沖浪”到盒子頂部的堡壘上,從而進入隱藏者的堡壘。在最后階段,隱藏者們再次學會了在建造堡壘之前把所有的坡道和箱子都固定好。


智能體會“沖浪”。來源:OpenAI

  規模在這場游戲中扮演了重要的角色。默認模式需要 1.323 億階段的超過 34 小時的訓練才能達到“斜坡防御”階段,批量越大,訓練時間越短。例如,將參數數量(模型從歷史訓練數據中學習的部分)從 50 萬個增加到 580 萬個,樣本效率將提升 2.2 倍。

  二、魯棒性檢測

  為了評估智能體的魯棒性,研究人員設計了五個基準測試,分為兩個方面:認知和記憶。所有測試都使用與捉迷藏環境相同的動作空間、觀察空間和對象類型:


五個基準智力測試。來源:OpenAI

  在其中的三項任務中,在躲貓貓環境中接受過“預訓練”的智能體學習能力更強,獲得的獎勵也更多。這些智能體在“鎖定和返回”“順序固定”和“根據草圖構建堡壘”中表現較好,但在另外兩個方面做得很差。

  研究人員認為,通過躲貓貓訓練的智能體在某些方面表現較好是因為反復使用了學習到的技能,而在剩余的測試任務中必須要學習新的技能,這是很難的。論文中寫到:“這個評估指標強調了開發技術的重要性,以便有效地把在一個環境中訓練的技能用到另一個環境中。

  三、未來應用

  研究人員認為,這些初步結果表明,通過簡單的游戲規則、多智能體競爭和標準的大規模強化學習算法,可以刺激智能體在沒有監督的情況下學習復雜的策略和技能,這是進化為更復雜人工智能的一個很好的方式。

  “我們沒有告訴隱藏者或搜尋者要跑到盒子附近或利用盒子當做工具,”論文作者之一 Bowen Baker 說,“但通過競爭模式,它們為彼此創造了新的任務,使得另一個團隊不得不適應。”

  相比于 OpenAI 此前的 AI 研究方式,此次研究采取的方式有點不同。盡管該實驗室也會開發一些相比于其他實驗室更為新穎的技術,但它主要還是通過大幅擴展現有技術而出名的。例如,他們此前“臭名昭著”的語言模型 GPT-2 就大量借鑒了早期語言模型的算法設計,包括谷歌的 Bert 系統。OpenAI 的主要創新其實是融合了大規模的工程和計算資源,構建一個能夠在通用系統中執行多項任務的人工通用智能(AGI)


來源:OpenAI

  在某種程度上,這項研究強調了大規模測試現有技術極限的價值。該組織還將繼續執行這一戰略。研究人員說,第一輪的實驗并沒有接近他們所能投入的計算資源的極限。“我們想讓人們想象,如果你在一個復雜得多的環境中引發這種競爭,會發生什么,”Baker 說,“他們學習到的技能可能最終能夠解決一些我們還無法解決的問題。”

  當然,這項研究也不單單是為了游戲而設計。研究人員稱,他們的工作是邁向可能產生“物理基礎”“人類相關”行為的技術的重要一步,將有可能支持診斷疾病、預測復雜蛋白質結構和分段 CT 掃描的系統

  DeepMind 聯合創始人說,“我們的游戲 AI 是 AI 普及化的一塊墊腳石,最終,(我們的算法)會向著解決現實世界中具有挑戰性的問題轉化,并幫助相應領域的專家。”

 本文由用戶 五嘎子 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
  轉載自:https://mp.weixin.qq.com/s/sgtm0XQGEMAlcHrbUx52XQ