顛覆圍棋后,DeepMind還想進軍醫療、游戲領域

jopen 7年前發布 | 12K 次閱讀 DeepMind

顛覆圍棋后,DeepMind還想進軍醫療、游戲領域

橫掃中日韓頂尖圍棋高手,豪取 60 連勝,神秘的 Master 已經亮明身份,它就是 AlphaGo。這樣的結果讓人意外也讓人不意外。

之所以說不意外是因為,Master 亮明身份前,外界普遍已經猜測它就是 AlphaGo。令人意外的是,在短短不到一年的時間里,比起 AlphaGo,Master 的表現更加搶眼,進步神速,下棋快準狠。

這樣的改變來自哪里,與之前的 AlphaGo 相比,Master 又有了哪些新的進步。DeepMind 在 1 月 5 日回復澎湃新聞的郵件時表示:“我們一直在改進 AlphaGo,包括算法上的創新、通過左右互搏訓練來學習。我們這次進行這些非正式的快棋比賽,為今年晚些時候的標準時長的正式比賽做準備。其實很多其他的智能圍棋系統也會披著馬甲在網上試水的。我們沒料到會引發這么大的關注度,但是既然這么多棋手都表示挺感興趣的,那我們想還是出來承認一下吧。”

在 Master 宣布自己身份后,DeepMind 創始人監 CEO 德米斯·哈薩比斯(Demis Hassabis)也在其個人推特賬號上表達了自己的激動心情。這位有著“天才”和“工作狂”之稱的創始人,對于圍棋有著濃厚的興趣,13 歲時獲得了國際象棋大師的稱號。1 月 3 日,DeepMind 發布的官方博文中透露,除了圍棋,公司還在和英國的當地醫療機構合作,希望提供更好的醫療服務。同時,公司也在考慮挑戰《星際爭霸2》游戲。

在如此短的時間里,做出了如此驚人的成績,這家 2010 年初創于英國倫敦的人工智能公司,究竟有著什么樣的魔力?

Master 強在哪里?

要知道 Master 變得有多強,得先從 AlphaGo 的算法說起。

《經濟學人》曾發文對 AlphaGo 的算法進行解釋,認為它得意的地方在于用新的方法,試著讓電腦發展出如何下棋的直覺——能自己發現人類選手理解卻無法解釋的原則。它采用深度學習的技術,通過重復地復雜統計,讓電腦從巨大的無用數據中提取出通用的原則。

深度學習需要兩個東西:足夠多的處理單元及足夠多的可供學習的數據。DeepMind 用了 3000 萬棋譜樣本來訓練機器,這些棋譜來自業余和職業選手聚集下棋的在線服務器。另外 AlphaGo 還通過和自己對弈,進行微調,從而能快速產生更多的訓練數據。

這些數據需要經過深度學習的兩種算法處理。一是所謂的策略網絡,用來訓練模仿人類行為。看過數百萬計的對局后,它已學會提取特征、原則和經驗法則。它在對局中的工作就是觀察棋盤的狀態,并產生一些看起來更有希望的步數提供給第二個算法考慮。

第二個算法叫做價值網絡,用來評估一個步數的致勝概率。機器會根據策略網絡的建議,評估數以千計的走法。因為圍棋如此復雜,所以將所有可能的走法都走完是不可能的。作為替代,價值網絡會評估數個步數后可能的棋盤狀態,并與它之前見過的例子進行比較。這種想法是找出統計意義上最像過去能夠獲勝的棋形。策略網絡和價值網絡結合起來構成了人類棋手需要通過幾年實踐才能累積的圍棋智慧。

值得一提的是,韓國棋手李世石在與 AlphaGo 進行對決時,曾在第四局時贏過一盤。但這次 Master 直接取得了 60 連勝。

“目前 DeepMind 的具體改進還沒公開,但我猜測經過了半年多訓練,數據量提升了不少。另外,針對上回第四盤棋的弱點,估計在訓練方法上也有改進,比如左右互搏,自己和自己下能增加數據量。” 第四方式創始人兼 CEO 戴文淵告訴澎湃新聞。

除此之外,比起 AlphaGo,這次 Master 的下棋時長更短。這也被外界認為是提升之一。但有多位人工智能領域專家告訴澎湃新聞,其實快棋對于人工智能系統來說更有利,因為人在緊張時會犯更多錯誤。

Master 這次的表現,讓國內許多頂級的圍棋高手感嘆。世界冠軍古力九段在輸給 Master 后,在接受澎湃新聞采訪時稱:“沒看過它下慢棋,但進步肯定巨大,具體不知道該怎么衡量。原來覺得圍棋招法有限,現在覺得下棋可以更加自由。”

“從上回的態勢看,其實趨勢上人類已經沒有機會了。機器就像個怪獸,人未來可能可以僥幸戳到死穴贏一兩盤。”戴文淵在回答澎湃新聞關于人機對弈未來的意義時說。

對于 DeepMind 公司來說,新一年會繼續對圍棋項目進行深入,但在其 1 月 3 日發表的博文中,Deepmind 稱接下去會做的三件事:實現算法突破,提升社會影響,建立倫理規范。

“其實他們還想做醫療,但醫療的數據獲取成本比圍棋大太多了,完全是另一個問題。另外,實時對戰游戲會更難,例如星際爭霸,因為復雜度比圍棋還大。”戴文淵說。

Master 和 AlphaGo 背后的團隊

無論是 Master 還是 AlphaGo,它們的成功背后,都離不開 DeepMind 團隊的努力。在外媒的描述中,創始人之一德米斯·哈薩比斯(Demis Hassabis)謙虛、認真,對自己目前的工作抱有“解決智能問題,隨后利用這一技術去解決所有一切”的態度。

同時也能用天才來形容這位創始人。哈薩比斯,8 歲時就編寫了自己的計算機游戲,13 歲時獲得了國際象棋大師的稱號,17 歲時開發了首款引入人工智能元素的電子游戲《主題公園》并大獲成功,20 歲時在劍橋大學計算機科學系獲得了兩門學科優等成績,擁有劍橋大學和倫敦大學學院的計算機科學和認知神經科學雙學位。不久后創建了自己的電子游戲公司 Elixir 并完成了關于大腦海馬體和情景記憶的前沿性學術研究。 2011 年創立 DeepMind,而在此之前,他在哈佛大學和麻省理工學院取得博士后。隨后,公司在 2014 年被谷歌收購,直到人工智能項目 AlphaGo,引發全球關注。

被谷歌收購后,DeepMind 的總部依舊維持在英國倫敦。DeepMind 在倫敦大約有 140 名成員,也是目前英國最有趣的科技公司之一。DeepMind 優秀的人才隊伍也可能是谷歌 2014 年愿意斥資 4 億英鎊收購的主要原因之一。

相信智能程序將能夠幫助發掘出可以利用于社會福祉的新科學知識。在過去的幾年發展中,他們與谷歌的數據中心團隊運用了類似 AlphaGo 這樣的技術發現了管理制冷系統的新方法,使建筑節能到達了 15%。如果把這些技術應用在其他更大型的工業系統上,就會節省更多的能源開支從而保護生態環境。此外,DeepMind 還在英國積極推進了與兩家國家衛生署醫院在深度學習科研方面的戰略合作,去探索如何讓科技更準確地診斷、治療形形色色的疾病;并和另兩家醫院合作研發了用于臨床的移動應用和基礎設施,使病患得到更貼心的醫療護理。

“最終,我們想要將這些技術應用到真實世界的重要問題中。因為我們用的方法是通用的,我們希望有一天,它們能延伸得更廣,幫助解決最緊迫的社會問題,從醫藥診斷到環境模型。”哈薩比斯說。

來自: 騰訊科技

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!