和李世石下圍棋的AlphaGo究竟是什么

jopen 8年前發布 | 10K 次閱讀 AlphaGo

如果不對 AlphaGo 背后的神經網絡系統稍作了解,你很容易以為 AlphaGo,在對局開始前跟李世石站在同一起跑線上。

作為一種人工智能的 AlphaGo,和 IBM 在上個世紀打敗國際象棋大師卡斯帕羅夫的深藍超級計算機,以及當代的蘋果 Siri、Google Now 有著顯著的區別。

要了解 AlphaGo,首先我們需要了解 AlphaGo 背后到底是一個什么東西。

它背后是一套 神經網絡系統 ,由 Google 2014 年收購的英國人工智能公司 DeepMind 開發。這個系統和深藍不同,不是一臺超級計算機,而是一個由許多個數據中心作為節點相連,每個節點內有著多臺超級計算機的神經網絡系統。 就像人腦,是由 50-100 億個神經元所組成的,這也是為什么這種機器學習架構被稱為神經網絡。

你可以將 AlphaGo 理解為《超驗駭客》(Transcendence) 里約翰尼·德普飾演的人工智能,而它所控制的超級計算機,就像影片里被人工智能心控的人類一樣,共同為一種蜂群思維 (Hive Mind) 服務。

和李世石下圍棋的AlphaGo究竟是什么

《超驗駭客》中,被人工智能控制的工人馬丁。馬丁沒有所想,但他的所見將會被人工智能直接獲取

</div>

AlphaGo 是在這個神經網絡系統上,專為下圍棋 (Go) 而開發出的一個實例。然而,雖然名字已經介紹了它的功能,AlphaGo 背后的神經網絡系統卻適合用于任何智力競技類項目。

這個系統的基礎名叫卷積神經網絡 (Convolutional Neural Network, CNN) ,這是一種過去在大型圖像處理上有著優秀表現的神經網絡,經常被用于人工智能圖像識別,比如 Google 的圖片搜索、百度的識圖功能都對卷積神經網絡有所運用。這也解釋了為什么 AlphaGo 是基于卷積神經網絡的,畢竟圍棋里勝利的原理是:

對弈雙方在棋盤網格的交叉點上交替放置黑色和白色的棋子。落子完畢后,棋子不能移動。對弈過程中圍地吃子,以所圍“地”的大小決定勝負。

和李世石下圍棋的AlphaGo究竟是什么

AlphaGo Logo / DeepMind

AlphaGo 背后的系統還借鑒了一種名為 深度強化學習 (Deep Q-Learning, DQN) 的技巧。 強化學習 的靈感來源于心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。不僅如此,AlphaAlphaGo 還在判斷當前局面的效用函數 (value function) 和決定下一步的策略函數 (policy function) 上有著非常好的表現,遠超過上一個能夠和人類棋手旗鼓相當的圍棋程序蒙特卡洛 (Monte Carlo Tree Search 算法)。

AlphaGo 所采用的 DQN 是一種具有廣泛適應性的強化學習模型,說白了就是不用修改代碼,你讓它下圍棋它能下圍棋,你讓它在紅白機上玩超級瑪麗和太空侵略者,它也不會手生。 作為一個基于卷積神經網絡、采用了強化學習模型的人工智能,AlphaGo 的學習能力很強,往往新上手一個項目,玩上幾局就能獲得比世界上最厲害的選手還強的實力。

2014 年,已經被 Google 收購的 DeepMind,用五款雅達利 (Atari) 游戲 Pong、打磚塊、太空侵略者、海底救人、Beam Rider 分別 測試 了自己開發的人工智能的性能,結果發現:在兩三盤游戲后,神經網絡的操控能力已經遠超世界上任何一位已知的游戲高手。

DeepMind 用同樣的一套人工智能,不調整代碼就去測試各種各樣的智力競技項目,取得了優異的戰績,足以證明今天坐在李世石面前的 AlphaGo ,擁有多強的學習能力。

和李世石下圍棋的AlphaGo究竟是什么

李世石執黑子,AlphaGo 執白子。大約進行了 85 分鐘時進入休息階段

在此之前,DeepMind 進行過的無數虛擬棋局訓練,以及去年擊敗歐洲圍棋冠軍樊麾二段的經驗讓 AlphaGo 已經訓練出了頂尖的奕技,極有可能高于世界上任何已知的圍棋高手。

圍棋的可能性復雜度

當比賽已經開始了 40 分鐘,雙方各自消耗了大約 20 分鐘時,棋局已經顯示出李世石在棋盤的中間偏上位置開始了對 AlphaGo 的進攻,但 AlphaGo 沒有退縮或新開戰場。人類和 AlphaGo 對局感覺最不舒服的,就是 AlphaGo 看不出棋路。

盡管棋盤上風云變化,早在本次開戰前,AlphaGo 跟李世石就已不在同一起跑線上了。至于李世石曾經做出 AlphaGo 和自己棋份在二子和讓先之間的評論,恐怕第一局足夠讓他反悔了。

AlphaGo 只是 DeepMind 證明自己的一個工具。你也可以將這次和李世石的對局理解為 Google 的公關策略。

2014 年,這家公司曾經在其官網上寫道: DeepMind 致力于用研究深度學習的方式去真正了解智慧 (solve intelligence) 。但對于 DeepMind 和 Google 來說,打造 AlphaGo 以及其他人工智能神經網絡不是終點。

和李世石下圍棋的AlphaGo究竟是什么

DeepMind 三位聯合創始人

將機器學習和神經科學進行結合,打造出一種“一般用途的學習算法”。通過這種算法,DeepMind 和 Google 希望能夠將智能“定型化”,理解智能是什么,進而更好的幫助人類理解大腦。DeepMind 聯合創始人之一的 Demis Hassabis 曾經寫道:

用算法將智慧提煉出來,有可能成為理解人類思維最神秘原理的最佳方式。

attempting to distil intelligence into an algorithmic construct may prove to be the best path to understanding some of the enduring mysteries of our minds.

在 Google 收購 DeepMind 前,收購條款中的一項就是 Google 必須成立人工智能道德委員會。因此,在目前階段人們不必擔心這樣的人工智能最終殺死或統治人類。但至少,人工智能在圍棋這樣的智力類競技項目上擊敗人類,是已經注定的事情。

作為一種決策樹巨大的游戲,圍棋本來適合人腦思考,不適合機器運算。但 DeepMind AI 的方向就是模仿人腦思考,用神經網絡“重現”智慧。

圖片來源:DeepMind, 油Tube

來自: http://www.pingwest.com/why-is-alphago-so-great-and-what-is-deepmind-trying-to-achieve/

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!