騰訊絕藝AI下一步將學習AlphaGo zero 自對弈訓練
棋手童夢成、連笑
摘要: 騰訊絕藝 AI 下一步將學習 AlphaGo zero,不再需要學習人類棋手的下法,直接采用自對弈進行訓練,當然尋求 AI 產業化落地場景也是重中之重。
“感覺自己問題特別多,覺得哪里不太對,跟絕藝相比差距特別大。”棋手童夢成在 12 月 16 日下午,2017TWT 騰訊圍棋錦標賽特別挑戰賽結束后接受采訪時連聲說。
正如外界預測中的那般,棋手童夢成、連笑在騰訊圍棋絕藝挑戰賽中雙雙落敗。要知道早在 2015 年 11 月 15 日世界計算機圍棋錦標賽中,中國棋手連笑贏下比賽,當時職業棋手普遍認為電腦圍棋跟人類棋手差距還很大。不過僅在四個月之后李世石輸給 AlphaGo,職業圍棋界開始偏向 AI,即便 AlphaGo 剛出來時有很多明顯的漏洞,但實力仍比人類強很多。
而當 Master 出來后,職業棋手紛紛表示絕望,古力沮喪地感嘆道人類棋手要被代替,失業的時候到了。連笑表達了同樣的觀點,他坦言感覺跟它下兩次就找不到方向,覺得很累,感受到 AI 質的飛躍,人類再也戰勝不了 AI。
身為棋迷的騰訊集團高級執行副總裁盧山在李世石輸給 AlphaGo 后便開始組建團隊開發絕藝 AI。2016 年 3 月 4 日,第一個 DEMO 完成,棋力在業余 5 級左右,到 3 月下旬,圍棋 AI 正式立項,項目名稱 weigo,團隊也隨之搭建起來。
2016 年 8 月,絕藝以“虎虎有生氣”的 ID 首次在野狐平臺(騰訊旗下圍棋對弈平臺)下棋,8 月 23 日首次戰勝職業棋手。在不斷的學習中,絕藝的能力不斷增強。11 月 1 日,絕藝正式以“絕藝”ID 亮相野狐,11 月 2 日第一次戰勝世界冠軍江維杰(野狐 ID 若水云寒)。11 月 19 日晚,“絕藝”首次和柯潔交手,一勝一負;11 月 28 日,“絕藝”對韓國第一人樸廷桓 5 勝 1 負。2017 年 2 月 14 日以后,絕藝對野狐帽子(世界冠軍和全國冠軍)的勝率,已經能夠穩定在 90% 以上。并在第 10 屆 UEC 杯計算機圍棋大賽中全勝奪冠。(注:AlphaGo 沒有參與 UEC 計算機圍棋大賽)
今年 11 月下旬,絕藝最新版本以“符合預期”ID 亮相,達成了 60 連勝的成就,其中,對頂尖棋手獲 59 連勝,第 60 盤,絕藝用一盤精彩的自我對局收尾。
從絕藝 AI 的勝率,以及對陣棋手包括古力、柯潔等來看,這跟 AlphaGo 升級版 master 的對弈戰績是一樣的。12 月 10 日絕藝再赴日本,更是問鼎首屆 AI 龍星戰,二奪人工智能世界冠軍。(注:AlphaGo 升級版 Master 沒有參與 AI 龍星戰)
騰訊集團高級執行副總裁盧山告訴鈦媒體:
“騰訊絕藝 AI 已經基本接近年初 Master 水平。但現階段,絕藝 AI 乃至整個圍棋 AI 體系都是基于「贏」作為技術升級目的,換句話說,沒有辦法在中后盤贏定的情況下給出當前最完美的解決方案。”
誠然大家所知,2016 年 3 月 9 日李世石和 Alphago 的第一盤棋,下到最后 AlphaGo 已經領先 5 步,但第一盤對弈結束時 AlphaGo 只領先了兩步, 這是因為當時 AlphaGo 在贏定的情況下,選擇了最穩妥的方式,而不是完美的方式。在走向完美的的道路上騰訊絕藝 AI 還有很長的道路要走,騰訊集團高級執行副總裁盧山認為現階段已知的機器算法不管用,當圍棋 AI 能夠實現完美方式時,其意義不亞于 Alpha Go 擊敗人類,又將是一個新的革命。
眼下騰訊絕藝 AI 亟待突破僅靠學習人類棋手的下法,轉而采用自對弈進行訓練。雖然此前騰訊官方稱“絕藝”的學習主要包括人類棋譜數據庫和機器自對弈,但騰訊副總裁、騰訊 AI Lab 負責人姚星表示,“絕藝”不同于其他實驗室 AI,它得益于世界超一流棋手的指導,通過不斷與高手交流及學習成長起來,顯然在機器自對弈上還處于早前階段。
早在 10 月 19 日,DeepMind 發布了其最新成果 AlphaGo zero,該算法可以直接采用自對弈訓練,相較于之前版本,AlphaGo Zero 的表現和訓練效率都有了大幅度提升,僅通過 72 小時內 490 萬對局的訓練就勝過之前訓練用時幾個月的原版 AlphaGo,更直觀的表現在 AlphaGo Zero 以 100:0 擊敗了此前版本的 AlphaGo。
數據顯示學習人類選手的下法雖然能在訓練之初獲得較好的棋力,但在訓練后期所能達到的棋力卻與只能與原版的 AlphaGo 相近,而不學習人類下法的 AlphaGo Zero 最終卻能表現得更好。
知乎網友@知謠其實是德魯伊猜測這或許說明人類的下棋數據將算法導向了局部最優(local minimum),而實際更優或者最優的下法與人類的下法存在一些本質的不同,人類的下法也許實際’誤導’了 AlphaGo。
有趣的是即使 AlphaGo Zero 放棄學習人類而使用了隨機的初始下法,訓練過程也一直朝著收斂的方向進行,而沒有產生難以收斂的現象。或許這種自對弈的訓練可以讓圍棋 AI 接近最完美的方式。
值得注意的是,在 12 月 13 號凌晨,AlphaGo 代言人谷歌 DeepMind 科學家黃士杰在 非死book 上發帖宣布,他正式從 AlphaGo 團隊離開,轉到 DeepMind 其他項目。加之在 2017 年 5 月戰勝世界圍棋第一人柯潔后,宣布不會再繼續開發,參加競技比賽,后續接連公布了對弈的 50 局棋譜、兩篇論文,并開發圍棋教學軟件。
可以明確地說,谷歌在圍棋 AI 上的研究已經告一段落,而產業化落地將是下一步的重點。此前 DeepMind 也披露過 AlphaGo 團隊的下一步計劃——研發出應用領域更廣泛的算法,包括找、到新的疾病治療方法、顯著降低能源消耗、發明革命性的新材料等。
這也將是騰訊絕藝 AI 后續的重點,一方面深化騰訊在深度學習及強化學習方面的前沿 AI 研究,另外一方面,將 AI 能力賦能到騰訊系的具體產品中,諸如醫療影像領域的覓影、微信中語音轉文字、聲紋識別、天天P圖等產品。
來自: 鈦媒體