Google Brain:重建谷歌帝國的人工大腦

jopen 10年前發布 | 13K 次閱讀 Google

Google Brain:重建谷歌帝國的人工大腦

        英文原文:Inside the Artificial Brain That’s Remaking the Google Empire

        這是互聯網上最無聊的工作之一,一隊谷歌員工日復一日盯著電腦屏幕,審查著一張張街景圖片,不斷的問自己:“我看到的是個地址嗎?” 然后點擊 Yes,點擊 Yes,點擊 No。

        這就是谷歌公司地圖服務構建工作中極其關鍵的一部分。對于地圖制圖者來說,知道一棟建筑的準確地址實在是太有用了。但這卻并沒有讓那些可憐的谷歌員工生活更美好,因為他們必須分清谷歌街景車捕捉到的一串數字究竟是一個手機號,還是一個涂鴉,或是一個合法的地址。

        幾個月之前,他們的苦惱一下子煙消云散,因為谷歌工程師們訓練了公司的計算機,這些機器可以來處理這項費力不討好的任務。過去,計算機總是搞不 定這樣的高級圖像識別,而谷歌公司最終用他們稱為“谷歌大腦”(Google Brain)的、最新的人工智能系統攻克了這個難題,谷歌現在可以在一小時之內將法國街景中的地址全部轉錄。

        “谷歌實際上不是一個搜索公司,它是一個機器學習公司。”

        自從三年前谷歌公司神秘的X實驗室(X Labs)誕生以來,谷歌大腦項目就在公司內部活躍起來,使得它的軟件工程師團隊有用武之地,可以應用最尖端的機器學習算法來解決不斷增多的問題。而且從 很多方面看,就像過去十年中谷歌的搜索算法和數據中心專長幫助其打造起取得巨大成功的廣告業務一樣,這一項目很可能為谷歌在未來十年進軍其它領域帶來領先 優勢。

        “谷歌實際上不是一個搜索公司,它是一個機器學習公司。”圖像搜索創業公司 Clarifai 的 CEO 馬修·蔡勒(Matthew Zeiler)這樣表示,他曾在谷歌大腦項目實習過兩次。他表示,谷歌最重要的幾個項目,如無人駕駛汽車、廣告、谷歌地圖,一直都從這類研究中獲益。“實 際上機器學習驅動著公司的一切。”

Google Brain:重建谷歌帝國的人工大腦

        不僅是谷歌地圖,安卓的語音識別軟件及 Google+ 圖像搜索也受益于谷歌大腦。但按照項目背后主要的思想家之一杰夫·迪恩(Jeff Dean)的說法,這僅僅是個開始。他認為谷歌大腦項目能幫助公司的搜索算法并提升谷歌翻譯的性能。“谷歌現在有 30 或 40 個小組在使用我們的基礎設施,”迪恩表示。“有些小組用它進行生產,有些則對它進行探索,并將它和現有的系統比較,總的說來,對于很多類型的問題能都取得 很好的效果。”

        這一項目是向稱為“深度學習”的新型人工智能轉變過程中的一部分。非死book 正在做類似的工作,微軟、IBM 等其它公司亦是如此。但是谷歌似乎技術更先進——至少現在是這樣。

        人工智能即服務

        2011 年,谷歌大腦項目啟動,這只是個內部代號,不是官方稱謂,當時斯坦福大學的吳恩達教授加入了谷歌公司具有“探月”意義的 Google X 實驗室團隊,來進行深度學習的實驗。一年之后,谷歌將安卓語音識別錯誤率令人驚嘆地降低了 25%。不久,谷歌開始將它所能找到的深度學習專家全部招致麾下。去年,谷歌請來了世界上最著名的深度學習專家之一的杰夫·辛頓(Geoff Hinton)。接著又在一月,耗資 4 億美元收購了頗具神秘色彩的深度學習公司 DeepMind。

        利用深度學習技術,計算機科學家建立軟件模型可以在一定程度上模擬人類大腦的學習模型。然后,這些模型可以用大量的新數據進行訓練,不斷微調, 最終應用到全新的任務中去。舉個例子,谷歌圖像搜索建立了一個圖像識別模型,它也可以幫助谷歌地圖團隊解決問題。為谷歌搜索引擎建立的文本分析模型也可以 為 Google+ 所用。

Google Brain:重建谷歌帝國的人工大腦

        谷歌大腦可以看懂的街景圖像示例。請參見之前的兩篇報道:《新算法讓谷歌街景和 reCAPTCHA 技術更加智能了》、《谷歌的機器視覺技術已成功破解自己的 CAPTCHA

        谷歌在公司內部網上建立了幾個 AI 模型,而迪恩和他的團隊編寫了后端軟件,使得谷歌的服務器群能處理這些數據并將結果顯示在軟件界面上,讓開發者可以看到他們 AI 代碼的運行情況。迪恩說:“看起來就像是個核反應堆的控制面板。”

        而有些項目,如安卓語音識別,杰夫·迪恩的團隊就需要進行一些大改動以使機器學習模型能適應手頭的任務。但也許,使用谷歌大腦軟件的隊伍中有半 數都只是簡單的下載源代碼、微調配置文件,接著就把數據輸入到谷歌大腦中。迪恩表示:“如果你想要在這一領域做前沿研究,并超越現有的技術,為新問題建立 合適的模型,那么你必須要在機器學習領域接受過多年的訓練。但是如果你只想應用一下這個技術,而你要處理的問題和深度模型已解決的問題有點類似,那么,人 們已經用它取得了很大的成功,你也無需是個深度學習專家。”

        新版 MapReduce

        這樣的內部代碼共享也對另一項谷歌領先的技術 MapReduce 產生了重大影響。十年前,迪恩作為團隊一員編寫了 MapReduce,使它成為了利用谷歌數以萬計服務器的可行之路,并訓練它們來解決如為萬維網建立索引這類單一問題。MapReduce 的代碼最終在內部公開,而谷歌思維敏捷的工程師們就想出了如何訓練它來解決新的大數據計算問題的方法。MapReduce 背后的思想最終寫成了開源項目 Hadoop 的代碼,將谷歌曾經獨享的超強數據處理技術拱手獻給世界。

        隨著谷歌宏偉的人工智能項目細節不斷流出,谷歌大腦也許最后也會成為開源項目。今年一月,谷歌發表了一份關于谷歌地圖的論文,考慮到谷歌有分享其研究成果的記錄,很可能有更多的論文將會發表。

        考慮到深度學習算法要解決的問題范圍非常廣,谷歌與迪恩以及他團隊的代碼還有大量工作要做。他們發現,使用的數據越多,這些模型就會變得更精 確。那也許是谷歌下一個宏大目標:建立十億級數據點的人工智能模型,而不是百萬級的。就像迪恩所說的:“我們正在嘗試將可擴展性推進到下一個級別,可以訓 練準確的、真真正正的大數據模型。”

        翻譯: 伯樂在線 - toolate

        譯文鏈接: http://blog.jobbole.com/73825/

</div>

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!