Google大腦團隊2016年度回顧
Google 大腦團隊的長遠目標是,創造更智能的軟件系統以改善人類生活,并通過各種不同領域純粹的應用型研究來實現。盡管這明顯是一個長期目標,但我們想退回一步,回顧團隊去年的一些進步,并分享我們對 2017 年的期許。
研究成果發表
評價研究質量的一個重要方式,就是通過在國際頂級機器學習會議,比如 ICML、NIPS 和 ICLR 上發表成果。過去的一年,我們的團隊在這些會議上有 27 篇論文被接受,涵蓋諸多話題,包括程序化、網絡間的知識傳遞、機器學習模型的分布式訓練、語言模型生成、無監督機器學習、自動化定理證明、更好的神經網絡理論理解、強化學習的算法改進 等等。還有更多的論文被其他領域的會議接受,比如自然語言處理的 ACL 和 CoNNL 大會,語音的 ICASSP,視覺的 CVPR,機器人的 ISER 和計算機系統的 OSDI 大會。我們團隊還提交了 34 篇論文給即將召開的 ICLR 2017,這是一個深度學習研究的頂級會議。可以通過這里了解我們在這些論文中的工作。
自然語言理解
我們研究的關鍵領域之一,是讓計算機更好地理解人類語言。2014 年末,大腦團隊的三位研究人員發表了一篇關于序列到序列的神經網絡學習(Sequence to Sequence Learning with Neural Networks)的論文,論證了機器翻譯技術的可行性。2015 年,我們展示了這項技術也可以用于生成圖片標題、語句分析,以及求解計算幾何問題。到了 2016 年,這項前瞻研究(有了更大的提升)前所未有地讓大腦團隊成員與 Google 翻譯團隊緊密協作,最終用一個完整的端到端學習系統(研究論文)全部替代了 Google 翻譯開發的翻譯算法。這個新系統彌補了舊系統和人類優質翻譯之間的差距,對于一些語言間的翻譯目前高達 85% 的準確率。幾周后,我們展示了該系統是如何做到“zero-shot tranaslate”的,即無翻譯樣本情景下的學習翻譯(研究論文)。該系統目前已部署在 Google 翻譯的生成環境,且支持越來越多的語言之間的翻譯,為用戶提供更高質量的翻譯,讓人們消除語言隔閡更加高效地溝通。Gideon Lewis-Kraus 撰文“The Great A.I. Awakening”介紹了這項翻譯杰作(以及深度學習和 Google 大腦團隊的歷史),這篇深度文章于 2016 年 12 月發表在紐約時報雜志。
機器人技術
商業機器人控制算法是非常謹慎和精細地手工編程,并且因為意味著給機器人帶來新的能力,所以通常是一個非常辛苦的過程。我們相信更好的解決方案是,讓機器人通過機器學習自動化地學習并獲得新技能。去年,我們與 Google X 團隊的研究人員合作,展示了機械臂如何通過學習手眼協調,總結它們的經驗以更快地自學(研究論文)。我們的機器人在研究期間完成了大約 800,000 個很有把握的嘗試。年末,我們發掘了 3 種可能的可行方案來學習新技能:通過強化學習、通過交互學習,以及通過演示學習。我們將沿此目標繼續努力,讓機器人能靈活便捷地學習新任務,并運行在復雜的真實環境中。為幫助其他機器人技術研究人員,我們開放了多個機器人數據集。
醫療衛生
有可能通過機器學習來增強醫生和醫療從業者的能力,這讓我們非常興奮。僅僅作為一個可能性示例,發表在美國醫學會會刊(JAMA)上的一篇論文,展示了一個機器學習驅動的診斷系統通過一張視網膜圖像進行糖尿病視網膜病變診斷,其能力已經與一個認證的眼科專家相當。如果無法發現糖尿病視網膜病變的早期癥狀,那么超過 4 億人可能有失明風險,但很多國家只有極少的眼科專家在進行篩選,而這項技術能幫助確保更多的人得到篩選。在其他醫學圖像領域我們也在做一些工作,并且在研究機器學習應用于其他更多醫學預測任務方面。我們相信機器學習能提升醫患醫療體驗的質量和效率,2017 年在這個領域我們會有更多的工作進展可以介紹。
音樂和藝術創作
科技往往會幫助人們更好地創作和分享多媒體——比如印刷出版、電影或電聲吉他。去年我們啟動了一個叫 Magenta 的項目,來挖掘藝術和機器智能間的可能性,以及使用機器學習系統來激發人類創造性的可能性。從音樂和圖片生成開始,發展到諸如文本生成和 VR 等領域,Magenta 在內容創作模型的生成方面有著最先進的水平。我們幫助組織了一個關于此話題的一日座談會,并支持了一場機器生成藝術的藝術展。在音樂生成和藝術風格轉換方面,發掘了大量的話題,我們的 jam session 演示贏得了 NIPS 2016 的最佳展示獎。
AI 安全與公正
開發更加強大和復雜的 AI 系統并應用到現實世界的方方面面時,我們想確保這些系統是很安全和公正的,而且還想構建工具來幫助人類更好地理解它們產生的輸出。在 AI 安全領域,由 Stanford、Berkeley 和 OpenAI 參與的跨機構合作中,我們發表了關于 AI 安全具體問題的白皮書(參見這里的博客文章)。該論文概述了一些特定問題和領域,相信有一些真正基礎的研究會在 AI 安全領域得到解決。我們在其中一個安全方面取得了進展,即訓練數據中的隱私保護,獲得差異化的隱私擔保,其中大部分是近期通過知識轉移技術獲得。除了安全之外,當開始信賴 AI 系統來做更復雜和精準的決策時,我們想確認這些決策是公正的。在一篇關于有監督學習中機會均等的論文(參見這里的博客文章)中,我們揭示了如何最優化調整任意訓練過的預測器來避免偏見和歧視,文章通過基于 FICO 信用分的一個案例研究說明了這一點。為了讓這項工作更易理解,我們還創建了一個可視化產品,來輔助說明,并交互式地探索論文中的觀點。
TensorFlow
2015 年 11 月我們開源了 TensorFlow 的初始版本,以便機器學習社區的其他同仁能從中受益,同時大家一起合作共同提升。2016 年 TensorFlow 成為 Github 上最受歡迎的機器學習項目,超過 570 名開發者提交了 10,000 多條評論。TensorFlow 的知識庫模型受益于社區貢獻也獲得了成長,目前單單在 Github 上就有超過 5000 個 TensorFlow 相關的代碼倉庫。此外,TensorFlow 已被知名研究機構和大型企業包括 DeepMind 廣泛采納和應用,甚至有一些特殊的應用場景,比如在澳新地區搜尋還牛,和在日本分揀黃瓜。
我們做了大幅的性能提升,并增加了對分布式訓練的支持,還把 TensorFlow 帶到了 iOS、樹莓派(Raspberry Pi)和 Windows 平臺上,甚至集成 TensorFlow 到廣泛使用的大數據基礎設施中。同時還衍生出了 TensorBoard 項目,這是一個 TensorFlow 的可視化系統,帶有一些可視化計算圖形和嵌入式的改進工具。還讓 TensorFlow 可以通過 Go、Rust 和 Haskell 語言來訪問,發布了最先進的圖像分類模型、Wide 和 Deep、答復了來自 Github、StackOverflow 及 TensorFlow 郵件列表里的數千個問題。TensorFlow Serving 簡化了產品環境中 TensorFlow 模型的服務流程,為了在云端完成這些工作,Google Cloud Machine Learning 也提供了托管的 TensorFlow 服務。
去年 11 月我們慶祝了 TensorFlow 開源一周年,并在最早的計算機系統研究會議之一的 OSDI 上,發表了 TensorFlow 的計算機系統全貌的論文。在與 Google 編譯器團隊同事的合作中,我們致力于 TensorFlow 的一個后端編譯器,叫做 XLA,它的一個 alpha 版本近期已加入了開源發布中。
機器學習社區參與
在教育指導如何進行機器學習,以及如何實施該領域的研究方面,我們也在努力。去年 1 月份,Vincent Vanhoucke 作為大腦團隊的研究帶頭人之一,與 Udacity 合作開發并上線了一門免費的在線深度學習課程(博客通知)。我們還整合了 TensorFlow Playground,一個有趣的交互系統,用來幫助人們更好的理解并可視化地說明,通過神經網絡學習來完成任務有多簡單。
6 月份我們迎來了第一批共 27 位 Google 大腦居民(Google Brain Residents),從超過 2200 個申請者中選撥出來,他們在 7 個月中主導完成了令人矚目的原創研究,幫助發表了 21 篇研究論文。8 月份,很多大腦團隊成員參加了 Google 大腦團隊的 Reddit AMA(隨意提問),就r/MachineLearning 話題回答了很多關于機器學習和我們團隊的社區提問。截止年底,我們在團隊中累計接收了 46 位實習生(大部分是博士研究生),他們與其他成員一起開展研究工作。
在 Google 中傳播機器學習
除了上文提到的面向公眾活動之外,我們持續在 Google 內部通過很多產品團隊,來傳播機器學習的專業知識和思想,以確保公司作為一個整體,能充分地利用到任何新顯現的機器學習研究的優勢。舉其中一個例子,我們曾與平臺團隊密切協作,為 Google's Tensor Processing Unit(TPU)提供規格說明和高水準得分,TPU 是一個定制的機器學習加速器 ASIC,Google I/O上曾提到過。這個定制芯片提供一個能極大提升機器學習工作負載的指令,廣泛應用于我們的很多產品,包括 RankBrain、近期上線的神經機器翻譯系統,以及去年三月在韓國與李世石比賽的 AlphaGo。
總而言之,對于 Google 大腦團隊、各個合作方,以及 Google 內外的同仁們,2016 是令人振奮的一年,同時期待 2017 年我們的機器學習研究會有突破性進展!
來自: InfoQ