人工智能正改變谷歌搜索,而下一個目標則是整個互聯網
昨天,46歲的負責谷歌搜索業務的元老Amit Singhal宣布退休。很快,谷歌透露,Singhal卸任的巨大空缺將由一個叫John Giannandrea的人來填補。在某種層面上講,這只是兩個人各自開啟新的生活。但你也可以將兩人的職位更替看做是對谷歌內部——甚至是整個科技界運轉方式之重大轉變的一個絕妙隱喻。

要知道,Giannandrea正是谷歌人工智能的掌舵人。他的業務范圍包括深層神經網絡和模擬人腦神經結構的軟硬件網絡。通過分析大規模的數據,這些神經網絡能夠學習各種有用的任務,如照片識別、智能手機語音命令識別,以及正在發生的——網絡搜索查詢響應(Internet search queries)。有時候,它們學習任務的能力甚至超越了人類——這些神經網絡能做的更好、更快,并且能夠完成更大規模的任務。
這個叫做深度學習的方法正迅速改造互聯網一系列最熱門的應用:從非死book,到推ter,再到Skype。過去幾年中,它也重新定義了谷歌搜索——整個公司最賺錢的業務。正如彭博社(Bloomberg)最近的報道,谷歌從2015年初開始在其搜索業務中部署一個叫做RankBrain的深度學習系統。到了十月,RankBrian已經在谷歌搜索引擎每秒處理的數百萬個查詢任務中的「非常大的一部分」中發揮了作用。
據彭博社報道,正是Singhal本人批準了RankBrain的應用。此前,他或許已經帶領團隊進行過對其他更簡單的機器學習的探索。但是,據稱Singhal曾一度堅決反對在谷歌搜索中應用機器學習——過去,谷歌主要依賴于人工算法,它們嚴格遵循人類所定制的一系列規則。一些前谷歌員工描述了對機器學習的擔憂:人類更難理解神經網絡(相較于人工算法)的工作方式,也就更難對其進行優化。
這些擔憂仍然威脅著機器學習領域。事實上,即便專家們并不能完全理解神經網絡的工作原理,但它們實實在在的在起著作用:如果你向一個神經網絡輸入足夠多的鴨嘴獸圖片,它便能學著鑒別鴨嘴獸;如果你輸入足夠多的惡意代碼,它便能識別電腦病毒;如果你輸入的是大量的自然語言——人們在搜索引擎中可能輸入的詞或短語,它便能學著理解這些搜索命令并給出結果。在一些例子中,神經網絡比工程師們寫的算法更好地執行了搜索任務。人工智能是谷歌搜索的未來——如果是谷歌搜索的未來,也即是互聯網更多領域的未來。
堅守規則
去年秋天,我與一位不愿透露姓名的前谷歌員工(他未被授權公開談論公司的內部事務)討論了神經網絡在谷歌搜索引擎中的作用。他說道,谷歌的廣告團隊曾一度利用神經網絡來協助定位廣告,但「有機搜索(organic search)」團隊對這一技術并無好感。的確,這些年來關于這一爭議的討論仍不時涌現在Quora(一個廣受歡迎的問答網站)上。
《高效的工程師》(The Effective Engineer)一書的作者,曾就職于谷歌搜索團隊的Edmond Lau 在Quora上寫道:Singhal對機器學習抱著哲學上的偏見。他這樣描述機器學習帶來的困擾:「給定一個查詢請求,人們很難解釋,為什么某個特定的搜索結果排名高于另一個。」另外,他還補充道:「很難直接調整基于機器學習的系統來提高某一訊息的重要性。」一些其他前谷歌員工對這一描述表示贊同。
是的,谷歌的搜索引擎曾由能夠自動響應搜索查詢的算法所驅動,但這些算法相當于一系列明確的規則。谷歌的工程師們能夠輕易地改變和優化這些規則——而且,與神經網絡不同,這些算法不會自我學習。正如Lau寫道:「基于規則的評價標準雖有其繁冗之處,卻讓工程師們能夠針對特殊情況對權重直接進行調整。」
但現在,谷歌已經將深度學習整合到其搜索引擎中。隨著人工智能的負責人接管搜索業務,谷歌似乎已經堅定了這一趨勢。
失控
誠然,應用神經網絡意味著一定程度上的失控。「但也并不是完全無法掌控,」深度學習創業公司Skymind的創始人說道。其實神經網絡不過是數學——線性代數,工程師們毫無疑問能夠追蹤這個多層結構中數據的變化。問題是,人類很難理解神經網絡為什么以某種特定的方式將一張照片、一段語音或自然語言進行歸類。
「人們能夠理解深度學習背后的線性代數,但是這個模型并非人類可理解,而是機器可理解的」,Nicholson說道,「它們可以給出非常精確的結果,但我們常常不能從人類的角度去解釋這些結果背后的道理。」
也就是說,為了優化這些神經網絡,人類只能依靠直覺、試驗和犯錯來調整其數學模型——而且你必須不斷地加進新的數據進行訓練,也就意味著更多地試驗和犯錯。這在理論上可行,但是錯綜復雜。隨著谷歌搜索向人工智能模型邁進,誰也說不清這一舉動怎樣讓其搜索結果避免不公平投訴,或者,面對投訴時調整其搜索結果的能力又會受到怎樣的影響。
這些考慮并非杞人憂天。最近,谷歌正面臨一項歐洲的反壟斷調查,涉及到谷歌是否不正當地對其競爭對手的頁面進行降級。如果真的完全讓人類所無法理解的機器做決定,到時候又該怎么辦呢? 人類依然會指導機器,但是不再像以前那樣了。
無論如何,谷歌搜索已經迎來深度學習時代。而且近幾年中,谷歌也許已經應用過其他的機器學習形式。雖然這些技術讓人類在某種程度上失去掌控權,但谷歌相信這利大于弊。
深度學習
可以肯定的是,深度學習仍只是谷歌搜索系統的一部分。據彭博社報道,谷歌每天收到的搜索請求大約有15%是其未曾見過的,而RankBrain正是用于處理這一部分請求的。它主要的功能就是分析搜索請求中不熟悉的字詞和短語,并且給出與其意義相似的詞句。因此,在處理陌生搜索請求方面,RankBrain遠勝過傳統的基于給定規則的系統。
來自: http://www.almosthuman.cn/2016/02/05/pjavg/