為了緊抓大數據命脈,百度不遠萬里到硅谷設立研究院
當美國的“創客”紛紛來到中國深圳,呼吸著華強北渾濁空氣的同時,中國最大的搜索引擎百度前往美國硅谷設立研究院。
根據連線的報道,百度的研究院坐落于蘋果總部的所在地 Cupertino,名為 Institute of Deep Learning,簡稱為 IDL。
實際上,今年 1 月 19 日,李彥宏在百度年會上提出了將于今年專注于 Deep Learning 領域的研究院,他希望這個研究院能夠達到貝爾實驗室、Xerox PARC 的高度。百度的動作很快,從春節放假回來起算,成立研究院只不過用了兩個月的時間。
如果我們要討論 IDL 成立的意義,就必須討論它的研究課題,以及它與百度之間的關系。所以,必須問這兩個問題:什么是“Deep Learning”呢?它能幫助百度什么呢?
Deep Learning 是“機器學習”的新領域,最近一兩年十分流行,它是 20 年前紅火的研究領域“神經網絡”的后續發展,特點在于能夠比較好地處理圖像、語音這種特征不明顯的數據——按照鄧侃所說,”借助于 Deep Learning 算法,人類終于找到了如何處理 ‘抽象概念’這個亙古難題的方法。”
比如,讓電腦認識什么是貓。
去年 6 月,Google X 實驗室的一個項目,通過“機器學習”的方法,在 1000 臺電腦的幫助下,創造了一個多達 10 億個連接的“神經網絡”,就為了讓電腦知道,什么是“貓”。而最終在大量數據的支持下,電腦終于認識到“貓”是一種怎樣的動物,并成功地在 1000 萬張略縮圖中,找到“貓”的照片,識別率為 81.7%。而領導這個項目的人,正是在 Google 內部推動 Deep Learning 算法應用的 Andrew Y. Ng。
但不止 Google 緊盯著大數據,蘋果、IBM 等科技公司同樣強烈渴望早點在這個領域樹立自己豐碑。百度也是搜索引擎,在中文搜索世界里,積累了大量相關的數據。它也要緊握大數據的果實——讓電腦認識 抽象概念,能夠提高機器的智能,讓人們在與機器交互的時候,變得更加自然。從整體來看,在“Deep Learning”上的進步,能夠幫助搜索引擎提高搜索結果的精度,語音識別、圖像識別的精度,為以后更自然的交互做好準備。
兩個星期前,百度上線了“頭像搜索”,未嘗不能視為“Deep Learning ”的實際應用,不過也可以看出,它的搜索結果并不精確。我在百度上搜索百度多媒體部副總監余凱的頭像,得到的全部都是別人的頭像。當然,按照“機器學習” 的特性,當數據量越來越多,那么得到的結果也將越精確,百度頭像搜索上線不過兩個星期,數據量可能仍然不夠大。
我不知道余凱未來會不會保留“多媒體部副總監”的頭銜,因為很顯然,這一次 IDL 的創立離不開他的幫助。為何這么說呢?因為在去年 6 月,余凱參加了紐約大學的 2012 電腦視覺及圖形辨識會議,并作出演講,內容與“Deep Learning 在視覺上的應用”相關,幻燈片可以在這里下載。此外,百度的頭像搜索和語音識別,是他帶領團隊所開發的產品。
余凱對連線說,“我們心懷偉大的夢想,希望通過‘Deep Learning’,能夠模擬人類大腦的能力、能量、理解力。”現在,在硅谷,他已經找到第一名研究人員。
題圖來自 wired