百度研究院副院長余凱重磅演講:從大數據到人工智能
這周六,百度研究院副院長余凱在 Santa Clara 的 Intel 總部禮堂做了一場很干貨的分享,我覺得“干貨”的原因不僅僅是余凱對諸如“百度為什么要做各種智能硬件?”和“百度的自動駕駛和 Google 有何不同?”等問題進行了回答,而是因為通過這次分享,我們可以看到百度在包括基于大數據的深度學習等一些前沿研究領域的成果,以及在“萬物互聯”的大數 據時代,百度在機器人、無人駕駛等方面的一些思考,也讓我們這些互聯網從業者對于未來大數據和人工智能的演化有一個更好的了解。
雖然觀眾幾乎坐滿了會場,但我估計最多也就有兩百來號人分享到了這些東西。所以我對余凱的演講進行了一些整理,供雷鋒網的讀者了解和學習。
以下內容根據演講整理:
感謝郭曉峰、朱平還有好多朋友在周末來組織這么一個活動。對我來講回到這個地方和大家交流有一種回家的感覺,因為我是三年前的時候從灣區回國加 入百度,開始負責百度的人工智能和深度學習方面的研究。很親切。回顧這個歷史也是滿有趣的,當時我在 NEC Lab,有好多深度學習方面的工作,今天像 非死book 等有很多人在從事深度學習,好多都是從 NEC Lab 加入的。從灣區回到中國也確實把灣區的一些資源給介紹回去了,像以前我一個很好的朋友 Andrew Ng,我也把他忽悠到了百度。
這反映什么呢?以前這些比較前沿的技術研發事情很多是在硅谷在美國去發生,在今天在北京或者深圳其實很多同樣事情也在發生,所以我覺得是一個創新的時代。
今天我的題目叫《從大數據到人工智能》。在過去的幾年時間里,百度比較有特色的一點就是作為一個私營企業在技術研發這個領域做了很多工作,對我們來講是一個很鼓舞的事情。
我想即使在 Google 的朋友也會同意這個觀點:搜索引擎本身也是一個人工智能的系統,一方面通過免費的服務提供很多數據,另一方面把這些數據區變現,這中間就要用到很多技術, 這當中最重要的就是基于大數據的人工智能,比如說數據挖掘、機器學習、自然語言理解在移動時代或者 IOT 時代,語音識別語音理解圖像識別等很多人工智能技術在中間可以扮演非常重要的角色。
什么是人工智能
那什么是人工智能呢?有很多不同的看法,有強人工智能,有弱人工智能,我們也看到很多電影和小說等,但到今天沒有一個公認的統一的定義,但我們講一個人工智能有幾個方面:
第一個是感知。就是采集數據;
第二個是理解。對環境、對對話的對象有一些理解;
第三個是決策。這些數據你要做大量的分析,知道環境是什么樣的,基于這上面你會做大量的決策,本身來講感知、理解、決策這三步也是一個循環的過程。
我們今天看到各種各樣所謂的智能產品,那這些產品是否真的具有智能呢?其實一個很本質的差別,也是互聯網服務和其他產品不一樣的地方,就是這個 服務和產品是否能夠隨著經驗不斷演化,隨著用戶使用越來越多對用戶越來越了解,這種隨著經驗演化也就是學習的能力實際上是評估一件產品是否真正具有智能的 因素。整個移動互聯網,通過手機也好,通過 App 也好,他對用戶是在不斷的去了解,去知道用戶的需求和喜好。
我們知道在機器學習研究的課程里,有一個詞叫經驗數據,經驗就是數據,數據就是經驗。我們今天講這是一個大數據的時代,大數據時代的意義在什么地方呢?就是能讓一個系統有機會變得越來越智能。因為智能本身一個特點就是學習的能力。
萬物互聯與大數據
大數據的時代從 PC 互聯網到移動互聯網有一個飛躍的變化,像這個圖是 05 年教皇選舉的場景,8 年以后你可以看到,同樣的地方,同樣一波人,移動互聯網對人們的改變是巨大的。每一個人隨著這個設備,無論是在打電話,拍照,帶在身上,你以為你沒有在用 它,但手機上面的傳感器會把很多數據傳到云端。數據的產生是無時不刻的。
未來我們會進入一個物聯網的時代或者機器人的時代,那萬物互聯的時代是一個什么樣的場景呢?我們可以想象到 2020 年,前段時間孫正義在烏鎮互聯網大會上說,到 2020 年一個人可能會連接到上千個設備。今天在中國我們每個人可能都帶著兩三個手機,因為一個人在生活中會扮演很多角色(觀眾笑)。加上穿戴式設備和其他連接, 在中國平均一個人帶三四個設備是很正常的。面向未來的話可能一個紐扣都會是一個設備,所以說每個人連接一千個設備并不是那么聳人聽聞。
這么多連接帶來的結果就是數據的暴增。大數據的時代實際上由萬物互聯導致,但數據也給我們的服務和產品一個學習的機會。從學術研究的角度講,人 工智能在過去五六十年里起起伏伏,但真正大規模的應用是從互聯網也就是 2000 年開始的,從 2000 年-2009 年,我把這個時代叫做“潤物細無聲”,因為在互聯網時代,無論是搜索還是廣告都有大量的人工智能技術,但這些技術主要是一些后臺的技術,不一定那么容易被 感知。
我們當前所處的時代,從 2010 年到 2019 年我用一個詞叫“于無聲處聽驚雷”,互聯網行業很多朋友確實都感到這種轟隆隆的雷聲。大數據的產生、計算能力、帶寬、深度學習這種技術的發展使得 AI 開始從后臺走到前臺,比如說語音識別,我記得三年前我組建百度語音識別的團隊,我們當時發現招不到人,我覺得很奇怪,我記得我讀大學的時候不是有很多人在 從事語音識別的研究嗎?后來我一打聽,他們全部轉行了。因為在深度學習之前的時代,語音識別看不到希望,大家覺得沒法繼續做研究,但今天語音識別已經是觸 手可達,而且發展非常快。包括圖像,包括自然語言的理解,包括機器人的技術都是如此。
從大數據到深度學習的人工智能
人工智能技術最近為什么這么受到重視?我覺得最重要的原因是大數據,第二個原因是計算能力,第三個原因就是深度學習。最頂尖的互聯網公司在這個領域都有相當投入,百度在深度學習領域可以說是投資最大的公司之一。
為什么深度學習受到重視?首先第一點就是深度學習技術有一個浪漫主義的方面,就是深度學習從機制、行為等方面和大腦有一些關聯性。這點在媒體強調得比較多,但從我們的角度來講這反而是最不重要的原因。
第二點是深度學習特別適合大數據。一開始深度學習有受到生物神經系統的啟發,但隨后的進展主要是因為統計、建模、大數據和功能實現。
然后第三點它帶來的是一個思維觀念也就是解決問題方式的改變。過去我們一般先對數據做一些預處理,然后通過機器建模的方法去處理數據,但深度學習帶來的一個改變,就是端到端的學習,希望把原始數據放到系統里,中間每個步驟都是用學習的方法去完成。比如說語音識別,它分為好幾個步驟,但這幾個步驟是不是去一致性的優化?不一定。但深度學習的目標是去一致性的優化最終的目標的。
第四點,也是一個糾正,就是很多人覺得深度學習是一個黑箱系統,覺得你不需要太多的了解,只要去用它就好了。實際上深度學習和機器學習一樣,提供的是一套框架,一套語言系統。什么叫語言系統?比如中文就是一套語言系統,你要寫出優美的文章至少需要兩個條件,第一是你要掌握這種語言,第二是你對生活的感悟。套用在深度學習上也有兩個條件,第一個就是你要有駕馭這個模型和計算的能力,第二個就是對問題要有足夠的了解。
我給大家舉一些例子。深度學習最成功的一個例子是卷及神經網絡,他確實和我們對視覺神經系統的了解尤其是早期的視覺皮層細胞關系是非常大的。今 天我們的深度學習已經遠遠超越這些模型的結構。打個比方,他們之間為什么不一樣呢?這就好比研究鳥類如何飛行,但深度學習是像波音公司研究如何造飛機,本 質上并不一樣,今天我們的飛機可以長得完全不像鳥,更多的是空氣動力學、機械方面的東西。
從統計和計算的角度講,深度學習的原因其實更基礎。一個機器學習系統,我們可能對它的誤差的每個來源去做分解,去了解和控制它,從而可以控制整 體的預測誤差。一般做機器學習我們會做一些假設,我們知道所有假設都不是完美的,也就是第一個,模型的不完美。第二個問題是數據的不完美導致的,比如說數 據是有限的,有偏的;第三個是計算的不完美。統計學通常關心前兩個問題,但在現實中,比如說我的一個工程師說,老大,我這個問題需要五百臺機器。我說,扯 淡,我最多給你五十臺。他說,五十臺的話,我需要算半年。那我說,不行,必須今天晚上算出來。在有限的計算資源下去處理這樣的問題,我們必須要考慮這種計 算的不完美。
所以我們可以看到,第一我們需要用一個非常復雜的模型,去減少這種偏差,第二個問題我們要用無偏的,也就是大數據去彌補。這樣我們得出一個結 論:深度學習跟傳統的人工智能比較,隨著數據的增長能夠吸收數據增長帶來的紅利。傳統人工智能模型可能不夠復雜,比如是一個線性模型,數據量大了后偏差會 比較大。還有一種可能是模型很好,但計算的問題無法解決。比如有一種很好的模型,它的計算復雜度是N的二次方到三次方,這樣處理一萬個學習樣本和一百萬個 學習樣本,需要的計算資源就至少相差一萬倍。在大數據的時代,這就只能到此為止了。
深度學習是一套靈活的、復雜的語言系統。在不同的問題里會有不同的語言框架,用不同的結構去處理不同的問題。百度今天在這方面可以說走在相當的 前面,從規模上講,百度可能是世界上第一個運用大規模的 GPU Servers 的公司 , 12 年的時候,當時我們就采購了世界上最大的采購量。
今天我們有五六千臺的 PC Server,超過兩千臺 GPU 的 Server 在一起做這種混合的大規模的深度學習的訓練,所以我們現在能夠構建這種相當大的、千億級參數的世界上最大的人工神經網絡。在其他方面很多算法比如語音識 別、圖像識別、自然語言、廣告、用戶建模等幫助很大。
今天我們已經不是停留在研究的層面,而是對于百度的業務比如說搜索、廣告、圖像、語音,因為深度學習帶來的提升是非常巨大的。在整個業務里扮演 的角色也變得更加的智能,一言以蔽之,我們的業務模式是連接人和信息,連接人和服務,你如何去理解人的意圖,比如一個關鍵詞,一張照片,說一句話,如何匹 配用戶需求,如何推送信息和服務。
深度學習的應用例子
鳳巢就是一個用深度學習去實現變現的例子,在過去兩年對點擊率和搜索滿意度的提升都是巨大的。
再舉一個例子,我們如何提升搜索的相關性。它是怎么做的呢?大致的思想是,評估相關性過去我們要做很多特征 的抽取,今天我們把用戶的查詢和結果匹配得到一個分數,在神經網絡里進行比較,當在訓練的時候,我們會把用戶體現出來的這種偏好給到一個差異足夠大的分 數,我用超過一千億的的樣本來訓練這個系統,在過去兩年里面導致相關性有了一個巨大的提升。
這帶來的相關性更多的是在語義的理解,尤其是一天中查詢可能不到 10 次的這種長尾查詢,這是最考驗搜索 引擎的能力的,因為對于非常高頻的查詢,每個搜索引擎可能都差不多。這里有一個例子是瑪莎拉蒂的一款車車頭如何放車牌,我們過去的系統得到的基本是基于關 鍵詞的匹配,沒有回答這個問題。我們的合作伙伴(Google)的結果匹配了“車頭”這個關鍵字,但對語義沒有進行進一步的理解。我們運行了我們這個模型 后,你可以看到查詢的問題是“車頭”、“放置車牌”,但結果找到了“前牌照怎么裝”,它不是用關鍵詞來進行匹配,而是根據語義來匹配,這就是深度學習帶來 的一個改變。
還有語音識別的例子。百度的語音識別實際從 12 年開始做,但深度學習使得過去陽春白雪的東西變成了你用大數據就可以做的東西。過去語音識別從聲學角度抽取特征,比如頻率特征,將其抽取出來變成一種因 素,然后從低層到高層的逐層處理。一開始的時候我們不關心它是什么,只是考慮它讀起來是什么樣子的,今天的深度學習盡量把中間的步驟變成可以訓練的步驟, 把中間的步驟變得可學習,中間沒有過多的人工干預,帶來的好處是用大量的數據訓練這個模型。在 Benchmark(標桿測試)上我們可以得到一個非常好的結果。
另外再給大家看一個例子,這是運單手寫電話號碼的識別,過去我們一開始是做檢測、切割,切割以后把每一個數 字切割出來做識別,但像這個例子,你會發現是沒法做分割的,那你只能把它做成一個一體的的解碼。這反映的就是深度學習給我們帶來的不是一個黑盒,而是一個 很豐富的語言系統,我們希望對這些問題有足夠理解,然后去開發最適合它的模型。
我剛才提到了圖片的識別,加上字符的識別,加上語音的識別,加上機器的翻譯,那百度可以做出這樣的產品,比如今天中國人到紐約的街頭可以問: “附近哪里有川菜館?”你用中文說了后識別成中文,然后翻譯成英文讀出來。我們可以不斷優化這個事情,在幾年的時間里可以變成現實,那么中國的小朋友們就 可以更多時間去玩,更少時間用在學無聊的英語上了(觀眾笑)。當然還有拍照。這是我的一個好朋友,NYU 的一個教授到上海,他用這個產品點菜,看菜單他就不擔心這個東西是不是鳳爪之類他不敢吃的東西。
我們再看另外一個例子就是圖片識別。13 年的時候,中國移動互聯網有一個爆發的應用就是百度魔圖,就是普通人可以拍張照,然后系統會告訴你長得最像哪個大咖。我們這個產品在連續三周在 iOS 總榜排名第一,最多的時候一天 900 萬人上傳照片,我們一下子收集了好多人臉照片(觀眾笑)。至今這也是百度移動產品的記錄。
很多高科技公司都會參加一個 IFW 競賽,也就是人臉識別的測評,它是怎樣的呢?就是一些照片,系統要判斷這是屬于同一個人還是不同的人。去年 非死book 宣稱他們取得了最好的結果。但不同的公司也在不斷的 PK,目前來講最好的結果是百度的(誤差率約 0.15%),這個結果現在到了什么情況呢?有人讓人來參加了這個評估,結果大概是在這個地方(誤差約 0.35%),也就是說機器可能比人還要好。當然這只是一個具體的任務上,機器的表現比人好,不代表整個人工智能能達到人的地步。
還有一個很有意思的 ImageNet,也就是圖像識別分類的競賽。不同行業的人可能不一定感觸到,但我們這個行業能聽到轟隆隆的雷聲,是由于大數據,由于深度學習在發生非常 快的進展。ImageNet 做的是圖片的分類,過去五年里,我們可以看到錯誤率在不斷下降,10 年的第一屆,我的這個團隊是拿了第一名,后面每年結果都在變化,去年最好的結果是我們在百度的同事做的,斯坦福同樣也做了一個評估,看人類來做這個測試結 果會是怎樣。
(ImageNet)微軟在今年 1 月份發布的結果超過了百度,前段時間 Google 的同事的結果又比微軟好,上個禮拜,我同事和我說,我們的結果比 Google 還好。所以這個競爭很有意思,很多年后我們再回想就覺得,我們這些不同公司的研究人員就像一個班上的同學一起 PK,一起分享經驗,實際是在一起推動行業的發展的。
OK,圖像的理解始終是和我們人類對知識的理解以及語言總是能夠耦合在一起的,那怎么把這個事情做得更加有意思呢?我們在小時候可能做過“看圖說話”, 用語言來描述這幅圖像,比如這幅圖,用中文描述就是“起居室里有著百色的沙發和藍色的地毯,下午的陽光照進房間”。這樣的描述實際上是由機器來完成的。這 是去年百度的研究人員最早在世界上發表了這樣的論文,后來 Google 等都發表了類似的論文,也引用了我們的研究結果。
我們現在也在做一些中文的描述,比如說這個例子:“一輛雙層巴士行駛在街道上”。我們可以做什么呢?比如說做圖像識別,我們去找類似的圖片,得 出來的圖像可能是這樣的(一些街景),因為這個圖像它的主要內容是建筑和街道。但如果我們用自然語言來描述這個場景,我們的出來的類似圖片是不一樣的。我 們在百度如何用自然語言描述去提升我們對圖像的理解,它背后的模型再度驗證了我剛才的一個觀點:深度學習實際提供的是一個語言系統,對于一個具體的問題, 你要有能力去構建模型,模擬這樣一個問題。這樣一個例子就是下面是一個深度的卷積神經網絡,它產生的一個表示,上面是一個多層的神經網絡去產生語言的模 型。這樣的結果就是,它既是符合我們語義的語言,同時也反映了圖像的內容。
我們再進一步去想:我們可以去做一些更加像人類做的事情。比如說對這樣一個圖像,我們可以去教小孩,去學習一些東西。這樣的圖像,機器可能會問 小孩:他站在什么上?“他”是單人旁的他,而不是女字旁的“她”哦。我們也希望機器能回答這個問題,根據圖片本身的像素,根據本身的問題能夠回答:他站在 沖浪板上。機器可能還會繼續問:那他有穿上衣嗎?然后機器可以回答:沒有。這都是今天的深度學習神經網絡根據圖片內容自動生成的。它已經超越了我們過去的 圖像識別,也就是“你有什么東西”,變成了“你有什么樣的語義”和“你有什么樣的關系”。
對未來機器人、自動駕駛、人工智能的思考
這里回到一個我們對人工智能目前的現狀和未來的一個思考:過去的互聯網服務,它做的事情也有幾個方面,一個是感知,另外一個理解,還有一個決 策。感知就是獲取數據,經過大規模的計算,比如處理,索引,然后在決策的時候能展示什么樣的結果和服務。這些所有都是線上的。今天移動互聯網與人更近,它 和你所處的場景有關系。從感知的角度講我們要從人,從物理世界獲得信息,這種線下信息可能比互聯網世界更加重要。從服務的角度,以前是線上的服務,它會向 線下延伸,向傳統行業延伸。像智能硬件、自動駕駛、機器人,會在未來扮演更加重要的角色。
這是我們在很多智能硬件上做的一些嘗試(展示一個自動駕駛視頻),未來可能是用各種傳感器武裝到牙齒。為什么你要在中國做自動駕駛呢?這當中有 的是純技術問題,有的是國情的。我跟同事有時開玩笑說,我們在中國做自動駕駛,這個技術一定是全世界的,但 Google 在美國做的技術一定不是全世界的,它不能處理中國式的過馬路,它不能處理我們的井蓋被撬掉(觀眾笑)。因為人工智能是基于大數據的智能,沒有這些數據你是 絕對不敢做的。我們在這樣環境下開發出來的技術一定是放之四海而皆準的。
這是基于圖像的這種實時的道路場景的理解、融合、深度學習的技術,我們對交通標志、道路線、對車輛、對標示都要做到實時的識別。今天我們可以做 到什么程度呢?這方面的一個 Benchmark,我們可以看到第一名和第二名都是百度的,而且比第三名的結果好非常多。這是我們用一個沒有訓練的人去標識數據(交通場景圖片),我們 會發現機器做得比人還要好。比如說這個人和交通標志遮住了后面的車,只露出一小部分,人沒法意識這個車的存在,但機器可以識別。這樣基于傳感器去駕駛可能 會更加的安全。前段時間 Elon Musk 說,未來人類開車是違法的,這個有可能成為現實。
這是對車道的一個理解。剛才講的我們為什么要做定位呢?我們有一個現實的目標,就是做一個基于實時場景的增強現實導航系統,在北京開過車的人可 能知道,那么多主路輔路,比如說西直門立交就基本就和中國聯通的 Logo 一樣了。基于實時場景的增強現實導航系統,它比基于語音的導航或者基于二維的地圖導航更加場景化。我們認為自動駕駛應該是一個漸進式的過程,從輔助駕駛到 主動安全,到限定條件下的自動駕駛,到高度自動駕駛,在每一步都會有商業機會。我們要構造的不是一個取代人的系統,而是一個人車一體的系統。任何車的關系 就像人和馬一樣,但馬是可以控制的。
最后我想總結一下,我們認為在5-10 年里,下面三件事情一定會成為必然:第一個是所有設備都有智能傳感器,第二是所有設備它一定都有云端大腦,第三是所有設備從單一功能的設備變成連接人和服 務的節點。我們可以看到手機經歷了這個過程,過去手機就是打電話,今天的手機,你一天打幾個電話啊。從這個角度講,所有設備最后都會成為一個廣義的機器人 系統:它都有感知,都有理解,都有決策。
我們技術人員常常覺得,將機器變得非常強大是一件很酷的事情,但實際上這并沒有產生巨大的價值。像以前的深藍,在一個場景下可能比人做得還好, 但并沒有這個世界產生更多的影響。而像 Google 和百度這樣的搜索引擎,它拉近了人和信息的距離,它產生的巨大社會價值,才能夠去實現巨大的商業價值。這種技術的偉大,不在于讓機器更偉大,而在于讓每個平凡者變得有創造性,變得更偉大。
這句話大家都很熟悉,我改了一下:世界是我們的,也是機器人的,但是歸根到底是屬于會控制機器人的人的。謝謝大家!