刷新神經網絡新深度:ImageNet計算機視覺挑戰賽微軟中國研究員奪冠
微軟亞洲研究院首席研究員孫劍
世界上最好計算機視覺系統有多精確? 就在美國東部時間12月10日上午9時, ImageNet計算機視覺識別挑戰賽結果揭曉 ——微軟亞洲研究院視覺計算組的研究員們憑借深層神經網絡技術的最新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。同一時刻,他們在另一項 圖像識別挑戰賽MS COCO(Microsoft Common Objects in Context,常見物體圖像識別)中同樣成功登頂 ,在圖像檢測和圖像分割項目上擊敗了來自學界、企業和研究機構的眾多參賽者。
ImageNet計算機視覺挑戰賽由來自全球頂尖高校和公司的研究員組織舉辦,近年來已經成為計算機視覺領域的標桿,其比賽結果總能十分直觀地反映出計算機視覺這一熱門領域中各研究機構的研究進展和突破。MS COCO數據庫是由微軟資助建立, 其挑戰賽目前由學術界幾所高校聯合組織,獨立運行。
這兩個挑戰賽的側重點各有不同: ImageNet 傾向于評測識別圖像中顯著物體的能力,而 MS COCO 傾向于評測識別復雜場景中的各類物體的能力。 能同時在兩個世界級的比賽中獲得冠軍,足以說明研究組的技術突破是通用的——它可以顯著地改善計算機視覺領域的各項研究,甚至計算機視覺領域以外的研究,比如語音識別。那么究竟是什么樣的技術突破?
在計算機視覺領域,深層神經網絡的方法常常被研究人員用來訓練計算機識別物體,微軟也不例外。 但微軟亞洲研究院的研究員們在此次ImageNet挑戰賽中使用了一種前所未有,深度高達百層的神經網絡。 該網絡的層數比以往任何成功使用的神經網絡的層數多 5 倍 以上。
要實現這一技術,背后的挑戰巨大。起初,連研究員們自己都不確信訓練非常深的網絡是可能或有用的。“我們沒想到這樣一個簡單的想法意義卻如此重大。” 微軟亞洲研究院首席研究員孫劍坦言。完成這項技術突破的團隊由 4位 中國研究員組成:孫劍與何愷明來自 微軟亞洲研究院 視覺計算組,另外兩人為微軟亞洲研究院的聯合培養博士生,分別是來自西安交通大學的張祥雨和中國科學技術大學的任少卿。
微軟亞洲研究院主管研究員何愷明
當然,這個重大的技術突破震驚的不僅僅是這個研究團隊的研究員們。微軟全球資深副總裁Peter Lee表示,“從某種意義上說,他們完全顛覆了我之前對深層神經網絡的設想。”
ImageNet 挑戰賽去年獲勝的系統錯誤率為 6.6% ,而今年微軟系統的錯誤率已經低至 3.57% 。事實上,該研究團隊早在今年一月就首次實現了對人類視覺能力的突破。當時,在題為“ Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification ”的論文中,他們系統的錯誤率已降低至 4.94% 。此前同樣的實驗中,人眼辨識的錯誤率大概為 5.1% 。
滴水穿石:這是一個關于耐心與創新的故事
近幾十年來,科學家們一直都在訓練計算機做各種各樣的事情 , 例如圖像或語音識別。但很長一段時間內,這些系統的誤差巨大,難以消弭。
大約在五年前,研究人員們開始重新使用 “神經網絡”的技術并使其再次煥發出新的活力。神經網絡的復興讓圖像和語音識別等技術的精度實現了大幅度飛躍。 微軟的 Skype Translator 實時語音翻譯技術 就得益于此,它能夠更好地識別語音,從而不斷完善機器翻譯的準確性。
類似于人腦,神經網絡包含多級非線性處理層。從理論上說,越多的層級應該能帶來越好的學習結果。但實際實驗中的最大挑戰是,在通過每一層級的反傳訓練中,反穿監督信號幅度會迅速衰減,這讓整個神經網絡系統的訓練極為困難。
孫劍回憶到:“三年前,當計算機視覺和機器實際領域訓練出 8 層的深層神經網絡系統時,識別精度有了質的飛躍。去年出現了足有 20 到 30 層的深層神經網絡,識別精度又被大幅刷新。”
孫劍和他的組員們認為網絡還可以更深。過去的幾個月來,他們用各種方式來添加更多的層級,同時還要保證結果的準確性。他們經歷了大量錯誤的嘗試,也吸取了很多的經驗教訓。最后,一個被他們稱之為“ 深層殘差網絡 ( deep residual networks )”的系統在微軟亞洲研究院成功誕生。
這個“ 深層殘差網絡 ”正是他們用于 ImageNet 挑戰賽的系統,它實現了驚人的 152 層,比以往世界范圍內的任何系統都深 5 倍以上。它還使用了一個全新的“ 殘差學習 ”原則來指導神經網絡結構的設計。 殘差學習 最重要的突破在于重構了學習的過程,并重新定向了深層神經網絡中的信息流。殘差學習很好地解決了此前深層神經網絡層級與準確度之間的矛盾。
借水行舟:從科研探索到智能產品
神經網絡有一個非常重要的優點,就是學習到的內部表示或特征可以在不同任務中復用。 Skype Translator 就是一個很好的例子,英語與德語之間的翻譯準確率可以隨著英語與中文翻譯的不斷增加而提高。
孫劍表示,他們的 深層殘差網絡 具有非常強的通用性。他們把該系統用于 ImageNet 挑戰賽的分類任務后,他們發現這一系統學到的內部表示或特征能顯著提高其它三項任務:檢測( detection ),定位( localization )和分割( segmentation )。“從我們極深的深層神經網絡中可以看出, 深層殘差網絡 力量強大且極為通用,可以預見它還能極大地改善其它計算機視覺問題。”
事實上,孫劍團隊多年來在計算機視覺領域的研究成果已經轉化到眾多微軟的智能產品和服務中,例如,微軟牛津計劃中的人臉識別和圖像識別 API , Windows 10 中的 Windows Hello “刷臉”開機功能,必應的圖像搜索,微軟小冰的多個圖像“技能”, OneDrive 中的圖片分類功能,以及廣受好評的口袋掃描儀 Office Lens 等等,不勝枚舉。
以微軟牛津計劃為例,該計劃開放了一系列機器學習相關的 API ,讓沒有機器學習背景的開發人員也能構建自己的智能應用。而其中人臉識別 API 作為牛津計劃最先開放的 API ,受到廣泛使用。此前火遍全球的 How-old.net (微軟顏齡機器人)和 Twins or Not (微軟我們)就是在人臉識別 API 基礎上,通過幾行簡單的代碼實現的。
通過和微軟產品部門的緊密合作,這些來自于微軟亞洲研究院的全球領先的計算機視覺技術得以應用在幾億人的生活中。而這些來自中國研究員的研究成果,正在為我們的生活帶來一場“隱形革命”,為全球用戶提供更智能的生產力工具和更個性化的計算體驗。
微軟全球資深副總裁、微軟亞洲研究院院長洪小文博士表示,“微軟研究院多年來深耕基礎研究,以賦予計算機看、聽、說等人類感知能力為目標。與視覺 在人類感官中的重要性相同,計算機視覺的一次次重大突破無疑為人工智能的整體發展提供了強大動力。讓計算機看懂多彩的世界,一直是激勵微軟研究院及計算機 領域同仁在這條充滿挑戰的道路上前行的重要力量。未來,還有更多突破等著我們去挑戰!”
“微軟亞洲研究院成立 17 年了,她的研究環境和氣氛為中國 IT 屆培養了眾多的人才 ; 我在這里工作了 12 年,靜下心來你就能在這樣的環境中收獲激動人心的發現。今天,我對我的團隊說,請享受一天獲得 NBA 冠軍的感覺!” 孫劍說。
相關論文: http://arxiv.org/abs/1512.03385
推薦閱讀
微軟研究員在ImageNet計算機視覺識別挑戰中實現里程碑式突破
潛心科研,砥礪前行,讓夢想照進現實——記西安交通大學校友孫劍博士專訪

歡迎關注
微軟亞洲研究院官方網站:http://www.msra.cn
微軟亞洲研究院人人網主頁:http://page.renren.com/600674137
微軟亞洲研究院微博:http://t.sina.com.cn/msra