【年度技術觀點合集】計算機視覺,自然語言,機器學習…看看頂級科學家們怎么說

“最深奧的技術是哪些我們感覺不到存在的技術,這些技術自如地融入我們日常生活,不知不覺地成為生活的一部分。”——馬克·魏瑟
1956 年夏天,明斯基、羅切斯特、申農等一群年輕人進行了一次聚會, Artificial Intelligence (人工智能,縮寫 AI )這個詞就此出現,這也標志著一門新興學科——人工智能的正式誕生。今年是“人工智能”一詞誕生的 60 周年,還有關于人工智能的許多問題亟待我們去探索。人工智能是什么?我們又需要怎樣的人工智能?
如今,人工智能、機器學習、大數據已經日漸深入到我們生活的每個角落,這些技術雖然不夠具象,但是卻能夠讓我們隨時隨地得到我們所要,實現我們所想。這是一場悄無聲息卻改變全球幾億人生活的隱形革命。
首先,大家來回顧一下微軟全球資深副總裁,微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文博士對人工智能的看法。↓↓↓
洪小文:人工智能,一個很好的“左腦”

在洪小文博士看來,計算機應該是一個很好的“左腦”。通過相應的算法,計算機可以做大量重復性及邏輯推理的工作,這與負責邏輯思考和推演解決問題步驟的“左腦”十分相近。而機器并不需要深不可測的獨立意識。人和機器之間的關系,更多的是 Human (人) +Machine (機器) =Superman (超人)的關系,兩者擅長的能力相結合,最終會做出人獨立做不到、機器也獨立做不到的事情。
因此,計算機科學家們試圖利用計算機強大的計算能力來模擬和人類的一些基本的感官能力。隨著機器學習和大數據的日漸發展,計算機已經逐步會聽、會說、會看……
會看:計算機視覺

計算機的“眼”進化到哪一步了
↑↑↑這篇文章是微軟全球執行副總裁沈向洋在 Ignite 2015 大會上做的主題演講。沈向洋博士作為一名深耕于計算機視覺領域長達 25 年的研究人員,他在這篇文章里講述了最初進入這個領域進行探索的原由,并分享了微軟是如何利用深層神經網絡不斷完善計算機的視覺能力的。

計算機視覺——讓冰冷的機器看懂這個多彩的世界
↑↑↑那么問題來了,計算機究竟是如何看懂世界的呢?從計算機視覺到深層神經網絡的聯系又是如何建立起來的呢?在這篇文章里,微軟亞洲研究院計算視覺組首席研究員孫劍博士就親自為大家理清楚了計算機視覺的前世今生。無論你是計算機視覺的門外漢還是對此有所研究,這篇文章都十分有助于你理清思路。
從上篇文章中,你也許已經知道了深層神經網絡是如何不斷完善計算機的視覺能力的,但這是否意味著計算機能成功取代人眼了呢?值得高興的是,在 2015 年 1 月的一篇論文中提到,微軟亞洲研究院的一個四人計算視覺小組成員在 ImageNet 計算視覺識別挑戰賽中實現里程碑式突破,計算機識別物體的能力首次超過人眼,系統錯誤率已經低至 4.94% 。而在此前同樣的實驗中人眼辨識的錯誤率大概為 5.1% 。↓↓↓
微軟研究員在 ImageNet 計算機視覺識別挑戰中實現里程碑式突破
ImageNet 計算機視覺挑戰賽由來自全球頂尖高校和公司的研究員組織舉辦,近年來已經成為計算機視覺領域的標桿,其比賽結果總能十分直觀地反映出計算機視覺這一熱門領域中各研究機構的研究進展和突破。今年 12 月,在微軟亞洲研究院首席研究員孫劍的帶領下,這個四人研究小組再次做出突破,用 152 層的深層殘差網絡( deep residual networks )上的新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍,該系統識別錯誤率已經低至 3.57% 。↓↓↓
刷新神經網絡新深度: ImageNet 計算機視覺挑戰賽微軟中國研究員奪冠
從以上內容可以看出,計算機視覺方面的基礎研究進展是大家有目共睹的。那么從研究到應用,計算機視覺能力是如何服務于普通用戶的呢?

借計算機一雙慧眼
↑↑↑鼠標發明人 Doug Engelbart 曾經針對人工智能的簡稱 AI 提出了另一個理念—— Augmented Intelligence ,增強智能。在他看來,人已經足夠聰明,我們無需再去復制人類,而是可以從更加實用的角度,將人類的智能進一步延伸,讓機器去增強人的智能。智能眼鏡就是這樣的產品,去超市的時候帶上一副,看到心儀商品上的文字,自動搜索出詳細信息:生產商情況、在不同電商平臺的價格等等。讓智能眼鏡讀懂文字的正是 OCR 技術。微軟前不久推出的 OfficeLens 應用,就已經可以通過視覺計算技術自動對圖像進行清理并把它保存到 OneNote ,而 OneNote 中基于云端的 OCR 技術將對圖片進行文字識別,隨后你就可以擁有一個可編輯、可搜索的數字文件,為上述未來應用場景打下基礎……

人臉識別:應用開啟創新潮,算法進展才起步
↑↑↑風靡全球的 How-Old.net (微軟顏齡機器人)和 TwinsOrNot.net (微軟我們)巧妙地將人臉識別與社交網絡中的人際交往結合在一起,雖然不能做到百分之百精確,但高科技加詼諧的人際交往和傳播效果,可以說是人臉識別技術和社交網絡發展到一定階段、自然而然的應用創新。這篇文章解釋了人臉識別技術中的難點和痛點,快去看看吧!

用線條解碼甲骨文的秘密
↑↑↑不同于英文、法文等表音文字,方塊狀的漢字在一筆一劃之間都蘊含著無窮的奧妙。以象形、指事、會意、形聲、轉注、假借的六書為構字系統,漢字也在不斷發展變化。如今,漢字的起源——甲骨文僅能被一些專業漢語言學者們所辨認。但普通人想要解碼甲骨文間的秘密,卻顯得難上加難,那么能不能用先進的計算機視覺技術能幫助人們解決這個難題呢?

動靜之間,從視頻到語言
↑↑↑前面說了這么多,相信大家對計算機能夠看懂靜態圖像的工作原理已經有所了解了。但是我們知道,計算機要真正取代人眼,靜態的圖像肯定是不夠的,目前的技術能否滿足計算機看懂動態的視頻呢?對于計算機來說,畫面內容的識別,動作的捕捉,都要經過復雜的計算才能得出。微軟亞洲研究院的最新技術能讓計算機不僅能看懂視頻,還能用自然語言描述出來哦!
會聽、會說:語音識別與自然語言理解
在人類的眾多感官中,視覺固然重要,但聽、說能力的重要性更是不容忽視。

2012 年 10 月 25 日,在由微軟亞洲研究院主辦的第十四屆“二十一世紀的計算大會”現場,時任微軟研究院全球負責人的 Rick Rashid 發表的主題演講中,首次公開演示了微軟實時語音翻譯技術。這套系統實時的把 Rick Rashid 說出的每一句英文翻譯成中文,并用 Rick 本人的聲音用中文表達出來。這對語音識別和機器翻譯的發展而言,這都是一個關鍵的時刻。三年時間內,這一技術原型被轉化成產品,成功應用到了 Skype Translator 實時語音翻譯中。↓↓↓
挑戰中英實時語音翻譯, Skype Translator 中文預覽版登陸中國

多年來,制造出像人類一樣能夠理解自然語言的的計算機的追求是如此的困難和不可思議,似乎只有科幻小說才能實現如此神奇的事情。擁有語音識別功能的應用和工具逐步從虛構走進了我們現實生活中,而且這些技術每天都在進步。下面這個故事分享的是微軟過去二十多年來在語音識別技術走過的漫漫之路。↓↓↓
會聽、會說、會聊天:人工智能語音識別技術的漫漫長路

看到這里你也許會問了,當計算機能夠識別人類的語音,但這是否代表計算機真的明白這些語音背后的含義呢?微軟亞洲研究院首席研究員周明博士在下面這篇文章中解讀了自然語言理解技術的前世今生。讓我們一起看看自動問答的小冰,和掌握了字謎、對聯、絕句在內的機器人作家是如何煉成的。↓↓↓
計算機能“理解”多少我們的語言了?
會思考:聊天代理( conversational agent )
當計算機的多個感官功能逐步完善,如何將其聚合這個問題也就出現在了我們面前。無論是學術界還是工業界,科研人員們都力求讓人們能夠擁有自己專屬的人工智能助理。

人工智能助理,其本質作用是能夠幫人們解決問題的,這背后涉及的一個技術核心便是搜索。我們現在正在構建的未來搜索就包括這樣的三種能力——知識挖掘( knowledge mining )、機器學習( machine learning )、信息檢索( information retrieval )。還有自然語言的理解和生成所需要的基本功能,甚至還會加上一些基本的常識。人工智能有機會可以和人類學習更多的知識,并產生個性化交流,在一個更自然的交互界面中,智能的幫人們完成任務。↓↓↓
《科學世界》:搜索的新時代

看罷過去微軟研究院過去一年最前沿的技術創新與觀點,想必你對接下來一年的技術走向和發展更是充滿了信心。在邁開新年的步伐之前,這里有一份來自微軟 16 位頂級科學家站在各自的領域上對未來一年和未來 10 年的預測。數據科學從到量子計算,從深度學習到安全技術,相信這份預測能為你接下來的研究和規劃提供真知灼見。 ↓↓↓
從人工智能、數據科學到密碼學:微軟16位頂尖科學家的2016年展望
推薦閱讀
【年度技術觀點合集】計算機視覺,自然語言,機器學習…看看頂級科學家們怎么說
【年度開源、工具合集】牛津計劃,DMTK,Graph Engine…提高你的工作效率!
【年度學術大會合集】SIGGRAPH,KDD,AAAI,NIPS…這些你想參加的會議

歡迎關注
微軟亞洲研究院官方網站:http://www.msra.cn
微軟亞洲研究院人人網主頁:http://page.renren.com/600674137
微軟亞洲研究院微博:http://t.sina.com.cn/msra
微軟亞洲研究院微信:搜索“微軟研究院“或掃描下方二維碼:

來自: http://blog.sina.com.cn/s/blog_4caedc7a0102w5lt.html