微軟黃學東:微軟在很多AI領域領先Google
3 月 18 日,由美中技術與創新協會(Association of Technology and Innovation,ATI)主辦的第一屆“AI NEXT”大會在西雅圖召開。本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業內知名專家。
大會主題是“探索 AI 的潛力,把 AI 技術應用于實用項目和服務”,對 CV、NLP、智能助手、深度學習框架均做了專題報告。微軟首席語音科學家黃學東也發表了演講,對微軟的人工智能業務和進展做了全面的介紹和梳理。
雷鋒網根據演講錄音和 PPT 整理成文。
黃學東于 1993 年加入微軟,目前領導微軟在美國、德國、埃及、以色列的團隊研發研發微軟企業人工智能客服對話解決方案 、cris.ai 和 luis.ai 等認知服務、CNTK 開源深度學習工具等人工智能產品和技術。2017 年 2 月,黃學東剛剛被評為“微軟全球技術院士”,這代表著微軟技術人員的最高榮譽。
微軟的 AI 業務簡介
其實,“人工智能(Artificial Intelligence)”一詞最初是在 1956 年 DARTMOUTH 學會上提出的,但是為何一直到如今人工智能技術才步入快速發展的軌道?黃學東認為,主要是兩方面的原因:海量的數據,以及計算能力的大幅提升。目前,人工智能主要集中在視覺、語音、語言和知識(圖譜)四個領域,但是未來計算機將能夠理解這個世界。
根據黃學東的介紹, 目前微軟的 AI 業務可以分成代理(Agent)、應用( Application)、服務(Service)、基礎設施(Infrastructure)這四大塊。
-
代理:Cortana(中文名:微軟小娜)、微軟小冰、Toronto Project(客服助手)
-
應用:Office 365、Dynamicas 365(整合 CRM 和 ERP 的云服務解決方案)、SwiftKey(輸入法)、Pix(拍照軟件)
-
服務 :聊天機器人框架(BotFramework)、認知服務(Cognitive Services)、Cortana 智能、認知工具包(Cognitive Toolkit)
-
基礎設施:適用于機器學習的 Azure 、Azure N Series(GPU + FPGA)、FGPA(現場可編程門陣列)
計算機語言技術的發展史
-
1954 年,IBM 和喬治城大學首次展示了能力非常有限的機器翻譯系統。
-
1966 年,John Pierce 發布了一份關于“語言技術”非常關鍵的報告。
-
1975 年——1986 年,美國政府沒有任何撥款支持機器翻譯或者語音識別,發展陷入停滯。
-
1985 年,“共同任務(common task)”方法的出現,研究人員開始共享數據。
-
2007 年,基于統計學谷歌的翻譯上線。
-
2011 年,Siri 登陸 iPhone。
-
2016 年,微軟的語音識別系統的達到人類水平,同年谷歌發布支持 8 種語言的神經網絡翻譯系統。
雖然目前神經網絡翻譯系統還經常鬧出各種笑話,但是黃學東認為,在未來幾年內,計算機的翻譯水平有可能會和目前的語音識別一樣,達到人類(專家)的水平。
微軟在語音識別領域的成就
黃學東在演講中提到,微軟于 1991 建立了 Research Lab,該實驗室的愿景是讓計算機具備“看(see)、聽(listen)、說(speak)”的能力。1993 年,微軟成立語音小組(Speech Group),希望能夠讓人與設備之間的語音交流成為主流。而如今,這一愿景正在實現。黃學東在演講中特別提到了《經濟學人》今年 1 月份的封面文章——“Now we're talking”,該文章認為語音技術讓計算機不那么令人生畏,而且更易接近。
黃學東稱,1993 年的時候,他們做的語音對話識別的詞錯率(word error rate,簡稱 WER)高達 80%。然而 2016 年 9 月 14 日,由黃學東帶領的微軟語音團隊在產業標準 Switchboard 語音識別基準測試中,實現詞錯率低至 6.3% 的這一技術突破,這比 IBM 的 6.6% 詞錯率更低,達到目語音識別領域錯誤率最低的水平。僅僅一個月后的 10 月 18 日,黃學東團隊進一步將詞錯率降低至 5.9%,首次與專業速記員持平。
這個人類水平的對話語音識別系統用到了 10 個不同的 DNN(深度神經網絡)。據雷鋒網(公眾號:雷鋒網)了解,其具體實現過程是:首先用包括了 ResNet(殘差網絡)、LSTM(長短期記憶網絡)在內的 6 個不同的神經網絡組合并行工作,其結果再通過 4 個新的神經網絡組合之后再輸出,最終達到專業速記員的水平。
但是黃學東表示,目前計算機的對語音的識別還只停留在轉錄階段,想要真正理解語義還非常困難。
微軟客服助手 Toronto
黃學東表示,語音技術除了能夠用作娛樂用途之外,還能夠做很專業的事,比如技術支撐(technical support)。它在演講中提到,微軟除了語音助手 Cortana 和聊天機器人小冰之外,還有一個代號為“Toronto”的客服助手項目。
Toronto 是基于深度強化學習的人工智能,能夠理解對話中的上下文,讓客服聊天機器人更加人性化、更加高效。
根據 PPT 的介紹,Toronto 不僅能自動回復,給出建議,還能在解答不了時提示用戶轉接人工服務。此外,它還能幫助人工客服快速了解用戶信息,給出回答建議,并可以轉接給其他的工作人員,甚至還有錄音功能。
當然,黃學東也表示,這些聊天助手和語音識別不一樣,并沒有一個已經建立起來的有效訓練方法(established recipe)。
微軟在深度學習方面的進展
黃學東此前曾表示,微軟的深度學習工具包 CNTK 其實比谷歌的 TensorFlow 開源的要早,但是由于一開始并不是發布在 GitHub 上,所以外界知道的人相對少一些。但是黃學東表示,根據基準測試的結果,CNTK 比谷歌的 TensorFlow 和亞馬遜的 MxNet 的性能要更好:相同條件下,CNTK 每秒能夠處理的樣本更多。
此外,黃學東還列舉了 ComputerWorld 今年 2 月的評測結果,來證明微軟在深度學習方面的實力。從圖中可以看出,微軟認知工具包(Cognitive Toolkit)v2.0 beta 1 版本在性能、開發的難易程度、以及部署的難易程度這三個方面表現突出,而綜合表現僅次于谷歌的 TensorFlow r0.10。
微軟認知工具包的優勢
目前,微軟認知服務的 API 主要包括語言、語音、機器學習、視覺、搜索、知識這幾大類。據黃學東介紹,微軟的認知工具包有以下三大優勢:
-
速度&可擴展性:微軟認知工具包訓練和評估深度學習算法比其他的工具包都快,而且可以在不同的環境下有效擴展的同時保持精度。
-
商業級的質量:使用了復雜的算法以及大量的數據集。
-
兼容性:可以使用C++、Python 等語言,而且能夠定制內置訓練算法,甚至使用自己的算法。
來自: 雷鋒網