會聽、會說、會聊天:人工智能語音識別技術的漫漫長路
Fil Alleva和黃學東
坐在俯瞰華盛頓貝爾維尤市中心的辦公室里,微軟的 Fil Alleva 正聊起包括他在內的專家們在語音識別探索過程中走過的漫長而艱辛的道路 —— 從 20 世紀 70 年代的早期研究一直聊到了技術的現狀。現在,你只需轉過頭對電腦說: “ 小娜,我想來張披薩餅 ” ,接下來你就可以等著吃了。
隨著談話逐步深入, Alleva 也聊到了實現上述情境背后的技術。接著, Alleva 停頓了一下。 “ 現在出現在我們腦海里的 —— 無論我們是否說出來 —— 肯定是 C-3PO” 他笑著坦白。
《星球大戰》里風度翩翩的主人公們能夠理解和使用無數種宇宙語言 —— 但這些全球頂尖的研究員們的靈感源泉可能還不止于此:有人還會提起《星際迷航》里十分搶眼的通用翻譯器也激發了他們的夢想。
但對于無論是《星球大戰》或《星際迷航》的忠實粉絲來說,至少有一點是確定的:多年來,制造出像人類一樣能夠理解自然語言的的計算機的追求是如此的困難和不可思議,似乎只有科幻小說才能實現如此神奇的事情。
近年來,能夠理解語音命令的游戲控制臺,可以實時翻譯對話的應用,以及能夠提供附近比披薩店電話號碼的虛擬助手,都已經從虛構變成了現實。
這些系統不僅已經變為現實,而且每一天都在進步 —— 當然,這要歸功于數據的可用性、計算機的運算能力的提升和 “ 機器學習 ” 這一人工智能子領域的飛速發展。在這個過程中,系統能夠通過獲取更多數據來學習和自我提升。
短短幾年過去了,研究員們堅信,總有一天,這些技術會讓計算機能夠像人類一樣,毫無差別地理解別人的談話。
“ 我們已經到了一個拐點, ” 微軟杰出工程師,頂級語音專家黃學東說道。他與 Alleva 一樣,都是微軟語音研究和產品部署的先鋒軍。
這些技術進步將從根本上改變我們的生活方式。正如我們在高速公路上使用 GPS 導航時,我們更愿意口述我們目的地而不是用拇指輸入一樣,在未來,語音將極大程度上代替鍵盤,成為我們與計算機交流的方式。
微軟的虛擬助理小娜( Cortana )現在已經坐在了 Windows 10“ 前臺 ” 的中間位置,她會主動邀請用戶 “ 問我點什么 ” 。小娜也正成為微軟首席執行官薩提亞 · 納德拉( SatyaNadella )所提到的 “ 第三運行時 ” 。這也圓了黃學東博士自 1993 年加入微軟開始研究語音以來的最大夢想。
“ 一切是那么的自然 ”
語音識別取得成功的最大標志或許是我們已經開始本能地、不假思索地使用語音識別功能,而且理所當然地享受它們提供的服務。
“ 當機器學習處于最佳狀態,人們看到的是結果,而非過程 ” 主管微軟技術與研究部門的微軟全球執行副總裁沈向洋說。
語音識別毫無疑問能讓我們的生活變得簡單,例如促進溝通和提高生產力。
可以回想一下,直到不久之前,如果一個以英語為母語的人,他一句普通話也不懂,當他想和一位土生土長的中國人交談。他面臨的選擇有兩個,要么他開始艱難的學習,直到掌握足夠多的中文;要么他就得雇另一個人來幫他翻譯對話了。
現在,他們可以利用 Skype Translator 進行實時無障礙的對話! Skype Translator 能讓雙方在兩種不同的語言之間進行對話,還能讓你通過視頻看到對方的表情和手勢。這也是變得越來越主流的 Skype 實時翻譯最常見的幾種使用場景之一。
“ 對于主流語種和常見的使用場景而言,語言障礙將在四年內基本銷聲匿跡, ” 微軟研究院機器翻譯團隊負責人 Arul Menezes 說。
這個想法讓人振奮,這也是很多年來語音專家們一直在翹首期盼的。當 Menezes 開始著手研究 Microsoft Translator 的第一個版本時,他女兒剛剛問世。而現在,她已經在念高中了。
“ 我們每個人都知道要目標在哪里,只是沒想到實現它要花這么長的時間, ” 他說。

百般辛苦,一點突破
不積跬步,無以致千里。幾十年來,無數科研人員和工程師們在語音識別領域不斷辛勤耕耘,而 Menezes 只是其中的一員。
另一位專家是黃學東博士。 20 世紀 80 年代初,當他還在國內念研究生時,第一批個人電腦剛剛進入中國,但中文用戶就遇到一個重大阻礙。中文本身擁有眾多音節和偏旁部首,傳統字母鍵盤的使用成了一件難事。

在許多人眼中,黃學東是一個天性樂觀的人 —— 他認為,想出一個解決措施應該不太難。
“ 當時,我認為自己在讀博士期間就能解決這個問題 —— 只要在電腦上運行一個不錯的中文聽寫引擎即可。 ” 學東說。
從某種程度上講,學東至今仍在試圖解決自己學生時代的相同問題,但他比以往任何時候都更為樂觀,因為解決辦法已經觸手可及了。
“ 現在的語音技術水平已如此接近于人類的表現, ” 他說。 “ 我相信,未來三年內,計算機和人類的語音能力差別將微乎其微。 ”
如果要問黃學東、 Alleva 或沈向洋,語音識別模型為什么會有如此巨大的進步,他們絕不會對你講述一個 “ 靈光閃現 ” 的故事。相反,他們會告訴你的故事都是關于,這里兒有一處改善,那里有一點突破;以及取得重要突破時的興奮回憶。
“ 特別是對于科研來說,我們不妨把眼光放長遠一些, ” 沈向洋說。 “ 做研究就是一場馬拉松。 ”
數據、計算能力和機器學習
幾十年前黃學東、 Alleva 和沈向洋在卡內基梅隆大學( CMU )學習期間第一次聚首,從那時起直到現在,實現語音識別的基本要素并沒有發生太大變化 —— 但它們已得到顯著改善。
第一個要素就是數據。計算機要學會識別聲音,它需要很多很多可供借鑒的例子。隨著越來越多的人使用 SkypeTranslator 或微軟小娜( Cortana )等工具,這些工具就能變得越來越好,因為它們有了更多的例子可以借鑒。黃學東把這些工具的普及比作推動語音識別改進的 “ 氧氣 ” 。
第二個要素是計算能力。就在不久以前,語音識別它還受限于個人電腦或移動設備自身的運算能力。而現在,由于云計算的普及,語音識別獲得了遠超以往任何時候的計算能力 —— 即使對你而言云計算是隱形的。
最后,你需要強大的機器學習算法。多年來,語音專家們曾將多種工具用于機器學習 —— 聽聽這些充滿異國情調的名字吧:高斯混合模型和隱性馬爾可夫模型等等。幾年前,微軟和其他科學家們想到了使用一種稱為 “ 深層神經網絡 ” 的工具來訓練計算機,以便更好地理解語音。
深層神經網絡本身并不是新鮮事物,但對它的使用方式卻是前所未有的。這項技術的成效非常突出,現在研究人員正在把同樣的技術用于的其他領域 —— 如計算機視覺、機器翻譯、圖像識別和圖片自動標注等等。
好。好?壕!
研究人員認為,要讓計算機像人類那樣理解言語,眼下最大的障礙在于復雜多變的環境和仍有待完善的技術。
“ 在一些條件下,我們已經實現了高質量的語音識別, ” 微軟研究院語音和對話組的負責人 Geoffrey Zweige 說。 “ 但在其他情況下,我們還有很長的路要走。 ”
語音識別工具仍然不能勝任嘈雜、擁擠或回聲繚繞的地方;如果硬件比較差 —— 如低質量的麥克風,也會影響它們的表現。如果人們說話過快、過輕或帶口音時,它們會運行得 “ 磕磕絆絆 ” 。它有時也很難讓計算機理解兒童和老人的語音。
微軟正試圖利用微軟牛津計劃中的 “ 定制語音識別智能服務 ” 等技術來解決這些問題,這個即將對外發布的工具可以讓開發人員構建應對上述諸種挑戰的產品。
隨之而來的是更大的障礙:理解。
理解人們話語的意義,與判斷一個人語音中的細微差別,是迥然相異的兩碼事。研究人員完善語言理解的同時,他們也在研究更細致入微的問題:幫助計算機確定一個中文用戶說“Hao”的時候,他的意思是表示肯定的“好”,還是表示疑問的“好?”,還是表示感嘆的“壕!”。
“ 正常情況下,人們想到語音識別時,往往希望 ‘ 畢其功于一役 ’ , ” 微軟亞洲研究院院長洪小文說,洪小文博士也是一位著名的語音研究學者, “ 人們不僅希望計算機能夠識別,還希望理解語音,甚至讓計算機據此采取對應行動。 ”
洪小文博士說這意味著你不僅要解決語音識別問題,更需要解決自然語言理解、文本到語音、反饋計劃和執行。洪小文把這套系統稱之為一套完整的人工智能系統 (AI complete) 。
至少到目前為止,人類在理解這些微妙暗示方面的能力遠勝于計算機。微軟和世界其他地方的計算機科學家們正在向自然語言處理難關發起攻擊 —— 包括收集數據,幫助計算機從數據中學習技能 —— 采取同解決語音識別中的難題一樣的方式。
不過,這是一個更大的挑戰,其中部分原因在于自然語言理解的規則是模糊不清的。正如洪小文所精準指出的,人們并不總是直抒胸臆的。事實上,有人可能會說,做人最難的事情之一就是搞清楚其他人向自己表達的意思,并讓別人弄明白自己想表達的意思。
“ 很多時候,我們會覺得即使跟我們最親近的人都不能完全理解我們。 ” 洪小文說。
不僅要聽懂,還要看見 —— 也不能忘記最老土的鍵盤輸入
無論語音理解工具發展多完善,沒人指望大家要完全放棄鍵盤。這是因為語音也有其局限性:例如,它的私密性不好,而且曾嘗試過口述文章的人都會知道,這種方式通常并不利于創作。
此外,它還不能完全反映人類真正的溝通方式 —— 不僅通過詞匯,還要借助非語言線索,比如面部表情和手勢等。
語音專家在繼續努力解決語音理解問題的同時,正在更深入地思考語音對于一項更宏偉目標所發揮的作用:打造一項技術,不僅能理解語言,而且還會識別面部情緒和回應手勢。
“ 這很在很大程度上將取決于能否從系統的角度上開發語音能力, ”Alleva 說。 “ 這些東西在相互孤立的情況下會有一些用途,但如果把它們連接在一起,它們的用途將會成倍增加。 ”

推薦閱讀
草圖搜索的魅力與挑戰
數字墨水技術:數字世界中的神來之筆
計算機視覺:讓冰冷的機器看懂多彩的世界

歡迎關注
微軟亞洲研究院官方網站:http://www.msra.cn
微軟亞洲研究院人人網主頁:http://page.renren.com/600674137
微軟亞洲研究院微博:http://t.sina.com.cn/msra
微軟亞洲研究院微信:搜索“微軟研究院“或掃描下方二維碼:
