Deep Speech:百度硅谷人工智能實驗室利用單學習算法實現英語和漢語識別

jopen 8年前發布 | 16K 次閱讀 語音識別 算法 人工智能

百度研究院是百度公司的一個部門(NASDAQ:BIDU),近日公布了其硅谷人工智能實驗室(SVAIL)的一項新的研究成果,被稱為Deep Speech2。Deep Speech通過使用一個單一的學習算法具備準確識別英語和漢語的能力。其成果已經發表在相關論文中: Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

去年的時候,百度的首席科學家Andrew Ng博士以及由Awni Hannun領導的10人研究團隊在美國康奈爾大學圖書館網站上稱,他們已經開發出了一種新的,更為準確的語音識別系統Deep Speech,該系統使用了端對端的深度學習技術。Andrew Ng表示,百度Deep Speech主要專注于提高嘈雜環境(例如,餐館、汽車和公共交通)下的英語語音識別的準確率。它在噪音環境中(比如汽車內和人群之中)的表現更為突出。在噪音環境下,測試顯示百度Deep Speech系統的出錯率要比谷歌Speech API,Wit.AI,微軟Bing Speech以及蘋果Dictation低10%多。

在過去的一年中,SVAIL的研究人員提高了英語語音識別的表現,現在已經開始訓練漢語。在許多情況下,漢語版本的語音識別已經實現了相當高的精確度,該系統現已可以大范圍應用于真實世界中,比如移動設備上的網絡搜索。

語音識別是一項越來越重要的技術,已經被用于蘋果語音助手Siri、語音輸入功能Dictation以及谷歌語音搜索中。過去二十年中,語音識別技術取得了顯著的進步,已經開始從實驗室走向市場。語音識別技術,也稱為自動語音識別,其目標是將人類的語音中的詞匯內容轉化為計算機可讀的輸入。以前的主流的語音識別技術多采用模式識別依賴于大規模數據的獲取和高性能計算技術的發展,深度學習(Deep Learning)已經取得了舉世矚目的成績。目前,端到端的深度學習現在已經成為語音識別最重要的手段。而百度正是采用了這種技術。

“SVAIL已經表明,這種終到端(end-to-end)的深度學習方法可以用來識別各種不同的語言”,Andrew Ng博士表示,“我們的做法的關鍵是我們使用了高性能計算技術,這導致現在的計算速度是去年同期的7倍,在這個時候。正因為如此高效的速度,過去需要數周的實驗現在幾天之內就可以完成。這讓我們可以實現更快的迭代”。

在這篇研究論文中,SVAIL也提到Deep Speech可以處理來自全世界各地的不同的英語口音。目前,這樣的處理對于移動設備上現有的流行的語音系統是非常具有挑戰性的。

“通過使用批處理技術將DNNs部署在GPUs上,Deep Speech的語音識別實現了非常高的效率,我對此印象深刻”,NVIDIA的首席科學家Bill Dally博士在談到Deep Speech的高性能計算架構的時候表示,“Deep Speech在16個GPU上訓練卷積神經網絡(RNNs)取得不可思議的突破”。

面對各種不同的英語口音(如印度英語口音,以及那些英語不是第一語言的歐洲國家的英語口音),Deep Speech都取得了飛速的進步。

當Deep Speech去年剛剛啟動的時候,我就預見到了它的潛力”,卡耐基梅隆大學助理教授Ian Lane表示,“今天,在一個相對短的時間內,Deep Speech已經取得了顯著的進步。使用一個單一的端到端系統,它不僅僅能夠處理英語,還可以處理漢語,而且目前還在進一步研究在產品中使用。對于百度使用的批處理調度過程,以及將大的深度神經網絡部署在云計算服務器中的GPU上的方式,我非常感興趣”。

相信隨著Deep Speech的大范圍部署,廣泛應用于移動裝置的語音識別系統將遭受此系統的巨大沖擊。

感謝董志南對本文的審校。

給InfoQ中文站投稿或者參與內容翻譯工作,請郵件至editors@cn.infoq.com。也歡迎大家通過新浪微博(@InfoQ,@丁曉昀),微信(微信號: InfoQChina )關注我們,并與我們的編輯和其他讀者朋友交流(歡迎加入InfoQ讀者交流群 Deep Speech:百度硅谷人工智能實驗室利用單學習算法實現英語和漢語識別 (已滿),InfoQ讀者交流群(#2) Deep Speech:百度硅谷人工智能實驗室利用單學習算法實現英語和漢語識別 )。

來自: http://www.infoq.com/cn/news/2016/01/Dee-Speech-2

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!