IBM使用深度學習技術達成了語音識別領域的一個新的里程碑

jopen 7年前發布 | 10K 次閱讀 IBM

IBM使用深度學習技術達成了語音識別領域的一個新的里程碑

英文原文: Using Deep Learning Technologies IBM Reaches a New Milestone in Speech Recognition

最近,IBM 的一個研究團隊宣布他們在語音識別上創造了一個新的業界紀錄,在使用 SWITCHBOARD 語料庫的情況下詞錯誤率為 5.5%,接近于人類的錯誤率 5.1%。人們一般會在所聽到的 20 個單詞中遺失其中的一到兩個。在一次五分鐘左右的對話中,大約會遺失 80 個詞。

研究計劃中包括深度學習技術的應用和聲學模型的集成。其中語音識別模型使用了長短期記憶(LSTM,Long Short Term Memory)和 WaveNet 語言模型。在聲學模型上,他們使用了三個模型的分數融合(Score Fusion)。第一個模型是有多特征輸入的 LSTM,第二個模型是經過說話者對抗多任務學習(Speaker-adversarial Multi-task Learning)訓練后的 LSTM。第三個模型是具有 25 個卷積層與時間擴張(Time-dilated)卷積的殘差網絡(ResNet)。最后一個模型不僅從正向的例子中學習,而且也使用了負向的例子,因此當類似的語音模式重現時,會具有更好的表現。

來自蒙特利爾大學蒙特利爾學習算法實驗室(Montreal Institute for Learning Algorithms )的 Yoshua Bengio 對語音識別技術是如此評論的:

在過去的幾年中,盡管在語音識別或物體識別等人工智能領域取得了巨大的進展,技術上也已經接近于人類的水平,但在科學上依然存在著挑戰。誠然,標準的基準測試并非總能揭示真實數據的多樣性和復雜度。例如,不同的數據集對于不同的任務會呈現出不一樣的敏感性,而且結果十分依賴于如何對被測試人員進行評估,比如使用專業的謄寫員進行語音識別測試。

他也指出,IBM 的這項研究將聲學模型與語言模型應用于神經網絡與深度學習,有助于推進語音識別技術的發展。

另據一些語音識別相關的新聞報道,IBM 已將 Diarization 添加到他們的“Watson 語音轉文本”服務中。這一技術有助于一些用例的實現,例如識別交談中的各方發言者。所有這些成就所帶來的技術有助于解決人類耳朵、聲音和大腦交互復雜性的問題。

來自: InfoQ

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!