Kaldi集成TensorFlow,兩個開源社區終于要一起玩耍了

jopen 7年前發布 | 21K 次閱讀 Kaldi TensorFlow

自動語音識別(Automatic speech recognition,ASR)領域被廣泛使用的開源語音識別工具包 Kaldi 現在也集成了 TensorFlow。這一舉措讓 Kaldi 的開發者可以使用 TensorFlow 來部署他們的深度學習模塊,同時 TensorFlow 的用戶也可以更為方便地使用 Kaldi 的各種經驗。

Kaldi集成TensorFlow,兩個開源社區終于要一起玩耍了

一、傳統 ASR 有哪些問題?

建立一個可以在各種語言、口音、環境和對話類型中理解人類語言的 ASR 系統,是一項非常復雜的任務。傳統的 ASR 系統是將許多單獨的模塊集成一個流水線,其中每個模塊都在前一個模塊的輸出上進行。原始音頻數據從一端進入,然后從另一端輸出識別語音轉錄內容。典型的基于統計模式識別方法的語音識別系統一般會由信號處理及特征提取模塊、聲學模塊、發音詞典、語言模塊和解碼器等組成。在 Kaldi 工具包中,為了支持越來越多的終端用戶應用程序,集成了更多的模塊。

在過去幾年里,隨著深度神經網絡的發展,許多現有的 ASR 模塊都被深度神經網絡所取代,這種取代使得單詞識別精度得到很大的提高。但是在開發生產級的 ASR 系統時,仍然有許多問題需要克服:

算法——深度學習算法在一些問題,例如聲學環境(噪聲)、特定語言發音、詞匯范圍等方面能夠給出非常好的結果,但部署的過程中并不總是能很好的適應;

數據——構建不同語言、不同聲學環境的 ASR 系統需要大量的多種類型的數據,但我們可能沒有恰好需要的這種數據。

規模——一般能支持大量使用和許多種語言的 ASR 系統,通常會耗費大量的計算。

我們以 ASR 系統中的語言模塊來說。語言模塊是大多數先進的 ASR 系統的關鍵部分,他們主要依靠統計模型來揭示語言單元的內在統計規律,為整個系統提供了語言背景,有助于預測正確的單詞序列,并且能夠區分聽起來相似的單詞。隨著近來機器學習方面的突破,語音識別開發人員正在使用基于深度學習的語言模型,被稱為神經語言模型。這種神經語言模型的結果相比傳統統計方法有顯著的提升。但神經語言模型的訓練和部署都是極為復雜且非常耗時的。

二、將 TensorFlow 集成到 Kaldi 中

總部位于西雅圖的 IntelligentWire 公司是一家通過云軟件來彌合實時手機通話和業務應用之間差距的公司。他們的目標就是將企業代表與客戶進行的數千次對話內容實時分析和處理,并自動處理數據輸入和響應請求等任務。為了使 ASR 系統在這種情況下有用,就必須保證它能以非常低的延遲、提供非常準確的轉錄,并且計算規模不能很大以有效地支持數千個并發對話。在這種需求下,IntelligentWire 公司的 Yishay Carmiel 和 Hainan Xu 帶領的兩支團隊意識到這些困難,并共同合作完成了 Kaldi 和 TensorFlow 的集成。

將 TensorFlow 集成到 Kaldi 后,他們對 ASR 的開發周期減少了一個數量級。例如上面所說的語言模塊,如果將 TensorFlow 應用到這個模塊,那么從模型道概念驗證可能只需要幾天,而不是幾個星期;對于整個 ASR 系統,開發周期也從幾個月減少到了幾個星期。此外,TensorFlow 的集成也使 Kaldi 所需要的數據大為簡化。

將 TensorFlow 作為一個模塊集成到 Kaldi 中,對于 Kaldi 研發人員來說,好處是巨大的。同樣的,這種集成也讓 TensorFlow 的開發人員能夠輕松地訪問強大的 ASR 平臺,并且能夠將現有的語音處理流程(如 Kaldi 強大的聲學模型)納入到機器學習應用程序中。Kaldi 中的那些用于培訓 TensorFlow 模型的模塊可以不影響整體地進行替換,這對于擴展極為方便。此外,現在已經用到生產中的 Kaldi 系統可以用來評估這個集成模型的質量。

我們希望 Kaldi-TensorFlow 的集成能夠將這兩個充滿活力的開放源碼的開發社區更加貼近,共同支持各種新的基于語言的產品和研究的突破。

雷鋒網注——

集成模型代碼:https://github.com/kaldi-asr/kaldi

示例:https://github.com/kaldi-asr/kaldi/tree/master/egs/ami/s5/local/tfrnnlm

本文為雷鋒網根據谷歌開發者 Raziel Alvarez 的博客《Kaldi now offers TensorFlow integration》整理而成,Alvarez 是谷歌的研究工程師,IntelligentWire 的創始人。

來自: 雷鋒網

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!