谷歌發布Tacotron 2:能更簡單地訓練AI學習演講

jopen 8年前發布 | 11K 次閱讀 Tacotron Google

谷歌發布Tacotron 2:能更簡單地訓練AI學習演講

北京時間 12 月 20 日午間消息,谷歌目前在人工智能語音技術方面處于領先,而這樣的領先優勢很可能得到進一步鞏固。谷歌周三發布了 Tacotron 2。這是一種訓練神經網絡的新方法,可以在幾乎沒有任何語法專業性的情況下從文本中生成演講。

這項新技術利用了谷歌此前在語音生成方面最強大的兩種技術:WaveNet 和第一代 Tacotron。

WaveNet 每次能生成一段講話音頻。盡管效果很好,但 WaveNet 需要用到大量關于語言的元數據,包括發音,以及已知的語言特征等等。Tacotron 則綜合了更多高級特性,例如語調和韻律,但并不能生成最終的演講音頻。

Tacotron 2 結合了以上兩者的優勢,或許已經發揮出了當前技術專業性的極限。Tacotron 2 使用文本和文字敘述來計算所有語言規則,而不再需要人工明確告知系統規則。文本本身被轉換為 Tacotron 風格的“梅爾頻譜”,實現節奏和強調。而單詞本身則基于 WaveNet 風格的系統來生成。

由此產生的音頻比以往更好。演講的節奏感很好,但對于不太直觀的單詞,發音可能有問題。這或許是由于,單詞的來源不是美式英語,這樣的單詞包括 Decorum 和 Merlot。研究者表示:“在極端情況下,可能會隨機產生奇怪的噪聲。”

此外,盡管口音和其他語言細節可以通過與 WaveNet 的交流而輸入,但仍然沒有任何方式去控制演講的語調情緒,例如樂觀或擔憂。

降低系統訓練障礙意味著可以訓練更多更好的系統。研究人員已經將研究成果提交至 IEEE 國際聲學語音和信號處理大會,論文已發表至 arXiv。

來自: 新浪科技

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!