達摩院發布業界首款語音合成算法專用AI FPGA芯片設計Ouroboros

五嘎子 5年前發布 | 1K 次閱讀 FPGA 語音 語音合成

  這是業界首款專用于語音合成算法的 AI FPGA 芯片結構設計,能將語音生成算法的計算效率提高百倍以上。

  Hot chips 31(2019)正在美國舊金山舉行,峰會第二天阿里巴巴帶來了《Ouroboros: A WaveNet Inference Engine for TTS Applications on Embedded Devices》的演講,并發布了新一代 AI 語音 FPGA 芯片技術 Ouroboros。

  阿里巴巴稱,這是業界首款專用于語音合成算法的 AI FPGA 芯片結構設計,能將語音生成算法的計算效率提高百倍以上。

  根據阿里達摩院掃地僧的說法,用 AI 語音合成算法 WaveNet 生成 1 秒語音,CPU 和 GPU 需要 50 秒的計算時間,但 Ouroboros 在 FPGA 環境下只要 0.3 秒。Ouroboros 的一大突破,是用端上定制硬件加速技術替代云端服務器,避免了對網絡連接和云端服務的強依賴性。

  針對 ASIC 實現的性能仿真預估表明,Ouroboros 的設計可以實時運行 WaveNet 等業界先進的文字轉語音(TTS,Text-to-Speech)算法 ,實現實時語音合成。

  另據了解,Ouroboros 技術同樣適用于達摩院于今年 7 月發布的新一代的語音合成算法 KAN-TTS。該算法將商用系統里的合成語音與原始語音的相似度提高到 97% 以上。

  還有消息指出,Ouroboros 技術,同樣適用于達摩院于今年 7 月發布的新一代的語音合成算法 KAN-TTS。該算法將商用系統里的合成語音與原始語音的相似度提高到 97% 以上。Ouroboros 芯片技術除了語音合成之外,還將支持 AI 語音識別。基于 Ouroboros 研發完整的語音 AI 芯片,有望率先在天貓精靈上落地。

  雷鋒網注意到,與阿里近來發布的其它芯片產品一樣,這個產品的命名也很有特色。Ouroboros 中文是銜尾蛇,是一個古代流傳下來的符號,形象為一條蛇(或龍)吞食自己的尾巴,結果形成一個圓環(有時亦會展示成扭紋形,即“∞”),其名字涵義為“自我吞食者”。這個符號一直都有很多不同的象征意義,而當中最為人接受的是“無限大”、“循環”等。

 本文由用戶 五嘎子 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
  轉載自:https://mp.weixin.qq.com/s/ciafYtS2T8Xdf6G9aIUb7w