厲害了我的AI，唇語都會讀了

jopen 9年前發布 | 6K 次閱讀程序員

由于唇語解讀技術的出現，我們在體育比賽中越來越多地看到這樣的畫面：

厲害了我的AI，唇語都會讀了

圖片來自：Mirror

或是這樣的：

厲害了我的AI，唇語都會讀了

圖片來自：Goal.com

事實上，即使是專業的唇語解讀者，其準確率也只有 20%-60%。所以很多時候，一知半解的“專家”們基本也是依靠腦洞強行解讀的。被專家們坑害多次后，球員們只好采取這種令人尷尬的方式交流了……

不過，牛津大學最新研發的人工智能系統，有望大幅提高唇語解讀的準確性。

厲害了我的AI，唇語都會讀了

圖片來自：視頻截圖

根據牛津大學新發表的論文，這個叫 LipNet 的人工智能系統，能夠將視頻中人物的嘴巴活動與其臺詞進行匹配，準確率高達 93.4%。而在此之前，即使是最先進的逐字對照系統，其準確率也只有 79.6%。

研究人員表示，他們換了一種思維方式，不是通過可視音素（語音中最小的不可再分解的單位）系統來訓練 AI 識別每一種唇部活動，而是讓它能夠一次性處理整個句子。這就使得 AI 能夠自己學習字母與唇部細微變化之間的對應關系。

在訓練過程中，研究人員向 AI 展示了近 29000 個標有正確文本的視頻，每個視頻長度為 3 秒。為了了解人類唇語解讀者在面對同樣的任務時的表現，該團隊還招募了三名實驗人員，讓他們隨機觀看了其中的 300 個視頻。

厲害了我的AI，唇語都會讀了

結果顯示，參與實驗的人員平均錯誤率為 47.7%，而 AI 只有 6.6%。

不過，這不并代表 AI 就能準確讀懂唇語了。因為在訓練時，研究人員使用的視頻都是經過精心策劃的，視頻畫面光線充足，每個人都正對鏡頭，且吐字清晰、發音標準，臺詞也是類似于“立即將藍色放入 m1”這種包含命令、顏色、介詞、字母、數字等格式的句子。

如果讓 AI 去解讀油Tube 上隨機挑選的視頻，效果可能不見得比人類好多少。

值得一的是，這個項目得到了來自 Alphabet 旗下的 DeepMind 實驗室的資助。

OpenAI 的杰克·克拉克（Jack Clark）認為，LipNet 還需要進行以下三個方面的改進，即通過大量真實環境中人物的講話視頻，讓 AI 能夠從多個角度閱讀嘴唇，并增加短語的類型。

當然，開發這樣一個 AI 可不是為了解滿足球迷和媒體的八卦之魂的，聽力受損人群才是這一工具的目標。

如果唇語解讀 AI 能夠得到完善，它將幫助數百萬聽力障礙者“聽懂”其他人的對話。此外，通過聽取視頻快速生成準確的字幕也是其可能的應用領域之一。

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！