厲害了我的AI,唇語都會讀了

jopen 8年前發布 | 6K 次閱讀 程序員

由于唇語解讀技術的出現,我們在體育比賽中越來越多地看到這樣的畫面:

厲害了我的AI,唇語都會讀了

圖片來自:Mirror

或是這樣的:

厲害了我的AI,唇語都會讀了

圖片來自:Goal.com

事實上,即使是專業的唇語解讀者,其準確率也只有 20%-60%。所以很多時候,一知半解的“專家”們基本也是依靠腦洞強行解讀的。被專家們坑害多次后,球員們只好采取這種令人尷尬的方式交流了……

不過,牛津大學最新研發的人工智能系統,有望大幅提高唇語解讀的準確性。

厲害了我的AI,唇語都會讀了

圖片來自:視頻截圖

根據牛津大學新發表的論文,這個叫 LipNet 的人工智能系統,能夠將視頻中人物的嘴巴活動與其臺詞進行匹配,準確率高達 93.4%。而在此之前,即使是最先進的逐字對照系統,其準確率也只有 79.6%。

研究人員表示,他們換了一種思維方式,不是通過可視音素(語音中最小的不可再分解的單位)系統來訓練 AI 識別每一種唇部活動,而是讓它能夠一次性處理整個句子。這就使得 AI 能夠自己學習字母與唇部細微變化之間的對應關系。

在訓練過程中,研究人員向 AI 展示了近 29000 個標有正確文本的視頻,每個視頻長度為 3 秒。為了了解人類唇語解讀者在面對同樣的任務時的表現,該團隊還招募了三名實驗人員,讓他們隨機觀看了其中的 300 個視頻。

厲害了我的AI,唇語都會讀了

結果顯示,參與實驗的人員平均錯誤率為 47.7%,而 AI 只有 6.6%。

不過,這不并代表 AI 就能準確讀懂唇語了。因為在訓練時,研究人員使用的視頻都是經過精心策劃的,視頻畫面光線充足,每個人都正對鏡頭,且吐字清晰、發音標準,臺詞也是類似于“立即將藍色放入 m1”這種包含命令、顏色、介詞、字母、數字等格式的句子。

如果讓 AI 去解讀 油Tube 上隨機挑選的視頻,效果可能不見得比人類好多少。

值得一的是,這個項目得到了來自 Alphabet 旗下的 DeepMind 實驗室的資助。

OpenAI 的杰克·克拉克(Jack Clark)認為,LipNet 還需要進行以下三個方面的改進,即通過大量真實環境中人物的講話視頻,讓 AI 能夠從多個角度閱讀嘴唇,并增加短語的類型。

當然,開發這樣一個 AI 可不是為了解滿足球迷和媒體的八卦之魂的,聽力受損人群才是這一工具的目標。

如果唇語解讀 AI 能夠得到完善,它將幫助數百萬聽力障礙者“聽懂”其他人的對話。此外,通過聽取視頻快速生成準確的字幕也是其可能的應用領域之一。

 

來自: ifanr 愛范兒

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!