厲害了我的AI,唇語都會讀了
由于唇語解讀技術的出現,我們在體育比賽中越來越多地看到這樣的畫面:
圖片來自:Mirror
或是這樣的:
圖片來自:Goal.com
事實上,即使是專業的唇語解讀者,其準確率也只有 20%-60%。所以很多時候,一知半解的“專家”們基本也是依靠腦洞強行解讀的。被專家們坑害多次后,球員們只好采取這種令人尷尬的方式交流了……
不過,牛津大學最新研發的人工智能系統,有望大幅提高唇語解讀的準確性。
圖片來自:視頻截圖
根據牛津大學新發表的論文,這個叫 LipNet 的人工智能系統,能夠將視頻中人物的嘴巴活動與其臺詞進行匹配,準確率高達 93.4%。而在此之前,即使是最先進的逐字對照系統,其準確率也只有 79.6%。
研究人員表示,他們換了一種思維方式,不是通過可視音素(語音中最小的不可再分解的單位)系統來訓練 AI 識別每一種唇部活動,而是讓它能夠一次性處理整個句子。這就使得 AI 能夠自己學習字母與唇部細微變化之間的對應關系。
在訓練過程中,研究人員向 AI 展示了近 29000 個標有正確文本的視頻,每個視頻長度為 3 秒。為了了解人類唇語解讀者在面對同樣的任務時的表現,該團隊還招募了三名實驗人員,讓他們隨機觀看了其中的 300 個視頻。
結果顯示,參與實驗的人員平均錯誤率為 47.7%,而 AI 只有 6.6%。
不過,這不并代表 AI 就能準確讀懂唇語了。因為在訓練時,研究人員使用的視頻都是經過精心策劃的,視頻畫面光線充足,每個人都正對鏡頭,且吐字清晰、發音標準,臺詞也是類似于“立即將藍色放入 m1”這種包含命令、顏色、介詞、字母、數字等格式的句子。
如果讓 AI 去解讀 油Tube 上隨機挑選的視頻,效果可能不見得比人類好多少。
值得一的是,這個項目得到了來自 Alphabet 旗下的 DeepMind 實驗室的資助。
OpenAI 的杰克·克拉克(Jack Clark)認為,LipNet 還需要進行以下三個方面的改進,即通過大量真實環境中人物的講話視頻,讓 AI 能夠從多個角度閱讀嘴唇,并增加短語的類型。
當然,開發這樣一個 AI 可不是為了解滿足球迷和媒體的八卦之魂的,聽力受損人群才是這一工具的目標。
如果唇語解讀 AI 能夠得到完善,它將幫助數百萬聽力障礙者“聽懂”其他人的對話。此外,通過聽取視頻快速生成準確的字幕也是其可能的應用領域之一。
來自: ifanr 愛范兒