MIT最新技術:從靜音視頻中提取聲音
英文原文:Extracting audio from visual information
一組由 MIT、微軟和 Adobe 組成的圖像、聲學算法學家等開發出了一種新的算法,能夠通過靜音視頻中的物品微小的振動幅度,提取復原出當時場景中的聲音!
該團隊已經測試了該技術:測試者在房間內對話,房間內放置一個薯片袋;房間外一臺攝像機隔著隔音玻璃對著這個薯片袋進行拍攝。研究人員從這段完全無聲的視頻中復原出了測試者在房間內的對話!
其他測試對象還包括鋁箔、水面,甚至一盆植物的葉子……團隊都能夠通過算法,從這些視頻中的材質表面微震中提取出有效的音頻素材。該團隊將會在今年的國際頂級計算機圖像峰會 Siggraph 大會上呈現研究成果。
聲波接觸到物品的時候,會導致物品發生振動——即便是最微小的振動。這種振動人眼幾乎識別不了,人們不知道從這種振動中能夠提取出信息。
Abe Davis, 機電工程和計算機科學研究生,MIT
團隊成員還包括 Frédo Durand、Bill Freeman,兩位 MIT 的計算機科學教授;Neal Wadhwa,MIT 的另一名研究生;Michael Rubinstein 博士,來自微軟研究院;Gaytham Mysore,來自 Adobe 研究院。
不過,大家別太擔心普通的攝像頭拍下的視頻能夠被用于提取音頻信號。該研究團隊使用了能夠拍攝每秒 2000 到 6000 幀素材的高速攝像機——已經非常快,但并沒有目前世界頂尖的商業級高速攝像機快,后者能夠拍攝高達 10 萬幀每秒的視頻。
但這并不意味著普通的攝像機達到不了效果。該團隊解釋,使用 60 幀每秒的攝像機拍攝的素材,通過算法仍然能夠提取出「一些」音頻信號,雖然可能完全聽不清說的是什么,不過能夠判別出講話者的個數、講話者的性別,甚至講話者的聲學特性——用以判斷講話者的身份。
研究團隊對著一個正在播放搖滾樂的耳機進行拍攝,通過算法重現出一個音頻文件,然后播放給猜歌軟件 Shazam。后者完美地識別出了最一開始播放的這首歌……
<span id="shareA4" class="fl">
</span>
</div>