MIT最新技術:從靜音視頻中提取聲音

jopen 10年前發布 | 7K 次閱讀 技術

MIT最新技術:從靜音視頻中提取聲音

        英文原文:Extracting audio from visual information

        一組由 MIT、微軟和 Adobe 組成的圖像、聲學算法學家等開發出了一種新的算法,能夠通過靜音視頻中的物品微小的振動幅度,提取復原出當時場景中的聲音!

        該團隊已經測試了該技術:測試者在房間內對話,房間內放置一個薯片袋;房間外一臺攝像機隔著隔音玻璃對著這個薯片袋進行拍攝。研究人員從這段完全無聲的視頻中復原出了測試者在房間內的對話!

        其他測試對象還包括鋁箔、水面,甚至一盆植物的葉子……團隊都能夠通過算法,從這些視頻中的材質表面微震中提取出有效的音頻素材。該團隊將會在今年的國際頂級計算機圖像峰會 Siggraph 大會上呈現研究成果。

        聲波接觸到物品的時候,會導致物品發生振動——即便是最微小的振動。這種振動人眼幾乎識別不了,人們不知道從這種振動中能夠提取出信息。

        Abe Davis, 機電工程和計算機科學研究生,MIT

        團隊成員還包括 Frédo Durand、Bill Freeman,兩位 MIT 的計算機科學教授;Neal Wadhwa,MIT 的另一名研究生;Michael Rubinstein 博士,來自微軟研究院;Gaytham Mysore,來自 Adobe 研究院。

        不過,大家別太擔心普通的攝像頭拍下的視頻能夠被用于提取音頻信號。該研究團隊使用了能夠拍攝每秒 2000 到 6000 幀素材的高速攝像機——已經非常快,但并沒有目前世界頂尖的商業級高速攝像機快,后者能夠拍攝高達 10 萬幀每秒的視頻。

MIT最新技術:從靜音視頻中提取聲音

        但這并不意味著普通的攝像機達到不了效果。該團隊解釋,使用 60 幀每秒的攝像機拍攝的素材,通過算法仍然能夠提取出「一些」音頻信號,雖然可能完全聽不清說的是什么,不過能夠判別出講話者的個數、講話者的性別,甚至講話者的聲學特性——用以判斷講話者的身份。

        研究團隊對著一個正在播放搖滾樂的耳機進行拍攝,通過算法重現出一個音頻文件,然后播放給猜歌軟件 Shazam。后者完美地識別出了最一開始播放的這首歌……

來自: tech2ipo.com
                    <span id="shareA4" class="fl">                            
                        </span> 

</div>

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!