MIT最新技術：從靜音視頻中提取聲音

jopen 11年前發布 | 7K 次閱讀技術

MIT最新技術：從靜音視頻中提取聲音

一組由 MIT、微軟和 Adobe 組成的圖像、聲學算法學家等開發出了一種新的算法，能夠通過靜音視頻中的物品微小的振動幅度，提取復原出當時場景中的聲音！

該團隊已經測試了該技術：測試者在房間內對話，房間內放置一個薯片袋；房間外一臺攝像機隔著隔音玻璃對著這個薯片袋進行拍攝。研究人員從這段完全無聲的視頻中復原出了測試者在房間內的對話！

其他測試對象還包括鋁箔、水面，甚至一盆植物的葉子……團隊都能夠通過算法，從這些視頻中的材質表面微震中提取出有效的音頻素材。該團隊將會在今年的國際頂級計算機圖像峰會 Siggraph 大會上呈現研究成果。

聲波接觸到物品的時候，會導致物品發生振動——即便是最微小的振動。這種振動人眼幾乎識別不了，人們不知道從這種振動中能夠提取出信息。

Abe Davis, 機電工程和計算機科學研究生，MIT

團隊成員還包括 Frédo Durand、Bill Freeman，兩位 MIT 的計算機科學教授；Neal Wadhwa，MIT 的另一名研究生；Michael Rubinstein 博士，來自微軟研究院；Gaytham Mysore，來自 Adobe 研究院。

不過，大家別太擔心普通的攝像頭拍下的視頻能夠被用于提取音頻信號。該研究團隊使用了能夠拍攝每秒 2000 到 6000 幀素材的高速攝像機——已經非常快，但并沒有目前世界頂尖的商業級高速攝像機快，后者能夠拍攝高達 10 萬幀每秒的視頻。

MIT最新技術：從靜音視頻中提取聲音

但這并不意味著普通的攝像機達到不了效果。該團隊解釋，使用 60 幀每秒的攝像機拍攝的素材，通過算法仍然能夠提取出「一些」音頻信號，雖然可能完全聽不清說的是什么，不過能夠判別出講話者的個數、講話者的性別，甚至講話者的聲學特性——用以判斷講話者的身份。

研究團隊對著一個正在播放搖滾樂的耳機進行拍攝，通過算法重現出一個音頻文件，然后播放給猜歌軟件 Shazam。后者完美地識別出了最一開始播放的這首歌……

來自: tech2ipo.com

                    <span id="shareA4" class="fl">                            
                        </span>

</div>

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！