一個頻域語音降噪算法實現及改進方法

ArlHolley 9年前發布 | 12K 次閱讀算法

來自： http://www.cnblogs.com/icoolmedia/p/weiner_audio_ns.html

發現很多朋友想進入語音降噪處理的大門，卻很容易被鋪天蓋地的理論弄的很迷惑，不知道從哪里開始比較好。網上給出的參考文章大多干說理論，沒有代碼實現。很不利于學習。于是打算寫這篇語音降噪的文章，并給出相應的實現代碼方便交流和進一步的學習。

一． 算法核心思想與流程概要

本文給出的降噪算法的核心流程很簡單，主要是兩個步驟：

環境噪聲的假設與估計
頻域維納濾波降噪

這里簡單說一下語音相位問題，通常在語音的降噪算法中，是不考慮純凈語音的相位問題的，這是因為理論上可以證明：帶噪語音相位就是純凈語音相位的最優估計！

二． 環境噪聲估計

首先我們假設環境噪聲為隨機平穩加性噪聲、且與語音信號不相關。要注意這個假設對我們很重要，要記住這個算法的前提條件。這里介紹的噪聲估計算法叫做連續譜最小值跟蹤，資料出處為“語音增強-理論與實踐”一書中第九章中的一部分內容。此算法利用了帶噪語音信號在單個頻帶的功率通常會衰減到噪聲的功率水平。即使在語音活動期間也是如此。

算法主要分為兩個步驟：

對各頻點帶噪語音功率譜進行平滑處理。短時平滑方式為：

這里， $P(\lambda ,k)$ 為平滑后的第k幀、 $\lambda$ 頻點的語音信號功率譜， $\alpha$ 為平滑因子（通常取值為：）。

2.對各頻點帶噪語音功率最小值進行非線性跟蹤。

If ${P_{\min }}(\lambda - 1,k) < P(\lambda ,k)$

else

end

這里，算法中的非線性跟蹤會連續對噪聲功率進行估計，這主要是由于上式中的第二項實現了一個一階差分運算，是在離散情況下對求導的一種近似。當帶噪語音功率 $P(\lambda ,k)$ 增加時，導數值也會增加，因此差分值為正，當帶噪語音功率下降的時候，導數為負，噪聲估計減小。算法唯一要注意的是：當語音譜上出現很窄的峰值時，可能會導致在語音活動期音對噪聲的過估計，進而可能抑制語音。