風(fēng)噪的特性和影響
風(fēng)噪聲,專(zhuān)業(yè)名稱(chēng)為空氣動(dòng)力噪聲,是由流場(chǎng)中運(yùn)動(dòng)的物體與物體之間的作用產(chǎn)生,或者是由流體自身的湍流運(yùn)動(dòng)導(dǎo)致的流體之間的相互作用產(chǎn)生[1]。不同的場(chǎng)景下風(fēng)噪聲的產(chǎn)生機(jī)理是不同的。日常生活中主要有兩個(gè)場(chǎng)景受風(fēng)噪聲影響嚴(yán)重,一是戶(hù)外聲頻采集,二是高速行駛的汽車(chē)車(chē)廂內(nèi),此外超高速飛行器和風(fēng)洞設(shè)備也會(huì)受到風(fēng)噪聲的影響。由于篇幅限制本文著重關(guān)注聲頻采集尤其是語(yǔ)音采集中的風(fēng)噪問(wèn)題及其抑制技術(shù)。
圖1 風(fēng)噪形成原理示意圖[2]
聲頻采集場(chǎng)景中的風(fēng)噪聲主要由傳聲器膜附近的湍流氣流引起,使傳聲器產(chǎn)生相對(duì)較高的信號(hào)電平。風(fēng)噪聲主要發(fā)生在低頻0~500Hz范圍內(nèi),向高頻迅速衰減[3]。突發(fā)的陣風(fēng)常常引起持續(xù)時(shí)間為幾到幾百毫秒的風(fēng)噪。并且由于陣風(fēng)的突發(fā)性,風(fēng)噪聲可能會(huì)產(chǎn)生超過(guò)標(biāo)稱(chēng)語(yǔ)音振幅的高幅值[4],因此風(fēng)噪聲具有顯著的非平穩(wěn)特性。
圖2 典型風(fēng)噪聲的聲譜圖和波形[2]
風(fēng)噪聲會(huì)對(duì)聲頻信號(hào)造成嚴(yán)重的破壞。如表1所示,無(wú)論是手持姿勢(shì)(HHP)還是免提姿勢(shì)(HFP),風(fēng)噪聲均會(huì)顯著降低語(yǔ)音信號(hào)的信噪比,信噪比最差低于-20dB。同時(shí)風(fēng)噪聲的出現(xiàn)也會(huì)明顯降低語(yǔ)音的質(zhì)量(PESQ)和可懂度(STOI),因此要提高聲頻采集質(zhì)量必須對(duì)風(fēng)噪進(jìn)行抑制。
表1 不同強(qiáng)度的風(fēng)噪聲對(duì)語(yǔ)音信號(hào)質(zhì)量的影響[4]
風(fēng)噪抑制技術(shù)
聲學(xué)方法
防風(fēng)罩 常見(jiàn)于手持式傳聲器以及專(zhuān)業(yè)槍式傳聲器。有海綿、人造毛皮、鐵網(wǎng)等多種材料。原理主要是降低傳聲器振膜附近的空氣流速,打散氣流減小湍流的產(chǎn)生,作用等效于聲學(xué)低通濾波器。
圖3 不同種類(lèi)的防風(fēng)罩(圖片來(lái)自網(wǎng)絡(luò))
在TWS耳機(jī)上,也應(yīng)用防風(fēng)罩來(lái)抑制風(fēng)噪聲。其最大的優(yōu)勢(shì)在于簡(jiǎn)單和可靠性高,不足之處在于防風(fēng)罩需要增大尺寸來(lái)提升降噪量,而像手機(jī)、TWS耳機(jī)等小型設(shè)備,防風(fēng)罩的效果非常有限。
圖4 TWS耳機(jī)上的防風(fēng)罩(圖片來(lái)自網(wǎng)絡(luò))
抗風(fēng)噪導(dǎo)管 華為FreeBuds Pro采用了一種獨(dú)特的抗風(fēng)噪導(dǎo)管設(shè)計(jì),傳聲器的外側(cè)由一條縫隙前后聯(lián)通,聲音將從這里進(jìn)入耳機(jī)抵達(dá)傳聲器。從側(cè)面吹來(lái)的風(fēng)會(huì)被外壁阻擋,而前后吹來(lái)的風(fēng)并不會(huì)被阻擋,也會(huì)從縫隙進(jìn)入,但是由于氣體的康達(dá)效應(yīng),大部分的氣流不會(huì)流向傳聲器,而是沿著縫隙的內(nèi)壁移動(dòng)。這種“以疏代堵”的方法,為風(fēng)噪抑制提供了新的思路。
圖5 抗風(fēng)噪導(dǎo)管剖面圖(圖片來(lái)自網(wǎng)絡(luò))
加速度計(jì)拾音 聲音本質(zhì)是振動(dòng),因此可以通過(guò)加速度計(jì)采集在固體中傳播的聲音。為語(yǔ)音拾音設(shè)計(jì)的骨導(dǎo)傳感器VPU(Voice Pick Up),本質(zhì)也是一種高性能加速度計(jì),可通過(guò)采集人下頜骨的振動(dòng)信號(hào)來(lái)拾取語(yǔ)音。由于風(fēng)噪只存在于氣導(dǎo)聲中,骨導(dǎo)聲不受影響,因此在拾取語(yǔ)音時(shí)骨導(dǎo)傳感器可以直接規(guī)避風(fēng)噪問(wèn)題。目前已有多款TWS耳機(jī)搭載骨導(dǎo)傳感器,與MEMS傳聲器配合使用。
圖6 骨導(dǎo)和氣導(dǎo)聲傳播示意圖(圖片來(lái)自網(wǎng)絡(luò))
信號(hào)處理方法
只應(yīng)用聲學(xué)方法通常不能很好地解決風(fēng)噪問(wèn)題,因此人們也嘗試通過(guò)信號(hào)處理方法抑制風(fēng)噪。信號(hào)處理中傳統(tǒng)的降噪方法主要有維納濾波[6]和譜減法[7],但是這兩種方法建立在噪聲平穩(wěn)或準(zhǔn)平穩(wěn)假設(shè)之上,無(wú)法很好的抑制風(fēng)噪聲。信號(hào)處理風(fēng)噪抑制框架如下圖所示。
圖7 信號(hào)處理風(fēng)噪抑制框架[2]
從框圖中可以看出,風(fēng)噪抑制算法的研究可以從風(fēng)噪估計(jì)/信噪比估計(jì)、增益估計(jì)、多通道方法和語(yǔ)音合成四個(gè)方面展開(kāi)。下文中使用λ表示時(shí)間窗,μ表示頻率。
風(fēng)噪聲估計(jì)
要想有效抑制風(fēng)噪這種強(qiáng)非平穩(wěn)性的噪聲,關(guān)鍵在于準(zhǔn)確估計(jì)噪聲的短時(shí)功率譜(STPS)[2]。因此第一步通常是對(duì)輸入的帶噪信號(hào)做STFT變換,將信號(hào)轉(zhuǎn)換到STFT域X(λ,μ)。然后進(jìn)行進(jìn)一步的處理。
形態(tài)學(xué)方法 形態(tài)學(xué)方法[8]將帶噪信號(hào)的聲譜圖看成圖像,其中語(yǔ)音成分通常有明顯的諧波結(jié)構(gòu),而風(fēng)噪的影響可以看作語(yǔ)音諧波結(jié) 構(gòu)中的連接部分。形態(tài)學(xué)方法的目標(biāo)就是估計(jì)出聲譜圖中的風(fēng)噪掩膜。
算法首先根據(jù)設(shè)定的閾值篩選出聲譜圖中的高能量部分并計(jì)算其關(guān)于時(shí)間的偏導(dǎo) ,
然后計(jì)算聲譜圖的上升沿 ,
再計(jì)算起點(diǎn) ,
最后根據(jù)經(jīng)驗(yàn)選擇的閾值通過(guò)比較 中的信號(hào)能量確定完整的風(fēng)噪掩膜 。這一方法的缺點(diǎn)是低頻的語(yǔ)音信號(hào)可能會(huì)包含進(jìn)風(fēng)噪掩膜中被濾除。
圖8 形態(tài)學(xué)方法估計(jì)風(fēng)噪掩膜步驟[2]
噪聲模板方法 該方法的基本思想是將風(fēng)噪的聲譜圖分解為譜包絡(luò)和精細(xì)結(jié)構(gòu),倒譜分析可以實(shí)現(xiàn)這個(gè)目的。首先計(jì)算帶噪信號(hào)的倒譜系數(shù)。
保留帶噪信號(hào)倒譜的高階系數(shù),處理低階系數(shù)。將低階系數(shù)變換回STFT域生成譜包絡(luò)。
將譜包絡(luò)與預(yù)先訓(xùn)練好的風(fēng)噪聲參考譜包絡(luò)模板 進(jìn)行比較,取平方和誤差最小的模板 計(jì)算低階倒譜系數(shù)來(lái)替換帶噪信號(hào)的低階倒譜系數(shù),并與帶噪信號(hào)的高階倒譜系數(shù)組合,經(jīng)逆倒譜運(yùn)算即可得到風(fēng)噪短時(shí)功率譜的估計(jì)。
圖9 噪聲模板方法[2]
譜質(zhì)心方法 譜質(zhì)心是信號(hào)能量關(guān)于頻率的一階矩,可以反映信號(hào)主要能量的頻率分布。譜質(zhì)心方法的核心思想是通過(guò)譜質(zhì)心和其他信號(hào)特征分析帶噪信號(hào)的組成成分,先對(duì)信號(hào)進(jìn)行分類(lèi),然后進(jìn)一步?jīng)Q定風(fēng)噪STPS的估計(jì)策略。
計(jì)算譜質(zhì)心 可以將帶噪信號(hào)分為三類(lèi)[10]:純風(fēng)噪( <200Hz)、風(fēng)噪語(yǔ)音混合信號(hào)(200Hz< <550Hz)、純語(yǔ)音( >550Hz)。
圖10 不同信噪比下譜質(zhì)心的差異[2]
通過(guò)譜質(zhì)心和短時(shí)平均等特征對(duì)輸入帶噪信號(hào)進(jìn)行三分類(lèi)。第一步判斷是否為純語(yǔ)音,若為純語(yǔ)音則該時(shí)頻窗風(fēng)噪的STPS為零。第二步判斷是否為純風(fēng)噪,若為純風(fēng)噪則風(fēng)噪的STPS就等于輸入信號(hào)的STPS。若信號(hào)被判斷為語(yǔ)音和風(fēng)噪的混合信號(hào),則進(jìn)行進(jìn)一步的風(fēng)噪估計(jì),方法包括最小擬合估計(jì)法[10]和自適應(yīng)音高估計(jì)法[11]等。
圖11 譜質(zhì)心方法流程圖[2]
深度學(xué)習(xí)方法 風(fēng)噪聲可以通過(guò)深度神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì),[12]提出通過(guò)前向深度神經(jīng)網(wǎng)絡(luò)(FNN)來(lái)估計(jì)風(fēng)噪聲的幅度譜。方法是先估計(jì)語(yǔ)音信號(hào)和風(fēng)噪聲的理想幅值掩膜(IAM) 和 ,然后從帶噪信號(hào)中分離出語(yǔ)音成分和風(fēng)噪成分。
使用兩個(gè)FNN分別估計(jì) 和 ,如下式所示, 和 表示網(wǎng)絡(luò)參數(shù)。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練使用[13]中方法使估計(jì)的信號(hào)和風(fēng)噪聲幅度譜與目標(biāo)幅度譜的均方誤差最小。
圖12 深度學(xué)習(xí)方法流程圖[12]
增益估計(jì)
如圖7所示,基于頻譜濾波的風(fēng)噪抑制方法重點(diǎn)是求解增益。傳統(tǒng)方法如維納濾波法和譜減法不能取得很好的效果,下面總結(jié)幾種增益的求解算法。
決策導(dǎo)向信噪比估計(jì) 該方法[14]在維納濾波的框架下提出了一種更新先驗(yàn)信噪比 的方法求解增益 。
風(fēng)噪抑制系統(tǒng)的后驗(yàn)信噪比估計(jì) 可由下式得到。該方法可以提升被增強(qiáng)語(yǔ)音的主觀(guān)質(zhì)量,尤其是減少“musical tones”。
遞歸增益的譜減法 該方法[8]的目的是為了避免單個(gè)離群值對(duì)增益計(jì)算造成的影響。因此引入一種使用前一時(shí)頻塊增益的回歸運(yùn)算來(lái)計(jì)算當(dāng)前時(shí)頻塊的增益。
軟可聽(tīng)噪聲掩膜法 該方法[15]的基本想法是根據(jù)心理聲學(xué)模型在噪聲抑制和引入失真之間尋找平衡,即令下式最小。
其中 是根據(jù)心理聲學(xué)模型計(jì)算得到的掩膜閾值。由上式推導(dǎo)可得增益估計(jì)值如下,參數(shù)α可設(shè)經(jīng)驗(yàn)值1。
多傳聲器風(fēng)噪抑制技術(shù)
當(dāng)前最新的智能手機(jī)和TWS耳機(jī)配備有2個(gè)或更多的傳聲器。因此可以考慮基于雙傳聲器的風(fēng)噪抑制方法。
相關(guān)加權(quán)方法 該方法[16]的思想就是利用語(yǔ)音和風(fēng)噪的相關(guān)性差異,使用幅度平方相關(guān)(MSC) 來(lái)計(jì)算增益,
差分陣列方法 該方法[17]利用了傳聲器陣列對(duì)于不相關(guān)噪聲(如風(fēng)噪聲)比較敏感的特點(diǎn)來(lái)降風(fēng)噪,引入功率比的概念,
其中 和 定義如下,
功率比可以有效分離語(yǔ)音和風(fēng)噪,如下圖所示。從圖中可以看出,當(dāng)傳聲器間距較小時(shí)( )功率比可以較好的分離風(fēng)噪聲和語(yǔ)音。增益函數(shù)通過(guò)計(jì)算純凈語(yǔ)音功率比和帶噪信號(hào)功率比的比值確定。
圖13 風(fēng)噪聲和語(yǔ)音功率比[2]
復(fù)相關(guān)風(fēng)噪估計(jì)方法 根據(jù)[18],假設(shè)傳聲器x和y處的風(fēng)噪不相關(guān)且能量相當(dāng),傳遞函數(shù)也相似,則可以得到如下關(guān)系,
于是風(fēng)噪聲的功率譜密度可以用下式來(lái)估計(jì),
在信號(hào)DOA已知的情況下引入復(fù)相關(guān)的相位信息 [19],
對(duì)于相關(guān)的語(yǔ)音信號(hào), ;而對(duì)于不相關(guān)的風(fēng)噪聲, 呈現(xiàn)均勻分布。
圖14 語(yǔ)音與風(fēng)噪聲復(fù)相關(guān)的相位信息分布[2]
風(fēng)噪聲的STPS估計(jì)由下式給出。
部分語(yǔ)音合成
實(shí)現(xiàn)風(fēng)噪場(chǎng)景下的語(yǔ)音增強(qiáng),除了通過(guò)抑制風(fēng)噪,還可以通過(guò)部分語(yǔ)音合成的方式。稱(chēng)其為部分語(yǔ)音合成是因?yàn)樗惴ūA袅嗽紟г胄盘?hào)中的不受風(fēng)噪影響的高頻語(yǔ)音(主要為清音),只合成受風(fēng)噪聲影響嚴(yán)重的低頻語(yǔ)音(主要為濁音)。實(shí)現(xiàn)方法如下圖所示,系統(tǒng)可以在抑制風(fēng)噪的同時(shí)合成語(yǔ)音,二者結(jié)合生成對(duì)語(yǔ)音信號(hào)的估計(jì)。
圖15 結(jié)合語(yǔ)音生成的風(fēng)噪抑制框架[2]
基于重建的部分語(yǔ)音合成 該方法[20]的基本思想是關(guān)注被風(fēng)噪破壞的低頻語(yǔ)音部分,將問(wèn)題轉(zhuǎn)化為帶限語(yǔ)音的增強(qiáng)問(wèn)題。語(yǔ)音生成部分采用線(xiàn)性預(yù)測(cè)編碼(LPC)實(shí)現(xiàn)。帶噪語(yǔ)音信號(hào)通過(guò)截止頻率 的高通濾波器保留未被風(fēng)噪影響的高頻部分,濾波器截至頻率由下式給出。
純風(fēng)噪上限頻率 和語(yǔ)音重構(gòu)上限頻率 可根據(jù)經(jīng)驗(yàn)取值(100Hz和1500Hz)。原始信號(hào)中包含風(fēng)噪聲的低頻部分由人工合成的語(yǔ)音替代。
圖16 基于重建的部分語(yǔ)音合成框圖[2]
基于語(yǔ)料庫(kù)的部分語(yǔ)音合成 與基于重建的部分語(yǔ)音合成相比,該方法的主要區(qū)別是引入了預(yù)先訓(xùn)練好的語(yǔ)音信息,方法的流程圖如下圖所示。方法的主體部分由三部分構(gòu)成,一是語(yǔ)音合成,不同點(diǎn)在于該方法的激勵(lì)信號(hào)通過(guò)音高模板循環(huán)(TPC)生成,聲道濾波器系數(shù)通過(guò)比較特征向量的相似程度在預(yù)先訓(xùn)練好的字典中尋找合適的系數(shù)。二是計(jì)算用于結(jié)合風(fēng)噪估計(jì)和語(yǔ)音合成的二值掩膜,三是使用傳統(tǒng)噪聲抑制手段抑制殘留噪聲,具體實(shí)現(xiàn)方案參見(jiàn)[21]。
圖17 基于語(yǔ)料庫(kù)的部分語(yǔ)音合成框圖[2]
展望
到目前為止,人們從多個(gè)角度出發(fā),想出了多種抑制風(fēng)噪的方案并取得了巨大的進(jìn)展,但距離完全解決聲頻采集中的風(fēng)噪問(wèn)題仍有很長(zhǎng)的路要走。例如在大風(fēng)噪情況(SNR<-10dB)時(shí)語(yǔ)音增強(qiáng)算法失效問(wèn)題,實(shí)時(shí)風(fēng)噪抑制問(wèn)題等還沒(méi)有得到很好的解決。作為聲學(xué)領(lǐng)域最具挑戰(zhàn)的課題之一,風(fēng)噪問(wèn)題還需要更多能人志士投身其中,繼續(xù)研究。
參考文獻(xiàn)
[1] 戈?duì)柎奶? 氣動(dòng)聲學(xué)[M]. 國(guó)防工業(yè)出版社, 2014.
[2] Nelke C M. Wind Noise Reduction: Signal Processing Concepts[D].2016.
[3] Fisol U M M, Ripin Z M, Ismail N A, et al. Wind noise analysis of atwo-way radio[C]. 2013 IEEE International Conference on Smart Instrumentation,Measurement and Applications (ICSIMA). 1–5.
[4] Nemer E, Leblanc W. Single-microphone wind noise reduction byadaptive postfiltering[C]. 2009 IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics. : 177–180.
[5] Nelke C M, Vary P. Measurement, analysis and simulation of windnoise signals for mobile communication devices[C]. 2014 14th InternationalWorkshop on Acoustic Signal Enhancement (IWAENC). 327–331.
[6] LIM J S,OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J].Proceedings of the IEEE, 1979, 67(12): 1586–1604.
[7] BOLL S.Suppression of acoustic noise in speech using spectral subtraction[J]. IEEETransactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113–120.
[8] Hofmann C,Wolff T, Buck M, et al. A Morphological Approach to Single-Channel Wind-NoiseSuppression[C]. IWAENC 2012; International Workshop on Acoustic SignalEnhancement. 1–4.
[9] Kuroiwa S, Mori Y, Tsuge S, et al. Wind noise reduction method forspeech recording using multiple noise templates and observed spectrum finestructure[C]. 2006 International Conference on Communication Technology. 1–5.
[10] Nelke CM, Chatlani N, Beaugeant C, et al. Single microphone wind noise PSD estimationusing signal centroids[C]. 2014 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 7063–7067.
[11] Nelke CM, Vary P. Wind noise short term power spectrum estimation using pitch adaptiveinverse binary masks[C]. 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 5068–5072.
[12] Bai H, GeF, Yan Y. DNN-based speech enhancement using soft audible noise masking forwind noise reduction[J]. China Communications, 2018, 15(9): 235–243.
[13] Wang Y,Narayanan A, Wang D. On Training Targets for Supervised Speech Separation[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849–1858.
[14] Ephraim Y, Malah D. Speech enhancement using a minimum-mean squareerror short-time spectral amplitude estimator[J]. IEEE Transactions onAcoustics, Speech, and Signal Processing, 1984, 32(6): 1109–1121.
[15] Yu R. Speech enhancement based on soft audible noise masking andnoise power estimation[J]. Speech Communication, 2013, 55(10): 964–974.
[16] Franz S,Bitzer J. Multi-channel algorithms for wind noise reduction and signalcompensation in binaural hearing aids[C]. IWAENC 2010; International Workshopon Acoustic Echo and Noise Control. Tel Aviv, Israel.
[17] ELKO G W.Reducing Noise in Audio Systems: USA, US7171008 B2[P]. 2007-01-30.
[18] Dörbecker M, Ernst S. Combination ofTwo-Channel Spectral Subtraction and Adaptive Wiener Post-Filtering for NoiseReduction and Dereverberation[C]. European Signal Processing Conference(EUSIPCO). Trieste, Italy.
[19] Nelke CM, Vary P. Dual Microphone Wind Noise Reduction by Exploiting the ComplexCoherence[C]. Speech Communication; 11. ITG Symposium. Erlangen, Germany.
[20] Nelke CM, Nawroth N, Jeub M, et al. Single microphone wind noise reduction usingtechniques of artificial bandwidth extension[C]. 2012 Proceedings of the 20thEuropean Signal Processing Conference (EUSIPCO). Bucharest, Romania: IEEE.
[21] Nelke CM, Naylor P A, Vary P. Corpus based reconstruction of speech degraded by windnoise[C]. 2015 23rd European Signal Processing Conference (EUSIPCO). Nice:IEEE: 864–868.