在线无码中文强乱国产,欧美va国产va在线观看视频

2021聲學熱點全知道——實時通信中的音頻技術

更新：2022-2-15 9:08:20　稿件：21dB聲學人　調(diào)整大小:【大中小】

2021聲學行業(yè)大總結(jié)系列文章第二期，21dB聲學人來和大家聊一聊實時通信中的音頻技術~

作者：馬文瑤

2021年實時通訊：聲場景分類

音視頻實時通訊產(chǎn)品發(fā)展至今，其產(chǎn)品功能趨于智能化、多樣化、人性化。以廣泛使用的線上會議產(chǎn)品為例，聲學場景分類作為近年大熱的技術，極大地提升了線上溝通質(zhì)量。

聲學場景分類

聲學場景分類（ASC，Acoustic Sence Classifier）技術落地到線上會議，被用于自動判斷用戶所處的環(huán)境，進而自主地做出相應的調(diào)整，提高線上溝通質(zhì)量。具體來說，入會者所處環(huán)境場景千變?nèi)f化，而不同場景需要對音頻流進行不同處理：如檢測到街道環(huán)境，需要對風噪和交通噪聲進行處理；檢測到嘈雜聲學場景，自動禁止嘈雜端麥克風；檢測到音樂場景，不啟動降噪算法以使音樂無失真?zhèn)鬏數(shù)綄Χ�；檢測到泄漏回聲場景，開啟殘余回聲消除算法[1]。

圖1 聲學場景分類算法流程（圖片來源：網(wǎng)絡）

ASC的作用是對描述場景位置的預定義標簽中的音頻數(shù)據(jù)進行識別和分類。傳統(tǒng)的分類特征有梅爾頻率倒譜系數(shù)MFCC（Mel-frequency Cepstrum Coefficient）、聲學事件直方圖或者基于時頻學習的梯度直方圖。傳統(tǒng)的分類模型有隱馬爾可夫模型HMM（Hidden Markov Model）、高斯混合模型GMM（Gaussian Mixture Model）、支持向量機SVM（Support Vector Machine）[2]。

當前主流是基于深度學習的ASC，其處理流程通常包含一下幾個步驟：傳感器采集環(huán)境信息、數(shù)據(jù)準備（聲學表征、預處理、數(shù)據(jù)增強）、數(shù)據(jù)建模（網(wǎng)絡架構(gòu)、學習方法）以及最終的評價部署。本文主要聚焦于數(shù)據(jù)建模部分，對以往的工作進行了介紹，并考察了2021年度學者進行的改進與探索。

數(shù)據(jù)建模之——網(wǎng)格架構(gòu)

絕大多數(shù)性能優(yōu)異的ASC算法使用的是卷積神經(jīng)網(wǎng)絡CNN（Convolutional Neural Network）架構(gòu)。近年來有層出不窮基于CNN的改進算法：Ren等人使用具有全局注意力池化的空洞卷積神經(jīng)網(wǎng)絡作為分類模型，使用大感受野取代局部池化來固定特征地圖（Feature Map）的大小[3]；Koutini等人通過對感受野進行正則化改進了ASC性能[4]；Basbug等人則是從改進聚合局部特征的方式的角度修改了CNN的級聯(lián)架構(gòu)，該架構(gòu)使用的是空間金字塔池化策略[5]；Suh等人通過對輸入特征進行網(wǎng)格搜索尋找合適的感受野[6]。

數(shù)據(jù)建模之——學習方法

現(xiàn)有常用的學習方法有：閉集分類——適用于聲學場景類別固定的數(shù)據(jù)[7]；開集分類——適用于實時場景，數(shù)據(jù)分布未知[8]；多輸入網(wǎng)絡法——前文所提及的都是基于CNN的ASC算法，其特征輸入都是多維的，而CNN起初是由圖像處理領域引入近音頻處理的，音頻信號的時頻譜圖作為特征與圖像有著完全不同的意義，因此有學者從訓練神經(jīng)網(wǎng)絡能檢測不同維度的角度出發(fā)，將頻譜圖劃分子帶，稱為多輸入網(wǎng)絡；注意力機制[9]；遷移學習——即充分利用機器視覺領域使用過的的網(wǎng)絡結(jié)構(gòu)；集成學習——對多個模型進行集成，在學術領域的活躍程度較高，在工程領域由于時間和資源的限制無法落地。

2021年度難點與探索

難點一：由于同一類聲場景的不同音頻樣本所包含的聲事件并不總是相同的，而不同類場景的音頻樣本卻極有可能包含相同的聲事件，導致類內(nèi)間差較大，而類間間差較小。針對此技術難點，Chon等人引入兩個不同結(jié)構(gòu)的CNN進行雙尺度深度嵌入的學習，以期能夠有效地學習表征出不同聲場景的特征差異[12]。

難點二：不同聲場景的時頻尺度不一致。對此，Xie等人從時頻結(jié)構(gòu)出發(fā)提出了一種融合結(jié)構(gòu)，利用短時傅里葉變換、常數(shù)Q變換、小波變換推導出一種融合時頻表征[13]。

難點三：CNN模型作為ASC系統(tǒng)實現(xiàn)的主流選擇，通常包含大量參數(shù)，計算復雜度高，在較低的參數(shù)存儲容量水平下難以保證ASC性能。對此Shi等人提出了一種低復雜度的基于原始環(huán)境生成數(shù)據(jù)的ASC[14]，其核心為主環(huán)境提取PAE（Primary Ambient Extraction）。

主環(huán)境提取

以往的工作主要集中在模型層面的優(yōu)化，Shi等人另辟蹊徑，從數(shù)據(jù)層出發(fā)進行優(yōu)化，提出主環(huán)境提取PAE，讓人耳目一新。為了降低計算復雜度，還提出了PAE的快速實現(xiàn)Fast PAE。

PAE算法最初提出的目的是將立體聲音頻剪輯混合到任意數(shù)量的信道中，以便由多信道再現(xiàn)系統(tǒng)播放。它假設在立體聲音頻的每個通道中都有一個主分量和一個環(huán)境分量，Shi等人恰是從該應用的逆向進行思考。但是考慮到主成分和環(huán)境成分與原始立體聲音頻的數(shù)據(jù)分布不同，則將主成分和環(huán)境分量按照隨機權重進行混合，得到與原始立體聲音頻樣本相關的增強樣本，從而在不改變原始數(shù)據(jù)分布的情況下有效地提高了數(shù)據(jù)的泛化程度。通過優(yōu)化搜索策略，作者還進而得到了一種快速算法稱為Fast PAE。實驗結(jié)果證明該Fast PAE計算復雜度和其他算法相比有明顯優(yōu)勢。

圖2 使用PAE算法生成數(shù)據(jù)

圖3 處理多樣本的時間成本比較

回顧前述所有的ASC算法，現(xiàn)有的改進角度包括但不限于：分類器設計、數(shù)據(jù)增強方案、特征提取方案、子模型數(shù)量、外部數(shù)據(jù)引用情況、嵌入層設計，模型壓縮方案。展望2022，在上述角度依然有改進的空間，但是基于機器學習的ASC算法從機器視覺領域受啟發(fā)頗多，未來可以更多考慮充分利用音頻信號的譜特征。此外，挑戰(zhàn)低復雜度依然是解決工程領域與學術領域無法同步的必然方向。

參考文獻：

（圖片來源：網(wǎng)絡）

[1]Cloud.tencent.com

[2]Mesaros A, Heittola T, Benetos E, et al. Detection and classification of acoustic scenes and events: outcome of the DCASE 2016 challenge[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018, 26(2): 379–393.)

[3]Ren, Z.; Kong, Q.; Han, J.; Plumbley, M.D.; Schuller, B.W. Attention based Atrous Convolutional Neural Networks: Visualisation and Understanding Perspectives of Acoustic Scenes. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 56–60.

[4]Koutini, K.; Eghbal-zadeh, H.; Widmer, G. Receptive-Field-Regularized CNN Variants for Acoustic Scene Classification. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 124–128.

[5]Basbug, A.M.; Sert, M. Acoustic Scene Classification Using Spatial Pyramid Pooling with Convolutional Neural Networks. In Proceedings of the 13th IEEE International Conference on Semantic Computing (ICSC), Newport, CA, USA, 30 January–1 February 2019; pp. 128–131.

[6]Suh, Sangwon, Sooyoung Park, Youngho Jeong and Taejin Lee. Designing Acoustic Scene Classification Models with CNN Variants Technical Report.2020.

[7]Saki, F.; Guo, Y.; Hung, C.Y. Open-Set Evolving Acoustic Scene Classification System. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 219–223.

[8]Wilkinghoff, K.; Frank Kurth. Open-Set Acoustic Scene Classification with Deep Convolutional Autoencoders. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 258–262.

[9]Mcdonnell, M.D.; Gao, W. Acoustic Scene Classification Using Deep Residual Networks With Late Fusion of Separated High and Low Frequency Paths. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019.

[10]Phaye, S.S.R.; Benetos, E.; Wang, Y. Subspectralnet—Using Sub-Spectrogram based Convolutional Neural Networks for Acoustic Scene Classification. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 825–829.

[11]Wang, C.Y.; Santoso, A.; Wang, J.C. Acoustic Scene Classification using Self-Determination Convolutional Neural Network. In Proceedings of the 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), Honolulu, HI, USA, 2–15 November 2018; pp. 19–22.

[12]H. K. Chon et al., Acoustic Scene Classification Using Aggregation of Two-Scale Deep Embeddings, 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1341-1345.

[13]W. Xie, Q. He, H. Yan and Y. Li, "Acoustic Scene Classification Using Deep CNNs With Time-Frequency Representations," 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1325-1329.

[14]C. Shi, H. Yang, Y. Liu and J. Liang, Low-Complexity Acoustic Scene Classification Using Data Generation Based On Primary Ambient Extraction,2021 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2021, pp. 1-5.

更多相關： 21dB聲學人 2021聲學熱點實時通信音頻技術

<< 去中國視聽網(wǎng)首頁

免責聲明：本文來源于21dB聲學人,本文僅代表作者個人觀點，與中國視聽網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。如涉及到侵權，請聯(lián)系我們及時刪除。

　網(wǎng)友評論