2021聲學行業大總結系列文章第二期,21dB聲學人來和大家聊一聊實時通信中的音頻技術~
作者:馬文瑤
2021年實時通訊:聲場景分類
音視頻實時通訊產品發展至今,其產品功能趨于智能化、多樣化、人性化。以廣泛使用的線上會議產品為例,聲學場景分類作為近年大熱的技術,極大地提升了線上溝通質量。
聲學場景分類
聲學場景分類(ASC,Acoustic Sence Classifier)技術落地到線上會議,被用于自動判斷用戶所處的環境,進而自主地做出相應的調整,提高線上溝通質量。具體來說,入會者所處環境場景千變萬化,而不同場景需要對音頻流進行不同處理:如檢測到街道環境,需要對風噪和交通噪聲進行處理;檢測到嘈雜聲學場景,自動禁止嘈雜端麥克風;檢測到音樂場景,不啟動降噪算法以使音樂無失真傳輸到對端;檢測到泄漏回聲場景,開啟殘余回聲消除算法[1]。
圖1 聲學場景分類算法流程(圖片來源:網絡)
ASC的作用是對描述場景位置的預定義標簽中的音頻數據進行識別和分類。傳統的分類特征有梅爾頻率倒譜系數MFCC(Mel-frequency Cepstrum Coefficient)、聲學事件直方圖或者基于時頻學習的梯度直方圖。傳統的分類模型有隱馬爾可夫模型HMM(Hidden Markov Model)、高斯混合模型GMM(Gaussian Mixture Model)、支持向量機SVM(Support Vector Machine)[2]。
當前主流是基于深度學習的ASC,其處理流程通常包含一下幾個步驟:傳感器采集環境信息、數據準備(聲學表征、預處理、數據增強)、數據建模(網絡架構、學習方法)以及最終的評價部署。本文主要聚焦于數據建模部分,對以往的工作進行了介紹,并考察了2021年度學者進行的改進與探索。
數據建模之——網格架構
絕大多數性能優異的ASC算法使用的是卷積神經網絡CNN(Convolutional Neural Network)架構。近年來有層出不窮基于CNN的改進算法:Ren等人使用具有全局注意力池化的空洞卷積神經網絡作為分類模型,使用大感受野取代局部池化來固定特征地圖(Feature Map)的大小[3];Koutini等人通過對感受野進行正則化改進了ASC性能[4];Basbug等人則是從改進聚合局部特征的方式的角度修改了CNN的級聯架構,該架構使用的是空間金字塔池化策略[5];Suh等人通過對輸入特征進行網格搜索尋找合適的感受野[6]。
數據建模之——學習方法
現有常用的學習方法有:閉集分類——適用于聲學場景類別固定的數據[7];開集分類——適用于實時場景,數據分布未知[8];多輸入網絡法——前文所提及的都是基于CNN的ASC算法,其特征輸入都是多維的,而CNN起初是由圖像處理領域引入近音頻處理的,音頻信號的時頻譜圖作為特征與圖像有著完全不同的意義,因此有學者從訓練神經網絡能檢測不同維度的角度出發,將頻譜圖劃分子帶,稱為多輸入網絡;注意力機制[9];遷移學習——即充分利用機器視覺領域使用過的的網絡結構;集成學習——對多個模型進行集成,在學術領域的活躍程度較高,在工程領域由于時間和資源的限制無法落地。
2021年度難點與探索
難點一:由于同一類聲場景的不同音頻樣本所包含的聲事件并不總是相同的,而不同類場景的音頻樣本卻極有可能包含相同的聲事件,導致類內間差較大,而類間間差較小。針對此技術難點,Chon等人引入兩個不同結構的CNN進行雙尺度深度嵌入的學習,以期能夠有效地學習表征出不同聲場景的特征差異[12]。
難點二:不同聲場景的時頻尺度不一致。對此,Xie等人從時頻結構出發提出了一種融合結構,利用短時傅里葉變換、常數Q變換、小波變換推導出一種融合時頻表征[13]。
難點三:CNN模型作為ASC系統實現的主流選擇,通常包含大量參數,計算復雜度高,在較低的參數存儲容量水平下難以保證ASC性能。對此Shi等人提出了一種低復雜度的基于原始環境生成數據的ASC[14],其核心為主環境提取PAE(Primary Ambient Extraction)。
主環境提取
以往的工作主要集中在模型層面的優化,Shi等人另辟蹊徑,從數據層出發進行優化,提出主環境提取PAE,讓人耳目一新。為了降低計算復雜度,還提出了PAE的快速實現Fast PAE。
PAE算法最初提出的目的是將立體聲音頻剪輯混合到任意數量的信道中,以便由多信道再現系統播放。它假設在立體聲音頻的每個通道中都有一個主分量和一個環境分量,Shi等人恰是從該應用的逆向進行思考。但是考慮到主成分和環境成分與原始立體聲音頻的數據分布不同,則將主成分和環境分量按照隨機權重進行混合,得到與原始立體聲音頻樣本相關的增強樣本,從而在不改變原始數據分布的情況下有效地提高了數據的泛化程度。通過優化搜索策略,作者還進而得到了一種快速算法稱為Fast PAE。實驗結果證明該Fast PAE計算復雜度和其他算法相比有明顯優勢。
圖2 使用PAE算法生成數據
圖3 處理多樣本的時間成本比較
回顧前述所有的ASC算法,現有的改進角度包括但不限于:分類器設計、數據增強方案、特征提取方案、子模型數量、外部數據引用情況、嵌入層設計,模型壓縮方案。展望2022,在上述角度依然有改進的空間,但是基于機器學習的ASC算法從機器視覺領域受啟發頗多,未來可以更多考慮充分利用音頻信號的譜特征。此外,挑戰低復雜度依然是解決工程領域與學術領域無法同步的必然方向。
參考文獻:
(圖片來源:網絡)
[1]Cloud.tencent.com
[2]Mesaros A, Heittola T, Benetos E, et al. Detection and classification of acoustic scenes and events: outcome of the DCASE 2016 challenge[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018, 26(2): 379–393.)
[3]Ren, Z.; Kong, Q.; Han, J.; Plumbley, M.D.; Schuller, B.W. Attention based Atrous Convolutional Neural Networks: Visualisation and Understanding Perspectives of Acoustic Scenes. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 56–60.
[4]Koutini, K.; Eghbal-zadeh, H.; Widmer, G. Receptive-Field-Regularized CNN Variants for Acoustic Scene Classification. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 124–128.
[5]Basbug, A.M.; Sert, M. Acoustic Scene Classification Using Spatial Pyramid Pooling with Convolutional Neural Networks. In Proceedings of the 13th IEEE International Conference on Semantic Computing (ICSC), Newport, CA, USA, 30 January–1 February 2019; pp. 128–131.
[6]Suh, Sangwon, Sooyoung Park, Youngho Jeong and Taejin Lee. Designing Acoustic Scene Classification Models with CNN Variants Technical Report.2020.
[7]Saki, F.; Guo, Y.; Hung, C.Y. Open-Set Evolving Acoustic Scene Classification System. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 219–223.
[8]Wilkinghoff, K.; Frank Kurth. Open-Set Acoustic Scene Classification with Deep Convolutional Autoencoders. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 258–262.
[9]Mcdonnell, M.D.; Gao, W. Acoustic Scene Classification Using Deep Residual Networks With Late Fusion of Separated High and Low Frequency Paths. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019.
[10]Phaye, S.S.R.; Benetos, E.; Wang, Y. Subspectralnet—Using Sub-Spectrogram based Convolutional Neural Networks for Acoustic Scene Classification. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 825–829.
[11]Wang, C.Y.; Santoso, A.; Wang, J.C. Acoustic Scene Classification using Self-Determination Convolutional Neural Network. In Proceedings of the 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), Honolulu, HI, USA, 2–15 November 2018; pp. 19–22.
[12]H. K. Chon et al., Acoustic Scene Classification Using Aggregation of Two-Scale Deep Embeddings, 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1341-1345.
[13]W. Xie, Q. He, H. Yan and Y. Li, "Acoustic Scene Classification Using Deep CNNs With Time-Frequency Representations," 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1325-1329.
[14]C. Shi, H. Yang, Y. Liu and J. Liang, Low-Complexity Acoustic Scene Classification Using Data Generation Based On Primary Ambient Extraction,2021 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2021, pp. 1-5.