文獻(xiàn)標(biāo)識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.015
引用格式: 劉偉,孫蒙,張玥,等. 正交約束型SincNet可微分前端及在音頻分類中的應(yīng)用[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(2):92-98.
0 引言
音頻分類是計算機(jī)自動實施聽覺感知和理解的重要步驟,也是一項非常具有挑戰(zhàn)性的任務(wù),如自動音樂標(biāo)記、音樂類型分類、說話人識別、音頻場景分類和多媒體檢索等。深度神經(jīng)網(wǎng)絡(luò)的發(fā)展使得音頻分類任務(wù)的準(zhǔn)確率取得了顯著提升。當(dāng)前,深度神經(jīng)網(wǎng)絡(luò)一般是建立在對輸入音頻提取時頻特征等預(yù)處理的基礎(chǔ)上,如首先通過廣泛使用的梅爾濾波器組提取時頻譜圖特征,然后將時頻譜圖特征輸入到各種后端分類網(wǎng)絡(luò)。
特征提取的預(yù)處理過程通常采用固定的時頻參數(shù)和濾波器類型,難以保證對所有的后端分類網(wǎng)絡(luò)結(jié)構(gòu)持續(xù)提取出最優(yōu)特征。此外,這些預(yù)處理過程一般需要線下完成,不能無縫對接到神經(jīng)網(wǎng)絡(luò)分類器中,因此難以適用于一些需要對聲音波形進(jìn)行反向求導(dǎo)的任務(wù),如求解對抗樣本[1]等。這些局限性推動了研究者們尋求構(gòu)建端到端模型來完成音頻分類任務(wù)。所謂端到端的分類網(wǎng)絡(luò)結(jié)構(gòu)是指直接輸入聲音波形,然后輸出類別標(biāo)簽,而無須用戶通過額外的特征提取工具來提取特征。例如,Dai等提出了具有不同網(wǎng)絡(luò)結(jié)構(gòu)和不同數(shù)量參數(shù)的端到端卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)用于音頻分類[2]。Tokozume等提出了一種含有8層網(wǎng)絡(luò)并以原始波形為輸入的端到端網(wǎng)絡(luò)結(jié)構(gòu),通過調(diào)節(jié)超參數(shù)并選擇適當(dāng)大小的卷積核來提高分類性能[3]。此外,還有端到端的CNN架構(gòu)AclNet[4],受到MobileNet[5]的啟發(fā),其計算僅需155k參數(shù)和每秒4 930萬次乘法加法即可高效完成分類任務(wù)。
本文詳細(xì)內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000004865
作者信息:
劉 偉,孫 蒙,張 玥,張雄偉
(中國人民解放軍陸軍工程大學(xué),江蘇 南京210007)