文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.01.008
引用格式: 魏春雨,孫蒙,劉偉,等. 融合CNN和Transformer編碼器的變聲語(yǔ)音鑒別與還原[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(1):47-54.
0 引言
近年來(lái),基于指紋、人臉、虹膜、聲紋的生物特征識(shí)別技術(shù)得到了迅速發(fā)展[1]。其中,聲紋識(shí)別[2]以其采集方便、無(wú)需直接接觸、可體現(xiàn)說(shuō)話人的主觀意圖等優(yōu)點(diǎn),被廣泛應(yīng)用于身份認(rèn)證、刑事偵查等領(lǐng)域。公安部門(mén)可以通過(guò)提取犯罪嫌疑人的聲紋信息,將其與數(shù)據(jù)庫(kù)中的聲紋信息進(jìn)行比對(duì),進(jìn)而確認(rèn)嫌疑人的真實(shí)身份。然而,這種確認(rèn)經(jīng)常受到各種因素的干擾,其中語(yǔ)音變聲偽裝就可以通過(guò)隱匿說(shuō)話人的身份,降低聲紋確認(rèn)的效果。
與通過(guò)壓低嗓音、捏鼻子等方式物理干擾人的發(fā)聲器官進(jìn)行的語(yǔ)音偽裝不同,語(yǔ)音變聲偽裝是利用變聲工具對(duì)語(yǔ)音參數(shù)進(jìn)行修改實(shí)現(xiàn)變聲[3]。目前,各種硬件變聲設(shè)備和變聲軟件在匿名采訪、網(wǎng)絡(luò)聊天、電子游戲等場(chǎng)景中得到了廣泛應(yīng)用。同時(shí),一些不法分子利用變聲語(yǔ)音進(jìn)行違法犯罪活動(dòng),對(duì)案件的偵破造成了干擾。相比通過(guò)物理干擾發(fā)聲器官而產(chǎn)生的偽裝語(yǔ)音,變聲語(yǔ)音更加難以辨認(rèn)。變聲工具會(huì)改變語(yǔ)音的頻譜結(jié)構(gòu),進(jìn)而影響聲紋識(shí)別模型對(duì)說(shuō)話人的驗(yàn)證[4-5]。有研究表明,向普通人播放經(jīng)過(guò)變聲偽裝的語(yǔ)音,甚至不能準(zhǔn)確地判斷出說(shuō)話人的性別。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003936。
作者信息:
魏春雨,孫 蒙,劉 偉,張星昱
(陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京210007)