融合CNN和Transformer編碼器的變聲語音鑒別與還原
所屬分類:技術(shù)論文
上傳者:zhoubin333
文檔大?。?span>774 K
標(biāo)簽: 基頻變聲 語音鑒偽 變聲還原
所需積分:0分積分不夠怎么辦?
文檔介紹: 語音變聲偽裝會(huì)導(dǎo)致人耳感知和聲紋識別出現(xiàn)錯(cuò)誤,從而達(dá)到隱匿說話人真實(shí)身份的目的。為削弱變聲語音的影響,提出一種融合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和Transformer編碼器的模型,提取變聲語音的局部特征和全局特征用于判別變聲因子,并根據(jù)變聲因子的數(shù)值實(shí)施變聲語音還原。在中英文真實(shí)場景錄音數(shù)據(jù)集上驗(yàn)證了所提方法的有效性,對變聲因子判別實(shí)現(xiàn)了95%以上的準(zhǔn)確率。利用所提出的方法,在黑箱條件下對某型商用硬件變聲器輸出的語音進(jìn)行鑒別與還原,取得了較好的效果。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。