陳霄鵬,彭亞雄,賀松
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院, 貴州 貴陽(yáng) 550025)
摘要:隨著時(shí)間的變化,人的聲音也會(huì)發(fā)生變化。這對(duì)說(shuō)話人的識(shí)別帶來(lái)了一定的影響。通過(guò)研究發(fā)現(xiàn),說(shuō)話人識(shí)別的性能與時(shí)間有著線性變化的規(guī)律。傳統(tǒng)的說(shuō)話人識(shí)別系統(tǒng)使用GMMUBM模型并不能很好地學(xué)習(xí)出線性變化規(guī)律。由于概率線性判別分析(PLDA)對(duì)于類(lèi)內(nèi)與類(lèi)間有著很好的線性區(qū)分度,所以為了解決線性變化的問(wèn)題,選擇概率線性判別分析的方法學(xué)習(xí)說(shuō)話人識(shí)別中時(shí)變的線性變化規(guī)律。從實(shí)驗(yàn)結(jié)果看出,PLDA對(duì)于說(shuō)話人識(shí)別的識(shí)別魯棒性具有很好的提升。
關(guān)鍵詞:說(shuō)話人識(shí)別;時(shí)變魯棒性;GMM-UBM;PLDA
0引言
說(shuō)話人識(shí)別即聲紋識(shí)別,為生物特征識(shí)別的一種。而聲紋這一概念從誕生之初就一直伴隨著其是否隨時(shí)間變化的質(zhì)疑。經(jīng)過(guò)多年的研究發(fā)現(xiàn),聲紋識(shí)別確確實(shí)實(shí)隨著時(shí)間發(fā)生變化。早在2003年,Bonastre教授已發(fā)表論文指出說(shuō)話人識(shí)別的時(shí)變問(wèn)題。在實(shí)際的說(shuō)話人識(shí)別系統(tǒng)中,聲紋預(yù)留與聲紋驗(yàn)證之間的時(shí)間間隔也帶來(lái)了系統(tǒng)性能的下降。
在已有的研究中,浙江大學(xué)CNNT實(shí)驗(yàn)室設(shè)計(jì)了一個(gè)聲紋打卡系統(tǒng),記錄了實(shí)驗(yàn)室成員每天打卡情況,其中在開(kāi)始的50天里識(shí)別率為69.02%,在稍近的幾天里識(shí)別率提高到了74.19%。同時(shí)提出了平滑化梅爾倒譜系數(shù)(Smoothing Mel Cepstrum Coefficient, SMFCC )這種更穩(wěn)定的特征提高時(shí)變魯棒性。
清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心王琳琳博士以Fratio作為中間準(zhǔn)則計(jì)算頻帶區(qū)分度從而提高其魯棒性。同時(shí)還提出了性能驅(qū)動(dòng)的頻率彎折方法的特征提取算法。
以上研究都基于特征層面,并未涉及到模型層面,本文研究著重于模型層面。
1說(shuō)話人識(shí)別的線性變化規(guī)律
隨著時(shí)間的變化,人的聲音也會(huì)發(fā)生變化,從而影響說(shuō)話人識(shí)別的識(shí)別率。其識(shí)別率會(huì)降低,而這種降低類(lèi)似線性變化。所以,假設(shè)說(shuō)話人識(shí)別中不同時(shí)間的特征之間的線性相關(guān),通過(guò)特征之間的相關(guān)系數(shù)可以判別兩個(gè)特征之間的線性相關(guān)性。根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),相關(guān)系數(shù)都在0.7~1之間,也就說(shuō)明特征與特征之間有著極大的線性相關(guān)性。而且相關(guān)系數(shù)隨著時(shí)間的變化也有著相對(duì)的線性變化。實(shí)驗(yàn)結(jié)果如圖1。
為了更加準(zhǔn)確地描述時(shí)間變化的規(guī)律,最大可能排除音素沒(méi)有對(duì)齊的影響,故而選擇動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)對(duì)特征進(jìn)行分析。將動(dòng)態(tài)時(shí)間規(guī)整后的兩段語(yǔ)音求cosine距離,根據(jù)cosine距離觀察兩段語(yǔ)音的相似程度。實(shí)驗(yàn)結(jié)果表明,cosine距離隨著時(shí)間的變化也呈現(xiàn)出相應(yīng)的線性變化。實(shí)驗(yàn)結(jié)果如圖2。
由以上兩個(gè)實(shí)驗(yàn)結(jié)果可以得出,隨著時(shí)間的變化,說(shuō)話人識(shí)別的魯棒性呈線性變化規(guī)律。
2概率線性判別分析
說(shuō)話人識(shí)別是模式識(shí)別的一種,分為訓(xùn)練和識(shí)別兩個(gè)階段。訓(xùn)練可以認(rèn)為就是將語(yǔ)音按照不同的人進(jìn)行分類(lèi),每一類(lèi)代表了一個(gè)人,識(shí)別就是將測(cè)試的語(yǔ)音與已經(jīng)分好類(lèi)的模型進(jìn)行比對(duì)。在說(shuō)話人識(shí)別中加入時(shí)間的變化,就要同時(shí)考慮同一類(lèi)的變化,即類(lèi)內(nèi)的變化,以及類(lèi)與類(lèi)之間的變化,也即類(lèi)間的變化。
線性概率判別分析[13](Linear Discriminant Analysis,LDA)是一種將類(lèi)內(nèi)和類(lèi)間的方差作為多維高斯分布的一種技術(shù),它尋求方向空間最大的辨別力,因此非常適合支持類(lèi)的識(shí)別任務(wù)。
假設(shè)訓(xùn)練數(shù)據(jù)為不同的I個(gè)人,且每個(gè)人有J個(gè)語(yǔ)音,xij表示第i 個(gè)人的第j個(gè)語(yǔ)音,則LDA模型可表示為:
xij=μ+Fhi+Gwij+ij(1)
此模型分為兩個(gè)部分:第一個(gè)部分μ+Fhi只與每個(gè)個(gè)體的特征有關(guān),而與每條語(yǔ)音的特征無(wú)關(guān);第二個(gè)部分Gwij+ij指每個(gè)個(gè)體語(yǔ)音的不同以及代表個(gè)體內(nèi)部的噪聲。其中μ為訓(xùn)練數(shù)據(jù)集的總體平均數(shù);矩陣F的列包含了個(gè)人之間子空間的主要成分;hi代表這個(gè)子空間的位置;矩陣G包含了個(gè)體內(nèi)部子空間的主要成分;wij代表這個(gè)子空間的位置;ij定義為高斯對(duì)角線協(xié)方差Σ(殘差)。從條件概率方面來(lái)描述式(1)的模型:
Pr(xij|hi,wij,θ)=x[μ+Fhi+Gwij,Σ](2)
Pr(hi)=h[0,I] (3)
Pr(wij)=w[0,I](4)
式a[b,C]中,a為變量,b為期望,C為方差的高斯分布。式(2)~式(4)都是同樣的高斯分布。
2.1訓(xùn)練階段
訓(xùn)練階段的主要目標(biāo)是得到一組數(shù)據(jù)點(diǎn)xij,并且得到相應(yīng)的參數(shù)θ={μ,F,G,Σ}。如果知道隱藏變量hi和wij的值,這個(gè)問(wèn)題將變得十分簡(jiǎn)單。同樣地在給定θ的情況下也很容易估計(jì)hi和wij。但是式(1)中的很多參量都是未知的。
使用EM算法[45]可以解決這個(gè)問(wèn)題。EM算法通過(guò)迭代輪流估計(jì)兩個(gè)參數(shù)。在Estep,計(jì)算出整個(gè)后驗(yàn)分布中的隱藏變量hi和wij,從而修正參數(shù)的值。在Mstep,使參數(shù)θ={μ,F,G,Σ}的點(diǎn)估計(jì)最優(yōu)化。
2.2識(shí)別階段
在識(shí)別階段,需要比較數(shù)據(jù)在R個(gè)模型M1…R下的似然分。定義模型M代表了隱藏身份變量hi和數(shù)據(jù)的一種關(guān)系。如果測(cè)試集中的多條語(yǔ)音屬于同一個(gè)人,那么這些語(yǔ)音就需要一個(gè)相同的身份變量hi。反之如果多條語(yǔ)音對(duì)應(yīng)了多個(gè)人,那么就需要不同的身份變量。因此需要得到第q個(gè)模型的似然分Pr(X|Mq),其中X是所有的觀察數(shù)據(jù)。為了計(jì)算每個(gè)模型的后驗(yàn)概率,需要使用貝葉斯準(zhǔn)則[68]:
為了更真實(shí)地描述這個(gè)公式,假設(shè)訓(xùn)練語(yǔ)音為x1、x2,測(cè)試語(yǔ)音為xp。如圖3所示,圖中有兩個(gè)模型,模型M1的測(cè)試語(yǔ)音xp與訓(xùn)練語(yǔ)音x1相匹配,則它們有著相同的身份變量h1[910]。同樣地,模型M2的測(cè)試語(yǔ)音xp與訓(xùn)練語(yǔ)音x2相匹配,則它們就有著相同的身份變量h2。用下式計(jì)算數(shù)據(jù)在模型M1下的似然分:
Pr(x1,2,p|M1)=Pr(x1,p|M1)Pr(x2|M2) (6)
其中隨機(jī)變量x1,p和x2是相互獨(dú)立的。此處目標(biāo)是求出觀測(cè)數(shù)據(jù)的似然分,然而隱藏變量h和w都是未知的[1011]。提取出所有關(guān)鍵的觀測(cè)似然分和已知的隱藏變量,忽略未知的隱藏變量,從而可以得到:
Pr(x1,p|M1)=Pr(x1,xp,h1,w1,wp)dh1dw1dwp(7)
進(jìn)一步可以得到:
Pr(x1,p|M1)=∫[∫Pr(x1|h1,w1)Pr(w1)dw1
∫Pr(xp|h1,wp)Pr(wp)dwp]Pr(h1)dh1(8)
同樣地,可以得出關(guān)于x2的條件概率:
Pr(x2|M1)=Pr(x2|h2,w2)Pr(w2)dw2Pr(h2)dh2(9)
以上條件概率所描述的都是最開(kāi)始所定義的高斯分布,即式(1)~式(4)。同樣地,模型M2可以用相同的方法做分解。
在計(jì)算式(8)、式(9)的積分時(shí),算出N條語(yǔ)音匹配相同參數(shù)h的似然分,同時(shí)忽略了噪音參數(shù)w1...wN,加之PLDA是一種線性的高斯分布,所以可以將N條語(yǔ)音識(shí)別的系統(tǒng)按照式(1)寫(xiě)成下面的等式:
將上式重新命名為:
x′=μ′+Ay+′(11)
Pr(x′|y)=x′[Ay,∑′](12)
Pr(y)=y[0,I](13)
其中:
式(12)、式(13)即為標(biāo)準(zhǔn)的因素分析形式,而這種方法是已知的:
實(shí)際中,在已知矩陣A結(jié)構(gòu)的前提下,可以提高計(jì)算效率。
3實(shí)驗(yàn)
實(shí)驗(yàn)采用GMM-UBM與PLDA進(jìn)行比較。兩種算法均采用采樣率為16 kHz的語(yǔ)音和39維的MFCC特征,MFCC特征由基本的13維MFCC特征加上其一階導(dǎo)數(shù)和二階導(dǎo)數(shù)組成。其中MFCC的幀寬為24 ms,幀移為12 ms,預(yù)加重系數(shù)為0.97,MFCC濾波器組數(shù)目為30,低頻截止頻率為60 Hz,高頻截止頻率為3 600 Hz,DCT數(shù)目為16。同時(shí)增加有效語(yǔ)音檢測(cè)(Voice Activity Detection, VAD),取得有效音。對(duì)連續(xù)四周的語(yǔ)音進(jìn)行測(cè)試,以等錯(cuò)誤率(Equal Error Rate, EER)為判別標(biāo)準(zhǔn)。EER為錯(cuò)誤拒絕率(False Rejection Rate,F(xiàn)RR)和錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR)相等的點(diǎn)。實(shí)驗(yàn)結(jié)果如表1。
其中本周測(cè)試表示以當(dāng)前周的訓(xùn)練語(yǔ)音建立模型,用當(dāng)前周的測(cè)試語(yǔ)音進(jìn)行測(cè)試。第一周的結(jié)果表示的是以當(dāng)前周的語(yǔ)音為訓(xùn)練語(yǔ)音,以當(dāng)前周的下一周的測(cè)試語(yǔ)音進(jìn)行測(cè)試。后三周的測(cè)試方法與第一周的測(cè)試方法相同。
由表1實(shí)驗(yàn)結(jié)果可以看出,說(shuō)話人識(shí)別的時(shí)變魯棒性具有線性變化規(guī)律,隨著時(shí)間的推移,不論是GMMUBM[12]還是PLDA[13],在不同周的測(cè)試效果均在逐步降低,但是PLDA的整體效果均優(yōu)于GMMUBM。從時(shí)變的魯棒性來(lái)看,PLDA的EER從第一周到第四周表現(xiàn)比較平穩(wěn),均保持在9%左右,而GMM_UBM在第三周開(kāi)始有了明顯的增加,也就是說(shuō)GMMUBM的魯棒性有所降低。
4結(jié)束語(yǔ)
本文通過(guò)使用PLDA模型對(duì)說(shuō)話人識(shí)別進(jìn)行了測(cè)試,目的在于解決時(shí)變的魯棒性問(wèn)題,從實(shí)驗(yàn)結(jié)果來(lái)看,PLDA對(duì)時(shí)變的魯棒性有很大的提高。本文中使用PLDA和GMMUBM對(duì)語(yǔ)音進(jìn)行了測(cè)試,以GMMUBM為基線,從測(cè)試結(jié)果來(lái)看,PLDA的整體效果均優(yōu)于GMMUBM。以后可以使用PLDA為基線,通過(guò)對(duì)PLDA的改進(jìn)來(lái)進(jìn)一步提高時(shí)變的魯棒性。
參考文獻(xiàn)
?。?] YOUNG S. A review of largevocabulary continuousspeech recognition[J]. Signal Processing Magazine, IEEE, 1996, 13(5): 45.
[2] LIANG L, RENALS S. Probabilistic linear discriminant analysis for acoustic modelling[J]. IEEE Signal Processing Letters, 2014,21(6):702706.
?。?] CHEN L F, LIAO H Y M, LIN J C, et al. A new LDA-based face recognition system which can solve the sample size problem[J]. Pattern Recognition, 2000, 33(10): 17131726.
?。?] RUBIN R, THAYER D. EM algorithms for ML factor analysis[J]. Psychometrika, 1982,47(1):6976.
?。?] GHARAMANI Z, HINTON G E. The EM algorithm for mixtures of factor analyzers[R]. University of Toronto Technical Report, 1997.
[6] DEHAK N, KENNY P J, DEHAK R, et al. Frontend factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 9(4): 788798.
?。?] KIM T, KITTLER J. Locally linear discriminant analysis for multimodally distributed classes for face recognition with a single model image[J]. PAMI, 2005, 27(3): 318327.
[8] MATEJKA P, GLEMBEK O, CASTALDO F, et al. Fullcovariance UBM and heavytailed PLDA in i-vector speaker verification[C]. In Proc. ICASSP. IEEE, 2011: 48284831.
?。?] HASAN T, HANSEN J H L. Acoustic factor analysis for robust speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(4): 842853.
[10] KENNY P. Bayesian speaker verification with heavy tailed priors[C]. In Speaker and Language Recognition Workshop (IEEE Odyssey), 2010:141.
?。?1] GODFREY J J, HOLLIMAN E C, MCDANIEL J. SWITCHBOARD: telephone speech corpus for research and development[C]. In Proc. ICASSP. IEEE, 1992: 517520.
[12] REYNOLDS D A, QUATERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1/3): 1941.