《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 業(yè)界動(dòng)態(tài) > 基于多帶CHMM和神經(jīng)網(wǎng)絡(luò)融合的語音識(shí)別

基于多帶CHMM和神經(jīng)網(wǎng)絡(luò)融合的語音識(shí)別

《電子技術(shù)應(yīng)用》2007年第2期
2008-01-09
作者:姜 波,黃 煒

摘 要: 根據(jù)人類的聽覺感知機(jī)理,提出了一種改進(jìn)的基于多子帶連續(xù)隱馬爾科夫模型和BP神經(jīng)網(wǎng)絡(luò)融合" title="網(wǎng)絡(luò)融合">網(wǎng)絡(luò)融合的識(shí)別算法。
關(guān)鍵詞: 語音識(shí)別" title="語音識(shí)別">語音識(shí)別? 多子帶連續(xù)隱馬爾科夫模型? BP神經(jīng)網(wǎng)絡(luò)

?

??? 連續(xù)隱馬爾可夫模型CHMM(Continuous Hidden Markov Models)是語音識(shí)別中的主要技術(shù)之一。CHMM的優(yōu)點(diǎn)是對(duì)動(dòng)態(tài)時(shí)間序列有極強(qiáng)的建模能力,是一種基于時(shí)序累積概率的動(dòng)態(tài)信息處理方法。在訓(xùn)練中,一個(gè)CHMM的參數(shù)由同類模式的訓(xùn)練樣本集得到,每一類模式對(duì)應(yīng)一個(gè)CHMM。CHMM的缺點(diǎn)是由于僅考慮了特征的類內(nèi)變化,而忽略了類間重疊性;僅用到各個(gè)模型中的累積概率最大" title="最大">最大的狀態(tài),而忽略了各個(gè)模式間的相似特征,因而影響了CHMM識(shí)別語音的性能。
??? 人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)是基于模仿人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng),具有高度的非線性處理能力,能夠進(jìn)行復(fù)雜的邏輯操作和分類識(shí)別。雖然ANN有很強(qiáng)的分類決策能力和對(duì)不確定信息的描述能力,但它對(duì)時(shí)間序列的處理能力尚不盡人意。
??? 將CHMM的動(dòng)態(tài)建模能力和ANN的模式分類能力有機(jī)地結(jié)合起來是語音識(shí)別的一個(gè)研究熱點(diǎn)。由于在最大似然估計(jì)中,CHMM基于嚴(yán)格的公式推導(dǎo),很難進(jìn)行修改,而ANN作為估計(jì)器其性能要比傳統(tǒng)的統(tǒng)計(jì)識(shí)別系統(tǒng)" title="識(shí)別系統(tǒng)">識(shí)別系統(tǒng)強(qiáng),不僅可通過訓(xùn)練用來產(chǎn)生后驗(yàn)概率,而且可根據(jù)需要進(jìn)行合理的改善。因此,研究人員將ANN和CHMM結(jié)合,構(gòu)成了多種性能較好的CHMM/ANN混合模型[1]
??? 不同語音在訓(xùn)練好的各CHMM 下的概率分布有不同的規(guī)律,不同的語音不同人發(fā)音和同一人發(fā)音有一定的相似性。如選擇合適的CHMM輸出作為ANN的輸入矢量對(duì)ANN進(jìn)行訓(xùn)練,利用ANN的非線性分類能力,能提高語音識(shí)別率。在大多數(shù)語音識(shí)別系統(tǒng)中,短時(shí)語音特征參數(shù)的提取是在語音的全頻帶" title="全頻帶">全頻帶進(jìn)行的。然而,對(duì)人類的聽覺感知機(jī)理的研究表明,人類的聽覺解碼首先是從相互獨(dú)立的子頻帶中提取信息,然后再對(duì)不同子帶的信息進(jìn)行綜合判決的。此外,對(duì)于訓(xùn)練與測試時(shí)的信道失配,由于各個(gè)信道的頻率響應(yīng)不一致,所以在不同子頻帶也表現(xiàn)出差異[2]。本文提出了一種改進(jìn)的基于多帶CHMM和ANN的語音識(shí)別算法,有效地提高了識(shí)別率。
1 基于多帶CHMM和神經(jīng)網(wǎng)絡(luò)融合的語音識(shí)別
1.1 多帶識(shí)別子系統(tǒng)的理論依據(jù)
??? 由于背景噪聲和信道畸變的干擾,語音信號(hào)通常并不是純凈的,不僅記錄了語音的特征,還反映了訓(xùn)練環(huán)境的特征,并且這些特征被記錄到模型中。而在語音識(shí)別系統(tǒng)的測試中,其測試語音與訓(xùn)練環(huán)境通常是在不同環(huán)境下采集的,由此語音信息是不同的。這時(shí)模型和測試數(shù)據(jù)之間的匹配就會(huì)受到干擾,稱為失配。失配問題的解決決定了語音識(shí)別系統(tǒng)的應(yīng)用效果[3]
??? 針對(duì)失配的問題,利用倒譜均值規(guī)整(CMN)[4]、人耳的聽覺感知機(jī)理的相對(duì)譜(RASTA)參數(shù)[5]、并行模型組合(PMC)等方法,都有一定的效果,其中CMN因原理簡單和易于實(shí)現(xiàn)而被廣泛應(yīng)用。但是,以上方法的效果都不理想。
??? 通常,語音特征參數(shù)的提取都是利用語音的全頻帶進(jìn)行的。然而,如上所述,根據(jù)聽覺感知機(jī)理,子頻帶的研究和使用也有重要的意義,同時(shí)還有以下工程理由來考慮某種形式的子帶策略[6]。
??? (1)噪聲可能僅僅破壞某一部分的頻率。如果采用幾個(gè)獨(dú)立的子帶,其他未受影響的子帶就保持了純凈的音頻信號(hào),可以做出可靠的訓(xùn)練和識(shí)別。
??? (2)某些子帶可能擁有相比其他子帶更良好的性能,比如語音信號(hào)就主要集中在低頻段。
??? (3)子帶之間相互獨(dú)立,分別進(jìn)行訓(xùn)練,系統(tǒng)處理更加健壯,更加靈活。
??? (4)不同的訓(xùn)練和識(shí)別策略可以應(yīng)用于不同的子帶。
??? 此外,語音能量也是一個(gè)很重要的參數(shù),可以用來作為語音識(shí)別的一個(gè)特征[7]。因此改進(jìn)的算法是將多個(gè)子帶以及全頻帶特征和幀平均能量作為ANN的輸入,利用ANN對(duì)各子帶CHMM系統(tǒng)以及幀平均能量的信息進(jìn)行融合判決,以提高語音識(shí)別系統(tǒng)在信道失配和噪聲失配時(shí)的識(shí)別性能。
1.2 多帶CHMM/BP神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)
??? 多帶CHMM/BP神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)如圖1所示,系統(tǒng)由CHMM識(shí)別子系統(tǒng)和BP神經(jīng)網(wǎng)絡(luò)(BPNN)識(shí)別子系統(tǒng)構(gòu)成。將CHMM和BPNN結(jié)合起來,利用CHMM組成的多子帶系統(tǒng)輸出矢量在矢量空間上用BPNN進(jìn)行非線性映射,并從中提取新的識(shí)別信息,再利用BP神經(jīng)網(wǎng)絡(luò)的非線性映射能力,對(duì)輸入矢量的分量加以提取,利用模式間的相關(guān)性對(duì)模式進(jìn)行分類。由于利用了兩種識(shí)別模式的綜合信息和能力,多帶CHMM/BPNN識(shí)別系統(tǒng)能有效地提高系統(tǒng)對(duì)噪聲的魯棒性。

?

?


??? 如圖1所示,在語音頻率范圍內(nèi)劃分若干個(gè)子頻帶,在每個(gè)子頻帶內(nèi)分別提取特征參數(shù)并建立CHMM子系統(tǒng),與幀平均能量一起作為BPNN的輸入,進(jìn)行融合判決。由于全頻帶能反映各種頻率信息之間的關(guān)聯(lián)性,因此圖1還有一個(gè)全頻帶的子系統(tǒng)。幀平均能量為語音數(shù)據(jù)能量的幀平均值。
2 實(shí)驗(yàn)結(jié)果和分析
2.1 系統(tǒng)的訓(xùn)練過程
??? 系統(tǒng)的訓(xùn)練分為CHMM和BPNN的訓(xùn)練。語音數(shù)據(jù)采樣頻率為8kHz,提取其MFCC特征,即12階的MFCC參數(shù)和1階差分參數(shù)。在CHMM的訓(xùn)練中,每個(gè)數(shù)據(jù)逐一進(jìn)行訓(xùn)練。由于3個(gè)或4個(gè)子帶的識(shí)別效果優(yōu)于其他子帶劃分方法[3]、[6],因此,系統(tǒng)分別劃分為3個(gè)和4個(gè)子帶進(jìn)行實(shí)驗(yàn)比較, 3個(gè)子帶劃分為100~1 100Hz、1 000~2 200Hz、2 000~4 000Hz,4個(gè)子帶劃分為100~1 000Hz、800~2 000Hz、 1 400~2 600Hz、2 000~4 000Hz。每個(gè)數(shù)據(jù)訓(xùn)練時(shí)分別產(chǎn)生不同的子帶和全帶的CHMM模型,模型之間互相獨(dú)立。即每個(gè)頻帶的數(shù)據(jù)在CHMM訓(xùn)練是由同一個(gè)頻帶的不同樣本訓(xùn)練的,當(dāng)需要學(xué)習(xí)新的樣本時(shí),只需對(duì)相應(yīng)的CHMM模型進(jìn)行修正即可,而無須改變其他的CHMM模型。
??? 而BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用的是多語音模式訓(xùn)練,這是由于網(wǎng)絡(luò)的引入目的是對(duì)于不同的輸入特征進(jìn)行模式分類的。因?yàn)椴煌哪J筋悾銫HMM模型是不同的,但是對(duì)于BP神經(jīng)網(wǎng)絡(luò)則是公用的。這種訓(xùn)練方式保證了不同模式樣本之間的相關(guān)性和干擾性,利用模式間的這些信息對(duì)于BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可有效地增強(qiáng)整個(gè)系統(tǒng)的模式分類能力,提高系統(tǒng)在各種條件下的魯棒性。
多帶CHMM/BP神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)的訓(xùn)練過程如下:
??? (1)運(yùn)用CHMM訓(xùn)練算法建立和訓(xùn)練每個(gè)CHMM模型。在3個(gè)子帶實(shí)驗(yàn)中,共4個(gè)模型,分別對(duì)應(yīng)3個(gè)子帶和1個(gè)全帶;在4個(gè)子帶實(shí)驗(yàn)中,共5個(gè)模型,分別對(duì)應(yīng)4個(gè)子帶和1個(gè)全帶。
??? (2)輸入訓(xùn)練語音xi(i為語音在字庫的序號(hào)),用CHMM對(duì)語音數(shù)據(jù)進(jìn)行時(shí)序處理,通過Viterbi算法得到相對(duì)應(yīng)的各CHMM模型的參數(shù)。把每個(gè)模型中的最大輸出概率的狀態(tài)序號(hào)取出來并同輸入語音的幀平均能量組成輸入矢量Vi,Vi=[qi1,qi2,…,qi,Ei],其中qi1,qi2,…,qi分別代表語音xi子帶和一個(gè)全帶的最大輸出概率的狀態(tài)序號(hào),Ei代表語音xi的幀平均能量。
??? (3)對(duì)輸入矢量進(jìn)行歸一化后作為BP神經(jīng)網(wǎng)絡(luò)的輸入矢量,輸出矢量為輸入語音數(shù)據(jù)的對(duì)應(yīng)矩陣R,R=[r1,r2,…,ri,…,r10],其中只有元素ri=1(i為語音在字庫中的序號(hào)),而其他均為0。
??? (4)運(yùn)用BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直到BP神經(jīng)網(wǎng)絡(luò)的收斂精度達(dá)到要求為止。
2.2 系統(tǒng)的識(shí)別過程
??? 先讓待識(shí)別語音數(shù)據(jù)經(jīng)過不同的CHMM子系統(tǒng)和幀平均能量計(jì)算模塊,然后把每個(gè)CHMM模型中最大輸出概率的狀態(tài)序號(hào)取出來并同輸入語音的幀平均能量保存在輸入矢量V中,最后使用BP神經(jīng)網(wǎng)絡(luò)對(duì)輸入矢量進(jìn)行非線性映射,得到識(shí)別結(jié)果。具體做法類似訓(xùn)練過程。
2.3 實(shí)驗(yàn)過程
??? 以采樣頻率為8kHz,16位數(shù)據(jù),幀長32ms(對(duì)應(yīng)256點(diǎn)),幀移10ms(對(duì)應(yīng)86點(diǎn)),識(shí)別對(duì)象為漢語的十個(gè)數(shù)字(0~9),發(fā)音者共20人,每人每個(gè)詞采樣三遍,其中10個(gè)人每人抽取一組語音作為訓(xùn)練數(shù)據(jù),其余的作為識(shí)別數(shù)據(jù)。另外使用了與訓(xùn)練環(huán)境不同情況下采集的12組語音作為帶噪語音。
??? CHMM模型中的狀態(tài)數(shù)和混合度,BP神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)對(duì)系統(tǒng)性能均有影響。通過實(shí)驗(yàn),狀態(tài)數(shù)為4和混合度為3時(shí),對(duì)于單字識(shí)別效果很好,但提高狀態(tài)數(shù)和混合度時(shí),不會(huì)有明顯的性能提升反而增加了運(yùn)算量。而BP網(wǎng)絡(luò)的層數(shù)通常在實(shí)際運(yùn)用中決定,對(duì)于本次實(shí)驗(yàn)中,三層網(wǎng)絡(luò)(輸入層為5個(gè)節(jié)點(diǎn),中間層為20個(gè)節(jié)點(diǎn),輸出層為10個(gè)節(jié)點(diǎn))可以達(dá)到很好的識(shí)別效果。
為測試CHMM/BPNN混合模型的實(shí)驗(yàn)?zāi)芰?,分別對(duì)純凈語音和帶噪語音進(jìn)行了實(shí)驗(yàn),3個(gè)子帶的實(shí)驗(yàn)結(jié)果如表1所示,4個(gè)子帶的實(shí)驗(yàn)結(jié)果如表2所示。本系統(tǒng)實(shí)現(xiàn)的三子帶模型和四子帶模型(CHMM/BPNN+Ei)同傳統(tǒng)的CHMM模型(CHMM)以及不加入幀平均能量Ei的CHMM/BPNN模型(CHMM/BPNN)進(jìn)行了比較,得到的實(shí)驗(yàn)結(jié)果如表3所示。

?


??? 從表1、表2、表3可以看出:
??? (1)4個(gè)子帶的識(shí)別效果不如3個(gè)子帶好。這是因?yàn)槭褂幂^多的子帶時(shí),由于子帶劃分太細(xì),每一個(gè)子帶攜帶的信息量太少,導(dǎo)致子帶的識(shí)別率下降,從而使融合的識(shí)別效果受到影響。
??? (2)語音信號(hào)的主要特征集中在低頻段,尤其是1000Hz以下,子帶1的識(shí)別率在幾個(gè)子帶中最高,子帶頻率段越高,識(shí)別能力越低,可分別從3個(gè)子帶和4個(gè)子帶的子帶1看出。
??? (3)傳統(tǒng)的CHMM模型對(duì)于非特定人、關(guān)鍵詞的純凈語音識(shí)別能力比較高,但在信噪比逐漸降低的時(shí)候,識(shí)別率明顯下降。
??? (4)CHMM/BPNN模型在純凈語音環(huán)境下,識(shí)別率不如CHMM模型,但是在噪聲背景下,其識(shí)別率由于子帶的影響也低于CHMM模型。不過實(shí)驗(yàn)中也發(fā)現(xiàn),當(dāng)噪聲或者失配比較低情況下,融合模型識(shí)別率可能低于CHMM模型。
??? (5)CHMM/BPNN+Ei模型優(yōu)缺點(diǎn):在純凈語音環(huán)境下識(shí)別能力低于CHMM模型,但是優(yōu)于CHMM/BPNN模型;對(duì)噪聲的適應(yīng)能力更強(qiáng),在噪聲環(huán)境下,識(shí)別率高于CHMM模型和CHMM/BPNN模型。因此總的來說本文提出的系統(tǒng)的性能還是很好的。
??? (6)沒有能量時(shí),由于子帶影響和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式不同,會(huì)造成神經(jīng)網(wǎng)絡(luò)的識(shí)別率不如CHMM的情況。
????利用隱馬爾科夫模型優(yōu)異的動(dòng)態(tài)時(shí)間序列建模能力及神經(jīng)網(wǎng)絡(luò)的模式分類能力,構(gòu)造了混合語音識(shí)別模型,同時(shí)引入了多子帶系統(tǒng),降低了系統(tǒng)的失配效應(yīng)和提高了語音識(shí)別的正確率。實(shí)驗(yàn)表明,這種方法是有效的。
參考文獻(xiàn)
[1] ?YNOGUTI C A, MORAIS E da S. Violaro F. A comparison between HMM and hybrid ANN-HMM based?systems for continuous speech Recognition. Telecommunications Symposium,1998,(1):135-140.
[2]?BOURLARD H, DUPONT S. Subband-based speech?recognition.IEEE International Conference on Acoustics,Speech, and Signal Processing. 1997,(2):1251-1254.
[3] ?姚志強(qiáng),戴蓓倩,李輝.基于多帶HMM和神經(jīng)網(wǎng)絡(luò)融合的語音識(shí)別方法的信道魯棒性.計(jì)算機(jī)工程與應(yīng)用,2004,(1):71-73.
[4]?ROSENBERG A, LEE C H, SOONG F. Cepstral channel normalization technique for HMM-based speaker?verification. Proceedings of the International Conference?on Spoken Language Processing, 1994.
[5] ?HERMANSKY H, MORGAN N. RASTA processing of?speech. IEEE Transactions on Speech and Audio Processing, 1994,2(4):578-589.
[6]?BOURLARD H, DUPONT S. A new ASR approach?based on independent processing and recombination of?partial frequency bands. Proceedings of the international?conference on Spoken Language Processing,1996,(1):
?426-429.
[7]?黃湘松,趙春暉,陳立偉.基于CDHMM/SOFMNN噪聲背景下的語音識(shí)別方法.應(yīng)用科技,2005,32(9):4-6.?

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。