《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 基于KELM決策融合的語音情感識別
基于KELM決策融合的語音情感識別
2017年電子技術(shù)應(yīng)用第8期
張雪英,張 樂,孫 穎,張 衛(wèi)
太原理工大學(xué) 信息工程學(xué)院,山西 太原030024
摘要: 針對語音情感信號的復(fù)雜性和單一分類器識別的局限性,提出一種核函數(shù)極限學(xué)習(xí)機(KELM)決策融合的方法用于語音情感識別。首先對語音信號提取不同的特征,并訓(xùn)練相應(yīng)的基分類器,同時將輸出轉(zhuǎn)化為概率型輸出;然后利用測試集在基分類器的輸出概率值計算自適應(yīng)動態(tài)權(quán)值;最后對各基分類器的輸出進(jìn)行線性加權(quán)融合得到最終的分類結(jié)果。利用該方法對柏林語音庫中4種情感進(jìn)行識別,實驗結(jié)果表明,提出的融合KELM方法優(yōu)于常用的單分類器以及多分類器融合方法,有效地提高了語音情感識別系統(tǒng)的性能。
中圖分類號: TN912.3
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.165055
中文引用格式: 張雪英,張樂,孫穎,等. 基于KELM決策融合的語音情感識別[J].電子技術(shù)應(yīng)用,2017,43(8):123-126,131.
英文引用格式: Zhang Xueying,Zhang Le,Sun Ying,et al. Speech emotion recognition based on decision fusion of KELM[J].Application of Electronic Technique,2017,43(8):123-126,131.
Speech emotion recognition based on decision fusion of KELM
Zhang Xueying,Zhang Le,Sun Ying,Zhang Wei
College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China
Abstract: In order to overcome the limitation of single classifier recognition and the complexity of emotional speech signal, a decision fusion method based on Extreme Learning Machine with Kernel(KELM) is proposed for speech emotion recognition. Firstly, KELMs are built separtely by different features extracted from speech signal, while the outputs are transformed from numeric outputs into probability output. Then the confusion matrix of each classifier based on the test set is calculated ,which is used to calculate the dynamic adaptive weight of the base classifiers.Finally the proposed method gets the ultimate classification result by linear weighted method. The fusion KELM is used to recognize four kinds of emotional speech in Berlin speech database,experimental results show that the fusion KELM is superior to single classifier and multi classifier fusion method. It has improved the performance of the speech emotion recognition system effectively.
Key words : speech emotion recognition;extreme learning machine with kernel;decision strategy;confusion matrix

0 引言

    人類的情感很難從一個量化的角度定義,其中語音是一種包含說話人信息、語義、情感的復(fù)雜信號,是識別情感狀態(tài)的有效途徑。語音情感識別是計算機分析語音信號的特征參數(shù)并自動判別情感狀態(tài)的一門技術(shù),是語音信號處理領(lǐng)域中非常重要的研究方向,廣泛應(yīng)用于人工服務(wù)、精神健康診斷治療、遠(yuǎn)程教學(xué)、機器人等領(lǐng)域。

    目前,國內(nèi)外學(xué)者采用多種分類方法用于語音情感識別,常用的有隱馬爾科夫模型(Hidden Markov model,HMM)、支持向量機(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等,NWE T L[1]等人對一個漢語普通話語音庫和一個緬甸語語音庫訓(xùn)練和測試HMM,對6種情感的平均識別率可以達(dá)到75.5%和78.5%,TATO R[2]等人使用SVM對喜、怒、悲、中性4種情感進(jìn)行識別研究,最終平均識別率達(dá)到73%。極限學(xué)習(xí)機(Extreme Learning Machine,ELM)是由HUANG G B等[3]于2006年提出的一種應(yīng)用于廣義單隱層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,與常用的ANN、SVM相比極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度和泛化性能[4],已經(jīng)在故障診斷[5]、病理診斷[6]等領(lǐng)域得到應(yīng)用。文獻(xiàn)[7]中證明ELM與SVM分類精度相似,但學(xué)習(xí)速度優(yōu)于SVM、參數(shù)選擇更容易,同時文中將Mercer條件用于網(wǎng)絡(luò)模型,提出性能更好的核函數(shù)極限學(xué)習(xí)機(Extreme Learning Machine with Kernel,KELM),據(jù)此本文采用KELM作為分類器。

    傳統(tǒng)的語音情感識別方法均是采用單一特征或多個特征簡單相加來構(gòu)建單個網(wǎng)絡(luò)進(jìn)行分類識別,這種模式若要達(dá)到最佳的識別結(jié)果,需選擇最全面的輸入特征以及最優(yōu)的分類器,但是兩者兼顧最優(yōu)是很難實現(xiàn)的。近年來提出的融合技術(shù)[8]通過制定融合規(guī)則在一定程度上實現(xiàn)了兩個“最優(yōu)”。因此,本文提出融合KELM的方法,該方法不僅繼承了極限學(xué)習(xí)機分類精度高、學(xué)習(xí)速度快的性能,還具有融合技術(shù)識別率高的優(yōu)勢。設(shè)計實驗將本文方法在柏林語音庫中測試,提取聚合經(jīng)驗?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)特征、韻律特征、梅爾倒譜系數(shù)特征(Mel-Fregurecy Cepstrum Coefficients,MFCC),通過對基分類器的輸出加權(quán)融合,實現(xiàn)語音情感識別。

1 核函數(shù)極限學(xué)習(xí)機

    極限學(xué)習(xí)機的隱層參數(shù)均為隨機產(chǎn)生,且無需迭代,因此比傳統(tǒng)方法參數(shù)選擇簡單、學(xué)習(xí)速度快。核函數(shù)極限學(xué)習(xí)機由ELM衍生而來,其解決多分類識別問題的能力更強。對于一個輸入為d維向量xi,輸出標(biāo)簽為ti(i=1,…,N)的基本極限學(xué)習(xí)機模型描述為:

jsj3-gs1-6.gif

    KELM模型中,廣義逆矩陣中的參數(shù)C與核函數(shù)中的參數(shù)g的選擇會影響識別性能,需優(yōu)化求解。

2 融合KELM

    基于加權(quán)求和的分類器決策融合方法可以分為兩種:基于硬判決輸出和基于軟判決輸出的融合方法。對于前者,每個分類器的輸出是一個標(biāo)簽,通過計算各分類器輸出的所有類別數(shù)量,將得到最大的票數(shù)的類別作為最后的輸出;而對于后者,每個分類器的輸出為決策概率,各個分類器按照分配的權(quán)重加權(quán)求和得到輸出結(jié)果?;谲浥袥Q輸出的方法通過輸出一個介于0~1之間的概率相比于輸出0/1的硬判決輸出方法更能準(zhǔn)確地分類,故選擇軟判決的融合方法。

    這里需要解決兩個問題:(1)將KELM的數(shù)值輸出轉(zhuǎn)化為概率輸出;(2)確定決策策略。

2.1 概率矩陣

    基本KELM的輸出為數(shù)值輸出,為了將輸出范圍統(tǒng)一,仿照概率支持向量機的研究[10]將KELM的輸出轉(zhuǎn)化為概率形式:

jsj3-gs7-9.gif

2.2 決策策略

    融合權(quán)值的確定是一個關(guān)鍵問題,決策權(quán)重一般由分類器在訓(xùn)練數(shù)據(jù)上的性能決定,決策時會給訓(xùn)練時性能好的分類器分配較大的權(quán)重,但這樣會忽略測試樣本的多樣性和特性,所以計算權(quán)重分布時不僅應(yīng)考慮分類器的性能,還應(yīng)考慮測試樣本的特性,這是本文制定決策策略的核心思想。融合KELM算法實現(xiàn)框圖如圖1。

jsj3-t1.gif

    該方法的具體實現(xiàn)如下:

    (1)訓(xùn)練階段

    訓(xùn)練樣本經(jīng)預(yù)處理后,分別提取n類特征,記為F1,…,F(xiàn)n,利用特征分別訓(xùn)練N個核函數(shù)極限學(xué)習(xí)機,記為KELM i,i=1,…,N。

    (2)識別階段

    ①對于預(yù)處理后的測試樣本x,分別提取n類特征F1,…,F(xiàn)n,將特征向量分別輸入步驟(1)訓(xùn)練好的KELM i中。

    ②建立概率矩陣。利用式(1)建立分類器的概率矩陣。

    ③確定權(quán)值。將樣本輸入KELM中,若分類器將某樣本分類至某標(biāo)簽的概率越大,說明該樣本特征距離判別超平面越遠(yuǎn),則分類器對該樣本的分類越準(zhǔn)確,其融合權(quán)重相應(yīng)的應(yīng)該越大,相當(dāng)于“放大”準(zhǔn)確程度,由式(10)計算第k組分類器各類別概率輸出的最大值,記為: 

jsj3-gs10-12.gif

3 實驗

3.1 實驗數(shù)據(jù)

    實驗選用柏林語音庫為數(shù)據(jù)庫來源。選擇293句包含4種情感、長度近似相等的語句組成本次實驗數(shù)據(jù)庫,其中高興71句、悲傷62句、憤怒81句、中性79句,各選擇 2/3作為訓(xùn)練樣本,1/3作為測試樣本。

3.2 實驗與結(jié)果分析

    對語音庫中的樣本進(jìn)行預(yù)處理,主要包括端點檢測、預(yù)加重和加窗分幀。特征選取前期提取的EEMD特征(提取過程說明:信號經(jīng)EEMD分解后,選取前七階固有模態(tài)分量提取能量特征)、韻律特征(包括基音頻率、語速、短時能量、過零率、共振峰頻率及統(tǒng)計參數(shù))、MFCC 3種特征。

    實驗采用網(wǎng)格尋優(yōu)法選擇正則化系數(shù)和核函數(shù)參數(shù)g,反復(fù)試驗對依據(jù)特征建立的3 個基分類器分別進(jìn)行參數(shù)尋優(yōu),最終確定參數(shù)組合如表 1 所示。 

jsj3-b1.gif

    表2給出了各基分類器以及本文提出的決策融合方法(簡稱為FKELM)的實驗結(jié)果,可以看出本文方法無論在4種情感的識別率還是平均識別率都有很大程度的提高,尤其是在情感“高興”、“悲傷”中的表現(xiàn),F(xiàn)KELM的識別率比相應(yīng)識別率最高的基分類器分別提高了20.83%、15%,平均識別率相比于最好的基分類器也提高了11.52%,圖2更直觀地反映了識別性能的提高。

jsj3-b2.gif

jsj3-t2.gif

    為了說明本文方法的優(yōu)勢,設(shè)計兩組對比實驗,第一組實驗是與常用單分類器比較,將所有特征共1 069維輸入分類器中,結(jié)果見表3,單分類器中BP神經(jīng)網(wǎng)絡(luò)的性能最好,但與FKELM相比仍有很大差距;第二組實驗是與常用的融合策略相比,結(jié)果見表4,平均決策的平均識別率達(dá)到了81.81%,但與融合KELM的平均識別率還有近7%的差距。

jsj3-b3.gif

jsj3-b4.gif

    從實驗結(jié)果與對比實驗結(jié)果看,本文提出的方法表現(xiàn)出了很大的優(yōu)勢,原因有三:(1)在特征方面,特征融合減弱了由于單一特征無法全面描述情感信息而導(dǎo)致的識別率低的缺點,在一定程度上提升了識別結(jié)果;(2)識別網(wǎng)絡(luò)參數(shù)選擇,考慮到特征的差異性,3組KELM的參數(shù)均分別尋優(yōu),選擇了單個特征識別率最高情況下的參數(shù)組合;(3)決策策略的制定,權(quán)重依據(jù)分類器概率矩陣而定,綜合權(quán)衡了分類器的性能和輸入樣本的特性,使得融合KELM方法比單分類器在決策時出錯更少。因此本文提出的融合KELM是一個有效的語音情感識別方法。

4 結(jié)論

    本文針對單分類器情況下識別性能不理想的問題,提出了融合KELM的方法,并提出一種同時考慮分類器性能和輸入樣本特性的決策策略。首先針對3類語音特征訓(xùn)練3個KELM,對基分類器分別尋優(yōu)選擇最佳參數(shù)組合,然后采用基于概率矩陣而制定的融合策略對基分類器的判決結(jié)果決策融合,在柏林語音庫中進(jìn)行驗證。結(jié)果表明,相比于傳統(tǒng)的單一分類器,本文方法的識別性能有很大程度提高,與經(jīng)典決策策略相比也有明顯優(yōu)勢,為語音情感識別提供了一種可靠的方法。

參考文獻(xiàn)

[1] NWE T L,F(xiàn)OO S W,DE S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.

[2] TATO R,SANTOS R,KOMPE R,et al.Emotion space improves emotion recognition[C].Denver,Colorado:CSLP,2002.

[3] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1):489-501.

[4] 鄧萬宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計算機學(xué)報,2010,33(2):279-287.

[5] 陳紹煒,柳光峰,冶帥.基于核極限學(xué)習(xí)機的模擬電路故障診斷研究[J].西北工業(yè)大學(xué)學(xué)報,2015,33(2):290-294.

[6] 劉小峰,張翔,王雪.基于EEG去趨勢波動分析和極限學(xué)習(xí)機的癲癇發(fā)作自動檢測與分類識別[J].納米技術(shù)與精密工程,2015,13(6):397-403.

[7] HUANG G B,ZHOU H,DING X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2012,42(2):513-529.

[8] HALL D L,LLINAS J.An introduction to multisensor data fusion[J].Proceedings of the IEEE,1997,85(1):6-23.

[9] 張文博,姬紅兵.融合極限學(xué)習(xí)機[J].電子與信息學(xué)報,2013,35(11):2828-2732.

[10] PLATT J C.Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[M][S.1.]:Massachusetts Institute of Technology Press,1999.



作者信息:

張雪英,張  樂,孫  穎,張  衛(wèi)

(太原理工大學(xué) 信息工程學(xué)院,山西 太原030024)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。