文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.165055
中文引用格式: 張雪英,張樂,孫穎,等. 基于KELM決策融合的語音情感識別[J].電子技術(shù)應(yīng)用,2017,43(8):123-126,131.
英文引用格式: Zhang Xueying,Zhang Le,Sun Ying,et al. Speech emotion recognition based on decision fusion of KELM[J].Application of Electronic Technique,2017,43(8):123-126,131.
0 引言
人類的情感很難從一個量化的角度定義,其中語音是一種包含說話人信息、語義、情感的復(fù)雜信號,是識別情感狀態(tài)的有效途徑。語音情感識別是計算機分析語音信號的特征參數(shù)并自動判別情感狀態(tài)的一門技術(shù),是語音信號處理領(lǐng)域中非常重要的研究方向,廣泛應(yīng)用于人工服務(wù)、精神健康診斷治療、遠(yuǎn)程教學(xué)、機器人等領(lǐng)域。
目前,國內(nèi)外學(xué)者采用多種分類方法用于語音情感識別,常用的有隱馬爾科夫模型(Hidden Markov model,HMM)、支持向量機(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等,NWE T L[1]等人對一個漢語普通話語音庫和一個緬甸語語音庫訓(xùn)練和測試HMM,對6種情感的平均識別率可以達(dá)到75.5%和78.5%,TATO R[2]等人使用SVM對喜、怒、悲、中性4種情感進(jìn)行識別研究,最終平均識別率達(dá)到73%。極限學(xué)習(xí)機(Extreme Learning Machine,ELM)是由HUANG G B等[3]于2006年提出的一種應(yīng)用于廣義單隱層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,與常用的ANN、SVM相比極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度和泛化性能[4],已經(jīng)在故障診斷[5]、病理診斷[6]等領(lǐng)域得到應(yīng)用。文獻(xiàn)[7]中證明ELM與SVM分類精度相似,但學(xué)習(xí)速度優(yōu)于SVM、參數(shù)選擇更容易,同時文中將Mercer條件用于網(wǎng)絡(luò)模型,提出性能更好的核函數(shù)極限學(xué)習(xí)機(Extreme Learning Machine with Kernel,KELM),據(jù)此本文采用KELM作為分類器。
傳統(tǒng)的語音情感識別方法均是采用單一特征或多個特征簡單相加來構(gòu)建單個網(wǎng)絡(luò)進(jìn)行分類識別,這種模式若要達(dá)到最佳的識別結(jié)果,需選擇最全面的輸入特征以及最優(yōu)的分類器,但是兩者兼顧最優(yōu)是很難實現(xiàn)的。近年來提出的融合技術(shù)[8]通過制定融合規(guī)則在一定程度上實現(xiàn)了兩個“最優(yōu)”。因此,本文提出融合KELM的方法,該方法不僅繼承了極限學(xué)習(xí)機分類精度高、學(xué)習(xí)速度快的性能,還具有融合技術(shù)識別率高的優(yōu)勢。設(shè)計實驗將本文方法在柏林語音庫中測試,提取聚合經(jīng)驗?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)特征、韻律特征、梅爾倒譜系數(shù)特征(Mel-Fregurecy Cepstrum Coefficients,MFCC),通過對基分類器的輸出加權(quán)融合,實現(xiàn)語音情感識別。
1 核函數(shù)極限學(xué)習(xí)機
極限學(xué)習(xí)機的隱層參數(shù)均為隨機產(chǎn)生,且無需迭代,因此比傳統(tǒng)方法參數(shù)選擇簡單、學(xué)習(xí)速度快。核函數(shù)極限學(xué)習(xí)機由ELM衍生而來,其解決多分類識別問題的能力更強。對于一個輸入為d維向量xi,輸出標(biāo)簽為ti(i=1,…,N)的基本極限學(xué)習(xí)機模型描述為:
KELM模型中,廣義逆矩陣中的參數(shù)C與核函數(shù)中的參數(shù)g的選擇會影響識別性能,需優(yōu)化求解。
2 融合KELM
基于加權(quán)求和的分類器決策融合方法可以分為兩種:基于硬判決輸出和基于軟判決輸出的融合方法。對于前者,每個分類器的輸出是一個標(biāo)簽,通過計算各分類器輸出的所有類別數(shù)量,將得到最大的票數(shù)的類別作為最后的輸出;而對于后者,每個分類器的輸出為決策概率,各個分類器按照分配的權(quán)重加權(quán)求和得到輸出結(jié)果?;谲浥袥Q輸出的方法通過輸出一個介于0~1之間的概率相比于輸出0/1的硬判決輸出方法更能準(zhǔn)確地分類,故選擇軟判決的融合方法。
這里需要解決兩個問題:(1)將KELM的數(shù)值輸出轉(zhuǎn)化為概率輸出;(2)確定決策策略。
2.1 概率矩陣
基本KELM的輸出為數(shù)值輸出,為了將輸出范圍統(tǒng)一,仿照概率支持向量機的研究[10]將KELM的輸出轉(zhuǎn)化為概率形式:
2.2 決策策略
融合權(quán)值的確定是一個關(guān)鍵問題,決策權(quán)重一般由分類器在訓(xùn)練數(shù)據(jù)上的性能決定,決策時會給訓(xùn)練時性能好的分類器分配較大的權(quán)重,但這樣會忽略測試樣本的多樣性和特性,所以計算權(quán)重分布時不僅應(yīng)考慮分類器的性能,還應(yīng)考慮測試樣本的特性,這是本文制定決策策略的核心思想。融合KELM算法實現(xiàn)框圖如圖1。
該方法的具體實現(xiàn)如下:
(1)訓(xùn)練階段
訓(xùn)練樣本經(jīng)預(yù)處理后,分別提取n類特征,記為F1,…,F(xiàn)n,利用特征分別訓(xùn)練N個核函數(shù)極限學(xué)習(xí)機,記為KELM i,i=1,…,N。
(2)識別階段
①對于預(yù)處理后的測試樣本x,分別提取n類特征F1,…,F(xiàn)n,將特征向量分別輸入步驟(1)訓(xùn)練好的KELM i中。
②建立概率矩陣。利用式(1)建立分類器的概率矩陣。
③確定權(quán)值。將樣本輸入KELM中,若分類器將某樣本分類至某標(biāo)簽的概率越大,說明該樣本特征距離判別超平面越遠(yuǎn),則分類器對該樣本的分類越準(zhǔn)確,其融合權(quán)重相應(yīng)的應(yīng)該越大,相當(dāng)于“放大”準(zhǔn)確程度,由式(10)計算第k組分類器各類別概率輸出的最大值,記為:
3 實驗
3.1 實驗數(shù)據(jù)
實驗選用柏林語音庫為數(shù)據(jù)庫來源。選擇293句包含4種情感、長度近似相等的語句組成本次實驗數(shù)據(jù)庫,其中高興71句、悲傷62句、憤怒81句、中性79句,各選擇 2/3作為訓(xùn)練樣本,1/3作為測試樣本。
3.2 實驗與結(jié)果分析
對語音庫中的樣本進(jìn)行預(yù)處理,主要包括端點檢測、預(yù)加重和加窗分幀。特征選取前期提取的EEMD特征(提取過程說明:信號經(jīng)EEMD分解后,選取前七階固有模態(tài)分量提取能量特征)、韻律特征(包括基音頻率、語速、短時能量、過零率、共振峰頻率及統(tǒng)計參數(shù))、MFCC 3種特征。
實驗采用網(wǎng)格尋優(yōu)法選擇正則化系數(shù)和核函數(shù)參數(shù)g,反復(fù)試驗對依據(jù)特征建立的3 個基分類器分別進(jìn)行參數(shù)尋優(yōu),最終確定參數(shù)組合如表 1 所示。
表2給出了各基分類器以及本文提出的決策融合方法(簡稱為FKELM)的實驗結(jié)果,可以看出本文方法無論在4種情感的識別率還是平均識別率都有很大程度的提高,尤其是在情感“高興”、“悲傷”中的表現(xiàn),F(xiàn)KELM的識別率比相應(yīng)識別率最高的基分類器分別提高了20.83%、15%,平均識別率相比于最好的基分類器也提高了11.52%,圖2更直觀地反映了識別性能的提高。
為了說明本文方法的優(yōu)勢,設(shè)計兩組對比實驗,第一組實驗是與常用單分類器比較,將所有特征共1 069維輸入分類器中,結(jié)果見表3,單分類器中BP神經(jīng)網(wǎng)絡(luò)的性能最好,但與FKELM相比仍有很大差距;第二組實驗是與常用的融合策略相比,結(jié)果見表4,平均決策的平均識別率達(dá)到了81.81%,但與融合KELM的平均識別率還有近7%的差距。
從實驗結(jié)果與對比實驗結(jié)果看,本文提出的方法表現(xiàn)出了很大的優(yōu)勢,原因有三:(1)在特征方面,特征融合減弱了由于單一特征無法全面描述情感信息而導(dǎo)致的識別率低的缺點,在一定程度上提升了識別結(jié)果;(2)識別網(wǎng)絡(luò)參數(shù)選擇,考慮到特征的差異性,3組KELM的參數(shù)均分別尋優(yōu),選擇了單個特征識別率最高情況下的參數(shù)組合;(3)決策策略的制定,權(quán)重依據(jù)分類器概率矩陣而定,綜合權(quán)衡了分類器的性能和輸入樣本的特性,使得融合KELM方法比單分類器在決策時出錯更少。因此本文提出的融合KELM是一個有效的語音情感識別方法。
4 結(jié)論
本文針對單分類器情況下識別性能不理想的問題,提出了融合KELM的方法,并提出一種同時考慮分類器性能和輸入樣本特性的決策策略。首先針對3類語音特征訓(xùn)練3個KELM,對基分類器分別尋優(yōu)選擇最佳參數(shù)組合,然后采用基于概率矩陣而制定的融合策略對基分類器的判決結(jié)果決策融合,在柏林語音庫中進(jìn)行驗證。結(jié)果表明,相比于傳統(tǒng)的單一分類器,本文方法的識別性能有很大程度提高,與經(jīng)典決策策略相比也有明顯優(yōu)勢,為語音情感識別提供了一種可靠的方法。
參考文獻(xiàn)
[1] NWE T L,F(xiàn)OO S W,DE S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.
[2] TATO R,SANTOS R,KOMPE R,et al.Emotion space improves emotion recognition[C].Denver,Colorado:CSLP,2002.
[3] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1):489-501.
[4] 鄧萬宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計算機學(xué)報,2010,33(2):279-287.
[5] 陳紹煒,柳光峰,冶帥.基于核極限學(xué)習(xí)機的模擬電路故障診斷研究[J].西北工業(yè)大學(xué)學(xué)報,2015,33(2):290-294.
[6] 劉小峰,張翔,王雪.基于EEG去趨勢波動分析和極限學(xué)習(xí)機的癲癇發(fā)作自動檢測與分類識別[J].納米技術(shù)與精密工程,2015,13(6):397-403.
[7] HUANG G B,ZHOU H,DING X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2012,42(2):513-529.
[8] HALL D L,LLINAS J.An introduction to multisensor data fusion[J].Proceedings of the IEEE,1997,85(1):6-23.
[9] 張文博,姬紅兵.融合極限學(xué)習(xí)機[J].電子與信息學(xué)報,2013,35(11):2828-2732.
[10] PLATT J C.Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[M][S.1.]:Massachusetts Institute of Technology Press,1999.
作者信息:
張雪英,張 樂,孫 穎,張 衛(wèi)
(太原理工大學(xué) 信息工程學(xué)院,山西 太原030024)