文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.02.030
中文引用格式: 呂巖,房立清,趙玉龍,等. 基于LFOA算法的相關(guān)向量機(jī)核參數(shù)優(yōu)化[J].電子技術(shù)應(yīng)用,2017,43(2):124-127.
英文引用格式: Lv Yan,F(xiàn)ang Liqing,Zhao Yulong,et al. Parameters optimization research of relevance vector machine based on LFOA[J].Application of Electronic Technique,2017,43(2):124-127.
0 引言
相關(guān)向量機(jī)(Relevance Vector Machine,RVM)[1]是建立在支持向量機(jī)(Support Vector Machine,SVM)基礎(chǔ)上的一種學(xué)習(xí)方法,依靠稀疏貝葉斯統(tǒng)計(jì)理論建立訓(xùn)練模型。RVM與SVM相比,函數(shù)形式相似,但RVM的核函數(shù)不需要滿足Mercer條件以及能提供概率式輸出使它更具優(yōu)勢[2]。近年來RVM在回歸估計(jì)、模式識(shí)別及工程領(lǐng)域方面[3]得到了較為廣泛的應(yīng)用,但仍存在最優(yōu)核參數(shù)不易確定的問題,所以部分學(xué)者將智能優(yōu)化算法應(yīng)用到RVM核參數(shù)尋優(yōu)中[4],取得了一定的成效。
果蠅算法[5](Fruit fly Optimization Algorithm,F(xiàn)OA)是由PAN W T根據(jù)果蠅覓食的行為提出的一種智能優(yōu)化算法。雖然該算法被廣泛應(yīng)用到各個(gè)領(lǐng)域[6],但在實(shí)際應(yīng)用過程中,也存在陷入局部最優(yōu)解的情況,文獻(xiàn)[7]提出了具有Levy飛行特征的雙子群果蠅優(yōu)化算法(LFOA),有效地解決了FOA陷入局部最優(yōu)的問題,提高了算法的性能。為了提高RVM分類器的性能,本文提出了一種基于LFOA算法的RVM核函數(shù)參數(shù)優(yōu)化方法,并通過UCI標(biāo)準(zhǔn)數(shù)據(jù)庫的仿真實(shí)驗(yàn),驗(yàn)證了方法的有效性和可靠性。
1 相關(guān)向量機(jī)
1.1 模型描述
假設(shè)每個(gè)樣本獨(dú)立分布,p(t|x)采用Bernoulli分布,可得預(yù)測結(jié)果t的后驗(yàn)概率的似然函數(shù)為:
根據(jù)概率預(yù)測公式,新的輸入向量x?鄢所對(duì)應(yīng)的目標(biāo)向量t?鄢求得的條件概率為:
根據(jù)稀疏Bayes理論,給權(quán)值向量w分配獨(dú)立的零均值Gauss先驗(yàn)分布:
經(jīng)過多次迭代后可發(fā)現(xiàn)大部分權(quán)值都變得很小,只有很少一部分權(quán)值非零,根據(jù)式(1),只有非零權(quán)值對(duì)應(yīng)的訓(xùn)練向量對(duì)目標(biāo)值起作用,稱為相關(guān)向量(RVs),則RVM模型可重新表示為:
1.2 RVM多分類
最后,通過式(8)累加所有分類器的概率輸出,并采用“最大概率贏[9]”的策略將xtest判定為累加后驗(yàn)概率最大的類別。
1.3 核參數(shù)對(duì)RVM分類性能的影響
相關(guān)向量機(jī)的核函數(shù)可將低維數(shù)據(jù)樣本映射到高維特征空間,從而實(shí)現(xiàn)樣本的線性可分,所以其參數(shù)的設(shè)置對(duì)RVM的分類性能有著極其重要的影響。研究以比較常用、非線性映射能力較強(qiáng)的徑向基核函數(shù)[10](RBF Kernel)為例,利用UCI數(shù)據(jù)庫中Sonar分類數(shù)據(jù)(共208個(gè)樣本)進(jìn)行試驗(yàn),將Sonar數(shù)據(jù)集中的全部數(shù)據(jù)作為訓(xùn)練樣本對(duì)RVM分類模型進(jìn)行訓(xùn)練,同時(shí)也將全部數(shù)據(jù)作為測試樣本輸入已訓(xùn)練的RVM模型中進(jìn)行學(xué)習(xí)能力測試。核參數(shù)值與相關(guān)向量(RVs)和訓(xùn)練時(shí)間的關(guān)系如表1所示。
根據(jù)表1可知,隨著核函數(shù)參數(shù)逐漸增大,相關(guān)向量的數(shù)量呈現(xiàn)逐漸下降的趨勢,不同核參數(shù)所對(duì)應(yīng)的訓(xùn)練時(shí)間不同,為進(jìn)一步說明核函數(shù)參數(shù)對(duì)RVM性能的影響,圖1給出了分類準(zhǔn)確率隨著核參數(shù)的變化趨勢。
由圖1和表1可知,改變核函數(shù)參數(shù)實(shí)際上是改變映射函數(shù)關(guān)系,進(jìn)而改變數(shù)據(jù)樣本映射到高維特征空間的可區(qū)分程度,所以核參數(shù)的選取對(duì)RVM性能有較大程度的影響,同時(shí)也只有選擇適當(dāng)?shù)暮藚?shù),RVM的學(xué)習(xí)能力和泛化能力才能得到提升。
2 LFOA-RVM核參數(shù)優(yōu)化方法
2.1 LFOA算法
LFOA算法是將Levy飛行特征和果蠅算法相結(jié)合,利用Levy飛行的高度隨機(jī)性使果蠅種群容易跳出局部最優(yōu),LFOA算法的具體步驟參見文獻(xiàn)[7]。
LFOA算法在尋優(yōu)過程中,分別計(jì)算果蠅個(gè)體與當(dāng)代最優(yōu)個(gè)體和最差個(gè)體的歐式距離Distbest和Distworst,若Distbest<Distworst,則將果蠅個(gè)體劃分到較優(yōu)子群,否則劃分為較差子群,迭代過程中,兩個(gè)子群的果蠅個(gè)體數(shù)量是動(dòng)態(tài)變化的。較優(yōu)子群圍繞最優(yōu)個(gè)體按式(9)進(jìn)行Levy飛行:
2.2 LFOA-RVM優(yōu)化核參數(shù)流程
基于LFOA算法優(yōu)化RVM核參數(shù)的流程如圖2所示,具體步驟如下:
(1)將數(shù)據(jù)集分為訓(xùn)練樣本和測試樣本,訓(xùn)練樣本用于RVM核參數(shù)選擇和建立RVM分類模型,測試樣本則用于檢驗(yàn)RVM分類器性能;
(2)初始化LFOA算法種群規(guī)模、迭代次數(shù)、果蠅個(gè)體起始位置和搜索距離以及Levy飛行步進(jìn)長度等參數(shù);
(3)對(duì)訓(xùn)練樣本采用5折交叉驗(yàn)證[11](5-fold cross validation),將交叉驗(yàn)證平均準(zhǔn)確率作為適應(yīng)度函數(shù),選擇最大準(zhǔn)確率對(duì)應(yīng)的核參數(shù)值作為RVM分類模型參數(shù)的設(shè)定值;
(4)根據(jù)果蠅個(gè)體的適應(yīng)度,按照與最優(yōu)個(gè)體和最差個(gè)體間的歐氏距離大小將果蠅分類,并按式(9)和式(10)進(jìn)行位置更新;
(5)計(jì)算新位置果蠅的適應(yīng)度,按照規(guī)則更新全局信息;
(6)重復(fù)步驟(4)和(5),最終輸出最優(yōu)核參數(shù)值。
3 仿真實(shí)驗(yàn)
3.1 數(shù)據(jù)源與參數(shù)設(shè)置
為了驗(yàn)證LFOA-RVM的有效性,從UCI機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)庫中選取了4個(gè)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)。算法采用MATLAB R2011b實(shí)現(xiàn),RVM工具箱為SB2_Release_200[12],實(shí)驗(yàn)中使用的UCI數(shù)據(jù)集如表2所示。
為了便于對(duì)比,分別利用LFOA、FOA、遺傳算法(GA)和粒子群算法(PSO)同時(shí)對(duì)RVM的核參數(shù)進(jìn)行尋優(yōu)。將全部算法的種群規(guī)模設(shè)置為20,最大迭代次數(shù)為100,g的搜索范圍設(shè)置為0~500;在LFOA算法中步進(jìn)長度設(shè)置為1.5;GA算法中,交叉概率pc=0.7,變異概率pm=0.1;PSO算法中局部搜索參數(shù)c1=1.5,全局搜索參數(shù)c2=1.7。
3.2 結(jié)果分析
利用表2中的4組數(shù)據(jù)按照2.2節(jié)所述的優(yōu)化流程對(duì)LFOA-RVM性能進(jìn)行測試,尋優(yōu)迭代過程中的適應(yīng)度曲線如圖3所示。
根據(jù)圖3可知,F(xiàn)OA、GA和PSO算法在尋優(yōu)時(shí)都不同程度的出現(xiàn)了陷入局部最優(yōu)解而無法跳出的情況,與以上3種算法相比,LFOA由于Levy飛行高度的隨機(jī)性從而更容易跳出局部最優(yōu),并且適應(yīng)度更高,尋優(yōu)速度更快。
4組數(shù)據(jù)集測試樣本的測試結(jié)果如表3~6所示。在表3~6中,平均準(zhǔn)確率為使用數(shù)據(jù)集進(jìn)行5次實(shí)驗(yàn)后得到的平均測試準(zhǔn)確率;最高準(zhǔn)確率為實(shí)驗(yàn)過程中得到的最高測試準(zhǔn)確率;最優(yōu)核參數(shù)為達(dá)到最高測試準(zhǔn)確率時(shí)RVM分類模型核函數(shù)參數(shù)的值。
根據(jù)測試結(jié)果可知,LFOA-RVM不論是解決二分類問題或者是多分類問題,都可以達(dá)到較高的測試準(zhǔn)確率,并且4組UCI數(shù)據(jù)集的最優(yōu)核參數(shù)值跨度較大,表明了LFOA算法具備較強(qiáng)的全局搜索能力,驗(yàn)證了利用LFOA算法進(jìn)行RVM核參數(shù)尋優(yōu)的有效性。為了便于比較各算法的尋優(yōu)穩(wěn)定性,計(jì)算出多次實(shí)驗(yàn)的測試結(jié)果方差,如表7所示。
由表7可知,Ionosphere、Wine和Segment數(shù)據(jù)集進(jìn)行多次測試,LFOA算法所得的方差小于其他幾種算法,Vehicle數(shù)據(jù)集中LFOA測試結(jié)果的方差雖略大于FOA,但明顯小于其他兩種算法,表明了LFOA-RVM測試結(jié)果的波動(dòng)程度較小,驗(yàn)證了該方法具有較高的尋優(yōu)穩(wěn)定性;LFOA結(jié)合了FOA算法局部尋優(yōu)精度高與Levy飛行容易跳出局部最優(yōu)值的優(yōu)勢,提高了全局搜索能力,所以與FOA、GA和PSO 3種算法相比,LFOA算法搜索精度更高,性能更穩(wěn)定。綜合以上分析可知,LFOA算法可較精確地搜索RVM的最優(yōu)核參數(shù),并能達(dá)到較高的測試準(zhǔn)確率,較其他幾種算法而言,具備一定優(yōu)勢。
4 結(jié)論
RVM核函數(shù)參數(shù)的選取對(duì)其分類性能有著顯著的影響。針對(duì)這一問題,本文采用LFOA算法對(duì)RVM核參數(shù)進(jìn)行尋優(yōu),通過幾個(gè)典型的UCI數(shù)據(jù)集進(jìn)行測試,得出該算法可較精確地搜索到RVM的最優(yōu)核參數(shù),具備較強(qiáng)的局部尋優(yōu)精度和全局搜索能力,有效地提高了RVM分類模型的性能。相比于傳統(tǒng)的果蠅算法、遺傳算法和粒子群算法具有更高的尋優(yōu)精度和穩(wěn)定性,為選取最優(yōu)RVM核函數(shù)參數(shù)提供了一種新方法、新途徑。
參考文獻(xiàn)
[1] TIPPING M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,1(3):211-244.
[2] 范庚,馬登武,張繼軍,等.基于決策樹和相關(guān)向量機(jī)的智能故障診斷方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(14):267-270.
[3] 張旭峰,楊豐瑞,鄭建宏.基于RVM的可重用性SoC測試平臺(tái)設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2006,32(5):82-84.
[4] 陳景柱.布谷鳥優(yōu)化混合核相關(guān)向量機(jī)的網(wǎng)絡(luò)流量預(yù)測[J].計(jì)算機(jī)與現(xiàn)代化,2015(5):94-97.
[5] PAN W T.A new fruit fly optimization algorithm:Taking the financial distress model as an example[J].Knowledge-Based Systems,2012,26(Complete):69-74.
[6] 劉翠玲,張路路,王進(jìn)旗,等.基于FOA-GRNN油井計(jì)量原油含水率的預(yù)測[J].計(jì)算機(jī)仿真,2012,29(11):243-246.
[7] 張前圖,房立清,趙玉龍.具有Levy飛行特征的雙子群果蠅優(yōu)化算法[J].計(jì)算機(jī)應(yīng)用,2015,35(5):1348-1352.
[8] 任學(xué)平,龐震,辛向志,等.基于小波包最優(yōu)熵與RVM的滾動(dòng)軸承故障診斷方法[J].軸承,2014(11):48-53.
[9] 周勇,何創(chuàng)新.基于獨(dú)立特征選擇與相關(guān)向量機(jī)的變載荷軸承故障診斷[J].振動(dòng)與沖擊,2012,31(3):157-161.
[10] 姚全珠,蔡婕.基于PSO的LS-SVM特征選擇與參數(shù)優(yōu)化算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(1):134-136.
[11] 姚暢,陳后金,YANG Y Y,等.基于自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)的乳腺X線圖像微鈣化點(diǎn)簇處理方法研究[J].物理學(xué)報(bào),2013,62(8):1-11.
[12] TIPPING M E.An efficient MATLAB implementation of the sparse Bayesian modelling algorithm[CP/OL].(2009-03-12)[2016-05-10].http://www.Relevancevector.com.
作者信息:
呂 巖,房立清,趙玉龍,張前圖
(軍械工程學(xué)院 火炮工程系,河北 石家莊050003)