文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.170174
中文引用格式: 武海燕,李衛(wèi)平. 結(jié)合本征分解和抽樣學(xué)習(xí)的快速SVM分類器[J].電子技術(shù)應(yīng)用,2017,43(9):141-145.
英文引用格式: Wu Haiyan,Li Weiping. A fast SVM classifier combined with Eigen decomposition and sample-learning[J].Application of Electronic Technique,2017,43(9):141-145.
0 引言
在數(shù)據(jù)挖掘、圖像分類、目標(biāo)識(shí)別等領(lǐng)域,經(jīng)常需要對(duì)不同的數(shù)據(jù)進(jìn)行分類。常用的策略是,先對(duì)已有的數(shù)據(jù)和先驗(yàn)知識(shí)進(jìn)行學(xué)習(xí)并構(gòu)造一個(gè)分類器,然后再采用分類器對(duì)待分類數(shù)據(jù)進(jìn)行分類。分類器也可以看作是一個(gè)數(shù)據(jù)映射函數(shù),可以將待分類數(shù)據(jù)映射到數(shù)據(jù)庫中的某一個(gè)給定的類別[1-3]。通常,數(shù)據(jù)分類方法統(tǒng)稱為分類器。目前,常用的分類器有五類:(1)樸素貝葉斯分類器,該分類器具有收斂速度快的優(yōu)點(diǎn),對(duì)樣本數(shù)量要求不高,可以適用于小樣本的學(xué)習(xí)。但是,該分類假設(shè)數(shù)據(jù)條件獨(dú)立,難以有效學(xué)習(xí)數(shù)據(jù)之間的關(guān)聯(lián)信息[4];(2)邏輯回歸分類器,該分類器的最大優(yōu)點(diǎn)是支持增量學(xué)習(xí),當(dāng)分類器構(gòu)建完畢之后,后續(xù)如果又有了新樣本需要學(xué)習(xí),可以采用在線梯度下降方法在原有分類器的基礎(chǔ)上快速學(xué)習(xí)新的數(shù)據(jù),而且,該分類器的正則化模型較多,不要求數(shù)據(jù)之間相互獨(dú)立,但是該分類器的分類性能目前表現(xiàn)還不是很突出[5];(3)決策樹分類器,該分類器首先需要構(gòu)建一個(gè)屬性集合,決策樹基于屬性集合來做出一系列的決策,實(shí)現(xiàn)數(shù)據(jù)的分類。該分類器易于處理數(shù)據(jù)間的關(guān)聯(lián)信息,不限制數(shù)據(jù)是否異?;蛘呔€性可分。缺點(diǎn)是容易發(fā)生過擬合現(xiàn)象[6];(4)神經(jīng)網(wǎng)絡(luò)分類器,該分類器也對(duì)輸入數(shù)據(jù)沒有嚴(yán)格的要求,網(wǎng)絡(luò)的構(gòu)建比較靈活,但涉及參數(shù)較多,運(yùn)算效率偏低[7];(5)支持向量機(jī)(Support Vector Machine,SVM)分類器,該分類器為過擬合提供了好的理論保證,泛化能力較強(qiáng),對(duì)于小樣本的學(xué)習(xí)尤其有效,分類效果較好。該分類器在學(xué)習(xí)非線性可分?jǐn)?shù)據(jù)時(shí),需要先將數(shù)據(jù)映射到高維空間,使得高維空間的數(shù)據(jù)線性可分。常采用核函數(shù)來完成數(shù)據(jù)由低維到高維的映射[8]。然而,當(dāng)數(shù)據(jù)維數(shù)較高時(shí),核變換的復(fù)雜度較高,導(dǎo)致SVM的運(yùn)算效率偏低。
為了提高SVM分類器的運(yùn)算效率,本文提出一種結(jié)合本征分解和抽樣學(xué)習(xí)改進(jìn)的快速SVM分類器,通過本征分解方法來降低低維空間向高維空間變換時(shí)核矩陣的維數(shù),通過對(duì)訓(xùn)練樣本進(jìn)行抽樣學(xué)習(xí)來降低數(shù)據(jù)處理量,提高SVM分類器的運(yùn)算效率。
1 SVM概述
SVM是一種應(yīng)用廣泛的分類器,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原理進(jìn)行學(xué)習(xí),具有泛化能力強(qiáng)的優(yōu)點(diǎn),可以有效解決小樣本的學(xué)習(xí)難題,在高維特征分類領(lǐng)域也有優(yōu)勢(shì)。
依據(jù)訓(xùn)練數(shù)據(jù)的不同,可以將SVM分為線性SVM和非線性SVM兩類,下面進(jìn)行簡(jiǎn)要介紹。
1.1 線性SVM
當(dāng)訓(xùn)練數(shù)據(jù)線性可分時(shí),可以采用線性SVM學(xué)習(xí)一個(gè)最優(yōu)的分類面來進(jìn)行分類。SVM的基本原理是:最優(yōu)分類面既要能將兩類樣本正確分開,又要使得分類間隔最大。
SVM的學(xué)習(xí)可以看作一個(gè)最優(yōu)化問題,可以表示為:
1.2 非線性SVM
當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),可以采用非線性SVM學(xué)習(xí)一個(gè)最優(yōu)分類面。通常的解決方法是:采用一個(gè)非線性的映射函數(shù)將低維空間上線性不可分的數(shù)據(jù)映射到高維空間上,變成線性可分的數(shù)據(jù)。依據(jù)Hilbert-Schmidt原理,滿足Mercer條件的核函數(shù)可以代替高維空間上的點(diǎn)積運(yùn)算。因此,這里的關(guān)鍵是選擇一個(gè)合適的核函數(shù)來進(jìn)行數(shù)據(jù)映射。核函數(shù)可以表示為:
其中,f(·)表示映射函數(shù),用于表示將低維空間上的數(shù)據(jù)映射到高維的核空間F上??梢姡撕瘮?shù)k(xi,xj)可以用高維空間上數(shù)據(jù)的乘積運(yùn)算來代替低維空間上數(shù)據(jù)的點(diǎn)積運(yùn)算。
常用的核函數(shù)主要有3個(gè),包括:
(1)徑向基函數(shù)(Radial Basis Function,RBF),可以表示為:
2 改進(jìn)的非線性SVM
數(shù)據(jù)的核變換可以構(gòu)建一個(gè)核矩陣K∈RN×N,表示為:
其中,F(xiàn)是指數(shù)據(jù)x映射到核空間F上的數(shù)據(jù)集,可以表示為:
當(dāng)數(shù)據(jù)維數(shù)較高時(shí),核變換的運(yùn)算效率偏低。為了提高核運(yùn)算效率,本文考慮對(duì)核矩陣進(jìn)行降維處理??紤]到核矩陣K為正半定矩陣,通常可以通過本征分解來進(jìn)行降維。因此,對(duì)于核空間F上的數(shù)據(jù)集F,可以分解為:
其中,L是由矩陣F的特征值構(gòu)建的對(duì)角矩陣。這里,特征值按照從大到小的順序降序排列。U為對(duì)應(yīng)的特征向量矩陣。
這樣,低維空間上的數(shù)據(jù)x映射到高維空間之后對(duì)應(yīng)的n維向量可以表示為:
計(jì)算整個(gè)核矩陣仍然非常耗時(shí),為了進(jìn)一步提高運(yùn)算效率,本文對(duì)訓(xùn)練子集進(jìn)行劃分,隨機(jī)挑選包含n個(gè)訓(xùn)練樣本的子集來計(jì)算K的子矩陣,表示為:
3 實(shí)驗(yàn)與分析
分類器在圖像分類領(lǐng)域應(yīng)用非常普遍,因此,本節(jié)通過圖像分類實(shí)驗(yàn)來測(cè)試和評(píng)價(jià)本文所述的改進(jìn)SVM分類器的性能。
3.1 圖像分類實(shí)驗(yàn)流程
圖像分類的基本流程如圖1所示。主要包括兩個(gè)階段:(1)分類器訓(xùn)練階段,主要是對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取,依據(jù)先驗(yàn)的圖像類別標(biāo)簽來進(jìn)行分類器的訓(xùn)練;(2)圖像分類階段,對(duì)于待分類的圖像,先要提取圖像特征,然后結(jié)合訓(xùn)練階段得到的分類器估計(jì)特征所屬的類別,得到圖像分類結(jié)果。
其中,特征提取和特征分類是圖像分類的關(guān)鍵環(huán)節(jié)。特征提取是對(duì)圖像的抽象描述,常用的特征有Haar[9]、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[10]、局部二元模式(Local Binary Pattern,LBP)[11]和尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)[12]等,本文將在后續(xù)實(shí)驗(yàn)中對(duì)不同的特征進(jìn)行定量評(píng)測(cè),進(jìn)而選擇最有效的特征進(jìn)行圖像分類。特征分類是本文的研究重點(diǎn),本文所述方法是一種改進(jìn)的SVM分類器,因此后續(xù)實(shí)驗(yàn)著重是將本文改進(jìn)的SVM分類器與經(jīng)典SVM分類器以及目前常用的一些分類器進(jìn)行性能對(duì)比,具體將在后續(xù)實(shí)驗(yàn)部分詳述。
3.2 實(shí)驗(yàn)數(shù)據(jù)集
圖像分類領(lǐng)域的公開測(cè)試的數(shù)據(jù)集比較多,本文選用目前常用的兩個(gè)測(cè)試數(shù)據(jù)集,分別是PASCAL VOC-2007和COIL-100數(shù)據(jù)集,簡(jiǎn)要介紹如下。
(1)PASCAL VOC-2007數(shù)據(jù)集
該數(shù)據(jù)集包含20個(gè)類別的目標(biāo)圖像,這些目標(biāo)存在尺度、視角和光照方面的變化,數(shù)據(jù)集包含的圖像總數(shù)為9 963幅,其中訓(xùn)練子集中包含圖像5 011幅,測(cè)試子集中包含圖像4 592幅。
(2)COIL-100數(shù)據(jù)集
該數(shù)據(jù)集包含100個(gè)類別的目標(biāo)圖像,目標(biāo)也存在尺度、視角及光照方面的變化,圖像數(shù)量為7 200幅,其中訓(xùn)練子集中包含圖像800幅,測(cè)試子集中包含圖像6 400幅。
后續(xù)對(duì)比不同的特征提取和分類方法時(shí),分別在上述兩個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,在相同的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上統(tǒng)計(jì)各種方法的性能指標(biāo),以便于驗(yàn)證本文方法的性能。
3.3 性能評(píng)價(jià)指標(biāo)
本文實(shí)驗(yàn)的目的主要用于評(píng)價(jià)改進(jìn)SVM分類器的分類正確率和運(yùn)算效率。因此,這里的圖像分類實(shí)驗(yàn)選用3個(gè)性能評(píng)價(jià)指標(biāo),分別是分類正確率、訓(xùn)練耗時(shí)和平均分類耗時(shí)。其中,分類正確率可以用分類正確的圖像總數(shù)與測(cè)試數(shù)據(jù)集中的圖像總數(shù)的比值來表示,記為AR。訓(xùn)練耗時(shí)指兩個(gè)數(shù)據(jù)集的整個(gè)訓(xùn)練過程所耗費(fèi)的總時(shí)間,記為TT。平均分類耗時(shí)可以用所有測(cè)試圖像的分類耗時(shí)與圖像數(shù)量的比值來表示,記為TC。需要說明的是:分類耗時(shí)與計(jì)算機(jī)平臺(tái)性能有關(guān)。實(shí)驗(yàn)時(shí)不同方法使用相同的計(jì)算機(jī)平臺(tái)進(jìn)行測(cè)試。所有計(jì)算機(jī)平臺(tái)的性能參數(shù)為:3.2 GHz四核 Intel I5 CPU、16G DDR3內(nèi)存、Windows 7 32位操作系統(tǒng)、Visual Studio 2010開發(fā)環(huán)境。
3.4 實(shí)驗(yàn)結(jié)果與對(duì)比分析
3.4.1 特征選擇對(duì)比
下面首先對(duì)比采用不同特征時(shí)兩個(gè)數(shù)據(jù)集的圖像征分類性能指標(biāo),其中,圖2展示了分別采用Haar、HOG、LBP和SIFT 4種特征時(shí)的圖像分類結(jié)果,分類器采用的是本文改進(jìn)的SVM分類器。其中,改進(jìn)SVM分類器所用的核函數(shù)為徑向基函數(shù),參數(shù)σ取值為0.5。
由圖2可見,在分類器相同的條件下,采用SIFT特征在兩個(gè)數(shù)據(jù)集上測(cè)試所得的圖像分類正確率指標(biāo)都高于其他3種特征。這說明SIFT特征優(yōu)于其他3種特征,因此,后續(xù)的實(shí)驗(yàn)中在特征提取階段都采用SIFT特征對(duì)圖像進(jìn)行描述。
3.4.2 核函數(shù)選擇對(duì)比
本文1.2節(jié)列出了3種常用的核函數(shù),分別是徑向基函數(shù)(RBF)、二層神經(jīng)網(wǎng)絡(luò)函數(shù)(Sigmoid)和多項(xiàng)式函數(shù)(Polynomial)。采用的核函數(shù)不同,所得到的圖像分類結(jié)果也不同。圖3展示了分別采用3種不同的核函數(shù)時(shí)得到的圖像分類正確率指標(biāo),其中,圖3(a)采用的是經(jīng)典的SVM分類器,詳見文獻(xiàn)[8];圖3(b)采用的是本文改進(jìn)的SVM分類器。
由圖3(a)和圖3(b)可見,對(duì)于兩個(gè)不同的數(shù)據(jù)集,不論是采用經(jīng)典的SVM分類器還是采用本文改進(jìn)的SVM分類器,都可以看出采用徑向基函數(shù)作為核函數(shù)得到的圖像分類正確率指標(biāo)高于其他兩種核函數(shù),因此,后續(xù)實(shí)驗(yàn)中經(jīng)典SVM分類器和本文改進(jìn)的SVM分類器都選擇徑向基函數(shù)作為核函數(shù)。
3.4.3 分類器對(duì)比
為了驗(yàn)證本文改進(jìn)的SVM分類器的性能,下面采用不同的分類器進(jìn)行對(duì)比實(shí)驗(yàn)。圖4展示了分別采用經(jīng)典SVM分類器、隨機(jī)森林分類器、神經(jīng)網(wǎng)絡(luò)分類器和本文改進(jìn)的SVM分類器得到的圖像分類正確率指標(biāo)。表1展示了對(duì)應(yīng)的平均分類耗時(shí)指標(biāo)。
由圖4可見,本文改進(jìn)的SVM分類器得到的圖像分類正確率指標(biāo)略高于經(jīng)典的SVM分類器,明顯高于隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器。這說明,相對(duì)于隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器,SVM分類器的泛化能力更強(qiáng),更適用于圖像分類。同時(shí),改進(jìn)的SVM采用本征分解降低了噪聲干擾,相對(duì)于經(jīng)典SVM分類器其圖像分類正確率指標(biāo)略有提升。由表1可見,本文改進(jìn)的SVM分類器的訓(xùn)練耗時(shí)明顯低于其他3種分類器,平均分類耗時(shí)也明顯低于經(jīng)典SVM分類器和神經(jīng)網(wǎng)絡(luò)分類器,略高于隨機(jī)森林分類器。這說明,通過降維和抽樣處理,可以明顯提高SVM分類器的分類耗時(shí)。因此,綜合評(píng)價(jià),本文改進(jìn)的SVM分類器不僅提高了運(yùn)算效率,而且提高了分類正確率。
4 結(jié)束語
為了提高經(jīng)典支持向量機(jī)分類器的運(yùn)算效率,本文提出了一種結(jié)合本征分解和抽樣學(xué)習(xí)改進(jìn)的快速SVM分類器。主要是針對(duì)低維空間向高維空間變換時(shí)核矩陣運(yùn)算效率低的問題進(jìn)行改進(jìn):對(duì)核矩陣進(jìn)行降維處理,采用本征分解方法得到核矩陣的近似表示,提高核矩陣的運(yùn)算效率;在表示低維的核矩陣時(shí),采用抽樣學(xué)習(xí)的思想,先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行劃分,隨機(jī)抽樣一個(gè)數(shù)量很小的訓(xùn)練樣本子集進(jìn)行學(xué)習(xí),進(jìn)一步降低了數(shù)據(jù)量,進(jìn)而提高了SVM分類器的運(yùn)算效率。
經(jīng)過優(yōu)化,不僅提高了SVM分類器的運(yùn)算效率,也進(jìn)一步強(qiáng)化了SVM分類器的泛化能力。通過將改進(jìn)的SVM分類器與經(jīng)典的SVM分類器以及常用的隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行圖像分類對(duì)比實(shí)驗(yàn),證明了改進(jìn)的SVM分類器不僅分類正確率高于經(jīng)典SVM、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器,而且訓(xùn)練耗時(shí)最少,平均分類耗時(shí)也優(yōu)于經(jīng)典SVM分類器,是一種快速可靠的分類器。
參考文獻(xiàn)
[1] LIU Q.Kernel local sparse representation based classifier[J].Neural Processing Letters,2016,43(1):123-137.
[2] 楊春,殷緒成,郝紅衛(wèi),等.基于差異性的分類器集成:有效性分析及優(yōu)化集成[J].自動(dòng)化學(xué)報(bào),2014,40(4):660-674.
[3] LIAN C,SU R,DEN?覹UX T.An evidential classifier based on feature selection and two-step classification strategy[J].Pattern Recognition,2015,48(7):2318-2327.
[4] 王雙成,高瑞,杜瑞杰.基于高斯核函數(shù)的樸素貝葉斯分類器依賴擴(kuò)展[J].控制與決策,2015,30(12):2280-2284.
[5] 郭華平,董亞東,鄔長(zhǎng)安,等.面向類不平衡的邏輯回歸方法[J].模式識(shí)別與人工智能,2015,28(8):686-693.
[6] PUISSANT A,ROUGIER S,STUMPF A.Object-oriented mapping of urban trees using Random Forest classifiers[J].International Journal of Applied Earth Observation & Geoinformation,2014,26(1):235-245.
[7] SUJAY R N,DEKA P C.Support vector machine applications in the field of hydrology:A review[J].Applied Soft Computing,2014,19(6):372-386.
[8] CHAI R,LING S H,HUNTER G P,et al.Brain-computer interface classifier for wheelchair commands using neural network with fuzzy particle swarm optimization[J].IEEE Journal of Biomedical & Health Informatics,2014,18(5):1614-1624.
[9] Chang Zheng,Ban Xiaojuan,Wang Yu.Fatigue driving detection based on Haar feature and extreme learning machine[J].Journal of China Universities of Posts & Telecommunications,2016,23(4):91-100.
[10] YANG X, DI T.Research on mean-shift target tracking based on image HOG feature[J].Open Automation & Control Systems Journal,2015,7(1):1022-1028.
[11] CIOCCA G,CUSANO C,SCHETTINI R.Image orientation detection using LBP-based features and logistic regression[J].Multimedia Tools and Applications,2015,74(9):3013-3034.
[12] GHOUALMI L,CHIKHI S,DRAA A.A SIFT-based feature level fusion of iris and ear biometrics[C].Multimodal Pattern Recognition of Social Signals in Human-Computer-Interaction(MPRSS 2014),2014:102-112.
作者信息:
武海燕1,李衛(wèi)平1,2
(1.鐵道警察學(xué)院 公安技術(shù)系,河南 鄭州450000;2.武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢430070)