《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 結(jié)合本征分解和抽樣學(xué)習(xí)的快速SVM分類器
結(jié)合本征分解和抽樣學(xué)習(xí)的快速SVM分類器
2017年電子技術(shù)應(yīng)用第9期
武海燕1,李衛(wèi)平1,2
1.鐵道警察學(xué)院 公安技術(shù)系,河南 鄭州450000;2.武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢430070
摘要: 為了提高經(jīng)典支持向量機(jī)(SVM)分類器的運(yùn)算效率,提出一種改進(jìn)的快速SVM分類器。針對(duì)低維空間向高維空間變換時(shí)核矩陣運(yùn)算效率低的問題,采用本征分解方法對(duì)核矩陣進(jìn)行降維處理,得到核矩陣的近似表示;同時(shí),對(duì)訓(xùn)練子集進(jìn)行劃分,隨機(jī)抽樣訓(xùn)練樣本進(jìn)行學(xué)習(xí),進(jìn)一步提高SVM分類器的運(yùn)算效率。圖像分類實(shí)驗(yàn)結(jié)果表明,改進(jìn)的SVM分類器不僅分類正確率高于經(jīng)典SVM、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器,而且訓(xùn)練耗時(shí)最少,平均分類耗時(shí)也低于經(jīng)典SVM分類器。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.170174
中文引用格式: 武海燕,李衛(wèi)平. 結(jié)合本征分解和抽樣學(xué)習(xí)的快速SVM分類器[J].電子技術(shù)應(yīng)用,2017,43(9):141-145.
英文引用格式: Wu Haiyan,Li Weiping. A fast SVM classifier combined with Eigen decomposition and sample-learning[J].Application of Electronic Technique,2017,43(9):141-145.
A fast SVM classifier combined with Eigen decomposition and sample-learning
Wu Haiyan1,Li Weiping1,2
1.Department of Public Security Technology,Railway Police College,Zhengzhou 450000,China; 2.School of Information Engineering,Wuhan University of Technology,Wuhan 430070,China
Abstract: In order to improve the efficiency of classic support vector machine(SVM) classifier, an improved fast SVM classifier is proposed. For solving the low efficiency problem of kernel matrix operations in the process of transforming low-dimensional space to high-dimensional one, it uses Eigen decomposition method to reduce the dimension of kernel matrix and obtains the approximate representation of the kernel matrix. Meanwhile, it divides the training subset and random sample the subset for learning, further improves the efficiency of SVM classifier. Experimental results of image classification show that, the improved SVM classifier has not only higher accuracy classification rate than classic SVM, random forests and neural network classifiers, but also least time-consuming on training, and less mean classification time-consuming than classical SVM classifier.
Key words : support vector machine;Eigen decomposition;kernel matrix;radial basis function;image classification

0 引言

    在數(shù)據(jù)挖掘、圖像分類、目標(biāo)識(shí)別等領(lǐng)域,經(jīng)常需要對(duì)不同的數(shù)據(jù)進(jìn)行分類。常用的策略是,先對(duì)已有的數(shù)據(jù)和先驗(yàn)知識(shí)進(jìn)行學(xué)習(xí)并構(gòu)造一個(gè)分類器,然后再采用分類器對(duì)待分類數(shù)據(jù)進(jìn)行分類。分類器也可以看作是一個(gè)數(shù)據(jù)映射函數(shù),可以將待分類數(shù)據(jù)映射到數(shù)據(jù)庫中的某一個(gè)給定的類別[1-3]。通常,數(shù)據(jù)分類方法統(tǒng)稱為分類器。目前,常用的分類器有五類:(1)樸素貝葉斯分類器,該分類器具有收斂速度快的優(yōu)點(diǎn),對(duì)樣本數(shù)量要求不高,可以適用于小樣本的學(xué)習(xí)。但是,該分類假設(shè)數(shù)據(jù)條件獨(dú)立,難以有效學(xué)習(xí)數(shù)據(jù)之間的關(guān)聯(lián)信息[4];(2)邏輯回歸分類器,該分類器的最大優(yōu)點(diǎn)是支持增量學(xué)習(xí),當(dāng)分類器構(gòu)建完畢之后,后續(xù)如果又有了新樣本需要學(xué)習(xí),可以采用在線梯度下降方法在原有分類器的基礎(chǔ)上快速學(xué)習(xí)新的數(shù)據(jù),而且,該分類器的正則化模型較多,不要求數(shù)據(jù)之間相互獨(dú)立,但是該分類器的分類性能目前表現(xiàn)還不是很突出[5];(3)決策樹分類器,該分類器首先需要構(gòu)建一個(gè)屬性集合,決策樹基于屬性集合來做出一系列的決策,實(shí)現(xiàn)數(shù)據(jù)的分類。該分類器易于處理數(shù)據(jù)間的關(guān)聯(lián)信息,不限制數(shù)據(jù)是否異?;蛘呔€性可分。缺點(diǎn)是容易發(fā)生過擬合現(xiàn)象[6];(4)神經(jīng)網(wǎng)絡(luò)分類器,該分類器也對(duì)輸入數(shù)據(jù)沒有嚴(yán)格的要求,網(wǎng)絡(luò)的構(gòu)建比較靈活,但涉及參數(shù)較多,運(yùn)算效率偏低[7];(5)支持向量機(jī)(Support Vector Machine,SVM)分類器,該分類器為過擬合提供了好的理論保證,泛化能力較強(qiáng),對(duì)于小樣本的學(xué)習(xí)尤其有效,分類效果較好。該分類器在學(xué)習(xí)非線性可分?jǐn)?shù)據(jù)時(shí),需要先將數(shù)據(jù)映射到高維空間,使得高維空間的數(shù)據(jù)線性可分。常采用核函數(shù)來完成數(shù)據(jù)由低維到高維的映射[8]。然而,當(dāng)數(shù)據(jù)維數(shù)較高時(shí),核變換的復(fù)雜度較高,導(dǎo)致SVM的運(yùn)算效率偏低。

    為了提高SVM分類器的運(yùn)算效率,本文提出一種結(jié)合本征分解和抽樣學(xué)習(xí)改進(jìn)的快速SVM分類器,通過本征分解方法來降低低維空間向高維空間變換時(shí)核矩陣的維數(shù),通過對(duì)訓(xùn)練樣本進(jìn)行抽樣學(xué)習(xí)來降低數(shù)據(jù)處理量,提高SVM分類器的運(yùn)算效率。

1 SVM概述

    SVM是一種應(yīng)用廣泛的分類器,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原理進(jìn)行學(xué)習(xí),具有泛化能力強(qiáng)的優(yōu)點(diǎn),可以有效解決小樣本的學(xué)習(xí)難題,在高維特征分類領(lǐng)域也有優(yōu)勢(shì)。

    依據(jù)訓(xùn)練數(shù)據(jù)的不同,可以將SVM分為線性SVM和非線性SVM兩類,下面進(jìn)行簡(jiǎn)要介紹。

1.1 線性SVM

    當(dāng)訓(xùn)練數(shù)據(jù)線性可分時(shí),可以采用線性SVM學(xué)習(xí)一個(gè)最優(yōu)的分類面來進(jìn)行分類。SVM的基本原理是:最優(yōu)分類面既要能將兩類樣本正確分開,又要使得分類間隔最大。

    SVM的學(xué)習(xí)可以看作一個(gè)最優(yōu)化問題,可以表示為:

jsj5-gs1-4.gif

1.2 非線性SVM

    當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),可以采用非線性SVM學(xué)習(xí)一個(gè)最優(yōu)分類面。通常的解決方法是:采用一個(gè)非線性的映射函數(shù)將低維空間上線性不可分的數(shù)據(jù)映射到高維空間上,變成線性可分的數(shù)據(jù)。依據(jù)Hilbert-Schmidt原理,滿足Mercer條件的核函數(shù)可以代替高維空間上的點(diǎn)積運(yùn)算。因此,這里的關(guān)鍵是選擇一個(gè)合適的核函數(shù)來進(jìn)行數(shù)據(jù)映射。核函數(shù)可以表示為:

    jsj5-gs5.gif

其中,f(·)表示映射函數(shù),用于表示將低維空間上的數(shù)據(jù)映射到高維的核空間F上??梢姡撕瘮?shù)k(xi,xj)可以用高維空間上數(shù)據(jù)的乘積運(yùn)算來代替低維空間上數(shù)據(jù)的點(diǎn)積運(yùn)算。

    常用的核函數(shù)主要有3個(gè),包括:

    (1)徑向基函數(shù)(Radial Basis Function,RBF),可以表示為:

jsj5-gs6-10.gif

2 改進(jìn)的非線性SVM

    數(shù)據(jù)的核變換可以構(gòu)建一個(gè)核矩陣K∈RN×N,表示為:

    jsj5-gs11.gif

其中,F(xiàn)是指數(shù)據(jù)x映射到核空間F上的數(shù)據(jù)集,可以表示為:

    jsj5-gs12.gif

    當(dāng)數(shù)據(jù)維數(shù)較高時(shí),核變換的運(yùn)算效率偏低。為了提高核運(yùn)算效率,本文考慮對(duì)核矩陣進(jìn)行降維處理??紤]到核矩陣K為正半定矩陣,通常可以通過本征分解來進(jìn)行降維。因此,對(duì)于核空間F上的數(shù)據(jù)集F,可以分解為:

    jsj5-gs13.gif

其中,L是由矩陣F的特征值構(gòu)建的對(duì)角矩陣。這里,特征值按照從大到小的順序降序排列。U為對(duì)應(yīng)的特征向量矩陣。

jsj5-gs14.gif

    這樣,低維空間上的數(shù)據(jù)x映射到高維空間之后對(duì)應(yīng)的n維向量可以表示為:

jsj5-gs15-16.gif

    計(jì)算整個(gè)核矩陣仍然非常耗時(shí),為了進(jìn)一步提高運(yùn)算效率,本文對(duì)訓(xùn)練子集進(jìn)行劃分,隨機(jī)挑選包含n個(gè)訓(xùn)練樣本的子集來計(jì)算K的子矩陣,表示為:

jsj5-gs17-29.gif

3 實(shí)驗(yàn)與分析

    分類器在圖像分類領(lǐng)域應(yīng)用非常普遍,因此,本節(jié)通過圖像分類實(shí)驗(yàn)來測(cè)試和評(píng)價(jià)本文所述的改進(jìn)SVM分類器的性能。

3.1 圖像分類實(shí)驗(yàn)流程

    圖像分類的基本流程如圖1所示。主要包括兩個(gè)階段:(1)分類器訓(xùn)練階段,主要是對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取,依據(jù)先驗(yàn)的圖像類別標(biāo)簽來進(jìn)行分類器的訓(xùn)練;(2)圖像分類階段,對(duì)于待分類的圖像,先要提取圖像特征,然后結(jié)合訓(xùn)練階段得到的分類器估計(jì)特征所屬的類別,得到圖像分類結(jié)果。

jsj5-t1.gif

    其中,特征提取和特征分類是圖像分類的關(guān)鍵環(huán)節(jié)。特征提取是對(duì)圖像的抽象描述,常用的特征有Haar[9]、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[10]、局部二元模式(Local Binary Pattern,LBP)[11]和尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)[12]等,本文將在后續(xù)實(shí)驗(yàn)中對(duì)不同的特征進(jìn)行定量評(píng)測(cè),進(jìn)而選擇最有效的特征進(jìn)行圖像分類。特征分類是本文的研究重點(diǎn),本文所述方法是一種改進(jìn)的SVM分類器,因此后續(xù)實(shí)驗(yàn)著重是將本文改進(jìn)的SVM分類器與經(jīng)典SVM分類器以及目前常用的一些分類器進(jìn)行性能對(duì)比,具體將在后續(xù)實(shí)驗(yàn)部分詳述。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

    圖像分類領(lǐng)域的公開測(cè)試的數(shù)據(jù)集比較多,本文選用目前常用的兩個(gè)測(cè)試數(shù)據(jù)集,分別是PASCAL VOC-2007和COIL-100數(shù)據(jù)集,簡(jiǎn)要介紹如下。

    (1)PASCAL VOC-2007數(shù)據(jù)集

    該數(shù)據(jù)集包含20個(gè)類別的目標(biāo)圖像,這些目標(biāo)存在尺度、視角和光照方面的變化,數(shù)據(jù)集包含的圖像總數(shù)為9 963幅,其中訓(xùn)練子集中包含圖像5 011幅,測(cè)試子集中包含圖像4 592幅。

    (2)COIL-100數(shù)據(jù)集

    該數(shù)據(jù)集包含100個(gè)類別的目標(biāo)圖像,目標(biāo)也存在尺度、視角及光照方面的變化,圖像數(shù)量為7 200幅,其中訓(xùn)練子集中包含圖像800幅,測(cè)試子集中包含圖像6 400幅。

    后續(xù)對(duì)比不同的特征提取和分類方法時(shí),分別在上述兩個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,在相同的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上統(tǒng)計(jì)各種方法的性能指標(biāo),以便于驗(yàn)證本文方法的性能。

3.3 性能評(píng)價(jià)指標(biāo)

    本文實(shí)驗(yàn)的目的主要用于評(píng)價(jià)改進(jìn)SVM分類器的分類正確率和運(yùn)算效率。因此,這里的圖像分類實(shí)驗(yàn)選用3個(gè)性能評(píng)價(jià)指標(biāo),分別是分類正確率、訓(xùn)練耗時(shí)和平均分類耗時(shí)。其中,分類正確率可以用分類正確的圖像總數(shù)與測(cè)試數(shù)據(jù)集中的圖像總數(shù)的比值來表示,記為AR。訓(xùn)練耗時(shí)指兩個(gè)數(shù)據(jù)集的整個(gè)訓(xùn)練過程所耗費(fèi)的總時(shí)間,記為TT。平均分類耗時(shí)可以用所有測(cè)試圖像的分類耗時(shí)與圖像數(shù)量的比值來表示,記為TC。需要說明的是:分類耗時(shí)與計(jì)算機(jī)平臺(tái)性能有關(guān)。實(shí)驗(yàn)時(shí)不同方法使用相同的計(jì)算機(jī)平臺(tái)進(jìn)行測(cè)試。所有計(jì)算機(jī)平臺(tái)的性能參數(shù)為:3.2 GHz四核 Intel I5 CPU、16G DDR3內(nèi)存、Windows 7 32位操作系統(tǒng)、Visual Studio 2010開發(fā)環(huán)境。

3.4 實(shí)驗(yàn)結(jié)果與對(duì)比分析

3.4.1 特征選擇對(duì)比

    下面首先對(duì)比采用不同特征時(shí)兩個(gè)數(shù)據(jù)集的圖像征分類性能指標(biāo),其中,圖2展示了分別采用Haar、HOG、LBP和SIFT 4種特征時(shí)的圖像分類結(jié)果,分類器采用的是本文改進(jìn)的SVM分類器。其中,改進(jìn)SVM分類器所用的核函數(shù)為徑向基函數(shù),參數(shù)σ取值為0.5。

jsj5-t2.gif

    由圖2可見,在分類器相同的條件下,采用SIFT特征在兩個(gè)數(shù)據(jù)集上測(cè)試所得的圖像分類正確率指標(biāo)都高于其他3種特征。這說明SIFT特征優(yōu)于其他3種特征,因此,后續(xù)的實(shí)驗(yàn)中在特征提取階段都采用SIFT特征對(duì)圖像進(jìn)行描述。

3.4.2 核函數(shù)選擇對(duì)比

    本文1.2節(jié)列出了3種常用的核函數(shù),分別是徑向基函數(shù)(RBF)、二層神經(jīng)網(wǎng)絡(luò)函數(shù)(Sigmoid)和多項(xiàng)式函數(shù)(Polynomial)。采用的核函數(shù)不同,所得到的圖像分類結(jié)果也不同。圖3展示了分別采用3種不同的核函數(shù)時(shí)得到的圖像分類正確率指標(biāo),其中,圖3(a)采用的是經(jīng)典的SVM分類器,詳見文獻(xiàn)[8];圖3(b)采用的是本文改進(jìn)的SVM分類器。

jsj5-t3.gif

    由圖3(a)和圖3(b)可見,對(duì)于兩個(gè)不同的數(shù)據(jù)集,不論是采用經(jīng)典的SVM分類器還是采用本文改進(jìn)的SVM分類器,都可以看出采用徑向基函數(shù)作為核函數(shù)得到的圖像分類正確率指標(biāo)高于其他兩種核函數(shù),因此,后續(xù)實(shí)驗(yàn)中經(jīng)典SVM分類器和本文改進(jìn)的SVM分類器都選擇徑向基函數(shù)作為核函數(shù)。

3.4.3 分類器對(duì)比

    為了驗(yàn)證本文改進(jìn)的SVM分類器的性能,下面采用不同的分類器進(jìn)行對(duì)比實(shí)驗(yàn)。圖4展示了分別采用經(jīng)典SVM分類器、隨機(jī)森林分類器、神經(jīng)網(wǎng)絡(luò)分類器和本文改進(jìn)的SVM分類器得到的圖像分類正確率指標(biāo)。表1展示了對(duì)應(yīng)的平均分類耗時(shí)指標(biāo)。

jsj5-t4.gif

jsj5-b1.gif

    由圖4可見,本文改進(jìn)的SVM分類器得到的圖像分類正確率指標(biāo)略高于經(jīng)典的SVM分類器,明顯高于隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器。這說明,相對(duì)于隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器,SVM分類器的泛化能力更強(qiáng),更適用于圖像分類。同時(shí),改進(jìn)的SVM采用本征分解降低了噪聲干擾,相對(duì)于經(jīng)典SVM分類器其圖像分類正確率指標(biāo)略有提升。由表1可見,本文改進(jìn)的SVM分類器的訓(xùn)練耗時(shí)明顯低于其他3種分類器,平均分類耗時(shí)也明顯低于經(jīng)典SVM分類器和神經(jīng)網(wǎng)絡(luò)分類器,略高于隨機(jī)森林分類器。這說明,通過降維和抽樣處理,可以明顯提高SVM分類器的分類耗時(shí)。因此,綜合評(píng)價(jià),本文改進(jìn)的SVM分類器不僅提高了運(yùn)算效率,而且提高了分類正確率。

4 結(jié)束語

    為了提高經(jīng)典支持向量機(jī)分類器的運(yùn)算效率,本文提出了一種結(jié)合本征分解和抽樣學(xué)習(xí)改進(jìn)的快速SVM分類器。主要是針對(duì)低維空間向高維空間變換時(shí)核矩陣運(yùn)算效率低的問題進(jìn)行改進(jìn):對(duì)核矩陣進(jìn)行降維處理,采用本征分解方法得到核矩陣的近似表示,提高核矩陣的運(yùn)算效率;在表示低維的核矩陣時(shí),采用抽樣學(xué)習(xí)的思想,先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行劃分,隨機(jī)抽樣一個(gè)數(shù)量很小的訓(xùn)練樣本子集進(jìn)行學(xué)習(xí),進(jìn)一步降低了數(shù)據(jù)量,進(jìn)而提高了SVM分類器的運(yùn)算效率。

    經(jīng)過優(yōu)化,不僅提高了SVM分類器的運(yùn)算效率,也進(jìn)一步強(qiáng)化了SVM分類器的泛化能力。通過將改進(jìn)的SVM分類器與經(jīng)典的SVM分類器以及常用的隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行圖像分類對(duì)比實(shí)驗(yàn),證明了改進(jìn)的SVM分類器不僅分類正確率高于經(jīng)典SVM、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)分類器,而且訓(xùn)練耗時(shí)最少,平均分類耗時(shí)也優(yōu)于經(jīng)典SVM分類器,是一種快速可靠的分類器。

參考文獻(xiàn)

[1] LIU Q.Kernel local sparse representation based classifier[J].Neural Processing Letters,2016,43(1):123-137.

[2] 楊春,殷緒成,郝紅衛(wèi),等.基于差異性的分類器集成:有效性分析及優(yōu)化集成[J].自動(dòng)化學(xué)報(bào),2014,40(4):660-674.

[3] LIAN C,SU R,DEN?覹UX T.An evidential classifier based on feature selection and two-step classification strategy[J].Pattern Recognition,2015,48(7):2318-2327.

[4] 王雙成,高瑞,杜瑞杰.基于高斯核函數(shù)的樸素貝葉斯分類器依賴擴(kuò)展[J].控制與決策,2015,30(12):2280-2284.

[5] 郭華平,董亞東,鄔長(zhǎng)安,等.面向類不平衡的邏輯回歸方法[J].模式識(shí)別與人工智能,2015,28(8):686-693. 

[6] PUISSANT A,ROUGIER S,STUMPF A.Object-oriented mapping of urban trees using Random Forest classifiers[J].International Journal of Applied Earth Observation & Geoinformation,2014,26(1):235-245.

[7] SUJAY R N,DEKA P C.Support vector machine applications in the field of hydrology:A review[J].Applied Soft Computing,2014,19(6):372-386.

[8] CHAI R,LING S H,HUNTER G P,et al.Brain-computer interface classifier for wheelchair commands using neural network with fuzzy particle swarm optimization[J].IEEE Journal of Biomedical & Health Informatics,2014,18(5):1614-1624.

[9] Chang Zheng,Ban Xiaojuan,Wang Yu.Fatigue driving detection based on Haar feature and extreme learning machine[J].Journal of China Universities of Posts & Telecommunications,2016,23(4):91-100.

[10] YANG X, DI T.Research on mean-shift target tracking based on image HOG feature[J].Open Automation & Control Systems Journal,2015,7(1):1022-1028.

[11] CIOCCA G,CUSANO C,SCHETTINI R.Image orientation detection using LBP-based features and logistic regression[J].Multimedia Tools and Applications,2015,74(9):3013-3034.

[12] GHOUALMI L,CHIKHI S,DRAA A.A SIFT-based feature level fusion of iris and ear biometrics[C].Multimodal Pattern Recognition of Social Signals in Human-Computer-Interaction(MPRSS 2014),2014:102-112.



作者信息:

武海燕1,李衛(wèi)平1,2

(1.鐵道警察學(xué)院 公安技術(shù)系,河南 鄭州450000;2.武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢430070)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。