文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.033
中文引用格式: 白艷宇,申超群,楊新鋒. 結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法[J].電子技術(shù)應(yīng)用,2017,43(7):130-134,139.
英文引用格式: Bai Yanyu,Shen Chaoqun,Yang Xinfeng. An object classification method combing with SIFT features and neural network pool[J].Application of Electronic Technique,2017,43(7):130-134,139.
0 引言
基于圖像的物體分類是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)研究課題,在人工智能、自動(dòng)化生成等領(lǐng)域應(yīng)用廣泛[1]。物體分類的關(guān)鍵是提取圖像特征和設(shè)計(jì)分類器。這兩個(gè)方面目前的成果都比較多,如特征提取方面,目前應(yīng)用比較成熟的有Haar特征[2]、方向梯度直方圖(Histograms of Oriented Gradients,HOG)特征[3]、局部二元模式(Local Binary Pattern,LBP)特征[4]、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征[5]等。在分類器設(shè)計(jì)方面,目前常用的有Adaboost分類器、支持向量機(jī)(Support Vector Machine,SVM)分類器、決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等[6-7]。針對(duì)不同的圖像內(nèi)容,特征的表述能力也不盡相同。文獻(xiàn)[8]提出一種基于Kolmogorov-Sinai熵的分類方法,通過構(gòu)建模糊集進(jìn)行物體分類。文獻(xiàn)[9]采用圖像局部區(qū)域的梯度特征來(lái)描述特征,并采用稀疏分布構(gòu)建圖像描述子,能有效提高物體的分類效果。文獻(xiàn)[10]結(jié)合近似Fisher核特征和詞袋模型,實(shí)現(xiàn)物體的有效分類。
為了進(jìn)一步提高物體分類的性能,本文提出了一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法,主要?jiǎng)?chuàng)新是提出了神經(jīng)網(wǎng)絡(luò)池的特征分類方法。該方法采用徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建基元分類器,通過重復(fù)迭代方式構(gòu)建基元分類器集合,結(jié)合增強(qiáng)技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,采用樸素貝葉斯分類器預(yù)測(cè)特征分類結(jié)果,有效提高了物體分類性能。
1 本文方法
本文提出一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法。對(duì)于不同物體的圖像集合,首先提取圖像的SIFT特征,然后構(gòu)建神經(jīng)網(wǎng)絡(luò)池分類器,實(shí)現(xiàn)物體的分類。其中,SIFT特征是目前非常成熟的特征提取方法,本文將在實(shí)驗(yàn)部分對(duì)不同特征提取方法進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證SIFT方法在物體分類領(lǐng)域的優(yōu)勢(shì)。基本框架如圖1所示。
由圖1可見,神經(jīng)網(wǎng)絡(luò)池的構(gòu)建過程主要分為三個(gè)階段:(1)基元分類器的構(gòu)建,本文采用徑向基(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)造基元分類器;(2)神經(jīng)網(wǎng)絡(luò)池的組建,本文采用重復(fù)迭代和增強(qiáng)技術(shù)組建神經(jīng)網(wǎng)絡(luò)池;(3)最終分類器的構(gòu)建,本文采用樸素貝葉斯分類器作為最終的分類器,對(duì)神經(jīng)網(wǎng)絡(luò)池中各個(gè)基元分類器集合的預(yù)測(cè)結(jié)果進(jìn)行融合,得到最終的預(yù)測(cè)結(jié)果。
1.1 基元分類器
目前,基元分類器有很多種,如Adaboost、SVM、決策樹、神經(jīng)網(wǎng)絡(luò)等。本文采用徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建基元分類器。RBF神經(jīng)網(wǎng)絡(luò)是一種3層的前向網(wǎng)絡(luò),由輸入層、隱含層和輸出層組成。對(duì)于特征分類而言,輸入層為特征向量,輸出層為分類結(jié)果。中間的隱含層的變換函數(shù)采用徑向基函數(shù)。該函數(shù)是一種非負(fù)非線性函數(shù),對(duì)中心點(diǎn)徑向?qū)ΨQ且衰減。輸入層與隱含層之間采用權(quán)重向量,相當(dāng)于一種非線性映射。同樣地,隱含層與輸出層之間也是一種非線性映射,采用不同的權(quán)重相連接。在徑向基神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)采用徑向基函數(shù),以輸入向量與權(quán)值向量之間的距離作為自變量,調(diào)整神經(jīng)元的靈敏度。隨著權(quán)值與輸入向量之間距離的減少,網(wǎng)絡(luò)輸出是遞增的。
1.2 神經(jīng)網(wǎng)絡(luò)池
本文將多個(gè)基元分類器構(gòu)建成一個(gè)基元分類器集合,由各個(gè)類別的基元分類器集合組建神經(jīng)網(wǎng)絡(luò)池。具體方法是:在基元分類器構(gòu)建階段,將K個(gè)二元神經(jīng)網(wǎng)絡(luò){BNNi|i=1,2,…,K}應(yīng)用于數(shù)據(jù)集合D,得到K個(gè)基元分類器,記為{Ci|i=1,2,…,K}。將這一過程重復(fù)執(zhí)行T次,可以對(duì)每一個(gè)類別ci生成T個(gè)基元分類器集合,記為{ECi|i=1,2,…,T}。
在構(gòu)建神經(jīng)網(wǎng)絡(luò)池中的每一個(gè)基元分類器集合時(shí),本文采用了一對(duì)多的分類策略。在二元策略中,分類器對(duì)未知樣本x的預(yù)測(cè)是二元的,也即該樣本x的預(yù)測(cè)結(jié)果只有兩個(gè),即屬于某一類別或者不屬于某一類別。對(duì)于未知樣本x,基元分類器C中的K個(gè)預(yù)測(cè)結(jié)果可以組合生成一個(gè)基元分類器集合。每一個(gè)基元分類器集合對(duì)未知樣本x的預(yù)測(cè)結(jié)果可以用類別出現(xiàn)的概率表示為:
其中,S(x)表示基元分類器集合的預(yù)測(cè)結(jié)果,其值為0或1,由設(shè)定的概率閾值θ1決定。因此,二元策略允許每一個(gè)獨(dú)立的基元分類器集合接受或者拒絕某一個(gè)類別的出現(xiàn)。該策略將一個(gè)復(fù)雜的多元分類問題轉(zhuǎn)化為多個(gè)簡(jiǎn)單的二元分類的子問題。P(x)表示類別ci出現(xiàn)的概率,由基元分類器{Ci|i=1,2,…,K}預(yù)測(cè)得到,表示為:
其中,hi表示第i個(gè)基元分類器判斷x屬于類別ci的分類結(jié)果,取值為0或1,0表示x不屬于類別ci,1表示x屬于類別ci。
為了分類一個(gè)未知樣本x,N個(gè)基元分類器集合對(duì)樣本x給出N個(gè)預(yù)測(cè)結(jié)果,本文采用樸素貝葉斯模型作為最終的預(yù)測(cè)器,對(duì)這N個(gè)預(yù)測(cè)結(jié)果進(jìn)行綜合。這部分內(nèi)容在下一節(jié)介紹,下面先介紹神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程。
作為一個(gè)分類器,基元分類器集合依靠徑向基神經(jīng)網(wǎng)絡(luò)的輸出來(lái)計(jì)算概率,用于估計(jì)某一類別是否存在。某一類別是否存在的概率同樣在每一個(gè)基元分類器集合分類器的訓(xùn)練階段計(jì)算,后續(xù)用于計(jì)算樸素貝葉斯分類器的先驗(yàn)概率。先驗(yàn)概率分布用于估計(jì)未知樣本的特征向量所對(duì)應(yīng)的類別的出現(xiàn)概率。因此,樣本的特征向量輸入到神經(jīng)網(wǎng)絡(luò)池的多個(gè)基元分類器集合之后,最終得到一個(gè)概率值,作為樣本分類的依據(jù)。本文采用增強(qiáng)技術(shù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)池,最后采用樸素貝葉斯分類器構(gòu)建最終的預(yù)測(cè)器。
本文通過為二元神經(jīng)網(wǎng)絡(luò)隨機(jī)選擇訓(xùn)練樣本進(jìn)行重復(fù)訓(xùn)練來(lái)解決過擬合問題。在訓(xùn)練基元分類器集合時(shí),借鑒詞袋的思想,隨機(jī)從整體訓(xùn)練數(shù)據(jù)中選取一定數(shù)量的子樣本集,每一個(gè)樣本子集用于訓(xùn)練一個(gè)基元分類器。
基元分類器集合通過對(duì)大量的二元神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)得到。因此,每一個(gè)基元分類器集合很難確定一個(gè)最優(yōu)的二元神經(jīng)網(wǎng)絡(luò)數(shù)量。本文訓(xùn)練了許多冗余的二元神經(jīng)網(wǎng)絡(luò),以此來(lái)實(shí)現(xiàn)最優(yōu)的分類性能。得到許多基元分類器集合之后,即構(gòu)建了神經(jīng)網(wǎng)絡(luò)池。
本文將增強(qiáng)技術(shù)引入到神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程,由增強(qiáng)技術(shù)組合多個(gè)基元分類器集合。這些基元分類器集合通過多次迭代構(gòu)建,每一個(gè)新的基元分類器集合都受上一級(jí)基元分類器集合的預(yù)測(cè)誤差的影響。增強(qiáng)技術(shù)鼓勵(lì)新的基元分類器集合對(duì)前一級(jí)分類錯(cuò)誤的樣本盡可能正確分類,方法是依據(jù)它們的分類性能來(lái)調(diào)整權(quán)重。初始時(shí),為所有訓(xùn)練樣本(樣本數(shù)為N)分配相同的權(quán)重,表示為:
然后,隨機(jī)選取一個(gè)訓(xùn)練樣本子集來(lái)訓(xùn)練一個(gè)二元神經(jīng)網(wǎng)絡(luò),用于構(gòu)建基元分類器集合。并依據(jù)基元分類器集合的性能來(lái)修改每一個(gè)樣本的權(quán)重,正確分類樣本的權(quán)重降低,誤分類樣本的權(quán)重增加。
本文將訓(xùn)練數(shù)據(jù)劃分為兩組:低權(quán)重組和高權(quán)重組。然后,依據(jù)該基元分類器集合的性能來(lái)增加或者減少訓(xùn)練樣本的權(quán)重。結(jié)果是,部分樣本擁有很高的權(quán)重,而部分樣本可能擁有很低的權(quán)重。權(quán)重值反映了訓(xùn)練樣本被誤分類的頻率。本文方法通過維護(hù)權(quán)重的變化率,構(gòu)造了一種有效的基元分類器集合生成策略。其中,權(quán)重變化率主要依賴于當(dāng)前基元分類器集合的分類錯(cuò)誤率。實(shí)現(xiàn)流程為:
首先,從整個(gè)訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇訓(xùn)練樣本子集Se,用于訓(xùn)練二元神經(jīng)網(wǎng)絡(luò),構(gòu)造基元分類器集合。每一個(gè)基元分類器集合的輸出用于量化輸入特征向量與輸出類別之間的關(guān)系,可以采用類別出現(xiàn)的概率來(lái)表示,如式(1)所示。其中,每一個(gè)基元分類器集合的權(quán)重的計(jì)算方法為:
其中,εt表示基元分類器集合的分類錯(cuò)誤率。對(duì)于特征分類而言,在訓(xùn)練樣本上的分類正確率的期望值應(yīng)當(dāng)大于零。如果該值不大于零,則丟棄對(duì)應(yīng)的基元分類器集合。每一個(gè)基元分類器集合的錯(cuò)誤率可以表示為:
在更新了訓(xùn)練樣本的權(quán)重之后,將權(quán)重歸一化到N。對(duì)于每一類圖像,權(quán)重更新過程執(zhí)行T次,構(gòu)建T個(gè)增強(qiáng)的基元分類器集合,組建神經(jīng)網(wǎng)絡(luò)池。
綜上所述,神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程偽代碼如下:
輸入:訓(xùn)練樣本集{x1,y1,w1}、{x2,y2,w2}、…、{xN,yN,wN},類別數(shù)E,基元分類器集合數(shù)量T,基元分類器數(shù)量K,閾值θ1、θ2,以及隨機(jī)選取的樣本子集中的樣本數(shù)量M。
輸出:神經(jīng)網(wǎng)絡(luò)池{SBNNi}。
過程:
1.3 樸素貝葉斯分類器
目前常采用投票的方式來(lái)融合多個(gè)分類器的預(yù)測(cè)結(jié)果,而本文提出一種新的融合思路,采用概率分布來(lái)融合神經(jīng)網(wǎng)絡(luò)池中各個(gè)基元分類器集合的預(yù)測(cè)結(jié)果,減少個(gè)別基元分類器奇異的問題。具體地,本文采用樸素貝葉斯模型來(lái)組合多個(gè)基元分類器,提供了一個(gè)最終預(yù)測(cè)器與基元分類器之間的橋梁。樸素貝葉斯分類器作為最終的預(yù)測(cè)器,依據(jù)預(yù)測(cè)誤差最小準(zhǔn)則,在神經(jīng)網(wǎng)絡(luò)池中進(jìn)行學(xué)習(xí)和預(yù)測(cè)。
考慮到基元分類器集合是二元分類器,其輸出的決策值是二值形式。因此,本文采用傳統(tǒng)的樸素貝葉斯分類器來(lái)分類這些二值數(shù)據(jù),具體是采用多維伯努利(Bernoulli)分布的形式。對(duì)于一個(gè)D維的輸入特征向量d,其對(duì)應(yīng)的類別c可以表示為:
2 仿真實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)說明
本文采用神經(jīng)網(wǎng)絡(luò)池進(jìn)行物體分類實(shí)驗(yàn),選擇國(guó)際上公開的VOC-2007數(shù)據(jù)集對(duì)算法性能進(jìn)行評(píng)測(cè)。該數(shù)據(jù)集共包含20個(gè)物體類別。其中,訓(xùn)練集中圖像樣本5 011幅,測(cè)試集中圖像樣本4 952幅。
2.2 神經(jīng)網(wǎng)絡(luò)池訓(xùn)練過程的參數(shù)說明
在訓(xùn)練基元分類器時(shí),涉及一些對(duì)訓(xùn)練結(jié)果影響較大的參數(shù)。一是基元分類器集合的錯(cuò)誤率上限θ2。在訓(xùn)練過程中,可以通過估算每一個(gè)基元分類器的分類類別,計(jì)算分類錯(cuò)誤率指標(biāo),如果基元分類器的分類錯(cuò)誤率大于設(shè)定的錯(cuò)誤率上限θ2,則丟棄該基元分類器,重新構(gòu)建一個(gè)新的基元分類器。錯(cuò)誤率上限越大,丟棄的基元分類器越少,訓(xùn)練速度越快,但最終的錯(cuò)誤率就可能提高,本文取θ2為0.01。
另外,學(xué)習(xí)速率對(duì)訓(xùn)練速度和分類錯(cuò)誤率的影響也比較大。學(xué)習(xí)速率太小會(huì)導(dǎo)致過擬合,且導(dǎo)致訓(xùn)練效率降低。然而,學(xué)習(xí)速率過大盡管會(huì)加快訓(xùn)練速度,但也有可能導(dǎo)致分類錯(cuò)誤率提高。本文設(shè)定的學(xué)習(xí)速率參數(shù)為0.4。
最大迭代次數(shù)閾值用于作為基元分類器訓(xùn)練的一個(gè)終止條件,當(dāng)?shù)螖?shù)大于該閾值時(shí),停止基元分類器的訓(xùn)練過程。在本文中,最大迭代次數(shù)設(shè)置為1 000。
隨機(jī)選取一定數(shù)量的隱含神經(jīng)元可能導(dǎo)致過擬合或者欠擬合問題。這里,采用不同數(shù)量的隱含層神經(jīng)元來(lái)訓(xùn)練各種基元分類器。實(shí)驗(yàn)中,當(dāng)隱含層數(shù)量達(dá)到9時(shí)識(shí)別結(jié)果最好。因此,本文的徑向基神經(jīng)網(wǎng)絡(luò)的隱含層數(shù)量設(shè)為9。
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)池時(shí)涉及的參數(shù)取值為:E=20、T=100、N=5 011、M=2 000、K=20、θ1=0.5。
2.3 特征提取方法對(duì)比與選擇
常用的圖像特征有Haar、HOG、LBP和SIFT,下面分別采用這4種圖像特征,結(jié)合本文的神經(jīng)網(wǎng)絡(luò)池進(jìn)行物體分類實(shí)驗(yàn)。以分類正確率為評(píng)價(jià)指標(biāo)來(lái)選取最優(yōu)的圖像特征。分類正確率定義為分類正確的圖像數(shù)量與圖像總數(shù)的比值。
圖2顯示了不同特征對(duì)應(yīng)的分類正確率。很明顯,SIFT特征的分類正確率明顯高于其他3種特征。故本文選擇SIFT特征和神經(jīng)網(wǎng)絡(luò)池分類器結(jié)合的方法進(jìn)行物體分類。
2.4 不同物體分類方法的實(shí)驗(yàn)結(jié)果與分析
本文選擇文獻(xiàn)[8]、[9]和[10]所述的物體分類方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)所用訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集都是相同的,計(jì)算機(jī)處理平臺(tái)也是相同的,具體為:CPU四核 3.6 GHz、內(nèi)存16 GB。實(shí)驗(yàn)結(jié)果如圖3所示。
由圖3可見,采用本文所述的SIFT特征和神經(jīng)網(wǎng)絡(luò)池分類器相結(jié)合的方法取得了最高的分類正確率指標(biāo),比排名第2的文獻(xiàn)[10]方法高2.3%。
表1給出了4種方法的物體分類時(shí)間指標(biāo),該時(shí)間是指從輸入一幅圖像到輸出分類結(jié)果所需要的平均時(shí)間,不包括訓(xùn)練過程所耗費(fèi)的時(shí)間。由表1可見,本文方法的分類時(shí)間最短,說明本文方法的運(yùn)算效率最高。綜合評(píng)價(jià),本文方法的分類性能優(yōu)于所對(duì)比的3種方法。
3 結(jié)束語(yǔ)
本文提出了一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法。該方法選擇經(jīng)典的SIFT特征描述特征,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)池分類器實(shí)現(xiàn)特征分類。其關(guān)鍵是構(gòu)建神經(jīng)網(wǎng)絡(luò)分類器,設(shè)計(jì)思想是采用隨機(jī)采樣方式選擇樣本子集,采用徑向基神經(jīng)網(wǎng)絡(luò)為每一個(gè)樣本子集構(gòu)建基元分類器,通過重復(fù)迭代方式得到許多基元分類器集合,再結(jié)合增強(qiáng)技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,最后采用樸素貝葉斯分類器進(jìn)行融合預(yù)測(cè)。實(shí)驗(yàn)表明,本文方法分類正確率高且分類耗時(shí)少。
參考文獻(xiàn)
[1] 黃凱奇,任偉強(qiáng),譚鐵牛.圖像物體分類與檢測(cè)算法綜述[J].計(jì)算機(jī)學(xué)報(bào),2014,37(6):1225-1240.
[2] CHANG Z,BAN X,WANG Y.Fatigue driving detection based on Haar feature and extreme learning machine[J].Journal of China Universities of Posts & Telecommunications,2016,23(4):91-100.
[3] 陸星家.基于HOG和Haar特征的行人追蹤算法研究[J].計(jì)算機(jī)科學(xué),2013,40(s1):199-203.
[4] SATPATHY A,JIANG X,ENG H L.LBP-based edgetexture features for object recognition[J].IEEE Transactions on Image Processing,2014,23(5):1953-1964.
[5] WANG Y,BAN X,CHEN J,et al.License plate recognition based on SIFT feature[J].Optik-International Journal for Light and Electron Optics,2015,126(21):2895-2901.
[6] 許劍,張洪偉.Adaboost算法分類器設(shè)計(jì)及其應(yīng)用[J].四川理工學(xué)院學(xué)報(bào):自然科學(xué)版,2014,27(1):28-31.
[7] WANG Y,YANG M,WEI G,et al.Improved PLS regression based on SVM classification for rapid analysis of coal properties by near-infrared reflectance spectroscopy[J].Sensors & Actuators B Chemical,2014,193(3):723-729.
[8] PHAM T D.The Kolmogorov-Sinai entropy in the setting of fuzzy sets for image texture analysis and classification[J].Pattern Recognition,2016,38(53):229-237.
[9] SUDHAKARAN S,JAMES A P.Sparse distributed localized gradient fused features of objects[J].Pattern Recognition,2014,46(4):1538-1546.
[10] CINBIS R G,VERBEEK J,SCHMID C.Approximate Fisher Kernels of non-iid image models for image categorization[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,38(6):1084-1098.
作者信息:
白艷宇1,申超群2,楊新鋒3
(1.中原工學(xué)院信息商務(wù)學(xué)院 信息技術(shù)系,河南 鄭州451191;
2.河南機(jī)電職業(yè)學(xué)院,河南 鄭州451191;3.南陽(yáng)理工學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,河南 南陽(yáng)473004)