《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 針對弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法
針對弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法
來源:微型機(jī)與應(yīng)用2012年第13期
李鳳英,李 宏,李 培
中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長沙 410083
摘要: 提出一種針對弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法,它通過采用基于相似性成對約束投影的方法來處理數(shù)據(jù),更好地利用了弱標(biāo)記樣本的特征,從而提高了分類性能。
Abstract:
Key words :

摘  要: 提出一種針對弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法,它通過采用基于相似性成對約束投影的方法來處理數(shù)據(jù),更好地利用了弱標(biāo)記樣本的特征,從而提高了分類性能。
關(guān)鍵詞: 分類;多標(biāo)記數(shù)據(jù);集成學(xué)習(xí);弱標(biāo)記數(shù)據(jù)

 數(shù)據(jù)挖掘技術(shù)隨著現(xiàn)代技術(shù)的飛速發(fā)展變得越來越重要了。分類是數(shù)據(jù)挖掘中的一個(gè)重要研究領(lǐng)域,目前分類算法有很多,經(jīng)典的有決策樹、貝葉斯模型、支持向量機(jī)等。在很多現(xiàn)實(shí)生活的分類問題中,一個(gè)樣本往往同時(shí)屬于多個(gè)不同的類別,比如:一幅畫同時(shí)擁有“素描”、“人物”、“運(yùn)動”等多個(gè)標(biāo)記。多標(biāo)記學(xué)習(xí)就是一種針對多標(biāo)記樣本進(jìn)行學(xué)習(xí)的重要技術(shù)。對多標(biāo)記數(shù)據(jù)進(jìn)行正確的分類已成為近年來機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的熱點(diǎn)研究方向。
 以往多標(biāo)記學(xué)習(xí)的研究是在訓(xùn)練樣本標(biāo)記完整的情況下進(jìn)行的。但是,在現(xiàn)實(shí)生活應(yīng)用中,多數(shù)樣本的標(biāo)記不是完整的,而且為每個(gè)樣本提供完整的標(biāo)記非常困難。在此,一個(gè)弱標(biāo)記樣本包含其對應(yīng)所有標(biāo)記中的部分標(biāo)記?,F(xiàn)有的多數(shù)多標(biāo)記學(xué)習(xí)方法,由于不能對這種弱標(biāo)記樣本進(jìn)行有效地學(xué)習(xí),可能會給訓(xùn)練集引入大量的噪聲。為了有效地利用這些弱標(biāo)記樣本進(jìn)行學(xué)習(xí),本文提出一種針對弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法。
1 研究現(xiàn)狀
 目前,對多標(biāo)記數(shù)據(jù)分類做了很多研究。最典型的多標(biāo)記算法是ML-KNN算法。該算法是對已有K近鄰算法的改進(jìn)。傳統(tǒng)的K近鄰算法是基于向量的空間距離來選取近鄰,但有的分類處理中要用到向量的夾角,所以廣凱和潘金貴提出一種基于向量夾角的K近鄰多標(biāo)記分類算法。Sapozhnikova等人提出了使用ART(Adaptive Resonance Theory)神經(jīng)網(wǎng)絡(luò)的方法解決多標(biāo)記分類問題。段震等人提出了基于覆蓋的多標(biāo)記學(xué)習(xí)方法等。但是,目前針對弱標(biāo)記數(shù)據(jù)的多標(biāo)記分類方法比較少??紫槟系热颂岢隽艘环N針對弱標(biāo)記的直推式多標(biāo)記分類方法。直推式學(xué)習(xí)是利用未標(biāo)記數(shù)據(jù)學(xué)習(xí)的主流技術(shù)之一。
 集成學(xué)習(xí)是近年來機(jī)器學(xué)習(xí)領(lǐng)域中研究熱點(diǎn)之一。經(jīng)典的兩個(gè)集成算法是Bagging和Boosting。張燕平等人提出了一種新的決策樹選擇性集成學(xué)習(xí)方法,楊長盛等人提出了基于成對差異性度量的選擇性集成方法等。目前的集成學(xué)習(xí)研究集中于傳統(tǒng)的單標(biāo)記學(xué)習(xí),此前Zhang等人已在單標(biāo)記分類中引入成對約束建立基分類器,李平在多標(biāo)記分類中引入了軟成對約束建立基分類器。受此啟發(fā),本文在針對弱標(biāo)記數(shù)據(jù)分類中引入了基于相似性成對約束投影的多標(biāo)記集成學(xué)習(xí)方法。
2 多標(biāo)記集成學(xué)習(xí)算法
2.1 算法的引入

 集成學(xué)習(xí)方法可以提高總體的分類準(zhǔn)確率,但針對弱標(biāo)記的多標(biāo)記集成學(xué)習(xí)算法幾乎沒有。本文首次將集成學(xué)習(xí)引入到針對弱標(biāo)記的多標(biāo)記學(xué)習(xí)中。此前,李平首次將集成學(xué)習(xí)引入到多標(biāo)記分類中。軟成對約束指的是:若兩個(gè)樣本的標(biāo)記相同數(shù)大于等于預(yù)先設(shè)定的閾值,則將樣本放到M集合中,否則放到C中[1]。但是,當(dāng)樣本的標(biāo)記不是完整的時(shí)候,這個(gè)方法容易導(dǎo)致本該放到M集合中的樣本對卻放到了C中。因此,本文針對這個(gè)問題提出了基于相似性成對約束投影的多標(biāo)記集成學(xué)習(xí)方法RPCME。
2.2 基于相似性成對約束投影
 本文研究的重點(diǎn)是針對弱標(biāo)記樣本[2]如何在多標(biāo)記集成學(xué)習(xí)中合理有效地利用弱標(biāo)記數(shù)據(jù)提供的成對約束信息并建立強(qiáng)健的集成分類器。本文的基于相似性成對約束定義為:若給定的兩個(gè)數(shù)據(jù)樣本的相似度大于等于預(yù)先設(shè)定的閾值,則將樣本放到M集合中,否則放到C中。相似度通過式(1)計(jì)算:

 分別計(jì)算集合C和M的散度矩陣,這兩個(gè)矩陣是用成對約束信息生成的。該算法通過散度矩陣計(jì)算投影矩陣,然后通過投影矩陣將原數(shù)據(jù)映射到新的數(shù)據(jù)空間[3]。
2.3 權(quán)重更新策略
 由于本文的基分類器是穩(wěn)定的MLKNN算法,所以采用的方法是:各訓(xùn)練樣本的初始權(quán)重均設(shè)置為1,而當(dāng)?shù)?xùn)練個(gè)體分類器時(shí)[4],上一輪中被誤分的樣本將增加權(quán)重,如(1+r),r為權(quán)重因子。這種方法較為簡單,且能保障個(gè)體分類器的差異性。差異性是集成學(xué)習(xí)中的重要概念,基分類器差異性的大小直接影響分類器的性能。因此,為了提高分類器的差異性[5],在每次的訓(xùn)練過程中,權(quán)重因子都要更新為不同的值。
2.4 多標(biāo)記數(shù)據(jù)基分類器的集成
 對于多個(gè)不同的基分類器組成的多標(biāo)記集成分類器,通常用以下兩種方法對基分類器進(jìn)行集成:多數(shù)投票和加權(quán)投票。本文采用的方法是選擇性多數(shù)投票方法。即在集成基分類器時(shí),為了提高分類精度,要丟棄一些準(zhǔn)確率比較低的分類器。本文設(shè)置準(zhǔn)確率的閾值為0.7,即基分類器的準(zhǔn)確率大于0.7時(shí)參加集成,否則不參加集成,然后采用多數(shù)投票的方法。
2.5 RPCME算法描述
 RPCME算法首先采用基于相似性成對約束投影建立基分類器,然后對訓(xùn)練樣本進(jìn)行分類,對錯(cuò)誤分類的數(shù)據(jù)樣本增加權(quán)重,最后對多標(biāo)記集成分類器進(jìn)行組合。

 


 從表1可以看出,EPCMSE算法在3個(gè)性能指標(biāo)下都優(yōu)于SPACME算法,在正確率和F1下優(yōu)于MLKNN算法,只在漢明距離這個(gè)指標(biāo)下的性能略低于MLKNN。總體來看EPCMSE算法的性能優(yōu)于其他兩個(gè)算法。
從圖1得知EPCMSE算法較SPACME受基分類器大小的影響小,圖1(a)、(b)、(c)分別是在漢明距離、正確率和F1度性能指標(biāo)下三種算法的性能曲線。從中可知EPCMSE總體性能比其他兩種算法的性能好。SPACME在大小不同的基分類器下,性能變化較大。當(dāng)L=9時(shí),EPCMSE性能達(dá)到了最好,但運(yùn)行時(shí)間較長。當(dāng)L=5時(shí),EPCMSE性能也比較好,且時(shí)間較短。

 從圖2可知EPCMSE算法較SPACME受閾值的影響小。圖2(a)、(b)、(c)分別表示在漢明距離、正確率和F1度性能指標(biāo)下三種算法的性能曲線。從中可知EPCMSE算法的總體性能比SPACME和ML-KNN算法的性能好。當(dāng)閾值等于0.5的時(shí)候,EPCMSE算法達(dá)到了最好。
 本文針對多標(biāo)記學(xué)習(xí)任務(wù)中僅能獲得弱標(biāo)記數(shù)據(jù)的情況,提出了一種針對弱標(biāo)記的多標(biāo)記集成學(xué)習(xí)方法EPCMSE。從實(shí)驗(yàn)結(jié)果中可知,通過相似性成對約束投影建立基分類器,在場景圖像分類任務(wù)中,該方法在弱標(biāo)記情況下,具有良好的健壯性,獲得較好的分類性能。在少量的弱標(biāo)記數(shù)據(jù)的情況下,如何進(jìn)一步提高分類性能,將需要更多的研究。
參考文獻(xiàn)
[1] 李平.多標(biāo)記分類中的半監(jiān)督降維和集成學(xué)習(xí)[D].長沙:中南大學(xué),2010.
[2] 孔祥南,黎銘,姜遠(yuǎn),等.一種針對弱標(biāo)記的直推式多標(biāo)記分類方法[J].計(jì)算機(jī)研究與發(fā)展,2010,47(8):1392-1399.
[3] ZHANG D Q, CHEN S C, ZHOU Z H, et al. Constraint projections for ensemble learning[C]. In: Proceedings of the 23rd AAAI Conference on Artificial Intelligence (AAAI’08), Chicago, 2008.
[4] VANESSA G V, JERONIMO A G, AN1IBAL F V. Committees of Adaboost ensembles with modified emphasis functions[J]. Neurocomputing, 2010, 73: 1289-1292.
[5] 張宏達(dá),王曉丹,等.分類器集成差異性研究[J].系統(tǒng)工程與電子技術(shù),2009,31(12):3007-3012.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。