摘 要: FCM算法作為基于目標(biāo)函數(shù)的模糊聚類算法中最經(jīng)典的算法之一,在實際應(yīng)用中得到了深入的研究,但FCM算法需要人為給定分類數(shù)C,因此破壞了聚類的無監(jiān)督性。針對FCM算法的不足,提出了利用密度指標(biāo)確定初始聚類數(shù)目上限Cmax,并且對有效性指標(biāo)進行了改進,計算對于(1,Cmax]中的每一個c對應(yīng)的有效性函數(shù)值,根據(jù)有效性評判,確定最佳聚類數(shù),實現(xiàn)了自動得到最佳分類數(shù)的算法。
關(guān)鍵詞: 模糊C-均值;模糊聚類;密度函數(shù);有效性指標(biāo)
模糊C-均值(FCM)聚類算法是聚類分析中最重要的聚類算法之一,在特征分析、模式識別、圖像處理、分類器設(shè)計等技術(shù)中應(yīng)用非常廣泛[1]。
但FCM算法存在著以下幾點不足[1]:(1)算法的性能依賴于初始聚類中心和初始隸屬度函數(shù)的選取;(2)事先必須確定聚類的個數(shù);(3)模糊指標(biāo)的選擇;(4)收斂到局部極值問題。
很多學(xué)者針對這些問題進行了研究。如參考文獻(xiàn)[2]采用貪心算法選取有代表性的點作為初始中心,提出一種基于權(quán)重的初始中心點選取算法, 得出了優(yōu)化聚類初始中心的模糊C-均值方法;參考文獻(xiàn)[5]通過加入點密度加權(quán)系數(shù)和特征矢量權(quán)重, 提出一種具有兩階段的模糊FCM聚類改進算法。
本文針對FCM算法事先必須確定聚類個數(shù)這一不足,提出了兩點改進思路: (1)在初始聚類中心的選擇上提出了一種密度指標(biāo)方法,利用該方法可以在全局范圍內(nèi)選取初始值,降低了算法受初始值影響易陷入局部最優(yōu)的可能性,從而得到最大聚類個數(shù);(2)提出了有效性指標(biāo)的改進算法,從而更加客觀公正地評判聚類結(jié)果有效性。
1 聚類數(shù)c和初始聚類中心的確定
1.1 密度指標(biāo)
密度指標(biāo)的方法對聚類中心的選擇有重要意義,該方法的基本規(guī)則是,保證成為聚類中心的數(shù)據(jù)點周圍的數(shù)據(jù)點密度大于事先設(shè)定的臨界值。它從全局出發(fā),對每個數(shù)據(jù)點平等相待,認(rèn)為每個數(shù)據(jù)點都有可能成為聚類中心,并根據(jù)每個數(shù)據(jù)點周邊的數(shù)據(jù)密度計算該數(shù)據(jù)點是否有可能成為聚類中心,甚至計算成為聚類中心的可能性的大小。這樣,可以保證各個聚類中心點周邊數(shù)據(jù)點密度最高,使得算法不會因為初始值影響而陷入局部最優(yōu)。
2 自適應(yīng)最佳FCM聚類個數(shù)確定算法
在確定最佳聚類數(shù)時,需要對從1~n的所有c值進行循環(huán)運算,而每一個c值在運算過程中都會產(chǎn)生聚類中心,這樣聚類中心的數(shù)量就會隨著樣本數(shù)目的增加而急劇增加,致使算法的時空復(fù)雜度很大。本論文將利用密度指標(biāo)確定初始聚類數(shù)目上限Cmax,確定初始聚類數(shù)目上限后,就可以減少循環(huán)運行次數(shù),從而相應(yīng)地減少初始化聚類中心的數(shù)目,大大提升算法的時空效率。
因為聚類過程沒有預(yù)先定義數(shù)據(jù)集中哪一種期望的關(guān)系是有效的,所以它是一種無監(jiān)督的學(xué)習(xí)方法,因此很多聚類算法依靠假設(shè)和猜測進行有效性的判斷,為解決此問題,多數(shù)學(xué)者提出了聚類有效性指標(biāo)方法,它被認(rèn)為是評判聚類結(jié)果有效性的一種客觀公正的質(zhì)量評價方法。本論文將利用改進的有效性指標(biāo)計算對于(1,Cmax]中的每一個c對應(yīng)的有效性函數(shù)值,根據(jù)有效性評判,得到最佳聚類數(shù)Copt。
算法的描述如下:
輸入:待聚類分析的數(shù)據(jù)集合Dset.txt,最大迭代次數(shù)Rmax。
輸出:最佳聚類數(shù)Copt、迭代次數(shù)l和目標(biāo)函數(shù)值obj。
算法:
3 實驗分析
實驗數(shù)據(jù):IRIS數(shù)據(jù);
數(shù)據(jù)特征:分為三種類型,每種類型中包括50個四維的向量。
實驗步驟:
(1)先按照傳統(tǒng)FCM算法對數(shù)據(jù)集聚類,此時需預(yù)先給出聚類數(shù)c為3,并在集合中隨機選出3個初始中心,得到算法目標(biāo)函數(shù)的變化曲線如圖1所示。
(2)根據(jù)密度指標(biāo)函數(shù)Dsty(data),得出初始聚類數(shù)目Cmax=8,并根據(jù)Ics( )得到8個初始聚類中心。
(3)根據(jù)有效性指標(biāo)和類合并的方法步驟,給出相似度計算條件?著1=0.4,?著2=0.8,經(jīng)過循環(huán)計算得到最終的聚類結(jié)果,Copt=3,目標(biāo)函數(shù)變化曲線如圖2。
通過實驗可以看出改進后的FCM 算法根據(jù)密度指標(biāo)函數(shù)自適應(yīng)地得到最大聚類數(shù)Cmax和聚類中心,再根據(jù)有效性指標(biāo)和類的合并方法得到最優(yōu)的聚類數(shù)Copt和聚類中心,而后用 FCM 算法計算得到的結(jié)果屬于有效聚類,能更準(zhǔn)確地對數(shù)據(jù)集進行劃分,且通過對比目標(biāo)函數(shù)的變化曲線,可以看出改進后的算法由于是在全局范圍內(nèi)選擇初始值,目標(biāo)函數(shù)相對于傳統(tǒng)FCM算法更容易收斂到全局最優(yōu),降低了算法對初始中心的依賴。因此本論文提出的自適應(yīng)模糊C-均值算法是有效的。
由于實驗中選取的數(shù)據(jù)集屬于特定類型的數(shù)據(jù),按照改進后的算法得到的結(jié)果更合理也更準(zhǔn)確,尚未觀察出聚類結(jié)果存在的不合理性,但是當(dāng)數(shù)據(jù)集合不是IRIS類型的數(shù)據(jù)時,很可能得不到理想的聚類效果,本論文尚未對所有類型的數(shù)據(jù)集做實驗分析,這將是今后進一步研究的方向。
參考文獻(xiàn)
[1] 江克勤,施培蓓.優(yōu)化初始中心的模糊C-均值(FCM)算法[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2009,32(5):762-
765.
[2] 單凱晶,肖懷鐵.初始聚類中心優(yōu)化選取的核C-均值聚類算法[J].計算機仿真,2009,26(7):118-121.
[3] 齊淼,張化祥.改進的模糊C-均值聚類算法研究[J].計算機工程與應(yīng)用,2009,45(20):133-135.
[4] 張國鎖,周創(chuàng)明,雷英杰.改進FCM聚類算法及其在入侵檢測中的應(yīng)用[J].計算機應(yīng)用,2009,29(5):1336-1338.
[5] 劉坤朋,羅可.改進的模糊C均值聚類算法[J].計算機工程與應(yīng)用,2009,45(21):97-99.