《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 一種新的模糊聚類有效性指標(biāo)
一種新的模糊聚類有效性指標(biāo)
2015年微型機(jī)與應(yīng)用第8期
梁 鮮1,曲福恒1,才 華2,楊 勇1
(1.長春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,吉林 長春 130022; 2.長春理工大學(xué) 電子信息工程學(xué)院,吉林 長春 130022)
摘要: 針對(duì)模糊C均值(FCM)算法聚類數(shù)需要預(yù)先設(shè)定的問題,提出了一種新的模糊聚類有效性指標(biāo)。首先,計(jì)算簇中每個(gè)屬性的方差,給方差較小的屬性賦予較大的權(quán)值,給方差較大的屬性賦予較小的權(quán)值,得到一種基于屬性加權(quán)的FCM算法;然后,根據(jù)FCM改進(jìn)算法得到的隸屬度矩陣計(jì)算類內(nèi)緊致性和類間分離性;最后,利用類內(nèi)緊致性和類間分離性定義一個(gè)新的聚類有效性指標(biāo)。實(shí)驗(yàn)結(jié)果表明,該指標(biāo)可以找到符合數(shù)據(jù)自然分布的類的數(shù)目?;趯傩约訖?quán)的FCM算法可以識(shí)別不同屬性的重要程度,增加聚類結(jié)果的準(zhǔn)確率,使用FCM改進(jìn)算法得到的隸屬度矩陣定義的有效性指標(biāo),能夠發(fā)現(xiàn)正確的聚類個(gè)數(shù),實(shí)現(xiàn)聚類無監(jiān)督的學(xué)習(xí)過程。
Abstract:
Key words :

  摘  要: 針對(duì)模糊C均值(FCM)算法聚類數(shù)需要預(yù)先設(shè)定的問題,提出了一種新的模糊聚類有效性指標(biāo)。首先,計(jì)算簇中每個(gè)屬性的方差,給方差較小的屬性賦予較大的權(quán)值,給方差較大的屬性賦予較小的權(quán)值,得到一種基于屬性加權(quán)的FCM算法;然后,根據(jù)FCM改進(jìn)算法得到的隸屬度矩陣計(jì)算類內(nèi)緊致性和類間分離性;最后,利用類內(nèi)緊致性和類間分離性定義一個(gè)新的聚類有效性指標(biāo)。實(shí)驗(yàn)結(jié)果表明,該指標(biāo)可以找到符合數(shù)據(jù)自然分布的類的數(shù)目?;趯傩约訖?quán)的FCM算法可以識(shí)別不同屬性的重要程度,增加聚類結(jié)果的準(zhǔn)確率,使用FCM改進(jìn)算法得到的隸屬度矩陣定義的有效性指標(biāo),能夠發(fā)現(xiàn)正確的聚類個(gè)數(shù),實(shí)現(xiàn)聚類無監(jiān)督的學(xué)習(xí)過程。

  關(guān)鍵詞: 模糊聚類;模糊C均值算法;有效性指標(biāo);最佳聚類數(shù)

0 引言

  聚類分析[1-3]是一種無監(jiān)督的分類過程。研究聚類問題的一個(gè)最基本問題是發(fā)現(xiàn)符合數(shù)據(jù)真實(shí)分布的聚類個(gè)數(shù)。借助模糊C均值算法[4-5],定義有效性指標(biāo),發(fā)現(xiàn)數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)成為研究熱點(diǎn)。由于數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)的多樣性,導(dǎo)致沒有通用的有效性指標(biāo)。

  針對(duì)FCM算法在聚類過程中未考慮樣本各維屬性對(duì)聚類貢獻(xiàn)不同的問題,使用自適應(yīng)的方法計(jì)算簇中每個(gè)屬性的權(quán)值,得到一種基于屬性加權(quán)的FCM算法。充分考慮數(shù)據(jù)集的幾何結(jié)構(gòu),使用改進(jìn)FCM算法得到的隸屬度矩陣,計(jì)算類內(nèi)緊致性和類間分離性,定義新的聚類有效性指標(biāo),發(fā)現(xiàn)符合數(shù)據(jù)真實(shí)分布的聚類個(gè)數(shù)。

1 一種新的模糊聚類有效性指標(biāo)

  1.1 一種基于屬性加權(quán)的FCM算法

  聚類過程中為了使FCM算法能夠區(qū)分不同屬性的重要作用,使用自適應(yīng)的方法計(jì)算簇中每個(gè)屬性的權(quán)值。給簇內(nèi)方差較小的屬性賦予較大的權(quán)值,給簇內(nèi)方差較大的屬性賦予較小的權(quán)值,得到同一屬性在不同簇中具有不同權(quán)值的FCM算法。根據(jù)權(quán)值的大小識(shí)別屬性的重要性,增加聚類結(jié)果的準(zhǔn)確率。

  改進(jìn)算法通過最小化目標(biāo)函數(shù)J′m實(shí)現(xiàn):

  13.jpg

  1.2 緊致性和分離性

  類內(nèi)數(shù)據(jù)的緊致性和類間數(shù)據(jù)的分離性是衡量FCM聚類結(jié)果有效性的重要標(biāo)準(zhǔn)和基本條件[6-7]?;趯傩约訖?quán)的FCM算法,定義類內(nèi)數(shù)據(jù)的緊致性為:

  45.jpg

  其中,UM~(F3NI4BK{)DU3{9OH]WN.png表示樣本xi屬于簇p和簇q的隸屬度的差值。簇間的分離性越大,Sep(c)的值越大。

  對(duì)類內(nèi)數(shù)據(jù)緊致性和類間數(shù)據(jù)分離性進(jìn)行歸一化,得到如下公式:

  68.jpg

  聚類質(zhì)量越好,fc的值越小。因此,可以通過計(jì)算fc的最小值,發(fā)現(xiàn)符合數(shù)據(jù)分布的聚類個(gè)數(shù)。

2 仿真實(shí)驗(yàn)及結(jié)果

  為了證明本文算法的有效性,進(jìn)行真實(shí)數(shù)據(jù)的測試。取模糊因子m=2,最大聚類個(gè)數(shù)為10。

  真實(shí)數(shù)據(jù)使用UCI中的Iris數(shù)據(jù)集、BUPA數(shù)據(jù)集和WDBC數(shù)據(jù)集。在數(shù)據(jù)集上運(yùn)行基于屬性加權(quán)的FCM算法,使用本文提出的聚類有效性指標(biāo)進(jìn)行聚類分析。3個(gè)數(shù)據(jù)集上有效性指標(biāo)與聚類個(gè)數(shù)之間的變化關(guān)系如圖1所示。多個(gè)有效性指標(biāo)確定3個(gè)數(shù)據(jù)集的最佳聚類數(shù),比較結(jié)果如表1所示。

001.jpg

  由圖1可知,3個(gè)數(shù)據(jù)集上有效性指標(biāo)fc的最小值分別對(duì)應(yīng)數(shù)據(jù)集的真實(shí)聚類個(gè)數(shù)。由表1可知,有效性指標(biāo)fc和PBMF可以同時(shí)發(fā)現(xiàn)3個(gè)數(shù)據(jù)集的真實(shí)聚類個(gè)數(shù)。XB指標(biāo)僅能發(fā)現(xiàn)WDBC數(shù)據(jù)集的真實(shí)聚類個(gè)數(shù),SC指標(biāo)不能發(fā)現(xiàn)BUPA數(shù)據(jù)集的真實(shí)聚類個(gè)數(shù),F(xiàn)HV僅能發(fā)現(xiàn)Iris數(shù)據(jù)集的真實(shí)聚類個(gè)數(shù),CWB指標(biāo)發(fā)現(xiàn)的聚類個(gè)數(shù)與3個(gè)數(shù)據(jù)集的真實(shí)聚類個(gè)數(shù)均有偏差。由此證明有效性指標(biāo)fc是有效的,且優(yōu)于多個(gè)現(xiàn)有的有效性指標(biāo)。

3 結(jié)論

  為了使FCM算法在聚類過程中能夠識(shí)別不同屬性對(duì)聚類貢獻(xiàn)的大小,使用自適應(yīng)的方法計(jì)算簇中每個(gè)屬性的權(quán)值,給簇內(nèi)方差較小的屬性賦予較大的權(quán)值,給簇內(nèi)方差較大的屬性賦予較小的權(quán)值,得到每個(gè)屬性在不同簇中具有不同權(quán)值的FCM算法。利用改進(jìn)FCM算法得到的隸屬度矩陣計(jì)算類內(nèi)數(shù)據(jù)的緊致性和類間數(shù)據(jù)的分離性,定義聚類有效性指標(biāo),自動(dòng)獲得最佳聚類數(shù),實(shí)現(xiàn)聚類無監(jiān)督的學(xué)習(xí)過程。通過實(shí)驗(yàn)證明了該指標(biāo)的有效性和可行性。

  參考文獻(xiàn)

  [1] Su Tieming, Ye Sanpai, Sun Wei, et al. Compensation model for thermal error of machining center based on gray-fuzzy clustering and LS-SVM[J]. Journal of Shenyang University of Technology,2011,33(5):524-530.

  [2] 向培素.近鄰半監(jiān)督聚類算法的MATLAB實(shí)現(xiàn)[J].?dāng)?shù)學(xué)技術(shù)與應(yīng)用,2012(8):100-101.

  [3] Yu Haitao, Li Zi, Yao Nianmin. Research on optimization method for K-Means clustering algorithm[J]. Journal of Chinese Computer Systems, 2012,33(10):2273-2277.

  [4] 王亮,王士同.動(dòng)態(tài)權(quán)值混合C-均值模糊核聚類算法[J].軟件學(xué)報(bào),2011,28(8):2852-2855.

  [5] 楊草原,劉大有,楊博,等.聚類集成方法研究[J].計(jì)算機(jī)科學(xué),2011,38(2):166-170.

  [6] KANNAN S R, RAMATHILAGAM S, DEVI R, et al. Robust kernel FCM in segmentation of breast medical images[J]. Expert System with Applications, 2011,38(4):4382-4389.

  [7] ZALIK K R, ZALIK B. Validity index for clusters of different sizes and densities[J]. Pattern Recognition Letters, 2011,32(2):221-234.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。