中文引用格式: 李秋云,劉燕武. 一種服務于K-means的初始中心選取方法[J]. 電子技術應用,2023,49(3):134-138.
英文引用格式: Li Qiuyun,Liu Yanwu. An initial centers selection method serving K-means[J]. Application of Electronic Technique,2023,49(3):134-138.
0 引言
聚類是一種無監(jiān)督分析方法,其目的是識別出數(shù)據(jù)集中的所有數(shù)據(jù)簇,并將每個簇中的數(shù)據(jù)點看作一類。在眾多聚類算法中,K-means[1]是使用頻率最高的舉足輕重的算法之一。K-means算法從數(shù)據(jù)集中選取k個數(shù)據(jù)點作為初始聚類中心,按照距離最近原則,將其他數(shù)據(jù)點分配給這k個初始中心得到初始簇,再將處于初始簇中心的數(shù)據(jù)點作為新的聚類中心。重復上述過程,直到聚類中心不再改變?yōu)橹?。K-means算法的原理相對簡單,這也是其受到廣泛追捧的原因。然而,該算法也存在著明顯缺陷:
(1)分析之前,需要明確k值。在K-means算法中,k值就是簇的數(shù)量。若k被設置為10,那么K-means算法將識別出10個數(shù)據(jù)簇。但聚類是一種無監(jiān)督分析任務,在聚類之前無法得知數(shù)據(jù)集存在多少簇。顯然,K-means算法的機理與聚類初衷是相矛盾的。在真實分析場景中,常常會出現(xiàn)k值多于或少于真實簇數(shù)的情況,影響聚類準確度。
(2)初始中心易聚團。K-means算法隨機將k個數(shù)據(jù)點確定為初始聚類中心,易造成多個聚類中心出現(xiàn)在同一簇內(nèi),導致該簇被分解為多類。
(3)迭代次數(shù)無法控制。K-means算法需要經(jīng)過多次迭代直至聚類中心不再改變?yōu)橹?。通常情況下,聚類中心最終會迭代到密度稠密區(qū)。也就是說,初始中心越遠離密度核心,K-means算法的迭代次數(shù)越多,運行時間越長。又因初始中心是隨機選取的,致使K-means算法的運行時間無法控制。
針對上述問題,本文提出一種名為DPCC(Density Peak Clustering Centers)的方法,為K-means算法提供初始中心。DPCC運用于K-means算法之前,通過計算數(shù)據(jù)點密度以及與高密度數(shù)據(jù)點間最近距離生成決策圖,以凸顯數(shù)據(jù)集中所有的密度峰值點。這些密度峰值點即可作為K-means算法的初始中心。
本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000005243
作者信息:
李秋云1,劉燕武2
(1.中國運載火箭技術研究院 北京宇航系統(tǒng)工程研究所,北京 100076;
2.中國電子信息產(chǎn)業(yè)集團有限公司,廣東 深圳 518000)