《電子技術(shù)應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 基于人工神經(jīng)網(wǎng)絡的多維離群點檢測算法
基于人工神經(jīng)網(wǎng)絡的多維離群點檢測算法
來源:微型機與應用2014年第5期
梁 兵,盧建軍,衛(wèi) 晨
(西安郵電大學 通信與信息工程學院,陜西 西安 710121)
摘要: 為了更加智能地檢測離群點,克服傳統(tǒng)離群點檢測算法的機械性,提升多維數(shù)據(jù)集合離群點挖掘效率,在傳統(tǒng)的離群數(shù)據(jù)挖掘算法的基礎上,提出了一種基于人工神經(jīng)網(wǎng)絡的多維離群點檢測算法。仿真實驗結(jié)果表明,該算法具有對用戶依賴性小、檢測精度高的優(yōu)點,為檢測離群點提供了一種新的路徑。
Abstract:
Key words :

摘  要: 為了更加智能地檢測離群點,克服傳統(tǒng)離群點檢測算法的機械性,提升多維數(shù)據(jù)集合離群點挖掘效率,在傳統(tǒng)的離群數(shù)據(jù)挖掘算法的基礎上,提出了一種基于人工神經(jīng)網(wǎng)絡的多維離群點檢測算法。仿真實驗結(jié)果表明,該算法具有對用戶依賴性小、檢測精度高的優(yōu)點,為檢測離群點提供了一種新的路徑。
關鍵詞: 人工神經(jīng)網(wǎng)絡;多維數(shù)據(jù);智能化;熵權(quán)

 離群點(Outlier)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存在的其他數(shù)據(jù)不一致的數(shù)據(jù)[1]。離群點檢測的目的在于從海量數(shù)據(jù)中找出具有明顯異常行為的數(shù)據(jù)。離群點的檢測應用于多個行業(yè),如通信盜用、網(wǎng)絡病毒檢測、疾病診斷等方面。目前有一些高效的離群點檢測挖掘算法,比如基于統(tǒng)計的、 距離的、深度的、密度的方法,參考文獻[2]-[6]中較為詳細地介紹了這些方法和各自的局限性。
這些傳統(tǒng)方法雖然有時針對各自的檢測對象具有良好性能,但是前提是必須對數(shù)據(jù)集有很深入的了解,比如用基于統(tǒng)計的方法,需要預先知道數(shù)據(jù)集屬于什么分布。這些傳統(tǒng)方法沒有智能挑選的能力,不會從復雜數(shù)據(jù)集中找出潛藏的規(guī)則。如有一組數(shù)據(jù)A=[1 2 4 8 15 32],如果按照基于距離的離群點檢測方法檢測,最有異常行為的數(shù)據(jù)是32,但是如果經(jīng)過訓練與預測,可發(fā)現(xiàn)15這個點在這里才具有最異常的行為。因此,找出數(shù)據(jù)集中潛在的規(guī)則是很有現(xiàn)實意義的。人工神經(jīng)網(wǎng)絡使得解決這一問題變成了一種可能。
 高維空間點的數(shù)據(jù)特性決定了其檢測與低維數(shù)據(jù)集有很大的區(qū)別。首先,與低維空間不同的是高維空間中的數(shù)據(jù)分布比較稀疏,造成高維空間中數(shù)據(jù)之間的距離尺度及區(qū)域密度不再具有直觀的意義[7]。從一個數(shù)據(jù)點來看,其他點到它的距離落在一個范圍很小的區(qū)間內(nèi),很難給出一個合適的近似度閾值來確定哪些點與它相似,哪些點不是。另外,對高維數(shù)據(jù)的估計需要的樣本個數(shù)與維數(shù)構(gòu)成指數(shù)增加的關系,這在機器學習中稱作著名的維數(shù)災難(Curse of Dimensionality)。大量的數(shù)據(jù)分析問題本質(zhì)上是非線性的,甚至是高度非線性,對此不能利用已有的快速成熟的線性模型進行研究[8]。
 因此引入熵權(quán)的概念,通過它能知道每個屬性對于離群點的貢獻程度,較好地解決了非線性問題,而且分開對于每個屬性值進行預測,然后做一個統(tǒng)計求和,對于位于維數(shù)災難有了較好的解決。
1 相關工作
1.1 人工神經(jīng)網(wǎng)絡

 人工神經(jīng)網(wǎng)絡(ANN)是一種應用類似于大腦神經(jīng)突觸連接的結(jié)構(gòu)進行信息處理的數(shù)學模型[9]。ANN是一個由大量簡單的處理單元組成的高度復雜的大規(guī)模非線性自適應系統(tǒng)[10]。它是對巨量信息并行處理和大規(guī)模平行計算的基礎,既是高度非線性的動力學系統(tǒng),又是自適應組織系統(tǒng),可用來描述認知、決策及控制的智能行為。對于處理大量原始數(shù)據(jù)而不能用規(guī)則或公式描述的問題,ANN則表現(xiàn)出極大的靈活性和自適應性。
1.2 BP神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)以及工作范式
 BP網(wǎng)絡是誤差反向傳播神經(jīng)網(wǎng)絡的簡稱,由輸入層、隱含層、輸出層組成。每一層由一個或多個神經(jīng)元組成。隱含層可以包括BP網(wǎng)絡的結(jié)構(gòu),如圖1所示。

 BP神經(jīng)網(wǎng)絡的輸入層接收輸入樣本信息,隱含層對輸入信息進行處理,輸出層負責處理后的結(jié)果。如果輸出層結(jié)果與預測值有誤差或者誤差大于給定閘值,則網(wǎng)絡將誤差反向通過輸出層傳遞給隱含層,經(jīng)過隱含層處理后,傳遞給輸入層,期間相鄰網(wǎng)絡層之間的連接權(quán)值經(jīng)過多次的權(quán)值修正。由此通過多次傳輸與反向傳輸,相鄰層之間的連接權(quán)值通過不斷修正,從而將誤差控制到給定閘值范圍之內(nèi),至此,學習結(jié)束。權(quán)值不斷調(diào)整的過程就是網(wǎng)絡學習的過程。BP神經(jīng)網(wǎng)絡最直接的優(yōu)點就是與大腦認知具有一定的相似性,如容錯性、學習能力、非線性等。
1.3 相關定義與公式
 定義1 rji稱為第j個對象在i個屬性上的值,且rji∈[0,1],則在n個對象d維屬性中,第i維屬性的熵定義為:


2 算法描述及偽代碼
 本文算法(BAOA)將所選數(shù)據(jù)分為訓練數(shù)據(jù)和檢測數(shù)據(jù)(預測數(shù)據(jù))。算法將訓練數(shù)據(jù)當做全部非離群點進行訓練而找出隱藏規(guī)則,然后將這規(guī)則應用于檢測數(shù)據(jù)的預測。所選訓練數(shù)據(jù)通常占全部數(shù)據(jù)比率為8.5~11.5%左右(此時數(shù)據(jù)量也比較大),這樣既可以保證訓練的有效性(找出隱藏規(guī)則),同時又能保證丟失掉的訓練數(shù)據(jù)中的離群點(如果存在)對于全部離群點來說影響又不大。該算法除在訓練點數(shù)據(jù)個數(shù)的選取上較為新穎且有實際意義外,而且中間加入判定有無預測值的算法,對于沒有預測值的數(shù)據(jù)點賦予一個經(jīng)驗值,這樣更能維持數(shù)據(jù)監(jiān)測的穩(wěn)定性。
 該算法首先對原始數(shù)據(jù)集中每一個屬性對應的值進行極差變換,然后計算每一個屬性的熵權(quán),而后對數(shù)據(jù)集中的訓練數(shù)據(jù)的每一個非空間屬性按照順序排列后經(jīng)過所選人工神經(jīng)網(wǎng)絡模型進行訓練,然后對于剩下的所有數(shù)據(jù)(檢測數(shù)據(jù))的每一個屬性按照順序排序后經(jīng)過所選神經(jīng)網(wǎng)絡模型進行預測,然后經(jīng)過算法的判斷函數(shù),將沒有預測值的屬性值人工賦予一個預測值(在經(jīng)驗波動范圍內(nèi)),保證每個待檢測的數(shù)據(jù)點都有預測值。而后將預測值作為標準值,通過計算每一個屬性值自身的的偏差,再結(jié)合每一個屬性熵權(quán)對它進行處理,得出每一個數(shù)據(jù)點的離群程度大小,最后按照離群程度從大到小的順序進行排序。
3 仿真
 仿真操作系統(tǒng)和軟件:win7-32、Matlab
 仿真對象:葡萄酒識別數(shù)據(jù)
 所選數(shù)據(jù)描述:所選數(shù)據(jù)來源于由C.Blake于1998年9月21日更新的數(shù)據(jù)集,它分為低中高三種,個數(shù)分別為63,1319,27。有12屬性,分別為:酒精、蘋果酸、灰、鎂、總酚類、黃酮、Nonflavanoid酚類、原花色素、顏色強度、色相、0D280/0D315稀釋葡萄酒、脯氨酸。
 所選ANN網(wǎng)絡:BP網(wǎng)絡
 輸入個數(shù)J:4
 輸出個數(shù)K:1
 隱含層個數(shù)Y:6
 處理說明:在訓練和預測時,每次都是對屬性值排序后進行訓練和預測,這樣更容易找出隱藏規(guī)則,計算效率更高,預測效果更好。后s+1到n個數(shù)據(jù)點每個屬性預測時,前J個作為輸入值時,它沒有對應的預測值。對此進行的處理是此時賦予它一個合適的值(波動大小在經(jīng)驗范圍內(nèi)),此次仿真過程中是賦予一個和原始值一樣的值作為預測值。雖然后s+1到n個數(shù)據(jù)點每個對象按照每個屬性每次排序后對應的前J個值id不一樣,但是因為數(shù)據(jù)海量,且維數(shù)較多,這樣處理后對于離群點的預測并無大的影響。圖2為后800個葡萄酒樣本中脯氨酸的屬性值的真實值和預測值。

 

 

  本文針對高維空間中數(shù)據(jù)的特點,提出了一種智能找出隱藏規(guī)則并且自動檢測離群點的算法。對于多維復雜且對離群點特征沒有明顯約束的數(shù)據(jù)集,ANN表現(xiàn)出了它的優(yōu)越性。仿真結(jié)果表明, 通過ANN建立的多維離群點檢測,具有傳統(tǒng)方法無可比擬的智能性,而且檢測精度較高。為各位離群點檢測相關專業(yè)人員和業(yè)務愛好者提供了一種思路。

參考文獻
[1] HAWKINS D M. Identification of outliers[M]. London: Chapman and Hall, 1980.
[2] HAN J, KAMBER M, PEI J. Data mining: concepts and techniques[M]. Morgan kaufmann, 2006.
[3] WANG L, ZOU L. Research on algorithms for mining distance based outliers[J]. Chinese Journal of Electronics, 2005, 14(3) :384-387.
[4] SHEKHAR S, LU C T, ZHANG P. A unified approach to detecting spatial outliers[J]. GeoInformatica, 2003, 7(2): 139-166.
[5] AGGARWAL C C, YU P S. Finding generalized projected clusters in high dimensional spaces[M]. ACM, 2000.
[6] 魏藜,宮學慶,錢衛(wèi)寧,等.高維空間中的離群點發(fā)現(xiàn)[J].軟件學報,2002,13(2):280-290.
[7] SHEKHAR S, LU C T, ZHANG P. A unified approach to detecting spatial outliers[J]. GeoInformatica, 2003, 7(2): 139-166.
[8] 傅薈璇,趙紅.MATLAB神經(jīng)網(wǎng)絡應用設計[M].北京:機械工業(yè)出版社,2010.
[9] 鐘義信.知識理論與神經(jīng)網(wǎng)絡[M].北京:清華大學出版社,2009.
[10] 閔劍.人工神經(jīng)網(wǎng)絡在石化項目績效評價中的應用研究[D].北京:清華大學,2009.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。