国产成人无码精品午夜福利A,欧美另类极品videosbesr,性欧美乱妇高清come

適合近紅外光譜數(shù)據(jù)特征的降維方法對(duì)比分析

2015年微型機(jī)與應(yīng)用第1期

孫文蘋1，宮會(huì)麗1，王梅勛2，王麗麗2，徐碩2

（1.中國(guó)海洋大學(xué) 信息科學(xué)與工程學(xué)院，山東青島 266100； 2.山東臨沂煙草有限公司，山東臨沂 276000）

摘要： 因近紅外光譜具有波長(zhǎng)點(diǎn)多、譜帶歸屬困難、光譜重疊嚴(yán)重及光譜分布結(jié)構(gòu)未知等問題，在進(jìn)行近紅外光譜關(guān)鍵特征提取和數(shù)據(jù)特征空間映射時(shí)難以準(zhǔn)確獲知合適降維方法。為了解決該問題，本文對(duì)比分析了典型線性和非線性降維方法，并用煙葉近紅外光譜數(shù)據(jù)從數(shù)據(jù)降維可視化和分類準(zhǔn)確性識(shí)別率角度分別進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果表明，線性降維算法，特別是PCA、LDA算法，比較適合應(yīng)用于煙葉近紅外光譜降維分析中，非線性降維算法因其泛化學(xué)習(xí)能力與推廣能力差以及本征維數(shù)估計(jì)困難不適合應(yīng)用于近紅外光譜降維分析。

關(guān)鍵詞： 降維 PCA LDA 近紅外光譜小樣本

Abstract：

Key words :

　　摘要：因近紅外光譜具有波長(zhǎng)點(diǎn)多、譜帶歸屬困難、光譜重疊嚴(yán)重及光譜分布結(jié)構(gòu)未知等問題，在進(jìn)行近紅外光譜關(guān)鍵特征提取和數(shù)據(jù)特征空間映射時(shí)難以準(zhǔn)確獲知合適降維方法。為了解決該問題，本文對(duì)比分析了典型線性和非線性降維方法，并用煙葉近紅外光譜數(shù)據(jù)從數(shù)據(jù)降維可視化和分類準(zhǔn)確性識(shí)別率角度分別進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果表明，線性降維算法，特別是PCA、LDA算法，比較適合應(yīng)用于煙葉近紅外光譜降維分析中，非線性降維算法因其泛化學(xué)習(xí)能力與推廣能力差以及本征維數(shù)估計(jì)困難不適合應(yīng)用于近紅外光譜降維分析。

　　關(guān)鍵詞：降維；PCA；LDA；近紅外光譜；小樣本

0 引言

　　近紅外光譜（NIR）分析技術(shù)是近年來分析化學(xué)領(lǐng)域迅猛發(fā)展的高新分析技術(shù)，越來越受到國(guó)內(nèi)外分析專家的關(guān)注，在分析化學(xué)領(lǐng)域被譽(yù)為分析“巨人”。它的出現(xiàn)可以說帶來了又一次分析技術(shù)的革命。近紅外光譜分析技術(shù)廣泛應(yīng)用于農(nóng)產(chǎn)品、化工、醫(yī)藥等領(lǐng)域的質(zhì)量分析。然而，由于近紅外光譜數(shù)據(jù)具有高維、譜帶重疊等特征，給提取樣品的關(guān)鍵主成分信息帶來了一定程度的困難和挑戰(zhàn)。如何實(shí)現(xiàn)高維到低維空間的特征映射關(guān)系，選擇合適降維方法顯得尤為重要。近年來，為了解決高維光譜數(shù)據(jù)降維問題，國(guó)內(nèi)外相繼出現(xiàn)大量的降維算法。主成分分析（PCA）[1]和線性識(shí)別分析（LDA）[2]是目前應(yīng)用最為廣泛的特征提取與數(shù)據(jù)降維方法之一。但當(dāng)分析數(shù)據(jù)集呈現(xiàn)非線性且數(shù)據(jù)分布明顯彎曲時(shí)，采用線性降維方法無(wú)法獲取數(shù)據(jù)非線性結(jié)構(gòu)特征。為了更好地解決該問題，先后有不少非線性降維方法被提出，比較經(jīng)典的有局部線性嵌入LLE算法、等距離映射方法Isomap算法；另外，Sammon[3]提出了一種非線性映射，即Sammon映射（SM），該算法能夠保持輸入樣本之間的相關(guān)距離；Hastie[4]提出了Principal Curves（PC），其定義為通過概率分布或數(shù)據(jù)云中間的“自洽”光滑曲線；Kohonen[5]基于自組織神經(jīng)網(wǎng)絡(luò)提出Self-organizing Map（SOM）用來保存數(shù)據(jù)空間的拓?fù)鋵傩?；Scholkopf[6]應(yīng)用Mercer核將PCA擴(kuò)展為Kernel PCA（KPCA），該算法在高維空間中計(jì)算主分量，而該高維空間由輸入空間經(jīng)某種非線性映射得到；Mika等[7]采用相同的思想來非線性擴(kuò)展LDA，從而提出了Kernel LDA（KLDA）。

　　上述這些線性和非線性降維方法各有特性，適合解決不同類型特征數(shù)據(jù)，對(duì)于近紅外光譜而言，需要根據(jù)光譜特征找到適合降維和關(guān)鍵特征提取方法，因此，本文重點(diǎn)分析近紅外光譜特征，對(duì)比分析了線性降維算法與非線性降維算法在提取關(guān)鍵數(shù)據(jù)特征方面的優(yōu)缺點(diǎn)，獲得一種可行有效的降維方法，并在實(shí)際應(yīng)用中得到較好應(yīng)用。

1 降維方法

　　1.1 線性降維方法

　　主成分分析PCA是目前應(yīng)用最為廣泛的降維方法之一。PCA算法依據(jù)的是方差最大化原理，將數(shù)據(jù)從高維空間向低維空間映射，并使之投影后方向相互正交。主成分大小根據(jù)方差大小依次提取。PCA是一種無(wú)監(jiān)督的降維算法，該方法無(wú)需考慮數(shù)據(jù)類別屬性，通過某種線性投影變化獲得綜合變換，綜合變量最大化反應(yīng)了原始光譜數(shù)據(jù)中所反映的大致規(guī)律。

　　線性判別式分析LDA算法是模式識(shí)別的經(jīng)典算法，其基本思想是將高維的模式樣本投影到最佳鑒別矢量空間，以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果，投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離，使投影后空間中有最佳的可分離性。但是，PCA和LDA方法中的全局線性屬性限制了它們?cè)诜歉咚狗植紨?shù)據(jù)上的有效性。

　　1.2 兩種線性方法的區(qū)別

　　PCA算法是在數(shù)據(jù)空間中找出一組向量，用此向量盡可能地表達(dá)數(shù)據(jù)的方差，將數(shù)據(jù)從高維降到低維，其利用K-L變換獲得逼近原數(shù)據(jù)空間的最低維識(shí)別空間。LDA算法也是一種線性降維方法，它基于分類的思想對(duì)數(shù)據(jù)進(jìn)行降維，即它希望降維后的數(shù)據(jù)在分類后間距盡可能的大。

　　1.3 兩種線性方法的結(jié)合PCA+LDA

　　根據(jù)PCA與LDA的特點(diǎn)，可將二者進(jìn)行結(jié)合使用。設(shè)訓(xùn)練樣本為xi∈Rm×n，i=1，2，…，N，N表示訓(xùn)練樣本數(shù)，訓(xùn)練樣本的協(xié)方差矩陣Q為XXT，然后計(jì)算協(xié)方差矩陣的特征值與特征向量，并取其較大d個(gè)特征值對(duì)應(yīng)的特征向量，組成PCA算法的特征子空間W1；在樣本數(shù)小于樣本維數(shù)時(shí)，直接運(yùn)用LDA算法會(huì)出現(xiàn)小樣本問題，即Sw奇異，此時(shí)無(wú)法求出Sw-1Sb的特征向量，其中Sw為類內(nèi)散布矩陣，Sb為類間散布矩陣。依據(jù)PCA算法的特征子空間W1，結(jié)合使用PCA、LDA算法時(shí)Sw與Sb分別定義為：

　　Sw=W1TXwXwW1

　　Sb=W1TXbXbW1

　　然后，求解矩陣Sw-1Sb的特征值問題。這里選擇Sw-1Sb的P個(gè)較大特征值對(duì)應(yīng)的特征向量構(gòu)造LDA算法的特征子空間W2，將PCA算法與LDA算法的特征子空間進(jìn)行融合，即WS=W1W2，可獲得PCA-LDA算法的融合特征空間WS，使用得到的WS作為PCA-LDA算法的特征空間進(jìn)行運(yùn)算。

　　1.4 非線性降維方法

　?。?）LLE算法

　　局部線性嵌入（Locally Linear Embedding，LLE）算法是流形學(xué)習(xí)中非線性降維方法中最為經(jīng)典的算法之一，能夠使降維后的數(shù)據(jù)較好地保持原有流形結(jié)構(gòu)，并找到每個(gè)樣本的k個(gè)最近鄰域。

　?。?）ISOMAP

　　如果數(shù)據(jù)采自一個(gè)蛋卷形的流形，兩點(diǎn)間的歐式距離不能真實(shí)反應(yīng)兩點(diǎn)間的關(guān)系，而兩個(gè)點(diǎn)之間沿著蛋卷的最短距離即geodesic距離可以更好地反應(yīng)這兩個(gè)點(diǎn)之間的關(guān)系。ISOMAP的主要思想就是利用點(diǎn)之間的geodesic距離來代替點(diǎn)之間的歐氏距離，然后用Metric MDS計(jì)量多元尺度算法進(jìn)行數(shù)據(jù)降維。ISOMAP對(duì)數(shù)據(jù)的整體平移、旋轉(zhuǎn)和翻轉(zhuǎn)具有不變形的特性，并且它最后也歸結(jié)為特征值和特征向量的計(jì)算問題，它具有發(fā)現(xiàn)高維空間低維流形的能力。

　?。?）KPCA（Kernel-PCA）

　　KPCA算法是基于核函數(shù)的思想對(duì)PCA算法進(jìn)行改進(jìn)，它不會(huì)顯著增加計(jì)算的復(fù)雜度，并且繼承了PCA算法可以得到全局最優(yōu)解的特性，另外它可以求解非線性問題。其算法思想大致如下：假設(shè)有m個(gè)數(shù)據(jù)x1，x2，…，xm，當(dāng)這些數(shù)據(jù)在n維空間中線性不可分時(shí)，希望通過一個(gè)映射將數(shù)據(jù)從n維空間映射到N（N>n）維空間中，使得數(shù)據(jù)在N維空間中是線性可分的，這樣，當(dāng)使用PCA在N維空間對(duì)數(shù)據(jù)進(jìn)行降維時(shí)可以得到更好的結(jié)果。實(shí)踐發(fā)現(xiàn)，當(dāng)對(duì)數(shù)據(jù)處理時(shí)，經(jīng)常會(huì)出現(xiàn)求兩個(gè)向量點(diǎn)積的形式，即椎（xi）T（xj）的形式，于是，可以用一個(gè)函數(shù)來代替這種點(diǎn)積計(jì)算，即尋找一個(gè)函數(shù)，使得K（xi，xj）=（xi）T（xj），這樣可以把求點(diǎn)積的運(yùn)算轉(zhuǎn)化為求函數(shù)值的問題。這里的函數(shù)K（xi，xj）便稱為核函數(shù)。

2 實(shí)驗(yàn)部分

　　2.1 材料和儀器

　　為了獲得有效的近紅外光譜數(shù)據(jù)降維方法，挑選了134個(gè)有代表性的復(fù)烤片煙，包含福建、云南、山東3個(gè)質(zhì)量差異明顯的產(chǎn)區(qū)。這些煙葉樣品的近紅外光譜采用FOSS近紅外分析儀NIRS DS2500采集，該設(shè)備波長(zhǎng)范圍400~2 500 nm，數(shù)據(jù)采樣間隔0.5 nm。

　　2.2 環(huán)境條件

　　為了保證近紅外光譜數(shù)據(jù)采集的準(zhǔn)確性和穩(wěn)定性，需具有良好的環(huán)境溫濕度條件，空氣相對(duì)濕度范圍保持20%~70%，溫度范圍為20℃~26℃，樣品檢測(cè)過程中門窗處于關(guān)閉狀態(tài)，確保每小時(shí)的溫度變化不大于1℃，濕度變化不大于2%。

　　2.3 樣品前處理

　　將挑選的134份來自三個(gè)不同產(chǎn)區(qū)的煙葉樣品進(jìn)行抽樣、去梗等前處理，然后在烘箱中以60℃、4 h條件烘干（含水量約為4%~8%），從烘箱中取出烘好的樣品馬上磨粉，過篩40目，裝入密封袋中密封并常溫下避光貯存。

　　2.4 光譜數(shù)據(jù)采集

　　每份煙葉粉末樣品稱重20~25 g，采用漫反射的方式掃描，每個(gè)樣本重復(fù)裝樣3次，取平均光譜作為該樣品的最終近紅外光譜。

　　2.5 實(shí)驗(yàn)驗(yàn)證分析

　　2.5.1五種降維算法的數(shù)據(jù)可視化結(jié)果

　　本實(shí)驗(yàn)中，分別采用PCA、LDA、LLE、ISOMAP、KPCA 5種降維算法對(duì)134份煙葉粉末樣品近紅外光譜數(shù)據(jù)在MATLAB平臺(tái)下進(jìn)行降維分析，降維因子數(shù)為10個(gè)，其獲得數(shù)據(jù)可視化結(jié)果如圖1~圖5（其中橫軸表示降維后第一主成分的得分，縱軸表示降維后第二主成分的得分）。

　　從數(shù)據(jù)的可視化結(jié)果來看，LDA算法在水平與垂直方向都可以把產(chǎn)區(qū)分開，PCA、LLE、ISOMAP可以在某些方向上把產(chǎn)區(qū)分開，Kernel-PCA可以在某些區(qū)域內(nèi)把產(chǎn)區(qū)分開。

　　2.5.2 分類結(jié)果

　　從降維后的可視化結(jié)果中可看出5種算法的不同性能，此外，本文從另外一個(gè)角度——分類器正確識(shí)別率來判斷算法的適合性。從三個(gè)產(chǎn)區(qū)中分別隨機(jī)選取部分樣本作為測(cè)試樣本，訓(xùn)練樣本與測(cè)試樣本的組成結(jié)構(gòu)如表1所示。如果測(cè)試樣本經(jīng)過分類器分類之后可以正確識(shí)別出產(chǎn)區(qū)信息，則認(rèn)為是正確識(shí)別。實(shí)驗(yàn)過程中主因子數(shù)采用1~10，對(duì)5種降維算法分別進(jìn)行KNN分類，不同算法采用不同主因子數(shù)得到的正確識(shí)別率如表2所示。

　　由表2可以看出：（1）LDA具有最好的對(duì)煙葉產(chǎn)區(qū)分類功能，其次是PCA和ISOMAP，LLE對(duì)于產(chǎn)區(qū)分類的效果不理想，由此可以推測(cè)煙葉近紅外光譜在高維空間的分布情況；（2）特征空間維數(shù)對(duì)產(chǎn)區(qū)的正確識(shí)別率有一定的影響，并不是特征空間的維數(shù)越多對(duì)產(chǎn)區(qū)分類越好，這表明在特征提取時(shí)部分維數(shù)信息對(duì)于產(chǎn)區(qū)的分類是具有干擾性的。

3 結(jié)論

　　本文著重對(duì)比分析了線性與非線性的數(shù)據(jù)降維方法在煙葉光譜中的應(yīng)用。在對(duì)5種降維算法的分析中可以看出，PCA和LDA降維算法在煙葉近紅外光譜圖方面相對(duì)其他的降維算法有較好的分類性能，而且特征空間的維數(shù)對(duì)產(chǎn)區(qū)分類有一定的影響，合適的特征空間維數(shù)能夠進(jìn)行較好的分類。本文的分析結(jié)果與專家評(píng)吸的結(jié)果相一致，對(duì)降維算法的研究可為實(shí)際應(yīng)用中降維算法的選擇提供重要的參考依據(jù)。

參考文獻(xiàn)

　　[1] HOTELLING H. Analysis of a complex of statistical variables into principal components[J]. Journal of Educational Psychology， 1933，24：417-441.

　　[2] FISHER R A. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics， 1936，7（2）：179-188.

　　[3] SAMMON J J W. A nonlinear mapping for data structure analysis[J]. IEEE Trans on Computers，1969，18（5）：401-409.

　　[4] HASTIE T. Principal curves and surfaces[D]. California：

　　Stanford Univ， 1984.

　　[5] KOHONEN T. Self-organizing Maps[J]. Journal of Mathematical Modelling and Algorithms，2008，7（4）：371-387.

　　[6] SCHOLKOPF B， SMOLA A， M?譈LLER K R. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural Computation， 1999（10）：1299-1319.

　　[7] MIKA S， RATSCH G， WESTON J， et al. Fisher Discriminant Analysis with Kernels[C]. Proc. IEEE Workshop Neural Networks for Signal Processing， 1999，25： 41-48.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容