唐思源,白金牛,楊敏
(包頭醫(yī)學院 計算機科學與技術(shù)系,內(nèi)蒙古 包頭 014040)
摘要:臨床經(jīng)驗及診斷中表明許多疾病都與紅細胞形變有關(guān)。因此分析紅細胞的形態(tài)特征可以輔助診斷病人的病情。運用模板匹配方法尋找12類形態(tài)變異的紅細胞子圖像的位置,應(yīng)用PCA和LDA算法對12類產(chǎn)生形變的紅細胞進行特征選擇和提取,并針對噪聲問題對算法進行了改進。通過實驗數(shù)據(jù)對一些分類困難的形變細胞做進一步的數(shù)據(jù)對比及特征提取分類。實驗表明,該算法及改進的方法能有效區(qū)分并提取出不同類型的紅細胞,分類的準確率達到了92.7%。
關(guān)鍵詞:紅細胞形變;特征提取;PCA和LDA算法;噪聲
0引言
隨著醫(yī)學成像技術(shù)的發(fā)展和進步,在臨床醫(yī)學中,用計算機處理醫(yī)學類圖像的應(yīng)用越來越廣泛。應(yīng)用計算機技術(shù)輔助分析與處理醫(yī)學圖像,逐漸成為一門交叉學科。該學科一方面可以對放射儀器采集的圖像進行分析和處理,另一方面對掃描電子顯微鏡(SEM)[1]下的圖像進行處理。本文所采集的圖像就是在SEM下獲取的紅細胞圖像。紅細胞是脊椎動物與外界進行氣體交換的媒介,即呼出二氧化碳,呼入氧氣。當紅細胞發(fā)生形變后,不僅影響到血液系統(tǒng),還會涉及其他系統(tǒng)功能,并且會誘發(fā)很多疾病,比如缺鐵性貧血、溶血性貧血等病癥。因此,對紅細胞形狀特征的研究和提取很有研究的價值。
1紅細胞形態(tài)分類的研究
人類正常的紅細胞是雙面凹陷的圓餅形狀,中間比較薄,兩邊比較厚,通常在6~9 μm之間,如圖1所示,這種形狀的紅細胞可以最大限度地獲取氧氣。各種血液系統(tǒng)疾病都可引起紅細胞的形變,形變后的紅細胞,其大小、形狀、厚度、染色等都會有所改變,經(jīng)過大量臨床分析,紅細胞形變后的形態(tài)大致分為12類[2], 分別是小紅細胞、大紅細胞、裂紅細胞、口形紅細胞,球形紅細胞、橢圓形紅細胞、半月形紅細胞、刺毛紅細胞、鐮狀紅細胞、水滴形紅細胞、靶形紅細胞、棘形紅細胞,圖像如圖2所示。
本節(jié)重點介紹了12類形態(tài)變異的紅細胞的形態(tài)特征,為下一步對圖像進行特征提取打下基礎(chǔ)。
2紅細胞圖像特征提取的研究
圖像特征[3]是指人們能肉眼觀察到的顏色、形狀、亮度、大小等圖像的信息,能觀察到的特征稱為低層次特征。而有些特征是通過測量或者公式變換計算出來的,稱之為高級特征,比如直方圖、濾波、頻譜等。提取圖像的特征是模式識別的基礎(chǔ),只有把相同圖像的共有特征提取出來,才能從復(fù)雜圖像中提取出需要的圖像信息。例如:可以根據(jù)灰度值、角點等特征信息從圖像中提取出文本內(nèi)容等。基于對顯微鏡下大量紅細胞圖像分析,本文主要從紅細胞的幾何特征、紋理特征中提取幾種對分類有意義的特征值。
2.1圖像特征的提取
提取圖像的特征[4]主要是提取出圖像相關(guān)的像素點,并且對像素點進行歸類的過程,廣義上講就是一種變換。在提取圖像特征的時候,特征的選取也很重要,良好的特征應(yīng)具備區(qū)別性大、可靠性高、獨立性好、數(shù)量少這四個特點。提取過程如圖3所示。
2.2圖像特征的選擇
在圖像分類過程中,必須從較大的特征集中選擇符合條件的特征量,從得到的特征向量中選擇少而精的向量集,進行分類識別,這樣才能提高分類的準確率。特征選擇[5]就是選取能代表同一類圖像共同屬性的特征集合,也是一個降低特征空間維數(shù)的過程。目前,搜尋策略方法是研究者們常用的特征方法,該方法有三種方式:分別為啟發(fā)式、窮舉式和隨機方式。
2.3紅細胞幾何特征
常用的特征表達方法有顏色、紋理和形狀等,這些特征信息具有各自的特點,本文采集的紅細胞圖像屬于灰度圖像,紋理和形狀的描述顯得較為突出。根據(jù)上文介紹,正常的紅細胞與異常的12類紅細胞的大小、形狀差異比較大,因此幾何特征[6]的提取在文章中顯得尤為重要。首先本文通過計算面積、圓度、矩形度等,得到細胞的原始特征,形成特征后,經(jīng)過變換、壓縮維數(shù)或者用數(shù)學方法進行篩選,提取較少的新特征。
本文選用了以下幾個形態(tài)特征參數(shù)作為紅細胞形態(tài)學的特征,它們?nèi)菀滋崛〔⒛芊从巢煌t細胞的差異,其定義如下。
(1)區(qū)域面積
區(qū)域面積[7]指的是細胞區(qū)域的大小,其計算公式為:
(2)區(qū)域周長
區(qū)域周長就是區(qū)域輪廓的長度。其計算公式為:
(3)細胞的圓形度(形狀參數(shù))
圓形度表示細胞是否接近圓形。用公式表示為:X=,X的值越接近1,該細胞圖形的形狀越接近圓形,否則形狀越不規(guī)范。
(4)矩形度
矩形度表示圖形面積和矩形面積之比,公式表示為:
R=S0/Sr
(5)伸長度
該參數(shù)可以反映圖形的細長程度,定義的公式為:
(6)長軸和短軸
細胞圖像中兩點間最遠距離是長軸長,細胞圖像中兩點間最近距離表示短軸長。
(7)不變矩(中心矩)
所謂中心矩是指以重心為原點進行計算的不變矩陣。
2.4紅細胞紋理特征
紋理[8]是經(jīng)過變換后,圖像局部特征的一種表現(xiàn),紋理可以對圖像中不同區(qū)域的方向、粒度、結(jié)構(gòu)和規(guī)則性的差異進行有效的描述,針對不同結(jié)構(gòu)的紋理特征,目前存在著很多種分析方法,這些方法有統(tǒng)計法、結(jié)構(gòu)法和空間頻域聯(lián)合分析法。本文應(yīng)用統(tǒng)計法和結(jié)構(gòu)法相結(jié)合的算法,計算圖像的灰度-基元共生矩陣,并從矩陣中提取出能描述紅細胞紋理特征參數(shù)的特征向量值,來描述不同類型紅細胞的紋理特性,需要的紋理特征參數(shù)[9]如下:
能量:ASM=∑L-1i=0∑L-1j=0P2δ(i,j)
熵:
對比度:
相關(guān):
上述幾種參數(shù)是應(yīng)用灰度共生矩陣進行紋理分析的主要參數(shù),可以將它們組合起作為紋理分析的特征參數(shù)使用。
2.5紅細胞特征提取
首先應(yīng)用模板匹配的方法尋找12類形態(tài)變異的紅細胞子圖像的位置,選擇一個紅細胞的形狀模板,將模板的中心放在一個所匹配的圖像點上,然后計算模板中有多少個點與圖像點相匹配,對整幅的圖像重復(fù)該過程,最佳匹配點即計數(shù)最大的點,定位紅細胞的位置。模板匹配可以被定義為一種參數(shù)估計方法,算法如下:(1)求似然函數(shù)的最大值。將模板定義為一個離散函數(shù),為所匹配的帶噪聲的圖像計算圖像的標準偏差,得到概率函數(shù),因為影響每個像素的噪聲都是獨立的,所以模板所處位置的概率是該模板所覆蓋的每個像素的聯(lián)合概率。得到聯(lián)合概率函數(shù),最終可得似然函數(shù),在最大似然估計中,需要選擇參數(shù),求得似然函數(shù)最大值。(2)計算最大化模板和圖像之間的互相關(guān)。通過求似然函數(shù)的最大值,使目標函數(shù)的變化率最小化,由公式給出最小化問題的解,再通過計算式,得到最佳的匹配位置。此外,互相關(guān)的取值范圍取決于模板的大小,并且相對于圖像光照條件的變化來說也不是不變的。可以對互相關(guān)進行歸一化處理,其中窗口內(nèi)的點像素的平均值是模板像素的平均值。通過歸一化后,并對紅細胞圖像進行二值化處理,可以減少計算量,得到最佳的匹配位置。
其次,應(yīng)用主成分分析(Principa1 Components Analysis,PCA)方法[10]與線性判別分析(Linear Discriminant Analysis,LDA)方法相結(jié)合的算法來提取紅細胞的特征,該算法既可以降低空間維數(shù),又可以克服兩種算法的缺點。PCA算法[11]的優(yōu)點是:識別速度快、識別率高,對于扭曲變形的圖像有很強的魯棒性,缺點是: 對光照敏感。LDA算法[11]的優(yōu)點是:改善了光照敏感性,對光照不均勻的圖像也能很好地計算出特征向量值進行特征的提取。本文的算法步驟如下:(1)空間降維及子空間融合。首先,利用PCA方法進行空間降維,將高維空間的樣本投影到低維空間。接著,將PCA算法與LDA算法構(gòu)成的特征子空間進行融合,獲得其融合特征空間。(2)空間投影及求特征值。先進行規(guī)范化處理, 把規(guī)范化后的樣本A投影到融合特征子空間中,利用公式:yd=Axk(k=1,2,…,d)得到一組投影向量y1,y2,…,yd,把投影向量排列成矩陣形式,把矩陣轉(zhuǎn)換成直方圖,通過直方圖提取出細胞樣本A的特征值。(3)特征選擇及特征提取。通過計算分辨率系數(shù),選擇分辨率強的特征值,然后利用LDA特征選擇的線性分類方法對紅細胞進行特征提取。(4)去除噪聲。由于經(jīng)過降維之后,很多噪聲數(shù)據(jù)還殘留在細胞特征信息里,本文通過求解Fisher準則函數(shù)[12],對特征提取算法做去除噪聲的改進處理。定義Fisher準則函數(shù)如下:,其中sw是非奇異矩陣,w是投影向量,本文通過具體分析sw、sb的特征空間,使Fisher準則函數(shù)最大化,求出對應(yīng)的特征向量,滿足等式sbwi=λSwWi(i=1,2,…,m)的解即為紅細胞的特征值,否則視為噪聲。通過改進處理后,同一類的樣本特征值聚集在一起,而不同類的噪聲樣本相對比較分散。
最后,對12類紅細胞,共332個紅細胞提取了7類與實驗密切相關(guān)的幾何特征值,這7類特征值的平均值見表1所示。
該算法在MATLAB環(huán)境下實現(xiàn),隨機選取電子顯微鏡下100張紅細胞圖像進行實驗,應(yīng)用本文提出的主成分分析法和線性判別法進行特征的選擇與提取,并通過實驗數(shù)據(jù)提出對一些分類困難的紅細胞進行進一步數(shù)據(jù)對比及特征分類的方法。實驗結(jié)果表明,該算法的分類準確率達到了92.7%,是一種有效的方法。
3結(jié)論
本文通過對紅細胞圖像進行篩選,最終選取了形態(tài)特征、紋理特征中的9個特征值組成的特征庫,并增加了數(shù)據(jù)對比,明顯提高了對12類紅細胞分類的準確性。在今后的工作中要繼續(xù)挖掘新的特征,比如色度和亮度特征、顆粒特征等,對那些環(huán)境復(fù)雜、形態(tài)不規(guī)則的細胞進行提取。
參考文獻
[1] GEDDE M M,YANG E,HUESTIS W H.Shape response of human erythrocytes to altered cell pH[J].Blood, 2015, 86(6):1595 1599.
?。?] CASTLEMAN K R.Digital image processing[M].Beijing:Tsinghua University Press,2008.
[3] VAPNIK V N. Statistical learning theory [M].New York: Wiley Press, 2008.
?。?] BERTHOLD K P H.Robort vision[M].Cambridge: MIT Press,2009.
[5] DUNCAN J S,AYACHE N.Medical image analysis: progress over two decades and the challenges ahead[J].IEEE Transactions on Pattern Analysis and Machine Intelligenee,2009,22(1):85 106.
?。?] 王浩軍,鄭崇勛,李映,等.支持向量機在血細胞分類中的應(yīng)用[J].生物醫(yī)學工程學雜志,2003,20(3):484 487.
[7] 田婭,饒妮妮,蒲立新.國內(nèi)醫(yī)學圖像處理技術(shù)的最新動態(tài)[J].電子科技大學學報,2012,31(5):485 489.
?。?] 朱學芳.計算機圖像處理導(dǎo)論[M].北京,科學技術(shù)文獻出版社,2013.
[9] 阮秋琦.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2010.
?。?0] 王亮申,歐宗瑛.圖像紋理分析的灰度基元共生矩陣法[J].計算機工程, 2014, 23(30):19 21.
[11] 孫即祥.現(xiàn)代模式識別[M].合肥:國防科技大學出版社, 2011.
?。?2] 曾明,孟慶浩,張建勛,等.基于形態(tài)特征和SVM的血液細胞核自動分析[J].計算機工程,2008,34(2):14 19.