摘 要: 乳腺癌是危害女性生命的一種惡性腫瘤。目前,在乳腺癌治療方面,新輔助化療獲得了良好的成果,使眾多女性恢復(fù)了健康。支持向量機(jī)在實(shí)際應(yīng)用中有著良好的泛化和學(xué)習(xí)能力,并在商業(yè)、經(jīng)濟(jì)以及醫(yī)療等領(lǐng)域有所應(yīng)用。采用決策樹(shù)分類器和支持向量機(jī)分類器,結(jié)合乳腺癌新輔助化療隨訪記錄數(shù)據(jù),預(yù)測(cè)乳腺癌患者新輔助化療的預(yù)后狀態(tài),實(shí)驗(yàn)結(jié)果表明使用支持向量機(jī)的效果好于使用決策樹(shù)的效果,在支持向量機(jī)中使用徑向基核函數(shù)時(shí)獲得了最高的準(zhǔn)確率,達(dá)到了84.08%,由此可見(jiàn),該分類方法可能成為一種乳腺癌新輔助化療的預(yù)后狀態(tài)的有效預(yù)測(cè)工具。
關(guān)鍵詞: 乳腺癌;新輔助化療;預(yù)后;支持向量機(jī);分類
0 引言
女性的乳房是其美麗的代言,是母性的傳承,同時(shí)也是疾病的侵?jǐn)_對(duì)象。乳腺癌是女性最常見(jiàn)的惡性腫瘤之一,發(fā)病率正在逐年上升,且趨于年輕化,是危害女性健康的主要?dú)⑹諿1]。我國(guó)乳腺癌疾病也有著不好的趨勢(shì),其發(fā)病率和死亡率正在逐年攀升。由于受中國(guó)傳統(tǒng)因素的影響,婦女很少去醫(yī)院定期檢查,羞于關(guān)注乳房的健康,女性一旦發(fā)現(xiàn)患有乳腺腫瘤,多數(shù)已經(jīng)開(kāi)始轉(zhuǎn)移。由于患者的體質(zhì)不同,各項(xiàng)指標(biāo)亦不相同,如何在患者進(jìn)行新輔助化療之前預(yù)測(cè)到患者的化療療效,使能進(jìn)行化療的患者得到最大的受益,就變得尤為重要。本文將依據(jù)患者隨訪記錄信息,通過(guò)數(shù)據(jù)挖掘技術(shù),對(duì)患者化療療效進(jìn)行預(yù)測(cè),為乳腺癌患者的治療提供可靠的幫助。
1 研究現(xiàn)狀
伴隨著社會(huì)經(jīng)濟(jì)水平的逐漸提高,乳腺癌逐漸被人們重視起來(lái),國(guó)內(nèi)外學(xué)者和醫(yī)療工作者對(duì)計(jì)算機(jī)輔助治療做了大量的研究工作,并取得了一定的研究成果。然而伴隨著研究人員對(duì)乳腺癌的深入鉆研,大量的研究數(shù)據(jù)不斷涌現(xiàn),臨床病例每一位患者都有著大量的檢測(cè)、治療和預(yù)后數(shù)據(jù)。患者的醫(yī)療數(shù)據(jù)信息量很大,相互之間聯(lián)系復(fù)雜,想要提取有用的信息數(shù)據(jù),進(jìn)而從信息中提取出有用的知識(shí)更是難上加難。目前我國(guó)人民思想比較傳統(tǒng),乳腺癌治療與預(yù)測(cè)相對(duì)落后,計(jì)算機(jī)醫(yī)療輔助治療遠(yuǎn)遠(yuǎn)不如發(fā)達(dá)國(guó)家,為此,需要進(jìn)一步提升我國(guó)的醫(yī)療水平。
2 支持向量機(jī)原理
支持向量機(jī)是一個(gè)被大量使用的分類技術(shù)。其具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ),在商業(yè)領(lǐng)域、經(jīng)濟(jì)領(lǐng)域以及醫(yī)療領(lǐng)域等具有很好的應(yīng)用效果。支持向量機(jī)分為兩種模型,第一種是線性可分,第二種是線性不可分,第一種模型其實(shí)是第二種模型的特例[2]。
提高線性分類器的學(xué)習(xí)能力是通過(guò)核函數(shù)實(shí)現(xiàn)的。采用將數(shù)據(jù)映射高維空間的辦法,使線性不可分變?yōu)榭煞?。常用的核函?shù)有以下幾種:
?。?)線性核函數(shù)
在實(shí)際應(yīng)用中,核函數(shù)的選擇尤為重要,對(duì)于同一數(shù)據(jù),不同的核函數(shù)所得到的分類準(zhǔn)確率大不相同,所以核函數(shù)的優(yōu)選在支持向量機(jī)分類中顯得尤為重要。
3 應(yīng)用實(shí)例
3.1 數(shù)據(jù)預(yù)處理
本文所用數(shù)據(jù)來(lái)源于吉林大學(xué)附屬醫(yī)院,該數(shù)據(jù)集是依據(jù)乳腺癌化療隨訪記錄表所獲,包含2009年~2013年所有數(shù)據(jù)。經(jīng)過(guò)與醫(yī)生的共同探討,從眾多數(shù)據(jù)中選取了245名患者隨訪記錄,其中180個(gè)是具有良好治療效果的記錄,65個(gè)是治療效果不理想的記錄。在新輔助化療治療下有良好效果的乳腺癌患者被定義為正樣本,在新輔助化療治療下效果不理想的患者,則定義為負(fù)樣本。所屬的分類標(biāo)簽分別制定為+1和-1。每個(gè)樣本對(duì)應(yīng)一個(gè)患者的醫(yī)療特征,其中每一維的特征都是根據(jù)有經(jīng)驗(yàn)的醫(yī)生從中提取,是能夠表現(xiàn)出其病情的重要特征。
考慮到支持向量機(jī)處理的數(shù)據(jù)都是實(shí)數(shù),本文對(duì)非數(shù)值屬性進(jìn)行了轉(zhuǎn)換。轉(zhuǎn)換后的數(shù)據(jù)同樣適用于本文將要對(duì)比的決策樹(shù)算法。比如患者特征中Echogenic Halo特征包含的特征值為3個(gè),分別為Yes,No,Unknown,則對(duì)應(yīng)的數(shù)值分別為1,2,3,但是為了防止較大數(shù)值獲得最大權(quán)重,采取了如下所示的編碼機(jī)制:
Yes(1,0,0)
No(0,1,0)
Unknown(0,0,1)
3.2 分類結(jié)果
為了使分類效果得到更好的評(píng)估,引入靈敏度(Sen)、特異度(Spe)和準(zhǔn)確率(Q)來(lái)評(píng)價(jià)本文所使用分類器的性能,分別給出評(píng)價(jià)指標(biāo)的公式如式(5)~式(7)[3]。
其中TP是指在工作集中實(shí)際是正樣本,預(yù)測(cè)結(jié)果為正樣本的數(shù)目;FN是指在工作集中實(shí)際是正樣本,預(yù)測(cè)結(jié)果為負(fù)樣本的數(shù)目;TN是指在工作集中實(shí)際是負(fù)樣本,預(yù)測(cè)結(jié)果為負(fù)樣本的數(shù)目;FP是在工作集中實(shí)際是負(fù)樣本,預(yù)測(cè)結(jié)果為正樣本的數(shù)目[4]。
本文中所使用的數(shù)據(jù)均來(lái)自醫(yī)院真實(shí)數(shù)據(jù),正負(fù)樣本不均衡,為了更好地評(píng)價(jià)分類器的性能,故而引入Matthews相關(guān)系數(shù)MCC。計(jì)算公式如下:
MCC的取值范圍在[-1,1]之間,取值越小說(shuō)明該分類器性能越不好,反之則分類效果越好。
本文使用決策樹(shù)C4.5算法和支持向量機(jī)算法,并結(jié)合五次交叉驗(yàn)證方法來(lái)進(jìn)行乳腺癌新輔助化療預(yù)后狀態(tài)的預(yù)測(cè)。預(yù)測(cè)效果如表1所示。由表1得知,使用支持向量機(jī)比使用C4.5分類效果要好。本文還分別對(duì)比了支持向量機(jī)的三種核函數(shù),所體現(xiàn)的準(zhǔn)確率均高于決策樹(shù)的73.47%。從中可以看出,對(duì)于本數(shù)據(jù)來(lái)說(shuō),支持向量機(jī)分類效果要明顯好于決策樹(shù)。據(jù)表中數(shù)據(jù)顯示,靈敏度明顯高于特異度,說(shuō)明正樣本學(xué)習(xí)效果比負(fù)樣本學(xué)習(xí)效果要好。
本文分別對(duì)比了支持向量機(jī)的三種核函數(shù),對(duì)于本實(shí)驗(yàn)中所使用的該乳腺癌患者數(shù)據(jù),其準(zhǔn)確率均高于75%。支持向量機(jī)的最佳準(zhǔn)確率為84.08%,是使用徑向基核函數(shù)得到的,明顯高于其他兩種。由此得知,對(duì)于同一數(shù)據(jù)集而言,核函數(shù)不一樣,其準(zhǔn)確率也不一樣。想要得到高效的分類效果,必須選擇合適的核函數(shù)[5]。
本文所使用的數(shù)據(jù)集,數(shù)目有限,眾多數(shù)據(jù)中能夠起到支持向量的數(shù)據(jù)不夠充分。通過(guò)增加訓(xùn)練數(shù)據(jù),可找到更多的支持向量,進(jìn)而提高分類的準(zhǔn)確率,所以本文所采用的支持向量機(jī)方法有望成為新輔助乳腺癌患者預(yù)后預(yù)測(cè)的有效工具。
4 結(jié)論
本文使用兩種分類算法,并對(duì)其結(jié)果進(jìn)行了對(duì)比,從實(shí)驗(yàn)結(jié)果中可以看到,支持向量機(jī)在處理乳腺癌新輔助化療預(yù)后狀態(tài)預(yù)測(cè)方面的分類效果好于決策樹(shù)分類效果。分別比較了支持向量機(jī)三種核函數(shù),從結(jié)果數(shù)據(jù)中可以看出,使用徑向基核函數(shù)可使分類器獲得最佳分類效果。所以在使用支持向量機(jī)進(jìn)行分類的同時(shí),選擇哪一種核函數(shù)是至關(guān)重要的。支持向量機(jī)應(yīng)用于乳腺癌治療,會(huì)給乳腺癌患者帶來(lái)很大的幫助,使乳腺癌的治療越來(lái)越高效,降低死亡率,增加保乳機(jī)會(huì),使患者早日脫離疾病的折磨,恢復(fù)健康。
參考文獻(xiàn)
[1] 臧丹丹,崔穎,師建國(guó),等.中國(guó)西部地區(qū)乳腺癌診斷年齡的抽樣分析及中美對(duì)比研究[J].現(xiàn)代腫瘤醫(yī)學(xué),2010,18(3):571-573.
[2] 王平,王文劍.基于時(shí)序核函數(shù)的支持向量回歸機(jī)[J].計(jì)算機(jī)輔助工程,2006,15(3):35-38.
[3] 袁前飛,蔡從中,肖漢光,等.基于支持向量機(jī)的乳腺癌預(yù)后狀態(tài)預(yù)測(cè)和療效評(píng)估[J].北京生物醫(yī)學(xué)工程,2007,26(4):372-376.
[4] 馬勝祥,馬建慶,楊明.基于核函數(shù)擬合的非平衡數(shù)據(jù)分類方法[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(4):177-179.
[5] 崔炳德.支持向量機(jī)分類器遙感圖像分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(27):189-191.