文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.212080
中文引用格式: 魏若冰,何家峰,邱曉芳,等. 基于SGCN的化合物致癌性預(yù)測模型[J].電子技術(shù)應(yīng)用,2022,48(6):33-35,41.
英文引用格式: Wei Ruobing,He Jiafeng,Qiu Xiaofang,et al. Predict the carcinogenicity of compounds with SGCN[J]. Application of Electronic Technique,2022,48(6):33-35,41.
0 引言
由于技術(shù)的發(fā)展,新化合物的合成速度加快,每年誕生的化合物數(shù)以萬計(jì)[1-2],傳統(tǒng)的評價(jià)方法不可能對所有的化合物進(jìn)行評估。并且近年來患癌人數(shù)不斷增多[3],目前仍不清楚大多數(shù)的癌癥是由于暴露于何種致癌化合物而導(dǎo)致的。世界衛(wèi)生組織國際癌癥機(jī)構(gòu)(IARC)致癌清單中只有429種化合物被歸為具有致癌性物質(zhì),但仍有500余種化合物未進(jìn)行判定。傳統(tǒng)的化合物致癌性評估主要通過實(shí)驗(yàn)測試進(jìn)行,試驗(yàn)周期長且成本昂貴,不確定因素過多,因此迫切需要開發(fā)替代方法和工具來評估化合物的致癌性。
利用計(jì)算機(jī)進(jìn)行毒性預(yù)測[4]是安全評價(jià)的重要手段,能夠大幅度節(jié)省非臨床安全評價(jià)試驗(yàn)成本,提高試驗(yàn)設(shè)計(jì)的科學(xué)性和準(zhǔn)確性。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,支持向量機(jī)(SVM)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)(Random Forest)和K-最近鄰(KNN)等機(jī)器學(xué)習(xí)算法已被廣泛用于化合物毒性預(yù)測中[5-7]。此外,對致癌性化合物的預(yù)測也有一些報(bào)道。2004年,張曉昀等人[8]用人工神經(jīng)網(wǎng)絡(luò)中誤差反向傳播網(wǎng)絡(luò)(BPNN)和徑向基函數(shù)網(wǎng)絡(luò)(RBFNN)對化合物的致癌性強(qiáng)弱進(jìn)行了分類,模型的分類準(zhǔn)確率達(dá)到了80%以上;2005年,張振山等人[9]用PCA對分子描述符降維,利用決策森林的方法預(yù)測化合物致癌性;在2007年,謝瑩等人[10]基于gSpan算法,挖掘與已知毒性化合物具有相同字結(jié)構(gòu)的化合物,進(jìn)行未知化合物的毒性預(yù)測;2017年,梁倩倩等人[11]基于量化構(gòu)效關(guān)系(QSAR)方法預(yù)測N-亞硝基化學(xué)物(NOCs)的致癌性,同年,閻愛俠等人[12]構(gòu)建化合物的多維描述符,分別采用4種機(jī)器學(xué)習(xí)方法(樸素貝葉斯、隨機(jī)森林、多層感知機(jī)和支持向量機(jī)),模型的平均正確率達(dá)到74%±3%。
本文詳細(xì)內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000004415。
作者信息:
魏若冰,何家峰,邱曉芳,劉 旗
(廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)