文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2022.04.010
引用格式: 張永偉,朱祁,吳永城. 基于分解策略的多標簽在線特征選擇算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(4):65-71,77.
0 引言
近年來,隨著多標簽分類問題的深入研究,出現(xiàn)了大量的多標簽分類算法。目前,在多標簽分類中,存在四種主要的處理策略:數(shù)據(jù)分解法、算法擴展法、混合法和集成法。特征選擇是多標簽分類問題中的一個重要課題,并且已經(jīng)進行了廣泛研究。對于分類,特征選擇的目標是通過相關(guān)特征的一個子集來構(gòu)建有效的預(yù)測模型,通過消除不相關(guān)和冗余特征,可以減輕維度災(zāi)難的影響,提高泛化性能,加快學習過程,提高模型預(yù)測的性能。特征選擇已在許多領(lǐng)域得到應(yīng)用,特別是在涉及高維數(shù)據(jù)的問題中。
雖然已經(jīng)進行了廣泛研究,但大多數(shù)現(xiàn)有的特征選擇研究都局限于批量學習,假定特征選擇任務(wù)是以離線/批量學習的方式進行的,而且訓練實例的特征是先驗的。這樣的假設(shè)并不總是適用于訓練樣本以順序方式到達的實際應(yīng)用。與批量學習方式相比,在線學習方式則采用增量的方式處理數(shù)據(jù)集,相對而言,計算代價要小于批量學習算法。在現(xiàn)有的多標簽在線分類算法中計算數(shù)據(jù)的全部特征信息是需要代價的。尤其是存在高維數(shù)據(jù)和數(shù)據(jù)冗余時,傳統(tǒng)的多標簽在線分類算法,需大量計算且分類性能較差。本文利用在線學習的優(yōu)勢,研究了多標簽在線特征選擇問題,旨在通過有效地探索在線學習方法來解決多標簽特征選擇問題。具體而言,多標簽在線特征選擇的目標是研究在線分類器,其僅涉及用于分類的少量和固定數(shù)量的特征。當處理高維度的連續(xù)訓練數(shù)據(jù)時,如在線垃圾郵件分類任務(wù)(其中傳統(tǒng)的批量特征選擇方法不能直接應(yīng)用),在線特征選擇尤為重要和必要。
本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000004992。
作者信息:
張永偉1,2,朱 祁1,2,吳永城1,2
(1.南瑞集團(國網(wǎng)電力科學研究院)有限公司,江蘇 南京210003;
2.南京南瑞智慧交通科技有限公司,江蘇 南京210032)