文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.200284
中文引用格式: 高凡,王富章,張銘,等. 基于TF-IDF進(jìn)化集成分類器的鐵路安全故障文本分類[J].電子技術(shù)應(yīng)用,2021,47(4):71-76,81.
英文引用格式: Gao Fan,Wang Fuzhang,Zhang Ming,et al. Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier[J]. Application of Electronic Technique,2021,47(4):71-76,81.
0 引言
安全問題歷來是鐵路運(yùn)輸?shù)闹攸c(diǎn)關(guān)注問題,在鐵路安全監(jiān)控體系中,為減少運(yùn)營(yíng)過程中可能存在的安全隱患,減少設(shè)備故障,保障系統(tǒng)穩(wěn)定運(yùn)行,安全人員根據(jù)日常巡檢、專項(xiàng)巡檢、重大節(jié)假日排查等計(jì)劃定期到現(xiàn)場(chǎng)檢查存在的安全生產(chǎn)故障隱患,并將問題記錄為文本形式存儲(chǔ)。管理人員依據(jù)這些問題記錄,分析、總結(jié)與整改問題。在長(zhǎng)期形成的海量的安全問題文本文件中,采用文本分類技術(shù)將安全問題自動(dòng)歸類,輔助管理人員更好地掌握與處理安全問題,在鐵路安全領(lǐng)域的重要性日漸凸顯。
一般來說,文本分類過程有以下3個(gè)步驟[1]:預(yù)處理、文本表示和文本分類。其中,文本預(yù)處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等。文本表示即將提取的文本特征轉(zhuǎn)換為計(jì)算機(jī)可處理的數(shù)據(jù)類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF),以及基于深度學(xué)習(xí)的Word2vec表示方法等[2]。在構(gòu)造分類器時(shí)使用的技術(shù)大體包括單個(gè)的基分類器、集成分類器以及深度學(xué)習(xí)模型[3]。集成分類器主要包含Bagging和Boosting兩種,Bagging的主要算法是隨機(jī)森林,Boosting的主要算法是梯度提升樹。在深度學(xué)習(xí)領(lǐng)域,有基于深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)[4-5]、循環(huán)神經(jīng)網(wǎng)絡(luò)等完成文本分類任務(wù)[6]。
目前,國(guó)內(nèi)學(xué)者在鐵路文本分析領(lǐng)域研究較多。王廣采用貝葉斯網(wǎng)絡(luò)的預(yù)測(cè)模型和自適應(yīng)增強(qiáng)算法(Adaptive Boosting,AdaBoost)的預(yù)測(cè)模型實(shí)現(xiàn)天氣相關(guān)的鐵路道岔故障預(yù)測(cè)[7];趙陽等以故障文本信息為依據(jù),針對(duì)高鐵信號(hào)車載設(shè)備,提出貝葉斯結(jié)構(gòu)學(xué)習(xí)算法(HDBN_SL)[8];李佳奇等將面向Agent的分布式人工智能技術(shù)引入到信號(hào)設(shè)備故障診斷系統(tǒng)中[9];楊連報(bào)針對(duì)信號(hào)故障不平衡數(shù)據(jù),采用SVM-SMOTE算法對(duì)TF-IDF轉(zhuǎn)換后的小類別文本向量數(shù)據(jù)隨機(jī)生成,分別采用基分類器和集成分類對(duì)數(shù)據(jù)進(jìn)行分類[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時(shí)發(fā)現(xiàn)的風(fēng)險(xiǎn)、隱患內(nèi)容,通常包括安全問題發(fā)生的時(shí)間、地點(diǎn)、問題描述等關(guān)鍵要素[11],所以針對(duì)每一類安全問題,存在特定的關(guān)鍵詞,本文在文本特征抽取上采用TF-IDF表示,針對(duì)Bagging集成分類器的基礎(chǔ)上,采用遺傳算法優(yōu)化,提升分類準(zhǔn)確性[12]。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003467
作者信息:
高 凡1,王富章1,張 銘1,趙俊華2,李高科1
(1.中國(guó)鐵道科學(xué)研究院,北京100081;2.北京經(jīng)緯信息技術(shù)有限公司,北京100081)