《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 基于TF-IDF進(jìn)化集成分類器的鐵路安全故障文本分類
基于TF-IDF進(jìn)化集成分類器的鐵路安全故障文本分類
2021年電子技術(shù)應(yīng)用第4期
高 凡1,王富章1,張 銘1,趙俊華2,李高科1
1.中國(guó)鐵道科學(xué)研究院,北京100081;2.北京經(jīng)緯信息技術(shù)有限公司,北京100081
摘要: 鐵路安全問題是鐵路運(yùn)輸保證的核心問題,鐵路安全問題非結(jié)構(gòu)化文本數(shù)據(jù)量大,文本內(nèi)容無特定規(guī)律,對(duì)于綜合分析解決安全故障問題造成很高的難度。針對(duì)鐵路安全問題數(shù)據(jù)智能分類,提出進(jìn)化集成分類器模型。運(yùn)用TF-IDF算法,通過分析接觸網(wǎng)安全問題的數(shù)據(jù)特點(diǎn)提取文本特征。采用決策樹作為基分類器的Bagging集成分類器將文本數(shù)據(jù)分類,在Bagging分類過程中,針對(duì)Bagging算法產(chǎn)生的基分類器組合解集,提出采用遺傳算法(Genetic Algorithm)將其優(yōu)化,產(chǎn)生分類結(jié)果較優(yōu)的基分類器組合解集。以鐵路局實(shí)際安全問題進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)證明TF-IDF+Bagging+Genetic Algorithm=Evolutionary Ensemble Classifier進(jìn)化集成分類器模型在鐵路安全問題文本分類中具有較高的準(zhǔn)確性。
中圖分類號(hào): TN02;U284
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.200284
中文引用格式: 高凡,王富章,張銘,等. 基于TF-IDF進(jìn)化集成分類器的鐵路安全故障文本分類[J].電子技術(shù)應(yīng)用,2021,47(4):71-76,81.
英文引用格式: Gao Fan,Wang Fuzhang,Zhang Ming,et al. Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier[J]. Application of Electronic Technique,2021,47(4):71-76,81.
Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier
Gao Fan1,Wang Fuzhang1,Zhang Ming1,Zhao Junhua2,Li Gaoke1
1.China Academy of Railway Science,Beijing 100081,China; 2.Beijing Jingwei Information Technologies Co.,Ltd.,Beijing 100081,China
Abstract: Railway safety is the core of railway transportation guarantee. The unstructured text data of railway safety problems is large, and the content of the text has no specific rules, which makes it very difficult to comprehensively analyze and solve the safety problems. Aiming at the intelligent classification of railway safety data, an evolutionary ensemble classifier model is proposed. By analyzing the characteristics of the catenary security issues of data, TF-IDF model is adopted to realize the feature extraction. Bagging ensemble classifier which uses Decision Tree as the base classifier classifies the text data, in the process of classification of Bagging, for the combined solution set of base classifier generated by Bagging Algorithm, Genetic Algorithm is proposed to optimize it to generate the combined solution set of base classifier with better classification results. Based on the safety problem of power supply contact network of a railway bureau, the experimental analysis shows that the TF-IDF+Bagging+Genetic Algorithm=Evolutionary Ensemble Classifier model has a high classification index in the text classification of railway safety problems.
Key words : software railway safety problems;TF-IDF;base classifier;integrated classifier;evolutionary integration classifier

0 引言

    安全問題歷來是鐵路運(yùn)輸?shù)闹攸c(diǎn)關(guān)注問題,在鐵路安全監(jiān)控體系中,為減少運(yùn)營(yíng)過程中可能存在的安全隱患,減少設(shè)備故障,保障系統(tǒng)穩(wěn)定運(yùn)行,安全人員根據(jù)日常巡檢、專項(xiàng)巡檢、重大節(jié)假日排查等計(jì)劃定期到現(xiàn)場(chǎng)檢查存在的安全生產(chǎn)故障隱患,并將問題記錄為文本形式存儲(chǔ)。管理人員依據(jù)這些問題記錄,分析、總結(jié)與整改問題。在長(zhǎng)期形成的海量的安全問題文本文件中,采用文本分類技術(shù)將安全問題自動(dòng)歸類,輔助管理人員更好地掌握與處理安全問題,在鐵路安全領(lǐng)域的重要性日漸凸顯。

    一般來說,文本分類過程有以下3個(gè)步驟[1]:預(yù)處理、文本表示和文本分類。其中,文本預(yù)處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等。文本表示即將提取的文本特征轉(zhuǎn)換為計(jì)算機(jī)可處理的數(shù)據(jù)類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF),以及基于深度學(xué)習(xí)的Word2vec表示方法等[2]。在構(gòu)造分類器時(shí)使用的技術(shù)大體包括單個(gè)的基分類器集成分類器以及深度學(xué)習(xí)模型[3]。集成分類器主要包含Bagging和Boosting兩種,Bagging的主要算法是隨機(jī)森林,Boosting的主要算法是梯度提升樹。在深度學(xué)習(xí)領(lǐng)域,有基于深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)[4-5]、循環(huán)神經(jīng)網(wǎng)絡(luò)等完成文本分類任務(wù)[6]

    目前,國(guó)內(nèi)學(xué)者在鐵路文本分析領(lǐng)域研究較多。王廣采用貝葉斯網(wǎng)絡(luò)的預(yù)測(cè)模型和自適應(yīng)增強(qiáng)算法(Adaptive Boosting,AdaBoost)的預(yù)測(cè)模型實(shí)現(xiàn)天氣相關(guān)的鐵路道岔故障預(yù)測(cè)[7];趙陽等以故障文本信息為依據(jù),針對(duì)高鐵信號(hào)車載設(shè)備,提出貝葉斯結(jié)構(gòu)學(xué)習(xí)算法(HDBN_SL)[8];李佳奇等將面向Agent的分布式人工智能技術(shù)引入到信號(hào)設(shè)備故障診斷系統(tǒng)中[9];楊連報(bào)針對(duì)信號(hào)故障不平衡數(shù)據(jù),采用SVM-SMOTE算法對(duì)TF-IDF轉(zhuǎn)換后的小類別文本向量數(shù)據(jù)隨機(jī)生成,分別采用基分類器和集成分類對(duì)數(shù)據(jù)進(jìn)行分類[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時(shí)發(fā)現(xiàn)的風(fēng)險(xiǎn)、隱患內(nèi)容,通常包括安全問題發(fā)生的時(shí)間、地點(diǎn)、問題描述等關(guān)鍵要素[11],所以針對(duì)每一類安全問題,存在特定的關(guān)鍵詞,本文在文本特征抽取上采用TF-IDF表示,針對(duì)Bagging集成分類器的基礎(chǔ)上,采用遺傳算法優(yōu)化,提升分類準(zhǔn)確性[12]。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003467




作者信息:

高  凡1,王富章1,張  銘1,趙俊華2,李高科1

(1.中國(guó)鐵道科學(xué)研究院,北京100081;2.北京經(jīng)緯信息技術(shù)有限公司,北京100081)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。