文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190159
中文引用格式: 曾祥坤,張俊輝,石拓,等. 基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應(yīng)用,2019,45(6):41-45.
英文引用格式: Zeng Xiangkun,Zhang Junhui,Shi Tuo,et al. Text data of traffic illegal acts mining based on latent dirichlet allocation model[J]. Application of Electronic Technique,2019,45(6):41-45.
0 引言
目前全球每年有近130萬(wàn)人死于交通事故,另有2 000~5 000萬(wàn)人因交通事故而導(dǎo)致傷殘[1]。面對(duì)嚴(yán)峻的交通安全形勢(shì),對(duì)交通事故數(shù)據(jù)分析挖掘,尋找隱含其中的影響因素,對(duì)改善城市交通環(huán)境、減少交通事故的發(fā)生具有重要意義。
歐美等發(fā)達(dá)國(guó)家早在20世紀(jì)70年代已建立了交通事故信息系統(tǒng),其規(guī)范的數(shù)據(jù)記錄模式及配套的數(shù)據(jù)分析處理技術(shù)己達(dá)到了較為成熟的水平。我國(guó)的交通事故信息系統(tǒng)在數(shù)據(jù)的規(guī)范化及信息挖掘利用方面尚處于起步階段,公安部交通管理局的交通事故數(shù)據(jù)庫(kù)為提高數(shù)據(jù)的分析和處理效率,多以提供標(biāo)準(zhǔn)化編碼的數(shù)據(jù)為主。針對(duì)記錄事故發(fā)生過(guò)程的文本類(lèi)數(shù)據(jù)雖然包含大量有用的信息,但由于缺乏有效的挖掘和分析手段,得不到充分的利用。同時(shí),由于受交通民警語(yǔ)言表達(dá)差異影響,同一類(lèi)型交通事故成因描述也不盡相同,只達(dá)到語(yǔ)義相同,導(dǎo)致對(duì)交通事故規(guī)律的研究還停留在定性分析或組成比較的層面上,嚴(yán)重影響了交通事故統(tǒng)計(jì)分析的客觀(guān)性和科學(xué)性。己有的研究表明,對(duì)文本數(shù)據(jù)的分析可以挖掘出更多的潛在信息,可用來(lái)修正結(jié)構(gòu)化數(shù)據(jù)分析所得結(jié)果的客觀(guān)性,從而達(dá)到更好地服務(wù)于事故分析的效果[2-8]。此外,F(xiàn)RANKS B[9]的研究表明,在數(shù)據(jù)挖掘過(guò)程中,70%~80%的時(shí)間用于數(shù)據(jù)的結(jié)構(gòu)化整理,而用來(lái)分析數(shù)據(jù)的時(shí)間僅僅占到20%~30%。
本文研究的目的在于更好地挖掘文本數(shù)據(jù)中的潛在信息,在提高信息識(shí)別精度的同時(shí)節(jié)省信息處理的時(shí)間。
1 交通事故文本數(shù)據(jù)描述
文本預(yù)處理是文本挖掘的第一步,也是文本挖掘較為重要且費(fèi)時(shí)的一步。漢語(yǔ)文本的預(yù)處理技術(shù)主要包括中文分詞、特征提取和特征表示。建立一個(gè)相對(duì)完整的標(biāo)準(zhǔn)化信息描述語(yǔ)義集合是進(jìn)行文本數(shù)據(jù)挖掘前的關(guān)鍵[2],本文依據(jù)《道路交通事故信息代碼》(GA16-2010)[10]標(biāo)準(zhǔn)中提取道路交通事故時(shí)間、傷亡人數(shù)、事故形態(tài)、事故認(rèn)定原因、交通違法行為等7個(gè)屬性項(xiàng)目,以驗(yàn)證該語(yǔ)義集合的有效性及可行性,構(gòu)建了一套綜合描述道路交通事故基本信息的標(biāo)準(zhǔn)化語(yǔ)義集合,參見(jiàn)表1。
2 LDA主題模型
隨著計(jì)算機(jī)網(wǎng)絡(luò)的日益普及,文本數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),在海量數(shù)據(jù)中對(duì)文本進(jìn)行分類(lèi),成為快速了解輿論信息的一個(gè)重要手段,并且被廣泛應(yīng)用到許多領(lǐng)域,包括:數(shù)字圖書(shū)館、網(wǎng)頁(yè)分類(lèi)、垃圾電子郵件過(guò)濾等[1]。文本聚類(lèi)(Text clustering)作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法[11],已經(jīng)成為對(duì)文本信息進(jìn)行有效的組織、摘要和導(dǎo)航的重要手段。其中LDA(Latent Dirichlet Allocation)模型對(duì)主題和主題對(duì)應(yīng)的特征詞加上了先驗(yàn)分布,是一種無(wú)監(jiān)督的概率主題模型。每個(gè)主題下都分布著出現(xiàn)概率較高的詞語(yǔ),這些詞都與這個(gè)主題有很強(qiáng)的相關(guān)性,利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問(wèn)題[2],可以用來(lái)識(shí)別大規(guī)模文本集或語(yǔ)料庫(kù)中潛藏的主題信息,其效果優(yōu)于混合主題模型(multinomial mixture)[12-13]等其他主題劃分方法。近兩年來(lái),國(guó)外學(xué)者開(kāi)始將LDA模型用于文獻(xiàn)計(jì)量領(lǐng)域主題研究并取得了較好的效果[14-18]。同時(shí)研究發(fā)現(xiàn),LDA模型在新興領(lǐng)域潛在主題分析上更能顯現(xiàn)優(yōu)勢(shì)[15],更加適用于交通事故中所體現(xiàn)的主題分析。因此,本文提出了一種基于LDA主題模型的文本聚類(lèi)和聚簇描述方法,運(yùn)用gensim主題建模工具,建立交通事故規(guī)律LDA分析模型,挖掘隱藏在交通事故定責(zé)統(tǒng)計(jì)文本內(nèi)的不同主題與影響因素之間的關(guān)系。
2.1 LDA模型數(shù)據(jù)處理原理
概率主題模型:隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)由BIEI D M、NG A Y和JORDAN M I于2003年提出,是一種主題模型,它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過(guò)分析一些文檔抽取出它們的主題(分布)出來(lái)后,便可以根據(jù)主題(分布)進(jìn)行主題聚類(lèi)或文本分類(lèi)。它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成的,詞與詞之間沒(méi)有先后順序的關(guān)系。本文以國(guó)家交通事故信息采集規(guī)范為依據(jù),以北京市一般程序處理的交通事故數(shù)據(jù)作為研究對(duì)象進(jìn)行文本數(shù)據(jù)分析。在LDA模型中,一篇文檔生成的過(guò)程為:
(1)從狄利克雷分布中取樣生成文檔m的主題分布,即為第m條交通事故記錄的關(guān)鍵詞組列表,首先會(huì)對(duì)主題的分布做一個(gè)先驗(yàn)假設(shè)(如正態(tài)分布或均勻分布),根據(jù)假設(shè)與取樣的契合度,最終找到一個(gè)最大似然的分布α。
(2)從主題的多項(xiàng)式分布θm中取樣生成文檔m第n個(gè)詞的主題zm,n,用于對(duì)似然的分布做驗(yàn)證。
(3)從狄利克雷分布β中取樣生成主題zm,n對(duì)應(yīng)的詞語(yǔ)分布,k∈[1,K],不斷去嘗試和逼近真實(shí)的分布。
(4)從詞語(yǔ)的多項(xiàng)式分布中采樣最終生成詞語(yǔ)wm,n,m∈[1,M],n∈[1,N],最終得到了更客觀(guān)的關(guān)鍵詞分列表。
綜上所述:LDA采用了變分法的原理找到一個(gè)近似真實(shí)分布的分布,是一個(gè)生成統(tǒng)計(jì)模型,即:生成分布->統(tǒng)計(jì)->再生成分布->再統(tǒng)計(jì)……,如圖1所示。
2.2 應(yīng)用LDA模型處理數(shù)據(jù)結(jié)果
Gensim是一款開(kāi)源的第三方Python工具包,用于從原始的非結(jié)構(gòu)化的文本中,無(wú)監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達(dá)。它支持包括TF-IDF、LSA、LDA和Word2vec在內(nèi)的多種主題模型算法,支持流式訓(xùn)練,并提供了諸如相似度計(jì)算、信息檢索等一些常用任務(wù)的API接口。因此,可根據(jù)主題建模的思想,建立車(chē)輛交通事故影響因素主題分析模型,根據(jù)車(chē)輛交通事故影響因素之間的關(guān)聯(lián)度,確定交通事故因素主題,并確定各因素的重要程度,實(shí)現(xiàn)對(duì)車(chē)輛交通事故規(guī)律的客觀(guān)公正評(píng)價(jià)。使用jieba分詞建立開(kāi)放文本的Word2vec模型,即使用爬蟲(chóng)技術(shù)收集互聯(lián)網(wǎng)上公開(kāi)的新聞文章文本,以這些文本為依據(jù)建立詞向量模型,然后刪除現(xiàn)有樣本數(shù)據(jù)中的停止詞(使用頻率較高且對(duì)文本主題分析沒(méi)有幫助的詞語(yǔ))。
本文選用2012年~2018年2月期間北京市一般程序處理交通事故數(shù)據(jù)中記錄駕駛員風(fēng)險(xiǎn)駕駛違法行為(一個(gè)交通事故可包含多項(xiàng)駕駛員違法行為)的2萬(wàn)余條文本數(shù)據(jù)為對(duì)象,經(jīng)過(guò)工具包處理后,得到有效樣本14 299個(gè),使用Word2vec模型對(duì)其進(jìn)行分詞,建立事故因素語(yǔ)料庫(kù)reason corpus,在reason corpus中記錄了詞向量的索引編號(hào)和出現(xiàn)頻次,如圖2所示。
使用reason corpus語(yǔ)料庫(kù)建立LDA 模型,將關(guān)鍵字分布轉(zhuǎn)換為主題分布,即可得到道路交通事故影響因素主題列表。
由于LDA模型是以概率分布的方式建立起的主題模型,因此DA每次運(yùn)行產(chǎn)生的結(jié)果都會(huì)略有不同,在樣本量較小的情況下,這個(gè)問(wèn)題尤為突出,可以通過(guò)增大對(duì)樣本數(shù)據(jù)的迭代次數(shù),讓模型結(jié)果盡可能地客觀(guān)。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在目前14 299個(gè)樣本數(shù)據(jù)的條件下,迭代次數(shù)超過(guò)100次時(shí),迭代出的結(jié)果就不會(huì)有太大變化,這里將迭代100次后的主題作為分析結(jié)果,如圖3所示,圖中所表示的主題格式為“相關(guān)系數(shù)*關(guān)鍵字”。
圖3中分析得到的主圖結(jié)果的排列順序?yàn)椋壕邆涓週DA意義得分的結(jié)果更靠前[10]。從結(jié)果集中可以通過(guò)篩選出相關(guān)系數(shù)大于0.1的關(guān)鍵字,歸納出如下重要權(quán)重關(guān)鍵字:
(1)駕駛、駕駛證、機(jī)動(dòng)車(chē);
(2)變更、車(chē)道、行駛、機(jī)動(dòng)車(chē);
(3)車(chē)型道、分界線(xiàn);
(4)超過(guò)、中型、汽車(chē);
(5)逆向行駛、機(jī)動(dòng)車(chē);
(6)妨礙、駕車(chē)、時(shí)有、駕駛;
(7)行駛、非機(jī)動(dòng)車(chē)、道路;
(8)20%、未達(dá)、10%、載貨;
(9)機(jī)動(dòng)車(chē)、營(yíng)運(yùn)、駕駛;
(10)發(fā)生、機(jī)動(dòng)車(chē)、故障、事故、按規(guī)定、標(biāo)志。
一共自動(dòng)生成100個(gè)主題模型,這里限于篇幅,僅截取前10個(gè)。
2.3 模型評(píng)估
Gensim推薦使用Coherence Model用于對(duì)主題模型進(jìn)行評(píng)價(jià),該模型評(píng)價(jià)主題一致性度測(cè)量值常用指標(biāo)有4個(gè):u_mass、c_v、c_uci、c_npmi,這里選用u_mass,因其運(yùn)行效率高,測(cè)試結(jié)果如表2所示。在選擇25個(gè)主題時(shí),u_mass出現(xiàn)極小值,所以聚類(lèi)出的合理主題約為25個(gè),符合評(píng)估條件。
3 交通事故文本數(shù)據(jù)處理結(jié)果分析
提高車(chē)輛交通事故預(yù)防水平,必須緊緊抓住影響車(chē)輛交通事故的優(yōu)先支配因素,探索行之有效的防范對(duì)策。從上述計(jì)算結(jié)果可以看出,北京地區(qū)的車(chē)輛交通事故影響因素主要涉及以下方面:是否取得駕駛證、正確變更車(chē)道線(xiàn)、逆向行駛和超速等違規(guī)駕駛,其中無(wú)證駕駛、超速、逆向行駛是目前公安機(jī)關(guān)重點(diǎn)打擊的重要違法行為,分析結(jié)果基本與實(shí)際相符,具體分析如下。
(1)交通事故主要和駕駛及駕駛證有關(guān)(見(jiàn)第1組重要權(quán)重關(guān)鍵字)。在交通事故責(zé)任認(rèn)定時(shí)主要指無(wú)駕駛證、酒后或者醉酒、吸毒駕駛機(jī)動(dòng)車(chē)車(chē)輛上道路行駛,這類(lèi)駕駛員缺少正規(guī)培訓(xùn)或者思路不清晰,發(fā)生交通事故往往伴隨超速行為,目前交通事故定責(zé)中很少精確測(cè)量事故發(fā)生時(shí)的瞬間車(chē)速,常用較保守的利用路面摩擦力方法計(jì)算車(chē)速。管理部門(mén)可以結(jié)合實(shí)際,監(jiān)管這類(lèi)危險(xiǎn)駕駛和駕駛證相關(guān)的信息,在交通執(zhí)法過(guò)程中對(duì)無(wú)證駕駛的問(wèn)題需重點(diǎn)關(guān)注。
(2)交通事故主要和變更車(chē)道有關(guān)(見(jiàn)第2組、3組重要權(quán)重關(guān)鍵字)。正確變更車(chē)道線(xiàn)是目前造成交通事故的又一主要原因,主要指駕駛員在道路上行駛隨意變更車(chē)道,由于北京地區(qū)交通狀況復(fù)雜,車(chē)道標(biāo)識(shí)成為制約交通安全的一個(gè)重點(diǎn)和難點(diǎn)問(wèn)題,深層次體現(xiàn)在車(chē)道標(biāo)志標(biāo)線(xiàn)不完善、不清晰導(dǎo)致駕駛員選擇道路時(shí)產(chǎn)生失誤,表象是駕駛員過(guò)錯(cuò),目前交通事故定責(zé)中應(yīng)該直接體現(xiàn)出來(lái),交通事故責(zé)任認(rèn)定書(shū)也應(yīng)該不斷完善,增添道路因素責(zé)任選項(xiàng)。
(3)交通事故主要與超車(chē)有關(guān)、逆向行駛、妨礙駕駛有關(guān)(見(jiàn)第4組、第5組、第6組重要權(quán)重關(guān)鍵字)。主要指不同車(chē)輛不遵守交通標(biāo)線(xiàn)指示,借道行駛或跨越車(chē)道行駛,導(dǎo)致交通事故頻發(fā),部分深層次原因是一些公交車(chē)道時(shí)段或者標(biāo)線(xiàn)設(shè)置不合理,部分原因是駕駛員懷有僥幸違法心理風(fēng)險(xiǎn)駕駛。在交通執(zhí)法的過(guò)程中,可以進(jìn)一步追蹤導(dǎo)致駕駛員風(fēng)險(xiǎn)駕駛的更進(jìn)一步原因,進(jìn)而從源頭上預(yù)防交通事故發(fā)生。交通事故受時(shí)間的影響較大,還可以積累更多的數(shù)據(jù),以時(shí)間維度分割后,再向下鉆取時(shí)間維度內(nèi)的事故影響因素。
后面影響因素在這里就不再繼續(xù)歸納總結(jié)。
4 結(jié)論
交通事故統(tǒng)計(jì)數(shù)據(jù)少、事故成因復(fù)雜,本文使用文本挖掘理論,借助主題建模工具,建立交通事故LDA模型,分析交通事故統(tǒng)計(jì)信息中駕駛員違法駕駛的文本數(shù)據(jù),從而得到以下結(jié)論:
(1)通過(guò)對(duì)原有文本信息的文本處理分析,結(jié)果表明交通事故信息采集規(guī)范中規(guī)定的交通違法行為用文本信息表述,可以進(jìn)一步歸類(lèi)主題,可以對(duì)其信息的結(jié)構(gòu)進(jìn)行優(yōu)化處理,為進(jìn)一步的數(shù)據(jù)挖掘搭建更好的信息處理平臺(tái)。
(2)對(duì)事故系統(tǒng)中文本信息挖掘分析,發(fā)現(xiàn)道路設(shè)計(jì)因素和路面標(biāo)志標(biāo)線(xiàn)在交通事故中占有重要的位置,但是事故統(tǒng)計(jì)選項(xiàng)內(nèi)容側(cè)重于駕駛員違法統(tǒng)計(jì),可以對(duì)國(guó)家交通事故統(tǒng)計(jì)的信息予以補(bǔ)充。
(3)構(gòu)建的一套含有駕駛員識(shí)別道路交通標(biāo)志標(biāo)線(xiàn)規(guī)則、交通事故發(fā)生時(shí)車(chē)速、駕駛員違法心理需求的交通事故信息語(yǔ)義庫(kù)可作為一個(gè)橋梁連接不同的數(shù)據(jù)庫(kù),使交通事故數(shù)據(jù)庫(kù)的非結(jié)構(gòu)化的文本信息更加直觀(guān)和真實(shí),從而提高信息的綜合利用價(jià)值,為捕捉交通事故特征及研究事故發(fā)生機(jī)理創(chuàng)造有利的條件。
(4)由于文本信息表達(dá)不統(tǒng)一、特征屬性不易清楚定義和界定,計(jì)算機(jī)根據(jù)標(biāo)準(zhǔn)語(yǔ)義庫(kù)來(lái)自動(dòng)識(shí)別文本信息時(shí)仍會(huì)出現(xiàn)遺漏現(xiàn)象,因此在標(biāo)準(zhǔn)語(yǔ)義庫(kù)的基礎(chǔ)上構(gòu)建同義詞詞庫(kù)是增加數(shù)據(jù)庫(kù)查詢(xún)精度的重要手段。未來(lái)還可構(gòu)建使用在線(xiàn)版的主題提取模型,不斷完善和豐富詞向量空間,使得分詞會(huì)越來(lái)越準(zhǔn)確。
參考文獻(xiàn)
[1] 宗強(qiáng).基于數(shù)量化理論的道路交通事故預(yù)測(cè)研究[D].蘭州:蘭州交通大學(xué),2015.
[2] STIGLIANI I,RAVASI D.Organizing thoughts and connecting brains:Material practices and the transition from individual to group-level prospective sensemaking[J].Academy of Management Journal,2012,55(5):1232-1259.
[3] TILCSIK A, MARQUIS C.Punctuated generosity:how megaevents and natural disasters affect corporate philanthropy in U.S.communities[J].Administrative Science Quarterly,2013,58(1):111-148.
[4] 傅貴.安全管理學(xué)——事故預(yù)防的行為控制方法[M].北京:科學(xué)出版社,2013.
[5] 陳國(guó)權(quán),趙慧群,蔣璐.團(tuán)隊(duì)心理安全、團(tuán)隊(duì)學(xué)習(xí)能力與團(tuán)隊(duì)績(jī)效關(guān)系的實(shí)證研究[J].科學(xué)學(xué)研究,2008,26(6):1283-1292.
[6] 鐘開(kāi)斌.從災(zāi)難中學(xué)習(xí):教訓(xùn)比經(jīng)驗(yàn)更寶貴[J].行政管理改革,2013(6):35-39.
[7] 胡劍波,鄭磊.航空維修安全監(jiān)察的安全性分層監(jiān)督控制模型與分析[J].安全與環(huán)境工程,2016,23(6):135-142.
[8] 馬阿瑾.高速公路交通事故持續(xù)時(shí)間和影響范圍研究[D].西安:長(zhǎng)安大學(xué),2013.
[9] FRANKS B.Taming the big data tidal wave:finding opportunities in huge data streams with advanced analytics[M].Hoboken,NJ:Wiley Publishing,2012.
[10] 中華人民共和國(guó)公安部.GA 16--2010道路交通事故信息代碼[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2010.
[11] 王鵬,高鋮,陳曉美.基于LDA模型的文本聚類(lèi)研究[J].情報(bào)科學(xué),2015,33(1):63-68.
[12] 苗蕊,劉魯.科學(xué)家合作網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)[J].情報(bào)學(xué)報(bào),2011,30(12):1312-1318.
[13] MISRA H,YVON F,CAPP?魪 O,et al.Text segmentation:a topic modeling perspective[J].Information Processing & Management,2011,47(4):528-544.
[14] DING Y.Topic-based page rank on author cocitation networks[J].Journal of the American Society for Information Science and Technology,2011,62(3):449-466.
[15] SUGIMOTO C R,LI D,RUSSELL T G,et al.The shifting sands of disciplinary development:Analyzing north american library and information science dissertations using latent dirichlet allocation[J].Journal of the American Society for Information Science and Technology,2011,62(1):185-204.
[16] GRIFFITHS T L,STEYVERS M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(Suppl 1):5228-5235.
[17] LI S,LI J,PAN R.Tag-weighted topic model for mining semis tructured documents[C].Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.AAAIPress,2013:2855-2861.
[18] ROSEN-ZVI M,CHEMUDUGUNTA C,GRIFFITHS T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems(TOIS),2010,28(1):4.
作者信息:
曾祥坤1,張俊輝2,3,石 拓1,邵可佳4
(1.北京警察學(xué)院,北京102202;
2.北京交通大學(xué) 綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044;
3.北京市公安局公安交通管理局,北京100037;4.馬上消費(fèi)金融股份有限公司,北京100102)