《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘
基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘
2019年電子技術(shù)應(yīng)用第6期
曾祥坤1,張俊輝2,3,石 拓1,邵可佳4
1.北京警察學(xué)院,北京102202; 2.北京交通大學(xué) 綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044; 3.北京市公安局公安交通管理局,北京100037;4.馬上消費(fèi)金融股份有限公司,北京100102
摘要: 長(zhǎng)期以來(lái),各類(lèi)交通事故嚴(yán)重影響了人們生命財(cái)產(chǎn)安全和社會(huì)經(jīng)濟(jì)發(fā)展。交通事故分析是對(duì)交通事故資料進(jìn)行調(diào)查研究,發(fā)現(xiàn)事故動(dòng)向和各種影響因素對(duì)事故總體的作用和相互關(guān)系,以便定量地認(rèn)識(shí)事故現(xiàn)象的本質(zhì)和內(nèi)在規(guī)律。通過(guò)對(duì)交通事故中記錄駕駛員違法行為的文本數(shù)據(jù)進(jìn)行分析,提出了一種文本主題提取模型和技術(shù),來(lái)挖掘交通事故中駕駛員風(fēng)險(xiǎn)駕駛因素,解決以往交通事故統(tǒng)計(jì)中交通違法行為難以挖掘的問(wèn)題,計(jì)算出影響交通事故的最大支配因素。最后以北京地區(qū)一般程序處理的交通事故為例,結(jié)合北京市交通管理專(zhuān)家經(jīng)驗(yàn),驗(yàn)證該模型可應(yīng)用于交通事故中違法行為的主題提取,結(jié)論與長(zhǎng)期治理經(jīng)驗(yàn)相吻合。
中圖分類(lèi)號(hào): TP399
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.190159
中文引用格式: 曾祥坤,張俊輝,石拓,等. 基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應(yīng)用,2019,45(6):41-45.
英文引用格式: Zeng Xiangkun,Zhang Junhui,Shi Tuo,et al. Text data of traffic illegal acts mining based on latent dirichlet allocation model[J]. Application of Electronic Technique,2019,45(6):41-45.
Text data of traffic illegal acts mining based on latent dirichlet allocation model
Zeng Xiangkun1,Zhang Junhui2,3,Shi Tuo1,Shao Kejia4
1.Beijing Police College,Beijing 102202,China; 2.Key Laboratory of Transport Industry of Big Data Application Technologies for Comprehensive Transport,Ministry of Transport, Beijing Jiaotong University,Beijing 100044,China; 3.Beijing Traffic Management Bureau,Beijing 100037,China;4.MaShang Consumer Finance Co.,Ltd.,Beijing 100102,China
Abstract: For a long time, all kinds of traffic accidents have seriously affected people′s life,property safety and social and economic development. Traffic accident analysis is the investigation and study of traffic accident data. It finds out the pattern of accident trends and various influencing factors on the overall accidents and researches the relationship between them, so as to quantitatively understand the nature and internal law of accident phenomena. Based on the analysis of the text data recorded in traffic accidents, this paper proposes a text topic extraction model and technology to find drivers′ risk factors in traffic accidents,in order to solve the problem that traffic violations are difficult to excavate in the past, and to calculate the most dominant factors that affecting traffic accidents. Finally, taking the traffic accidents in Beijing as an example, combining with the experience of traffic management experts, the effectiveness of the proposed model is verified. It turns out that the model is valid, and the conclusion with using it is consistent with the long-term management experience.
Key words : traffic accident;driving risk;text mining;factor analysis

0 引言

    目前全球每年有近130萬(wàn)人死于交通事故,另有2 000~5 000萬(wàn)人因交通事故而導(dǎo)致傷殘[1]。面對(duì)嚴(yán)峻的交通安全形勢(shì),對(duì)交通事故數(shù)據(jù)分析挖掘,尋找隱含其中的影響因素,對(duì)改善城市交通環(huán)境、減少交通事故的發(fā)生具有重要意義。

    歐美等發(fā)達(dá)國(guó)家早在20世紀(jì)70年代已建立了交通事故信息系統(tǒng),其規(guī)范的數(shù)據(jù)記錄模式及配套的數(shù)據(jù)分析處理技術(shù)己達(dá)到了較為成熟的水平。我國(guó)的交通事故信息系統(tǒng)在數(shù)據(jù)的規(guī)范化及信息挖掘利用方面尚處于起步階段,公安部交通管理局的交通事故數(shù)據(jù)庫(kù)為提高數(shù)據(jù)的分析和處理效率,多以提供標(biāo)準(zhǔn)化編碼的數(shù)據(jù)為主。針對(duì)記錄事故發(fā)生過(guò)程的文本類(lèi)數(shù)據(jù)雖然包含大量有用的信息,但由于缺乏有效的挖掘和分析手段,得不到充分的利用。同時(shí),由于受交通民警語(yǔ)言表達(dá)差異影響,同一類(lèi)型交通事故成因描述也不盡相同,只達(dá)到語(yǔ)義相同,導(dǎo)致對(duì)交通事故規(guī)律的研究還停留在定性分析或組成比較的層面上,嚴(yán)重影響了交通事故統(tǒng)計(jì)分析的客觀(guān)性和科學(xué)性。己有的研究表明,對(duì)文本數(shù)據(jù)的分析可以挖掘出更多的潛在信息,可用來(lái)修正結(jié)構(gòu)化數(shù)據(jù)分析所得結(jié)果的客觀(guān)性,從而達(dá)到更好地服務(wù)于事故分析的效果[2-8]。此外,F(xiàn)RANKS B[9]的研究表明,在數(shù)據(jù)挖掘過(guò)程中,70%~80%的時(shí)間用于數(shù)據(jù)的結(jié)構(gòu)化整理,而用來(lái)分析數(shù)據(jù)的時(shí)間僅僅占到20%~30%。

    本文研究的目的在于更好地挖掘文本數(shù)據(jù)中的潛在信息,在提高信息識(shí)別精度的同時(shí)節(jié)省信息處理的時(shí)間。

1 交通事故文本數(shù)據(jù)描述

    文本預(yù)處理是文本挖掘的第一步,也是文本挖掘較為重要且費(fèi)時(shí)的一步。漢語(yǔ)文本的預(yù)處理技術(shù)主要包括中文分詞、特征提取和特征表示。建立一個(gè)相對(duì)完整的標(biāo)準(zhǔn)化信息描述語(yǔ)義集合是進(jìn)行文本數(shù)據(jù)挖掘前的關(guān)鍵[2],本文依據(jù)《道路交通事故信息代碼》(GA16-2010)[10]標(biāo)準(zhǔn)中提取道路交通事故時(shí)間、傷亡人數(shù)、事故形態(tài)、事故認(rèn)定原因、交通違法行為等7個(gè)屬性項(xiàng)目,以驗(yàn)證該語(yǔ)義集合的有效性及可行性,構(gòu)建了一套綜合描述道路交通事故基本信息的標(biāo)準(zhǔn)化語(yǔ)義集合,參見(jiàn)表1。

rgzn2-b1.gif

2 LDA主題模型

    隨著計(jì)算機(jī)網(wǎng)絡(luò)的日益普及,文本數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),在海量數(shù)據(jù)中對(duì)文本進(jìn)行分類(lèi),成為快速了解輿論信息的一個(gè)重要手段,并且被廣泛應(yīng)用到許多領(lǐng)域,包括:數(shù)字圖書(shū)館、網(wǎng)頁(yè)分類(lèi)、垃圾電子郵件過(guò)濾等[1]。文本聚類(lèi)(Text clustering)作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法[11],已經(jīng)成為對(duì)文本信息進(jìn)行有效的組織、摘要和導(dǎo)航的重要手段。其中LDA(Latent Dirichlet Allocation)模型對(duì)主題和主題對(duì)應(yīng)的特征詞加上了先驗(yàn)分布,是一種無(wú)監(jiān)督的概率主題模型。每個(gè)主題下都分布著出現(xiàn)概率較高的詞語(yǔ),這些詞都與這個(gè)主題有很強(qiáng)的相關(guān)性,利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問(wèn)題[2],可以用來(lái)識(shí)別大規(guī)模文本集或語(yǔ)料庫(kù)中潛藏的主題信息,其效果優(yōu)于混合主題模型(multinomial mixture)[12-13]等其他主題劃分方法。近兩年來(lái),國(guó)外學(xué)者開(kāi)始將LDA模型用于文獻(xiàn)計(jì)量領(lǐng)域主題研究并取得了較好的效果[14-18]。同時(shí)研究發(fā)現(xiàn),LDA模型在新興領(lǐng)域潛在主題分析上更能顯現(xiàn)優(yōu)勢(shì)[15],更加適用于交通事故中所體現(xiàn)的主題分析。因此,本文提出了一種基于LDA主題模型的文本聚類(lèi)和聚簇描述方法,運(yùn)用gensim主題建模工具,建立交通事故規(guī)律LDA分析模型,挖掘隱藏在交通事故定責(zé)統(tǒng)計(jì)文本內(nèi)的不同主題與影響因素之間的關(guān)系。

2.1 LDA模型數(shù)據(jù)處理原理

    概率主題模型:隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)由BIEI D M、NG A Y和JORDAN M I于2003年提出,是一種主題模型,它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過(guò)分析一些文檔抽取出它們的主題(分布)出來(lái)后,便可以根據(jù)主題(分布)進(jìn)行主題聚類(lèi)或文本分類(lèi)。它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成的,詞與詞之間沒(méi)有先后順序的關(guān)系。本文以國(guó)家交通事故信息采集規(guī)范為依據(jù),以北京市一般程序處理的交通事故數(shù)據(jù)作為研究對(duì)象進(jìn)行文本數(shù)據(jù)分析。在LDA模型中,一篇文檔生成的過(guò)程為:

    (1)從狄利克雷分布中取樣生成文檔m的主題分布,即為第m條交通事故記錄的關(guān)鍵詞組列表,首先會(huì)對(duì)主題的分布做一個(gè)先驗(yàn)假設(shè)(如正態(tài)分布或均勻分布),根據(jù)假設(shè)與取樣的契合度,最終找到一個(gè)最大似然的分布α。

    (2)從主題的多項(xiàng)式分布θm中取樣生成文檔m第n個(gè)詞的主題zm,n,用于對(duì)似然的分布做驗(yàn)證。

    (3)從狄利克雷分布β中取樣生成主題zm,n對(duì)應(yīng)的詞語(yǔ)分布rgzn2-b1-x1.gif,k∈[1,K],不斷去嘗試和逼近真實(shí)的分布。

    (4)從詞語(yǔ)的多項(xiàng)式分布rgzn2-b1-x1.gif中采樣最終生成詞語(yǔ)wm,n,m∈[1,M],n∈[1,N],最終得到了更客觀(guān)的關(guān)鍵詞分列表。

    綜上所述:LDA采用了變分法的原理找到一個(gè)近似真實(shí)分布的分布,是一個(gè)生成統(tǒng)計(jì)模型,即:生成分布->統(tǒng)計(jì)->再生成分布->再統(tǒng)計(jì)……,如圖1所示。

rgzn2-t1.gif

2.2 應(yīng)用LDA模型處理數(shù)據(jù)結(jié)果

    Gensim是一款開(kāi)源的第三方Python工具包,用于從原始的非結(jié)構(gòu)化的文本中,無(wú)監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達(dá)。它支持包括TF-IDF、LSA、LDA和Word2vec在內(nèi)的多種主題模型算法,支持流式訓(xùn)練,并提供了諸如相似度計(jì)算、信息檢索等一些常用任務(wù)的API接口。因此,可根據(jù)主題建模的思想,建立車(chē)輛交通事故影響因素主題分析模型,根據(jù)車(chē)輛交通事故影響因素之間的關(guān)聯(lián)度,確定交通事故因素主題,并確定各因素的重要程度,實(shí)現(xiàn)對(duì)車(chē)輛交通事故規(guī)律的客觀(guān)公正評(píng)價(jià)。使用jieba分詞建立開(kāi)放文本的Word2vec模型,即使用爬蟲(chóng)技術(shù)收集互聯(lián)網(wǎng)上公開(kāi)的新聞文章文本,以這些文本為依據(jù)建立詞向量模型,然后刪除現(xiàn)有樣本數(shù)據(jù)中的停止詞(使用頻率較高且對(duì)文本主題分析沒(méi)有幫助的詞語(yǔ))。

    本文選用2012年~2018年2月期間北京市一般程序處理交通事故數(shù)據(jù)中記錄駕駛員風(fēng)險(xiǎn)駕駛違法行為(一個(gè)交通事故可包含多項(xiàng)駕駛員違法行為)的2萬(wàn)余條文本數(shù)據(jù)為對(duì)象,經(jīng)過(guò)工具包處理后,得到有效樣本14 299個(gè),使用Word2vec模型對(duì)其進(jìn)行分詞,建立事故因素語(yǔ)料庫(kù)reason corpus,在reason corpus中記錄了詞向量的索引編號(hào)和出現(xiàn)頻次,如圖2所示。

rgzn2-t2.gif

    使用reason corpus語(yǔ)料庫(kù)建立LDA 模型,將關(guān)鍵字分布轉(zhuǎn)換為主題分布,即可得到道路交通事故影響因素主題列表。

    由于LDA模型是以概率分布的方式建立起的主題模型,因此DA每次運(yùn)行產(chǎn)生的結(jié)果都會(huì)略有不同,在樣本量較小的情況下,這個(gè)問(wèn)題尤為突出,可以通過(guò)增大對(duì)樣本數(shù)據(jù)的迭代次數(shù),讓模型結(jié)果盡可能地客觀(guān)。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在目前14 299個(gè)樣本數(shù)據(jù)的條件下,迭代次數(shù)超過(guò)100次時(shí),迭代出的結(jié)果就不會(huì)有太大變化,這里將迭代100次后的主題作為分析結(jié)果,如圖3所示,圖中所表示的主題格式為“相關(guān)系數(shù)*關(guān)鍵字”。

rgzn2-t3.gif

    圖3中分析得到的主圖結(jié)果的排列順序?yàn)椋壕邆涓週DA意義得分的結(jié)果更靠前[10]。從結(jié)果集中可以通過(guò)篩選出相關(guān)系數(shù)大于0.1的關(guān)鍵字,歸納出如下重要權(quán)重關(guān)鍵字:

    (1)駕駛、駕駛證、機(jī)動(dòng)車(chē);

    (2)變更、車(chē)道、行駛、機(jī)動(dòng)車(chē);

    (3)車(chē)型道、分界線(xiàn);

    (4)超過(guò)、中型、汽車(chē);

    (5)逆向行駛、機(jī)動(dòng)車(chē);

    (6)妨礙、駕車(chē)、時(shí)有、駕駛;

    (7)行駛、非機(jī)動(dòng)車(chē)、道路;

    (8)20%、未達(dá)、10%、載貨;

    (9)機(jī)動(dòng)車(chē)、營(yíng)運(yùn)、駕駛;

    (10)發(fā)生、機(jī)動(dòng)車(chē)、故障、事故、按規(guī)定、標(biāo)志。

    一共自動(dòng)生成100個(gè)主題模型,這里限于篇幅,僅截取前10個(gè)。

2.3 模型評(píng)估

    Gensim推薦使用Coherence Model用于對(duì)主題模型進(jìn)行評(píng)價(jià),該模型評(píng)價(jià)主題一致性度測(cè)量值常用指標(biāo)有4個(gè):u_mass、c_v、c_uci、c_npmi,這里選用u_mass,因其運(yùn)行效率高,測(cè)試結(jié)果如表2所示。在選擇25個(gè)主題時(shí),u_mass出現(xiàn)極小值,所以聚類(lèi)出的合理主題約為25個(gè),符合評(píng)估條件。

rgzn2-b2.gif

3 交通事故文本數(shù)據(jù)處理結(jié)果分析

    提高車(chē)輛交通事故預(yù)防水平,必須緊緊抓住影響車(chē)輛交通事故的優(yōu)先支配因素,探索行之有效的防范對(duì)策。從上述計(jì)算結(jié)果可以看出,北京地區(qū)的車(chē)輛交通事故影響因素主要涉及以下方面:是否取得駕駛證、正確變更車(chē)道線(xiàn)、逆向行駛和超速等違規(guī)駕駛,其中無(wú)證駕駛、超速、逆向行駛是目前公安機(jī)關(guān)重點(diǎn)打擊的重要違法行為,分析結(jié)果基本與實(shí)際相符,具體分析如下。

    (1)交通事故主要和駕駛及駕駛證有關(guān)(見(jiàn)第1組重要權(quán)重關(guān)鍵字)。在交通事故責(zé)任認(rèn)定時(shí)主要指無(wú)駕駛證、酒后或者醉酒、吸毒駕駛機(jī)動(dòng)車(chē)車(chē)輛上道路行駛,這類(lèi)駕駛員缺少正規(guī)培訓(xùn)或者思路不清晰,發(fā)生交通事故往往伴隨超速行為,目前交通事故定責(zé)中很少精確測(cè)量事故發(fā)生時(shí)的瞬間車(chē)速,常用較保守的利用路面摩擦力方法計(jì)算車(chē)速。管理部門(mén)可以結(jié)合實(shí)際,監(jiān)管這類(lèi)危險(xiǎn)駕駛和駕駛證相關(guān)的信息,在交通執(zhí)法過(guò)程中對(duì)無(wú)證駕駛的問(wèn)題需重點(diǎn)關(guān)注。

    (2)交通事故主要和變更車(chē)道有關(guān)(見(jiàn)第2組、3組重要權(quán)重關(guān)鍵字)。正確變更車(chē)道線(xiàn)是目前造成交通事故的又一主要原因,主要指駕駛員在道路上行駛隨意變更車(chē)道,由于北京地區(qū)交通狀況復(fù)雜,車(chē)道標(biāo)識(shí)成為制約交通安全的一個(gè)重點(diǎn)和難點(diǎn)問(wèn)題,深層次體現(xiàn)在車(chē)道標(biāo)志標(biāo)線(xiàn)不完善、不清晰導(dǎo)致駕駛員選擇道路時(shí)產(chǎn)生失誤,表象是駕駛員過(guò)錯(cuò),目前交通事故定責(zé)中應(yīng)該直接體現(xiàn)出來(lái),交通事故責(zé)任認(rèn)定書(shū)也應(yīng)該不斷完善,增添道路因素責(zé)任選項(xiàng)。

    (3)交通事故主要與超車(chē)有關(guān)、逆向行駛、妨礙駕駛有關(guān)(見(jiàn)第4組、第5組、第6組重要權(quán)重關(guān)鍵字)。主要指不同車(chē)輛不遵守交通標(biāo)線(xiàn)指示,借道行駛或跨越車(chē)道行駛,導(dǎo)致交通事故頻發(fā),部分深層次原因是一些公交車(chē)道時(shí)段或者標(biāo)線(xiàn)設(shè)置不合理,部分原因是駕駛員懷有僥幸違法心理風(fēng)險(xiǎn)駕駛。在交通執(zhí)法的過(guò)程中,可以進(jìn)一步追蹤導(dǎo)致駕駛員風(fēng)險(xiǎn)駕駛的更進(jìn)一步原因,進(jìn)而從源頭上預(yù)防交通事故發(fā)生。交通事故受時(shí)間的影響較大,還可以積累更多的數(shù)據(jù),以時(shí)間維度分割后,再向下鉆取時(shí)間維度內(nèi)的事故影響因素。

    后面影響因素在這里就不再繼續(xù)歸納總結(jié)。

4 結(jié)論

    交通事故統(tǒng)計(jì)數(shù)據(jù)少、事故成因復(fù)雜,本文使用文本挖掘理論,借助主題建模工具,建立交通事故LDA模型,分析交通事故統(tǒng)計(jì)信息中駕駛員違法駕駛的文本數(shù)據(jù),從而得到以下結(jié)論:

    (1)通過(guò)對(duì)原有文本信息的文本處理分析,結(jié)果表明交通事故信息采集規(guī)范中規(guī)定的交通違法行為用文本信息表述,可以進(jìn)一步歸類(lèi)主題,可以對(duì)其信息的結(jié)構(gòu)進(jìn)行優(yōu)化處理,為進(jìn)一步的數(shù)據(jù)挖掘搭建更好的信息處理平臺(tái)。

    (2)對(duì)事故系統(tǒng)中文本信息挖掘分析,發(fā)現(xiàn)道路設(shè)計(jì)因素和路面標(biāo)志標(biāo)線(xiàn)在交通事故中占有重要的位置,但是事故統(tǒng)計(jì)選項(xiàng)內(nèi)容側(cè)重于駕駛員違法統(tǒng)計(jì),可以對(duì)國(guó)家交通事故統(tǒng)計(jì)的信息予以補(bǔ)充。

    (3)構(gòu)建的一套含有駕駛員識(shí)別道路交通標(biāo)志標(biāo)線(xiàn)規(guī)則、交通事故發(fā)生時(shí)車(chē)速、駕駛員違法心理需求的交通事故信息語(yǔ)義庫(kù)可作為一個(gè)橋梁連接不同的數(shù)據(jù)庫(kù),使交通事故數(shù)據(jù)庫(kù)的非結(jié)構(gòu)化的文本信息更加直觀(guān)和真實(shí),從而提高信息的綜合利用價(jià)值,為捕捉交通事故特征及研究事故發(fā)生機(jī)理創(chuàng)造有利的條件。

    (4)由于文本信息表達(dá)不統(tǒng)一、特征屬性不易清楚定義和界定,計(jì)算機(jī)根據(jù)標(biāo)準(zhǔn)語(yǔ)義庫(kù)來(lái)自動(dòng)識(shí)別文本信息時(shí)仍會(huì)出現(xiàn)遺漏現(xiàn)象,因此在標(biāo)準(zhǔn)語(yǔ)義庫(kù)的基礎(chǔ)上構(gòu)建同義詞詞庫(kù)是增加數(shù)據(jù)庫(kù)查詢(xún)精度的重要手段。未來(lái)還可構(gòu)建使用在線(xiàn)版的主題提取模型,不斷完善和豐富詞向量空間,使得分詞會(huì)越來(lái)越準(zhǔn)確。

參考文獻(xiàn)

[1] 宗強(qiáng).基于數(shù)量化理論的道路交通事故預(yù)測(cè)研究[D].蘭州:蘭州交通大學(xué),2015.

[2] STIGLIANI I,RAVASI D.Organizing thoughts and connecting brains:Material practices and the transition from individual to group-level prospective sensemaking[J].Academy of Management Journal,2012,55(5):1232-1259.

[3] TILCSIK A, MARQUIS C.Punctuated generosity:how megaevents and natural disasters affect corporate philanthropy in U.S.communities[J].Administrative Science Quarterly,2013,58(1):111-148.

[4] 傅貴.安全管理學(xué)——事故預(yù)防的行為控制方法[M].北京:科學(xué)出版社,2013.

[5] 陳國(guó)權(quán),趙慧群,蔣璐.團(tuán)隊(duì)心理安全、團(tuán)隊(duì)學(xué)習(xí)能力與團(tuán)隊(duì)績(jī)效關(guān)系的實(shí)證研究[J].科學(xué)學(xué)研究,2008,26(6):1283-1292.

[6] 鐘開(kāi)斌.從災(zāi)難中學(xué)習(xí):教訓(xùn)比經(jīng)驗(yàn)更寶貴[J].行政管理改革,2013(6):35-39.

[7] 胡劍波,鄭磊.航空維修安全監(jiān)察的安全性分層監(jiān)督控制模型與分析[J].安全與環(huán)境工程,2016,23(6):135-142.

[8] 馬阿瑾.高速公路交通事故持續(xù)時(shí)間和影響范圍研究[D].西安:長(zhǎng)安大學(xué),2013.

[9] FRANKS B.Taming the big data tidal wave:finding opportunities in huge data streams with advanced analytics[M].Hoboken,NJ:Wiley Publishing,2012.

[10] 中華人民共和國(guó)公安部.GA 16--2010道路交通事故信息代碼[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2010.

[11] 王鵬,高鋮,陳曉美.基于LDA模型的文本聚類(lèi)研究[J].情報(bào)科學(xué),2015,33(1):63-68.

[12] 苗蕊,劉魯.科學(xué)家合作網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)[J].情報(bào)學(xué)報(bào),2011,30(12):1312-1318.

[13] MISRA H,YVON F,CAPP?魪 O,et al.Text segmentation:a topic modeling perspective[J].Information Processing & Management,2011,47(4):528-544.

[14] DING Y.Topic-based page rank on author cocitation networks[J].Journal of the American Society for Information Science and Technology,2011,62(3):449-466.

[15] SUGIMOTO C R,LI D,RUSSELL T G,et al.The shifting sands of disciplinary development:Analyzing north american library and information science dissertations using latent dirichlet allocation[J].Journal of the American Society for Information Science and Technology,2011,62(1):185-204.

[16] GRIFFITHS T L,STEYVERS M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(Suppl 1):5228-5235.

[17] LI S,LI J,PAN R.Tag-weighted topic model for mining semis tructured documents[C].Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.AAAIPress,2013:2855-2861.

[18] ROSEN-ZVI M,CHEMUDUGUNTA C,GRIFFITHS T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems(TOIS),2010,28(1):4.



作者信息:

曾祥坤1,張俊輝2,3,石  拓1,邵可佳4

(1.北京警察學(xué)院,北京102202;

2.北京交通大學(xué) 綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044;

3.北京市公安局公安交通管理局,北京100037;4.馬上消費(fèi)金融股份有限公司,北京100102)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。