郭楠
?。ㄍ瑵?jì)大學(xué) 電子與信息工程學(xué)院,上海 201800)
摘要:基于文本主題模型與眼動(dòng)儀技術(shù),從主題挖掘的客觀角度與閱讀興趣的主觀角度研究文本內(nèi)容提取技術(shù)。傳統(tǒng)文本挖掘多基于文本本身內(nèi)容等客觀因素,而主觀取向的重要因素很少在文本挖掘中發(fā)揮作用。文章利用眼部追蹤技術(shù),先將眼動(dòng)數(shù)據(jù)轉(zhuǎn)換為閱讀興趣等主觀結(jié)果形式,并利用LDA(Latent Dirichlet Allocation)模型對(duì)文本進(jìn)行客觀主題提取,繼而對(duì)眼部數(shù)據(jù)與主題建模結(jié)果進(jìn)行比較,提取分析主客觀因素對(duì)文本挖掘的影響。新聞數(shù)據(jù)集的眼部追蹤實(shí)驗(yàn)與主題提取實(shí)驗(yàn)顯示了主客觀因素對(duì)結(jié)果影響的具體差異性與相似性,未來(lái)兩者結(jié)合并調(diào)控比率可作為對(duì)文本挖掘效果提升的基本方向。
關(guān)鍵詞:文本主題建模;眼部追蹤技術(shù);文本挖掘;主題模型
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2017.03.023
引用格式:郭楠.文本挖掘中主客觀因素影響性的眼追蹤研究[J].微型機(jī)與應(yīng)用,2017,36(3):79-81.
0引言
文本主題建模以LDA(Latent Dirichlet Allocation)模型[1]為代表,是近年來(lái)文本挖掘領(lǐng)域的一個(gè)熱門研究方向。主題模型挖掘出的主題可以幫助理解文本背后隱藏的語(yǔ)義,也可以作為其他文本挖掘方法的輸入,完成文本分類、話題檢測(cè)等多方面的文本挖掘任務(wù)。然而近年來(lái),主題建模模型的代表LDA模型的改進(jìn)與擴(kuò)展研究正面臨方法上的瓶頸,層出不窮的模型改進(jìn)算法多使用參數(shù)上調(diào)整、建模層數(shù)優(yōu)化等基本方法[2],這些改進(jìn)對(duì)于主題模型的效率、效果提高程度有限;另一方面,主題挖掘研究集中于研究文本本身內(nèi)容等客觀因素,而人類主觀取向因素很少在文本挖掘方面發(fā)揮重要作用,事實(shí)上,閱讀興趣等主觀因素對(duì)于文本挖掘有非常重要的參考價(jià)值,對(duì)主題模型本身也有極大的意義[3]。
因此針對(duì)文本挖掘、主題建模領(lǐng)域的相關(guān)研究,希望解決的相關(guān)問(wèn)題就是,如何能夠在現(xiàn)有的主題建模模型基礎(chǔ)上,不僅對(duì)于不同內(nèi)容領(lǐng)域的文本本身的客觀因素能夠統(tǒng)一進(jìn)行分析挖掘,并且同時(shí)考慮人主觀閱讀規(guī)律、興趣取向因素的影響性,使得文本中所抽取的信息與知識(shí)更有價(jià)值、更有意義。
眼動(dòng)儀技術(shù)可以獲得視覺(jué)信息提取過(guò)程中的生理和行為表現(xiàn),它與人的心理活動(dòng)有著直接或間接的關(guān)系,能夠?yàn)橹黝}提取與文本挖掘提供人主觀興趣取向信息[4]。本文通過(guò)對(duì)眼動(dòng)儀捕獲的用戶文本閱讀數(shù)據(jù)的分析和對(duì)主題提取模型LDA的研究,比較分析主觀眼動(dòng)數(shù)據(jù)結(jié)果與主題模型的挖掘結(jié)果,從主觀規(guī)律和客觀模式兩方面對(duì)文本挖掘效果進(jìn)行結(jié)果分析,對(duì)于推動(dòng)未來(lái)文本挖掘領(lǐng)域建模與應(yīng)用方法的進(jìn)步,提高文本挖掘模型效果,具有一定的參考意義和應(yīng)用價(jià)值。
1文本主題提取算法
1.1LDA模型
LDA模型以一種“詞袋”假設(shè),把每個(gè)文檔當(dāng)作組成文檔的詞匯分布的向量,這樣,文檔由多個(gè)主題的概率分布所代表,而主題則由單詞的概率分布所刻畫(huà)。
它對(duì)于每個(gè)文檔的主題生成過(guò)程如下:如圖1所示的概率模型,矩形代表重復(fù)的過(guò)程,外部矩形代表一個(gè)文檔,內(nèi)部矩形則代表對(duì)于每個(gè)詞語(yǔ)選擇主題的重復(fù)過(guò)程,重復(fù)次數(shù)為文檔內(nèi)詞語(yǔ)的個(gè)數(shù)。α和β代表語(yǔ)料庫(kù)級(jí)的參數(shù),每進(jìn)行一次語(yǔ)料庫(kù)的生成都要進(jìn)行采樣化。θ則是文檔級(jí)參數(shù),每取一個(gè)文檔則進(jìn)行一次采樣化,z和w則為詞語(yǔ)級(jí)參數(shù),對(duì)每一個(gè)文檔的每一個(gè)詞都進(jìn)行一次采樣化。
1.2文本主題提取過(guò)程
每一個(gè)文件集合M在T主題上服從多項(xiàng)式分布,系數(shù)為θ。如果每個(gè)主題對(duì)于組成的詞語(yǔ)而言都服從多項(xiàng)式分布,參數(shù)記為φ。θ和φ服從Dirichlet分布,超參分別為α與β,每一個(gè)文檔d中的詞語(yǔ),話題z是以多項(xiàng)分布θ為參數(shù)從文檔中進(jìn)行采樣的,詞語(yǔ)w則是以多項(xiàng)分布φ為參數(shù)從話題z中進(jìn)行采樣。這個(gè)生成過(guò)程重復(fù)次數(shù)為N,是文檔d中詞語(yǔ)的總個(gè)數(shù),形成文件D。
因此,利用該模型,有兩個(gè)參數(shù)需要從數(shù)據(jù)中推斷,即文檔的主題分布θ和主題的詞語(yǔ)分布φ,推斷的方式是采用Gibbs抽樣的方式來(lái)進(jìn)行模型的參數(shù)估計(jì)。θ與φ參數(shù)則可分別代表用戶文章中主題的分布情況,以及能夠刻畫(huà)該主題的詞語(yǔ)的分布情況。
通過(guò)LDA模型的應(yīng)用,輸入的文檔級(jí)數(shù)據(jù)可以轉(zhuǎn)化為主題分布的形式,主題數(shù)目由事先設(shè)定好的參數(shù)N來(lái)確定,最終以用戶感興趣的程度(主題分布中所占比率大?。┤∏癗個(gè)主題輸出,以主題級(jí)數(shù)據(jù)刻畫(huà)文檔。而每個(gè)主題由組成的詞語(yǔ)的分布表示,詞語(yǔ)同樣也對(duì)應(yīng)于分布中所占比率的參數(shù)。因此,可以通過(guò)LDA獲得用戶文檔中所描述的多個(gè)主題內(nèi)容,并且抽取出描述該主題的詞語(yǔ)。
2基于眼動(dòng)儀的閱讀興趣提取方法
通過(guò)眼動(dòng)儀捕獲的實(shí)驗(yàn)對(duì)象閱讀文本的視覺(jué)追蹤數(shù)據(jù),其結(jié)果形式體現(xiàn)在用戶閱讀文本的軌跡和看每個(gè)詞語(yǔ)的集中時(shí)間長(zhǎng)度,圖像化結(jié)果如圖2所示,其中圓圈直徑代表對(duì)該詞語(yǔ)(位置)眼球集中時(shí)間長(zhǎng)短,時(shí)間越長(zhǎng),直徑越大;直線代表眼球運(yùn)動(dòng)軌跡?!?/p>
而眼動(dòng)儀的非直觀性數(shù)據(jù)形式,則以觀察文本時(shí)間內(nèi)每個(gè)捕獲視覺(jué)點(diǎn)的坐標(biāo)和對(duì)應(yīng)時(shí)間點(diǎn)的形式給出。如:(x,y),t: 0908。因此對(duì)這類數(shù)據(jù)進(jìn)行形式轉(zhuǎn)換處理,最終轉(zhuǎn)換結(jié)果應(yīng)為詞語(yǔ)及對(duì)應(yīng)集中時(shí)間。
2.1詞語(yǔ)區(qū)域統(tǒng)計(jì)
眼動(dòng)儀實(shí)驗(yàn)使用統(tǒng)一的圖片形式,即txt格式文本轉(zhuǎn)化為包括首行縮進(jìn)、行距等文本分布形式均相同的圖片格式。根據(jù)一致的分布形式,統(tǒng)計(jì)每篇文章每個(gè)詞語(yǔ)所占區(qū)域的坐標(biāo)范圍(x0x1y0 y1)。如式(1)~(4)所示。
其中,d0、D0為每行和每列第一個(gè)字符的初始x、y坐標(biāo)值;wi、Wi分別為水平與垂直方向的第i個(gè)詞的詞長(zhǎng)和詞與詞間距長(zhǎng)的和;K0、Q0分別為水平和垂直方向詞與詞間距長(zhǎng)。
2.2詞語(yǔ)集中時(shí)間計(jì)數(shù)
根據(jù)每個(gè)詞語(yǔ)的坐標(biāo)區(qū)域劃分情況,對(duì)眼動(dòng)數(shù)據(jù)結(jié)果文件中的坐標(biāo)與對(duì)應(yīng)時(shí)間點(diǎn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),落在某個(gè)詞語(yǔ)坐標(biāo)區(qū)域內(nèi)的坐標(biāo)對(duì)應(yīng)的該詞語(yǔ)的集中時(shí)間計(jì)數(shù)加一。全部觀察時(shí)間范圍內(nèi)所有坐標(biāo)與時(shí)間點(diǎn)均可通過(guò)轉(zhuǎn)換關(guān)系,轉(zhuǎn)為詞語(yǔ)和詞語(yǔ)集中時(shí)間的結(jié)果形式,即實(shí)驗(yàn)對(duì)象閱讀文本通過(guò)眼動(dòng)儀所捕獲到的集中度和興趣規(guī)律。
通過(guò)對(duì)每個(gè)詞語(yǔ)集中時(shí)間的計(jì)數(shù),可以得到實(shí)驗(yàn)對(duì)象對(duì)該文本中所有觀察詞語(yǔ)的集中時(shí)間排序結(jié)果。
3實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集采用BBC news的20篇文章,實(shí)驗(yàn)對(duì)象為20名,每名實(shí)驗(yàn)對(duì)象分別閱讀20篇新聞文章,并通過(guò)SMI眼動(dòng)儀進(jìn)行眼部數(shù)據(jù)跟蹤并捕獲。文本主題建模算法應(yīng)用于同樣數(shù)據(jù)集中。如圖3所示為眼動(dòng)數(shù)據(jù)實(shí)驗(yàn)詞語(yǔ)的計(jì)數(shù)分布結(jié)果(橫軸代表各個(gè)詞語(yǔ),具體內(nèi)容略);圖4所示為對(duì)于每個(gè)詞語(yǔ),所有實(shí)驗(yàn)對(duì)象的均值與方差變化圖,可見(jiàn)方差基本穩(wěn)定在0.1左右。
對(duì)LDA模型主題提取結(jié)果排序后與眼動(dòng)數(shù)據(jù)結(jié)果排序后進(jìn)行比較分析,每篇文章中同一詞語(yǔ)的計(jì)數(shù)值比較如圖5。而圖6顯示了具體主客觀文本挖掘方法的差異性和相似性。均值的重合度以排序前30個(gè)詞語(yǔ)為例,基本維持在0.6左右。分析比較結(jié)果,此例中,LDA模型對(duì)文本內(nèi)容的客觀性提取有0.6的比率與人主觀興趣取向一致,而0.4比率是基于詞語(yǔ)頻率等內(nèi)容因素的偏向客觀性的主題內(nèi)容。
根據(jù)實(shí)驗(yàn)數(shù)據(jù)結(jié)果可以看出,文本主題模型對(duì)于文本的提取結(jié)果與人的興趣行為取向存在一致性和差異性,而
通過(guò)調(diào)控主題提取結(jié)果所取的詞語(yǔ)比率,結(jié)合眼動(dòng)數(shù)據(jù)結(jié)果中興趣部分的詞語(yǔ)比率,二者結(jié)合可同時(shí)反映主題內(nèi)容和閱讀興趣這兩種文本挖掘因素,對(duì)于實(shí)際文本分類、文檔摘要等文本挖掘應(yīng)用效果會(huì)有很大提升。
4結(jié)論
本文通過(guò)LDA模型進(jìn)行文檔的客觀性主題抽象,利用眼動(dòng)儀提取主觀興趣取向因素結(jié)果。在News數(shù)據(jù)集上的比較分析實(shí)驗(yàn)顯示了主觀因素和客觀結(jié)果對(duì)文本挖掘的具體不同影響,可以為未來(lái)主客觀因素相結(jié)合的文本挖掘算法提供一定參考與應(yīng)用價(jià)值。
參考文獻(xiàn)
?。?] BLEI D M, NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
?。?] DU L, BUNTINE W, JIN H. Modelling sequential text with an adaptive topic model[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:535-545.
?。?] MICHELSON M, MACSKASSY S A. Discovering users’ topics of interest on twitter: a first look[C]. Proceedings of the Fourth Workshop on Analytics for Noisy Unstructured Text Data,2010:73-80.
?。?] DUCHOWSKI A T. Eye tracking methodology: theory and practice[M]. SpringerVerlag:2003.