亚洲精品青青草原AVAV久久QV,sifangktv

中文客戶評(píng)論對(duì)象特征的抽取與聚類方法

2014年微型機(jī)與應(yīng)用第15期

周紅慶，吳揚(yáng)揚(yáng)

華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，福建廈門

摘要： 通過利用Apriori算法抽取評(píng)價(jià)對(duì)象的候選特征集，結(jié)合計(jì)算領(lǐng)域一致度和領(lǐng)域相關(guān)度對(duì)候選特征進(jìn)行過濾，實(shí)現(xiàn)了對(duì)中文客戶評(píng)論的對(duì)象特征挖掘，并且用實(shí)驗(yàn)驗(yàn)證了該方法的有效性。

關(guān)鍵詞： Apriori算法特征挖掘領(lǐng)域一致度領(lǐng)域相關(guān)度

Abstract：

Key words :

　　摘要：通過利用Apriori算法抽取評(píng)價(jià)對(duì)象的候選特征集，結(jié)合計(jì)算領(lǐng)域一致度和領(lǐng)域相關(guān)度對(duì)候選特征進(jìn)行過濾，實(shí)現(xiàn)了對(duì)中文客戶評(píng)論的對(duì)象特征挖掘，并且用實(shí)驗(yàn)驗(yàn)證了該方法的有效性。

　　關(guān)鍵詞：特征挖掘；領(lǐng)域一致度；領(lǐng)域相關(guān)度

　　評(píng)論挖掘是一種以從評(píng)論數(shù)據(jù)中探尋有用信息為目標(biāo)的非結(jié)構(gòu)化數(shù)據(jù)挖掘技術(shù)，主要包含評(píng)論對(duì)象的特征挖掘、評(píng)論觀點(diǎn)挖掘、評(píng)論觀點(diǎn)的極性以及強(qiáng)度判斷、評(píng)論挖掘結(jié)果的匯總以及按用戶觀點(diǎn)排序4個(gè)子任務(wù)[1]。

　　評(píng)價(jià)對(duì)象的特征挖掘是指從大量的客戶評(píng)論中挖掘出用戶關(guān)注的評(píng)價(jià)對(duì)象特征。這一技術(shù)是分析用戶對(duì)評(píng)價(jià)對(duì)象的具體特征所持的情感傾向的前提，其準(zhǔn)確性和全面性是非常重要的。近年來，國內(nèi)外研究人員對(duì)評(píng)價(jià)對(duì)象的特征挖掘進(jìn)行深入研究，他們采用很多不同方法來對(duì)特征進(jìn)行挖掘[2-6]。本文針對(duì)中文客戶評(píng)論的特征挖掘的性能不夠理想的問題[7]，提出了一種基于Apriori算法抽取候選特征集，集成領(lǐng)域一致度和領(lǐng)域相關(guān)度方法對(duì)候選特征進(jìn)行過濾的方法，實(shí)現(xiàn)中文客戶評(píng)論對(duì)象的特征挖掘，并且通過實(shí)驗(yàn)驗(yàn)證這一方法的有效性。

1 評(píng)論對(duì)象的特征挖掘

　　中文客戶評(píng)論對(duì)象的特征挖掘過程如圖1所示。首先，輸入不同評(píng)論對(duì)象的評(píng)論語料；然后對(duì)這些評(píng)論語料進(jìn)行預(yù)處理，利用中科院計(jì)算所所研發(fā)的ICTCLAS系統(tǒng)對(duì)評(píng)論文本語料進(jìn)行分詞和二級(jí)詞性標(biāo)注，以評(píng)論語料中句子為單位，進(jìn)行詞性過濾，提取出評(píng)論語料中名詞和具有名詞功能的形容詞或者動(dòng)詞或者名詞短語作為項(xiàng)，每一篇評(píng)論項(xiàng)組合起來作為一個(gè)事務(wù)在事務(wù)文件中存為一行。將每個(gè)評(píng)論對(duì)象的所有評(píng)論語料中的事務(wù)都存儲(chǔ)在一個(gè)事務(wù)文件中。經(jīng)過預(yù)處理后，每個(gè)評(píng)論對(duì)象均有一個(gè)事務(wù)文件。然后，應(yīng)用Apriori算法從事務(wù)文件中提取頻繁項(xiàng)集，并通過剪枝方法去除掉一些不合適的頻繁項(xiàng)，得到評(píng)價(jià)對(duì)象的候選特征集。最后，利用特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度定義綜合評(píng)定指標(biāo)，根據(jù)該指標(biāo)對(duì)候選特征進(jìn)行過濾，得到評(píng)價(jià)對(duì)象的特征。

　　1.1 評(píng)價(jià)對(duì)象的候選特征挖掘

　　定義1 頻繁項(xiàng)：設(shè)I是m個(gè)項(xiàng)目的集合，T是n個(gè)事務(wù)集合，其中每個(gè)事務(wù)S是一個(gè)項(xiàng)目集合，并滿足S?哿I。由I中的若干項(xiàng)組成的集合稱為項(xiàng)集，包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集，包含項(xiàng)集的事務(wù)數(shù)稱為該項(xiàng)集的出現(xiàn)頻度。如果該項(xiàng)集的出現(xiàn)頻度大于或等于預(yù)先設(shè)定的最小支持度，則稱項(xiàng)集為頻繁項(xiàng)。

　　定義2 鄰近規(guī)則：假設(shè)f是頻繁項(xiàng)，而且f包含n個(gè)詞，評(píng)論句s包含f，而且在f中的詞出現(xiàn)在s中的順序?yàn)椋簑1，w2，…，wn。如果在s中wi和wi+1（i=1，…n-1）的距離不超過兩個(gè)詞，則可以說f在s中是鄰近的。

　　定義3 獨(dú)立支持度：頻繁項(xiàng)f的獨(dú)立支持度是指包含f本身但不包含f的超集的句子數(shù)量，即f的支持度減去f的超集支持度之和。若f的獨(dú)立支持度大于最小支持度，則其符合獨(dú)立支持度規(guī)則。

　　挖掘評(píng)價(jià)對(duì)象的候選特征過程如算法1所示。首先，應(yīng)用Apriori算法從預(yù)處理得到的評(píng)價(jià)對(duì)象的事務(wù)文件中，提取滿足最小支持度的頻繁項(xiàng)集。通過分析評(píng)論對(duì)象特征的特性，發(fā)現(xiàn)3維以上頻繁項(xiàng)不可能是特征，所以只提取3維及其以下的頻繁項(xiàng)；然后，根據(jù)鄰近規(guī)則，去掉不在其相鄰位置的頻繁項(xiàng)；根據(jù)獨(dú)立支持度剪枝去掉被包含在其他頻繁項(xiàng)的冗余頻繁項(xiàng)；因?yàn)閱巫植豢赡苁窃u(píng)價(jià)對(duì)象的特征，所以，刪去頻繁項(xiàng)集中的單字。

　　算法1 評(píng)價(jià)對(duì)象的候選特征挖掘

　　輸入：評(píng)論語料事務(wù)文件W，評(píng)論語料庫T

　　輸出：頻繁特征集L

　　方法：

　　int minsupport，int k；

　　//初始化最小支持度和頻繁項(xiàng)集的最高維度

　　L0=Apriori（W，minsupport，k）；

　　//通過Apriori算法得到頻繁項(xiàng)集L0

　　for each f∈L0 do

　　//對(duì)于L0中的大于一維的項(xiàng)根據(jù)鄰近規(guī)則重新計(jì)算支持度

　　if f.dimension﹥1 then//如果f的維度大于1

　　f.count=0；//f的支持度重新設(shè)置為0

　　for each t∈T do//對(duì)所有事務(wù)掃描一遍

　　if f在t中是鄰近的do//若f在t中符合鄰近規(guī)則

　　f.count++；//f的支持度加1

　　end if

　　end for

　　end if

　　end for

　　L1={f∈L0|f.count≧minsupport}；

　　//刪除支持度小于最小支持度的項(xiàng)集

　　for each f∈L1 do

　　//掃描候選項(xiàng)集L1計(jì)算每個(gè)一維頻繁項(xiàng)的獨(dú)立支持度

　　if f.dimension=1 then//若f的維度為1

　　S={l∈L1|fl，f≠l}；

　　//得到包含項(xiàng)f的多維頻繁項(xiàng)集S

　　for each l∈S do//掃描S中的多維頻繁項(xiàng)

　　S.count+=l.count；

　　//S的支持度為項(xiàng)的支持度S中項(xiàng)的支持度之和

　　end for

　　f.count=f.count-S.count；//得到f的獨(dú)立支持度

　　end if

　　end for

　　L2={l∈L1|f.count≧minsupport}；

　　//刪除獨(dú)立支持度小于最小支持度的項(xiàng)

　　return L={l∈L2|f.length﹥1}；//刪除單字

　　其中，minsupport表示給定的最小支持度，k表示給定的頻繁項(xiàng)集的最高維度。

　　1.2 評(píng)價(jià)對(duì)象的特征過濾

　　將不同的評(píng)價(jià)對(duì)象的評(píng)論語料看成是不同的領(lǐng)域的評(píng)論語料。真正的特征應(yīng)該在不同領(lǐng)域的評(píng)論分布不均勻，在其相關(guān)領(lǐng)域的評(píng)論文檔集中應(yīng)分布比較均勻。

　　因此，本文通過計(jì)算特征的領(lǐng)域相關(guān)度及領(lǐng)域一致度，并對(duì)領(lǐng)域相關(guān)度和領(lǐng)域一致度進(jìn)行量化，定義一個(gè)綜合評(píng)定指標(biāo)，根據(jù)這個(gè)指標(biāo)可對(duì)應(yīng)用Apriori算法挖掘出來的候選特征進(jìn)行過濾。

　?。?）特征的領(lǐng)域相關(guān)度計(jì)算

　　特征的領(lǐng)域相關(guān)度表示特征與領(lǐng)域的相關(guān)程度。設(shè)總共有n個(gè)領(lǐng)域{D1，D2，…，Dn}，則候選特征t對(duì)于某領(lǐng)域Di的領(lǐng)域相關(guān)度定義為：

　?。?）特征的領(lǐng)域一致度計(jì)算

　　特征的領(lǐng)域一致度表示特征在領(lǐng)域中的分布均勻度。設(shè)領(lǐng)域Di中有m個(gè)評(píng)論文檔{d1，d2，…，dm}，則候選特征t對(duì)于Di的領(lǐng)域一致度定義為：

　　　　其中，ft，dj表示特征t在文檔dj中的頻度。在式（3）中， H（t，Di）為信息熵，其值越大，表明t在各文檔中分布越均勻，t是該領(lǐng)域的可能性就越大。當(dāng)t在各文檔中出現(xiàn)的頻度相等的時(shí)候，H（t，Di）的值最大。

　?。?）綜合評(píng)定指標(biāo)的定義

　　當(dāng)候選評(píng)價(jià)對(duì)象特征的領(lǐng)域相關(guān)度和領(lǐng)域一致度都很大時(shí)，該候選特征就可能是該領(lǐng)域的真正特征。因此，通過對(duì)兩者的加權(quán)平均，可以定義候選評(píng)價(jià)對(duì)象特征t對(duì)領(lǐng)域Di的一個(gè)綜合評(píng)定指標(biāo)：

　　DW（t，Di）=α·DR（t|Di）+β·DC（t，Di）（5）

　　計(jì)算所有候選特征對(duì)于領(lǐng)域Di的DW（t，Di）值，按照從大到小排序。設(shè)置閾值θ，使得DW（t，Di）的值大于θ的候選特征為所選取的評(píng)價(jià)對(duì)象特征，小于θ的候選特征將從候選特征集中去除。

2 實(shí)驗(yàn)結(jié)果與分析

　　2.1 實(shí)驗(yàn)語料與性能評(píng)價(jià)指標(biāo)

　　因中文產(chǎn)品評(píng)論觀點(diǎn)挖掘發(fā)展還不成熟，缺少公開的、標(biāo)準(zhǔn)的語料庫，目前研究主要采用從指定的網(wǎng)站（如英文的www.Amazon.com，中文的pinglun.IT168.com等）獲取某類產(chǎn)品的產(chǎn)品評(píng)論來構(gòu)建產(chǎn)品評(píng)論語料庫[7]。所以本文選取的是從上述網(wǎng)站上下載下來的評(píng)論數(shù)據(jù)，包括手機(jī)、數(shù)碼相機(jī)、DVD機(jī)、書籍以及服飾5類產(chǎn)品各1 000條評(píng)論數(shù)據(jù)。針對(duì)每一種產(chǎn)品評(píng)論，用人工標(biāo)注的方法對(duì)評(píng)價(jià)對(duì)象特征進(jìn)行識(shí)別和標(biāo)注，不考慮那些在評(píng)論中沒有出現(xiàn)或是出現(xiàn)的頻率太低的特征，那么標(biāo)注時(shí)要保證特征的支持度要大于Apriori算法中的最小支持度。

　　為了評(píng)估方法的性能，本文采取了查全率（recall），查準(zhǔn)率（precision），F(xiàn)1-score來評(píng)價(jià)特征抽取的有效性。公式如下：

　　2.2 實(shí)驗(yàn)結(jié)果

　　在抽取評(píng)價(jià)對(duì)象的候選特征集階段，利用Apriori算法抽取頻繁項(xiàng)集時(shí)，選取的最小支持度為2%。綜合5種商品的實(shí)驗(yàn)結(jié)果如表1所示，平均查全率為81.72%，平均查準(zhǔn)率為62.87%。

　　在此實(shí)驗(yàn)中，一種產(chǎn)品的評(píng)論語料作為領(lǐng)域語料，那么其他4種評(píng)論語料則是作為過濾語料。比如手機(jī)的評(píng)論數(shù)據(jù)作為領(lǐng)域語料，那么數(shù)碼相機(jī)、DVD機(jī)、書籍和服飾的評(píng)論數(shù)據(jù)將作為過濾語料。在量化特征的領(lǐng)域一致度和領(lǐng)域相關(guān)度后，對(duì)過濾的綜合評(píng)定指標(biāo)定義時(shí)，經(jīng)過試驗(yàn)比較發(fā)現(xiàn)，α值取0.9左右，β值取0.25左右，閾值θ取1.8。過濾后的5種商品的實(shí)驗(yàn)結(jié)果如表2所示，平均查全率為77.07%，平均查準(zhǔn)率為70.89%，比未過濾前查準(zhǔn)率提高了8.02%。

　　特征過濾的實(shí)驗(yàn)結(jié)果與基于Apriori算法抽取候選特征的實(shí)驗(yàn)結(jié)果以及HU M等人的英文評(píng)論挖掘結(jié)果進(jìn)行比較。以F1-score值作為參考，利用3個(gè)實(shí)驗(yàn)中都有的產(chǎn)品手機(jī)、數(shù)碼相機(jī)和書籍的實(shí)驗(yàn)結(jié)果作比較，如表3所示。與基于Apriori算法抽取候選特征的實(shí)驗(yàn)結(jié)果來看，平均F1-score值提高了3.2%。以HU M和LIU B的實(shí)驗(yàn)結(jié)果來看，平均F1-score值提高了1.48。本方法提高了中文客戶評(píng)論對(duì)象的特征挖掘性能。

　　本文通過利用Apriori算法抽取評(píng)價(jià)對(duì)象的候選特征集，結(jié)合計(jì)算領(lǐng)域一致度和領(lǐng)域相關(guān)度對(duì)候選特征進(jìn)行過濾，實(shí)現(xiàn)了對(duì)中文客戶評(píng)論的對(duì)象特征挖掘。通過實(shí)驗(yàn)驗(yàn)證了通過結(jié)合領(lǐng)域一致度和領(lǐng)域相關(guān)度的過濾效果，特征挖掘的性能得到提高，且略優(yōu)于參考文獻(xiàn)[2]關(guān)于英文評(píng)論的抽取性能。

　　在今后的工作中，將建立一個(gè)中文客戶評(píng)論挖掘框架，在本文的基礎(chǔ)上，針對(duì)已經(jīng)挖掘出來的評(píng)價(jià)對(duì)象特征，進(jìn)一步判斷客戶評(píng)論中對(duì)于這些評(píng)價(jià)對(duì)象特征的情感傾向分布。

　　參考文獻(xiàn)

　　[1] POPESCU A M， ETZIONI O. Extracting product featuresand opinionsfrom reviews[J]. Proceedings of HLT-EMNLPVancouver， 2007：9-28.

　　[2] HU M， LIU B. Mining opinion featuresin customer reviews[C]. Proceedings of the Tenth ACM SIGKDD International Conerence on Knowledge Discovery and Data Mining， ACM， 2004：168-177.

　　[3] 姚天昉，聶青陽，李建超，等．一個(gè)用于漢語汽車評(píng)論的意見挖掘系統(tǒng)[C].中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)成立二十五周年學(xué)術(shù)會(huì)議論文集.北京：中國中文信息學(xué)會(huì)，2006：260-281．

　　[4] YI J， NASUKAWA T， BUNESCUR R， et al. Sentiment analyzer： extracting sentiments about a given topic using natural language processing techniques[C]. Proceeding of the 3rd IEEE International Conference on Data Mining，Washington： IEEE Computer Society， 2003：427-434.

　　[5] SOMPRASERTSRI G， LALITROJWONG P. A maximum entropy model for product feature extraction in online customer reviews[C]. Proceeding of the 3rd IEEE International Conference on Data Mining， Washington： IEEE Computer Society， 2008: 575-580.

　　[6] ZHENG Y， YE L， WU G， et al. Extracting product features from chinese customer reviews[A]. Proceedings of 2008 3rd IEEE International Conference on Intelligent System and Knowledge Engineering[C]. 2008（1-2）：285-290.

　　[7] 伍星，何中市，黃永文.產(chǎn)品評(píng)論挖掘研究綜述[J].計(jì)算機(jī)工程與應(yīng)用，2008，44（36）：37-40.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容