《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 中文客戶評論對象特征的抽取與聚類方法
中文客戶評論對象特征的抽取與聚類方法
2014年微型機與應用第15期
周紅慶,吳揚揚
華僑大學 計算機科學與技術學院,福建 廈門
摘要: 通過利用Apriori算法抽取評價對象的候選特征集,結合計算領域一致度和領域相關度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。
Abstract:
Key words :

  摘  要: 通過利用Apriori算法抽取評價對象的候選特征集,結合計算領域一致度領域相關度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。

  關鍵詞: 特征挖掘;領域一致度;領域相關度

  評論挖掘是一種以從評論數(shù)據(jù)中探尋有用信息為目標的非結構化數(shù)據(jù)挖掘技術,主要包含評論對象的特征挖掘、評論觀點挖掘、評論觀點的極性以及強度判斷、評論挖掘結果的匯總以及按用戶觀點排序4個子任務[1]。

  評價對象的特征挖掘是指從大量的客戶評論中挖掘出用戶關注的評價對象特征。這一技術是分析用戶對評價對象的具體特征所持的情感傾向的前提,其準確性和全面性是非常重要的。近年來,國內(nèi)外研究人員對評價對象的特征挖掘進行深入研究,他們采用很多不同方法來對特征進行挖掘[2-6]。本文針對中文客戶評論的特征挖掘的性能不夠理想的問題[7],提出了一種基于Apriori算法抽取候選特征集,集成領域一致度和領域相關度方法對候選特征進行過濾的方法,實現(xiàn)中文客戶評論對象的特征挖掘,并且通過實驗驗證這一方法的有效性。

1 評論對象的特征挖掘


001.jpg


  中文客戶評論對象的特征挖掘過程如圖1所示。首先,輸入不同評論對象的評論語料;然后對這些評論語料進行預處理,利用中科院計算所所研發(fā)的ICTCLAS系統(tǒng)對評論文本語料進行分詞和二級詞性標注,以評論語料中句子為單位,進行詞性過濾,提取出評論語料中名詞和具有名詞功能的形容詞或者動詞或者名詞短語作為項,每一篇評論項組合起來作為一個事務在事務文件中存為一行。將每個評論對象的所有評論語料中的事務都存儲在一個事務文件中。經(jīng)過預處理后,每個評論對象均有一個事務文件。然后,應用Apriori算法從事務文件中提取頻繁項集,并通過剪枝方法去除掉一些不合適的頻繁項,得到評價對象的候選特征集。最后,利用特征的領域相關度和領域一致度定義綜合評定指標,根據(jù)該指標對候選特征進行過濾,得到評價對象的特征。

  1.1 評價對象的候選特征挖掘

  定義1 頻繁項:設I是m個項目的集合,T是n個事務集合,其中每個事務S是一個項目集合,并滿足S?哿I。由I中的若干項組成的集合稱為項集,包含k個項的項集稱為k-項集,包含項集的事務數(shù)稱為該項集的出現(xiàn)頻度。如果該項集的出現(xiàn)頻度大于或等于預先設定的最小支持度,則稱項集為頻繁項。

  定義2 鄰近規(guī)則:假設f是頻繁項,而且f包含n個詞,評論句s包含f,而且在f中的詞出現(xiàn)在s中的順序為:w1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過兩個詞,則可以說f在s中是鄰近的。

  定義3 獨立支持度:頻繁項f的獨立支持度是指包含f本身但不包含f的超集的句子數(shù)量,即f的支持度減去f的超集支持度之和。若f的獨立支持度大于最小支持度,則其符合獨立支持度規(guī)則。

  挖掘評價對象的候選特征過程如算法1所示。首先,應用Apriori算法從預處理得到的評價對象的事務文件中,提取滿足最小支持度的頻繁項集。通過分析評論對象特征的特性,發(fā)現(xiàn)3維以上頻繁項不可能是特征,所以只提取3維及其以下的頻繁項;然后,根據(jù)鄰近規(guī)則,去掉不在其相鄰位置的頻繁項;根據(jù)獨立支持度剪枝去掉被包含在其他頻繁項的冗余頻繁項;因為單字不可能是評價對象的特征,所以,刪去頻繁項集中的單字。

  算法1 評價對象的候選特征挖掘

  輸入:評論語料事務文件W,評論語料庫T

  輸出:頻繁特征集L

  方法:

  int minsupport,int k;

  //初始化最小支持度和頻繁項集的最高維度

  L0=Apriori(W,minsupport,k);

  //通過Apriori算法得到頻繁項集L0

  for each f∈L0 do

  //對于L0中的大于一維的項根據(jù)鄰近規(guī)則重新計算支持度

  if f.dimension﹥1 then//如果f的維度大于1

  f.count=0;//f的支持度重新設置為0

  for each t∈T do//對所有事務掃描一遍

  if f在t中是鄰近的do//若f在t中符合鄰近規(guī)則

  f.count++;//f的支持度加1

  end if

  end for

  end if

  end for

  L1={f∈L0|f.count≧minsupport};

  //刪除支持度小于最小支持度的項集

  for each f∈L1 do

  //掃描候選項集L1計算每個一維頻繁項的獨立支持度

  if f.dimension=1 then//若f的維度為1

  S={l∈L1|fl,f≠l};

  //得到包含項f的多維頻繁項集S

  for each l∈S do//掃描S中的多維頻繁項

  S.count+=l.count;

  //S的支持度為項的支持度S中項的支持度之和

  end for

  f.count=f.count-S.count;//得到f的獨立支持度

  end if

  end for

  L2={l∈L1|f.count≧minsupport};

  //刪除獨立支持度小于最小支持度的項

  return L={l∈L2|f.length﹥1};//刪除單字

  其中,minsupport表示給定的最小支持度,k表示給定的頻繁項集的最高維度。

  1.2 評價對象的特征過濾

  將不同的評價對象的評論語料看成是不同的領域的評論語料。真正的特征應該在不同領域的評論分布不均勻,在其相關領域的評論文檔集中應分布比較均勻。

  因此,本文通過計算特征的領域相關度及領域一致度,并對領域相關度和領域一致度進行量化,定義一個綜合評定指標,根據(jù)這個指標可對應用Apriori算法挖掘出來的候選特征進行過濾。

 ?。?)特征的領域相關度計算

  特征的領域相關度表示特征與領域的相關程度。設總共有n個領域{D1,D2,…,Dn},則候選特征t對于某領域Di的領域相關度定義為:

  12.jpg

 ?。?)特征的領域一致度計算

  特征的領域一致度表示特征在領域中的分布均勻度。設領域Di中有m個評論文檔{d1,d2,…,dm},則候選特征t對于Di的領域一致度定義為:

  34.jpg  其中,ft,dj表示特征t在文檔dj中的頻度。在式(3)中, H(t,Di)為信息熵,其值越大,表明t在各文檔中分布越均勻,t是該領域的可能性就越大。當t在各文檔中出現(xiàn)的頻度相等的時候,H(t,Di)的值最大。

 ?。?)綜合評定指標的定義

  當候選評價對象特征的領域相關度和領域一致度都很大時,該候選特征就可能是該領域的真正特征。因此,通過對兩者的加權平均,可以定義候選評價對象特征t對領域Di的一個綜合評定指標:

  DW(t,Di)=α·DR(t|Di)+β·DC(t,Di)(5)

  計算所有候選特征對于領域Di的DW(t,Di)值,按照從大到小排序。設置閾值θ,使得DW(t,Di)的值大于θ的候選特征為所選取的評價對象特征,小于θ的候選特征將從候選特征集中去除。

2 實驗結果與分析

  2.1 實驗語料與性能評價指標

  因中文產(chǎn)品評論觀點挖掘發(fā)展還不成熟,缺少公開的、標準的語料庫,目前研究主要采用從指定的網(wǎng)站(如英文的www.Amazon.com,中文的pinglun.IT168.com等)獲取某類產(chǎn)品的產(chǎn)品評論來構建產(chǎn)品評論語料庫[7]。所以本文選取的是從上述網(wǎng)站上下載下來的評論數(shù)據(jù),包括手機、數(shù)碼相機、DVD機、書籍以及服飾5類產(chǎn)品各1 000條評論數(shù)據(jù)。針對每一種產(chǎn)品評論,用人工標注的方法對評價對象特征進行識別和標注,不考慮那些在評論中沒有出現(xiàn)或是出現(xiàn)的頻率太低的特征,那么標注時要保證特征的支持度要大于Apriori算法中的最小支持度。

  為了評估方法的性能,本文采取了查全率(recall),查準率(precision),F(xiàn)1-score來評價特征抽取的有效性。公式如下:

  678.jpg

  2.2 實驗結果

  在抽取評價對象的候選特征集階段,利用Apriori算法抽取頻繁項集時,選取的最小支持度為2%。綜合5種商品的實驗結果如表1所示,平均查全率為81.72%,平均查準率為62.87%。

002.jpg

  在此實驗中,一種產(chǎn)品的評論語料作為領域語料,那么其他4種評論語料則是作為過濾語料。比如手機的評論數(shù)據(jù)作為領域語料,那么數(shù)碼相機、DVD機、書籍和服飾的評論數(shù)據(jù)將作為過濾語料。在量化特征的領域一致度和領域相關度后,對過濾的綜合評定指標定義時,經(jīng)過試驗比較發(fā)現(xiàn),α值取0.9左右,β值取0.25左右,閾值θ取1.8。過濾后的5種商品的實驗結果如表2所示,平均查全率為77.07%,平均查準率為70.89%,比未過濾前查準率提高了8.02%。

003.jpg

  特征過濾的實驗結果與基于Apriori算法抽取候選特征的實驗結果以及HU M等人的英文評論挖掘結果進行比較。以F1-score值作為參考,利用3個實驗中都有的產(chǎn)品手機、數(shù)碼相機和書籍的實驗結果作比較,如表3所示。與基于Apriori算法抽取候選特征的實驗結果來看,平均F1-score值提高了3.2%。以HU M和LIU B的實驗結果來看,平均F1-score值提高了1.48。本方法提高了中文客戶評論對象的特征挖掘性能。

004.jpg

  本文通過利用Apriori算法抽取評價對象的候選特征集,結合計算領域一致度和領域相關度對候選特征進行過濾,實現(xiàn)了對中文客戶評論的對象特征挖掘。通過實驗驗證了通過結合領域一致度和領域相關度的過濾效果,特征挖掘的性能得到提高,且略優(yōu)于參考文獻[2]關于英文評論的抽取性能。

  在今后的工作中,將建立一個中文客戶評論挖掘框架,在本文的基礎上,針對已經(jīng)挖掘出來的評價對象特征,進一步判斷客戶評論中對于這些評價對象特征的情感傾向分布。

  參考文獻

  [1] POPESCU A M, ETZIONI O. Extracting product featuresand opinionsfrom reviews[J]. Proceedings of HLT-EMNLPVancouver, 2007:9-28.

  [2] HU M, LIU B. Mining opinion featuresin customer reviews[C]. Proceedings of the Tenth ACM SIGKDD International Conerence on Knowledge Discovery and Data Mining, ACM, 2004:168-177.

  [3] 姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[C].中文信息處理前沿進展——中國中文信息學會成立二十五周年學術會議論文集.北京:中國中文信息學會,2006:260-281.

  [4]  YI J, NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C]. Proceeding of the 3rd IEEE International Conference on Data Mining,Washington: IEEE Computer Society, 2003:427-434.

  [5] SOMPRASERTSRI G, LALITROJWONG P. A maximum entropy model for product feature extraction in online customer reviews[C]. Proceeding of the 3rd IEEE International Conference on Data Mining, Washington: IEEE Computer Society, 2008: 575-580.

  [6] ZHENG Y, YE L, WU G, et al. Extracting product features from chinese customer reviews[A]. Proceedings of 2008 3rd IEEE International Conference on Intelligent System and Knowledge Engineering[C]. 2008(1-2):285-290.

  [7] 伍星,何中市,黃永文.產(chǎn)品評論挖掘研究綜述[J].計算機工程與應用,2008,44(36):37-40.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。