文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2015.11.039
中文引用格式: 馬力,王蕓,楊琳. 基于MoodCast模型的用戶行為分析與預(yù)測[J].電子技術(shù)應(yīng)用,2015,41(11):140-143.
英文引用格式: Ma Li,Wang Yun,Yang Lin. Analysis and prediction of user behavior based on MoodCast model[J].Application of Electronic Technique,2015,41(11):140-143.
0 引言
情感是人類對客觀外界事物態(tài)度的體驗,人們在社交網(wǎng)絡(luò)中的行為直接反映其在真實世界中的活動和情感。這促使傳統(tǒng)意義上的主觀心理學(xué)概念的情感在網(wǎng)絡(luò)空間和人類社會中顯現(xiàn)出一致性、通用性和重要性,成為影響人類個體、社會及網(wǎng)絡(luò)社會智能活動的重要因素。
目前大部分系統(tǒng)只是支持網(wǎng)絡(luò)宏觀分析(如網(wǎng)絡(luò)結(jié)構(gòu)分析和可視化分析),而對網(wǎng)絡(luò)微觀分析(如個體用戶行為分析、影響力分析等)卻鮮有研究。情感動態(tài)分析目前主要研究集中在心理學(xué)和社會學(xué)領(lǐng)域,重點關(guān)注人類情感的動因,包括某種具體的情感是如何演化形成、情感隨時間的動態(tài)變化、或者朋友們之間的情感如何相互影響[3]。文獻(xiàn)[6]研究了幸福感在社交網(wǎng)絡(luò)中的動態(tài)傳播,揭示了在社交網(wǎng)絡(luò)中,幸福感最多通過三層聯(lián)系在人群中進(jìn)行傳播。文獻(xiàn)[7]在此基礎(chǔ)上對孤獨感的動因進(jìn)行了更進(jìn)一步的研究,指出在社交網(wǎng)絡(luò)中孤獨感有著和幸福感相似的傳播模式。但這些工作中的絕大部分只定性地在一定規(guī)模的社交網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行統(tǒng)計分析及測試驗證,缺乏對社交網(wǎng)絡(luò)情感及其動態(tài)演變的定量計算。為此,本文將用戶情感傳播因素應(yīng)用到社交網(wǎng)絡(luò)中,研究情感主觀范疇與網(wǎng)絡(luò)行為有機(jī)相融合的計算建模問題,為準(zhǔn)確度量人類的情感提供新的技術(shù)途徑。
1 基于MoodCast模型的情感分析與預(yù)測
動態(tài)因子圖情感預(yù)測模型(Emotion Prediction via Dynamic Continuous Factor Graph Model,MoodCast)是由清華大學(xué)教授唐杰提出,主要用于定量計算社交網(wǎng)絡(luò)中用戶的情感以及分析預(yù)測其行為分析。MoodCast是結(jié)合用戶的動態(tài)狀態(tài)信息(如地點、活動和屬性)和用戶的社會關(guān)系對其情感的影響而建立的模型。MoodCast中將主體情緒的變化建模成動態(tài)連續(xù)網(wǎng)絡(luò)Gt的函數(shù):Gt=(V,Et,Xt,Yt)。其中V是用戶的集合,假設(shè)有n個用戶,e∈Et是指在t時刻用戶vi和用戶vj創(chuàng)建的連接。Xt是社交網(wǎng)絡(luò)上所有用戶在連續(xù)時間屬性變化的集合,Yt是在社交網(wǎng)絡(luò)上所有用戶情感狀態(tài)改變的集合。假設(shè)用戶所處環(huán)境不變,即Xt=X[3],則用戶的情緒僅根據(jù)時間關(guān)聯(lián)因子函數(shù)和社會關(guān)聯(lián)因子函數(shù)而變化,所以用戶的情緒可以表述為式(1):
其中,h(Gt)為時間關(guān)聯(lián)因子函數(shù),它表示用戶的最近過去時刻t′情感狀態(tài)yt′對時刻t的情感狀態(tài)yt的影響程度。由于時間影響具有連續(xù)性,即t時刻前的m個時刻為t-1,t-2,…,t-m,根據(jù)MoodCast模型,之前狀態(tài)的時隔越短對情緒預(yù)測的影響越深刻,因此預(yù)測情感的變量主要是最近的過去狀態(tài),歸一化過去各時間的影響總和,如式(2)所示:
g(Gt)為社會關(guān)聯(lián)因子函數(shù),它表示用戶vj在t′時刻的情感y對用戶vi在t時刻情感的影響。Fowle、Whitfield和Christakis研究發(fā)現(xiàn)一個社會網(wǎng)絡(luò)中用戶傳播幸福三度分離,即三度之內(nèi)用戶比之外感到幸福的可能性更大,用戶的情緒影響只在兩階內(nèi)比較顯著,且影響因子的系數(shù)分別為18%、11%[6]。研究中忽略主體之間聯(lián)系的密切度,二值化為一階社交網(wǎng)絡(luò)用戶間聯(lián)系矩陣E(dij),
dij=0 i和j沒有聯(lián)系1 i和j有聯(lián)系
矩陣E(dij)平方后得二階社交網(wǎng)絡(luò)用戶間聯(lián)系矩陣E2(eij),
eij=0 i和j沒有二階聯(lián)系1 i和j有二階聯(lián)系(是“朋友的朋友”)
社會關(guān)系方面研究社交網(wǎng)絡(luò)中其他用戶vj對用戶vi的影響,而主對角線為自身對自身的影響,所以聯(lián)系矩陣的主對角線為0。社交網(wǎng)絡(luò)用戶有多個聯(lián)系人,我們對En×n進(jìn)行列標(biāo)準(zhǔn)化如式(3)所示:
假設(shè)用戶情緒是自身情緒在時間上的延續(xù)及社交關(guān)系對用戶情緒影響的和,則形式上用戶情感狀態(tài)的預(yù)測函數(shù)表示為:f(V,Et+1,Xt+1|Gt)→Yt+1
2 基于情感傳播的用戶廣告點擊行為預(yù)測模型
由于廣告是短文本,特征向量表示會異常稀疏,廣告文本去除停用詞后剩余更少,所以通過經(jīng)驗點擊率將剩余文本中的關(guān)鍵詞作為廣告標(biāo)簽。
設(shè)詞t在M條廣告中出現(xiàn)的次數(shù)為N(t),則t平均在每條廣告中出現(xiàn)N(t)|M次。設(shè)t在一條廣告a中出現(xiàn)的次數(shù)為n(t,a),則t在廣告a的重要性如式(8):
g(t,a)>1,與N(t)呈負(fù)相關(guān),與n(t,a)呈正相關(guān)(即詞t在廣告a中出現(xiàn)次數(shù)越多越重要)。廣告a中的所有詞為ti(i=1,2,…,n),讓ti按其比重g(t,a)排序,得到詞序列t(ki∈{1,2,…,n})
篩選后的詞序列t(ki∈{1,2,…,i})就是廣告a的標(biāo)簽,因為求詞比重和詞序列均與M無關(guān),所以可將M設(shè)為常整數(shù)。
P(1|t1),P(1|t2),…,P(1|tn)是估算出現(xiàn)的標(biāo)簽t1,t2,…,tn的廣告點擊率。根據(jù)貝葉斯公式,對任意詞t出現(xiàn)時,廣告被點擊的概率是:
式(10)中,表示廣告被點擊。
如式(12),(t1 t2…tn)的取值可大于等式后半部分,所以互作用不獨立。正如我們?nèi)粘Y徫?,影響因素眾多,除去主?dǎo)因素,剩余因素的影響比較小,而“折扣”、“清倉”標(biāo)簽的加強(qiáng)效果也不是累加的。所以添加修正因子函數(shù)關(guān)于i的減函數(shù)(tK,ti),得:
通過樣本針對每個標(biāo)簽t獲得?姿(t,i),再擬合i,用經(jīng)驗概率估算對所有標(biāo)簽t1,t2,t3,…生成矩陣M?琢,其中:
我們也可以設(shè)定閾值忽略點擊率很小的標(biāo)簽,最終可以估算?仔1(t1 t2…tn)=P(?棕1|t1 t2…tn)。
本文基于情感傳播機(jī)制的用戶行為分析主要是通過在每一次會話中用戶點擊廣告的概率,預(yù)測一次會話,主要受用戶的查詢和廣告特征的影響。用戶的查詢直接決定了用戶有沒有點擊廣告的意愿,廣告特征在用戶查看廣告條件下,影響廣告的點擊率。設(shè)s代表一次會話的特征向量,令查詢中的關(guān)鍵字為向量q,廣告特征(標(biāo)簽)為l,則s=(q,l)。設(shè)用戶點擊廣告為1,不點擊廣告為?棕0,則令:
其中,用最小二乘法擬合,因為q,l在點擊率中所占權(quán)重不確定性會使整個s估計聯(lián)合概率產(chǎn)生較大誤差。生活中我們的行為受情緒的影響,所以在廣告點擊模型中加入情緒因素:
其中yt為情緒預(yù)測模型,如式(13)所示。
本文采用指數(shù)形式加入情緒因素是因為情緒對點擊率的影響是整體的,會貫穿不同點擊率變化的過程。用系數(shù)來解決影響程度的不確定性。
3 仿真與驗證
用戶情感服從X~N(0,1)正態(tài)分布,設(shè)0.5為情感“中立”,大于0.5為情感“積極”,情感值越大越積極,小于0.5為情感“消極”,情感值越低越低落。同時引用正態(tài)分布的期望與方差來觀察情緒變化與波動程度對預(yù)測情緒的影響。
實驗主要驗證聯(lián)系人情感變化與波動程度對用戶未來情感的影響程度。首先,設(shè)定不同情感期望值來分析聯(lián)系人情感狀態(tài)對用戶情感的影響。圖1~圖3顯示不同情感狀態(tài)的用戶受聯(lián)系人情感變化的影響,所有曲線均趨于平緩。圖4綜合處于不同水平的自身情緒的實驗結(jié)果曲線看出聯(lián)系人的情緒變化有可能明顯改變用戶情緒。圖5通過改變不同水平情緒的聯(lián)系人的比重來觀察對自身情緒的影響程度,看出當(dāng)某水平情緒的聯(lián)系人所占比重較大時,可明顯改變自身的情緒水平。圖6設(shè)定不同情緒波動程度的聯(lián)系人來分析對自身情緒波動的影響,發(fā)現(xiàn)當(dāng)聯(lián)系人情緒方差較小時,自身情緒波動穩(wěn)定,當(dāng)聯(lián)系人情緒方差大于研究對象時,自身情緒波動變大。
上圖顯示該情感預(yù)測模型的有效性,而聯(lián)系人的情緒明顯影響自身的行為,本文在廣告點擊模型中加入情緒元素的影響:
假設(shè)影響水平參數(shù)a=1,a的取值為正數(shù)即可,把聯(lián)系人行為與自身之前行為設(shè)為正態(tài)變量,變量的期望值與聯(lián)系人情緒水平變化一致,因為聯(lián)系人行為明顯影響自身情緒預(yù)測值,上述實驗已證,考慮點擊率受多種獨立因素影響,設(shè)變量服從正態(tài)分布。
圖7、圖8表明了聯(lián)系人的不同情緒變化對用戶點擊率預(yù)測的影響,三條線的斜率都是正的,說明了社交網(wǎng)絡(luò)用戶情感對點擊率呈現(xiàn)正向影響。
4 結(jié)束語
本文將用戶情感的預(yù)測模型引入到用戶廣告點擊行為預(yù)測中,有效證明了用戶的情緒受到社會關(guān)聯(lián)因子的影響,而影響程度與社會關(guān)聯(lián)因子的取值有關(guān),并且情感對用戶行為有正向作用。但對用戶情感的細(xì)微變化研究不夠,未來擬對社交網(wǎng)絡(luò)中用戶情感傳播的微觀機(jī)理進(jìn)行深入研究。
參考文獻(xiàn)
[1] JACKSON P,MOULINIER I.Natural language processing foronline applications:text retrieval,extraction and categoriza-tion[M].John Benjamins Publishing Company,2007.
[2] FELDMAN R,SANGER J.The text mining handbook[M].Cambridge University Press.2006.
[3] 唐杰,賈珈,楊洋,等.社交網(wǎng)絡(luò)數(shù)據(jù)的情感計算[J].中國計算機(jī)學(xué)會通訊,2014,10(5):18-24.
[4] BERRY M,CASTELLANOS M.Survey of text mining II:clustering,classification and retrieval[J].Springer,2007.
[5] WHITFIELD J.The Secret of Happiness:Grinning on the Internet[J].Nature,2008.
[6] FOWLER J H,CHRISTAKIS N A.Dynamic spread of happiness in a large social network:longitudinal analysis over 20 years in the Framingham heart study[J].British Medical Journal,2008.
[7] CACIOPPO J T,F(xiàn)OWLER J H,CHRISTAKIS N A.Alone in the crowd:the structure and spread of loneliness in a large social network[J].Journal of Personality and Social Psychology,2009.
[8] Qi Yudong,Qu Ning,Xie Xiaofang.Web Information Systems and Mining(WISM).IEEE.2010.
[9] BOLLEN J,MAO H,ZENG X J.Twitter mood predicts the stock market.Computational Science,2011,2(1):1-8.
[10] GOYAL K A,SADASIVAM A.A critical analysis of rational& emotional approaches in car selling[J].Int’l J.Business Research and Management,2010,1(2):59-63.
[11] 楊琳.基于社交網(wǎng)絡(luò)的用戶行為分析及預(yù)測[D].西安:西安郵電大學(xué),2013.