文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2015.11.039
中文引用格式: 馬力,王蕓,楊琳. 基于MoodCast模型的用戶行為分析與預(yù)測(cè)[J].電子技術(shù)應(yīng)用,2015,41(11):140-143.
英文引用格式: Ma Li,Wang Yun,Yang Lin. Analysis and prediction of user behavior based on MoodCast model[J].Application of Electronic Technique,2015,41(11):140-143.
0 引言
情感是人類對(duì)客觀外界事物態(tài)度的體驗(yàn),人們?cè)谏缃痪W(wǎng)絡(luò)中的行為直接反映其在真實(shí)世界中的活動(dòng)和情感。這促使傳統(tǒng)意義上的主觀心理學(xué)概念的情感在網(wǎng)絡(luò)空間和人類社會(huì)中顯現(xiàn)出一致性、通用性和重要性,成為影響人類個(gè)體、社會(huì)及網(wǎng)絡(luò)社會(huì)智能活動(dòng)的重要因素。
目前大部分系統(tǒng)只是支持網(wǎng)絡(luò)宏觀分析(如網(wǎng)絡(luò)結(jié)構(gòu)分析和可視化分析),而對(duì)網(wǎng)絡(luò)微觀分析(如個(gè)體用戶行為分析、影響力分析等)卻鮮有研究。情感動(dòng)態(tài)分析目前主要研究集中在心理學(xué)和社會(huì)學(xué)領(lǐng)域,重點(diǎn)關(guān)注人類情感的動(dòng)因,包括某種具體的情感是如何演化形成、情感隨時(shí)間的動(dòng)態(tài)變化、或者朋友們之間的情感如何相互影響[3]。文獻(xiàn)[6]研究了幸福感在社交網(wǎng)絡(luò)中的動(dòng)態(tài)傳播,揭示了在社交網(wǎng)絡(luò)中,幸福感最多通過(guò)三層聯(lián)系在人群中進(jìn)行傳播。文獻(xiàn)[7]在此基礎(chǔ)上對(duì)孤獨(dú)感的動(dòng)因進(jìn)行了更進(jìn)一步的研究,指出在社交網(wǎng)絡(luò)中孤獨(dú)感有著和幸福感相似的傳播模式。但這些工作中的絕大部分只定性地在一定規(guī)模的社交網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行統(tǒng)計(jì)分析及測(cè)試驗(yàn)證,缺乏對(duì)社交網(wǎng)絡(luò)情感及其動(dòng)態(tài)演變的定量計(jì)算。為此,本文將用戶情感傳播因素應(yīng)用到社交網(wǎng)絡(luò)中,研究情感主觀范疇與網(wǎng)絡(luò)行為有機(jī)相融合的計(jì)算建模問(wèn)題,為準(zhǔn)確度量人類的情感提供新的技術(shù)途徑。
1 基于MoodCast模型的情感分析與預(yù)測(cè)
動(dòng)態(tài)因子圖情感預(yù)測(cè)模型(Emotion Prediction via Dynamic Continuous Factor Graph Model,MoodCast)是由清華大學(xué)教授唐杰提出,主要用于定量計(jì)算社交網(wǎng)絡(luò)中用戶的情感以及分析預(yù)測(cè)其行為分析。MoodCast是結(jié)合用戶的動(dòng)態(tài)狀態(tài)信息(如地點(diǎn)、活動(dòng)和屬性)和用戶的社會(huì)關(guān)系對(duì)其情感的影響而建立的模型。MoodCast中將主體情緒的變化建模成動(dòng)態(tài)連續(xù)網(wǎng)絡(luò)Gt的函數(shù):Gt=(V,Et,Xt,Yt)。其中V是用戶的集合,假設(shè)有n個(gè)用戶,e∈Et是指在t時(shí)刻用戶vi和用戶vj創(chuàng)建的連接。Xt是社交網(wǎng)絡(luò)上所有用戶在連續(xù)時(shí)間屬性變化的集合,Yt是在社交網(wǎng)絡(luò)上所有用戶情感狀態(tài)改變的集合。假設(shè)用戶所處環(huán)境不變,即Xt=X[3],則用戶的情緒僅根據(jù)時(shí)間關(guān)聯(lián)因子函數(shù)和社會(huì)關(guān)聯(lián)因子函數(shù)而變化,所以用戶的情緒可以表述為式(1):
其中,h(Gt)為時(shí)間關(guān)聯(lián)因子函數(shù),它表示用戶的最近過(guò)去時(shí)刻t′情感狀態(tài)yt′對(duì)時(shí)刻t的情感狀態(tài)yt的影響程度。由于時(shí)間影響具有連續(xù)性,即t時(shí)刻前的m個(gè)時(shí)刻為t-1,t-2,…,t-m,根據(jù)MoodCast模型,之前狀態(tài)的時(shí)隔越短對(duì)情緒預(yù)測(cè)的影響越深刻,因此預(yù)測(cè)情感的變量主要是最近的過(guò)去狀態(tài),歸一化過(guò)去各時(shí)間的影響總和,如式(2)所示:
g(Gt)為社會(huì)關(guān)聯(lián)因子函數(shù),它表示用戶vj在t′時(shí)刻的情感y對(duì)用戶vi在t時(shí)刻情感的影響。Fowle、Whitfield和Christakis研究發(fā)現(xiàn)一個(gè)社會(huì)網(wǎng)絡(luò)中用戶傳播幸福三度分離,即三度之內(nèi)用戶比之外感到幸福的可能性更大,用戶的情緒影響只在兩階內(nèi)比較顯著,且影響因子的系數(shù)分別為18%、11%[6]。研究中忽略主體之間聯(lián)系的密切度,二值化為一階社交網(wǎng)絡(luò)用戶間聯(lián)系矩陣E(dij),
dij=0 i和j沒(méi)有聯(lián)系1 i和j有聯(lián)系
矩陣E(dij)平方后得二階社交網(wǎng)絡(luò)用戶間聯(lián)系矩陣E2(eij),
eij=0 i和j沒(méi)有二階聯(lián)系1 i和j有二階聯(lián)系(是“朋友的朋友”)
社會(huì)關(guān)系方面研究社交網(wǎng)絡(luò)中其他用戶vj對(duì)用戶vi的影響,而主對(duì)角線為自身對(duì)自身的影響,所以聯(lián)系矩陣的主對(duì)角線為0。社交網(wǎng)絡(luò)用戶有多個(gè)聯(lián)系人,我們對(duì)En×n進(jìn)行列標(biāo)準(zhǔn)化如式(3)所示:
假設(shè)用戶情緒是自身情緒在時(shí)間上的延續(xù)及社交關(guān)系對(duì)用戶情緒影響的和,則形式上用戶情感狀態(tài)的預(yù)測(cè)函數(shù)表示為:f(V,Et+1,Xt+1|Gt)→Yt+1
2 基于情感傳播的用戶廣告點(diǎn)擊行為預(yù)測(cè)模型
由于廣告是短文本,特征向量表示會(huì)異常稀疏,廣告文本去除停用詞后剩余更少,所以通過(guò)經(jīng)驗(yàn)點(diǎn)擊率將剩余文本中的關(guān)鍵詞作為廣告標(biāo)簽。
設(shè)詞t在M條廣告中出現(xiàn)的次數(shù)為N(t),則t平均在每條廣告中出現(xiàn)N(t)|M次。設(shè)t在一條廣告a中出現(xiàn)的次數(shù)為n(t,a),則t在廣告a的重要性如式(8):
g(t,a)>1,與N(t)呈負(fù)相關(guān),與n(t,a)呈正相關(guān)(即詞t在廣告a中出現(xiàn)次數(shù)越多越重要)。廣告a中的所有詞為ti(i=1,2,…,n),讓ti按其比重g(t,a)排序,得到詞序列t(ki∈{1,2,…,n})
篩選后的詞序列t(ki∈{1,2,…,i})就是廣告a的標(biāo)簽,因?yàn)榍笤~比重和詞序列均與M無(wú)關(guān),所以可將M設(shè)為常整數(shù)。
P(1|t1),P(1|t2),…,P(1|tn)是估算出現(xiàn)的標(biāo)簽t1,t2,…,tn的廣告點(diǎn)擊率。根據(jù)貝葉斯公式,對(duì)任意詞t出現(xiàn)時(shí),廣告被點(diǎn)擊的概率是:
式(10)中,表示廣告被點(diǎn)擊。
如式(12),(t1 t2…tn)的取值可大于等式后半部分,所以互作用不獨(dú)立。正如我們?nèi)粘Y?gòu)物,影響因素眾多,除去主導(dǎo)因素,剩余因素的影響比較小,而“折扣”、“清倉(cāng)”標(biāo)簽的加強(qiáng)效果也不是累加的。所以添加修正因子函數(shù)關(guān)于i的減函數(shù)(tK,ti),得:
通過(guò)樣本針對(duì)每個(gè)標(biāo)簽t獲得?姿(t,i),再擬合i,用經(jīng)驗(yàn)概率估算對(duì)所有標(biāo)簽t1,t2,t3,…生成矩陣M?琢,其中:
我們也可以設(shè)定閾值忽略點(diǎn)擊率很小的標(biāo)簽,最終可以估算?仔1(t1 t2…tn)=P(?棕1|t1 t2…tn)。
本文基于情感傳播機(jī)制的用戶行為分析主要是通過(guò)在每一次會(huì)話中用戶點(diǎn)擊廣告的概率,預(yù)測(cè)一次會(huì)話,主要受用戶的查詢和廣告特征的影響。用戶的查詢直接決定了用戶有沒(méi)有點(diǎn)擊廣告的意愿,廣告特征在用戶查看廣告條件下,影響廣告的點(diǎn)擊率。設(shè)s代表一次會(huì)話的特征向量,令查詢中的關(guān)鍵字為向量q,廣告特征(標(biāo)簽)為l,則s=(q,l)。設(shè)用戶點(diǎn)擊廣告為1,不點(diǎn)擊廣告為?棕0,則令:
其中,用最小二乘法擬合,因?yàn)閝,l在點(diǎn)擊率中所占權(quán)重不確定性會(huì)使整個(gè)s估計(jì)聯(lián)合概率產(chǎn)生較大誤差。生活中我們的行為受情緒的影響,所以在廣告點(diǎn)擊模型中加入情緒因素:
其中yt為情緒預(yù)測(cè)模型,如式(13)所示。
本文采用指數(shù)形式加入情緒因素是因?yàn)榍榫w對(duì)點(diǎn)擊率的影響是整體的,會(huì)貫穿不同點(diǎn)擊率變化的過(guò)程。用系數(shù)來(lái)解決影響程度的不確定性。
3 仿真與驗(yàn)證
用戶情感服從X~N(0,1)正態(tài)分布,設(shè)0.5為情感“中立”,大于0.5為情感“積極”,情感值越大越積極,小于0.5為情感“消極”,情感值越低越低落。同時(shí)引用正態(tài)分布的期望與方差來(lái)觀察情緒變化與波動(dòng)程度對(duì)預(yù)測(cè)情緒的影響。
實(shí)驗(yàn)主要驗(yàn)證聯(lián)系人情感變化與波動(dòng)程度對(duì)用戶未來(lái)情感的影響程度。首先,設(shè)定不同情感期望值來(lái)分析聯(lián)系人情感狀態(tài)對(duì)用戶情感的影響。圖1~圖3顯示不同情感狀態(tài)的用戶受聯(lián)系人情感變化的影響,所有曲線均趨于平緩。圖4綜合處于不同水平的自身情緒的實(shí)驗(yàn)結(jié)果曲線看出聯(lián)系人的情緒變化有可能明顯改變用戶情緒。圖5通過(guò)改變不同水平情緒的聯(lián)系人的比重來(lái)觀察對(duì)自身情緒的影響程度,看出當(dāng)某水平情緒的聯(lián)系人所占比重較大時(shí),可明顯改變自身的情緒水平。圖6設(shè)定不同情緒波動(dòng)程度的聯(lián)系人來(lái)分析對(duì)自身情緒波動(dòng)的影響,發(fā)現(xiàn)當(dāng)聯(lián)系人情緒方差較小時(shí),自身情緒波動(dòng)穩(wěn)定,當(dāng)聯(lián)系人情緒方差大于研究對(duì)象時(shí),自身情緒波動(dòng)變大。
上圖顯示該情感預(yù)測(cè)模型的有效性,而聯(lián)系人的情緒明顯影響自身的行為,本文在廣告點(diǎn)擊模型中加入情緒元素的影響:
假設(shè)影響水平參數(shù)a=1,a的取值為正數(shù)即可,把聯(lián)系人行為與自身之前行為設(shè)為正態(tài)變量,變量的期望值與聯(lián)系人情緒水平變化一致,因?yàn)槁?lián)系人行為明顯影響自身情緒預(yù)測(cè)值,上述實(shí)驗(yàn)已證,考慮點(diǎn)擊率受多種獨(dú)立因素影響,設(shè)變量服從正態(tài)分布。
圖7、圖8表明了聯(lián)系人的不同情緒變化對(duì)用戶點(diǎn)擊率預(yù)測(cè)的影響,三條線的斜率都是正的,說(shuō)明了社交網(wǎng)絡(luò)用戶情感對(duì)點(diǎn)擊率呈現(xiàn)正向影響。
4 結(jié)束語(yǔ)
本文將用戶情感的預(yù)測(cè)模型引入到用戶廣告點(diǎn)擊行為預(yù)測(cè)中,有效證明了用戶的情緒受到社會(huì)關(guān)聯(lián)因子的影響,而影響程度與社會(huì)關(guān)聯(lián)因子的取值有關(guān),并且情感對(duì)用戶行為有正向作用。但對(duì)用戶情感的細(xì)微變化研究不夠,未來(lái)擬對(duì)社交網(wǎng)絡(luò)中用戶情感傳播的微觀機(jī)理進(jìn)行深入研究。
參考文獻(xiàn)
[1] JACKSON P,MOULINIER I.Natural language processing foronline applications:text retrieval,extraction and categoriza-tion[M].John Benjamins Publishing Company,2007.
[2] FELDMAN R,SANGER J.The text mining handbook[M].Cambridge University Press.2006.
[3] 唐杰,賈珈,楊洋,等.社交網(wǎng)絡(luò)數(shù)據(jù)的情感計(jì)算[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2014,10(5):18-24.
[4] BERRY M,CASTELLANOS M.Survey of text mining II:clustering,classification and retrieval[J].Springer,2007.
[5] WHITFIELD J.The Secret of Happiness:Grinning on the Internet[J].Nature,2008.
[6] FOWLER J H,CHRISTAKIS N A.Dynamic spread of happiness in a large social network:longitudinal analysis over 20 years in the Framingham heart study[J].British Medical Journal,2008.
[7] CACIOPPO J T,F(xiàn)OWLER J H,CHRISTAKIS N A.Alone in the crowd:the structure and spread of loneliness in a large social network[J].Journal of Personality and Social Psychology,2009.
[8] Qi Yudong,Qu Ning,Xie Xiaofang.Web Information Systems and Mining(WISM).IEEE.2010.
[9] BOLLEN J,MAO H,ZENG X J.Twitter mood predicts the stock market.Computational Science,2011,2(1):1-8.
[10] GOYAL K A,SADASIVAM A.A critical analysis of rational& emotional approaches in car selling[J].Int’l J.Business Research and Management,2010,1(2):59-63.
[11] 楊琳.基于社交網(wǎng)絡(luò)的用戶行為分析及預(yù)測(cè)[D].西安:西安郵電大學(xué),2013.