国产真实交换配乱吟91,日本黄色小视频

二分網(wǎng)絡(luò)中基于譜聚類的協(xié)同推薦

來源：微型機與應(yīng)用2012年第22期

張思明，游天童

（福州大學數(shù)學與計算機學院，福建福州350108）

摘要： 提出一種基于譜聚類的協(xié)同推薦算法(SCBCF)。首先從用戶——項目二分網(wǎng)絡(luò)的單頂點投影中得到用戶之間的相似矩陣，然后對該矩陣應(yīng)用譜聚類算法，將用戶聚成k類，并將得到的聚類結(jié)果用于數(shù)據(jù)平滑和鄰居結(jié)點的選擇，最后基于最近鄰居集評分行為，對目標用戶產(chǎn)生推薦。在MovieLens上的實驗結(jié)果證明本文方法比傳統(tǒng)的協(xié)同過濾算法能更好地應(yīng)用于二分網(wǎng)絡(luò)的協(xié)同推薦。

關(guān)鍵詞： 無線網(wǎng)絡(luò) 協(xié)同過濾譜聚類推薦算法平均絕對偏差

Abstract：

Key words :

    隨著互聯(lián)網(wǎng)信息的不斷膨脹，信息過載也越來越嚴重，因而推薦系統(tǒng)越來越受到人們的重視。最簡單的推薦算法是全局排名方法GRM(Global Ranking Method)，該算法不考慮用戶的個性化需求，因而其推薦結(jié)果的質(zhì)量并不好。于是，考慮用戶偏好的協(xié)同過濾CF(Collaborative Filtering)推薦算法被廣為應(yīng)用，并迅速成為最受歡迎的推薦算法之一。協(xié)同過濾算法考慮用戶興趣，在用戶群中尋找目標用戶的相似用戶組，綜合這些相似用戶對某一項目的評價，預(yù)測目標用戶對此項目的興趣。
   目前，協(xié)同過濾算法主要分為兩類[1]：基于內(nèi)存的方法和基于模型的方法。基于內(nèi)存的方法在整個數(shù)據(jù)庫上執(zhí)行，從訓練數(shù)據(jù)庫中找出與目標用戶最相關(guān)的K個用戶，然后把他們的評分信息結(jié)合在一起對目標用戶的評分情況進行預(yù)測。主要有基于Pearson相關(guān)性的方法、基于向量相似度的方法等。這些算法主要有兩個缺點：易受稀疏的評分數(shù)據(jù)的影響；算法的可伸縮性差。與之相對，基于模型的方法并不直接使用單個用戶的評分信息，而是預(yù)先按照用戶評分的模式對用戶進行聚類，然后計算目標用戶與各個類別之間的相似度，找出最相似的類，用該類對某個項目的評分作為目標用戶對該項目的評分。主要的方法有貝葉斯網(wǎng)絡(luò)方法、聚類的方法?；谀Ｐ偷姆椒ㄔ诮⒕垲惖倪^程中較為耗時，而且對目標用戶做出的評分預(yù)測也存在準確性較低的問題。
   本文考慮將譜聚類的方法引入到協(xié)同過濾推薦算法中，對訓練集中的用戶進行譜聚類，結(jié)合基于內(nèi)存和基于模型這兩種方法的優(yōu)勢，而對目標用戶評分的預(yù)測任務(wù)則交由其最相關(guān)的用戶群組來完成。對于如何構(gòu)造譜聚類算法的輸入矩陣，本文將用戶——項目二分網(wǎng)絡(luò)投影到只包含用戶結(jié)點的單頂點網(wǎng)絡(luò)，構(gòu)造n×n的用戶相似矩陣。考慮到評分數(shù)據(jù)的稀疏性，本文利用類的信息對類中每個用戶未評分的項目進行數(shù)據(jù)平滑處理，從得到的N個聚類中找出與目標用戶最相似的一個或幾個類別作為最近鄰居候選集，再從候選集中找出最相似的K個用戶進入最近鄰居集，最后預(yù)測目標用戶對每個項目的評分。
1 相關(guān)工作
1.1 二分網(wǎng)絡(luò)的投影
   二分網(wǎng)絡(luò)單頂點投影[2]是研究二分網(wǎng)絡(luò)的一個重要方法。二分網(wǎng)絡(luò)投影成單頂點網(wǎng)絡(luò)的方式主要分為兩類：無權(quán)投影和加權(quán)投影。如圖1所示，圖1(b)、圖1(c)分別為圖1(a)關(guān)于X、Y的單頂點投影，單頂點網(wǎng)絡(luò)中的任意兩個點之間邊的權(quán)值大小為這兩點在二分網(wǎng)絡(luò)中的共同鄰居數(shù)。雖然單頂點網(wǎng)絡(luò)無法完全描述二分網(wǎng)絡(luò)的全部信息，但是這個只含一種結(jié)點的單結(jié)點網(wǎng)絡(luò)完美地保存了二分網(wǎng)絡(luò)中此類結(jié)點的拓撲關(guān)系，網(wǎng)絡(luò)中邊的權(quán)值構(gòu)成的關(guān)系矩陣可以用來表示同類結(jié)點之間的相似關(guān)系。
1.2 譜聚類
   近年來，譜聚類已經(jīng)成為一種廣受歡迎的現(xiàn)代聚類算法[3]。與傳統(tǒng)的聚類算法如K-means算法相比，這種算法效率更高，聚類結(jié)果更優(yōu)。譜聚類易于實現(xiàn)，可以用標準的線性代數(shù)的方法來高效解決。
   給定數(shù)據(jù)點集x1，x2，…，xn，以及所有點對xi和xj之間的相似度sij≥0所構(gòu)成的n×n的相似度矩陣S。聚類的目標是把這些點劃分進不同的類中，使得類內(nèi)點的相似度大，而類間點的相似度小。本文用一個相似圖G=(V，E)來表示上述信息，每個頂點vi表示數(shù)據(jù)點xi。如果sij≥0，那么頂點vi和vj之間存在邊，且其邊的權(quán)值即為wij。將二分網(wǎng)絡(luò)抽象成二分圖之后，可以這樣來闡述聚類問題：找到一個圖的劃分，使得不同組之間的邊的權(quán)值和小，而組內(nèi)邊的權(quán)值和大。
   譜聚類的衍化算法有很多種，此處介紹的是非正規(guī)化譜聚類算法，這也是本文在后面推薦算法中用到的。非正規(guī)化的譜聚類算法描述如下：


其中，分子為兩個用戶評分向量的內(nèi)積，分母為兩個用戶向量模的乘積。
   修正的余弦相似性（adjusted cosine）：修正的余弦相似性度量方法考慮不同用戶的評分尺度問題。設(shè)經(jīng)用戶i和用戶j共同評分的項目集合用Iij表示，Ii和Ij分別表示經(jīng)用戶i和用戶j評分的項目集合，則用戶i和用戶j之間的相似性sim(i，j)為：

3.3 實驗結(jié)果及分析
本文將聚類數(shù)設(shè)為20，分別取最近鄰居數(shù)為5、10、20。在實驗中，本文將傳統(tǒng)的基于Pearson相關(guān)系數(shù)的協(xié)同過濾算法作為基線方法進行了比較，并把該方法記為TCF。對比結(jié)果如表1所示。

從表1可以看出，協(xié)同過濾易受數(shù)據(jù)稀疏性的影響。本文的方法對訓練集的數(shù)據(jù)進行了平滑處理，從而減輕了這一因素的影響。同時，隨著最近鄰居數(shù)的增加，實驗結(jié)果也隨之改善。這是因為考慮更多相似用戶的評分行為，使目標用戶的預(yù)測評分趨于穩(wěn)定，從而使得預(yù)測值與實際值之間的偏差減小。本文提出的算法在很大程度上縮小了最近鄰居候選集的大小，與傳統(tǒng)的協(xié)同過濾算法相比，算法的伸縮性得到了提高，時間復(fù)雜度也進一步降低。
本文考慮將更加高效的譜聚類算法引入到協(xié)同過濾推薦中來，實驗結(jié)果證明本文提出的SCBCF算法比傳統(tǒng)的協(xié)同過濾推薦算法能更好地提高推薦系統(tǒng)的推薦質(zhì)量。在對用戶進行譜聚類時，本文發(fā)現(xiàn)聚類結(jié)果的各個類之間的用戶數(shù)并不均衡，這限制了預(yù)測能力的進一步提升，因此如何將用戶更準確地歸類將是未來的研究工作之一。
參考文獻
[1] SU X，KHOSHGOFTAAR T M.A survey of collaborative filtering techniques[J].Adv.Artif.Intell，2009(1)：421-425.
[2] ZHOU T，REN J，MEDO M，et al.Bipartite network projection and personal recommendation[J].Phys.Rev.E，2007，76(4)：046115-046121.
[3] LUXBURG U.A tutorial on spectral clustering[J].Statistics and Computing，2007，17(4)：395-416.
[4] SARWAR B，KARYPIS G，KONSTAN J，et al.Item-based collaborative ltering recommendation algorithms[C].In www10，Hong Kong，2001.
[5] XUE G R，LIN C，YANG Q，et al.Scalable collaborative filtering using cluster-based smoothing[C].In Proceedings of the ACM SIGIR Conference，Salvador，Brazil，2005：114-121.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容