數(shù)據(jù)中心最新文章

一種改進(jìn)的缺失數(shù)據(jù)協(xié)同過(guò)濾推薦算法

協(xié)同過(guò)濾推薦算法是推薦系統(tǒng)研究的熱點(diǎn),近年來(lái),在亞馬遜、淘寶等商業(yè)系統(tǒng)中獲得應(yīng)用。在實(shí)際應(yīng)用過(guò)程中,協(xié)同過(guò)濾推薦面臨數(shù)據(jù)稀疏和準(zhǔn)確性低的問(wèn)題。作為推薦基礎(chǔ)的用戶(hù)產(chǎn)品(項(xiàng)目)矩陣通常非常稀疏(存在大量缺失數(shù)據(jù)),從而導(dǎo)致推薦結(jié)果不準(zhǔn)確。文章試圖在缺失數(shù)據(jù)情況下提高協(xié)同過(guò)濾推薦的準(zhǔn)確性,聚焦以下兩個(gè)方面:(1)用戶(hù)相似度、產(chǎn)品(項(xiàng)目)相似度計(jì)算;(2)缺失數(shù)據(jù)預(yù)測(cè)。首先,用增強(qiáng)的皮爾森相關(guān)系數(shù)算法,通過(guò)增加參數(shù),對(duì)相似度進(jìn)行修正,提高用戶(hù)、產(chǎn)品(項(xiàng)目)相似度計(jì)算的準(zhǔn)確率。接著,提出一種同時(shí)考慮了用戶(hù)和產(chǎn)品(項(xiàng)目)特征的缺失數(shù)據(jù)預(yù)測(cè)算法。算法中,對(duì)用戶(hù)和產(chǎn)品(項(xiàng)目)分別設(shè)置相似度閾值,只有當(dāng)用戶(hù)或產(chǎn)品(項(xiàng)目)相似度達(dá)到閾值時(shí),才進(jìn)行缺失數(shù)據(jù)預(yù)測(cè)。預(yù)測(cè)過(guò)程中,同時(shí)使用用戶(hù)和產(chǎn)品(項(xiàng)目)相似度信息,以提高準(zhǔn)確度。在模型基礎(chǔ)上,用淘寶移動(dòng)客戶(hù)端的數(shù)據(jù)集進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所提算法比其他推薦算法要優(yōu)異,對(duì)數(shù)據(jù)稀疏性的魯棒性要高。

發(fā)表于:9/26/2016