引用格式:李雄清,李永,王駿飛,等. 基于改進(jìn)FP-growth的多品類打包推薦算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(3):47-53.
引言
多品類打包推薦作為現(xiàn)代推薦系統(tǒng)中的一類重要問(wèn)題,在服裝搭配[1]、電子商務(wù)[2]等眾多領(lǐng)域受到了廣泛關(guān)注。該問(wèn)題的核心在于如何挖掘多個(gè)不同類型產(chǎn)品間的關(guān)聯(lián)性并將其捆綁組合,以滿足用戶多樣化需求并提升用戶體驗(yàn)。隨著推薦系統(tǒng)處理數(shù)據(jù)量的增長(zhǎng),現(xiàn)有的多品類打包推薦面臨諸多挑戰(zhàn):一是即時(shí)響應(yīng)需求高,擬打包產(chǎn)品數(shù)據(jù)會(huì)根據(jù)現(xiàn)實(shí)情況實(shí)時(shí)更新,推薦算法需要能夠即時(shí)準(zhǔn)確地完成數(shù)據(jù)處理;二是數(shù)據(jù)規(guī)模龐大,需要推薦算法從海量數(shù)據(jù)中高效挖掘出產(chǎn)品間的關(guān)聯(lián)關(guān)系;三是數(shù)據(jù)稀疏性高,即數(shù)據(jù)中僅有少部分產(chǎn)品出現(xiàn)頻次很高,其余大部分產(chǎn)品的出現(xiàn)頻次極低,難以發(fā)掘出產(chǎn)品間關(guān)聯(lián)關(guān)系。
目前,應(yīng)用于多品類打包的方法主要包括貝葉斯個(gè)性化推薦[3]、基于序列的方法[4-5]、基于圖的方法[6-7]等。其中,貝葉斯個(gè)性化推薦[3]利用貝葉斯定理更新用戶對(duì)產(chǎn)品的偏好概率,能夠處理用戶點(diǎn)擊等隱式反饋?;谛蛄械姆椒▽⒋衫壈曌鳟a(chǎn)品序列,應(yīng)用序列模型實(shí)現(xiàn)產(chǎn)品建模及捆綁包生成。He等[2]應(yīng)用Transformer架構(gòu)實(shí)現(xiàn)了捆綁包的預(yù)生成,并通過(guò)多輪對(duì)話框架進(jìn)一步對(duì)捆綁包進(jìn)行優(yōu)化,能夠有效緩解交互稀疏性問(wèn)題。Wei等[4]通過(guò)引入類型的嵌入向量,提高了對(duì)不同類型產(chǎn)品的建模精度,并采用非自回歸方式并行計(jì)算,提高了生成效率?;趫D的方法利用圖結(jié)構(gòu)構(gòu)建產(chǎn)品間關(guān)聯(lián)關(guān)系,能夠?qū)崿F(xiàn)對(duì)復(fù)雜關(guān)系的精準(zhǔn)建模。Chang等[6]使用多個(gè)視圖分別構(gòu)建了產(chǎn)品、捆綁包和用戶的兩兩間關(guān)系,并設(shè)計(jì)了束搜索算法以實(shí)現(xiàn)捆綁包生成。Gong等[7]將打包推薦歸為圖的最大團(tuán)問(wèn)題,并提出了一種具有多頭自注意力編碼器和帶注意力機(jī)制解碼器的圖注意力網(wǎng)絡(luò),實(shí)現(xiàn)了較高的打包準(zhǔn)確率。
然而,上述方法模型訓(xùn)練時(shí)間較長(zhǎng),難以滿足部分推薦系統(tǒng)的即時(shí)響應(yīng)需求。例如,在航空旅游零售領(lǐng)域,機(jī)票、酒店等產(chǎn)品的價(jià)格、庫(kù)存等信息經(jīng)常發(fā)生變動(dòng),推薦系統(tǒng)需要能夠即時(shí)快速響應(yīng),根據(jù)更新后的數(shù)據(jù)即時(shí)產(chǎn)出新的推薦結(jié)果。關(guān)聯(lián)規(guī)則挖掘是一種基于頻繁項(xiàng)集的方法,能夠有效挖掘出單品類產(chǎn)品間隱藏的關(guān)聯(lián)關(guān)系,同時(shí)由于關(guān)聯(lián)規(guī)則可以存儲(chǔ)在數(shù)據(jù)庫(kù)中,在實(shí)際應(yīng)用中具有較高的推薦效率。Apriori算法[8]是關(guān)聯(lián)規(guī)則挖掘中最經(jīng)典的方法,其不足在于需要頻繁掃描數(shù)據(jù)庫(kù),運(yùn)算耗時(shí)長(zhǎng)。為解決這一問(wèn)題,Zaki等[9]提出了Eclat算法,加入倒排思想,降低了數(shù)據(jù)庫(kù)掃描次數(shù);Han等[10]提出了FP-growth算法,采用另一種更為高效的數(shù)據(jù)結(jié)構(gòu)FP-Tree,有效壓縮了數(shù)據(jù),提高了運(yùn)算效率。
不過(guò),在現(xiàn)實(shí)場(chǎng)景中,多品類產(chǎn)品數(shù)量龐大,包含不同品類產(chǎn)品的訂單數(shù)量較少,產(chǎn)品間關(guān)聯(lián)信息往往更為稀疏,導(dǎo)致Apriori、FP-growth等傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法需要海量訂單數(shù)據(jù)才能進(jìn)行有效挖掘。為此,本文提出一種基于改進(jìn)FP-growth的多品類打包推薦算法,將頻繁項(xiàng)集中的項(xiàng)從產(chǎn)品替換為產(chǎn)品屬性,從挖掘產(chǎn)品間的關(guān)聯(lián)規(guī)則轉(zhuǎn)變?yōu)橥诰虍a(chǎn)品屬性間的關(guān)聯(lián)規(guī)則,有效降低潛在規(guī)則數(shù)量,提高稀疏數(shù)據(jù)的挖掘效率,減少挖掘過(guò)程所需訂單數(shù)量。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://theprogrammingfactory.com/resource/share/2000006377
作者信息:
李雄清1,2,李永1,2,王駿飛1,2,臧凌1,2,劉德志1,3,
卞宇軒1,3,柴閱林1,3,李卓瀟 1,3,劉云韜1,3
(1.北京市民航大數(shù)據(jù)工程技術(shù)研究中心, 北京101318;
2.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司, 北京101318;
3.北京航空航天大學(xué), 北京100191)