摘 要: 對搜索引擎個(gè)性化服務(wù)技術(shù)中的用戶描述文檔、資源描述文檔、個(gè)性化推薦技術(shù)、個(gè)性化服務(wù)體系結(jié)構(gòu)以及該領(lǐng)域的主要研究成果進(jìn)行了綜述。通過比較現(xiàn)有原型系統(tǒng)的實(shí)現(xiàn)方式,詳細(xì)討論了實(shí)現(xiàn)個(gè)性化服務(wù)的關(guān)鍵技術(shù)。
關(guān)鍵詞: 數(shù)據(jù)挖掘;搜索引擎;個(gè)性化;網(wǎng)絡(luò)資源
隨著網(wǎng)絡(luò)的迅猛發(fā)展,互聯(lián)網(wǎng)已成為人們獲得信息的重要手段[1]。海量信息在給人們帶來方便的同時(shí)也帶來了許多問題。人們經(jīng)常要耗費(fèi)大量寶貴的時(shí)間在大量組織松散的信息中尋找有用信息,因此搜索引擎網(wǎng)上檢索信息的重要工具[2-3]越來越流行。如何準(zhǔn)確高效地為用戶提供需要的信息,是搜索引擎信息推薦研究的核心[4]。在搜索引擎中提供個(gè)性化服務(wù)技術(shù)就是針對這個(gè)問題而提出的,它為不同用戶提供不同的服務(wù),以滿足不同的需求。個(gè)性化服務(wù)通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,達(dá)到主動推薦的目的。個(gè)性化服務(wù)技術(shù)能充分提高站點(diǎn)的服務(wù)質(zhì)量和訪問效率,從而吸引更多的訪問者[5]。個(gè)性化服務(wù)系統(tǒng)根據(jù)其所采用的推薦技術(shù)可以分為2種:基于規(guī)則的系統(tǒng)和信息過濾系統(tǒng)。信息過濾系統(tǒng)又可分為基于內(nèi)容過濾的系統(tǒng)和協(xié)同過濾系統(tǒng)[6]。
基于規(guī)則的系統(tǒng),如IBM的WebSphere,其優(yōu)點(diǎn)是簡單、直接,缺點(diǎn)是規(guī)則質(zhì)量很難保證,而且不能動態(tài)更新。此外,系統(tǒng)隨著規(guī)則的數(shù)量增多,變得越來越難以管理。基于內(nèi)容過濾的系統(tǒng)有:PersonalWebWatcher,Letizia等[7],其優(yōu)點(diǎn)是簡單、有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)與用戶已有興趣相似的資源[8]。協(xié)同過濾系統(tǒng)如WebWatcher、GroupLens等,其優(yōu)點(diǎn)是能為用戶發(fā)現(xiàn)新的感興趣的信息,缺點(diǎn)是存在2個(gè)很難解決的問題:一個(gè)是稀疏性,亦即在系統(tǒng)使用初期,由于系統(tǒng)資源還未獲得足夠多的評價(jià),很難利用這些評價(jià)來發(fā)現(xiàn)類似的用戶;另一個(gè)是可擴(kuò)展性,隨著用戶和資源的增多,系統(tǒng)的性能會越來越低[9]。還有一些個(gè)性化服務(wù)系統(tǒng)如WebSIFT、FAB等,結(jié)合了基于內(nèi)容過濾和協(xié)同過濾2種技術(shù)。為了克服協(xié)同過濾的稀疏性問題,可以利用用戶瀏覽過的資源內(nèi)容預(yù)期用戶對其他資源的評價(jià),這樣可以增加資源評價(jià)的密度。利用這些評價(jià)再進(jìn)行協(xié)同過濾,從而提高協(xié)同過濾的性能[10]。
1 國內(nèi)外的研究現(xiàn)狀
為了實(shí)現(xiàn)個(gè)性化服務(wù),首先需要跟蹤和學(xué)習(xí)用戶的行為和興趣,并設(shè)計(jì)一種合適的表達(dá)方式。必須組織好資源,選取資源特征,采用合適的推薦方式。此外還必須考慮系統(tǒng)的體系結(jié)構(gòu),以及在服務(wù)器端、客戶端和代理端實(shí)現(xiàn)的利弊。
1.1 用戶描述文檔
在個(gè)性化服務(wù)系統(tǒng)來說,最重要的是用戶的參與,有必要為每個(gè)用戶建立一個(gè)用戶描述文檔(user profile)。用戶描述文檔用來刻畫用戶特征,在制定用戶描述文檔之前,需考慮下面幾個(gè)問題[11]:
(1)描述文檔有沒有現(xiàn)成的標(biāo)準(zhǔn)?
(2)收集什么數(shù)據(jù)?收集數(shù)據(jù)的目的?
(3)如何收集數(shù)據(jù)?根據(jù)什么信息源來收集?
(4)收集的數(shù)據(jù)如何組織?
(5)可自適應(yīng)用戶信息進(jìn)行更新?
在收集用戶的信息之前,首先需分析用戶愿意提供什么信息。用戶一般都很注意個(gè)人信息的保密性,調(diào)查顯示,83%的用戶愿意向Web站點(diǎn)提供自己的姓名、性別、年齡、教育背景和興趣,但大多數(shù)用戶不愿意提供私有、敏感的信息,如個(gè)人收入和信用卡號等。另一項(xiàng)調(diào)查顯示,39%的用戶愿意Web站點(diǎn)向其他Web站點(diǎn)共享自己的信息。
1.2 資源描述文檔
個(gè)性化服務(wù)系統(tǒng)處理的資源是由其應(yīng)用范圍確定的[12]。Anatagonomy、SmartPush應(yīng)用的范圍是報(bào)紙;GroupLens應(yīng)用的范圍是Usenet新聞;CiteSeer應(yīng)用的范圍是科技文檔;FireFly應(yīng)用的范圍是音樂和電影;Amazon.com、eBay應(yīng)用的范圍是電子商務(wù)。還有一些個(gè)性化服務(wù)系統(tǒng)用于導(dǎo)航、推薦、幫助或搜索,但它們所處理的資源不太相同,如Personal WebWatcher、WebWatcher、Letizia處理Web頁與鏈接;WebSIFT處理Web訪問日志;SiteSeer、PowerBookmark處理BookMark和相關(guān)文檔;Syskill & Webert、ProFusion處理從其他搜索引擎返回的查詢結(jié)果等。目前,個(gè)性化服務(wù)系統(tǒng)所處理的資源都是文本資源,F(xiàn)ireFly面向音樂和電影,其通過用戶評價(jià)喜歡的音樂家和電影來進(jìn)行協(xié)同過濾,所以仍然屬于文本處理。資源的描述與用戶的描述密切相關(guān),通常是用同樣的機(jī)制來表達(dá)用戶和資源。資源描述文檔可以用基于內(nèi)容的方法和基于分類的方法來表示[13]。
(1)基于內(nèi)容的方法
基于內(nèi)容的方法是從資源本身抽取信息來表示資源,使用最廣泛的方法是用加權(quán)關(guān)鍵詞矢量。這種方法的關(guān)鍵的問題是特征選取,特征選取要達(dá)到2個(gè)目標(biāo):一是選取最好的詞;二是選取最少的詞。要抽取特征詞條,需要利用停用詞列表對文檔進(jìn)行詞的切分,在完成詞切分后,接著除去文檔集中出現(xiàn)次數(shù)過少和過多的詞。經(jīng)過這些處理后,還需對特征進(jìn)行進(jìn)一步的選取,以降低特征的維數(shù)。常用的特征選擇方法有:信息熵(entropy)、信息增益(IG)、互信息(MI)、X2統(tǒng)計(jì)方法(CHI)、TF-IDF方法等。比較簡單的做法就是計(jì)算每個(gè)特征的熵值,選取具有最大熵值的若干個(gè)特征,即信息量最大的若干個(gè)特征;也可以計(jì)算每個(gè)特征的信息增量,即每個(gè)特征在文檔中出現(xiàn)前后的信息熵之差;還可以計(jì)算每個(gè)特征的互信息即每個(gè)特征和文檔的相關(guān)性;還可使用X2統(tǒng)計(jì)方法。以上的計(jì)算方法中,信息增量方法和X2統(tǒng)計(jì)方法表現(xiàn)較好,但這兩種方法的計(jì)算量比較大。在完成文檔特征的選取后,還要計(jì)算每個(gè)特征的權(quán)值,使用最廣泛的是TFIDF方法,其思想是出現(xiàn)次數(shù)越多且罕見的詞匯越能代表文檔內(nèi)容,具有很好的類別區(qū)分能力,適合用來分類。對某一特征,TF表示該特征在文檔中出現(xiàn)的次數(shù),某一特定詞語的IDF,可以由總文檔數(shù)目除以包含該詞語之文檔的數(shù)目,再將得到的商取對數(shù)。矢量模型的代價(jià)是比較大的,有時(shí)為了加快處理速度,可以只考慮TF一項(xiàng),矢量模型在只考慮TF,IDF以及沒有考慮TF和IDF時(shí)都使效果顯著下降。在資源描述中特征選擇非常重要,一個(gè)合理、有效的特征選擇方法可以在信息處理階段去掉數(shù)據(jù)中的冗余,降低特征空間的維數(shù),提高效率。
(2)基于分類的方法
基于分類的方法是利用類別來表示資源,在給定的分類體系下,根據(jù)內(nèi)容確定所屬類別的過程。對文檔資源進(jìn)行分類有利于將文檔推薦給對該類文檔感興趣的用戶。文本分類方法有多種,常用的有K近鄰法(kNN),樸素貝葉斯(Na?觙ve-Bayes)和支持向量機(jī)(Support Vector Machines)等。K近鄰法是一種簡單而常用的文本分類方法。該方法的思想是給定一個(gè)經(jīng)過分類的訓(xùn)練文檔集合,在對新文檔進(jìn)行分類時(shí),首先從訓(xùn)練文檔集合中找出與測試文檔最相關(guān)的k篇文檔,然后按照這k篇文檔所屬的類別來對該測試文檔進(jìn)行分類處理。樸素貝葉斯方法將概率模型應(yīng)用于自動分類,是種簡單而有效的分類方法。它的分類思想是使用貝葉斯公式通過先驗(yàn)概率和類別的條件概率來估計(jì)文檔對類別的后驗(yàn)概率。支持向量機(jī)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論,作為一種相對較新的通用機(jī)器學(xué)習(xí)方法,最近十年來成為自動分類領(lǐng)域的研究和應(yīng)用熱點(diǎn)。資源的類別可以預(yù)先定義,也可以利用聚類技術(shù)自動產(chǎn)生。許多研究表明:聚類在精度上非常依賴于文檔的數(shù)量,而且由聚類產(chǎn)生的類型可能對用戶來說是毫無意義的,因此可以先使用手工選定的類型來分類文檔,在沒有對應(yīng)的候選類型或需要進(jìn)一步劃分某類型時(shí),才使用聚類產(chǎn)生的類型。
1.3 個(gè)性化推薦
個(gè)性化推薦目前大多采用基于規(guī)則的技術(shù)、基于內(nèi)容過濾的技術(shù)和協(xié)同過濾技術(shù)。
(1)基于規(guī)則的技術(shù)
規(guī)則可以由用戶定制,也可以使用基于關(guān)聯(lián)規(guī)則的挖掘技術(shù)來發(fā)現(xiàn),基于規(guī)則的推薦信息依賴于規(guī)則的質(zhì)量和數(shù)量,其缺點(diǎn)是隨著規(guī)則的數(shù)量增多,系統(tǒng)將變得越來越難以管理。規(guī)則本質(zhì)上是一個(gè)If-Then語句,它可以利用用戶靜態(tài)屬性或動態(tài)信息來建立。為了能夠使用規(guī)則來推薦資源,用戶描述文檔和資源描述文檔需用相同的關(guān)鍵詞集合進(jìn)行描述。信息推薦時(shí)的工作過程為:首先根據(jù)當(dāng)前用戶閱讀過的感興趣的內(nèi)容,通過規(guī)則推算出用戶還沒有閱讀過的感興趣的內(nèi)容,然后根據(jù)規(guī)則的支持度,對這些內(nèi)容排序并展現(xiàn)給用戶?;谝?guī)則的系統(tǒng)組成如圖1所示。
關(guān)鍵詞層提供上層描述所需的關(guān)鍵詞,并定義關(guān)鍵詞間的依賴關(guān)系,該層可以定義靜態(tài)屬性的個(gè)性化規(guī)則。描述層定義用戶描述和資源描述,由于描述層是針對具體的用戶和資源,所以描述層的個(gè)性化規(guī)則是動態(tài)變化的。用戶接口層提供個(gè)性化服務(wù),根據(jù)下面2層定義的個(gè)性化規(guī)則將滿足規(guī)則的資源推薦給用戶。
(2)信息過濾技術(shù)
信息過濾技術(shù)可分為基于內(nèi)容過濾的技術(shù)和協(xié)同過濾技術(shù)[15-16]?;趦?nèi)容過濾的系統(tǒng),如PersonalWebWatcher、Letizia等,它們利用資源與用戶興趣的相似性來過濾信息。其優(yōu)點(diǎn)是簡單、有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源。協(xié)同過濾系統(tǒng),如WebWatcher、GroupLens等,它們利用用戶之間的相似性來過濾信息,優(yōu)點(diǎn)是能為用戶發(fā)現(xiàn)新的感興趣的信息,缺點(diǎn)是存在2個(gè)很難解決的問題。一個(gè)是稀疏性,即在系統(tǒng)使用初期由于系統(tǒng)資源還未獲得足夠多的評價(jià),系統(tǒng)很難利用這些評價(jià)來發(fā)現(xiàn)相似的用戶;另一個(gè)是可擴(kuò)展性,即隨著系統(tǒng)用戶和資源的增多,系統(tǒng)的性能會越來越低。還有一些個(gè)性化服務(wù)系統(tǒng),如WebSIFT、FAB等,同時(shí)采用了基于內(nèi)容過濾和協(xié)同過濾這2種技術(shù)。這2種過濾技術(shù)結(jié)合可以克服各自的一些缺點(diǎn),利用用戶瀏覽預(yù)期用戶對其他資源的評價(jià),增加資源評價(jià)的密度克服協(xié)同過濾的稀疏性問題,利用這些評價(jià)再進(jìn)行協(xié)同過濾,從而提高協(xié)同過濾的性能。用戶與資源的關(guān)系數(shù)據(jù)可以用m×n階矩陣來表示,m代表用戶數(shù)量,n代表項(xiàng)目數(shù)量,Rij代表第i個(gè)用戶對項(xiàng)目j的評分。用戶資源信息建模如表1。
1.4 個(gè)性化服務(wù)體系結(jié)構(gòu)
基于Web的個(gè)性化服務(wù)體系結(jié)構(gòu)與用戶描述文檔分布的位置有很大關(guān)系。用戶描述文檔可以存儲在服務(wù)器端、客戶端、代理端[17-18]。大部分個(gè)性化服務(wù)系統(tǒng)的用戶描述文檔都存放在服務(wù)器端,如Syskill&Webert、Letizia、GroupLens、Anatagonomy等。優(yōu)點(diǎn)是可以避免用戶描述文檔的傳輸,除了支持基于內(nèi)容的過濾,還可以支持協(xié)同過濾;缺點(diǎn)是用戶描述文檔不能在不同的Web應(yīng)用之間共享。也有一些系統(tǒng)的用戶描述文檔是存儲在客戶端的,如PointCast Network,這種體系的個(gè)性化服務(wù)可以在服務(wù)器端實(shí)現(xiàn),也可以在客戶端實(shí)現(xiàn)。它的優(yōu)點(diǎn)是用戶描述文檔可以在不同的應(yīng)用之間共享,缺點(diǎn)是只能進(jìn)行基于內(nèi)容的過濾。還有一些系統(tǒng)的用戶描述文檔是存儲在代理上的,如Personal WebWatcher、PVA等,這種體系的個(gè)性化服務(wù)可以在服務(wù)器端實(shí)現(xiàn),也可以在代理上實(shí)現(xiàn)。其優(yōu)點(diǎn)是不僅可以支持基于內(nèi)容的過濾和協(xié)同過濾,還支持用戶描述文檔在不同Web應(yīng)用之間的共享;缺點(diǎn)是可能需要傳輸用戶描述文檔。
2 關(guān)鍵問題
(1)綜合各系統(tǒng)優(yōu)點(diǎn)
基于規(guī)則的系統(tǒng)其優(yōu)點(diǎn)是簡單、直接,缺點(diǎn)是規(guī)則質(zhì)量很難保證,不能動態(tài)更新。此外,隨著規(guī)則的數(shù)量增多,系統(tǒng)將變得越來越難以管理?;趦?nèi)容過濾的系統(tǒng)其優(yōu)點(diǎn)是簡單、有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,而且不能為用戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和用戶已有興趣相似的資源。基于協(xié)同過濾系統(tǒng)的優(yōu)點(diǎn)是能為用戶發(fā)現(xiàn)新的感興趣的信息,缺點(diǎn)是它的稀疏性和可擴(kuò)展性,結(jié)合基于內(nèi)容的過濾和協(xié)同過濾這兩種技術(shù)可以克服各自的缺點(diǎn),可以利用用戶的瀏覽記錄推測用戶對其他資源的評價(jià),增加資源評價(jià)的密度,來克服協(xié)同過濾的稀疏性問題。利用這些評價(jià)進(jìn)行協(xié)同過濾,從而提高協(xié)同過濾的性能。
(2)用戶描述文檔的存放
用戶描述文檔可以存放在服務(wù)器端、客戶端、代理端,大部分個(gè)性化服務(wù)系統(tǒng)的用戶描述文檔都存放在服務(wù)器端。其優(yōu)點(diǎn)是可以避免用戶描述文檔的傳輸,支持基于內(nèi)容的過濾和協(xié)同過濾;缺點(diǎn)是用戶描述文檔不能在不同的Web應(yīng)用之間共享。用戶描述文檔存儲在客戶端,優(yōu)點(diǎn)是用戶描述文檔可以在不同的Web應(yīng)用之間共享,缺點(diǎn)是只能進(jìn)行基于內(nèi)容的過濾。用戶描述文檔存儲在代理上,優(yōu)點(diǎn)是不僅可以支持基于內(nèi)容的過濾和協(xié)同過濾,還支持用戶描述文檔在不同的Web應(yīng)用之間共享,缺點(diǎn)是需要傳輸用戶描述文檔。
(3)為推薦文檔評分和排名
個(gè)性化服務(wù)技術(shù)是目前非常流行的一種技術(shù),本文分析了各種具有代表性的個(gè)性化服務(wù)系統(tǒng),并在此基礎(chǔ)上詳細(xì)描述了建立個(gè)性化服務(wù)的關(guān)鍵技術(shù)。要將個(gè)性化服務(wù)引入搜索引擎中,面對日益增長的Web信息,要滿足不同背景、不同目的和不同時(shí)期的查詢請求,必須針對不同用戶提供不同的服務(wù)才能真正解決這個(gè)問題。個(gè)性化服務(wù)技術(shù)在搜索引擎上仍有很多值得研究和探討的問題。
參考文獻(xiàn)
[1] PRETSCHNER A. Ontology based personalized search[MS. Thesis]. Lawrence, KS: University of Kansas, 1999.
[2] LEE D L, CHUANG H, SEAMONS K. Document ranking and the vector-space model. IEEE Softwar, 1997,14(2).
[3] XUE Gui Rong, LIN Chen Xi. Scalable collaborative filtering using cluster-based. In: Hong Kong University of Science and Technology, ACM, 2005.
[4] Jun Wang, Arjen P. de Vries, Marce J. T. Reinders1: unifying user-based and item-based collaborative filtering approaches by similarity fusion. Faculty of Electrical Engineering, Mathematics and Computer Science, Delft University of Technology, ACM, 2006.
[5] 曾春,邢春曉,周立柱.基于內(nèi)容過濾的個(gè)性化搜索算法[J].軟件學(xué)報(bào),2003,14(5):999-1004.
[6] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002,13(10):1952-1961.
[7] 劉均,李人厚.一種面向個(gè)性化協(xié)同學(xué)習(xí)的任務(wù)生成方法[J].軟件學(xué)報(bào),2006,17(1).
[8] 陳健,印鑒.基于影響集的協(xié)同過濾推薦算法.軟件學(xué)報(bào)[J],2007,18(7).
[9] 韓立新,陳貴海,謝立.一個(gè)面向Internet的個(gè)性化信息檢索系統(tǒng)模型[J].電子學(xué)報(bào),2002,30(2).
[10] 邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2007,44(2).
[11] 張鋒.使用BP神經(jīng)網(wǎng)絡(luò)緩解協(xié)同過濾推薦算法的稀疏性問題[J].計(jì)算機(jī)研究與發(fā)展,2006,43(4).
[12] SRIVASTAVA J, COOLEY R, DESHPANDE M, et al. Web usage mining: discovery and applications of usage patterns from Web data. In:Fayyad, U., ed. Proceedings of the ACM SIGKDD Explorations. New York: ACM Press, 2000,1(2):12-23.
[13] 趙亮,胡乃靜,張守志.個(gè)性化推薦算法設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2002,39(8):986-991.
[14] 汪曉巖,胡慶生.面向Internet的個(gè)性化智能信息檢索[J].計(jì)算機(jī)研究與發(fā)展,1999,36(9):1039-1046.
[15] VOLOKH E. Personalization and privacy[J]. Communications of the ACM, 2000,43(8):84-88.
[16] WU Y H, CHEN Y C, CHEN A L P. Enabling personalized recommendation on the web based on user interests and behaviors. In:Klas, W., ed. Proceedings of the 11th International Workshop on Research Issues in Data Engineering. Los Alamitos, CA: IEEE CS Press, 2001.
[17] 沈云斐,沈國強(qiáng),蔣麗華,等.基于時(shí)效性的Web頁面?zhèn)€性化推薦模型的研究[J].計(jì)算機(jī)工程,2006,32(13):80-81,99.
[18] 秦國,杜小勇.基于用戶層次信息的協(xié)同推薦算法[J].計(jì)算機(jī)科學(xué),2004,31(10):138-140.