摘 要: 針對當前元搜索引擎存在的問題,提出一種個性化元搜索結果整合算法。首先對成員搜索引擎根據相應條件設定權值,對各成員搜索引擎得到的搜索結果按貢獻量加權分塊排序,根據用戶檢索詞條與興趣庫和元搜索結果的文本相關度對塊內搜索結果進行整合排序。實驗結果表明,該算法能夠滿足不同用戶的個性化需求,在保證了搜索結果查全率的同時提高了查準率,很大程度上改善了用戶檢索效果和效率。
關鍵詞: 個性化元搜索;多重排序;權重;排序整合;相關度
隨著Internet的迅速普及,網絡上的信息量成指數增長。由于網絡上的信息是海量和無組織的,具有分布散、動態(tài)變化、結構復雜等特點,人們在互聯網上檢索信息主要依靠搜索引擎。單個搜索引擎檢索機制、范圍、算法等的不同,導致同樣一個檢索請求在不同搜索引擎中的查詢結果的重復率不足34%[1]。LAWRENCE S[2]等研究表明,任何一個搜索引擎索引的Web頁面都不超過頁面總數的1/3。因此,要想獲得一個全面、準確、符合用戶需求的搜索結果,就必須反復調用多個搜索引擎進行搜索。
如何在無比龐大的網絡信息庫中更快速、更準確地找到能夠滿足用戶所需的信息,已經成為Web搜索領域研究的熱點問題。搜索引擎的優(yōu)劣、成功與否完全由用戶對其搜索結果的滿意度決定。目前存在的搜索引擎實用性不斷加強,在一定程度上滿足了人們檢索信息的需求,但其自身在查全率和查準率方面與生俱來的局限性,無法為用戶提供更全面、更精準的檢索需求。
元搜索引擎是一種基于搜索引擎的搜索引擎[3],其搜索過程是首先將用戶提交的搜索請求分發(fā)給多個成員搜索引擎,再將各個成員搜索引擎的搜索結果進行整合反饋給用戶。元搜索引擎沒有獨立的數據庫,而是依賴于其他成員搜索引擎,因此元搜索引擎在進行搜索時會遇到這樣的問題:成員搜索引擎的搜索算法不同、源數據庫和數據采集技術不同、各個成員搜索引擎返回文檔沒有統(tǒng)一的全局相似度等問題,造成搜索結果各不相同,紛繁復雜而不能滿足用戶的搜索需求。元搜索引擎最終要為用戶提供個性化搜索服務[4]。針對這種情況,設計一種元搜索引擎搜索結果排序整合算法,對各個搜索引擎返回的文檔進行分析、排序,盡可能返回更加貼切的結果給用戶,具有很大的可行性。本文針對元搜索引擎中搜索結果整合問題,提出了一種基于用戶興趣的結果整合排序方法,在檢索過程中考慮了用戶興趣,實現了元搜索引擎的個性化,既保證了搜索結果的查全率,又提高了查準率。
1 個性化元搜索引擎結果整合算法的實現
結果合成是元搜索引擎的一個核心問題,是將多個搜索引擎的檢索結果整合到一起的過程。以往元搜索引擎中沒有根據成員搜索引擎權值的結果貢獻量概念,也沒有根據用戶使用情況動態(tài)進行調整,在合成算法中,如Comb Sum、CombMNZ、Round-Robin等[5-6]沒能結合用戶興趣和成員搜索引擎的優(yōu)先級問題,使得得到的結果合成效果不是很理想。為此,本文提出一種算法,結合了以往各種優(yōu)秀算法的長處,加入了用戶興趣、成員引擎結果貢獻量及多維排序,為用戶提供更加全面、準確、高效、個性化的檢索服務。算法思想是:首先對成員搜索引擎根據其排名信息和用戶偏愛度設定權值,得到各成員搜索引擎的結果貢獻量,根據多維排序算法對結果分塊,對各個搜索引擎以及用戶所關注內容設置權重,根據用戶反饋動態(tài)更改相應權重,根據用戶查詢和用戶興趣庫與搜索結果文檔相關度權值整合排序,將最終最符合用戶個性化需求的結果返回給用戶,既保證了搜索結果的查全率,又提高了查準率。
本文提出了一種個性化元搜索引擎結果整合算法,在考慮了成員搜索引擎自身特點與用戶興趣及用戶查詢的相關度等因素后,引入成員搜索引擎結果貢獻量及結果分塊,加入了詞條匹配等級的概念,更好地體現了用戶的個性需求。經實驗驗證,此算法能夠使用戶在龐大繁雜的元搜索結果中更快找到自己感興趣的結果,較其他元搜索引擎以及其他整合排序算法大大提高了查詢的效率和效果。
參考文獻
[1] 梁美玉,杜軍平,高田.基于領域知識的個性化智能語義檢索系統(tǒng)[J].中南大學學報(自然科學版),2011(42):866.
[2] LAWRENCE S, GILES C L. Searching the World Wide Web [J]. Science, 1998, 280(5360): 98-100.
[3] 李廣建,黃崑.元搜索引擎及其主要技術[J].情報科學,2002,2(2):22-27.
[4] 徐娟,王群.3G融合計費解決方案探討[J].電信快報:網絡與通信,2008(9):13-17.
[5] NAIK S K, MURTHY C A. Hue-preserving color image enhancement without gamut problem[J]. IEEE Transactions on Image Processing, 2003, 12(12): 1591-1598.
[6] HUANG K, WANG Q, WU Z. Color image enhancement and evaluation algorithm based on human visual system[C]. 2004. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004, 3: iii-721-4 vol. 3.
[7] MONTAGUE M, ASLAM J A. Relevance score normalization for metasearch[C]. Procee dings of 10th International Conference on Information and Knowledge Management.Atlanta, USA, 2001:427-433.
[8] WHITE R W, KAPOOR A, DUMAIS S T. Modeling long-term search engine usage[M]. User Modeling, Adaptation, and Personalization, Springer Berlin Heidelberg, 2010.
[9] SI L, CALLAN J. Using sampled data and regression to merge search engine results [C]. Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2002: 19-26.
[10] 張衛(wèi)豐,徐寶文,周曉宇,等.元搜索引擎結果生成技術研究[J].小型微型計算機系統(tǒng),2003,24(1):34-37.
[11] KEYHANIPOUR A H, MOSHIRI B, PIROOZMAND M, et al. Web fusion: fundamentals and principals of a novel Meta search engine[C]. Neural Networks, 2006. IJCNN′06. International Joint Conference on IEEE, 2006: 4126-4131.
[12] BINGRU L Y C X Y. Research on Web mining-based intelligent search engine[J]. Computer Engineering and Applications, 2002(4): 11.