摘 要: 針對(duì)當(dāng)前元搜索引擎存在的問(wèn)題,提出一種個(gè)性化元搜索結(jié)果整合算法。首先對(duì)成員搜索引擎根據(jù)相應(yīng)條件設(shè)定權(quán)值,對(duì)各成員搜索引擎得到的搜索結(jié)果按貢獻(xiàn)量加權(quán)分塊排序,根據(jù)用戶檢索詞條與興趣庫(kù)和元搜索結(jié)果的文本相關(guān)度對(duì)塊內(nèi)搜索結(jié)果進(jìn)行整合排序。實(shí)驗(yàn)結(jié)果表明,該算法能夠滿足不同用戶的個(gè)性化需求,在保證了搜索結(jié)果查全率的同時(shí)提高了查準(zhǔn)率,很大程度上改善了用戶檢索效果和效率。
關(guān)鍵詞: 個(gè)性化元搜索;多重排序;權(quán)重;排序整合;相關(guān)度
隨著Internet的迅速普及,網(wǎng)絡(luò)上的信息量成指數(shù)增長(zhǎng)。由于網(wǎng)絡(luò)上的信息是海量和無(wú)組織的,具有分布散、動(dòng)態(tài)變化、結(jié)構(gòu)復(fù)雜等特點(diǎn),人們?cè)诨ヂ?lián)網(wǎng)上檢索信息主要依靠搜索引擎。單個(gè)搜索引擎檢索機(jī)制、范圍、算法等的不同,導(dǎo)致同樣一個(gè)檢索請(qǐng)求在不同搜索引擎中的查詢結(jié)果的重復(fù)率不足34%[1]。LAWRENCE S[2]等研究表明,任何一個(gè)搜索引擎索引的Web頁(yè)面都不超過(guò)頁(yè)面總數(shù)的1/3。因此,要想獲得一個(gè)全面、準(zhǔn)確、符合用戶需求的搜索結(jié)果,就必須反復(fù)調(diào)用多個(gè)搜索引擎進(jìn)行搜索。
如何在無(wú)比龐大的網(wǎng)絡(luò)信息庫(kù)中更快速、更準(zhǔn)確地找到能夠滿足用戶所需的信息,已經(jīng)成為Web搜索領(lǐng)域研究的熱點(diǎn)問(wèn)題。搜索引擎的優(yōu)劣、成功與否完全由用戶對(duì)其搜索結(jié)果的滿意度決定。目前存在的搜索引擎實(shí)用性不斷加強(qiáng),在一定程度上滿足了人們檢索信息的需求,但其自身在查全率和查準(zhǔn)率方面與生俱來(lái)的局限性,無(wú)法為用戶提供更全面、更精準(zhǔn)的檢索需求。
元搜索引擎是一種基于搜索引擎的搜索引擎[3],其搜索過(guò)程是首先將用戶提交的搜索請(qǐng)求分發(fā)給多個(gè)成員搜索引擎,再將各個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行整合反饋給用戶。元搜索引擎沒(méi)有獨(dú)立的數(shù)據(jù)庫(kù),而是依賴于其他成員搜索引擎,因此元搜索引擎在進(jìn)行搜索時(shí)會(huì)遇到這樣的問(wèn)題:成員搜索引擎的搜索算法不同、源數(shù)據(jù)庫(kù)和數(shù)據(jù)采集技術(shù)不同、各個(gè)成員搜索引擎返回文檔沒(méi)有統(tǒng)一的全局相似度等問(wèn)題,造成搜索結(jié)果各不相同,紛繁復(fù)雜而不能滿足用戶的搜索需求。元搜索引擎最終要為用戶提供個(gè)性化搜索服務(wù)[4]。針對(duì)這種情況,設(shè)計(jì)一種元搜索引擎搜索結(jié)果排序整合算法,對(duì)各個(gè)搜索引擎返回的文檔進(jìn)行分析、排序,盡可能返回更加貼切的結(jié)果給用戶,具有很大的可行性。本文針對(duì)元搜索引擎中搜索結(jié)果整合問(wèn)題,提出了一種基于用戶興趣的結(jié)果整合排序方法,在檢索過(guò)程中考慮了用戶興趣,實(shí)現(xiàn)了元搜索引擎的個(gè)性化,既保證了搜索結(jié)果的查全率,又提高了查準(zhǔn)率。
1 個(gè)性化元搜索引擎結(jié)果整合算法的實(shí)現(xiàn)
結(jié)果合成是元搜索引擎的一個(gè)核心問(wèn)題,是將多個(gè)搜索引擎的檢索結(jié)果整合到一起的過(guò)程。以往元搜索引擎中沒(méi)有根據(jù)成員搜索引擎權(quán)值的結(jié)果貢獻(xiàn)量概念,也沒(méi)有根據(jù)用戶使用情況動(dòng)態(tài)進(jìn)行調(diào)整,在合成算法中,如Comb Sum、CombMNZ、Round-Robin等[5-6]沒(méi)能結(jié)合用戶興趣和成員搜索引擎的優(yōu)先級(jí)問(wèn)題,使得得到的結(jié)果合成效果不是很理想。為此,本文提出一種算法,結(jié)合了以往各種優(yōu)秀算法的長(zhǎng)處,加入了用戶興趣、成員引擎結(jié)果貢獻(xiàn)量及多維排序,為用戶提供更加全面、準(zhǔn)確、高效、個(gè)性化的檢索服務(wù)。算法思想是:首先對(duì)成員搜索引擎根據(jù)其排名信息和用戶偏愛度設(shè)定權(quán)值,得到各成員搜索引擎的結(jié)果貢獻(xiàn)量,根據(jù)多維排序算法對(duì)結(jié)果分塊,對(duì)各個(gè)搜索引擎以及用戶所關(guān)注內(nèi)容設(shè)置權(quán)重,根據(jù)用戶反饋動(dòng)態(tài)更改相應(yīng)權(quán)重,根據(jù)用戶查詢和用戶興趣庫(kù)與搜索結(jié)果文檔相關(guān)度權(quán)值整合排序,將最終最符合用戶個(gè)性化需求的結(jié)果返回給用戶,既保證了搜索結(jié)果的查全率,又提高了查準(zhǔn)率。
本文提出了一種個(gè)性化元搜索引擎結(jié)果整合算法,在考慮了成員搜索引擎自身特點(diǎn)與用戶興趣及用戶查詢的相關(guān)度等因素后,引入成員搜索引擎結(jié)果貢獻(xiàn)量及結(jié)果分塊,加入了詞條匹配等級(jí)的概念,更好地體現(xiàn)了用戶的個(gè)性需求。經(jīng)實(shí)驗(yàn)驗(yàn)證,此算法能夠使用戶在龐大繁雜的元搜索結(jié)果中更快找到自己感興趣的結(jié)果,較其他元搜索引擎以及其他整合排序算法大大提高了查詢的效率和效果。
參考文獻(xiàn)
[1] 梁美玉,杜軍平,高田.基于領(lǐng)域知識(shí)的個(gè)性化智能語(yǔ)義檢索系統(tǒng)[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(42):866.
[2] LAWRENCE S, GILES C L. Searching the World Wide Web [J]. Science, 1998, 280(5360): 98-100.
[3] 李廣建,黃崑.元搜索引擎及其主要技術(shù)[J].情報(bào)科學(xué),2002,2(2):22-27.
[4] 徐娟,王群.3G融合計(jì)費(fèi)解決方案探討[J].電信快報(bào):網(wǎng)絡(luò)與通信,2008(9):13-17.
[5] NAIK S K, MURTHY C A. Hue-preserving color image enhancement without gamut problem[J]. IEEE Transactions on Image Processing, 2003, 12(12): 1591-1598.
[6] HUANG K, WANG Q, WU Z. Color image enhancement and evaluation algorithm based on human visual system[C]. 2004. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004, 3: iii-721-4 vol. 3.
[7] MONTAGUE M, ASLAM J A. Relevance score normalization for metasearch[C]. Procee dings of 10th International Conference on Information and Knowledge Management.Atlanta, USA, 2001:427-433.
[8] WHITE R W, KAPOOR A, DUMAIS S T. Modeling long-term search engine usage[M]. User Modeling, Adaptation, and Personalization, Springer Berlin Heidelberg, 2010.
[9] SI L, CALLAN J. Using sampled data and regression to merge search engine results [C]. Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2002: 19-26.
[10] 張衛(wèi)豐,徐寶文,周曉宇,等.元搜索引擎結(jié)果生成技術(shù)研究[J].小型微型計(jì)算機(jī)系統(tǒng),2003,24(1):34-37.
[11] KEYHANIPOUR A H, MOSHIRI B, PIROOZMAND M, et al. Web fusion: fundamentals and principals of a novel Meta search engine[C]. Neural Networks, 2006. IJCNN′06. International Joint Conference on IEEE, 2006: 4126-4131.
[12] BINGRU L Y C X Y. Research on Web mining-based intelligent search engine[J]. Computer Engineering and Applications, 2002(4): 11.