文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.11.012
引用格式: 羅東霞,卿粼波,吳曉紅. 基于Lucene的中文是非問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與網(wǎng)絡(luò)安全,2020,39(11):74-78.
0 引言
隨著人工智能技術(shù)的飛速發(fā)展,傳統(tǒng)搜索引擎已不能滿足用戶需求,自動問答系統(tǒng)逐漸成為信息檢索領(lǐng)域的研究熱點(diǎn),并具有廣泛應(yīng)用前景[1]。自動問答系統(tǒng)指允許用戶以自然語言的形式描述問句,并將簡潔答案返回給用戶的一種信息檢索系統(tǒng)[2]。
近年來,自動問答系統(tǒng)相關(guān)的研究和應(yīng)用十分廣泛。2011年,IBM公司的深度問答系統(tǒng)首次將自然語言處理與深度學(xué)習(xí)結(jié)合起來,使得眾多機(jī)構(gòu)和企業(yè)紛紛效仿。2013年3月,京東上線京東JIMI 客服機(jī)器人,提供客戶常規(guī)咨詢服務(wù);2016年10月,百度推出百度醫(yī)療大腦,實(shí)現(xiàn)健康在線咨詢[3]。但目前關(guān)于中文自動問答系統(tǒng)的研究多是圍繞特指問句,其開放性的回答方式不適用于是非問句的二值答案。例如,對JIMI提問:“京東自營滿88包郵對嗎?”,JIMI的答案是京東自營商品包郵的詳細(xì)說明,而非是非問句要求的“對”或“不對”的二值答案。中文是非問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),能夠彌補(bǔ)目前中文自動問答僅能作答特指問句的不足,幫助用戶快速獲取簡潔的答案,對自動問答系統(tǒng)的研究和應(yīng)用有著極其重要的意義。
本文利用Lucene設(shè)計(jì)并實(shí)現(xiàn)一種中文是非問答系統(tǒng),主要工作包括:(1)引入句法成分權(quán)重和命名實(shí)體權(quán)重,改進(jìn)TextRank算法[4-5],提出一種問句核心詞提取方法;(2)針對MySQL、Neo4j和本地新聞文件中的多源數(shù)據(jù),提出一種多源數(shù)據(jù)融合索引創(chuàng)建方法,減少索引創(chuàng)建耗時(shí);(3)查詢索引并對索引結(jié)果判決,獲得是非問句的二值答案。
本文詳細(xì)內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000003183
作者信息:
羅東霞,卿粼波,吳曉紅
(四川大學(xué) 電子信息學(xué)院,四川 成都610065)