文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2020.11.012
引用格式: 羅東霞,卿粼波,吳曉紅. 基于Lucene的中文是非問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與網(wǎng)絡(luò)安全,2020,39(11):74-78.
0 引言
隨著人工智能技術(shù)的飛速發(fā)展,傳統(tǒng)搜索引擎已不能滿(mǎn)足用戶(hù)需求,自動(dòng)問(wèn)答系統(tǒng)逐漸成為信息檢索領(lǐng)域的研究熱點(diǎn),并具有廣泛應(yīng)用前景[1]。自動(dòng)問(wèn)答系統(tǒng)指允許用戶(hù)以自然語(yǔ)言的形式描述問(wèn)句,并將簡(jiǎn)潔答案返回給用戶(hù)的一種信息檢索系統(tǒng)[2]。
近年來(lái),自動(dòng)問(wèn)答系統(tǒng)相關(guān)的研究和應(yīng)用十分廣泛。2011年,IBM公司的深度問(wèn)答系統(tǒng)首次將自然語(yǔ)言處理與深度學(xué)習(xí)結(jié)合起來(lái),使得眾多機(jī)構(gòu)和企業(yè)紛紛效仿。2013年3月,京東上線(xiàn)京東JIMI 客服機(jī)器人,提供客戶(hù)常規(guī)咨詢(xún)服務(wù);2016年10月,百度推出百度醫(yī)療大腦,實(shí)現(xiàn)健康在線(xiàn)咨詢(xún)[3]。但目前關(guān)于中文自動(dòng)問(wèn)答系統(tǒng)的研究多是圍繞特指問(wèn)句,其開(kāi)放性的回答方式不適用于是非問(wèn)句的二值答案。例如,對(duì)JIMI提問(wèn):“京東自營(yíng)滿(mǎn)88包郵對(duì)嗎?”,JIMI的答案是京東自營(yíng)商品包郵的詳細(xì)說(shuō)明,而非是非問(wèn)句要求的“對(duì)”或“不對(duì)”的二值答案。中文是非問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),能夠彌補(bǔ)目前中文自動(dòng)問(wèn)答僅能作答特指問(wèn)句的不足,幫助用戶(hù)快速獲取簡(jiǎn)潔的答案,對(duì)自動(dòng)問(wèn)答系統(tǒng)的研究和應(yīng)用有著極其重要的意義。
本文利用Lucene設(shè)計(jì)并實(shí)現(xiàn)一種中文是非問(wèn)答系統(tǒng),主要工作包括:(1)引入句法成分權(quán)重和命名實(shí)體權(quán)重,改進(jìn)TextRank算法[4-5],提出一種問(wèn)句核心詞提取方法;(2)針對(duì)MySQL、Neo4j和本地新聞文件中的多源數(shù)據(jù),提出一種多源數(shù)據(jù)融合索引創(chuàng)建方法,減少索引創(chuàng)建耗時(shí);(3)查詢(xún)索引并對(duì)索引結(jié)果判決,獲得是非問(wèn)句的二值答案。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://theprogrammingfactory.com/resource/share/2000003183
作者信息:
羅東霞,卿粼波,吳曉紅
(四川大學(xué) 電子信息學(xué)院,四川 成都610065)