文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191130
中文引用格式: 楊維. 領(lǐng)域知識(shí)融合與共建研究[J].電子技術(shù)應(yīng)用,2019,45(12):47-50.
英文引用格式: Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique,2019,45(12):47-50.
0 引言
近年來(lái),隨著人工智能和自然語(yǔ)言處理方法的研究進(jìn)一步深入和應(yīng)用進(jìn)一步落地,基于知識(shí)圖譜的對(duì)話系統(tǒng)及其衍生應(yīng)用在越來(lái)越多的場(chǎng)景中開始發(fā)揮其作用。國(guó)家電網(wǎng)客服中心的人工智能研究中心AI Lab成立后,也就國(guó)網(wǎng)客服的相關(guān)場(chǎng)景做了很多知識(shí)圖譜和對(duì)話系統(tǒng)的相關(guān)研究。當(dāng)前國(guó)網(wǎng)客服對(duì)話面臨的最大的困難即為傳統(tǒng)知識(shí)圖譜構(gòu)建方法和架構(gòu)均需大量相關(guān)優(yōu)質(zhì)數(shù)據(jù)支撐,而在實(shí)際生產(chǎn)情況下,只存在大量非結(jié)構(gòu)化、清洗困難的異構(gòu)數(shù)據(jù)。如何組織和處理這些數(shù)據(jù)就成為了國(guó)網(wǎng)客服的知識(shí)圖譜構(gòu)建和對(duì)話系統(tǒng)建立的關(guān)鍵挑戰(zhàn)。
在解決痛點(diǎn)前,先要明確基于國(guó)網(wǎng)客服中心的對(duì)話系統(tǒng)[1]和知識(shí)圖譜的核心需求。在設(shè)計(jì)知識(shí)圖譜的架構(gòu)時(shí),本文考慮了對(duì)話類應(yīng)用對(duì)知識(shí)圖譜[2]的下述需求:
(1)實(shí)例關(guān)聯(lián)需求:即語(yǔ)義解析獲得了相關(guān)解析結(jié)果后能夠?qū)⒔馕鼋Y(jié)果和圖譜中相應(yīng)實(shí)體、屬性、關(guān)系等建立映射關(guān)系并消歧;
(2)答案獲取需求:即根據(jù)相應(yīng)實(shí)例、關(guān)系和屬性等查詢相應(yīng)值和答案;
(3)邏輯推理需求:即基于已知語(yǔ)義信息,根據(jù)推理邏輯規(guī)則獲取精準(zhǔn)語(yǔ)義推理或運(yùn)算結(jié)果;
(4)指導(dǎo)對(duì)話管理需求:即根據(jù)已知語(yǔ)義信息反哺對(duì)話管理,基于靜態(tài)的對(duì)話策略和動(dòng)態(tài)的知識(shí)內(nèi)容產(chǎn)生動(dòng)態(tài)、可變化的圖譜對(duì)話。
前兩個(gè)需求在傳統(tǒng)KBQA[3]的相關(guān)研究中,基于RDF/OWL標(biāo)準(zhǔn)的事實(shí)圖譜,業(yè)界一般稱為知識(shí)圖譜,但由于本文需要區(qū)分和融合,根據(jù)其特征稱為事實(shí)圖譜。事實(shí)圖譜已經(jīng)被大量的研究證實(shí)了其可用性和實(shí)用性,然而這種類型的圖譜對(duì)推理和指導(dǎo)對(duì)話管理的支持性能上均由于其本身知識(shí)組織形式的局限性,需要額外人工設(shè)計(jì)大量的規(guī)則,且由于基于預(yù)設(shè)好的邏輯規(guī)則,在靈活性和普適性上都很難有較好的表現(xiàn)。因此大數(shù)據(jù)時(shí)代以來(lái),很多研究從數(shù)據(jù)出發(fā),基于自底向上的思路,從實(shí)際圖譜推理和應(yīng)用的角度做了一些探索,提出了依托事件挖掘算法構(gòu)建的事理圖譜,并利用事理圖譜的相關(guān)架構(gòu)在金融、法律等領(lǐng)域?qū)崿F(xiàn)了一些應(yīng)用,有很不錯(cuò)的表現(xiàn),得到了業(yè)內(nèi)研究人員的高度認(rèn)可。但也不得不承認(rèn),由于其本身基于統(tǒng)計(jì)學(xué)習(xí)算法、概率分布計(jì)算關(guān)系概率,且以抽象泛化后的事理為元數(shù)據(jù),因此,實(shí)例映射、消歧和答案獲取等功能的精準(zhǔn)性和可解釋性就遠(yuǎn)低于事實(shí)圖譜。因此,本文從目標(biāo)應(yīng)用即垂直領(lǐng)域任務(wù)型對(duì)話的角度出發(fā),考慮兩類圖譜架構(gòu)的相關(guān)特性,結(jié)合實(shí)際研究和工作中的經(jīng)驗(yàn),提出了融合事實(shí)圖譜和事理的思路,來(lái)發(fā)揮兩類圖譜的優(yōu)勢(shì),從而提升任務(wù)型對(duì)話性能的目標(biāo)。
1 事實(shí)圖譜和事理圖譜
要解決事實(shí)圖譜的融合和事理圖譜的融合,需要先簡(jiǎn)單介紹其概念、研究現(xiàn)狀等內(nèi)容。
1.1 事實(shí)圖譜
事實(shí)圖譜是一種描述事實(shí)知識(shí)內(nèi)容的知識(shí)庫(kù),一般節(jié)點(diǎn)代表概念,邊代表概念的相關(guān)性質(zhì)。本文構(gòu)建標(biāo)準(zhǔn)為RDF/RDFS標(biāo)準(zhǔn)。這兩類標(biāo)準(zhǔn)是用來(lái)表現(xiàn)萬(wàn)維網(wǎng)上各類資源的信息的一種語(yǔ)言,RDF通過(guò)類、屬性和值來(lái)描述資源。RDF Schema(RDFS)是對(duì)RDF的一種擴(kuò)展,應(yīng)用程序?qū)S玫念惡蛯傩员仨毷褂脤?duì)RDF的擴(kuò)展來(lái)定義。RDF Schema就是這樣一種擴(kuò)展。RDFS不提供實(shí)際的應(yīng)用程序?qū)S玫念惡蛯傩裕翘峁┝嗣枋鰬?yīng)用程序?qū)S玫念惡蛯傩缘目蚣?。RDFS中的類與面向?qū)ο缶幊陶Z(yǔ)言中的類非常相似,這就使得資源能夠作為類的實(shí)例和類的子類來(lái)被定義。
事實(shí)圖譜的知識(shí)獲取有很多成果卓然的研究,從實(shí)體級(jí)的實(shí)體挖掘[4]、實(shí)體發(fā)現(xiàn)、實(shí)體鏈接,到關(guān)系抽取[5],主要目標(biāo)是找到各類事實(shí)知識(shí)信息,并將它們按照三元組的結(jié)構(gòu)組織起來(lái),用以描述事物本身性質(zhì)及其相關(guān)關(guān)系,在國(guó)網(wǎng)客服場(chǎng)景下,利用實(shí)際生產(chǎn)中的機(jī)房、設(shè)備、人員、應(yīng)用功能、服務(wù)等既定事實(shí)構(gòu)建了事實(shí)圖譜。
圖1展示了一個(gè)局部場(chǎng)景的事實(shí)圖譜。
1.2 事理圖譜
事理圖譜[6]是一種描述事件之間的演化規(guī)律和模式的邏輯知識(shí)庫(kù)。從結(jié)構(gòu)上來(lái)說(shuō)事理圖譜是一個(gè)有向有環(huán)圖,節(jié)點(diǎn)代表事件,有向邊代表事件之間的順承、因果等關(guān)系。
事理圖譜的構(gòu)建方法也有不少相關(guān)研究,主要是基于大規(guī)模事件密集型數(shù)據(jù)(例如:新聞)的抽取和泛化,并計(jì)算相關(guān)邊的轉(zhuǎn)移概率,最后生成相應(yīng)事理的拓?fù)鋱D。因此,在國(guó)網(wǎng)場(chǎng)景中,本文將指導(dǎo)性文檔中的操作步驟、方法、故障實(shí)例等涉及大量實(shí)踐且事件具有一定邏輯關(guān)系的知識(shí)內(nèi)容形成了事理圖譜。圖2是某業(yè)務(wù)流程的事理圖譜表示。
2 圖譜架構(gòu)和融合方法
在垂直領(lǐng)域下,常常很難有大量事件密集型數(shù)據(jù),尤其是基于具體行業(yè)、公司場(chǎng)景下,往往只有一些規(guī)范性文檔、操作手冊(cè)作為基礎(chǔ)數(shù)據(jù)來(lái)源。因此,獲得的事理圖譜和事實(shí)圖譜在常規(guī)融合的情況下,往往會(huì)出現(xiàn)大量孤島節(jié)點(diǎn),實(shí)現(xiàn)不了在對(duì)話過(guò)程中支撐對(duì)話知識(shí)的作用。因此,在垂直領(lǐng)域特定場(chǎng)景下的知識(shí)融合和知識(shí)共建是相互耦合的,需要以專家知識(shí)的種子圖譜為基礎(chǔ),融合事理圖譜,并在融合過(guò)程中讓事理和事實(shí)互相校驗(yàn)互相補(bǔ)充,才能不斷豐富圖譜內(nèi)容,保證圖譜對(duì)整個(gè)對(duì)話支持[7]的性能。
圖譜融合實(shí)際上就是節(jié)點(diǎn)消歧并建立鏈接。為了對(duì)事實(shí)圖譜和事理圖譜建立相互鏈接,使之融合成為一個(gè)大圖譜,本文提出下述架構(gòu):
以實(shí)體粒度的知識(shí)為核心,將語(yǔ)義角色中的實(shí)體、謂詞、事件等關(guān)系鏈接成網(wǎng)絡(luò)狀態(tài),其中實(shí)體稱之為概念(concept),通常為名詞和領(lǐng)域核心詞等事實(shí)知識(shí)內(nèi)容,以父類-類-實(shí)體的形式來(lái)組織上下位關(guān)系,概念通過(guò)謂詞關(guān)系鏈接到相關(guān)事件上,具體的類和大類鏈接到具體泛化事理上。
這樣的架構(gòu)既可以實(shí)現(xiàn)從知識(shí)圖譜中獲得的詳細(xì)的語(yǔ)義信息、實(shí)體、詳細(xì)事件,也可以根據(jù)實(shí)體上下文關(guān)系及其事理的邏輯推理,指導(dǎo)對(duì)話管理。
這樣架構(gòu)有下述優(yōu)點(diǎn):
(1)最大限度利用問(wèn)句中的語(yǔ)義信息;
(2)最大限度地利用知識(shí)圖譜中的上下位信息;
(3)只需要定義較少的事理邏輯推理和上下位邏輯推理,即可實(shí)現(xiàn)對(duì)對(duì)話的引導(dǎo)和跟蹤;
(4)能夠獲取精準(zhǔn)的當(dāng)前語(yǔ)義事件(如:買蘋果,而非買水果);
(5)構(gòu)建過(guò)程中實(shí)體挖掘、事件挖掘、事件泛化等算法的相互校驗(yàn)提高整個(gè)圖譜的知識(shí)的精準(zhǔn)性;
(6)概念相匹配的謂詞體系校驗(yàn)語(yǔ)義解析結(jié)果,輔助解析結(jié)果的重排序。
總言之,這樣的框架是從應(yīng)用的角度出發(fā),從構(gòu)建過(guò)程中融合兩類圖譜,將更多更精準(zhǔn)的關(guān)系和語(yǔ)義信息融入知識(shí)圖譜中,并利用在融合共建中產(chǎn)生的謂詞、實(shí)體、事件等資源輔助識(shí)別、檢索、排序等算法。其架構(gòu)如圖3所示。
如圖3所示,在事實(shí)圖譜中,實(shí)體和類展現(xiàn)了核心的上下位關(guān)系;事理圖譜中通過(guò)事件到事理的泛化,體現(xiàn)事件的上下位關(guān)系。事實(shí)圖譜中的類和子類通過(guò)謂詞關(guān)系連接到事理圖譜中的具體事理中,事實(shí)圖譜中的實(shí)體通過(guò)謂詞關(guān)系連接到具體事件上,將兩類圖譜有機(jī)地連接起來(lái)。
所以融合本質(zhì)就是通過(guò)謂詞關(guān)系,將事理圖譜和對(duì)應(yīng)概念的事實(shí)圖譜鏈接成一個(gè)語(yǔ)義內(nèi)容和邏輯關(guān)系更豐富的知識(shí)圖譜。顯然,融合過(guò)程中可以利用已有信息不斷補(bǔ)充和反向校驗(yàn)其他信息,所以知識(shí)融合的過(guò)程也是一個(gè)不斷互相補(bǔ)充互相完善的過(guò)程。
首先,在構(gòu)建過(guò)程中需要一些通用資源,例如:中文動(dòng)詞詞典、同義詞典、來(lái)自于通用知識(shí)庫(kù)(例如:wikipedia、freebase等)的同義詞、語(yǔ)義上下位關(guān)系等資源。
其次,用以構(gòu)建的數(shù)據(jù)源主要是兩類,一類是功能文檔、產(chǎn)品文檔等帶有場(chǎng)景和邏輯順承關(guān)系的文檔類數(shù)據(jù);另一類是問(wèn)答對(duì)話類帶有大量領(lǐng)域關(guān)鍵詞和謂詞邏輯關(guān)系的數(shù)據(jù)。事實(shí)圖譜和事理圖譜的分別建立也都是基于這類數(shù)據(jù)。
這里主要介紹在已建立了基礎(chǔ)的事實(shí)圖譜和事理圖譜,融合和共建新架構(gòu)圖譜的流程:
(1)利用動(dòng)詞詞典,構(gòu)造謂詞關(guān)系集。
(2)利用事實(shí)同義詞典,從事理圖譜中發(fā)現(xiàn)相關(guān)實(shí)體并篩選。
例如:事實(shí)圖譜中存在Class=(員工),事理圖譜中存在Event=<通知相關(guān)人員>,利用同義詞“員工:人員,發(fā)現(xiàn),<通知相關(guān)人員>-[通知]-(員工)”這樣的連接關(guān)系,并關(guān)聯(lián)。
(3)孤島事件中挖掘新實(shí)體,并歸類新類。
(4)篩選事實(shí)-謂詞組合,產(chǎn)生新的事件/事理。
例如:事實(shí):(服務(wù)器)(交換機(jī))(刀片機(jī))…結(jié)合謂詞:
“重啟”,產(chǎn)生新的事件,<重啟服務(wù)器><重啟交換機(jī)>
<重啟刀片機(jī)>
(5)事件泛化找到新的事理。
例如:事實(shí):(服務(wù)器),在Class=設(shè)備,<重啟服務(wù)器>,
泛化為<重啟設(shè)備>
(6)計(jì)算事理間的邏輯關(guān)系。
3 研究成果
本文實(shí)驗(yàn)基于國(guó)網(wǎng)客服人工智能中心和清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室聯(lián)合構(gòu)建知識(shí)圖譜和對(duì)應(yīng)對(duì)話系統(tǒng),其中基礎(chǔ)事實(shí)圖譜數(shù)據(jù)和事理圖譜數(shù)據(jù)分別由國(guó)網(wǎng)培訓(xùn)文檔、標(biāo)準(zhǔn)運(yùn)維解決方案文檔、故障分析報(bào)告、客服常見問(wèn)答問(wèn)題等文檔數(shù)據(jù)構(gòu)造。實(shí)驗(yàn)最后獲得如表1所示成果。
圖4展示了局部融合圖譜。
本文在該知識(shí)圖譜和清華語(yǔ)義平臺(tái)的基礎(chǔ)上建立了針對(duì)客服系統(tǒng)的相應(yīng)知識(shí)管理及對(duì)話系統(tǒng),在客服應(yīng)答、故障查修、運(yùn)維狀態(tài)跟蹤等場(chǎng)景下均獲得了較好的應(yīng)用效果。
4 結(jié)論
本文提出了一套基于事實(shí)圖譜和事理圖譜融合的新型知識(shí)圖譜構(gòu)建框架,該框架不僅包含了相關(guān)垂直領(lǐng)域的各類知識(shí)信息,還將基礎(chǔ)語(yǔ)義信息和推理信息融入其中。該框架構(gòu)建過(guò)程中能夠不斷鏈接映射并互相補(bǔ)充,達(dá)到圖譜動(dòng)態(tài)擴(kuò)展的目標(biāo),有效提高了圖譜構(gòu)建效率,降低了圖譜構(gòu)建的人工成本。最后成功建設(shè)了一個(gè)較為完善的垂直領(lǐng)域混合型圖譜,并在相關(guān)問(wèn)答知識(shí)類應(yīng)用中對(duì)其性能進(jìn)行了較好的驗(yàn)證。
參考文獻(xiàn)
[1] MCTEAR M F.Spoken dialogue technology:enabling the conversational user interface[J].ACM Computing Surveys,2002,34(1):90-169.
[2] 代文韜,林詩(shī)璐,朱小燕,等.基于知識(shí)圖譜的保險(xiǎn)領(lǐng)域?qū)υ捪到y(tǒng)構(gòu)建[J].電子技術(shù)應(yīng)用,2019,45(9):18-21,27.
[3] LEE C,JUNG S,KIM K,et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering,2010,4(1):1-22.
[4] 李剛,黃永峰.一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用,2018,44(1):118-120,124.
[5] 金鵬,楊忠良,黃永峰.基于卷積神經(jīng)網(wǎng)絡(luò)的詩(shī)詞隱寫檢測(cè)方法[J].電子技術(shù)應(yīng)用,2018,44(10):114-117,126.
[6] Ding Xiao,Qin Bing,Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP),2013:311-319.
[7] HUANG M,ZHU X,HAO Y,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,2004,20(18):3604-3612.
作者信息:
楊 維
(國(guó)家電網(wǎng)客服中心 信息技術(shù)部,天津300000)