《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 領(lǐng)域知識(shí)融合與共建研究
領(lǐng)域知識(shí)融合與共建研究
2019年電子技術(shù)應(yīng)用第12期
楊 維
國(guó)家電網(wǎng)客服中心 信息技術(shù)部,天津300000
摘要: 為建設(shè)國(guó)家電網(wǎng)客戶服務(wù)中心的智能對(duì)話系統(tǒng),需要從大量文檔、知識(shí)庫(kù)、對(duì)話等數(shù)據(jù)中提煉知識(shí)形成知識(shí)圖譜,提出一種融合事實(shí)圖譜和事理圖譜的新型知識(shí)圖譜框架,能夠基于多源異構(gòu)數(shù)據(jù)共建新型知識(shí)圖譜,在國(guó)網(wǎng)領(lǐng)域精準(zhǔn)問(wèn)答、客服系統(tǒng)知識(shí)支撐、對(duì)話管理引導(dǎo)、知識(shí)推理等方面均有較好性能。融合后的圖譜及應(yīng)用系統(tǒng)在國(guó)網(wǎng)客服中心問(wèn)答平臺(tái)中投入使用,大幅提升了客服人員工作效率和服務(wù)質(zhì)量。
中圖分類號(hào): TN711;TP311
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191130
中文引用格式: 楊維. 領(lǐng)域知識(shí)融合與共建研究[J].電子技術(shù)應(yīng)用,2019,45(12):47-50.
英文引用格式: Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique,2019,45(12):47-50.
Domain knowledge fusion and knowledge co-construction research
Yang Wei
IT Department,State Grid Customer Service Center,Tianjin 300000,China
Abstract: In order to serve the customer service intelligent dialogue system of the State Grid Customer Service Center, it is necessary to extract knowledge from a large number of documents and traditional knowledge base as well as dialog data. This paper proposes a new knowledge graph framework that integrates fact graph and event evolutionary graph, which can be based on multiple sourcea data. The constructed knowledge graph has good performance in the vertical domain of accurate question and answer, customer service system knowledge support, dialogue management guidance, knowledge reasoning and so on. New knowledge graph was put into use in the customer service center question and answer system, which changed the working mode of the customer service and greatly improved efficiency of the customer service.
Key words : knowledge graph;event evolutionary graph;dialogue system

0 引言

    近年來(lái),隨著人工智能和自然語(yǔ)言處理方法的研究進(jìn)一步深入和應(yīng)用進(jìn)一步落地,基于知識(shí)圖譜對(duì)話系統(tǒng)及其衍生應(yīng)用在越來(lái)越多的場(chǎng)景中開始發(fā)揮其作用。國(guó)家電網(wǎng)客服中心的人工智能研究中心AI Lab成立后,也就國(guó)網(wǎng)客服的相關(guān)場(chǎng)景做了很多知識(shí)圖譜和對(duì)話系統(tǒng)的相關(guān)研究。當(dāng)前國(guó)網(wǎng)客服對(duì)話面臨的最大的困難即為傳統(tǒng)知識(shí)圖譜構(gòu)建方法和架構(gòu)均需大量相關(guān)優(yōu)質(zhì)數(shù)據(jù)支撐,而在實(shí)際生產(chǎn)情況下,只存在大量非結(jié)構(gòu)化、清洗困難的異構(gòu)數(shù)據(jù)。如何組織和處理這些數(shù)據(jù)就成為了國(guó)網(wǎng)客服的知識(shí)圖譜構(gòu)建和對(duì)話系統(tǒng)建立的關(guān)鍵挑戰(zhàn)。

    在解決痛點(diǎn)前,先要明確基于國(guó)網(wǎng)客服中心的對(duì)話系統(tǒng)[1]和知識(shí)圖譜的核心需求。在設(shè)計(jì)知識(shí)圖譜的架構(gòu)時(shí),本文考慮了對(duì)話類應(yīng)用對(duì)知識(shí)圖譜[2]的下述需求:

    (1)實(shí)例關(guān)聯(lián)需求:即語(yǔ)義解析獲得了相關(guān)解析結(jié)果后能夠?qū)⒔馕鼋Y(jié)果和圖譜中相應(yīng)實(shí)體、屬性、關(guān)系等建立映射關(guān)系并消歧;

    (2)答案獲取需求:即根據(jù)相應(yīng)實(shí)例、關(guān)系和屬性等查詢相應(yīng)值和答案;

    (3)邏輯推理需求:即基于已知語(yǔ)義信息,根據(jù)推理邏輯規(guī)則獲取精準(zhǔn)語(yǔ)義推理或運(yùn)算結(jié)果;

    (4)指導(dǎo)對(duì)話管理需求:即根據(jù)已知語(yǔ)義信息反哺對(duì)話管理,基于靜態(tài)的對(duì)話策略和動(dòng)態(tài)的知識(shí)內(nèi)容產(chǎn)生動(dòng)態(tài)、可變化的圖譜對(duì)話。

    前兩個(gè)需求在傳統(tǒng)KBQA[3]的相關(guān)研究中,基于RDF/OWL標(biāo)準(zhǔn)的事實(shí)圖譜,業(yè)界一般稱為知識(shí)圖譜,但由于本文需要區(qū)分和融合,根據(jù)其特征稱為事實(shí)圖譜。事實(shí)圖譜已經(jīng)被大量的研究證實(shí)了其可用性和實(shí)用性,然而這種類型的圖譜對(duì)推理和指導(dǎo)對(duì)話管理的支持性能上均由于其本身知識(shí)組織形式的局限性,需要額外人工設(shè)計(jì)大量的規(guī)則,且由于基于預(yù)設(shè)好的邏輯規(guī)則,在靈活性和普適性上都很難有較好的表現(xiàn)。因此大數(shù)據(jù)時(shí)代以來(lái),很多研究從數(shù)據(jù)出發(fā),基于自底向上的思路,從實(shí)際圖譜推理和應(yīng)用的角度做了一些探索,提出了依托事件挖掘算法構(gòu)建的事理圖譜,并利用事理圖譜的相關(guān)架構(gòu)在金融、法律等領(lǐng)域?qū)崿F(xiàn)了一些應(yīng)用,有很不錯(cuò)的表現(xiàn),得到了業(yè)內(nèi)研究人員的高度認(rèn)可。但也不得不承認(rèn),由于其本身基于統(tǒng)計(jì)學(xué)習(xí)算法、概率分布計(jì)算關(guān)系概率,且以抽象泛化后的事理為元數(shù)據(jù),因此,實(shí)例映射、消歧和答案獲取等功能的精準(zhǔn)性和可解釋性就遠(yuǎn)低于事實(shí)圖譜。因此,本文從目標(biāo)應(yīng)用即垂直領(lǐng)域任務(wù)型對(duì)話的角度出發(fā),考慮兩類圖譜架構(gòu)的相關(guān)特性,結(jié)合實(shí)際研究和工作中的經(jīng)驗(yàn),提出了融合事實(shí)圖譜和事理的思路,來(lái)發(fā)揮兩類圖譜的優(yōu)勢(shì),從而提升任務(wù)型對(duì)話性能的目標(biāo)。

1 事實(shí)圖譜和事理圖譜

    要解決事實(shí)圖譜的融合和事理圖譜的融合,需要先簡(jiǎn)單介紹其概念、研究現(xiàn)狀等內(nèi)容。

1.1 事實(shí)圖譜

    事實(shí)圖譜是一種描述事實(shí)知識(shí)內(nèi)容的知識(shí)庫(kù),一般節(jié)點(diǎn)代表概念,邊代表概念的相關(guān)性質(zhì)。本文構(gòu)建標(biāo)準(zhǔn)為RDF/RDFS標(biāo)準(zhǔn)。這兩類標(biāo)準(zhǔn)是用來(lái)表現(xiàn)萬(wàn)維網(wǎng)上各類資源的信息的一種語(yǔ)言,RDF通過(guò)類、屬性和值來(lái)描述資源。RDF Schema(RDFS)是對(duì)RDF的一種擴(kuò)展,應(yīng)用程序?qū)S玫念惡蛯傩员仨毷褂脤?duì)RDF的擴(kuò)展來(lái)定義。RDF Schema就是這樣一種擴(kuò)展。RDFS不提供實(shí)際的應(yīng)用程序?qū)S玫念惡蛯傩裕翘峁┝嗣枋鰬?yīng)用程序?qū)S玫念惡蛯傩缘目蚣?。RDFS中的類與面向?qū)ο缶幊陶Z(yǔ)言中的類非常相似,這就使得資源能夠作為類的實(shí)例和類的子類來(lái)被定義。

    事實(shí)圖譜的知識(shí)獲取有很多成果卓然的研究,從實(shí)體級(jí)的實(shí)體挖掘[4]、實(shí)體發(fā)現(xiàn)、實(shí)體鏈接,到關(guān)系抽取[5],主要目標(biāo)是找到各類事實(shí)知識(shí)信息,并將它們按照三元組的結(jié)構(gòu)組織起來(lái),用以描述事物本身性質(zhì)及其相關(guān)關(guān)系,在國(guó)網(wǎng)客服場(chǎng)景下,利用實(shí)際生產(chǎn)中的機(jī)房、設(shè)備、人員、應(yīng)用功能、服務(wù)等既定事實(shí)構(gòu)建了事實(shí)圖譜。

    圖1展示了一個(gè)局部場(chǎng)景的事實(shí)圖譜。

rgzn2-t1.gif

1.2 事理圖譜

    事理圖譜[6]是一種描述事件之間的演化規(guī)律和模式的邏輯知識(shí)庫(kù)。從結(jié)構(gòu)上來(lái)說(shuō)事理圖譜是一個(gè)有向有環(huán)圖,節(jié)點(diǎn)代表事件,有向邊代表事件之間的順承、因果等關(guān)系。

    事理圖譜的構(gòu)建方法也有不少相關(guān)研究,主要是基于大規(guī)模事件密集型數(shù)據(jù)(例如:新聞)的抽取和泛化,并計(jì)算相關(guān)邊的轉(zhuǎn)移概率,最后生成相應(yīng)事理的拓?fù)鋱D。因此,在國(guó)網(wǎng)場(chǎng)景中,本文將指導(dǎo)性文檔中的操作步驟、方法、故障實(shí)例等涉及大量實(shí)踐且事件具有一定邏輯關(guān)系的知識(shí)內(nèi)容形成了事理圖譜。圖2是某業(yè)務(wù)流程的事理圖譜表示。

rgzn2-t2.gif

2 圖譜架構(gòu)和融合方法

    在垂直領(lǐng)域下,常常很難有大量事件密集型數(shù)據(jù),尤其是基于具體行業(yè)、公司場(chǎng)景下,往往只有一些規(guī)范性文檔、操作手冊(cè)作為基礎(chǔ)數(shù)據(jù)來(lái)源。因此,獲得的事理圖譜和事實(shí)圖譜在常規(guī)融合的情況下,往往會(huì)出現(xiàn)大量孤島節(jié)點(diǎn),實(shí)現(xiàn)不了在對(duì)話過(guò)程中支撐對(duì)話知識(shí)的作用。因此,在垂直領(lǐng)域特定場(chǎng)景下的知識(shí)融合和知識(shí)共建是相互耦合的,需要以專家知識(shí)的種子圖譜為基礎(chǔ),融合事理圖譜,并在融合過(guò)程中讓事理和事實(shí)互相校驗(yàn)互相補(bǔ)充,才能不斷豐富圖譜內(nèi)容,保證圖譜對(duì)整個(gè)對(duì)話支持[7]的性能。

    圖譜融合實(shí)際上就是節(jié)點(diǎn)消歧并建立鏈接。為了對(duì)事實(shí)圖譜和事理圖譜建立相互鏈接,使之融合成為一個(gè)大圖譜,本文提出下述架構(gòu):

    以實(shí)體粒度的知識(shí)為核心,將語(yǔ)義角色中的實(shí)體、謂詞、事件等關(guān)系鏈接成網(wǎng)絡(luò)狀態(tài),其中實(shí)體稱之為概念(concept),通常為名詞和領(lǐng)域核心詞等事實(shí)知識(shí)內(nèi)容,以父類-類-實(shí)體的形式來(lái)組織上下位關(guān)系,概念通過(guò)謂詞關(guān)系鏈接到相關(guān)事件上,具體的類和大類鏈接到具體泛化事理上。

    這樣的架構(gòu)既可以實(shí)現(xiàn)從知識(shí)圖譜中獲得的詳細(xì)的語(yǔ)義信息、實(shí)體、詳細(xì)事件,也可以根據(jù)實(shí)體上下文關(guān)系及其事理的邏輯推理,指導(dǎo)對(duì)話管理。

    這樣架構(gòu)有下述優(yōu)點(diǎn):

    (1)最大限度利用問(wèn)句中的語(yǔ)義信息;

    (2)最大限度地利用知識(shí)圖譜中的上下位信息;

    (3)只需要定義較少的事理邏輯推理和上下位邏輯推理,即可實(shí)現(xiàn)對(duì)對(duì)話的引導(dǎo)和跟蹤;

    (4)能夠獲取精準(zhǔn)的當(dāng)前語(yǔ)義事件(如:買蘋果,而非買水果);

    (5)構(gòu)建過(guò)程中實(shí)體挖掘、事件挖掘、事件泛化等算法的相互校驗(yàn)提高整個(gè)圖譜的知識(shí)的精準(zhǔn)性;

    (6)概念相匹配的謂詞體系校驗(yàn)語(yǔ)義解析結(jié)果,輔助解析結(jié)果的重排序。

    總言之,這樣的框架是從應(yīng)用的角度出發(fā),從構(gòu)建過(guò)程中融合兩類圖譜,將更多更精準(zhǔn)的關(guān)系和語(yǔ)義信息融入知識(shí)圖譜中,并利用在融合共建中產(chǎn)生的謂詞、實(shí)體、事件等資源輔助識(shí)別、檢索、排序等算法。其架構(gòu)如圖3所示。

rgzn2-t3.gif

    如圖3所示,在事實(shí)圖譜中,實(shí)體和類展現(xiàn)了核心的上下位關(guān)系;事理圖譜中通過(guò)事件到事理的泛化,體現(xiàn)事件的上下位關(guān)系。事實(shí)圖譜中的類和子類通過(guò)謂詞關(guān)系連接到事理圖譜中的具體事理中,事實(shí)圖譜中的實(shí)體通過(guò)謂詞關(guān)系連接到具體事件上,將兩類圖譜有機(jī)地連接起來(lái)。

    所以融合本質(zhì)就是通過(guò)謂詞關(guān)系,將事理圖譜和對(duì)應(yīng)概念的事實(shí)圖譜鏈接成一個(gè)語(yǔ)義內(nèi)容和邏輯關(guān)系更豐富的知識(shí)圖譜。顯然,融合過(guò)程中可以利用已有信息不斷補(bǔ)充和反向校驗(yàn)其他信息,所以知識(shí)融合的過(guò)程也是一個(gè)不斷互相補(bǔ)充互相完善的過(guò)程。

    首先,在構(gòu)建過(guò)程中需要一些通用資源,例如:中文動(dòng)詞詞典、同義詞典、來(lái)自于通用知識(shí)庫(kù)(例如:wikipedia、freebase等)的同義詞、語(yǔ)義上下位關(guān)系等資源。

    其次,用以構(gòu)建的數(shù)據(jù)源主要是兩類,一類是功能文檔、產(chǎn)品文檔等帶有場(chǎng)景和邏輯順承關(guān)系的文檔類數(shù)據(jù);另一類是問(wèn)答對(duì)話類帶有大量領(lǐng)域關(guān)鍵詞和謂詞邏輯關(guān)系的數(shù)據(jù)。事實(shí)圖譜和事理圖譜的分別建立也都是基于這類數(shù)據(jù)。

    這里主要介紹在已建立了基礎(chǔ)的事實(shí)圖譜和事理圖譜,融合和共建新架構(gòu)圖譜的流程:

    (1)利用動(dòng)詞詞典,構(gòu)造謂詞關(guān)系集。

    (2)利用事實(shí)同義詞典,從事理圖譜中發(fā)現(xiàn)相關(guān)實(shí)體并篩選。

    例如:事實(shí)圖譜中存在Class=(員工),事理圖譜中存在Event=<通知相關(guān)人員>,利用同義詞“員工:人員,發(fā)現(xiàn),<通知相關(guān)人員>-[通知]-(員工)”這樣的連接關(guān)系,并關(guān)聯(lián)。

    (3)孤島事件中挖掘新實(shí)體,并歸類新類。

    (4)篩選事實(shí)-謂詞組合,產(chǎn)生新的事件/事理。

    例如:事實(shí):(服務(wù)器)(交換機(jī))(刀片機(jī))…結(jié)合謂詞:

    “重啟”,產(chǎn)生新的事件,<重啟服務(wù)器><重啟交換機(jī)>

    <重啟刀片機(jī)>

    (5)事件泛化找到新的事理。

    例如:事實(shí):(服務(wù)器),在Class=設(shè)備,<重啟服務(wù)器>,

    泛化為<重啟設(shè)備>

    (6)計(jì)算事理間的邏輯關(guān)系。

3 研究成果

    本文實(shí)驗(yàn)基于國(guó)網(wǎng)客服人工智能中心和清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室聯(lián)合構(gòu)建知識(shí)圖譜和對(duì)應(yīng)對(duì)話系統(tǒng),其中基礎(chǔ)事實(shí)圖譜數(shù)據(jù)和事理圖譜數(shù)據(jù)分別由國(guó)網(wǎng)培訓(xùn)文檔、標(biāo)準(zhǔn)運(yùn)維解決方案文檔、故障分析報(bào)告、客服常見問(wèn)答問(wèn)題等文檔數(shù)據(jù)構(gòu)造。實(shí)驗(yàn)最后獲得如表1所示成果。

rgzn2-b1.gif

    圖4展示了局部融合圖譜。

rgzn2-t4.gif

    本文在該知識(shí)圖譜和清華語(yǔ)義平臺(tái)的基礎(chǔ)上建立了針對(duì)客服系統(tǒng)的相應(yīng)知識(shí)管理及對(duì)話系統(tǒng),在客服應(yīng)答、故障查修、運(yùn)維狀態(tài)跟蹤等場(chǎng)景下均獲得了較好的應(yīng)用效果。

4 結(jié)論

    本文提出了一套基于事實(shí)圖譜和事理圖譜融合的新型知識(shí)圖譜構(gòu)建框架,該框架不僅包含了相關(guān)垂直領(lǐng)域的各類知識(shí)信息,還將基礎(chǔ)語(yǔ)義信息和推理信息融入其中。該框架構(gòu)建過(guò)程中能夠不斷鏈接映射并互相補(bǔ)充,達(dá)到圖譜動(dòng)態(tài)擴(kuò)展的目標(biāo),有效提高了圖譜構(gòu)建效率,降低了圖譜構(gòu)建的人工成本。最后成功建設(shè)了一個(gè)較為完善的垂直領(lǐng)域混合型圖譜,并在相關(guān)問(wèn)答知識(shí)類應(yīng)用中對(duì)其性能進(jìn)行了較好的驗(yàn)證。

參考文獻(xiàn)

[1] MCTEAR M F.Spoken dialogue technology:enabling the conversational user interface[J].ACM Computing Surveys,2002,34(1):90-169.

[2] 代文韜,林詩(shī)璐,朱小燕,等.基于知識(shí)圖譜的保險(xiǎn)領(lǐng)域?qū)υ捪到y(tǒng)構(gòu)建[J].電子技術(shù)應(yīng)用,2019,45(9):18-21,27.

[3] LEE C,JUNG S,KIM K,et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering,2010,4(1):1-22.

[4] 李剛,黃永峰.一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用,2018,44(1):118-120,124.

[5] 金鵬,楊忠良,黃永峰.基于卷積神經(jīng)網(wǎng)絡(luò)的詩(shī)詞隱寫檢測(cè)方法[J].電子技術(shù)應(yīng)用,2018,44(10):114-117,126.

[6] Ding Xiao,Qin Bing,Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP),2013:311-319.

[7] HUANG M,ZHU X,HAO Y,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,2004,20(18):3604-3612.




作者信息:

楊  維

(國(guó)家電網(wǎng)客服中心 信息技術(shù)部,天津300000)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。