《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電源技術(shù) > 設(shè)計應(yīng)用 > 基于規(guī)則和詞典的用電安全領(lǐng)域命名實體識別
基于規(guī)則和詞典的用電安全領(lǐng)域命名實體識別
2022年電子技術(shù)應(yīng)用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國電力科學(xué)研究院有限公司,北京100192;2.國網(wǎng)江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領(lǐng)域,存在著大量數(shù)據(jù)、知識未得到充分挖掘和利用,構(gòu)建領(lǐng)域知識圖譜不僅可以實現(xiàn)用電安全知識的整合,還能極大地提高電力行業(yè)的工作效率。命名實體識別是構(gòu)建知識圖譜的基礎(chǔ)性工作,研究了基于字典和規(guī)則的命名實體識別,通過領(lǐng)域?qū)嶓w詞典、構(gòu)詞特征字符規(guī)則匹配和詞性組合特征規(guī)則匹配三種方法從非結(jié)構(gòu)文本中準確地提取用電安全相關(guān)實體,為用電安全領(lǐng)域知識圖譜的構(gòu)建提供高質(zhì)量和高精度的實體。為優(yōu)化識別流程、提高響應(yīng)速度,將通用詞性標(biāo)注任務(wù)交由邊緣節(jié)點進行處理,中心服務(wù)器僅需響應(yīng)規(guī)則模板匹配等任務(wù)。在小規(guī)模測試實驗中,綜合使用三種方法對用電安全文本進行領(lǐng)域?qū)嶓w識別,F(xiàn)1值能達到85%以上。
中圖分類號: TP391.1
文獻標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規(guī)則和詞典的用電安全領(lǐng)域命名實體識別[J].電子技術(shù)應(yīng)用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實體識別[1-3](Named Entity Recognition,NER)在通用領(lǐng)域中主要是指識別文本中的人名、地名、機構(gòu)名、時間、貨幣等具有特定意義的實體。目前,命名實體識別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法、基于統(tǒng)計機器學(xué)習(xí)的方法[7]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]。

    目前,用電安全領(lǐng)域缺乏權(quán)威數(shù)據(jù)集[9],命名實體識別研究工作首先需要對語料集進行序列標(biāo)注,標(biāo)記非結(jié)構(gòu)文本中的相關(guān)實體、無關(guān)字符、詞性序列等,在此研究背景下,采用統(tǒng)計機器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)的方法較難獲取大規(guī)模的訓(xùn)練語料集。因此,本文主要基于規(guī)則和詞典的方法對實體命名識別進行第一階段研究,發(fā)掘用電安全領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則及詞性特征,構(gòu)建領(lǐng)域詞典及規(guī)則模板,進一步擴充語料庫,為后續(xù)用電安全領(lǐng)域命名實體識別的機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)方法的研究奠定基礎(chǔ)。

    從技術(shù)角度分析,如果構(gòu)建的領(lǐng)域詞典能夠覆蓋待識別文本中絕大多數(shù)相關(guān)實體,那么,基于詞典的命名實體識別方法將具有高準確度及高響應(yīng)度。但是,領(lǐng)域?qū)嶓w的多樣性、復(fù)雜性、衍生性導(dǎo)致構(gòu)建覆蓋全面的高質(zhì)量詞典較為困難。因此,基于詞典的方法通常是基于規(guī)則方法的輔助補充手段[10]。基于規(guī)則的實體命名識別多采用人工歸納并構(gòu)造規(guī)則模板,選用特征包括標(biāo)點符號、關(guān)鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規(guī)則模板的正則匹配為主要手段[11]。當(dāng)語料規(guī)模不大且提取的規(guī)則能比較精確地反映語言現(xiàn)象時,基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計的方法[12]。

    另一方面,物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長,使得基于云計算模型的聚合性服務(wù)逐漸顯露出其在實時性、網(wǎng)絡(luò)制約、資源開銷等方面的不足。為彌補集中式云計算的不足,本文采用邊緣計算架構(gòu),其優(yōu)勢在于能夠在數(shù)據(jù)產(chǎn)生側(cè)快捷、高效地響應(yīng)業(yè)務(wù)需求,減小服務(wù)對網(wǎng)絡(luò)的依賴,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù)。




本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000005035。




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國電力科學(xué)研究院有限公司,北京100192;2.國網(wǎng)江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。