文獻標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規(guī)則和詞典的用電安全領(lǐng)域命名實體識別[J].電子技術(shù)應(yīng)用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
0 引言
命名實體識別[1-3](Named Entity Recognition,NER)在通用領(lǐng)域中主要是指識別文本中的人名、地名、機構(gòu)名、時間、貨幣等具有特定意義的實體。目前,命名實體識別的主要方法包括三類:基于規(guī)則[4]和詞典[5-6]的方法、基于統(tǒng)計機器學(xué)習(xí)的方法[7]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]。
目前,用電安全領(lǐng)域缺乏權(quán)威數(shù)據(jù)集[9],命名實體識別研究工作首先需要對語料集進行序列標(biāo)注,標(biāo)記非結(jié)構(gòu)文本中的相關(guān)實體、無關(guān)字符、詞性序列等,在此研究背景下,采用統(tǒng)計機器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)的方法較難獲取大規(guī)模的訓(xùn)練語料集。因此,本文主要基于規(guī)則和詞典的方法對實體命名識別進行第一階段研究,發(fā)掘用電安全領(lǐng)域?qū)嶓w構(gòu)詞規(guī)則及詞性特征,構(gòu)建領(lǐng)域詞典及規(guī)則模板,進一步擴充語料庫,為后續(xù)用電安全領(lǐng)域命名實體識別的機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)方法的研究奠定基礎(chǔ)。
從技術(shù)角度分析,如果構(gòu)建的領(lǐng)域詞典能夠覆蓋待識別文本中絕大多數(shù)相關(guān)實體,那么,基于詞典的命名實體識別方法將具有高準確度及高響應(yīng)度。但是,領(lǐng)域?qū)嶓w的多樣性、復(fù)雜性、衍生性導(dǎo)致構(gòu)建覆蓋全面的高質(zhì)量詞典較為困難。因此,基于詞典的方法通常是基于規(guī)則方法的輔助補充手段[10]。基于規(guī)則的實體命名識別多采用人工歸納并構(gòu)造規(guī)則模板,選用特征包括標(biāo)點符號、關(guān)鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規(guī)則模板的正則匹配為主要手段[11]。當(dāng)語料規(guī)模不大且提取的規(guī)則能比較精確地反映語言現(xiàn)象時,基于規(guī)則和詞典的方法其性能要優(yōu)于基于統(tǒng)計的方法[12]。
另一方面,物聯(lián)網(wǎng)設(shè)備和數(shù)據(jù)的爆發(fā)式增長,使得基于云計算模型的聚合性服務(wù)逐漸顯露出其在實時性、網(wǎng)絡(luò)制約、資源開銷等方面的不足。為彌補集中式云計算的不足,本文采用邊緣計算架構(gòu),其優(yōu)勢在于能夠在數(shù)據(jù)產(chǎn)生側(cè)快捷、高效地響應(yīng)業(yè)務(wù)需求,減小服務(wù)對網(wǎng)絡(luò)的依賴,在離線狀態(tài)下也能夠提供基礎(chǔ)業(yè)務(wù)服務(wù)。
本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000005035。
作者信息:
袁金斗1,潘明明1,張 騰2,姜 玨1
(1.中國電力科學(xué)研究院有限公司,北京100192;2.國網(wǎng)江蘇省電力有限公司,江蘇 南京210000)