《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于機(jī)器閱讀理解的電力安全命名實(shí)體識(shí)別方法
基于機(jī)器閱讀理解的電力安全命名實(shí)體識(shí)別方法
電子技術(shù)應(yīng)用
葛朔1,鄒華1,潘明明2,王白根3
1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院(國(guó)家示范性軟件學(xué)院);2.中國(guó)電力科學(xué)研究院有限公司; 3.國(guó)網(wǎng)安徽省電力有限公司安慶供電公司
摘要: 為解決現(xiàn)有命名實(shí)體識(shí)別方法在電力安全規(guī)程等領(lǐng)域文本中識(shí)別效果不佳的問(wèn)題,提出了一種基于機(jī)器閱讀理解的電力安全命名實(shí)體識(shí)別方法。首先,使用預(yù)訓(xùn)練模型對(duì)待識(shí)別文本進(jìn)行編碼處理得到文本向量表示。其次,利用層次化注意力機(jī)制捕捉嵌套實(shí)體間的層次關(guān)系,重新分配文本序列的注意力權(quán)重;在此基礎(chǔ)上,利用分類器預(yù)測(cè)文本中實(shí)體范圍,得到最終實(shí)體識(shí)別結(jié)果。將該方法在ACE 2005與OntoNotes 4.0公開(kāi)數(shù)據(jù)集上進(jìn)行驗(yàn)證,對(duì)比主流方法其取得最優(yōu)的識(shí)別效果,在電力安全領(lǐng)域?qū)嶓w識(shí)別場(chǎng)景下,該方法可達(dá)到89.3%的識(shí)別準(zhǔn)確率,實(shí)現(xiàn)電力安全領(lǐng)域命名實(shí)體的精準(zhǔn)識(shí)別。
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.256517
中文引用格式: 葛朔,鄒華,潘明明,等. 基于機(jī)器閱讀理解的電力安全命名實(shí)體識(shí)別方法[J]. 電子技術(shù)應(yīng)用,2025,51(6):21-26.
英文引用格式: Ge Shuo,Zou Hua,Pan Mingming,et al. Named entity recognition method for power safety based on machine reading comprehension[J]. Application of Electronic Technique,2025,51(6):21-26.
Named entity recognition method for power safety based on machine reading comprehension
Ge Shuo1,Zou Hua1,Pan Mingming2,Wang Baigen3
1.School of Computer Science (National Pilot Software Engineering School), Beijing University of Posts and Telecommunications;2.China Electric Power Research Institute; 3.Anqing Power Supply Company of State Grid Anhui Electric Power Co., Ltd.
Abstract: To address the issue of poor recognition performance of existing named entity recognition methods in texts from fields such as electric power safety regulations, this paper introduces a method for named entity recognition in power safety based on machine reading comprehension. Firstly, a pre-trained model is used to encode the text to be recognized to obtain the vector representation of the text. Secondly, a hierarchical attention mechanism is utilized to capture the hierarchical relationships among nested entities and re-allocate the attention weights of the text sequence. On this basis, a classifier is employed to predict the entity scope in the text, and the final entity recognition results are obtained. The method is validated on the ACE 2005 and OntoNotes 4.0 public datasets, achieving optimal recognition performance compared to mainstream approaches. In the context of entity recognition for power safety scenarios, the method attains an accuracy rate of 89.3%, enabling precise identification of named entities in the power safety domain.
Key words : power safety;named entity recognition;machine reading comprehension;attention mechanism

引言

電力行業(yè)是整個(gè)國(guó)家的能源支撐[1],而電力安全檢查既是減少生產(chǎn)安全事故、保障生命財(cái)產(chǎn)安全的重要環(huán)節(jié),也是國(guó)家電網(wǎng)公司人力成本重要支出環(huán)節(jié)。當(dāng)前電力安全檢查領(lǐng)域知識(shí)以非結(jié)構(gòu)化文檔形式存在,亟需建立統(tǒng)一的電力安全領(lǐng)域知識(shí)體系,而知識(shí)圖譜為構(gòu)建知識(shí)體系的最佳手段[2]。因此,通過(guò)研究針對(duì)電力安全領(lǐng)域?qū)嶓w的命名實(shí)體識(shí)別方法,準(zhǔn)確識(shí)別電力安全領(lǐng)域?qū)嶓w,并在此基礎(chǔ)上構(gòu)建領(lǐng)域知識(shí)圖譜,對(duì)提升電力系統(tǒng)智能化自動(dòng)化水平具有積極的意義。

當(dāng)前許多學(xué)者對(duì)電力領(lǐng)域命名實(shí)體識(shí)別做了大量的研究,主要分為基于規(guī)則和字典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法及基于深度學(xué)習(xí)的方法。曹靖等[3]與劉梓權(quán)等[4]通過(guò)構(gòu)建電力領(lǐng)域?qū)I(yè)詞典,將完成分詞的語(yǔ)料在詞庫(kù)中進(jìn)行匹配以完成命名實(shí)體識(shí)別工作。然而,基于規(guī)則與詞典方法依賴于行業(yè)專家知識(shí)、可遷移性較差且需要不斷進(jìn)行維護(hù)。邵詩(shī)韻等[5]利用條件隨機(jī)場(chǎng)模型完成電力工程標(biāo)書(shū)中文本實(shí)體的識(shí)別,實(shí)現(xiàn)對(duì)關(guān)鍵內(nèi)容的自動(dòng)抽?。粭罹S等[6]采用條件隨機(jī)場(chǎng)模型從預(yù)料中識(shí)別出電力標(biāo)準(zhǔn)內(nèi)容關(guān)聯(lián)的實(shí)體名。然而,基于統(tǒng)計(jì)學(xué)習(xí)的方法存在時(shí)間復(fù)雜度較高、難以對(duì)大規(guī)模樣本訓(xùn)練的問(wèn)題。馮斌等[7]將注意力機(jī)制結(jié)合雙向長(zhǎng)短期網(wǎng)絡(luò)模型實(shí)現(xiàn)電力設(shè)備缺陷關(guān)鍵類型實(shí)體的提取;蔣晨等[8]對(duì)通用BERT進(jìn)行參數(shù)初置,解決對(duì)電力信息的自動(dòng)挖掘問(wèn)題。

近年來(lái),許多研究聚焦于將Transformer方法應(yīng)用于電力領(lǐng)域命名實(shí)體識(shí)別。顧亦然等[9]利用Transformer模型處理語(yǔ)料增強(qiáng)句子語(yǔ)義表示,解決電機(jī)領(lǐng)域中的實(shí)體識(shí)別問(wèn)題;國(guó)網(wǎng)江蘇省電力公司[10]利用Transformer模型捕捉單詞之間的關(guān)系與上下文,但對(duì)電力專業(yè)領(lǐng)域的特點(diǎn)關(guān)注不足;徐曉軼等[11]在模型中引入Transformer編碼器機(jī)制,提升了模型在電力垂直領(lǐng)域的適應(yīng)性。這些研究提升了在電力領(lǐng)域命名實(shí)體識(shí)別任務(wù)的效果,但在檢修規(guī)程等電力安全領(lǐng)域文本實(shí)體的實(shí)際分布中,存在大量嵌套實(shí)體等復(fù)雜實(shí)體,當(dāng)前研究對(duì)該部分實(shí)體關(guān)注度不足,導(dǎo)致識(shí)別準(zhǔn)確率受到影響。

為解決電力安全領(lǐng)域文本中的嵌套實(shí)體問(wèn)題,本文提出了一種基于機(jī)器閱讀理解的命名實(shí)體識(shí)別方法。針對(duì)電力安全領(lǐng)域中存在大量嵌套實(shí)體的實(shí)際情況以及傳統(tǒng)基于機(jī)器閱讀理解方法對(duì)先驗(yàn)知識(shí)利用不充分的問(wèn)題,通過(guò)引入層次注意力機(jī)制的方法,對(duì)文本中的實(shí)體進(jìn)行識(shí)別抽取,實(shí)現(xiàn)電力安全實(shí)體的精準(zhǔn)識(shí)別。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://theprogrammingfactory.com/resource/share/2000006557


作者信息:

葛朔1,鄒華1,潘明明2,王白根3

(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院(國(guó)家示范性軟件學(xué)院),北京 100876;

2.中國(guó)電力科學(xué)研究院有限公司,北京 100192;

3.國(guó)網(wǎng)安徽省電力有限公司安慶供電公司,安徽 安慶 246000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。