中文引用格式: 葛朔,鄒華,潘明明,等. 基于機(jī)器閱讀理解的電力安全命名實(shí)體識(shí)別方法[J]. 電子技術(shù)應(yīng)用,2025,51(6):21-26.
英文引用格式: Ge Shuo,Zou Hua,Pan Mingming,et al. Named entity recognition method for power safety based on machine reading comprehension[J]. Application of Electronic Technique,2025,51(6):21-26.
引言
電力行業(yè)是整個(gè)國(guó)家的能源支撐[1],而電力安全檢查既是減少生產(chǎn)安全事故、保障生命財(cái)產(chǎn)安全的重要環(huán)節(jié),也是國(guó)家電網(wǎng)公司人力成本重要支出環(huán)節(jié)。當(dāng)前電力安全檢查領(lǐng)域知識(shí)以非結(jié)構(gòu)化文檔形式存在,亟需建立統(tǒng)一的電力安全領(lǐng)域知識(shí)體系,而知識(shí)圖譜為構(gòu)建知識(shí)體系的最佳手段[2]。因此,通過(guò)研究針對(duì)電力安全領(lǐng)域?qū)嶓w的命名實(shí)體識(shí)別方法,準(zhǔn)確識(shí)別電力安全領(lǐng)域?qū)嶓w,并在此基礎(chǔ)上構(gòu)建領(lǐng)域知識(shí)圖譜,對(duì)提升電力系統(tǒng)智能化自動(dòng)化水平具有積極的意義。
當(dāng)前許多學(xué)者對(duì)電力領(lǐng)域命名實(shí)體識(shí)別做了大量的研究,主要分為基于規(guī)則和字典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法及基于深度學(xué)習(xí)的方法。曹靖等[3]與劉梓權(quán)等[4]通過(guò)構(gòu)建電力領(lǐng)域?qū)I(yè)詞典,將完成分詞的語(yǔ)料在詞庫(kù)中進(jìn)行匹配以完成命名實(shí)體識(shí)別工作。然而,基于規(guī)則與詞典方法依賴于行業(yè)專家知識(shí)、可遷移性較差且需要不斷進(jìn)行維護(hù)。邵詩(shī)韻等[5]利用條件隨機(jī)場(chǎng)模型完成電力工程標(biāo)書(shū)中文本實(shí)體的識(shí)別,實(shí)現(xiàn)對(duì)關(guān)鍵內(nèi)容的自動(dòng)抽?。粭罹S等[6]采用條件隨機(jī)場(chǎng)模型從預(yù)料中識(shí)別出電力標(biāo)準(zhǔn)內(nèi)容關(guān)聯(lián)的實(shí)體名。然而,基于統(tǒng)計(jì)學(xué)習(xí)的方法存在時(shí)間復(fù)雜度較高、難以對(duì)大規(guī)模樣本訓(xùn)練的問(wèn)題。馮斌等[7]將注意力機(jī)制結(jié)合雙向長(zhǎng)短期網(wǎng)絡(luò)模型實(shí)現(xiàn)電力設(shè)備缺陷關(guān)鍵類型實(shí)體的提取;蔣晨等[8]對(duì)通用BERT進(jìn)行參數(shù)初置,解決對(duì)電力信息的自動(dòng)挖掘問(wèn)題。
近年來(lái),許多研究聚焦于將Transformer方法應(yīng)用于電力領(lǐng)域命名實(shí)體識(shí)別。顧亦然等[9]利用Transformer模型處理語(yǔ)料增強(qiáng)句子語(yǔ)義表示,解決電機(jī)領(lǐng)域中的實(shí)體識(shí)別問(wèn)題;國(guó)網(wǎng)江蘇省電力公司[10]利用Transformer模型捕捉單詞之間的關(guān)系與上下文,但對(duì)電力專業(yè)領(lǐng)域的特點(diǎn)關(guān)注不足;徐曉軼等[11]在模型中引入Transformer編碼器機(jī)制,提升了模型在電力垂直領(lǐng)域的適應(yīng)性。這些研究提升了在電力領(lǐng)域命名實(shí)體識(shí)別任務(wù)的效果,但在檢修規(guī)程等電力安全領(lǐng)域文本實(shí)體的實(shí)際分布中,存在大量嵌套實(shí)體等復(fù)雜實(shí)體,當(dāng)前研究對(duì)該部分實(shí)體關(guān)注度不足,導(dǎo)致識(shí)別準(zhǔn)確率受到影響。
為解決電力安全領(lǐng)域文本中的嵌套實(shí)體問(wèn)題,本文提出了一種基于機(jī)器閱讀理解的命名實(shí)體識(shí)別方法。針對(duì)電力安全領(lǐng)域中存在大量嵌套實(shí)體的實(shí)際情況以及傳統(tǒng)基于機(jī)器閱讀理解方法對(duì)先驗(yàn)知識(shí)利用不充分的問(wèn)題,通過(guò)引入層次注意力機(jī)制的方法,對(duì)文本中的實(shí)體進(jìn)行識(shí)別抽取,實(shí)現(xiàn)電力安全實(shí)體的精準(zhǔn)識(shí)別。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://theprogrammingfactory.com/resource/share/2000006557
作者信息:
葛朔1,鄒華1,潘明明2,王白根3
(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院(國(guó)家示范性軟件學(xué)院),北京 100876;
2.中國(guó)電力科學(xué)研究院有限公司,北京 100192;
3.國(guó)網(wǎng)安徽省電力有限公司安慶供電公司,安徽 安慶 246000)