引用格式:武劍濤,李俊達(dá),李佰文,等. 面向新聞的長文本事件抽取方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(5):21-28.
引言
事件抽取是自然語言處理中的一項關(guān)鍵技術(shù),其核心目標(biāo)是從非結(jié)構(gòu)化文本中識別并提取出特定事件的信息,包括事件類型、參與者、時間、地點(diǎn)等關(guān)鍵要素,并以結(jié)構(gòu)化形式呈現(xiàn)出來。通過新聞事件抽取技術(shù),能夠從海量新聞文本中實(shí)時提取出關(guān)鍵事件信息,為知識圖譜的構(gòu)建提供高質(zhì)量的數(shù)據(jù)支持。同時,基于對這些信息的實(shí)時分析,可以快速識別出正在發(fā)酵的熱點(diǎn)事件,評估其輿論熱度及發(fā)展趨勢,從而為輿情監(jiān)控和決策支持提供精準(zhǔn)、及時的參考依據(jù)。
文本事件抽取的研究經(jīng)歷了從規(guī)則方法到機(jī)器學(xué)習(xí),再到深度學(xué)習(xí)的演進(jìn)。早期研究主要依賴人工規(guī)則和傳統(tǒng)機(jī)器學(xué)習(xí)方法,例如,Liao等[1]基于條件隨機(jī)場事件檢測方法,解決了從文本中識別事件觸發(fā)詞的問題,為事件抽取任務(wù)奠定了基礎(chǔ)。Ji等[2]提出了基于支持向量機(jī)的論元角色標(biāo)注方法,通過分類模型識別事件參與者及其角色,提升了事件結(jié)構(gòu)的完整性。隨著深度學(xué)習(xí)的興起,Chen等[3]提出了基于動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)的事件抽取方法,解決了傳統(tǒng)方法難以捕捉文本中長距離依賴關(guān)系的問題。近年來,預(yù)訓(xùn)練語言模型(如BERT[4]、GPT[5])的引入進(jìn)一步推動了該領(lǐng)域的發(fā)展,Li等[6]提出的多階圖卷積網(wǎng)絡(luò)方法通過建模事件內(nèi)部關(guān)系,為解決多事件共存場景下的信息抽取難題提供了新思路,但其端到端處理模式仍受限于新聞文本的跨段落特性。與此同時,機(jī)器閱讀理解(Machine Reading Comprehension, MRC)技術(shù)也被引入事件抽取任務(wù),Du等[7]提出的基于MRC框架的方法將事件抽取轉(zhuǎn)化為問答問題,通過預(yù)訓(xùn)練語言模型生成答案,有效提升了泛化能力和長文本處理效果。
然而,新聞文本的特殊性對現(xiàn)有方法提出了獨(dú)特挑戰(zhàn)。王人玉等[8]的研究表明,新聞報道中多個獨(dú)立事件常以倒金字塔結(jié)構(gòu)分布在相鄰段落,導(dǎo)致事件要素的跨段落分散;Li等[9]進(jìn)一步指出,新聞段落間的敘事非連續(xù)性事件要素定位誤差和敘事跳躍性使得端到端模型難以有效捕捉局部語義焦點(diǎn)。這些結(jié)構(gòu)性特征與BERT等預(yù)訓(xùn)練模型的長度限制共同作用,導(dǎo)致傳統(tǒng)篇章級方法[10]在處理多事件新聞時丟失關(guān)鍵事件要素。以DuEEFin[11]數(shù)據(jù)集中的《安琪酵母股份有限公司關(guān)于股東通過大宗交易減持股份的公告》(下文簡稱為公告)為例,該文本通過“重要提示”“減持情況”和“其他事項”三個獨(dú)立章節(jié)分別承載減持主體“湖北日升”的持股信息(5657 41%)、減持操作(5 417 651股)及合規(guī)聲明,形成典型的多段落協(xié)同敘事結(jié)構(gòu)。這種跨段落分布特征與文本中大量非事件信息交織,易使篇章級抽取模型產(chǎn)生兩種典型錯誤:一是全局語義理解導(dǎo)致的冗余信息干擾,二是事件稀疏性引發(fā)的要素漏檢。
針對上述問題,基于文本結(jié)構(gòu)的分段處理方法展現(xiàn)出更強(qiáng)的適應(yīng)性:通過語義分塊將長文本解構(gòu)為局部信息單元,既可規(guī)避跨段落要素的干擾,又能通過分段抽取-合并策略解決多事件并行處理難題。該方法與新聞文本的多事件分布特性和復(fù)雜敘事結(jié)構(gòu)形成映射關(guān)系,在保持事件要素完整性的同時,有效提升了實(shí)際業(yè)務(wù)場景中的信息抽取準(zhǔn)確率。
基于以上研究,本文提出一種層級化事件抽取框架(Hierarchical Event Extraction Framework, HEEF),本框架核心包含:(1) 采用語義分割的長文本分塊技術(shù),通過上下文感知的段落劃分避免事件要素割裂;(2)構(gòu)建基于機(jī)器閱讀理解(MRC)的聯(lián)合抽取模型,通過定制問答對實(shí)現(xiàn)事件類型與論元角色的精準(zhǔn)解析;(3)設(shè)計跨分塊事件融合策略,通過時空語義約束實(shí)現(xiàn)事件聚合。該框架通過“分塊-抽取-融合”的遞進(jìn)式處理,有效應(yīng)對新聞文本中多事件共存、跨段落分布與語義跳躍性等挑戰(zhàn),為長文本事件抽取提供系統(tǒng)性解決方案。
本文詳細(xì)內(nèi)容請下載:
http://theprogrammingfactory.com/resource/share/2000006543
作者信息:
武劍濤,李俊達(dá),李佰文,淮曉永
(華北計算機(jī)系統(tǒng)工程研究所,北京100083)