文獻標識碼:A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式:裴卓雄,楊敏,楊婧.基于TextCNN-Bert融合模型的不良信息識別技術[J].網(wǎng)絡安全與數(shù)據(jù)治理,2023,42(8):72-76.
0 引言
隨著互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展,網(wǎng)絡上不良信息的泛濫引發(fā)了諸多社會問題,特別是歷史、時政新聞等敏感領域的不良信息,通過編排、篡改、杜撰、偽造的方式,具有極強的迷惑性和欺騙性,腐蝕人們的思想,影響人們的價值觀和判斷能力,危害社會安全[1]。文本作為主要傳播方式,研究敏感領域不良信息的識別技術具有深遠意義。
自然語言處理技術( Natural Language Processing, NLP)能夠對文本進行深入分析和理解,從而實現(xiàn)文本的分類和識別。Kim[2]提出一種用于文本分類的卷積神經(jīng)網(wǎng)絡模型TextCNN,可以在一定程度上避免梯度消失的問題,而且在處理短文本和固定長度文本時表現(xiàn)良好。Lai[3]提出了文本分類模型RCNN,同時結合了卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡的優(yōu)點。Wang[4]比較不同循環(huán)神經(jīng)網(wǎng)絡模型在文本分類任務中的性能,表明了LSTM模型在文本分類的優(yōu)勢。Devlin[5]提出了BERT模型,該模型是一種基于Transformer網(wǎng)絡的預訓練模型,可用于自然語言處理任務,如文本分類、語言推斷等。Chen[6]提出了一種基于雙向情感表情符號嵌入和基于注意力的LSTM的Twitter情感分析方法,該方法使用雙向LSTM來學習句子中的上下文信息,使用注意力機制來加強對重要信息的關注,使用情感表情符號來增強情感分類的精度。李志杰[7]提出一種基于 LSTM 和 TextCNN 的聯(lián)合模型,捕捉文本中的上下文關系和局部特征,提高短文本分類的準確性。Sanagavarapu[8]提出BiLSTM和人工神經(jīng)網(wǎng)絡ANN組成的混合模型,通過上下位詞的概念獲取新聞的語義并映射到ANN模型上,提升對新聞文章分類的準確性。Rehman[9]提出了一種基于CNNLSTM的混合模型,用于提高電影評論情感分析的準確性。該模型利用CNN提取局部特征,LSTM則用于學習序列信息,從而結合了兩種模型的優(yōu)點。
敏感領域屬于專業(yè)領域,不良信息的識別技術研究十分有限,通用的識別技術可以直接應用于識別,但存在以下問題:一是領域特定語言和術語問題。敏感領域具有豐富的領域特定語言和術語,這些語言和術語可能對于通用模型不易理解,從而導致文本識別準確率下降。二是背景知識問題。敏感領域涉及敏感事件、人物和背景等方面的知識,這些知識對于模型來說可能是未知的,需要進行特殊的處理才能進行識別和理解。三是文本復雜性的問題。敏感領域文本非常復雜,包含大量的隱喻、比喻和引申意義,這些都需要模型具備識別和理解的能力。
因此,本文將敏感領域不良信息的識別問題轉化為敏感領域主題識別任務和情感隱喻識別任務,提出一種基于TextCNNBert融合模型,既利用TextCNN對關鍵詞和局部特征更加敏感的優(yōu)勢,準確識別敏感領域的特定語言和術語;又能利用Bert的預訓練能力和自注意力機制,提升對隱喻、比喻和引申意的識別。實驗結果表明,本模型在準確率、召回率、精確率等方面識別效果良好。
本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000005470
作者信息:
裴卓雄1,楊敏2,楊婧2
(1.國家計算機網(wǎng)絡應急技術處理協(xié)調(diào)中心,北京100032;2.國家計算機網(wǎng)絡應急技術處理協(xié)調(diào)中心山西分中心,山西太原044400)