文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.001
引用格式: 申高寧,陳志翔,王輝,等. 基于擠壓激勵網絡的惡意代碼家族檢測方法[J].信息技術與網絡安全,2022,41(6):1-9.
0 引言
在過去幾年里隨著互聯(lián)網的飛速發(fā)展,惡意代碼數(shù)量也呈爆發(fā)式增長。2020年瑞星“云安全”系統(tǒng)共截獲病毒樣本總量1.48億個[1],病毒感染次數(shù)為3.52億次,病毒總體數(shù)量比2019年同期上漲43.71%,惡意代碼已經成為網絡安全的重要威脅之一[2]。惡意軟件作者經常會重用代碼用來生成具有相似特征的其他惡意變體,而這些惡意變體通??梢詺w類為同一個惡意軟件家族。因此,識別惡意軟件家族的能力變得十分重要,通過對惡意代碼的分類,可以更好防范惡意代碼攻擊。
近年來,惡意軟件檢測分類出現(xiàn)了靜態(tài)分析和動態(tài)分析。靜態(tài)分析側重于統(tǒng)計特征,例如API調用、操作碼序列等。Wang[3]等人通過提取權限、硬件功能和接收者動作等122個特征,使用多種機器學習分類器進行訓練和測試,并使用隨機森林(Random Forest)分類器獲得較高的分類準確率。動態(tài)分析則是使用虛擬的環(huán)境來分析惡意應用程序的行為[4]。但是這些技術大多數(shù)需要提取大量特征,檢測效率不高,對特征的選擇需要一些專家知識,并且有一定的主觀性。
為了降低特征工程成本和領域專家知識,一些研究人員使用可視化方法來解決惡意軟件家族分類問題。例如,Nataraj等人[5]提出把惡意代碼二進制文件轉化為灰度圖,然后利用k近鄰算法對惡意代碼進行分類,這種方法相比于之前未轉換灰度圖,直接分類的方法準確率有一定提高,但是該方法用GIST提取圖片特征需要耗費大量時間,導致效率不高。
隨著深度學習在圖像分類領域的快速發(fā)展,有學者將深度學習引入到惡意代碼檢測領域。Choi等人[6]把惡意代碼二進制文件轉化為灰度圖像,運用深度學習的技術,在12 000個樣本中達到了95.66%的準確率。Su等人[7]用light-weight DL技術進行惡意代碼家族分類,取得94.00%的成績,但是他們提出的網絡只對兩類家族進行分類,有一定的局限性。Cui等人利用卷積神經網絡在圖像分類的出色表現(xiàn),并分別利用蝙蝠算法[8]和NSGA-Ⅱ算法[9]處理惡意代碼樣本數(shù)量不均的問題,該方法準確率明顯高于傳統(tǒng)機器學習方法,且算法復雜度較低。隨著更深網絡的提出,Rezende等人提出將VGG16網絡[10]以ResNet網絡[11]運用在惡意代碼檢測分類上,該方法準確率有所提升,但是參數(shù)量變得巨大,分類效率有待提升。
基于上述方法產生的問題,本文提出了一種基于卷積神經網絡[12]的分類方法SE-CNN,實現(xiàn)惡意代碼家族分類。首先將惡意代碼的二進制文件轉化成灰度圖得到灰度圖像數(shù)據集,然后構建SE-CNN網絡模型對灰度圖像數(shù)據集進行訓練,最后實現(xiàn)對惡意代碼的檢測分類。該方法采用CNN對灰度圖像自動提取特征,解決了特征提取慢且耗時的問題;通過結合SE模塊自適應學習通道重要程度信息,并賦予特征通道權重,從而激勵有用特征信息,同時抑制無用信息,提升了模型分類準確率。實驗結果表明,本文方法準確率高于傳統(tǒng)機器學習方法,且參數(shù)量相較于先進的深度學習方法更低。
本文詳細內容請下載:http://theprogrammingfactory.com/resource/share/2000004527
作者信息:
申高寧1,2,陳志翔3,王 輝3,陳 姮1,2
(1.閩南師范大學 計算機學院,福建 漳州363000;
2.數(shù)據科學與智能應用福建省高校重點實驗室,福建 漳州363000;
3.閩南師范大學 物理與信息工程學院,福建 漳州363000)