文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.11.003
引用格式: 俞遠哲,王金雙,鄒霞. 基于文檔圖結構的惡意PDF文檔檢測方法[J].信息技術與網(wǎng)絡安全,2021,40(11):16-23.
0 引言
PDF(Portable Document Format)文檔的使用非常廣泛。隨著版本的更新?lián)Q代,PDF文檔包含的功能也變得多種多樣,但其中一些鮮為人知的功能(如文件嵌入、JavaScript代碼執(zhí)行、動態(tài)表單等)越來越多地被不法分子利用,來實施惡意網(wǎng)絡攻擊行為[1]。APT(Advanced Persistent Threat)攻擊[2]常常構造巧妙偽裝的惡意PDF文檔,通過釣魚郵件攻擊等手段誘騙受害者下載,從而侵入或破壞計算機系統(tǒng)。相比傳統(tǒng)的惡意可執(zhí)行程序,惡意文檔具有更強的迷惑性。
基于機器學習的檢測方法被研究人員廣為使用,主要可以分為靜態(tài)檢測、動態(tài)檢測和動靜結合檢測方法[3]。而現(xiàn)有的惡意文檔特征選擇方法大多依賴于專家的知識驅動,在惡意文檔的手動分析期間進行觀察來選擇特征集(如調(diào)用類對象的數(shù)量、文檔頁數(shù)或版本號等),或是通過數(shù)學統(tǒng)計分析將特征細化(如某類對象在所有對象中的占比)。由于特征可選取的范圍很大,如果僅僅根據(jù)經(jīng)驗選取了一部分作為特征集,就會喪失文檔的部分信息,無法全面地表達文檔特性。
由于PDF文檔格式的復雜性,其邏輯結構包含了大量的文檔語義。文獻[4]認為通過對結構屬性的綜合分析能夠解釋惡意和良性PDF文檔之間的顯著結構差異。因此本文設計通過綜合分析文檔的邏輯結構,以文檔的結構圖為特征進行檢測,而不是獨立的結構路徑。即使攻擊者知道哪些對象是成功檢測的關鍵,并可能針對性地修改某一特定路徑,但這樣就會破壞文檔的整體結構,因此逃避檢測的成本很高。
本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000003843
作者信息:
俞遠哲,王金雙,鄒 霞
(陸軍工程大學 指揮控制工程學院,江蘇 南京210007)