0 引言
隨著大數(shù)據(jù)與云計算時代的到來,互聯(lián)網(wǎng)技術(shù)為人們的生產(chǎn)生活帶來了極大的便利,但由此帶來的網(wǎng)絡信息安全威脅也日益嚴峻,關乎個人和企業(yè)甚至國家的安全和利益。對個人而言,短信、電子郵件、網(wǎng)絡搜索記錄、照片等都涉及公民隱私信息,惡意攻擊導致的信息泄露會對公民人格尊嚴、財產(chǎn)安全甚至人身安全都造成影響。對企業(yè)而言,網(wǎng)絡信息安全關乎企業(yè)的商業(yè)機密、核心技術(shù)、財務安全等關鍵領域,是企業(yè)正常生產(chǎn)經(jīng)營的保障,在“信息就是價值”的時代意義更為重大。對國家而言,網(wǎng)絡信息安全涉及政治、經(jīng)濟、文化、軍事等各個關鍵領域,美國“棱鏡門”事件充分表明,網(wǎng)絡攻擊和信息竊取可能不僅限于個人行為,也可能是國家行為,這種有組織大規(guī)模的攻擊竊取行為對他國安全構(gòu)成嚴重威脅。
1 網(wǎng)絡信息安全挑戰(zhàn)
網(wǎng)絡信息安全主要包括網(wǎng)絡空間安全和信息內(nèi)容安全,前者主要指網(wǎng)絡中軟件與硬件的安全,后者主要指網(wǎng)絡信息內(nèi)容在生成、傳輸、存儲與使用中的安全,涉及網(wǎng)絡技術(shù)、計算機技術(shù)、密碼學等多學科。近年來信息與互聯(lián)網(wǎng)技術(shù)高速發(fā)展,但與此同時網(wǎng)絡信息安全技術(shù)發(fā)展相對滯后,這也造成國內(nèi)外重大網(wǎng)絡信息安全事件頻發(fā)。
2015年,偉易達公司480萬家長及20萬兒童隱私信息被泄露、日本養(yǎng)老金服務系統(tǒng)遭攻擊致125萬人受影響、優(yōu)步公司5萬司機信息遭泄露、喜達屋旗下54家酒店POS機被植入惡意軟件致用戶信息泄露。2016年,凱悅集團遭惡意軟件入侵致318家酒店的顧客名冊泄露、蘋果商店1 000多款應用被曝存在安全漏洞、阿里巴巴云計算平臺遭黑客攻擊致2 059萬淘寶賬戶信息泄露、俄羅斯黑客盜取2.73億郵箱信息、京東用戶的12 GB數(shù)據(jù)包在網(wǎng)上販賣、MongoDB數(shù)據(jù)庫漏洞致5 800萬商業(yè)用戶信息泄露。2017年,勒索病毒W(wǎng)annaCry在全世界范圍內(nèi)攻擊了30多萬用戶,給150多個國家的金融、醫(yī)療、教育等各個行業(yè)造成了百億美元損失、美國1.98億選民的政治數(shù)據(jù)被泄露、美國信用評級機構(gòu)Equifax遭攻擊致1.43億用戶信息外泄。
2 傳統(tǒng)網(wǎng)絡信息安全策略及缺點
網(wǎng)絡攻擊行為發(fā)生的原因主要包括炫耀技術(shù)、惡意報復、獲取利益、政治目的,常見的攻擊方式包括跨站攻擊、暴力破解、頁面篡改、SQL注入、遠程代碼執(zhí)行、拒絕服務、越權(quán)攻擊等[1],攻擊手法不斷更新變化。人為錯誤、管理不善、程序和系統(tǒng)漏洞以及安全措施不當?shù)仁蔷W(wǎng)絡攻擊可以實施的客觀因素。具體來說,賬號密碼過于簡單或者管理不善,導致網(wǎng)絡犯罪分子偽裝成合法用戶、運維人員或者開發(fā)人員獲取數(shù)據(jù)或者安裝惡意軟件;軟件開發(fā)者使用了不安全的編程接口或者開源代碼,導致軟件存在漏洞或后門遭到控制和攻擊;操作系統(tǒng)未及時安裝補?。粦延袗阂獾膬?nèi)部人士竊取信息或者造成破壞;訪問權(quán)限管理不當導致的誤操作;防火墻、殺毒軟件以及網(wǎng)絡監(jiān)控等防護措施缺失增加了感染病毒的風險。
為了防范網(wǎng)絡風險,傳統(tǒng)的應對策略主要概括為:
(1)規(guī)范管理,加強憑證、秘鑰管理,提高防范意識,合理分配開發(fā)人員和運維人員權(quán)限,制定明確操作規(guī)章杜絕違規(guī)操作,制定突發(fā)事件預案,保證系統(tǒng)和數(shù)據(jù)的快速恢復。
(2)審查審計,嚴格審查軟件代碼和硬件芯片的原始安全隱患和漏洞,防范內(nèi)部人員預留后門和植入惡意代碼,全面審計每條數(shù)據(jù)和操作的來源和去向,對于攻擊和數(shù)據(jù)泄露有跡可循。
(3)全面防范,及時更新操作系統(tǒng)補丁,安裝防火墻和殺毒軟件,對網(wǎng)絡運行狀態(tài)進行監(jiān)控,及時阻斷非法訪問,查殺病毒和惡意軟件。
傳統(tǒng)網(wǎng)絡信息安全策略雖然能夠阻止大部分網(wǎng)絡威脅,但這種被動應對策略也存在明顯不足。首先,目前的網(wǎng)絡攻擊防御都是針對已知的網(wǎng)絡攻擊手段進行檢測,但現(xiàn)在的網(wǎng)絡攻擊方式變化更新很快,攻擊代碼經(jīng)過多層封裝可能就是一種新的病毒,傳統(tǒng)的安全策略對新型攻擊的識別能力不足。其次,一旦有新型攻擊手段,傳統(tǒng)安全策略需要依賴安裝補丁、更新殺毒軟件等方式,響應速度慢而增加了安全風險,應對能力不足。另外,傳統(tǒng)網(wǎng)絡信息安全策略在很多環(huán)節(jié)依賴人工操作,這就增加了人為干預導致的網(wǎng)絡安全風險,增加了防控的難度。在大數(shù)據(jù)時代,傳統(tǒng)網(wǎng)絡安全策略應對復雜多變的網(wǎng)絡環(huán)境明顯有些力不從心。
3 深度學習在網(wǎng)絡信息安全中的應用
深度學習作為機器學習技術(shù)的一個非常重要的新興領域,正被日益廣泛地應用于各個行業(yè)領域。2016年谷歌旗下DeepMind公司研發(fā)的基于深度學習的機器人AlphaGo輕松戰(zhàn)勝了圍棋世界冠軍李世石而轟動世界,表明深度學習技術(shù)有著很強的處理能力以及自我學習能力。當前深度學習在各領域的技術(shù)突破,也為其在網(wǎng)絡信息安全領域的應用提供了理論支持。可以預見,深度學習在網(wǎng)絡安全管理和信息保障中的應用將達到一個前所未有的新高度。
3.1 深度學習發(fā)展歷程
20世紀80年代末,淺層學習的興起依賴于RUMELHART D等人利用反向傳播(Back Propagation, BP)算法提出的多層前反饋神經(jīng)網(wǎng)絡,此后相繼提出的高斯混合(GMMs)、支持向量機(SVM)、條件隨機場(CRF)等淺層模型相較人工規(guī)劃系統(tǒng)可以更加有效地解決多重限制的應用問題,但由于這些淺層結(jié)構(gòu)模型通常不超過2層非線性特征轉(zhuǎn)換層,對于真實世界中需多層網(wǎng)絡訓練的復雜問題,其泛化處理能力和復雜函數(shù)表示能力依然無法滿足要求。
深度學習是機器學習由淺層學習在理論、算法及應用等方面不斷發(fā)展突破而形成的新興領域。深度學習概念在1976年由MARTON F和SALJO R首次提出,并在《學習的本質(zhì)區(qū)別:結(jié)果和過程》中詳細解釋了其含義,但直到2006年,加拿大科學家Hinton的團隊突破性地提出了深度置信網(wǎng)絡(Deep Belief Network, DBN)結(jié)構(gòu),利用每一層受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)[2],以無監(jiān)督學習訓練學到的參數(shù)初始化有監(jiān)督學習訓練,克服了BP算法層數(shù)增加時訓練困難的問題。此后谷歌、微軟、IBM等科技企業(yè)紛紛加大了深度學習的研發(fā)投入,深度學習在自然語言處理、語音識別、計算機視覺等領域的應用也取得了突破性地進展[3]。
3.2 深度學習技術(shù)特征
深度學習在數(shù)據(jù)模型理論方面其實是模仿人類大腦的學習過程,在對大量的數(shù)據(jù)進行提取以及分析的過程中,其數(shù)據(jù)之間會形成相互交叉的、復雜的網(wǎng)絡構(gòu)造,這種構(gòu)造中有著許多的隱層,該隱層并不是人為設定的,而是從海量的數(shù)據(jù)信息中自我學習得出的。因此,這種包含多個隱層的構(gòu)造在處理數(shù)據(jù)信息的時候,可以實現(xiàn)外部信息與內(nèi)部數(shù)據(jù)之間相互協(xié)調(diào)配合,提取出目標信息的深層次特征。
3.3 深度學習在網(wǎng)絡信息安全領域的應用
3.3.1 公共網(wǎng)絡語音監(jiān)管
語音信息是人與人溝通交流的重要載體,除了傳統(tǒng)的電話通信,也誕生了微信等即時通信軟件,但近年來違法分子利用網(wǎng)絡進行電信詐騙、語音恐嚇甚至危害國家安全等犯罪行為,海量語音信息通過人工審核顯然無法實現(xiàn),需要更加高效的語音識別能力才能應對。
在2010年以前,語音識別通常采用HMM-GMM等模型,這些淺層模型雖然經(jīng)過訓練能夠?qū)崿F(xiàn)一定程度上的語音識別功能,但無法充分描述語音的內(nèi)部結(jié)構(gòu)特征及狀態(tài)空間分布,而當時訓練深度的有監(jiān)督的模型則因為梯度不穩(wěn)定、訓練困難且代價高昂等原因都以失敗告終。深度學習徹底改變了語音識別原有技術(shù)框架,利用深度學習技術(shù)進行語音特征提取和聲學建模,可以有效提高語音識別能力。如圖1所示,公共網(wǎng)絡語音信息輸入含多個隱層的深度學習神經(jīng)網(wǎng)絡,將提取的特征信息與語音特征庫進行比對[4],特征庫是大量違法犯罪語音信息樣本訓練深度神經(jīng)網(wǎng)絡得到的抽象特征集合,對比后分離出可疑的語音信息,通過人工分析研判等方式,確定干預的方式。
3.3.2 安卓惡意軟件檢測
智能手機和平板電腦等移動終端能夠更好地滿足移動互聯(lián)時代快節(jié)奏的工作生活方式,包含用戶社會關系、財產(chǎn)信息、位置軌跡等隱私數(shù)據(jù)。2/3以上移動終端使用Android操作系統(tǒng),不法分子利用Android系統(tǒng)開源的特性,開發(fā)惡意軟件對安裝設備實施惡意操作,造成嚴重安全威脅,而傳統(tǒng)檢測技術(shù)對于采用了代碼混淆和重打包技術(shù)的惡意軟件檢出率不高。
如圖2所示,使用大樣本的安卓程序訓練集,提取其中的靜態(tài)特征和動態(tài)特征,生成特征向量訓練深度置信網(wǎng)絡,生成深度學習網(wǎng)絡。利用深度學習網(wǎng)絡對待測Android程序靜態(tài)特征和動態(tài)特征結(jié)合生成的特征向量進行檢查分析[5],可以得到相對準確的結(jié)果。靜態(tài)信息和動態(tài)行為是分析安卓應用程序的主要手段,靜態(tài)特征可通過逆向工程方式提取,動態(tài)特征需要分析Android體系架構(gòu)各層指令信息。
3.3.3 入侵檢測
入侵檢測是為了保護內(nèi)部網(wǎng)絡避免異常訪問或攻擊等惡意活動而造成破壞,入侵方式的日益復雜也給網(wǎng)絡安全帶來嚴峻挑戰(zhàn),訪問控制、防火墻、數(shù)據(jù)加密等傳統(tǒng)應對技術(shù)越來越難以應對。目前的入侵檢測技術(shù)主要包括基于統(tǒng)計、基于聚類、基于分類和基于信息理論這幾種算法方式,雖然在一定條件下有較好的效果,但對于復雜網(wǎng)絡環(huán)境的入侵檢出率還是不理想。
深度學習技術(shù)在入侵檢測中逐漸得到應用,基于循環(huán)神經(jīng)網(wǎng)絡、深度置信網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等深度學習算法的入侵檢測方式都取得了很大突破。一般首先對大量原始數(shù)據(jù)進行預處理得到原始訓練集,然后訓練基于特定算法的神經(jīng)網(wǎng)絡,得到相應的檢測模型。待檢測數(shù)據(jù)預處理后輸入檢測模型,輸出結(jié)果通過分析判斷得到網(wǎng)絡入侵情況。
3.3.4 色情圖像檢測
網(wǎng)絡色情是嚴重的網(wǎng)絡違法犯罪行為,而互聯(lián)網(wǎng)和通信技術(shù)的發(fā)展使得色情信息傳播更加方便快捷和隱蔽,對廣大青少年的身心健康造成嚴重影響。之前圖像識別中常用的模板匹配等方法普遍采用人工特征提取與機器學習的方式,對于色情圖像的識別面臨一些困難,導致很多色情網(wǎng)站屢禁不止。
圖像識別中,圖像特征的提取是圖像識別性能的關鍵?;谄つw檢測的色情識別通過檢測裸露皮膚比例等參數(shù),如HSV色彩模型,再運用相關方法進行判別,但對于復雜紋理和光照效果不理想;基于手工特征提取的色情識別,如視覺詞袋模型,通過相關部位特征提取和分類器獲取分類結(jié)果,速度和精度也不能完全滿足要求。深度學習在色情圖像檢測中的泛化處理能力和魯棒性優(yōu)勢明顯。一種基于深度學習的色情圖像檢測流程如圖3所示,待測圖像輸入卷積神經(jīng)網(wǎng)絡CNN,比如ResNet、VGGNet、AlexNet[6]或者GoogleNet[7],判斷圖片是否是色情圖片。
3.3.5 違法文本信息檢測
不法分子利用互聯(lián)網(wǎng)傳播違法文本信息會造成惡劣的影響,這些信息包括虛假信息、反動信息、詐騙信息等,利用諧音、拆分、拼音等方式可以逃避目前通常采用的敏感詞檢測,這就要求自然語言處理需要更加完善和高效。
自然語言處理通常采用基于統(tǒng)計的淺層模型,多數(shù)研究采用分離詞性標注、語義相關詞、命名實體識別、語義角色標注等方式處理,將若干分離的任務進行特征串聯(lián)增大了誤差,同時忽視了語言的整體性。但隨著深度學習技術(shù)的發(fā)展,自然語言處理的研究成為熱點,卷積、循環(huán)、遞歸等網(wǎng)路模型在自然語言處理上的應用,使得違法文本信息檢測更加準確。
3.3.6 其他應用
深度學習也逐步在網(wǎng)絡信息安全的其他各個領域得到廣泛應用?;谏疃葘W習的人臉識別作為一種高效的身份認證手段,相比賬號密碼更加安全;在釣魚網(wǎng)站檢測中的應用避免了惡意信息的傳播和瀏覽用戶的風險;深度學習技術(shù)對基于HTTP協(xié)議惡意特征分析能夠避免Web應用中利用HTTP協(xié)議進行惡意操作;在信息檢索中應用深度學習技術(shù)可以防范搜索引擎的檢索結(jié)果中出現(xiàn)惡意鏈接。
4 結(jié)論
深度學習技術(shù)在語音、圖像、自然語言識別等領域的發(fā)展,為解決嚴峻的網(wǎng)絡信息安全威脅提供了更加智能和高效的解決手段。深度學習在公共網(wǎng)絡語音監(jiān)管、入侵檢測、色情圖像檢測和違法信息檢測等領域也逐步得到應用。但當前網(wǎng)絡環(huán)境日益復雜多變、網(wǎng)絡攻擊手段日益狡猾多樣,現(xiàn)階段的深度學習技術(shù)雖然在理論和建模上有所創(chuàng)新,但在工程應用中依然無法完全滿足實際要求。相信隨著深度學習技術(shù)的不斷發(fā)展和成熟,其在網(wǎng)絡信息安全領域的應用一定會取得更大的突破。
參考文獻
[1] 魏為民,袁仲雄.網(wǎng)絡攻擊與防御技術(shù)的研究與實踐[J].信息網(wǎng)絡安全,2012(12):53-56.
[2] 奚雪峰,周國棟.面向自然語言處理的深度學習研究[J].自動化學報,2016,42(10):1445-1465.
[3] 張巧麗,趙地,遲學斌.基于深度學習的醫(yī)學影像診斷綜述[J].計算機科學,2017,44(11A):1-7.
[4] 邵翀,張凡忠.深度學習在公共網(wǎng)絡安全管理中的應用研究[J].網(wǎng)絡安全技術(shù)與應用,2015(6):89-90.
[5] 蘇志達,祝躍飛,劉龍.基于深度學習的安卓惡意應用檢測[J].計算機應用,2017(6):1650-1656.
[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe: NIPS, 2012: 1097-1105.
[7] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015: 1-9.
(收稿日期:2018-07-01)
作者簡介:
陳驍(1990-),男,碩士研究生,主要研究方向:網(wǎng)絡安全。