《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于機(jī)器學(xué)習(xí)的VoIP流量在線識(shí)別系統(tǒng)
基于機(jī)器學(xué)習(xí)的VoIP流量在線識(shí)別系統(tǒng)
2016年電子技術(shù)應(yīng)用第8期
劉建明1,唐 霞2,李 龍3
1.桂林電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林541004;   2.桂林電子科技大學(xué) 電子信息與自動(dòng)化學(xué)院,廣西 桂林541004;3.桂林電子科技大學(xué) 機(jī)電工程學(xué)院,廣西 桂林541004
摘要: 針對(duì)目前VoIP離線識(shí)別無(wú)法滿足復(fù)雜網(wǎng)絡(luò)環(huán)境中流量監(jiān)控系統(tǒng)的實(shí)時(shí)性與高精度要求,設(shè)計(jì)并實(shí)現(xiàn)了VoIP流量在線識(shí)別系統(tǒng)。首先,基于數(shù)據(jù)挖掘工具WEKA中集成的機(jī)器學(xué)習(xí)算法,在擴(kuò)大訓(xùn)練集的基礎(chǔ)上對(duì)流統(tǒng)計(jì)特征進(jìn)行篩選并搭建分類(lèi)器模型。然后,利用JPcap庫(kù)提出并設(shè)計(jì)邊抓包邊檢測(cè)機(jī)制,實(shí)現(xiàn)VoIP流量快速識(shí)別。實(shí)驗(yàn)結(jié)果表明,該在線識(shí)別系統(tǒng)實(shí)時(shí)性高,且能達(dá)到92%的精度。
中圖分類(lèi)號(hào): TN912;TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2016.08.033
中文引用格式: 劉建明,唐霞,李龍. 基于機(jī)器學(xué)習(xí)的VoIP流量在線識(shí)別系統(tǒng)[J].電子技術(shù)應(yīng)用,2016,42(8):133-137.
英文引用格式: Liu Jianming,Tang Xia,Li Long. Real-time detection system of VoIP traffic based on machine learning[J].Application of Electronic Technique,2016,42(8):133-137.
Real-time detection system of VoIP traffic based on machine learning
Liu Jianming1,Tang Xia2,Li Long3
1.College of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin 541004,China; 2.College of Electronic Information and Automation,Guilin University of Electronic Technology,Guilin 541004,China; 3.College of Mechanical and Electrical Engineering,Guilin University of Electronic Technology,Guilin 541004,China
Abstract: Aiming at that off-line VoIP identification for the complex network environment can not meet high accuracy and real-time demand in traffic monitoring system, a VoIP traffic online identification system is designed and implemented. First, based on WEKA which is a data mining tools integrated many machine learning algorithms, an extended training set is used to filtrate convection statistical characteristics and a classification model is built by machine learning algorithms. Then JPcap database is used to design a capture and detection mechanism to achieve rapid identification of VoIP traffic. Experimental results shown that the online identification system can classify real-time VoIP traffic and reached 92% accuracy.
Key words : traffic monitoring;VoIP;on-line identification;data mining;detection mechanism

0 引言

  VoIP(Voice over Internet Protocol)業(yè)務(wù)成本低、部署方便,在語(yǔ)音通信業(yè)務(wù)中的比例持續(xù)上升,其發(fā)展帶來(lái)機(jī)遇的同時(shí)也給網(wǎng)絡(luò)安全運(yùn)行帶來(lái)了巨大挑戰(zhàn)[1]。因此,對(duì)VoIP業(yè)務(wù)進(jìn)行管控非常重要,高精度在線流量識(shí)別也成為眾多研究領(lǐng)域的熱點(diǎn)與難點(diǎn)。

  目前,主流VoIP流量識(shí)別方法主要包括兩大類(lèi):基于流特征的VoIP流量識(shí)別與基于機(jī)器學(xué)習(xí)的VoIP流量識(shí)別。文獻(xiàn)[2]最早利用流特征進(jìn)行流量分類(lèi),提出249種具體的流特征,并提供10組可用的流量數(shù)據(jù)集。文獻(xiàn)[3]針對(duì)數(shù)據(jù)流中一段時(shí)間內(nèi)的數(shù)據(jù)包長(zhǎng)和包時(shí)間間隔,統(tǒng)計(jì)其分布范圍、均值、中值與方差等特征作為VoIP流量識(shí)別的依據(jù)。上述文獻(xiàn)識(shí)別精度不高,基于流特征的識(shí)別方法對(duì)不同類(lèi)型的網(wǎng)絡(luò)流量適應(yīng)性也較低?;跈C(jī)器學(xué)習(xí)的識(shí)別方法主要集中于離線識(shí)別,對(duì)于在線VoIP流量識(shí)別的研究并不多[4-7]。文獻(xiàn)[4]實(shí)現(xiàn)了基于WEKA庫(kù)文件的Skype流量在線檢測(cè)工具,但存在無(wú)netAI工具更新、無(wú)可視化界面、算法單一等缺陷。文獻(xiàn)[5]改進(jìn)了支持向量機(jī)算法,能夠節(jié)省1/4的識(shí)別時(shí)間,但仍然無(wú)法滿足在線識(shí)別的實(shí)時(shí)性要求。文獻(xiàn)[6]基于流統(tǒng)計(jì)特征,利用機(jī)器學(xué)習(xí)算法構(gòu)建分類(lèi)器模型,系統(tǒng)在線識(shí)別精度為93%。其不足之處在于,沒(méi)有研究在線識(shí)別系統(tǒng)的實(shí)時(shí)性,并不是真正意義上的在線識(shí)別。文獻(xiàn)[7]基于開(kāi)源數(shù)據(jù)挖掘工具WEKA中的機(jī)器學(xué)習(xí)算法,針對(duì)特定應(yīng)用Skype提出并設(shè)計(jì)出一種基于決策理論的識(shí)別工具,然而只能達(dá)到82%的精度,無(wú)法滿足大流量環(huán)境下的高精度識(shí)別。從目前的研究成果來(lái)看,在線識(shí)別的難點(diǎn)主要在兩方面:一是無(wú)法滿足較高實(shí)時(shí)性要求,二是無(wú)法實(shí)現(xiàn)高精度識(shí)別。

  針對(duì)以上問(wèn)題,本文設(shè)計(jì)了VoIP流量在線識(shí)別系統(tǒng),不僅能實(shí)現(xiàn)實(shí)時(shí)在線識(shí)別,且識(shí)別精度高達(dá)到92%。

1 VoIP流量在線識(shí)別系統(tǒng)

  本文所設(shè)計(jì)的系統(tǒng)中,數(shù)據(jù)流定義為兩個(gè)主機(jī)之間交換的連續(xù)數(shù)據(jù)包。同一條流中所有數(shù)據(jù)包的五元組相同(五元組包括源地址、目的地址、源端口、目的端口和傳輸協(xié)議)。構(gòu)建訓(xùn)練集的過(guò)程需對(duì)數(shù)據(jù)包進(jìn)行分流,根據(jù)思科分流定義,單條TCP流須包含完整語(yǔ)義的開(kāi)始時(shí)刻(SYN)和結(jié)束時(shí)刻(FIN/RST),UDP流中兩個(gè)包之間的時(shí)間間隔不超過(guò)30 s[8]。

  1.1 在線識(shí)別系統(tǒng)原理

  在線識(shí)別系統(tǒng)分為離線分類(lèi)器建模和在線識(shí)別。其中,離線分類(lèi)器建模如圖1所示,預(yù)處理模塊對(duì)PCAP文件格式的數(shù)據(jù)集進(jìn)行分流,并轉(zhuǎn)化為WEKA工具所能識(shí)別的CSV文件格式,同時(shí)統(tǒng)計(jì)每個(gè)數(shù)據(jù)流的流特征構(gòu)建成訓(xùn)練集。算法學(xué)習(xí)模塊采用Best first search算法和CSF算法去除候選特征中的冗余且不相關(guān)的流特征,獲得最優(yōu)特征子集,再調(diào)用機(jī)器學(xué)習(xí)算法對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí)并搭建分類(lèi)器模型。最后,通過(guò)相關(guān)指標(biāo)評(píng)估獲得最優(yōu)分類(lèi)器模型。

圖像 001.png

圖1  離線分類(lèi)器框圖

  如圖2所示,本文所設(shè)計(jì)的在線識(shí)別系統(tǒng)建立在獲得離線分類(lèi)器的基礎(chǔ)上,提出JPcap邊抓包邊檢測(cè)機(jī)制,利用JPcap庫(kù)編寫(xiě)探嗅器控制底層網(wǎng)卡抓取數(shù)據(jù)包,同時(shí)分流模塊對(duì)數(shù)據(jù)包分流并統(tǒng)計(jì)流特征。設(shè)定流量累積時(shí)間,每次達(dá)到閾值時(shí)間30 s,將統(tǒng)計(jì)好的數(shù)據(jù)流作為測(cè)試集送入離線狀態(tài)下構(gòu)建好的分類(lèi)器進(jìn)行識(shí)別,并將識(shí)別出的VoIP流量以IP地址的形式輸出到系統(tǒng)界面,動(dòng)態(tài)顯示網(wǎng)絡(luò)中VoIP電話狀態(tài)。

圖像 002.png

圖2  在線識(shí)別系統(tǒng)

  1.2 預(yù)處理模塊

  預(yù)處理模塊在離線狀態(tài)進(jìn)行,為系統(tǒng)搭建分類(lèi)器提供完整訓(xùn)練集。該模塊包括獲取數(shù)據(jù)集、文件格式轉(zhuǎn)換與分流統(tǒng)計(jì)構(gòu)建訓(xùn)練集。

  1.2.1 獲取數(shù)據(jù)集

  使用Wireshark軟件抓取PC中運(yùn)行的特定應(yīng)用類(lèi)型流量獲取數(shù)據(jù)集,通過(guò)配置交換機(jī)鏡像端口將抓取單個(gè)PC產(chǎn)生的流量擴(kuò)展為整個(gè)局域網(wǎng)產(chǎn)生的流量。同時(shí)使用文獻(xiàn)[4]中提到的Moore數(shù)據(jù)集與Tstat網(wǎng)[9]提供的Skype數(shù)據(jù)集。此外,在數(shù)據(jù)集中新增PC-PHONE端的VoIP類(lèi)型流量,使系統(tǒng)同時(shí)具備PC-PC端與PC-PHONE端VoIP電話的識(shí)別能力。

  1.2.2 文件格式轉(zhuǎn)換

  Wireshark軟件數(shù)據(jù)包的存儲(chǔ)格式為PCAP格式。PCAP文件頭包括:數(shù)據(jù)鏈路層14 B包頭+20 B IP包頭+20 B TCP或UDP包頭。預(yù)處理模塊通過(guò)分析PCAP文件頭信息,編程實(shí)現(xiàn)五元組、時(shí)間戳及數(shù)據(jù)包長(zhǎng)等流特征信息的提取,并轉(zhuǎn)換為WEKA能識(shí)別的CSV文件格式。

  1.2.3 分流統(tǒng)計(jì)構(gòu)建訓(xùn)練集

  首先在五元組相同且滿足思科分流定義的條件下,對(duì)Wireshark抓取的數(shù)據(jù)包進(jìn)行分流,利用文獻(xiàn)[2]提供的fullstats分流器,在Linux系統(tǒng)中實(shí)現(xiàn)分流。完成數(shù)據(jù)包分流后,統(tǒng)計(jì)數(shù)據(jù)流的相關(guān)流特征,并將統(tǒng)計(jì)后的數(shù)據(jù)流作為最終訓(xùn)練集。

  1.3 流特征選擇

  文獻(xiàn)[2]提出了249種流特征,若對(duì)每個(gè)特征進(jìn)行統(tǒng)計(jì),將耗費(fèi)大量的計(jì)算時(shí)間,成本過(guò)高,且并不是所有流特征都適用于VoIP流量識(shí)別,因此需要去除不相關(guān)且冗余的流特征,以達(dá)到提高模型精確度,減少運(yùn)行時(shí)間的目的。本設(shè)計(jì)根據(jù)VoIP語(yǔ)音電話特有的通信屬性對(duì)其進(jìn)行初步篩選,得出20個(gè)候選流特征再進(jìn)行特征選擇。特征選擇首先從候選特征集中產(chǎn)生一個(gè)特征子集,然后用評(píng)價(jià)函數(shù)對(duì)該特征子集進(jìn)行評(píng)價(jià),將評(píng)價(jià)的結(jié)果與停止準(zhǔn)則進(jìn)行比較,若評(píng)價(jià)結(jié)果比停止準(zhǔn)則好就停止,否則就繼續(xù)產(chǎn)生下一組特征子集,直到獲得評(píng)價(jià)最高的特征子集。本文使用Best first search搜索算法從候選特征集中產(chǎn)生特征子集,然后用CFS(Correalation-based Feature Selection)算法進(jìn)行評(píng)估,得到12個(gè)相關(guān)性最好、得分最高的特征子集,如表1所示。

圖像 006.png

  1.4 機(jī)器學(xué)習(xí)算法

  本文著重研究C4.5決策樹(shù)算法,為增強(qiáng)系統(tǒng)可擴(kuò)展性,另在系統(tǒng)中集成了樸素貝葉斯算法(NaiveBayes)與支持向量機(jī)算法(SVM)。

  C4.5決策樹(shù)是一種經(jīng)典的分類(lèi)與回歸算法。決策樹(shù)的數(shù)據(jù)結(jié)構(gòu)由內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)組成,內(nèi)部節(jié)點(diǎn)代表一個(gè)特征屬性,葉子節(jié)點(diǎn)代表一個(gè)類(lèi)別[10]。算法的處理過(guò)程分為以下幾個(gè)步驟:首先,計(jì)算數(shù)據(jù)集D的經(jīng)驗(yàn)熵H(D),熵是一種不純度度量準(zhǔn)則:

  QQ圖片20161206110111.png

  式中,pi是屬于第i類(lèi)的概率。其次,計(jì)算特征A對(duì)數(shù)據(jù)集D的經(jīng)驗(yàn)條件熵H(D|A):

  QQ圖片20161206110114.png

  進(jìn)一步得出信息增益為:

  QQ圖片20161206110117.png

  信息增益比為:

  QQ圖片20161206110120.png

  式中HA(D)為屬性A的信息熵。依次選取信息增益比最大的特征Ag分割數(shù)據(jù)集D為Di,將Di中最大的類(lèi)作為子節(jié)點(diǎn)再遞歸調(diào)用得到子樹(shù)Ti。最終經(jīng)過(guò)“悲觀剪枝”修剪決策樹(shù)得到損失函數(shù)最小的子樹(shù)。

  樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法。對(duì)于給定的訓(xùn)練集,首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸入/輸出的聯(lián)合概率分布,再基于此模型,對(duì)給定的輸入x,利用貝葉斯定理求出后驗(yàn)概率最大的輸出y。樸素貝葉斯的算法效率高,是一種常用的分類(lèi)算法。

  支持向量機(jī)是一種二分類(lèi)模型,基本模型是定義在特征空間上的間隔最大的線性分類(lèi)器。其學(xué)習(xí)策略是間隔最大化,可形式化為一個(gè)求解凸二次規(guī)劃的問(wèn)題,也等價(jià)于正則化的合頁(yè)損失函數(shù)的最小化問(wèn)題。

  1.5 在線識(shí)別——JPcap邊抓包邊檢測(cè)機(jī)制

  在線識(shí)別的關(guān)鍵技術(shù)是實(shí)現(xiàn)在線抓包同時(shí)短時(shí)間內(nèi)識(shí)別出目標(biāo)流量。本文致力于尋找一個(gè)能實(shí)現(xiàn)Window系統(tǒng)下在線抓包的工具,而JPcap庫(kù)正是實(shí)現(xiàn)這一想法的重要類(lèi)庫(kù)。

  JPcap庫(kù)是Keita Fujiiy開(kāi)發(fā)的一套能夠捕獲、發(fā)送網(wǎng)絡(luò)數(shù)據(jù)包的Java類(lèi)庫(kù)[11]。Java語(yǔ)言雖然在TCP/UDP傳輸方面給予了良好的定義,但對(duì)于網(wǎng)絡(luò)層以下的控制卻無(wú)能為力。JPcap類(lèi)庫(kù)給Java語(yǔ)言提供一個(gè)公共接口,類(lèi)庫(kù)使用libpcap和原始套接字API,調(diào)用Jini獲得JavaAPI中的數(shù)據(jù),實(shí)現(xiàn)Java語(yǔ)言對(duì)底層網(wǎng)卡的控制與鏈路層數(shù)據(jù)包的獲取。

  本文提出JPcap邊抓包邊檢測(cè)機(jī)制,基于JPcap庫(kù)編寫(xiě)探嗅器實(shí)現(xiàn)在線抓包。利用JPcap庫(kù)所抓取的數(shù)據(jù)包對(duì)象是單個(gè)數(shù)據(jù)包。因此,系統(tǒng)在抓包的同時(shí)能實(shí)現(xiàn)對(duì)單個(gè)數(shù)據(jù)包按五元組分流并統(tǒng)計(jì)其流特征。每當(dāng)統(tǒng)計(jì)時(shí)間達(dá)到所設(shè)置的閾值時(shí)間30 s時(shí),便將這段時(shí)間內(nèi)統(tǒng)計(jì)好的數(shù)據(jù)流作為測(cè)試集送入分類(lèi)器進(jìn)行識(shí)別,輸出識(shí)別的VoIP流IP地址,動(dòng)態(tài)顯示網(wǎng)絡(luò)中VoIP的狀態(tài),實(shí)現(xiàn)真正意義上的VoIP流量實(shí)時(shí)在線識(shí)別系統(tǒng)。

2 實(shí)驗(yàn)結(jié)果與分析

  實(shí)驗(yàn)環(huán)境:新西蘭懷卡托大學(xué)基于Java開(kāi)發(fā)的開(kāi)源數(shù)據(jù)挖掘平臺(tái)weka3.6、一臺(tái)裝有Windows 7操作系統(tǒng)和Eclipes的個(gè)人PC、一臺(tái)華為S5000交換機(jī)。

  2.1 評(píng)價(jià)指標(biāo)

  評(píng)價(jià)二分類(lèi)類(lèi)型的分類(lèi)器性能指標(biāo)為:精度(precision)、召回率(recall)、F1值。實(shí)驗(yàn)以VoIP類(lèi)為正類(lèi),非VoIP類(lèi)為負(fù)類(lèi),分類(lèi)器在測(cè)試集上預(yù)測(cè)結(jié)果為正確或錯(cuò)誤。可能出現(xiàn)的4種情況記:TP,將正類(lèi)預(yù)測(cè)為正類(lèi)數(shù);FN,將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);FP,將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù);TN,將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù)。進(jìn)一步,得到精度:

  QQ圖片20161206110124.png

  召回率為:

  QQ圖片20161206110127.png

  F1值為精度和召回率的調(diào)和均值:

  QQ圖片20161206110130.png

  2.2 實(shí)驗(yàn)數(shù)據(jù)

  本次實(shí)驗(yàn)使用1.5G Skype流,包含了Skype 10個(gè)版本,共計(jì)1 371條流,其中371條為PC-PHONE端VoIP流量。非VoIP流量1G,使用文獻(xiàn)[2]中提到的Moore數(shù)據(jù)集與通過(guò)鏡像端口抓取到的數(shù)據(jù)集。整個(gè)訓(xùn)練集共34 371條數(shù)據(jù)流,覆蓋14種流量類(lèi)型,具體見(jiàn)表2。

圖像 007.png

  2.3 離線分類(lèi)器模型結(jié)果分析

  系統(tǒng)識(shí)別結(jié)果如圖3所示。離線建模過(guò)程如圖3上半部分所示,步驟包括打開(kāi)訓(xùn)練集文件、選擇機(jī)器學(xué)習(xí)算法、建模,圖中所示J48即C4.5決策樹(shù)算法,結(jié)果框?yàn)榉诸?lèi)器識(shí)別結(jié)果,具體如圖4所示。

圖像 003.png

圖3  系統(tǒng)識(shí)別結(jié)果

圖像 004.png

圖4  分類(lèi)器識(shí)別結(jié)果

  實(shí)驗(yàn)使用10折交叉驗(yàn)證法評(píng)估出平均測(cè)試誤差最小的分類(lèi)器,由圖4可知,分類(lèi)器識(shí)別精度為99.9%,召回率為99.6%。圖4最下方為混淆矩陣,對(duì)于二分類(lèi)問(wèn)題,用2×2矩陣表示,正對(duì)角線上表示正確分類(lèi)的樣本,反對(duì)角線表示被錯(cuò)誤分類(lèi)的樣本數(shù),結(jié)果顯示有2個(gè)非VoIP樣本被分類(lèi)成VoIP類(lèi),6個(gè)Skype樣本被分類(lèi)成非VoIP類(lèi)。實(shí)驗(yàn)結(jié)果表明,本文所選取的最優(yōu)特征子集大幅提高了分類(lèi)器的性能指標(biāo)。由于本文針對(duì)VoIP流包長(zhǎng)、時(shí)間間隔等關(guān)鍵屬性對(duì)流特征進(jìn)行篩選,增強(qiáng)了機(jī)器學(xué)習(xí)算法的學(xué)習(xí)能力,從而使得分類(lèi)器識(shí)別性能大大提高。

  同樣地,對(duì)NaiveBayes和SVM算法分別進(jìn)行實(shí)驗(yàn),3個(gè)算法搭建的分類(lèi)器識(shí)別結(jié)果對(duì)比圖如圖5所示??芍?,基于C4.5決策樹(shù)算法分類(lèi)器的3個(gè)評(píng)價(jià)指標(biāo)均最高。這是因?yàn)镃4.5決策樹(shù)算法建模時(shí)不依賴(lài)于網(wǎng)絡(luò)流量類(lèi)型的分布,對(duì)于不同類(lèi)型的流量數(shù)據(jù)有更強(qiáng)的適應(yīng)能力,在分析較大訓(xùn)練集時(shí)優(yōu)于依賴(lài)先驗(yàn)概率的NaiveBayes算法,且內(nèi)存需求小于SVM算法,因此得到了最好的識(shí)別精度。

圖像 005.png

圖5  3種算法分類(lèi)器結(jié)果對(duì)比

  2.4 在線分類(lèi)器識(shí)別結(jié)果分析

  在線識(shí)別如圖3下半部分所示。首先打開(kāi)本地網(wǎng)卡開(kāi)始抓包,設(shè)定混雜模式抓取流經(jīng)本地網(wǎng)卡的所有數(shù)據(jù)包,同時(shí)對(duì)數(shù)據(jù)包進(jìn)行分流并統(tǒng)計(jì)流特征。每達(dá)到設(shè)定的30 s閾值時(shí),選擇對(duì)應(yīng)算法的分類(lèi)器對(duì)測(cè)試集進(jìn)行在線識(shí)別,識(shí)別出VoIP類(lèi)型流量并以IP地址形式輸出到圖示結(jié)果框。圖3僅是一次測(cè)試結(jié)果,3個(gè)IP地址均為VoIP通話主機(jī)地址,結(jié)果表明系統(tǒng)實(shí)時(shí)準(zhǔn)確識(shí)別出了當(dāng)前網(wǎng)絡(luò)中的VoIP通話。

  接下來(lái),累積進(jìn)行100次在線實(shí)驗(yàn),對(duì)比3種分類(lèi)器在線識(shí)別精度,結(jié)果如表3所示。由表3可知,在線識(shí)別精度最高的分類(lèi)器為基于C4.5算法的分類(lèi)器。

圖像 008.png

  而作為在線識(shí)別系統(tǒng),除精度以外,還需考慮第二個(gè)核心指標(biāo)——實(shí)時(shí)性。這里也對(duì)3種算法的建模時(shí)間與識(shí)別時(shí)間進(jìn)行對(duì)比,結(jié)果如表4所示。由表4可得,基于C4.5算法的在線識(shí)別時(shí)間最短,建模時(shí)間略低于NaiveBayes算法,而NaiveBayes在線識(shí)別時(shí)間低于C4.5算法,SVM建模與識(shí)別時(shí)間均最長(zhǎng)。由于C4.5決策樹(shù)模型處理樣本時(shí),僅需根據(jù)網(wǎng)絡(luò)流流特征值自頂向下進(jìn)行比較,找到相應(yīng)葉節(jié)點(diǎn)即可,處理簡(jiǎn)單,處理效率更高,因此識(shí)別速度更快。

圖像 009.png

  結(jié)合表3、表4的結(jié)果對(duì)精度與實(shí)時(shí)性指標(biāo)進(jìn)行分析,得到C4.5決策樹(shù)算分類(lèi)器識(shí)別精度最高,且在線實(shí)時(shí)性最好;NaiveBayes分類(lèi)器雖然建模時(shí)間短,但在線實(shí)時(shí)性略差,且精度較低;SVM分類(lèi)器精度與實(shí)時(shí)性均不佳。在實(shí)際應(yīng)用中應(yīng)同時(shí)保證高識(shí)別精度與實(shí)時(shí)性,因此本文選擇C4.5決策樹(shù)為系統(tǒng)的核心算法。實(shí)驗(yàn)結(jié)果表明,本文所設(shè)計(jì)的VoIP流量在線識(shí)別系統(tǒng)確實(shí)能同時(shí)滿足高精度與實(shí)時(shí)性。

3 結(jié)束語(yǔ)

  本文設(shè)計(jì)并實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)的VoIP流量在線識(shí)別系統(tǒng),在大幅提高VoIP流量識(shí)別精度的同時(shí)保證了系統(tǒng)的實(shí)時(shí)性,且有良好可視化界面。實(shí)驗(yàn)結(jié)果表明,本文所設(shè)計(jì)的VoIP流量在線識(shí)別系統(tǒng)離線識(shí)別精度達(dá)99.9%,在線識(shí)別精度達(dá)92%,且識(shí)別時(shí)間短,能夠快速識(shí)別出目標(biāo)流量并顯示VoIP流量活動(dòng)的IP地址。不過(guò),本文的訓(xùn)練集未能涵蓋更多種類(lèi)的流量類(lèi)型,對(duì)未知流量識(shí)別仍有待提高。未來(lái)的工作旨在建立一種更優(yōu)化的在線識(shí)別系統(tǒng),繼續(xù)增強(qiáng)樣本容量,增加更多種類(lèi)的流量類(lèi)型并支持更多的算法。

  參考文獻(xiàn)

  [1] 梁偉,陳福才,李海濤.一種基于C4.5決策樹(shù)的VoIP流量識(shí)別方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(9):3418-3421.

  [2] MOORE A,ZUEV D,CROGAN M.Discriminators for use in flow-based classification[M].Queen Mary and Westfield College,Department of Computer Science,2005.

  [3] OKABE T,KITAMURA T,SHIZUNO T.Statistical traffic identification method based on flow-level behavior for fair VoIP service[C].VoIP Management and Security,2006.1stIEEE Workshop on.IEEE,2006:35-40.

  [4] CALCHAND A O,DINH V T,BRANCH P,et al.Skype

  [5] 魯剛,張宏莉,葉麟.P2P流量識(shí)別[J].軟件學(xué)報(bào),2011,22(6):1281-1298.

  [6] GU C,ZHANG S,SUN Y.Realtime encrypted traffic identification using machine learning[J].Journal of Software,2011,6(6):1009-1016.

  [7] DI MAURO M,LONGO M.Skype traffic detection:A decision theory based tool[C].Security Technology(ICCST),2014International Carnahan Conference on.IEEE,2014:1-6.

  [8] 魯剛,張宏莉,葉麟.P2P流量識(shí)別[J].軟件學(xué)報(bào),2011,22(6):1281-1298.

  [9] TCP statistic and analysis tool.[EB/OL].[2016-01-02].http://tstat.tlc.polito.it/.

  [10] 李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.

  [11] 石慧慧.基于Jpcap的網(wǎng)絡(luò)流量采集監(jiān)控系統(tǒng)研究與設(shè)計(jì)[D].南京:南京林業(yè)大學(xué),2010.

  


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。