1 概述
隨著信息技術的廣泛應用,軟件安全漏洞所造成的危害正日益嚴重。軟件安全漏洞發(fā)掘作為一種預先發(fā)現軟件潛在安全漏洞、保證信息安全的重要技術,也越來越受到人們的重視。目前國內外常用的漏洞自動發(fā)掘技術主要有手工分析、模糊(fuzzing)技術、補丁比較、源碼自動分析和動態(tài)調試等。
軟件安全漏洞發(fā)掘技術大致分為基于源代碼的漏洞發(fā)掘技術和基于可執(zhí)行文件的漏洞發(fā)掘技術。然而現在大多數軟件都不是開源的,如各種商業(yè)軟件和操作系統軟件等,因此,針對可執(zhí)行文件的漏洞發(fā)掘技術顯得尤為重要。
fuzzing 測試是通過提供非正常的輸入并監(jiān)測系統異常發(fā)現軟件安全漏洞的自動化方法。它的基本原理是將利用正確數據隨機修改得到的畸形數據注入應用程序中,觀察運行結果(程序崩潰或者異常中斷),通過程序運行的錯誤來挖掘軟件的脆弱點。fuzzing 測試的思想比較直觀,便于實現自動化。利用這種方法進行漏洞發(fā)掘,發(fā)現漏洞到定位漏洞比較容易,并且不存在誤報,但卻能揭示出程序中的重要漏洞,目前正廣泛應用于各類軟件漏洞的發(fā)掘,在近幾年的漏洞挖掘實踐過程中取得了很好的效果。
雖然經過多年的發(fā)展fuzzing 技術已經取得長足的進步,但是仍然存在較多的不足,主要體現在以下4 個方面:
(1)測試數據生成有一定程度的盲目性,不能進行有針對性的測試,因此數據變化空間難以控制。(2)代碼覆蓋問題,通常生成的大量測試用例分布在某些特定的分支和狀態(tài)上,而一些特殊的分支或者狀態(tài)得不到覆蓋,因此代碼的測試完整性不足。(3)生成用例難以通過軟件的正確性和一致性檢測,造成生成大量無效測試用例,或需要人工對復雜的文件格式進行分析,測試效率低下。(4)難以發(fā)現需要幾個輸入同時起作用才能引發(fā)的異?;蚨嚯A段綜合條件觸發(fā)的復雜漏洞。本文在結合了靜態(tài)分析和動態(tài)分析技術的基礎上,提出一種基于動態(tài)輸入路徑追蹤的fuzzing 技術進行軟件安全漏洞發(fā)掘的新思路,較好地解決了上述問題。
2 總體框架與關鍵技術
2.1 基本框架
基于動態(tài)輸入跟蹤的fuzzing 技術的基本原理為:將待測軟件的可執(zhí)行代碼反匯編為匯編代碼,通過靜態(tài)分析匯編代碼,確定函數塊及其調用關系,并查找代碼分支選擇信息以供生成測試用例,動態(tài)跟蹤輸入數據的流向以確定錯誤注入點,將測試用例注入后若無異常發(fā)生則恢復注入前的進程快照重新進行fuzzing,其基本框架如圖1 所示。
輸入追蹤的fuzzing 測試基本框架" border="0" height="230" src="http://files.chinaaet.com/images/20111205/54a1504f-94a2-49d3-b6bf-385316f85568.jpg" width="450" />
2.2 基于反匯編的輸入路徑追蹤技術
軟件從外部接收的輸入數據由于可被用戶控制,因而是引發(fā)各類軟件漏洞的根源。輸入點是指用戶提供的數據提交給程序的地方,它位于軟件與用戶交界處,是軟件中漏洞產生的發(fā)源地,因此需要觀測目標軟件的輸入點,以便動態(tài)跟蹤輸入數據在程序中的流向和使用。采用輸入追蹤法,首先需要確定代碼的輸入點。利用反匯編工具反匯編目標程序的二進制代碼,分析得到的匯編代碼以確定程序的函數塊及其內部的基本塊。查找所有可能接受外部輸入的庫函數調用,確定為可能的輸入點。例如WSARecvFrom()的調用將會接收網絡報文,并把數據放入緩存區(qū)。接著,利用動態(tài)調試工具監(jiān)測輸入點函數的調用,并在其被調用時觀察其調用結果,若經比較發(fā)現來自外部輸入,則記錄此輸入數據的存放緩沖區(qū)并設置內存中斷,當有指令讀寫該內存時即發(fā)生中斷,記錄所有讀寫此緩存區(qū)的函數指令并標記為錯誤注入點,記錄每個輸入數據執(zhí)行的代碼路徑。通過對動態(tài)執(zhí)行中輸入數據的實時跟蹤,可以監(jiān)測到函數具體調用的是輸入數據的哪些部分,也就可以對測試數據的相應部分進行有針對性的fuzzing,從而避免了測試數據變化空間巨大的問題,而且由于是從內部直接對相關函數進行測試,因此有助于發(fā)掘多重輸入向量或多階段綜合條件觸發(fā)的復雜漏洞。
2.3 基于代碼覆蓋的測試數據生成
黑盒測試通常不考慮測試的路徑覆蓋問題,在測試的完整性方面存在局限,往往不能發(fā)現未執(zhí)行代碼中的漏洞。例如下面是摘自于一個服務器軟件的代碼片段:
此處軟件利用sscanf() API 將原始網絡數據轉換為一個整數,然后將所生成的該整數與靜態(tài)整數值3 857 106 359 進行比較,如果這2 個值不匹配,那么協議解析器就會由于一個“訪問協議錯誤”而返回。若測試用例中無此整數,則無法對跳轉后的代碼進行測試,而要想通過一般的數據變異生成包含此數的用例,所要構造的測試用例數和耗費的測試時間都是相當龐大的。為提高效率,可以根據諸如此類的代碼中的靜態(tài)整數和字符串生成相應的測試用例集。只要利用靜態(tài)代碼分析工具,查找代碼中的靜態(tài)字符串、整數和路徑分支處有關路徑選擇的比較字段,將其保存到測試數據庫。
另外還可在錯誤注入點所在的函數中搜索對不安全庫函數的調用,根據不安全庫函數易引發(fā)漏洞的類型,生成相關的測試用例集。同時還可以在動態(tài)追蹤過程中,在執(zhí)行跳轉指令前修改指定寄存器的值以到達不同路徑的代碼,從而提高了測試的代碼覆蓋率。
2.4 基于快照恢復的錯誤注入技術
現今大多數軟件為了提高自身安全性,都加強了軟件的糾錯能力和安全保護機制,會在接收外部輸入后對輸入數據進行正確和一致性檢測,甚至一些軟件還要在之前對編碼的數據進行解碼,不考慮數據格式的暴力測試在軟件對輸入數據進行的正確和一致性檢測中都會被過濾掉。而大多數協議或文件格式都非常復雜且未被公開,想要了解格式的結構或生成正確格式的文件都非常困難。為此,采用基于內存快照恢復的錯誤注入技術,以繞過軟件的檢測機制進行fuzzing測試。選用具有正確格式的輸入數據樣本以通過軟件的相關檢測函數的驗證,在執(zhí)行到真正對數據進行應用的相關解析函數時,設置錯誤注入點,保存此時進程的所有上下文內容即進程快照,接著改變調用參數為生成的測試用例,再在函數的結束處設置還原點,接著繼續(xù)運行并監(jiān)測程序的運行狀況。若無異常發(fā)生,則當程序運行到還原點時掛起進程,將進程環(huán)境恢復為錯誤注入點處保存的上下文內容,重新進行錯誤注入,直到程序發(fā)生異常或測試用例耗盡。采用這種方法還可以避免通常測試過程中的網絡延遲、重啟程序和執(zhí)行與處理輸入無關的代碼等所耗費時間,大大提高了測試效率。
3 系統的設計實現與實驗評估
用pythON 語言編寫了基于上述技術的測試工具,此工具主要由5 個模塊組成,分別為靜態(tài)逆向分析模塊、動態(tài)跟蹤模塊、測試數據生成模塊、錯誤注入模塊、異常檢測及記錄模塊。總體模塊組成如圖2 所示。
靜態(tài)逆向分析模塊主要是利用反匯編工具IDA Pro 來反匯編目標程序的二進制代碼,以生成相應的匯編代碼,在此基礎上利用腳本自動識別確定函數塊及其內部的基本塊,分析程序的基本結構和函數調用關系;查找代碼中的靜態(tài)字符串、整數和代碼分支處的比較字段,并搜索代碼中調用的不安全庫函數,用以建立測試用例庫。
動態(tài)跟蹤模塊在調試器的基礎上構建而成,主要負責在程序執(zhí)行期間動態(tài)監(jiān)測輸入函數的調用,以確定輸入數據的內存位置;接著跟蹤輸入數據的流向和使用,在輸入數據被讀寫時記錄操作函數,以確定錯誤注入點。
測試數據生成模塊主要負責根據靜態(tài)逆向分析模塊提供的分析查找結果自動建立測試用例庫,并利用測試用例庫在測試過程中自動生成測試用例。
錯誤注入模塊主要負責自動將測試數據生成模塊生成的測試用例注入到程序進程中。在程序運行到錯誤注入點時,保存錯誤注入前的進程快照,修改輸入數據所在的地址指針;在執(zhí)行到還原點時,恢復之前保存的進程快照,重新進行錯誤注入。
異常檢測記錄模塊主要負責通過監(jiān)測程序的異常報錯,尋找軟件存在的問題。要記錄分析的部分包括:(1)異常的類型:運算錯誤,標準輸入/輸出錯誤,內存訪問錯誤,系統APIs 調用錯誤,一般運行時錯誤,語法錯誤,應用程序不可預知的崩潰等。(2)錯誤記錄:系統自身的錯誤記錄,可執(zhí)行程序的錯誤記錄。(3)出錯時各個寄存器值和其他環(huán)境變量的值,以及程序的返回值。
選取一款小型代理服務器軟件Polipo 作為測試對象,驗證該動態(tài)輸入追蹤方法的有效性。用系統動態(tài)跟蹤服務器進程接收來自遠程client 的http 請求,針對處理請求消息中各字段的處理函數生成測試用例并注入進行fuzzing。當生成測試用例的Content-Length 字段值為一個極大整數時,檢測到發(fā)生內存非法訪問異常,服務器隨即崩潰。通過調試器調試軟件發(fā)現Polipo 的client.c 文件中httpClientDiscardBody()函數存在符號錯誤,當遠程用戶提交帶有超長Content-Length頭的http 請求會產生整數溢出,進而導致服務崩潰,從而驗證了該漏洞的存在。
4 結束語
本文在基于反匯編的輸入路徑追蹤技術的基礎上,結合基于代碼覆蓋的測試數據生成和基于快照恢復的錯誤注入技術,將其應用于fuzzing 測試中,提出了一種軟件安全漏洞自動挖掘的新方法。該方法較好地解決了fuzzing 技術存在的測試數據空間巨大、代碼覆蓋不完整和測試效率低等問題,且無需目標軟件源代碼,因而應用范圍較廣?;诖朔椒ㄔO計并實現了一個測試系統,通過對實例軟件的漏洞挖掘實驗,驗證了該方法的有效性。下一步工作主要為對輸入路徑的追蹤細化為針對指令級的追蹤,以進一步提高動態(tài)追蹤的精確性和可靠性。