《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)設計
面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)設計
2016年電子技術應用第11期
吳 響,俞 嘯,王換換
徐州醫(yī)科大學 醫(yī)學信息學院,江蘇 徐州230026
摘要: 為了最大限度地保證隱私數(shù)據(jù)不被泄漏,設計并研發(fā)了面向數(shù)據(jù)挖掘技術的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)。系統(tǒng)以Exynos 4412為主處理器,同時搭載μClinux操作系統(tǒng),在處理數(shù)據(jù)的過程中實現(xiàn)并優(yōu)化了多種經(jīng)典匿名算法(如Incognito算法、Samariti算法、Datafly算法等),通過內置嵌入式Web服務器實現(xiàn)瀏覽器遠程連接配置系統(tǒng)運行信息,并獲取運行結果。同時,系統(tǒng)可以通過數(shù)據(jù)庫的自定義配置及上傳新增算法來實現(xiàn)數(shù)據(jù)的定制化發(fā)布。實驗表明,系統(tǒng)算法執(zhí)行效率高,能夠有效地對發(fā)布數(shù)據(jù)進行隱私保護,為數(shù)據(jù)挖掘過程中的隱私泄漏問題提供了便捷可靠的解決方案。
中圖分類號: TP274
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.11.016
中文引用格式: 吳響,俞嘯,王換換. 面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)設計[J].電子技術應用,2016,42(11):62-65.
英文引用格式: Wu Xiang,Yu Xiao,Wang Huanhuan. Design of anonymous privacy data publishing system for data mining[J].Application of Electronic Technique,2016,42(11):62-65.
Design of anonymous privacy data publishing system for data mining
Wu Xiang,Yu Xiao,Wang Huanhuan
School of Medical Informatics,Xuzhou Medical University,Xuzhou 230026,China
Abstract: In order to ensure that the privacy data is not compromised, the anonymous privacy data publishing system is designed and developed for data mining. The system uses Exynos 4412 as the main processor and is equipped with μClinux operating system. It realizes and optimizes many classical anonymity algorithm(like Incognito algorithm,Samariti algorithm,Datafly algorithm and so on) in the process of handling data, realizes the browser connect and deploys the information of system operation remotely by the Built-in embedded server and the results. At the same time, the system can achieve customized data release requirement of the user by setting custom configuration of database and uploading the new algorithm. Experiment shows that the system has high efficiency and it can protect the privacy of publish data effectively, which provides a convenient and reliable solution for data mining.
Key words : embedded Web server;μClinux;privacy protect;data release

0 引言

    隨著信息技術及數(shù)據(jù)挖掘技術的飛速發(fā)展,越來越多的數(shù)據(jù)為人們所共享使用。如何保護發(fā)布數(shù)據(jù)中的隱私信息不被攻擊者惡意獲取,同時又使數(shù)據(jù)接收者充分利用數(shù)據(jù)信息進行有效的探索和科學研究,已成為一個重要的信息安全問題。

    目前,學術界對隱私保護技術開展了較為深入的研究[1-2],相關技術大致可以分為3 類:基于數(shù)據(jù)失真的技術[3-4]、基于數(shù)據(jù)加密的技術[5-6]和基于限制發(fā)布的技術[7-8]。其中,基于限制發(fā)布技術中的k-匿名得到廣泛的應用[9]。k-匿名方法又可以分為精確求解方法和近似求解方法。前者能保證找到最優(yōu)k-匿名方案,但其時間復雜度為指數(shù)級,只適用于小規(guī)模數(shù)據(jù);后者只能找到近似最優(yōu)k-匿名方案,但其時間復雜度為線性或近似線性,可應用于大規(guī)模數(shù)據(jù)。同時近似求解方法通過采用多種啟發(fā)策略,可以在多項式時間內找到滿足特定目標函數(shù)的局部最優(yōu)方案,但不能保證找到全局最優(yōu)方案。不同的匿名算法應用場景不同,數(shù)據(jù)匿名效果也各不相同,因此,需要根據(jù)發(fā)布者的需求進行定制數(shù)據(jù)匿名化。

    本文針對不同應用場景及不同的用戶需求,對匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)進行了研究。該系統(tǒng)在保證發(fā)布數(shù)據(jù)滿足k-匿名的基礎上,設計了自定義匿名算法的功能,實現(xiàn)用戶數(shù)據(jù)定制化發(fā)布;同時結合嵌入式Web服務器技術打破傳統(tǒng)硬件的限制,用戶在能夠訪問Internet的地方即可進行數(shù)據(jù)發(fā)布的相關操作。通過測試實驗對系統(tǒng)性能進行評估,結果表明該系統(tǒng)具有良好的匿名性、移動性和可擴展性,同時具有很好的服務選擇性。

1 系統(tǒng)總體設計

    系統(tǒng)主要由遠程數(shù)據(jù)庫、數(shù)據(jù)發(fā)布終端及遠程瀏覽器3部分構成,實現(xiàn)數(shù)據(jù)的獲取、處理、發(fā)送及顯示,圖1所示為系統(tǒng)的總體結構圖。

ck3-t1.gif

    系統(tǒng)流程:用戶通過瀏覽器連接終端內的嵌入式Web服務器對數(shù)據(jù)發(fā)布過程中的數(shù)據(jù)庫連接、算法選擇、數(shù)據(jù)加密方式及要求等相關信息進行配置,同時通過遠程瀏覽器實現(xiàn)任務開啟、結果顯示、數(shù)據(jù)導出等功能;數(shù)據(jù)發(fā)布終端在收到Web服務器的開始任務請求后讀取系統(tǒng)配置信息,通過Internet獲取遠程數(shù)據(jù)庫的數(shù)據(jù)源,并使用相關算法將數(shù)據(jù)進行匿名化操作;最后,終端將處理完成的數(shù)據(jù)集通過Web服務器呈現(xiàn)給遠程瀏覽器,并提供文件導出、數(shù)據(jù)庫轉存等多種數(shù)據(jù)導出方式。

2 系統(tǒng)硬件設計

    為了使數(shù)據(jù)發(fā)布終端既作為數(shù)據(jù)處理單元又作為嵌入式Web服務器單元,實現(xiàn)用戶通過瀏覽器對終端進行遠程配置、任務執(zhí)行和結果輸出等操作,將系統(tǒng)硬件分為電源管理模塊、處理器模塊、數(shù)據(jù)存儲模塊、網(wǎng)絡通信模塊和顯示器模塊5個部分,硬件系統(tǒng)總體結構如圖2所示。

ck3-t2.gif

    系統(tǒng)選用三星公司ARM Cortex系列中最新推出的Exynos 4412芯片為主處理器,是32 nm HKMG(High-K Metal Gate,HKMG)工藝的4核處理器,主頻高達1.5 GHz,具有高性能、低功耗的優(yōu)點。終端同時配備2G DDR3(Double Data Rate SDRAM 3,DDR3)內存及4 GB高速閃存。系統(tǒng)選用由Davicom公司生產的DM9000A作為以太網(wǎng)控制器芯片,它有1個10/100 Mb/s的自適應物理層與4 KB雙字節(jié)大小的靜態(tài)隨機存儲器,支持8 bit和16 bit的接口,可以支持不同類型的處理器,從而為終端執(zhí)行數(shù)據(jù)加密處理過程提供可靠、高效的執(zhí)行環(huán)境和硬件支持。

3 系統(tǒng)軟件設計

3.1 數(shù)據(jù)發(fā)布終端軟件設計

    數(shù)據(jù)發(fā)布終端結合嵌入式Web服務器技術[10]實現(xiàn),用戶通過PC端的瀏覽器,使用圖形界面來直接地訪問嵌入式系統(tǒng)。這種基于Internet的方式使用戶端可以在世界任何一個可連接Internet的地方訪問Web服務器,根據(jù)用戶需求隨時隨地進行數(shù)據(jù)匿名發(fā)布操作,極大地方便了用戶進行的數(shù)據(jù)發(fā)布、系統(tǒng)管理和科研工作。

    為實現(xiàn)用戶通過遠程瀏覽器與嵌入式Web服務器進行通信,系統(tǒng)中數(shù)據(jù)發(fā)布終端既作為數(shù)據(jù)處理單元又作為嵌入式Web服務器單元。嵌入式Web服務器在μClinux操作系統(tǒng)基礎上,利用操作系統(tǒng)自帶的TCP/IP協(xié)議棧提供的Socket編程接口進行通信。Web服務器由Http引擎及應用程序接口組成,通過CGI程序調用嵌入式應用程序模塊,從而實現(xiàn)用戶驗證、系統(tǒng)配置、任務執(zhí)行和數(shù)據(jù)導出等功能。嵌入式Web服務器總體結構框架如圖3所示。

ck3-t3.gif

    數(shù)據(jù)發(fā)布終端Web服務器采用多進程偵聽模式,允許多個用戶的同時連接。在Socket通信套接字創(chuàng)建完成后,終端偵聽的過程是一個無限循環(huán),當偵聽到合法連接后便進行連接操作并解析Http報文請求。首先判斷用戶的合法性,若用戶身份認證通過則繼續(xù)解析,否則返回登錄提示W(wǎng)eb界面。

    CGI(Common Gateway Interface,CGI)是一種動態(tài)Web網(wǎng)頁技術,通過CGI程序定義的接口標準與其他應用程序模塊之間進行交互。在Web服務器對客戶端瀏覽器發(fā)送的請求報文進行判斷時,若為靜態(tài)頁面則直接返回相應頁面,若為CGI動態(tài)請求則將報文數(shù)據(jù)傳遞到CGI程序中處理,進行相關操作并將執(zhí)行的結果封裝成Html形式發(fā)送到客戶端瀏覽器,從而展現(xiàn)給用戶。 具體的軟件流程如圖4所示。

ck3-t4.gif

3.2 算法介紹

    為了適應數(shù)據(jù)挖掘中不同應用場景下的隱私保護匿名化需求,系統(tǒng)內置10種匿名化隱私保護算法。算法主要分為全域泛化算法[11]和局域泛化算法[12]兩類,其中全域泛化算法包含Incognito算法、Datafly算法、Samarati算法、Classfly 算法和Classfly+算法;局域泛化算法包含TDS(Top-Down Specialization)算法、Mondrian算法、MDAV算法、KACA算法和Filter K-匿名算法。

    本系統(tǒng)的內置算法在其原文獻中均需消耗大量時間進行訪問I/O接口的操作,使得算法處理數(shù)據(jù)集效率較差。針對這一問題本系統(tǒng)進行了算法優(yōu)化,使系統(tǒng)在處理數(shù)據(jù)集時除讀取數(shù)據(jù)和導出匿名后的數(shù)據(jù)外,其余操作均在內存中完成。這種優(yōu)化方式雖然消耗了內存資源,但大幅度縮短了處理數(shù)據(jù)集的時間,提高了系統(tǒng)對數(shù)據(jù)匿名化處理的效率。

    以Incognito算法為例,在文獻[11]中,該算法在形成表Ei的過程是在數(shù)據(jù)庫中進行的,需要多次訪問I/O接口,造成時間的損耗。以下是文獻[11]形成Ei的SQL語句:

INSERT INTO Ei (start, end) WITH CandidateEdges (start, end) AS (SELECT p.ID, q.ID FROM Ci p, Ci q, Ei-1 e, Ei-1 f WHERE (e.start = p.parent1 ∧ e.end = q.parent1 ∧ f.start = p.parent2 ∧ f.end = q.parent2) ∨ (e.start = p.parent1 ∧ e.end = q.parent1 ∧ p.parent2 = q.parent2) ∨ (e.start = p.parent2 ∧ e.end = q.parent2 ∧ p.parent1 = q.parent1) ) SELECT D.start, D.end FROM CandidateEdges D EXCEPT SELECT D1.start, D2.end FROM CandidateEdges D1, CandidateEdges D2 WHERE D1.end = D2.start

    這段代碼多次訪問I/O接口,占用該算法運行的大部分時間,本系統(tǒng)內置的Incognito算法對本部分優(yōu)化的偽代碼如下:

ck3-cx1.gif

ck3-cx2.gif

    其中Ei包含Start和End兩個字段,Ci包含ID、屬性名和各屬性泛化級別字段。以上代碼均在內存中執(zhí)行,減少了原算法的I/O接口的訪問次數(shù),極大地縮短了算法處理數(shù)據(jù)集的時間。

4 測試結果

    為驗證面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)的實用性,測試選取了來自公共數(shù)據(jù)庫UC Irvine Machine Learning Repsditory的Adult數(shù)據(jù)集中的訓練集(大小:30 162條記錄)作為系統(tǒng)數(shù)據(jù)源并對其進行匿名化測試,準標識符屬性為age、workclass、education、marital_status、race、sex、native_country,敏感屬性為salary。

4.1 功能測試

    在功能測試中,設置匿名隱私約束k等于10。測試時,在瀏覽器地址欄下輸入嵌入式Web服務器的IP地址,服務器對瀏覽器的請求作出響應,進行相應操作并將結果發(fā)給瀏覽器。在瀏覽器中進行對數(shù)據(jù)清洗,配置k-匿名隱私約束、準標識符屬性、泛化規(guī)則以及敏感屬性操作,并根據(jù)不同的需求選用相應的匿名化隱私保護算法,最后執(zhí)行k-匿名處理。源數(shù)據(jù)表經(jīng)過泛化后均滿足k-匿名,且匿名表信息損失量較小。

4.2 性能測試

    在性能測試中,以Incognito算法為例進行了不同k值約束條件下文獻算法與系統(tǒng)優(yōu)化內置算法執(zhí)行時間的對比,具體時間對比如表1所示。

ck3-b1.gif

5 結論

    本文描述了面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)的設計與實現(xiàn),該系統(tǒng)通過內置算法匿名化數(shù)據(jù)集的準標識符屬性,從而避免個人信息泄漏。測試結果證明,本系統(tǒng)可以有效地實現(xiàn)數(shù)據(jù)集的匿名,保護了個人隱私信息,并且其內置的優(yōu)化算法大幅度地提高了處理數(shù)據(jù)的效率。同時,系統(tǒng)提供的可配置數(shù)據(jù)庫及自定義算法功能使數(shù)據(jù)發(fā)布得以定制化,具有較好的移動性、可擴展性和服務選擇性,為數(shù)據(jù)挖掘科研工作的開展提供較大的參考價值。

參考文獻

[1] 周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫應用的隱私保護研究綜述(四)[J].計算機學報,2009,32(5):847-861.

[2] 朱青,趙桐,王珊.面向查詢服務的數(shù)據(jù)隱私保護算法[J].計算機學報,2010,33(8):1315-1323.

[3] SAYGIN Y,VERYKIOS V S,ELMAGARMID A K.Privacy preserving association rule mining[A].Proceedings of the 12th International Workshop on Research Issues in Data Engineering(RIDE)[C].USA:San Jose,2002:151-158.

[4] AGGARWAL C C,YU P S.A condensation approach to privacy preserving data mining[A].Proceedings of the 9th International Conference on Extending Database Technology (EDBT)[C].Greece:Heraklion,2004:183-199.

[5] YAO A C.How to generate and exchange secrets[A].Proceedings of the 27th IEEE Symposium on Foundations of Computer Science(FOCS)[C].Canada:Toronto,1986:162-167.

[6] CLIFTON C,KANTARCIOGLOU M,LIN X,et a1.Tools for privacy preserving distributed data mining[J].ACM SIGKDD Explorations,2002,4(2):28-34.

[7] 韓建民,于娟,虞惹群.面向敏感值的個性化隱私保護[J].電子學報,2010,38(7):1723-1728.

[8] 楊靜,王超,張鍵沛.基于敏感屬性熵的微聚集算法[J].電子學報,2014,42(7):1327-1337.

[9] SWEENEY L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,F(xiàn)uzziness and Knowledge-Based System,2002,10(5):571-588.

[10] 王莉,周偉.基于ARM的嵌入式Web服務器設計[J].計算機工程與應用,2012,48(14):90-93.

[11] LEFEVRE K,DEWITT D J,RAMAKRISHNAN R.Incognito:efficient full-domain K-anonymity[C].ACM SIGMOD International Conference on Management of Data,USA:Maryland,2005:49-60.

[12] LEFEVRE K,DEWITT D J,RAMAKRISHNAN R.Mondrian multi-mensional K-anonymity[C].Proc.of the 22nd International Conference on Data Engineering,2006.

此內容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。