引用格式:李思慧,戴明超,蔡伍洲. 基于差分隱私的數(shù)據(jù)脫敏技術(shù)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(2):39-43.
引言
當(dāng)前,人工智能、大模型、大數(shù)據(jù)技術(shù)飛速發(fā)展,數(shù)據(jù)是各項技術(shù)構(gòu)建的關(guān)鍵基礎(chǔ)資源,全球數(shù)據(jù)產(chǎn)業(yè)正在呈爆發(fā)式增長。據(jù)國際數(shù)據(jù)公司(IDC)預(yù)測,2018~2025年,全球數(shù)據(jù)量將從33 ZB猛增至175 ZB,而根據(jù)工業(yè)和信息化部相關(guān)預(yù)測,2021~2025年,我國的大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將從1.3萬億元突破至3萬億元,數(shù)據(jù)已然成為推動經(jīng)濟(jì)社會發(fā)展最重要的基礎(chǔ)生產(chǎn)要素之一[1]。數(shù)據(jù)資源被充分利用的同時,數(shù)據(jù)安全問題也日益凸顯,數(shù)據(jù)被非法獲取事件頻頻發(fā)生,給企業(yè)和個人帶來了巨大損失。因此,在挖掘數(shù)據(jù)價值的同時,確保數(shù)據(jù)安全,已成為亟需解決的關(guān)鍵問題。
傳統(tǒng)的數(shù)據(jù)安全解決方案大多關(guān)注于數(shù)據(jù)的存儲和傳輸,在對數(shù)據(jù)進(jìn)行挖掘利用時,仍然需要具有敏感信息的原始數(shù)據(jù),數(shù)據(jù)非法竊取者可通過身份攻擊、屬性攻擊、存在性攻擊和概率知識攻擊等,推斷出個體敏感信息[2]。數(shù)據(jù)脫敏技術(shù)是通過對數(shù)據(jù)進(jìn)行一定處理來保護(hù)隱私的技術(shù),其目的是在保留輸入數(shù)據(jù)的統(tǒng)計特征以及可用性的同時,保護(hù)數(shù)據(jù)的隱私和安全[3]。差分隱私技術(shù)是數(shù)據(jù)脫敏技術(shù)的一種,該技術(shù)提供了一種隱私保護(hù)方法,旨在向原始數(shù)據(jù)注入噪聲或擾動,實(shí)現(xiàn)在保護(hù)個體數(shù)據(jù)隱私的同時,完成對數(shù)據(jù)的挖掘利用[4]。
差分隱私技術(shù)在國外研究較早,且技術(shù)日趨成熟。2006年,Dwork等人[5]首次提出了差分隱私保護(hù)方法,該方法通過向原始數(shù)據(jù)添加服從特定分布的噪聲,用以保護(hù)敏感數(shù)據(jù),解決了傳統(tǒng)數(shù)據(jù)匿名脫敏技術(shù)無法抵抗背景知識攻擊的問題。2016年,Abadi等人[6]提出了具有差分隱私的深度學(xué)習(xí)算法,分析了差分隱私在深度學(xué)習(xí)框架內(nèi)的隱私成本,在保護(hù)數(shù)據(jù)隱私的同時,訓(xùn)練出有效的深度學(xué)習(xí)模型。2019年,Holohan等人[7]設(shè)計了IBM差分隱私庫,用于Python編程語言中研究、實(shí)驗和開發(fā)差分隱私應(yīng)用程序。2023年,Holohan[8]又提出了差分隱私隨機(jī)數(shù)生成器和種子算法,實(shí)現(xiàn)了在差分算法和結(jié)果中進(jìn)行測試和錯誤修復(fù),為差分隱私算法選擇提供了有利幫助。
近年來,國內(nèi)的差分隱私技術(shù)研究也取得了豐碩成果。2009年,袁進(jìn)良[9]設(shè)計了統(tǒng)一的差分隱私聯(lián)邦學(xué)習(xí)平臺,擴(kuò)展了傳統(tǒng)的隱私預(yù)算組合定理,實(shí)現(xiàn)了隨時間不斷更新的可用預(yù)算,解決了差分隱私的強(qiáng)隱私和聯(lián)邦系統(tǒng)的高吞吐難兼顧問題。2023年,張連福[10]提出了一種基于同態(tài)加密與差分隱私的隱私保護(hù)聯(lián)邦學(xué)習(xí)方案,利用多種防護(hù)措施實(shí)現(xiàn)了隱私防護(hù)范圍覆蓋聯(lián)邦學(xué)習(xí)全生命周期。同年,張旭[11]提出一種兼顧安全防御和隱私保護(hù)的分布式學(xué)習(xí)系統(tǒng),該系統(tǒng)實(shí)現(xiàn)隱私保護(hù)的同時,提升了訓(xùn)練模型的準(zhǔn)確性。隨著差分隱私技術(shù)的不斷迭代發(fā)展,其在數(shù)據(jù)隱私保護(hù)領(lǐng)域得到越來越多的應(yīng)用。
本文探討基于差分隱私的數(shù)據(jù)脫敏方法,對數(shù)據(jù)集進(jìn)行清洗整理后,利用Laplace機(jī)制對敏感數(shù)據(jù)進(jìn)行處理,利用神經(jīng)網(wǎng)絡(luò)模型分別對未脫敏數(shù)據(jù)和脫敏后的數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測,對比原始數(shù)據(jù)、差分隱私脫敏數(shù)據(jù)及其他脫敏技術(shù)數(shù)據(jù)生成模型的預(yù)測效果,為神經(jīng)網(wǎng)絡(luò)預(yù)測模型的數(shù)據(jù)隱私保護(hù)問題提供解決方案。
本文詳細(xì)內(nèi)容請下載:
http://theprogrammingfactory.com/resource/share/2000006341
作者信息:
李思慧1,戴明超1,蔡伍洲2
(1.武警吉林省總隊,吉林長春130000;
2.武警部隊作戰(zhàn)勤務(wù)局,北京100000)