榴莲视频在线观看下载,国产aⅴ激情无码久久,大香伊人一本线中文字幕

基于DAG的Hive數(shù)據(jù)溯源方法

2020年信息技術與網(wǎng)絡安全第11期

杜娟1，蘇秋月2

1.61646部隊，北京100192；2.四川大學，四川成都610065

摘要： 數(shù)據(jù)溯源能夠快速定位數(shù)據(jù)的來源及其產(chǎn)生過程，對審計、數(shù)據(jù)生命周期管理都有很大幫助，是數(shù)據(jù)安全防護中的重要一環(huán)。針對傳統(tǒng)數(shù)據(jù)溯源機制難以應用于Hive數(shù)據(jù)倉庫中大規(guī)模、復雜的數(shù)據(jù)處理的問題，提出了一種基于DAG的數(shù)據(jù)溯源方法，實現(xiàn)了對Hive中數(shù)據(jù)的溯源。最后通過實驗對該方法的有效性以及性能進行了測試與驗證。

關鍵詞： 數(shù)據(jù)溯源大數(shù)據(jù) 有向無環(huán)圖

中圖分類號： TP311.13
文獻標識碼： A
DOI： 10.19358/j.issn.2096-5133.2020.11.005
引用格式：杜娟，蘇秋月. 基于DAG的Hive數(shù)據(jù)溯源方法[J].信息技術與網(wǎng)絡安全，2020，39(11)：31-37.

Hive data provenance method based on DAG

Du Juan1，Su Qiuyue2

1.Unit 61646 of PLA，Beijing 100192，China；2.Sichuan University，Chengdu 610065，China

Abstract： Data provenance can quickly locate the source of data and its production process, which is of great help to audit and data life cycle management. It is an important part of data security protection. Aiming at the problem that traditional data provenance mechanisms are difficult to apply to large-scale and complex data processing in Hive data warehouses, this paper proposes a data traceability method based on Directed Acyclic Graph(DAG). It can implement the traceability of Hive data. Finally, the effectiveness and performance of this method are tested and verified by experiments.

Key words : data provenance；big data；directed acyclic graph

0 引言

Hive是基于Hadoop的開源數(shù)據(jù)倉庫工具，它提供了豐富的SQL查詢方式來分析存儲在Hadoop分布式文件系統(tǒng)中的數(shù)據(jù)：可以將結(jié)構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供完整的SQL查詢功能；可以將SQL語句轉(zhuǎn)換為MapReduce任務運行，通過自己的SQL查詢分析需要的內(nèi)容。這套SQL簡稱Hive SQL，使不熟悉MapReduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數(shù)據(jù)^[1]。由于Hive在數(shù)據(jù)存儲和分析上的靈活性，眾多企業(yè)用它存儲重要數(shù)據(jù)。這些敏感的商業(yè)數(shù)據(jù)被大量企業(yè)內(nèi)部人員訪問和操作，一旦發(fā)生人為誤操作或違規(guī)操作，很容易導致數(shù)據(jù)的泄露?，F(xiàn)有大數(shù)據(jù)平臺上的數(shù)據(jù)安全防護方案缺乏對敏感數(shù)據(jù)靈活的訪問控制，難以對數(shù)據(jù)的生命周期及用戶操作行為進行精確的追蹤溯源，無法提供對大數(shù)據(jù)合規(guī)審計管理的支撐。因此，如何提供有效的安全防護機制來保障Hive中數(shù)據(jù)的安全，是目前研究的重點。

數(shù)據(jù)溯源也稱為數(shù)據(jù)血緣、數(shù)據(jù)譜系等，數(shù)據(jù)溯源技術根據(jù)追蹤路徑重現(xiàn)數(shù)據(jù)的歷史、狀態(tài)和演變過程，實現(xiàn)數(shù)據(jù)歷史檔案的追溯^[2]。通過數(shù)據(jù)溯源能追蹤到異常發(fā)生的原因，還能幫助人們確定數(shù)據(jù)倉庫中各項數(shù)據(jù)的來源。國內(nèi)外學者在數(shù)據(jù)溯源技術上進行了深入研究。在數(shù)據(jù)溯源模型方面，汪洪昕^[3]提出了數(shù)據(jù)染色體溯源模型，更加完善地揭示數(shù)據(jù)傳播過程中的變化及數(shù)據(jù)的關系，并在Hadoop平臺中得以實現(xiàn)。郝鵬飛^[4]通過對大數(shù)據(jù)模型分析平臺工作流特征分析，討論了基于Oozie模型工作流的數(shù)據(jù)溯源問題。

目前針對數(shù)據(jù)庫的數(shù)據(jù)溯源追蹤主要有兩種方法：(1)基于標注的方法^[5]，此類方法雖然實施起來比較簡單，但需要額外的存儲空間且隨著處理的數(shù)據(jù)量增加其執(zhí)行效率會降低，難以直接應用于維護著海量數(shù)據(jù)的Hive數(shù)據(jù)倉庫；(2)基于逆置函數(shù)的方法^[6]，此類方法需要的存儲空間較小，但不是所有的數(shù)據(jù)處理都可以逆置，且其溯源追蹤的性能完全取決于逆置機制。對于Hive數(shù)據(jù)倉庫中復雜的數(shù)據(jù)處理，要構造一個良好的逆置機制難度較大。Hive數(shù)據(jù)的溯源重點在于數(shù)據(jù)沿襲問題，而給定數(shù)據(jù)的數(shù)據(jù)沿襲問題可以概括為建立數(shù)據(jù)的血緣關系，得到其產(chǎn)生過程以及源數(shù)據(jù)。

對于數(shù)據(jù)倉庫中數(shù)據(jù)溯源問題，柯潔^[7]等人基于W3C的PROV模型對ETL過程的數(shù)據(jù)溯源進行了深入分析，并提出了相應的數(shù)據(jù)溯源算法。文獻[8-9]討論了數(shù)據(jù)倉庫中的數(shù)據(jù)譜系跟蹤問題，提供了譜系跟蹤算法以及溯源過程中屬性映射和轉(zhuǎn)換起源集的求解方法。但這些研究均針對傳統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)溯源，難以應用于大數(shù)據(jù)環(huán)境下Hive的數(shù)據(jù)溯源。針對大數(shù)據(jù)環(huán)境，文獻[10]提出了一種基于層的數(shù)據(jù)溯源架構，其中包括大數(shù)據(jù)來源的捕獲及可視化，并且在溯源數(shù)據(jù)中引入了一種訪問控制機制。文獻[11-13]總結(jié)了數(shù)據(jù)庫中的數(shù)據(jù)溯源技術，分析了在Hadoop環(huán)境下數(shù)據(jù)溯源面臨的研究挑戰(zhàn)，并從數(shù)據(jù)溯源模型、溯源數(shù)據(jù)存儲、溯源查詢語言等方面梳理了現(xiàn)有解決方案。Apache Atlas是Hadoop社區(qū)為解決Hadoop生態(tài)系統(tǒng)的元數(shù)據(jù)治理問題而產(chǎn)生的開源項目，它為Hadoop集群提供了包括數(shù)據(jù)分類、集中策略引擎、數(shù)據(jù)溯源、安全和生命周期管理在內(nèi)的元數(shù)據(jù)治理核心能力^[14]，因此可以將Apache Atlas引入到Hive數(shù)據(jù)溯源中。

針對傳統(tǒng)數(shù)據(jù)溯源機制難以滿足Hive中大規(guī)模、復雜的數(shù)據(jù)處理問題，本文提出了基于有向無環(huán)圖(Directed Acyclic Graph，DAG)的數(shù)據(jù)溯源方法。通過對Apache Atlas進行擴展，在Hive中實現(xiàn)了該數(shù)據(jù)溯源方法，并通過實驗證明該方法可為Hive提供準確、高效的數(shù)據(jù)溯源機制，也為數(shù)據(jù)安全審計提供了有力支撐。

本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000003062

作者信息:

杜娟1，蘇秋月2

(1.61646部隊，北京100192；2.四川大學，四川成都610065)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉(zhuǎn)載。

相關內(nèi)容