《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 數(shù)據(jù)安全:流動(dòng)的數(shù)據(jù)

數(shù)據(jù)安全:流動(dòng)的數(shù)據(jù)

2021-07-30
來(lái)源:計(jì)算機(jī)與網(wǎng)絡(luò)安全
關(guān)鍵詞: 數(shù)據(jù) 安全

  1. 數(shù)據(jù)采集:讓數(shù)據(jù)匯聚到一起

  當(dāng)前,以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能為核心的數(shù)字化浪潮正席卷全球,全世界每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),人類產(chǎn)生的數(shù)據(jù)總量呈指數(shù)級(jí)增長(zhǎng)。面對(duì)如此巨大的數(shù)據(jù)規(guī)模,如何采集并進(jìn)行轉(zhuǎn)換、存儲(chǔ)以及分析,是人們?cè)跀?shù)據(jù)開(kāi)發(fā)利用過(guò)程中面臨的巨大挑戰(zhàn)。其中,數(shù)據(jù)采集又是所有數(shù)據(jù)處理行為的前提。

  數(shù)據(jù)采集是指從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的過(guò)程。數(shù)據(jù)采集系統(tǒng)整合了信號(hào)、傳感器、激勵(lì)器等數(shù)據(jù)采集設(shè)備和一系列應(yīng)用軟件。目前,數(shù)據(jù)采集廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域,如攝像頭、麥克風(fēng)都是數(shù)據(jù)采集工具。

  數(shù)據(jù)采集并不是隨隨便便、雜亂無(wú)章地采集數(shù)據(jù),而是對(duì)數(shù)據(jù)有一定的要求。例如,要求數(shù)據(jù)量是全面的,具有足夠的分析價(jià)值;是多維度和多類型的,能夠滿足不同的需求;是高效的,具有比較明確的針對(duì)性和時(shí)效性。常用的數(shù)據(jù)采集方法主要有傳感器采集、日志文件采集、網(wǎng)絡(luò)爬蟲(chóng)采集。

  傳感器采集:傳感器通常用于測(cè)量物理變量,一般包括聲音、溫濕度、距離、電流等,將測(cè)量值轉(zhuǎn)化為數(shù)字信號(hào)并傳送到數(shù)據(jù)采集點(diǎn),讓物體擁有“觸覺(jué)”“味覺(jué)”和“嗅覺(jué)”等“感官”,變得鮮活起來(lái)。

  日志文件采集:日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄對(duì)數(shù)據(jù)源的各種操作活動(dòng),如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用中的股票記賬和Web服務(wù)器記錄的用戶訪問(wèn)行為。很多互聯(lián)網(wǎng)企業(yè)采用日志文件采集方式,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。這些工具均使用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。

  網(wǎng)絡(luò)爬蟲(chóng)采集:網(wǎng)絡(luò)爬蟲(chóng)是指為搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序,它是針對(duì)搜索引擎和Web緩存的主要數(shù)據(jù)采集方法。該方法將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),以結(jié)構(gòu)化的形式將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。

  由于所采集數(shù)據(jù)的種類錯(cuò)綜復(fù)雜,因此對(duì)不同種類的數(shù)據(jù)進(jìn)行分析必須運(yùn)用提取技術(shù)。通過(guò)不同方式,可以獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。在現(xiàn)實(shí)生活中,數(shù)據(jù)的種類有很多。而且,不同種類的數(shù)據(jù),其產(chǎn)生的方式不同。針對(duì)大數(shù)據(jù)采集,目前主要流行運(yùn)用以下技術(shù)。

  Hive:Hive是由Facebook開(kāi)發(fā)的數(shù)據(jù)倉(cāng)庫(kù),可支持SQL相似的查詢聲明性語(yǔ)言(HiveQL),可自定義插入相關(guān)腳本(Map-Reduce),并且支持基本數(shù)據(jù)類型、多種集合和組合等。只需要一些簡(jiǎn)單的查詢語(yǔ)句,就能分析計(jì)算數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。

  Transform:Transform操作是大數(shù)據(jù)采集中的一個(gè)關(guān)鍵流程,利用多種數(shù)據(jù)分析和計(jì)算系統(tǒng)對(duì)清洗后的數(shù)據(jù)進(jìn)行處理和分析。

  Apache Sqoop:將數(shù)據(jù)在Hadoop HDFS分布式文件系統(tǒng)和生產(chǎn)數(shù)據(jù)庫(kù)相互轉(zhuǎn)換,需要考慮數(shù)據(jù)是否一致,以及資源配置等問(wèn)題。為了防止使用效率不高的腳本進(jìn)行傳輸,將使用Apache Sqoop。Apache Sqoop能快速實(shí)現(xiàn)導(dǎo)入和導(dǎo)出數(shù)據(jù),解決數(shù)據(jù)來(lái)回轉(zhuǎn)換中暴露的問(wèn)題,還可通過(guò)數(shù)據(jù)庫(kù)元數(shù)據(jù)預(yù)測(cè)數(shù)據(jù)類型。

  數(shù)據(jù)采集是挖掘數(shù)據(jù)價(jià)值的第一步,當(dāng)數(shù)據(jù)量越來(lái)越大時(shí),可提取出來(lái)的有用數(shù)據(jù)必然也就更多。只要善用數(shù)據(jù)化處理平臺(tái),便能夠保證數(shù)據(jù)分析結(jié)果的有效性,助力實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)。

  2. 數(shù)據(jù)分析:機(jī)器學(xué)習(xí)和深度挖掘

  數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,以求最大化地開(kāi)發(fā)數(shù)據(jù)功能。數(shù)據(jù)分析的目的是把隱藏在一大批看似雜亂無(wú)章的數(shù)據(jù)背后的信息提煉出來(lái),并總結(jié)出內(nèi)在規(guī)律。

  數(shù)據(jù)分析的概念不難理解,但數(shù)據(jù)分析是通過(guò)什么方法來(lái)實(shí)現(xiàn)的呢?這就要借助機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是研究如何用機(jī)器來(lái)模擬人類學(xué)習(xí)活動(dòng)的一門(mén)學(xué)科,它是研究機(jī)器如何獲取新知識(shí)和新技能并識(shí)別現(xiàn)有知識(shí)的學(xué)問(wèn)。此處所說(shuō)的“機(jī)器”是指計(jì)算機(jī)、電子計(jì)算機(jī)、中子計(jì)算機(jī)、光子計(jì)算機(jī)或神經(jīng)計(jì)算機(jī)等。機(jī)器學(xué)習(xí)主要包括三種類型:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)。

  監(jiān)督學(xué)習(xí)從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個(gè)函數(shù),當(dāng)有新數(shù)據(jù)時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測(cè)結(jié)果,如圖1、圖2所示。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包括輸入和輸出,也可以說(shuō)是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。監(jiān)督學(xué)習(xí)分為回歸和分類兩種類型,包括線性回歸、Logistic回歸、CART、樸素貝葉斯、KNN等幾種算法?;貧w是精確值預(yù)測(cè)。例如,根據(jù)已有的銷售價(jià)格和銷售數(shù)量建立模型,預(yù)測(cè)新銷售價(jià)格對(duì)應(yīng)的銷售數(shù)量,就是回歸的過(guò)程。

  圖1  監(jiān)督學(xué)習(xí)模型

  圖2  監(jiān)督學(xué)習(xí)預(yù)測(cè)模型

  無(wú)監(jiān)督學(xué)習(xí)就是輸入一些并不知道輸出的數(shù)據(jù),然后給這些數(shù)據(jù)打上標(biāo)簽,如圖3所示。它主要有關(guān)聯(lián)、群集及維度降低三種類型,集中使用Apriori、K-means、PCA三種算法。其實(shí),我們每天看的新聞分類就是一個(gè)無(wú)監(jiān)督學(xué)習(xí),由新聞網(wǎng)站收集網(wǎng)絡(luò)新聞,根據(jù)主題將新聞分成各類鏈接,讀者點(diǎn)擊鏈接時(shí)會(huì)展現(xiàn)相關(guān)的新聞,而這些新聞的關(guān)聯(lián)性不是人工實(shí)現(xiàn)的,是算法自動(dòng)分的。簡(jiǎn)單地說(shuō),監(jiān)督學(xué)習(xí)是根據(jù)已經(jīng)存在的數(shù)據(jù),如現(xiàn)有銷售價(jià)格和銷售數(shù)量,預(yù)測(cè)在新的銷售價(jià)格下能賣出多少數(shù)量的商品;而無(wú)監(jiān)督學(xué)習(xí)則是在不知道數(shù)據(jù)的輸出是什么的情況下,根據(jù)特征進(jìn)行分類和預(yù)測(cè)。

  圖3  無(wú)監(jiān)督學(xué)習(xí)模型

  強(qiáng)化學(xué)習(xí)是讓機(jī)器通過(guò)不斷的測(cè)試,在環(huán)境中獲得高分。在這個(gè)過(guò)程中,機(jī)器會(huì)一而再、再而三地出錯(cuò),從而獲取規(guī)律。近兩年比較有名的Alpha Go事件,其實(shí)就是機(jī)器通過(guò)不斷學(xué)習(xí)游戲和變換新步驟而得到高分的實(shí)例。那么,計(jì)算機(jī)是怎樣學(xué)習(xí)的呢?其實(shí),計(jì)算機(jī)就像一位虛擬的老師,只是這位老師比較嚴(yán)厲,它不會(huì)提前告訴你怎樣移動(dòng),不會(huì)教你怎樣學(xué)習(xí),就像學(xué)校的教導(dǎo)主任一樣只對(duì)你的行為進(jìn)行監(jiān)督和打分,而不負(fù)責(zé)教學(xué)。在這種情況下,我們?cè)鯓荧@得高分呢?我們只需要記住高分和低分分別對(duì)應(yīng)的行為,在下一次打分時(shí)盡量表示出高分行為,避免低分行為,就能夠做到。據(jù)此,機(jī)器學(xué)習(xí)主要是從歷史數(shù)據(jù)獲得模型來(lái)預(yù)測(cè)未知屬性,而人類是通過(guò)經(jīng)驗(yàn)總結(jié)規(guī)律以預(yù)測(cè)未來(lái),如圖4所示。

  圖4  機(jī)器學(xué)習(xí)與人類思考對(duì)比

  說(shuō)到機(jī)器學(xué)習(xí),不能不提到近年來(lái)出現(xiàn)的一個(gè)新詞——信息機(jī)器。信息機(jī)器與信息技術(shù)密切相關(guān),它不是傳統(tǒng)意義上的機(jī)械機(jī)器,而是接收信息、處理信息的新型機(jī)器,誕生于媒介新技術(shù)的革新和變遷,更多地體現(xiàn)出人類與機(jī)器的交互性。例如,在機(jī)器學(xué)習(xí)的過(guò)程中,實(shí)際上機(jī)器也不斷地產(chǎn)生數(shù)據(jù)和信息,這種現(xiàn)象值得人們高度關(guān)注和研究。

  除了機(jī)器學(xué)習(xí),還要提到數(shù)據(jù)分析的另一種方法——深度挖掘。這就好比挖掘機(jī)挖土,挖得越深,就越有可能挖到有價(jià)值的東西。數(shù)據(jù)領(lǐng)域的深度挖掘,就是從大量數(shù)據(jù)中通過(guò)算法搜索隱藏于其中的信息的過(guò)程。深度挖掘本質(zhì)上類似于機(jī)器學(xué)習(xí)和人工智能的基礎(chǔ),其主要目的是從各種各樣的數(shù)據(jù)來(lái)源中提取有用信息,然后將這些信息合并,深度分析其中的規(guī)律和內(nèi)在關(guān)聯(lián)。這就意味著深度挖掘不是一種用來(lái)證明假說(shuō)的方法,而是用于構(gòu)建各種各樣假說(shuō)的方法。深度挖掘不能告訴人們這些問(wèn)題的答案,只能說(shuō)明A和B可能存在相關(guān)關(guān)系,但是無(wú)法說(shuō)出A和B存在什么樣的相關(guān)關(guān)系。與機(jī)器學(xué)習(xí)相比,深度挖掘的概念更廣,機(jī)器學(xué)習(xí)只是深度挖掘領(lǐng)域的一個(gè)分支領(lǐng)域。

  深度挖掘廣泛應(yīng)用于商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索中,通過(guò)各種方法來(lái)挖掘數(shù)據(jù),主要包括分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。

  數(shù)據(jù)挖掘是一種決策支持過(guò)程,它通過(guò)高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。在市場(chǎng)經(jīng)濟(jì)比較發(fā)達(dá)的國(guó)家和地區(qū),許多企業(yè)都開(kāi)始在原有信息系統(tǒng)的基礎(chǔ)上通過(guò)深度挖掘?qū)I(yè)務(wù)信息進(jìn)行深加工,以構(gòu)筑自己的競(jìng)爭(zhēng)優(yōu)勢(shì),擴(kuò)大自己的營(yíng)業(yè)額。美國(guó)運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù),其數(shù)據(jù)量已達(dá)到5GB,并仍在隨著業(yè)務(wù)發(fā)展而不斷更新。運(yùn)通公司通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果顧客在一家商店用運(yùn)通卡購(gòu)買(mǎi)一套時(shí)裝,那么在同一家商店再買(mǎi)一雙鞋就可以得到比較大的折扣。這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。類似的方法在食品行業(yè)也備受青睞。全球著名的卡夫(Kraft)食品公司建立了一個(gè)擁有3000萬(wàn)條客戶資料的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)是通過(guò)收集對(duì)公司發(fā)出優(yōu)惠券等促銷手段做出積極反應(yīng)的客戶和銷售記錄而建立起來(lái)的??ǚ蚬就ㄟ^(guò)深度挖掘了解特定客戶的興趣和口味,以此為基礎(chǔ)向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并推薦符合他們口味和健康狀況的卡夫產(chǎn)品食譜。此外,出版業(yè)也是數(shù)據(jù)深度挖掘的受益者。例如,美國(guó)讀者文摘(Reader's Digest)出版公司運(yùn)行著一個(gè)已有40年積累的業(yè)務(wù)數(shù)據(jù)庫(kù),里面包含遍布全球的1億多個(gè)訂戶的資料,數(shù)據(jù)庫(kù)每天24小時(shí)連續(xù)運(yùn)行,保證數(shù)據(jù)不斷實(shí)時(shí)更新。正是基于對(duì)客戶資料數(shù)據(jù)庫(kù)進(jìn)行深度挖掘的優(yōu)勢(shì),讀者文摘出版公司的業(yè)務(wù)才能夠從通俗雜志擴(kuò)展到專業(yè)雜志、書(shū)刊和音像制品的出版和發(fā)行。

  3. 數(shù)據(jù)關(guān)聯(lián):因果關(guān)系or相關(guān)關(guān)系

  大數(shù)據(jù)時(shí)代,紛繁蕪雜的數(shù)據(jù)描述的是一個(gè)混沌的世界,只有找出看似不相干的數(shù)據(jù)背后隱藏的邏輯關(guān)系和本質(zhì)規(guī)律,才可能看清楚許多真相。目前,對(duì)于數(shù)據(jù)之間的關(guān)系,存在兩種較主流的看法,即因果關(guān)系和相關(guān)關(guān)系。

  對(duì)于因果關(guān)系,通俗地解釋是指一個(gè)事件(即“因”)和另一個(gè)事件(即“果”)之間的作用關(guān)系,其中后一事件被認(rèn)為是前一事件的結(jié)果。從西方哲學(xué)的角度來(lái)看,亞里士多德較早提出的“四因說(shuō)”,即質(zhì)料因、形式因、動(dòng)力因、目的因,歸納了一般導(dǎo)致結(jié)果發(fā)生的幾個(gè)原因解釋。后來(lái),在亞里士多德宇宙論的基礎(chǔ)上,托馬斯· 阿奎那又對(duì)這四種原因進(jìn)行了等級(jí)排列,認(rèn)為目的因>動(dòng)力因>質(zhì)料因>形式因。阿奎那把第一因歸為上帝,認(rèn)為塵世的很多事件都是在上帝的設(shè)計(jì)或計(jì)劃之中。這種觀點(diǎn)流傳了很久。不過(guò),在后來(lái)的歷史中,亞里士多德的“四因說(shuō)”遭到了后世學(xué)者的批評(píng)。當(dāng)代西方哲學(xué)中廣為流傳的關(guān)于因果關(guān)系的定義出自大衛(wèi)· 休謨的理論。他提出,人們只是發(fā)展了一個(gè)思考習(xí)慣,把前后相繼的兩類客體或事件聯(lián)系起來(lái),除此之外,人們是無(wú)法感知到原因和結(jié)果的。然而,雖然圍繞因果關(guān)系是否存在的爭(zhēng)論一直延綿不絕,但不可否認(rèn)的是在傳統(tǒng)社會(huì)中,因果關(guān)系的確對(duì)人們分析事物的原因起著巨大的潛移默化的作用。

  大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)對(duì)經(jīng)濟(jì)生活各個(gè)方面的影響,有學(xué)者對(duì)事物之間的關(guān)聯(lián)提出了新的詮釋。例如,舍恩伯格在《大數(shù)據(jù)時(shí)代》一書(shū)中一再?gòu)?qiáng)調(diào),人們應(yīng)該在很大程度上從對(duì)因果關(guān)系的追求中解脫出來(lái),轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上。他提出,相關(guān)關(guān)系是指當(dāng)一個(gè)數(shù)據(jù)發(fā)生變化時(shí),另一個(gè)數(shù)據(jù)也可能隨之變化,這兩個(gè)數(shù)據(jù)有時(shí)候沒(méi)有必然聯(lián)系。兩者可能是正相關(guān),也可能是負(fù)相關(guān);可能是強(qiáng)相關(guān),也可能是弱相關(guān)?!拔覀儧](méi)有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲”“相關(guān)關(guān)系能夠幫助我們更好地了解這個(gè)世界”,他認(rèn)為建立在相關(guān)關(guān)系分析法上的預(yù)測(cè)是大數(shù)據(jù)的核心。通過(guò)找到關(guān)聯(lián)物并監(jiān)控它,人們就能夠預(yù)測(cè)未來(lái)。在大數(shù)據(jù)的背景下,相關(guān)關(guān)系較因果關(guān)系能在預(yù)測(cè)功能上展現(xiàn)出更大的優(yōu)勢(shì)。對(duì)于人們來(lái)說(shuō),大數(shù)據(jù)最關(guān)鍵的作用就是利用相關(guān)關(guān)系進(jìn)行研究,把數(shù)據(jù)里面的金子挖出來(lái),或者利用相關(guān)性預(yù)防或促成某些結(jié)果的發(fā)生。由于數(shù)據(jù)超級(jí)海量,需要一定的速度應(yīng)對(duì)信息社會(huì)“數(shù)據(jù)爆炸”和諸多涌現(xiàn)出來(lái)的“復(fù)雜性”,然后才是對(duì)其過(guò)程和背后原因的探詢。

  舍恩伯格提到的相關(guān)關(guān)系與因果關(guān)系有很明顯的不同。因果關(guān)系中,當(dāng)一個(gè)表示原因的數(shù)據(jù)發(fā)生變化時(shí),它對(duì)應(yīng)的結(jié)果數(shù)據(jù)也會(huì)發(fā)生變化,這兩個(gè)數(shù)據(jù)一定是必然關(guān)系。但是,有的時(shí)候追求因果關(guān)系顯得既無(wú)必要又無(wú)可能。例如,在實(shí)際生活中,如果要證明熬夜導(dǎo)致禿頭,可以找兩組身體狀況基本一樣的人,讓一組熬夜,另一組在正常時(shí)間睡覺(jué)。如果熬夜組禿頭的概率大于不熬夜組,那么基本可以證明熬夜和禿頭存在因果關(guān)系。但是,這種實(shí)驗(yàn)在現(xiàn)實(shí)中很難做到,因?yàn)檫B原本的客觀環(huán)境都不能保持一致。而且,這種實(shí)驗(yàn)也違背道德,因?yàn)楹茈y逼大家熬夜,也無(wú)法實(shí)時(shí)追蹤是否熬夜。因此,用因果關(guān)系來(lái)證明和解釋這個(gè)現(xiàn)象有待商榷。

  那么,大數(shù)據(jù)時(shí)代的關(guān)系到底是因果關(guān)系、相關(guān)關(guān)系,還是因果關(guān)系和相關(guān)關(guān)系并存呢?這大概還是取決于人們對(duì)數(shù)據(jù)功能的定位。在相關(guān)關(guān)系中,預(yù)測(cè)是大數(shù)據(jù)的核心功能。對(duì)于快速變化的世界來(lái)說(shuō),探究相關(guān)關(guān)系的確比因果關(guān)系成本更低,耗時(shí)更少,而且也更顯必要。例如,全球最大的零售商沃爾瑪擁有一個(gè)超大型的歷史交易記錄數(shù)據(jù)庫(kù),這個(gè)數(shù)據(jù)庫(kù)包括每位顧客的購(gòu)物清單、消費(fèi)額、購(gòu)物籃中的商品、具體的購(gòu)買(mǎi)時(shí)間以及購(gòu)物時(shí)的天氣。經(jīng)過(guò)分析發(fā)現(xiàn)一個(gè)規(guī)律,就是每當(dāng)季節(jié)性颶風(fēng)來(lái)臨之前,不僅手電筒的銷量增加,蛋撻的銷量也會(huì)增加。因此,后來(lái)每當(dāng)季節(jié)性颶風(fēng)來(lái)臨時(shí),沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,這樣既方便了行色匆匆的顧客,又大幅增加了商品的銷量。在這樣的案例中,并沒(méi)有必要探究為什么手電筒和蛋撻的銷量會(huì)增加,只要知道這種相關(guān)關(guān)系就行。

  通過(guò)相關(guān)關(guān)系進(jìn)行預(yù)測(cè)的案例還有很多。美國(guó)折扣零售商塔吉特曾經(jīng)做過(guò)一項(xiàng)關(guān)于懷孕女性的預(yù)測(cè)。公司分析團(tuán)隊(duì)查看了登記在嬰兒禮物登記簿上的女性消費(fèi)記錄,發(fā)現(xiàn)這些準(zhǔn)媽媽會(huì)在懷孕第三個(gè)月左右的時(shí)候買(mǎi)很多無(wú)香乳液,之后還會(huì)陸續(xù)買(mǎi)些營(yíng)養(yǎng)品,整個(gè)孕期大概能產(chǎn)生對(duì)20多種關(guān)聯(lián)物的需求。通過(guò)這些關(guān)聯(lián)物,公司分析團(tuán)隊(duì)可以看出準(zhǔn)媽媽們的懷孕趨勢(shì),甚至能夠據(jù)此準(zhǔn)確地推測(cè)出她們的預(yù)產(chǎn)期,這樣就能夠在她們?cè)衅诘拿總€(gè)階段給她們寄送相應(yīng)的優(yōu)惠券,從而增加銷售額。所以,不論是追求相關(guān)關(guān)系,還是因果關(guān)系,歸根結(jié)底都是看其能為主體提供什么樣的價(jià)值,以及主體需要實(shí)現(xiàn)什么樣的價(jià)值。

  4. 數(shù)據(jù)質(zhì)量:“清洗”后的數(shù)據(jù)更可靠

  大數(shù)據(jù)時(shí)代,人們關(guān)注的焦點(diǎn)是如何發(fā)揮數(shù)據(jù)的價(jià)值,卻鮮有人關(guān)注數(shù)據(jù)質(zhì)量這個(gè)最根本的問(wèn)題。實(shí)際上,大數(shù)據(jù)處理的關(guān)鍵是解決數(shù)據(jù)質(zhì)量問(wèn)題?!洞髷?shù)據(jù)資產(chǎn):聰明的企業(yè)怎樣致勝于數(shù)據(jù)治理》一書(shū)的作者托尼·費(fèi)舍爾(Tony Fisher)曾提到:“如果基本數(shù)據(jù)不可靠,大多數(shù)企業(yè)的大數(shù)據(jù)計(jì)劃要么會(huì)失敗,要么效果會(huì)低于預(yù)期。造成上述結(jié)果的關(guān)鍵原因在于,數(shù)據(jù)生命周期之中流入了不一致、不準(zhǔn)確、不可靠的數(shù)據(jù)。”糟糕的數(shù)據(jù)質(zhì)量常常意味著糟糕的業(yè)務(wù)決策,將直接導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)分析不準(zhǔn)確、監(jiān)管業(yè)務(wù)難、高層領(lǐng)導(dǎo)難以決策等問(wèn)題。據(jù)IBM統(tǒng)計(jì),錯(cuò)誤或不完整的數(shù)據(jù)會(huì)導(dǎo)致業(yè)務(wù)系統(tǒng)不能正常發(fā)揮優(yōu)勢(shì)甚至失效;數(shù)據(jù)分析員每天有30%的時(shí)間浪費(fèi)在辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上;低劣的數(shù)據(jù)質(zhì)量嚴(yán)重降低了全球企業(yè)的年收入。因此,只有規(guī)避數(shù)據(jù)錯(cuò)誤、保障數(shù)據(jù)質(zhì)量,才能真正讓各數(shù)據(jù)使用方從大數(shù)據(jù)應(yīng)用中獲益。

  近年來(lái),數(shù)據(jù)質(zhì)量管理應(yīng)運(yùn)而生。所謂數(shù)據(jù)質(zhì)量管理,是指對(duì)在數(shù)據(jù)存在的各個(gè)周期中出現(xiàn)的一系列數(shù)據(jù)質(zhì)量問(wèn)題,利用識(shí)別監(jiān)控等措施改善和提高數(shù)據(jù)質(zhì)量的管理水平。

  其中,數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量管理中重要的一環(huán),主要是對(duì)數(shù)據(jù)進(jìn)行重新核驗(yàn),修正錯(cuò)誤數(shù)據(jù)和去除重復(fù)數(shù)據(jù),通過(guò)過(guò)濾掉這些“臟數(shù)據(jù)”,盡可能地使數(shù)據(jù)保持一致性和準(zhǔn)確性,提高數(shù)據(jù)質(zhì)量。

  關(guān)于數(shù)據(jù)質(zhì)量管理,不同的主體有不同思路。曾有篇文章以古人治理黃河水患為例來(lái)說(shuō)明如何管理數(shù)據(jù)質(zhì)量,令人印象深刻。

  文章提到,現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣:古人筑堤壩是為了約束河水,拓展人類的生存空間;今人做數(shù)據(jù)集成融合是為了挖掘數(shù)據(jù)價(jià)值,拓展企業(yè)的生存空間。古人提出:在修筑大堤前,黃河“左右游蕩,寬緩而不迫”;筑堤后河道變窄,發(fā)生洪水時(shí)泄流不暢,常決口為患。如今的企業(yè)在信息化初期,各類業(yè)務(wù)系統(tǒng)恣意生長(zhǎng),這個(gè)階段就像修筑大堤前的黃河雖然有問(wèn)題,但是不明顯。后來(lái),企業(yè)業(yè)務(wù)需求增長(zhǎng),需要按照統(tǒng)一的架構(gòu)和標(biāo)準(zhǔn)把各類數(shù)據(jù)集成起來(lái),這個(gè)階段就像筑堤束水之后的黃河,各種問(wèn)題撲面而來(lái)。古人治理黃河水患,主要有兩種方式,一種是“疏通”,另一種是“圍堵”。數(shù)據(jù)質(zhì)量治理也可以借鑒古人“疏”與“堵”的智慧和考量?!笆琛本褪情_(kāi)展頂層設(shè)計(jì),制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計(jì)數(shù)據(jù)質(zhì)量的管理機(jī)制,建立相應(yīng)的組織架構(gòu)和管理制度,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量?!岸隆本褪且蕾嚰夹g(shù)手段,通過(guò)增加數(shù)據(jù)清洗處理邏輯的復(fù)雜度,使用數(shù)據(jù)質(zhì)量工具來(lái)發(fā)現(xiàn)數(shù)據(jù)處理中的問(wèn)題。

  5. 數(shù)據(jù)反壟斷:避免數(shù)據(jù)孤島的新手段

  在2018年12月25日舉行的新興科技中國(guó)全球峰會(huì)上,被譽(yù)為“互聯(lián)網(wǎng)之父”的麻省理工學(xué)院教授蒂姆·伯納斯·李發(fā)表了重要講話。1991年,他提出了互聯(lián)網(wǎng)的基石協(xié)議——超文本傳輸協(xié)議,并進(jìn)一步發(fā)明了互聯(lián)網(wǎng)。然而,在此次會(huì)議上,“互聯(lián)網(wǎng)之父”對(duì)當(dāng)前的互聯(lián)網(wǎng)表示了失望,稱“已經(jīng)失去了原有的精神,需要破而后立”。

  伯納斯·李指出,互聯(lián)網(wǎng)的發(fā)展曾經(jīng)有一個(gè)非常重要的長(zhǎng)尾效應(yīng)。不同規(guī)模的企業(yè)都有自己的生存空間。但是今天,長(zhǎng)尾效應(yīng)失敗了。目前,互聯(lián)網(wǎng)世界的頭部效應(yīng)是明顯的,一些網(wǎng)站占據(jù)了主導(dǎo)地位及大部分市場(chǎng)份額。他指出,人類仍然面臨許多“數(shù)據(jù)孤島”。每個(gè)人都在互聯(lián)網(wǎng)上產(chǎn)生了很多數(shù)據(jù),但是這些數(shù)據(jù)都在像Facebook這樣的大公司手里,而且無(wú)法連接。這些孤立的“島嶼”不尊重個(gè)人,令人沮喪?;ヂ?lián)網(wǎng)誕生的初衷是人們可以在互聯(lián)網(wǎng)世界中形成一個(gè)“自由開(kāi)放的社區(qū)”來(lái)展示自己的個(gè)人想象力。然而,在目睹了一系列個(gè)人數(shù)據(jù)濫用丑聞后,他對(duì)互聯(lián)網(wǎng)的現(xiàn)狀感到失望。

  伯納斯·李對(duì)現(xiàn)在互聯(lián)網(wǎng)的不滿可以歸根于一個(gè)很時(shí)髦的詞——數(shù)據(jù)壟斷。現(xiàn)在,人們提到數(shù)據(jù)壟斷,主要形容“重要數(shù)據(jù)被控制在少數(shù)人手中,并被不合理地分配和使用”的一種狀態(tài),而且主要針對(duì)互聯(lián)網(wǎng)巨頭企業(yè)而言。其實(shí),最早出現(xiàn)的“數(shù)據(jù)壟斷”一詞是針對(duì)政府的,與“數(shù)據(jù)民主”相對(duì)應(yīng)。近年來(lái),美國(guó)、英國(guó)、澳大利亞、新西蘭等國(guó)家相繼建立了政府?dāng)?shù)據(jù)門(mén)戶,將以前由政府擁有的公共數(shù)據(jù)推上互聯(lián)網(wǎng),掀起了“數(shù)據(jù)民主化”的浪潮。所謂數(shù)據(jù)民主化,是指將政府、企業(yè)等所擁有的各類公共數(shù)據(jù)推上互聯(lián)網(wǎng),允許任何人訪問(wèn)和下載。也就是說(shuō),政府不應(yīng)該成為數(shù)據(jù)的壟斷者,公民應(yīng)該擁有對(duì)數(shù)據(jù)的知情權(quán)、發(fā)言權(quán)和決策權(quán)。

  在我國(guó),“數(shù)據(jù)壟斷”一詞是伴隨著菜鳥(niǎo)和順豐事件而興起的。2017年“六一”兒童節(jié)期間,菜鳥(niǎo)和順豐像兩個(gè)爭(zhēng)搶糖果的小孩子在網(wǎng)絡(luò)上隔空“掐架”:6月1日下午,菜鳥(niǎo)官微發(fā)出一則“菜鳥(niǎo)關(guān)于順豐暫停物流數(shù)據(jù)接口的聲明”,稱順豐主動(dòng)關(guān)閉了豐巢自提柜(由深圳順豐投資有限公司控股的豐巢科技所提供的智能快遞自提柜)和淘寶平臺(tái)物流數(shù)據(jù)信息回傳;隨后,順豐回應(yīng)稱,菜鳥(niǎo)以安全為由單方面切斷了豐巢的信息接口,并指責(zé)菜鳥(niǎo)索要豐巢的所有包裹信息(包括非淘系訂單),認(rèn)為菜鳥(niǎo)有意讓其從騰訊云切換至阿里云。不過(guò),監(jiān)管部門(mén)并沒(méi)有讓這場(chǎng)“掐架”持續(xù)多久。在國(guó)家郵政局的調(diào)停下,6月3日12點(diǎn),菜鳥(niǎo)和順豐握手言和,全面恢復(fù)了業(yè)務(wù)合作和數(shù)據(jù)傳輸。

  然而,這場(chǎng)突如其來(lái)的鬧劇,最后卻是由用戶和賣家買(mǎi)單。在菜鳥(niǎo)和順豐切斷數(shù)據(jù)接口后,淘寶天貓的賣家無(wú)法通過(guò)后臺(tái)錄入順豐快遞單號(hào),相當(dāng)一部分賣家受到影響。根據(jù)菜鳥(niǎo)網(wǎng)絡(luò)給出的說(shuō)法,雙方發(fā)生爭(zhēng)執(zhí)后,菜鳥(niǎo)收到了大量賣家和消費(fèi)者的詢問(wèn)。受影響的賣家擔(dān)心的是如果繼續(xù)采用順豐發(fā)貨,可能造成財(cái)產(chǎn)損失,也會(huì)引起買(mǎi)家集中投訴。但是,由于順豐在冷鏈物流配送的速度上遙遙領(lǐng)先于其他民營(yíng)快遞公司,要找到合適的替代者確實(shí)不容易。

  菜鳥(niǎo)和順豐事件引起了全民熱議。在輿論發(fā)展過(guò)程中,討論越來(lái)越集中于數(shù)據(jù)方面,“數(shù)據(jù)壟斷”問(wèn)題被提了出來(lái)。不過(guò),這里的對(duì)象不是政府,而是企業(yè)。

  當(dāng)前,關(guān)于數(shù)據(jù)壟斷沒(méi)有形成統(tǒng)一的定義。從數(shù)據(jù)占有角度來(lái)說(shuō),數(shù)據(jù)壟斷是指獨(dú)占數(shù)據(jù)。但獨(dú)占數(shù)據(jù)本身并不違反《反壟斷法》,即使獨(dú)占的是海量數(shù)據(jù)。從數(shù)據(jù)流動(dòng)的角度來(lái)說(shuō),數(shù)據(jù)壟斷意味著不共享數(shù)據(jù)。從個(gè)人信息保護(hù)角度來(lái)說(shuō),數(shù)據(jù)壟斷是指控制個(gè)人數(shù)據(jù)。從數(shù)據(jù)收益角度來(lái)說(shuō),數(shù)據(jù)壟斷是指獨(dú)占數(shù)據(jù)收益。這些說(shuō)法都有各自的道理,但是又都不完全準(zhǔn)確。要構(gòu)成數(shù)據(jù)壟斷行為,至少應(yīng)該包括三個(gè)要素:一是數(shù)據(jù)可能造成進(jìn)入壁壘或擴(kuò)張壁壘;二是擁有大數(shù)據(jù)形成市場(chǎng)支配地位并濫用;三是因數(shù)據(jù)產(chǎn)品而形成市場(chǎng)支配地位并濫用。

  2019年2月4日,德國(guó)反壟斷機(jī)構(gòu)聯(lián)邦卡特爾局(Federal Cartel Office)采取行動(dòng)禁止德國(guó)境內(nèi)Facebook在未經(jīng)用戶同意的情況下收集某些類型的消費(fèi)者數(shù)據(jù),指出其數(shù)據(jù)聚合行為是對(duì)其市場(chǎng)力量的濫用。聯(lián)邦卡特爾局一再?gòu)?qiáng)調(diào),一方面,除非用戶同意,否則Facebook不能將其擁有的WhatsApp或Instagram賬戶數(shù)據(jù)與其主要平臺(tái)上的其他賬戶予以關(guān)聯(lián);另一方面,對(duì)于從第三方網(wǎng)站收集其個(gè)人數(shù)據(jù)的情形,用戶同樣保有同意權(quán)。關(guān)于Facebook未來(lái)的數(shù)據(jù)處理政策,聯(lián)邦卡特爾局正在引入Facebook數(shù)據(jù)的內(nèi)部剝離措施。與此同時(shí), Facebook對(duì)這一裁決提出上訴,認(rèn)為聯(lián)邦卡特爾局低估了其在德國(guó)面臨的激烈的競(jìng)爭(zhēng)環(huán)境,曲解了其GDPR合規(guī)狀態(tài),而且破壞了歐洲法律引入的確保歐盟內(nèi)整體一致的數(shù)據(jù)保護(hù)標(biāo)準(zhǔn)的機(jī)制。




電子技術(shù)圖片.png

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。