《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 數(shù)據(jù)不出門就能被利用,聯(lián)邦學習讓機器學習工程化

數(shù)據(jù)不出門就能被利用,聯(lián)邦學習讓機器學習工程化

2022-07-13
來源:Soft6軟件網(wǎng)

近年來,人工智能相關(guān)技術(shù)持續(xù)演進,與云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、5G等技術(shù)不斷融合,成為引領(lǐng)未來的新興戰(zhàn)略性技術(shù),是驅(qū)動新一輪科技革命和產(chǎn)業(yè)變革的重要力量。

在新科技革命和產(chǎn)業(yè)變革的大背景下,人工智能產(chǎn)業(yè)化和商業(yè)化進程不斷提速,正在加快與千行百業(yè)深度融合,正在促進新興產(chǎn)業(yè)之間、新興產(chǎn)業(yè)與傳統(tǒng)產(chǎn)業(yè)之間以及技術(shù)與社會的跨界融合發(fā)展。

中國軟件網(wǎng)、海比研究院認為,人工智能與產(chǎn)業(yè)深度融合,將成為企業(yè)釋放數(shù)字化疊加倍增效應(yīng)、加快戰(zhàn)略新興產(chǎn)業(yè)發(fā)展、構(gòu)筑綜合競爭優(yōu)勢的必然選擇,全面梳理人工智能技術(shù)、應(yīng)用的發(fā)展態(tài)勢,對推動人工智能持續(xù)健康發(fā)展至關(guān)重要。

為此,中國軟件網(wǎng)、海比研究院特別推出了“人工智能行業(yè)洞察”系列報道,通過對人工智能技術(shù)、應(yīng)用、企業(yè)等深度報道,助力企業(yè)數(shù)字化、智能化。

目前,中國軟件網(wǎng)、海比研究院已經(jīng)推出的AI報道包括:

·HR擁抱人工智能,8大場景重塑無限可能

·一文透視“北京智源大會”十大AI熱點

·讓機器人解惑傳道,對話式AI能否為企業(yè)帶來巨量的業(yè)務(wù)

·MLOps:讓AI應(yīng)用周期從9個月縮短到幾天

·超大規(guī)模與輕量化模型,誰會成為AI主流?

·大型機沒有滅亡,反而正成為AI、混合云的寵兒

·向死而生,浴火重生,創(chuàng)新能讓AI芯片新生?

·從蜂擁而上到紛紛退場,AI芯片誰在“裸泳”?

·谷歌微軟阿里華為都愛上大模型,AI開發(fā)邊界被打破

兩個百萬富翁街頭邂逅,想比比誰更有錢。但是出于隱私,都不想讓對方知道自己到底擁有多少財富。在不借助第三方的情況下,如何讓他們彼此知道誰更有錢呢?

這就是姚期智院士在1982年提出的隱私計算領(lǐng)域經(jīng)典的“百萬富翁”問題。

其實,在手機輸入法的下一個詞預(yù)測、疑難疾病診斷、汽車自動駕駛、智能家居系統(tǒng)等AI應(yīng)用中,同樣面臨著需要大量數(shù)據(jù)進行模型訓練,又需要保護用戶數(shù)據(jù)背后的隱私的問題。

作為一種機器學習方法,聯(lián)邦學習的核心理念是“數(shù)據(jù)不動模型動”,通過用戶數(shù)據(jù)不出本地的方式,完成云端模型訓練,實現(xiàn)了“數(shù)據(jù)可用不可見”,成為隱私保護計算的主流技術(shù)之一。

海比研究院認為,目前以聯(lián)邦學習為核心代表的隱私計算技術(shù)逐步發(fā)展,并在實踐中不斷走向成熟,正處于隱私計算商業(yè)引爆的前夜,2022年或成為規(guī)?;虡I(yè)落地的第一年。

1.理念:聯(lián)邦學習為機器學習開了一扇窗

AI模型需要大量的數(shù)據(jù)來訓練,而沒有數(shù)據(jù)和數(shù)據(jù)背后隱私如何保證呢?

目前全球有30億部智能手機和70億臺連接設(shè)備,這些手機和設(shè)備不斷生成新數(shù)據(jù)。傳統(tǒng)的機器學習需要在處理數(shù)據(jù)之前集中收集數(shù)據(jù),以產(chǎn)生機器學習模型和最終形成更好的產(chǎn)品。

如果我們能夠在生成數(shù)據(jù)的設(shè)備上運行數(shù)據(jù)分析和機器學習,并且仍然能夠?qū)⑺鶎W知識匯總在一起,那不是更好嗎?

AI模型是靠數(shù)據(jù)來“喂養(yǎng)”的,而且需要大量優(yōu)質(zhì)的數(shù)據(jù)?,F(xiàn)實生活中,除了少數(shù)巨頭公司能夠具備這樣條件外,絕大多數(shù)企業(yè)都存在數(shù)據(jù)量少、數(shù)據(jù)質(zhì)量差的問題,不足以支撐人工智能技術(shù)的實現(xiàn)。

另外,數(shù)據(jù)是分散在不同地方的,放在不同的數(shù)據(jù)中心和不同的國家的,因為各個國家都有一些數(shù)據(jù)保護法規(guī),很難把數(shù)據(jù)拿出來。

有些客戶的數(shù)據(jù)量太大,沒辦法放在一個數(shù)據(jù)中心,可能需要放在多個城市、多個地方。

還有一種情況是不同的企業(yè)之間要進行數(shù)據(jù)共享、數(shù)據(jù)交換,但是因為數(shù)據(jù)的隱私,如《網(wǎng)絡(luò)安全法》合規(guī)要求等,無法把原始數(shù)據(jù)直接給別人。

在這些情況下,催生聯(lián)邦學習技術(shù)。

谷歌首倡的聯(lián)邦學習正在不斷發(fā)展進化。

聯(lián)邦學習(Federated  Learning)是一種新興的人工智能基礎(chǔ)技術(shù),在2016 年由谷歌最先提出,用于解決安卓手機終端用戶在本地更新模型的問題。其設(shè)計目標是在保障大數(shù)據(jù)交換時的信息安全、終端數(shù)據(jù)和個人數(shù)據(jù)隱私、合法合規(guī)的前提下,在多參與方或多計算結(jié)點之間開展高效率的機器學習。

信通院的報告認為,聯(lián)邦學習本質(zhì)上是一種分布式機器學習框架,能做到了在保障數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上,實現(xiàn)數(shù)據(jù)共享,共同建模。

其核心思想是在多個數(shù)據(jù)源共同參與模型訓練時,不需要進行原始數(shù)據(jù)流轉(zhuǎn)的前提下,僅通過交互模型中間參數(shù)進行模型聯(lián)合訓練,原始數(shù)據(jù)可以不出本地。這種方式實現(xiàn)數(shù)據(jù)隱私保護和數(shù)據(jù)共享分析的平衡,即“數(shù)據(jù)可用不可見”的數(shù)據(jù)應(yīng)用模式。

總體來說,聯(lián)邦學習技術(shù),可以實現(xiàn)多個機構(gòu)間構(gòu)建統(tǒng)一的數(shù)據(jù)安全、高效、合規(guī)的多源數(shù)據(jù)應(yīng)用生態(tài)系統(tǒng),實現(xiàn)跨機構(gòu)的數(shù)據(jù)共享融合,通過系統(tǒng)擴大樣本量、增加數(shù)據(jù)維度為大數(shù)據(jù)應(yīng)用提供高精度模型構(gòu)建的有力支撐,進而提供更豐富、高質(zhì)量的大數(shù)據(jù)服務(wù)。

聯(lián)邦學習的目標是在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上,實現(xiàn)共同建模,提升AI模型的效果。

由此我們可以發(fā)現(xiàn),聯(lián)邦學習本質(zhì)上是一種分布式機器學習技術(shù),或機器學習框架。聯(lián)邦學習是機器學習領(lǐng)域的一個新興領(lǐng)域,與傳統(tǒng)的集中式機器學習方法相比,具有顯著的優(yōu)勢。

一是保護數(shù)據(jù)安全,將訓練數(shù)據(jù)集保留在設(shè)備上,因此模型不需要數(shù)據(jù)池。

二是保護數(shù)據(jù)多樣性。邊緣設(shè)備中的網(wǎng)絡(luò)不可用,可能會阻止公司合并來自不同來源的數(shù)據(jù)集。而聯(lián)邦學習有助于訪問異構(gòu)數(shù)據(jù),即使在數(shù)據(jù)源只能在特定時間進行通信的情況下也是如此。

三是實時持續(xù)學習,使用客戶數(shù)據(jù)不斷改進模型,無需聚合數(shù)據(jù)即可持續(xù)學習。

四是提升硬件效率,這種方法可以使用不太復雜的硬件,因為聯(lián)邦學習模型不需要一個復雜的中央服務(wù)器來分析數(shù)據(jù)。

2.技術(shù):開源聯(lián)邦學習框架興起

了解聯(lián)邦學習的分類,可能有利于了解其技術(shù)和應(yīng)用的范圍。

按照數(shù)據(jù)特征與分布方式的不同,聯(lián)邦學習可以分為三類:

橫向聯(lián)邦學習,在特征趨同的情況下對不同樣本進行聯(lián)合互補,用更大的樣本數(shù)據(jù)提升現(xiàn)有模型的精度。

比如罕見病研究中,每個醫(yī)院病例的數(shù)據(jù)維度基本一致,且病例樣本有限,通過聯(lián)邦學習可以在保障隱私的前提下,匯聚不同醫(yī)藥的相同病癥的數(shù)據(jù),提高模型訓練的能力。

而縱向聯(lián)邦學習,比如同一個人,在樣本趨同的情況下,對不同特征進行聯(lián)合互補,用更多的特征數(shù)據(jù),補全對某一客戶樣本的畫像。

比如同一地區(qū)的銀行、電商、運營商等用戶集可能包含該區(qū)域的大多數(shù)居民,但不同機構(gòu)用戶數(shù)據(jù)特征不同,如果希望基于用戶的購買、收支、位置等數(shù)據(jù)進行信用等級評估,需要融合三方數(shù)據(jù)做回歸模型。

遷移聯(lián)邦學習則是一類樣本上面統(tǒng)一的模型,可以遷移到另外一批數(shù)據(jù)上面。有一些不同企業(yè)數(shù)據(jù)之間可能是互相影響的,就需要用個性聯(lián)邦學習來做統(tǒng)一的分析。

遷移聯(lián)邦學習適用于兩個數(shù)據(jù)集的重疊較少,不僅樣本不同,而且特征空間也有很大差異的場景下。

用于聯(lián)邦學習的流行框架包括Tensorflow Federated、Federated AI Technology Enabler(FATE)和PySyft,以及國內(nèi)的FederatedScope。

PySyft是一個基于深度學習庫PyTorch的開源聯(lián)合學習庫,在主流深度學習框架PyTorch和TensorFlow等中使用聯(lián)邦學習,差分隱私和加密計算(如多方計算(MPC)、同態(tài)加密(HE))將隱私數(shù)據(jù)與模型訓練分離。

據(jù)介紹,PyTorch支持聯(lián)邦學習、安全多方計算、差分隱私等,可擴展,貢獻者可接入新的FL、MPC或DP方法,運算時間是純PyTorch的約46~70倍。

Tensorflow Federated是基于Google的Tensorflow平臺的開源聯(lián)邦學習框架。該方法使許多參與的客戶端能夠訓練共享的機器學習模型,同時將其數(shù)據(jù)保存在本地。

除了使用戶能夠創(chuàng)建自己的算法外,Tensorflow Federated還允許用戶在自己的模型和數(shù)據(jù)上模擬許多包含的聯(lián)邦學習算法。

FATE是由Webank AI設(shè)計的開源框架,旨在為Federated AI生態(tài)系統(tǒng)提供安全的計算框架。它基于同態(tài)加密和多方計算(MPC)實現(xiàn)安全的計算協(xié)議。它支持聯(lián)邦學習體系結(jié)構(gòu)和各種機器學習算法的安全計算,包括邏輯回歸、深度學習和遷移學習等。

今年,阿里達摩院智能計算實驗室研發(fā)布了新型聯(lián)邦學習框架Federated Scope,并開源,希望促進隱私保護計算在研究和生產(chǎn)中的廣泛應(yīng)用。

達摩院使用了事件驅(qū)動的編程范式來構(gòu)建聯(lián)邦學習,即將聯(lián)邦學習看成是參與方之間收發(fā)消息的過程,通過定義消息類型以及處理消息的行為來描述聯(lián)邦學習過程。

通過這一方式,F(xiàn)ederated Scope實現(xiàn)了支持在豐富應(yīng)用場景中進行大規(guī)模、高效率的聯(lián)邦學習異步訓練。

達摩院團隊對Federated Scope訓練模塊進行抽象,使其不依賴特定的深度學習后端,能兼容PyTorch、Tensorflow等不同設(shè)備運行環(huán)境,大幅降低了聯(lián)邦學習在科研與實際應(yīng)用中的開發(fā)難度和成本。

為進一步適應(yīng)不同應(yīng)用場景,F(xiàn)ederated Scope還集成了多種功能模塊,包括自動調(diào)參、隱私保護、性能監(jiān)控、端模型個性化等。

3.市場:解決ML規(guī)?;俺杀镜裙こ虇栴}

市場研究機構(gòu)KBV預(yù)言,全球聯(lián)邦學習市場規(guī)模,預(yù)計到2028年達到1.987億美元,在預(yù)測期間內(nèi)將以11.1%的年復合成長率增長。

亞太地區(qū)的聯(lián)邦學習市場在預(yù)測期間(2022-2028年)將見證11.7%的復合年增長率。中國市場在2021年按國家劃分的亞太地區(qū)聯(lián)邦學習市場占主導地位,并將在未來幾年繼續(xù)成為主導市場。

同樣,中國的《網(wǎng)絡(luò)安全法》和《民法通則》等相繼頒布,規(guī)定互聯(lián)網(wǎng)企業(yè)不得泄露、篡改或破壞其收集的個人數(shù)據(jù),在與第三方進行數(shù)據(jù)傳輸時,必須確保提交的合同明確描述要交換的數(shù)據(jù)范圍和數(shù)據(jù)保護義務(wù)。在不同程度上,這些法規(guī)的實施為人工智能的典型數(shù)據(jù)處理提出新的要求,同時也促進聯(lián)邦學習等市場的發(fā)展。

而國內(nèi)的市場研究機構(gòu)認為,包括聯(lián)邦學習在內(nèi)的隱私計算將快速落地,服務(wù)企業(yè)智能應(yīng)用發(fā)展。

與傳統(tǒng)的機器學習領(lǐng)域不同,新興的聯(lián)邦學習并不是因技術(shù)研究的推進而產(chǎn)生的,而是在實際應(yīng)用中為解決數(shù)據(jù)隱私的問題而產(chǎn)生。因其特殊性,專家普遍認為“該技術(shù)正在進行工程化驗證其廣泛使用的可行性,解決規(guī)?;俺杀镜裙こ虇栴}”。

市場參與者遵循的主要策略是產(chǎn)品發(fā)布。根據(jù)KVB公司分析,微軟和谷歌是聯(lián)邦學習市場的先驅(qū),英偉達(Nvidia)、IBM等公司是市場上的一些關(guān)鍵創(chuàng)新者,還包括英特爾、Cloudera、Edge Delta、DataFleets、Enveil和Secure AI Labs等參與者。

中國云服務(wù)商、AI企業(yè)和大數(shù)據(jù)企業(yè)如阿里云、騰訊云、第四范式等都進入隱私計算領(lǐng)域,其聯(lián)邦學習平臺正在擴大應(yīng)用落地。

聯(lián)邦學習市場增長的主要因素是應(yīng)用和協(xié)作學習。

一是在眾多應(yīng)用中增強數(shù)據(jù)隱私。借助聯(lián)邦學習,機器學習方法的提供方式正在不斷發(fā)展。使用聯(lián)邦學習,企業(yè)可以加強現(xiàn)有的算法并改進其AI應(yīng)用,小公司也可以發(fā)展自己的AI應(yīng)用。在醫(yī)療保健領(lǐng)域,聯(lián)邦學習可以幫助醫(yī)療保健人員提供高質(zhì)量的結(jié)果,同時加速藥物開發(fā),成為集中學習不足的一項補救措施。

二是實現(xiàn)不同用戶之間的協(xié)作學習。聯(lián)邦學習不是將數(shù)據(jù)保存在單臺計算機或數(shù)據(jù)集市上,而是將數(shù)據(jù)存儲在原始來源上,如智能手機、制造檢測設(shè)備、其他終端設(shè)備以及隨時隨地訓練的機器學習機,有助于在被發(fā)送到集中式服務(wù)器之前做出決策。

例如,聯(lián)邦學習在金融部門被廣泛用于債務(wù)風險評估。通常銀行使用白名單流程根據(jù)客戶的信用卡信息將客戶排除在集中儲備系統(tǒng)之外。風險評估變量,如稅收和聲譽,可以通過與其他金融機構(gòu)和電子商務(wù)企業(yè)合作來使用。

但是市場制約因素是缺乏熟練的技術(shù)專業(yè)人員。由于訓練有素的人員(尤其是IT專家)的稀缺,許多企業(yè)在將機器學習集成到現(xiàn)有工作流程中時遇到了障礙。由于聯(lián)邦學習系統(tǒng)是一個新概念,因此人們很難掌握和執(zhí)行它們。招聘和維護技術(shù)技能成為公司的主要關(guān)注點。

4.應(yīng)用:面向?qū)嶋H場景的優(yōu)化等亟待解決

在聯(lián)邦學習的應(yīng)用方面,一方面應(yīng)用場景不斷增多,如藥物發(fā)現(xiàn)、風險管理、在線視覺對象檢測、數(shù)據(jù)隱私和安全管理、工業(yè)物聯(lián)網(wǎng)、增強現(xiàn)實/虛擬現(xiàn)實、購物體驗個性化等。

另一方面,基于垂直行業(yè),醫(yī)療保健和生命科學、BFSI、IT和電信、能源和公用事業(yè)、制造、汽車和運輸、零售和電子商務(wù)等應(yīng)用都開始應(yīng)用聯(lián)邦學習技術(shù)。

介紹幾大典型應(yīng)用場景。

政務(wù)數(shù)據(jù)交換。政務(wù)大數(shù)據(jù)蘊含著巨大的經(jīng)濟與社會價值,其開放與共享對于促進政府自身轉(zhuǎn)型、社會需求獲取模式轉(zhuǎn)型、打造智慧城市以及產(chǎn)業(yè)經(jīng)濟轉(zhuǎn)型都具有重要意義。

在政務(wù)數(shù)據(jù)開放共享的過程中,由于缺乏可信的數(shù)據(jù)資產(chǎn)權(quán)利確認方案,導致政府部門不愿意共享數(shù)據(jù)。因缺乏有效的隱私安全保護技術(shù),數(shù)據(jù)共享后無法限制數(shù)據(jù)用途,導致數(shù)據(jù)濫用和隱私泄露等問題,政府部門共享數(shù)據(jù)意愿較低。

聯(lián)邦學習可以與大數(shù)據(jù)開發(fā)組件集成,打破政府部門數(shù)據(jù)孤島,實現(xiàn)跨部門、與社會數(shù)據(jù)等安全共享。除了提供“脫敏”、“審計”和“細粒度權(quán)限控制”等措施外,可以實現(xiàn)數(shù)據(jù)資源的定向使用,防范申請權(quán)限獲批后的數(shù)據(jù)濫用或二次分發(fā)等行為導致的隱私泄露問題。

移動應(yīng)用。聯(lián)邦學習可用于從智能手機的數(shù)據(jù)池中構(gòu)建用戶行為模型,而不會泄露個人數(shù)據(jù),如用于下一個單詞預(yù)測、人臉檢測、語音識別等。Google使用聯(lián)邦學習來改進設(shè)備上的機器學習模型,例如Google Assistant中的“Hey Google”,允許用戶發(fā)出語音命令。

醫(yī)療保健和健康保險行業(yè)。可以利用聯(lián)邦學習,保護原始源中的敏感數(shù)據(jù),可以通過從不同位置(如醫(yī)院、電子健康記錄數(shù)據(jù)庫等)收集數(shù)據(jù)來診斷罕見疾病,從而提供更好的數(shù)據(jù)多樣性。

自動駕駛汽車。為了正常運行,自動駕駛汽車可能需要更新的建筑、交通或行人行為模型。由于隱私問題和每個設(shè)備的連接受限,在這些情況下構(gòu)建聚合模型可能具有挑戰(zhàn)性。聯(lián)邦學習方法可以訓練模型,可以在尊重用戶隱私的同時快速響應(yīng)這些系統(tǒng)中的變化。聯(lián)邦學習可以通過實時數(shù)據(jù)和預(yù)測提供更好、更安全的自動駕駛汽車體驗。

制造行業(yè)預(yù)測性維護。制造公司可以使用聯(lián)邦學習模型來開發(fā)設(shè)備的預(yù)測性維護模型。預(yù)測性維護可能會面臨一些障礙,如客戶不想共享其個人數(shù)據(jù)或從不同國家/站點導出數(shù)據(jù)問題。聯(lián)邦學習可以通過使用本地數(shù)據(jù)集來處理這些挑戰(zhàn)。

盡管聯(lián)邦學習技術(shù)因工程而生,但由于其處于萌芽階段,專家認為該領(lǐng)域缺少足夠多的實際應(yīng)用案例,且面向?qū)嶋H場景的優(yōu)化等問題也亟待解決。

業(yè)界經(jīng)常用“數(shù)據(jù)不動模型動”和“讓數(shù)據(jù)可用不可見”來概括聯(lián)邦學習的基本原理。在保障大數(shù)據(jù)交換時的信息安全、保護終端數(shù)據(jù)和個人數(shù)據(jù)隱私、保證合法合規(guī)的前提下,聯(lián)邦學習這一新興的人工智能基礎(chǔ)技術(shù),在多參與方或多計算結(jié)點之間可以開展高效率的機器學習,是一項值得期待的技術(shù)。


  更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<


1文章最后空三行圖片 (1).jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。