




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
伴隨著云計算、邊緣計算等新一代信息技術的快速發展,全球數據量呈爆發式增長。數據已經成為影響全球競爭的重要戰略性資源,各國陸續出臺相應政策大力支持數字經濟的發展。然而,現階段海量的數據分布在不同的組織機構和信息系統中,需要實現跨部門、跨地域、跨系統間的數據共享,才能充分發揮數據價值。但是數據安全與合規問題卻對數據共享造成了諸多挑戰,一方面,數據易被復制的特性使得數據主體擔心自己的商業秘密或用戶隱私泄露,導致他們不愿共享數據;另一方面,日益嚴格的數據安全法規對個人數據的流通和使用提出了諸多限制。隱私計算技術的興起為保障數據在安全合規的前提下發揮價值提供了破局思路,它是一個涵蓋密碼學、人工智能、安全硬件等眾多領域的跨學科技術體系。聯邦學習是隱私計算的代表性技術之一,可以使分布式用戶無須傳輸本地數據即可實現聯合建模,成為數據安全共享的新范式。由于聯邦學習可以與安全多方計算、可信執行環境以及其他密碼學技術相結合,因此被學術界和工業界廣泛研究,并應用于智能家居、智慧城市、工業互聯網等場景。本文首先對隱私計算框架、聯邦學習、區塊鏈以及相關密碼學技術進行簡要的概述,然后介紹了聯邦學習的隱私安全性以及其與區塊鏈相結合的兩方面研究成果,最后對未來的研究熱點進行展望。1相關技術介紹1.1隱私計算框架隱私計算技術為數據在融合應用中保障數據安全合規提供了關鍵技術路徑,當前已經成為政、學、研、產等各界的關注焦點。據國際權威調研機構Gartner預測,2025年將有一半的大型企業使用隱私計算技術在不可信的環境中處理敏感數據。隱私計算聯盟、中國信息通信研究院云計算與大數據研究所于2021年發布的《隱私計算白皮書》中將隱私計算定義為在保證數據提供方不泄露原始數據的前提下,對數據進行分析計算的一系列信息技術,保障數據在流通與融合過程中的“可用不可見”。從技術原理上講,隱私計算交叉融合了密碼學、人工智能、安全硬件等眾多學科,以聯邦學習、安全多方計算、可信執行環境3種主流技術為代表,同態加密、差分隱私、零知識證明、秘密共享等為底層密碼學技術,同時與區塊鏈技術緊密結合。其技術體系如圖1所示。圖1隱私計算技術框架本文主要關注聯邦學習與區塊鏈技術以及相關密碼學技術的結合應用現狀。其技術原理如下文所述。1.2聯邦學習聯邦學習是谷歌于2016年提出的一種分布式機器學習框架,被用于聯合大量分布式用戶的數據訓練一個高質量的機器學習模型。聯邦學習能夠在用戶數據不出本地的情況下聯合利用多方數據,是解決“數據孤島”問題的重要框架,其核心思想是“數據不動模型動,數據可用不可見”。傳統的集中式機器學習算法需要將數據集中到中心服務器來訓練模型,這不僅會消耗大量的通信資源,數據在傳輸過程中也可能面臨隱私泄露風險。而聯邦學習僅需要用戶向服務器上傳本地訓練得到的模型參數,由服務器協調多用戶來協同訓練機器學習模型。聯邦學習一般流程如圖2所示。圖2聯邦學習一般流程步驟1:在初始化階段,服務器根據訓練任務將初始化模型下發給所有參與訓練的用戶。步驟2:每個用戶將收到的模型作為本地模型,以最小化損失函數為目標,利用梯度下降等優化算法在本地數據集上進行訓練。迭代若干次后將模型參數(例如梯度、權重參數等)上傳至中心服務器。步驟3:中心服務器通過加權平均方法聚合來自所有用戶的參數,得到全局模型,并將其下發至所有用戶。用戶按照步驟2開始新一輪的訓練。上述聯邦學習過程將反復迭代,直至模型收斂或達到最大訓練輪數。根據分布式用戶持有數據的情況,可以將聯邦學習分為橫向聯邦、縱向聯邦和聯邦遷移。其中,橫向聯邦適用于數據集中的用戶特征重疊較多而用戶重疊較少的情況,例如兩個金融公司的用戶數據;縱向聯邦適用于數據集中的用戶特征重疊較少而用戶重疊較多的情況,例如同一地區的互聯網公司和金融公司中共同用戶的數據;聯邦遷移適用于數據集中的用戶特征重疊和用戶重疊均較少的情況,此時需要利用遷移學習來克服數據或標簽不足的問題,例如位于兩個不同國家的互聯網公司和金融公司的用戶數據。當前,由于模型逆向、模型提取等更加先進的隱私攻擊手段的出現,使得聯邦學習需要與區塊鏈、差分隱私、安全多方計算等其他隱私計算技術互相融合來提高安全性,并解決計算開銷、通信開銷、訓練效率等問題以適用于更加實際的應用場景。1.3區塊鏈技術自2008年中本聰第一次提出比特幣
以來,區塊鏈作為比特幣的底層框架開始被學術界和工業界深入研究。國際權威調研機構Gartner更是將“實用型區塊鏈”列為2020年十大戰略科技發展趨勢之一。從本質上講,區塊鏈是一個分布式賬本,以透明且不可篡改的方式記錄各方之間的交易。區塊鏈的一般結構如圖3所示,每個區塊由區塊頭和包含一系列事務的區塊體組成,區塊頭中含有前一個區塊的散列值,用于將當前區塊鏈接至前一個區塊。每個區塊鏈節點均存儲一個由若干個區塊組成的賬本,并且通過共識協議保證各個節點的賬本都是一致的。圖3區塊鏈結構現有的共識協議主要包括工作量證明(ProofofWork,PoW)、權益證明(ProofofStake,PoS)、委托股權證明(DelegatedProofofStake,DPoS)、實用拜占庭容錯協議(PracticalByzantineFaultTolerance,PBFT)等。這些協議在安全性、響應時間、吞吐量等方面有各自的特點,但核心都是解決記賬權分配的問題。其中PoW是比特幣網絡使用的共識協議,它分配記賬權的原理是讓網絡中的每個節點都計算特定的哈希值。哈希值滿足一定條件的首個節點得到生成新區塊的權利。新區塊通過驗證后會廣播給網絡中的其他節點以保持賬本的一致性。這種機制是完全去中心化的,且由于犯錯成本非常高,使其安全性得到有效保證。但是爭奪記賬權的過程會浪費大量的計算資源,效率低下。PoS分配記賬權的原理是節點通過證明自己的持股數來競爭生成新區塊的權利,相比之下,其避免了不必要的資源浪費,但是會導致一定的權力集中,有些違背去中心化的初衷。為此,DPoS通過節點投票選舉出一定數量的代理節點負責區塊的生成和驗證,資源開銷更少、交易效率更高,但是由于記賬節點的減少,該協議可能面臨被部分惡意節點操控的風險。PBFT則可以在有部分惡意節點存在的情況下達成共識,更常用于聯盟鏈中。1.4相關密碼學技術1.4.1差分隱私差分隱私(DifferentialPrivacy,DP)是于2006年提出的一種嚴格可證明的隱私保護技術,可以抵抗攻擊者任意背景知識,其基本思想是對原始數據轉換或對輸出結果添加噪聲來保護數據隱私,確保數據集中任何單個記錄的修改都不會對統計結果造成顯著影響。差分隱私所加入的噪聲量與數據集規模無關,在大型數據集上只需要添加少量的噪聲即可實現較高水平的隱私保護。其相關定義如下:定義差分隱私為令為隨機算法,D和D′為最多相差一條記錄的相鄰數據集,若A在D和D′上的任意輸出結果都滿足式(1),則稱A實現差分隱私式中:參數ε為隱私預算,代表差分隱私技術所實現的隱私保護程度,ε值越小,則表示隱私保護程度越高;δ為違背嚴格差分隱私的概率。1.4.2同態加密同態加密是基于數學難題的計算復雜性理論的密碼學技術,是指在密文狀態下對加密消息進行計算的結果再進行同態解密后的明文結果與明文數據進行加密再解密的處理結果一致。根據所支持的計算形式,同態加密可分為全同態和半同態,其中,全同態加密支持對密文進行任意形式的計算,計算開銷較大,應用場景受限;半同態加密僅支持對密文進行加法或乘法計算,計算開銷相對較小,目前常應用于聯邦學習中的半同態加密算法包括ElGamal算法和Paillier算法。1.4.3秘密共享秘密共享是一類重要的密碼學原語,是指將秘密拆分成若干份額,分別交于若干參與者保存。當達到門限數的參與者將它們持有的秘密份額聯合起來進行計算時,即可恢復秘密,而任意一個參與者所持有的秘密份額均不會泄露原始秘密的任何信息。例如,應用較為廣泛的Shamir秘密共享協議[9],它基于Lagrange插值定理。構造一個m?1次的多項式:式中:p為素數,為常數,為多項式的系數。令,即把常數項設定為待保護的秘密,且滿足,其他m?1個系數隨機選取。任取n個不同的點并計算出函數值,則這n組即為分給n個參與者的秘密份額。任意m組秘密份額均可以重建出多項式,進而得到秘密2聯邦學習的隱私安全性研究聯邦學習讓分布式的用戶無須上傳原始數據即可協同訓練機器學習模型,在保護數據隱私的同時打破了數據孤島壁壘,被廣泛用于實現智能家居、智慧城市等場景下的數據安全共享。但是最新出現的模型逆向、模型提取攻擊顯示攻擊者通過模型梯度依然可以恢復原始訓練數據的部分信息,說明原始的聯邦學習框架已不足以應對先進的隱私攻擊手段。為此,差分隱私和安全多方計算經常被用來加強聯邦學習中隱私保護力度。首次在分布式機器學習方法中的模型參數上添加噪聲來確保差分隱私,但是參數數量過大會消耗過量的隱私預算,導致實際的隱私保護效果不佳。
在服務器端的聚合模型上添加差分隱私噪聲,用來保護用戶是否參與訓練這一信息,以抵抗成員推理攻擊。但是攻擊者可以通過服務器觀察到用戶上傳的模型參數,進而竊取用戶隱私信息。Huang等人根據每個參與者擁有的數據量不平衡的特點,分配不同的隱私預算,并設計自適應梯度下降算法進行協同訓練,在不平衡的數據集上取得了較好的效果。根據特征向量對模型輸出的貢獻程度分配不同的隱私預算,進而減少總體隱私預算的消耗。將差分隱私和安全多方計算相結合來減小噪聲的規模,實現多方數據協作的準確性和數據隱私保護強度的平衡,并可抵抗用戶間的共謀攻擊。由此可見,基于差分隱私的聯邦學習方法主要關注如何在保護數據隱私的前提下,盡量減少噪聲對于數據協作準確性的影響。采用同態加密算法加密用戶的模型參數再上傳給服務器,服務器只能通過聚合得到密文的全局模型而無法解密單個用戶上傳的數據。Ma等人結合ELGamal加密協議、Diffie-Hellman密鑰交換協議和聚合簽名,設計了一個滿足隱私性和可驗證性的聯邦學習方法。Li等人
針對云計算場景提出基于多密鑰全同態加密的聯邦學習隱私保護方法,每個用戶都使用自己的密鑰來加密模型參數,能夠實現較高的模型準確率,但是需要消耗較大的計算開銷。為了減小安全多方計算技術的計算開銷,結合隨機數生成器和秘密共享生成掩碼,可快速加密用戶梯度,并且使得服務器只能獲取全體用戶的梯度之和,而無法獲取單個用戶的梯度信息?;陂T限秘密共享保護模型梯度信息,只有當服務器收集到足夠多的用戶梯度后才能解密得到全局梯度,并進一步提出了一種異步優化方案來提高秘密共享的效率。由此可見,基于安全多方計算的聯邦學習方法主要致力于如何以較小的計算開銷實現對數據的隱私保護。3聯邦學習與區塊鏈的結合研究聯邦學習需要一個中心服務器來協調處理用戶的參數,因此可能遭受單點故障攻擊。而區塊鏈具有集體維護特性,可以代替中心服務器完成參數聚合操作,不僅有效避免了單點故障攻擊,還為訓練過程提供了可審計能力。因此,近年來陸續有學者將區塊鏈和聯邦學習相結合,應用于數據安全共享。在該結構中,各用戶將本地數據映射為機器學習模型,然后基于區塊鏈的共識機制交換模型,而無任何集中的數據訓練或協調,實現了數據價值的安全共享。Kim等人
提出了一個設備間的數據共享模型,將設備上的模型參數經過驗證和共識后記錄到區塊鏈中,提高了安全性。Qu等人結合區塊鏈和聯邦學習設計了一個去中心化的認知計算平臺,以解決工業4.0中的數據孤島問題,同時改進馬爾可夫決策過程來防范內部用戶發起的中毒攻擊。但是上述方法均使用工作量證明作為共識協議,會造成大量不必要的計算開銷,無法適用于計算資源受限的本地用戶。為此,Lu等人采用委托股權證明作為共識協議,并提出了一個由許可區塊鏈和本地有向無環圖組成的混合區塊鏈結構,同時設計異步聯邦學習方法來提高車聯網數據共享的效率。上述方法均將明文的模型參數作為事務記錄存儲在區塊鏈中,而區塊鏈賬本的透明性與數據共享的隱私要求相矛盾,具體而言就是攻擊者可以通過獲取區塊鏈中存儲的模型參數來推斷訓練數據的信息。為了進一步提高隱私安全性,Weng等人
使用Paillier算法加密用戶的模型參數后再上傳至區塊鏈,模型更新完畢后由t個用戶協作完成解密。但是當訓練次數過多時,該方法將消耗大量的計算開銷。Lu等人和Qi等人
分別針對工業互聯網和智慧交通領域的數據安全共享需求,運用本地差分隱私技術,在原始數據上添加噪聲后再進行特征提取和共享,可以防止隱私攻擊。但是如何平衡隱私保護力度與數據效用仍然是差分隱私技術面臨的痛點。4結語日益嚴峻的數據安全威脅是數字經濟時代面臨的重要挑戰。如何兼顧發展和安全,實現多用戶間的數據共享,是充分發揮數據價值的重要課題。以聯邦學習為代表的隱私計算技術為共享過程中的數據“可用不可見”提供了有效的解決方案。本文主要介紹了聯邦學習的應用背景和技術原理,并總結分析了現階段聯邦學習與其他技術相結合的研究現狀。聯邦學習的下一步研究方向包括以下幾個方面:(1)模型魯棒性問題。在原始聯邦學習框架中,都是假設各個用戶會誠實地上傳本地訓練的梯度,但是在實際網絡環境下,可能存在部分拜占庭用戶上傳虛假的甚至惡意的梯度來誤導聯邦學習過程,因此,需要研究魯棒性聯邦學習模型。當前已有部分學者提出拜占庭魯棒聚合算法,但是在適用范圍和訓練效率方面仍有待進一步研究。(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網絡隔離機(卡)項目安全風險評價報告
- 遵義師范學院《中國通史古代》2023-2024學年第二學期期末試卷
- 江蘇省南京市瑯琊路小學明發濱江分校2025屆小升初復習數學模擬試卷含解析
- 贛南醫學院《空間構成與表現》2023-2024學年第二學期期末試卷
- 溫州科技職業學院《城鄉規劃設計基礎1》2023-2024學年第二學期期末試卷
- 三峽大學《流行音樂配器法(1)》2023-2024學年第二學期期末試卷
- 河北地質大學華信學院《民航服務禮儀》2023-2024學年第二學期期末試卷
- 甘肅林業職業技術學院《藥理學及實驗》2023-2024學年第二學期期末試卷
- 鹽城師范學院《口述史實踐》2023-2024學年第二學期期末試卷
- 吉林省延邊重點中學2024-2025學年初三校際聯合檢測試題(二模)化學試題含解析
- 第二單元“中華傳統文化經典研習”說課稿 2024-2025學年統編版高中語文選擇性必修上冊001
- 2024年德州市人民醫院高層次衛技人才招聘筆試歷年參考題庫頻考點附帶答案
- 訂單與合同管理制度
- 【MOOC期末】《英美文學里的生態》(北京林業大學)期末中國大學慕課MOOC答案
- 外科患者疼痛護理與管理
- 《家校社協同育人“教聯體”工作方案》專題培訓
- 2024年六西格瑪黃帶認證考試練習題庫(含答案)
- 兒童牙齒分齡護理方案
- 2023-2024學年廣東省深圳市寶安區七年級(下)期中英語試卷
- DB43T 2558-2023 城鎮低效用地識別技術指南
- 中國心力衰竭診斷和治療指南2024解讀(完整版)
評論
0/150
提交評論