




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2021年數據價值釋放與隱私保
護計算應用研究報告護計算技術助力加快驅動生產、生活、治理方式的變革,以及營造良好數字生態。.打造數字經濟競爭優勢,驅動生產方式變革在數字經濟建設方面,數據憑借其可復制、可共享、可無限供給的特點,助力產業實現精細管理、精益生產、精準營銷、精確規劃等提升,以此降低經濟運行成本、提高經濟運行效率、賦能傳統產業轉型升級,催生大量新產業、新模式、新業態。依托數字經濟中的海量數據規模和豐富應用場景優勢,隱私保護計算技術助力打破“數據壁壘”,推動數據賦能全產業鏈協同轉型,助力形成高質量供給創造新需求、需求牽引供給的動態平衡,促進國民經濟良性循環。.加快數字社會建設步伐,驅動生活方式變革在數字社會建設方面,隱私保護計算在助力推進學校、醫院、養老院等公共服務機構實現資源數字化的基礎之上,有助于進一步加大開放共享和應用力度,推動線上線下公共服務協同發展、深度融合,提高公共服務能力的便捷性,以及數字服務應用的普惠性。此外,對于基層、邊遠和欠發達地區,通過隱私保護計算技術,可在保護數據安全和隱私的情況下,助力擴大公共服務資源輻射覆蓋范圍,有效緩解“數字鴻溝”,提高“數字弱勢群體”及人民群眾對公共服務的獲得感和滿足感,促進社會運行方式變革,構建全民暢享數字紅利的數字生活。提高數字政府建設水平,驅動治理方式變革在數字政府建設方面,隱私保護計算在助力確保公共安全的前提下,有助于提高數字化政府工作效能,實現數據跨部門、跨層級、跨地區匯聚融合、深度利用和高質量協作。具體體現在三方面,一是有效推動公共數據資源開放,以增強公共數據資源開放的透明度、增加政府公信力;二是有序推進政務數據資源共享,以提升協同治理能力;三是全面深化公共數據資源利用,以提高政府決策制定的科學性、專業性和時效性,助力政府精準施策。激發安全技術創新活力,營造良好數字生態隱私保護計算在提供數據安全和個人信息保護能力的基礎上,一是從技術角度實現“數據”向“數據價值”流通的升維,破除既有數據壁壘;二是憑借其堅實的理論基礎和安全性證明,加強數據應用透明度,增進數據價值利用下的安全保護信任,有效緩解數字經濟發展中的數據安全和個人信息保護的信任危機,彌合信任鴻溝;三是助力實現數據合規應用中的數據最小化、數據分類分級和數據匿名化,促進數據應用的合規化發展。如隱私保護計算技術通過聯邦學習的控制用法用量、安全多方計算實現目的受限,機密計算的授權代碼運行等實現數據最小化。綜上,“十四五”規劃綱要強調以數字化轉型驅動生產方式、生活方式和治理方式的變革,而隱私保護計算技術的出現,為充分發揮海量數據和豐富應用場景優勢,有力促進數字技術與經濟社會發展各領域融合發展,加快實現數字化發展、建設數字中國的遠景目標提供了重要的基礎(如圖3所示)。釋放變」實現DIKW模型指導驅動優化科學決策生產方式變革生活方式變革治理方式變革數字生態J價值實現數字經濟數字社會數字生態數一帝國”遠景晨實際變革遠景目標來源:4*國信息通信研究院圖3數據價值釋放路徑模型二、隱私保護計算技術概述(-)隱私保護計算及其矣鍵技術隱私保護計算(Privacy-PreservingComputation)是一套包含人工智能、密碼學、數據科學等眾多領域交叉融合的跨學科技術體系3。它能夠在不泄露原始數據的前提下,對數據進行加工、分析處理、分析驗證,其重點提供了數據計算過程和數據計算結果的隱私安全保護能力。隨著數字技術的發展,隱私保護計算的內涵及主流技術不斷演進。主流的技術研究焦點從早期的數據擾動和數據匿名化等演進至今,己經能夠實現數據計算過程和數據計算結果的保護,形成一套包含眾多領域的跨學科安全技術體系。隱私保護計算具體涵蓋了安全多方計算、聯邦學習、同態加密、差分隱私和機密計算等技術。安全多方計算(SecureMulti?PartyComputation,SMPC),由中國科學院院士姚期智于1982年通過“百萬富翁問題”提出,旨在解3中國信通院《隱私保護計算技術研究報告》決“一組相互獨立且互不信任的參與方各自持有秘密數據,協同計算一個既定函數”的問題。安全多方計算保證了各參與方在獲得正確計算結果的同時,無法獲得計算結果之外的任何信息。聯邦學習(FederatedLearning,FL),可被理解為是由兩個或兩個以上數據方共同參與,在保證數據方各自原始數據不出其定義的安全控制范圍的前提下,協作構建并使用機器學習模型的技術架構。通常情況下,聯邦學習需與其它隱私保護計算技術聯合使用,才可在計算過程中實現數據保護。同態加密(HomomorphicEncryption,HE),是一種允許在加密之后的密文上直接進行計算,且計算結果解密后與基于明文的計算結果一致的加密算法,可在不解密以實現數據機密性保護的同時完成計算。根據支持密文運算的程度,同態加密方案可以分為部分同態加密方案和全同態加密方案兩類。部分同態加密方案能夠支持有限的密文計算深度,常作為其他方案的組成部分之一進行使用。而全同態加密理論雖支持無限次任意給定函數的運算,但由于計算開銷較大,目前尚未形成規?;纳逃谩2罘蛛[私(DifferentialPrivacy,DP),是Dwork在2006年針對數據庫的隱私問題提出的一種嚴格的、可量化的隱私定義和技術。差分隱私在保留統計學特征的前提下,去除個體特征以保護用戶隱私。差分隱私具有兩個重要的優點:一是提出與背景知識無關的隱私保護模型,實現攻擊者背景知識最大化的假設;二是為隱私保護水平提供嚴格的定義和量化評估方法。機密計算(ConfidentialComputing,CO,機密計算是指通過在基于硬件的可信執行環境中執行計算來保護數據應用中的隱私安全的技術之一。其中可信執行環境定義為可在數據機密性、數據完整性和代碼完整性三方面提供一定保護水平的環境4。其基本原理是將需要保護的數據和代碼存儲在可信執行環境中,對這些數據和代碼的任何訪問都必須經過基于硬件的訪問控制,防止他們在使用中未經授權被訪問或修改,從而提高機構管理敏感數據的安全水平\除上述技術外,隱私保護計算技術還包含了秘密共享、不經意傳輸、混淆電路、零知識證明等諸多技術方向,在此暫不一一贅述。(二)基于隱私保護計算技術的數據流通模式在實際應用中,根據數據流通方式、數據集中程度、模型復雜度等差異化的業務場景,從技術角度來說,基于隱私保護計算技術的數據流通方式可分為可信環境模式、可證模式和可度量模式三類(如圖2所示):機構間無互信基礎可度■可證核心技術:核心技術:聯邦學習、拆分學習、差分隱私安全多方計鼻、同態加密輔助技術:輔助技術:可信執行環境、安全多方計算、同態加密可信執行環境、差分隱私服務器計算模塊機構間無互信基礎可度■可證核心技術:核心技術:聯邦學習、拆分學習、差分隱私安全多方計鼻、同態加密輔助技術:輔助技術:可信執行環境、安全多方計算、同態加密可信執行環境、差分隱私服務器計算模塊核心技術:可信執行環境輔助技術:差分隱私集中式模式服務器脈2機構3聯合計算模式機構1機構3去中心化模式機構間有互信基礎可信來源:中國信息通信研究院圖2基于隱私保護計算技術的數據流通模式1.可信環境模式可信環境模式,是以機密計算技術為核心,在基于硬件的可信執行環境中執行計算,保護數據應用中的隱私安全的集中式計算模式。該模式本質上是一種集中式的數據計算模式,需以各參與方的強信任關系為前提,將各參與方的數據進行集中式匯總,并利用集中匯總的數據進行模型訓練。因該模式將數據進行了集中匯總,故可進行非常復雜的計算,具有效率高、網絡延遲低等優勢,但難點在于如何構建各參與方的強信任關系。該模式通過基于硬件的可信執行環境構建參與方的信任關系,其信任的基礎是對可信執行環境的信任。目前市場上技術成熟的廠商主要有IntelSGX,ARMTrustZone等,較容易產生供應商鎖定等供應鏈安全問題。該模式的核心技術包括機密計算的可信執行環境等,輔助技術包括差分隱私等。2.可證模式可證模式,是以安全多方計算和同態加密等密碼技術為核心,支持在無可信第三方的情況下,各參與方協同計算一個既定函數的分布式計算模式。在該計算模式下,中間數據均以密態呈現。所謂“可證”是指數據的運算態或結果態的安全性可由其使用的密碼算法的理論安全性來證明提供。該模式的優勢是其采用基于密碼學的安全多方計算和同態加密等技術,憑借其堅實的理論基礎和可證明的安全性,獲得了較強的安全性保障。但是由于該模式包含復雜的密碼學操作,實現相關技術需要付出較大的性能代價,對性能提出了嚴峻的挑戰。對于一些計算復雜度較低的場景,該模式己取得良好的應用效果。該模式的核心技術包括安全多方計算、同態加密等,輔助技術包括可信執行環境、差分隱私等。3.可度量模式可度量模式,是以差分隱私技術為核心,可對數據計算過程中的隱私泄露風險進行量化評估的數據流通模式,該技術通常與聯邦學習等其他技術結合使用。例如,在聯邦學習中,中心節點需對各方模型更新的中間結果進行聚合,但此過程中存在數據重構時的攻擊風險。差分隱私可在各方數據出域前,通過施加隨機噪聲的方式保護中間結果,并度量這些噪聲帶來的隱私保護效果。該技術的優勢是能夠實現隱私風險的量化評估,但是會對數據的精度形成不可忽略的影響,因此對精度要求較高的場景需酌情使用。該模式的核心技術包括差分隱私、聯邦學習等,輔助技術包括可信執行環境、安全多方計算、同態加密等。(三)基于隱私保護計算技術的數據流通場景基于當前隱私保護計算技術的應用場景,其數據的流通場景主要包含單數據方的主動開放、無數據方的申請使用以及多數據方間的聯合計算(如表2所示)。表2基于數據流通的場景分類來源:中國信息通信研究院序號特點介紹參與方式需要保護的數據隱私保護相矣技術典型應用場景1單數據方主動開放數據擁有方主動發起(單方)。發布數據的個人信息和敏感內容。差分隱私等公共管理和服務機構開放符合開放條件的公共數據等。2無數據方申請使用無數據方提供查詢條件、并申請查詢;數據方根據查詢條件進行查詢并反饋查詢結果。無數據方查詢條件中的隱私信息;數據擁有方的數據PSLPIR等征信查詢、訂單查詢、敏感疾病查詢等。3多數據方聯合計算雙方或多方各數據方的數據安全多方計算、聯邦學習、可信執行環境聯合風控、聯合營銷等。一是單數據擁有方主動開放數據。通常為公共管理和服務機構對符合開放條件的公共數據進行開放。為保障數據安全及個人隱私,在對數據進行脫敏處理或使用差分隱私等技術時往往會給數據加入噪聲。如美國人口普查局會在發布人口數據時使用差分隱私技術進行保護處理,在保證數據的統計信息的基礎上,避免泄露詳細的個人信息,保障了數據和個人隱私的安全。二是無數據方申請使用數據擁有方的數據。在此場景下,無數據方需向數據擁有方提供查詢條件,數據擁有方根據查詢條件進行查詢并反饋相關結果。借助隱私保護計算技術能夠實現數據庫數據及查詢條件的“雙盲”,以此保護數據和個人隱私的安全。相關的支撐技術包括隱私集合求交PSI和隱私信息檢索PIR等。三是多數據擁有方聯合計算。兩個或多個機構之間基于某種業務需求,將各方數據進行聯合計算和分析。該類跨機構進行數據聯合計算的場景是當前業界研究和應用最多的場景。三、隱私保護計算技術落地應用案例(-)金融行業應用案例1.基于隱私保護計算縱向聯邦的銀行交易反欺詐案例業務背景以云計算、區塊鏈、大數據等為代表的新一代信息通信技術,正在加速金融業與信息科技的創新融合。金融科技(FinTech)在使支付、借貸、投資、保險等金融服務變得高效便捷的同時,也為銀行業帶來了申請欺詐、交易欺詐和營銷欺詐等欺詐風險。申請欺詐是指在信貸申請階段存在的惡意逾期、中介代辦、內外勾結、團伙欺詐等行為;交易欺詐指第三方在客戶不知情的情況下,非法利用他人賬戶進行的賬戶盜用、偽卡盜刷等行為,以及內部員工在支付和交易過程中的違規操作、騙取客戶或行內資金等行為;營銷欺詐是指黑產利用金融機構發放新用戶紅利時的推廣活動漏洞,進行非正常參與、非法獲取營銷紅利,致使金融機構遭受損失的行為。欺詐行為攻擊對象不確定、犯罪主體難追蹤、外部欺詐風險涵蓋范圍廣、防控難度大等原因使得金融欺詐成為導致銀行業受損最嚴重的風險之一。據國外研究機構統計,欺詐風險每年導致的銀行業受損金額高達近千億美元,國內銀行每年因欺詐風險損失的金額也高達上百億元。傳統方案近年來,基于機器學習和大數據的反欺詐風控技術迅猛發展,銀行業在反欺詐風控領域取得一定的進步,大部分銀行均構建了實時交易反欺詐系統,基于銀行已有的業務數據,結合專家規則與機器學習模型來甄別交易欺詐行為。然而,在巨大的經濟利益驅使下,金融交易欺詐黑色產業鏈愈發成熟,其技術和手段不斷升級迭代,傳統的基于機器學習和業務數據的反欺詐風控技術捉襟見肘,為金融行業的交易反欺詐工作帶來了巨大的挑戰。業務痛點特征維度不足:對于絕大多數銀行機構,反欺詐的最大難題是反欺詐模型建立過程中數據來源單一,單純依靠自身業務數據構建出的反欺詐模型識別準確度極低。隨著黑色產業鏈智能化與集團化發展,各類欺詐手段的特征越發隱蔽、難以察覺,且跨行業欺詐逐漸成為常態,單次欺詐行為貫穿社交媒體、銀行APP等多個工具,各機構的單方數據無法應對。例如,在利用社交網絡進行金融欺詐的場景中,TOC\o"1-5"\h\z\o"CurrentDocument"一、數據概念內涵及價值1\o"CurrentDocument"(-)數據定義1\o"CurrentDocument"(二)數據的特征2\o"CurrentDocument"(三)數據的價值3\o"CurrentDocument"(四)隱私保護計算助力數據價值釋放5\o"CurrentDocument"二、隱私保護計算技術概述8(一)隱私保護計算及其關鍵技術8\o"CurrentDocument"(二)基于隱私保護計算技術的數據流通模式10\o"CurrentDocument"(三)基于隱私保護計算技術的數據流通場景13三、隱私保護計算技術落地應用案例14(―)金融行業應用案例14\o"CurrentDocument"(二)醫療行業應用案例36\o"CurrentDocument"(三)政務行業應用案例46\o"CurrentDocument"四、隱私保護計算技術應用困境及建議52社交網絡服務提供商掌握黑客針對用戶的廣撒網、常以中老年人群為目標等行為的特征;銀行則掌握受害者在被欺詐后,向黑客轉賬以及后續資金轉移時間、流向等特征;雙方數據的特征割裂,均不足以獨立實現對欺詐行為的有效識別。數據安全與共享利用的矛盾:數據作為企業的核心競爭力之一,各企業不斷加強對數據處理和利用的重視程度,但同時,日益頻發的個人信息泄露和數據安全事件引發大眾廣泛關注,數據使用與隱私保護之間的矛盾日益突出。隨著近幾年國內外一系列數據安全與隱私保護相關政策法規的出臺,以往的粗放式數據收集、使用與交易模式將被嚴格規范和限制,如何在數據安全框架內促進數據的共享利用成為下一階段的重要議題。解決方案碎片化:為優化反欺詐效果,銀行采取了諸多措施,例如,采購外部反欺詐評分類產品、構建全域反欺詐關聯網絡等。但各類措施大都聚焦于業務流程的單個環節(如身份識別認證、欺詐行為識別、信用等級識別等),無法覆蓋業務全流程的欺詐風險。業務流程各環節的反欺詐解決方案部署割裂,整體協同配合困難,致使銀行機構反欺詐能力發揮受限,業務反欺詐效果不佳。綜上,如何在有效保護數據安全的前提下,合法合規地利用內外部數據,豐富樣本數據特征維度,構建更加精準的反欺詐風控模型,提升反欺詐能力,是當前各類銀行的當務之急。(4)實踐案例
針對銀行當前反欺詐管理中遇到的特征維度不足、安全與利用矛盾、解決方案碎片化等困境,基于聯邦學習等隱私保護計算技術的“數據+平臺+模型”一體化解決方案,通過實現銀行與外部機構在反欺詐場景下的跨行業數據鏈接,聯合了金融交易特征、社交行為特征和相關人員特征等多維度特征信息構建反欺詐模型,實現更精準有效的交易欺詐甄別,提升銀行機構交易反欺詐能力。在整體方案實施中,需在銀行機構部署隱私保護計算節點,通過隱私保護計算節點與數據源生態完成對接(如圖4所示)。銀行隱私計算成果加密計算因子co數據源計算服務計算服務§曜庫MPC交易反欺詐隱私雷節點,i數據庫金融交易運營商電商銀行隱私計算成果加密計算因子co數據源計算服務計算服務§曜庫MPC交易反欺詐隱私雷節點,i數據庫金融交易運營商電商移動SDK醫療聯邦學習圖4銀行與外部數據源對接示意圖首先通過隱私保護計算平臺的PSI功能6,以縱向聯邦的方式,將銀行機構準備的反欺詐樣本數據與外部數據源進行隱私求交,獲取多方的交集客戶信息,在銀行客戶三要素信息(姓名、身份證號、手機號)不出庫的前提下,完成銀行與外部數據源之間的數據樣本對齊。然后,運用隱私保護計算平臺的特征工程與模型訓練模塊,完成反欺詐模型訓練與調優工作。從效果上看(如表3所示),該隱私保護計算反欺詐解決方案幫助銀行安全引入客戶的支付行為、設備信息、社交習慣等數據,提升了反欺詐模型的準確性和效率,通過隱私保護計算技術構建的反欺詐模型的模型評估指標AUC,可以達到0.82,模型風險區分能力指標KS8達到0.51,模型效果有較大提升。表3傳統計算方案與隱私保護計算反欺詐方案對比來源:隱私保護計算服務提供商方案反欺詐模型準確性反欺詐效率是否引入同行業標簽是否引入其他行業數據源實時性傳統方案低低否否低隱私保護計算高高是是高反欺詐方案(5)實踐價值隱私安全:此實踐中隱私保護計算方案使用的秘密分享、全同態、半同態加密等技術,確保了每個計算節點在整個計算過程中都無法看到其他參與方的任何隱私信息,最終結果輸出只有發起方有權限查看,其他計算節點無法獲取,從而確保了應用過程的隱私性。同時,在產品邏輯上,半誠實模型與惡意模型的實現,也保證了各方隱私信息的安全不泄露,不會在通信層面或者非數據方節點有任何隱私數據留存。自動化編譯引擎:首先,隱私保護AI編譯器以底層數據流圖9的視角揭示了機器學習算法和對應的分布式聯邦學習算法的聯系,可通過數據流圖變換完成兩者間的自動轉換。其次,數據流圖變換具有通用性,可以適配上層多種機器學習算法,如邏輯回歸、貝葉斯分類、神經網絡等。從數據流圖的視角,分布式聯邦學習變換可以理解為將整體數據流圖切分為若干子圖分布到各隱私保護計算參與方,并保證子圖交互的部分(通信部分)以隱私保護的方式進行。簡而言之,該引擎將隱私保護計算各參與方使用的不同算法“格式化”為統一算法,避免了各方分別轉換算法所需的定制化改造帶來的巨大工作量和時間成本。安全可驗證:受限于密碼學證明方式與聯邦學習領域的結合不夠深入,傳統模式無法做到安全性的自動化驗證。隱私保護計算方案可全方位實現事前、事中、事后的安全評估驗證。同時,以底層數據流圖的視角揭示算法和對應的分布式聯邦學習算法的聯系,使得運算流程透明可見、可審計。高度適配產業需求:相比人工編譯模式,隱私保護算法的構造速度指數級提升,系統整體運行速度是典型架構模式的20-40倍,能夠在實施難度、系統效率、安全可視等方面滿足工程、業務、運維、安全等各方面綜合需求,具備成熟的商用推廣模式。2.中小銀行間橫向反欺詐建模和黑名單共享案例業務背景風控能力一直被視為銀行機構的核心能力,但目前行業內各梯隊風控能力懸殊。大型銀行在風控技術和經驗上的優勢極為明顯,尤其在互聯網平臺的流量加持下,吸引了更多客戶,從而積累了更豐富的數據,使得依托于客戶數據規模的風控優勢進一步擴大。與大型銀行優勢地位形成鮮明對比的是,中小銀行的風控處境比外界所見的更加困難。一方面,大型國有商業銀行或股份制商業銀行的地方分行依托相對較低的利率和資金成本,更易吸引信用記錄良好、資產結構良好、資產負債率較低等資質較優的客戶,留給地域經營的中小銀行的客戶群體相對更容易存在征信不良、固定資產少、多頭借貸等問題。另一方面,中小銀行的服務客群更集中在不發達地區,這類客群很容易受到電信詐騙、釣魚網站、木馬病毒、黑客勒索等黑灰產影響,給中小銀行的風控工作帶來更復雜嚴峻的挑戰。這些問題迫使中小銀行必須持續完善自身風控體系,當前較為迫切的需求體現在反欺詐和識別不良客戶兩類風控業務上。傳統方案在反欺詐業務的傳統解決方案中,兩家或多家中小銀行各有一批欺詐樣本,分別構建反欺詐模型,擬合出客戶特征和反欺詐樣本之間的關系,但在樣本和觀察數據規模有限的前提下,本地建模學習的模型效果并不理想。若各行的客戶分類、客戶偏好、地理位置等分布差異較大,銀行間共享樣本并基于共享的樣本合集構建模型,可顯著的提升模型效果,但出于對數據安全及個人信息保護的考慮,銀行之間無法直接共享樣本數據。不良客戶識別業務的風控處境更為嚴峻。傳統條件下,數據分享只能通過明文方式,且被查詢方能夠獲取查詢方的記錄,因此,不良客戶識別業務在機構間的安全合作甚至無法在傳統條件下實現。直至隱私保護計算技術出現后,銀行機構間的數據融合才有了安全的實現方式。業務痛點不良客戶識別方面,各銀行在開展業務過程都會積累業務黑名單,以此在前置風控環節識別并剔除不良客戶。對于中小銀行來說,因為其業務開展的時長及覆蓋的客戶有限,積累的黑名單無論在客戶體量、客戶地域分布上都較為局限,無法幫助銀行精準高效地識別不良客戶。反欺詐方面,交易實時反欺詐系統對交易欺詐行為的甄別,很大程度上需要依靠專家規則與機器學習模型。對中小銀行而言,一個棘手的問題是,積累的欺詐樣本數量較少,不足以構建高準確度的交易反欺詐模型,導致反欺詐工作開展效果不理想。政策合規方面,針對上述兩個業務風控樣本不足的共通性問題,中小銀行迫切希望獲得其他金融機構,尤其是同類銀行的風控樣本數據,作為自身風控樣本數據的補充,以提升自身的風控能力。近年來,國內外出臺的一系列數據安全與隱私保護相關政策法規,在數據收集、使用與交易模式等方面進行了規范,銀行間的數據共享與流通將面臨嚴格的合規限制。(4)實踐案例針對黑名單局限、建模所需數據樣本不足、數據安全保護趨嚴等業務痛點,隱私保護計算技術為中小銀行提供了解決方案。在隱私保護計算平臺實踐案例中,通過在各銀行部署隱私保護計算節點,實現了銀行間的數據互聯對接,在滿足數據不出庫、客戶隱私不泄露的安全合規要求的同時,橫向聯邦功能為銀行提供了反欺詐模型共建能力,匿蹤查詢功能實現了銀行間的黑名單共享,幫助中小銀行化解了上述的業務痛點。以下分別展開說明:1)反欺詐模型共建以銀行A和銀行B的反欺詐模型共建試點項目為例,在該反欺詐模型共建案例中,銀行A和銀行B分別提供欺詐樣本數據,包括欺詐用戶標簽以及該用戶的特征(如信用記錄、消費習慣、常用手機設備等),并上傳至隱私保護計算節點。隱私保護計算平臺通過橫向聯邦的方式,對兩銀行的欺詐樣本數據進行數據特征對齊及建模,在數據可用不可見的情況下,構建一個雙方共用且效果更優的反欺詐模型。0.710.720.74來源:隱私保護計算服務提供商0.8圖5橫向聯邦反欺詐模型指標對比0.710.720.74來源:隱私保護計算服務提供商在模型效果方面(如圖5所示),傳統方案中銀行A和銀行B分別在本地構建反欺詐模型,模型評估指標AUC值分別為0.71和0.72,風險區分能力評估指標KS值分別為0.231和0.322;隱私保護計算平臺構建橫向聯邦學習得到的模型,AUC值和KS值分別是0.74和0.355o由此可見,基于隱私保護計算技術的橫向聯邦應用為金融反欺詐業務帶來了一定程度的指標提升。2)黑名單共享除了反欺詐模型共建,隱私保護計算平臺也可為金融機構提供金融黑名單共享的能力,打破金融機構間的“數據孤島”。如某大型股份制商業銀行牽頭,與多家銀行共同搭建了隱私保護計算平臺。銀行間基于匿蹤查詢技術為彼此提供隱私黑名單查詢服務,各行在保護隱私安全的前提下實現了黑名單共享(如圖6所示)。
一虛擬黑名單數據池L隱私保一護節點一-隱私保一一虛擬黑名單數據池L隱私保一護節點一-隱私保一-護節點一一隱私保一一護節點一一隱私保一一護節點一nO3S阿sg虞席£1顯瞬目聳S021圖6基于匿蹤查詢技術提供銀行間隱私黑名單查詢服務匿蹤查詢技術能夠保證查詢發起方在不暴露被查詢客戶ID的前提下,獲得該客戶ID是否在其他機構的信息。在黑名單共享場景中,客戶ID為客戶身份三要素信息(姓名、身份證號、手機號),待查詢的信息為是否在黑名單中,通過同態加密技術對客戶ID和各維度金融信息進行加密,并對外提供黑名單服務。查詢方即可知曉該用戶是否在虛擬黑名單數據池中,并且僅能解密所請求客戶1D的黑名單標簽值。在實際匿蹤查詢業務中(如圖7所示),銀行X要判斷一個客戶是否是黑名單客戶,首先會在本地查詢該客戶ID是否存在于本行黑名單內,若命中黑名單,則業務流程結束;若未命中,則通過匿蹤查詢技術,向銀行A、銀行B、銀行C分別查詢客戶ID是否在其黑名單內,并得到返回結果。本地來源:隱私保護計算服務提供商圖7匿蹤查詢業務流程實踐價值在本案例中,銀行通過部署隱私保護計算平臺完善了自身的風控體系,一方面通過橫向聯邦實現了欺詐樣本的安全共享與模型共建,另一方皿通過匿蹤查詢實現了銀行間的黑名單安全共享。隱私保護計算方案在性能上也有較優的表現。在反欺詐模型橫向聯邦建模場景中,銀行A和銀行B分別提供百萬級別的訓練樣本,平臺每進行一次聯邦建模的總耗時僅在分鐘級別內,接近模型本地訓練的性能;黑名單共享匿蹤查詢場景中,在銀行A、銀行B、銀行C各自擁有數萬量級黑名單的情況下,匿蹤黑名單查詢服務對于單個客戶單次查詢的平均耗時為720ms,單次平均通信數據量為420M,可以滿足業務場景時效性的要求。3.基于隱私保護計算技術的同業風控聯盟案例業務背景移動互聯網及大數據技術的蓬勃發展加速了數字經濟時代的到來,傳統的金融業務模式正在隨之不斷發生變革,越來越多的金融機圖目錄TOC\o"1-5"\h\z圖1DIKW模型4圖3數據價值釋放路徑模型8圖2基于隱私保護計算技術的數據流通模式11圖4銀行與外部數據源對接示意圖17圖5橫向聯邦反欺詐模型指標對比23圖6基于匿蹤查詢技術提供銀行間隱私黑名單查詢服務24圖7匿蹤查詢業務流程25圖8隱匿查詢雙盲方案28圖9數據流與管控流分離28圖10基于區塊鏈隱私保護計算的大數據智能風控產品技術架構33圖11聯合建模前后不度貸款率對比35圖12融合外部數據的建模效果35圖13全基因組關聯分析結果的曼哈頓圖40圖14傳統方案和隱私保護計算平臺技術方案架構對比40圖15基于隱私保護計算服務平臺的聯合DRG建模的流程44圖16PHEV與BEV充電負荷曲線5()圖17電動汽車充電總負荷曲線50構通過人工智能、云計算等技術擁抱數字化轉型?;ヂ摼W金融、數字化金融為金融信貸帶來快捷便利的同時,網絡犯罪的強隱蔽性和金融欺詐的低成本也使信貸行業面臨著更嚴峻的欺詐風險,多頭借貸惡意行為的發生兒率隨之升高。多頭借貸一般分為兩類:一類是長時多頭借貸,主要是用戶消費、投資等需求超出現有收入水平和授信后尋求更多授信的行為,此類人群容易因資金鏈斷裂導致逾期,抗風險能力較弱。另一類是短時多頭借貸,主要是一些不法分子通過團伙欺詐、電信欺詐、殺豬盤等手段,利用金融機構間的信息差,在短時間內大量申請授信。統計數據表明,多頭借貸客戶的逾期風險可達普通客戶的3倍以上,對金融機構的正常運轉和金融穩定性帶來極大隱患。(2)傳統方案傳統方案中,金融機構主要通過人行征信報告或外部三方數據的方式查詢多頭借貸人員名單。人行征信報告主要通過匯總和加工各家金融機構主動上報的信息對外提供服務。一方面,在助貸模式中,平臺端為提升用戶體驗,人為向多家機構推送同一用戶的同一借貸申請,導致用戶被動多頭以致其征信被污染;另一方面,當前各家金融機構內部對借款的寬限期及征信上報的時間標準(包括時間點、上報頻率)存在差異,最小顆粒度為天的征信報告無法幫助金融機構及時識別短時多頭借貸的用戶,存在利用征信信息收集和更新的時間差獲得非法授信進行多頭借貸的風險。查詢外部三方數據往往需要金融機構提供用戶三要素信息,存在原始數據出庫直接暴露個人信息和第三方數據來源合規風險,成為業務穩健發展的達摩克利斯之劍。(3)業務痛點安全隱私風險:傳統的外部三方數據查詢一般需要查詢方將經MD5或者SHA256處理后的用戶唯一標識發送至數據提供方,并通過API的方式獲取查詢結果。數據提供方基于已有用戶信息規模優勢,將自己所有用戶的ID用MD5加密之后進行對比,相等則即可識別出對應用戶。這種查詢方法很容易解析到數據查詢方的原始用戶信息,并間接掌握被查詢用戶的身份信息,對于數據查詢方而言存在用戶信息泄漏風險。風險識別低效:征信機構的信息來源于各家金融機構的主動報送,參與信息報送的金融機構數量及其用戶量影響著征信報告的覆蓋度和準確度。一方面,一些非持牌的互聯網金融機構用戶體量較大但并未接入央行征信,接入機構有限導致征信機構覆蓋用戶不全面。另一方面,參與征信報送的金融機構因內部風險規則不同使得對寬限期的定義標準不一,且各家金融機構的報送時間點、頻率存在差異,導致征信報告存在信息遲滯的問題。征信報告覆蓋度和準確度因此受到影響,一定程度上降低了金融機構的貸前用戶風險識別效率。主觀意愿不強烈,存在客戶競爭:不同體量的金融機構在信息共享時存在數據共享的公平性問題和客戶資源暴露問題,傳統的銀行聯
盟模式下,客戶名單共享易造成客戶流失,以致金融機構彼此提防,數據共享意愿低。實踐案例為有效應對上述問題,以將管控流和數據流分離為設計原則,基于隱私保護計算技術的隱匿查詢雙盲方案應運而生(如圖8所示)。銀聯作為聯盟主協調方部署盟主中心節點,實現中心化管控,參與聯盟的銀行為聯盟成員,部署計算節點,聯盟成員的數據均留存在本地。聯盟成員A加?聯盟成員A加?點聯盟成員c目一畫加密數據安全計算節點來源:隱私保護計算服務提供商圖8圖8隱匿查詢雙盲方案圖8隱匿查詢雙盲方案金融明A圖8隱匿查詢雙盲方案金融明A金融me來源:隱私保護計算服務提供商圖9數據流與管控流分離聯盟中某一成員發起查詢請求到盟主中心節點(如圖9所示),中心節點收到請求后轉發到聯盟內其他成員隱私保護計算節點,做到數據查詢方與數據提供方身份的互盲。隱私保護計算節點通過隱匿查詢技術保障數據提供方不能獲知數據查詢內容,保護數據查詢方的輸入數據,避免客戶信息泄露,防止同業惡性競爭。相比較傳統數據共享方式,基于隱私保護計算技術的隱匿查詢雙盲方案在數據安全、數據實時性、數據質量、數據開放生態4個方面都有明顯改善(如表4所示)。表4傳統計算方案與隱匿查詢雙盲方案對比來源:隱私保護計算服務提供商對比項傳統方案隱匿查詢雙盲方案數據安全查詢數據可被解析,存在數據泄露風險數據不出本地的前提下多方聯合計算,有效降低數據泄露風險數據實時性多頭名單數據更新不及時,金融機構無法第一時間識別風險可實時更新聯盟多頭數據數據質量助貸查詢多資方模式導致查詢被污染參與方彼此直連,保證數據質量數據開放生態無法避免客戶流失帶來的同業竟爭,參與方數據共享意愿低身份雙盲設計,參與方可放心進行數據共享,提升生態開放性目前本案例聯盟有100余家金融機構參與使用,包含多家頭部金融機構,日均計算量達到60多萬,滿足實時多頭數據預警應用場景的業務需求,后續可增設場景解決授權額度共享等痛點問題。(5)實踐價值本案例將原始數據保留在本地,通過隱匿查詢技術使得各參與方在查詢過程中身份雙盲,各參與方對數據“可用不可見”,只通過數據使用的共享來實現數據價值共創。既滿足各方業務需求,又保障了數據安全。借助隱私保護計算技術能力,金融機構能夠在貸前客戶識別業務中及時更新客戶的多頭信息,實現了征信查詢場景的實時響應,兼顧了業務準確性、實時性和數據安全性要求。同時,身份雙盲設計消減了參與方的同業競爭顧慮,促進了金融機構間的數據安全、充分共享,進一步弱化了數據共享的壁壘。4.基于區塊鏈和隱私保護計算技術的小微企業智能風控產品案例(1)業務背景目前我國95%以上的企業屬于小微型企業,作為國民經濟的重點之一,我國對小微企業扶植力度逐年加大,無論是政策上的支持、制度上的支撐、還是資金上的補助,都反映出國家大力發展小微企業的決心。為切實助力支持小微企業的發展,各商業銀行將信貸業務的服務重心,從大中型企業逐漸轉向小微型企業。然而,隨著大數據時代的快速發展,商業銀行在對小微企業進行信貸風險控制時,為了得到更加精準的信用風險預測結果,往往會將小微企業的基本信息、資金流水等自有數據與工商、司法、稅務、公安等外部數據相結合,以此來豐富數據維度、擴大數據規模,提升聯合建模模型的準確度。但數據的合作過程涉及到多方數據的共享與利用,因此就存在隱私數據泄露、數據真實性等安全風險,導致商業銀行無法得到準確、全面的數據去判斷小微企業的風險能力,面向小微企業的信貸業務面臨嚴峻的考驗。傳統方案商業銀行結合外部數據對小微企業進行風險評估的業務場景下,傳統解決方案是將經脫敏技術處理后的多方數據聚集在一起進行計算和建模。隨著技術手段不斷演進,基于脫敏技術的數據安全保護傳統方案不再固若金湯:數據脫敏通過失真等變換在降低了數據敏感度的同時,又保留了一定程度的數據統計特征和可用性,但是攻擊者仍可以通過如彩虹表z等特定技術手段對脫敏數據進行逆推處理,從而獲取部分乃至全部原始數據,故仍存在原始數據泄露風險。業務痛點商業銀行方面的業務痛點,一是技術手段缺失,商業銀行內部各部門、商業銀行與工商、司法、稅務、公安等外部大數據之間數據融合、風險信息共享程度低,機構間數據孤島現象長期存在,各商業銀行和小微企業有意愿打破這種桎梏,卻缺乏有效技術手段,導致商業銀行對小微企業的跨機構、多維度全景客戶畫像構建不全面、不準確,從而對小微企業客戶風險和潛在價值的評估準確度降低,影響商業銀行對小微企業信貸業務的風控評估與決策。二是數據合作成本高,由于商業銀行與工商、司法、稅務、公安等外部數據源在數據采集、統計標準等方面要求不一,在數據融合過程中就需要投入大量人力、物力重新整合數據,建立底層統一的數據資源框架,導致合作成本高昂。此外,在數據管理時,為解決內、外部數據安全問題,需要在組織架構、管理流程方面執行嚴格的管控,再次增加了管理成本。小微企業方面的業務痛點,一是融資難,長期以來,商業銀行對小微企業的印象是違規成本低、經營不規范、抗風險能力差,在社會各方尤其是與工商、司法、稅務、公安等外部大數據中無法實現企業信息及時融合互通的背景下,商業銀行無法準確、客觀評估小微企業的風險等級,導致眾多具備發展潛質的小微企業無法順利借貸,形成了小微企業融資難、融資貴、融資門檻高的現狀。二是合作難,受法律法規的約束,各企業無法進行各實體機構之間的數據共享,造成了相關企業之間因擔保、營銷以及發展規劃差異形成的數據壁壘,企業間合作困難。(4)實踐案例功能特點方面,基于區塊鏈和隱私保護計算技術的小微企業智能風控產品,通過區塊鏈上的隱私保護計算合約助力保護個人隱私和數據安全,實現大數據在各數據合作方之間的價值流通,具備相對安全的數據查詢服務、風控數據分析、聯合建模、多方數據規則和模型的部署與管理功能,能夠聯合外部大數據幫助商業銀行信貸風控部門進行小微企業信貸客戶的風險評估和決策,提升商業銀行的風險識別能力和智能化水平。隱私保護計算技術在解決數據隱私保護和共享利用的平衡的同時,也面臨著諸如數據真實性難確認、參與方身份難信任、可信數據共享協作網絡難構建等挑戰。本案例的風控產品通過區塊鏈技術實現上鏈前數據具體來源、生成機制、存儲過程的真實性交叉驗
區塊鏈節點區塊鏈節點區塊鏈節點某銀行分行技術1
提供方項區塊鏈隱私計算平白智能_I外部大數據證,以及上鏈后數據使用可記錄、源頭可追溯、過程可審計、不可篡改等功能。通過區塊鏈上的存證合約完成關鍵業務流程的上鏈記錄,使數據應用、模型結果可信存儲,同時支持對外開放接口提供給總行以及監管機構進行安全審計,解決了多方數據在融合過程中的安全性及真實性問題。區塊鏈節點某銀行分行技術1
提供方項區塊鏈隱私計算平白智能_I外部大數據業努申請企業主,V>4放款—瞄申雙企業血,來源:隱私保護計算服務提供商圖10基于區塊鏈隱私保護計算的大數據智能風控產品技術架構技術架構方面,本案例通過安全多方計算和可信聯邦學習技術將行內信貸客戶的申請信息、存款、理財、行為偏好等數據和外部大數據進行安全融合(如圖10所示),豐富了信貸用戶風控數據特征維度,擴大了數據開放程度,實現了在保證商業銀行與工商、司法、稅務、公安等外部大數據源的原始數據不出各自私域的情況下,聯合構建風控客戶畫像、風險規則和信用評分模型,幫助銀行更加安全、全面、智能地評估信貸客戶的風險狀況。此外,通過區塊鏈數字身份的建立,基于匿蹤私密查詢合約保護數據查詢過程中行內信貸客戶身份信息,采用切片決策引擎技術實現基于多方大數據的風控規則和模型的安全部署和管理,并提供可視化監控分析展示系統,幫助銀行建立貫穿信貸客戶全生命周期的安全智能風控平臺,提升多方大數據在行內的風控應用價值和效率(如表5所示)。表5傳統解決方案與隱私保護計算解決方案對比來源:隱私保護計算服務提供商對比項傳統解決方案隱私保護計算解決方案參與方數據聚合一方后進行計算分析多方聯合分布式計算特征維度受制于數據安全,特征維度缺失多方聯合,幾乎涵蓋全部特征維度計算效率單一節點計算效率低數據并行計算,多方聯合,顯著提高效率計算精度有損失無損失數據安全性多方參與數據出域,存在極大安全隱患數據不出域,實現數據的“可用不可見”(5)實踐價值數據方面,隱私保護計算平臺為銀行提供了外部大數據安全融合能力,緩解了數據的泄露風險,提升了銀行的大數據風控應用能力。本案例幫助銀行聯合了包括工商、稅務、水電、司法、電信、征信機構等十余家跨行業數據源提供的上千個數據維度的外部大數據進行小微企業風控。在基于這些數據進行聯合建模后,商業銀行的不良貸款率從原有的1.81大幅下降至0.38(如圖11所示),經測算,基于區塊鏈和隱私保護計算技術訓練得到的信用評分模型,無損于傳統方式得到的模型,其AUC提升11%,FlScore】】提升42%,精度(Precision)
從62.2%提升到70.0%,提升幅度13%,召回率(Recall)提升59%(如圖12所示),大大提升了銀行的大數據風控應用能力。86420O.O.O.O.1.81聯合建模前商業銀行平均水平0.38聯合建模后商業銀行平均水平86420O.O.O.O.1.81聯合建模前商業銀行平均水平0.38聯合建模后商業銀行平均水平來源:隱私保護計算服務提供商圖11聯合建模前后不良貸款率對比BaselineLR-分箱+WOEBaselineLR-分箱+WOEXgboost-特征工程XpvPXpXpxPXpcT**q/Q/Q/oooooo876543圖12融合外部數據的建模效果效率方面,本案例有效優化了銀行建模分析決策路徑和信貸風控流程。根據案例試點實踐數據,隱私保護計算平臺運行期間,小微企表目錄TOC\o"1-5"\h\z表1DIKW模型解釋5表2基于數據流通的場景分類13表3傳統計算方案與隱私保護計算反欺詐方案對比18表4傳統計算方案與隱匿查詢雙盲方案對比29表5傳統解決方案與隱私保護計算解決方案對比34表6P值最高的單核昔酸多態性列表39表7傳統方案和隱私保護計算平臺技術方案性能對比41表8傳統技術方案與安全計算平臺創新方案對比51業信貸業務平均審批效率較之前提升了30%,不僅大幅提升了銀行的風險管理水平,而且也極大優化了信貸客戶的申請體驗。業務方面,商業銀行結合外部數據的引入,深度挖掘自身數據,得以更加有效、低成本地觸達小微企業客戶,準確識別信用風險。區塊鏈和隱私保護計算技術保護了數據提供者和數據使用者雙方的數據隱私安全,使多方數據相對安全地應用于業務決策。(二)醫療行業應用案例1.全基因組安全聯邦學習分析案例(1)業務背景隨著數據要素價值釋放的需求越來越強烈,現代醫學研究、藥物開發、公共衛生防疫以及臨床醫療應用等生物醫學科學的進步,也愈發倚重電子病歷數據、基因數據、影像數據等生物醫學數據的開放共享與利用。例如,近幾年常被提及的“精準醫療”以及全基因組關聯研究(Genome-WideAssociationStudies,GWAS)等相關概念,都是數據應用價值在生物醫學領域的直觀體現,其本質是通過分析大樣本的個體生物醫學信息,鑒別特定疾病類型的生物標記物,輔助疾病的預防、診斷和治療,提高疾病診治與預防的效率及成本。生物醫學數據,尤其是基因數據,包含了大量涉及國家安全、個人隱私的敏感信息,數據泄露將對國家安全、公共利益造成難以估量的損失,這使得生物醫療數據的開放共享受到一定阻礙,基于數據規?;e累的價值釋放方法遭遇瓶頸。(2)傳統方案GWAS是指在人類全基因組范圍內篩選出與疾病相關的變異序列,即單核昔酸多態性(SNPs)。傳統的GWAS解決方案需要以足夠大的病例和對照樣本數量為基礎,對其所有感興趣的SNPs進行基因分型,然后分析每個SNP與疾病的關聯,計算其關聯強度和OR值%在傳統的解決方案中,GWAS非常依賴大量基因數據的積累,樣本量不足是各項GWAS研究中的常見問題和困難。即使多方以豐富病例和對照樣本數量為目標展開數據合作,也很難保證合作過程的數據安全。傳統方案在數據合作過程中需要各參與方將數據進行物理轉移,匯總到一方后進行基因分析,面臨著第三方不可靠帶來的潛在數據隱私泄露、數據濫用、數據轉賣等風險,以及數據分享意愿不強等問題。業務痛點傳統方案通過限制數據的流通,一定程度上保證了數據的安全性,但方案的落地實施仍存在其局限性。一是樣本割裂缺乏交互和共享,規?;e累不足。基于生物醫療數據的各項科學研充通常需要大量樣本,單一數據源很難滿足海量的數據需求。且受限于不同數據源所在國家和地區其數據安全和隱私保護法律法規的要求存在差異性,不同數據源可能在部分地區允許外傳,而在其他部分地區禁止外傳,各數據源也無法有效地直接和第三方分享自身數據,加劇了醫療數據孤島困境,影響生物醫學研究的合作。二是超大數據量,高通量計算對技術與計算效率的要求較高。通過匯集多方醫療數據,數據量和數據維度的增加滿足了樣本規模需求,這雖然有利于提升模型精準度,但對計算效率也提出了更高的要求,傳統方案中的單一計算節點力所不及,無法滿足計算效率與精度之間的平衡。三是統一大數據平臺存在安全性不足等短板,嚴重限制了其發展。生物醫學研究數據包含了大量敏感的個人信息,研究發現,基于幾十個基因位點(SNPs)的數據就可以基本確定一個個體的身份。面對如此敏感的醫療數據,當前GWAS依賴統一大數據平臺的實現方式其安全性更顯不足。如何在保護醫療敏感信息、規避隱私泄露風險的前提下,廣泛推行生物醫學數據分享和聯合分析、多元醫療數據融合,成為制約GWAS研究的關鍵挑戰之一。實踐案例強直性脊柱炎(AnkylosingSpondylitis,AS)是最常見的自身免疫病之一,發病一般較早,且主要累及青壯年男性,如不能及時接受科學治療,有較高致殘率。在我國,至少有1()0()萬強直性脊柱炎患者,人群龐大。研究發現,該病與HLA-B27等基因具有高達90%的相關性,因此開展強直性脊柱炎的GWAS分析有很高的社會價值。由某三甲醫院牽頭,在隱私保護計算技術的支持下,實現了在不分享明文數據(個體基因數據)的基礎上,支持強直性脊柱炎的GWAS分析,為解決生物醫學數據開放共享問題提供了思路。該方案基于隱私保護計算技術設計并開發了新框架,使用了具有隱私保護功能的安全聯邦學習(Privacy-preservingSecurityFederatedLearning)方法,整個數據共享的過程從始至終對患者信息進行保護,解決數據共享中存在的隱私安全問題。該框架以強直性脊柱炎作為切入點進行全基因組分析,以識別人類基因組中具有的潛在風險,即識別可能導致強直性脊柱炎的基因型。表6P值最高的單核昔酸多態性列表來源:隱私保護計算服務提供商單核昔酸多態性染色體位置P值exm-rs8863906303349945.00E-17exm-rs28447456303437036.00E-17exm-rs9702706303473065.00E-17rs9702706303473066.50E-17rs25166856303616087.20E-16rs122109476307351059.10E-16exm-rs43277306307809365.00E-15rsl21927046307922707.30E-15exm-rs22548476309338488.20E-15exm-rs16347316309556812.10E-14exm-rs16193766309833265.00E-14exm5295056309934404.20E-13rs28941796310666716.30E-13exm-rs37348546310788364.33E-12exm5296536310792645.20E-11案例中(如表6所示)通過多中心全基因組關聯分析,可得到部分P值最高的單核昔酸多態性數據,進一步以其為基礎生成的曼哈頓圖(如圖13所示)可使得疾病相關的基因變異情況一目了然,為臨床和實驗提供了強有力的理論依據。
18910111213141516171819202C2染色體來源:隱私保護計算服務提供商圖I3全基因組關聯分析結果的曼哈頓圖相較于傳統方案中,需要將數據拷貝移動到授信第三方,且還需面對由于不同機構間的不同隱私保護政策所帶來的合規性挑戰,隱私保護計算平臺支持下的GWAS研究作為兼具隱私保護和跨機構數據共享的技術解決方案,連接多個數據源,實現了數據共享和有效利用(如圖14所示);在研究過程中只交換加密的經過處理中間計算結果,助力數據使用合規性,既保護了各方用戶隱私、商業機密,又打破了數據孤島,還使責任可追溯,讓絕大部分計算在本地完成,有效減少數據冗余(如表7所示)。來源:隱私保護計算服務提供商圖14傳統方案和隱私保護計算平臺技術方案架構對比表7傳統方案和隱私保護計算平臺技術方案性能對比來源:隱私保護計算服務提供商對比項傳統方案隱私保護計算平臺參與方單一參與方或數據匯到一方后分析多方聯盟式合作數據樣本量受限于參與方或單一數據源樣本量多方合作顯著提高樣本規模及維度的豐富程度計算效率受限于單一節點計算效率多方聯邦模式計算,數據并行分析,顯著提高效率計算精度基礎參考標準與傳統技術方案比較均方誤差在10-22?10-28之間數據安全性多方參與時需要數據物理轉移,匯總分析,存在原始數據直接暴露的安全風險數據不出域的情況下完成聯合數據分析,數據“可用不可見”結果安全性計算結果不支持定向發放使用計算結果定向發放使用(5)實踐價值基于隱私保護計算平臺打造的全基因組關聯分析引擎,能滿足GWAS研究所需的超大數據量(GB?TB級數據)、多中心(10+中心)聯合計算的技術要求。通過使用聯邦學習框架,可以在不拷貝和移動原始數據的情況下實現多中心的聯合GWAS研究,避免了傳統數據共享過程中數據管理職責模糊的問題,使數據管理的職責清晰化。此外,部分計算在本地完成,有效減少了數據冗余問題,進一步提高了GWAS研究的計算效率,也有效解決了大數據平臺安全性不足以及各參與機構分享意愿不強烈的痛點。微觀來看,隱私保護計算平臺在此實踐案例中是一個具有創新性的大數據流通共享和利用平臺,不同于其他傳統的大數據系統,該平臺在計算過程中不會泄露敏感的原始數據,充分保護生物醫學隱私數據和醫療機構商業機密。在符合法律法規及相關管理部門監管要求的基礎上,打破數據孤島,建立了跨行業、跨部門、跨主體的安全、可控的大數據聯合分析。宏觀來看,基于隱私保護計算技術的大數據分析管理平臺,不僅在生物醫學研究,在金融保險、商業營銷等行業也具有廣泛的應用前景。不僅可以應用在政府監管部門,也適合行業聯盟、集團企業,在保護隱私安全、商業機密安全以及信息安全基礎上促進數字產業發展,為建設數字中國提供動能。2.基于“安全多方計算+聯邦學習”的DRG付費(1)業務背景近幾年,隨著《關于進一步深化基本醫療保險支付方式改革的指導意見》《關于推進醫療保障基金監管制度體系改革的指導意見》等系列政策的出臺,深化了醫保支付方式的改革,成為促進我國醫療保障制度健康持續發展的重要內容。在系列政策的助力下,作為全球公認較為先進和科學的醫保支付方式之一的“醫療診斷相關分組”(DiagnosisRelatedGroups,DRG)持續受到重視。DRG本質上是一種病例組合分類方案,即根據年齡、疾病診斷、合并癥、并發癥、治療方式、病癥嚴重程度以及轉歸和資源消耗等因素,將患者分入若干診斷組進行管理的體系也傳統醫保費用支付方式是醫保部門按照患者在院的實際費用(即按服務項目)支付給醫療13《國家醫療保障DRG分組與付費技術規范》機構,但在疾病診斷相關組-預付費(DRG-PPS)模式下,醫保部門將根據患者所在診斷相關組的付費標準將費用預給醫療機構,以實現相關組內患者臨床過程的相似,以及資源消耗的相近。傳統方案在傳統方案中,各醫療機構需將患者病例信息按規范匯總至醫保部門,由醫保部門統一進行醫療診斷相關分組,并反饋至醫療機構。但由于醫保部門給予醫療機構的反饋,往往是在醫療機構對患者完成診療之后,導致醫療機構在診療過程中對于患者的分組方法并不明晰,只能根據自身病例數據積累先進行預判,再根據預判進行分組診療。業務痛點單個醫療機構建立模型,準確性不足:由于單個醫院擁有的樣本數量較少,以有限的數據難以進行模型訓練,繼而對分組的準確性產生影響。多個醫療機構建立模型,安全性不足:各醫療機構及行業主管部門都將醫療數據安全作為監管重點,多方聯合建模必要面對數據匯集可能導致的隱私泄露風險。由此,如何在確保各方醫療數據安全的前提下,充分挖掘數據價值,為醫療機構提供科學的參考、為人民群眾就醫提供便利和保障,成為醫保DRG控費亟待解決的關鍵問題。實踐案例在本實踐案例中,通過隱私保護計算服務平臺將多家醫療機構的患者數據進行匯總訓練,在保護患者隱私的前提下,增加患者樣本數量,擴大數據規模,最終獲得了更準確的DRG分類模型,幫助醫療機構進行DRG預測。來源:隱私保護計算服務提供商圖15基于隱私保護計算服務平臺的聯合DRG建模的流程DRG模型訓練(以下簡稱平臺)(如圖15所示)基于隱私保護計算服務平臺的聯邦建模主要包含初始化、數據準備、隱私求交、模型訓練、模型發布、服務集成、服務監控七個環節。初始化:醫療機構A和醫療機構B在本地進行隱私保護計算節點部署,并進行網絡授權和調試,待初始化完成后即開始具體聯合建模項目的運營。數據準備:醫療機構A和醫療機構B將本地樣本數據加載到各自本地隱私保護計算節點上,在平臺上進行對應樣本的數據表結構注冊并授權進入聯合項目。隱私求交6:平臺上選擇兩方注冊授權的數據集合進行隱私求交指令操作,實現兩方樣本數據對齊,形成虛擬寬表(數據存儲表,列為屬性,行為ID)o模型訓練:平臺上針對虛擬寬表進行模型訓練,其中包括數據預處理、特征工程、特征篩選、算法調優以及模型評估,待模型訓練完畢后產出模型評估報告并由聯合項目機構進行線下模型評審,最終完成后即可進入模型服務部署階段。模型發布:機構針對提交的聯合模型各自開發模型需要的對應機構的特征服務,一般以API形式對接本地隱私保護計算節點。完成特征服務后在平臺進行特征定義(即注冊),并將模型與特征綁定后進行發布。服務集成:服務集成在平臺進行操作,主要針對己發布的模型進行出入參配置,以及調用服務流程編排,并進行服務鏈路驗證保證。待上述步驟完成后即可進行服務部署,一般以API形式由服務需求方(比如金融機構的決策系統)進行調用。服務監控:服務正常運行時,平臺提供全鏈路服務監控,用以監控聯合模型服務的調用情況以及運行時模型穩定性情況。兩個醫療機構基于隱私保護計算服務平臺,通過聯邦學習技術實現了數據不出本地,使得數據隱私保護能力有所保障;同時,擴大了模型訓練數據規模,提升了本地DRG模型準確度。(5)實踐價值一、數據概念內涵及價值數據并非新生事物,但是數據的價值釋放需以明確數據、數據價值、數據特征等相關概念為前提。本章嘗試對數據、數據特征和數據價值進行定義,拋磚引玉,以供社會各界參考及討論。(-)數據定義根據《數據安全法》定義,“數據,是指任何以電子或者其他方式對信息的記錄。”該定義在法律層面明確了數據的記錄方式,并將“數據”和“信息”進行區分。國際數據管理協會(DAMA)認為,“數據是以文本、數字、圖形、圖像、聲音和視頻等格式對事實進行的表現”,對“數據”存在的不同形態進行了列舉,且指出“數據”是對事實的表現I標準ISO/IEC11179-1:20152將“數據”定義為“以適合于交流、解釋或處理的形式化方式對信息進行可重新解釋的表示”,該定義強調了“數據”的電子性質,其認為“數據”是對它代表的對象(信息)的解釋;且該解釋方式必須是權威、標準、通用的,只有這樣才可以達到通信、解釋和處理的目的。統計學將“數據”定義為“用于表示和解釋而收集、分析和總結后的客觀事實和數字符號”,并將“數據”分為定性數據和定量數據。根據我國權威科學技術名詞審定機構全國科學技術名詞審定委員會審定,在計算機科學技術中,“數據”是客觀事物的符號表示,指所有可輸入到計算機中并可被計DRG支付模式的優勢一是能夠減少對藥品、耗材、大型建設設備的不合理使用,減少過度醫療,有效降低患者醫療成本、減輕患者經濟負擔;二是提高醫療機構醫療資源利用率,有利于促進醫療服務公開透明,有效規范醫療機構的醫療服務行為,有效提高醫療服務質量;三是醫保基金不超支,助力醫??刭M。DRG支付模式有助于實現醫、保、患三方各自利益達到最大化,建立以患者為中心、使醫保管理部門和醫療機構實現醫保購買談判、財務收支平衡,調動廣大醫務人員的積極性,優化臨床路徑、規范診療行為、提高服務效率,促進醫療衛生事業可持續發展?;陔[私保護計算技術實現的聯合DRG建模方式在患者方面,加強了數據授權和流轉的立法保護和實際落地,保護了患者醫療數據和個人信息的安全性;醫療機構方面,本案例提供了更安全的數據不出本地的共享方式,保障機構數據利益的同時充分釋放了數據價值。(三)政務行業應用案例1.基于電力聯邦學習的城市電動汽車負荷分析與預測(1)業務背景面對全球氣候變暖問題,我國明確在2030年前和2060年前分別實現碳達峰和碳中和。據統計,僅交通行業的碳排放量約占全國總碳排放量的10%左右,其中道路交通在交通全行業碳排放中則高達80%,推動新能源汽車產業發展己成為節能減排的關鍵抓手。根據工信部統計,2020年我國新能源汽車單年度銷量約為130萬臺,與現存充電樁總數相當,新能源汽車與充電樁的保有量比例為3.15:1,遠高于《電動汽車充電基礎設施發展指南》規定的l:lo“公樁難找、私樁難設”是現階段阻礙新能源汽車產業發展的痛點問題。要解決上述問題,亟需研發城市電動汽車負荷分析與預測技術,為開展充配電網協同布局規劃提供技術支撐,實現增量基礎設施優化配置,提升城市充電網的覆蓋率和利用率。傳統方案在傳統電力場景中,負荷、電量等用電數據來源單一,可在電力企業的數據中臺進行匯聚、脫敏、分析和建模。而在電動汽車領域,電動汽車的充電可在公樁、私樁等不同渠道完成,在電動汽車負荷分析與預測場景中,電動汽車的充用電數據由電力公司、私樁個人等多方持有,出于商業利益的考慮和用戶隱私保護等監管約束,往往形成各種數據壁壘。究其原因,一方面,用戶充用電數據是持有機構的高價值資產,出于商業利益的考量,不會輕易對外開放;另一方面,這些數據關乎國家安全、涉及個人隱私,持有機構“不敢、不能”直接對外開放。業務痛點安全事件危害范圍廣,程度重:由于電力網絡存在結構復雜、業務特殊、系統繁多等特性,電力數據面臨嚴峻的安全威脅與挑戰,如若發生盜用、泄露、篡改、刪除等安全事件,不僅會對電力企業自身的業務、信譽和經濟利益造成嚴重損害,甚至可能影響能源供應,導致社會恐慌,威脅國家安全。個人隱私數據高敏感,法律嚴:隨著電動汽車大范圍、高密度的推廣和使用,電動車充用電數據兒乎能夠完整刻畫出用戶的行動軌跡和生活習慣,因此電動車充用電數據也是關乎用戶隱私安全的高敏感個人數據,受到相關法律法規的嚴格保護。數據孤島使數據失真,存隱患:在傳統的電動汽車負荷分析與預測過程中,電動汽車充用電相關數據往往分散在多個主體手中,例如新能源汽車數據、公共充電設施的用電數據、居民充電設施的用電數據等均由不同的機構收集與持有。傳統方式使用單一數據源或高強度脫敏的數據,致使任意一方開展用戶畫像和數據建模時的模型效果不盡如人意,同時也存在巨大的數據安全隱患。綜上所述,如何通過技術手段來解決多方數據的共享問題,是城市電動汽車負荷的跨域分析與精準預測的一個關鍵難點。(4)實踐案例針對以上問題,某科技公司聯合電力公司,利用自主研發的安全計算平臺,集成安全多方計算、聯邦學習等隱私保護計算技術,提供面向配電網協同發展的電力場景安全計算解決方案。通過綜合運用秘密分享、不經意傳輸、同態加密等密碼學手段,提供滿足實際電力業務場景需求的輔助聯邦建模組件,包括安全數據對齊、安全多方統計與分析、聯邦特征工程、聯邦探索性分析、匿蹤查詢等功能;在此基礎上,結合規?;碾妱悠噲鼍?,以上海電動汽車充用電數據為基礎,構建充用電畫像;最后,通過電力聯邦學習算法建立城市電動汽車負荷分析與預測模型:1)城市電動汽車負荷分析:基于橫向電力聯邦學習安全協同建模能力,融合公私充電樁運營數據,對全市充電樁、充電站、充電網進行負荷聚類分析,構建反映充電網的用電畫像。首先,根據實際計算、存儲、網絡等資源條件,在數據持有者之間搭建支持多方安全協同建模的聯邦學習平臺。然后,通過多方協同的特征工程,建立分布式電動汽車負荷畫像,并通過安全相關性分析方法量化評估各畫像特征與充電樁、充電設施、充電網的負荷變化的相關性程度,從而對特征進行關聯排序。最后,通過橫向電力聯邦學習算法建立融合多方同構電動汽車充用電數據的負荷分析模型(如圖16、圖17所示),以充電樁、充電設施、充電網等多級粒度開展電動汽車負荷安全聚類分析,形成充電樁、充電設施、充電網負荷的聚類結果。2)城市電動汽車負荷預測:基于縱向電力聯邦學習安全協同建模能力,融合包含充電樁運營數據在內的電力、經濟、社會、交通、規劃等多源異構數據,以用電畫像特征庫為基礎構建充電網負荷預測模型。首先,建立融合多源異構數據的負荷預測模型,針對充電樁、充電設施、充電網等不同粒度開展電動汽車負荷預測,不同粒度不同分類,使用多種長、短期負荷預測方法構建多方協同數據模型。然后,分析比較各種預測模型的性能,得到適用于各種情況的解決方案。
圖17電動汽車充電總負荷曲線該方案基于聯邦學習的用電預測建模方法,挖掘用電時序數據的局部、全局變化特征,構建兼具線性和非線性擬合能力的用電預測模型,建立電力數據價值和數據安全之間的平衡。其中,短期用電預測模型可用于月末供售電量預測、配電網元件重過載預警、臺區可開放容量計算,為相關專職開展日常工作提供決策支持;中長期用電預測模型可用于預測無重大突發事件影響下的規上工業和一般工商業用電量,助力政府量化評估行業景氣狀況和復工復產狀況。通過實行該方案,成功地支撐了充配電網的協同布局規劃,助力新能源汽車產業發展和營商環境的持續優化(如表8所示)。表8傳統技術方案與安全計算平臺創新方案對比來源:隱私保護計算服務提供商對比項傳統技術方案安全計算平臺創新方案參與方單一電力機構或匯聚于同一中心電力機構分布式、跨域的多個電力機構,無中心機構樣本量單一樣本或脫敏的聚合數據集間接聚合的多源數據樣本,數據樣本更豐富安全性采用腳本或人工脫敏的情況,數據關系被破壞,易遭受單點攻擊數據不轉移不匯集,采用高困難性和復雜度的新型加密和安全計算技術效率受限于單一機構效率多機構并行計算,此外可擴展硬件加速準確性單一數據源導致模型效果不佳海量、高維電力大數據的聚合樣本,顯著提升建模效果審計監管由于機構間系統差異和數據孤島,主要依賴人工審計數據安全開放共享,自動跨域授權,此外分布式的架構可協同區塊鏈進行存證溯源(5)實踐價值安全計算平臺創新方案以“電力數據跨源協同”為核心,提出了集成聯邦學習、安全多方計算等新型隱私保護計算技術的電力場景解決方案,建立開放環境下多主體安全協同建??蚣埽軌蛟谠紨祿怀鲇?、不直接交換的前提下,以不可破解的加密方式實現電力數據的開放共享與多元協同應用,使各數據持有機構之間安全高效地協同使用各方數據,合法合規地進行多源數據協同建模與分析,確保了各方在模型訓練、更新、應用等環節實現“數據不出門,算法滿地跑”,解決了電力場景中數據隱私安全、跨域數據協同應用和數據價值挖掘困難的難題。在此基礎上,該方案通過構建充電樁、充電站、充電網的用電畫像,建立城市電動汽車的負荷分析與預測模型,進一步實現了樣本規模的擴大、特征顯著性的提升、模型預測精度的提高以及對電力數據安全和個人隱私的保障。四、隱私保護計算技術應用困境及建議現階段隱私保護計算技術在金融、醫療、電子政務等領域已有一些落地嘗試。但總體來說,隱私保護計算技術仍處于大規模商業應用的早期,由于技術和解決方案還不夠完全成熟,隱私保護計算在走向市場化、產業化的過程中,仍面臨諸多挑戰,需多方精誠協作。“徒善不足以為政,徒法不能以自行?!狈ㄒ幹贫鹊纳υ谟趫绦?。在我國日臻完善的數據安全治理體系下,《數據安全法》《個人信息保護法》強調了在兼顧安全的基礎上,鼓勵依法合理有效利用數據和個人信息?!督鹑诳萍及l展規劃(2019-2021)》《中國一體化大數據中心協同創新體系算力樞紐實施方案》《網絡安全產業高質量發展三年行動計劃(2021-2023年)(征求意見稿)》等相關政策文件中,也提及強化安全多方計算、聯邦學習、機密計算等技術的研究攻關和部署應用,促進數據要素安全有序流動。那么,如何合規地使用隱私保護計算技術,建立安全合規與正當商業利用相平衡的制度框架,亟需對除法律之外的行政法規、部門規章、準則、指南等“軟性”措施進行細化、優化,強化與法律之間的銜接,為依法合理有效釋放數據要素價值奠定基礎。“欲知平直,則必準繩?!碑斍皣@隱私保護計算已開展一系列的標準化工作,但由于技術路線豐富、場景強相關、輕量化與定制化無法兼得、安全性不統一等問題,尚未形成兼顧權威性、適用性、科學性的標準。隱私保護計算的標準化工作,不僅包含標準制定,更需注重標準的實施效果。建議立足市場
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 年產300萬只汽車前大燈智項目初步設計(范文參考)
- 年產20萬噸本色漿替代廢紙漿項目可行性研究報告(參考模板)
- 納米銀導電膜建設項目可行性研究報告(模板范文)
- 煤基高端新材料項目實施方案
- 老舊小區加裝電梯項目可行性研究報告(模板)
- 老舊橋梁加固工程實施方案(僅供參考)
- 焦爐余熱利用裝置改造項目可行性研究報告
- 環保型植保產品建設項目實施方案
- 海洋科技創新的戰略規劃與路徑
- 工業園區標準化廠房建設項目實施方案
- 合伙養牛合同協議書
- 2025屆廣西邕衡教育名校聯盟高三下學期新高考5月全真模擬聯合測試數學試題及答案
- 2025羽毛球場館租賃合同
- 線上陪玩店合同協議
- (二模)貴陽市2025年高三年級適應性考試(二)英語試卷(含答案)
- 蓉城小史官考試試題及答案
- 河南省安陽市新鄉市2025屆高三三模語文試題(含答案)
- 2025-2030中國無損檢測(NDT)行業發展現狀與前景預測研究報告
- 現代農業產業園協議合同
- 2024年全球及中國互聯網輿情監測系統行業頭部企業市場占有率及排名調研報告
- GB/T 196-2025普通螺紋基本尺寸
評論
0/150
提交評論