計算廣告學 課件 第四章 計算廣告數據脫敏_第1頁
計算廣告學 課件 第四章 計算廣告數據脫敏_第2頁
計算廣告學 課件 第四章 計算廣告數據脫敏_第3頁
計算廣告學 課件 第四章 計算廣告數據脫敏_第4頁
計算廣告學 課件 第四章 計算廣告數據脫敏_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據脫敏計算廣告DataDesensitization第四章目錄基本內涵BASICCONNOTATION常用技術COMMONLYUSEDTECHNIQUES數據共享DATASHARING01基本內涵數據脫敏數據脫敏是指在不影響數據分析結果準確性的前提下,對原始數據中的敏感字段進行處理,從而降低數據敏感度、減少個人隱私風險。數據加密數據加密就是利用密碼技術對數據進行可逆的數學變化以隱藏信息的行為。加密技術分為對稱加密與非對稱加密兩種類型。由于數據脫敏和匿名化需要防止重識別,所以僅靠加密工具不能實現匿名化。數據假名化假名化是通過生成新的字符(假名)來替代原標識符(通常為直接標識符)的數據處理方式,使得個人信息控制者在不借助額外信息情況下無法識別出個人信息主體。常用的假名生成技術包括帶密鑰加密、哈希函帶密鑰的哈希函數等。相關概念數據性質去標識化處理后的信息仍然屬于個人信息,其是以電子或者其他方式記錄的與已識別或者可識別的自然人有關的各種信息,不包括匿名化處理后的信息。目標對直接標識符和準標識符進行刪除或變換,避免攻擊者根據這些屬性直接識別或者結合其他信息識別出原始個人信息主體;控制重標識的風險;確保去標識化后的數據集盡量達到其預期的用途。原則合規原則、個人信息安全保護優先原則、技術和管理相結合原則、充分應用軟件工具原則、持續改進原則。數據去標識化對直接標識符進行脫敏處理,比如將直接標識符假名化、加密、抑制或者屏蔽等。脫敏處理匿名化是指個人信息經過處理后無法識別特定自然人且不能復原的過程。對間接標識符進行泛化或者隨機化。泛化或者隨機化的程度越高,安全性就越高,但是數據的可用性也就越低。泛化或隨機化常見的重識別方法包括隔離、關聯和推斷。重識別攻擊行為包括:(1)重識別一條屬于一個特定個人信息主體的記錄;(2)重識別一條特定記錄的個人信息主體;(3)盡可能多地將記錄和其對應的個人信息主體關聯;(4)判定一個特定的個人信息主體在數據集中是否存在;(5)推斷一組和其他屬性關聯的敏感屬性。評估重識別風險隨著時間推移,重識別技術和攻擊者的重識別能力都在變化,因此需要定期進行重標識風險評估,并與可接受的風險閾值進行比較。跟蹤匿名化效果數據匿名化靜態數據脫敏是對數據進行“搬移并仿真替換”,是將數據進行脫敏處理后,下發給下游環節取用和讀寫。是在數據存儲時脫敏,存儲的是脫敏數據,一般用在非生產環境。靜態數據脫敏動態數據脫敏,即在訪問敏感數據的同時進行脫敏處理,可以為不同角色、不同權限、不同數據類型執行不同的脫敏方案,從而確保返回的數據可用且安全,一般用在生產環境。動態數據脫敏數據脫敏類型靜態數據脫敏主要用于將數據抽離生產環境并進行分發和共享的數據使用場景;動態數據脫敏主要用于直接訪問生產數據的場景。使用場景區別靜態數據脫敏技術一般是通過變形、替換、屏蔽、保留格式加密等算法實現,實際已經改變了源數據的內容;動態數據脫敏通過改寫查詢SQL或攔截等方式實現,實際上未對源數據的內容作任何改變。技術路線區別靜態數據脫敏可將脫敏設備部署于生產環境與測試、開發、共享環境之間;動態數據脫敏采用代理部署方式:物理旁路或邏輯串聯。部署方式區別數據脫敏兩種類型區別數據替換方法無效化方法隨機置亂方法數據替換法是將敏感字段隨機替換,如將字母變為隨機字母,數字變為隨機數字,文字變為隨機文字,從而遮蔽敏感數據。在計算廣告中,數據替換方法可以應用于虛擬用戶生成數據。無效化方法通過對字段數據值進行截斷、加密、掩碼等方式讓敏感數據脫敏。這種隱藏敏感數據的方法簡單,但缺點是用戶無法得知原數據的格式。隨機擾動技術是一種常用的無效化方法。隨機置亂方法對敏感數據列的值進行重新隨機分布,混淆原有值和其他字段的聯系。這種方法不影響原有數據的統計特性,最大、最小、方差等均與原數據列無異。數據脫敏方法均值統計方法對稱加密方法隨機置亂方法均值統計方法經常用于統計場景,針對數值型數據,先計算均值,然后使脫敏后的值在均值附近隨機分布,從而保持數據的總和不變,通常用于產品成本表、工資表等場合。對稱加密方法是一種采用單鑰密碼系統的加密方法,發送方和接收方使用相同的密鑰,這個密鑰既可用于加密原始數據,也可用于解密加密后的數據。這種方法通過隨機移位改變原始數據。偏移取整在保證數據安全性的同時保證范圍的大致真實性,比前面的方法更接近真實數據,在大數據分析場景中意義比較大。數據脫敏方法數據脫敏前后必須保持原有的數據特征。數據特征一致性數據脫敏不僅要抹去數據中的敏感內容,同時也需要保持原有的數據特征、業務規則和數據關聯性,保證各類業務不受脫敏的影響,保證脫敏前后數據的一致性和有效性。數據和數據的關系要保持一致。數據關系一致性數據脫敏后數據關聯性以及業務語義等保持不變。數據關聯性包括:主外鍵關聯性、關聯字段的業務語義關聯性等。業務規則關聯性相同的數據進行多次脫敏,或者在不同的測試系統進行脫敏,需要保證每次脫敏后的數據具有一致性。多次脫敏一致性數據脫敏要求02常用技術統計技術統計技術是指收集、整理、分析和解釋統計數據,并對其所反映的問題給出結論的技術方法。數據抽樣需根據數據集的特點和預期的使用場景來選擇;經常用于數據脫敏的預處理;可以簡化對數據集的計算量。數據聚合可能會降低數據的有用性;對抗重標識攻擊非常有效;某些保留格式加密具有確定性加密技術的特點;適用于多種格式的數據;在給定有限符號集的情況下密可以保證加密后的數據具有與原始數據相同的格式和長度。保留格式加密技術密文排序與明文排序相同;在有限的范圍內保證加密結果在統計處理、隱私防挖掘、數據外包存儲與處理等場景中的有用性;完全重標識僅可能適用于擁有密鑰的一方。保序加密技術保證數據真實可用;保證數據在統計處理、隱私防挖掘方面的有用性;對確定性加密的重標識攻擊主要是不具備密鑰使用權時的攻擊;關聯性攻擊可能針對采用同一密鑰進行確定性加密的密文。確定性加密技術同態加密技術允許在加密狀態下進行計算操作而無需解密數據,用這種技術進行數據脫敏時,對加密數據進行處理的過程不會泄露任何原始內容。同態加密技術同態秘密共享可將一個秘密拆分為“若干份額”,可利用拆分后秘密信息的特定子集來重構原始的秘密。同態秘密共享技術密碼技術屏蔽技術屏蔽技術是一種基線數據脫敏技術,包括從數據集中刪除所有直接標識符,并盡可能剝離數據集中所有記錄的部分或全部剩余標識符。包括部分數據移除、數據隔離和數據限制。局部抑制技術局部抑制技術是從所選記錄中刪除與其他標識符結合使用可以識別出相關個人信息主體的特定屬性值。記錄抑制技術“記錄抑制”是一種從數據集中刪除整個記錄或一些記錄的數據脫敏技術,需要與其它數據脫敏技術相結合以降低數據的重標識風險。抑制技術假名化技術假名化技術是通過生成新的字符(假名)替換原標識符(通常為直接標識符)的數據脫敏技術。獨立于標識符獨立于標識符的假名創建技術不依賴被替代的原始屬性值,而是獨立生成,典型方法為用隨機值代替原始屬性值。基于密碼技術基于密碼技術的標識符派生假名創建技術通過對屬性原始值采用加密或散列等密碼技術生成假名。其中加密技術生成的假名可以用合適的密鑰及對應的算法解密,而散列技術則是一種單向的數學運算。泛化技術泛化技術是指一種降低數據集中所選屬性粒度的數據脫敏技術,是對數據進行更概括、抽象的描述。取整技術取整技術為所選的屬性選定一個取整基數,然后將每個值向上或向下取整至最接近取整基數的倍數。向上還是向下取整按概率確定,該概率值取決于觀察值與最接近取整基數倍數的接近程度。頂層與底層編碼技術泛化技術為某一屬性設定一個可能的最大(或最小)閾值。頂層與底層編碼技術使用表示頂層(或底層)的閾值替換高于(或低于)該閾值的值,該技術適用于連續或分類有序的屬性。噪聲添加技術噪聲添加技術通過把“隨機噪聲”添加到所選的連續屬性值中,同時盡可能保持該屬性在數據集中的原始統計特性。可以應用于廣告點擊率預測。置換技術置換技術是表達式在不直接修改屬性值表達式的情況下對數據集記錄中所選屬性的值進行重新排序的一種技術,它保持了整個數據集中所選屬性的準確統計分布,適用于數字與非數字值。微聚集技術“微聚集”是指用某種算法方式計算出來的平均值代替連續屬性所有值的數據脫敏技術。每一種屬性的新值是由該屬性所在組中的平均值替換得來的。可用來精細化用戶定向投放。隨機化技術03數據共享脫敏數據共享主體脫敏數據共享主體包括脫敏數據提供方、脫敏數據接收方和脫敏數據計算方。脫敏數據共享服務主體脫敏數據共享服務主體包括平臺方、安全方和評估方。脫敏數據共享支持主體脫敏數據共享支持主體包括監督方和技術方。數據脫敏共享參與機構數據預處理包括進行數據標記、匹配數據內容、形成脫敏數據三個方面的內容。共享評估包括形成多維評估因子、形成定性評估結論、形成評估報告三個步驟。脫敏數據共享基本流程源自提供方的風險及其識別與控制風險數據來源不明或未經同意輸出個人相關數據。識別與控制要求提供方清晰數據源頭;區分數據形成方式;區分數據輸出形式;預先進行相應數據共享評估。源自計算方的風險及其識別與控制風險委托處理的數據在傳輸或存儲時可能被泄漏;可能未獲得委托方的再許可,而向他方提供數據;由于缺乏與信息主體的接觸場景,無法獲得真實有效的同意。識別與控制傳輸存儲脫敏數據,輔以安全適當的技術手段、組織措施;計算方必須有委托方的真實合法授權,再提供需獨立授權;委托計算的數據應為脫敏數據;計算成果數據的再提供,應遵循提供方要求而進行;預先進行相應數據的共享評估。源自接收方的風險及其識別與控制風險是否獲得信息主體的同意。處理個人相關數據是否合法、正當、必要。使用個人信息是否符合個人信息保護相關法律法規的規定。可能未獲得提供方的許可,而向他方提供數據。識別與控制檢查接收方業務資質;細分接收方數據處理應用目的;細分接收方數據的應用場景;對數據進行分級、分類、分層;細分接收方獲得信息主體對其相關數據處理應用的同意的方式方法;預先進行數據共享評估。源自數據重標識的風險及其識別與控制風險脫敏數據經重標識后,重新成為包含個人信息的數據。被無關方獲取后重標識。與其他數據(集)匯聚后重新識別出個人信息主體。識別與控制選擇適當的數據處理與脫敏技術;利用數據共享域“受控重標識”功能,區分并控制重標識的情形;預先開展數據共享評估。源自數據敏感性的風險及其識別與控制個人敏感數據共享可能給信息主體權利、人身財產安全帶來風險;法律法規禁止、限制共享的其他敏感數據進入共享可能給國家安全、公共安全帶來風險。因此,要區分場景,與應用無關的個人敏感數據不得共享,法律法規規定的其他敏感數據禁止共享。源自身份識別性的風險及其識別與控制數據如若包含身份信息(標識)或直接與身份信息(標識)關聯的信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論