




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.wd大數(shù)據(jù)隱私保護(hù)技術(shù)之脫敏技術(shù)數(shù)據(jù)平安是信息平安的重要一環(huán)。當(dāng)前,對(duì)數(shù)據(jù)平安的防護(hù)手段包括對(duì)稱/非對(duì)稱加密、數(shù)據(jù)脫敏、同態(tài)加密、訪問(wèn)控制、平安審計(jì)和備份恢復(fù)等。他們對(duì)數(shù)據(jù)的保護(hù)各自有各自的特點(diǎn)和作用,今天我主要說(shuō)數(shù)據(jù)脫敏這一防護(hù)手段。 佚名來(lái)源:FreeBuf|2021-11-22 09:40 收藏 分享前言這幾天學(xué)校開(kāi)場(chǎng)選畢業(yè)設(shè)計(jì),選到了數(shù)據(jù)脫敏系統(tǒng)設(shè)計(jì)的題目,在閱讀了該方面的相關(guān)論文之后,感覺(jué)對(duì)大數(shù)據(jù)平安有了不少新的理解。介紹隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)中蘊(yùn)藏的巨大價(jià)值得以挖掘,同時(shí)也帶來(lái)了隱私信息保護(hù)方面的難題,即如何在實(shí)現(xiàn)大數(shù)據(jù)高效共享的同時(shí),保護(hù)敏
2、感信息不被泄露。數(shù)據(jù)平安是信息平安的重要一環(huán)。當(dāng)前,對(duì)數(shù)據(jù)平安的防護(hù)手段包括對(duì)稱/非對(duì)稱加密、數(shù)據(jù)脫敏、同態(tài)加密、訪問(wèn)控制、平安審計(jì)和備份恢復(fù)等。他們對(duì)數(shù)據(jù)的保護(hù)各自有各自的特點(diǎn)和作用,今天我主要說(shuō)數(shù)據(jù)脫敏這一防護(hù)手段。許多組織在他們例行拷貝敏感數(shù)據(jù)或者常規(guī)生產(chǎn)數(shù)據(jù)到非生產(chǎn)環(huán)境中時(shí)會(huì)不經(jīng)意的泄露信息。例如:1.大局部公司將生產(chǎn)數(shù)據(jù)拷貝到測(cè)試和開(kāi)發(fā)環(huán)境中來(lái)允許系統(tǒng)管理員來(lái)測(cè)試升級(jí),更新和修復(fù)。2.在商業(yè)上保持競(jìng)爭(zhēng)力需要新的和改良后的功能。結(jié)果是應(yīng)用程序的開(kāi)發(fā)者需要一個(gè)環(huán)境仿真來(lái)測(cè)試新功能從而確保已經(jīng)存在的功能沒(méi)有被破壞。3.零售商將各個(gè)銷售點(diǎn)的銷售數(shù)據(jù)與市場(chǎng)調(diào)查員分享,從而分析顧客們的購(gòu)物模式。
3、4.藥物或者醫(yī)療組織向調(diào)查員分享病人的數(shù)據(jù)來(lái)評(píng)估診斷效果和藥物療效。結(jié)果他們拷貝到非生產(chǎn)環(huán)境中的數(shù)據(jù)就變成了黑客們的目標(biāo),非常容易被竊取或者泄露,從而造成難以挽回的損失。數(shù)據(jù)脫敏就是對(duì)某些敏感信息通過(guò)脫敏規(guī)那么進(jìn)展數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。在涉及客戶平安數(shù)據(jù)或者一些商業(yè)性敏感數(shù)據(jù)的情況下,在不違反系統(tǒng)規(guī)那么條件下,對(duì)真實(shí)數(shù)據(jù)進(jìn)展改造并提供測(cè)試使用,如身份證號(hào)、手機(jī)號(hào)、卡號(hào)、客戶號(hào)等個(gè)人信息都需要進(jìn)展數(shù)據(jù)脫敏。數(shù)據(jù)脫敏系統(tǒng)設(shè)計(jì)的難點(diǎn)許多公司頁(yè)考慮到了這種威脅并且馬上著手來(lái)處理。簡(jiǎn)單的將敏感信息從非生產(chǎn)環(huán)境中移除看起來(lái)很容易,但是在很多方面還是很有挑戰(zhàn)的。首先遇到的問(wèn)題就是如何識(shí)別敏
4、感數(shù)據(jù),敏感數(shù)據(jù)的定義是什么?有哪些依賴?應(yīng)用程序是十分復(fù)雜并且完整的。知道敏感信息在哪并且知道哪些數(shù)據(jù)參考了這些敏感數(shù)據(jù)是非常困難的。敏感信息字段的名稱、敏感級(jí)別、字段類型、字段長(zhǎng)度、賦值標(biāo)準(zhǔn)等內(nèi)容在這一過(guò)程中明確,用于下面脫敏策略制定的依據(jù)。一旦敏感信息被確認(rèn),在保持應(yīng)用程序完整性的同時(shí)進(jìn)展脫敏的方法就是最重要的了。簡(jiǎn)單地修改數(shù)值可能會(huì)中斷正在測(cè)試,開(kāi)發(fā)或升級(jí)的應(yīng)用程序。例如遮擋客戶地址的一局部,可能會(huì)使應(yīng)用程序變得不可用,開(kāi)發(fā)或測(cè)試變得不可靠。脫敏的過(guò)程就是一個(gè)在平安性和可用性之間平衡的過(guò)程。平安性是0%的系統(tǒng)中,數(shù)據(jù)不需要進(jìn)展脫敏,數(shù)據(jù)庫(kù)中都是原來(lái)的數(shù)據(jù),可用性當(dāng)然是100%;平安性是
5、100%的系統(tǒng)中,大概所有的數(shù)據(jù)全都存一個(gè)一樣的常量才能實(shí)現(xiàn)。所以需要選擇或設(shè)計(jì)一種既能滿足第三方的要求,又能保證平安性的算法就變得特別重要了。選定了敏感數(shù)據(jù)和要施加的算法,剩下的就是如何實(shí)現(xiàn)了,在什么過(guò)程中進(jìn)展脫敏呢?難題的解決方案1.如何識(shí)別敏感數(shù)據(jù)現(xiàn)在有兩種方式來(lái)識(shí)別敏感數(shù)據(jù)。第一種是通過(guò)人工指定,比方通過(guò)正那么來(lái)指定敏感數(shù)據(jù)的格式,Oracle公司開(kāi)發(fā)的Oracle Data Masking Pack中就使用了這一種方法來(lái)指定。第二種方式就是自動(dòng)識(shí)別了,在文獻(xiàn)2中,作者給出了基于數(shù)據(jù)特征學(xué)習(xí)以及自然語(yǔ)言處理等技術(shù)進(jìn)展敏感數(shù)據(jù)識(shí)別的自動(dòng)識(shí)別方案(沒(méi)有具體的實(shí)現(xiàn),只提出了模型)。具體的實(shí)現(xiàn)
6、在gayhub上找了一個(gè)java實(shí)現(xiàn)的工程,chlorine-finder,看了下源碼具體原理是通過(guò)提前預(yù)置的規(guī)那么來(lái)識(shí)別一些常見(jiàn)的敏感數(shù)據(jù),比方信用卡號(hào),SSN, 手機(jī)號(hào),電子郵箱,IP地址,住址等.2.使用怎樣的數(shù)據(jù)脫敏算法在比擬常見(jiàn)的數(shù)據(jù)脫敏系統(tǒng)中,算法的選擇一般是通過(guò)手工指定,像Oracal的數(shù)據(jù)脫敏包中就預(yù)設(shè)了關(guān)于信用卡的數(shù)據(jù)選擇什么算法進(jìn)展處理,關(guān)于 的數(shù)據(jù)怎么處理,用戶也可以進(jìn)展自定義的配置。脫敏方法現(xiàn)在有很多種,比方k-匿名,L多樣性,數(shù)據(jù)抑制,數(shù)據(jù)擾動(dòng),差分隱私等。k-匿名:匿名化原那么是為了解決鏈接攻擊所造成的隱私泄露問(wèn)題而提出的。鏈接攻擊是這樣的,一般企業(yè)因?yàn)槟承┰蚬_(kāi)
7、的數(shù)據(jù)都會(huì)進(jìn)展簡(jiǎn)單的處理,比方刪除姓名這一列,但是如果攻擊者通過(guò)對(duì)發(fā)布的數(shù)據(jù)和其他渠道獲得的信息進(jìn)展鏈接操作,就可以推理出隱私數(shù)據(jù)。k-匿名是數(shù)據(jù)發(fā)布時(shí)保護(hù)私有信息的一種重要方法。 k-匿名技術(shù)是1998 年由Samarati和Sweeney提出的 ,它要求發(fā)布的數(shù)據(jù)中存在至少為k的在準(zhǔn)標(biāo)識(shí)符上不可區(qū)分的記錄,使攻擊者不能判別出隱私信息所屬的具體個(gè)體,從而保護(hù)了個(gè)人隱私, k-匿名通過(guò)參數(shù)k指定用戶可承受的最大信息泄露風(fēng)險(xiǎn)。但容易遭受同質(zhì)性攻擊和背景知識(shí)攻擊。L-多樣性L多樣性是在k-匿名的根底上提出的,外加了一個(gè)條件就是同一等價(jià)類中的記錄至少有L個(gè)“較好表現(xiàn)的值,使得隱私泄露風(fēng)險(xiǎn)不超過(guò) 1/
8、L,較好表現(xiàn)“的意思有多種設(shè)計(jì),比方這幾個(gè)值不同,或者信息熵至少為logL等等.但容易收到相似性攻擊。數(shù)據(jù)抑制數(shù)據(jù)抑制又稱為隱匿,是指用最一般化的值取代原始屬性值,在k-匿名化中,假設(shè)無(wú)法滿足k-匿名要求,那么一般采取抑制操作,被抑制的值要不從數(shù)據(jù)表中刪除,要不相應(yīng)屬性值用“ * 表示。1. >>> s = "CREDITCARD">>> s-4:.rjust(len(s), "*")'*CARD'數(shù)據(jù)擾動(dòng)數(shù)據(jù)擾動(dòng)是通過(guò)對(duì)數(shù)據(jù)的擾動(dòng)變形使數(shù)據(jù)變得模糊來(lái)隱
9、藏敏感的數(shù)據(jù)或規(guī)那么,即將數(shù)據(jù)庫(kù) D 變形為一個(gè)新的數(shù)據(jù)庫(kù) D 以供研究者或企業(yè)查詢使用,這樣諸如個(gè)人信 息等敏感的信息就不會(huì)被泄露。通常,D 會(huì)和 D 很相似,從 D 中可以挖掘出和 D 一樣的信息。這種方法通過(guò)修改原始數(shù)據(jù),使得敏感性信息不能與初始的對(duì)象聯(lián)系起來(lái)或使得敏感性信息不復(fù)存在,但數(shù)據(jù)對(duì)分析依然有效。Python中可以使用faker庫(kù)來(lái)進(jìn)展數(shù)據(jù)的模擬和偽造。1. from faker import Factory 2. fake = Factory.create() 3. fake.country_code()#
10、 'GE'fake.city_name()# '貴陽(yáng)'fake.street_address()# '督路l座'fake.address()# '輝市哈路b座 176955'fake.state()# '南溪區(qū)'fake.longitude()# Decimal('-163.645749')fake.geo_coordinate(center=None, radius=0.001)# Decimal('
11、90.252375')fake.city_suffix()# '市'fake.latitude()# Decimal('-4.0682855')fake.postcode()# '353686'fake.building_number()# 'o座'fake.country()# '維爾京群島'fake.street_name()# '姜路'相關(guān)技術(shù)有:一般化與刪除,隨機(jī)化,數(shù)據(jù)重構(gòu),數(shù)據(jù)凈化,阻礙,抽樣等。差分隱私差分隱私應(yīng)該是現(xiàn)在比擬火的一種隱私保護(hù)技術(shù)了,是基于數(shù)據(jù)失真的隱私保護(hù)技術(shù),采用添加噪聲的技術(shù)使敏感數(shù)據(jù)失真但同時(shí)保持某些數(shù)據(jù)或數(shù)據(jù)屬性不變,要求保證處理后的數(shù)據(jù)仍然可以保持某些統(tǒng)計(jì)方 面的性質(zhì),以便進(jìn)展數(shù)據(jù)挖掘等操作。差分隱私保護(hù)可以保證,在數(shù)據(jù)集中添加或刪除一條數(shù)據(jù)不會(huì)影響到查詢輸出結(jié)果,因此即使在最壞情況下,攻擊者除一條記錄之外的所有敏感數(shù)據(jù),仍可以保證這一條記錄的敏感信息不會(huì)被泄露。想要體驗(yàn)的同學(xué)可以去Havard的Differential Privacy實(shí)驗(yàn)室,他們做了一個(gè)DP的原型實(shí)現(xiàn).想要詳細(xì)了解的同學(xué)可以看一下知乎上的這個(gè)問(wèn)題 <點(diǎn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 禽類屠宰行業(yè)安全生產(chǎn)管理考核試卷
- 漁業(yè)機(jī)械化養(yǎng)殖機(jī)械化與養(yǎng)殖設(shè)備維護(hù)與管理考試考核試卷
- 空間站用紡織品考核試卷
- 糖果企業(yè)市場(chǎng)推廣與廣告策略考核試卷
- 礦山機(jī)械出口策略與全球市場(chǎng)布局考核試卷
- 電力系統(tǒng)電力系統(tǒng)繼電保護(hù)配置考核試卷
- 箱包企業(yè)社會(huì)責(zé)任實(shí)踐考核試卷
- 稀土金屬在稀土醫(yī)療材料中的應(yīng)用考核試卷
- 遼寧工程職業(yè)學(xué)院《流體力學(xué)及其工程應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇省蘇州市第三中學(xué)2024-2025學(xué)年秋初三下學(xué)期期末測(cè)試卷化學(xué)試題(一診康德卷)(高清版)含解析
- 2025年有關(guān)“我為群眾辦實(shí)事”主題日活動(dòng)工作方案
- 2025中國(guó)新型儲(chǔ)能行業(yè)發(fā)展白皮書(shū)
- 油氣管道輸送試題及答案
- 海南省天一大聯(lián)考2024-2025學(xué)年高三學(xué)業(yè)水平診斷(四)語(yǔ)文試題及答案
- 旅游合同簽署委托協(xié)議
- 山東司法警官職業(yè)學(xué)院招聘筆試真題2024
- 2025-2030中國(guó)非鄰苯二甲酸酯類增塑劑行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
- 2025年臺(tái)球理論測(cè)試題及答案
- 加油站現(xiàn)場(chǎng)服務(wù)提升方案
- 絕緣搖表培訓(xùn)
- 保險(xiǎn)合規(guī)知識(shí)培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論