T-CSAC 007-2024 隱私計算 脫敏算法能力評估技術(shù)要求_第1頁
T-CSAC 007-2024 隱私計算 脫敏算法能力評估技術(shù)要求_第2頁
T-CSAC 007-2024 隱私計算 脫敏算法能力評估技術(shù)要求_第3頁
T-CSAC 007-2024 隱私計算 脫敏算法能力評估技術(shù)要求_第4頁
T-CSAC 007-2024 隱私計算 脫敏算法能力評估技術(shù)要求_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

CCSL80T/CSACPrivacycomputing:Technicalrequirementsfordesensitizationalgorithmcapab中國網(wǎng)絡(luò)空間安全協(xié)會發(fā)布T/CSAC007—2024前言 12規(guī)范性引用文件 13術(shù)語和定義 14概述 44.1脫敏算法能力評估的目的 44.2脫敏算法能力評估的基本原則 44.3脫敏算法能力評估的使用 45脫敏算法分類 45.1脫敏算法分類概述 45.2基于擾動技術(shù)的脫敏算法 45.3基于泛化技術(shù)的脫敏算法 55.4基于匿名技術(shù)的脫敏算法 55.5基于置換技術(shù)的脫敏算法 56脫敏算法能力評估指標(biāo)體系 56.1脫敏算法能力評估指標(biāo)體系概述 56.2可逆性評估指標(biāo) 66.3信息偏差性評估指標(biāo) 66.4信息損失性評估指標(biāo) 66.5復(fù)雜性評估指標(biāo) 76.6算法能力綜合評估指標(biāo) 87脫敏算法能力評估通用技術(shù)要求 87.1脫敏算法可逆性評估 87.2脫敏算法信息偏差性評估 87.3脫敏算法信息損失性評估 97.4脫敏算法復(fù)雜性評估 9附錄A(資料性)脫敏算法能力評估示例 10A.1概述 A.2脫敏算法評估維度權(quán)重確定 A.3敏感信息屬性確定 A.4評估指標(biāo)選定 A.5可逆性評估 A.6信息偏差性評估 A.7信息損失性評估 A.8復(fù)雜性評估 T/CSAC007—2024A.9評估報告生成 附錄B(資料性)脫敏算法分類示例 13B.1概述 B.2基于擾動技術(shù)的脫敏算法 B.3基于泛化技術(shù)的脫敏算法 B.4基于匿名技術(shù)的脫敏算法 B.5基于置換技術(shù)的脫敏算法 附錄C(資料性)可逆性的計算方法 19C.1概述 C.2逆向映射 C.3字典攻擊 C.4統(tǒng)計分析 C.5機器學(xué)習(xí)攻擊 附錄D(資料性)信息偏差性的計算方法 20D.1概述 D.2均方誤差 D.3均絕對誤差 D.4Kullback-Leibler散度 20D.5歐氏距離的計算方法 D.6余弦距離的計算方法 D.7峰值信噪比 D.8結(jié)構(gòu)相似性指數(shù) D.9平均數(shù) D.10中位數(shù) D.11標(biāo)準(zhǔn)差 D.12方差 D.13最大值 D.14最小值 附錄E(資料性)信息損失性的計算方法 24E.1概述 E.2信息熵的計算方法 附錄F(資料性)復(fù)雜性的計算方法 25F.1概述 F.2時間復(fù)雜度的計算方法 F.3空間復(fù)雜度的計算方法 附錄G(資料性)脫敏算法能力評估報告要求 26G.1形成評估報告的目的 G.2評估報告的組成內(nèi)容 G.3評估項目概述組成內(nèi)容 IIIT/CSAC007—2024G.4評估指標(biāo) G.5單項評估結(jié)果分析 G.6整體評估組成內(nèi)容 G.7等級評估結(jié)論組成內(nèi)容 G.8脫敏算法能力評估報告示例 參考文獻 IVT/CSAC007—2024本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》給出的規(guī)則起草。請注意本文件的某些內(nèi)容可能涉及專利,本文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由中國網(wǎng)絡(luò)空間安全協(xié)會提出并歸口。本文件起草單位:西安電子科技大學(xué)、中國科學(xué)院信息工程研究所、中國網(wǎng)絡(luò)安全審查認(rèn)證和市場監(jiān)管大數(shù)據(jù)中心、北京理工大學(xué)、四川昊華銳恒科技有限公司、上海交通大學(xué)、海南大學(xué)、成都西電網(wǎng)絡(luò)安全研究院、長春吉大正元信息技術(shù)股份有限公司、國網(wǎng)上海研究院、航天信息股份有限公司、普華永道商務(wù)咨詢(上海)有限公司、中移(杭州)信息技術(shù)有限公司。本文件主要起草人:朱輝、李鳳華、李暉、張玲翠、牛犇、宋祁朋、崔琦、閆小良、趙興文、聶智戈、徐倩華、蔣芃、崔艷鵬、邱衛(wèi)東、曹春杰、陳科名、吳裔、王杰斌、馬馳、唐鵬、郭禎、倪華軍。1T/CSAC007—2024隱私計算脫敏算法能力評估技術(shù)要求本文件描述了脫敏算法能力評估的目的、基本原則和使用情況,給出了脫敏算法能力評估的通用技術(shù)要求,規(guī)定脫敏算法的分類、能力評估指標(biāo)體系、可逆性評估、信息偏差性評估、損失性評估和復(fù)雜性評估等內(nèi)容。本文件適用于規(guī)范各類組織的隱私信息脫敏處理活動,也適用于互聯(lián)網(wǎng)、通信、金融、醫(yī)療、物流、交通、教育、文旅和公共服務(wù)等領(lǐng)域的機構(gòu)為主體的個人信息處理者,以及個人信息保護產(chǎn)品提供商、產(chǎn)品評測機構(gòu)、個人信息保護合規(guī)審計評估機構(gòu)、審查認(rèn)證機構(gòu)等組織對隱私信息脫敏處理活動進行監(jiān)督、管理和評估提供參考。2規(guī)范性引用文件本文件引述下列文件中的部分內(nèi)容。下列文件中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本指南;不注日期的引用文件,其最新版本適用于本指南。GB/T25069-2022信息安全技術(shù)術(shù)語GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范GB/T37964-2019信息安全技術(shù)個人信息去標(biāo)識化指南GB/T37988-2019信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型T/CSAC005—2024隱私計算總體框架T/CSAC006—2024隱私計算脫敏控制技術(shù)要求3術(shù)語和定義GB/T25069-2022和GB/T35273-2020界定的以及下列術(shù)語和定義適用于本文件。3.1個人信息personalinformation以電子或者其他方式記錄的能夠單獨或者與其他信息結(jié)合識別特定自然人身份或者反映特定自然人活動情況的各種信息,包含個人信息本身及其衍生信息,不包括匿名化處理后的信息。[來源:GB/T44588—2024,3.3,有修改]3.2標(biāo)識符identity可以明顯識別記錄主體身份的屬性集合,包括姓名、電話號碼、身份證號碼等信息。[來源:T/CSAC005—2024,3.2]3.3組合起來可以識別記錄主體身份的屬性集合,包括年齡、性別、郵編等信息。[來源:T/CSAC005—2024,3.3]2T/CSAC007—20243.4敏感個人信息sensitivepersonalinformation一旦泄露或者非法使用,容易導(dǎo)致自然人的人格尊嚴(yán)受到侵害或者人身、財產(chǎn)安全受到危害的個人信息。注:敏感個人信息包括生物識別、宗教信仰、特定身份、醫(yī)療健康、[來源:GB/T35273-2020,3.4]3.5隱私信息privateinformation能通過信息系統(tǒng)進行處理的敏感個人信息,是個人信息記錄中的標(biāo)識符、準(zhǔn)標(biāo)識符和敏感屬性的集合。注:隱私信息包括個人生物特征信息、銀行賬號、通健康生理信息、交易信息、14歲以下(含)[來源:T/CSAC005—2024,3.4]3.6隱私信息所有者privateinformationowner隱私信息所標(biāo)識或者關(guān)聯(lián)的自然人、組織、設(shè)備或程序等實體。[來源:T/CSAC005—2024,3.14]3.7隱私信息處理者privateinformationprocessor對隱私信息進行收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等操作的實體。[來源:T/CSAC005—2024,3.22]3.8敏感屬性sensitiveattribute信息載體中含有敏感個人信息的屬性,泄露、修改或破壞該屬性值會對個人權(quán)益產(chǎn)生影響。注:在潛在的重標(biāo)識攻擊期間需要防止其值與任何一個隱私信息主體相關(guān)聯(lián)。[來源:GB/T37964-2019,3.10,有修改]3.9原始信息rawinformation當(dāng)前主體采集或者接收到的信息,其包含敏感個人信息,需要進行脫敏處理,且可以通過攜帶脫敏控制策略來實現(xiàn)個人信息的流轉(zhuǎn)脫敏控制。3.10脫敏信息desensitizedinformation經(jīng)過特定脫敏算法處理的原始數(shù)據(jù),使其中的隱私信息難以直接關(guān)聯(lián)到特定的隱私信息主體。3.11脫敏要求desensitizationrequirements待脫敏的隱私信息的脫敏等級、脫敏時機、脫敏算法及其參數(shù)選擇等約束信息。[來源:T/CSAC005—2024,3.24]3.12數(shù)據(jù)模態(tài)datamode個人信息載體數(shù)據(jù)的具體表示形式,比如數(shù)字、文本、圖像、視頻、語音等。3T/CSAC007—20243.13數(shù)據(jù)脫敏datadesensitization通過一系列數(shù)據(jù)處理方法對原始數(shù)據(jù)進行處理以減少或消除敏感個人信息的一種數(shù)據(jù)保護方法。[來源:GB/T37988-2019,3.12,有修改]3.14脫敏算法desensitizationalgorithm通過對隱私信息的技術(shù)處理,使其在不借助額外信息的情況下,無法識別或者關(guān)聯(lián)隱私信息主體。注:脫敏算法包括k-匿名、差分隱私等算法。[來源:GB/T35273-2020,3.15]3.15可逆性reversibility被脫敏掉的隱私信息被復(fù)原的可能性。[來源:T/CSAC005—2024,3.28]3.16信息偏差性informationdeviation脫敏算法執(zhí)行前后,可觀測到的脫敏信息與原始信息的偏差。[來源:T/CSAC005—2024,3.34]3.17信息損失性informationloss信息被不可逆的脫敏算法作用后,隱私信息損失部分對可用性的影響程度。[來源:T/CSAC005—2024,3.35]3.18復(fù)雜性complexity執(zhí)行脫敏算法所需要的資源開銷。注:復(fù)雜性通常用時間開銷和空間開銷表示。[來源:T/CSAC005—2024,3.37]3.19泛化generalization將一類屬性中的特定值用一個更寬泛的值代替,以更概括、抽象的方式描述數(shù)據(jù)。注:泛化技術(shù)包括替換、取整、k-匿名、模糊化、概化等手段。[來源:GB/T37964-2019,A.5.1,有修改]3.20抑制suppression將某個屬性、屬性的值或者屬性值的一部分進行刪除或者以特定的符號代替。[來源:T/CSAC005—2024,3.30]3.21解耦和置換anatomizationandpermutation去除準(zhǔn)標(biāo)識符和敏感屬性間的關(guān)聯(lián)性,而不改變準(zhǔn)標(biāo)識符或敏感屬性的值。[來源:T/CSAC005—2024,3.31]3.22擾動perturbation4T/CSAC007—2024用合成的數(shù)據(jù)值取代原始的數(shù)據(jù)值,改變后的數(shù)據(jù)與真實數(shù)據(jù)主體失去關(guān)聯(lián)性。[來源:T/CSAC005—2024,3.32]3.23差分隱私differentialprivacy通過擾動的方式對個人隱私信息進行脫敏,且擾動添加的噪聲類型和參數(shù)滿足差分的數(shù)學(xué)定義。[來源:T/CSAC005—2024,3.33]4概述4.1脫敏算法能力評估的目的脫敏算法能力評估的目標(biāo)包括:a)脫敏算法能力應(yīng)符合法律規(guī)定與脫敏控制要求,可支持自動選擇算法;b)在第三方評估的過程中,保障不同的單位和團體所采用的脫敏算法具有合規(guī)性和一致性,防止跨系統(tǒng)中的隱私泄露問題,預(yù)防全社會各系統(tǒng)隱私保護的短板效應(yīng)。4.2脫敏算法能力評估的基本原則脫敏算法能力評估分為可逆性評估、信息偏差性評估、信息損失性評估和復(fù)雜性評估,并且依據(jù)所采用脫敏算法的類別,為以上四個評估維度賦予相應(yīng)的權(quán)重值。其中,可逆性評估是衡量脫敏算法處理后信息中復(fù)原隱私信息的可能性;信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度;信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度;復(fù)雜性評估是衡量脫敏算法處理隱私信息所需的資源開銷。4.3脫敏算法能力評估的使用脫敏算法能力評估技術(shù)要求可以為企業(yè)自身、監(jiān)督管理部門、安全合規(guī)團隊以及第三方評估機構(gòu)等主體適用,用以評估其脫敏算法前后脫敏信息的可逆性、信息偏差性、信息損失性是否符合發(fā)布的要求,以及脫敏算法的資源開銷是否符合性能要求。5脫敏算法分類5.1脫敏算法分類概述根據(jù)脫敏算法的實現(xiàn)原理、應(yīng)用場景、處理數(shù)據(jù)方式等因素,可以分為擾動、泛化、匿名、置換四類技術(shù)。5.2基于擾動技術(shù)的脫敏算法基于擾動的脫敏算法主要采用差分隱私算法中的拉普拉斯機制、指數(shù)機制、稀疏向量技術(shù)、隨機響應(yīng)技術(shù)和高斯機制。附錄B.2給出了27種基于擾動技術(shù)的脫敏算法描述示例。具體如下:a)拉普拉斯機制,是指通過向源數(shù)據(jù)中添加拉普拉斯噪聲以滿足差分隱私的要求,該機制可以保證數(shù)據(jù)集中任何特定的個人信息主體的存在與否,無法從脫敏數(shù)據(jù)集或系統(tǒng)響應(yīng)結(jié)果中推5T/CSAC007—2024導(dǎo)出;即使攻擊者能夠訪問其他相關(guān)的數(shù)據(jù)集,只要隱私損失限定在一定范圍內(nèi),就可以保證隱私信息無法被獲取;b)指數(shù)機制,是指通過一個評分函數(shù)輸出查詢函數(shù)的每個可能輸出分?jǐn)?shù),并返回分?jǐn)?shù)近似最大的回復(fù)來實現(xiàn)差分隱私保護;該機制可以在不向原始數(shù)據(jù)添加噪聲的基礎(chǔ)上滿足差分隱私的要求;c)稀疏向量技術(shù),用于回答有一個預(yù)先固定的閾值T的查詢,該技術(shù)將在被查詢值中添加噪聲,并將結(jié)果與閾值T進行比較,并只返回高于閾值T的查詢結(jié)果;適用于需要多次查詢的場景;d)隨機響應(yīng)技術(shù),是指通過模糊用戶對問題的結(jié)果響應(yīng),用戶將以一定的概率返回自己的真實數(shù)據(jù)或者值域中包含的其他可能數(shù)據(jù),從而實現(xiàn)在保護用戶隱私的情況下進行頻數(shù)統(tǒng)計的目的,一般用于本地化差分隱私場景中;e)高斯機制,是指針對數(shù)值型查詢的結(jié)果響應(yīng),它通過向數(shù)值型查詢結(jié)果中添加從特定高斯分布中抽取的噪聲,使得查詢結(jié)果在一定程度上被隨機化,從而保護了原始數(shù)據(jù)集中個體數(shù)據(jù)的隱私。5.3基于泛化技術(shù)的脫敏算法基于泛化技術(shù)的脫敏算法是指通過引入不確定性或模糊性,使原始隱私信息變得更加模糊或不精確,以實現(xiàn)對隱私信息的脫敏;可以基于規(guī)則、概率分布或其他方式進行,可用于文本類數(shù)據(jù)、圖像類數(shù)據(jù)、音頻類數(shù)據(jù)以及視頻類數(shù)據(jù)的脫敏。附錄B.3給出了22種基于泛化技術(shù)的脫敏算法描述示例。5.4基于匿名技術(shù)的脫敏算法基于匿名技術(shù)的脫敏算法包括k-匿名算法、l-多樣性算法、t-貼近性算法等數(shù)據(jù)處理手段。附錄B.4給出了12種基于匿名技術(shù)的脫敏算法描述示例。具體如下:a)k-匿名算法,要求發(fā)布的數(shù)據(jù)中指定標(biāo)識符(直接標(biāo)識符或準(zhǔn)標(biāo)識符)屬性值相同的每一等價類至少包含k個記錄,使攻擊者不能判別出個人信息所屬的具體個體,從而保護個人信息安全;b)l-多樣性算法,是對k-匿名算法的改進,該算法首先對數(shù)據(jù)進行k-匿名處理生成多個等價類,并通過確保每個等價類中的敏感屬性具有多樣性,防止通過背景知識攻擊識別敏感信息;c)t-貼近性算法,進一步改進了l-多樣性算法,通過確保每個等價類中敏感屬性的分布與整體數(shù)據(jù)集的分布相似,防止敏感屬性分布的偏離。5.5基于置換技術(shù)的脫敏算法基于置換技術(shù)的脫敏算法是指將原始隱私信息中的具體值替換為其他確定性或隨機性的值,從而實現(xiàn)對隱私信息的脫敏。置換可以基于規(guī)則、概率分布或其他方式進行,例如:將具體的數(shù)字替換為某個范圍內(nèi)的值,或者將文本中的具體詞語替換為一般性類別的詞語。附錄B.5給出了19種基于置換技術(shù)的脫敏算法描述示例。6脫敏算法能力評估指標(biāo)體系6.1脫敏算法能力評估指標(biāo)體系概述脫敏算法能力評估的指標(biāo)體系包括可逆性、信息偏差性、信息損失性和復(fù)雜性等四類指標(biāo),且基于測評樣本基準(zhǔn)數(shù)據(jù)集,對各類脫敏算法進行能力評估。6T/CSAC007—20246.2可逆性評估指標(biāo)可逆性評估是衡量從脫敏算法處理后信息中復(fù)原隱私信息的可能性。由于脫敏旨在保護敏感個人信息,通常情況下脫敏是不可逆的。可逆性度量方法如下:a)脫敏算法可逆性,評估隱私信息脫敏使用的是否是不可逆脫敏算法,并根據(jù)算法是否可逆確立不同的可逆性評估指標(biāo),具體如下:1)脫敏算法為不可逆算法,宜依據(jù)脫敏算法參數(shù)確立可逆性評估指標(biāo);2)脫敏算法為可逆算法,宜依據(jù)脫敏算法恢復(fù)密鑰強度確立可逆性評估指標(biāo)。b)脫敏算法參數(shù)強度,評估脫敏算法使用的參數(shù)強度,并根據(jù)處理的數(shù)據(jù)模態(tài),確立算法參數(shù)強度指標(biāo)的所占權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法參數(shù)強度指標(biāo)所占權(quán)重值較低;2)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),算法參數(shù)強度指標(biāo)所占權(quán)重值較高。c)信息還原性,評估通過脫敏后的隱私信息還原出原始隱私信息的程度,例如:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度,以此評估脫敏算法的可逆性,具體如下:1)恢復(fù)信息的準(zhǔn)確度越高,脫敏算法的可逆性就相對越高;2)恢復(fù)信息的偏差度越高,脫敏算法的可逆性就相對越低。6.3信息偏差性評估指標(biāo)信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度。信息偏差性度量方法如下:a)統(tǒng)計偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的統(tǒng)計指標(biāo),例如:均方差、平均絕對值、KL散度、歐氏距離、余弦距離、峰值信噪比、結(jié)構(gòu)相似性指數(shù)、均值、中位數(shù)、方差、標(biāo)準(zhǔn)差、最大值、最小值等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),宜選擇均方差、平均絕對值等指標(biāo)為統(tǒng)計偏差性評估指標(biāo);2)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),宜選擇峰值信噪比、結(jié)構(gòu)相似性指數(shù)等指標(biāo)為統(tǒng)計偏差性評估指標(biāo)。b)數(shù)據(jù)分布偏差性,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布差異,例如:分布形狀、分位數(shù)和累積分布函數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息偏差性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),宜選擇分布形狀等指標(biāo)為數(shù)據(jù)分布偏差性評估指標(biāo);2)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),宜選擇累積分布函數(shù)等指標(biāo)為數(shù)據(jù)分布偏差性評估指標(biāo)。c)模型應(yīng)用準(zhǔn)確性,使用原始數(shù)據(jù)和脫敏后數(shù)據(jù)分別構(gòu)建訓(xùn)練模型,選擇合適的驗證集或測試集,比較模型在驗證集或測試集上的效果,以此評估脫敏算法的信息偏差性,具體如下:1)模型在驗證集或測試集上的效果越好,脫敏算法的信息偏差性相對越低;2)模型在驗證集或測試集上的效果越差,脫敏算法的信息偏差性相對越高。d)數(shù)據(jù)隨機性分析,評估脫敏算法對隱私信息的隨機性影響程度,以此評估脫敏算法的信息偏差性,具體如下:1)脫敏算法對隱私信息的隨機性影響越小,脫敏算法的信息偏差性相對越低;2)脫敏算法對隱私信息的隨機性影響越大,脫敏算法的信息偏差性相對越高。6.4信息損失性評估指標(biāo)7T/CSAC007—2024信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度。信息損失性度量方法如下:a)信息熵,信息熵是衡量數(shù)據(jù)集中信息量的度量指標(biāo),通過計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)的信息熵,比較差異,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),宜選擇信息熵等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的信息熵差值越大,脫敏算法的信息損失性相對越高。b)互信息,互信息是衡量兩個隨機變量之間相互依賴程度的度量指標(biāo),通過計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的互信息進行量化評估,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),宜選擇互信息等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的互信息越高,脫敏算法的信息損失性相對越低。c)數(shù)據(jù)分布特征,比較原始數(shù)據(jù)和脫敏后數(shù)據(jù)的分布特征的統(tǒng)計指標(biāo),例如:均值、方差、分位數(shù)等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),宜選擇數(shù)據(jù)分布特征等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)分布特征越相近,脫敏算法的信息損失性相對越低。d)數(shù)據(jù)關(guān)聯(lián)性,計算原始數(shù)據(jù)和脫敏后數(shù)據(jù)之間的關(guān)聯(lián)性的度量指標(biāo),例如:相關(guān)系數(shù)、協(xié)方差等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),宜選擇數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)性越高,脫敏算法的信息損失性相對越低。e)數(shù)據(jù)可用性,評估脫敏數(shù)據(jù)在特定應(yīng)用場景下的可用程度指標(biāo),例如:數(shù)據(jù)分析、模型訓(xùn)練等應(yīng)用場景,并根據(jù)處理的數(shù)據(jù)模態(tài),確立信息損失性的評估指標(biāo),具體如下:1)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),宜選擇數(shù)據(jù)可用性等指標(biāo)為信息損失性評估指標(biāo);2)脫敏算法前后數(shù)據(jù)的數(shù)據(jù)可用性越高,脫敏算法的信息損失性相對越低。6.5復(fù)雜性評估指標(biāo)復(fù)雜性評估是衡量脫敏算法處理隱私信息所需的資源開銷。復(fù)雜性度量方法如下:a)時間復(fù)雜度,用于衡量算法執(zhí)行所需時間的度量指標(biāo),可以通過分析算法中的操作、迭代次數(shù)和數(shù)據(jù)規(guī)模等來確定,例如:常數(shù)時間、線性時間、對數(shù)時間、平方時間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評估指標(biāo),以此評估脫敏算法的復(fù)雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都宜選擇時間復(fù)雜度等指標(biāo)為復(fù)雜性評估指標(biāo);2)脫敏算法執(zhí)行的時間復(fù)雜度越高,脫敏算法的復(fù)雜性相對越高。b)空間復(fù)雜度,用于衡量算法執(zhí)行所需內(nèi)存空間的度量指標(biāo),可以通過分析算法中使用的額外數(shù)據(jù)結(jié)構(gòu)、變量和遞歸調(diào)用的深度等來確定,例如:常數(shù)空間、線性空間、指數(shù)空間等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評估指標(biāo),以此評估脫敏算法的復(fù)雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都宜選擇空間復(fù)雜度等指標(biāo)為復(fù)雜性評估指標(biāo);2)脫敏算法執(zhí)行的空間復(fù)雜度越高,脫敏算法的復(fù)雜性相對越高。c)計算資源需求,評估算法執(zhí)行所需的計算資源,包括CPU執(zhí)行時間、占用內(nèi)存等,并根據(jù)處理的數(shù)據(jù)模態(tài),確立復(fù)雜性的評估指標(biāo),以此評估脫敏算法的復(fù)雜性,具體如下:1)對于任何類型的數(shù)據(jù)模態(tài),都宜選擇計算資源需求等指標(biāo)為復(fù)雜性評估指標(biāo);8T/CSAC007—20242)脫敏算法執(zhí)行的計算資源需求越高,脫敏算法的復(fù)雜性相對越高。6.6算法能力綜合評估指標(biāo)在脫敏算法能力評估的過程中,需要根據(jù)所采用脫敏算法的類別和數(shù)據(jù)應(yīng)用場景,分別為可逆性、信息偏差性、信息損失性以及復(fù)雜性四個評估維度設(shè)置相應(yīng)的權(quán)重,進行加權(quán)計算,得出算法能力的綜合評估結(jié)果。例如:基于擾動技術(shù)的脫敏算法的信息偏差性評估的權(quán)重值宜設(shè)置較高;基于泛化技術(shù)的脫敏算法的信息損失性評估的權(quán)重值宜設(shè)置較高;基于匿名技術(shù)的脫敏算法的信息損失性評估的權(quán)重值宜設(shè)置較高;基于置換技術(shù)的脫敏算法的可逆性評估的權(quán)重值宜設(shè)置較高。附錄A.2給出了一種不同脫敏算法類別處理文本類醫(yī)療數(shù)據(jù)時的評估指標(biāo)維度權(quán)重參考。7脫敏算法能力評估通用技術(shù)要求7.1脫敏算法可逆性評估脫敏算法可逆性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定算法可逆性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法可逆性評估的權(quán)重值宜設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),算法可逆性評估的權(quán)重值宜設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇6.2節(jié)中的評估指標(biāo),衡量脫敏信息的被還原能力,評估內(nèi)容包括但不限于:恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度等,并根據(jù)確立的各可逆性指標(biāo)的權(quán)重值進行評估,具體如下:1)數(shù)據(jù)在數(shù)據(jù)域內(nèi)流轉(zhuǎn)場景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)可適用于任何類型的數(shù)據(jù)模態(tài)的數(shù)據(jù);2)數(shù)據(jù)在數(shù)據(jù)域外發(fā)布場景下,恢復(fù)信息的準(zhǔn)確度、恢復(fù)信息的偏差度指標(biāo)的權(quán)重值宜設(shè)置較高。c)綜合考慮算法類別、算法參數(shù)、數(shù)據(jù)模態(tài)等因素,設(shè)計合理的可逆性評估方案,設(shè)置合理的可逆性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和可信性,具體如下:1)分類為置換技術(shù)的脫敏算法,其可逆性評估的權(quán)重值宜設(shè)置較高;2)分類為擾動技術(shù)、泛化技術(shù)、匿名技術(shù)的脫敏算法,其可逆性評估的權(quán)重值宜設(shè)置較低。7.2脫敏算法信息偏差性評估脫敏算法信息偏差性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定信息偏差性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),算法信息偏差性評估的權(quán)重值宜設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息偏差性評估的權(quán)重值宜設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇6.3節(jié)中的評估指標(biāo),衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的偏差程度,評估內(nèi)容包括但不限于:數(shù)據(jù)統(tǒng)計、數(shù)據(jù)應(yīng)用測試、隨機性分析等,并根據(jù)確立的各信息偏差性指標(biāo)的權(quán)重值進行評估,具體如下:1)均方誤差、平均數(shù)等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);9T/CSAC007—20242)Kullback-Leibler散度、余弦距離等指標(biāo)可適用于圖形、圖像、音頻、視頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)規(guī)模、數(shù)據(jù)分布、數(shù)據(jù)模態(tài)等因素,設(shè)計合理的信息偏差性評估方案,設(shè)置合理的信息偏差性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和可用性,具體如下:1)分類為擾動技術(shù)的脫敏算法,其信息偏差性評估的權(quán)重值宜設(shè)置較高;2)分類為匿名技術(shù)、泛化技術(shù)、置換技術(shù)的脫敏算法,其信息偏差性評估的權(quán)重值宜設(shè)置較低。7.3脫敏算法信息損失性評估脫敏算法信息損失性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定信息損失性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),算法信息損失性評估的權(quán)重值宜設(shè)置較低;2)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法信息損失性評估的權(quán)重值宜設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇6.4節(jié)中的評估指標(biāo),衡量脫敏算法執(zhí)行前的原始隱私信息與脫敏后的隱私信息之間的信息損失程度,評估內(nèi)容包括但不限于:信息熵、互信息、數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性、信息可用性等,并根據(jù)確立的各信息損失性指標(biāo)的權(quán)重值進行評估,具體如下:1)數(shù)據(jù)分布特征、數(shù)據(jù)關(guān)聯(lián)性等指標(biāo)可適用于文本、表格等模態(tài)的數(shù)據(jù);2)信息熵、信息可用性等指標(biāo)可適用于圖形、圖像、音頻、視頻等模態(tài)的數(shù)據(jù)。c)綜合考慮數(shù)據(jù)可用、數(shù)據(jù)關(guān)聯(lián)、應(yīng)用場景等因素,設(shè)計合理的信息損失性評估方案,設(shè)置合理的信息損失性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和有效性,具體如下:1)分類為泛化技術(shù)、匿名技術(shù)的脫敏算法,其信息損失性評估的權(quán)重值宜設(shè)置較高;2)分類為擾動技術(shù)、置換技術(shù)的脫敏算法,其信息損失性評估的權(quán)重值宜設(shè)置較低。7.4脫敏算法復(fù)雜性評估脫敏算法復(fù)雜性評估的具體內(nèi)容如下:a)判斷脫敏算法支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,根據(jù)其支持的數(shù)據(jù)模態(tài)與應(yīng)用場景,確定算法復(fù)雜性對應(yīng)的權(quán)重值,具體如下:1)數(shù)據(jù)模態(tài)為文本、表格等的數(shù)據(jù),算法復(fù)雜性評估的權(quán)重值宜設(shè)置較低;2)數(shù)據(jù)模態(tài)為圖形、圖像、音頻、視頻等的數(shù)據(jù),算法復(fù)雜性評估的權(quán)重值宜設(shè)置較高。b)結(jié)合隱私信息數(shù)據(jù)模態(tài)及應(yīng)用場景,選擇6.5節(jié)中的評估指標(biāo),衡量脫敏算法的執(zhí)行效率和資源消耗情況,評估內(nèi)容包括但不限于:時間復(fù)雜度、空間復(fù)雜度、資源消耗等,并根據(jù)確立的各復(fù)雜性指標(biāo)的權(quán)重值進行評估,具體如下:1)時間復(fù)雜度、空間復(fù)雜度等指標(biāo)可適用于任何類型的數(shù)據(jù)模態(tài)的數(shù)據(jù);2)資源消耗等指標(biāo)可適用于任何類型的數(shù)據(jù)模態(tài)的數(shù)據(jù)。c)綜合考慮平臺資源、數(shù)據(jù)模態(tài)、數(shù)據(jù)規(guī)模、數(shù)據(jù)結(jié)構(gòu)等因素,設(shè)計合理的復(fù)雜性評估方案,設(shè)置合理的復(fù)雜性評估權(quán)重值,保證評估結(jié)果的準(zhǔn)確性和有效性,具體如下:1)分類為擾動技術(shù)的脫敏算法,其復(fù)雜性評估的權(quán)重值宜設(shè)置較高;2)分類為泛化技術(shù)、匿名技術(shù)、置換技術(shù)的脫敏算法,其復(fù)雜性評估的權(quán)重值宜設(shè)置較低。T/CSAC007—2024(資料性)脫敏算法能力評估示例A.1概述本附錄以k-匿名算法對文本類醫(yī)療數(shù)據(jù)的脫敏能力評估為例,介紹針對脫敏算法能力評估指標(biāo)體系的使用方法,供進行脫敏算法能力評估時參考。脫敏算法能力評估過程的關(guān)鍵處理環(huán)節(jié)包括脫敏算法評估維度權(quán)重確定、敏感信息屬性確定、評估指標(biāo)選定、可逆性評估、信息偏差性評估、信息損失性評估、復(fù)雜性評估以及評估報告生成。A.2脫敏算法評估維度權(quán)重確定根據(jù)數(shù)據(jù)的使用場景、來源、脫敏意圖等因素,定義脫敏算法評估維度的權(quán)重。本示例中數(shù)據(jù)的應(yīng)用場景為醫(yī)療問診場景,數(shù)據(jù)模態(tài)為表格型,使用的k-匿名算法(脫敏參數(shù)k=3)屬于泛化技術(shù),參考表A.1建議的不同脫敏算法類別(泛化、匿名、置換、擾動)處理文本類醫(yī)療數(shù)據(jù)時的評估指標(biāo)維度權(quán)重,將可逆性、信息偏差性、信息損失性、復(fù)雜性四個維度的對應(yīng)權(quán)重分別為0.2、0.2、0.5、0.1。表A.1不同脫敏算法類別處理文本類醫(yī)療數(shù)據(jù)時的評估指標(biāo)維度權(quán)重參考T/CSAC007—2024A.3敏感信息屬性確定收集并整理待評測的原始數(shù)據(jù)和經(jīng)過k-匿名算法處理后的數(shù)據(jù),在本示例中,原始數(shù)據(jù)如表A.2所示,k-匿名算法處理后的數(shù)據(jù)如表A.3所示。確定本次脫敏操作的敏感信息屬性為“年齡”。表A.2原始數(shù)據(jù)123456789注:本表格中示例用于數(shù)據(jù)脫敏。示例中數(shù)據(jù)為虛擬數(shù)據(jù),不涉及公表A.3脫敏后數(shù)據(jù)1234癌癥56789注:本表格中示例用于脫敏算法能力評估。示例中虛構(gòu)數(shù)據(jù)已經(jīng)進行脫敏處理,不涉及公民的隱私信息。A.4評估指標(biāo)選定a)確定可逆性的評估為算法的可逆程度,脫敏算法參數(shù)以及信息的還原性。評估指標(biāo)為脫敏算法是否為不可逆算法,脫敏算法的參數(shù)對于原始數(shù)據(jù)數(shù)據(jù)規(guī)模的脫敏強度是否合適,通過脫敏后的隱私信息還原出原始隱私信息的程度;T/CSAC007—2024b)確定信息偏差性的評估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的平均絕對誤差和歐氏距離。評估指標(biāo)為脫敏前后數(shù)據(jù)間的平均絕對誤差0~2.13時為偏差性較低,2.13~4.63時為偏差性中等,4.63以上為偏差性較高。脫敏前后數(shù)據(jù)間的歐氏距離0~7.04時為偏差性較低,7.04~9.38時為偏差性中等,9.38以上為偏差性較高;c)確定信息損失性的評估為原始數(shù)據(jù)與脫敏后數(shù)據(jù)之間的信息熵差值和互信息。評估指標(biāo)為脫敏前后數(shù)據(jù)間的信息熵差值0~0.06時為信息損失性低,0.06~4.36時為信息損失性中等,4.36以上信息損失性高。脫敏前后數(shù)據(jù)間的互信息為0.8~1.0時為信息損失性低,0.4~0.8為信息損失性中等,0~0.4為信息損失性高;d)確定復(fù)雜性的評估為脫敏算法的時間復(fù)雜度和空間復(fù)雜度。評估指標(biāo)為脫敏算法的時間復(fù)雜度小于o(logn)為復(fù)雜性低,O(logn)o(n)間為復(fù)雜性中等,大于o(n)為復(fù)雜性高。脫敏算法的空間復(fù)雜度小于等于o(1)為復(fù)雜性低,為o(n)為復(fù)雜性中等,大于on2)為復(fù)雜性高。A.5可逆性評估本次脫敏使用的脫敏算法類別為泛化技術(shù),使用k-匿名算法,判斷該脫敏算法為不可逆算法,參數(shù)k=3,數(shù)據(jù)量為9條,通過脫敏后的隱私信息還原出原始隱私信息的概率為0.1,故本次脫敏任務(wù)中的可逆性低。A.6信息偏差性評估計算得到脫敏前后數(shù)據(jù)的平均絕對誤差為13.44,依據(jù)評估指標(biāo)13.44>4.64,脫敏前后數(shù)據(jù)的歐氏距離為11.00,依據(jù)評估指標(biāo)11.00>9.38,故本次脫敏效果中的偏差性高。A.7信息損失性評估計算得到脫敏前數(shù)據(jù)的信息熵為3.17。脫敏后數(shù)據(jù)的信息熵為1.58。脫敏前后數(shù)據(jù)的信息熵差值為1.59,依據(jù)評估指標(biāo)0.06<1.59<4.36,脫敏前后數(shù)據(jù)的互信息為0.48,依據(jù)評估指標(biāo)0.4<0.48<0.8,故本次脫敏效果中的信息損失性中等。A.8復(fù)雜性評估分析k-匿名算法的時間復(fù)雜度為o(n*log(n)),空間復(fù)雜度為o(n),故本次脫敏效果中的復(fù)雜性高。A.9評估報告生成對可逆性評估結(jié)果、信息偏差性評估結(jié)果、信息損失性評估結(jié)果、復(fù)雜性評估結(jié)果進行加權(quán)操作,得出算法能力的綜合評估結(jié)果。T/CSAC007—2024(資料性)脫敏算法分類示例B.1概述本附錄以脫敏算法的按需選擇為例,根據(jù)脫敏算法的實現(xiàn)原理、應(yīng)用場景、處理數(shù)據(jù)方式等因素,可以分為擾動、泛化、匿名、置換四類技術(shù)。在本示例中,分別介紹基于擾動技術(shù)的脫敏算法描述示例、基于泛化的脫敏算法描述示例、基于匿名的脫敏算法描述示例和基于置換的脫敏算法描述示例,供執(zhí)行脫敏算法選擇操作時參考。B.2基于擾動技術(shù)的脫敏算法表B.1給出了27種基于擾動技術(shù)的脫敏算法描述示例。表B.1基于擾動技術(shù)的脫敏算法描述示例1nism2Noisyaplace3Noisy表456789echanismT/CSAC007—2024NoisyMax2-ENoisyVectorue1Vectorue2Vectorue3表Vectorue4表輸入:數(shù)值列表Vectorue5輸入:數(shù)值列表Vectorue6輸入:數(shù)值列表Numeric表輸入:數(shù)值列表組por組輸入:數(shù)值列表T/CSAC007—2024nNoisy組NoisyB.3基于泛化技術(shù)的脫敏算法表B.2給出了22種基于泛化技術(shù)的脫敏算法描述示例。表B.2基于泛化技術(shù)的脫敏算法描述示例1n2輸入:數(shù)值34息別5p_replace61738_reduction9輸入:圖像blur輸入:圖像T/CSAC007—2024box_blur輸入:圖像輸入:圖像輸入:圖像輸入:視頻blur_video輸入:視頻box_blur_輸入:視頻輸入:視頻o輸入:視頻輸入:音頻c輸入:音頻輸入:音頻輸入:音頻B.4基于匿名技術(shù)的脫敏算法表B.3給出了12種基于匿名技術(shù)的脫敏算法描述示例。表B.3基于匿名技術(shù)的脫敏算法描述示例12輸入:經(jīng)緯度3輸入:經(jīng)緯度T/CSAC007—20244alCloagorithm輸入:經(jīng)度、緯度5輸入:經(jīng)度、緯度6k-anon輸入:經(jīng)度、緯度789iversity件輸入:用戶坐標(biāo)輸入:經(jīng)度、緯度B.5基于置換技術(shù)的脫敏算法表B.4給出了19種基于置換技術(shù)的脫敏算法描述示例。表B.4基于置換技術(shù)的脫敏算法描述示例12Shift3T/CSAC007—202445據(jù)6從第2個字符用*代替,返回處理后的字7字符串中間的字符用*代替,返回處理后89將圖像的每個像素的RGB通道值隨機打?qū)D像的每個像素的RGB通道值加上一將每一幀的每個像素RGB通道值加上一video_remove_bgT/CSAC007—2024(資料性)可逆性的計算方法C.1概述可逆性可以通過逆向映射、字典攻擊、統(tǒng)計攻擊、機器學(xué)習(xí)等方法判斷,本附錄介紹了逆向映射、字典攻擊、統(tǒng)計攻擊、機器學(xué)習(xí)的方法描述,可供隱私脫敏的組織者參考。C.2逆向映射逆向映射是一種簡單的可逆性評估方法,即嘗試將脫敏后的數(shù)據(jù)重新映射回原始數(shù)據(jù)。如果能夠準(zhǔn)確還原原始數(shù)據(jù),說明脫敏算法不安全。逆向映射的關(guān)鍵在于找到逆向映射函數(shù)或算法,使得脫敏結(jié)果能夠被逆向操作還原。C.3字典攻擊字典攻擊是一種基于預(yù)先構(gòu)建的字典或映射表來還原脫敏結(jié)果的方法。攻擊者通過窮舉字典中的映射關(guān)系,嘗試將脫敏結(jié)果映射回原始數(shù)據(jù),如果能夠找到匹配的映射關(guān)系,即可還原原始數(shù)據(jù)。為了防止字典攻擊,脫敏算法需要使用隨機化技術(shù)或其他安全措施,使得字典攻擊的成功率極低。C.4統(tǒng)計分析統(tǒng)計分析是一種基于脫敏結(jié)果統(tǒng)計特征來推斷原始數(shù)據(jù)的方法。攻擊者通過分析脫敏結(jié)果的統(tǒng)計特征,如頻率分布、均值、方差等,來推測原始數(shù)據(jù)的可能取值范圍。脫敏算法需要通過添加噪音、擾動或其他技術(shù)來破壞統(tǒng)計特征,從而提高脫敏結(jié)果的安全性。C.5機器學(xué)習(xí)攻擊機器學(xué)習(xí)攻擊是一種利用機器學(xué)習(xí)模型來還原脫敏結(jié)果的方法。攻擊者可以使用機器學(xué)習(xí)算法,通過訓(xùn)練模型來學(xué)習(xí)脫敏結(jié)果與原始數(shù)據(jù)之間的映射關(guān)系,一旦攻擊者成功構(gòu)建了準(zhǔn)確的模型,即可使用該模型將脫敏結(jié)果還原回原始數(shù)據(jù)。為了抵御機器學(xué)習(xí)攻擊,脫敏算法需要采用對抗性機器學(xué)習(xí)技術(shù)或其他防御機制,使得攻擊者難以構(gòu)建準(zhǔn)確的模型。20T/CSAC007—2024(資料性)信息偏差性的計算方法D.1概述信息偏差性可以通過計算脫敏算法執(zhí)行前后數(shù)據(jù)的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關(guān)計算信息偏差性的方法,可供隱私脫敏的組織者參考。D.2均方誤差對于兩個數(shù)據(jù)集X和Y,均方誤差(MeanSquaredError,MSE)是用來衡量它們之間的差異程度的統(tǒng)計指標(biāo)。它的作用是評估模型預(yù)測或擬合的準(zhǔn)確性,或者比較兩個數(shù)據(jù)集之間的差異程度。均方誤差的計算公式如下:n表示數(shù)據(jù)點的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點,yi表示Y數(shù)據(jù)集中的第i個數(shù)據(jù)點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的均方誤差,均方誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.3均絕對誤差對于兩個數(shù)據(jù)集X和Y,平均絕對誤差(MeanAbsoluteError,MAE)是用來衡量它們之間的差異程度的統(tǒng)計指標(biāo)。它的作用是評估模型預(yù)測或擬合的準(zhǔn)確性,或者比較兩個數(shù)據(jù)集之間的差異程度。平均絕對誤差的計算公式如下:其中,n表示數(shù)據(jù)點的個數(shù),表示X數(shù)據(jù)集中的第i個數(shù)據(jù)點,yi表示Y數(shù)據(jù)集中的第yi個數(shù)據(jù)點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均絕對誤差,平均絕對誤差的數(shù)值越大,表示脫敏操作引入的偏差越大,平均絕對誤差越小,表示脫敏操作引入的偏差越小。平均絕對誤差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.4Kullback-Leibler散度對于兩個離散分布P和Q,其中P表示真實分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來衡量它們之間的差異程度的統(tǒng)計指標(biāo)。它的作用是評估一個概率分布相對于另一個概率分布的信息丟失或信息增益。KL散度的公式如下:其中,n表示P分布中元素的個數(shù),表示P分布中第i個元素,P(xz)表示元素在分布P中的概率,Q(xz)表示元素在分布Q中的概率。21T/CSAC007—2024比較原始信息和脫敏信息之間的偏差,可以計算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數(shù)值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運用的數(shù)據(jù)模態(tài)為:編碼型。D.5歐氏距離的計算方法歐式距離(Euclideandistance,ED)是指兩個n維向量之間的距離,即歐氏空間中兩點之間的物理距離。計算兩個向量x=(x1,x2,…,xn)和y=(y,y2,..…,y)的歐氏距離d(x,y)的公式如下:比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的歐氏距離,如果歐氏距離較小,則說明脫敏操作引入的偏差較小,反之則說明脫敏操作引入的偏差較大。歐氏距離可運用的數(shù)據(jù)模態(tài)為:數(shù)值型和編碼型。D.6余弦距離的計算方法余弦距離(Cosinedistance,CD)是指兩個向量之間的夾角余弦值,用于衡量它們的相似度。計算兩個向量和y的歐氏距離的公式如下:其中,是兩個向量的點集,llxll和llyll分別是向量x和向量y的范數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說明脫敏操作引入的偏差較小,如果余弦距離接近0,則說明脫敏操作引入的偏差較大。余弦距離可運用的數(shù)據(jù)模態(tài)為:音頻型。D.7峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡稱PSNR)是一種用于衡量兩個數(shù)據(jù)集之間的重建質(zhì)量或差異程度的指標(biāo)。PSNR可以用于比較不同數(shù)據(jù)集之間的相似度,從而確定哪個數(shù)據(jù)集的質(zhì)量更高。較高的PSNR表示數(shù)據(jù)集之間的差異較小,較低的PSNR表示數(shù)據(jù)集之間的差異較大。計算兩個數(shù)據(jù)集峰值信噪比的公式如下:其中,MAX表示信號的最大可能取值(對于8位圖像通常為255),MSE表示均方誤差,是兩個數(shù)據(jù)集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的峰值信噪比。峰值信噪比越高,表示數(shù)據(jù)集的偏差較小,峰值信噪越低,表示數(shù)據(jù)集的偏差較大。峰值信噪比可運用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。22T/CSAC007—2024D.8結(jié)構(gòu)相似性指數(shù)結(jié)構(gòu)相似性指數(shù)(StructuralSimilarityIndex,簡稱SSIM)是一種用于衡量兩個圖像之間結(jié)構(gòu)相似度的指標(biāo)。它綜合考慮了亮度、對比度和結(jié)構(gòu)等因素,能夠更準(zhǔn)確地評估圖像的相似度。SSIM的計算公式如下:SSIM(x,y)=[l(x,y)*c(x,y)*s(x,y)]Λa其中,和y表示兩個圖像,l(x,y)表示亮度相似度,c(x,y)表示對比度相似度,s(x,y)表示結(jié)構(gòu)相似度,a是一個參數(shù)(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的結(jié)構(gòu)相似性指數(shù)。SSIM的取值范圍在0到1之間,如果結(jié)構(gòu)相似性指數(shù)接近1,則說明脫敏操作引入的偏差較小,如果結(jié)構(gòu)相似性指數(shù)接近0,則說明脫敏操作引入的偏差越小。結(jié)構(gòu)相似性指數(shù)可運用的數(shù)據(jù)模態(tài)為:圖像型和視頻型。D.9平均數(shù)平均數(shù)(Average,AVE)是一種常見的統(tǒng)計量,通過比較不同數(shù)據(jù)集的平均數(shù),可以了解它們之間的差異。平均數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進行比較和分析。平均數(shù)的計算公式如下:其中,表示數(shù)據(jù)集中的第i個數(shù)據(jù)點,N表示數(shù)據(jù)點的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均數(shù)的差值。平均數(shù)的差值越大,表示脫敏操作引入的偏差越大,平均數(shù)的差值越小,表示脫敏操作引入的偏差越小。平均數(shù)可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.10中位數(shù)中位數(shù)(Median,MED)是一種用于衡量數(shù)據(jù)集的中心位置的統(tǒng)計量。中位數(shù)是將數(shù)據(jù)集按照大小排序后,位于中間位置的數(shù)值。中位數(shù)可以幫助識別數(shù)據(jù)集之間的相似性或差異性,并對數(shù)據(jù)進行比較和分析。中位數(shù)的計算方式如下:a)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為奇數(shù),中位數(shù)是排序后位于中間位置的數(shù)值;b)如果數(shù)據(jù)集中的數(shù)據(jù)個數(shù)為偶數(shù),中位數(shù)是排序后中間兩個數(shù)值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的中位數(shù)的差值。中位數(shù)的差值越大,表示脫敏操作引入的偏差越大,中位數(shù)的差值越小,表示脫敏操作引入的偏差越小。中位數(shù)可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.11標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(StandardDeviation,縮寫為SD)是用來衡量數(shù)據(jù)集中數(shù)據(jù)的離散程度或變異程度的統(tǒng)計量。標(biāo)準(zhǔn)差可以用來比較不同數(shù)據(jù)集之間的離散程度。計算數(shù)據(jù)集標(biāo)準(zhǔn)差的公式如下:其中,表示數(shù)據(jù)集中的第個數(shù)據(jù)點,表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點的總數(shù)。23T/CSAC007—2024比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的標(biāo)準(zhǔn)差的差值。標(biāo)準(zhǔn)差的差值越大,表示脫敏操作引入的偏差越大,標(biāo)準(zhǔn)差的差值越小,表示脫敏操作引入的偏差越小。標(biāo)準(zhǔn)差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.12方差方差(Variance,Var)是一種統(tǒng)計量,用于描述數(shù)據(jù)集內(nèi)數(shù)據(jù)點的變異程度。方差可以幫助我們了解數(shù)據(jù)集中數(shù)據(jù)點的分布情況和數(shù)據(jù)的穩(wěn)定性,經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進行數(shù)據(jù)篩選。計算方差的公式如下:其中,表示數(shù)據(jù)集中的第個數(shù)據(jù)點,表示數(shù)據(jù)集的均值,表示數(shù)據(jù)點的總數(shù)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的方差的差值。方差的差值越大,表示脫敏操作引入的偏差越大,方差的差值越小,表示脫敏操作引入的偏差越小。方差可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.13最大值最大值(MaximumValue,縮寫為Max)是數(shù)據(jù)集中的最大觀測值,它表示數(shù)據(jù)集中的最高點或最大的數(shù)據(jù)點。最大值可以幫助確定數(shù)據(jù)集中的極端值,幫助了解數(shù)據(jù)的范圍和數(shù)據(jù)的分布情況,在數(shù)據(jù)分析和統(tǒng)計中,最大值經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進行數(shù)據(jù)篩選。計算最大值的公式如下:Max=max(x1,x2,…,xn)其中,X1,X2,…,xn表示數(shù)據(jù)集中的數(shù)據(jù)點,而Max表示數(shù)據(jù)集的最大值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的最大值的差值。最大值的差值越大,表示脫敏操作引入的偏差越大,最大值的差值越小,表示脫敏操作引入的偏差越小。最大值可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。D.14最小值最小值(MinimumValue,縮寫為Min)是數(shù)據(jù)集中的最小觀測值,它表示數(shù)據(jù)集中的最低點或最小的數(shù)據(jù)點。最小值可以幫助確定數(shù)據(jù)集中的極端值,對于了解數(shù)據(jù)的范圍和數(shù)據(jù)的分布情況非常有用,在數(shù)據(jù)分析和統(tǒng)計中,最小值經(jīng)常用于比較不同數(shù)據(jù)集之間的差異或進行數(shù)據(jù)篩選。計算最小值的公式如下:Min=min(xz,xi,…,xn)其中,X1,X2,…,xn表示數(shù)據(jù)集中的數(shù)據(jù)點,而Min表示數(shù)據(jù)集的最小值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的最小值的差值。最小值的差值越大,表示脫敏操作引入的偏差越大,最小值的差值越小,表示脫敏操作引入的偏差越小。最小值可運用的數(shù)據(jù)模態(tài)為:數(shù)值型。24T/CSAC007—2024(資料性)信息損失性的計算方法E.1概述信息損失性可以通過脫敏算法執(zhí)行前后數(shù)據(jù)的信息熵差值、相關(guān)系數(shù)差值、協(xié)方差等表示,本附錄介紹了信息熵算法和相關(guān)性分析算法,可供隱私脫敏的組織者參考。E.2信息熵的計算方法信息熵(InformationEntropy,縮寫為IE)是信息論中用來衡量隨機變量不確定性的指標(biāo)。可以通過計算數(shù)據(jù)集的信息熵,然后比較不同數(shù)據(jù)集的信息熵大小來評估它們的信息損失性。計算信息熵的公式如下:IE(x)=-EP(x)logzp(x)其中,P(x)表示數(shù)據(jù)中某個值出現(xiàn)的概率。對于給定的數(shù)據(jù)集,可以將每個數(shù)據(jù)值出現(xiàn)的概率代入公式中,然后將結(jié)果相加,即可得到數(shù)據(jù)集的信息熵。比較原始信息和脫敏信息之間的信息損失性,可以計算它們之間的信息熵的差值。信息熵的差值越大,表示脫敏操作引入的信息損失越大,信息熵的差值越小,表示脫敏操作引入的信息損失越小。信息熵可運用的數(shù)據(jù)模態(tài)為:數(shù)值型、編碼型、圖像型、視頻型和音頻型。25T/CSAC007—2024(資料性)復(fù)雜性的計算方法F.1概述復(fù)雜性可以通過統(tǒng)計脫敏算法執(zhí)行的時間復(fù)雜度和空間復(fù)雜度來表示。本附錄給出了時間復(fù)雜度和空間復(fù)雜度的計算方法,可供隱私脫敏的組織者參考。F.2時間復(fù)雜度的計算方法時間復(fù)雜度是指算法中所有語句的執(zhí)行次數(shù)之和,記作:T(n)=O(g(n)),O用于量化算法(或函數(shù)),根據(jù)問題規(guī)模n,進行事前預(yù)估算法時間開銷。計算復(fù)雜度的統(tǒng)計方法如下:a)將脫敏算法分解為幾個獨立的操作;b)分別計算每個操作的O(n);c)將每個操作的O(n)相加;d)刪除常量;e)選取O(n)的最高階的項作為整個脫敏算法的O(n)。F.3空間復(fù)雜度的計算方法空間復(fù)雜度是對一個算法在運行過程中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論