




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
T/CSEEPAGE1PAGE14電力人工智能非結(jié)構(gòu)化樣本脫敏規(guī)范Specificationfordesensitizationofunstructuredsamplesofelectricpowerartificialintelligence電力人工智能非結(jié)構(gòu)化樣本脫敏規(guī)范SpecificationfordesensitizationofunstructuredsamplesofelectricpowerartificialintelligencePAGE13目次TOC\o"1-7"\h\z前言 41范圍 52規(guī)范性引用文件 53術(shù)語(yǔ)和定義 54數(shù)據(jù)脫敏原則 64.1有效性 64.2可用性 64.3高效性 64.4穩(wěn)定性 64.5可配置性 75電力樣本可用性定級(jí) 76電力樣本保密性定級(jí) 77電力人工智能敏感樣本定義與分類 77.1敏感樣本分類 77.2敏感樣本定義 78脫敏場(chǎng)景 88.1共享場(chǎng)景 88.2開放場(chǎng)景 88.3數(shù)據(jù)分析場(chǎng)景 88.4開發(fā)測(cè)試場(chǎng)景 89電力圖像樣本脫敏處理 89.1功能要求 89.2數(shù)據(jù)格式要求 89.3性能要求 89.4脫敏方法 99.5脫敏效果評(píng)價(jià) 910電力文本樣本脫敏處理 1010.1功能要求 1010.2數(shù)據(jù)格式要求 1010.3性能要求 1110.4脫敏方法 1110.5脫敏效果評(píng)價(jià) 1211電力語(yǔ)音樣本脫敏處理 1211.1功能要求 1211.2數(shù)據(jù)格式要求 1211.3性能要求 1211.4脫敏方法 1211.5脫敏效果評(píng)價(jià) 13附錄A敏感樣本定義(資料性) 14
電力人工智能非結(jié)構(gòu)化樣本脫敏規(guī)范范圍本文件規(guī)定了圖像、文本、和語(yǔ)音等電力樣本脫敏應(yīng)用相關(guān)的原則、脫敏場(chǎng)景、功能要求、性能要求、脫敏方法和脫敏效果評(píng)價(jià)。本文件適用于圖像、文本、和語(yǔ)音等電力樣本脫敏處理,其他領(lǐng)域數(shù)據(jù)脫敏處理可參照使用。規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T20945—2013信息安全技術(shù)信息系統(tǒng)安全審計(jì)產(chǎn)品技術(shù)要求和測(cè)試評(píng)價(jià)方法GB/T35273—2020信息安全技術(shù)個(gè)人信息安全規(guī)范GB/T35678—2017公共安全人臉識(shí)別應(yīng)用圖像技術(shù)要求GB/T37988—2019信息安全技術(shù)數(shù)據(jù)安全能力成熟度模型GB/T39477—2020信息安全技術(shù)政務(wù)信息共享數(shù)據(jù)安全技術(shù)要求GB/T5271.28—2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)DB37/T3523.2—2019公共數(shù)據(jù)開放第2部分:數(shù)據(jù)脫敏指南DB52/T1126—2016政府?dāng)?shù)據(jù)數(shù)據(jù)脫敏工作指南DA/T77—2019紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范術(shù)語(yǔ)和定義GB/T39477-2020、GB/T5271.28—2001和DA/T77-2019,3.3界定的以及下列術(shù)語(yǔ)和定義適用于本文件。非結(jié)構(gòu)化樣本Nstructuredsample沒(méi)有固定結(jié)構(gòu)的樣本數(shù)據(jù),可以分為文本類、音頻類和圖像類三種類型,每種類型都有自己的格式和規(guī)范。樣本脫敏Sampledesensitization對(duì)電力樣本中某些敏感信息按照一定規(guī)則進(jìn)行數(shù)據(jù)變形,實(shí)現(xiàn)敏感信息樣本的可靠保護(hù)。敏感區(qū)域SensitiveRegion電力樣本中包含地點(diǎn)、設(shè)備名稱、人臉、身份證等敏感信息的區(qū)域。交并比Intersection-over-Union產(chǎn)生的候選框與原標(biāo)記框的交疊率,即它們的交集與并集的比值,完全重疊時(shí),比值為1。敏感數(shù)據(jù)sensitivedata由權(quán)威機(jī)構(gòu)確定的受保護(hù)的信息數(shù)據(jù)。注:敏感信息數(shù)據(jù)的泄露、修改、破壞或丟失會(huì)對(duì)人或事產(chǎn)生可預(yù)知的損害。[來(lái)源:GB/T39477-2020]文本脫敏Datadesensitization按照一定規(guī)則對(duì)電力文本原始數(shù)據(jù)進(jìn)行處理,達(dá)到屏蔽敏感信息的一種數(shù)據(jù)保護(hù)方法。人工智能artificialintelligence一門交叉學(xué)科,通常視為計(jì)算機(jī)科學(xué)的分支,研究表現(xiàn)出與人類智能(如推理和學(xué)習(xí))相關(guān)的各種功能的模型和系統(tǒng)。[來(lái)源:GB/T5271.28—2001,28.01.01]光學(xué)字符識(shí)別opticalcharacterrecognition(OCR)將圖片、照片上的文字內(nèi)容直接轉(zhuǎn)換為可編輯文本的一種技術(shù)。[來(lái)源:DA/T77-2019,3.3]脫敏成功率desensitizationsuccessrate電力人工智能樣本中成功完成脫敏信息占所需脫敏信息的比率。數(shù)據(jù)脫敏原則有效性電力人工智能樣本脫敏宜確保脫敏工作有效性。電力樣本在脫敏處理之后,樣本中包含的敏感信息已被移除,第三方無(wú)法通過(guò)處理后的電力樣本得到敏感信息,并防止利用推理和重建等方式恢復(fù)電力樣本中敏感信息。可用性電力人工智能樣本脫敏宜確保脫敏工作可用性。脫敏后的電力樣本應(yīng)保持原有的特征,應(yīng)盡可能保留原始樣本中的有用信息,滿足后續(xù)電力人工智能相關(guān)業(yè)務(wù)應(yīng)用需求。高效性電力人工智能樣本脫敏宜確保脫敏工作高效性。電力樣本脫敏過(guò)程中,宜通過(guò)自動(dòng)化、可重復(fù)方式實(shí)現(xiàn),在不影響有效性的前提下,平衡脫敏的力度和代價(jià),控制時(shí)間和經(jīng)濟(jì)成本。穩(wěn)定性電力人工智能樣本脫敏宜確保脫敏工作穩(wěn)定性。在輸入條件一致的條件下,對(duì)同一電力樣本,無(wú)論脫敏多少次,應(yīng)保證電力樣本脫敏結(jié)果是穩(wěn)定相同的。可配置性電力人工智能樣本脫敏宜確保脫敏工作可配置性。電力樣本可根據(jù)不同的輸入條件,生成不同的脫敏結(jié)果,即可按不同的使用場(chǎng)景需求,為用戶提供不同的脫敏樣本。電力樣本可用性定級(jí)電力樣本可用性,即執(zhí)行電力樣本脫敏的同時(shí)盡可能保留樣本的價(jià)值,最小化樣本信息損失,滿足后續(xù)電力人工智能相關(guān)業(yè)務(wù)需求。針對(duì)電力樣本應(yīng)用的不同場(chǎng)景,可將樣本可用性定級(jí)分為“高”、“低”兩級(jí):a)電力樣本可用性“高”,即脫敏后電力樣本滿足樣本應(yīng)用要求且樣本信息損失程度較低;b)電力樣本可用性“低”,即脫敏后電力樣本滿足數(shù)據(jù)應(yīng)用要求且樣本信息損失程度較高。電力樣本保密性定級(jí)針對(duì)電力人工智能樣本敏感信息泄露造成的社會(huì)危害性嚴(yán)重程度將電力樣本保密性定級(jí)分為“高”、“低”兩級(jí):a)電力樣本中包含少量敏感信息或敏感信息價(jià)值不高,該類樣本泄露,無(wú)法造成實(shí)際電力設(shè)備或人員的損害或威脅,則此類樣本的樣本保密性定級(jí)為“低”。b)電力樣本中包含大量敏感信息或敏感信息價(jià)值高,該類樣本泄露,會(huì)造成實(shí)際電力設(shè)備或人員的損害或威脅,則此類樣本的樣本保密性定級(jí)為“高”。電力人工智能敏感樣本定義與分類敏感樣本分類電力人工智能敏感樣本主要來(lái)自發(fā)電域、輸電域、供電域和用電域,涉及圖像、文本和語(yǔ)音多種類型,具體分類見表1。表1敏感樣本分類樣本類型范圍電力圖像樣本輸電無(wú)人機(jī)巡檢影像、變電巡檢機(jī)器人影像、安監(jiān)現(xiàn)場(chǎng)管控影像、營(yíng)銷設(shè)備影像和運(yùn)維工作單影像、發(fā)電設(shè)備影像、人員證件照、人臉影像、電力營(yíng)銷工作單、電網(wǎng)運(yùn)維工作單、發(fā)電設(shè)備類運(yùn)維工作單、電力企業(yè)財(cái)務(wù)報(bào)銷單、智能電表等電力文本樣本名稱類、電力企業(yè)及子公司地址類、電力工作人員和客戶聯(lián)系類、電力工作人員證件類、電力企業(yè)資產(chǎn)類、電力相關(guān)金融類、電力數(shù)據(jù)類(包含電力行業(yè)發(fā)電、配電、輸電、變電、用電和調(diào)度等環(huán)節(jié)的電力數(shù)據(jù))等電力語(yǔ)音樣本電力智能客服通話錄音文件、電力企業(yè)會(huì)議錄音文件、語(yǔ)音指令、檢修錄入語(yǔ)音文件等敏感樣本定義電力樣本敏感信息包括桿號(hào)牌、設(shè)備銘牌、人臉、用戶信息、地址、電話等,涉及輸電巡檢、變電巡檢、安監(jiān)、營(yíng)銷、智能客服等多個(gè)領(lǐng)域,具體定義見附錄A。脫敏場(chǎng)景共享場(chǎng)景共享電力樣本脫敏是指在電力系統(tǒng)內(nèi)各單位之間進(jìn)行脫敏后樣本共享。在電力樣本共享場(chǎng)景下,需根據(jù)電力樣本的保密等級(jí)來(lái)進(jìn)行不同程度脫敏處理后共享。開放場(chǎng)景開放電力樣本脫敏是指電力行業(yè)企業(yè)面向公民、法人和其他組織以非排他形式有條件開放部分電力樣本數(shù)據(jù)內(nèi)容,如脫敏后開放。在樣本開放場(chǎng)景下,需根據(jù)電力樣本的保密等級(jí)來(lái)進(jìn)行不同程度脫敏處理后開放。數(shù)據(jù)分析場(chǎng)景電力人工智能模型訓(xùn)練場(chǎng)景是指利用脫敏后的電力樣本進(jìn)行電力人工智能模型訓(xùn)練,電力人工智能模型開發(fā)人員獲取電力樣本時(shí)進(jìn)行脫敏處理,脫敏處理要服從有效性和可用性。開發(fā)測(cè)試場(chǎng)景電力人工智能模型測(cè)試場(chǎng)景是指利用脫敏后的電力樣本進(jìn)行電力人工智能模型測(cè)試,電力人工智能模型測(cè)試人員或者電力人工智能模型使用方獲取電力樣本時(shí)進(jìn)行脫敏處理,脫敏處理要服從有效性和可用性。電力圖像樣本脫敏處理功能要求電力圖像樣本脫敏處理功能應(yīng)具備對(duì)電力圖像中特定區(qū)域進(jìn)行識(shí)別、定位、標(biāo)識(shí)功能,并具備對(duì)特定的敏感信息進(jìn)行擦除的能力,確保數(shù)據(jù)使用人員無(wú)法利用脫敏后的電力圖像識(shí)別人員、設(shè)備、線路等敏感數(shù)據(jù)。電力圖像樣本脫敏應(yīng)具備圖像樣本靜態(tài)脫敏和動(dòng)態(tài)脫敏的功能。對(duì)電力圖像進(jìn)行靜態(tài)脫敏,保障電力圖像脫敏樣本可以多次使用。對(duì)電力圖像進(jìn)行動(dòng)態(tài)脫敏,具備用戶直接訪問(wèn)查看圖像樣本數(shù)據(jù)的能力,便于電力圖像樣本的運(yùn)維管理等。對(duì)于電力OCR樣本脫敏,應(yīng)支持對(duì)電力OCR數(shù)據(jù)中包含的內(nèi)容,明確其中敏感信息,同時(shí),脫敏后保持原有數(shù)據(jù)特征,支持多次脫敏之間的數(shù)據(jù)一致性,以及保持脫敏數(shù)據(jù)的業(yè)務(wù)關(guān)聯(lián)性,保證在開發(fā)、測(cè)試以及數(shù)據(jù)分析類業(yè)務(wù)不會(huì)受到脫敏的影響。數(shù)據(jù)格式要求電力圖像樣本格式應(yīng)為JPG、JPEG、JPEG2000、BMP、PNG常用格式。性能要求電力圖像樣本脫敏應(yīng)具備以下性能:a)擦除區(qū)域和實(shí)際敏感數(shù)據(jù)區(qū)域的交并比應(yīng)滿足75%~90%;b)電力圖像樣本脫敏速度應(yīng)滿足4張/秒;c)采用人工定性評(píng)價(jià)的脫敏成功率不低于95%;d)利用測(cè)試工具評(píng)估脫敏后數(shù)據(jù)對(duì)OCR組件系統(tǒng)識(shí)別功能無(wú)影響,性能指標(biāo)相對(duì)于脫敏前下降不超過(guò)10%,評(píng)價(jià)方法參見9.5節(jié)。脫敏方法電力圖像樣本脫敏宜根據(jù)技術(shù)成熟度和脫敏原則等要求選擇脫敏處理方法,涉及的脫敏方法見表2。表2電力圖像樣本脫敏方法圖像脫敏方法類別脫敏方法子類描述應(yīng)用場(chǎng)景加密技術(shù)混淆使用排序,循環(huán)移位,Arnold變換,幻方變換等方法,打亂電力圖像樣本中像素值原來(lái)所在的位置。適用于電力圖像樣本各設(shè)備、各單位間傳輸擴(kuò)散使用異或運(yùn)算方法,在不改變像素點(diǎn)位置的情況下,將任一圖像明文像素點(diǎn)的信息隱藏在盡可能多的密文像素點(diǎn)中。適用于電力圖像樣本各設(shè)備、各單位間傳輸靈活編碼用固定字母和固定位數(shù)的數(shù)字替代需要脫敏的文本。合同識(shí)別中的編號(hào)識(shí)別掩碼屏蔽掩碼屏蔽是針對(duì)賬戶類數(shù)據(jù)的部分信息采用字符串代替的方式讓敏感數(shù)據(jù)脫敏。增值稅發(fā)票識(shí)別中購(gòu)買方地址及電話等置亂對(duì)敏感數(shù)據(jù)列的值進(jìn)行重新隨機(jī)分布,混淆原有值和其他字段的聯(lián)系。獲獎(jiǎng)證書識(shí)別中頒發(fā)單位等信息替換技術(shù)統(tǒng)一色塊替換使用純色塊如純黑色來(lái)替換原圖敏感區(qū)域像素級(jí)別數(shù)據(jù),確保擦除后的數(shù)據(jù)信息不可逆和不可復(fù)原。適用于電力視覺(jué)模型訓(xùn)練、樣本查看展示無(wú)效化對(duì)字段數(shù)據(jù)值進(jìn)行截?cái)唷⒓用堋㈦[藏等方式讓敏感數(shù)據(jù)脫敏。PDF轉(zhuǎn)word中涉密字段信息近似采用相同含義的數(shù)據(jù)替換原有的敏感數(shù)據(jù),例如身份證信息脫敏后仍然為有效的身份證信息。身份證關(guān)鍵字段脫敏生成技術(shù)添加噪聲對(duì)電力圖像樣本添加隨機(jī)值到敏感區(qū)域或整幅圖像,同時(shí)盡可能保持脫敏后圖像保持原始特性。適用于圖像樣本統(tǒng)計(jì)分析微聚集用算法計(jì)算出圖像樣本敏感區(qū)域的平均值,并替代整個(gè)敏感區(qū)域的去標(biāo)識(shí)化技術(shù)。適用于電力視覺(jué)模型訓(xùn)練、樣本查看展示模糊技術(shù)模糊、虛化、馬賽克對(duì)電力圖像樣本敏感區(qū)域進(jìn)行像素級(jí)處理,比如模糊、虛化、打馬賽克、均值模糊、高斯模糊等算法。適用于電力視覺(jué)模型訓(xùn)練、樣本查看展示脫敏效果評(píng)價(jià)對(duì)電力圖像樣本(包括ocr)脫敏效果的評(píng)價(jià),宜隨機(jī)抽取不少于10%或100條電力圖像脫敏樣本作為測(cè)試集進(jìn)行脫敏,執(zhí)行人工定性評(píng)價(jià)。無(wú)損脫敏需進(jìn)一步執(zhí)行程序量化評(píng)價(jià):人工定性評(píng)價(jià):由評(píng)價(jià)人員對(duì)電力圖像脫敏樣本是否隱藏了敏感隱私信息進(jìn)行定性評(píng)價(jià)。人工評(píng)價(jià)包括兩部分。一是從脫敏后的樣本中隨機(jī)抽取10%的電力圖像樣本,查看脫敏失敗的樣本占抽取樣本的比例:R1=A1/B1其中,A1為脫敏失敗的樣本量,B1為隨機(jī)抽取的樣本量。二是計(jì)算脫敏完成后的數(shù)據(jù)區(qū)域占敏感區(qū)域的比例,如下圖所示:R2=C2/B2其中,B2為電力圖像中敏感區(qū)域面積,C2為脫敏完成的區(qū)域。b)程序量化評(píng)價(jià):面向電力視覺(jué)模型訓(xùn)練和檢測(cè)等樣本應(yīng)用任務(wù),采用基于深度學(xué)習(xí)的評(píng)價(jià)程序,分別對(duì)脫敏前、脫敏后電力圖像樣本執(zhí)行對(duì)應(yīng)任務(wù),獲得任務(wù)的公共評(píng)價(jià)指標(biāo)計(jì)算得到的結(jié)果差值,即為程序量化評(píng)價(jià)結(jié)果。C)測(cè)試工具評(píng)價(jià):針對(duì)ocr圖像類樣本,在執(zhí)行脫敏工作基礎(chǔ)上,利用測(cè)試工具評(píng)估脫敏后數(shù)據(jù)對(duì)OCR組件系統(tǒng)功能、性能等方面的影響,并根據(jù)驗(yàn)證情況不斷優(yōu)化脫敏規(guī)劃。電力文本樣本脫敏處理功能要求電力文本脫敏應(yīng)具備對(duì)各類電力文檔中的敏感文本內(nèi)容按照脫敏規(guī)則進(jìn)行數(shù)據(jù)變形的能力,以確保電力文本敏感隱私數(shù)據(jù)得到可靠保護(hù),具體應(yīng)滿足以下要求:a)應(yīng)支持對(duì)包括但不限于UTF-8、GBK、GB2312等主流編碼的文本進(jìn)行脫敏;b)應(yīng)支持對(duì)包括但不限于中文、英文等電力文檔主要語(yǔ)言文本進(jìn)行脫敏;c)應(yīng)提供無(wú)損、有損的電力文本脫敏方法。對(duì)于無(wú)損脫敏,應(yīng)確保電力文本脫敏后保留原始語(yǔ)言特征分布,以實(shí)現(xiàn)文本數(shù)據(jù)標(biāo)注信息對(duì)脫敏前后的文本都有效。選項(xiàng)至少包括脫敏后文本長(zhǎng)度相等、脫敏后文本詞性相同、脫敏后文本語(yǔ)言相同;d)應(yīng)支持敏感文本的定義與自動(dòng)識(shí)別,至少提供基于關(guān)鍵詞匹配的敏感文本識(shí)別、基于正則表達(dá)式匹配的敏感文本識(shí)別;e)應(yīng)支持指定敏感文本的基本識(shí)別單位。至少提供基于分詞的識(shí)別以及基于字符的識(shí)別。其中,基于分詞的脫敏要求內(nèi)置分詞功能,以識(shí)別的分詞為單位進(jìn)行脫敏。基于字符的脫敏要求能對(duì)文本中連續(xù)出現(xiàn)的字符串進(jìn)行脫敏。數(shù)據(jù)格式要求電力文本數(shù)據(jù)格式應(yīng)滿足以下要求:a)編碼格式:包括但不限于UTF-8、GBK、GB2312等主流編碼的文本;b)語(yǔ)言:包括但不限于中文、英文等電力文檔主要語(yǔ)言文本;c)存儲(chǔ)方式:包括但不限于TXT、CSV、xls、xlsx、xml等常見格式。性能要求電力文本脫敏的性能應(yīng)滿足以下要求:a)采用人工定性評(píng)價(jià)的脫敏成功率不低于97%。評(píng)價(jià)方法參見10.6節(jié)。b)對(duì)于無(wú)損脫敏,需對(duì)脫敏后電力文本原始語(yǔ)言特征分布保留情況進(jìn)行度量。對(duì)脫敏后的文本執(zhí)行脫敏效果評(píng)價(jià),性能指標(biāo)相對(duì)于脫敏前下降不超過(guò)10%。評(píng)價(jià)方法參見10.6節(jié)。脫敏方法電力文本脫敏主要技術(shù)手段包括:掩碼技術(shù)、擾亂技術(shù)、有損技術(shù)等。其中掩碼是指通過(guò)隱藏?cái)?shù)據(jù)中部分信息的方式來(lái)對(duì)原始數(shù)據(jù)的值進(jìn)行轉(zhuǎn)換,又稱為隱藏技術(shù)。擾亂是指通過(guò)加入噪聲的方式對(duì)原始數(shù)據(jù)進(jìn)行干擾,以實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的扭曲、改變,擾亂后的數(shù)據(jù)仍保留著原始數(shù)據(jù)的分布特征。有損是指通過(guò)損失部分?jǐn)?shù)據(jù)的方式來(lái)保護(hù)整個(gè)敏感數(shù)據(jù)集,適用于數(shù)據(jù)集的全部數(shù)據(jù)匯總后才構(gòu)成敏感信息的場(chǎng)景。宜根據(jù)電力文本數(shù)據(jù)的安全敏感性、使用風(fēng)險(xiǎn)、使用場(chǎng)景選擇對(duì)應(yīng)的脫敏方法。具體電力文本脫敏方法參見表3。表3電力文本樣本脫敏方法序號(hào)脫敏方法方法描述示例主要使用場(chǎng)景1掩碼用通用字符替換原始數(shù)據(jù)中的部分信息,掩碼后的數(shù)據(jù)長(zhǎng)度與原始數(shù)據(jù)一樣。將用電地址“北京市豐臺(tái)區(qū)太平橋街道麗澤路20號(hào)院1號(hào)樓”經(jīng)過(guò)掩碼得到“北京市豐臺(tái)區(qū)太平橋街道麗澤路***號(hào)院***號(hào)樓”。開放、共享等2規(guī)整將數(shù)據(jù)按照大小規(guī)整到預(yù)定義的多個(gè)檔位。將用戶用電量按照規(guī)模分為高、中、低三個(gè)級(jí)別,將用戶用電量數(shù)據(jù)用這三個(gè)級(jí)別代替。數(shù)據(jù)分析、開發(fā)測(cè)試等3擾亂利用加密、重排等方式對(duì)原始數(shù)據(jù)進(jìn)行修改。保留數(shù)據(jù)原始特征,并能經(jīng)過(guò)業(yè)務(wù)校驗(yàn)。將用戶姓名“張三”變?yōu)椤癦S”。開發(fā)測(cè)試等4數(shù)值隨機(jī)用隨機(jī)生成某個(gè)范圍的一個(gè)值去替換原始值的一種脫敏算法。將用戶電費(fèi)金額1352亂序?yàn)?123。共享、開放、開發(fā)測(cè)試等5均化針對(duì)數(shù)值性的敏感數(shù)據(jù),在保證脫敏后數(shù)據(jù)集總值或平均值與原數(shù)據(jù)集相同的情況下,改變數(shù)值的原始值。將用電量數(shù)據(jù)7、4、9、6均化為9、3、8、7。數(shù)據(jù)分析、開發(fā)測(cè)試等6數(shù)據(jù)截?cái)嘀苯由釛墭I(yè)務(wù)不需要的信息,僅保留部分關(guān)鍵信息。將用戶手機(jī)號(hào)斷為135。開發(fā)測(cè)試等脫敏效果評(píng)價(jià)對(duì)電力文本的脫敏效果評(píng)價(jià),宜隨機(jī)抽樣不少于10%或100條文本內(nèi)容,執(zhí)行人工定性評(píng)價(jià)。無(wú)損脫敏需進(jìn)一步執(zhí)行程序量化評(píng)價(jià):人工定性評(píng)價(jià):由評(píng)價(jià)人員依據(jù)有效性、可用性原則對(duì)抽樣的電力文本樣本的脫敏結(jié)果進(jìn)行評(píng)價(jià)。在有效性方面,重點(diǎn)對(duì)電力樣本在脫敏處理之后是否已經(jīng)移除所包含的敏感信息進(jìn)行評(píng)價(jià),超過(guò)99%文本實(shí)現(xiàn)脫敏結(jié)果的正確移除則評(píng)價(jià)結(jié)果為有效,否則評(píng)價(jià)結(jié)果為無(wú)效;在可用性方面,重點(diǎn)對(duì)脫敏后的電力樣本是否保持原有的特征進(jìn)行評(píng)價(jià),超過(guò)90%文本保留了原始樣本中的有用信息則評(píng)價(jià)結(jié)果為可用,否則評(píng)價(jià)結(jié)果為不可用。采用以下公式進(jìn)行計(jì)算:R3=A3/B3其中,A3為脫敏失敗的文本樣本內(nèi)容條數(shù),B1為隨機(jī)抽取的文本樣本條數(shù)。b)程序量化評(píng)價(jià):面向自然語(yǔ)言處理的信息抽取、文本分類等標(biāo)準(zhǔn)任務(wù),采用基于深度學(xué)習(xí)及預(yù)訓(xùn)練語(yǔ)言模型技術(shù)路線的評(píng)價(jià)程序,分別對(duì)脫敏前、脫敏后電力文本執(zhí)行對(duì)應(yīng)任務(wù),獲得任務(wù)的公共評(píng)價(jià)指標(biāo)計(jì)算得到的結(jié)果差值,即為程序量化評(píng)價(jià)結(jié)果。電力語(yǔ)音樣本脫敏處理功能要求電力語(yǔ)音脫敏應(yīng)具備對(duì)各類電力語(yǔ)音中的敏感內(nèi)容按照脫敏規(guī)則進(jìn)行數(shù)據(jù)變形的能力,以確保電力語(yǔ)音敏感隱私數(shù)據(jù)得到可靠保護(hù),具體應(yīng)滿足以下要求:應(yīng)支持對(duì)包括但不限于WAV、AMR、M4A等主流格式的音頻文件進(jìn)行脫敏。數(shù)據(jù)格式要求電力語(yǔ)音數(shù)據(jù)格式應(yīng)滿足以下要求:應(yīng)為音頻文件格式:包括但不限于WAV、AMR、M4A等主流格式。性能要求電力語(yǔ)音脫敏的性能應(yīng)滿足以下要求:采用人工定性評(píng)價(jià)的脫敏成功率不低于97%。脫敏方法電力語(yǔ)音樣本脫敏宜根據(jù)技術(shù)成熟度和脫敏原則等要求選擇脫敏處理方法,涉及的脫敏方法見表4。表4電力語(yǔ)音樣本脫敏方法語(yǔ)音脫敏方法類別脫敏方法子類描述應(yīng)用場(chǎng)景替換技術(shù)統(tǒng)一語(yǔ)音替換對(duì)電力語(yǔ)音敏感音頻用統(tǒng)一音頻進(jìn)行替換,確保替換后的數(shù)據(jù)信息不可逆和不可復(fù)原。電力智能客服場(chǎng)景生成技術(shù)添加噪聲對(duì)電力語(yǔ)音樣本添加噪聲到敏感區(qū)域,同時(shí)盡可能保持脫敏后語(yǔ)音保持原始特性。電力會(huì)議錄音轉(zhuǎn)寫場(chǎng)景脫敏效果評(píng)價(jià)對(duì)電力語(yǔ)音的脫敏效果評(píng)價(jià),宜隨機(jī)抽樣不少于10%或100條語(yǔ)音內(nèi)容,執(zhí)行人工定性評(píng)價(jià)。a)人工定性評(píng)價(jià):由評(píng)價(jià)人員對(duì)電力語(yǔ)音脫敏結(jié)果是否隱藏了敏感隱私信息進(jìn)行定性評(píng)價(jià),計(jì)算脫敏失敗的樣本占抽取樣本的比例,可采用以下公式進(jìn)行計(jì)算:R4=A4/B4其中,A4為脫敏失敗的語(yǔ)音樣本內(nèi)容條數(shù),B4為隨機(jī)抽取的語(yǔ)音樣本條數(shù)。b)程序量化評(píng)價(jià):面向語(yǔ)音識(shí)別、語(yǔ)音轉(zhuǎn)寫等標(biāo)準(zhǔn)任務(wù),采用基于深度學(xué)習(xí)技術(shù)路線的評(píng)價(jià)程序,分別對(duì)脫敏前、脫敏后電力語(yǔ)音執(zhí)行對(duì)應(yīng)任務(wù),獲得任務(wù)的公共評(píng)價(jià)指標(biāo)計(jì)算得到的結(jié)果差值,即為程序量化評(píng)價(jià)結(jié)果。
(資料性)表A.1敏感樣本定義敏感樣本分類數(shù)據(jù)類型分類電力圖像樣本輸電巡檢圖像類包含桿號(hào)牌、相序牌、巡檢工單等敏感信息樣本。例如:“110kV珞洪一回09#”中的地點(diǎn)線路信息。變電巡檢圖像類包含設(shè)備銘牌、箱體銘牌、巡檢工單等敏感信息類樣本。例如:“220kV#10主變斷路器#682斷路器A相”中的設(shè)備和相序信息。配電領(lǐng)域圖像類包含
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 三門峽職業(yè)技術(shù)學(xué)院《對(duì)外漢語(yǔ)教學(xué)語(yǔ)法研究》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江省淮北市2024-2025學(xué)年數(shù)學(xué)五年級(jí)第二學(xué)期期末監(jiān)測(cè)試題含答案
- 新疆現(xiàn)代職業(yè)技術(shù)學(xué)院《視覺(jué)傳達(dá)設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 阜陽(yáng)職業(yè)技術(shù)學(xué)院《高分子復(fù)合原理及配方設(shè)計(jì)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 大慶師范學(xué)院《現(xiàn)代檢測(cè)技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南環(huán)境生物職業(yè)技術(shù)學(xué)院《分子細(xì)胞與醫(yī)學(xué)遺傳基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西工業(yè)工程職業(yè)技術(shù)學(xué)院《資本運(yùn)營(yíng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西省新余市分宜中學(xué)2025年高三(下)返校語(yǔ)文試題試卷含解析
- 潤(rùn)滑油行業(yè)報(bào)告
- 2025 培訓(xùn)講師雇傭合同 機(jī)構(gòu)終止培訓(xùn)講師雇傭合同
- GB/T 1420-2015海綿鈀
- 鍵盤顯示器接口課件
- 良性前列腺增生診療指南
- 預(yù)防校園欺凌-共創(chuàng)和諧校園-模擬法庭劇本
- 中國(guó)火車發(fā)展歷程課件
- 執(zhí)行力、心態(tài)管理培訓(xùn)課件
- 河北省廊坊市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)及行政區(qū)劃代碼
- (最新)信貸資產(chǎn)風(fēng)險(xiǎn)分類管理辦法
- 不甘屈辱奮勇抗?fàn)幍谌n時(shí)甲午風(fēng)云課件五年級(jí)道德與法治
- 家具廠安全生產(chǎn)臺(tái)帳
- 精神科應(yīng)急預(yù)案PPT課件
評(píng)論
0/150
提交評(píng)論