《針對內容安全的人工智能數據標注指南》_第1頁
《針對內容安全的人工智能數據標注指南》_第2頁
《針對內容安全的人工智能數據標注指南》_第3頁
《針對內容安全的人工智能數據標注指南》_第4頁
《針對內容安全的人工智能數據標注指南》_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240.20

L60

團體標準

T/ISC0005—2020

針對內容安全的人工智能

數據標注指南

GuidelinesforAIdataannotationincontentsecurity

2020-09-24發布2020-12-01實施

中國互聯網協會發布

T/ISC0005—2020

針對內容安全的人工智能數據標注指南

1范圍

本文件規定了針對內容安全的人工智能數據標注主要過程,以及過程中的相關活動。

本文件適用于因業務需要使用人工智能技術進行內容安全審核,提供第三方數據標注服務,以及設

計開發數據標注服務平臺的組織等。

2規范性引用文件

下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T35273-2020信息安全技術個人信息安全規范

GB/T37964-2019信息安全技術個人信息去標識化指南

3術語和定義

下列術語和定義適用于本文件。

3.1

數據標注dataannotation

對文本、圖像、語音、視頻、3D點云等原始數據進行歸類、整理、糾錯、轉錄、翻譯和添加標簽等

操作,以生成滿足機器學習訓練要求的、機器可識別的數據編碼。

3.2

標簽label

標識數據的特征、類別和屬性等,可用于建立數據及機器學習訓練要求所定義的機器可讀數據編碼

間的聯系。標簽是數據標注的結果,是機器學習訓練所需的輸入之一。

3.3

標注過程annotationprocess

按照數據標注規范對指定數據集進行標注的過程。

3.4

標注工具annotationtool

數據標注員完成標注任務產生標注結果時所需的工具和軟件。

1

T/ISC0005—2020

注1:標注工具可生成標簽并提供參考模板。

注2:不同的數據類型和標注任務需要不同的標注工具。標注工具按自動化程度可分為手動、半自動、自動三種。

3.5

標注平臺annotationplatform

開展標注任務的系統化框架。

注1:標注平臺在包含標注工具全部功能的基礎上將所有標注環節工具化,可有效地對標注任務進行全局管理和跟

蹤。

3.6

數據預處理datapreprocessing

為提升數據標注的效率、質量、降低人力參與強度,對原始數據進行預先處理,其中包括:數據篩

選、數據切分、機器半自動預標等過程。

3.7

訓練樣本trainingsample

數據標注后提交給需求方做模型訓練樣本的數據。

3.8

數據標注員/團隊datalabeler/team

對文本、圖像、音頻、視頻、3D點云等原始數據進行歸類、整理、糾錯、轉錄、翻譯、編輯和添加

標簽等操作的工作人員或團隊。

4概述

本文件給出了針對內容安全的人工智能數據標注的主要過程,其中包括:需求承接、標注準備、正

式標注、驗收交付、訓練模型、上線準備等。數據標注流程架構見圖1:

圖1數據標注流程架構

5需求承接

5.1需求接收

標注團隊與需求方應明確標注規模、標注形式、標注方法、標簽標準、數據安全要求、標注復雜度、

標注數據格式、工期約定、準確率要求、數據交付格式、說明文檔以及培訓細節。

2

T/ISC0005—2020

5.2需求評估

標注團隊應對承接的需求進行評估,形成評估結論。

評估結論應包括現有資源能否承接該需求,需求實現路徑,以及評估新增需求對現有需求的影響范

圍,需求承接方案等內容。

5.3需求確認

標注團隊應與需求方協商一致,將最終確認的需求形成文檔并留存。

6標注準備

6.1數據獲取

標注團隊應根據需求內容,識別可獲取的標注數據源渠道,評估數據源渠道的可行性,確認完成標

注需求所需標注數據源構成。

數據獲取過程中個人信息保護,應滿足GB/T35273-2020。

數據去標識化處理的方法,應滿足GB/T37964-2019。

6.2數據預處理

標注團隊應根據標注需求以及標注數據的特性,通過數據聚類、組合排列、數據雜質去除等方法,

提高標注數據的有效性、標注效率、標注質量。數據預處理方法參見表1:

表1數據預處理方法

維度方法詳細內容

數據去重MD5特征值去重,相似度去重

針對初步具備識別能力的模型,通過模型預

模型預處理

測結果進行篩選,進行樣本標注

通用數據預處理流程數據分類共性無效樣本分類識別

數據聚類基于相似度的聚類處理

針對初步具備識別能力的模型,通過模型標

主動學習

注,人工修正的方式,進行樣本標注

針對特殊業務形式,數據類型進行

專項數據預處理流程多模態技術疊加,多個數據預處理流程疊加

專項數據預處理流程研究

6.3操作規程

標注團隊應:

a)根據已確認的標注需求,形成標準化的操作規程;

b)確保執行數據標注任務的相關人員了解操作規程。

6.4質檢方案

標注團隊應:

a)制定質檢方案,確保標注結果質量。方案內容包括但不限于:

——質量責任人;

3

T/ISC0005—2020

——抽樣理論依據,如置信度和誤差是否在可接受的范圍;

——抽樣方式,如隨機抽樣、分層抽樣等;

——抽樣量級,如確定整體抽樣量級、階段性抽樣量級等;

——抽樣頻次,如按時間周期抽樣、階段性抽樣等;

——反饋機制,如按時間周期反饋、階段性反饋等;

——指標/閾值的計算方法。

b)保留質檢方案的相關成文信息。

6.5工具/平臺

標注團隊應根據需求準備相應的標注工具/平臺,如線下工具、平臺復用、平臺優化、平臺新建等

方式。

標注工具/平臺應具備以下能力,具備包括但不限于如下能力:

a)對文本、圖像、視頻、音頻、3D點云數據等各類數據進行標注;

b)權限管理,包括:創建賬號、授權管理、權限審批、角色配置;

c)人員管理,包括:角色配置、績效管理;

d)流程管理,可以根據標注需求進行流程調整;

e)版本管理,對標注內容和結果進行版本管理和控制。

6.6人員能力

標注團隊應:

a)確定數據標注員和質檢人員所需具備的能力,這些人員從事的工作影響標注的質量和有效性;

b)基于適當的教育、培訓和經驗(知識庫),確保這些人員是勝任的;

c)跟蹤培訓的效果,并評價其有效性;

d)保留適當的成文信息,作為人員能力的證據。

6.7試標注

標注團隊應:

a)在正式標注前,小范圍抽取數據標注員進行試標注、質檢團隊試質檢,試運行標注的全過程;

b)對試標注的數據量的大小、百分比等因素進行限定;

c)保留試標注以及因試標注引起的對標注需求、標注操作規程、質檢方案變更相關的成文信息。

6.8制定標注方案

標注團隊應針對特定需求制定相應的標注方案,包括但不限于:

a)資源規劃,如數據源、標注工具/平臺;

b)人力資源規劃;

c)項目進度規劃;

d)項目質量規劃;

e)風險控制措施;

f)應急預案等。

7標注

7.1實施標注

4

T/ISC0005—2020

按照已定標注方案,協調安排標注人員進行正式標注活動。其中包括:

a)數據導入;

b)任務安排;

c)人工標注。

7.2進度管理

標注團隊應在標注過程中實時監控、管理標注的實際進度,并根據實際進度分析、預警風險,制定

相應方案。

7.3質量控制

標注團隊應按照已定的質檢方案進行質量控制。質量控制方法包括但不限于如下方式,見表2:

表2質量控制方法

質量控制方法詳細描述

多人驗證多人做同一個子任務,通過標注工具的功能自動或人工輔助選

擇出最優、最正確的標注結果。

埋題驗證在任務進行期間,除了常規標注子任務外,在任務中混進若干

已知結果的測試題,以此驗證一線操作標注人員的標注水平。

標注人員狀態驗證通過一定方法對標注人員的操作規范性、實時注意力狀態、標

注準確率等方面進行檢查與監測,及時發現操作違規問題,保

證數據質量。

機器驗證在任務進行期間使用機器學習方法,得到數據準確率,一旦發

現離群點或明顯的降低趨勢,及時對標注人員預警和警告。

7.4交付、驗收

標注團隊應按照事先確認的最終需求進行交付。

需求方應按照要求進行驗收,如驗收數據質量未達到預期,數據需求方可要求標注團隊對標注數據

進行修正。

雙方應保留相關成文信息。

8模型訓練

8.1模型訓練

數據使用方通過運用人工標注結果數據,利用卷積神經網絡、循環神經網絡等算法模型學習標注后

的數據特征,實現對目標樣本具有一定的預測能力。

8.2模型驗證

數據使用方應對數據預測效果對模型能力進行分析評估,評價模型效果。

9上線運行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論