




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
DB23/TXXXX—2024
人工智能數據標注總體框架規范
1范圍
本文件規定了人工智能數據標注的要求,為人工智能數據標注的生產過程提供建議。
本文件適用于面向人工智能學習、研發或應用等需要實施數據標注的企業、高校、研究機構、政府
機關。其他行業和機構可參照執行。
2規范性引用文件
下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T35295信息技術大數據術語
GB/T25069信息安全技術術語
3術語和定義
下列術語和定義適用于本文件。
數據標注
對準備使用人工智能研究的文本、圖像、音頻和視頻等數據進行特征標注以滿足正常可用的過程。
數據標簽
用于標識出數據特征并建立標注數據與人工智能可用數據之間聯系的信息。
數據標注工具
能夠進行數據標注及在數據標注過程中進行管理、控制等過程中發揮作用的軟件的統稱。
數據標注技術
對數據進行轉寫、切割、提取、選擇、富集標注、點標注、線標注、框標注、區域標注等操作的技
術。
數據標注合格率
某項標注任務中,符合標注規則要求的已標注數據總量與所有已標注數據總量的比值。
4基本要求
標注人員
參與數據標注的人員應具有相應的資質,對于確定符合要求的人員培訓環節,應做到:
a)根據標注任務說明,對標注人員進行崗前能力培訓。標注能力合格者,參與標注任務;
1
DB23/TXXXX—2024
b)建立標注人員能力檔案,記錄標注人員承擔標注任務的相關內容,用于進行標注人員能力評估
與標注質量追蹤。
明確職責
規定參與人工智能數據標注的所有角色的職能,應做到:
a)設立人工智能數據管理崗位。該崗位要求對業務、法律法規比較熟悉,應根據業務實際需要
確定承擔數據管理工作的部門或人員的職責;
b)明確各環節角色的職責。應明確數據標注人員、數據標注培訓人員、數據標注質量控制員以
及與人工智能數據標注相關的其他角色的職責。
合法合規
應出臺規章制度保障人工智能數據標注活動的合法合規性,并做到:
a)學習并嚴格執行與數據保護、數據安全相關的法律法規、制度等;
b)正確的對個人隱私和敏感數據進行處理,確保標注過程合法合規;
c)建立跨部門、跨組織數據標注、傳輸的保護制度。
保障質量
應確保人工智能數據標注的質量,并做到:
a)確保人工智能數據標注的準確性、可用性、完整性;
b)建立質量保障制度,提高數據標注合格率;
c)建立定期抽查,不定期檢測的質量控制制度。
標注范圍最小化
應確保數據標注相關角色對數據掌握范圍的最小化,做到:
a)數據標注任務開始前,明確數據接觸范圍及使用范圍;
b)提供技術或者建立制度保證數據標注過程中,數據范圍不擴散;
c)數據標注任務完成后,及時回收數據操作權限。
數據安全
應從以下幾方面做好數據保密工作,確保數據安全:
a)數據分發,使用必要的安全方式確保人工智能數據分發過程中的安全性要求;
b)數據存儲,建立訪問控制制度以及加密機制確保人工智能數據存在保密性要求;
c)加密數據的標注,使用加密算法對加密人工智能數據進行運算標注,如同態加密算法等;
d)數據匯總,使用數據隔離等方式確保人工智能數據匯總時滿足保密性要求;
e)密碼密鑰的安全,建立人工智能數據密碼密鑰管理系統。
數據完整
為確保標注過程數據完整性,應做到:
a)接收人工智能數據可驗證,應保證接收的數據已通過認證;
b)人工智能數據傳輸過程完整性,應保證標注活動數據完整性;
c)數據標注可靠性,確保標準過程只執行了批準的范圍;
d)數據儲存完整性,確保數據標注存儲及備份數據完整行。
2
DB23/TXXXX—2024
數據可審計
對數據標注各環節建立審計機制或制度,確保數據標注全過程能夠對數據進行審計,應做到:
a)對數據標注過程信息進行記錄,并保證記錄過程真實可靠;
b)利用合理的技術方案確保數據標注的所有過程和行為可溯源。
其他要求
數據標注除了考慮以上要求外,還應針對人工智能數據的特點從數據標注任務的其他方面分析,包
括但不限于:
a)數據標注需不影響社會和公共安全;
b)數據標注需考慮跨部門、跨組織的數據開放共享;
c)跨境數據流動;
d)知識產權保護及數據價值保護。
5總體框架
人工智能數據標注框架應包括任務規劃、任務執行、任務評審、交付驗收和總結、后期維護六過程。
具體過程可根據數據標注任務規模簡化或裁剪,人工智能數據標注總體框架見圖1。
明確需求獲取數據
任務規劃
分析數據確定規則
任務創建任務分發任務執行
任務實施
任務檢驗風險評估風險提醒
人工智能數專家評審評審方式
任務評審
據標注任務回退
交付內容安全保障
任務驗收
交付驗收任務歸檔
總結總結
后期維護后期維護
圖1人工智能數據標注總體框架
6任務規劃
明確需求
數據標注開始前,數據標注任務負責人應及時獲取并明確數據標注的需求,包括但不限于以下內容:
a)數據標注需求完成的時間節點;
b)數據標注的內容;
3
DB23/TXXXX—2024
c)數據標注的方法;
d)數據驗收規則;
e)約定標注任務參與人員的資質要求;
f)數據標注結果的交付形式;
g)數據的知識產權歸屬。
獲取數據
數據標注項目負責人應及時獲取待標注數據,數據獲取方式包括:
a)平臺接口對接的方式;
b)存儲介質復制的方式。
分析數據
數據標注前,應對待標注數據進行分析,核對標注任務,包括:
a)數據核查。檢查待標注數據是否與標注任務說明書中的數據定義相符,核查結果及時同步給
數據需求方;
b)數據整理。建立完善的數據追蹤機制,實現數據整理,以及最小粒度的數據追蹤;
c)數據處理。根據標注任務以及標注數據的特性,通過數據聚類、組合排列、數據雜質去除等
方法,提高標注質量。
確定規則
數據標注項目負責人應按照標注規劃進行標注規則驗證與細化,并完成以下內容:
a)確定數據試標數量。應遵循數據標注內容覆蓋全面性及數據標注成本最小化要求,抽取數量
作為試標數量;
b)數據試標。應選擇中等以上技能的數據標注員,按照標注規則對抽樣數據進行標注,以驗證
標注規則的合理性;
c)細化數據標注規則。應遵循易理解、易操作的原則,保持與數據標注需求一致的原則,對數
據試標中發現的不合理的規則進行修改。
7任務實施
任務創建
數據標注任務負責人應利用標注工具創建數據標注項目相關內容,包括:
a)任務包創建。將需要標注的數據合理分組,保證數據標注質量以及后續的任務分配;
b)任務賬戶創建。應以標注人員數量為依據,綜合標注數據規模、質量分析等需求,根據標注
環境或者標注工具,創建標注過程中所需要使用的用戶賬戶,并分配相應的權限或賬戶使用
規則;
c)任務創建保障。應制定標注任務創建和數據上傳相關制度,明確數據上傳分類分級、數據安
全風險評估和安全監控制度,監管上傳數據的合法合規性。
任務分發
數據標注任務負責人應利用標注工具將數據標注任務分派給數據標注人員或數據標注團隊,標注任
務分發主要包括以下內容:
4
DB23/TXXXX—2024
a)標注任務分發類型。應根據標注任務要求,結合標注質量管理以及標注時間管理,在保證標
注質量的前提下,選擇主動領取或系統自動分發等任務分發類型,優化標注任務分發策略;
b)標注任務分發保障。應制定標注任務分發安全管理制度,明確標注任務分發日志內容,監控
標注任務分發安全。
任務執行
數據標注員或數據標注團隊應使用數據標注工具完成指派的數據標注任務,標注執行主要包括以下
內容:
a)標注任務分配。應安排數據標注人員使用分配的標注賬戶,對分配到的任務進行標注;
b)標注過程反饋。應建立標注過程反饋機制,將與標注要求不符、標注要求中未涵蓋的數據等
情況,及時反饋標注管理,確保標注規則與數據的匹配度;
c)標注任務開展保障。應明確數據脫敏和個人信息安全影響評估制度,在標注前對個人信息進
行數據脫敏處理,保障數據標注流程合法、合規性,并對數據標注結果進行分級制度,適當
提高數據安全等級。
任務檢驗
7.4.1質量檢驗
數據標注質量控制員在任務進行過程中按照標注規則進行質量檢驗和質量糾偏。
7.4.2進度檢驗
數據標注任務負責人在任務進行中應使用數據標注工具,對數據標注進度和數據標注計劃偏差情況
進行檢驗,并及時調整資源和標準進度要求。
7.4.3一致性檢查
在標注任務進行期間應使用統計規則或模型驗證等方法,得到標注任務一致性水平,一旦發現明顯
的偏離或出現一致性降低的趨勢,及時對標注人員預警。
風險預估
在標注任務進行過程中,應對標注任務是否能夠達到預期進行檢測和評估,并針對可能存在的風險
進行提示。風險評估應包括以下幾方面:
a)任務時間風險。包括標注任務可能在預期時間內未能完成或者標注任務所需的時間可能被低
估,導致任務無法按時完成的風險;
b)任務進度風險。參與標注任務人員不足風險及標注人員之間溝通、協調與管理的風險,導致
進度延誤;
c)任務質量風險。數據標注不準確,或者不同標注人員主觀意識和個人偏好出現標注偏差,導
致標注數據的質量下降的風險;
d)數據隱私風險:在數據標注過程中,可能涉及到個人敏感信息的泄露,如姓名、地址等泄密
的風險。
風險提醒
7.6.1在預估到標注任務可能存在風險的情況下,應對風險進行及時的暴露和提醒,從而使得風險進
行處理。風險預估的消息提醒應包含如下信息:
5
DB23/TXXXX—2024
a)標注任務的基本概況信息。包含足以識別面臨風險的標注任務的信息,包括任務的名稱、需求
方、標注要求、風險描述、剩余未完成的任務量等;
b)執行任務的標注人員。包含足以識別面臨風險的標注人員或團隊的信息;
c)目前預估的完成時間。
7.6.2為了使得消息能夠及時傳遞到相關任務關系人,標注任務可能有風險的消息內容應通過各類方
式發送通知,包括但不限于:
a)電子郵件;
b)告警短信;
c)告警電話;
d)應用消息推送。
8任務評審
成立評審管理委員會
數據標注完成后,數據標注任務負責人宜及時成立評審管理委員會,評審管理委員會應具備以下條
件:
a)業務范圍能夠滿足數據標注生產工作評審需求;
b)專家庫的專家數量具備一定規模并且專業結構分別合理;
c)專業技術能力滿足需求并且已建立質量保障制度;
d)評審業績良好,并且3年內無違法違紀行為;
e)組織規定的其他條件。
專家評審
評審管理委員會組織專家開展評審,評審專家應具備以下條件:
a)具有良好的科學道德、較強的溝通和協調能力,能夠獨立、客觀、公正、實事求是地提出評
審意見;
b)從事所屬領域或行業專業技術工作滿5年,并具有副高級及以上專業技術職稱或者具有同等
專業技術水平;
c)熟悉數據標注評審基本業務流程,掌握數據標注生產工作的基本原理、方法;
d)部門或組織規定的其他條件。
評審方式
評審應采取以下幾種方式之一或其組合:
a)網絡評審。組織評審專家通過網絡評審系統,查閱數據標注材料并對數據標注任務完成情況
進行評審;
b)會議評審(含視頻答辯)。組織評審專家采用現場會議(網絡視頻)等形式,通過聽取數據標注
情況的匯報、質詢、討論等程序,對數據標注工作進行評審。
任務回退
評審不合格的任務,數據標注負責人應進行回收,并重新分派進行標注修改后重新評審。
9任務驗收
6
DB23/TXXXX—2024
交付材料
評審通過后,進行數據交付,數據交付時,數據標注方應對最終提交的數據內容進行說明。交付的
內容包括:
a)標注結果。任務總結報告、數據標注結果等;
b)說明文檔。數據標注情況說明,包括標簽或類別等;
c)標注規范。數據標注方案、標注規則等;
d)原始數據。獲取的原始待標注數據。
安全保障
標注管理方和數據標注方應按照事先協商約定好的安全遞交方式遞交標注結果,約束的內容包括但
不限于:
a)遞交數據的介質;
b)遞交數據的途徑;
c)工作數據的保存與刪除原則;
d)數據安全責任的物理或時間起始點原則。
交付驗收
按流程完成標注任務后,應將成果物交付完成任務驗收,交付驗證主要包括:
a)應根據確認的驗收標準,對數據標注質量進行檢查與評價;
b)應及時反饋數據標注質量的相關結果,確定是否通過數據標注質量驗收。
任務歸檔
確認數據標注結果驗收通過后,對生產過程文檔進行分類、整理、歸檔。
10總結
數據標注負責人應組織各工作角色參與項目的總結工作,編制總結報告,內容包括:
a)數據標注項目基本信息。描述本次數據標注項目的合作背景、數據標注內容及類型;
b)數據標注過程控制措施。描述本次數據標注項目在執行過程中采取的執行方法,還原標注過
程;
c)數據標注方法總結。描述本次數據標注項目遇到的困難及采取的有效措施,總結可行的方法
做經驗復用;
d)數據標注措施改進。描述本次數據標注項目控制過程的不足,總結可以改進的方法和措施,
應對下次同類項目;
e)其他需要總結的內容。
11后期維護
根據數據標注任務說明中后期維護的要求,在交付驗收后,數據標注方應提供相關的服務。若數據質
量未達到預期值,標注管理方應要求數據標注方對數據進行修正。
7
ICS01.140.20
CCSL70
23
黑龍江省地方標準
DB23/TXXXX—2024
人工智能數據標注總體框架規范
(征求意見稿)
起草單位:黑龍江省網絡空間研究中心
聯系人:白瑞
聯系電話/p>
聯系郵箱:guines@126.com
2024-XX-XX發布2024-XX-XX實施
黑龍江省市場監督管理局發布
DB23/TXXXX—2024
人工智能數據標注總體框架規范
1范圍
本文件規定了人工智能數據標注的要求,為人工智能數據標注的生產過程提供建議。
本文件適用于面向人工智能學習、研發或應用等需要實施數據標注的企業、高校、研究機構、政府
機關。其他行業和機構可參照執行。
2規范性引用文件
下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T35295信息技術大數據術語
GB/T25069信息安全技術術語
3術語和定義
下列術語和定義適用于本文件。
數據標注
對準備使用人工智能研究的文本、圖像、音頻和視頻等數據進行特征標注以滿足正常可用的過程。
數據標簽
用于標識出數據特征并建立標注數據與人工智能可用數據之間聯系的信息。
數據標注工具
能夠進行數據標注及在數據標注過程中進行管理、控制等過程中發揮作用的軟件的統稱。
數據標注技術
對數據進行轉寫、切割、提取、選擇、富集標注、點標注、線標注、框標注、區域標注等操作的技
術。
數據標注合格率
某項標注任務中,符合標注規則要求的已標注數據總量與所有已標注數據總量的比值。
4基本要求
標注人員
參與數據標注的人員應具有相應的資質,對于確定符合要求的人員培訓環節,應做到:
a)根據標注任務說明,對標注人員進行崗前能力培訓。標注能力合格者,參與標注任務;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 外陰尖銳濕疣的健康宣教
- 2024屆四川省資陽市中考聯考數學試卷含解析
- 廣西壯族自治區梧州市岑溪市2023-2024學年中考沖刺卷數學試題含解析
- 供應商合同管理培訓
- 牙齦增生的健康宣教
- 2025年上海市農產品訂單收購合同示范文本
- 2025員工無理由終止合同 企業應如何應對
- 急性紅白血病的健康宣教
- 2025簡化版短期餐飲雇傭合同模板
- 防腐底漆的基本組成
- ESC急慢性心力衰竭診斷和治療指南
- 周日值班制度
- 湖南水泥倉施工方案
- 肺栓塞的護理診斷及護理措施
- 老人預防電信詐騙
- 2024年11月-礦山隱蔽致災因素普查
- 【2025新教材】教科版一年級科學下冊全冊教案【含反思】
- 《經濟學原理》課件
- 第16課《有為有不為 》課件-2024-2025學年統編版語文七年級下冊
- 2025年寧波職業技術學院高職單招職業技能測試近5年常考版參考題庫含答案解析
- 《節奏與旋律》課件
評論
0/150
提交評論