




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能面向機器學習的數據標注規程2023-05-23發布國家市場監督管理總局國家標準化管理委員會I前言 12規范性引用文件 13術語和定義 14數據標注流程 25標注任務前期準備 35.1標注任務 35.2標注人員 45.3標注環境 46標注任務執行 46.1過程控制 46.2質量保證 56.3管理機制 67標注結果輸出 77.1內部質檢 77.2數據交付 87.3后期維護 8圖1數據標注流程框架 2ⅢGB/T42755—2023本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任。本文件由全國信息技術標準化技術委員會(SAC/TC28)提出并歸口。本文件起草單位:北京航空航天大學、中國電子技術標準化研究院、北京百度網訊科技有限公司、浪潮軟件科技有限公司、山東省人工智能研究院、美的集團(上海)有限公司、北京智譜華章科技有限公司、北京愛數智慧科技有限公司、騰訊云計算(北京)有限責任公司、北京航天自動控制研究所、鄭州中業科技股份有限公司、東軟集團股份有限公司、北京海天瑞聲科技股份有限公司、云從科技集團股份有限公司、深圳云天勵飛技術股份有限公司、中國科學院軟件研究所、上海依圖網絡科技有限公司、中國醫學科學院生物醫學工程研究所、平安科技(深圳)有限公司、上海商湯智能科技有限公司、上海人工智能實驗室、上海計算機軟件技術開發中心、中國航空綜合技術研究所、中國科學院新疆理化技術研究所、中國質量認證中心、中汽數據(天津)有限公司、北京眼神科技有限公司、上海人工智能研究院有限公司、浙江大華技術股份有限公司、杭州趣鏈科技有限公司、常州微億智造科技有限公司、長春博立電子科技有限公司、羅克佳華科技集團股份有限公司、上海交通大學、上海計算機軟件技術開發中心。李爽。1人工智能面向機器學習的數據標注規程1范圍本文件規定了人工智能領域面向機器學習的數據標注框架流程。本文件適用于指導人工智能領域面向機器學習的數據標注以及與之相關的研究、開發和應用等。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T35274—2017信息安全技術大數據服務安全能力要求GB/T37973—2019信息安全技術大數據安全管理指南3術語和定義下列術語和定義適用于本文件。數據標注datalabeling給數據樣本指定目標變量和賦值的過程。標注任務labelingtask按照數據標注說明對數據進行標注的活動。數據標注方datalabeler承擔數據標注任務的人員或機構。數據需求方datauser提出數據標注需求的人員或機構。標注管理方datalabelingadministrator管理數據標注任務評估、分發、交付、驗收以及質量把控的人員或機構。標注工具labelingtool數據標注方執行數據標注時使用的工具,標注管理方管理數據標注時使用的工具,數據需求方驗收數據標注時使用的工具等所有流程相關的工具。標注任務說明labelingtaskdescription數據需求方用于向標注管理方以及數據標注方明確標注任務的書面表達。注:標注任務說明通常包含對要執行的標注任務的描述、標注方法、正反示例、驗收方法與驗收指標等內容。2數據需求方標注管理方數據標注方數據需求方標注管理方數據標注方4數據標注流程數據標注涉及數據需求方、標注管理方及數據標注方三方人員,主要流程包括標注任務前期準備、標注任務執行、標注結果輸出三個階段。數據標注流程見圖1。標注任務執行標注任務執行過程控制標注內容確定標注任務創建數據標注完成標注任務評估是交付內容交付安全保障交付驗收否標注人員標注任務開展標注人員范圍標注人員培訓標注人員能力柈案質量保證標注任務質量檢查標注任務一致性檢查管理機制標注任務進度管理標注環境選擇標注工具選擇標注場地標注前期準備標注任務標注結果是否符合預期標注任務回收標注結果輸出標注數據確定標注需求變更標注任務分發后期維護》t一圖1數據標注流程框架在標注前期準備階段,數據需求方和標注管理方應確定標注任務,完成標注內容和標注數據的確定。標注管理方評估標注任務,向數據需求方反饋是否需要變更需求,若需要則變更標注需求,并重新評估標注任務。標注前期準備階段還應根據標注人員的要求確定數據標注方,同時確定標注環境,選擇合適的標注工具和場景。在標注任務執行階段,數據需求方、標注管理方及數據標注方三方人員應遵循標注流程的過程控制,完成標注任務的創建、分發、開展及回收。同時應保證標注任務的質量,嚴格遵守管理機制。在標注結果輸出階段,數據標注方應對數據標注方標注后的數據進行內部質檢,質檢合格后將標注后的數據交付給數據需求方。若標注后的數據符合預期,則數據標注完成;否則進行后期維護環節,數據標注方應對數據進行修正,并重啟內部質檢流程。35標注任務前期準備5.1標注任務5.1.1標注任務確定標注內容由標注需求方在標注任務說明中提供,標注任務說明一經確認,不可修改,如需修改則進入需求變更環節,標注任務應包括但不限于:a)版本信息:明確當前版本編號、發布日期、發布人、發布說明(發布原因或迭代原因);b)歷史迭代信息(歷代版本編號、發布日期、發布人、發布說明等);c)項目背景:明確數據標注需求產生的原因,以及數據標注結果的應用場景;e)主客觀描述:明確說明數據標簽是根據個人專業領域知識進行標注,還是客觀認識進行的標注;f)標注人員資質:約定標注任務參與人員的資質要求;g)標注結果:明確數據標注結果的交付形式;h)知識產權:明確數據的知識產權歸屬。5.1.2標注數據確定數據標注前,數據需求方應對待標注數據進行分析,核對標注任務,包括:a)數據核查:檢查待標注數據是否與標注任務說明書中的數據定義相符,核查結果及時同步給數據需求方;b)數據整理:建立完善的數據追蹤機制,實現數據整理,以及最小粒度的數據追蹤;c)數據處理:根據標注任務以及標注數據的特性,通過數據聚類、組合排列、數據雜質去除等方5.1.2.2數據安全等級確定根據標注任務中的數據安全描述,數據需求方應根據GB/T37973—2019及GB/T35274—2017相關要求,確定標注數據的安全等級。5.1.3標注任務評估數據標注前,標注管理方應對標注任務進行評估,包括:a)根據標注任務說明,評估標注任務可行性、標注規則合理性;b)在數據需求方提供的小規模樣本上進行預標注,將標注結果提交給數據需求方驗收。在獲得數據需求方確認后,再正式啟動數據標注任務。注:及時記錄數據預標注流程中標注規則與數據相悖、覆蓋不全或規則之間相悖的情況,并向數據需求方反饋完善標注規則。5.1.4標注需求變更標注需求方需求變更時,應在標注管理方評審同意后更新標注任務說明,重新進入標注任務評估階段。45.2標注人員5.2.1標注人員范圍數據標注方應根據標注任務內容中規定的標注人員資質需求,確定符合要求的人員進入標注人員培訓環節。5.2.2標注人員培訓數據標注方應根據標注任務說明,對標注人員進行崗前能力培訓。標注能力考試合格者,方能參與標注任務。5.2.3標注人員能力檔案數據標注方應建立標注人員能力檔案,記錄標注人員承擔標注任務的相關內容,用于進行標注人員能力評估與標注質量追蹤。5.3標注環境5.3.1選擇標注工具數據標注方應根據標注任務難度、數據處理規模及數據屬性特征、數據安全控制層級與方式,合理選擇標注工具,完成數據標注任務。5.3.2選擇標注場地數據標注方應根據標注任務中必要的數據安全要求,搭建數據標注場地。6標注任務執行6.1過程控制6.1.1標注任務創建標注任務創建主要包括以下內容:a)任務包創建:數據需求方應以適應標注環境分發、標注工具讀取為目標,將需要標注的數據合理分組,保證數據標注質量以及后續的任務分配;b)任務賬戶創建:數據需求方應以標注人員數量為依據,綜合標注、質量分析等任務需求,根據標注環境或者標注工具,創建標注過程中所需要使用的用戶賬戶,并分配相應的權限或賬戶使用規則;c)任務創建保障:標注管理方應制定標注任務創建和數據上傳相關制度,明確數據上傳分類分級、數據安全風險評估和安全監控制度,監管上傳數據的合法合規性。6.1.2標注任務分發標注任務分發主要包括以下內容:a)標注任務分發類型:標注管理方應根據標注任務要求的標注環境、標注工具,結合標注質量管理以及標注速度管理,在保證標注質量的前提下,選擇主動領取或系統自動分發等任務分發類型,優化標注任務分發策略;b)標注任務分發保障:標注管理方應制定標注任務分發安全管理制度,明確標注任務分發日志內容,監控標注任務分發安全。56.1.3標注任務開展標注任務開展主要包括以下內容:a)標注任務分配:數據標注方應安排數據標注人員使用分配的標注賬戶,對分配到的任務進行標注;b)標注過程反饋:數據標注方應建立標注過程反饋機制,將與標注要求不符、標注要求中未涵蓋的數據等情況,及時反饋給標注管理方和數據需求方,確保標注規則與數據的匹配度;c)標注任務開展保障:數據標注方應明確數據脫敏和個人信息安全影響評估制度,在標注前對個人信息進行數據脫敏處理,保障數據標注流程合法合規性,并對數據標注結果進行分級制度,適當提高數據安全等級。6.1.4標注任務回收在標注任務完成后,數據標注方的標注團隊負責人應檢查標注數量,確保所有任務包均被回收,對未能及時完成的任務包,要建立適當的溝通和回收再發放的管理機制,以確保標注任務按期完成,保證任務進度。6.2質量保證6.2.1標注任務質量檢查在標注過程中,應采用多種檢查方法對標注任務質量進行檢測,對不滿足標注任務要求的,及時預警反饋,并查明問題原因。根據項目特性,標注任務質量檢查方法可歸納為以下三種。a)機器驗證:在任務進行期間,安排超過一名人員做同一個子任務,選擇出最優、最正確的標注結果。結果選擇可通過下列方式。1)標注工具自動選擇:通過與標注工具匹配的模型推理,或擬合若干個標注結果,選擇其中置信度最高的標注結果,作為最終結果;2)人工輔助選擇:人工對多個標注結果進行對比,從而挑選出置信度最高的標注結果作為最終結果。對于需要特定專業知識標注的領域,進行人工輔助標注時應以多個專家的共同商議結果作為最終結果。b)埋題驗證:在任務進行期間,除了常規標注子任務外,在任務中混進若干已知結果的測試題,以此驗證標注質量。在此操作的過程中注意以下事項。1)針對數據特征專題專用:對于埋題驗證,應保障測試題在真題中間處于混淆的狀態。因此,在出題的過程中,應針對數據的自身特征(數據的類別、場景、內容等),準備相應的題目,避免題目暴露于操作者,失去驗證的效果。2)限制題目的使用次數:為避免題目多次出現,引起被測者的注意,從而失去驗證效果,應限制題目的使用次數。尤其是擁有容易記憶的特征點的題目(如特定臉部特征、特定文字、特定場景等),應嚴格限制出現的次數。c)標注人員狀態驗證:通過對標注人員的操作規范性、實時注意力狀態、標注準確率等方面進行檢查與監測,及時發現操作違規問題,保證數據質量;在發現操作違規問題、數據質量有下降時,應根據時間段等特征,對標注人員在這一狀態內操作的標注數據進行檢查或者返工等操作。6.2.2標注任務一致性檢查在標注任務進行期間應使用統計規則或模型驗證等方法,得到標注任務一致性水平,一旦發現離群點或明顯的降低趨勢,及時對標注人員預警和警告。66.3管理機制6.3.1標注任務進度管理數據標注方應定期與標注管理方同步數據標注任務工作進度。6.3.2標注任務風險預估在標注任務進行過程中,數據標注方應對標注人員是否能夠如期達到對應的執行進度進行預估和檢測,并針對可能存在的標注進度延誤風險,對數據需求方、標注管理方進行適當的提示。任務風險預估和提醒的方法可分為以下兩類。a)收集和更新:在任務進行期間,對不同的時間節點,對標注人員任務完成時間的推測和預估進行定期收集、更新,匯總于系統上,并對其中有風險的完成時間節點進行顯著的提醒。這種預估和提醒的方式,應遵守以下規則。1)收集、更新任務完成的推測時間的時間節點:為了在標注的工作全流程中得到盡量準確的推測時間預估,同時也避免頻繁收集推測時間造成的效率損失,應在任務未開始標注、開始分配并啟動標注時和距離標注結束較為接近時的節點,對推測的任務完成時間進行收2)判定任務完成風險:在上述若干類時間節點收集到推測完成標注任務的時間節點之后,應對收集到的標注人員上報的時間節點進行判定,從而推斷出標注任務當前的執行是否存在逾期的風險。對于是否有逾期風險的判定,基本的判定規則是依據標注管理方扣除預估充裕的驗收、返工時間后給出的截止時間,將任務完成的推測時間與之進行對比。如果推測時間晚于該截止時間,則任務存在風險,應進行風險的提醒。b)效率推測:在任務進行期間,根據任務當前的完成進度,以及投入的標注人員的人力、效率,進行標注效率的推測。效率的推測過程應遵守以下規范。1)應以天為單位,進行時間尺度上的效率推算。標注人員的工作時間并非全天候,在全日時間內的分布并不均勻,主要集中在規定的上班時間,因此,對于標注效率的推算,宜以天為單位,能夠在若干天的項目周期內,得到更準確的產能預估。2)應以標注人員整組的按天效率為粒度,進行工作能力上的推算。以完成任務的整一組標注人員為整體,進行整體任務效率的預估,有效屏蔽標注人員個體在效率上的差距,得到標注任務在推進上的總體效率,更有效地反映任務的推進速度。3)宜在每日結束的時間點,以天為單位對執行風險進行平均推算和提示。在每日結束的時間點,對當天的標注人員整組的按天效率進行計算,可通過歷史若干天的平均效率,以及當前剩余的數據量,推算出標注任務剩余的預估工作日數。若該日數已經超過目前預計的截止時間,則認為任務有可能存在逾期的風險,此時應進行風險的及時暴露和提醒。6.3.3標注任務風險提醒在預估到標注任務可能存在風險的情況下,數據標注方應對風險進行及時的暴露和提醒,從而使得數據需求方、標注管理方能及時對該逾期風險進行處理。因此風險的暴露和提醒應足夠清晰,應保障消息能夠觸達數據需求方、標注管理方。風險預估的消息提醒應包含如下信息,以助于數據需求方、標注管理方進行恰當的情勢判斷:a)標注任務的基本概況信息:包含足以識別面臨風險的標注任務的信息,包括任務的名稱、需求b)執行任務的標注人員:包含足以識別面臨風險的標注人員或團隊的信息;7c)目前預估的完成時間;d)完成時間的預估途徑:通過何種途徑預估得到完成時間,包括且不限于上述兩種途徑(收集和刷新/效率推測);e)原本預計的截止時間。為了使得消息能夠及時傳遞到數據需求方、標注管理方,標注任務可能有風險的消息內容應通過各類手段進行觸達,包括但不限于:a)電子郵件;b)告警短信;c)告警電話;d)應用消息推送。7標注結果輸出7.1內部質檢7.1.1內部質檢要求數據標注方應在完成數據標注,由內部質檢驗收合格后,提交給標注管理方。根據數據標注任務說明,合格的數據標注結果應滿足:a)標注數據核驗滿足數據標注任務說明中的要求;b)數據質量滿足數據標注任務說明中的要求。7.1.2標注數據任務核驗根據數據標注任務說明,數據標注方應對標注數據格式、內容進行合理性和正確性核驗,以確定其滿足標注要求。7.1.3標注數據質量檢查標注數據質量檢查能夠確保數據標注結果有價值,符合數據需求方的特定應用目的。根據項目特性,質量檢查方法可以歸納為以下幾種,標注項目負責人應根據場景需求及項目特點進行選擇。a)逐條檢查:即對整個標注項目所包含的所有標注子任務逐一核查并確認。適用于項目量級不大、人力資源充沛、時間節點不緊張、對標注數據結果的準確率要求極高的標注項目。這種方法覆蓋的質量檢查范圍最全,同時也適用于任何形式的數據標注場景。該方法可確保標注數據輸出的最高質量,尤其對于數據格式主觀成分較多、應用場景較復雜的任務更有效。b)按比例抽查:即從全部標注數據中科學地抽取樣本,對樣本中的數據逐條檢查,以此評判全部標注數據的質量。樣本量的選擇應符合統計學基本原理,足以代表全部標注數據,例如在逐包分配進行標注的同時,可以確保每包均按一定比例進行抽查,以確保抽樣足夠均勻,足以代表總體結果。抽查審核時,項目負責人應指定審核員完成,審核員應明確標注的詳細執行要c)抽樣檢驗:即從整個標注項目中隨機抽取少量標注子任務進行檢驗,據此判斷該標注項目是否合格。抽樣檢驗可分為簡單抽樣、系統抽樣和分層抽樣三種方式。d)機器驗證:通過機器學習,包括使用已訓練模型進行檢查或使用遷移學習、在線學習等方法對人工標注的數據做質量檢查,實現全自動或輔助人工質量檢查方式。機器學習方法輸出的準確率不能完全代表數據集的準確率,但能在一定程度上反映數據集的質量。e)第三方驗證:醫學等專業領域,如需對標注結果進行第三方驗證的,應由有資質的第三方邀請有資質和從業經驗的專家進行驗證,從而確保標注結果的質量。87.1.4標注數據質量檢查設定在質量檢查過程中,為了防止一次性不合格數據積壓過多而導致延誤交付,同時防止檢查過于碎片化、零散
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《延安我把你追尋》教學設計-2024-2025學年語文四年級上冊統編版
- 地理信息技術應用在2025年初中學業水平考試模擬卷中的地理信息應用案例分析試題
- 中學聯盟浙江省紹興縣楊汛橋鎮中學人教版八年級(歷史與社會)上冊教學設計 3-2 秦末農民起義與漢朝的建立
- 2025年醫保知識考試題庫及答案(報銷流程專項)歷年真題題集
- 2025年小學語文畢業升學考試全真模擬卷(成語典故教學與反思夯實版)試題
- 2025年鋼琴演奏級考試模擬試卷:鋼琴演奏級聽力與視奏試題
- 2025年輔導員考試題庫:解析學生思想政治教育方法實施技巧與創新路徑案例試題
- 2025年美容師高級護理技能測試卷(美容師美容院服務流程)
- 2025年高校輔導員招聘心理健康教育案例應用試題試卷
- 2025年小學英語畢業考試專用:語法專項突破模擬試卷大全
- 考古發掘中文物的采集與保存課件
- 小學四年級地方課程安全教育教案泰山出版社
- 化學性及藥物性頜骨骨髓炎
- 神奇的植物王國課件
- 員工崗位技能考核評定表
- 項目部安全生產事故應急預案
- 垂體瘤-PPT課件
- 鉆井井控裝置
- 贛美版(江西)小學四年級美術下全冊教案
- 12隊淘汰賽_對陣表
- 我國城市馬拉松賽事發展現狀分析
評論
0/150
提交評論