信息技術 人工智能 面向機器學習的數據標注規程_第1頁
信息技術 人工智能 面向機器學習的數據標注規程_第2頁
信息技術 人工智能 面向機器學習的數據標注規程_第3頁
信息技術 人工智能 面向機器學習的數據標注規程_第4頁
信息技術 人工智能 面向機器學習的數據標注規程_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240在提交反饋意見時,請將您知道的相關專利連同

L70支持性文件一并附上

團體標準

T/CESAXXXX—XXXX

信息技術人工智能面向機器學習的數據

標注規程

Informationtechnology-Artificialintelligence-Guidelineofdataannotationfor

machinelearning

(征求意見稿)

XXXX-XX-XX發布XXXX-XX-XX實施

中國電子工業標準化技術協會發布

T/XXXXXXXX—XXXX

前??言

本部分按照GB/T1.1—2009給出的規則起草。

請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別這些專利的責任。

本標準由中國電子技術標準化研究院提出并歸口。

本標準起草單位:

本標準主要起草人:

III

T/XXXXXXXX—XXXX

信息技術人工智能面向機器學習的數據標注規程

1范圍

本標準給出了面向機器學習的數據標注流程框架,包括數據標注前期準備、數據標注任務執行以及

標注數據結果輸出三個階段。

本標準適用于面向人工智能研究或開發應用等需要實施數據標注的企業、高校、科研院所、政府機

構等。

2規范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

3術語和定義

下列術語和定義適用于本文件。

3.1

數據標注dataannotation

對文本、圖像、語音、視頻等待標注數據進行歸類、整理、編輯、糾錯、標記和批注等操作,為待

標注數據增加標簽,生成滿足機器學習訓練要求的機器可讀數據編碼。

3.2

標簽label

標識數據的特征、類別和屬性等,可用于建立數據及機器學習訓練要求所定義的機器可讀數據編碼

間的聯系。

3.3

標注任務annotationtask

按照數據標注規范對指定數據集進行標注的過程。

3.4

數據標注員datalabeler

負責對文本、圖像、語音、視頻等待標注數據進行歸類、整理、編輯、糾錯、標記和批注等操作的

工作人員。

1

T/XXXXXXXX—XXXX

3.5

標注工具annotationtool

數據標注員完成標注任務產生標注結果時所需的工具和軟件。

注1:標注工具可生成標簽并提供參考模板。

注2:不同的數據類型和標注任務需要不同的標注工具。標注工具按自動化程度可分為手動、半自動、自動三種。

3.6

標注平臺annotationplatform

開展標注任務的系統化框架。

注:標注平臺在包含標注工具全部功能的基礎上將所有標注環節工具化,可有效地對標注任務進行全局管理和跟

蹤。

3.7

標注說明規則annotationinstruction

數據需求方用于明確標注任務和標注數據的書面陳述,包含執行標注任務所需的標注工具、任務描

述、標注方法、正確示例、常見錯誤等內容。

3.8

標注方法annotationmethod

定義數據標注員進行數據標注時的環境和流程,應包含標注對象定義、所用標注工具和標注平臺、

標注格式、標注前的準備工作、標注后的處理工作等。

3.9

眾包標注crowdsourcingannotation

數據需求方公開發布標注任務,數據標注員申領標注任務并在規定時間內完成標注任務發回數據數

據需求方,數據需求方收集整理后獲得用于機器學習訓練的標注數據集的數據標注過程。

3.10

半自動標注semi-automaticannotation

使用人工結合自動化工具的方式進行數據標注。

4概述

本標準給出了數據標注的流程框架,它包括標注項目的前期準備工作(包括對于所需數據的定義、

標注規則的制定、標注人力的確定);標注任務的創建、分發,開展、回收和標注結果的質檢和質量控

制;標注結果輸出的建議格式和交付。數據標注流程框架見圖1:

a)定義所需數據;

b)確定標注說明規則;

c)確定標注人力的供給方式;

2

T/XXXXXXXX—XXXX

d)標注工具和平臺的選擇;

e)標注任務的創建、分發、開展和回收;

f)標注結果的質檢和質量控制;

g)標注結果的輸出格式建議;

h)標注數據的交付和驗收。

圖1數據標注流程框架

5數據標注流程

5.1定義所需數據和預估數據量

數據標注前應完成以下五項準備工作:

a)對解決的問題進行分析,明確機器學習和模型訓練過程中所需的標注數據類型、量級、用途及

應用場景。分析維度包括:業務場景的針對性、標注樣本的平衡性、前期經驗及改進措施的借

鑒等;

b)對數據進行整理,明確數據與標簽文件存放目錄結構,在任務分配與回收的時候應按指定的目

錄進行數據組織;

c)明確數據與標簽文件的命名規則,命名規則應避免數據更新迭代時的重名,便于數據追蹤、標

注追蹤,數據文件名與標簽文件名應保持一致;

d)根據標注任務的人力獲取模式、工具的選擇、標注任務的類型、算法選擇以及整個項目的成本

對所需標注數據量進行預估;

e)與標注人員溝通,明確標注數據的定義并確定最終的需求量。

5.2確定標注說明規則

5.2.1標注說明規則的職責分工

3

T/XXXXXXXX—XXXX

數據需求方即業務數據需求方,指需要利用人工智能技術解決實際業務問題的業務團隊。數據需求

方應負責確保數據標注的規則符合該領域的業務和專業常識,并根據標注規則,檢查所標注的數據是否

滿足數據需求方。

數據使用方指需要使用標注數據訓練人工智能模型的研發團隊。數據使用方應從機器學習算法角

度,確保標注規則可滿足機器學習模型的訓練要求,并根據該標注規則,檢查標注的數據支撐機器學習

模型達到數據需求方期望的精度。

數據需求方、數據使用方及數據標注團隊應共同參與標注說明規則的制定、調整、迭代、執行的各

個環節。數據標注團隊應從實際標注角度出發,確保標注規則清晰、明確,以避免數據標注員理解偏差,

進而導致標注結果不符合預期。

5.2.2標注說明規則的定義

標注說明規則應明確項目的背景、意義及數據的應用場景,且包含項目的標注工具、任務描述、標

注方法、正確示例、常見錯誤等內容。

標注說明規則應有可變更性,該變更應由相關方評審同意后,再更新規則文檔,且相關方應沿用制

定規則時的基本原則及方法。

5.2.3標注說明規則的內容

標準說明規則包括但不限于:

a)項目背景:概述標注項目的背景或數據標注需求產生的場景;

b)版本信息:標注該說明的當前版本編號、發布日期、發布人、發布備注(發布原因或迭代原因)

及歷史迭代信息(歷代版本編號、發布日期、發布人、發布備注等);

c)任務描述:概括標注項目的主要任務,包括標注項目的關鍵信息、數據形式、標注平臺、主要

標注方法、期望交付時間、正確率要求等;

d)保密責任:對于數據的密級程度,數據需求方須在規則中列明,明確保密責任,標注方對當前

承擔的數據標注任務承擔保密職責(例如雷達數據標注等任務需要);

e)標注方法:給出數據需求方所需數據對象的嚴謹定義,明確在協定的標注平臺上使用何種標注

組件、標簽及全部操作。標注方法的衡量標準,以標注人員掌握標注方法后,能立刻正確操作

一次標注;

f)正確示例:通過圖片、圖文、視頻等的形式,示范正確的標注方法或成果,數據需求方應明確

數據產出,標注方應明確標注認識,標注樣例應覆蓋特殊樣本的標注示例;

g)注意事項:標注方的錯誤預警有警示作用,規則制定者在注意事項中,列出標注方應避免的錯

誤、標注方法中應注意的細節及額外處理方式等;

h)質量要求:數據標注規則應對項目的預期質量有合理的定量預估。審核質檢應遵循質量要求。

5.2.4執行方法及注意事項

數據標注員應學習規則文檔,執行培訓以保證每個標注人員理解標注說明規則和滿足技能要求。

數據需求方宜要求標注方檢驗標注培訓的效果,在標注之前及時發現問題,并把問題及應對措施,

整理歸檔。數據需求方宜要求標注方對含特殊樣例的小樣本數據集進行預標注,并對標注結果進行審核。

標注方滿足審核標準后,數據需求方再正式向其分發標注任務。

標注方按照給定規則標注時發現存疑數據,應及時記錄。數據需求方應明確此類數據的記錄規則、

保存路徑及后續處理方法等。采用多人標注或定期集中反饋等方法,處理問題數據。

標注說明規則的細則應有可調整性,對調整后的規則細則,應保證參與者及標注方充分理解。發現

規則未涵蓋的情況或實例時,標注方應及時向數據需求方反饋、溝通和處理。

4

T/XXXXXXXX—XXXX

5.2.5標注說明中術語體系的規范化

術語體系的規范化至少應滿足:

a)應遵從國家法規和行業規范;

b)應建立統一的標注術語字典,確保數據標注人員對術語定義的理解一致;

c)在學習標注說明規則及進行相應的培訓后,數據標注人員能夠規范地使用標注術語完成任務;

d)應被標注項目的相關方認可。

5.3確定標注人力供給方式

應根據標注任務的數據量級、保密性與資質要求、對業務流程的理解程度、成本預算以及交付時間

等各類因素評價并確認標注人力供給方式。標注人力模式可包括:內部自營標注、第三方標注、眾包標

注等。標注人力模式的特點見表1。

表1標注人力模式

類型適合任務(并列表示“和/或”)特點

內部自營標注人(1)符合業務流程需求;

要求熟悉業務流程并及時溝通反饋的標注任務

力(2)溝通協調效率高

(1)對業務流程理解要求低的標注任務;(1)項目管理成本低;

第三方標注人力(2)內部自營標注人力不擅長的標注任務;(2)可作為其他標注人力的補充或作為有

(3)有專業資質要求的標注任務。資質的審查人員參與質量控制和檢查環節。

(1)時間緊迫且標注數據量大的標注任務;

(1)成本低,速度快,標注質量參差不齊;

眾包標注人力(2)需從大量用戶或場景中采集或標注的任務;

(2)難以滿足保密性及專業資質要求。

(3)保密和隱私要求低的標注任務。

5.4標注工具和標注平臺的選擇

標注工具應滿足以下條件:

a)易操作性:標注工具應降低標注人員的操作難度,提供交互方式的自有標注;

b)輸出數據的規范性:標注工具的數據導出格式,應滿足或可轉換到本標準指定的格式要求;

c)高效性:標注工具應保證標注任務的完成效率。

標注平臺包含標注工具全部功能、團隊管理、任務分發、質量審核等環節的模塊,且將所有標注環

節工具化。規模較大的平臺可完成圖像、文本、語音或視頻等不同任務的標注。對保密數據,標注平臺

要保證標注數據的安全性。

當數據量相對較小、數據類型相對單一、標注周期較短時,宜選擇標注工具進行標注。當標注量較

大、數據類型較多、標注難度較大且周期較長時,宜選擇標注平臺進行標注。

在醫學、金融和其它關鍵領域,標注工具或平臺應滿足相關法規要求,具備資質/資格證書、許可

證等。如:當涉及醫學倫理標注時,標注工具或平臺的使用應通過相應機構的倫理委員會的論證流程。

5.5標注任務的創建、分發、開展和回收

5.5.1標注任務的創建

5

T/XXXXXXXX—XXXX

創建標注任務前,將待標注數據上傳。上傳的導入方式有兩種:本地上傳(適用于數據在本地設備

上,包括電腦、U盤、移動設備等);云端上傳(適用于數據在云端,包括公有云和私有云)。當待標注

數據量較大時,采用云端上傳數據。

標注數據上傳成功后,當僅靠標注工具完成標注時,在創建任務的過程中,任務責任人要事先明確

標注任務的目的以及標注規范等。當使用標注平臺進行標注時,可根據上傳的不同類型的數據,劃分不

同任務模塊,再進行相關任務的創建。

創建任務包括:

a)明確任務基本信息:包含任務目的、任務需求(任務的優先級,對標注人員能力要求的級別等)、

任務描述等;

b)任務配置:根據不同的任務需求,匹配不同的標注工具,添加與標注任務相關的標注標簽;

c)將數據路徑上傳至平臺;

d)通過版本控制,確保版本編號的一致。

5.5.2標注任務的分發

根據任務發布者確定的參數及需求,將標注任務分發給標注人員。

標注任務發布者在發布數據時,要明確以下幾項與標注任務相關的參數:

a)參與標注人數;

b)任務中子任務數量;

c)數據標注員每人每天工作量;

d)回收子任務時間點;

e)任務結束時間點。

標注任務的分發對象包含標注人員和審核人員。標注任務分發給標注人員時,也應將任務分發給審

核人。在標注過程中,同時進行標注的審核工作,以便及時發現和解決問題,提高標注效率。

在任務分發前,需確定每一個子任務分發標注的人數,如同一個子任務分發給多人參與,則需對每

個子任務的回收結果進行比對,不同標注任務可根據具體情況(如成本和時間需求)決定同一個子任務

是否需多人標注。

分發時,按照任務具體信息和標注需求,分配給相應的數據標注員,實現數據標注任務的優化調度,

提高數據標注的效率和質量。

不同標注人力的供給方式也會影響標注任務的分發形式:如使用第三方標注服務公司的服務,則只

需把標注任務發送給第三方標注服務公司,它會將標注任務分發到具體標注參與人員。

在標注分發過程中,采用主動學習技術將提升標注任務分發的效率。完成數據標注前,通過標注平

臺的主動學習,模型可在剩余的待標注數據中,篩選出對模型重要的數據,優先分發給標注人員;其它

數據則可延后分發,或不再分發給標注人員。

5.5.3標注任務的開展

標注任務中數據標注方法大致分為兩種:全人工標注;半自動標注。

全人工標注的方式主要依靠人力進行標注,其標注的數據較精準,當標注數據量較大時,會耗費較

多人力。

半自動標注的方式采用訓練好的模型對目標數據進行檢測,并用標注工具完善。半自動標注適用于

標注數據量較大,標注任務較簡單的標注。半自動標注建立在較成熟模型的基礎上,若檢測結果的準確

度不夠,會增加工作量。

6

T/XXXXXXXX—XXXX

在全人工標注中若對標注結果準確率要求較高,在標注前需對標注人員進行相關任務培訓。培訓內

容為標注工具或平臺的使用方法及規定、標注的任務目的、標注內容和標準(依據不同標注任務制定不

同標注計劃)。

在標注人員標注前期,需建立標注者與標注數據使用者之間的反饋機制,確保兩者間信息同步。這

可有效解決標注者在標注過程中出現的信息不對稱(如標注數據使用者對標注者最新的標注要求)等問

題。

標注時,可根據標注規則對少量樣本先行試標注,將試標注結果反饋給數據需求方,確認標注結果

正確無誤后,再批量開展數據標注任務。

5.5.4標注任務的回收

在項目協定的任務將要完成時,項目負責人需回收標注作業,且需保證已分配的任務能被完整交付。

自營的標注團隊可直接向標注人員或標注小組負責人收取;第三方標注服務公司需提前聯系項目負責

人,保證外部團隊能按時交付;眾包平臺的回收任務只需保證任務完成的時間設置合理、參與者能及時

提交任務即可。回收環節中需注意個別情況和變化的出現,如果標注人員未能按時交付,則需由候補成

員繼續完成剩余任務,以保證標注任務進度。

5.6標注結果的質檢和質量控制

5.6.1質量檢查

質量檢查能夠確保數據標注結果有價值,符合數據需求方的特定應用目的。根據項目特性,質量檢

查方法可以歸納為以下幾種,標注項目負責人需要根據場景需求及項目特點進行選擇:

a)逐條檢查:即對整個標注項目所包含的所有標注子任務逐一核查并確認。適用于項目量級不大、

人力資源充沛、時間節點不緊張、對標注數據結果的準確率要求極高的標注項目。這種方法覆

蓋的質檢范圍最全,同時也適用于任何形式的數據標注場景。該方法可確保標注數據輸出的最

高質量,尤其對于數據格式主觀成分較多、應用場景較復雜的任務更有效;

b)按比例抽查:即從全部標注數據中科學地抽取樣本,對樣本中的數據逐條檢查,以此評判全部

標注數據的質量。樣本量的選擇需符合統計學基本原理,足以代表全部標注數據。抽查審核時,

項目負責人可指派較有經驗的審核員完成,從而確保交付質量;

c)抽樣檢驗又可分為以下三種:

1)簡單抽樣:以等概率抽取n件待檢測樣本的方法,必須注意:不能有意識抽取好的或差的,

也不能僅抽取表面擺放的或容易抽取的;

2)系統抽樣:每隔一定時間或一定編號進行檢測,而每一次又是從一定時間間隔內生產出的

產品或一段編號產品中任意抽取一個或幾個樣本的方法;

3)分層抽樣:當不同類型產品有不同的加工環境(如操作者、不同算法)時,對其質量進行

評估時的抽樣方法。

d)機器驗證:通過機器學習,包括使用已訓練模型進行檢查或使用遷移學習、在線學習等方法對

人工標注的數據做質量檢查,實現全自動或輔助人工質檢方式。機器學習方法輸出的準確率不

能完全代表數據集的準確率,但能在一定程度上反映數據集的質量。

在質量檢查過程中,需要設定質檢間隔,防止由于一次性不合格數據積壓過多而導致延誤交付。還

需要根據算法要求設定質檢合格率,增加標注人員容錯率。

5.6.2質量控制

7

T/XXXXXXXX—XXXX

與質檢面向結果不同,質量控制面向過程,確保標注過程可控,并產生預期的結果。在標注過程中,

需要對數據質量及其行為進行規范和檢測,及時預警反饋,查明低質量數據原因,以此控制標注數據的

質量。質量控制的方法根據項目特性可歸納為以下四種:

a)多人驗證:即在任務進行期間,安排超過一名人員做同一個子任務,通過標注工具的功能自動

或人工輔助選擇出最優、最正確的標注結果;

b)埋題驗證:即在任務進行期間,除了常規標注子任務外,在任務中混進若干已知結果的測試題,

以此驗證一線操作標注人員的標注水平。這種方法適用于標注作業進行中,有助于項目負責人

監控標注人員的水平,及時發現潛在問題。雖然這種方法不能完全代表標注數據成果的質量,

但在一定程度上說明標注人員的認真程度及標注能力;

c)標注人員狀態驗證:通過一定方法對標注人員的操作規范性、實時注意力狀態、標注準確率等

方面進行檢查與監測,及時發現操作違規問題,保證數據質量;

d)機器驗證:在任務進行期間使用機器學習方法,得到數據準確率,一旦發現離群點或明顯的降

低趨勢,及時對標注人員預警和警告。

5.6.3質量檢查與控制中合格標準的確認

在標注結果的質量檢查和控制環節,需在抽查前建立并確認合格標準,并在相關環節貫徹實施。合

格標準應具備可量化特性;在醫學和其他關鍵行業,數據標注質量的合格標準還需遵從國家法規和行業

規范的約束,如數據標注結果需由有資質的第三方邀請有資質和從業經驗的專家進行驗證。從而確保標

注結果的質量,并使得標注結果的質量檢查和控制流程有據可依。

5.7標注結果輸出交付規范

5.7.1圖像類型的數據

圖像類標注任務的數據結果為帶有標簽的數據,包含標簽的具體內容,及此圖像標簽對應的圖像空

間位置(可選)。不同的標注任務和要求會產出不同的結果,但不影響定義數據格式及組成部分。

輸出格式推薦使用易解析、易存儲的數據格式,格式包括但不限于json或xml。標注文件應該包含

標注詳細的標簽信息。每個獨立的標簽需包含以下的信息:

a)標簽id:每個標簽的獨立編號;

b)文件路徑:待標注圖像的名稱或路徑;

c)置信度:各標簽的置信度;

d)每個標簽中可能包含多個對象,對于每個對象需要定義:

1)對象類型:比如bounding_box或者keypoint;

2)對象詳情:為對象的空間信息、內容信息,或與其它對象的關系信息。每個對象的詳情因

其類型而異。

5.7.2文本類型的數據

文本類標注任務的數據結果包含文本標簽的位置和標簽的具體內容。不同標注任務和要求會產出不

同的結果,但不影響定義數據格式及組成部分。

標注文件的輸出格式推薦使用易解析、易存儲的數據格式,包括json、xml、txt等。標注文件應該

包含詳細的標簽信息。每個獨立的label需包含以下的信息:

a)標簽id:每個標簽的獨立編號;

b)文件路徑:待標注文本的文件鏈接;

c)原始文本:待標注文本的全部內容(文本標注任務僅需提供文件路徑或原始文本中的一個);

8

T/XXXXXXXX—XXXX

d)置信度:為標簽的置信度;

e)每個標簽中可能包含多個對象,對于每個對象需要定義:

1)對象類型:比如text_classification或者text_tag;

2)對象詳情:對象的具體文本位置和內容信息,或與其它對象的關系信息。每個對象的詳情

因其類型而異。

5.7.3語音類型的數據

語音類標注任務的數據結果包含語音標簽的時間位置和標簽的具體內容(例如轉寫內容、說話人信

息、噪聲等)。不同標注任務和要求會產出不同的結果,但不影響定義數據格式及組成部分。

標注文件的輸出格式為json文件或其他通用輸出格式,其中文件應詳細的標簽信息。每個獨立的標

簽需包含以下的信息:

a)標簽id:每個標簽的獨立編號;

b)文件路徑:待標注音頻名稱或路徑;

c)置信度:標簽的置信度;

d)如果是單句錄音,則每個標簽中包含一個對象;如果是多句錄音,則每個標簽中包含多個對象。

每個標注對象應包括:

1)對象類型,比如speech_to_text;

2)對象詳情,包括對象具體時間位置和內容信息,或與其他對象的關系信息;每個對象的詳

情因其類型而異,說話者的信息以及噪音標簽等都可以放在對象詳情中。

5.7.4視頻類型的數據

視頻類標注任務的數據結果可包含視頻標簽的時間位置、空間位置和標簽信息等內容。不同標注任

務和要求會產出不同的結果,但不影響定義數據格式及組成部分。

標注文件的輸出格式推薦使用易解析、易存儲的數據格式,包括json、xml等。標注文件應該包含

詳細的標簽信息。每個獨立的標簽需包含以下的信息:

a)標簽:id每個標簽的獨立編號;

b)文件路徑:待標注視頻文件名稱或路徑;

c)置信度:為標簽的置信度;

d)每個標簽中可能包含多個對象,對于每個對象需包含:

1)對象類型:例如scene_classification;

2)對象詳情:具體描述對象的時間、空間信息和內容信息,或與其他object的關系信息;

每個對象的詳情因其類型而異。對于視頻中起始和結束幀的位置描述也應該放到對象詳情

中,比如Object_frame_index_start以及Object_frame_index_end。

5.7.5其它

醫學影像數據具有其特殊性,因此在此單獨定義輸出標準。

對于DICOM類型的數據,按照ISO12052的要求,參照前述圖像、文本、語音和視頻數據的輸出格

式,存儲在DICOM數據格式的相應標簽和數據集合中。

5.8數據交付和驗收

5.8.1數據交付

數據交付時,標注團隊需對最終提交的數據量進行說明。交付的內容包括:

9

T/XXXXXXXX—XXXX

a)標注結果(必選);

b)交付和說明文檔(可選);

c)關于標注數據的Metadata(非必選),包括描述原始數據的元信息,比如圖像的采集地點、

光線、拍攝角度或音頻的采集時間、聲道數量等;

d)原始數據(非必選,有時數據使用方可直接訪問原始數據,則無需單獨交付原始數據)。

交付的文件存儲結構可參考以下:

圖2參考交付文件

說明:

Data——數據文件夾

doc——說明文檔文件夾(可選)

.json——(或.xsml等)標注結果文件,可以每一個label單存一個標注結果文件,或者是所有label

的結果在一個標注文件中

原始文件——為單條標注結果對應的原始文件,如圖片、音頻、文本、視頻

metadata——原始文件元信息(非必備)

5.8.2數據驗收

數據標注團隊在交付數據后,數據需求方應在數據驗收期內完成對數據標注結果的驗收工作,驗收

方式包括抽樣驗收和逐一驗收兩種。若驗收數據質量未達到預期值,數據需求方可要求數據服務提供商

對數據進行修正。

_________________________________

10

T/XXXXXXXX—XXXX

中國電子工業標準化技術協會(CESA)是全國電子信息產業標準化組織和標準化工作者自愿組成的

社會團體。廣泛聯系全國電子信息產業標準化機構和標準化工作者,協助政府部門搞好電子信息產業標

準化工作,開拓信息技術領域的標準化工作是中國電子工業標準化技術協會的主要工作內容之一。中國

境內從事科研開發、制造、營銷和服務的企事業單位、高等院校、社會組織和個人均可隨時向中國電子

工業標準化技術協會團體標準工作部提出團體標準項目建議。

中國電子工業標準化技術協會標準按照《電子工業標準化技術協會協會團體標準管理辦法》進行制

定和管理。

在本標準實施過程中,如發現需要修改或補充之處,請將意見和有關資料寄至中國電子工業標準化

技術協會,以便修訂時參考。

本標準版權歸中國電子工業標準化技術協會所有。

中國電子工業標準化技術協會地址:北京市海淀區萬壽路27號

電話子郵箱:standards@

網址:

11

T/XXXXXXXX—XXXX

目??次

前??言.............................................................................................................................................................III

1范圍...................................................................................................................................................................1

2規范性引用文件...............................................................................................................................................1

3術語和定義.......................................................................................................................................................1

4概述...................................................................................................................................................................2

5數據標注流程...................................................................................................................................................3

5.1定義所需數據和預估數據量...................................................................................................................3

5.2確定標注說明規則...................................................................................................................................3

5.3確定標注人力供給方式...........................................................................................................................5

5.4標注工具和標注平臺的選擇...................................................................................................................5

5.5標注任務的創建、分發、開展和回收...................................................................................................5

5.6標注結果的質檢和質量控制...................................................................................................................7

5.7標注結果輸出交付規范...........................................................................................................................8

5.8數據交付和驗收.......................................................................................................................................9

II

T/XXXXXXXX—XXXX

信息技術人工智能面向機器學習的數據標注規程

1范圍

本標準給出了面向機器學習的數據標注流程框架,包括數據標注前期準備、數據標注任務執行以及

標注數據結果輸出三個階段。

本標準適用于面向人工智能研究或開發應用等需要實施數據標注的企業、高校、科研院所、政府機

構等。

2規范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

3術語和定義

下列術語和定義適用于本文件。

3.1

數據標注dataannotation

對文本、圖像、語音、視頻等待標注數據進行歸類、整理、編輯、糾錯、標記和批注等操作,為待

標注數據增加標簽,生成滿足機器學習訓練要求的機器可讀數據編碼。

3.2

標簽label

標識數據的特征、類別和屬性等,可用于建立數據及機器學習訓練要求所定義的機器可讀數據編碼

間的聯系。

3.3

標注任務annotationtask

按照數據標注規范對指定數據集進行標注的過程。

3.4

數據標注員datalabeler

負責對文本、圖像、語音、視頻等待標注數據進行歸類、整理、編輯、糾錯、標記和批注等操作的

工作人員。

1

T/XXXXXXXX—XXXX

3.5

標注工具annotationtool

數據標注員完成標注任務產生標注結果時所需的工具和軟件。

注1:標注工具可生成標簽并提供參考模板。

注2:不同的數據類型和標注任務需要不同的標注工具。標注工具按自動化程度可分為手動、半自動、自動三種。

3.6

標注平臺annotationplatform

開展標注任務的系統化框架。

注:標注平臺在包含標注工具全部功能的基礎上將所有標注環節工具化,可有效地對標注任務進行全局管理和跟

蹤。

3.7

標注說明規則annotationinstruction

數據需求方用于明確標注任務和標注數據的書面陳述,包含執行標注任務所需的標注工具、任務描

述、標注方法、正確示例、常見錯誤等內容。

3.8

標注方法annotationmethod

定義數據標注員進行數據標注時的環境和流程,應包含標注對象定義、所用標注工具和標注平臺、

標注格式、標注前的準備工作、標注后的處理工作等。

3.9

眾包標注crowdsourcingannotation

數據需求方公開發布標注任務,數據標注員申領標注任務并在規定時間內完成標注任務發回數據數

據需求方,數據需求方收集整理后獲得用于機器學習訓練的標注數據集的數據標注過程。

3.10

半自動標注semi-automaticannotation

使用人工結合自動化工具的方式進行數據標注。

4概述

本標準給出了數據標注的流程框架,它包括標注項目的前期準備工作(包括對于所需數據的定義、

標注規則的制定、標注人力的確定);標注任務的創建、分發,開展、回收和標注結果的質檢和質量控

制;標注結果輸出的建議格式和交付。數據標注流程框架見圖1:

a)定義所需數據;

b)確定標注說明規則;

c)確定標注人力的供給方式;

2

T/XXXXXXXX—XXXX

d)標注工具和平臺的選擇;

e)標注任務的創建、分發、開展和回收;

f)標注結果的質檢和質量控制;

g)標注結果的輸出格式建議;

h)標注數據的交付和驗收。

圖1數據標注流程框架

5數據標注流程

5.1定義所需數據和預估數據量

數據標注前應完成以下五項準備工作:

a)對解決的問題進行分析,明確機器學習和模型訓練過程中所需的標注數據類型、量級、用途及

應用場景。分析維度包括:業務場景的針對性、標注樣本的平衡性、前期經驗及改進措施的借

鑒等;

b)對數據進行整理,明確數據與標簽文件存放目錄結構,在任務分配與回收的時候應按指定的目

錄進行數據組織;

c)明確數據與標簽文件的命名規則,命名規則應避免數據更新迭代時的重名,便于數據追蹤、標

注追蹤,數據文件名與標簽文件名應保持一致;

d)根據標注任務的人力獲取模式、工具的選擇、標注任務的類型、算法選擇以及整個項目的成本

對所需標注數據量進行預估;

e)與標注人員溝通,明確標注數據的定義并確定最終的需求量。

5.2確定標注說明規則

5.2.1標注說明規則的職責分工

3

T/XXXXXXXX—XXXX

數據需求方即業務數據需求方,指需要利用人工智能技術解決實際業務問題的業務團隊。數據需求

方應負責確保數據標注的規則符合該領域的業務和專業常識,并根據標注規則,檢查所標注的數據是否

滿足數據需求方。

數據使用方指需要使用標注數據訓練人工智能模型的研發團隊。數據使用方應從機器學習算法角

度,確保標注規則可滿足機器學習模型的訓練要求,并根據該標注規則,檢查標注的數據支撐機器學習

模型達到數據需求方期望的精度。

數據需求方、數據使用方及數據標注團隊應共同參與標注說明規則的制定、調整、迭代、執行的各

個環節。數據標注團隊應從實際標注角度出發,確保標注規則清晰、明確,以避免數據標注員理解偏差,

進而導致標注結果不符合預期。

5.2.2標注說明規則的定義

標注說明規則應明確項目的背景、意義及數據的應用場景,且包含項目的標注工具、任務描述、標

注方法、正確示例、常見錯誤等內容。

標注說明規則應有可變更性,該變更應由相關方評審同意后,再更新規則文檔,且相關方應沿用制

定規則時的基本原則及方法。

5.2.3標注說明規則的內容

標準說明規則包括但不限于:

a)項目背景:概述標注項目的背景或數據標注需求產生的場景;

b)版本信息:標注該說明的當前版本編號、發布日期、發布人、發布備注(發布原因或迭代原因)

及歷史迭代信息(歷代版本編號、發布日期、發布人、發布備注等);

c)任務描述:概括標注項目的主要任務,包括標注項目的關鍵信息、數據形式、標注平臺、主要

標注方法、期望交付時間、正確率要求等;

d)保密責任:對于數據的密級程度,數據需求方須在規則中列明,明確保密責任,標注方對當前

承擔的數據標注任務承擔保密職責(例如雷達數據標注等任務需要);

e)標注方法:給出數據需求方所需數據對象的嚴謹定義,明確在協定的標注平臺上使用何種標注

組件、標簽及全部操作。標注方法的衡量標準,以標注人員掌握標注方法后,能立刻正確操作

一次標注;

f)正確示例:通過圖片、圖文、視頻等的形式,示范正確的標注方法或成果,數據需求方應明確

數據產出,標注方應明確標注認識,標注樣例應覆蓋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論