




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能智能字符識別技術規范中國電子工業標準化技術協會發布I版權保護文件版權所有歸屬于該標準的發布機構,除非有其他規定,否則未經許可,此發行物及其章節不得以其他形式或任何手段進行復制、再版或使用,包括電子版,影印件,或發布在互聯網及內部網絡等。使用許可可于發布機構獲取。 12規范性引用文件 3術語和定義、縮略語 13.1術語和定義 1 24智能字符識別系統框架 25功能要求 3 35.2圖像預處理 35.3文本檢測 35.4文本識別 45.5信息提取 46性能要求 46.1文本檢測性能要求 46.2文本識別性能要求 67測試方法 77.1測試流程 7.2確定系統質量目標 87.3構建測試數據集 87.4搭建測試環境 97.5選擇測試指標 97.6執行測試步驟 97.7評價測試結果 9本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定本文件由中國電子技術標準化研究院提出。本文件由中國電子技術標準化研究院、中國電子工業標準化技術協會歸口。本文件起草單位:中國電子技術標準化研究院、騰訊云計算(北京)有限責任公司、華為技術有限公司、深圳云天勵飛技術股份有限公司、四川云從天府人工智能科技有限公司、西安深信科創信息技術有限公司、美的集團(上海)有限公司、阿里云計算有限公司、北京百度網訊科技有限公司、浙江大華技術股份有限公司、北京曠視科技有限公司、杭州海康威視數字技術股份有限公司、華為云計算技術有限公司、上海計算機軟件技術開發中心、上海依圖網絡科技有限公司、上海商湯智能科技有限公司、深圳市矽赫科技有限公司、馬上消費金融股份有限公司、北京九章云極科技有限公司、西北工業大學、上海人工智能研究院有限公司。本文件主要起草人:董建、馬珊珊、劉海濤、楊曉光、劉皓、張小寶、徐洋、楊雨澤、王小葉、王彭、鄭文先、代翔、李軍、李繼偉、田??怠⒑亍⒚摿⒑恪⒐?、姚聰、楊志博、章成全、楊燁華、李笑如、陳媛媛、熊劍平、程淼、梅敬青、付英波、程戰戰、鈕毅、謝澤澄、符海芳、郝陽陽、陳敏剛、馬澤宇、趙春昊、梁鼎、武煥、洪鵬達、洪寶璇、李云峰、劉志強、方磊、毛玉婷、王鵬、王冀、宋海濤、王資凱。1人工智能智能字符識別技術規范本文件確立了智能字符識別技術參考框架,規定了功能要求和性能要求,描述了對應的測試方法。本文件適用于智能字符識別產品和服務的設計、開發、應用和測試評價。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.12—2000信息技術詞匯第12部分:外圍設備3術語和定義、縮略語3.1術語和定義GB/T5271.12—2000界定的以及下列術語和定義適用于本文件。光學字符識別opticalcharacterrecognition一種字符識別,它使用光學手段鑒別圖形字符。一種基于深度學習的光學字符識別技術。對印刷文字、手寫文字、表格、公式符號以及文檔結構要素進行識別和編碼。對圖像上字符(串)、文本行(列)位置進行定位的過程。對圖像上字符(串)、文本行位置進行識別的過程。2對圖像上識別出的文本,進行排序、合并、自然語言處理等操作,使其轉換為結構化信息的過程。下列縮略語適用于本文件。AI:人工智能(artificialintelligence)BMP位圖(bitmap)GIF:圖像互換格式(graphicsinterchangeformat)ICR:智能字符識別(intelligentcharacterrecognition)JPEG:聯合圖像專家組(jointphotographicexpertsgroup)OCR:光學字符識別(opticalcharacterrecognition)PNG:便攜式網絡圖形(portablenetworkgraphics)PDF:可攜式文件格式(portabledocumentformat)TIFF:標簽圖像文件格式(tagimagefileformat)4智能字符識別系統框架基于人工智能技術的字符識別系統框架見圖1。文本輸出圖像輸入圖1智能字符識別系統框架ICR將給定圖像中的點或像素字符轉換為數字編碼信息,包括圖像獲取、圖像預處理、文本檢測、文本識別、信息提取五個模塊。a)圖像獲取模塊負責圖像、視頻截圖中圖像的讀??;b)圖像預處理模塊負責對從圖像獲取模塊接收到的圖像原始數據,將其轉換成滿足文本檢測、文本識別等輸入要求的圖像,其中包括質量增強、版面分析和質量篩選等功能;c)文本檢測模塊負責對于給定圖像(包括原始圖像、圖像中間樣本等)進行字符和文本行檢測;3d)文本識別模塊負責對于給定文本圖像,可包括原始圖像、圖像中間樣本、文本檢測出的圖像區域等,進行字、詞和文本行的內容識別;e)信息提取模塊依據版面分析、自然語言處理等手段將基于文本檢測和文本識別結果,轉換為結構化數據,以及識別結果的矯正。5功能要求圖像采集功能應符合以下要求:a)支持對包含但不限于JPEG、GIF、PNG、TIFF、BMP、PDF等常見的圖片格式進行讀取。圖辨率支持范圍應該包含128×128dpi~4096×4096dpi;b)支持對包括但不限于自然場景卡證、票據、文檔、表單等常見文本場景文字的檢測和識別。5.2圖像預處理對獲取到的圖像進行預先處理,使圖像便于后續的檢測和識別符合以下要求:、a)增強圖像質量,應對圖像進行幾何變換、畸變校正、修剪、數據格式轉換等操作;采用濾波、超分辨率等技術手段,在不破壞圖像邊緣、輪廓等原有細節的條件下對噪聲進行抑制;b)版面分析,應根據適用場景有效的檢測并區分出文字段落區域、圖片區域、表格、圖表、公式、圖章、二維碼等不同類別的元素;c)質量篩選,宜對圖像成像質量及圖像完整性進行評價和判別,過濾無法正常識別的低質量和完整度不足的圖像,如帶有反光、暗光、防偽標識等干擾、以及關鍵角點缺失等完整度不足的圖5.3文本檢測在原始圖像或圖像中間樣本識別從預定義范圍的字符符合以下要求:a)應支持設置待檢測字符類型范圍,如:Unicode字符集;b)應檢測出預先定義范圍內的字符類型,包含但不限于:中文簡體、中文繁體以及英語、阿拉伯語、俄語等西文;宜支持藏語、蒙語、維語等少數民族語言,數字、特殊符號及其組合等;c)應在檢測結果中包含字符在圖像中的位置信息;d)宜支持對所檢測圖像中的最小、最大字符大小的設置,如:8px~256px。5.3.2文本行檢測對原始圖像或圖像中間樣本進行文本行檢測符合以下要求:a)應定位出圖像中文字塊的位置,位置信息支持水平矩形、旋轉矩形、不規則四邊形以及多輪廓點等形式;b)應根據位置信息將含有文本行的區域,通過算法,如:仿射、最小外接矩形等歸一化算法,處理成規則的圖像數據;c)應支持對所需檢測圖像分辨率的設置,如:128×128dpi~4096×4096dpi;d)宜支持不同語言種類的檢測,如對中文、英文、混合語種的檢測;支持印刷體和手寫體的混合模式、不同字體類型大小、不同角度傾斜、不同程度遮擋物等情況的文字區域檢測。45.4文本識別對圖片中的文本行檢測區域進行定位后,對檢測區域內文本內容進行識別,應符合以下要求:a)對印刷文字和手寫文字的識別;b)對字符、字母、混合語種中的文字內容進行識別;c)對數字、數學公式以及特殊符號的識別;d)英文識別的最小尺寸為16x16px,中文識別的最小尺寸為32x32px;e)對方向有旋轉的文字,支持文字與水平軸<±15°夾角偏轉;f)支持對如中、日、韓文等有比較多豎排文字呈現的文字識別。5.5信息提取信息提取是基于文本檢測和文本識別結果,將嵌入其中的結構化信息或非結構化信息自動提取轉換為結構化數據,應符合以下要求:a)可對文本中的特定詞匯進行糾錯;b)可根據特定的語言上下文的關系,對識別結果進行校正。對于需要校正的字段,應支持定義校正規則,并依據校正規則進行處理,如日期、地址、金額類等;c)可支持對文本版式結構的還原,包括但不限于標題、章節、段落、圖表、腳注、頁眉、頁腳等版本格式;d)可支持識別表格區域行列信息,并對表格區域結構單元信息進行恢復還原。6性能要求6.1文本檢測性能要求交并比是用來評價文本目標框和文本預測框之間的重合度。計算公式如式1,Bp——預測的矩形框區域;Bgt——標注的矩形框區域。6.1.2精確率(PR)精確度包括字符精確度、單詞精確度和字段精確度。其中:a)字符精確率:適合中文ICR評測,字符包括單個文字以及標點符號;b)單詞精確率:適合英文ICR評測,單詞以空格分隔;c)字段精確率:適合卡證類、發票類、車牌ICR評測,能提取到結構化的字段信息。精確率用于衡量正確檢測出的字符(串)框數量占所有檢測出的字符(串)框數量的比例。計算方法見公式2:正確檢測是指預測框與目標框的IoU不小于0.5。5PR——精確率;C——正確檢測出的字符(串)框數量;M——檢測出的字符(串)框總數量。6.1.3召回率(RR)召回率包括字符召回率、單詞召回率和字段召回率。召回率用于衡量正確檢測出的字符(串)框數量占圖像上真實存在的字符(串)框數量的比例。計算方法見公式3:C——正確識別的字符(串)框數量;N——圖像上應該被正確識別的字符(串)框總數量。FScore為精確率和召回率的調和平均,平衡因子(權重)取1。計算方法見公式4:FScore——精確率和召回率的調和平均;β——平衡因子,β=1時,精確率和召回率權重相同;PR——精確率;6.1.5AP測度AP測度為在不同IoU閾值情況下,不同召回率下的平均精確率。以召回率RR為橫軸,精確率PR為縱軸,可以得到不同IoU閾值下的精確率-召回率曲線。通常,IoU閾值較低時,精度低,召回高,IoU閾值較高時,精度高,召回低,這樣可以得到一條類似雙曲線的函數。之后對該曲線進行平滑處理,即該曲線上的每一個點,精確率的值取該點右側最大的精確率的值。繪制出平滑后的精確率-召回率曲線后,取橫軸0-1的10等分點的精確率的值,計算其平均值作為最終AP測度的值,它的計算公式見公式5:AP不同召回率下的平均精確率;PRth——平滑后的精確率。6.1.6不同場景下文本檢測性能要求6電子/掃描、拍照、自然街景、網絡、多語音等場景下的文本檢測性能要求應符合表1的要求。表1文本行檢測要求召回率電子/掃描拍照自然街景網絡多語言6.2文本識別性能要求6.2.1精確率(PR)精確率用于衡量正確識別出的字符(串)數量占所有檢測出的字符(串)數量的比例。計算方法見公式6:C——正確識別的字符(串)數量;M——識別的字符(串)總數量。6.2.2編輯距離編輯距離表示一個字符串修改為和另外一個字符串一致,總共需要修改的字符數。編輯距離越大表示兩字符串之間的差異越大。編輯距離包括全圖編輯距離、最小編輯距離和平均編輯距離。歸一化編輯距離可以衡量兩個字符串之間的相似性,在編輯距離的基礎上加入歸一化操作可規避字符串長度帶來的指標差異。計算方法見公式7:s;——預測的文本內容;S,——真實文本內容;7max(s,s;)——s,和$,的最大長度;D(s,s,)——s,與S,的編輯距離,描述了兩個字符串的相似度,定義為從一個字符串變換到另一例如,有一個字符串a='love',b='lolpe'.那么計算a和b的編輯距離,就是要算出從a變化到b需a)love->lolve(插入1)b)lolve->lolpe(用v替換成p)6.2.3詞錯誤率詞錯誤率(WordErrorRate,WER)是EDITDIS(label,pred)——表示標簽label與預測6.2.4不同場景下文本識別性能要求表2文本行識別要求印刷文字中文8搭建測試環境選擇測試指標評價測試結果c)確定系統質量目標:根據系統的應用場景和風險,確定1)確定系統功能有效性、性能、兼容性、維護性、可移植性、訓練數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CIMA 0028-2021手持式數字多用表檢驗規范
- T/CIMA 0021-2020諧波有功電能表檢驗裝置
- T/CIIA 017-2022科學數據安全標準體系
- T/CHTS 20025-2022公路橋梁單元式工字形鋼梳齒型伸縮裝置
- T/CHINABICYCLE 1-2018電動自行車集中充電設施設備技術規范
- T/CHES 43-2020水利水電工程白蟻實時自動化監測預警系統技術規范
- T/CHC 1004.3-2023植物基食品第3部分:肉制品
- T/CGA 42-2023地下黃金礦山巖石力學數據采集技術規范
- T/CECS 10302-2023抗流掛聚氨酯防水涂料
- T/CECS 10295-2023建筑機器人地面清潔機器人
- GB/T 3277-1991花紋鋼板
- 新編簡明英語語言學教程 第二版 戴煒棟10 Language Acquisition課件
- 部編版六年級語文下冊《送元二使安西》課件
- 玻璃鋼化糞池施工方案
- msp430f6638實驗指導書教學開發系統
- 橋梁行洪論證的計算與注意要點
- 講師個人簡介
- 毛坯交付標準提示方案
- 現代寫作教程全套課件
- 工程造價畢業設計
- 自噴漆(環氧乙烷)化學品安全技術說明書(MSDS)
評論
0/150
提交評論