RPA在財經中的應用 課件 chapter7:OCR文字識別自動化_第1頁
RPA在財經中的應用 課件 chapter7:OCR文字識別自動化_第2頁
RPA在財經中的應用 課件 chapter7:OCR文字識別自動化_第3頁
RPA在財經中的應用 課件 chapter7:OCR文字識別自動化_第4頁
RPA在財經中的應用 課件 chapter7:OCR文字識別自動化_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

OCR文字識別自動化OCR光學字符識別(OpticalCharacterRecognition,簡稱OCR),是指對包含文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的技術。20世紀90年代以來,隨著平臺式掃描儀的廣泛應用以及辦公自動化的普及,OCR技術的識別正確率、識別速度不斷提高,更好地滿足了用戶的需求。UiBot不但提供了原生的OCR功能模塊,還接入了第三方的OCR服務,更是在MageAI產品中提供了豐富的文字識別功能,極大地方便了用戶的選擇與使用。12MageAI文字識別命令發票信息登記機器人01MageAI文字識別命令通用文字識別通用表格識別通用多票據識別通用卡證識別驗證碼識別印章識別自定義模板識別MageAIUiBotMage(智能文檔處理平臺)基于OCR、NLP等前沿深度學習算法,提供了文檔的識別、分類、要素提取、校驗、對比、糾錯等功能,可幫助企業實現日常文檔處理工作的自動化。Mage提供豐富的預訓練的AI模型,使用者無需AI經驗,開箱即用。Mage的AI能力可分為預訓練AI能力和定制化AI能力。預訓練AI能力提供了開箱即用的AI能力,能夠處理身份證、銀行卡、發票、火車票識別等普適場景的識別和抽取需求;定制化AI能力需要用戶上傳自己的數據,通過無代碼的方式,標注、訓練、測評、優化AI模型,使模型能夠理解專業領域的文檔。MageAI定制化程度能力用途預訓練AI能力通用文字識別識別圖片中所有文字。通用表格識別識別圖片中的表外文字和表內文字,并按照單元格的排列順序,輸出表格內容。通用多票據識別識別普通發票、專用發票、電子發票、銷貨清單、卷式發票、出租車票、火車票、動車票、飛機行程單、定額發票、購車發票等全票種發票,并返回核心字段值。通用卡證識別識別銀行卡、身份證、社保卡、駕駛證、行駛證、戶口本、護照、結婚證、房產證、不動產證、營業執照、開戶許可證、組織機構代碼證、車輛合格證、車輛登記證、基本存款賬戶信息,并返回核心字段值。驗證碼識別識別由數字和字母組成的驗證碼。印章識別識別印章的位置、顏色、內容。定制化AI能力自定義模版上傳一組版面樣式相對固定的圖片文件,通過配置規則的方式,依賴位置關系抽取到業務需要的字段值。MageAI在UiBotCreator中使用MageAI文字識別服務,需要進行Mage配置。MageAI服務也是一種付費服務。通用文字識別窗口文字識別“鼠標點擊文本”、“鼠標移動到文本上”、“查找文本位置”三個命令使用UiBotMage對窗口范圍內進行指定文字識別,其功能與使用與本地“鼠標點擊OCR文本”、“鼠標移動到OCR文本上”、“查找OCR文本位置”三個命令類似。通用文字識別屏幕文字識別“屏幕文字識別”使用命令時,需在屏幕上選擇目標,并指定識別范圍。下圖所示命令在識別屏幕窗口指定識別范圍內的文字,識別結果為一個JSON對象。通過JSON閱讀器,可查看其結構。通用文字識別“圖像文字識別”使用命令時,需指定待識別的圖像,支持jpeg、jpg、png、bmp、tif、tiff等格式。圖片文字識別通用文字識別“PDF文字識別”需指定待識別的PDF文件路徑、文件訪問密碼,是否識別全部頁。如果不識別全部頁,還需指定頁碼。頁碼支持正整數和數組格式,如輸入2,則識別第2頁;如輸入[1,3,5],則識別第1,3,5頁;如輸入[1,[6,9],4],則識別1,4頁和第6到第9頁。當識別全部頁碼設為"是",則識別指定頁碼的輸入失效。超出PDF頁碼總數的部分會報錯,頁碼重疊部分僅識別1次。PDF文字識別通用文字識別“屏幕文字識別”、“圖像文字識別”、“PDF文字識別”命令返回的是一個JSON對象,該對象列出了文本的結構,包括page、paragraph、row。UiBot提供了一系列獲取文本信息的命令來獲取文本的上述信息:“獲取全部文本”命令獲取通用文字識別結果的全部文本。“獲取段落文本”命令獲取通用文字識別結果按段落劃分的全部文本。“獲取每行文本”命令獲取通用文字識別結果按行劃分的全部文本。“獲取所有文本元素”命令獲取文字識別結果按文本元素劃分的全部文本。獲取文本信息通用表格識別屏幕表格識別通用表格識別命令識別圖片中的表外文字和表內文字,并按照單元格的排列順序,輸出表格內容。圖像表格識別PDF表格識別“屏幕表格識別”、“圖像表格識別”、“PDF表格識別”命令使用UiBotMage,分別識別指定屏幕范圍、圖像、PDF文檔中的多個表格,識別結果返回JSON格式。通用表格識別獲取表格信息獲取表格信息命令從屏幕、圖像、PDF表格識別命令返回的識別結果中獲取相關信息。獲取非表格文字、獲取所有表格、獲取表格數、獲取指定表格命令執行前,先要通過“屏幕表格識別”、“圖像表格識別”、“PDF表格識別”獲得表格識別結果。獲取表格區域、獲取表格行數、獲取表格列數、獲取表格行、獲取表格列、獲取表格單元格這幾個命令執行前,首先要通過“獲取指定表格”命令獲取到相關表格。獲取表格數、獲取表格行數、獲取表格列數返回值為數值型,其他命令返回值均為數組。通用表格識別提取表格結果至EXCEL“提取表格結果至EXCEL”命令將“屏幕表格識別”、“圖像表格識別”、“PDF表格識別”命令的識別結果直接提取至Excel文件中。該命令有一個特殊屬性:“過濾非表格文本”,選擇“否”將完整識別結果寫入Excel中的Sheet1頁,選擇“是”則將識別的每個表格按順序分別寫入Excel的多個Sheet頁。通用多票據識別屏幕多票據識別通用多票據識別命令可識別普通發票、專用發票、電子發票、銷貨清單、卷式發票、出租車票、火車票、動車票、飛機行程單、定額發票、購車發票等全票種發票,并返回核心字段值。圖像多票據識別PDF多票據識別“屏幕多票據識別”、“圖像多票據識別”、“PDF多票據識別”命令使用UiBotMage,分別識別指定屏幕范圍、圖像、PDF文檔中的多種票據,識別結果返回數組。通用多票據識別獲取票據類型獲取票據內容“獲取票據類型”命令獲取通用多票據識別結果中的票據類型。獲取票據類型命令僅有“票據識別結果”這一必選屬性,指向多票據識別命令輸出數組的某一個元素,返回一個字符串,表示票據類型。“獲取票據內容”命令獲取通用多票據識別結果中的票據內容。“票據識別結果”屬性與“獲取票據類型”命令一致。“提取類型”指定發票的類型,包括增值稅專用發票、機動車銷售統一發票、增值稅普通發票、增值稅電子普通發票、增值稅普通發票(卷票)、增值稅電子普通發票(通行費)、二手車銷售統一發票、通用機打發票、通用定額發票、旅客運輸普票、公路客運發票、航運客票、出租車發票、停車費發票、過路過橋費發票汽車通行費、醫療費收據、行程單、火車票、增值稅銷貨清單、商戶小票等。“提取字段”選擇獲取票據的字段,不同類型發票的提取字段各不相同。通用卡證識別屏幕卡證識別通用卡證識別命令可識別銀行卡、身份證、社保卡、駕駛證、行駛證、戶口本、護照、結婚證、房產證、不動產證、營業執照、開戶許可證、組織機構代碼證、車輛合格證、車輛登記證、基本存款賬戶信息,并返回核心字段值。圖像卡證識別PDF卡證識別“屏幕卡證識別”、“圖像卡證識別”、“PDF卡證識別”命令使用UiBotMage分別識別指定屏幕范圍、指定圖像、指定PDF文件中的卡證,“屏幕卡證識別”、“圖像卡證識別”返回的為JSON格式。“PDF卡證識別”返回的是數組。通用卡證識別獲取卡證類型獲取卡證內容“獲取卡證類型”命令獲取卡證識別結果中的卡證類型。“獲取卡證內容”命令獲取卡證識別結果中的卡證內容。“屏幕卡證識別”、“圖像卡證識別”的返回結果可直接作為“獲取卡證類型”、“獲取卡證內容”命令的“卡證識別結果”屬性輸入;如果是“PDF卡證識別”的返回結果,則需使用遍歷數組的值。“獲取卡證內容”命令可直接提取內容的卡證類型包括:銀行卡、名片、香港身份證、身份證、社保卡、駕駛證、行駛證、戶口本、護照、結婚證、離婚證、房產證、不動產證、營業執照、開戶許可證、稅務登記證、組織機構代碼證、車輛合格證、車輛登記證、往來港澳通行證、往來臺灣通行證、承兌匯票等。驗證碼識別屏幕驗證碼識別驗證碼識別包括屏幕驗證碼識別、圖像驗證碼識別,分別使用UiBotMage識別指定屏幕范圍、指定圖片中的驗證碼,返回識別結果,為一個字符串。圖像驗證碼識別印章識別印章識別包括屏幕印章識別、圖片印章識別、PDF印章識別,分別使用UiBotMage識別指定屏幕范圍、指定圖片、指定PDF文件中內印章信息,識別結果為JSON格式。屏幕印章識別圖片印章識別PDF印章識別“提取印章信息”命令從印章識別結果中提取指定的印章信息,提取結果為數組格式,提取的印章信息內容,包括文字、顏色、形狀、位置。提取印章信息自定義模板識別自定義模板識別支持用戶自定義模板,并根據這個模板對文檔進行識別。這是一項用戶定制化的AI能力。通過自定義模板,用戶可以根據自己的業務需求,快速定制AI能力,對用戶固有的合同、票據、單據等文檔進行處理。UiBotMage的自定義模板配置每個步驟都配有引導,可無代碼完成數據管理->標注->配置->評測->上線的全流程,手把手的教你如何打造一個可用于生產環境(即準確率符合預期)的機器人。自定義模板識別“屏幕自定義模板識別”、“圖像自定義模板識別”、“PDF自定義模板識別”使用UiBotMage識別指定屏幕范圍、圖像、PDF文檔中自定義模板內容。屏幕、圖片自定義模板識別,結果返回JSON格式。PDF自定義模板識別返回結果數組,在識別多頁過程中如果其中一頁失敗則整個識別會返回錯誤,且會消耗配額。屏幕自定義模板識別圖像自定義模板識別PDF自定義模板識別“獲取自定義模板名稱”命令返回自定義模板識別結果中的模板名稱。“獲取模板的字段列表”命令從UiBotMage接口獲取識別器中自定義模板的字段列表。“獲取模板識別結果”命令獲取自定義模板識別結果中指定字段的結果,返回一個數組。獲取自定義模板名稱獲取模板的字段列表獲取模板識別結果02發票信息登記機器人需求分析自動化流程設計自動化流程實現開發步驟需求分析小王是部門的財務秘書,部門員工需要報銷時,會通過郵件的形式將電子發票交給小王,由小王對發票進行初審。小王初審時,需要關注發票的開票日期、發票抬頭,還需要登錄全國增值稅發票查驗平臺對發票進行查驗。通過前面的學習,小王了解到可以通過發票驗真機器人對每一張發票進行自動驗真,但是需要提供“發票信息登記表”(示例如下),以記錄發票的相關信息。部門員工通過郵件發來的發票均以圖片形式保存,小王已按人名、報銷日期分別存放在“發票信息”文件夾中(文件夾的結構如下),并在“發票信息登記表”中錄入了前三列。現在,小王希望編寫一個機器人來幫助他補充發票信息登記表中剩余列的信息。需求分析發票信息登記業務流程業務流程步驟操作說明步驟1打開“發票信息登記表.xlsx”。步驟2打開發票信息文件夾。步驟3判斷發票信息文件夾下所有文件夾是否處理完畢?如果處理完畢,則進入步驟8;否則,繼續處理下一個文件夾。步驟4打開某一待處理文件夾。步驟5判斷待處理文件夾下所有文件是否處理完畢?如果處理完畢,則進入步驟3;否則,繼續處理下一個文件。步驟6閱讀發票信息。步驟7在“發票信息登記表.xlsx”中登記發票信息。步驟8關閉“發票信息登記表.xlsx”。發票整理業務流程的操作步驟自動化流程設計根據以上需求分析,設計發票信息登記機器人自動化流程如下圖所示。在該流程中,機器人代替人工,逐一訪問發票信息文件夾下的每一個文件夾,并識別該文件夾下的每一個電子發票文件,提取發票信息后,在發票信息登記表.xlsx中登記。發票信息登記機器人自動化流程自動化流程實現流程塊自動化流程步驟功能描述命令名稱發票信息登記步驟11.1打開“發票信息登記表.xlsx”打開EXCEL工作簿1.2讀取數據總行數獲取行數步驟22.1獲取“發票信息”文件夾下的所有文件夾列表獲取文件或文件夾列表步驟33.1循環處理“發票信息”文件夾下的每一個文件夾依次讀取數組中每個元素步驟44.1獲取文件夾路徑字符串長度獲取長度4.2查找文件夾路徑中最后一個”\”位置倒序查找字符串4.3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論