




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 OCR是“光學字符識別”(Optical Character Recognition)的英文縮寫。掃描儀等光學輸入設備可以將各種報刊、書籍、文稿、票據及其它印刷品的文字轉化為圖像信息,它要依賴掃描儀等硬件。而利用OCR文字識別技術卻可以將圖像信息轉化為可以進行編輯的文字,是一種計算機輸入技術,主要是通過軟件實現。 OCR文字識別軟件是與掃描儀配套的主要軟件,屬于非鍵盤輸入范疇。近幾年隨著掃描儀逐漸普及和OCR技術的日趨完善,OCR己成為大多數掃描儀用戶的得力助手,掃描儀廠商現在已把專業的OCR軟件搭配自己生產的掃描儀出售。 中文OCR是針對漢字信息高速輸入計算機的問題,致力于解決困擾漢字使用
2、者低速信息輸入與高速信息處理的矛盾,從而提高整個計算機系統的效率,比手工輸入要快幾十倍。此時,用戶只需要用掃描儀將整頁的文本或圖像掃描輸入到計算機,OCR軟件就會自動產生可以編輯的文本文件。 一、OCR 簡介二、OCR 的基本原理和工作流程(一) OCR 的基本原理 簡單地說,就是通過掃描儀將一份文稿的圖像輸入給計算機(或者說是計算機通過掃描儀獲取圖像),然后由OCR軟件取出每個文字的圖像,并將其轉換成文字的編碼。其具體工作過程是,計算機OCR軟件接受文稿的數字圖像,然后利用各種模式識別算法分析文字形態特征,判斷出文字的標準編碼,并按通用格式存儲為計算機的文本文件格式。其中文字識別是OCR的核
3、心技術。(二) OCR 的工作流程二、OCR 的基本原理和工作流程 現在幾乎所有的平板式掃描儀都捆綁了OCR 軟件,多數機型的隨機軟件中不僅有中文版OCR 還有英文版OCR,其實大部分中文版OCR 都兼有識別英文的功能。目前市場比較成熟的中文版OCR 軟件有清華文通、尚書、蒙恬等。這里以清華TH-OCR XP為例,介紹OCR軟件的使用。 清華TH-OCR XP 能夠適應超過一百種Windows字體,識別全部簡體國標一二級6763個字符,繁體13000多字符。在文檔識別過程中,對于每個區域可以設定不同的字體,例如一篇文檔中的大段英文可以設為英文識別,以提高識別率。TH-OCR XP 支持多任務,
4、可以在識別一篇文章的同時掃描或編輯其它文檔。 三 、清華 TH-OCR XP 軟件的使用(一)OCR 軟件簡介 在所購買紫光掃描儀的隨機光盤中,有清華 TH-OCR XP 的安裝程序。打開相應的文件夾,雙擊 setup.exe 文件開始安裝,首先進行語言設置,如下圖所示(實際安裝)。三 、清華 TH-OCR XP 軟件的使用(二)清華 TH-OCR XP 軟件的安裝 清華TH-OCR XP的窗口如其他Windows程序窗口一樣,簡潔明快、布局合理、容易上手。窗口分為標題欄、菜單欄、工具欄、工程管理區、圖像和識別操作區、狀態欄,如下圖所示(結合實際窗口介紹)。 三 、清華 TH-OCR XP 軟
5、件的使用(三)清華 TH-OCR XP 的窗口 完整的文字識別操作過程包括:設置、掃描、版面處理、識別、編輯修改、輸出六個基本步驟,如下圖所示。三 、清華 TH-OCR XP 軟件的使用(四)清華 TH-OCR XP 軟件使用的基本流程 說明:為了方便,這里使用已經掃描好的圖片供OCR 。實際操作時,也可以在OCR軟件中掃描文稿并直接加載掃描獲得的圖片,然后進行識別。三 、清華 TH-OCR XP 軟件的使用(五)實際使用清華 TH-OCR XP 軟件(處理幾個文件)1 打開清華 TH-OCR XP 軟件,并裝入要識別的圖片(或通過掃描獲得)。2 進行版面處理,包括傾斜校正、版面處理等。3 進
6、行識別。4 后處理。5 導出。 在使用OCR軟件進行文字識別時,必須認真學習OCR有關知識和理論,特別是系統設置、版面處理和編輯修改的理解和具體操作,并結合實踐不斷積累經驗,摸索出切實可行的解決方案。下面是一些有價值的提示,要認真理解和體會。 1在掃描儀中一定要放正原稿,不能位置傾斜,否則掃描出來的原稿也會是傾斜的,從而造成OCR軟件無法正確識別。另外,在放置掃描原稿時,把掃描的文字材料一定要擺放在掃描起始線正中,以最大限度地減小由于光學透鏡導致的失真。 2選擇適當的分辨力也是很重要的,一般來說,使用200300dpi的分辨力進行掃描比較合適,如果分辨力太高也沒有太大意義,只會增加掃描時間和文
7、件的大小。 3在掃描識別報紙或其他半透明文稿時,背面的文字透過紙張混淆文字字形,對識別會造成很大的障礙。遇到該類掃描,可以在掃描原稿的背面附蓋一張黑紙,并增加掃描對比度,即可減少背面模糊字體的影響,提高識別正確率。三 、進行文字識別時的注意事項 4對掃描后生成的圖像,用圖像處理軟件擦掉圖像污點,包括原來版面中的不需要識別的插圖、分隔線等,使文字圖像中除了文字沒有一點多余的東西,這可以大提高識別率并減少識別后的修改工作。 5版面分析。如果需要識別的原稿包含多種字號、多種字體的文字、多個文本區塊、圖文混排等復雜版面,就需要進行版面分析,將要識別的內容劃分為一個塊,這樣OCR軟件才能正確識別。 6多頁批識別功能 。若需識別的文章有多頁組成,使用OCR的批量識別功能十分方便。首先將多頁文件以TIF的格式按頁面順序依次掃描后存盤。而后再打開它
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省鎮江市第一中學2025屆高三數學試題第三次診斷考試試題含解析
- 遼寧省營口中學2025年初三下學期第一次調研化學試題試卷含解析
- 2025年職業技能鑒定考試試題及答案詳解
- 三亞航空旅游職業學院《力學與結構基礎》2023-2024學年第二學期期末試卷
- 上海杉達學院《工業物流與供應鏈管理》2023-2024學年第二學期期末試卷
- 2025年稅務代理人職業資格考試試卷及答案
- 2025年外貿業務員考試試題及答案
- 呂梁學院《文化產業經濟學》2023-2024學年第二學期期末試卷
- 廈門理工學院《軟件架構設計》2023-2024學年第二學期期末試卷
- 寧德師范學院《信號與系統分析》2023-2024學年第二學期期末試卷
- 尼龍防護網施工方案
- 有機物污染化學教學課件
- 基于AI技術的產品設計思路與實戰
- 分子生物學知到智慧樹章節測試課后答案2024年秋湖南科技大學
- 【MOOC】國際交流學術英文寫作-湖南大學 中國大學慕課MOOC答案
- 學校幫扶總結
- 高考語文復習【知識精研】《千里江山圖》高考真題說題課件
- 國藥控股采購合同范例
- 《基于SIP協議的IP呼叫中心控制器設計與實現》
- 【工程法規】王欣 教材精講班課件 41-第7章-7.1-工程建設標準
- 二類醫療器械零售經營備案質量管理制度
評論
0/150
提交評論