【中文文本識別系統的實現10000字（論文）】

上傳人：E*** IP屬地：湖北上傳時間：2023-07-01 格式：DOCX 頁數：18 大小：380.22KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩13頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第第頁目次TOC\o"1-3"\h\u67221緒論 1233791.1選題背景 1162301.2選題意義 1176731.3Java平臺的文本識別系統需求 2264881.4系統可行性分析 2192852系統總體結構設計及功能概述 4201452.1系統功能結構設計圖 4180342.2圖片處理模塊 4280652.2.1上傳文件功能 4207152.2.2圖片預覽功能 5204742.2.3圖片重識功能 5321802.2.4圖片清除功能 5170912.2.5截圖識別功能 6235732.3文字識別模塊 674422.3.1內容展示功能 681752.3.2復制文字功能 6163272.3.3清空文字功能 7146263調用API接口 830313.1OCR技術 8151293.2百度API接口簡介 8194913.3接口設計與應用 8158164系統的設計流程與實現 10140754.1系統流程概要介紹 10275624.2系統模塊的劃分與執行流程 1032544.3圖片處理模塊功能的實現 11195724.3.1上傳文件功能 11174154.3.2圖片預覽功能 1268094.3.3圖片重識功能 13312194.3.4圖片清除功能 1486714.3.5截圖識別功能 15191034.4文字識別模塊功能的實現 16224084.4.1內容展示功能 1685144.4.2復制文字功能 1784184.4.3清空文字功能 17166475系統測試 1990205.1對系統測試的目的和場景 1955395.2系統測試的設計 1942355.2.1上傳不同文件黑盒測試 1945825.2.2文字識別性能測試 19159515.2.3截圖功能測試 1921397結論 2116202參考文獻 23中文文本識別系統的實現1緒論1.1選題背景隨著計算機信息技術的發展，可以處理的事情越來越多。在當今社會，計算機不再是專業人士的專利，而是廣泛應用于各個方面。從各個方面來看，數字信息時代給人們的生活帶來了許多好處。在這些網絡產品中，自動識別系統的開發無疑是最豐富的產品之一。目前，人們收到的信息大多來自互聯網和各種數字媒體。信息存儲有兩種形式：紙質文檔和數字文檔。與紙質文檔相比，數字文檔具有操作簡單、自動分類收集、管理方便、存取方便、存儲空間小、檢索速度快、資源共享、支持遠程瀏覽等優點，編輯等便捷的數字文檔共享可以滿足人們對信息獲取和處理的需求。盡管近年來數字存儲技術發展迅速，但知識的數字化還有很長的路要走。目前，字符識別系統仍處于瓶頸，社會識別有待提高，識別性能等問題亟待解決，這對開發者來說是一個巨大的挑戰。隨著ORC技術的飛速發展，ORC將逐步普及到人們的日常生活中，在一定程度上提高數字信息的存儲速度，使人們的生活更加方便快捷。隨著數字多媒體技術的飛速發展，圖像無處不在。這些圖像通常包含很多個人信息，比如車牌、路標、路標等等。隨著越來越多先進的移動智能設備的普及，數字圖像、交通標志、遙感圖像等被人們隨時隨地廣泛應用于各個領域。為了進一步分析和理解這些圖像中包含的個人信息，許多數字圖像處理技術應運而生。字符識別是從數字圖像中提取字符信息的重要技術。在我們的日常生活中，文本經常被用來提醒人們周圍的環境或物體。使用智能儀器檢測和識別這些圖像中的字符具有非常重要的實際作用。1.2選題意義未來數字信息存儲將發生更多變化。如今，最重要的是編寫航空公司或文件，以提高信息存儲的穩定性和安全性，因此這兩類航空公司是當今信息存儲的重要組成部分。為了將數字信息與書面文件結合起來，促進社會發展，OCR技術必須共存，在技術上進行更新，使兩種存儲形式呈現各自的亮點，以解決手寫文件與數字信息的互補性，具有更大的現實意義和應用前景。Java平臺可能更具挑戰性，但它也帶來了研究價值。目前，很多識別軟件只能識別特定的物體，從而達到一定的特異性或效率。例如，識別軟件只能識別字符。普通身份證很快。然而，當前身份識別軟件的局限性不僅在于功能的需要，還在于OCR技術的滯后和信息的快速發展，身份證有許多獨特的設計和重復程度，各種設計也不常見。在識別輸入時，如果我們每次識別不同的ID信息時都使用不同的識別軟件，這將花費大量時間，因此我們可以看出在本例中識別是非常必要的。本文基于Java對各種場景和圖片進行了測試，對百度、騰訊等知名企業的圖片處理和機器學習算法進行了查詢，并對具體實現結果進行了分析，具有一定的理論研究價值。經過多年的實踐，這些算法可以擴展到類似的對象。本文從模式識別的基本原理出發，討論了如何運用模式識別的基本理論，并找到了將OCR技術應用于字符識別系統的相關算法。字符識別，這種OCR也適用于人工智能或模式分析。在結構分析和全局統計分類分析中，常用的兩種方法，如像素法、高度法、寬度法、高度法和特征變換法，該框架的主要特點是通過結合分類語法和合理的場景布局，有效地提出了所有字符。1.3Java平臺的文本識別系統需求字符識別系統需要在圖像下載后實現字符識別功能，并為使用該系統的用戶提供文件下載功能。文件下載后，用戶將在系統右側顯示圖片并輸出，以準確識別文本內容，方便用戶更快地使用識別出的文本。該系統具有將文本快速復制到剪貼板的功能，用戶可以存儲數字信息，并且使用時間更長。如果用戶上傳了錯誤的圖像或想要再次識別圖像，用戶可以掃描圖像和文本，這減少了許多復雜的操作，使得字符識別系統不僅快速準確地識別，還為用戶提供了良好的交互體驗。1.4系統可行性分析（1）經濟可行本系統采用的技術和開發環境在實際開發中應用非常廣泛，周期預計20天，每天費用按200/天的話需要4000元，并且硬件需求的話也是使用自己的筆記本電腦，開發完后可以部署到自己的電腦系統中，那樣服務器的費用也能免了，寫作、辦公不需要聯網也能使用本系統進行文字識別，所以一但應用后可讓所有PC端用戶都能快捷使用。（2）技術可行我們熟知常規的垂直應用架構現在已經無法應對，分布式服務架構和流動計算架構已勢在必行，迫切需一個治理系統確保架構有條不紊的演進。再利用百度應用程序接口集成一些優秀的API接口保證后臺的高可用和系統安全，再通過添加libraries完成圖形化界面的部署，配置后達到一定程度的高可用和易維護，充分說明本系統在技術方面可行REF_Ref7773\r\h[8]。2系統總體結構設計及功能概述2.1系統功能結構設計圖通過對以上系統需求的分析，可以看出字符識別系統分為兩個模塊，主要包括圖像處理模塊和字符識別功能模塊。圖像處理模塊具有文件選擇、圖像預覽、圖像恢復、清晰圖像識別、快照識別等功能。字符識別模塊具有內容顯示和文本復制掃描文本等功能。使用本系統，用戶可以選擇下載文件。主要功能是選擇計算機來處理各種信息和圖像。所選圖像在顯示和識別后可以自動識別語音識別區域，完成獨立的個人信息處理功能，通過內容復制系統功能可以快速使用，用戶可以將數字信息存儲在桌面上；等待字符識別系統的具體功能和結構如圖2-1所示。文字識別系統文字識別系統文字識別模塊圖片處理模塊文字識別模塊圖片處理模塊圖片清除圖片重識圖片預覽上傳文件復制文字截圖識別內容展示清空文字圖片清除圖片重識圖片預覽上傳文件復制文字截圖識別內容展示清空文字圖2.1功能結構圖2.2圖片處理模塊2.2.1上傳文件功能本系統是基于eclipseswing圖形界面的模塊化設計。它是一個功能強大、重量輕的swing圖形組件。因此，圖形界面中的按鈕形式稱為腳本工具。我設計的上傳文件和下面的功能模塊設計不再是圖形插件的詳細描述。當用戶需要識別文本圖像時，首先上傳圖像文件。當圖形程序插入I/O方法時，此函數稱為，但加載類型為數組。這樣，如果圖像是文件類型，是否加載它。如果文件類型匹配，例如如果沒有匹配的文件加載對象，則拋出異常以返回上一個表單。即使在以后的模塊中，也只需要使用這種重載方法。詳細功能描述見表2.1。表2-1上傳文件功能描述上傳文件功能描述提供用戶進行離線上傳文件的功能并同步識別出文字進行的操作判斷文件類型是否符合產生的結果如果文件類型符合則同步識別出圖片中的文字，如果文件類型不符合則返回上一個窗體2.2.2圖片預覽功能成功選擇并加載圖像后，預覽圖像將顯示在系統中，用戶界面將進行早期定位，圖像將再次顯示到指定位置，并指定文件長度；高度和方向，這樣上傳的圖片可以再次適應用戶界面，用戶可以清晰地預覽上傳的圖片。如果上傳失敗或上傳的圖片無法提前完成，詳細功能描述見表2.2。表2-2圖片預覽功能描述圖片預覽功能描述將上傳成功的圖片預覽到界面上進行的操作上傳一張需要文字識別的圖片產生的結果系統界面上按照指定的縮放圖片進行圖片的渲染以及回顯2.2.3圖片重識功能圖片重識功能并不需要重新再次上傳文件，所以綜上所述只需重載文字識別的方法即可，給用戶提供再次識別的功能，讓用戶更加清晰、準確的知道圖片識別的結果是否有誤。具體功能描述參見表2-3。表2-3圖片重識功能描述圖片重識功能描述無需再次上傳文件，提供用戶再次對圖片進行識別的功能進行的操作對內存中上一次上傳的符合文件類型的圖片文件進行重載文字識別的方法產生的結果圖片重新進行文字識別2.2.4圖片清除功能圖片清除功能并不是直接刪除這個圖片，因為本系統文字識別功能是基于內存來完成的，所以使用本清除功能時對原來上傳成功的文件不會產生任何影響，所以也能稱作軟刪除，將圖片清除功能之后將失去圖片預覽功能，但是可以重新進行圖片上傳功能。具體功能描述參見表2-4。表2-4圖片清除功能描述圖片清除功能描述將圖片進行清除提供用戶下一次上傳操作進行的操作在內存中把上一次使用的圖片清除產生的結果圖片預覽中清除掉回顯的圖片2.2.5截圖識別功能當用戶需要識別的文本不再是文件類型，但無法將圖像類型保存在計算機頁面或其他類型的軟件中時，圖像識別功能可用于識別圖像所需的位置，不僅可以準確識別用戶的身份，而且還可以自動同步上傳到預覽區，這樣可以有效減少用戶訪問圖像和上傳文件等超時操作。詳細功能描述見表2.5。表2-5截圖識別功能描述截圖識別功能描述提供用戶對所需要識別文字的地方進行截圖選取并同步上傳進行的操作將截圖選擇的部分進行上傳產生的結果用戶通過截圖識別功能選取的部分自動轉為圖片格式存取到內存中并且進行上傳2.3文字識別模塊2.3.1內容展示功能文字識別模塊中最重要的就是把內容準確、迅速、完整的展示給用戶，所以內容展示功能是將文字識別方法執行后生成的文字進行展示，和圖片預覽功能類似，也需要提前設置展示內容的文字大小、定位等，所以用戶進行上傳完圖片之后可以自動將圖片中的文字進行渲染到頁面中。具體功能描述參見表2-6。表2-6內容展示功能描述內容展示功能描述將識別后的文字到指定窗體中展示進行的操作將用戶上傳的圖片識別成文字產生的結果在系統右側圖像界面窗體中通過指定的格式渲染出用戶識別之后的文字2.3.2復制文字功能本系統的初衷就是使用戶能快捷的從指定文件或位置識別出自己想要的文字，所以復制文字功能完全符合本系統的初衷，讓用戶識別完之后的文字只用按一個按鈕就可將內容復制到剪貼板，其中復制文字功能也是將內容復制到內存中，不會對識別出的文字產生影響。具體功能描述參見表2-7。表2-7復制文字功能描述復制文字功能描述將識別出來的文字復制到剪貼板中進行的操作執行主窗體界面中的復制功能產生的結果若文字存在則將全部內容復制到剪貼板中，若文字不存在則不產生影響2.3.3清空文字功能當復制完文字內容之后或者需要重新識別之后即可使用本清空文字功能，本功能和上述的清空圖片功能類似，只對內存中剪貼板的內容濟寧進行清空，對本系統識別出來的文件不產生影響，清空文字之后界面中將等待重新識別輸出內容。具體功能描述參見表2-8。表2-8清空文字功能描述清空文字功能描述提供用戶對主窗體中的輸出內容進行清空進行的操作將識別出來的文字從內容預覽窗體中清除產生的結果若文字存在則將全部內容從窗體中清除，若文字不存在則內容預覽不受影響3調用API接口3.1OCR技術該系統采用光學字符識別（OCR）技術，通過圖像從文本中提取信息，稱為光學字符識別（OCR）。光學字符識別（OCR）OCR是一種掃描文本、圖形和紙張的技術，屬于模式識別（patternrecognition）的知識。這種字符識別是一種知識。只要計算機識別出內容的類型，它就可以做出預測。在字符識別領域，人工智能應用的主要支柱是教計算機如何通過人類等更深入的物體自動識別紙張、票據或圖像。如何利用現有的光學字符識別技術進行圖像識別和模式識別是本章的重點，而模板匹配是通過該領域的數據分析方法獲得的我國對OCR的研究在國外相對較晚，因為在20世紀60年代，我國不僅限于國際經濟和技術領域，而且從中很難識別出文本類型。經過國外學者多年的研究和探索，光學字符識別技術在20世紀得到了廣泛的應用。它不僅局限于文本的經濟性和效果，而且適用于中國發展的第一階段，沒有這樣的理解。因此，在我國字符識別發展的早期階段，字符識別的研究相對滯后。在中國社會主義的指導下，各種數字技術迅速發展。因此，OCR技術在21世紀中國有著廣闊的發展前景，傳統的文字處理技術有助于OCR的大規模發展。隨著國內外信息交流的深入，該領域的技術越來越成熟和實用。在計算機重復和頻繁交互的基礎上，人們逐漸投資于光學識別。字符識別技術的發展給字符識別領域帶來了又一輪的發展浪潮，使越來越多的人參與到字符識別的深入研究中。該技術產生了卷積神經網絡、循環神經網絡、深度置信度網絡等。各種深度算法結構使得OCR技術仍處于早期階段，實驗室階段取得了質的飛躍。它不僅提高了字符識別的速度，而且在自然場景中取得了良好的字符識別效果。3.2百度API接口簡介百度字符識別應用界面是基于業界領先的深度學習技術，多場景、多語言、高分辨率的全圖像文本檢測和識別服務，ICDAR指標數量居世界首位。多功能選擇，提供通用字符識別，高精度版本包括位置信息，高精度版本包括位置信息，四個版本，可適應不同場景工作對精確識別、速度識別和位置信息的要求；支持多語種識別和字符識別，包括位置信息版本，支持中國、西班牙、葡萄牙、德國、意大利、日本、韓國、英國、法國、俄羅斯、中國、英國等多語種內容識別，支持中、英、日、韓測試、高精度、圖像增強、模糊、傾斜、，人臉等，魯棒性強，識別速度快，支持2W+大型數據庫，整體識別準確率高達99%；服務穩定、可靠性強百度云技術提供高可靠性、靈活性、可移植性和高并發性的字符識別服務，服務可用性高達99.99%。3.3接口設計與應用第一章指出系統將使用百度API進行字符識別應用編程接口，所以我們需要了解百度API接口平臺的一般功能是什么。您可以在AI平臺上看到許多選項，包括文本識別和AI導航欄，可以在控制文本識別功能末尾的下拉列表框中找到，輸入相關文檔的狀態。在此頁面上，您可以通過注冊應用程序界面的密鑰來查找應用程序類型。如果選擇僅識別文本，則選擇所有服務經理識別的默認文本，并填寫應用程序名稱和系統描述。當然，除了識別文本，你還可以檢查多個界面，因為百度API技術已經成熟了很多。單擊打開技術范圍，查找具有不同需求的Java文檔。如果需要人臉識別，請檢查所有人臉識別界面。創建后，單擊應用程序菜單上的后退按鈕。在應用程序界面菜單中，可以顯示相應的應用程序API密鑰和密鑰。使用jar包應用到系統中在官方網站下載JavaSDK壓縮工具包；將下載的對應的壓縮包解壓后，復制到工程文件夾中；在Eclipse右鍵工程選擇Properties然后在JavaBuildPath里添加AddJARS；添加SDK工具包和第三方依賴工具包JSON的jar包和log4j的jar包，其中，version為版本號，添加完成后，用戶就可以在工程中使用OCRJavaSDK，在代碼的范圍內修改和編譯SDK和jar包以適配文字識別系統環境REF_Ref8700\r\h[20]。4系統的設計流程與實現4.1系統流程概要介紹本章首先分析了計算機外圍結構的特點，然后通過實驗比較了NDK框架、C語言和Java等復雜圖像處理算法的差異。然后，根據現場的特點和國內外同類產品的性能，提出了系統的設計目標，得出了系統需要解決的關鍵技術問題。為了實現字符識別系統，本文提出了一種解決方案。應用程序開發人員在應用程序層編寫程序，這些程序是用Java語言開發的。眾所周知，Java語言的最大優勢是更好的封裝性和可伸縮性，而不是比C/C++更低的效率。然而，由于圖像處理算法和時間的復雜性，如果將字符識別系統直接放置在應用層，并使用Java，整個系統的時間將相對較短。在很大程度上，實時結果是半次努力的兩倍。4.2系統模塊的劃分與執行流程系統通過一個面板容器類將所有功能結合在一起，主要使用eclipse的GUI工具，這是一個輕量級的容器，可以使與用戶的交互更加方便，簡單快捷，所以我們在這個主面板中都有模塊，然后使用子窗體作為父窗體的值來完成所有的構造方法和其他方法。我們在主板上的功能模塊分為：圖像選擇、字符識別、空白、復制、快照識別、清除和重新識別。系統模塊設計完成后，我們將定義每個按鈕的字體、大小和位置。除了按鈕分割模塊，還有一個用戶顯示模塊，例如預覽圖片、標簽、文本輸出區域和文本字段的滾動條、面板的各個方向等。將每個模塊劃分為設計模塊后，依次將每個模塊添加到相應的方向盤上，然后設置當前系統模式，依次調用其他方法后編寫主方法可選參數調用界面等，系統實現流程圖如圖4-1所示。開始開始清空圖片預覽清空圖片預覽N文件類型不匹配N文件類型不匹配選擇文件上傳文字識別查詢文字識別查詢Y文件類型匹配成功Y文件類型匹配成功識別成功識別成功結束結束圖4.1概要執行流程圖4.3圖片處理模塊功能的實現4.3.1上傳文件功能在第2章中，我們可以看到我們設計的所有模塊都必須在圖形界面工具包上設計，所以我想介紹如何在eclipse中實現這個強大的swing插件。SWTdesigner是一個非常強大的swing圖形編程插件。如果你想開發谷歌的網絡工具，GWT設計師。直達下載Windowsbuilderpro，它包含所有插件的全面設計器、swing設計器和GWT設計器。請注意，當您下載與eclipse版本對應的windowsbuilderPro時。下載windowsbuilderpro后，即可開始安裝。您選擇下載安裝程序，安裝相同的通用應用程序，并選擇通過圖形界面提示符連接到eclipse。完成圖形界面的主模型設計后，確定了各模塊與尺寸之間的距離。判斷用戶下載的文件是否為空文件。在創建文件的方法中，可以使用if（！fileexists（））通過嘗試捕獲加載時遇到的異常來確定文件是否存在。然后使用j按鈕返回“讀取文件”按鈕，通過讀取文件讀取器讀取文件內容。在上面的第二章中，當文件加載到內存中時，即使加載了文件，也要使用讀卡器緩沖區打開緩存空間，并以相同的方式返回“寫入文件”按鈕。在上述方法中，使用文本文件編寫器以文件的形式獲取文本框中的所有內容，并將其輸出到控制臺提示“fileWritesuccessfully”。點擊所選文件時，調用GUI功能包文件打開一個新表單，向下輸出，當“選擇文件”再次出現時，添加所需的圖像，不僅可以從設備下載選擇圖片，也可以使用網站書簽作為圖片下載的源文件。使用文件下載功能讀取和寫入文件。見圖4-2。圖4.2上傳文件圖4.3.2圖片預覽功能圖片預覽功能是用戶可以看到上傳的圖片文件是否已成功上傳或是否上傳圖片。圖片預覽不需要在用戶流中再次讀寫文件，文件加載已經讀寫了文件設置方法，所以該功能是通過GUI格式設置的。該功能使用OCR面板的方法作為界面。本章介紹了基于GUI工具的所有方法。主面板下的表格不再詳細。下載完正確的文件類型后關閉文件流，然后替換圖片預覽模型。預覽圖像界面如圖4-3所示。圖4.3圖片預覽圖4.3.3圖片重識功能在第二章中，圖像重新定義不需要重新加載圖像文件，因此可以減少用戶的冗余操作，并且系統編寫的代碼不需要為文本識別而重寫，您只需要在主面板中重新定義調用對象的重載模式，直接刪除圖像過濾文件中可選的參數調用接口，重新分析JSON格式，需要注意的是，在執行此方法時，必須調用字符識別以外的模塊，否則會出現異常類型的異常。使用圖像識別功能重新識別文本，見圖4-4。圖4.4圖片重識圖4.3.4圖片清除功能當用戶需要重新識別文本時，他們需要設計一個清晰的圖像功能，然后是一個空文本功能。但是，當用戶需要設計流文件版本時，圖像文件類型為空。在Java編程中，我們經常需要使用一些主動發布的文件，比如輸入流、輸出流、通道套接字等，所以我們需要釋放這些資源。首先，GC內存中的恢復不會主動釋放這個不確定的答案。然后我們可以知道以下特征：每個進程都有一個文件描述符表，不同的描述符可以指向同一個文件。這個數字只是一個有意義的進程。在Java中，文件通過文件描述符運行，然后Johnny調用相應的C代碼并調用系統中的函數進程。本章介紹加載目標文件的過程，在一個實施例中，打開文件主要是調用操作系統的指令，然后獲取有效的文件運算符，然后設置相應的Java變量，然后通過文件描述符系統命令調用下一個close，在Java中釋放對象之前調用finalize（）方法，因此一些JDK應用程序將添加close操作，例如輸入文件流，這是對JDK的補償，可能會導致程序員不關閉文件。最好的方法是養成在文件用完后關閉文件的習慣。當然，Java是關閉最后一個塊最可靠的方法。用清晰的圖像編輯文件后，參見圖4-5。圖4.5寫入文件圖4.3.5截圖識別功能當待識別文本無法保存在計算機中時，需要使用圖像識別功能，因此該功能不需要下載文件，下載時可以同步圖像。首先，在使用snapshot函數之前，必須繼承一個通用類型的Jwindow類。獲取默認工具調用方法時，泛型類型的構造函數設置方法的大小，以獲取調用此方法的屏幕的大小，計算機屏幕將生成一個層掩碼，該層掩碼根據數組綁定獲取屏幕的大小和分辨率，以使層掩模覆蓋整個計算機屏幕進行圖像捕獲。成功下載后，用戶將再次顯示成功的快照。使用快照標識按鈕選擇圖像后，右下角將分別顯示不同的圖標。如果選擇或重新啟動快照。有關使用快照選擇功能的詳細信息，請參見圖4-6。圖4.6寫入文件圖4.4文字識別模塊功能的實現4.4.1內容展示功能內容顯示功能是從文本中識別圖像并形成顯示，因此首先要解決的問題是如何識別和提取字符。區域文本分割系統主要包括以下五個步驟：區域直方圖；以最小方差測量文本內容的單詞水平；將文本的平均長度分成幾行；對單個字符對象進行提取，得到其點陣坐標方向。創建一個字符串來存儲所有文本內容，通過字體界面進行提取和比較，最終實現字符識別的效果，從而逐步細化這個過程。第三章提出了利用OCR技術實現字符識別的具體解決方案。在實際應用中，一般通過檢測圖像中的文本來定位區域，然后提取區域的序列特征，并在此基礎上進行特殊字符識別。簡單了解工作流及其在本系統中的應用。在識別標準文本行時，通常使用crnn或seq2seq方法來彎曲不規則文本。如果遵循之前的識別方法，CNN+RNN將直接應用于整個文本區域的圖像。由于錯誤區域較多，識別效果較差。因此，我們還提出了一種通過STN網絡參數轉換的學習方法，將相應的圖像特征傳輸給后續的RNN識別。因此，我使用目前的技術作為一種新的、更安全的百度API應用接口方法。在介紹接口的功能以及如何調用應用程序接口之前，我們沒有詳細介紹具體的接口代碼。最后最重要的就是傳值問題，因為使用該接口識別出來的文字為java中最常見的JSON數據格式，在array的數組中進行get傳值，把拆分出來的文字用String強制轉換，最后使用tostring進行解析之后用return返回所有內容。以上傳一個廣告圖為例，具體使用文字識別功能后內容展示參見圖4.7。圖4.7內容展示圖4.4.2復制文字功能復制文字功能即為復制文字到剪貼板中，這和復制文件類型相似但也有區別，復制文字時雖然也需要用到file類的使用，但是在上一步內容識別展示時已經將這一步驟完善了，在調用接口傳值之后不需要再對文件進行讀取、存儲，從緩存來避免任何性能的阻礙，明顯我們將使用不同的源文件和不同的目標文件都能快速復制到剪貼板，最后保存在String類型的內容使用SetContents方法進行存值。使用復制文字功能將文字復制到剪貼板中參見圖4.8。圖4.8復制文字圖4.4.3清空文字功能清空文字功能是為了避免再次識別文字時文件讀寫的時候出現異常，所以添加手動清空文字的功能，雖然再次識別的時候也能將文字清空，但這樣的操作會使系統產生多余的操作因而造成一定意義上的內存泄漏，所以我們在actionPerformed的方法中判定文字是否存在，當用if對getSource取出來的值為空時即跳出本方法不做任何操作，當取出來的內容不為空才繼續執行本方法，在setText方法中將圖形界面的文字窗體中把內容全部清空。使用清空文字功能參見圖4.9。圖4.9清空文字圖

5系統測試5.1對系統測試的目的和場景系統工程是軟件開發、調試和測試的重要組成部分，也是保證軟件質量的關鍵環節，直接影響到計算機外設的可用性評估。然而，在使用該系統之前，仍然可以通過聯合測試來測試計算機輔助系統的一些基本功能代碼，并嘗試查找和調試這些代碼。如果你有關于這個話題的任何信息，請免費添加。5.2系統測試的設計5.2.1上傳不同文件黑盒測試黑盒測試是軟件測試中最常用的測試方法。黑盒測試是基于不同的測試場景，從用戶的角度對測試用例進行測試，我們設計了測試用例來檢測加載時的文件，并且每個功能都可以正常使用。顧名思義，在測試黑盒中，系統與黑盒白測試密不可分，而不是考慮設計的內部結構和特點。對于單元測試，它也可以以多種方式分離，包括在代碼中查找位置錯誤。在開發工具中使用單元測試需要導入測試包junit4，因為本項目使用的Eclipse開發工具只在測試文件中添加以下依賴代碼，因為系統不涉及不同的用戶角色，每個普通用戶都可以使用系統，所以沒有詳細的單元測試描述5.2.2文字識別性能測試字符識別的主要任務是正確、清晰地顯示用戶上傳的文件，但這也是最基本的需求。一個好的系統需要完成性能測試，系統壓力測試也是性能測試的重要組成部分。它可以識別性能瓶頸或標點符號過多，從而確保系統的測試。這也是確保當今市場軟件質量的關鍵。中國軟件測試中心提出了各種性能測試，將系統實施與瓶頸綜合分析預測有效合理地結合起來。5.2.3截圖功能測試前一節介紹了功能測試的重要性，并根據自己的測試情況對系統功能進行了改進。因為這張圖片可能是功能測試中用戶行為的各種問題，所以再次在識別文本快照功能之前，設計了各種測試用例。這個測試需要使用錯誤推理來預測基于收集的網絡數據通過我在系統設計中的經驗和直覺，我們可以判斷系統中所有可能的錯誤或風險。通過考慮手術前的條件和手術后結果之間的關系，并結合它們創造新的條件，不容易

人人文庫> 全部分類> 行業資料 > 工業設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

【中文文本識別系統的實現10000字（論文）】

文檔簡介

溫馨提示

最新文檔

評論