




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、(本科畢業設計論文)畢業設計論文外文資料翻譯作 者:學科專業:學 號:班 級:指導老師:附件:1.外文原文2.外文資料翻譯譯文2021年6月概率的數學公式識別使用一個二維的上下文無關文法圖數學表達式的識別問題。興旺的系統靈活的,它可以很容易的擴展語法由于它的圖形語法,不需要指定規那么的優先級。在這個意義上是最正確表達式的所有可能的解釋是擴大沒有早期的承諾或艱難的決定。在這,我們給出了整個系統的概述和描述詳細說明用圖的語法和解析過程系統,隨著對字符的一些初步結果,的結構和表達的識別性能。關鍵詞在線,手寫識別,OCR,數學方程,二維圖形語法,圖框語法一、引言在計算機和其他地方的增長盡管在我們的生活
2、中的數字設備,紙和筆是最傳送或記錄信息的方便的方法方法。特別是,數學表達式是最反對手寫輸入的應用。計算機理解手寫文字手寫或數學公式是一個正在進行的研究領域。不同的?困難是由于幾個因素,包括寫作風格的變化較大,其詞匯的指示可能的替代品的大小,和一定形狀的無語義歧義理解例如,“O和“0。數學表達式識別包括兩個主要ubproblems:賽格字符識別的識別化和標記符號數字,字母,特殊數學符號和結構分析下優秀的表達結構的空間字符和字符識別之間的關系定義輸出。數學表達式的識別更挑戰相比,在識別由于手寫文本O數學表達式的復雜語義以及漢字的二維布局。有幾種方法在文獻結構數學表達式的分析:程序編碼規那么 1 ;
3、X-Y削減基于投影親?LES 2 , 3 ;基線樹的構建 4 , 5 ;隨機上下文無關語法 6 ;約束屬性文法 7 ;分層分解分析 8 ;生成樹的生成加權圖 9 ;和圖形語法 10 13 。在之間這些方法有一定的優勢,圖語法:為把 14 了,圖語法的本質二維表示可以代表一個可能在于有限數量的模式,有限數量的規那么,當增強屬性。事實上,圖語法是公式識別的首選方法之一,近年來。在 10 ,圖語法添加到現有的系統放松約束的書寫順序的符號。在 11 13 的工作是基于圖重寫,在一個自底向上使用的語法分析器,折疊節點匹配在每一個規那么應用到一個節點。這些系統,的解析過程的輸出是一個單節點的含所有輸入符號
4、和對應的預期所表達的意思。我們的系統使用概率上下文無關圖指導系統數學有效的解釋和關聯概率可解釋的表達。所提出的系統區別于以往工作的概率算法的方法:先前的基于圖文法方法修改初始圖的應選擇的語法規那么是不可逆的,我們的方法娛樂的相鄰標記所有可能的解釋最終的表達。這可能是由于它的圖形語法,可以指定需要規那么的優先級,在所有可能的解釋為在迄今為止被保存在一個擴展圖。在這框架,所有可能的解釋歧義消解的表達是在分析結束,由考慮到由此產生的可能的解釋。一種解釋的可能性取決于適宜性的符號空間分布的規律和與公認的符號的似然。輸出我們的系統是最有可能的解析的輸入,隨著他們的情況。這是一個重要的優勢所提出的系統,為
5、用戶可以簡單地選擇正確解析從名單上,而不是糾正解析結果或重寫的表達。下一節簡要描述圖克火星,然后我們的方法和實驗結果AR在隨后的章節中描述。在本文的其余局部,使用的術語指的是字符識別的OCR不久符號和字符的互換是指segmente字符;和節點或令牌是指目前的O組符形式的表達式。二圖語法數學公式精確的語法嚴格的數學的適當的數學定義是什么性表達和正確解析含義一個給定的數學表達。語法包括生產規那么說明終端和非終端定義在語法方面,聯合產生作為一個結果的規那么應用的非終端。例如我們可以舉一個簡單的字符串的語法,德?NES規那么這使得數字和整數如下這里的10數字終端,而數字和點是非終端:數學公式精確的語法
6、嚴格的適當的數學定義是什么性表達和正確解析含義一個給定的數學表達。語法包括生產規那么終端和非終端定義語法方面,聯合產生作為一個結果的規那么應用的非終端。例如我們可以舉一個簡單的字符串的語法,規那么這使得數字和整數如下這里的10數字終端,而數字和整數是非終端。數字=0,1,2,3,4,5,6,7,8,9整數=0,1,2,3,4,5,6,7,8,9,圖的語法提供了一個形式主義的語法多維數據不能計算處理通過字符串的語法實現。由于他們的介紹解決圖像處理問題,圖語法被用來在不同的領域,如并行系統,數據庫,編程語言和生物學 15 。在數學表達式的識別,圖的語法是十配合使用圖重寫的方法初始圖形構造標記的表達
7、反復降低到相應的單節點圖解析表達式樹。在每次迭代中,一個語法規那么的選擇和應用,當圖的電流圖的匹配規那么的模式圖;結果規那么的應用,當前圖轉化為用規那么表示。特別的,規那么R =GL;GR;C;EM由左側和右側圖圖Gl GR,一個適用性謂詞C,和一個嵌入規那么了Em。適用性謂詞C是一組約束節點和/或邊緣的屬性值,和不存在一定的邊緣,需要滿足,以便能應用的語法規那么。例如,應用一個規那么謂詞表示兩個標鄰近的標記應具有可接受的大小和位置關系。適用的謂詞,應用一個生產規那么可以限制即使規那么有在輸入圖的匹配。一個生產應用一個圖G的規那么產生G0,這是表示GR G0。與生產GR G0一個發生圖G是一個
8、圖GL GR生產取代G0按照嵌入規那么,EM,如果適用謂詞是滿意的。嵌入規那么規定子圖的將子GR在圖含有原子GL。在字符串的語法,安置生產是顯而易見的,但是在圖文法,安置生產圖GR必須指定通過嵌入規那么的EM,描述如何處理懸邊邊緣那個失去一個節點后,GL是從圖和如何連接到現有生產圖GR圖。一個圖G =N;E被認為是在圖語法GG的當且僅當N 2 N節點和E 2 E邊緣的GG和存在的推導,可以生成G規那么從河從圖G圖G0推導語法GG是德?內德作為一系列產品其中GRI1 G1ri2 G2:里克G0。圖1顯示了一個例規那么從圖G的導出G0在哪兒標記節點A和C都有替換節點D一個有向邊從A到C的嵌入規那么
9、表示只有邊緣向C和邊出應保持。虛節點和邊在規那么說明可能的額外的節點和邊,這可能會或可能不會在實際的呈現。圖1。規那么R圖給圖G0應用。三、提出的方法所提出的系統的概述,如圖2所示。輸入的表達首先分割成孤立的符號(一個字符或中風的字符,每個符號的OCR引擎解釋局部識別ii-a.然后初始圖的構造,其中的節點a認可的符號和邊緣代表德連接符號之間的空間,如N段iii-b.解析算法應用文法規那么的電流圖,添加一個新的節點,在每次迭代中的邊緣參見中間記號在圖2。這些新的節點或標記鄰近的令牌代表可能的解釋。解析過程繼續下去,直到沒有有效的生產電子資金轉賬。我們的語法和解析算法的解釋的方向III-C. II
10、I-D。A. 分割和字符識別OCR輸入的表達首先分割成單獨的基于時間維度的特征,即相對兩個連續的中風或大之間的時間差特征是用來表示字符邊界。然后,在空間上重疊的符號被重新組合例如兩個“+符號筆劃。OCR系統是結合支持向量機SVM和人工神經網絡ANN,結合使用。它的輸入的分段特征參數和輸出三個相關的分數。我們從拉維奧拉數據集選擇的一個子集 5 ,附錄。預處理包括大小歸一化的事對在線數據以減少工件的坐標每個點被映射到一個固定的坐標范圍。然后人物形象是通過插值從這些點的創立。特征提取作為輸入的調整大小的圖像特征,忽略了時間維度。這樣做是為了消除在人物畫的時空變化,以及允許用戶修改的符號和公式后可以完
11、成了方程。兩分類,輸入功能包括水平,垂直和對角直方圖的符號圖像的水平,垂直和對角線的深處的黑色像素點符號圖像;8的Windows 8黑色像素數在整個符號和圖像的寬度和高度的比率。在這個數據的支持向量機的系統成功率92%。雖然有方法生成后從多類支持向量機分類的概率陽離子,我們使用一個神經網絡生成的分類,陽離子的選擇和獲得可靠的識別欺詐證據。人工神經網絡的分類,用是一個1-hid隱藏層前饋神經網絡與30隱藏神經元。這個分類的性能低相比于SVM,詳細的和高識別88%和97%的比率,分別為。由于支持向量機在的表演更成功,OCR系統采用支持向量機的輸出作為首選,并獲得下一個兩個選擇和控制從人工神經網絡的
12、研究。什么時候精度是低于國家的最先進的OCR結果,不在這項工作中的主要焦點。B. 構造初始圖最初的圖是從一個標記列表生成通過分割得到通過OCR發動機。在該圖中,一個節點對應于一個標記和一個邊緣的兩個節點之間說明這兩個節點在表達的空間布局的鄰居。過程可以說正是利用以下定義圖形元素:節點:一個節點是一個元組的n =t;i;c;A) t 是節點類型的;i 是一個獨特的識別;c是相同的的規那么,構建了節點屬性值。一個節點的類型是詞法類型的符號,如數字,字母,算子。每個節點知道哪些規那么構建自身,所以如果需要的話,整個歷史可以產生。在圖4中每個方塊代表一個圖中的節點。邊:邊緣是元組E =t;n1;n2t
13、 是的邊緣型,n1和n2是連接節點在一起的邊緣。有三種類型的邊緣用解析過程:l 空間關系的邊表示兩個節點是否鄰居見定義以下。l 組件的邊緣的非終端節點及其關系組件,用于生成語法樹后解析過程。l 生產邊緣組件邊緣反,連接一個終端和非終端節點到非終端節點,利用它。初始圖形空間關系的邊緣,只有他們決定勝負,而其他人組件生產的邊緣被用來跟蹤和加速解析過程。在此系統中,空間關系的邊緣不有任何屬性,因為我們不區分不同鄰里關系的不同類型側,頂部,底部等;不同的社區類型是隱式的決定每個規那么的適用性謂詞。我們的優勢方法是將空間關系的屬性適用性詞的規那么,而不是判定元件全球空間關系的定義,每個規那么可以有它自己
14、的空間關系的定義類別。在這種方式中,而不是拘泥于標記這是寫的一個與側弱y符號附近的邊緣,比方下標規那么決定如果這兩個符號的相對位置后大的應用規那么。街道本身是有一個清晰的線他們的包圍盒的中心點之間的視線在小于一個閾值計算的距離從表達式中的符號的平均大小。通常,一個令牌3最正確識別方案與之相關的。然而,如圖2所示,如果一個角色可能屬于一個以上的類型的符號如“+是一個操作數的符號或“t,然后生成令牌它為了簡化解析過程。C. 語法我們用一個概率上下文無關文法是二維的基于數學的語法,使用空間布局在本規那么的適用性謂詞信息。在這個語法,規那么是一個元組R =GR;GL;C在GL該模式圖,GR是產品圖和C
15、的應用謂詞,C:通用能力!ftrue falseg通用汽車的地方是一個與GL圖形。沒有嵌入因為所有的規那么,規那么的遵循相同的嵌入。正常圖語法規那么說明,GL被GR但在我們的系統中,它說明,GR被添加到圖形如一個新的節點和GL保存它。左邊的圖GL每個規那么是一個星形圖一圖有一個中心節點和周圍的鄰居節點只連接到中央節點,和正確的右手邊的圖的GR是一個節點。圖3 GL和兩個簡單的語法規那么的GR圖,其中“+在R1和R2的規那么的規那么算子是中央節點規那么。對申請的決定規那么中最重要的局部來自性謂詞。對于大多數的規那么符號之間的角度和距離的檢查,以及它們的大小。一些規那么可以對屬性有進一步的檢查價值
16、觀。例如,用于檢查分數的規那么,GL具有中心節點代表水平線符號。用性謂詞的約束保持寬松,為了保持所有可能的解釋數學表達式。例如,上標規那么不要求,上標符號較小的尺寸比的根底,但它是不很大。由于匹配節點保持在圖中,每個規那么也有一個謂語,檢查不存在生產的邊緣連接到相同的節點GR的規那么,以防止再次匹配相同的節點產生相同的產品。這有點復雜解析過程和增加了復雜性,但刪除需要定義優先規那么。目前有17的語法規那么,包括對于下標,上標的數學規那么,運算符+,',' ',和',分數,求和,和積分,以及至于寫在多個非符號組合的一些規那么重疊筆劃例如' = ',
17、'。某些終端與非終端定義語法中給出附錄。所開發的系統主要是將手寫數學表達式為乳膠容易進入科學文章;因此,在LaTeX代碼正確的語法是明確的。然而,系統不了解數學的優先級規那么,因此兩個或兩個以上的可能會產生解析方案對于一個輸入,只會得到解決的優先規那么例如,A + BC + D。然而,由于該系統提供的所有可能的解釋給用戶,用戶可以選擇正確的解釋的幾種可能的解釋之間。我們的解析算法是一個相當簡單的底部過程。在每一輪中,算法檢查什么規那么的語法可以在每個令牌是適用的圖。如圖4所示,最初有4個代幣在初始圖4節點對應;然后,之后第一輪,兩個新的標記A2和a + b的生成和添加到圖。特別地,兩個
18、任務必須由解析器進行:尋找一個相匹配的規那么模式圖和嵌入產生的產品圖。因為任何模式圖規那么是在我們的系統中的星形圖,當處理一個節點,分析器查找匹配的規那么具有相同的中心節點;然后檢查相鄰節點和適用性謂詞匹配過程。一旦找到一個匹配的,一個新的節點根據的規那么,然后連接到現有的圖組件和生產的邊緣。空間關系邊緣產生新產生的節點在后沒有可能的生產是在現有的圖左。每個新的節點繼承了它的組件的鄰居。空間關系的新生成的節點之間的邊分開。為了處理的解析過程的復雜性在所有可能的地方解釋保持,我們使用的可能性標記的決定擴展這個令牌即應用規那么。理想的應該是做一個A*搜索,但是目前它是通過一個閾值是動態調整,根據令
19、牌總數和覆蓋如何輸入表達式的多標記覆蓋的最好的令牌。解析過程的輸出是一個圖可能的產品是目前。此外,如果輸入可以定義的語法,那么至少有一個節點其中包括所有輸入符號將在輸出圖。由于組件的邊緣保持產品的歷史,一個如果一個表達式樹可替代的產生解釋節點為根和組件邊緣之后,直到到達一個終端節點。我們計算的可能性,也被稱為性,性每一個解析的替代根據預先了解空間布局。OCR輸出的概率分布。這些分布問題,例如為根底的相對大小差異下標符號,都學會了在單獨的訓練數據。總之,所產生的每一個節點可能是產生的空間關系的平均對數似然節點和構件是似然一個符號的發生概率。舉個例子,在圖4的輸入,可能標記的a+ b將取決于的可能
20、性的符號“a的空間布局,“b和“+,就規那么添加。我們的每一個空間分布模型分布統計直方圖和計算的可能性在兩個符號中的一個給定的距離例如X或Y偏移從“a和+相對于該直方圖。我們還使用字符識別概率的區別之間的替代分析a+ b和atb共享相同的布局相似,但不同的可能性字母“t。一個更復雜的表達式的可能性例如a + b2是由其平均數對數似然性計算通過在每個組件的數量加權組件組件。可能是在每個規那么進行計算應用。四、實驗結果開發的系統使用的一局部測試在協會收集的數學表達數據庫這項工作 16 。完整的數據庫包含57個方程每次從15個不同的用戶選擇,從常見的表達結論以匹配由王等人 17 使用的。表達長度范圍
21、從7到30個字符長度。測試集由20個方程組成,每個由5個不同的用戶。結果是在與表達分析精度產生的膠乳的代碼方程正確的;結構的識別精度乳膠代碼除了OCR錯誤糾正;字符識別精度,說明如表IV。任務準確性計數正確認識17% 17 / 100的表達正確的結構分析50% 50 / 100正確的字符識別 79% 1100 / 1410表一整體準確度5用戶×20表達式任務準確性比例表達長度小于等于1025 / 100正確認識表達52%13 / 25正確的結構分析88% 22 / 25表達的長度趨于11 30 75 / 100正確認識的表達5,33 % 4 / 75正確的結構分析 37,33 % 28 / 75表二分析表達式的長度方面的結果。我們看到,方程的識別精度較低17%,這是不是很奇怪的DIF水平的問題;但結構識別精度也不是很高50%。這可以通過事實的解釋整體結構誤差影響的意義.明顯的OCR精度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論