




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第8講 印刷體漢字的分類和識別.要點:印刷體漢字的分類印刷體漢字的識別課堂練習課后練習.印刷體漢字的分類印刷體漢字分類的必要性印刷體漢字分類的根本要求印刷體漢字分類舉例印刷體漢字分類的方法前往.印刷體漢字分類的必要性由于漢字數量大,假設不對漢字分類而直接識別,一方面識別效果不會好,另一方面計算量往往會很大。漢字識別通常都要對漢字做一級或多級分類,然后再細分判別,從而大大提高識別效率。前往.印刷體漢字分類的根本要求粗分類的正確分類率和分類穩定性要高。文字識別是先粗分類,然后再細分。粗分類的正確與否會影響到后面的識別。粗分類的速度要快。這要求分類的算法簡單,同時要求分在各個類別中的漢字的數目比較平
2、均,從而提高分類的效率。 前往.印刷體漢字分類舉例在以下圖中,“3所代表的文字不僅在類別A中,也能夠同時在類別C中。在細分判別A和C類中的文字時應同時思索“3所代表的文字。前往.印刷體漢字分類的方法采用復合特征的分類多級分類前往.采用復合特征的分類選用N種具有互補特征作為類特征在學習階段,對訓練樣本進展N次互不相關的分類,然后組合N次分類結果,完成特征空間的劃分。分類時,根據待分字的特征進展N次分類,組合分類結果求得子類。前往.多級分類學習階段,對訓練樣本進展多級分類,每一級分類是在上級分類根底上進展的;分類時反復上述多級分類過程。樹分類是一種典型的多級分類,具有效率高的特點,但是漢字字數多會
3、呵斥分類樹構造龐大,使得分類不夠穩定。前往.印刷體漢字的識別在選取特征之后,需求選擇或尋覓適當的判別準那么來判別待識字的特征與哪一個類別的特征最近。常用準那么有兩類:1基于間隔的識別準那么2基于類似度的識別準那么前往.基于間隔的識別準那么間隔的數學定義常用間隔間隔計算舉例:例1,例2 前往.間隔的數學定義間隔是滿足如下三條公理的二元函數:1非負性:d(x,y)0, 當且僅當y=x時,等號成立;2對稱性:d(x,y)= d(y ,x);3三角不等式: d(x,y)d(x,z)+d(z,y) 前往.常用間隔曼哈頓街區間隔, 歐氏間隔切比雪夫(Chebychev)間隔s階閔可夫斯基Minkowski
4、間隔馬氏(Mahalanobis)間隔, Camberra間隔編輯間隔和演化間隔前往.曼哈頓街區間隔又稱為分量絕對值求和間隔。 前往.歐氏間隔前往.切比雪夫(Chebychev)間隔又稱為分量絕對值最大間隔。前往.s階閔可夫斯基間隔Minkowski間隔。前往.馬氏(Mahalanobis)間隔是一個正定矩陣。前往.Camberra間隔前往.編輯間隔和演化間隔經過“交換、“刪除和“插入三種操作,把字符串a=a1a2am變成b=b1b2bn所需的最小操作次數,稱為a和b的編輯間隔。由于“交換 、“刪除和“插入可以解釋為基因序列的三種演化操作,因此編輯間隔又稱為演化間隔。前往.編輯間隔Ed的計算方
5、法a=a1a2am, b=b1b2bn 前往xi=a1a2ai, yj =b1b2bj“-表示刪除或插入, Ed(a, b)=Ed(xm, yn).間隔計算舉例計算下面“漢和“字點陣之間的幾種間隔.間隔計算結果曼哈頓街區間隔=70歐氏間隔= 8.3666切比雪夫間隔=1s階閔可夫斯基間隔=Camberra間隔=70前往.間隔計算舉例計算下面序列之間的編輯間隔:ab和acacb和abac和abcabcc和cbaa.間隔計算結果ab和ac的編輯間隔=1acb和ab的編輯間隔=1ac和abc的編輯間隔=1abcc和cbaa的編輯間隔=3前往.基于類似度的識別準那么類似度的數學定義常用類似度類似度計算
6、舉例前往.類似度的數學定義類似度是滿足如下三個條件的二元函數:1. 非負性:2.自大性:3. 對稱性:前往 .常用類似度間隔類似度,角度類似系數相關系數,指數類似系數非負特征類似度,二值特征類似度前往.間隔類似度f是單調減函數。前往.角度類似系數前往.相關系數前往.指數類似系數前往.非負特征類似度前往.二值特征類似度二值特征向量的分量只能取值0或1。二值特征分量有四種根本匹配二值特征向量有四種匹配特征數二值特征向量有五種常用類似度前往.四種根本匹配設二值特征向量x和y的第i個分量為xi和yi,假設xi =1且yi=1,那么稱xi和yi (1-1)匹配;假設xi =1且yi=0,那么稱xi和yi
7、 (1-0)匹配;假設xi =0且yi=1,那么稱xi和yi (0-1)匹配;假設xi =0且yi=0,那么稱xi和yi (0-0)匹配;前往.四種匹配特征數(1-1)匹配特征數:(0-1)匹配特征數:(1-0)匹配特征數:(0-0)匹配特征數:所選特征總數n=a+b+c+e前往.五種常用類似度Tanimoto系數Rao系數簡單匹配系數Dice系數Kulzinsky系數前往.Tanimoto系數表示二值特征向量x和y共同具有的特征總數和分別具有的特征種類總數之比。前往.Rao系數表示二值特征向量x和y共同具有的特征總數和所選特征總數之比。前往.簡單匹配系數表示二值特征向量x和y同時具有或不具有
8、的特征總數和所選特征總數之比。前往.Dice系數前往.Kulzinsky系數表示二值特征向量x和y共同具有的特征總數和單獨具有的特征總數之比。前往.類似度計算舉例計算“漢和“字點陣向量的角度類似性以及5種二值特征類似度。.類似度計算結果角度類似系數= 0.327165Tanimoto系數=0.195402Rao系數=0.066406簡單匹配系數= 0.726563Dice系數= 0.326923Kulzinsky系數=0.242857前往.課堂練習1.計算abc和cacbc之間的編輯間隔;2.計算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之間的曼哈頓街區間隔、切比雪夫間隔和3階閔可夫斯基間隔;3.計算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角度類似系數。前往.編輯間隔的計算前往Ed(0,0)=0Ed(1,0)=1Ed(2,0)=2Ed(3,0)=3Ed(4,0)=4Ed(5,0)=5Ed(0,1)=1Ed(1,1)=1Ed(2,1)=1Ed(3,1)=2Ed(4,1)=3Ed(5,1)=4Ed(0,2)=2Ed(1,2)=2Ed(2,2)=2Ed(3,2)=2Ed(4,2)=2Ed(5,2)=3Ed(0,3)=3Ed(1,3)=2Ed(2,3)=3Ed(3,3)=2Ed(4,3)=3Ed(5,3)=2cacbccba.課
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 七年級生物上冊 1.1.1《我們周圍的生物》教學設計 (新版)蘇教版
- 初中英語牛津版 (深圳&廣州)七年級上冊(2012秋審查)Unit 5 visiting the moon公開課第2課時教案
- 二年級道德與法治上冊 第一單元 1《暑假中的一天》教學設計2 浙教版
- 五 分數除法 分數除法(二) 第2課時 教案
- 餐飲管理培訓課件
- 法律法規培訓
- 內蒙古興安盟烏蘭浩特市九年級歷史下冊 第7課 世界反法西斯戰爭的勝利教學設計 新人教版
- 七年級信息技術上冊 第五課 認識新同學教學設計
- 七年級英語下冊 Unit 6 I'm watching TV Section A第1課時(1a-2d)教學設計 (新版)人教新目標版
- 人教版歷史與社會七年級下冊第八單元第三課第一框《中華文明的曙光》教學設計
- 塔吊與起重機械操作安全培訓課程
- 七星瓢蟲課件
- 2024年英才計劃筆試化學
- 滬科版初中數學目錄
- 你也走了很遠的路吧
- 安全生產月“一把手”講安全課件
- 初中文言文教學的現狀與對策研究
- 全國水利ABC證單選題七
- 曾國藩人生修煉日課
- 竣工結算審計服務投標方案
- 深入淺出Serverless:技術原理與應用實踐課件
評論
0/150
提交評論