數字圖像處理第十三章_第1頁
數字圖像處理第十三章_第2頁
數字圖像處理第十三章_第3頁
數字圖像處理第十三章_第4頁
數字圖像處理第十三章_第5頁
已閱讀5頁,還剩108頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1第十三章圖像模式識別第十三章圖像模式識別模式:客觀世界和主觀世界即物質和意識的所有方面、所有個體、所有單元、所有事物的抽象。模式還可分成概念的和具體的兩種形式:前者如意識、思想、議論等,屬于概念識別研究的范疇,是人工智能的另一研究分支。我們所指的模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物的傳感器等對象進行測量的具體模式進行分類和辨識。模式識別(PatternRecognition)是指對表征事物或現象的各種形式的(數值的、文字的和邏輯關系的)信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程。模式識別是信息科學和人工智能的重要組成部分。第十三章圖像模式識別模式識別研究主要集中在兩方面:一是研究生物體(包括人)是如何感知對象的,屬于認識科學的范疇,二是在給定的任務下,如何用計算機實現模式識別的理論和方法。前者是生理學家、心理學家、生物學家和神經生理學家的研究內容。后者通過數學家、信息學專家和計算機科學工作者近幾十年來的努力,已經取得了系統的研究成果。第十三章圖像模式識別圖像模式識別是圖像處理的另一類問題:就是不要求其結果并不是一幅完整圖像的本身,而是將經過前述圖像處理后的圖像,再經過分割和描述提取有效的特征,進而加以判決分類。例如:從遙感圖像中分割出各種農作物、森林資溉、礦產資源等等,并進一步判斷其產量或蘊藏量;由氣象云圖結合其它觀察數據進行自動天氣預報;用人工地震波形圖尋找有油的巖層結構;根據醫學X光圖像判斷分析各種病變;郵政系統中的信函自動分揀等。因此,可以認為把圖像(或圖像中的對象)進行區別分類就是圖像的模式識別。模式識別方法和應用很廣泛,也相當復雜,正在發展之中。第十三章圖像模式識別模式識別的研究對象基本上可概括為二大類:一類是有直覺形象的如圖像、相片、圖案、文字等;一類是沒有直覺形象而只有數據或信息波形如語音、心電脈沖、地震波等。但是,對模式識別來說,無論是數據、信號還是平面圖形或立體景物都是除掉他們的物理內容而找出它們的共性,把具有同一共性的歸為一類,把具有另一種共性的歸為另一類。模式識別研究的任務是研究出能夠自動處理某些信息的機器系統,以便代替人完成分類和辨識的任務。13.1圖像模式識別的基本概念模式識別的定義:根據對某個物理對象的觀測信息,利用計算機對該物理對象進行分類,從而給出該物理對象所屬的類別。觀測信息可以是圖像、聲音、溫度、壓力等任何可以測量的觀測量。為了讓機器自動完成模式識別任務,我們需要:(1)數據采集設備;(2)模式識別算法。

13.1圖像模式識別的基本概念圖像模式識別過程可分為三個階段:第一階段是圖像信息的獲取;第二階段是信息的加工與處理。它的作用在于把調查了解到的數據材料進行加工、整理、分析、歸納以去偽存真,去粗取精,抽出事物本質的特征。當然,抽取什么特征,保留多少特征與采用何種判決有很大關系。第三階段是判決或分類。這相當于人們從感性認識升到理性認識而做出結論的過程。第三階段與特征抽取的方式密切相關。它的復雜程度也依賴于特征的抽取方式。例如:類似度、相關性、最小距離等等。13.1圖像模式識別的基本概念圖像模式識別的應用領域:地球資源、環境的調查研究(遙感圖像識別、分類);生物醫學工程(腦電圖、B超、CT、MRI(核磁共振)、PET;染色體、癌細胞);生產自動化(產品缺損檢查、智能機器人、機器人視覺);文件處理和管理自動化(資料、數據自動識別、登記、分類、OCR、條碼);軍事(目標識別、自動瞄準、自動搜索);公安偵破、身份識別(指紋、人面、虹膜);商業自動化(自動售貨機、自動檢票機)。13.2圖像模式識別的基本方法模式識別已初步形成三大類:統計模式識別;句法模式識別;模糊集識別。

13.2圖像模式識別的基本方法13.2.1統計模式識別統計模式識別是模式識別中應用最廣的方法,而且對它的掌握是徹底理解各種模式識別過程的基礎。統計模式識別認為圖像可能包含一個或多個物體,并且每個物體屬于若干事先定義的類型、范疇或模式之一。由于不確定性是客觀存在的,因而發生錯誤的決策分類在所難免,只能借助概率論的知識,使得決策的錯誤率達到最小。13.2圖像模式識別的基本方法13.2.1統計模式識別統計模式識別的過程如下圖所示。這是計算機識別的基本過程,數字化是把圖像信號變成計算機能夠接受的數字信號。預處理的目的是去除干擾、噪聲及差異,將原始信號變成適合于計算機進行特征抽取的形式。然后對經過預處理的信號進行特征抽取。最后進行判決分類,得到識別的結果。為了進行分類,必須有圖像樣本。對樣本圖像進行特征選擇及學習是識別處理中所必要的分析工作。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法如前框圖所示,統計模式識別方法最終歸結為分類問題。假如已抽取出N個特征,而圖像可分為m類。那么就可以根據N個特征進行分類,從而決定未知圖像屬于m類中的哪一類。一般把識別模式看成是N維空間中的向量X,即而模式類別為ω1、

ω2、…、

ωm。識別就是要判斷X是否屬于ωi以及xi屬于ωm中的哪一類。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法在這個過程中主要解決兩個問題:如何選擇和抽取特征,要求特征數N盡可能小而且對分類判斷有效;假設已有了代表模式的向量,如何決定它屬于哪一類,即需要判別函數。例如,模式ω1、

ω2、…、

ωm共有m類,則應有D1(X)、D2(X)、D3(X)、…Dm(X)共m個判別函數。如果X屬于第i類,則有問題的關鍵是找到合適的判別函數。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法1.線性判別函數線性判別函數是應用較廣的一種判別函數,所謂線性判別函數是指判別函數是圖像所有特征量的線性組合,即

式中Di(X)代表第i個判別函數,ωik是系數或權,ωi0為常數或稱為閾值。其判決過程可如下進行:如果Di(X)>Dj(X)或Di(X)-Dj(X)>0,則X~ωi,如果Di(X)<Dj(X)或Di(X)-Dj(X)<0,則X~ωj。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法1.線性判別函數用線性判別函數進行分類是線性分類器。任何m類問題都可以分解為(m-1)個2類識別問題。方法是先把模式空間分為1類和其他類,如此進行下去即可。因此,2類線性分類器是最簡單和最基本的。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法1.線性判別函數分離2類的判決邊界由D1-D2=0表示。對于任何特定的輸入模式必須判定D1大還是D2大。若考慮函數D=D1-D2,對于1類模式D為正,對于2類模式D為負。于是,只要判斷處理D的輸出符號即可進行分類。執行這種運算的分類器的原理框圖如右圖所示。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法1.線性判別函數在線性分類器中要找到合適的系數,以便使分類盡可能不出差錯,唯一的辦法就是試驗法。例如,先設所有的系數為1,送進每一個模式,如果分類有錯就調整系數,這個過程就叫做線性分類器的訓練或學習。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法2.最小距離分類器線性分類器中重要的一類是用輸入模式與特征空間作為模板的點之間的距離作為分類的準則。假定有m類,給出m個參考向量R1、R2、R3、…、Rm,Ri與模式類ωi相聯系。對于Ri的最小距離分類就是把輸入的新模式X分為ωi類,其分類準則就是x與參考模型原型R1、R2、R3、…、Rm之間的距離,跟哪一個最近就屬于哪一類。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法2.最小距離分類器X和R之間的距離可表示為其中(X-Ri)T,是(X-Ri)的轉置。由上式可得由此可設定最小距離判別函數Di(X)為最小距離分類器也是一個線性分類器。13.2圖像模式識別的基本方法13.2.1統計模式識別一、決策理論方法此外還有:3.最近鄰域分類法;4.非線性判別函數。等判別函數和判別方法。13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法以上談到的分類方法是在沒有噪聲干擾的情況下進行的,此時測得的特征確能代表模式。如果在抽取特征時有噪聲,那么可能抽取的特征代表不了模式,這時就要用統計分類法。用統計方法對圖像進行特征抽取、學習和分類是研究圖像識別的主要方法之一,而統計方法的最基本內容之一是貝葉斯分析,其中包括:貝葉斯決策方法、分類器、估計理論、貝葉斯學習、貝葉斯距離等等。13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法1.貝葉斯公式在古典概率中貝葉斯定理已為大家所熟悉:式中B1、B2、…、Bn是n個互不相容的事件,P(Bi)是事件Bi的先驗概率,P(A/Bi)是A在Bi已發生條件下的條件概率。貝葉斯定理說明在給定了隨機事件B1、B2、…、Bn的各先驗概率P(Bi)及條件概率P(A/Bi)時,可算出事件A出現時,去掉事件Bi出現的后驗概率P(Bi/A)。13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法1.貝葉斯公式假定事件A代表肝炎病發生,而B1、B2、…、Bn分別代表引起肝炎病發生的事件,如B1代表抽血時的交叉感染,B2代表吃某種不衛生食品所引起的感染,而P(A/Bi)表示在Bi發生時,肝炎病發生的概率,則肝炎病發生時由某種原因Bi導致的后驗概率就可以用貝葉斯定理來計算。13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法1.貝葉斯公式貝葉斯公式常用于分類問題和參數估值問題中。假如設X表示事件的狀態或特征的隨機變量,它可以表示圖像的灰度或形狀等,設ωi表示事件類別的離散隨機變量。對事物(比如是圖像的亮度或形狀)進行分類就可以用如下的公式13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法1.貝葉斯公式式中P(ωi)稱為ωi的先驗概率,它表示事件屬于ωi的預先粗略了解P(X/ωi)表示事件屬于ωi類而具有X狀態的條件概率,P(ωi/X)是X條件下ωi的后驗概率,它表示對事件X的狀態作觀察后判斷屬于ωi類的可能性。由上式可見,只要類別的先驗概率及X的條件概率為已知,就可以得到類別的后驗概率。再加上最小誤差概率或最小風險法則,就可以進行統計判決分類。13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法1.貝葉斯公式在參數估計問題中,貝葉斯公式中二個變量常常為連續隨機變量,如果寫作變量X及參數Q,則有如下的公式通過上式,由參數的先驗分布P(Q)及預先設定的條件分布P(X/Q),即可求得參數的后驗分布P(Q/X)。貝葉斯公式是參數估計的有力工具。13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法2.貝葉斯決策根據類別的先驗概率(歷史資料、經驗或主觀判斷)及事件X的條件概率,利用貝葉斯定理求得后驗概率,據以進行決策的方法,稱為貝葉斯決策方法。13.2圖像模式識別的基本方法13.2.1統計模式識別二、統計分類法2.貝葉斯決策貝葉斯決策過程中,可能會產生錯誤(如下圖)。引入代價函數,貝葉斯決策方法還可進一步分為兩類:最小錯誤率決策;最小風險決策。13.2圖像模式識別的基本方法13.2.2句法(結構)模式識別方法句法:描述語言規則的一種法則。一個完整的句子一定是由主語+謂語或主語+謂語+賓語(或表語)構成,如下圖。識別時,首先是將一個復雜圖像分解成一個個子圖像,再進一步將子圖像分解成一些最簡單的基元,最后按對象的結構規則去組成這些基元,形成一個句子---模式。以這個模式為準則去匹配要識別的對象,作決策輸出。13.2圖像模式識別的基本方法13.2.2句法(結構)模式識別方法句法的形式語言描述:G=(VN,VT,P,S)VN:非終止符的有限集VT:終止符的有限集P:寫作規則〈名詞短語〉〈冠詞〉〈名詞〉S:起始符句法模式識別的應用:次中性染色體的句法結構;13.2圖像模式識別的基本方法13.2.2句法(結構)模式識別方法次中性染色體的句法結構右圖上行是染色體文法的基元。順時針跟蹤染色體的邊界,就可以得到由基元連接而成的串。下行的次中性染色體可以描述為babcbabdacad。染色體文法:

G=(VN,VT,P,S),其中:VN={S,S1,S2,A,B,C,D,E,F}VT={a,b,c,d,e}P:S→S1,B→e,S→S2,C→bC,S1→AAC→Cb,S2→BA,C→b,A→CA,C→dA→AC,D→bD,A→DE,D→Db,A→FDD→a,B→bB,E→CD,B→Bb,F→Dc13.2圖像模式識別的基本方法13.2.3模糊集合識別方法隸屬函數和判別準則13.2圖像模式識別的基本方法各種模式識別方法的特點統計模式識別方法:發展早,應用廣泛;對已知條件要求太多;句法(結構)模式識別方法:用分析的方法識別,還可以描述圖象的內容;模糊集合識別方法:以模糊集合論為基礎,識別結果并非絕對的二值,而是有隸屬度的概念。13.2圖像模式識別的基本方法例子:以魚的分類為例,圖像獲取如右圖,經預處理()后作圖像分割處理,將每條魚分割成獨立的區域。每條魚只能屬于:鱸魚(salmon)或者鮭魚(seabass)定義ω描述魚的類別狀態ω=ω1

表示鱸魚ω=ω2

表示鮭魚13.2圖像模式識別的基本方法例子:以魚的分類為例(續)每條魚只能屬于:鱸魚(salmon)或者鮭魚(seabass)定義ω描述魚的類別狀態ω=ω1

表示鱸魚ω=ω2

表示鮭魚定義先驗概率P(ω)P(ω1):表示下一條魚是鱸魚的先驗概率;P(ω2):表示下一條魚是鮭魚的先驗概率。只有鱸魚和鮭魚的情況下:P(ω1)+P(ω2)=1簡單的判斷規則:P(ω1)>P(ω2),則判為ω1,否則判為ω2如果只有一條魚,規則尚是可行的;如果是很多條魚,則全部歸于一類。顯然,還需引入其他規則。

13.2圖像模式識別的基本方法例子:以魚的分類為例:(續)特征:魚的光澤度指標X:不同的魚擁有不同的光澤度(根據樣本而來)。

13.2圖像模式識別的基本方法例子:以魚的分類為例:(續)定義類條件概率密度p(x/ω)

p(x/ω):即類別狀態為ω時的x的概率密度函數p(x/ω1)與p(x/ω2)間的區別表示了鱸魚和鮭魚間光澤間的區別。13.2圖像模式識別的基本方法例子:以魚的分類為例:(續)假設我們知道:先驗概率P(ω1)=1/3,和P(ω2)=2/3;條件概率密度p(x/ω1)和p(x/ω2)(如前圖);某條魚的光澤度指標x;則可根據13.2圖像模式識別的基本方法例子:以魚的分類為例:(續)求得上述條件下的后驗概率如下圖:13.2圖像模式識別的基本方法思考題:1.上例中,如果改用長度特征:salmon一般較短,seabass一般較長。識別過程將是怎樣?2.上例中,如果再加入長度特征,識別過程將是怎樣?13.3圖像模式識別應用:光學字符識別

13.3.1概述光學字符識別OCR(OpticalCharacterRecognition)是模式識別理論的一個重要應用領域,OCR將文字的數字圖像轉換為計算機可處理字符代碼(內碼),用于將文字信息自動輸入計算機,是實現智能人機接口的重要途徑。按識別對象的形式,OCR可以分為:印刷體識別;手寫體識別。而手寫體識別又可以分為:聯機(OnLine);脫機(OffLine)。13.3圖像模式識別應用:光學字符識別

13.3.1概述按識別對象的種類,OCR可以分為:數字及西文字符識別;漢字識別。從識別技術的難度來說,手寫體識別的難度高于印刷體識別,而在手寫體識別中,脫機手寫體的難度又遠遠超過了聯機手寫體識別。漢字識別問題屬于超多類模式集合的分類問題,更為復雜。13.3圖像模式識別應用:光學字符識別

13.3.1概述OCR的發展1929年,德國的科學家Tausheck首先提出了OCR的概念,并且申請了專利。幾年后,美國科學家Handel也提出了利用技術對文字進行識別的想法。但這種夢想直到計算機的誕生才變成了現實。在60~70年代,世界各國相繼開始了OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數字為對象,直至1965至1970年之間開始有一些簡單的產品,如印刷文字的郵政編碼識別系統,識別郵件上的郵政編碼,幫助郵局作區域分信的作業;也因此至今郵政編碼一直是各國所倡導的地址書寫方式。13.3圖像模式識別應用:光學字符識別

13.3.1概述OCR識別系統的工作流程圖像輸入:經光學儀器,如影像掃描儀、傳真機、攝影器材以及手寫輸入設備將影像轉入計算機。預處理:包含圖像拼接、消噪、修復粘連及斷裂、傾斜矯正、去網紋、增強、二值化、版面分析和理解、行切分和字切分等處理。特征抽取:特征抽取是OCR的核心,分為兩類:統計特征或結構特征。對比識別:根據不同的特征特性,對比數據庫,識別出結果。后處理:可能有相似候選字,人工校正,機器學習。得出結果。

13.3圖像模式識別應用:光學字符識別

13.3.1概述OCR系統的用途辦公自動化中漢字英文資料的自動輸入;手寫輸入(PDA、手機);建立漢字和英文的文獻檔案庫;書刊資料的自動輸入;智能全文信息管理系統和辦公管理系統;智能漢英翻譯系統;多媒體應用系統。13.3圖像模式識別應用:光學字符識別

13.3.1概述OCR系統的發展方向減少錯誤率:出版要求萬分之一;提高識別的正確率;通過改進人工校對的效率。智能化、自動化;自動分析、自動識別、版面自動恢復。適應各種質量差的文本;識別更多種字體;識別更大字符集;彩色圖像處理;視頻圖像處理。13.3圖像模式識別應用:光學字符識別

13.3.2手寫字符識別手寫字符因人而異,一人一個寫法,而且同一個人在不同的時間書寫的字符也不盡相同,具體表現在以下幾個方面:基本筆畫變化。橫不平,豎不直,直筆變彎,折筆的拐角變成圓弧符等。筆畫模糊,不規范,該連的不連,不該連的卻相連。筆畫與筆畫之間、部件與部件之間的位置發生變化。筆畫的傾斜角、筆畫的長短、部件的大小發生變化。對于脫機手寫字符,不同人使用不同的書寫筆可能造成筆畫的粗細變化。

13.3圖像模式識別應用:光學字符識別

13.3.2手寫字符識別手寫字符識別又可分為聯機識別與脫機識別兩類。一般認為,聯機手寫字符識別較脫機手寫字符識別相對容易些。聯機手寫字符識別是一種人工實時地把字符輸入計算機的方法,它利用書寫板把筆畫變為一維電信號,輸入計算機的是以坐標點序列表示的筆尖移動軌跡,因而被處理的是一維的線條(筆畫)串,這些線條串含有筆畫數目、筆畫走向、筆順和書寫速度等信息。而脫機手寫字符識別處理的僅是二維的字符點陣圖像,是字符識別領域中一個十分困難的問題。手寫字符識別中,對非特定人脫機手寫字符識別則難度更大。

13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別如前所述,字符識別的關鍵是特征量的選定,而特征量選定的方法也是多種多樣:下圖左顯示的是所謂狹縫法,它用每個狹縫切出的圖形的波形作為特征量。下圖右則是方向線素筆畫穿透數目特征法,在圖形平面上作幾條直線,把字符與各條特征線的交點數作為特征量。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別作為一種實用的手寫文字圖像的識別方法,為了提高識別精度,有必要選取較多的特征量。本法使用的特征量如下圖所示,為圖像平面上縱、橫、斜交差的12條直線。這12條直線分別標記上1~12的序號。當圖像平面上輸入一個手寫文字時,計算文字的各個筆劃與各條直線的相交次數,把它們作為該文字的特征量。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別對于任意一個輸入的圖像模式(字符),我們可以用相同的方法對其抽取特征量C1,C2,…,Cn,把這些特征量逐一與各個字符的標準模式的特征量計算求取相似距離值D,假設與第i個標準模式的相似距離值Di是所有求得的距離值D中最小的一個,那么我們就說輸入模式最接近于第i個標準模式。這樣,作為圖像識別的結果,我們說輸入模式就是第i個標準模式所代表的字符。相似距離D是這樣計算的。設輸入圖像模式的特征量為C1,C2,…,Cn,某個標準模式的特征量是R1,R2,…,Rn,則輸入模式與該標準模式的相似距離D由下式計算:13.3圖像模式識別應用:光學字符識別

13.3.2手寫字符識別設特征量

C={Ci|i=l,2,…,12}中各分量的值表示相應序號的特征線與各筆劃的相交次數。這種文字識別方法對于各種文字,包括中文、英文、日文、數字等等都適用。當然,要能夠用本法來識別某種文字,其先決條件是必須準備該種文字的標準模式,因為沒有文字的標準模式,識別是無從談起的。如前圖,當圖像平面中輸入一個手寫“A”字后,它的各個筆劃與12條特征直線的交點分別為:

C1=1,C2=2,C3=2,C4=2,C5=2,C6=2C7=3,C8=3,C9=0,C10=1,C11=2,C12=1因此其特征量是C(A)={1,2,2,2,2,2,2,3,3,0,1,2,1}。我們把C(A)定義成“A”的標準模式特征量。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別但是,單靠一次手寫輸入來定義標準模式特征量是不行的,因為它所具有的代表性很差。通常的作法是,由不同的書寫者反復輸入多次,求其平均值來作為“A”這個手寫字的標準模式特征量。即C={C1,C2,…,C12}其中:式中,M是該手寫文字輸入的總次數。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別這樣作出的標準模式會更具有代表性,因而能夠提高文字的識別能力。一般地,M值越大(輸入的次數越多),標準模式所能提供的識別能力會越大。如果我們用這種方法作出從A到Z這26個英文字母的大寫和小寫字母的標準模式特征量,我們就能利用它們來識別任何一個手寫的英文字母了。識別的方法還是利用前述的相似距離的概念。分別計算輸入模式與各個標準模式之間的相似距離Di,然后在Di中找出最小值Dmin,就把Dmin對應的標準模式所代表的字母作為識別結果輸出。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別設輸入模式的特征量為C’={x1,x2,…,x12},某個標準模式的特征量為C={y1,y2,…,y12},為了提高計算速度和精度,采用下式計算相似距離:其中wi為各條特征直線的權。根據每條特征直線所處位置的重要性賦給各條特征直線不同的權值。例如在前圖中處于中心的兩條縱、橫直線(豎線2和橫線5)應該有最大的權值,而9,10,11,12等四條直線可取最小的權值。究竟應賦給各個權以多大的絕對值為宜?回答是不確定的。因為對于權值來講,有意義的是它們之間的相對大小,而不是每個權值的絕對大小。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別在實用手寫體識別系統中,都具備學習(訓練)功能。學習功能實際上就是將標準模式的生成過程延續到每一次的實際識別過程,以期不斷提高識別率的一種強化識別功能的方式。這就是說,假定某一次的識別結果正確,把這個被識別的文字模式的特征量加入到該文字的標準模式特征量中去(按前述求平均的方法);假定某一次的識別結果不正確,則通過交互的方法要求操作者用鍵盤輸入正確的答案,而把這一次被識別的文字模式的特征量加到正確答案的標準模式特征量中去。這樣,就使得每一次的實際識別過程都成了標準模式的生成過程。通過這種不斷的累積,可以使得識別系統的正確識別率不斷得到提高。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別上述是一個脫機(離線)手寫體識別系統,以下是一個聯機手寫數字識別系統的示例程序及其源代碼,右圖是其界面。13.3圖像模式識別應用:光學字符識別13.3.2手寫字符識別下圖是微軟拼音輸入法所提供的漢字手寫輸入板。它支持簡體中文、繁體中文、英語、日語和朝鮮語的手寫輸入,由于有提示選擇,識別正確率較高,甚至支持連筆。13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別印刷體文字識別一般指從掃描儀(傳真機、數碼相機等)輸入到計算機里的事務文書、技術檔案等文書圖像中識別逐個文字。印刷體文字識別中漢字識別已經實用化。而且在向更高的性能、更完善的用戶界面的方向發展。有著廣泛的應用前景。13.3圖像模式識別應用:光學字符識別后處理版面理解版面重構輸出13.3.3印刷體文字的識別:識別系統的流程

13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別噪聲的例子強噪聲使行間粘連背面圖像透過噪聲加傾斜13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別消噪處理:13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別版面分析的難點:沒有簡單數學模型;不能簡單橫豎分割;圖文繞排復雜;文章數目多。版面分析常用算法:自上而下法:從整體到局部遞歸分割;自下而上法:從局部到整體逐步合并;綜合法:綜合上面的算法;其它方法:紋理分析、背景分析等。下一頁是版面分析的一個實例。版面分析的例子13.3圖像模式識別應用:光學字符識別傾斜或行間距過小時投影失效13.3.3印刷體文字的識別行切分投影法13.3圖像模式識別應用:光學字符識別實際的行切分算法13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別字切分投影法連通域分析法字切分的困難字符斷裂字符粘連中英文判別13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:識別算法印刷體文字的識別的算法種類很多:印刷體文字的模式表達形式和相應的字典形成方法有多種,每種形式又可以選擇不同的特征,每種特征又有不同的抽取方法,這就使得判別方法和準則以及所用的數學工具不同,形成了種類繁多、形式各異的識別方法。通常可以分為:結構模式識別(句法模式識別)方法;統計模式識別方法;統計與結構相結合的識別方法;人工神經網絡方法;單以識別率而言,特征抽取可以說是OCR的核心,用什么特征,怎么抽取,直接影響識別好壞。13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:識別算法結構模式識別(句法模式識別)方法文字圖形含有豐富的結構信息,提取這些結構特征及其組字規律的信息,作為識別的依據,這就是結構模式識別法。印刷體文字是由筆劃或更小的結構基元構成的。由這些結構基元及其相互關系完全可以精確地對文字加以描述,就像一篇文章由單字、詞、短語和句子按語法規律所組成一樣。故亦稱句法模式識別。識別時,利用上述結構信息及句法分析的方法進行識別,類似一個邏輯推理器。在實際應用中,此方法面臨的主要問題:抗干擾能力差,如傾斜,扭曲,斷裂,粘連,對比度差等等。結構模式識別的描述比較復雜,匹配過程的復雜度也較高。只有得到可靠、穩定、獨立且數量較小的特征,結構識別方法的優勢才能夠最大限度地發揮出來。如果上述問題得到較好的解決的話,結構識別方法將顯示出其巨大的優勢:匹配方法直觀、形象;識別穩定性好,算法的泛化能力強。13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:識別算法統計模式識別方法提取待識別模式的一組統計特征,然后按照一定準則所確定的決策函數進行分類判決。統計模式識別是將字符點陣看作一個整體,所用的特征是從這個整體上經過大量的統計而得到的。統計特征的特點是抗干擾性強,匹配與分類的算法簡單,易于實現。不足之處在于細分能力較弱,區分相似字的能力差一些。特征無直觀性的物理意義。常見的統計模式識別方法有:(1)模板匹配;(2)筆劃密度特征;(3)外圍特征;(4)特征點特征;(5)利用變換特征的方法;(6)投影直方圖法;(7)幾何矩(GeometricMoment)特征;(8)Spline曲線近似與傅立葉描繪子(FourierDescriptor);(9)基于微結構特征的方法。13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別下例采用模板匹配法(像素貼近度法)進行識別。模板匹配不需要特征提取過程。字符的圖像直接作為特征,與字典中的模板相比,相似度最高的模板類即為識別結果。這種方法簡單易行,可以并行處理;但是一個模板只能識別同樣大小、同種字體的字符,對于傾斜、筆劃變粗變細均無良好的適應能力。13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別模板匹配法把輸入圖像與各個標準圖像分別重疊起來,觀察兩者的重合度有多大。具體的算法就是對這兩個圖像求邏輯與(and),當且僅當同一坐標點處的象素都為黑象素時結果才為黑象素,否則為白象素。然后計算求與結果的圖像中黑象素的個數,越接近圖像中的黑象素個數時,輸入圖像的文字等于該標準圖像文字的概率就越高。毫無疑問,輸入文字只能與相同字體、相同字型大小的標準文字圖像進行比較,否則是沒有意義的。13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別另外需要注意的是,筆劃較多的輸入文字與筆劃較少的標準文字進行重疊比較時容易發生誤識別。例如,輸入文字為“玉”字,標準文字為“三”字時,重疊求與的結果仍將為“三”,結果就可能把輸入的“玉”認作“三”。為了避免這個缺陷,應該將輸入文字盡量只與和它的筆劃大致相同的標準文字圖像進行比較。要做到這一點,只需計算輸入文字圖像中黑象素的個數m,并只使用標準文字圖像集中黑象素的個數接近m的那部分標準文字與之進行比較。這樣一方面可以提高正確識別率,同時也因避免了與全部標準字型進行比較,從而可以提高識別速度。13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:商品化軟件TH-OCR9.013.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:閱讀器內嵌OCR13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:表格識別OCR識別還可以識別和還原各種通用型印刷體表格,在表格理解上做出了令人滿意的實用結果。可實現表格自動錄入,識別后按表格格式輸出。表格識別的分類無模板指導的表格識別有模板指導的表格識別識別過程表格線分析表格單元定位表格線及原始內容去除單元圖像切分與識別識別結果編輯修改結果送數據庫13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:表格識別有模板的特定表格識別增值稅發票識別13.3圖像模式識別應用:光學字符識別13.3.3印刷體文字的識別:表格識別有模板的特定表格識別中華人民共和國出口許可證錄入檢測

(THOCR-97批量表格自動識別錄入子系統人機界面)13.3圖像模式識別應用:光學字符識別其它識別系統OMR;郵政分揀;名片識別;身份證識別;信封地址識別;票據識別;發票識別。13.3圖像模式識別應用:光學字符識別思考題根據所熟悉的某一部門的工作流程,設計一個實用的文本圖像處理系統。輸入何種文本圖像?(表格?)需要識別何種信息?用課上的何種技術?(表格分析、切分、識別?)輸出結果有何用途?(減輕人工勞動?)13.4圖像模式識別應用:生物特征識別我們經常需要用各種證件證明我們的身份,如身份證、工作證、信用卡等,但是,它們都容易被竊取、丟失或忘記,都不夠保險。生物特征識別(Biometric)技術:根據個人獨特的生理學特征自動識別個人身份的技術。生物特征識別系統最大的優點是使用方便。而且日益明顯地顯示出快速和準確的特點。多種生物統計學識別系統可以共同使用,這樣大大地提高了準確率。13.4圖像模式識別應用:生物特征識別常用的生物特征:人臉、指紋、掌紋、虹膜、DNA、語音、姿態等。13.4圖像模式識別應用:生物特征識別各種生物特征識別技術應用市場報告13.4圖像模式識別應用:生物特征識別13.4.1生物特征識別原理

生物特征識別系統基本上都采用相同的工作原理:采集樣品:指紋、面孔的圖像等,或是語音;特征提取:根據樣品與眾不同的特征,用一種算法為其分配一個特征代碼。代碼存入識別數據庫:可以對人的面部特征、人手的幾何形狀、人的聲音或人的虹膜進行檢索和匹配。當某人需要被識別身份時,一種特征匹配算法將存在數據庫里的該人的特征代碼與被識別人的特征相匹配,從而驗明其身份。13.4圖像模式識別應用:生物特征識別13.4.1生物特征識別原理

生物特征識別屬于有監督分類:即我們在已知一些類樣本的情況下,對新的樣本進行分類。它的中心問題是類內距離和類間距離。類內距離:同一個類中的樣本的距離或差別;類間距離:指不同類的樣本的距離或差別。理想的情況是,類內距離相當小,類間距離相當大。那么,我們就可以識別不同類別的樣本。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別人臉識別是模式識別領域的前沿課題,它具有廣泛的應用前景:公安系統(criminalmugshot);銀行,海關等(Identification);自動門衛系統(Authentication)。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別人臉識別到目前為止,還是一個世界性的難題,即使是同一個人臉,也會因為以下原因而各不相同:表情(Expression)年齡(age)光照(light)姿態(pose)部分遮擋(帽子,圍巾,眼鏡)此外,我們對人腦的識別機理尚不清楚,也是導致識別困難的原因。人臉圖像可以看作一個維數為M*N(圖像大小)的矢量,數據量大,是一個高維空間的分類問題。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別人臉識別系統的框圖如下:采集跟蹤定位特征提取匹配識別結果活動人臉活動人臉檢測靜態人臉識別13.4圖像模式識別應用:生物特征識別13.4.2人臉識別早期人臉識別方法人臉識別的研究始于60年代末,早期的人臉識別方法主要有兩大方向:幾何特征的方法:提取特征點,如眼角,嘴角,鼻尖等;模板匹配的方法:計算模板和圖像灰度的自相關性。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別90年代以來的人臉識別方法:基于特征分析的方法提取部件的灰度及輪廓信息進行識別。基于整體的方法:模板匹配;PCA(主成分分析PrincipalComponentAnalysis);FLD(Fisher線性判別方法FisherLinearDiscriminantAnalysis);彈性匹配(ElasticGraphMatch);神經網絡(NeuralNetwork);隱馬爾科夫模型(HiddenMarkovModel)。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別主元分析(PrincipalComponentAnalysis,PCA)法:是一種基于KL(Karhunen-Loeve卡夫納-勒維)變換的方法,KL變換是一種最優的能量壓縮方法,但是它并不是最優的模式分類方法。通過對訓練樣本KL變換得到的特征向量也叫特征臉,是一組標準正交基,通常取部分基構成特征空間,待識別人臉在特征空間的投影作為特征字串,通過比較特征子串之間的距離來作為識別的判據。主元分析法的任務:就是構造一個能更好描述人臉的人臉空間,降低空間維數,是新的人臉空間的基向量(稱為主元)能更好地描述典型的人臉模式。前N個特征值對應的特征矢量是定義在圖像空間的,可以被看成是圖像,它們也確實與人臉相似,稱之為特征臉。特征臉技術很容易擴展到特征眼、特征鼻、特征嘴等。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別彈性匹配方法:在二維空間定義了一個距離,這個距離對通常的人臉變形具有一定的不變性,他用屬性拓撲圖來表達人臉,拓撲圖的任一頂點包含一個特征矢量,識別時候計算最佳拓撲圖和原拓撲圖的“距離”,作為識別的判據。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別彈性匹配方法:最佳拓撲圖的生成同時考慮了特征矢量的匹配和相對幾何位置的匹配彈性匹配:即最佳拓撲圖的網格發生了變形以進一步的減小能量函數。正是因為這樣,彈性匹配適應了人臉表情的細微變化。13.4圖像模式識別應用:生物特征識別13.4.2人臉識別結論人臉識別是一個跨學科富挑戰性的前沿課題,但目前人臉識別還很不成熟,尚不是實用化領域的活躍課題研究重點從傳統的點和曲線的分析方法,過渡到用新的人臉模型來表達和識別人臉,其中彈性圖匹配就是較成功的嘗試。人臉識別的研究也和心理學、解剖學、生理學等的研究密切相關13.4圖像模式識別應用:生物特征識別13.4.3指紋識別隨著社會發展,取得高度準確的自動個人身份認證的能力變得日益重要;人們注意到,包括指紋在內的許多皮膚紋路在圖案、斷點和交叉點上每個人是各不相同的,也就是說,是唯一的。依靠這種唯一性,我們就可以把一個人同他的指紋對應起來,通過比較他的指紋和預先保存的指紋進行比較,就可以驗證他的真實身份。指紋識別是生物識別技術的一種,是目前最流行、最方便、最成熟以及最可靠的個人身份認證方法之一。當今市場上可以提供從指紋取像設備到完整的指紋識別軟件開發包,包括嵌入式的系統和其他應用指紋驗證的計算機軟件。13.4圖像模式識別應用:生物特征識別自動13.4.3指紋識別指紋識別系統簡介系統框圖圖像增強特征提取特征匹配指紋數據庫指紋輸入手工確認13.4圖像模式識別應用:生物特征識別自動13.4.3指紋識別指紋輸入現場采集指紋要求指紋質量不能太差。對于嚴重蛻皮和嚴重出汗的手指,采集到的指紋質量較差,進行圖像增強后出現較大面積的不可恢復區,很難再做特征提取,也就無法進行特征匹配。圖像增強一幅指紋圖像的區域分為以下三種類型:清晰區、可恢復的壞區、不可恢復的壞區。前兩個又被稱作可恢復區,后一個被稱作不可恢復區。指紋增強的目的:提高可恢復區的清晰度并標記出不可恢復區,而且此間不能帶來過多的偽細節特征。13.4圖像模式識別應用:生物特征識別13.4.3指紋識別指紋的特征指紋的兩類特征:總體特征;局部特征。在考慮局部特征的情況下,英國學者E.R.Herry認為,只要比對13個特征點重合,就可以確認為是同一個指紋。13.4圖像模式識別應用:生物特征識別13.4.3指紋識別總體特征是指那些用肉眼直接就可以觀察到的特征,包括:

紋形模式區(PatternArea)核心點(CorePoint)三角點(Delta)紋數(RidgeCount)方向(Orientation)曲率(Curvature)位置(Position)13.4圖像模式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論