




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、模式識別中基于概率統計的 Bayes 算法分析學號: 2111064姓名:王龍 摘要 首先對模式識別所用到的理論、研究背景、研究現狀及典型應用 進行全面的闡述 ;其次 ,探討了如何提取數字字符的特征值 ,并對各種 分類器的設計方法及其優缺點進行了比較 ;最后采用了以模板庫為基 礎的基于二值數據的 Bayes分類實現的識別方法 ,并以 VC+ 作為編程 工具實現了具有友好的圖形用戶界面的自由手寫體數字識別系統。 給 出了部分實現算法的代碼。實現了對字體數字的識別。關鍵詞 :手寫體數字 ;模式識別 ;特征提取AbstractFirst of all, the research background
2、 and the model application of pattern recognition are elaborated; next, this paper emphatically discusses how to extract the characteristic value of the digital characters, and makes comparison to each kind design method with their advantages and disadvantages; Finally, it takes the recognition meth
3、od of template match to realize the handwritten character recongnition system with friendly graphical user interface by VC+.Key words: characters; pattern recognition; characteristic extraction1.緒論 下面介紹闡述模式識別中用到的 Bayes算法理論,研究背景及其典型 應用,在典型應用中,探討提取數字字符 bayes算法分類器的設計方 法并比較其優缺點,給出其算法的 C+實現,利用 VC+ 實現編程工
4、具實現圖形界面。模式識別就是機器識別 ,計算機識別或者機器自動識別,目的在 于讓機器自動識別事物, 如手寫數字的識別, 智能交通管理信號的識 別,文字識別, 語音識別等。模式識別這個學科的目的就是讓機器能 做人類能做的事情,具備人類所具有的對各種事物與現象進行分析, 描述與判斷的部分能力。模式識別是直觀的,無所不在。人與動物具 有模式識別的能力是非常平常的事情, 但是對計算機來說實現模式識 別是非常困難的。讓機器能夠識別,分類需要研究識別的 方法。而 模式識別可以概括為兩個類型, 一個是直接形象的, 例如圖片,相片, 圖案,字符圖案等;另外的就是無知覺形象而只有數據或信號的波形, 如語音,聲音
5、,心電圖,地震波等。Bayes決策所討論的問題:基于最小錯誤率的 Bayes決策指出機器自動識別出現錯分類的條件, 錯分類的可能性如何計算, 如何實現使錯分類實現可能性最小; 基于 最小錯誤風險的 Bayes決策, 引入了風險與損失概念, 希望做到使風 險最小,減小危害大的錯分類情況。錯分類造成損失不一樣,不同的 錯誤分類造成的損失也是不一樣的, 不同的錯誤分類造成的損失會不 相同,后一種錯誤更加可怕, 因此就考慮減小因錯誤分類造成的危害 損失。2.Bayes算法若已知總共有 M 類物體,以及各類在這 d 維特征空間的統計分布, 具體說來就是已知各類別 wi=1,2,M 的先驗概率 P(wi
6、)及類條件 概率密度函數 P(X|wi )。對于待測樣品, Bayes公式可以計算出該樣 品分屬于各類別的概率,叫做后驗概率,看 X 屬于哪個類的可能性 最大,就把 X 歸于可能性最大的那個類,后驗概率作為識別對象歸 屬的依據。 Bayes 公式如下:識別的狀態就是一個隨機變量,而某種狀態出現概率是可以估計的。 Bayes公式體現了先驗概率,類概率密度函數,后驗概率三者 之間的關系。2.1 先驗概率 P(wi)先驗概率 P(wi )針對 M 個事件出現的可能性而言,不考慮其他 條件。例如由統計資料表明總藥品數為 n,其中正常藥品數為 n1,異 常藥品數為 n2,則P( w1) n1nP( w2
7、) n2n稱 P(w1 )和 P(w2)為先驗概率。顯然在一般情況下正常藥品所占 比例比較大,即 P( w1)P(w2),僅按照先驗概率來決策,就會把所 有藥品都劃歸為正常藥品, 并沒有達到將正常藥品與異常藥品區分開 的目的。這表明先驗概率所提供的信息太少。2.2 類條件概率密度函數P(X/wi )是指在已知某類別的特征空間中,出現特征值 X 的概率密 度,即第 wi 類樣品它的屬性 X 是如何分布的。在工程上很多的問題中, 統計數據往往滿足正態分布規律。 正態分 布簡單,分析方便,參量少,是一種適宜的數學模型。如果采用正態 密度函數是作為類條件概率密度的函數形式, 則函數內的參數如期望 方差
8、是未知的,那么問題就變成了如何利用大量樣品對這些參數進行 估計,只要估計出這些參數,類條件概率密度函數 P(X|wi )也就可 以確定了。單變量正態分布概率密度函數為:其中:u 為數學期望(均值); 為方差。多維正態密度函數為:其中:S為 N 維協方差矩陣; S-1為 S的逆矩陣 =(u1,u2,un) 為 N 維均值向量; X= (x1,x2,xN)為 N 維特征向量 在大多數情況下, 類條件概率密度函數是可以采用多維變量的正太概 率密度函數來模擬,即:2.3 后驗概率 后驗概率是指呈現狀態 X 時,該樣品分屬各類別的概率,這個概率 值可以作為識別對象歸屬的依據。 由于屬于不同類的待識別對象
9、存在 著呈現相同的觀察值的可能,即所觀察到的某一樣品的特征向量為X ,而在類中有不止一類可能呈現這一值,它屬于各類的概率可用P(wi|X )表示。可以利用 Bayes公式來計算這條件概率,稱之為狀態的后驗概率:P(wi|X)是表示在 X 出現條件下,樣品為 wi 類的概率。2.4 P(w1|X)和 P(w2|X)與 P(X|w1)和 P(X|w2 )的區別P(w1|X)和 P( w2|X)是在同一條件下,比較 w1 與 w2 出現的 概率,如 P(w1|X)P(w2|X ),則可能的以下結論,在 X 條件下,事 件 w1 出現的可能性比事件 w2 出現的可能性大。P(w1|X)與 P(w2|X
10、)都是指各自條件下出現 X 的可能性, 兩者 之間沒有聯系,比較兩者沒有意義。 P(w1|X)與 P( w2|X)是在不同 條件下討論問題,不能因為 P(w1|X)P( w2|X),就認為 X 是第一類 事物的可能性較大。3 算法的實現3.1 基于最小錯誤率 Bayes分類實現數字樣品的識別實現:在手寫的數字識別中屬于多類情況,每類樣品呈正態分布。1)求出每一類手寫數字樣品的均值1xiNiNixij ( xi1,xi 2,., xin)T , i 0,1,2,.,9 j1Ni 代表 wi 類的樣品個數, n 代表特征數目(2)求每一類的協方差矩陣sjki1 Ni1Ni 1 l 1(xlj xj
11、 )( xlk xk),j,k 1,2,., nL 代表樣品在 wi 類中的序號,其中 l=0,1,2,NiXlj 代表 wi 類的第 L 個樣品,第 J 個特征值。 xj代表 wi 類的 Ni 個樣品第 j 個特征的平均值。 Xlk 代表 wi 類的第 l 個樣品,第 K 個特征值。 xk 代表 wi 類的 Ni 個樣品第 K 個特征的平均值 Wi 類的協方差矩陣為:( 3)計算出每一類的協方差矩陣的逆矩陣 Si-1 以及協方差矩陣的行 列式|Si|。(4) 求出每一類的先驗概率:P(wi) Ni/ N,i 0,1,2,.,9其中 P(wi)為類別為數字 i 的先驗概率, Ni 為數字 i
12、的樣品數, N 為樣品總數。(5) 將各個數帶入判別函數1 T 1 1 hi(X) (X Xi)T)Si 1(X Xi) ln P(wi) ln |Si|22(6) 判別函數最大值所對應就是手寫數字的類別。3.2 基于最小風險的 Bayes分類實現 (1)求出每一類手寫數字樣品的均值。1 Ni TXi Xij (xi1,xi2,.,xin)T ,i 0,1,2,.,9Ni j 1Nj 代表 wi 類的樣品個數,n 代表特征數目。(2)求每一類的協方差矩陣。i 1 Nisjki(Xlj xj)(xlk xk), j,k 1,2,., nNi 1 l 1Wi 類的協方差矩陣為(3)計算出每一類協方
13、差矩陣的逆矩陣 Si 1 以及協方差矩陣行列式 |Si |.(4)求出每一類的先驗概率NiP(wi),i 0,1,2,.,9N其中 P(wi )為類別為數字 i 的先驗概率, Ni 為數字 i 的樣品數,N 為樣品總數。5)定義損失數組為 loss1010. 設初值為lossi j0,i j1,i j6)計算每一類損失 riski :9risk i lossi jP j j0(7)找出最小損失所對應的類,該類即是待測樣品所屬的類別附錄:部分實現代碼:/最小錯誤率 Bayes分離器算法實現int Classfication:BayesLeastError()double X 25; / 待測樣品
14、double Xmeans25; / 樣品的均值double S 25 25; / 協方差矩陣double S_ 25 25; /S 的逆矩陣double Pw; / 先驗概率、double hx 10; / 判別函數int i ,j,k,n;for (n= 0;n< 10;n+) / 循環類別 9int num=paternn.number; / 樣品的個數/*Functions: 求樣品的平均值* */ for (i= 0;i< 25;i+)Xmeansi= 0.0;for (k= 0;k<num;k+)for (i= 0;i< 25:i+)Xmeansi+=pat
15、ernn.featureki> for (i= 0;i< 25:i+)Xmeansi/=(double )num;/*Functions: 求協方差矩陣*/double mode 200 25;for (i= 0;i<num;i+)for (j= 0;j< 25;j+) modeij=paternn.featureij>0.1 ?1.0 : 0.0 ;0.1 ?1.04 : 0.0 ;for (i= 0;i< 25;i+)for (j= 0;j< 25;j+)double s= 0.0 ;for (k= 0;k<num;k+) s=s+(mode
16、ki-Xmeansi*(modekj-Xmeansj); s=s/( double )(num- 1);Sij=s;*Functions: 求先驗概率int total= 0;for (i= 0;i< 10;i+) total+=paterni.number; Pw=( double )num/( double )total;/*Functions:求S的逆矩陣*/for (i= 0;i< 25;i+) for (j= 0;j< 25;j+) S_ij=Sij;double (*p) 25=S_;brinv(*p, 25);*Functions:求S的行列式*/ double (*pp) 25=S; double DetS;DetS=bsdet(*pp, 25);Functions:求判別函數for (i= 0;i< 25;i+)Xi=testsamplei>0.1 ?1.0 : 0.0 ;for (i= 0;i< 25;i+)Xi-=Xmeansi;double t 25;for (i= 0;i< 25;i+
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商城店面租賃合同協議
- 品牌保潔合同協議
- 悉尼租房中介合同協議
- 2025試用期內勞動合同書模板
- 櫥柜廢料處理合同協議
- 正規底商租賃合同協議
- 和睦攤位轉讓協議書模板
- 《醫療衛生管理教學》課件
- 2025年新版事業單位勞動合同
- 2025眼鏡加盟合同模板
- 辦公用品售后服務方案
- 區塊鏈與電子商務安全的保障
- 2024-2026年版中國運動康復產業白皮書
- 不銹鋼營銷計劃書
- 部編版五年級語文上冊期末群文閱讀 試卷附答案
- 區塊鏈與電子商務培訓
- DB21-T 2850-2017旅游景區安全管理規范
- AIB(2022版)統一檢查標準-前提方案與食品安全程序
- 《風險管理理論》課件
- 防汛行政首長培訓課件
- 光電子學 (第三章1)
評論
0/150
提交評論