模式識別 課件 第6章 組合分類器_第1頁
模式識別 課件 第6章 組合分類器_第2頁
模式識別 課件 第6章 組合分類器_第3頁
模式識別 課件 第6章 組合分類器_第4頁
模式識別 課件 第6章 組合分類器_第5頁
已閱讀5頁,還剩39頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第6章組合分類器主要內容6.1組合分類器的設計6.2Bagging算法6.3隨機森林6.4Boosting算法6.5組合分類的實例輸入樣本個體分類器1個體分類器2

個體分類器M組合分類輸出結果6.1組合分類器的設計(1)基本概念組合分類器:構建一組單獨的分類器(個體),整合各個體分類器決策結果,以獲得更好的性能。組合分類器示意圖6.1組合分類器的設計個體分類器為同一種稱為同質,反之稱為異質要求:多樣性,不同個體分類器間的分類結果具有差異性準確性,個體分類器具有較好的分類性能設計要點:個體分類器的差異設計分類器性能度量組合策略(1)基本概念(2)個體分類器的差異設計6.1組合分類器的設計數據樣本擾動留出法獲取不同的訓練樣本集,設計多個個體分類器將數據集X

劃分為兩個互斥子集,分別作為訓練集和測試集,多次隨機劃分,用不同的訓練集訓練個體分類器。6.1組合分類器的設計交叉驗證法

自舉法可重復采樣在數據集較小、難以有效劃分時很有用,但是新的數據集改變了初始數據集的分布,會引入估計偏差6.1組合分類器的設計樣本屬性擾動隨機選擇訓練樣本部分維的數據,構成若干屬性子集,基于每個屬性子集訓練個體分類器。屬性個數減少而降低計算量,節省時間開銷。由于屬性間的冗余性,減少一些屬性后依然能保證分類器的性能。如果數據本身屬性較少,或者冗余性低,則不適合采用這種方法。特點6.1組合分類器的設計參數擾動通過隨機設置分類器的參數,產生差異性較大的個體分類器。(3)分類器性能度量6.1組合分類器的設計真實狀態決策結果正例負例正例真正例(TP)假負例(FN)負例假正例(FP)真負例(TN)二分類時狀態與決策的可能關系正確率:錯誤率:6.1組合分類器的設計查準率、查全率及相關性能度量查準率:查全率:真實狀態決策結果正例負例正例真正例(TP)假負例(FN)負例假正例(FP)真負例(TN)查準率(Precision)和查全率(Recall)相互矛盾,不能同時得到最優值,往往查全率越高,查準率越低;查全越低,查準率越高。PR曲線和RP圖:取不同閾值,得多組R、P值,以R作橫軸,以P為縱軸,作圖,越靠右上方,性能越好AP:RP曲線下的面積6.1組合分類器的設計F1度量:

0和1之間,越大性能越好

ROC曲線及相關性能度量6.1組合分類器的設計真正例率假正例率真實狀態決策結果正例負例正例真正例(TP)假負例(FN)負例假正例(FP)真負例(TN)ROC(ReceiverOperatingCharacteristic)曲線:取不同閾值,得多組TPR、FPR值,以FPR作橫軸,以TPR為縱軸,作圖,越靠左上方,性能越好AUC:ROC曲線下的相對面積其他性能度量6.1組合分類器的設計決策錯誤帶來的損失,稱為代價矩陣。計算復雜度,一般通過比較分類器在執行過程中耗費的CPU總數來實現。分類器的魯棒性:能否處理含有噪聲的或不完整的數據。使用不同的性能度量評價不同的方面,但不能簡單地定義分類器的好壞,需要根據具體的任務需求、數據分布特點等,選擇合適的分類器。(4)組合策略6.1組合分類器的設計采用一定的方式將不同分類器的輸出組合,常用的有平均規則、投票規則、加權處理等方法。平均規則或者

6.1組合分類器的設計投票規則絕對多數投票法:

6.1組合分類器的設計投票規則相對多數投票法:加權投票法:6.1組合分類器的設計基于貝葉斯決策思路的組合策略樣本x在分類器的輸入:不同類型的分類器輸出的類概率值不能直接進行比較,可以轉化為類標記輸出進行投票6.2Bagging算法BootstrapAggregating,多次采樣同一數據集得到多組數據,分別進行訓練得到若干弱分類器,再通過對弱分類器結果投票得到強分類器特點:并行(1)基本概念例6-5:有12個血壓數據,如表所示,用三個最小距離分類器設計Bagging組合分類器。

6.2Bagging算法序號123456血壓(100,70)(119,80)(99,78)(105,75)(125,82)(123,85)是否高血壓否否否否否否序號789101112血壓(145,76)(123,92)(115,98)(150,80)(138,100)(144,97)是否高血壓是是是是是是(2)例題設計一設計最小距離分類器一

決策抽樣6.2Bagging算法隨機自舉采樣,兩類各自抽取4個樣本,序號為6、6、5、2、10、7、9、8

設計二設計最小距離分類器二決策抽樣隨機自舉采樣,兩類各自抽取4個樣本,序號為1、2、3、1、10、9、11、116.2Bagging算法

設計三設計最小距離分類器三決策抽樣隨機自舉采樣,兩類各自抽取4個樣本,序號為4、6、4、6、8、11、8、116.2Bagging算法投票表決序號123456789101112-1-1-1-1-1-11-1-1111-1-1-1-111111111-1-1-1-1-1-1111111投票結果-1-1-1-1-1-11111116.2Bagging算法程序clc,clear,closeall;X1=[10070;11980;9978;10575;12582;12385];X2=[13576;12390;11598;13480;138100;14497];[N,n]=size(X1);result=zeros(2*N,1);M=3;form=1:Mmout=mdc(X1,X2,N);result=result+mout;endresult(result<0)=-1;result(result>0)=1;6.2Bagging算法functionout=mdc(in1,in2,N)

%最小距離分類器sampling1=randi(N,1,floor(N/2)+1);sampling2=randi(N,1,floor(N/2)+1);X1=in1(sampling1,:);

X2=in2(sampling2,:);m1=mean(X1);

m2=mean(X2);out1=ones(N,1);

out2=ones(N,1);

out1(pdist2(in1(1:N,:),m1)<pdist2(in1(1:N,:),m2))=-1;out2(pdist2(in2(1:N,:),m1)<pdist2(in2(1:N,:),m2))=-1;out=[out1;out2];end6.2Bagging算法6.3隨機森林訓練中的數據集只是所有可能的數據中的一次隨機抽樣,訓練得到的分類器也具有一定的偶然性,是基于數據的模式識別方法都面臨的一個共同問題決策樹方法中構建決策樹的過程是根據每個節點下局部的劃分準則進行的,受樣本隨機性的影響可能更明顯一些,容易導致過學習隨機森林(RandomForest,RF):建立很多決策樹,組成一個決策樹的“森林”,通過多棵樹投票來進行決策,能有效地提高對新樣本的分類準確度RF除了樣本擾動,還增加了屬性擾動(1)基本概念6.3隨機森林

增加樣本和屬性擾動,生成多棵決策樹,對樣本進行決策并投票。MATLAB中TreeBagger類使用TreeBagger函數創建,實現隨機森林算法。(2)例題設計思路6.3隨機森林程序clc,clear,closeall;loadfisheririsrng(1);Mdl=TreeBagger(30,meas,species)

view(Mdl.Trees{1},'Mode','graph')view(Mdl.Trees{2},'Mode','graph')view(Mdl.Trees{3},'Mode','graph')pattern=[5.7,2.6,3.5,1];label1=predict(Mdl,pattern,'Trees',2);label2=predict(Mdl,pattern,'Trees',[1,2,3]);label=predict(Mdl,pattern);6.3隨機森林仿真結果lable1、label2、label均為1×1的元胞數組,取值均為'versicolor'(1)AdaBoost算法融合多個分類器進行決策的方法;不是簡單地對多個分類器的輸出進行投票決策,而是通過一個迭代過程對分類器的輸入和輸出進行加權處理。

基本思路6.4Boosting算法

初始化

分類器目標函數中各樣本對應的項進行加權,具體問題具體分析6.4Boosting算法算法步驟6.4Boosting算法

例題6.4Boosting算法例6-7:有12個血壓數據,如表所示,采用AdaBoost算法設計組合分類器。序號123456血壓(100,70)(119,80)(99,78)(105,75)(125,82)(123,85)是否高血壓否否否否否否序號789101112血壓(145,76)(123,92)(115,98)(150,80)(138,100)(144,97)是否高血壓是是是是是是采用最小距離分類器初始化進行分類設計最小距離分類器一

決策

錯誤率正確率:91.67%6.4Boosting算法

修改權系數

設計最小距離分類器二

決策

錯誤率6.4Boosting算法

修改權系數

設計最小距離分類器三

決策

錯誤率6.4Boosting算法

修改權系數

組合分類器

決策正確率:100%

6.4Boosting算法程序clc,clear,closeall;X=[10070;11980;9978;10575;12582;12385;...

14576;12392;11598;15080;138100;14497];[N,n]=size(X);y=ones(N,1);y(1:N/2)=-1;figure,gscatter(X(:,1),X(:,2),y,'rg','x*',8)xlabel('收縮壓');ylabel('舒張壓');holdonbeta=ones(N,1)/N;M=3;alpha=zeros(1,M);g=zeros(N,M);[~,~,result1]=mdc(X,y,beta,N);plot(X(result1~=y,1),X(result1~=y,2),'bo','MarkerSize',10);6.4Boosting算法準備工作form=1:M[beta,alpha(m),g(:,m)]=mdc(X,y,beta,N);ifalpha(m)==0break;endendresult2=alpha.*g;result2=sum(result2,2);result2=sign(result2);plot(X(result2~=y,1),X(result2~=y,2),'m>','MarkerSize',14);legend('第一類','第二類','弱分類錯分樣本',

'組合分類錯分樣本','Location','NW');holdoffratio1=sum(result1==y)/N;ratio2=sum(result2==y)/N;6.4Boosting算法設計組合分類器function[xcoef,alpha,g]=mdc(in,y,xcoef,N)temp=in.*xcoef;m1=sum(temp(y<0,:))/sum(xcoef(y<0));m2=sum(temp(y>0,:))/sum(xcoef(y>0));g=ones(N,1);dist1=pdist2(in,m1);dist2=pdist2(in,m2);g(dist1<dist2)=-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論