




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第十一章獨立于算法的機器學(xué)習(xí).11.1模式識別中的哲學(xué)這里討論的是一些獨立于具體識別算法的一般性原理,但可以適用于任何一個特定的識別方法:沒有免費午餐定理;丑小鴨定理;Occam剃刀原理。沒有免費的午餐定理
〔NFL,NoFreeLunchTheorem〕不存在一個與具體應(yīng)用無關(guān)的,普遍適用的“最優(yōu)分類器〞;學(xué)習(xí)算法必須要作出一個與問題領(lǐng)域有關(guān)的“假設(shè)〞,分類器必須與問題域相適應(yīng)。丑小鴨定理〔UglyDuckling〕不存在與問題無關(guān)的“最優(yōu)〞的特征集合或?qū)傩约希灰餐瑯硬淮嬖谂c問題無關(guān)的模式之間的“相似性度量〞。Occam剃刀原理設(shè)計者不應(yīng)該選用比“必要〞更加復(fù)雜的分類器,“必要〞是由訓(xùn)練數(shù)據(jù)的擬合情況決定的;在對訓(xùn)練數(shù)據(jù)分類效果相同時,“簡單的〞分類器往往優(yōu)于“復(fù)雜的〞分類器;根據(jù)“沒有免費午餐定理〞,不能說“簡單的〞分類器對“復(fù)雜的〞分類器具有天生的優(yōu)越性,但在現(xiàn)實世界中遇到的各種問題,這種優(yōu)越性往往是存在。11.2分類設(shè)計的重采樣技術(shù)分類器設(shè)計的重采樣技術(shù)也被稱為“自適應(yīng)的權(quán)值重置和組合〔arcing,adaptivereweightingandcombining〕;這類方法的主要思想是利用同一個訓(xùn)練樣本集合構(gòu)造多個分類器,然后以某種方式將這些分類器組合成一個分類器;主要方法包括:bagging算法和boosting算法bagging算法從大小為n的原始數(shù)據(jù)集D中獨立隨機地抽取n’個數(shù)據(jù)(n’<n),形成一個自助數(shù)據(jù)集;重復(fù)上述過程,產(chǎn)生出多個獨立的自助數(shù)據(jù)集;利用每個自助數(shù)據(jù)集訓(xùn)練出一個“分量分類器〞;最終的分類結(jié)果由這些“分量分類器〞各自的判別結(jié)果投票決定。boosting算法boosting算法同樣是利用訓(xùn)練樣本集合構(gòu)造多個分量分類器,它只要求這個分量分類器是一個弱分類器—準(zhǔn)確率比平均性能好即可。2類問題,3個分量分類器的訓(xùn)練算法:在數(shù)量為n的原始樣本集D中隨機選取n1個樣本構(gòu)成D1,利用D1訓(xùn)練出一個分類器C1;在樣本集D-D1中選擇被C1正確分類和錯誤分類的樣本各一半組成樣本集D2,用D2訓(xùn)練出一個分類器C2;將樣本集D-D1-D2中所有C1和C2分類結(jié)果不同的樣本組成樣本集D3,訓(xùn)練出一個分類器C3;boosting的分類算法對新的樣本x進行分類,如果C1和C2判別結(jié)果相同,那么將x判別為此類別,否那么以C3的結(jié)果作為x的類別;原始樣本集分量分類器組合分類器AdaBoost方法AdaBoost(adaptiveboosting)是boosting方法的一個重要變形,一般所說的boosting方法均是指AdaBoost;AdaBoost方法中,設(shè)計者可以不斷地增加分量分類器,直到到達(dá)足夠小的錯誤率為止;總體分類結(jié)果是由各分量分類器加權(quán)平均得到,權(quán)重由分量分類器的錯誤率確定。AdaBoost方法begininitializeD,kmax,W1(i)
1/n,i=1,…,n;
k0;dokk+1
訓(xùn)練使用按照Wk(i)采樣D的弱分類器Ck;
Ek
用Wk(i)采樣D的樣本集測量Ck的訓(xùn)練誤差;
untilk=kmax;
endAdaBoost方法算法中Wk(i)為每一步迭代中對每個樣本的加權(quán),Zk是歸一化因子,Ck為第k個分量分類器,αk為對Ck的加權(quán);總體的判別函數(shù)由各分量分類器的加權(quán)平均得到: 其中為Ck分類器給出的判別結(jié)果。AdaBoost方法的推廣能力AdaBoost方法實際上是增加了分類器的復(fù)雜程度,但實踐說明此方法出現(xiàn)“過擬合〞的現(xiàn)象極少,這是此方法最吸引人的地方。針對特征的Boosting算法特征選擇:就是從一組數(shù)量為n的特征中選擇出數(shù)量為m的最優(yōu)特征;最優(yōu)特征組合的評價標(biāo)準(zhǔn);選擇出最優(yōu)特征組合的算法;Boosting可以作為特征選擇的方法。AdaBoost特征選擇算法Givenexamples(x1,y1),…,(xn,yn),whereyi=0,1fornegativeandpositiveexamplesrespectively;Initializeweightsw1,i=1/2m,1/2lforyi=0,1respectively,wheremandlarethenumberofnegativesandpositivesrespectively;Fort=1,…,T:Normalizetheweights: sothatwtisaprobabilitydistribution.AdaBoost特征選擇算法Foreachfeature,j,trainaclassifierhjwhichisrestrictedtousingasinglefeature.Theerrorisevaluatedwithrespecttowt,Choosetheclassifierht,withthelowesterrorUpdatetheweights: whereei
=0ifexamplexiisclassifiedcorrectly,ei
=1otherwise,andThefinalclassifieris:11.3分類器的評價和比較在分類器設(shè)計好后,我們只能計算出分類器在訓(xùn)練樣本集上的錯誤率,而不能計算出在測試樣本集上的錯誤率;可以采用統(tǒng)計量估計中的重采樣技術(shù)來對測試樣本錯誤率進行估計,具體方法有:交叉驗證;刀切法;自助法;交叉驗證(CrossValidation)簡單驗證:將數(shù)量為n的訓(xùn)練樣本集D分成兩局部,一局部作為訓(xùn)練集,用于訓(xùn)練分類器,另一局部作為驗證集,用于估計測試錯誤率;m-重交叉驗證:將D分成m個集合,每個集合包含n/m個樣本,每次用m-1個集合的樣本訓(xùn)練分類器,用剩余的一個集合測試,最后將m個測試結(jié)果平均,作為測試錯誤率的估計;刀切法〔Jackknife〕刀切法實際上是m=n時的m-重交叉驗證。在數(shù)量為n的樣本集D中每次留一個樣本,用其它樣本訓(xùn)練分類器,用留下的一個樣本測試錯誤率,測試錯誤率為: p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 10喜鵲飛來報吉祥(教案)三年級上冊信息技術(shù)華師大版
- 臉蛋表情美術(shù)課件
- 2024-2025學(xué)年八年級物理下冊 第七章 運動和力 7.1 怎樣描述運動教學(xué)設(shè)計 (新版)粵教滬版
- 腦積水觀察及護理
- 九年級化學(xué)上冊 6.3 二氧化碳和一氧化碳教學(xué)設(shè)計2 新人教版
- 11 走進春天(教學(xué)設(shè)計)人教版(2012)美術(shù)四年級下冊
- 2024-2025學(xué)年高中英語 Unit 6 At one with nature Period 4 Developing ideas(概要寫作)教學(xué)設(shè)計 外研版必修第一冊
- 3發(fā)現(xiàn)變化中的新物質(zhì)教學(xué)設(shè)計-2023-2024學(xué)年科學(xué)六年級下冊教科版
- 19 小英雄雨來(節(jié)選) 第二課時(教學(xué)設(shè)計)-2023-2024學(xué)年統(tǒng)編版語文四年級下冊
- Unit 3 My school calendar PartB Read and write(教學(xué)設(shè)計)-2023-2024學(xué)年人教PEP版英語五年級下冊
- 危險化學(xué)品目錄(2024版)
- 骨科術(shù)后下肢腫脹護理
- 快件處理員(高級)職業(yè)技能鑒定考試題庫(含答案)
- 福建省廈門市雙十中學(xué)2024-2025學(xué)年九年級上學(xué)期期中考試英語試題
- 2024年廣東省深圳市中考英語模擬試卷(三)
- 全媒體運營師試題庫(含答案)
- 成語故事對牛彈琴
- 湖南省邵陽市2024年六年級數(shù)學(xué)第一學(xué)期期末檢測模擬試題含解析
- 肥胖微生物組與腸道菌群宏基因組學(xué)研究
- 爆花(2023年陜西中考語文試卷記敘文閱讀題及答案)
- 疫情統(tǒng)計學(xué)智慧樹知到答案2024年浙江大學(xué)
評論
0/150
提交評論