




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
集成學(xué)習(xí)課程大綱2018.9.15集成學(xué)習(xí)實戰(zhàn)2018.9.22Boosting與Adaboost實戰(zhàn)2018.9.29Bagging與隨機(jī)森林實戰(zhàn)集成學(xué)習(xí)集成學(xué)習(xí)(ensemblelearning)是現(xiàn)在非常火爆的機(jī)器學(xué)習(xí)方法。它本身不是一個單獨的機(jī)器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。也就是我們常說的“博采眾長”。集成學(xué)習(xí)可以用于分類問題集成,回歸問題集成,特征選取集成,異常點檢測集成等等,可以說所有的機(jī)器學(xué)習(xí)領(lǐng)域都可以看到集成學(xué)習(xí)的身影。集成學(xué)習(xí)集成學(xué)習(xí)綜述基本思想基礎(chǔ)分類器組合策略
對于回歸預(yù)測(數(shù)值)簡單平均加權(quán)平均對于分類預(yù)測(類別)簡單投票加權(quán)投票學(xué)習(xí)法集成學(xué)習(xí)方法BoostingAdaboostAdboost+決策樹=提升樹決策樹+GradientBoosting=GBDTBagging隨機(jī)森林(決策樹)(決策樹)ID3(信息增益)c4.5(信息增益率)CART(基尼系數(shù))Stacking模型評價方差&偏差集成學(xué)習(xí)概述對于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個個體學(xué)習(xí)器,通過一定的結(jié)合策略,就可以最終形成一個強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長的目的。集成學(xué)習(xí)有兩個主要的問題需要解決,第一是如何得到若干個個體學(xué)習(xí)器,第二是如何選擇一種結(jié)合策略,將這些個體學(xué)習(xí)器集合成一個強(qiáng)學(xué)習(xí)器。集成學(xué)習(xí):簡單直觀的例子對實例進(jìn)行分類對多個分類器的分類結(jié)果進(jìn)行某種組合來決定最終的分類,以取得比單個分類器更好的性能※定義:集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。如果把單個分類器比作一個決策者的話,集成學(xué)習(xí)的方法就相當(dāng)于多個決策者共同進(jìn)行一項決策。集成學(xué)習(xí)在概率近似正確(PAC)學(xué)習(xí)的框架中,一個概念(一個類),如果存在一個多項式的學(xué)習(xí)算法能夠?qū)W習(xí)它,如果正確率很高,那么就稱這個概念是強(qiáng)可學(xué)習(xí)(stronglylearnable)的。如果正確率不高,僅僅比隨即猜測略好,那么就稱這個概念是弱可學(xué)習(xí)(weaklylearnable)的。后來證明強(qiáng)可學(xué)習(xí)與弱可學(xué)習(xí)是等價的
解決的問題:1.弱分類器之間是怎樣的關(guān)系?2.組合時,如何選擇學(xué)習(xí)器?3.怎樣組合弱分類器?集成學(xué)習(xí)解決的問題1.弱分類器之間是怎樣的關(guān)系?
第一種就是所有的個體學(xué)習(xí)器都是一個種類的,或者說是同質(zhì)的。
第二種是所有的個體學(xué)習(xí)器不全是一個種類的,或者說是異質(zhì)的。集成學(xué)習(xí)之個體學(xué)習(xí)器個體學(xué)習(xí)器有兩種選擇:第一種就是所有的個體學(xué)習(xí)器都是一個種類的,或者說是同質(zhì)的。比如都是決策樹個體學(xué)習(xí)器,或者都是神經(jīng)網(wǎng)絡(luò)個體學(xué)習(xí)器。第二種是所有的個體學(xué)習(xí)器不全是一個種類的,或者說是異質(zhì)的。比如我們有一個分類問題,對訓(xùn)練集采用支持向量機(jī)個體學(xué)習(xí)器,邏輯回歸個體學(xué)習(xí)器和樸素貝葉斯個體學(xué)習(xí)器來學(xué)習(xí),再通過某種結(jié)合策略來確定最終的分類強(qiáng)學(xué)習(xí)器。集成學(xué)習(xí)之個體學(xué)習(xí)器目前而言,同質(zhì)個體學(xué)習(xí)器應(yīng)用最廣泛,一般我們常說的集成學(xué)習(xí)的方法都是指的同質(zhì)個體學(xué)習(xí)器。而同質(zhì)個體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個體學(xué)習(xí)器按照個體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩類,第一個是個體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系,一系列個體學(xué)習(xí)器基本都需要串行生成,代表算法是boosting系列算法,第二個是個體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系,一系列個體學(xué)習(xí)器可以并行生成,代表算法是bagging和隨機(jī)森林(RandomForest)系列算法。集成學(xué)習(xí)2.組合時,如何選擇學(xué)習(xí)器?
考慮準(zhǔn)確性和多樣性
準(zhǔn)確性指的是個體學(xué)習(xí)器不能太差,要有一定的準(zhǔn)確度;
多樣性則是個體學(xué)習(xí)器之間的輸出要具有差異性集成學(xué)習(xí)3.怎樣組合弱分類器?
組合策略:(1)平均法(2)投票法(3)學(xué)習(xí)法集成學(xué)習(xí)(1)平均法對于數(shù)值類的回歸預(yù)測問題思想:對于若干個弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測輸出。簡單平均法加權(quán)平均法其中wi是個體學(xué)習(xí)器hi的權(quán)重,通常有wi≥0,集成學(xué)習(xí)(2)投票法對于分類問題的預(yù)測
思想:多個基本分類器都進(jìn)行分類預(yù)測,然后根據(jù)分類結(jié)果用某種投票的原則進(jìn)行投票表決,按照投票原則使用不同投票法。一票否決、一致表決、少數(shù)服從多數(shù)閾值表決:首先統(tǒng)計出把實例x劃分為Ci和不劃分為Ci的分類器數(shù)目分別是多少,然后當(dāng)這兩者比例超過某個閾值的時候把x劃分到Ci。集成學(xué)習(xí)(3)學(xué)習(xí)法之前的方法都是對弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對比較簡單,但是可能學(xué)習(xí)誤差較大。代表方法是Stacking思想:不是對弱學(xué)習(xí)器的結(jié)果做簡單的邏輯處理,而是再加上一層學(xué)習(xí)器,分為2層。第一層是用不同的算法形成T個弱分類器,同時產(chǎn)生一個與原數(shù)據(jù)集大小相同的新數(shù)據(jù)集,利用這個新數(shù)據(jù)集和一個新算法構(gòu)成第二層的分類器。
集成學(xué)習(xí)集成學(xué)習(xí)主要學(xué)習(xí)方法:根據(jù)個體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩類,Boosting:個體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系,必須串行生成的序列化方法;
串行:下一個分類器只在前一個分類器預(yù)測不夠準(zhǔn)的實例上進(jìn)行訓(xùn)練或檢驗。Bagging:個體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系,可同時生成的并行化方法。并行:所有的弱分類器都給出各自的預(yù)測結(jié)果,通過組合把這些預(yù)測結(jié)果轉(zhuǎn)化為最終結(jié)果。集成學(xué)習(xí)Boosting重賦權(quán)法:即在訓(xùn)練過程的每一輪中,根據(jù)樣本分布為每一個訓(xùn)練樣本重新賦予一個權(quán)重。對無法接受帶權(quán)樣本的基學(xué)習(xí)算法,則可以通過重采樣法來處理,即在每一輪的學(xué)習(xí)中,根據(jù)樣本分布對訓(xùn)練集重新進(jìn)行采樣,在用重采樣而來的樣本集對基學(xué)習(xí)器進(jìn)行訓(xùn)練。
代表算法:Adboost決策樹+adboost=提升樹GBDT(GradientBoostDecisionTree)梯度提升決策樹決策樹+GradientBoosting=GBDT
其他叫法:GradientTreeBoostingGBRT(GradientBoostRegressionTree)梯度提升回歸樹MART(MultipleAdditiveRegressionTree)多決策回歸樹TreeNet決策樹網(wǎng)絡(luò)集成學(xué)習(xí)Bagging(bootstrapaggregation)Bagging的策略:
-從樣本集中用Bootstrap采樣選出n個樣本
-在所有屬性上,對這n個樣本建立分類器(CARTorSVMor...)
-重復(fù)以上兩步m次,i.e.buildm個分類器(CARTorSVMor...)
-將數(shù)據(jù)放在這m個分類器上跑,最后vote看到底分到哪一類
Bootstrap方法是非常有用的一種統(tǒng)計學(xué)上的估計方法。Bootstrap是對觀測信息進(jìn)行再抽樣,進(jìn)而對總體的分布特性進(jìn)行統(tǒng)計推斷。Bootstrap是一種有放回的重復(fù)抽樣方法,抽樣策略就是簡單的隨機(jī)抽樣。Bagging擴(kuò)展變體隨機(jī)森林(randomforest簡稱RF)隨機(jī)森林:決策樹+bagging=隨機(jī)森林集成學(xué)習(xí)從偏差-方差分解的角度偏差(bias):描述的是預(yù)測值的期望與真實值之間的差距。偏差越大,越偏離真實數(shù)據(jù),如下圖第二行所示。方差(variance)
:描述的是預(yù)測值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數(shù)據(jù)的分布越分散,如下圖右列所示。集成學(xué)習(xí)Boosting主要關(guān)注降低偏差偏差刻畫了學(xué)習(xí)算法本身的擬合能力Boosting思想,對判斷錯誤的樣本不停的加大權(quán)重,為了更好地擬合當(dāng)前數(shù)據(jù),所以降低了偏差,因此Boosting能基于泛化性能相當(dāng)弱的學(xué)習(xí)器構(gòu)建出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北省唐縣第一中學(xué)2024-2025學(xué)年高一(3+1)下學(xué)期4月期中化學(xué)試卷(含答案)
- 曲靖市2025屆三下數(shù)學(xué)期末檢測模擬試題含解析
- 江西旅游商貿(mào)職業(yè)學(xué)院《計量經(jīng)濟(jì)及應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川綿陽富樂園際校2024-2025學(xué)年初三下學(xué)期期末英語試題試卷含答案
- 河南省安陽市殷都區(qū)重點名校2025年中考押題預(yù)測卷(語文試題理)試卷含解析
- 原平市2025屆小升初常考易錯數(shù)學(xué)檢測卷含解析
- 錫林郭勒職業(yè)學(xué)院《有機(jī)波譜解析》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川省綿陽市達(dá)標(biāo)名校2025屆初三下學(xué)期3月月考語文試題試卷含解析
- 浙江省杭州市杭州風(fēng)帆中學(xué)2025屆初三1月聯(lián)考物理試題含解析
- 蘇州市職業(yè)大學(xué)《數(shù)值代數(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024版合同及信息管理方案
- DG-TJ 08-2451-2024 電動自行車集中充電和停放場所設(shè)計標(biāo)準(zhǔn)
- 吊籃高處作業(yè)安全交底
- 彩票物流配送服務(wù)投標(biāo)方案(技術(shù)方案)
- 電磁感應(yīng):“棒-導(dǎo)軌”模型4:單棒-有外力發(fā)電式
- 2025年公務(wù)員考試江西省(面試)試題及答案指導(dǎo)
- 江蘇省期無錫市天一實驗校2025屆初三下學(xué)期第一次模擬考試英語試題含答案
- 中國鹽業(yè)集團(tuán)有限公司 筆試 內(nèi)容
- 全過程工程咨詢投標(biāo)方案(技術(shù)方案)
- DL∕T 1051-2019 電力技術(shù)監(jiān)督導(dǎo)則
- 2024廣東深圳市龍崗區(qū)總工會招聘社會化工會工作者及事宜筆試歷年典型考題及考點剖析附答案帶詳解
評論
0/150
提交評論