


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
集成學習簡述集成學習以及結合的方式集成學習是機器學習的一種思想,它通過組合多個弱學習器來構成一個性能更強、精度更高的學習模型。弱學習器是指分類性能不強甚至僅比隨機胡猜略好的學習器。在學習階段用訓練樣本集依次訓練這些弱學習器,在預測或決策時,用這些訓練好的弱學習器模型聯合進行預測。也就是說,由于單個模型的精度不是很高,于是訓練多個模型,然后將它們結合起來形成一個更強大的模型。結合的方式通常有以下兩種:(1)并行方式單個模型的訓練相互獨立,可以并行進行,最后做決策時大家共同“投票”,這種方式的典型代表是隨機森林算法。(2)串行方式串行地依次訓練各個模型,后面的模型訓練要用到前面的訓練結果,這種方式的典型代表是AdaBoost算法。如何能獲得比最好的單一學習器更好的性能呢?學習實踐表明:要獲得好的集成,個體學習器應具有一定的準確性,且個體學習器之間應具有相當的多樣性。當然,個體學習器的準確性和多樣性一般情況下不可得兼,增加多樣性的前提是犧牲準確性。事實上,產生并組合“好而不同”的個體學習器,是集成學習成功的關鍵。綜上所述,集成學習有兩個主要的問題需要解決:第一個是如何得到若干個個體學習器;第二個是如何選擇一種結合策略,將這些個體學習器集合成一個強學習器。隨機采樣的方式都有哪些?隨機釆樣一般釆用自助釆樣法(BootstrapSampling)。自助釆樣是指對于具有n個樣本的原始訓練樣本集,每次先隨機采集一個樣本放入釆樣集,然后再將該樣本放回去,以便下次釆樣時該樣本仍有可能被釆集到,這樣釆集乳次,最終得到一個具有九個樣本的釆樣集。由于這樣的采樣手段類似于“裝袋子”,Bagging算法也因此得名。注意,因為釆樣是隨機的,每次的釆樣集與原始訓練集不盡相同,與其他釆樣集也有所差別,因此可以得到多個“不同"的弱學習器。隨機森林算法是Bagging算法的一個改進版本,它所使用的弱學習器都是決策樹,并且在構造決策樹的過程中,對于樣本的屬性選擇采用“隨機選擇”方式,由此從“樹”進化到“森林",于是得到隨機森林算法。簡要介紹模型組合的分類1.平均法對于數值類的回歸預測問題,通常使用的組合策略是平均法,即對于若干個弱學習器的輸出進行平均得到最終的預測輸出。最簡單的平均是算術平均:加權平均法在集成學習中具有特別的意義,集成學習中的各種結合方法都可視為其特例或變體。事實上,可認為加權平均法是集成學習研究的基本出發點,對給定的個體學習器,不同的集成學習方法可視為通過不同的方式來確定加權平均法中的個體學習器權重。加權平均法的權重一般從訓練數據中學習而得,現實任務中的訓練樣本通常不充分或存在噪聲,這將使得訓練出的權重不完全可靠。尤其是對規模比較大的集成來說,要訓練的權重比較多,較容易導致過擬合。因此,實驗和應用均顯示出,加權平均法未必一定優于簡單平均法。一般而言,在個體學習器性能相差較大時宜使用加權平均法,而在個體學習器性能相近時宜使用簡單平均法。2.投票法最簡單的投票法是“相對多數投票法”,也就是人們常說的“少數服從多數”,即f個弱學習器對樣本企的預測結果中,數量最多的類別作為最終的分類類別,即:3.學習法對弱學習器的結果做平均或者投票,相對比較簡單,但可能訓練誤差較大,特別是當訓練數據很多時。一種更為強大的組合策略是“學習法”。學習法的典型代表是Stacking算法(堆疊法),當使用Stacking算法進行組合時,對弱學習器的結果再加上一層學習器(堆疊),即將弱學習器的訓練結果作為輸入,重新訓練一個學習器來得到最終結果。為了敘述方便,這里將個體學習器稱為初級學習器,將用于組合的學習器稱為次級學習器。因此,關于Stacking算法,通俗地說就是對于測試集,首先用初級學習器預測一次,得到次級學習器的輸入樣本,再用次級學習器預測一次,得到最終的預測結果。Bagging算法的定義以及特點Bagging算法是并行式集成學習方法最著名的代表,Bagging算法的弱學習器之間沒有相互的依賴關系,它的特點在于“隨機采樣”。隨機采樣(Bootsrap,自舉)就是從訓練集里面釆集固定個數的樣本,但是每釆集一個樣本后,都將樣本放回。也就是說,之前采集到的某樣本在放回后有可能繼續被釆集到。對于Bagging算法,一般會隨機釆集和訓練集樣本數n一樣多的樣本。這樣得到的釆樣集和訓練集樣本的個數相同,但是樣本內容不同。如果對有孔個樣本訓練集做T次隨機釆樣,則由于隨機性,T個釆樣集各不相同。隨機森林算法的定義隨機森林(RandomForest,簡稱RF)算法是Bagging算法的進化版本,其思想仍然Bagging,但是進行了獨特的改進。首先,隨機森林算法使用CART決策樹作為弱學習器;其次,在使用決策樹的基礎上,隨機森林算法對決策樹的建立做了改進,普通的決策樹是結點上所有的m個屬性中選擇一個最優的屬性來
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆武漢市東西湖區三上數學期末檢測模擬試題含解析
- 行政管理與公共關系學相輔相成的試題及答案
- 行政管理者如何提升公共關系能力試題及答案
- 中級經濟師的國際投資環境試題及答案
- 2025年經濟學考試實務試題及答案綜述
- 電商平臺用戶數據隱私保護細則協議
- 食育課爆米花課件
- 旅游行業酒店服務標準考核試卷
- 行政管理專科公共關系學試題及答案見解
- 物流業綠色物流發展路徑及技術應用研究
- MOOC 地學景觀探秘·審美·文化-重慶大學 中國大學慕課答案
- 安全生產事故報告處理制度范本
- (高清版)WST 311-2023 醫院隔離技術標準
- 2024年電梯安裝與維修工理論考試題庫及答案(通用版)
- 天耀中華合唱簡譜大劇院版
- 【《我國互聯網企業價值評估現狀與問題探析11000字》(論文)】
- 智慧農業的無人機技術應用
- 招聘需求分析報告
- 火龍罐綜合灸療法
- 2022年呼和浩特市賽罕區消防救援大隊招聘政府專職消防員考試真題
- 節制閘、分水閘工程施工方案
評論
0/150
提交評論