集成學習基礎通俗入門_第1頁
集成學習基礎通俗入門_第2頁
集成學習基礎通俗入門_第3頁
集成學習基礎通俗入門_第4頁
集成學習基礎通俗入門_第5頁
已閱讀5頁,還剩4頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

集成學習基礎通俗入門編者按】集成建模是一種提高模型性能的強大方式。本文作為通俗入門教程,首先通過一個例子快速引入集成學習的基礎知識,介紹如何真正得到不同的學習模塊,并著重討論了幾種在行業內廣泛使用的集成技術,包括Bagging、Boosting、Stacking等。導論集成建模是一種提高模型性能的強大方式。在你可能構建的各種模型上使用集成學習通常卓有成效。一次又一次,人們在Kaggle這樣的比賽中使用集成模型,并且從中受益。集成學習是一個廣泛的話題,廣到超出你的想象力。對于本文,我將涵蓋集成建模的基本概念和思想。這應該足以讓你在自己的機器上開始建立集成模型。像往常一樣,我們試圖讓事情盡可能的簡單。讓我們通過一個例子來快速了解集成學習的基礎知識。這個例子將會帶出我們每天是如何在毫無察覺的情況下使用集成學習的。案例:我想投資一家公司XYZ。我還不知道它的業績。所以我想有人給我些意見,看看這家公司的股票價格是否會每年增加6%以上。我打算與具有不同領域經驗的專家交流。1、 XYZ公司職員:此人知道公司內部運作方式,并且知道該公司的內部消息。但是他并不了解競爭對手的創新情況,技術將如何發展,并且這種發展會對XYZ公司產品有何影響。在過去,他有70%的時候判斷是正確的。2、 XYZ公司的財務顧問:此人非常了解在激烈競爭環境下公司的戰略將會得到怎樣的效果。但是,他對公司內部政策會有何結果并不了解。在過去,他有75%的時候判斷是正確的。3、 股市操盤手:此人過去三年一直在關注該公司的股票。他知道周期性趨勢,以及整體股市的表現。他還形成了關于股票可能會如何隨時間推移而變化的強烈直覺。在過去,他有70%的時候判斷是正確的。4、 競爭對手的職員:此人知道該競爭公司的內部運作方式,并且意識到已經發生的變化。他對公司缺乏焦點認識,并且對于競爭對手相關的外部因素認識不佳。在過去,他有60%的時候判斷是正確的。5、 同一領域的市場研究團隊:這個團隊會分析XYZ公司產品與其他公司產品的用戶體驗差異,并且這一情況隨著時間如何改變。因為他們與客戶打交道,并且基于他們自己的目標,他們不知道XYZ公司將會發生什么樣的變化。在過去,他們有75%的時候判斷是正確的。6、 社交媒體專家:此人可以幫助我們了解XYZ公司對它們產品市場定位如何。并且了解隨著時間推移客戶對此公司看法如何。除了數字營銷領域,其它領域的細節他不太關注。在過去,他有65%的時候判斷是正確的。通過各方面的了解,我們可以結合所有的信息,并作出明智的決定。如果所有的6位專家/團隊都認為這是個很好的決定(假設所有預測都是相互獨立的),我們將得到組合準確率:1-30%*25%*30%*40%*25%*35%=1-0.07875=99.92125%假設:這里使用的所有預測是完全獨立的假設略微極端,因為它們預期相關。但是,我們可以看出將不同預測結合起來我們會對問題有多大把握?,F在來改變下場景。這一次,我們有6個專家,它們都是XYZ公司的員工,并且都在同一個部門工作。每個人都有差不多70%正確率。如果我們將這些建議結合起來,還會得到99%以上的準確率嗎?很明顯不會,因為這次的預測都是在相似的信息集上做出的。他們都會受到相似信息集的影響,并且他們建議中唯一的不同是每個人對公司有不同的看法。停下來思考:你從這個案例中得到什么結論?是不是很深奧?在評論欄中寫下你的看法。什么是集成學習?集成是結合不同的學習模塊(單個模型)來加強模型的穩定性和預測能力。在上面的例子中,我們將所有預測結合在一起的方式被稱為集成學習。在這篇文章中,我們將討論幾種在行業內廣泛使用的集成技術。在我們講述技術之前,讓我們先來了解如何真正得到不同的學習模塊。模型會因為各種原因而彼此不同,從訓練模型的樣本數據集到模型的構造方法都會導致差異。下面是導致模型不同的4個主要因素。這些因素的組合也可能會造成模型不同:1、不同種類2、不同假設

3、不同建模技術4、初始化參數不同

集成建模中的誤差(方差vs偏置)任何模型中出現的誤差都可以在數學上分解成三個分量。如下:Err(x)^E[f(x)]- +E[f(x)-E[f(x)]\+邛Err(x)=Bias3+Variance+IrreducibleError在目前的情況下這為什么很重要?為了了解集成模型背后發生的情況,我們首先要了解模型中是什么造成了誤差。我們會簡要介紹這些誤差,然后對每一個集成學習模塊進行分析。偏置誤差是用來度量預測值與實際值差異的平均值,高偏置誤差意味著我們的模型表現欠佳,不斷丟失重要的趨勢。方差則是度量基于同一觀測值,預測值之間的差異。高方差模型在你的訓練集上會過擬合,并且在訓練之外的任何觀察表現都不佳。下圖會讓你更明白(假設紅點是真實值,藍點是預測值):LowVariai'ice HighVariance圖自:ScottFortman通常情況下,當你增加模型的復雜性時,由于模型的低偏置,你會發現錯誤減少。但是,這只在某個特定點才發生。當你繼續增加模型復雜性時,模型最終會過擬合,因此模型開始出現高方差。一個優良的模型應該在這兩種誤差之間保持平衡。這被稱為偏置方差的折衷管理。集成學習就是執行折衷權衡的一種方法。 4 ModelComplexity圖自:ScottFortman一些常用的集成學習技術1、Bagging:Bagging試圖在小樣本集上實現相似的學習模塊,然后對預測值求平均值。對于Bagging一般來說,你可以在不同數據集上使用不同學習模塊。正如你所期望的那樣,這樣可以幫助我們減少方差。

Original

DTrainingdataStep1:

CreateMultiple

DataSets叫 D??…Step1:

CreateMultiple

DataSets叫 D??…Dm DtStep2:

BuildMultiple

ClassifiersStep3;

Combine

Classifiers2、Boosting2、Boosting:Boosting是一項迭代技術,它在上一次分類的基礎上調整觀測值的權重。如果觀測值被錯誤分類,它就會增加這個觀測值的權重,反之亦然。Boosting一般會減少偏置誤差然后構建強大的預測模型。但是,有些時候它們也會在訓練數據上過擬合。3、Stacking:用它來結合模型是種有趣的方式。下面我們用一個學習模塊與來自不同學習模塊的輸出結合起來。取決于我們使用的學習模塊。這樣做可以減少偏置誤差和方差。結束語集成技術正被用于每一個Kaggle問題之中。選擇合適的集成模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論