模塊5 特征選擇《Python數據挖掘實戰》教學課件_第1頁
模塊5 特征選擇《Python數據挖掘實戰》教學課件_第2頁
模塊5 特征選擇《Python數據挖掘實戰》教學課件_第3頁
模塊5 特征選擇《Python數據挖掘實戰》教學課件_第4頁
模塊5 特征選擇《Python數據挖掘實戰》教學課件_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《Python數據挖掘實戰》?精品課件合集《Python數據挖掘實戰》

第五章特征選擇二、

過濾法

一、特征選擇方法概述主要內容三、包裝法四、嵌入法一、特征選擇方法概述

一、特征選擇方法概述

一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數據挖掘任務,按照特征的發散程度或者特征與目標變量之間的相關性對各個特征進行評分,然后設定閾值選出評分較高的特征子集。

常見的特征選擇方法包括:一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數據挖掘任務,按照特征的發散程度或者特征與目標變量之間的相關性對各個特征進行評分,然后設定閾值選出評分較高的特征子集。包裝法(Wrapper):特征選擇和數據挖掘算法相關,直接使用數據挖掘模型在特征子集上評價結果衡量該子集的優劣,然后采用一定的啟發式方法在特征空間中搜索,直至選擇出最優的特征子集。

常見的特征選擇方法包括:一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數據挖掘任務,按照特征的發散程度或者特征與目標變量之間的相關性對各個特征進行評分,然后設定閾值選出評分較高的特征子集。包裝法(Wrapper):特征選擇和數據挖掘算法相關,直接使用數據挖掘模型在特征子集上評價結果衡量該子集的優劣,然后采用一定的啟發式方法在特征空間中搜索,直至選擇出最優的特征子集。嵌入法(Embedded):特征選擇和數據挖掘任務融為一體,兩者在同一個優化過程中完成,也即,在訓練數據挖掘模型的同時完成特征選擇,選擇出能夠使得該模型性能達到最佳的特征子集。常見的特征選擇方法包括:二、過濾法

過濾式特征選擇方法從數據集內在的性質出發,選擇特征的發散程度高或者它與目標變量之間的相關度大的特征或特征子集,選擇過程與數據挖掘算法無關,因此具有較好的通用性。

過濾方法一般分為單變量過濾和多變量過濾兩類。1.方差閾值法單變量過濾方法:二、過濾法方差低于某個閾值的特征無法解釋目標變量的變化規律,因此直接將它們刪除。這種方法要求特征必須為離散型變量,連續變量需要進行離散化處理后才能使用。這種方法要求特征必須為離散型變量,連續變量需要進行離散化處理后才能使用。1.方差閾值法二、過濾法feature_selection模塊的VarianceThreshold類給出了該方法的實現在具有4個特征的模擬數據上的例子:二、過濾法輸出的4個特征的方差分別為[0.139,5.472,1.806,8.472],因此在閾值為1.0的情況下,將第一個特征去除。當設置閾值為2.0時,我們可以只選擇第2個和第4個特征。2.卡方統計量二、過濾法

2.卡方統計量二、過濾法

feature_selection模塊提供了兩個類(SelectKBest和SelectPercentile)和一個函數(chi2)用于支持基于卡方統計量的特征選擇。其中,SelectKBest和SelectPercentile類提供了對單變量過濾特征選擇方法的基本框架。創建一個基于卡方統計量的單變量過濾特征選擇模型的過程如下:selector=SelectKBest(chi2,k=2)其中,參數k=2意味著只選擇出兩個特征變量。2.卡方統計量二、過濾法SelectKBest類的主要參數、屬性和函數2.卡方統計量輸出各特征的卡方統計量值為:[0.1,5.565,0.276,10.580]。顯然,第2個特征和第4個特征的卡方值較大,得以保留。3.互信息法二、過濾法

3.互信息法二、過濾法

在Scikit-learn庫的feature_selection模塊中,提供了mutual_info_classif和mutual_info_regression兩個函數,分別實現了分類任務和回歸任務中的互信息的計算。

結合SelectKBest類,很容易創建一個基于互信息的單變量過濾特征選擇模型,如下:selector=SelectKBest(mutual_info_classif,k=2)其中,參數k=2意味著只選擇出兩個特征變量。3.互信息法各特征和目標變量的互信息值為:[0,0.2,0,0.617]。顯然,第2個特征和第4個特征的互信息值較大,應當保留它們作為特征選擇結果。過濾法的優缺點分析:二、過濾法

過濾式方法是一類常用的特征選擇技術,其優缺點均非常明顯。1.優點

算法的通用性強,省去了模型訓練的步驟,算法復雜度低,因而適用于大規模數據集;可以快速去除大量不相關的特征,當原始數據的特征數量比較多時,作為特征的預篩選器非常合適。2.缺點

由于特征選擇過程獨立于數據挖掘算法,所選擇的特征子集對于數據挖掘任務而言通常不是最優的,性能經常低于其它兩類方法。三、包裝法

包裝法(Wrapper)直接采用數據挖掘算法在特征子集上達到的效果對該子集的進行評價。它將特征選擇視為搜索問題,目標是搜索出一個最佳的特征子集,使得數據挖掘算法在該子集上取得最優的性能。

包裝方法需要對每一個特征子集訓練一個數據挖掘模型,然后評價特征子集的優劣,因此計算量很大。

遞歸特征消除(RFE)方法

序列前向選擇(SFS)方法

序列后向選擇(SBS)方法三、包裝法1.遞歸特征消除(RecursiveFeatureElimination,RFE)

它是一種局部搜索最優特征子集的貪心搜索方法,從全部特征開始,建立數據挖掘模型,將模型識別的不重要特征剔除,然后利用剩余特征迭代地重新訓練模型,直到剩余指定數量的特征。

它要求所依賴的數據挖掘算法在訓練時能夠給出特征的重要性系數,作為每輪迭代剔除特征的依據。

例如,決策樹和隨機森林的feature_importances_屬性、線性回歸模型和線性支持向量機的coef_屬性三、包裝法

在scikit-learn庫的feature_selection模塊中,提供了RFE特征選擇方法的實現:基本語法:sklearn.feature_selection.RFE(estimator,

n_features_to_select=None)參數:estimator:監督式數據挖掘算法模型,能提供特征的重要性系數n_features_to_select:選擇的特征數量,默認為選擇一半的特征返回值:n_features_:選擇的特征數量ranking_:對特征的重要性排序,REF特征選擇的實例

RFE方法選取的特征為[69101112],在該特征子集上決策樹獲得的測試精度為97.78%。包裝法的優缺點分析:三、包裝法

1.優點

與過濾式特征選擇方法相比,包裝法的特征選擇過程與數據挖掘任務相關,它使用后者的評價標準來對特征子集評分,使得選擇結果是數據挖掘算法在其上表現最佳時的特征子集。并且,包裝式方法對數挖掘模型沒有過多要求,適用性比較廣。

2.缺點

包裝法是一種迭代式方法,對每一組特征子集都需要建立數據挖掘模型,在特征數量較多時,計算量非常大,效率遠比過濾方法低。另外,RFE、SFS、SBS等包裝法都采用啟發式搜索方法尋找最優子集,它是一種局部搜索方法,因此這些方法搜索的最優子集可能是局部最優的。四、嵌入法

嵌入法(Embeding)將特征選擇過程完全融入到數據挖掘模型的構建過程中,在創建模型時即完成了對特征子集的選擇。

與過濾法相比,它們由于是數據挖掘模型的角度選擇特征子集,往往具有更好的性能;

與包裝方法相比,它們省卻了迭代式的搜索過程,計算效率更高。嵌入法是目前應用最廣泛的特征選擇方法,彌補了前面兩種特征選擇方法的不足。基于正則化線性模型的方法基于樹的方法四、嵌入法

四、嵌入法1.基于正則化線性模型的方法

在feature_selection模塊中實現了SelectFromModel類,能夠在訓練數據挖掘模型(如,線性回歸模型、決策樹模型等)的同時,利用模型重要性系數(coef_或feature_importances_)實現嵌入式特征選擇。基本語法:sklearn.feature_selection.SelectFromModel(estimator,

threshold=None)參數:

estimator:數據挖掘模型

threshold:閾值,可取為‘mean’(默認),‘median’或數值,表示系數低于閾值的特征將被丟棄

四、嵌入法1.基于樹模型的方法

基于樹(tree)的數據挖掘模型,如決策樹、隨機森林、GBDT、XGboost在構建模型中的樹的過程中,總是貪婪地選擇當前最優的特征構造屬性測試條件,將數據集劃分到下一層的子結點上。這樣,在構造的樹(tree)結構或者森林(forest)中,特征被選擇用于構造屬性測試條件次數越多,表明它們區分數據的能力越強,因而越重要。

仍然可以借助sklearn.feature_selection模塊的SelectFromModel類,實現基于樹的嵌入式特征選擇方法。嵌入法的優缺點分析:四、嵌入法

1.優點

特征選擇與數據挖掘模型的構建完全融合在一起,特征選擇結果是數據挖掘取得最優性能時的子集。與包裝法相比,嵌入法不需要耗時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論