




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
主講人:***第10章回歸13-10月-23Python數(shù)據(jù)分析與數(shù)據(jù)挖掘目錄contents回歸概述0102線性回歸03邏輯回歸04其他回歸回歸概述0110.1回歸概述
統(tǒng)計學(xué)上,回歸是指研究兩組數(shù)據(jù)數(shù)值上的關(guān)系,并用來預(yù)測因變量的發(fā)展趨勢的一種統(tǒng)計分析方法?;貧w分析按照涉及變量的多少,分為簡單線性回歸和多元線性回歸;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。常用的回歸算法包括線性回歸、多項式回歸、SVM、嶺回歸、Lasso等。在大數(shù)據(jù)分析中,回歸主要有以下方面的應(yīng)用:用于預(yù)測以及發(fā)現(xiàn)變量之間的因果關(guān)系。例如,學(xué)生的成績與他在學(xué)習(xí)方面花費(fèi)的時間之間的關(guān)系??梢杂脕碇贫ㄓ媱澓蛯嵤┯媱澘刂?。例如計劃制定、KPI制定等方面;可以基于預(yù)測的數(shù)據(jù)與實際數(shù)據(jù)進(jìn)行比對和分析,確定事件發(fā)展程度并及時給未來行動提供方向性指導(dǎo)。
數(shù)據(jù)之間的關(guān)系確定性回歸分析非確定性回歸分析數(shù)據(jù)之間的關(guān)系可以用確切的函數(shù)表現(xiàn)出來的回歸分析例:圓的周長與圓的直徑的關(guān)系:l=πd雖然數(shù)據(jù)之間存在著某種關(guān)系,但是這種關(guān)系并不確定,受到一些因素的影響,這種關(guān)系圍繞著函數(shù)關(guān)系上下變動例:年齡與是否患有高血壓之間的關(guān)系10.1回歸概述10.1.1常用的回歸模型表10-1常用的回歸模型10.1.2回歸分析的步驟回歸分析的一般可分為如下步驟:1.確定變量
收集包含自變量和因變量的數(shù)據(jù)。確定要預(yù)測的因變量,如某公司下一年的銷售額。尋找與要預(yù)測因變量相關(guān)的影響因素,即自變量。2.
根據(jù)自變量和因變量的關(guān)系,構(gòu)建回歸模型
運(yùn)用數(shù)據(jù)探索來識別變量的關(guān)系和影響。根據(jù)數(shù)據(jù)特征和預(yù)測目的,選擇并構(gòu)建回歸模型。3.
進(jìn)行相關(guān)性檢驗,確定相關(guān)系數(shù)
檢查變量之間是否存在相關(guān)關(guān)系,如變量之間不存在相關(guān)關(guān)系,則運(yùn)用回歸模型分析可能得出錯誤的結(jié)果。進(jìn)行相關(guān)分析一般要求出相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)的大小判斷自變量和因變量的相關(guān)程度。10.1.2回歸分析的步驟4.
求解模型的回歸系數(shù)
計算求出模型的回歸系數(shù)。5.
計算預(yù)測誤差
對回歸模型進(jìn)行檢驗,并計算預(yù)測誤差。通過檢驗且滿足誤差要求的回歸模型才能用于預(yù)測。6.
利用回歸模型對因變量進(jìn)行預(yù)測
利用構(gòu)建的模型對因變量進(jìn)行預(yù)測或解釋,并計算預(yù)測值的置信區(qū)間。10.1.3回歸的相關(guān)系數(shù)
最早由統(tǒng)計學(xué)家卡爾·皮爾遜設(shè)計的統(tǒng)計指標(biāo),是描述變量之間線性相關(guān)程度的量,一般用字母R表示。根據(jù)研究對象的不同,相關(guān)系數(shù)也有多種定義方式,但較為常用的仍是皮爾遜相關(guān)系數(shù)。相關(guān)系數(shù)定義如下:相關(guān)系數(shù)
其中Cov(X,Y)是X和Y的協(xié)方差,Var是方差。取值范圍是[-1,1],若為正,則二者正相關(guān);為負(fù),則二者負(fù)相關(guān)。數(shù)值越接近0,相關(guān)度越小。
在實際操作中,我們可以根據(jù)相關(guān)系數(shù)的結(jié)果,對數(shù)據(jù)進(jìn)行降維處理,減少無關(guān)因素的干擾,提高模型運(yùn)行速度。10.1.4回歸模型的評價指標(biāo)
MAE表示實際值和預(yù)測值之間絕對誤差的平均值,定義公式如下:1. 平均絕對誤差MAE(MeanAbsoluteError)2. 均方誤差MSE(MeanSquaredError)
MSE表示實際值與預(yù)測值的差值平方的平均值,定義公式如下:10.1.4回歸模型的評價指標(biāo)
RMSE是均方誤差MSE的算術(shù)平方根,定義公式如下:3. 均方根誤差RMSE(RootMeanSquareError)10.1.4回歸模型的評價指標(biāo)
用于評估線性回歸擬合效果時,決定系數(shù)R2表示為模型的均方誤差,除以用實際值的平均值作為預(yù)測值時的均方誤差,定義公式如下:4. 決定系數(shù)R2(R-Square)
由定義可知,R2的取值范圍被歸約為[0,1]區(qū)間,決定系數(shù)越接近1,說明回歸模型參考價值越高,決定系數(shù)越接近0,參考價值越低。當(dāng)R2值為1時,模型沒有誤差,擬合效果最好。10.1.4回歸模型的評價指標(biāo)
隨著樣本數(shù)量的增加,R2的值會增大,可引入校正的決定系數(shù)AdjustedR2,抵消樣本數(shù)量對R2的影響,引入校正的決定系數(shù)AdjustedR2,定義公式如下:5. 校正的決定系數(shù)AdjustedR2(AdjustedR-Square)
其中,n為樣本數(shù)量,k為特征數(shù)量。校正的決定系數(shù)AdjustedR2同時考慮了樣本數(shù)量n和回歸中自變量個數(shù)k的影響,使得校正的決定系數(shù)永遠(yuǎn)小于決定系數(shù)R2,且校正的決定系數(shù)值不會由于回歸中自變量個數(shù)的增加而越來越接近1。線性回歸0210.2線性回歸1、一元線性回歸一個回歸變量x和一個響應(yīng)變量y,它們之間存在類似一元一次方程的線性關(guān)系:其中,a是斜率,b是截距,c是隨機(jī)誤差項。2、多元線性回歸響應(yīng)變量y和n個自變量都相關(guān),即存在兩個或兩個以上的自變量。
其中,參數(shù)ai(i=1,2...,n)成為回歸系數(shù)。這一模型描述了由n個回歸變量x組成的n維超平面,參數(shù)ai表示當(dāng)其他回歸變量x不變時xi變化一個單位,導(dǎo)致響應(yīng)變量y的變化期望值。我們可以將模型簡化為矩陣的形式:其中,X=[x1,x2,...,xn],A=[a1,a2,...,an]T
在大多數(shù)的實際問題中,我們并不知道回歸系數(shù)的值,需通過已知的樣本數(shù)據(jù)進(jìn)行計算,生成線性回歸模型。在線性回歸模型中,其目標(biāo)是求解回歸方程,即求出回歸方程中的回歸系數(shù)wi。常用梯度下降法和最小二乘法求解損失函數(shù)最小化時的回歸系數(shù)。線性回歸(linearregression),就是用線性函數(shù)來擬合數(shù)據(jù),并使損失J最小。損失函數(shù)定義為:10.2.1線性回歸原理
LinearRegression函數(shù)的語法如下:
sklearn.linear_model.LinearRegression(*,fit_intercept=True,normalize=False,copy_X=True,n_jobs=None,positive=False)
sklearn.linear_model模塊中LinearRegression函數(shù)用于實現(xiàn)最小二乘回歸。LinearRegression線性回歸函數(shù)擬合一個帶有回歸系數(shù)的線性模型,使得數(shù)據(jù)集中觀測目標(biāo)和線性近似預(yù)測目標(biāo)之間的殘差平方和最小。表10-2LinearRegression函數(shù)的主要參數(shù)10.2.2LinearRegression函數(shù)
LinearRegression函數(shù)的主要方法如表10-4所示。
LinearRegression函數(shù)的主要屬性如表10-3所示:表10-3LinearRegression函數(shù)的主要屬性表10-4LinearRegression的主要方法10.2.2LinearRegression函數(shù)
其中,b是回歸系數(shù)(regressioncoefficient),a是截距(intercept),?是隨機(jī)誤差項。
一元線性回歸模型中有兩個變量,一個自變量x和一個因變量y,它們之間存在類似一元一次方程的線性關(guān)系:10.2.3
一元線性回歸10.2.3
一元線性回歸
下面介紹使用最小二乘法求解回歸系數(shù)和截距的原理。
對每一個點
,設(shè)
為實際測量值,
為預(yù)測值,最小二乘法是通過最小化殘差平方和(ResidualSumofSquares,RSS),找到最佳回歸系數(shù)
使所有點的實際值與預(yù)測值偏差的平方和最小,
為殘差。殘差平方和的公式定義如下:
分別對
求一階偏導(dǎo)并令其一階偏導(dǎo)為0,即:10.2.3
一元線性回歸求解方程組,可求出
的值為:其中
,,將求得的結(jié)果帶入回歸方程,即可得到最佳擬合曲線。[例10-1]簡單線性回歸模型實例。
已知已有的披薩的直徑及其價格,如下表10-5,將這些數(shù)據(jù)輸入到模型中,并且訓(xùn)練得到簡單回歸方程,然后實現(xiàn)可視化。10.2.3
一元線性回歸表10-5披薩直徑及價格[例10-1]簡單線性回歸模型實例。10.2.3
一元線性回歸圖10-1簡單線性回歸實例10.2.4
多元線性回歸
一般情況,因變量y和n個自變量都相關(guān),如果存在兩個或兩個以上的自變量,就稱為多元線性回歸,多元線性回歸模型表示多個解釋變量(自變量)與一個被解釋變量(因變量)之間的線性關(guān)系,如下式所示:
其中,參數(shù)bi(i=1,2...,n)成為回歸系數(shù)。這一模型描述了由n個回歸變量x組成的n維超平面,參數(shù)bi表示當(dāng)其他回歸變量x不變時xi變化一個單位,導(dǎo)致響應(yīng)變量y的變化期望值。我們可以將模型簡化為矩陣的形式:其中,[例10-2]多元回歸實例。10.2.4
多元線性回歸
例10-2往披薩模型中增加一個自變量配料種類,并用披薩直徑和配料種類2個因素,構(gòu)建模型,預(yù)測披薩價格,訓(xùn)練數(shù)據(jù)如表10-6所示。表10-6修改的披薩模型[例10-2]多元回歸實例。10.2.4多元線性回歸圖10-2多元線性回歸結(jié)果圖邏輯回歸0310.3邏輯回歸
邏輯回歸(LogisticRegression)雖然被稱為回歸模型,但它其實處理的是分類問題,是常用的經(jīng)典分類方法之一。邏輯回歸模型常用于預(yù)測一個或多個特征因素的二元響應(yīng)概率,類似于概率論中的伯努利分布,用于估計某種事物的可能性。
邏輯回歸模型本質(zhì)上是線性回歸,是在線性模型基礎(chǔ)上,通過邏輯映射函數(shù)轉(zhuǎn)換,將線性回歸的預(yù)測值轉(zhuǎn)換為概率值,再根據(jù)概率值實現(xiàn)分類。簡單來說,它就是通過擬合一個邏輯函數(shù)(logitfuction)來預(yù)測一個事件發(fā)生的概率。
邏輯回歸主要用于二分類問題,在多分類問題的推廣叫softmax。邏輯回歸適用于數(shù)值型和標(biāo)稱型數(shù)據(jù),優(yōu)點是計算代碼不多,易于理解和實現(xiàn),且計算代價不高,速度快,存儲資源低。缺點是容易欠擬合,分類精度可能不高。
邏輯回歸可應(yīng)用于郵件分類、是否患某種疾病的診斷、用戶購買商品可能性的判斷等。10.3.1邏輯回歸原理Sigmoid函數(shù)
在邏輯回歸中,響應(yīng)變量描述了預(yù)測結(jié)果是正的概率,如果響應(yīng)變量大于或等于一個設(shè)定的區(qū)分閾值,會被預(yù)測為正向類,否則就會被預(yù)測為負(fù)向類。而這個響應(yīng)變量所對應(yīng)的邏輯函數(shù)就是Sigmoid函數(shù),Sigmoid函數(shù)的公式如下所示。
Sigmoid函數(shù)的自變量取值可為任意實數(shù),函數(shù)值域在[0,1]之間,函數(shù)曲線如下圖10-3所示。圖10-3Sigmoid函數(shù)10.3.1邏輯回歸原理Sigmoid函數(shù)
邏輯回歸可被看成是一種概率估計。為了實現(xiàn)Logistic回歸分類,可以在每個輸入特征上乘以一個回歸系數(shù),把所有結(jié)果值相加,并將相加結(jié)果輸入Sigmoid函數(shù),得到一個范圍在0~1之間的數(shù)值。任何大于設(shè)定的區(qū)分閾值(如0.5)的數(shù)據(jù)被分入正向類,小于閾值的被歸入負(fù)向類,這樣就完成了由值到概率的轉(zhuǎn)換,即分類任務(wù)。 Sigmoid函數(shù)的輸入記為z,可以由下面公式得到: 若采用向量的寫法,上述公式可以寫成,它表示將這兩個數(shù)值向量對應(yīng)元素相乘,然后全部加起來即得到z值。10.3.1邏輯回歸原理Sigmoid函數(shù)
結(jié)合
和
可得: 其中,向量x是分類器的輸入數(shù)據(jù),向量θ^T是要求的最佳參數(shù)(系數(shù)),可使分類器盡可能的準(zhǔn)確。確定了分類器的函數(shù)形式之后,求解問題變成了如何求解最佳回歸系數(shù),可以使用梯度上升等最優(yōu)化方法求解最佳回歸系數(shù)。
LogisticRegression函數(shù)的語法如下:
sklearn.linear_model.LogisticRegression(penalty='l2',*,dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='lbfgs',max_iter=100,multi_class='auto',verbose=0,warm_start=False,n_jobs=None,l1_ratio=None)
該函數(shù)主要參數(shù)的含義如表10-7(下頁)所示。
sklearn.linear_model模塊中LogisticRegression函數(shù)用于實現(xiàn)邏輯回歸。LogisticRegression回歸函數(shù)擬合一個帶有回歸系數(shù)的線性模型,使得數(shù)據(jù)集中觀測目標(biāo)和線性近似預(yù)測目標(biāo)之間的殘差平方和最小。10.3.2LogisticRegression函數(shù)10.3.2LinearRegression函數(shù)表10-7LogisticRegression函數(shù)的主要參數(shù)10.3.2LinearRegression函數(shù)
LogisticRegression函數(shù)的主要屬性如表10-8所示:表10-8LogisticRegression函數(shù)的主要屬性
LogisticRegression函數(shù)的主要方法如表10-9所示。表10-9LogisticRegression函數(shù)的主要屬性10.3.3邏輯回歸的應(yīng)用[例10-3]使用邏輯回歸模型預(yù)測冠心?。–HD)的患病風(fēng)險。
首先讀入數(shù)據(jù),查看數(shù)據(jù)信息,并對數(shù)據(jù)進(jìn)行預(yù)處理,刪除有缺失值的數(shù)據(jù)。10.3.3邏輯回歸的應(yīng)用[例10-3]使用邏輯回歸模型預(yù)測冠心?。–HD)的患病風(fēng)險。
進(jìn)行數(shù)據(jù)相關(guān)性分析并做出熱力圖(圖略)。相關(guān)性分析顯示,“education”與“TenYearCHD”相關(guān)度很低,“sysBP”和“diaBP”高度相關(guān),“currentSmoker”和“cigsPerDay”高度相關(guān),故刪除“education”、“currentSmoker”和“diaBP”三個特征。10.3.3邏輯回歸的應(yīng)用[例10-3]使用邏輯回歸模型預(yù)測冠心?。–HD)的患病風(fēng)險。
有患病風(fēng)險和無風(fēng)險人數(shù)的計數(shù)統(tǒng)計,結(jié)果顯示有3179名患者沒有心臟病,572名患者有心臟病風(fēng)險。
將數(shù)據(jù)劃分為訓(xùn)練集和測試集,對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行歸一化處理。10.3.3邏輯回歸的應(yīng)用[例10-3]使用邏輯回歸模型預(yù)測冠心病(CHD)的患病風(fēng)險。
構(gòu)建并訓(xùn)練LogisticRegression模型,并對測試數(shù)據(jù)進(jìn)行預(yù)測。
輸出詳細(xì)的分類性能評價結(jié)果和混淆矩陣。10.3.3邏輯回歸的應(yīng)用[例10-3]使用邏輯回歸模型預(yù)測冠心?。–HD)的患病風(fēng)險。
輸出結(jié)果為:
輸出的混淆矩陣結(jié)果如圖10-4所示:圖10-4邏輯回歸混淆矩陣結(jié)果圖其他回歸0410.4.1多項式回歸
研究一個因變量與一個或多個自變量間多項式的回歸分析方法,稱為多項式回歸(PolynomialRegression),自變量x和因變量y之間的關(guān)系被建模為x的n次多項式。如果自變量只有一個,稱為一元多項式回歸,如下式表示一元m次多項式回歸:
如果自變量有多個,稱為多元多項式回歸,如下式表示二元二次多項式回歸方程:多項式回歸原理10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。首先導(dǎo)入庫,并生成100個(-3,4)之間的浮點數(shù),且設(shè)y=5x2+3x+2。10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。輸出初始數(shù)據(jù)情況如圖10-5所示,x與y之間為非線性關(guān)系。圖10-5初始非線性數(shù)據(jù)10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。
首先嘗試用線性模型擬合數(shù)據(jù),構(gòu)建及訓(xùn)練模型,用模型預(yù)測因變量,并繪制初始數(shù)據(jù)情況(藍(lán)色)及線性模型預(yù)測結(jié)果(綠色)。然后使用均方誤差MSE和R2評估線性模型的性能。10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。
線性模型的輸出結(jié)果如下。10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。
由MSE及R2結(jié)果可知,線性模型的性能不佳,可嘗試用多項式回歸擬合。10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。
根據(jù)輸出的coef_和intercept_結(jié)果,得到2次多項式模型為:y=5x2+3x+2。接下來,對2次多項式回歸曲線進(jìn)行作圖,結(jié)果如圖10-6所示。10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。
根據(jù)輸出的coef_和intercept_結(jié)果,得到2次多項式模型為:y=5x2+3x+2。接下來,對2次多項式回歸曲線進(jìn)行作圖,結(jié)果如圖10-6所示。圖10-6線性擬合和2次多項式擬合10.4.1多項式回歸多項式回歸應(yīng)用[例10-4]使用2次多項式回歸擬合非線性數(shù)據(jù)。
根據(jù)均方誤差MSE和R2進(jìn)行多項式模型的性能評估。輸出結(jié)果如下,2次多項式很好的擬合了本例中的非線性數(shù)據(jù)。
嶺回歸又稱提克洛夫規(guī)范化(Tikhonovregularization),是一種專門用于共線性數(shù)據(jù)分析、挖掘的有偏估計回歸方法,其實質(zhì)上是一種改良的最小二乘法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的回歸方法,對病態(tài)、偏態(tài)數(shù)據(jù)的擬合度要強(qiáng)于最小二乘法。但是,由于嶺回歸并沒有將每個系數(shù)收縮到0,而只是將其變小,因此,某些時候得出的模型的解釋性會變低。10.4.2嶺回歸
線性回歸的L2正則化稱為嶺回歸,它和一般線性回歸的區(qū)別是在損失函數(shù)上增加了一個L2正則化的項,和Lasso回歸的區(qū)別是嶺回歸的正則化項是L2范數(shù),而Lasso回歸的正則化項是L1范數(shù)。嶺回歸要最小化的損失函數(shù)定義如下:嶺回歸的定義10.4.2嶺回歸
嶺回歸的求解比較簡單,一般用最小二乘法。嶺回歸在不拋棄任何一個特征的情況下,縮小了回歸系數(shù),使模型相對比較穩(wěn)定,但會使模型保留較多特征,模型可解釋性差。
若數(shù)據(jù)各變量之間存在多重共線性或使用線性回歸存在過擬合情況,可以考慮使用嶺回歸。
Python中的sklearn.linear_model模塊中提供了嶺回歸模型Ridge,模型中的alpha參數(shù)設(shè)置了正規(guī)化的強(qiáng)度,alpha必須為正的浮點數(shù),默認(rèn)值為1.0。正則化改進(jìn)了問題的條件化,減少了估計的方差。alpha值越大,正則化越強(qiáng)。嶺回歸的應(yīng)用10.4.2嶺回歸嶺回歸的應(yīng)用10.4.2嶺回歸[例10-5]嶺回歸預(yù)測聯(lián)合循環(huán)發(fā)電廠的發(fā)電量。
本例中,我們首先讀入數(shù)據(jù),保存到DataFrame結(jié)構(gòu)的變量data中,數(shù)據(jù)共有9568行、5列。將前4列設(shè)置為特征列X,最后1列設(shè)置為目標(biāo)列。嶺回歸的應(yīng)用10.4.2嶺回歸[例10-5]嶺回歸預(yù)測聯(lián)合循環(huán)發(fā)電廠的發(fā)電量。
接下來使用熱力圖分析變量之間的相關(guān)性,發(fā)現(xiàn)4個特征與目標(biāo)列電能輸出(PE)相關(guān)性都較高,因此都作為嶺回歸模型的輸入特征,熱力圖結(jié)果略。嶺回歸的應(yīng)用10.4.2嶺回歸[例10-5]嶺回歸預(yù)測聯(lián)合循環(huán)發(fā)電廠的發(fā)電量。
將數(shù)據(jù)中的3/4劃分為訓(xùn)練集,另1/4劃分為測試集,并構(gòu)建嶺回歸模型進(jìn)行預(yù)測。輸出平均絕對誤差MAE、均方誤差MSE和測試集上擬合的決定系數(shù)R2,結(jié)果如下。嶺回歸的應(yīng)用10.4.2嶺回歸[例10-5]嶺回歸預(yù)測聯(lián)合循環(huán)發(fā)電廠的發(fā)電量。
最后,繪圖顯示預(yù)測值和真實值的關(guān)系,其中橫軸表示真實值,縱軸表示預(yù)測值。越接近線性關(guān)系直線y=x,代表預(yù)測值與真實值越接近,損失越低。繪圖結(jié)果如圖10-7所示。圖10-7嶺回歸模型預(yù)測值和真實值之間的關(guān)系10.4.3Lasso回歸
Lasso回歸(LassoRegression)的全稱為Leastabsoluteshrinkageandselectionoperator,又譯為最小絕對值收斂和選擇算子或套索算法。Lasso回歸與一般線性回歸的區(qū)別在于,它在損失函數(shù)中增加了L1正則化懲罰項,要最小化的損失函數(shù)為:
Lasso回歸與嶺回歸的區(qū)別在于,Lasso傾向于將不重要的回歸系數(shù)設(shè)置為零,可以達(dá)到剔除變量的目的,而嶺回歸從不將系數(shù)的值設(shè)置為絕對零。Lasso回歸原理10.4.3Lasso回歸
若數(shù)據(jù)的輸入特征維度很高,且為稀疏線性關(guān)系,可以嘗試使用Lasso回歸進(jìn)行擬合。
Python中的sklearn.linear_model模塊中提供了Lasso回歸模型Lasso,模型中的alpha參數(shù)表示乘以L1項的常數(shù),默認(rèn)值為1.0。不建議對Lasso模型使用alpha=0,alpha=0相當(dāng)于由線性回歸對象求解的普通最小二乘法。Lasso回歸應(yīng)用10.4.3Lasso回歸Lasso回歸應(yīng)用[例10-6]使用sklearn自帶的糖尿病數(shù)據(jù)集,進(jìn)行Lasso回歸分析。10.4.3Lasso回歸Lasso回歸應(yīng)用[例10-6]使用sklearn自帶的糖尿病數(shù)據(jù)集,進(jìn)行Lasso回歸分析。10.4.3Lasso回歸Lasso回歸應(yīng)用[例10-6]使用sklearn自帶的糖尿病數(shù)據(jù)集,進(jìn)行Lasso回歸分析。圖10-8不同alpha值對Lasso模型預(yù)測性能影響
除了用循環(huán)的方法尋找最優(yōu)的參數(shù)值外,我們還可以使用sklearn.model_selection中的網(wǎng)格搜索GridSearchCV方法,在指定的范圍內(nèi)進(jìn)行自動調(diào)參。使用GridSearchCV方法時,只需指定要調(diào)整的參數(shù)和參數(shù)的范圍,即可得到在該范圍內(nèi)的最優(yōu)參數(shù)或參數(shù)組合。相對于人工調(diào)參,自動參數(shù)調(diào)整更加省時省力,且不易出錯。
如下代碼中,我們使用網(wǎng)格搜索為Lasso回歸尋找最佳a(bǔ)lpha參數(shù),搜索范圍為[0.01,10]。10.4.3Lasso回歸Lasso回歸應(yīng)用本章實踐例題本章實踐例題[例10-7]用邏輯回歸模型進(jìn)行輸血服務(wù)中心數(shù)據(jù)集中個人是否獻(xiàn)血的預(yù)測,并用ROC和P-R曲線對模型進(jìn)行評價。
本例中,首先導(dǎo)入需要的庫,然后從OpenML(/d/1464)加載輸血服務(wù)中心數(shù)據(jù)集。這是一個二元分類問題,目標(biāo)列為個人是否獻(xiàn)血。將數(shù)據(jù)分為訓(xùn)練集和測試集,然后對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并用訓(xùn)練數(shù)據(jù)集訓(xùn)練邏輯回歸模型。本章實踐例題[例10-7]用邏輯回歸模型進(jìn)行輸血服務(wù)中心數(shù)據(jù)集中個人是否獻(xiàn)血的預(yù)測,并用ROC和P-R曲線對模型進(jìn)行評價。
利用訓(xùn)練好的模型,對測試集進(jìn)行預(yù)測,然后對預(yù)測結(jié)果計算并繪制混淆矩陣,結(jié)果如圖10-9所示。圖10-9預(yù)測結(jié)果混淆矩陣本章實踐例題[例10-7]用邏輯回歸模型進(jìn)行輸血服務(wù)中心數(shù)據(jù)集中個人是否獻(xiàn)血的預(yù)測,并用ROC和P-R曲線對模型進(jìn)行評價。
接下來,繪制ROC曲線對模型進(jìn)行評估,結(jié)果如圖10-10所示。ROC曲線要求估計器提供概率或非閾值決策值。由于邏輯回歸提供了一個決策函數(shù),可以使用該函數(shù)繪制ROC曲線。圖10-10ROC曲線結(jié)果本章實踐例題[例10-7]用邏輯回歸模型進(jìn)行輸血服務(wù)中心數(shù)據(jù)集中個人是否獻(xiàn)血的預(yù)測,并用ROC和P-R曲線對模型進(jìn)行評價。
下面,使用預(yù)測部分的y_score繪制P-R曲線,代碼如下,結(jié)果如圖10-11所示。圖10-11P-R曲線結(jié)果本章實踐例題[例10-7]用邏輯回歸模型進(jìn)行輸血服務(wù)中心數(shù)據(jù)集中個人是否獻(xiàn)血的預(yù)測,并用ROC和P-R曲線對模型進(jìn)行評價。
顯示對象可以存儲作為參數(shù)傳遞的計算值,這使得采用matplotlib的API可以輕松進(jìn)行可視化的組合。因此還可以將ROC-曲線和P-R曲線彼此相鄰地顯示在一起,將兩個曲線合并到單個圖中,如圖10-12所示。圖10-12ROC-曲線和P-R曲線結(jié)果圖本章實踐例題[例10-8]用線性回歸和嶺回歸構(gòu)建模型,預(yù)測波士頓房價數(shù)據(jù)集中,犯罪率、房產(chǎn)稅等各項指標(biāo)與房價的關(guān)系,并輸出模型的評價指標(biāo)。
首先,構(gòu)建線性回歸模型,預(yù)測波士頓房價,輸出模型的評價指標(biāo)。本章實踐例題[例10-8]用線性回歸和嶺回歸構(gòu)建模型,預(yù)測波士頓房價數(shù)據(jù)集中,犯罪率、房產(chǎn)稅等各項指標(biāo)與房價的關(guān)系,并輸出模型的評價指標(biāo)。
首先,構(gòu)建線性回歸模型,預(yù)測波士頓房價,輸出模型的評價指標(biāo)。本章實踐例題[例10-8]用線性回歸和嶺回歸構(gòu)建模型,預(yù)測波士頓房價數(shù)據(jù)集中,犯罪率、房產(chǎn)稅等各項指標(biāo)與房價的關(guān)系,并輸出模型的評價指標(biāo)。
線性回歸模型的輸出結(jié)果如下:本章實踐例題[例10-8]用線性回歸和嶺回歸構(gòu)建模型,預(yù)測波士頓房價數(shù)據(jù)集中,犯罪率、房產(chǎn)稅等各項指標(biāo)與房價的關(guān)系,并輸出模型的評價指標(biāo)。
然后,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,再次進(jìn)行線性回歸預(yù)測,檢查評價指標(biāo)是否有改進(jìn)。本章實踐例題[例10-8]用線性回歸和嶺回歸構(gòu)建模型,預(yù)測波士頓房價數(shù)據(jù)集中,犯罪率、房產(chǎn)稅等各項指標(biāo)與房價的關(guān)系,并輸出模型的評價指標(biāo)。
對數(shù)據(jù)標(biāo)準(zhǔn)化后,線
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面對風(fēng)險:成功企業(yè)家的關(guān)鍵風(fēng)險控制策略
- 高中語文老師2025年個人方案
- 汽車使用與維護(hù) 課件 項目一 汽車發(fā)動機(jī)艙蓋與后備箱蓋的使用與維護(hù)
- 2025年玻璃單臂異形磨邊機(jī)項目可行性研究報告
- 2025年環(huán)保型彩色鍍鋁禮品包裝紙項目可行性研究報告
- 2025年特效凈水項目可行性研究報告
- 2025年燃?xì)饪矩i爐項目可行性研究報告
- 山東省臨沂一中2025屆高三2月份生物試題模擬試題含解析
- 吉林省白城地區(qū)大安縣2025年初三期末熱身聯(lián)考物理試題含解析
- 天津醫(yī)科大學(xué)臨床醫(yī)學(xué)院《學(xué)術(shù)英語與科技交流》2023-2024學(xué)年第二學(xué)期期末試卷
- 班組長執(zhí)行力提升培訓(xùn)課件
- 電影音樂欣賞智慧樹知到期末考試答案章節(jié)答案2024年華南農(nóng)業(yè)大學(xué)
- 《中國飲食文化》課件-中國飲食文化溯源
- 2024年貴州省中考數(shù)學(xué)真題試卷及答案解析
- 統(tǒng)編版語文六年級下冊第四單元闖關(guān)測試卷(含答案)
- 煤炭開采單位產(chǎn)品能源消耗限額-編輯說明
- 書香校園-世界讀書日主題教育班會
- 雪鐵龍DS6說明書
- TIAC CCSA 32-2019《保險行業(yè)云計算場景和總體框架》
- 智慧農(nóng)業(yè)中的農(nóng)業(yè)無人機(jī)技術(shù)與應(yīng)用
- 玻璃瓶絲印制度
評論
0/150
提交評論