線性回歸模型_第1頁
線性回歸模型_第2頁
線性回歸模型_第3頁
線性回歸模型_第4頁
線性回歸模型_第5頁
已閱讀5頁,還剩114頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、戴之瑤, 魏凌云, 王楊, 周仕君中國人民大學統計學院2015級碩士生教材:孟生旺,回歸模型,中國人民大學出版社,2015( 2 )主要內容主要內容l1.1 模型結構和假設l1.2 解釋變量l1.3 參數估計l1.4 異方差與加權最小二乘估計l1.5 假設檢驗l1.6 模型診斷和改進l1.7 模型的評價與比較l1.8 應用示例 1 1.1.1 模型結構和假設模型結構和假設( 3 )( 4 )1.1模型結構和假設模型結構和假設 假設我們感興趣的變量是 , 希望建立它與其他 個解釋變量 之間的函數關系 。最一般的函數形式可以表示為:式中 是隨機誤差。 在線性回歸模型中, 設 是一個線性函數, 可得

2、線性回歸模型為: 如果對因變量和解釋變量有n次觀測, 第i次觀測值記為 和 則相應的線性回歸模型可以表示為:yk12,kx xx12( ,)kyf x xx12( ,)kf x xx01 1kkyxxiy12,iikixxx01 1Tiikkiiiiyxxx為方便起見, 線性回歸模型可以表示為矩陣形式:式中, ( 5 )yX11110121221211(1)(1) 1111,1kknnknknnnkknyxxyxxyxx yX( 6 )基本假設基本假設(1)誤差項的均值為零, 且與解釋變量相互獨立, 即(2)誤差項獨立同分布, 即每個誤差項之間相互獨立且每個誤差項的方差都相等:(3)解釋變量之

3、間線性無關(4)正態假設, 即假設誤差項服從正態分布:在上述假設下, 可得: ,TEE0X022,0,( ),1,2,ijiiCovij Varin 2(0,)iN01 122()()()()( ),0(,)TTiiiiikkiTiiiiijijTiiE yExxVar yVarVarCov y yCovyN xxxx1 1.2.2 解釋變量解釋變量( 7 )( 8 )1.2解釋變量解釋變量1.2.1分類解釋分類解釋變量變量 如果解釋變量是分類變量, 在建模過程中需要把分類解釋變量轉化為虛擬變量。 為避免解釋變量之間出現完全共線性, 虛擬變量個數等于分類變量的水平數減去1。( 9 )Examp

4、le: 車型是一個分類解釋變量, 有A, B, C, D四個水平, 可以轉化為x1, x2, x3三個虛擬變量, 定義如下表所示:車型車型x1x2x3A100B010C001D000( 10 ) 假設車型是模型中唯一的解釋變量, 則線性回歸模型的擬合值表示為: 根據模型, 可以求得不同車型條件下對因變量的擬合值為: 在模型中, 車型D是基準水平, 也稱參照水平。為了預測結果的穩定性, 通常選擇觀測值較多的水平為基準水平。在R中的實現:type = factor(c(A, B, C, 0D)model.matrix(type)01 12233xxx0102030車型 = A車型 = B車型 =

5、C車型 = D( 11 )1.2.2交互效應交互效應 交互效應交互效應是指一個解釋變量對因變量的影響與另一個解釋變量有關。 譬如, 不同性別的駕駛人, 其年齡對索賠頻率的影響是不同的, 即年齡和性別之間存在交互效應。( 12 )1.2.3變量的標準化變量的標準化 為了消除量綱的影響, 可以考慮對變量進行標準化標準化處理, 即: 式中, ,jjjyjxxyyyxss221111()()11,11nnijijnniijijiyjiiyyxxyy xxssnnnn( 13 )Example: 表示汽車保險的索賠頻率; 表示駕駛人的年齡, 是一個連續變量; 表示性別, 是一個虛擬變量, 值為0 表示男

6、性, 1表示女性; 表示年齡和性別的交互效應 ; 則線性回歸模型的擬合值可以表示為: 在模型中, 年齡每增加一單位, 對索賠頻率擬合值的影響是一個跟性別有關的值, 即:y1x2x12x x01 1223 12xxx x1321yxx( 14 ) 基于標準化以后的數據建立的回歸模型為: 回歸系數間有下述關系: 標準化回歸系數的絕對值大小度量了解釋變量的相對重要性, 值越大, 表明該解釋變量對因變量的影響越大。 在R中, 用scale(data)實現標準化11iikkiyxx01,1,2, ,kyiiiiiisikyxs( 15 )1.2.4變量變換變量變換 解釋變量與因變量之間如果是非線性關系,

7、 可以考慮對解釋變量進行變換或建立多項式回歸模型。 多項式回歸多項式回歸是把一個解釋變量的冪變換作為新的解釋變量引入回歸模型。 為簡化表述, 不妨假設只有一個原始解釋變量, 則m次多項式回歸模型的基本形式如下: 所以多項式回歸也屬于線性回歸模型。2012mkyxxx( 16 ) 在普通多項式回歸中, 多項式的階數不同 , 參數估計結果也不同。 為了克服這種缺陷, 可以使用正交多項式回歸正交多項式回歸模型 , 即把原來的解釋變量 轉化為新的正交解釋變量。 譬如 , 三階正交多項式回歸模型為表示為:01 133yzz( 17 )在R中的實現:set.seed(10)x = 1:20y = 2 +

8、x + x2 + runif(20)*50mod1 = lm(yx)mod2 = lm(ypoly(x, 2)mod3 = lm(ypoly(x, 19)plot(y x, yaxs = i, pch = 19, ylim = c(0, 500), xlim = c(0, 21), xaxs = i, las = 1)abline(mod1)points(x, fitted(mod2), col = 2, type = l, lty = 4, pch = )points(x, fitted(mod3), col = 4, type = l, lty = 5, pch = )legend(1,

9、450, c(一元線性回歸, 二次多項式回歸, 19次多項式回歸), lty = c(1, 2, 3), col = c(1, 2, 4) ( 18 ) 如果解釋變量取值較大, 多項式模型中高次項可能會導致計算溢出, 從而使得對其參數的估計值出現下溢。解決這一問題的常用方法是對解釋變量進行下述變換: 如果模型中包含多個自變量(譬如兩個), 則模型可表示為: 在多項式回歸模型中, 如果已經包含高次項, 則所有的低次項通常也要保留在模型中。( 19 )*maxminmaxmin2xxxxxx2201 12211 12221212yxxxxx x1 1.3.3 參數估計參數估計( 20 )( 21

10、)1.3參數估計參數估計1.3.1最小二乘估計最小二乘估計 回歸參數的最小二乘估計可以通過最小化殘差平方和求得: 對S關于 求偏導, 并令其等于零, 即得 得到回歸參數最小二乘估計最小二乘估計:21()() ()nTTiiiSyxyXyX220TTS X yX X1TT X XX y( 22 )1.3.2極大似然估計極大似然估計 假設誤差項服從正態分布, 則因變量 的密度函數為: 線性回歸模型的對數似然函數可以表示為: 對數似然函數的最大化等價于殘差平方和的最小化, 即在正態分布假設下, 回歸參數的極大似然估計等價于最小二乘估計。2222()1(; ;)exp22Tiiiyf y x22211

11、()ln(2)22nTiiinly x( 23 ) 對上式關于 求導, 并用回歸參數的極大似然估計值 代入上式 , 并令上式等于零, 則可以求得方差參數 的極大似然估計值為: 這個方差估計是有偏的, 在實際中很少用。22221111()nnTiiiiiynnx( 24 )1.3.3方差參數的無偏估計方差參數的無偏估計 在線性回歸模型中, 對因變量的預測值可以表示為: 線性回歸模型的殘差可以表示為: 殘差平方和表示為: 在正態性假設下, 有: 方差的無偏估計方差的無偏估計:1(),TTyXHX X XXyHy()yyIH y () ()()TTTTSSE yIHIH yyIH y22(1)SSE

12、nk22111niink( 25 )1.3.4最小二乘參數估計值的性質最小二乘參數估計值的性質(1)無偏性無偏性 在 的所有線性無偏估計中, 最小二乘估計的方差最小。(2)協方差矩陣協方差矩陣 式中, 是 對角線上元素, 是解釋變量 與其他解釋變量之間的復相關系數。( )E2122221( )()()(1)()TjjjnjjijiVarVarcRxxX X21. .()1njjjjjiicsecnkjjc2jR1()TX Xjx( 26 )(3)正態分布假設下的性質正態分布假設下的性質 如果進一步假設誤差項服從正態分布, 則有: 此外, 在誤差項服從正態分布的假設下 最小二乘估計值與其真實值之

13、間的加權距離服從自由度為k + 1 的卡方分布。21( ,() )TN X X2(,)N yXI1 1.4.4 異方差與加權最小二乘估計異方差與加權最小二乘估計( 27 )( 28 )1 1.4.4 異方差與加權最小二乘估計異方差與加權最小二乘估計異方差的產生原因:1. 誤差學習模型(error-learning models)2. 數據采集技術的改進, 使得 減小3. 產生于異常觀測(outliers)4. 對CLRM假定的破壞, 即回歸模型的設定有誤5. 模型中一個或多個回歸元的分布偏態(skewness)6. 其他, 例如:不正確的數據變形(比率、一階差分變化等), 不正確的函數形式(線

14、性與對數線性的變換)異方差性問題在截面數據中比在時序數據中更為常見 i2( 29 )1 1.4.4 異方差與加權最小二乘估計異方差與加權最小二乘估計在線性回歸模型中, 如果誤差項的方差互不相同, 即可以表示為則式中的最小二乘估計值雖然是無偏估計, 但不再是最優線性無偏估計, 即在所有的線性無偏估計中, 不能保證上式的方差是最小的(有效性)。 Var(i) i22fi (XTX)1XTy( 30 )1 1.4.4. .1 1 異方差異方差條件下參數估計值的標準誤條件下參數估計值的標準誤 ( )(|) (|)VarE VarXVar EX11111(|)()|)()()|)()|)()( )()|

15、)TTTTTTTTTE VarXE VarX XX y XE VarX XXXXE VarX XXXE X XX VarX X XX211( )()()TTTVarX XX WX X X Var() 2W異方差不影響最小二乘估計值的無偏性 (|)0Var EX在異方差條件下, 假設誤差項的協方差矩陣可以表示: 則最小二乘估計值的方差可以表示為: ( 31 )1 1.4.4. .1 1 異方差異方差條件下參數估計值的標準誤條件下參數估計值的標準誤 21211( )() ()()nTTTiiiiVarX Xx xX Xl矩陣W往往是未知的, 不過, 在大樣本條件下可以通過下式進行估計: l其中 是

16、設計矩陣第i行的元素。l l問題在于上式可以以求出最小二乘估計值的標準誤, 但無法解決最小二乘估計的有效性問題。( 32 )1 1.4.4.2.2 加權最小二乘估計加權最小二乘估計l矩陣W的逆矩陣可以分解為: l用矩陣 可以對因變量、設計變量和誤差項進行變換: W1 LTLL L L L,yy XXwyXl則可以建立下述的線性回歸模型: l上式模型滿足線性回歸所有假設:l零均值l同方差 L L( )()( )0EEE LL LL L LLL 22112( )()()() TTTTTTVarEEW( 33 )1 1.4.4.2.2 加權最小二乘估計加權最小二乘估計l所以其最小二乘估計模型的回歸參

17、數為:1111TTTTwX XX yX WXX Wyl上述估計值的協方差矩陣為:11221()TTwVarX XX WXl可以證明, 是回歸參數 的無偏估計, 即:w()wEl所以, 在異方差條件下回歸參數的估計值可以表示為:111()TTX WXX Wy( 34 )1 1.4.4.2.2 加權最小二乘估計加權最小二乘估計l協方差矩陣W是 的矩陣, 難以通過n個樣本觀測值估計, 所以通常設其為對角矩陣, 且常假設有 , 所以誤差項的方差與其樣本量n成反比, 即:nn wi1/nil 是對因變量 的觀測次數ni 2i2/niyil而且假設W為對角矩陣則意味著誤差項之間是相互獨立的 Cov(i,j

18、)0,ij( 35 )1 1.4.4 補充補充l異方差的檢驗方法:1. 殘差圖2. ncvTest生成計分檢驗, 原假設為誤差方差不變, 備擇假設為誤差方差隨擬合值水平的變化而變化#library(car)3. Goldfeld-Quandt Test4. bartlett.test( 36 )1 1.4.4 補充補充l異方差的解決方法:方法一:NeweyWest()函數可以進行異方差和自相關穩健性NeweyWest估計(sandwich)library(sandwich)NeweyWest(fit)neweywest AIC(model, k = 2) AIC(model, k = log(

19、n) 1.7.4 交叉驗證得分交叉驗證得分基本原理:1、把原始數據集隨機分解成r個大小近似相等的子數據集;2、把第一個子數據及作為驗證數據集, 其余r-1個子數據集合并后進行模型的參數估計, 并基于該模型對驗證數據集的因變量進行預測, 計算誤差平方和;3、將第二個第r 個子數據集分別進行步驟二;4、計算前述r個預測誤差平方和的平均值。 特例:每個觀察值作為一個子數據集 表示提出第i個觀察值后用其他所有觀察值建模對第i個觀察值的預測值。 是帽子矩陣對角線上的元素; 是基于全體數據建立的模型對第i個對象的預測值。 211niiiiCVyyniiy2111niiiiiyyCVnhiihiy在R中, 交叉驗證得分可編寫以下函數求出:cv - function(fit, k) require(bootstrap) theta.fit - function(x, y)lsfit(x, y) theta.predict - function(fit, x)cbind(1, x)%*%fit$

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論