




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十三章 多重線性回歸 授課教師:吳立娟授課教師:吳立娟 流行病與衛生統計學系流行病與衛生統計學系內 容 多重線性回歸 回歸分析中自變量的選擇 多因素線性回歸的應用及注意事項復 習 線性回歸分析是研究一個變量和另外一些變量間線性關系的統計分析方法。 在回歸分析中,最簡單的情形是模型中只包含兩個有“依存關系”的變量,一個變量(反應變量)隨另一個變量(自變量)的變化而變化,且呈直線變化趨勢,稱之為簡單線性回歸。 給定給定X X的數值的數值, , Y Y 的數值取在一個平均值的數值取在一個平均值 (y|x)附近 對應于不同的對應于不同的X X值值, , Y Y 的平均值座落在一條直線上平均值座落在一
2、條直線上 - - 回歸直線回歸直線. . y|x 和和 X X的關系可用一個線性方程描寫的關系可用一個線性方程描寫. .|y xX簡單線性回歸方程總體樣本“Y hat”表示估計值,給定x時y的總體均數的估計值。YabXXXY直線回歸方程的求解:最小二乘原理YabXYX iiYY 回歸系數及其計算回歸系數及其計算找一條直線使殘差平方和最小找一條直線使殘差平方和最小 利用微積分知識利用微積分知識,容易得到容易得到 這條線一定過兩個點這條線一定過兩個點 和和最小 )(2 yy),0(abXaY線性回歸分析的前提條件 線性(linear)反應變量Y與自變量X呈線性變化趨勢 獨立(independent
3、)任意兩個觀察值相互獨立,一個個體的取值不受其他個體的影響 給定X時,Y正態分布(normal)給定X取值時,Y的取值服從正態分布 等方差(equal variance)指對應于不同的X值,Y值的總體變異相同直線回歸應用條件LINE示意圖回歸方程有統計學意義嗎 建立樣本直線回歸方程,只是完成了統計分析中兩變量關系的統計描述,這種關系是否有統計學意義,還需要進一步進行假設檢驗。檢驗回歸模型是否成立:方差分析檢驗總體回歸系數是否為零:t檢驗 例1: 某研究者研究大氣污染物一氧化氮(NO)的濃度(ppm)與汽車流量(千輛)、氣溫()、空氣濕度(%)、風速(m/s)等因素的關系,結果見表1: 單位時間
4、內過往的汽車數(千輛)、氣溫()、空氣濕度(%)、風速(m/s)這四個因素是否都對空氣中一氧化氮(NO)的濃度(ppm)有影響?如何定量地描述這些因素對一氧化氮濃度的影響?哪個因素對一氧化氮濃度的影響最大?哪個因素的影響最小?如果利用這些影響因素去預測空氣中一氧化氮的濃度,如何預測?效果如何? 第一節 多重線性回歸 多重多重線性回歸線性回歸(multiple linear regression) 因變量因變量: : 一個一個, , Y Y 自變量自變量: : 多個多個, , X X1, 1, X X2, 2, X X3, 3, , , XpXp方程:方程:ppXbXbXbbY.22110概概
5、念念 多元多元線性回歸線性回歸(multi- variate linear regression) 簡稱簡稱多元多元回歸回歸(multi- variate regression): 因變量因變量: : 多個多個, , Y Y1 1,Y Y2 , 2 , 自變量自變量: : 多個多個, X1, X2, X3, , X1, X2, X3, 方程:方程:ppXbXbXbbY1221111011.ppXbXbXbbY2222112022.多重線性回歸方程 多重線性回歸方程是簡單線性回歸方程的擴展pppxxxYXXX 22110,.,2,1|其中 表示當所有自變量為0時反應變量Y的總體平均值。 為變量X
6、i 的總體偏回歸系數(partial regression coefficient),表示當方程中其他自變量保持常量時,自變量Xi每增加(或減少)一個計量單位,反應變量Y平均變化 個單位。0ii 樣本回歸方程 ppXbXbXbbY.22110Y反應變量Y的總體平均值12|,.,pY x xx的估計值。 b00的估計。 為常數項,又稱為截距,是總體參數bi為自變量Xi 的偏回歸系數,是總體參數 的估計值。i 如果要建立由車流量( )和風速( )預測一氧化氮濃度(Y)的線性回歸方程,模型可以寫成: 1X4X44110XbXbbY4b4b表示在車流量不變的情況下,風速每增加一個單位(1m/s),估計
7、空氣中一氧化氮的濃度平均改變個單位(ppm)。表13-1 多重線性回歸分析數據格式 前提條件(LINE)多重線性多重線性回歸分析步驟回歸分析步驟(1)(1) 求回歸方程求回歸方程 - - 最小二乘原則最小二乘原則(2)(2) 假設檢驗假設檢驗 - - 檢驗回歸方程是否具有統計學意義,檢驗回歸方程是否具有統計學意義,模型有意義的前提下,再分別對模型有意義的前提下,再分別對各偏回歸系數各偏回歸系數進行假進行假設檢驗設檢驗。(3)(3)變量選擇變量選擇 - - 以盡量少的自變量以盡量少的自變量, , 達到較好地解釋達到較好地解釋Y Y的目的的目的基本原理:尋找一套適宜的偏回歸系數( ),建立多重線性
8、回歸方程,使得反應變量的觀測值 與回歸方程的估計值回歸系數的估計,求回歸方程采用最小二乘法 (least squared method)來估計偏回歸系數 pbbbb,210iYiY之間的殘差平方和最小。 SPSS實現方法: Analyze-Regression-Linear- y選入Dependent x1、x2、X3.XP選入Independent Method-Enter Stepwise Backward Forward -ok43621035. 01055. 6004. 0116. 0142. 0XXXXY當建立樣本回歸方程后,首先要考察這個回歸方程是否有意義?即在, , , , 中,
9、是否至少存在一個自變量與Y的總體均數呈線性關系?回歸方程的效果如何?也即是這四個自變量能夠解釋反應變量的變異的百分比是多少?四個自變量是否都對反應變量有影響?也即是各個偏回歸系數( )所對應的總體偏回歸系數( 是否等于0?思考:1X2X3X4X4321,bbbb4321, 回歸的目的回歸的目的: :估計估計H H0 0成立時成立時, , 只能用只能用Y Y的均數的均數 來估計來估計 殘差殘差: , : , 自由度自由度= =H H1 1成立時成立時, , 給定給定 可以用可以用 來估計來估計 殘差殘差: : , , 自由度自由度= 殘差減少了殘差減少了 統計推斷 這個回歸方程有統計學意義嗎這個
10、回歸方程有統計學意義嗎? ? XYyXY2)(yySSi總1nXYiyix2)(iiyySS殘1 pn回殘總SSSSSS- - 這是回歸模型的貢獻這是回歸模型的貢獻 2)(yySSi回自由度自由度= = p方差分析的基本思想 總變異:把反應變量的觀察值的離均差平方和記為 ,它反映了沒有利用自變量的信息時的觀察值的變異性,即沒有考慮車流量、氣溫、氣濕和風速等因素的情況下一氧化氮濃度的變異的大小,其自由度記為 (為樣本量)。 2)(yySSi總1 n總 根據回歸方程計算得到的預測值 與實際觀察值 之間的差異稱為殘差,記殘差的離均差平方和為 ,它反映了的變異中不能由回歸解釋的部分,其自由度記為 ,P
11、 為自變量個數。 把 與 之差記為回歸平方和 ,它反應了回歸模型的貢獻,即車流量、氣溫、氣濕和風速等因素對一氧化氮濃度的影響,其自由度記為 。 iy iy2)(iiyySS殘1pnE總SS殘差SS回歸SSp回SSMSFP 表13-3 檢驗回歸方程整體意義的方差分析表變異來源自由度回歸40.0640.01617.59.001殘差190.0170.001總230.081P0H表中值小于0.001,按照0.05的檢驗水準,可以拒絕,認為所建立的回歸方程是有意義的。用這四個自變量構成的回歸方程解釋空氣中一氧化氮濃度的變化是有意義的。確定系數確定系數 或稱決定系數,以反映回歸方程的效果好壞。 總回歸SS
12、SSR 22R本例 0.79,說明利用車流量、氣溫、氣濕和風速等四個因素可以解釋一氧化氮濃度的約80的變異,可以認為回歸的效果較好 。復相關系數復相關系數 (coefficient of multiple correlation)又稱多重相關系數又稱多重相關系數 決決定定系系數數 R調整的確定系數調整的確定系數(adjusted R2, ) 11111/1/1122pnnRnSSpnSSMSMSRad總殘差總殘差2adR 回歸系數的假設檢驗回歸系數的假設檢驗 由于存在抽樣誤差,即使總體偏回歸系數為零,也可能得到樣本偏回歸系數不為零的情形,因此需要對偏回歸系數進行假設檢驗,以推斷總體偏回歸系數是
13、否為零 。0:0iH0:1iH05. 0 檢驗統計量為biibiSbtbiSi其中, 是第 個偏回歸系數的標準誤 05. 0P05. 0P車流量、氣溫、風速對一氧化氮濃度的影響有統計學意義( ),但是氣濕的影響沒有統計學意義( )。)。 標準偏回歸系數標準偏回歸系數Standardized partial regression coefficient所有變量標準化后做回歸所有變量標準化后做回歸, ,所得系數稱為標準偏回歸所得系數稱為標準偏回歸系數系數. .注意:注意: 一般回歸系數一般回歸系數有單位,用來解釋各自變量對有單位,用來解釋各自變量對應變量的影響,表示在其它自變量保持不變時,應變量的
14、影響,表示在其它自變量保持不變時, 增加或減少一個單位時增加或減少一個單位時Y Y的平均變化量的平均變化量 。不能用。不能用各各 來比較各來比較各 對對 的影響大小。的影響大小。 標準化回歸系數標準化回歸系數無單位,用來比較各自變量無單位,用來比較各自變量對應變量的影響大小,對應變量的影響大小, 越大,越大, 對對 的影響越大。的影響越大。iXibiXY,ibXiY第二節 回歸分析中變量的選擇 并不是事先考慮的所有的自變量對反應變量的影響都有統計學意義。 在許多研究中,多因素線性回歸分析的目的是建立一個預測效果最優的回歸模型,需要對自變量進行篩選: 將對反應變量沒有影響的自變量從模型中剔除,將
15、對反應變量的作用有意義的自變量納入模型當中。 殘差平方和( )縮小或確定系數( )增大 2)(iiyySS殘殘差SS2R越小越好!越小越好!總殘差總回歸SS12SSSSSSR越大越好!越大越好! 然而然而, , 只要增加自變量個數只要增加自變量個數, , 這個量就會減小這個量就會減小!?!?自變量篩選的統計學標準殘差的均方( )縮小或調整確定系數( )增大 殘差MS2adR1pnSSMS殘差殘差11111/1/1122pnnRnSSpnSSMSMSRad總殘差總殘差自變量篩選的統計學標準AIC統計量pSSnAIC2)nln(殘差AIC值達到最小,該模型為最佳模型,AIC準則自變量篩選的統計學標
16、準自變量篩選的方法 最優子集回歸分析法: p個變量有2p1個方程 逐步回歸分析: 向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入剔除法(stepwise selection)(一)最優子集回歸法求出所有自變量可能組合子集的回歸方程的模型(共有2p1個),按一定準則選擇最優模型,常用的準則有: 校正決定系數或殘差的均方(考慮了自變量的個數) AIC(Akaikes Information Criterion)準則;最優子集法的局限性 如果自變量個數為4,則所有的回歸有24115個;當自變量數個數為10時,所有可能的回歸為 2101
17、1023個;.;當自變量數個數為50時,所有可能的回歸為25011015個。 前進法(forward selection) 后退法(backward elimination) 逐步回歸法(stepwise regression)。它們的共同特點是每一步只引入或剔除一個自變量。決定其取舍則基于對偏回歸平方和偏回歸平方和的F檢驗,它表示在原有回歸方程基礎上引入或剔除某一自變量后所增加或減少的那部分回歸平方和.1; 1;)1(21)(pnpnSSSSSSFjj殘回回(二)逐步回歸分析(1)前進法)前進法 自變量從無到有、從少到多自變量從無到有、從少到多 1. 將偏回歸平方和最大且能使回歸系數檢驗拒絕
18、者入選為第一個自變量;規定一個界值,2. 接著將余下的變量中偏回歸平方和最大并使檢驗拒絕者選為第二個自變量; 如此不斷引入新的自變量,直到再不能拒絕時為止。 局限性:只進不出,后續變量的引入可能會使先進入方程的自變量變得不重要。(2 2)后退法)后退法 先將全部自變量放入方程,然后逐步剔除先將全部自變量放入方程,然后逐步剔除 1. 首先對全部候選變量作總的回歸,每次剔除一個偏回歸平方和最小而使回歸系數的檢驗不能拒絕者。2. 直到再不能剔除時為止 。 局限性:只出不進,自變量高度相關時,可能得不出正確的結果;開始時剔除的變量即使后來變得有顯著性也不能再進入方程 。(3 3)逐步回歸法)逐步回歸法
19、 雙向篩選(實際應用最多):雙向篩選(實際應用最多):在向前引入的每一步之后都要考慮在向前引入的每一步之后都要考慮從已引入方程的變量中剔除相形見絀者從已引入方程的變量中剔除相形見絀者. . 引入引入有意義的變量(前進法),有意義的變量(前進法),剔除剔除無意義變量無意義變量 (后退法)(后退法) 先規定兩個閾值P引入和P剔除(P引入P剔除),當候選變量中最大P值 P引入時,引入相應變量;已進入方程的變量最小P值 P剔除時,剔除相應變量。如此交替進行直到無引入和無剔除為止(計算復雜)多重線性回歸的應用 (1)定量地建立一個反應變量與多個解釋變量之間的線性關系。例如,建立肺活量的大小與身高、體重、
20、年齡和性別之間的線性關系。 (2)篩選危險因素。例如,篩選高血壓的危險因素。 (3)通過較易測量的變量估計不易測量的變量。例如,建立嬰兒體表面積關于身高、體重、月齡的多因素線性回歸方程,可以通過容易測量的身高、體重、月齡等變量估計不易測量的體表面積。 (4)通過解釋變量預測反應變量。例如,通過風速、汽車流量、氣溫等指標預測空氣中一氧化氮的濃度。 (5)通過反應變量控制解釋變量。例如,在氣溫、風速不變的情況下,通過控制汽車流量來實現空氣中一氧化氮濃度不超過一定的水平。多重線性回歸應用時的注意事項多重線性回歸應用時的注意事項 1樣本含量 2方程“最優”問題 3關于逐步回歸 4多元共線性 5. 啞變
21、量設定6. 變量間的交互作用7. 殘差分析多重共線性是指在進行多元回歸分析時,自變量間存在較強的線性相關關系。共線關系的存在,可使得估計系數方差估計系數方差加大,系數估計不穩,結果分析困難。因此在多因素線性回歸分析時,特別是當回歸結果難以用專業知識解釋時,要進行共線性診斷共線性診斷,找出存在共線性且不重要的那些自變量,剔出方程,另行回歸分析。對于存在共線性的資料,可以利用共線性診斷有選擇的保留自變量以消除共線性;或者采用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標對結果的影響。剔除某個造成共線性的自變量,重建回歸方程;合并自變量;采用逐步回歸方法。4 4多重共線性多重共線性 多重共線性的表
22、現在實際應用中主要表現為:多重共線性的表現在實際應用中主要表現為:(1)模型擬合效果很好,但偏回歸系數幾乎都無統計學意義;(2)偏回歸系數估計值的方差很大;(3)偏回歸系數估計值不穩定,隨著樣本含量的增減各偏回歸系數發生較大變化或當一個自變量被引入或剔除時其余變量偏回歸系數有很大變化;(4)偏回歸系數估計值的大小與符號可能與事先期望的不一致或與經驗相悖,結果難以解釋 出現以上表現,提示存在多重共線性問題,應進行多重共線性診斷。方差膨脹因子VIF (2) 容忍度(tolerance) 以每個自變量作為應變量,對其他自變量進行回歸分析時得到的殘差比例,大小用1-R2來表示,該指標越小,則說明該自變
23、量被其余變量預測的越精確,共線性可能越嚴重。如果自變量的容忍度小于0.1,則可能存在共線性問題。5 5 啞變量的設定2分類,可用一個(0,1)變量。如性別0 1 X男女 k分類,k-1個(0,1)變量,如血型。 多重線性回歸分析有時先將有序變量或無序多分類變量轉換成為多個二分類變量之后,才能將它們引入回歸模型。將有序變量或無序多分類變量轉換成為多個二分類變量的過程常被稱為“啞元化(dummying)”,得到的多個二分類變量稱為“啞變量(dummy variable)”。型非AAX101血型是一個無序多分類變量,它的取“值”是A、B、AB、O四種,可以用3個二分類變量來描述。令型非BBX102型
24、非ABBAX1031X2X3XABABO表11-5 用二分類啞變量描述血型血型變量100010001000編號 X1 X2 X3 Y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1 數據格式回歸方程 建立回歸方程建立回歸方程 0112233Ybb Xb Xb Xb1 :相當相當A 型相對于型相對于O 型的差別型的差別b2 :相當:相當B 型相對于型相對于O 型的差別型的差別b3 :相當:相當AB 型相對于型相對于O 型的差別型的差別 (2)等級 定量。 一般是將等級從弱到強轉換為 (或 )如文化程度分為小學、中學、大學、大學以上四個等級。Y為經濟收入。1 1 2 3 X小 學中
25、 學大 學 4 大 學 以 上 011Ybb X 解釋:b(b1)反映X(X1) 增加1個單位, 增加b個單位(如:500元)。 表示中學文化較小學收入多500, 大學較中學多500,余類推。,3,2, 1X,2, 1 ,0XYb1,b2,b3分別反映中學、大學、大學以上相對于小分別反映中學、大學、大學以上相對于小學文化程度者經濟收入差別的大小學文化程度者經濟收入差別的大小也可將K個等級轉換為K-1個(0,1)變量為了檢驗兩個自變量是否具有交互作用,為了檢驗兩個自變量是否具有交互作用,普遍的做法是在方程中加入它們的乘積項。普遍的做法是在方程中加入它們的乘積項。6. 變量間的交互作用變量間的交互
26、作用 例例2 2 某項研究調查了3334名有心臟疾患的婦女,了解血清高密度脂蛋白膽固醇(HDL cholesterol,mg/dl)與體質指數(body mass index, BMI, kg/m2)的關系,考慮到是否患糖尿病(DIABETES)也是影響HDL水平的因素,因此建立了一個以體質指數、是否患糖尿病為自變量,HDL為反應變量的線性回歸方程,結果如表13-4所示。表13-4 以體質指數、是否患糖尿病為自變量的線性回歸方程變量bSEtP95%CIBMI-0.3910.017-22.5310.000-0.426-0.357DIABETES-4.7830.092-52.2070.000-4.
27、962-4.603CONSTANT67.5510.363185.8470.00066.83968.264F=2441.323, P0.001; R2=0.594, adjR2=0.594, Root MSE=2.02模型假定HDL的平均水平隨BMI的變化而變化的規律在糖尿病婦女和非糖尿病組之間是相同的,表現為相同的偏回歸系數 -0.391605040302010 70605040 糖尿病組非糖尿病組糖尿病組非糖尿病組 在多重線性回歸模型中引入一個新的自變量(DMBMI),定義為BMI和DIABETES的乘積,這個乘積項描述的是兩個自變量與反應變量之間的關系。由于兩個自變量已經在模型中,乘積項就可以解釋為交互作用。 表13-5 以體質指數、是否患糖尿病為自變量,包含交互作用項的線性回歸結果VariablebSEtP95%CIDIABETES-11.3400.965-11.7550.00
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 濰坊職業學院《財務管理英語》2023-2024學年第二學期期末試卷
- 湖南高爾夫旅游職業學院《BIM原理及其應用》2023-2024學年第二學期期末試卷
- 西南財經大學《展示與陳設》2023-2024學年第二學期期末試卷
- 無錫科技職業學院《高頻電子線路與實驗》2023-2024學年第二學期期末試卷
- 長江師范學院《媒體制作》2023-2024學年第二學期期末試卷
- 保山學院《證券投資模擬》2023-2024學年第二學期期末試卷
- 合肥工業大學《設計基礎色彩構成》2023-2024學年第二學期期末試卷
- 遼寧大學《測繪程序設計》2023-2024學年第二學期期末試卷
- 福建農業職業技術學院《機械精度設計與檢測》2023-2024學年第二學期期末試卷
- 上海師范大學天華學院《大數據可視化W》2023-2024學年第二學期期末試卷
- 2025年廣東省深圳市羅湖區中考英語二模試卷
- 發行碳中和債券對股價的影響分析:市場反應與策略考量
- 輸血法律法規知識培訓課件
- 《漢字書寫筆順》課件
- 2024年中級社會工作者職業資格備考資料
- 2024螺旋錐體擠土壓灌樁技術標準
- 生命的起源小學生課件
- 酒吧督察管理制度大綱
- 2024年大學生就業力調研報告-智聯招聘-202405
- 人工流產患者術后護理
- 電子生產企業人力資源管理制度
評論
0/150
提交評論