大學精品課件:第8章多元線性回歸99_第1頁
大學精品課件:第8章多元線性回歸99_第2頁
大學精品課件:第8章多元線性回歸99_第3頁
大學精品課件:第8章多元線性回歸99_第4頁
大學精品課件:第8章多元線性回歸99_第5頁
已閱讀5頁,還剩94頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多元線性回歸分析 Multiple linear regression,Medical statistics 醫學統計學,一元直線回歸方程,研究的是兩個變量之間是否存在線性關系。但在實際生活及醫學臨床研究中,經常遇到一個因變量與多個自變量之間的相互關系問題。如: 肺活量可能與身高、體重、胸圍等因素有關; 胃癌術后的存活時間,可能與胃癌患者手術后的病理切片上所觀察到的癌組織類型、浸潤程度、肉芽反應等因素有關; 在法醫鑒定中,推斷死亡時間與實測的尸體直腸溫度、實測尸體每小時下降的溫度數及尸體溫度與環境溫度之差有關,血壓值與年齡、性別、勞動強度、飲食習慣、吸煙狀況、家族史; 糖尿病人的血糖與胰島素、

2、糖化血紅蛋白、血清總膽固醇、甘油三脂; 射頻治療儀定向治療腦腫瘤過程中,腦皮質的毀損半徑與輻射的溫度、與照射的時間; 等等,都可以用多元線性回歸來研究,多元線性回歸的概念,多元線性回歸是簡單線性回歸的直接推廣,其包含一個因變量和二個或二個以上的自變量。 簡單線性回歸是研究一個因變量(Y)和一個自變量(X)之間數量上相互依存的線性關系。而多元線性回歸是研究一個因變量(Y)和多個自變量(Xi)之間數量上相互依存的線性關系。 簡單線性回歸的大部分內容可用于多元回歸,因其基本概念是一樣的,一、多元線性回歸的數據格式,變量:應變量 1 個,自變量k 個,共 k+1 個。 樣本含量:n 數據格式見下表 多

3、元回歸分析數據格式,要求:自變量的數值可以是隨機變量也可以是人為設定的。 因變量是隨機變量,條件,多元線性回歸方程(或模型,在這個模型中,Y由X1 , X2 , X3 , ,Xm所解釋,有m+1個未知參數0、1 、 2、m 。 為常數項, 為總體偏回歸系數(partial regression),表示在其它自變量保持不變時,增加或減少一個單位時Y的平均變化量,e是去除m個自變量對Y影響后的隨機誤差(殘差,總體回歸方程,樣本回歸方程: b0為常數項,b1 , b2 , ,bm為樣本偏回歸系數,是對總體偏回歸系數0、1 、 2、m 的估計。 表示Y的估計值,一般步驟,建立回歸方程(樣本,2)對回歸

4、方程及各自變量做假設檢驗并對方程的擬合效果及各自變量的作用大小做出評價,多元線性回歸分析的一般步驟,原 理:最小二乘法,多元線性回歸方程的建立,求偏導數(一階,統計軟件包,計算出b1、b2、bm,例,20名兒童的血紅蛋白Y(g/100ml)與元素鈣X1(g/100ml)和鐵X2(g/100ml)的測定結果,試做多元線性回歸,1878.9616b1+2930.5941b2=20.6278 2930.5941b1+30448.8366b2=868.7028 解此方程,得 b1=-0.0394 b2=0.0323 b0=11.68-(- 0.0394)(60.43)- ( 0.0323)(417.6

5、8)=0.5699 得方程,多元回歸方程的假設檢驗,由樣本算得的偏回歸系數bi是總體偏回歸系數i的估計值(i=1,2,k)。如果總體偏回歸系數等于0,則由于存在抽樣誤差,仍可使樣本估計的偏回歸系數不等于0.因此,與直線回歸的情形相同,對所建立的多元回歸方程還需進行有否統計學意義的假設檢驗,以判斷它是否有意義,一)回歸方程的假設檢驗與評價,方差分析法,多元線性回歸方差分析表,如果FF,(k,n-k-1),則在水準上拒絕H0, 接受H1,認為應變量Y與k個自變量 X1,X2,Xk之間存在線性回歸關系,檢驗步驟,H0:所有自變量對應變量Y均無線性回歸關系 H1:至少1個自變量對應變量Y有線性回歸關系

6、 計算F值,本例FF0.01(2,17),所以P0.01,拒絕H0,故總體上認為元素鈣與鐵對血紅蛋白有直線回歸關系,多元線性回歸方程的評價 評價回歸方程的優劣、好壞可用確定系數R2和剩余標準差Sy,x1,2.p 。 Sy,x1,2. p SQRT(SS誤差n-p-1) 本題Sy,x1,2. p 如用于預測,重要的是組外回代結果,簡記為R2,即回歸平方和SS回歸與總離均差平方和SS總的比例。 R2 SS回歸/SS總1-SS殘/SS總 0 R2 1, 可用來定量評價在Y的總變異中,由k個X變量建立的線性回歸方程所能解釋的比例。其值越接近于1,說明模型對數據的擬合程度越好。 本例: R2 SS回歸/

7、SS總 27.2464/45.7675=0.5953,確定系數,復相關系數,為確定系數的算術平方根,表示變量Y與k個自變量(X1,X2,Xk)的線性相關的密切程度,亦即觀察值Y與估計值 之間的相關程度,偏回歸系數的假設檢驗和評價,方差分析和決定系數是將所有自變量X1、X2、Xk作為一個整體來檢驗和說明它們與Y的相關程度及解釋能力,并未指明方程中每個自變量對Y的作用及作用的大小,即每個自變量是否對Y都存在線性回歸關系以及關系密切程度,因此,需分別對每個自變量(即相應的偏回歸系數進行檢驗,以免把作用不顯著的自變量引入回歸方程中,常用的方法有兩種:偏回歸平方和檢驗法(F檢驗)和偏回歸系數檢驗法(t檢

8、驗,偏回歸平方和,回歸方程中某一自變量Xi的偏回歸平方和(sum of squares for partial regression)是指模型中含有其他k-1個自變量的條件下該自變量對Y的回歸貢獻,相當于從回歸方程中剔除Xi后所引起的回歸平方和的減少量,或在k-1個自變量的基礎上新增加Xi引起的回歸平方和的增加量,偏回歸平方和檢驗法檢驗步驟,1. 將所有的自變量都引入回歸方程中,得到回歸平方和及殘差平方和記為SS回和SS殘。 2. 將擬檢驗的某個自變量Xi從回歸方程中取出后,重新建立起一個含K-1自變量的回歸方程,并得到不含Xi作用的回歸平方和SS回(-i) 。則SS回- SS回(-i)就是在

9、其他自變量已在回歸方程中的條件下,Xi單獨引起的回歸平方和的改變量,把這個量稱為Xi的偏回歸平方和(sum of squares for partial regression,3. 用F值來檢驗該Xi的回歸效應是否顯著,F值的計算公式為: 4. 根據=1,=N-K-1,查F界值表,求出F0.05(1,n-k-1), F0.01(1,n-k-1),并與F值比較,得出結論,例,將元素鈣x1和鐵x2全部納入回歸方程中,得到:SS回=27.2464, SS殘=18.5211 2. 把 X1從回歸方程中取出,而單獨建立x2與y的回歸方程為: 此時SS回(-1)=24.7842 SS回(x1)= SS回(

10、x1,x2)- SS回(x2)=2.4618,3. 若把x2從回歸方程中取出,而單獨建立x1與y的回歸方程為: 此時SS回(-2)=0.2264 SS回(x2)= SS回(x1,x2)- SS回(x1)=27.02 因此x2(鐵)對血紅蛋白貢獻大于x1(鈣)。 4. 進行F檢驗,5. 查F界值表,得: F 0.05(1,17)=4.45 F 0.01(1,17)=8.40 可以認為x1(鈣)對血紅蛋白的線性回歸無統計學意義,但x2(鐵)對血紅蛋白的線性回歸有統計學意義。 這樣應把把x1剔除,只建立x2與y的線性回歸方程,偏回歸系數的t檢驗,偏回歸系數的t檢驗是在回歸方程具有統計學意義的情況下,

11、檢驗某個總體偏回歸系數等于零的假設,以判斷是否相應的那個自變量對回歸確有貢獻,與偏回歸平方和檢驗完全等價的一種方法,bi為偏回歸系數的估計值,sbi是bi的標準誤,計算比較復雜要運用矩陣運算獲得,一般可以利用統計軟件計算。如x2(鐵)對血紅蛋白的b2=0.0323, sb2=0.0647,x1(鈣)對血紅蛋白的b1=0.0394, sb1=0.00260,則 對于同一資料,不同的自變量的t值間可以相互比較,t的絕對值越大,說明該自變量對Y的回歸作用越大,標準化偏回歸系數,由于各自變量的測量單位不同,不能直接比較偏偏回歸系數,需要將其轉化為標準化偏回歸系數。 將原始數據減去相應變量的均數后再除以

12、該變量的標準差,即為數據標準化 。 用標準化的數據建立的回歸方程,稱為標準化回歸方程,相應的回歸系數即為標準化回歸系數,標準化回歸方程的截距為0,標準化回歸系數與一般回歸方程的回歸系數之間的關系為: 比較自變量對Y的回歸貢獻大小時,也可用標準化偏回歸系數。通常在有統計學意義的前提下,標準化回歸系數的絕對值越大說明相應自變量對Y的作用越大,例,S1=9.9554 S2=40.0321 SY=1.5519 b1=0.0394 b2=0.0323 代入公式,例15-1,27名糖尿病患者的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖的測定結果如下,試建立血糖與其他幾項指標的多元線性回歸方

13、程,統計軟件包計算得,b0=5.9433 b1=0.1424 b2=0.3515 b3=-0.2706 b4=0.6382 所求多元回歸方程為,多元線性回歸方程的假設檢驗及其評價,1. 方差分析法,一)對回歸方程的假設檢驗及評價,F0.01,(4,22 )=4.31 ,P 0.01,拒絕H0。說明從整體上而言,用這四個自變量構成的回歸方程解釋糖尿病患者的血糖濃度的變化是有統計學意義的,2. 確定(決定)系數 (coefficient of determination,簡記為R2,即回歸平方和SS回歸與總離均差平方和SS總的比例。 可用來定量評價在Y的總變異中,由 m個X變量建立的線性回歸方程所

14、能解釋的比例。 0R2 1,其值越接近1,說明模型對數據擬合程度愈好,表明血糖含量變異的60%可由總膽固醇、 甘油三酯、胰島素和糖化血紅蛋白的變化來解釋,3. 復相關系數(multiple correlation coefficient,確定系數的算術平方根 表示變量Y與m個自變量(X1,X2,Xm)的線性相關的密切程度。 當只有一個自變量時R= r ,r為簡單相關系數,偏回歸系數的假設檢驗,實質是考察在固定其它變量后,該變量對應變量 Y 的影響有無顯著性。 H0: j=0 H1: j 0 0.05 檢驗方法 F檢驗 t檢驗,例,偏回歸平方和的F檢驗結果為 查F界值表的F0.05,(1,22)

15、 =4.30, F3、F4均大于4.30,故在=0.05檢驗水準上拒絕H0,接受H1,認為血糖與胰島素(X3) 、糖化血紅蛋白(X4)有線性關系。 由兩變量的偏回歸平方和大小可見糖化血紅蛋白(X4)的貢獻更大些,偏回歸系數的t檢驗,b1=0.1424 Sb1=0.3656 t1=0.1424/0.3656=0.390 b2=0.3515 Sb2=0.2042 t2=0.3515 /0.2042=1.721 b3= -0.2706 Sb3=0.1214 t3= -0.2706 /0.1214= -2.229 b4=0.6382 Sb4=0.2433 t4=0.6382/0.2433=2.623,

16、查t界值表得t0.05/2,22 =2.074,則t4 t3 2.074,P值均小于0.05,說明 b3 、b4 有統計學意義。 對同一資料,不同自變量的t值之間可以相互比較,t的絕對值越大,說明該自變量對Y的回歸所起的作用越大,標準化偏回歸系數,S1=1.5934 S2=2.5748 S3=3.6706 S4=1.5934 SY=2.9257 代入公式,自變量選擇方法,根據研究者專業知識和經驗事先選擇好。 若無清晰的理論依據則可采用下列方法結合專業知識選擇。 選擇自變量的方法有多種,其基本思路是:盡可能將回歸效果顯著的自變量選入回歸方程中,將作用不顯著的自變量排除在外。目的:使得預報和(或)

17、解釋效果好,全局擇優法,意義:對自變量各種不同的組合所建立 的回歸方程進行比較 擇優。 選擇方法,校正決定系數Rc2選擇法,決定系數R2SS回歸/SS總, R2越大,回歸所占的比例越大,因此可以用來評價回歸方程的優劣,但R2隨自變量個數的增加而增加,多元線性回歸方程中并非自變量越多越好,原因是自變量越多剩余標準差可能變大;同時也增加收集資料的難度。 因此,評價回歸方程的標準還必須考慮方程所包含的自變量的個數的影響,血紅蛋白與鈣鐵元素方程的校正確定系數,鈣鐵均引進方程時的確定系數和校正確定系數,只引進鐵均時的確定系數和校正確定系數,血糖與X1,X2,X3,X4方程的校正確定系數,將四個變量均引入

18、方程時的校正和未校正的確定系數 將三個變量均引入方程時的校正和未校正的確定系數(除總膽固醇,Cp選擇法,Cp統計量定義: (SS殘)p是由p(pm)個自變量做回歸的誤差平方和, (MS殘)m是從全部m個自變量的回歸模型中得到的殘差均方。 當由p個自變量擬合的方程理論上最優時, Cp的期望值是p+1,因此應選擇最接近p+1的回歸方程為最優方程。 當p=m時,必有Cp =m,用全局法對例15-1數據的自變量進行選擇,逐步選擇法,當自變量的數目較大時,采用全局擇優方法的計算量很大,即使只有6個自變量,也要考慮26-1=63個方程,對于10個自變量,方程的個數要增加到210-1=1023個。 逐步選擇

19、法可以克服這一不足,是實際應用中普遍使用的方法,逐步選擇法的基本思想,每引進或剔除一個自變量Xj,決定其取舍則基于對偏回歸平方和的F檢驗 其中,p為進行到第i步時方程中自變量的個數,SS回(i)(Xj)為第i步時Xj的偏回歸平方和, SS殘(i)(Xj)為第i步時Xj的殘差平方和。 對給定的檢驗水準,若是方程外自變量,當FjF,(1,n-m-1),可決定引入;若是方程內自變量, FjF,(1,n-m-1),可決定剔除,逐步選擇法可分為 前進法(forward selection)、 后退法(backward elimination) 逐步回歸法(stepwise regression,前進法,

20、回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。 第一步,應變量Y對每個自變量做直線回歸,把回歸平方和最大的自變量做F檢驗,若偏回歸系數有統計學意義,則把該自變量引入方程。而后在余下的自變量中,考慮在進入方程的第一個自變量的基礎上,計算其他自變量的偏回歸平方和,選取偏回歸平方和最大的一個自變量做F檢驗以決定是否選入,如果有統計學意義則進入方程。然后再以同樣的方式尋找第三自變量。一直做下去,直到沒有自變量為止。 前進法有一定的局限性,即后引入可能會使先進入方程的自變量變得不重要,SS(X1)最大,先引入X1; 再算SS(X1,X2)、 SS(X1,X3)、 SS(X1,X4), 若SS(X

21、1,X2)- SS(X1) SS(X1,X3)- SS(X1) SS(X1,X4)- SS(X1),則引入X2; 再算SS(X1,X2,X3), SS(X1,X2,X4), 若SS(X1,X2,X3)- SS(X1,X2) SS(X1,X2,X4)- SS(X1,X2),則引入 X3 依次類推,后退法,先將全部自變量選入方程,然后逐步剔除無統計學意義的自變量。 剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作F檢驗決定它是否剔除,若無統計學意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復這一過程,直至方程中所有的自變量都不能剔除為止。 后退法的優點是考慮到了自變量的組合作用,

22、選中的自變量的數目一般會比前進法選中的多;缺點是當自變量數目較多或某些自變量高度相關時,可能得不出正確的結果,前進法可以自動去掉高度相關的自變量,對選入和剔除自變量的F檢驗,可以設置相同或不同的檢驗水準,一般可以把值定為0.05。 值定得越小,表示選取自變量的標準越嚴,被選入的自變量個數相對也較小;反之, 值定得越大表示選取自變量的標準越寬,被選入的自變量個數也就相對較多,逐步回歸法,是在前述兩種方法的基礎上,進行雙向篩選的一種方法。 該方法的本質是前進法,但每引入一個自變量進入方程后,要對方程中的每個自變量做基于偏回歸平方和的F檢驗,看是否需要剔除一些退化為“不顯著”的自變量,以確保每次引入

23、新變量之前方程中值包含有“顯著”作用的自變量。這一雙向篩選過程反復進行,直到既沒有自變量需要引入,也沒有自變量從方程中剔除為止,從而得到一個局部最優方程,逐步回歸法,先設選入自變量的檢驗水準入和剔除自變量的檢驗水準出,入要小于或等于出,一般小樣本定為0.10或0.15,大樣本定為0.05 。 兩個入、 出對應閾值F引入和F剔除,當候選變量中最大F值F引入時,引入相應變量;已進入方程的變量最小FF剔除時,剔除相應變量。如此交替進行直到無引入和無剔除為止。(計算復雜,先將Y與各自變量建立回歸方程,引入偏回歸平方和最大的,假設為X1; 再同前進法,將X1與剩下的自變量組合,計算SS(Xi)最大者進入方程,如X2; 再同前進法,將X1、X2與剩下的自變量組合,計算SS(Xi)最大者進入方程,如X3; 再同剔除法,計算SS(X1,X2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論