




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、7.4 多元線性回歸7.4.1 方法概述方法概述1. 模型的建立:多元線性回歸分析是研究一個因變量與多個自變量間關系的統(tǒng)計方法。模型可寫成為:截距;bi(i=1,k)稱為偏回歸系數(shù),表示當其余自變量固定時,xi變化一個單位時,因變量 y 的平均變化量。回歸系數(shù)的估計仍根據(jù)最小二乘原理,求 b0,b1,bk使得達到最小。多元回歸模型的參數(shù)估計不能象直線回歸那樣可以直接寫出表達式,矩陣形式: 由于各自變量的單位不同,為此要運用標準化偏回歸系數(shù)。先作變量的標準化,即作變換 iii isxxx標準化偏回歸系數(shù) bi表示當其它自變量固定時,xi變化一個標準差時,因變量 y 變化的標準差單位數(shù)。bi沒有單
2、位,所以可以用它們的絕對值大小來說明各自變量的重要性,其值越大,對因變量的作用越大。以 bi表示 xi的標準化偏回歸系數(shù),則2. 假設檢驗:(1)離均差平方和的分解與直線回歸一樣,多元回歸時亦可將因變量的離均差平方和可分解為兩部分: sst(總)=ssr(回歸)+sse(剩余) 回歸平方和越大,回歸的效果越好。回歸平方和與總離均差平方和的比值稱為決定系數(shù)決定系數(shù)(coefficient of determination, r2),其計算公式同稱為復相關系數(shù)復相關系數(shù),表示多個自變量共同對因變量的相關密切程度。回歸平方和 ssr 是多個自變量共同的貢獻,要研究每個自變量對因變量的作用,還需將 s
3、sr 按個自變量的貢獻進行分解: ssr=ssr1+ssrkssri稱為偏回歸平方和,表示扣除其它自變量的作用后,由自變量 xi對因變量 y 變異的貢獻。顯然自變量的偏回歸平方和越大,該變量對 y的貢獻越大,該變量在回歸中所起的作用也越大。偏回歸平方和與總離均差平方和的比值,稱為偏決定系數(shù)。 (2)方差分析法:模型中各回歸系數(shù)的總體值只要有一個不為零,則模型就有意義。對所有總體回歸系數(shù)為零的檢驗需計算檢驗統(tǒng)計量 f: , 求得 f 值后,msemsr/sse/ssrferreknk,1按 f 分布 f(k,n-k-1)確定 p 值,再根據(jù)檢驗水準作出推斷結論。 而檢驗每一個變量作用的顯著性,可
4、以計算 msemsr/sse1/ssrfei(3)偏回歸系數(shù)的標準誤與 t 檢驗扣除所有自變量的作用后,因變量的變異稱為剩余標準差,記作因而有關于總體偏回歸系數(shù)為零的 t 檢驗:例例 8.4 (續(xù)例 8.1) 用回歸分析研究因變量肺活量(y, ml)與自變量(體重 x1、胸圍 x2、胸圍的呼吸差 x3)的關系,并比較各自變量對 y 作用的大小。sas 程序:data reg2; input x1 x2 x3 y;cards;35 69 0.7 160040 74 2.5 260042 65 3.0 2500;proc reg;model y=x1-x3/stb;run;輸出結果如下:model
5、: model1dependent variable: y第一部分 analysis of variance sum of mean source df squares square f value probf model 3 1250109.0678 416703.02259 5.617 0.0355error 6 445140.93222 74190.15537c total 9 1695250.0000 root mse 272.37870 r-square 0.7374 dep mean 2315.00000 adj r-sq 0.6061 c.v. 11.76582第二部分 para
6、meter estimatesn = 10 regression models for dependent variable: y方差分析結果,f=5.617,p=0.035,說明整個模型有意義。建立回歸方程如下: y hat=-3035.54+60.93x1+37.81x2+101.38x3x1、x2、x3 的標準化回歸系數(shù)分別為 0.4645、0.3917、0.2540,所以體重對肺活量的影響 最大。值得注意的是,各回歸系數(shù)的假設檢驗結果均不顯著,這說明方程建立的不是最好,需進一步對變量進行篩選。75 逐步回歸7.5.1 概述概述上面介紹建立多元回歸方程的方法時,將所有的自變量都引入方程。
7、但各自變量的作用有大有小,而我們建立回歸方程時既不能丟掉對因變量貢獻大的自變量,也不希望引入貢獻不顯著的自變量,還要避免上述的多重共線性問題。因此,需要在自變量中有所選擇,把真正有統(tǒng)計意義的部分找出來,建立較理想的模型。較高的預測、預報精度,模型也不太復雜自變量選擇方法(1)所有可能子集回歸:。(2)前進法:。(3)后退法:(4)逐步法:該法是前進法與后退法的結合。它對自變量建立一套雙向篩選程序:將自變量一個個引入,引入的條件是該變量的偏回歸平方和經(jīng)檢驗是顯著的;同時,每引入一個新變量后,要對老變量逐個檢驗,剔除偏回歸平方和不顯著的變量。注意的是:逐步法選出的模型與選擇變量的標準有關,而且按前
8、述選擇模型的準則,一般只是較優(yōu)的模型,而不是“最優(yōu)”的。另外,建立的模型應該符合專業(yè)知識。因此,實際應用中,應該將專業(yè)上的考慮、自變量選擇準則和逐步法結合起來使用,以期得到較為理想、合理的模型。7.5.2 實例實例 例例 8.6(續(xù)例 8.4)利用自變量選擇準則和逐步回歸方法,建立肺活量與體重、胸圍以及胸圍的呼吸差間的較為合理的模型:編寫 sas 程序如下 (data 步略)proc reg; model y=x1-x3/selection=cp aic adjrsq;run;proc reg; model y=x1-x3/selection=stepwise;proc reg; model
9、y=x1-x3/selection=stepwise slentry=0.3 slstay=0.3;run;上述程序的第一個 reg 輸出結果如下: stepwise procedure for dependent variable ystep 1 variable x3 entered r-square = 0.53118453 c(p) = 4.71246471df sum of squares mean square f probfregression 1 9.06 0.0168error 8 total 9 parameter standard type iivariable esti
10、mate error f probfintercep 44.22 0.0002x3 9.06 0.0168step 2 variable x1 entered r-square = 0.61896273 c(p) = 4.70672706df sum of squares mean square f probfregression 2 5.69 0.0341error 7 total 9 parameter standard type iivariable estimate error sum of squares f probfintercep 0.02 0.9031x1 1.61 0.24
11、47x3 2.51 0.1572step 3 variable x2 entered r-square = 0.73741871 c(p) = 4.00000000df sum of squares mean square f probfregression 3 5.62 0.0355error 6 total 9 parameter standard type iivariable estimate error sum of squares f probfintercep 1.96 0.2111x1 2.82 0.1442x2 2.71 0.1510x3 0.69 0.4377step 4
12、variable x3 removed r-square = 0.70718629 c(p) = 2.69081285df sum of squares mean square f probfregression 2 8.45 0.0136error 7 total 9 arameter standard type iivariable estimate error sum of squares f probfintercep 6.59 0.0371x1 8.69 0.0215x2 5.37 0.0535all variables in the model are significant at
13、 the 0.3000 level.no other variable met the 0.3000 significance level for entry into the model.summary of stepwise procedure for dependent variable y variable number partial modelstep entered removed in r*2 r*2 c(p) f probf1 x3 1 0.5312 0.5312 4.7125 9.0643 0.01682 x1 2 0.0878 0.6190 4.7067 1.6126 0
14、.24473 x2 3 0.1185 0.7374 4.0000 2.7067 0.15104 x3 2 0.0302 0.7072 2.6908 0.6908 0.4377采用逐步法選擇自變量,但進入方程和剔除出方程的顯著性水平為0.3。結果是:x3、x1、x2 依次被選入方程,但 x1、x2 進入方程后 x3 的作用變得不顯著,因而最后從方程中剔除出去。最終的方程為: y hat=-4187.42+80.27x1+46.45x2, r2=0.7072。這個方程的回歸效果與用三個變量建立的方程效果相差無幾,應是較為理想的選擇。7.6 相關分析:描述兩個變量間相關關系的統(tǒng)計指標稱為相關系數(shù)。現(xiàn)
15、以兩個變量的直線相關分析為例,說明相關系數(shù)的意義。研究變量 x 和 y 的直線相關關系用直線相關系數(shù)(記為 r),其計算公式為:1r1 r 為總體相關系數(shù) 的樣本估計值,所以一般還要需做=0 的假設檢驗。7.6.1 corr 過程過程1. corr 過程的語句組成。 *proc corr options; *var 變量表; with 變量表; partial 變量表; weight 變量; by 變量表; end;2. corr 過程的語句說明。(1) proc corr 語句格式: proc corr options;選擇項主要有: pearson 計算通常的 pearson 相關系數(shù),即
16、直線相關系數(shù),是缺省值。 out=dataset 產(chǎn)生含有 pearson 相關系數(shù)的一個新數(shù)據(jù)集。 nomiss 將帶有某一變量缺失值的觀測值從所有計算中除去。 nosimple 取消打印每個變量的描述統(tǒng)計量。(2) with 語句 指明配對的變量名。與 var 語句配合使用,var 語句列出相關矩陣上部出現(xiàn)的變量,with 語句列出左側(cè)出現(xiàn)的變量。使用with 語句后,把變量分成 with 組和非 with 組,只計算兩組間兩兩變量的相關系數(shù)。(3) partial 語句作偏相關分析時,指定相對固定的那些變量,此時將自動激活nomiss 選擇項。注意 partial 語句指定的變量名不能出
17、現(xiàn)在var 或 with 語句中。7.6.2 實例實例例例 研究肺活量時測得 10 名女中學生體重 x1(kg)、胸圍 x2(cm)、呼吸差 x3(cm)及肺活量 y(ml),數(shù)據(jù)如下:data corr1;input x1 x2 x3 y;cards;35 69 0.7 16004074 2.5 260042 65 3.0 2500;proc corr; var x1 x2 x3 y;run;proc corr nosimple;var y;with x2 x3;partial x1;run;結果如下: correlation analysis 4 var variables: x1 x2
18、x3 y simple statisticsvariable n mean std dev sum minimum maximumx1 x2 x3 y correlation analysispearson correlation coefficients / prob|r| under ho: rho=0 / n = 10 x1 x2 x3 y x1 1.00000 0.43195 0.64093 0.69454 0.0 0.2125 0.0458 0.0258 x2 0.43195 1.00000 0.62927 0.76165 0.2125 0.0 0.0513 0.0105 x3 0.64093 0.62
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 母豬養(yǎng)殖的科技支持策略試題及答案
- 對聯(lián)試題解題方法及答案
- 激光技術工程師常考知識點分析
- 激光技術在環(huán)保領域的應用試題及答案
- 電梯技術員試題及答案
- 禮儀導師考試題及答案
- 衛(wèi)生管理學科復習試題及答案
- 育嬰師的工作職責與法律知識試題及答案
- 激光行業(yè)人才流動與職業(yè)發(fā)展的現(xiàn)狀分析試題及答案
- 綜合衛(wèi)生管理知識的試題及答案
- 高鐵站智能化設計方案
- GB/T 12727-2023核電廠安全重要電氣設備鑒定
- 崗位安全操作規(guī)程
- 促進林業(yè)產(chǎn)業(yè)高質(zhì)量發(fā)展的建議
- 體外診斷試劑的應急預案
- 飼料廠各崗位操作規(guī)程
- 公共場所衛(wèi)生監(jiān)督培訓課件
- 煤焦油加氫主要化學反應
- 水泥混凝土路面打裂壓穩(wěn)施工工法
- 鎮(zhèn)村綜治中心治安防控室工作臺賬(完整打印版)
- 2020年10月自考00152組織行為學試題及答案
評論
0/150
提交評論