




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上第三十二課 多元線性回歸分析一、 多元回歸模型表示法通常,回歸模型包括k個變量,即一個因變量和k個自變量(包括常數項)。由于具有N個方程來概括回歸模型(32.1)模型的相應矩陣方程表示為:錯誤!未定義書簽。(32.2)式中(32.3)其中:Y為因變量觀察的N列向量,X為自變量觀察的N (k+1) 矩陣,為末知參數的(k+1) )列向量,e 為誤差觀察的N列向量。在矩陣X表達式中,每一個元素Xij 都有兩個下標,第一個下標表示相應的列(變量),第二個下標表示相應的行(觀察)。矩陣X的每一列表示相應的給定變量的N次觀察的向量,與截矩有關的所有觀察值都等于1。經典的線性回歸
2、模型的假設可以闡述如下:l 模型形式由(32.1)給定;l 矩陣X的元素都是確定的,X的秩為(k+1),且k小于觀察數N;l e 為正態分布,E(e )=0 和 ,式中I為NN單位矩陣。根據X的秩為(k+1) 的假定,可以保證不會出現共線性。如果出現完全共線性,矩陣X的一列將為其余列的線性組合,而X的秩將小于(k+1) ),關于誤差的假設是最有用的假設,因為用它可以保證最小二乘法估計過程的統計性質。除了正態性外,我們還假定每一個誤差項的平均值為0,方差為常數, 以及協方差為 0 。假若我們按Y的分布來表示假設(3),則可寫成下式:(32.4)二、 最小二乘法估計我們的目的是求出一個參數向量使得
3、殘差平方和最小,即(32.5)式中,(32.6)(32.7)其中表示回歸殘差的N列向量,而表示Y擬合值的N列向量,表示為估計參數的(k+1) 列向量,將式(32.6)和式(32.7)代入式(32.5),則得:(32.8)為了確定最小二乘法估計量,我們求ESS對進行微分,并使之等于0,即(32.9)所以(32.10)被稱為“交叉乘積矩陣”的 矩陣能夠保證逆變換,這是因為我們假設X的秩為(k+1),該假設直接導致了 的非奇異性。最小化的二階條件是, 是一個正定矩陣。最小二乘法殘差有一個有益的特性,即(32.11)這個結果說明自變量和殘差的交叉乘積的總和為O,這個公式在一些推導中是非常有用的。 現在
4、可以考慮最小二乘估計量的性質。首先可以證明它們是無偏估計量。因為(32.12)設式中,且是常數,這樣(32.13)根據式(32.13) ,可以看到,只要遺漏變量都是隨機分布的,與X無關,并且具有 0 均值,則最小二乘法估計量將是無偏的。(32.14)我們看到,最小二乘法估計量為線性和無偏估計量。事實上,為的最佳線性無偏估計量,也就是說它在全部無偏估計量中方差最小,這就是著名的高斯馬爾可夫定理。為了證明高斯馬爾可夫定理,我們需要證明,任何其他線性估計量b的方差比的方差大。請注意=AY。為了不失去一般性,我們可寫成:(32.15)假如b是無偏的,則(32.16)式(32.16)成立的一個必要和充分
5、的條件是,這樣就可以研究矩陣。由于,所以有(32.17)由于因為,所以,即(32.18)我們可以看出,為一半正定矩陣。該矩陣的二次型為0,只有當(所有元素為0)時才出現。當時,另外的估計量就是普通最小二乘法估計量,這樣,我們的定理就得到證明。三、 的估計和t檢驗為了計算估計參數的方差-協方差矩陣,我們需要給出的估計量,該估計量自然選為(32.19)證明 為 的一個無偏估計量,雖很單調冗長,但不困難。因此,是Var()的估計。當 為已知時,可用正態分布假設檢驗。當用近似時,我們不得不用t假設檢驗。為此,我們利用以下的統計結果:l 若 已知,則服從分布,具有Nk1個自由度;l 錯誤!未定義書簽。服
6、從分布,具有Nk1個自由度;l 錯誤!未定義書簽。,當i=0,1,2,,k時,服從正態分布,平均值為0,方差為,其中vi為的第i個對角線元素;l 錯誤!未定義書簽。和 相互獨立。由此得出:(32.20)該式為t分布,具有(N-k-1)個自由度。這就使我們能按照與前面所述相同的方式確定各個回歸參數的置信區間。假如t值的絕對值相當大,就可以在適當選定的置信水平上否定原假設,參數的置信區間可由下式得出:(32.21)其中為與顯著水平有關的t分布臨界值。四、 R2和F檢驗我們可將Y的總變差分成兩部分,一部分代表已說明變差,另一部分代表末說明變差。為了簡化公式推導過程,首先我們假定Y變量具有0平均值,即
7、 =0,則有(32.22)由于和,所以(32.23)式中為總平方和,為回歸(已說明)平方和,為殘差(未說明)平方和,歸納成回歸方差分析表,見表32.1所示。表32.1 回歸方差分析表變異來源source離差平方和SS自由度df均方MSF統計量FP概率值P回歸RP誤差E總變異T從而,(32.24)若因變量不具有0平均值,我們必須改進一下的定義。這樣,由此可以得出:(32.25)和(32.26)注意到一個數學上的事實:隨著模型中增添新的變量,必定會增加,從而只要給模型增添越來越多的新因素,就可能使得人為地增大。在一元回歸時已經指出較大常指模型與數據擬合得較好,在多元回歸時很容易錯誤地去尋找一個極大
8、化的回歸模型。我們應該知道一個好的多元回歸模型,應具有合理個數的有意義自變量的簡單模型。為了解決這個問題,提出了修正,使得只有當新增變量確實對因變量有所作用時修正才會增加。我們定義為修正的,它是校正擬合優度對自由度的依賴關系,如下式如示:(32.27)現在就可以考慮對回歸系數集的統計檢驗。最通常利用的檢驗是, 這個聯合假設的檢驗。合適的F統計量為:(32.28)為分布,具有k和Nk1自由度。較大的值,可使我們否定原假設。五、 reg回歸過程 在SAS/STAT中有多個進行回歸的過程,如reg、glm等,常用于進行一般線性回歸模型分析的為reg過程。1. proc reg過程Reg過程一般由下列
9、語句控制:proc reg data=數據集集名 ;model 因變量=自變量名列 ;var 變量列表;output out=數據集名 ;plot 繪圖表達式 ;print 關鍵字列;weight 變量;freq 變量;by 變量;restrict 方程1,方程2, ;test 方程1,方程2,;run ;其中model語句是必需要有的,其他語句都是可選的。2. proc reg 語句中的。l outest=SAS數據集將有關模型的參數估計和選擇的統計量輸出到指定的SAS數據集中 。l outsscp=SAS數據集要求把平方和及叉積矩陣輸出到type=sscp的數據集中。l all屏幕輸出所有
10、內容。l usscp對用在該過程中的所有變量輸出平方和及叉積矩陣。l noprint不在屏幕輸出任何內容。3. model語句中的。1) 確定變量篩選辦法的選擇項。l selection =none | forward | backward | stepwise | maxr | minr | rsquare | cp | adjrsq依次表示全部變量進入法none、前進法forward、后退法backward、逐步篩選法stepwise(前進法與后退法的結合)、最大R2增量法maxr、最小R2增量法minr、R2選擇法rsquare、Mallows Cp 選擇法cp、修正R2選擇法adjrs
11、q。2) 其他選擇項見表3.2所示是可在model語句中選用的其他選項。表32.2 model語句中的其他選項acovxpxspecpcorr1slentrydetailsaiccovbistbpcorr2slstaylackfitsbccorrbpcliscorr1startcollinss1mserclmscorr2bestcollinointss2ssebjpadjrsqincludeinfluencevifseqbdwrmsegmsepstoppartialtolallpcspnointsigmanoprintbic其中一些選擇項的意義如下:l acov存在異方差時,輸出參數估計量的漸
12、近協方差陣的估計。l spec進行關于方差異性的檢驗。l slentry | sle =顯著性水平規定入選變量進人方程的顯著性水平。l slstay | sls=剔除水平規定從方程中剔除變量的顯著性水平。l includen強迫前n個自變量進入模型。l starts以含有model語句中前3個自變量的模型開始,進行比較、選擇過程(僅用于maxr或minr方法)。l stops當找到最佳的s個變量模型之后,逐步回歸便停止(僅用于maxr或minr方法)。l p要求計算各觀測點上因變量的預測值。l r作殘差分析,同時給出因變量的預測值。l cli給出各自變量x0所對應的因變量y0的95置信上、下限
13、。l clm給出各自變量所對應的因變量預測值(均數)Eyi i 的95置信上、下限。l noint指明回歸方程不帶截距項(常數項)。l stb要求輸出標準回歸系數。l covb要求輸出回歸系數估計的協方差(陣)估計。l corrb要求輸出回歸系數估計的相關矩陣估計。l mse要求輸出隨機擾動項方差的估計。l rmse要求輸出。l collin在對截距未進行校正的情形下,診斷多重共線性,條件數越大越可能存在共線性。l collinoint在對截距進行校正的情形下,診斷多重共線性。l tol表示共線性水平的容許值。對于某個變量容許值定義為1,其中是由這個變量和模型中所有其他回歸變量建立的回歸模型所
14、得到的。tol越小說明其可用別的自變量解釋的部分多,自然就越可能與別的自變量存在共線性關系,tol與vif互為倒數。l vif輸出變量間相關性的方差膨脹系數,vif越大,說明由于共線性的存在,使方差變大。l influence要求對異常點進行診斷。對每一觀測點,輸出如下表32.3所示統計量:表32.3 診斷異常點的統計量名稱(統計量)含義“異常”的判別準則Leverage(hi)杠桿率hi,第i次觀測自變量的取值在模型中作用的量度 (0hi1)hi越大,則第i 次觀測在模型中的作用就越大Cooks DCOOKD統計量,對某一觀測點引起回歸影響大小的度量。用于診斷異常點。若D 50,則可認為該觀
15、測點對模型的擬合有強的影響covratio協方差矩陣的行列式之比(去掉某一觀測點后、前對比)若| covratio | 3(自變量個數+i),則第i個觀測點值得引起注意defits此值大于2,表明該點影響較大debetas此值大于2,表明該點影響較大 l i要求打印(其中X 為設計矩陣)。l xpx輸出模型的叉積矩陣。l ss1要求打印第一類的模型參數估計的順序平方和。l ss2要求打印第二類的模型參數估計的偏平方和。l all要求輸出SAS所分析的以下選擇項的特性:xpx,ss1,ss2,stb,covb,corrb,seqb,p,r,cli,clm,spec,acov,tol, pcorr
16、1,pcor,r2,scorr1,scorr2。l partial給出每一回歸變量的偏回歸殘差圖。l dw一階自相關檢驗的Durbin-Watson統計量。4. 其他選擇語句l output語句用于把一些計算結果輸出到指定的數據集中。有關的關鍵字及其意義如表32.4所示。表32.4 reg過程的output語旬中的關鍵字關鍵字意義關鍵字意義關鍵字意義predicted預測值l95m95clm下限stdpclm的標準差residual殘差u95m95clm上限stdr殘差的標準差press殘差/(1hi)l9595cli下限stdicli的標準差rstudent刀切殘差u9595cli上限coo
17、kedCook D統計量student學生氏殘差h杠桿點統計量hil var語句列出叉積矩陣中的變量,僅當具有outsscp=sasdataset這個選擇時才使用。l plot語句繪制兩變量的散點圖。語句格式為:plot x*y / 選項。其中x和y變量,可以是原始數據集中的變量,也可以是統計量關鍵字。若變量是統計量關鍵字時,需要在其后加上一個小圓點“”。l restrict語句要求計算線性等式約束的最小二乘估計,其中的方程就是關于回歸系數(用自變量表示)的等式,方程與方程間用逗號分隔。例如對于模型model y=a1 a2 b1 b2,可以用restrict a1+a2=1語句,表示參數估計
18、是在a1+a2=1的條件下,求最小二乘估計。l test語句要求進行線性等式約束的顯著性檢驗,即Tintner檢驗,其中的方程就是關于回歸系數(用自變量表示)的等式,方程與方程間用逗號分隔;test語句一般不與restrict語句同用。例如對于模型model y=a1 a2 b1 b2,可以用test a1+a2=1語句,表示在a1+a2=1原假設條件下作F檢驗。5. 交互式語句下面的這部分語句可以用在proc reg過程中,但常用在reg過程激活后,以交互方式運行。l add 變量名列表向模型中增加變量。l delete 變量名列表刪除原擬合模型中的有關變量。l refit重新擬合模型。l
19、print輸出有關模型的相關信息。reg過程其詳細用法可參閱SAS/STAT的用戶手冊。六、 實例分析例32.1 表32.5列舉了一個班級的學生情況的調查數據,試分析身高對體重的影響。表32.5 bclass記錄數據name姓名age年齡sex性別height身高(厘米)weight體重(公斤)name姓名age年齡sex性別height身高(厘米)weight體重(公斤)KATE12女14543.1FREDRICK14男15442.2LOUISE12女14955.8ALFRED14男15744.9JANE12女13533.6HENRY14男15954.0JACLYN12女16265.8LEW
20、IS14男15741.8LILLIE12女12729.1EDWARD14男16750.8TIM12男14738.1CHRIS14男15744.9JAMES12男14958.1JEFFERY14男16951.3ROBERT12男12535.9MARY15女15241.8BARBARA13女14750.8AMY15女15750.8ALICE13女14948.6ROBERT15男16458.1SUSAN13女13730.4WILLIAM15男15950.4JOHN13男15944.5CLAY15男16247.7JOE13男15447.7MARK15男15247.2MICHAEL13男14243.1D
21、ANNY15男16248.1DAVID13男14535.9MARTHA16女15950.8JUDY14女14936.8MARIAN16女14752.2ELIZABET14女15241.3PHILLIP16男16758.1LESLIE14女15964.5LINDA17女15252.7CAROL14女15438.1KIRK17男16760.8PATTY14女15238.6LAWRENCE17男17278.1 分析和操作步驟過程如下。1. 建立數據文件。首先要將上表32.5中的數據輸入到SAS數據集中,可調用SAS的數據步data過程,建立我們所需的bclass數據集。程序如下:data study
22、.bclass ;input name $ age sex $ height weight ;cards ;KATE 12 F 145 43.1 LOUISE 12 F 149 55.8 LAWRENCE 17 M 172 78.1;run ;2. 制作變量的散點圖。建立完SAS數據集bclass后,一般需要對數據集中要分析的變量weight與height制作散點圖,以便能從圖示中反映學生的身高與體重的關系。一般的處理操作都有菜單操作方法和編程方法2種。如果用菜單操作方法,在SAS/Assist環境中,從Primary Menu主菜單中選擇Graphics/High resolution/ P
23、lots/Simple x*y plot 菜單命令,再選擇Active data set為study.bclass,Vertical axis為weight,Horizontal axis為height,可以在additional options選項菜單中通過Line and Symbol子選項選定所需要的連線類型和點的符號等,最后選擇Locals/Run菜單命令提交運行即可顯示圖形。如果用編程方法,程序如下:goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back
24、);proc gplot data=study.bclass ;plot weight * height ;run ;運行后,在Graph窗口得到見圖321所示的結果。圖51 體重與身高(weight與height)的散點圖3. 相關系數計算。如果用菜單操作方法,可選擇Globals/SAS/Assist/Data Analysis/Elementary/Correlation命令,再選擇Active data set為study.bclass,Columns to be correlated為weight和height,然后提交運行。直接編寫調用相關系數計算的程序為:proc corr da
25、ta= study.bclass ;var weight height ;run ;運行后,在Output窗口得到見表32.6所示的結果。表32.6 身高與體重(weight與height)的相關系數Correlation Analysis2 VAR Variables: WEIGHT HEIGHTSimple StatisticsVariable N Mean Std Dev Sum Minimum MaximumWEIGHT 40 47.66250 10.07415 1907 29.10000 78.10000HEIGHT 40 153.25000 10.47525 6130 125.00
26、000 172.00000Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 40 WEIGHT HEIGHTWEIGHT 1.00000 0.70844 0.0 0.0001HEIGHT 0.70844 1.00000 0.0001 0.0 從輸出的表32.6可以看出高與體重之間相關系數為0.70844。4. 回歸分析。如果用菜單操作方法,可選擇Globals/SAS/Assist/Data Analysis/Regression/Linear regression命令,再選擇Active data set為st
27、udy.bclass,Dependent為weight,Independent為height,然后提交運行。編程實現回歸方法為:proc reg data= study.bclass ;model weight = height /r clm cli dw;run ;其中,模型參數r表示要輸出殘差分析,包括因變量的觀察值、由輸入數據和估計模型來計算的預測值、殘差值、標準誤差、學生化殘差、COOKD統計量。模型參數clm表示對每個觀察輸出因變量期望值的95%置信上界和下界,僅考慮到參數估計的偏差,沒有考慮誤差項的偏差。模型參數cli表示對因變量的各個預測值輸出95%置信上界和下界,這個置信界反映
28、了誤差的偏差以及參數估計的偏差。模型參數dw表示要進行誤差項的對立性檢驗,計算Durbin-Watson統計量。運行后,在Output窗口得到見表32.7所示的結果。 Model: MODEL1 Dependent Variable: WEIGHT Analysis of Variance(方差分析) Sum of Mean Source DF Squares Square F Value ProbF Model 1 1986.48457 1986.48457 38.287 0.0001 Error 38 1971.56918 51.88340 C Total 39 3958.05375 Ro
29、ot MSE 7.20301 R-square 0.5019 Dep Mean 47.66250 Adj R-sq 0.4888 C.V. 15.11254 Parameter Estimates(參數估計) Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 -56. 16. -3.355 0.0018 HEIGHT 1 0. 0. 6.188 0.0001誤差項的獨立性檢驗Durbin-Watson D 1.471(For Number of Obs.) 401st
30、Order Autocorrelation 0.185置信區間 Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Std Err Obs WEIGHT Value Predict Mean Mean Predict Predict Residual Residual 1 43.1000 42.0417 1.457 39.0925 44.9908 27.1647 56.9187 1.0583 7.054 2 55.8000 44.7669 1.231 42.2743 47.2595 29.9737 59.5602 11.033
31、1 7.097 3 33.6000 35.2286 2.310 30.5527 39.9044 19.9155 50.5417 -1.6286 6.82338 52.7000 46.8109 1.147 44.4885 49.1332 32.0453 61.5764 5.8891 7.11139 60.8000 57.0305 1.895 53.1953 60.8658 41.9529 72.1082 3.7695 6.94940 78.1000 60.4371 2.358 55.6639 65.2103 45.0940 75.7802 17.6629 6.806殘差分析 Student Co
32、oks Obs Residual -2-1-0 1 2 D 1 0.150 | | | 0.000 2 1.555 | |* | 0.036 3 -0.239 | | | 0.003 4 1.728 | |* | 0.067 5 -0.104 | | | 0.001 6 -0.749 | *| | 0.0107 1.879 | |* | 0.053 35 -0.110 | | | 0.000 36 1.242 | |* | 0.027 37 0.154 | | | 0.001 38 0.828 | |* | 0.009 39 0.542 | |* | 0.011 40 2.595 | |* |
33、 0.404Sum of Residuals 0Sum of Squared Residuals 1971.5692Predicted Resid SS (Press) 2209.7166表 32.7 回歸分析結果回歸分析根據所選擇的模型參數的輸出,輸出分為若干段,下面逐個段地給以說明:方差分析表提供關于擬合模型的一般信息。總觀察數N=40,自變量個數k=1,回歸模型帶有截距i=1。回歸模型的離差平方和RSS=1986.48457,自變量的個數k=1,所以自由度df=k=1,計算公式見(31.29)式。因變量的樣本離差平方和TSS=3958.05375,自由度為df=N1=401=39,計算公
34、式見(31.34)式。誤差項的樣本離差平方和ESS=1971.56918,自由度df=Nk1=40-1-1=38,計算公式見(31.32)式。注意TSS=RSS+ESS,即3958.05375=1986.48457+1971.56918。回歸模型的離差平方和平均值MSR=RSS/df=1986.48457/1=1986.48457,誤差項的離差平方和平均值MSE=ESS/df=1971.56918/38=51.88340。在原假設所有自變量的回歸系數都為0的情況下,本例只有一個自變量height,即H0:,F(1,38)=MSR/MSE=1986.48457/51.88340=38.287,查
35、F分布表,p值為0.0001小于顯著水平0.05,表明可拒絕原假設并有足夠的證據斷定回歸線的斜率不為零。所以,這一模型擬合數據比基線模型好。無偏的誤差估計標準值Root MSE= 7.20301,因變量weight平均值Dep Mean=47.66250,變異系數(或稱方差系數)CV=Root MSE/Dep Mean100=7.20301/47.66250100=15.11254,它表示與單位無關的方差。RSquare是01之間的值,它表示貢獻給模型而不是貢獻給擬合殘差的總方差的那部分,它也稱為決定系數或擬合優度,用于判斷回歸模型擬合好壞。R2=1ESS/TSS=RSS/TSS=1986.4
36、8457/3958.05375= 0.5019,調整 R2=1ESS/TSS(N-i)/(N-k-i)=1-1971.56918/3958.0537539/38=0.4888,R2越是接近1說明模型擬合的越好,等于1則說明完全擬合,沒有任何信息丟失,本例的R2值表明有一半信息丟失沒有被回歸模型表示出來,通常R2應該超過0.7以上才比較好。參數估計表給出截距和斜率的估計值,方程表明截距的估計值為56.,斜率的估計值為0.,計算公式見(31.17)和(31.19式)。估計截距的標準誤差計算公式見(31.37)式,其中,自變量height的平均值=153.25,自變量height的離差平方和=427
37、9.5,估計誤差51.88340,所以估計截距的標準誤差=16.,截距等于零的原假設下,計算出的t(38)=56./16.=3.355,大于此臨界點絕對值出現的概率為0.0018,遠遠地小于5%,有充足的理由否決截距為零的原假設。估計斜率的標準誤差計算公式見(5.1.38)式,估計斜率的標準誤差=0.,斜率等于零的原假設下,計算出的t(38)= 0./0.=6.188,大于此臨界點絕對值出現的概率為0.0001,遠遠地小于5%,有充足的理由否決斜率為零的原假設。自由度為38的T分布,95%置信區間的雙側臨界值為2.,所以截距的95%置信區間的下界=56.2.16.=90.,上界=56.2.16
38、.=22.5112,斜率的95%置信區間的下界=0.2.0.=0.,上界=0.2.0.=0.。置信區間分析,輸出了weight因變量(Dep Var)的40條原始觀察值和回歸模型的預測均值(Predict Value),及預測均值的標準差(Std Err Predict)、預測均值的置信區間下界(Lower95% Mean)和上界(Upper95% Mean)、預測值的置信區間下界(Lower95% Predict)和上界(Upper95% Predict)、殘差(Residual)、殘差的標準差(Std Err Residual)。我們以第一條觀察(Obs=1)為例來說明計算過程,已知第一條
39、的觀察=43.1,=145,根據回歸模型最小二乘法計算出的估計參數,可以得到預測均值為56.0.145=42.0417。第一條觀察的杠桿率計算公式見(31.42)式,=0.,所以預測均值的標準差= 1.457。預測均值服從自由度為38的T分布,這樣預測均值的95%置信區間下界=42.04172.1.457=39.0925,上界=42.04172.1.457=44.9908。預測值的方差除了要考慮參數估計的偏差,還要考慮誤差項的偏差,所以要在預測均值的偏差上加上一個誤差項的偏差,計算公式見(31.44)式,預測值的標準差=7.,這樣預測值的95%置信區間下界=42.04172.7.=27.164
40、7,上界=42.04172.7.=56.9187,我們從上面的置信區間計算中可以發現二個知識點,第一知識個點,預測值的置信區間要大于預測均值的置信區間,第二個知識點,越是接近自變量height平均值153.25的height觀察值,它的因變量weight預測均值和預測值的置信區間越是窄,而越是偏離自變量平均值153.25的height觀察值,它的因變量weight預測均值和預測值的置信區間越是寬,從圖形上直觀地看置信區間為中間窄,兩頭形成喇叭口。殘差分析,我們仍然以第一條觀察為例來說明計算過程。殘差=43.100042.0417= 1.0583。標準殘差的計算公式見(31.46)式,標準殘差=
41、7.054,學生化殘差(Student Residual)=殘差/標準殘差=1.0583/7.054= 0.150。由于學生化殘差服從標準正態分布,將學生化殘差畫在殘差圖上,我們可以清楚地看到大約68%的學生化殘差值落在一個標準差1到1之間,而大約95%學生化殘差值落在二個標準差2到2之間。基本上認為模型的誤差項正態分布及同方差假設,在診斷上沒有太大問題。殘差之和=0,殘差的平方和=1971.5692。COOKD統計量用于預測每個觀察點是否為強影響點或稱異常點,它是通過刪除這個觀察點后重新用最小二乘估計求解參數值,來分析這個觀察點。觀察點的COOKD統計量小于50%,我們認為不存在異常情況。P
42、RESS統計量是預測殘差的平方和,第i個觀察的殘差定義為,其中為刪除第i個觀察后從余下的組數據中重新用最小二乘法求出的參數估計,計算出的第i個觀察的預測值。第i個觀察的預測殘差為。誤差的獨立性檢驗,它是回歸模型的三大假設之一。我們采用針對殘差一階自相關性進行計算的Durbin-Watson統計量來檢驗,計算公式見(31.48)式,相鄰殘差之差的平方和=2899.603,DW=2899.603/1971.56918=1.471,DW值靠近2說明誤差基本上是獨立的,小于2說明是正相關。殘差一階自相關系數=0.185,接近0也說明了誤差基本上是獨立的。殘差一階自相關系數的計算方法與一般的相關系數計算
43、公式類似,殘差值的第一個序列數據為第1個殘差到第39個殘差,第二個序列數據為第2個殘差到第40個殘差,簡化公式為第一、二個序列殘差數據的平均值為0,標準化時(公式的分母)取殘差值從1個到40個,即。5. 輸出帶有回歸線的散點圖。如果我們需要輸出帶有回歸線的散點圖,菜單操作方法是通過在additional options選項菜單中選擇Regression Plots/Plots of dependent by independent columns命令,重新再提交一次。注意,此時還可以同時選擇輸出殘差圖。程序的方法是在proc reg過程里增加plot語句,要注意SAS的關鍵字使用在plot語句
44、中時要加小圓點,這里是預測值p關鍵字,增加的plot語句如下:plot weight * height=+ p.* height=*/ overlay ;如果我們需要輸出高分辯率的回歸線圖形,可以先在reg過程中將擬合的預測值p輸出到一個SAS數據集如bclassg中,再調用gplot過程繪制圖形。增加的output語句如下:output out=study.bclassg p=predict l95=clil95 u95=cliu95;繪制高分辨率的帶有回歸線的散點圖程序如下:goptions reset=global gunit=pct cback=white border htitle=
45、6 htext=3 ftext=swissb colors=(back);proc gplot data=bclassg ;plot weight*height predict*height clil95*height cliu95*height/overlay;symbol1 v=plus c=red i=none h=2.5;symbol2 i=spline v=none c=blue;symbol3 i=spline v=none c=red l=3;symbol4 i=spline v=none c=black l=3;run ;注意,我們也可以用圖形自帶i=rlcli95選項,直接繪
46、制預測值的置信區間上下界。運行后,在Graph窗口得到見圖322所示結果。圖52 帶有回歸線、95%置信線的體重與身高(weight與height)散點圖從繪制出的帶有回歸線的圖形可形象地看出模型擬合數據比只用均值預測的基線模型好。仔細觀察圖形,兩條95%的上下預測值置信帶呈現兩頭喇叭口。此外,還可用性別來分組,分別對男生和女生進行回歸分析,分別建立男生和女生的回歸模型。例32.2 研究耗氧量模型。這是有關身體適應性測試的例子,肺活量與一些簡單的鍛煉測試數據的擬合,目的是為了在鍛煉測試的基礎上而不是在昂貴笨重的氧氣消耗測試的基礎上得到方程來預測適應性。由于回歸是相關的,所以理論上還應該請求共線
47、性診斷。該數據名為fitness,這是一個對31位成年人心肺功能的調查結果,它包含的變量見下表32.8,測試的各項數據見下表32.9。表32.8 fitness數據集的變量名變量名含義age年齡weight體重oxygen耗氧量runtime跑15英哩的時間(分)rstpulse休息時每分鐘心跳次數runpulse跑步時每分鐘心跳次數maxpulse每分鐘心跳次數最大值表32.9 fitness數據集中的測試數據age weight oxygen runtime rstpulse runpulse maxpulse 4489.4744.60911.37621781824075.0745.313
48、10.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.373
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 標準化住宅小區業主物業服務合同樣本
- 長途載重貨車租借合同書
- 建設工程施工合同風險防范
- 預售樓盤標準合同文本示例
- 辦公用房租賃合同:商務合作新篇章
- 標準公寓租賃合同范本
- 租賃酒店場地合同樣本
- 工程項目承包合同公示
- 廣福花園A19棟5號商業合同簽約注意事項
- 鋼材供應合同樣本
- 鄉村教師先進事跡材料:做好老師做好人
- 腹部損傷病人護理查房
- 垃圾滲濾液處理站運維及滲濾液處理投標方案(技術標)
- 高考專題復習:詩歌鑒賞之詠史懷古詩
- 過程能力測量報告 Cg Cgk
- 感染誘發的老年多器官功能障礙綜合征診斷與治療中國指南 202
- 傳感器與檢測技術(項目式)PPT完整全套教學課件
- 項目內部承包管理辦法
- 2023年學位英語考試模擬試題三及答案
- 《戰略性新興產業分類(2023年)》
- LY/T 1956-2022縣級林地保護利用規劃編制技術規程
評論
0/150
提交評論