[數(shù)學(xué)]有關(guān)SAS統(tǒng)計檢驗的模型_第1頁
[數(shù)學(xué)]有關(guān)SAS統(tǒng)計檢驗的模型_第2頁
[數(shù)學(xué)]有關(guān)SAS統(tǒng)計檢驗的模型_第3頁
[數(shù)學(xué)]有關(guān)SAS統(tǒng)計檢驗的模型_第4頁
[數(shù)學(xué)]有關(guān)SAS統(tǒng)計檢驗的模型_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第 4 章 SAS 根本統(tǒng)計分析功能教學(xué)要求:了解幾種假設(shè)檢驗、線性回歸、方差分析、擬合優(yōu)度檢驗、列聯(lián)表檢驗的原理背景掌握SAS語言進行均值假設(shè)檢驗掌握SAS語言進行線性回歸與方差分析掌握SAS語言進行擬合優(yōu)度檢驗與列聯(lián)表檢驗引言:前面介紹SAS的編程來進行初步的統(tǒng)計分析、報表、繪圖.本章我們講述用SAS進行統(tǒng)計檢驗、線性回歸、方差分析、擬合優(yōu)度檢驗和列聯(lián)表檢驗.4.1假設(shè)檢驗4.1.1 正態(tài)性檢驗(univariate 過程)1.背景原理:正態(tài)分布是一種最常見的分布,也是一種最重要的連續(xù)型分布,它以均值為對稱軸呈對稱的鐘型分布.檢3的零假設(shè)Ho:數(shù)據(jù)資料服從正態(tài)分布.備擇假設(shè)H1:數(shù)據(jù)資料不

2、服從正態(tài)分布.當(dāng)樣本量n2000時,應(yīng)用Kolmogorov-smirnov檢驗法,檢驗統(tǒng)計量為D=max:fn(Xi)-F(x),fn(Xi/)一F(x)13_nD值越大,P值越小,說明資料越不服從正態(tài)分布,反之,D值越小,P值越大,說明資料越服從正態(tài)分布.2.舉例在procunivariate語句中加上normal選項可以進行正態(tài)性檢驗. 【例例1檢驗數(shù)據(jù)集sasuser.gpa中變量gpa是否服從正態(tài)分布?輸出結(jié)果中正態(tài)檢驗局部為:正態(tài)性檢驗正態(tài)性檢驗檢驗檢驗- - -統(tǒng)計統(tǒng)計量量- -P 值值Shapiro-WiIkW0.966294PrWD0.0488Craifter-vonMise

3、sW-Sq0.212179PrW-SqA-Sqtan-1J補充P值檢驗法:所以,假設(shè)檢驗的p值方法為:對給定的顯著水平“,當(dāng)p出寸,接受H0此例介紹的p值檢驗法對其他統(tǒng)計檢驗也使用,一般說來,檢驗的p值是檢驗統(tǒng)計量取其觀測值及更極端值得概率,統(tǒng)計軟件對假設(shè)檢驗都會計算檢驗的p值.2.應(yīng)用舉例在SAS中用univariate過程默認(rèn)進行某個變量均值為零科0=0的t檢驗,假設(shè)要檢驗1=10,那么需進行變量代換.例2:檢驗數(shù)據(jù)集sasuser.class中學(xué)生的身高均值與63有無顯著性差異.過程1.原理背景設(shè)總體XN,言未知,給定檢驗水平%對常數(shù)科要檢驗分位數(shù)t1-及什1滿足Pr|t|t設(shè)由已經(jīng)得到

4、的樣本具體計算得到的大量重復(fù)試驗而言,t是隨機變量,且服從1-a/2n-1=at值為t.,假設(shè)|t0|t1-/2n-1 ,那么拒絕H0,否那么接受H.對t分布t n-1 .當(dāng)1t0|tPr|t|t0,那么|t01Vt0Pr|t|t1-q(n-1)=a1-/2(n-1)等價于pa程序:UNIVARIATE過程過程變量:變量: 矩矩正態(tài)性檢躲正態(tài)性檢躲檢驗檢驗統(tǒng)計量統(tǒng)計量- -P值值Shi&piro-VIiIkW0.8790B3PrD0,1500C-ramer-vonr-Sq0.04Q51EPrl-Sq0.2500Andersen-Dar1ineA-Sq0.235778PrA-Sq0.25

5、00位置檢驗:位置檢驗:Mu0=0檢驗一統(tǒng)計量檢驗一統(tǒng)計量-學(xué)生學(xué)生tI-0.5638符號符號M-0.5符號秩符號秩S-10.5分析: 先作正態(tài)性檢驗.Ho: 變量y服從正態(tài)分布,其中shapiro-wilk檢驗的統(tǒng)計量為w=0.979083,檢驗的p彳1=0.9312=0.05,故應(yīng)接受零假設(shè),即有95%把握認(rèn)為變量y正態(tài).故采用單中本均值T檢驗.X變量y的零假設(shè)為Ho:科0=0.由輸出結(jié)果知T檢驗的統(tǒng)計量t=-0.5638,雙邊檢驗的p值為0.5798燈0.05,故接受原假設(shè),即有95%的把握接受學(xué)生的平均身高為63.說明:4當(dāng)變量服從正態(tài)分布時,優(yōu)先采用t檢驗,當(dāng)變量服從非正態(tài)時,可以采

6、用符號秩signedRank檢驗,符號檢驗sign的檢驗成效較差,一般不常用它.4對同一問題不同的檢驗方法一般是一致的,但有時也有互相矛盾的結(jié)果.4使用SAS軟件中的分析家,翻開數(shù)據(jù)集后,利用菜單“統(tǒng)計一“假設(shè)檢驗一“均值的單樣本T檢驗可以進行雙邊和單邊檢驗.4.1.3 兩獨立樣本均值檢驗TTest 過程、npar1way 過程1.原理背景假設(shè)兩組樣本來自兩個獨立總體,需要檢驗兩個總體的均值或中央位置是否一樣.如果兩個總體都服輸出結(jié)果為:均值均值標(biāo)推偏差標(biāo)推偏差限度限度未校平方和未校平方和變異系數(shù)變異系數(shù)n權(quán)重總和權(quán)重總和19-0.6631679觀觀測總和測總和-12.E5.12707525方

7、差方差2工?工?8圈網(wǎng)圈網(wǎng)6-0.2596695哩度哩度-0J389S82481.53校正平方和校正平方和473.164211-773.13039標(biāo)潴誤差均值標(biāo)潴誤差均值1.17623173均中眾值位數(shù)根本統(tǒng)計測度根本統(tǒng)計測度位置變異性位置變異性標(biāo)準(zhǔn)偏差標(biāo)準(zhǔn)偏差6J2708-0.20000方差方差6.26690-0.50000極差極差20,70000四分位極差四分位極差9.00000NOTE:顯不顯不的眾數(shù)是的眾數(shù)是2個個眾數(shù)的最小值計數(shù)為眾數(shù)的最小值計數(shù)為位置檢費:位置檢費:MM二二Q一統(tǒng)計量一統(tǒng)計量- -一一P值值秩生號號字符得t-0.5538M-0.5S-10,5PrFrXPrX0,57

8、98LOOQO0,6064Pr1+1Pr=MPr=S0.57331.00000.60B4從正態(tài)分布,那么可使用兩獨立樣本均值的T檢驗.有關(guān)公式如下:設(shè)兩個樣本的均值為Xi,X2,方差為Si,S2,觀測量為ni,n2o兩個樣本方差相等與不相等時使用的檢驗統(tǒng)計量是不一樣的,所以應(yīng)該先對方差的齊性進行檢驗.方差齊性檢驗的零假設(shè)為H0:兩個獨立樣本的來自方差相等的總體,即仃12=仃22,檢驗統(tǒng)計量為Max(S,S2)|F=LMin(S1,S2)方差齊時,檢驗兩樣本的均值是否相同的零假設(shè)為Ho:兩個獨立樣本的來自均值相等的總體,即R=5檢驗統(tǒng)計量為tXX2Ut(ni+n2-2)c11SC,n1n2.一2

9、一,.一2口士(丹1)+(上1)S2、/.+平其中Sc-為合并方差.:n1n2-2方差不齊時,檢驗兩樣本的均值是否相同,用校正t檢驗.檢驗零假設(shè)為均值相等的總體,即,檢驗統(tǒng)計量為2 .Ttest過程格式:PROCTTEST選項;CLASS變量名;VAR變量名;BY變量名;RUN;說明:(1)proc語句中的選項有:Data=數(shù)據(jù)集,指明要分析的數(shù)據(jù)集;Cochran要求在方差不齊時用Cochran和Cox法計算t檢驗的概率水平;(2)Class語句中的變量必須是一個兩水平的分組變量,系統(tǒng)會把數(shù)據(jù)集中的觀測按這個變量的兩個水平分成比擬的兩組.(3)by語句和var語句作用同前.【例3】某克山病區(qū)

10、測得11例克山病人與13名健康人的血磷值(mmol/L)如表,據(jù)此判斷該地急性克山病人與健康人的血磷值是否相同?患者組0.841.051.21.391.531.671.81.872.072.11健康組0.540.640.640.760.841.351.481.581.87程序為:F(ni-1,n2-1)H0:兩個獨立樣本的來自t(nin2-2)UNIVARIATE過程過程變量:變量:x根本筋計測度根本筋計測度位置變異性位置變異性位置檢駐:位置檢駐:MuFU統(tǒng)計量統(tǒng)計量-P值值t11.95916PrIII.0001M5.5PrXMl0,0010S33PrXS|0.0010輸

11、出為:酊0up二1均值均值標(biāo)淮偏差標(biāo)淮偏差偏度偏度未校平方和未校平方和變異系數(shù)變異系數(shù)11根重總和根重總和111.5209. .的的9觀測總和觀測總和 16. .抬抬0.42178271方差方差0.1779D309-0.0828765瞳度瞳度-L164078527.2239校正平方和校正平方和1.7790909127.7329338標(biāo)淮誤差均值標(biāo)淮誤差均值0.12717529均值均值1.520909中位數(shù)中位數(shù)1J30000眾數(shù)眾數(shù)1,200000標(biāo)推偏差標(biāo)推偏差方差方差極差極差四分位梃差四分位梃差0.421780.177911.270000.67000t秩驗生號號檢學(xué)將符檢驗檢驗Shaplr

12、o-ViIkKolmagorDv-SiftirnovCramer-vonMi萼已0ndersonDarIing_1-三=K*Pr0,1500PrW-Sq0,2500PrA-Sq0.2500fiJFQUp二?二?UNI贈贈 RMTE 過程過程變量變量: :x正態(tài)性檢驗正態(tài)性檢驗統(tǒng)計量統(tǒng)計量W0.969147D0.140255W-$q0.0274420,1944叱叱均值均值標(biāo)惟偏差隔標(biāo)惟偏差隔度未校平方度未校平方和變異系數(shù)和變異系數(shù)131.08G153850.424058530.3428812217.434439,0422164權(quán)重總和觀測權(quán)重總和觀測總和方差唾蔗總和方差唾蔗校正平方和標(biāo)校正平方和

13、標(biāo)準(zhǔn)誤差均值準(zhǔn)誤差均值13U.120.17992564-1.07753S42J57907690J176126S根本統(tǒng)計測度根本統(tǒng)計測度位置變異性位置變異性均中眾值位數(shù)1.086154標(biāo)標(biāo)唯偏差唯偏差0.42406L160000方差方差0.17S83U,40000極差極差133叩叩. .四分位極差四分位極差0.80000位置檢驗:位置檢驗:Mu0=0秩臉生號號檢學(xué)將符一線計量一線計量P值值t9,235007M6.5845.500010.00020.0002正態(tài)性檢將正態(tài)性檢將檢驗統(tǒng)計量檢驗統(tǒng)計量P 值值ShgircrWiIkVI0.927888PrDD.1421Cramer-vonMisesW-

14、Sq0.070358PrW-的的0.2500Anderson-LarlinsA-Sq0.416755Prfl-Sq0.2500VariableXXStatisticsMaximum2.111.07eroup12Diff(b2)N1113LowerCLMean1.23750.82991.0759Mean1.520913620.4340UpperCLMeanLB0431.34240,7842LowerCLSidDev0.29470-30410.9272StdDev0.42I00.42410.423UtJperCLStdDev0.74020-70.5937StdErr0.12720.11750.17

15、33Minimw0.840.64Variab1aMethodT-T&stsVftriiftcesDFIVildBPrItl1Equal1tyofVariancesVartableMethodNumDFDsnDFFYtluaPrFXFo1ded F12W1.011.0000分析:(1)先作正態(tài)性檢驗如下:零假設(shè)為Ho:患者組的血磷值變量x服從正態(tài)分布,其中患者組的shapiro-wilk檢驗的統(tǒng)計量為w=0.959147,檢驗的p=0.7610“=0.05,故應(yīng)接受零假設(shè),即有95%把握認(rèn)為x正態(tài).零假設(shè)為Ho:健康組的血磷值變量x服從正態(tài)分布,其中健康組的shapiro-wilk檢驗的

16、統(tǒng)計量為w=0.927983,檢驗的p=0.3207“=0.05,故應(yīng)接受零假設(shè),即有95%把握認(rèn)為x正態(tài).(2)因此可采用兩獨立樣本均值的T檢驗.由ttest過程輸出先作方差齊性檢驗如下:H0:患者組和健康組來自方差相等的總體,即52=仃22,檢驗的統(tǒng)計量F=1.01,P=1.000a=0.05,故應(yīng)接受零假設(shè),即有95%把握認(rèn)為患者組和健康組方差滿足齊性.再彳T檢驗.HO:患者組和健康組來自均值相等的總體,即3=%.選擇方差齊性一行的結(jié)果知t=2.51,p=0.0220.2989Two-SidedPr|z|0.5378tApproximation0he-SidedPr520.2932Two

17、-StdedPr|Z|0.5993Zincludeacontinuitycorrectionof0,5,Kruskal-aIIisTestChi-Squareij.2795DF1prg4.4TheNPfiRlWAYProcedurePrChi-Square0.5970分析:在例1中我們討論過變量gpa是非正態(tài)分布,故要采用wilxocon秩和非參數(shù)檢驗方法.零假設(shè)為H0:男生和女生來自中央位置相同的總體.由輸出結(jié)果的wilcoxon秩和檢驗中用正態(tài)近似得到的雙邊檢驗的z=0.5276,p=0.5978燈0.05,故應(yīng)接受零假設(shè),即有95%把握認(rèn)為男生和女生的gpa無顯著性差異.4.1.4 兩相

18、關(guān)樣本均值檢驗Univariate 過程1.原理背景:適用于有兩種情況,一種是將研究對象按一定的條件先配對,每對中的兩個對象隨機分配到實驗組和對照組,一個試驗由假設(shè)干對組成,稱為配對試驗設(shè)計;另一種情況是同一批研究對象經(jīng)過某種處理前后的指標(biāo)值比擬,或者是同一批樣品經(jīng)過兩種不同方法的測定結(jié)果的比擬.此時這兩個變量不再獨立,而是相關(guān)的,檢驗兩個相關(guān)變量的均值是否相等,等價于檢驗這兩個變量間的差值變量的均值是否為零.當(dāng)差值變量服從正態(tài)分布時,可用配對樣本T檢驗的統(tǒng)計量為X-0t二S/.n其中X為兩個樣本的差值變量,X、S分別為差值變量的均值和標(biāo)準(zhǔn)差.2.實例分析為了檢驗兩個相關(guān)樣本的均值是否有顯著差

19、異,先用一個數(shù)據(jù)步計算差值,然后對差值變量用univariate過程可以實現(xiàn)檢驗差值變量的均值是否顯著為零.【例5】用克矽平霧化吸入治療矽肺患者7人,沒得治療前后的血清粘蛋白(mg/L)7對觀測值如表,據(jù)此能否認(rèn)為治療會引起血清蛋白的變化?a=0.05)1234567治療前65737330735673治療后343603726433750程序為:輸出局部結(jié)果:UNIVARIATE過程過程變量:變量:x分析:先作正態(tài)性檢驗如下:零假設(shè)為Ho:差值變量x服從正態(tài)分布,由輸出結(jié)果知shapiro-wilk檢驗的統(tǒng)計量為w=0.896832,檢驗的p=0.31220=0.05,故應(yīng)接受零假設(shè),即有95%

20、把握認(rèn)為x正態(tài).故可采用兩相關(guān)樣本均值T檢驗.H.:治療前后的差值變量x的均值為0.由輸出結(jié)果知T檢驗的統(tǒng)計量t=5.879298,雙邊檢驗的p值為0.0011|t|0,00113.5PrAM0.015614Pr=S040156統(tǒng)統(tǒng) i 十量十量 P 值值Sh&plro-YllkSh&plro-YllkKeiImogorov-SirnovCrdmer-YonMiswAnd&rson-DarIingWDV-SqA-Sq0.8368320.21E8720.0519561350785sqsqsqsq-WDWArFrrFrr rpppppppp0.31220.15000.250

21、00.2500輸出為:FJ均值標(biāo)法均值標(biāo)法偏差偏差偏度偏度未校平方和未校平方和變異系數(shù)變異系數(shù)UNIVARIATE過程過程變量:變量:diff矩矩10根重總和根重總和91.5觀惻總和觀惻總和38.4136833方差方差-1.3711697峰度峰度23203校正校正平方和平方和121.94S203標(biāo)準(zhǔn)誤差均值標(biāo)準(zhǔn)誤差均值103151475.611111.2S62659713280.512.1474734根本統(tǒng)計測度根本統(tǒng)計測度位置位置變異性變異性淋-值位數(shù)均中眾310000標(biāo)睢偏差標(biāo)睢偏差38.4136833.50000方差方差147629.00000極差極差119前網(wǎng)叩前網(wǎng)叩四分位極差四分位極

22、差32.00000NOTE:顯示的眾數(shù)是顯示的眾數(shù)是2個眾數(shù)的最小值個眾數(shù)的最小值計數(shù)為計數(shù)為2H位置檢驗:位置檢驗:MuC-0檢瞼一統(tǒng)計及一檢瞼一統(tǒng)計及一- -P值值- -學(xué)生學(xué)生tt2.593132P I符號符號M3Pr=符號秩符號秩S20.5Pr=0.02810JO940.0332正態(tài)正態(tài)性檢騎性檢騎檢肺檢肺統(tǒng)統(tǒng) i 十量十量- -P值值ShftpiroWiIkW0.S35307PrD0.0323CramervonMisesW-Sq0.121702PrV-Sq0.0430Anderson-Dar1inaA-Sq0.707072PrA-Sq0.0450分析:先作正態(tài)性檢驗如下:零假設(shè)為Ho

23、:差值變量diff服從正態(tài)分布,由輸出結(jié)果知shapiro-wilk檢驗的統(tǒng)計量為w=0.835307,檢驗的p=0.03880=0.05,故應(yīng)拒絕零假設(shè),即有95%把握認(rèn)為差值變量diff不服從正態(tài)分布.故采用符號秩非參數(shù)檢驗.H.:差值變量diff的均值為0.由輸出結(jié)果知符號秩檢驗的統(tǒng)計量S=20.5,雙邊檢驗的p值為0.0332“=0.05,故接受Ho,即第1組數(shù)據(jù)服從正態(tài)分布.類似可得第二、三、四、五組數(shù)據(jù)的shapiro-wilk統(tǒng)計量為w=0.937882、0.964898、0.985353、0.935122,檢驗的p=0.6415、0.8097、0.9326、0.6248a=0.

24、05,故這四組數(shù)據(jù)也服從正態(tài)分布.(2)方差齊性檢驗.Ho:5組數(shù)據(jù)的方差相等.正態(tài)分布由Leneve方差齊性檢驗的F=1.53,p=0.2451a=0.05,故這5組數(shù)據(jù)滿足方差齊性.(3)方差分析.Ho:5組數(shù)據(jù)的均值相等.由方差分析表中F=4.31,p=0.0162FMbdsl413195.700003233.925004.310.0162Error1511491.50000766.10000CorrectedTotal1924G87.20000R-SmareCoeffVarRootMSEKMean0.53451610.5723927,67351261,8000SourceDFP24M0

25、城氏SS13195.70000MenSquare3298.92500FVetlue4.31PrF0.01B2Levene1;AN0VAofiurMTheAND脂Pracedure$TestforHomogenelLyofxVarianceSquaredPaviationsfrc*iGroupMeansrjv-r1LevelPZTheAIWVAProcedureofX-NMeanStdDevP2431201相相Error157豕241479004tJ1.53Qi.245151143812345123454264.00000032.86335354277.25000024.431878142S9.

26、75000039.80263814235.500000235000005.7445626TheANCJVAProcedureSUI*OfSourceDFSquaresMeaiTiSouaireFValuePrFC=KK_c其中c滿足PHOK至c=a【例2】對上例1采用Krushal-Wallis檢驗法,檢驗不同品種的油菜的平均畝產(chǎn)是否相同.&=0.05輸出為:TheNPAR1WAYProcedureWiIcoxonSeeres(RankSums)forVariablexClaesifledbyVariableP2PZNSumofScoresExpectedUn

27、derHOStdDevUnderHOMeanScore1444.504210.57504511.125. .2452.0042.010.57504518.00003446.0042,010.5750451L50004457.5042.010.67604514.37605410JO42.010.5750462.6000Averagescoreswereusedfortie%Kruskal-fa11isTextChi-Square9.3185DF4PrChiSquare0,0418分析:HO:不同品種的油菜的平均畝產(chǎn)相同,由輸出結(jié)果中的Krushal-Wallis檢驗的?統(tǒng)計量為9.9185p=0

28、.0418a=0.05,故拒絕H0,即不同品種的油菜的平均畝產(chǎn)有顯著不同.注:在同等條件下Krushal-Wallis檢驗的成效比方差分析工效低,所以此處p值0.0418比方差分析中的p值0.0162要大.4.2.3 多因素方差分析SAS還提供了假設(shè)干個方差分析過程,可考慮多個因素、有交互作用、有嵌套等情況的方差分析.接下來我們只介紹用anova過程進行均衡設(shè)計的多因素方差分析.原理說明:固定水平的雙因素方差分析模型:X.=N+ot.+B.+工.十名八ijkijijijk_2_鳥jkN0產(chǎn)=1,2,rj=1,2,s,k=1,2,t,rsrsi=3=%=Lj=0i1j1i1j1其它同理類似.【例

29、3】:為了提升一種橡膠的定強,考慮三種不同的促進劑因素A、四種不同分量的氧化鋅因素Bdatarubber2;方法二;使用循環(huán)掙制建立數(shù)據(jù)集方法二;使用循環(huán)掙制建立數(shù)據(jù)集*/*/dodoa-a-1 1toto3 3; ;dob=lto4;doc=lto2:inpurtstrenstrenoutputoutput; ;end:end:run;- -procanovaprocanovadata=rubber1:classab;modelstrerpab;/*;/*分析因素確因素分析因素確因素B的主效應(yīng)和交互效應(yīng)的主效應(yīng)和交互效應(yīng)queansab:,*,*分析最正確配方分析最正確配方*/*/run;r

30、un;lFModel11183.456333317,507121212.06Fa256.583333328.29儂儂6719.400.0002b3I32J25DOOO44.041666730.20.0001a*be4.76000000.79166670.540JGS5The/NOVAProcedureLevelofAstrenNMeanStdDev1S35.25000002.60494036283G,87500002.587745853S船船oodho2.92770022LevelofstrensNMeanMeanStdDev分析:1對于檢驗促進劑因素A的主效應(yīng),H0:三種促進劑對橡膠的定強的

31、主效應(yīng)為0.由輸出結(jié)果的詳細(xì)方差分析表中,因素A對應(yīng)的F統(tǒng)計量為19.40,p值為0.0002,小于給定的顯著性水平a=0.05,故因素A對橡膠定強的主效應(yīng)是顯性的.同理可得氧化鋅因素B的主效應(yīng)是顯著的,A和B的交互效應(yīng)不顯著.2為了得到最好配方,由輸出結(jié)果的每種水平下,指標(biāo)定強stren的均值,可得促進劑因素A在第3水平使指標(biāo)達最大值,氧化鋅在第4水平時使指標(biāo)達最大,故最正確配方為:第3種促進劑和第4種氧化鋅分量.4.3回歸分析回歸分析是研究變量之間的依存關(guān)系.如果因變量Y和自變量或稱為解釋變量X呈直線關(guān)系時,稱直線回歸,直線回歸要求變量Y服從正態(tài)分布且方差相等.當(dāng)變量間不是線性關(guān)系時,通常

32、需要進行TheANOVAProcedure33.839333336,333333337.666666740,33383332.041241451.3B626010L*卸卸蝴蝴2.42212028數(shù)據(jù)變換,再進行線性回歸分析,或直接用原數(shù)據(jù)進行非線性回歸.根據(jù)資料類型,SAS可以進行各類回歸分析:常用SAS過程回歸類型資料類型因變量自變量Reg線性回歸數(shù)值變量數(shù)值變量GLM協(xié)方差模型、一般線性模型數(shù)值變量數(shù)值變量、分類變量LogisticLogistic回歸分類及重數(shù)值變量、分類變量CatmodLogisticPoisson回歸分類及重數(shù)值變量、分類變量Nlin非線性回歸數(shù)值變量數(shù)值變量4.3.

33、1 直線回歸1背景概述多元線性回歸分析簡介假定因變量y與k個解釋變量xi,x2,x具有線性關(guān)系,即總體回歸模型:yi=1+bi*+b?X2i+.+bkXki+%,匕N(0,Q2I),i=1,2,.,n或E(yi)=b0biXiib2X2ibkXkiAAAAA樣本回歸模型:y=b0+b1可+b2X2i+.+bkXki殘差:?=y-%n2取小一乘法:min鏟口b0,b1,b2,.bki丑總離差平方和的分解式:總平方和=解釋平方和+殘差平方和22-2-TSS=ESS+RSS即工(yi-y)=(yi-y)十(yi-yi)2判定系數(shù):R2=9=(yL巴TSS工(yy)回歸模型的顯著性檢驗(F檢驗):Ho

34、:b1=b2=bk=0H1:b1,b2,bk至少有一個不為0.RSS/k檢驗統(tǒng)計量F=-RSSAF(k,n-k-1)ESS/(n-k-1)變量(如xj顯著性檢驗(t檢驗):Ho:bi=0,H1:be.檢驗統(tǒng)計量t=、上t(n-k-1)Sb2.reg過程格式:Procreg212=數(shù)據(jù)集名選項;Var可參與建模的變量列表;Model因變量=自變量表/選項;Print輸出結(jié)果;Plot診斷圖形;Run;思路:先考察weight與heightage間的線性關(guān)系,可用散點圖和相關(guān)分析,確定有線性關(guān)系后再作回歸分析.二X,1T一/*/*線性回歸分析:線性回歸分析:re過程過程*/*/八作散點圖八作散點圖

35、*/*/- -procgplotprocgplot; ;symbol1i-nonev=starcolor=blue:symbol2i=nonev=starcolor=black;plotplotheight*weight=lage*weight=2/height*weight=lage*weight=2/overlay;overlay;runjrunj作相關(guān)分析作相關(guān)分析*/*/- -proccorrproccorrdatdata=sasuser.classa=sasuser.class; ;varweightheightage;runrun:“多元線性回歸:輸出常規(guī)結(jié)果和均值置信區(qū)間力多元線

36、性回歸:輸出常規(guī)結(jié)果和均值置信區(qū)間力 procrecprocrecclassclass:varweightheightage:wtodelweight=heifhtage;runrun. .$r|TelghtHeightAgeWeight1.000000.87779,00010.740890.0003Height0.87779.0001KOODOO0.Q1143.0001Age0.740080.00030.01143FModel27216,83710就.7.8185527.23COOOIError162120.DS974132,50623CorrectedTot61189335J3S84Roo

37、tMSE11,51114R-SquareL772gDependent100,02632AdjR-Sq0.7445CoeffVar11,50811ParameterEstimatesParameterStandardVariableDFEstImat&ErrortValuePr),t分析:由故點圖和相關(guān)分析可知weight和height,age間有較強的線性關(guān)系.(1)回歸方程為:weight=-141.22376+3.59708height+1.27839age判定系數(shù):R2=0.7729R2=0.7445,說明因變量Y的變異中由模型能解釋的局部占到77.29%,模型擬合效果較好.(2

38、)回歸模型的顯著性檢驗檢驗的零假設(shè)Ho:b1=b2=0,由輸出結(jié)果的方差分析表中F統(tǒng)計量為27.23,檢驗的p值小于0.0001,在&=0.05的顯著性水平下,應(yīng)拒絕H0,說明模型是顯著成立的.(3)變量的顯著性檢驗對變量height而言,檢驗的零假設(shè)Ho:b1=0,由輸出結(jié)果的參數(shù)估計局部的t統(tǒng)計量值為3.97,雙邊檢驗p值為0.0011,所以在a=0.05的顯著性水平下,應(yīng)拒絕H0,說明height變量對weight變量有顯著性影響.類似可得對變量age,t統(tǒng)計量值為-0.41,雙邊檢驗p值為0.6865,在a=0.05的顯著性水平下,應(yīng)接受H0,說明模型是age變量對weight

39、變量影響不顯著性.說明:(1)如果要自動挑選最優(yōu)變量,可在model語句中增加選項飛3匕M.門=選擇方法,選擇方法有none(全用,默認(rèn)卜forward(逐步引入法)、backward(逐步剔除法)、stepwise(逐步篩選法)等.如modelweight=heightage/selection=stepwise;/*逐步回歸*/run;(2)要輸出其它Z果可以print語句,如PrintcliRun;(3)假設(shè)是一元線性回歸,可以在因變量和自變量的散點圖上加上回歸直線和均值置信界限,程序如下:procregdata=sasuser.class;modelweight=height;plot

40、weight*height/conf95;InterceptHeightAge1-141.2287813.5970311.2763933,38309口.905463,111100.00060.00110.6865run;(4)假設(shè)是要輸出多元線性回歸中殘差對預(yù)測值診斷圖,可用如下語句:plotresidual.*predicted.4.3.2 非線性回歸許多情況下變量間呈曲線關(guān)系,求解變量間的曲線關(guān)系的方程,但有時也可以變量代換成直線方程,再應(yīng)用直線駕照的方法求解.【例【例2】某地大氣中氧化物測定結(jié)果如下:可以直接擬合所選擇的曲線方程式,距離污染物距離X(m)氧化物濃度Y(mg/m3)5010

41、01502002503004005000.6870.3980.20.1210.090.050.020.01散點圖分析說明Y和X間呈現(xiàn)指數(shù)函數(shù)關(guān)系y二10a,現(xiàn)求回歸方程.方法一:TheREGProcedureModel:MODEL1DependentVariable:logyNumberofObservationsRead3NumberofObservationsUsed8AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePrFMode112.7C96QL70960701J0|t|Intercept1-0.D31840.04356-0.

42、730.4S23X1-0.004090,00015430-26.49FModelErrorUncorrectedTotal2680.69510.0010S0.E9R10.34760.000177I860.BEChiSqLIke1ihoodRati67.0S73540001ScoreBe.00195,0001Wald82.55325ChlSqIntercept1-0.24240.41300.34460.557210.0274. .前前055624.32720001time10,002400.002420.90620.3209pathscat10.56440.108527*06630001patl

43、hsize1-0.56660.10912G.B7600.5,故該病人癌變部位的淋巴結(jié)會含有癌細(xì)胞.1+e.戀愛與否變量V年齡age地區(qū)(Location)各科平均成績score性別(sex)身高(height)0:未戀愛單位:歲0:農(nóng)村單位:分0:女單位:厘米1:已戀愛1:城巾1:男作業(yè):P15916補充:某調(diào)查中收集了350大學(xué)生的數(shù)據(jù)信息,研究戀愛與否變量V與年齡age、地區(qū)Location,各科平均成績score、性別sexM身高height等變量的關(guān)系.各變量定義如下:agelocationscoreheightweightsexv2115931831541假設(shè)收集數(shù)據(jù)如下:20155

44、017717010211414175114101915021609800210361175126102105951661121120040917814011201436164128102214501701601023148216810600180016010600201475170120112006151651060019154916811010試建立Logistic模型,并分析22歲農(nóng)村男生 、身高170cm,平均成績?yōu)?60時的戀愛概率.4.4屬性數(shù)據(jù)分析變量分為數(shù)值型變量(連續(xù)型變量)和分類變量(離散型變量),而分類變量又分為名義變量(如性別分為:男、生,種族分為白、黃、黑)和有序變量(

45、年級分為一、二、三、四,成績等級分為優(yōu)、良、中、差).前面所講到的統(tǒng)計分析是針對數(shù)值型變量,本節(jié)是針對離散型變量,討論單個離散變量分布的擬合優(yōu)度檢驗方法,檢驗兩個離散變量的獨立性殘聯(lián)表檢驗,有序變量的關(guān)聯(lián)性度量(不作要求).4.4.1 單個離散變量的擬合優(yōu)度卡方檢驗1.功能:檢驗離散變量的取值規(guī)律是否符合某種給定的比例.Pearson提出的卡方檢驗的零假設(shè)為:Ho:Pr(X=a)=pi(i=1,2,k)統(tǒng)計量為:壯士(ni-nPi)2J72(k-1)ynp其中:ni為事件Ai的觀測頻數(shù),R為事件Ai的頻率.例1:某工廠近5年來發(fā)生了63次事故,按事故發(fā)生的星期號分類如下:星期一一三四五六次數(shù)9

46、101181312問事故的發(fā)生是否與星期幾有關(guān)?思路分析:采用擬合優(yōu)度卡方檢驗六種情況發(fā)生的概率是否相等,H0:Pr(X=i)=1/6(i=1,2,6).程序為:卜卜dataaccident;inputinputdaytimes;cards;1 921031148513612hittinittin; ;_procfreqdata=accident;tablesday/chisqtestp=(0.1666670.1666670.1666670.1666670.1666670.166667);weighttiinx;/*/*:頻數(shù)變量頻數(shù)變量*/*/run:kl一一加一加一1輸出為:FREQ過程過

47、程day頻數(shù)頻數(shù)百分比百分比檢騎百分比檢騎百分比累積頻數(shù)累積頻數(shù)累積累積百分百分比比1S14.291S*67914.2921016.871隊B71930.1631117.4G1S.673047.G24812.7016,673860J251320.631S*675180.9561219,0516,e?63100.00指定比例的指定比例的卡方檢險卡方檢險樣本大小二樣本大小二63結(jié)果分析:零假設(shè)H0:Pr(X=i)=1/6(i=1,2,6),由輸出擬合優(yōu)度卡方檢驗的統(tǒng)計量(=1.667,p=0.8991,對于給定的顯著性水平a=0.05,pa,所以接受H0,說明事故發(fā)生與星期幾沒有關(guān)系.注明:檢驗的

48、是等概率情形時,選項testp語句可以省略.4.4.2 兩個離散變量的列聯(lián)表獨立性檢驗1.列聯(lián)表的輸入與制表列聯(lián)表的概念:根據(jù)兩個離散變量的交叉分類取值把樣本進行分類,得到每一小類的觀測個數(shù)制成表格的形式稱為列聯(lián)表,如根據(jù)學(xué)生的性別和來源把學(xué)生分為4組,得到如下統(tǒng)計表:學(xué)生性別、來源分布表男生女生本地46外地147輸入方式一:枚舉法一一每一行為一個樣本觀測,即一個學(xué)生的信息記錄,如:dataclass;inputsnosex$from$;/*/*擬含優(yōu)度卡方檢險擬含優(yōu)度卡方檢險*/*/卡方卡方自由度自由度Pr卡方卡方1.666750.89S1labelsno=編號sex=性另1Jfrom=來源

49、cards;1男本地2女外地3男外地/*所有學(xué)生的記錄*/run然后使用freq過程可以制成列聯(lián)表,使用tables語句指定行變量和列變量,procfreqdata=class;tablesfrom*sex;run輸入方式二:頻數(shù)表法一一沒有具體每行樣本觀測的信息,只有匯總的頻數(shù)表,那么需要設(shè)置一個代表觀測頻數(shù)的變量,如/*輸入方式二:頻數(shù)法*/dataclass2;inputfrom$sex$numcell;labelfrom=來源sex=性別numcell=單元格頻數(shù)cards;本地男4本地女6外地男14外地女7run然后用freq過程可以制成列聯(lián)表,使用tables語句指定行變量和列變量

50、,weight語句指定單元格頻數(shù)變量procfreqdata=class2;tablesfrom*sex;weightnumcell;run兩種方式的輸出結(jié)果一樣,如下列圖,每一個格子中有4個數(shù):Frequency頻數(shù)、percent百分比、RowPct行百分比、ColPct列百分比.在表的右側(cè)有行總計的頻數(shù)及百分比,在表的下側(cè)有列總計的頻數(shù)及百分比.輸出結(jié)果的第22122153531 1組病病病患病患患不患不煙煙煙煙吸吸吸吸不不;FREQ過程過程from米米sex表表本地本地4S1012.9019.9592.2640J10BO.OO22.2246,15外地外地147214E.16224586

51、766.6733,3377.7853*05合計合計16133158J641.84100JO說明:簡化形式的列聯(lián)表,可以在tables語句中加上nofreq、nopercent、norow、nocol等選項.如/*簡化形式的列聯(lián)表:只有單元格頻數(shù)*/procfreqdata=class2;tablesfrom*sex/nopercentnorownocol;|weightnumcell;run;2.列聯(lián)表獨立性檢驗功能:檢驗兩個離散變量的取值是否獨立.檢驗的零假設(shè)為H0:離散變量X與變量Y相互獨立檢驗統(tǒng)計量,2=8m皿)口:(r)imj注nnnjs其中n+=工nj,j1例2:為了探討吸煙與慢性支氣管炎有無關(guān)系,調(diào)查了339人,情況如下:患慢性支氣管炎未患慢性支氣管炎吸煙43162不吸煙13121程序為:列聯(lián)表獨立性檢臉列聯(lián)表獨立性檢臉入databron;inputinputsmokedbron$nwiicellsmokedbron$nwiicell:labelwok吸煙吸煙 bmn=, ,慢性支氣管炎慢性支氣管炎numceLk單元格頻數(shù)單元格頻數(shù);cards;幾種方法的統(tǒng)計量與p值,第三局部Fisher精確檢驗結(jié)果.比比比胃數(shù)分百百頻百行列rnj=,n,i=1FREQ過程過程smoke*bron表表5mcke啜啜胭胭brem慢性支氣管慢性支氣管炎炎. .頻數(shù)頻數(shù)期望值期望值不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論