數據統計分析初級統計及回歸分析顧世梁200809_第1頁
數據統計分析初級統計及回歸分析顧世梁200809_第2頁
數據統計分析初級統計及回歸分析顧世梁200809_第3頁
數據統計分析初級統計及回歸分析顧世梁200809_第4頁
數據統計分析初級統計及回歸分析顧世梁200809_第5頁
已閱讀5頁,還剩49頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、12008.092 生物統計是關于試驗的設計、實施,數據的收集、整理、分析和結果推論的科學。 從事試驗研究,需要對處理(措施、技術)的效應給出一個明確的結論(顯著與否)。 推論是先對研究對象的總體提出一種假設(hypothesis),再對該假設進行測驗(test)以計算在假設總體中抽得實際樣本(統計數)的概率來判斷。31.1 二項總體分布二項總體分布(0,1 分布) 若一個總體由0,1兩種元素組成,這樣的總體稱0,1總體。若取1的概率為p,記為P(1)=p,則P(0)=1-p=q,p+q=1.1 概率計算比較復雜,生物統計中所用的概率計算主要利用變數分布進行。2(1)pppqp(1)pppq4

2、1.2 二項分布二項分布(binomial distribution) 二項分布是指在=p的二項總體中,以樣本容量n進行抽樣,樣本總和數 k (0kn)的概率分布。2npqnpnpq( )kkn knP kC p q2/pq np/pq n51.3 普松分布普松分布(poisson distribution) 若n很大,p很小,其np=m,二項概率分布趨于普松分布。( )!kmmP kek2mmm61.4 正態分布正態分布(normal distribution)若p接近0.5,n很大,二項概率分布趨于正態分布。2221()( )exp()22xf x2221( )exp()22xf x210

3、7正態分布是最重要的連續性變數的分布,原因有3:1、試驗研究中很多變數(性狀)服從正態分布;2、一些間斷性變數在一定條件下趨于正態分布;3、一些變數本身不服從正態,但其統計數(如平均數)在一定條件下(樣本容量增大時)趨于正態分布。 這第3點是一個很重要的性質,因為我們將來對處理效應的推斷,往往是以平均數(或其它統計數)進行的。在對樣本容量較大的統計數進行統計推斷時,可不必考慮原變數服從何種分布,統計假設測驗均可在正態分布的基礎上進行。8 了解一個變數(或一個統計數)服從某種分布,其目標是為了計算該變數(統計數)落在某一區間的概率。P(axb)=?()?Pab91.5 學生氏學生氏 t 分布分布

4、( t distribution)()(), xxxuu標準正態離差服從正態分布。(0,1)uN 上述u分布在實際應用中存在問題,最主要的是無法得到,人們自然想到用樣本標準差 s 代替 計算u值,進而計算概率(假設測驗)。但經抽樣試驗發現,這種替代是有問題的,尤其是在小樣本情況下,s 的變異度較大(而是常量)。它直接的效果是由此算出的值比 u 的變異度大。后經WS Gosset (1908)導出了該統計數(t)的概率密度函數 f(t)。101221()2( )(1)(/ 2)tf t10( )xxe dx1100(| |)2( )tP ttf t dt12(0,1)uN222212nuuu2/

5、2 122/2()1()exp()2( /2)2f1.6 卡方分布卡方分布(2 distribution)22222()(1)xxns222221snv 132122sFs1.7 F分布分布( F distribution, RA Fisher, 1923)112121212/2/212()/21212()2( )(/2) (/2)()vFf FFv142 2.1 概念和基本步驟概念和基本步驟 我們在試驗過程中獲得了一個或多個樣本(統計數),其目的在于推斷由此代表的總體(參數)。得出處理效應存在與否的定性結論。基本過程有4步:1)對未知總體)對未知總體(參數參數)提出假設提出假設 H0:=0,

6、 HA: 0; H0: = 0, HA: 0 ;2)設定一個否定)設定一個否定H0假設的小概率標準(顯著水平)假設的小概率標準(顯著水平) ( =0.05, =0.01 ););3)計算在假設條件下比實得樣本)計算在假設條件下比實得樣本(統計數統計數)還偏的概率還偏的概率p。4)根據)根據p與與值的大小,接受或否定值的大小,接受或否定H0假設。假設。152.2 幾種常用的假設測驗幾種常用的假設測驗0u0ts1212: , , , , xxxdppps指的是該統計數的標準誤,亦即該統計數分布的標準差。16/xn121211xxnn122xxn121211x xssnn/xssn/ddssn121

7、2: : : xxxdppp00 pp qn121211()ppspqnnttest(x, m0)ttest2(x1, x1)17 2.3 假設測驗的本質假設測驗的本質1)顯著性000A| | H | | H ,Htttstt接受否定接受s的大小是決定統計數與假設參數間、統計數間差異顯著性的主要因素。試驗研究中應盡量減小統計數的標準誤。一是減小試驗誤差(s);二是增大樣本容量(n)。2)假設測驗的錯誤 利用概率進行測驗,有些情況下會犯錯誤。當正確的假設被否定時,就犯了棄真錯誤(I型錯誤, 錯誤);當錯誤的假設被接受時,就犯了取偽錯誤(II型錯誤, 錯誤)。犯兩類錯誤的概率不同。18 方差分析是

8、將多個樣本作為一個整體,將總變異分解成相應變異來源的平方和和自由度,得到各變異來源方差的數量估計,用F測驗鑒別樣本間的差異顯著性。分三個內容:1)分解平方和自由度,計算各變異來源的方差;其中MSe(或se)比較重要,它是測驗組間效應存在與否的標準;2)F測驗, F=MSt/MSe;3)多重比較,當F測驗顯著,應對處理平均數的差異顯著性作進一步說明。193.1 單向分組資料的方差分析單向分組資料的方差分析處理觀察值Tixi1x11x12x1jx1nT1x12x21x22x2jx2nT2x2ixi1xi2xijxinTixikxk1xk2xkjxknTkxkxij為第為第i個處理的第個處理的第j個

9、觀察值,個觀察值,i=1,2,k, j=1,2,n. Data structureijiijx20TteSSSSSSTtedfdfdf1Tdfkn22211()()knTijijxSSxxxkn2221()1()ktiiixSSnxxTnkn222111()2kneijiiijSSxxxT1tdfk(1)edfk n, teteteSSSSM SM SdfdfteM SFM S方差分析結果盡量以方差分析表表示。anova1(x)2|ijM SexxLSDtn213.2 兩向分組資料的方差分析兩向分組資料的方差分析xij為為A因素第因素第i個水平和個水平和B因素第因素第j個水平組合個水平組合(處

10、理處理)的反應量,的反應量,i=1,2,k; j=1,2,n. Data structureijijijx22TtReSSSSSSSSTtRed fd fd fd f1Tdfkn22211()()knTijijxSSxxxkn222.1()1()ktiiixSSnxxTnkneTtRSSSSSSSS1tdfk(1)(1)edfkn, teteteS SS SM SM Sd fd fteM SFM SAnova2(x),或anova2(x,n)。2|ijM SexxLSDtn1Rdfn222.1()1()nRjjjxSSkxxTkkn233.3 系統分組資料的方差分析系統分組資料的方差分析xij

11、k為第為第i組、第組、第j亞組、第亞組、第k個反應量,個反應量,i=1, 2, , l; j=1,2,m;k=1, 2, , n. Data structureijiijijkxxijk24 較復雜的系統分組資料還可能在亞組中繼續再分成小亞組(小小亞組);每一組具有不同的亞組數(mi不全相同),每一亞組具有不完全相同的觀察值數目(nij不全相同)。xijk為第為第i 組組,第第j亞組亞組,第第k個個(處理處理)的反應量,的反應量,i=1, 2, , l; j=1,2,mi;k=1, 2, , nij. Ttdedfdfdfdf111imlTijijdfn 1td fl1(1)imleijijd

12、fn 1(1)ldiidfm253.4 單因素完全隨機試驗資料的分析單因素完全隨機試驗資料的分析 即單向分組資料的方差分析。即單向分組資料的方差分析。3.5 單因素隨機區組試驗資料的分析單因素隨機區組試驗資料的分析 即兩向分組資料的方差分析。即兩向分組資料的方差分析。3.6 二因素隨機區組試驗資料的分析二因素隨機區組試驗資料的分析 A因素有因素有a個水平,個水平,B因素有因素有b個水平,均個水平,均衡搭配時有衡搭配時有ab個處理;個處理;r個重復(個重復(r個區個區組),組),abr個觀察值。方差分析分兩步:個觀察值。方差分析分兩步:26TtReSSSSSSSSTtRed fd fd fd f

13、1Tdfabr22211()()abrTijijxSSxxxabr22211()abtiiiTSSrxxTnabreTtRSSSSSSSS1tdfab(1)(1)edfabr1Rdfr22211()rRjjjTSSabxxTababr1)構建處理區組兩向表,按處理區組兩向分組數據模型分解平方和、自由度: ijijijx272)構建AB兩向表,按AB因素兩向分解平方和、自由度。tABABSSSSSSSStABABdfdfdfdf22211()aAAAkTSSbrxxTbrabrABtABSSSSSSSS1Adfa(1)(1)ABdfab1Bdfb22211()bBBBlTSSarxxTarabr

14、()iklklkl28 二因素、多因素完全隨機試驗、隨機區組試驗資料的方差分析均可用anovan的命令實現。 格式:anovan(x, group, model)*S SM Sd f*eM SFM S2|ijM SexxLSDtneeeSSMSdf29Anovan (多因素資料的方差分析)(多因素資料的方差分析)Anovan(x, group, model)三因素三因素 model=1 2 3 4 5 6 7(三因素方差分析編碼表三因素方差分析編碼表)數值數值含義含義1A(主效主效)2B(主效主效)3AB(互作互作)4C(主效主效)5AC(互作互作)6BC(互作互作)7ABC(互作互作)30四

15、因素方差分析編碼表四因素方差分析編碼表(model)313.7 一些處理效應再分解的方差分析 1)單一自由度比較; 2)其他分解的一些實例。 Lsh.m; cg.m.3222222121211212()()()iiiTTTTSSn xxnnnn 如例8.1(水稻N肥試驗),5個處理(ABCDE)具有SSt=301.2,dft=4,可將其進一步分解:ABCD vs E df1=1, SS1=198.45;AB vs CD df2=1, SS2=72.25 A vs B df3=1, SS3=12.5; C vs D df4=1, SS4=18.0334.1 一元線性回歸分析一元線性回歸分析 對于

16、雙變數資料的回歸分析,主要有三項任務:1)建立 Y 依 X 的量化關系,即估計回歸統計數和回歸方程;2)估計離回歸誤差,對回歸方程和回歸統計數進行統計假設測驗;3)回歸方程的進一步利用。34模型:iiiYXiiiiiYabXeYe據:2anbXYaXbXXY2211()()minnniiiiiiQRSSYYYabX222/()()()() /XaybxXYXY nXx YySPbXxSSXXn對Q分別對a、b求偏導并使其為0,得正規方程組:解得:2221()niiYiXYYaXbXYSPQYYSSSSSSbSP35iiiYabXe111YabXe222YabXennnYabXe11122211

17、.1.1iiinnnYXeYXeaYXebXYeiiiYabXe4.2 回歸分析的矩陣方法回歸分析的矩陣方法3612inYYYY Y1211. .1. .1inXXXXX12babb B12ineeee EY = XB+EY+E 回歸分析是用最小二乘法(least squares method)估計回歸統計數B=(a, b),使離回歸平方和(Q, RSS)最小:() ()minQE EYYYXB =37實例和matlab命令集clear; clcx=1.58, 9.98, 9.42, 1.25, .30, 2.41, 11.01, 1.85, 6.04, 5.92y=180, 28, 25,

18、117, 165, 175, 40, 160, 120, 80 x=x(:); y=y(:); n=size(y,1); SSy=var(y)*(n-1); SSx=var(x)*(n-1);xbar=mean(x); ybar=mean(y);X=ones(n,1),x; A=X*X; K=X*y; SumX=A(1,2); SumY=K(1); SumX2=A(2,2); SumXY=K(2);SP=SumXY-SumX*SumY/nC=inv(A), B=AK, B=C*K, B=X*XX*y, b=XyQ=y*y-B*K, U=SSy-Q, MSQ=Q/(n-2), syx=sqrt(

19、MSQ)F=U/MSQ; p=1-fcdf(F,1,n-2);disp(F=,num2str(F), p=,num2str(p)sa=syx*sqrt(C(1,1), sb=syx*sqrt(C(2,2)ta=b(1)/sa; pa=2*tcdf(-abs(ta),n-2);disp(ta=,num2str(ta), p=,num2str(pa)tb=b(2)/sb; pb=2*tcdf(-abs(tb),n-2);disp(tb=,num2str(tb), p=,num2str(pb)r=corr(x,y), r2=SP2/SSx/SSysr=sqrt(1-r2)/(n-2), tr=r/s

20、r384.3 多元線性回歸分析多元線性回歸分析1122iiijijmimiYXXXX11111211221222212121111mmjiiimiinnnmnnmaYeXXXbXXXYebXXXYeXXXYeb 1122iiijijmimiYa bXb Xb Xb Xe 1,2, ; 1,2,injm39jjjjjjbbbbtss/jbY Xjjssc2/(1)jpjjjjQUbcFMSQ nm2jjpjjbUc/(1)Y XQsnm2jjFt2,3,1jm 當其中的自變數不顯著時,應將其剔除。剔除的過程應采用逐步回歸的方法,即每次剔除一個偏回歸平方和最小且不顯著的自變數,直至所有的自變數均顯

21、著(下同)。Up=b.*b./diag(C)40實例和matlab命令集clear;clc,alpha=.05;x1=10, 9, 10, 13, 10, 10, 8, 10, 10, 10, 10, 8, 6, 8, 9;x2=23, 20, 22, 21, 22, 23, 23, 24, 20, 21, 23, 21, 23, 21, 22;x3=3.6,3.6,3.7,3.7,3.6,3.5,3.3,3.4,3.4,3.4,3.9,3.5,3.2,3.7,3.6;x4=113, 106,111,109,110,103,100,114,104,110,104,109,114,113,105

22、;y=15.7,14.5,17.5,22.5,15.5,16.9,8.6,17,13.7,13.4,20.3,10.2,7.4,11.6,12.3;x=x1,x2,x3,x4;load regm %x=rand(100,40);y=rand(100,1);%data=xlsread(regm); y=data(:,end);data(:,end)=;x=data;data=;%data=load(regm.csv); y=data(:,end);data(:,end)=;x=data;data=;n,m=size(x);SSy=var(y)*(n-1);X=ones(n,1),x;A=X*X;

23、K=X*y;C=inv(A)b=AK,%b=C*K,b=X*XX*y,b=XyQ=y*y-b*K,U=SSy-Q,MSQ=Q/(n-m-1),syx=sqrt(MSQ)Fm=U/m/MSQ; p=1-fcdf(Fm,m,n-m-1);disp(Fm=,num2str(Fm), p=,num2str(p)Up=b.*b./diag(C);Up(1)=;F=Up/MSQ, pr=1-fcdf(F,1,n-m-1)41for i=1:m if i=alpha qi=find(F=min(F); pr=1-fcdf(min(F),1,n-m-1); if pr=alpha disp(num2str(q

24、i), ,num2str(min(F), del ,tr(qi,:) tr(qi,:)=; X(:,qi+1)=; m=m-1; end A=X*X; K=X*y; b=Xy; Q=y*y-b*K; MSQ=Q/(n-m-1); C=inv(A); Up=b.*b./diag(C);Up(1)=; F=Up/MSQ; pr=1-fcdf(F,1,n-m-1);end42disp(Last Results:)disp( Xi bi Upi Fi pFi)disp(X0 ,num2str(b(1)for i=1:m disp(tr(i,:), ,num2str(b(i+1), ,num2str(U

25、p(i), , num2str(F(i), ,num2str(pr(i)enddisp(Error ,num2str(n-m-1), ,num2str(Q), ,num2str(MSQ)disp(Total ,num2str(n-1), num2str(SSy)r2=(SSy-Q)/SSy43多元線性回歸分析的有關假定與注意事項:假定1:誤差是正態分布的;假定2:每一自變數對依變數的作用僅為線性。 假定2不滿足對回歸結果影響較大。注意1:自變數個數(m)必須少于觀察值組數(n);注意2:避免自變數共線性情形,共線性指變數間高度相關或一個變數是其他變數的線性組合。 若結構陣不滿秩,信息陣是奇異或

26、病態的,逆陣不存在或有很大偏差,無法求解回歸系數或有很大誤差,難于對回歸模型及回歸統計數進行客觀真實的假設測驗。回歸分析無法進行,或所得結果不可信。444.4 一元線性相關分析一元線性相關分析計算X、Y相關性質和程度的統計數相關系數r12211()()()()niiinnXYiiiiXx YySPrSS SSXxYy212rrrtsrn22XYSPrSS SS/UbQY XXMSbbtFsMSsSS454.5 多元線性相關分析多元線性相關分析 計算m個變數X(Y)的(簡單)相關系數rij:12211()()()()nliiljjijlijnnXiXjliiljjllXxXxSPrSS SSXx

27、Xx12121212111mmijmmrrrrrrrR464.6 多元偏相關分析多元偏相關分析 m個變數X(Y)在其它變數皆固定在某一水平時,余下兩個變數間的相關稱為偏相關。.ijijiijjcrc cijcC1CR.2.1ijijijrijrrtsrnm474.7 通徑分析通徑分析 計算m個自變數 Xj 與 Y 關系的相對重要性,可用直接通徑系數pj表示。jXjjYSSpbSS2(1)1jjjjpjjpptsRcnm-1P = R KCK121112122212111mYmYijmmmmYrrprrrprrrrpr21mj jYjRp r=PK484.8 一元多項式回歸分析一元多項式回歸分析

28、 計算1個自變數 X與 Y 的多項式回歸也很常見。212jkiiijikiiYXXXX1,2, ; 1,2,injk212jkiiijikiiYab Xb Xb Xb Xe2111112122222221111kkkjiiiiiknnknnnXXXaYebXYeXXbYeXXXYebXXX 49jpjQUFMS21,1jjpjjbUc2jjFt1,2,1jkjjjjjjbbbbtss/1,1jbY Xjjssc/(1)Y XQsnmm為模型中Xj冪的項數。Up1, Up2, Up3, Up4 分別為線性(linear), 二次(Quadratic), 三次(cubic), 四次(4th degree)響應(response).50一元多項式回歸分析的幾點注意:1) 隨著k的增加,回歸平方和增加,離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論