方差分析與回歸分析_第1頁
方差分析與回歸分析_第2頁
方差分析與回歸分析_第3頁
方差分析與回歸分析_第4頁
方差分析與回歸分析_第5頁
已閱讀5頁,還剩12頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

方差分析與回歸分析■1Companynumber方差分析與回歸分析■1Companynumber:[WTUT-WT88Y-W8BBGB-BWYTT-19998]第八章方差分析與回歸分析§1單因素試驗的方差分析試驗指標:研究對象的某種特征。例各人的收入。與試驗指標相關的條件。例各人的學歷,專業,工作經歷等與工資有關的特征。素水平:因素所在的狀態例學歷是因素,而高中,大學,研究生等,就是學歷因素水平;數學,物理等就是專業的水平。問題:各因素水平對試驗指標有無顯著的差異假設TOC\o"1-5"\h\z1)影響試驗指標的因素只有一個,為A,其水平有r個:A,,A;1r2)每個水平A下,試驗指標是一個總體X。各個總體的抽樣過程是獨立的。ii3)X?N(卩Q2),且C2=6。…iiiij

問題:分析水平對指標的影響是否相同1)對每個總體抽樣得到樣本{X,1<j<n},由其檢驗假設:iji原假設H:卩=卩,Vi,j;備選假設:H屮北卩,丑,j;0ij1ij2)如果拒絕原假設,則對未知參數卩,,PQ2進行參數估計。1r注1)接受假設即認為:各個水平之間沒有顯著差異,反之則有顯著差異。2)在水平只有兩個時,問題就是雙正態總體的均值假設檢驗問題和參數估計問題。檢驗方法TOC\o"1-5"\h\z數據結構式:X=卩+£=卩+§+£,偏差£?N(0Q2)是相互獨立的,ijiijiijij卩二-為n?。不難驗證,^5=0。niiii=1k=1各類樣本均值水平A的樣本均值:X=丄藝X;iinijij=1水平總樣本均值:X=-工EX=—工nX,n=工n;nijniiii=1j=1i=1i=1

組間偏差平方和:S二工n(X-X)2=》nX2-nX2;(衡量由不同水平產生的差異)Aiiiii=1i=1組內偏差平方和:i=1ji=1j=1-X)2=工(Kx2-nX2)iijiii=1j=1衡量由隨機因素在同一水平上產生的差異)總偏差平方和:TOC\o"1-5"\h\zS=工習(X-X)2=LnX2-nX2;(綜合衡量因素,水平之間,隨機因素的Tijiiji=1j=1i=1差異)定理1(總偏差平方和分解定理)S=S+S。TAE即工為(X-X)2=工藝(X-X)2+XK(X-X)2,或直接證明。ijijiii=1j=1i=1j=1i=1j=1注:利用工K(X-X)(X-X)=0即可證明。。ijiii=1j=1定理2(統計特性)ES=(n一r)o2,ES=(r—1Q2+工n82,ES=(n—1R2+工n82。TOC\o"1-5"\h\zEAiiTiii=1i=1ii證ES=工(’EX2—nEX2)=工(藝(o2+p2)-o2—np2)iiEijiiii=1j=1i=1j=1定理31)S/o2~x2(n-r),且S與S獨立;EEA2)如果假設H成立,那么,S/o2~x2(n-1);且如果假設n=m,0Ti1<i<r,則還有,S/o2~x2(r-1)。A證1)由于不同水平的樣本間的獨立性,S較易處理。對固定的i,EX~N(p,X~N(p,o2),j=1,,nijiii且獨立,所以由第五章定理2的結論,Knij=1(x-x丫—ij——

o…V丿j=1~x2(n-1),i利用X2可加性,即得S/o2-x2(工n-r)=x2(n-r),且X與S獨立。EiiEi=1注意到X=—乞nX,因此X也與S獨立,從而S也與S獨立。niiEAEi=1注這里只需方差假設相同,不需要假設均值相同。ii2)匸匕?N(0,1),且獨立,同樣利用第五章定理2,oX—|L11X—|L1(—i-厚匸)2?x2(n-1)。onoTOC\o"1-5"\h\z-?“-fi,Ji,j但在假設成立時,工(X^-1工Xij-巴)2=丄工(X-X)2,即得結論。

onoo2ij但在假設成立時,i,Ji',j'i,J且X與S獨立。2?2?X2(r-1)。同時,S/o2=£Ai=1注此處結論證明利用了n都相等,即利用:1》X=1工X。但上述結論在irkniJk=1i,J組樣本容量不同時,直接利用正交變換仍可類似證明。從統計角度看,如果假設H成立,那么丄ES=o2=LES,而在假設0n-rEr-1A111r1不成立時,ES=ES+乞n52>ES,即統計量r-1An-rEr-1iin-rE

i=1F=/(r-1)將有偏大的趨勢。那么,大到何值可以采信為推翻假設的反例,S/(n-r)E就回到前面的假設檢驗問題了。定理置信度為?時,假設H的檢驗問題的拒絕域為W={F>F(r-1,n-r)}。0a參數估計問題如果各因素有顯著差異,即對某些水平卩工卩,那么就需要估計這些參數的值ij和o2。1.最大似然估計總體X?N(卩Q2總體X?N(卩Q2),ii密度函數為e-202,所以最大似然函數為(xjp)2(xjp)22o2TOC\o"1-5"\h\zL(卩,,卩,o2)=ne1r..V2^o2i,j一般,我們把卩分成兩部分:卩=卩+5,其中卩=1Y卩。i???iirii所以5即表示了各水平的差異,有工n5=0。iii由此最大似然函數可表示為,i,ji,ji1(x—p—6)2L(p,6,,6,o2)=ne-"20/o..丁2兀o2i,j1r對數最大似然函數:lnL(卩,6i,n「(x-p-6)2,6,o2)=--ln(2KQ2)—工iji-2o2i,j約束條件:工n6=0oiii求其最大值點得:lnL(p,6,Qp1即:工x-np-工iji,jiQ[lnL(p,6,,6,o2)+k工n6]=2工(“-6)+kn=0,Q61ri(k是拉格朗日乘子)即nx一np-n6-ko2n=0;或,xiiiiiiiQlnL(p,6,,6,o2)Qo21,6,o2)=2工(xj-p-6)=0,r2o2i,jn6=0;或,nx-np=0。iii=1ijii2o215jSj-p-6-ko2=0;i=-—^+-^工(x-p-6)2=0)r2o22o4ijii,j即02=工(兀一卩-6)2,或,niji…i,jo2=—{工x2—2pnx—2工niji,j整理結果得:n6x+np2+iiii工n62})iii由此利用工iii所以o2=—{工x2一nx2niji,j同時,工n62-2工n6ii=一工n6x=一工iiii因此S=x-p-kO2o

ii解得ko2=x-po因上匕6=x-xoii-2工n6x+工n62})ii…6xiiiin(x-x)xiiiiiiii=工n6(x-x)-2工n6xiiiiiiiy__'=-nx2+nx2,iiio2=—{Ex2-Enx2}=Seonijiinii=1i=12.區間估計第i個水平的均值:Xi~N(巴,o2/n),即誇?N?1);且S/o2?兀2(n-r)與其獨立,所以E即可得到置信區間:)。但,必須注意,對整個問題而言,置信水平不再是1-Q。記事件TOC\o"1-5"\h\z-SX+1(n-r)ia/2Ei=皿iX+1(n-r)ia/2則P(E)=1-a。但P(E)=1-P(E)>1-raiiiiinu

§2一元線性回歸設有兩個總體(X,Y),它們之間不是獨立的,而是具有某種依賴關系,即對它們抽樣,得到的是一對樣本和觀測值:(X,Y),,(X,Y),(x,y),,(x,y)。11nn11nn例父子的身高;某種動物體重和體積,等等。現在關心的問題是:從觀測的結果,能否找出它們之間的聯系即…Y二f(X)+8(X),其中8是隨機變量。從實際問題出發,也可認為X是非隨機的確定自變量,本來兩者之間應該有確定的函數關系,但由于某種干擾,這種關系產生了某種不確定性。如何合理地確定其關系f(x)一元線性回歸模型假設y=B+Bx+8;018?N(Oq2)。每次抽樣,Y=B+Bx+8,其中8?N(0Q2),且相互間是獨立。TOC\o"1-5"\h\ziO1iii等價的觀點:Y?N(B+Bx,e)。iO1i問題由樣本觀測數據(x,y),,(x,y),如何合理估計參數BB11nnO1方法1)確定性觀點:最小二乘法min工(y-B-Bx)2,B0,B1i=1i01i使觀測得到的8的樣本平方和偏差最小。解記y=1Xy,x=1》x,l=》(x-x)(y-y)=Xxy-nxy,ninixyiiiii=1i=1i=1i=1l=X(x-x)2=Xx2-nx2,l=X(y-y)2=Xy2-ny2。xxiiyyiii=1i=1i=1i=1藝(y-B-Bx)=0i01i呂,解方程組得,工(y-B-Bx)x=0i01iiny-nB-ny-nB-nBx二001藝xy-nxB-B為01x2二0,廠i01i1i=1i=1即工xy-nxy一卩(工x2-nx2)=0,因此解為:ii1iPP二y——yx0lxx.lB二1lxx2)隨機觀點:最大似然估計最大似然函數叫,y”;&,x;最大似然函數叫,y”;&,x;B,B)n01n—£(yi—Bo—BixJ2eT2b因此,由QinL

dB0QinLQBi???即得類似結論。,Y的統計量。所以,在不代入觀n注把X是確定值,則L,L,Y,Y的統計量。所以,在不代入觀nTOC\o"1-5"\h\ziyyxy1JJJJ測值時,卩二Y-—X,卩=—也都是隨機變量。0L1Lxxxx有結論,…Li—l—定理(1)B二Y十—?N(B,(—+—2)b2),B十?N(B,「);0L0nl1L1l—————————cov(B,B)=-—c2;01l——y=B+0—?N(卩+B—,(丄+_)c2)。0010010nl——工(—―—)(y―Y)證:P=十」i=工Y,顯然服從正態分布,TOC\o"1-5"\h\z1L=Li——i=1——EB=藝giEY=藝二(B+B—)=藝二—B=£0—2—n—2)=B1LiL01iLi1Li1i=1—yi=1——i=1————i=1dB=藝(—?―—)2dy=藝(—?―—)2c2=22。1=L2i=L2Li=1——i=1————類似,B=Y-X(—i——)—Y=工[丄—(—i——)—]Y也服從正態分布,且0LinLii=1——i=1——EB丄[1—U—]EY丄[1—g—](B+B—)0nLinL01ii=1——i=1——,=B[1—工(—?―—)—]+—B[1—工(—?―—)—?]=B'0L1L0i=1——i=1——X1(———)—_.(———)亍(———)2——=乙[——i]iC2=—iC2=—-nLLL2Li=1————i=1————最后,y=B+B—是正態分布顯然成立,0010

Ey二B+Bx,0010Dy=D0+x2D[B+2xcov(B,B)=g2[1+—]—蘭xg2+—x2二[—+-]g20001001nLL0L0nLxxxxxxxx該定理表明,上述參數估計都是無偏的,但要提高有效性,即減小其方差,就要n和L足夠大。xx回歸方程的顯著性檢驗如果回歸方程中卩二0,那么即說明Y和X不具有線性關系,就稱回歸方程不—顯著;否則,就稱其是顯著的。顯著性檢驗H:卩二0;H:BH00111(我們是準備接受結論H—的,以進行后面的工作;但是,如果直接把其作為原假設,所謂接受該假設,意思是說,H成立時,沒有出現小概率事件,就是說1對該次抽樣,不能否定H。所以,對自已的主張一般不作為原假設。我們把其1對立面H作為原假設,意思是說,如果小概率事件出現,就有理由認為該假設0不合理,該次抽樣是一個反例。因此,接受其對立面H)1抽樣后,得到樣本Y,及其回歸值Y=B+Bx。ii01i各類偏差平方和先把記號定義整理一下:x或X不具有隨機性的量。Y是樣本,滿足iiiY二B+Bx+8,而y是其觀測值。B,B是參數,B,B是其無偏估計量,而i01iii0101八八八y=B+Bx是其函數。l,L,Y都是統計量。i01iyyxy總偏差平方和S=£(Y—Y)2二LTiyyi=1回歸偏差平方和S=y(Y—Y)2Riy_Iliy_Ilix.(L丿i=1xx=LB2xx1=S(B+Bx—Y)2=y(Y+—?yx—Y)2=\t^TOC\o"1-5"\h\z=01i=LLi(L丿i=1i=1xxxxxx(由隨機因素引起的偏差)可以直接計算得到:ES=LEB2=L[DB+(EB)2]=g2+LB2;Rxx1xx11xx1殘差平方和S=工(S=工(Y—Y)2Eiii=1=工(Y—Y+-^元一一xyx)2=工[Y—Y+—xy(x—x)]2,iLLiiLii=1xxxxi=12LL—2—L=L—BLxxLxyyy1xyxxL+yyxx;由此,ES=(n—2)q2。E1L)IL丿XX(回歸值和觀察值的偏差:由隨機誤差偏差)直接計算得到:ES=(n—2)Q2。E關于這些偏差有如下結果。定理(1)S=S+S;TREnn(利用乙(Y-Y)丄(Y-B-Bx)=0,iii01ii=1i=1(2)S/Q2~x2(n—2)E

可能存在的非線性關系,都會引起該工(Y—Y)x工(Y-B-Bx)x=0)iiii01iii=1i=1⑶在假設H°成立時(4)S(或『)與S,Y獨立。R1E》Y2-⑶在假設H°成立時(4)S(或『)與S,Y獨立。R1E》Y2-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論