生物統計第七章 擬合優度檢驗_第1頁
生物統計第七章 擬合優度檢驗_第2頁
生物統計第七章 擬合優度檢驗_第3頁
生物統計第七章 擬合優度檢驗_第4頁
生物統計第七章 擬合優度檢驗_第5頁
已閱讀5頁,還剩76頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物統計第七章擬合優度檢驗第1頁,共81頁,2023年,2月20日,星期六一、一般原理(一)什么是擬合優度檢驗?

擬合優度檢驗(goodnessoffittest)是用來檢驗實際觀測數據與依照某種假設或模型計算出來的理論數之間的一致性,以便判斷該假設或模型是否與觀測數相配合。第2頁,共81頁,2023年,2月20日,星期六(二)主要內容和注意事項1.主要內容1)一致性檢驗根據某一假設或模型檢驗觀測數與理論數的一致性。例如:A:判斷按照回歸方程的預測值與實際值之間的符合程度。B:某一組數據的正態性檢驗。第3頁,共81頁,2023年,2月20日,星期六2)獨立性檢驗根據檢驗兩組數據之間的關聯性或差異性來判斷事件之間的獨立性——沒有假設和理論值。如:A:遺傳學中檢驗子二代花色分離差異性檢驗。B:對照和處理之間的差異性檢驗。第4頁,共81頁,2023年,2月20日,星期六2.注意事項1)對上述兩種類型的檢驗均用χ2檢驗來實現。注意與顯著性檢驗時的χ2檢驗的區別。2)χ2檢驗主要應用于次數資料的檢驗。3)χ2檢驗也會出現兩種類型錯誤。第5頁,共81頁,2023年,2月20日,星期六K.Pearson根據的定義,根據屬性性狀資料的分布,推導出用于次數資料分析的公式上式中O為觀察次數,E為理論次數,自由度為df.(三)χ2統計量的計算第6頁,共81頁,2023年,2月20日,星期六卡方分布~圖7-1幾個自由度的概率分布密度曲線第7頁,共81頁,2023年,2月20日,星期六由于分布是連續性的分布,而次數資料則是間斷性的,所以用上式計得的值總是偏大,尤其當自由度df=1時,這種偏差會較大,故在計算時需要用的連續性矯正公式:

第8頁,共81頁,2023年,2月20日,星期六當自由度大于1時,這時,可不作連續性矯正,但要求各組內的理論次數不小于5。若某組的理論次數小于5,則應把它與其相鄰的一組或幾組合并,直到理論次數大于5為止。第9頁,共81頁,2023年,2月20日,星期六(三)擬合優度檢驗的一般程序1.分組2.計算理論值3.估計參數4.判斷理論數的數目5.計算自由度:df=k-1-α6.假設7.計算統計量,作出判斷第10頁,共81頁,2023年,2月20日,星期六四、適合性檢驗

檢驗實得次數資料的次數與假設的理論次數是否相互符合的檢驗稱為適合性檢驗。

在適合性檢驗中,理論次數和自由度的計算:Ei=npidf=k-m第11頁,共81頁,2023年,2月20日,星期六在適合性檢驗中,無效假設為H0:實際觀察的屬性類別分配符合已知屬性類別分配的理論或學說;備擇假設為HA:實際觀察的屬性類別分配不符合已知屬性類別分配的理論或學說。并在無效假設成立的條件下,按已知屬性類別分配的理論或學說計算各屬性類別的理論次數。第12頁,共81頁,2023年,2月20日,星期六因所計算得的各個屬性類別理論次數的總和應等于各個屬性類別實際觀察次數的總和,即獨立的理論次數的個數等于屬性類別分類數減1。也就是說,適合性檢驗的自由度等于屬性類別分類數減1。第13頁,共81頁,2023年,2月20日,星期六(一)適合性檢驗的基本步驟1、建立假設。即無效假設和備擇假設:H0:符合假設的總體分布,HA:不符合假設的總體分布。2確定顯著水平3計算。在無效假設為正確的前提下,計算值。與查表得的值進行比較4結論,如果<接受H0,否定HA第14頁,共81頁,2023年,2月20日,星期六(二)次數資料的適合性檢驗1、k=2組次數資料的適合性檢驗

這種資料僅分成2組,即k=2,其總體分布為二項總體分布。無效假設H0:符合假設的二項分布,對HA:部符合假設的二項分布。由于受到理論總次數等于實際總次數這一條件的限制,即∑Ei=N,因而約束條件數m=1,自由度df=2-1=1.故需用矯正公式。

第15頁,共81頁,2023年,2月20日,星期六例8.1海棠種子發芽試驗的結果列于下表,試檢驗該樣本所屬的二項總體與假設發芽率p=0.90的二項總體分布之間有無顯著差異

第16頁,共81頁,2023年,2月20日,星期六分組實際次數理論概率理論次數種子發芽種子不發芽352480.900.1036040合計4001.00400第17頁,共81頁,2023年,2月20日,星期六(1)直接法統計假設:H0:符合假設p=0.90的二項分布;HA:不符合假設p=0.90的二項分布顯著水平:α=0.05檢驗計算:

=1.5625第18頁,共81頁,2023年,2月20日,星期六df=2-1=1查分布表得右尾臨界值=3.84

推斷:因=1.5625<=3.84故接受H0,否定HA,即該批海棠種子發芽試驗的結果所屬的二項分布與假設發芽率p=0.90的二項總體之間無顯著性差異。

第19頁,共81頁,2023年,2月20日,星期六(2)簡算法

對于k=2的次數資料O1和O2,欲檢驗其是否屬于r:s的總體二項分布時,可以省略理論次數的計算,簡化公式第20頁,共81頁,2023年,2月20日,星期六如本例

==1.5625第21頁,共81頁,2023年,2月20日,星期六2、k≥3組次數資料的適合性檢驗這種資料分3組以上,即k≥3,其總體分布為多項分布。無效假設H0:符合假設的多項分布。HA:不符合假設的多項分布。這種分布亦受理論次數等于實際總次數即∑E=N這一條件的限制。自由度df=k-1≥2,不用矯正公式。第22頁,共81頁,2023年,2月20日,星期六例8.2用乳白色和紅色金魚草雜交F2代的實驗結果列于下表。試檢驗該樣本所屬的總體分布與假設理論比率為1:2:1的多項分布之間有無顯著性差異。

第23頁,共81頁,2023年,2月20日,星期六分組實際次數理論概率理論次數乳白色粉紅色紅色2555200.250.500.25255025合計1001.00100第24頁,共81頁,2023年,2月20日,星期六(1)直接法統計假設:H0符合1:2:1對HA不符合1:2:2顯著水平α=0.05計算:=1.5df=k-1=2第25頁,共81頁,2023年,2月20日,星期六查表得右尾檢驗臨界值=5.99推斷:因=1.5<=5.99故接受H0,否定HA,即金魚草雜交F2代的試驗結果所屬的總體分布與假設理論比率為1:2:1的多項分布之間無顯著差異。第26頁,共81頁,2023年,2月20日,星期六2)簡算法對于k≥3的次數資料,有下式簡化計算式中oi為實際次數,n為總次數,pi為理論概率第27頁,共81頁,2023年,2月20日,星期六本例

=1.5第28頁,共81頁,2023年,2月20日,星期六例:檢驗200頭大白豬仔豬一月窩重的資料是否服從正態分布第29頁,共81頁,2023年,2月20日,星期六1、先將資料(原始數據略)整理成次數分布表,組限、組中值、各組的次數列于表7-7的(1)、(2)、(3)欄,再將各組上限列于第(4)欄中。2、計算各組組上限與均數(=65.6kg)之差,列于第(5)欄。3、計算校正標準差Sc。由于由分組資料求得的標準差較不分組時所得標準差為大,故需作校正。第30頁,共81頁,2023年,2月20日,星期六4、依公式求各組上限的正態離差,列入第6欄。如第一組5、設該資料服從正態分布,依u值查正態分布表得各組段的累計概率(a),列入第(7)欄。如當u=-2.57時,a=0.0051,u=0.29時,a=0.6141。6、求出每一組段的概率,列入第(8)欄。由下一組段的累加概率減去本組段的累加概率而得。如8─組段的概率為0.0136-0.0051=0.0085。第31頁,共81頁,2023年,2月20日,星期六7、以總數n=200頭乘以各組概率便得理論次數,列入第(9)欄。凡理論值小于5者應加以合并。本例前三組與后三組分別合并。合并后的實際次數與理論次數分別為10與6.44、7與8.72,見第(3)與第(9)欄。8、求各組2值,列入第(10)欄。9、確定自由度。這里是因為求理論次數時用去均數,標準差與總次數三個統計量,該例經合并共12個組,故df=12-3=9。第32頁,共81頁,2023年,2月20日,星期六10、結論。由df=9查2表得:20.05(9)=16.919,而計算所得的2值為:2=8.7808,因為2<20.05,

P>0.05,表明各組實際次數與由正態分布計算的理論次數差異不顯著,可以認為大白豬仔豬一月窩重服從正態分布。第33頁,共81頁,2023年,2月20日,星期六例:用顯微鏡檢查某樣品內結核菌的數目,對某些視野內各小方格的結核菌數計數,然后按不同的結核菌數目把格子分類,記錄每類的格子數。其結果見表7—9第(1)、(2)欄。試檢驗結核菌數是否服從波松分布。第34頁,共81頁,2023年,2月20日,星期六λ是波松分布所依賴的唯一參數。λ值愈小分布愈偏倚,隨著λ的增大,分布趨于對稱(如圖4-11所示)。當λ=20時分布接近于正態分布;當λ=50時,可以認為波松分布呈正態分布。所以在實際工作中,當λ≥20時就可以用正態分布來近似地處理波松分布的問題。第35頁,共81頁,2023年,2月20日,星期六1.計算理論概率設結核菌數服從波松分布P(λ),其概率計算公式為:其中λ為平均數μ,且等于方差σ2。此時因λ未知,可利用樣本平均數來估計。利用加權法求樣本平均數為:則:各項理論概率為計算結果列于第(3)欄第36頁,共81頁,2023年,2月20日,星期六2.計算理論次數將總次數N=118乘以各組的理論概率即得各組理論次數T。計算結果列于第(4)欄。由于表后4組的理論次數小于5,故將后4組與第7組合并為一組,合并后的實際格子數為8,理論格子數為9.5818。3.計算2值根據表7—9第(5)欄的數據可得2值為:第37頁,共81頁,2023年,2月20日,星期六因為此例經并組后的分組數為7;計算理論次數利用了樣本平均數和總次數,所以自由度為7-2=5。當df=5時,查2值表得:20.05(5)=11.07,因為2<

20.05(5),P>0.05,表明結核菌的各實際格子數與根據波松分布計算出的理論格子數差異不顯著,可以認為結核菌數服從波松分布。第38頁,共81頁,2023年,2月20日,星期六注意事項:計算自由度時的α的數目確定!df=n-1-α第39頁,共81頁,2023年,2月20日,星期六五、獨立性檢驗(一)獨立性檢驗根據次數資料判斷兩類因子彼此相關或相互獨立的假設檢驗就是獨立性檢驗。獨立性檢驗實際上是基于次數資料對子因子間相關性的研究。第40頁,共81頁,2023年,2月20日,星期六(二)兩項分組次數資料的獨立性檢驗

這種資料按兩個方向分組,按行分為r個組,按列分為c個組,故稱為兩項分組次數資料。實得的兩向分組資料的次數與假設理論次數間是否相互獨立的檢驗稱為獨立性檢驗。可以對任意二維的假設分布進行檢驗。第41頁,共81頁,2023年,2月20日,星期六理論次數和自由度的計算Eij=n·pij=n·=df=rc-r-c+1=(r-1)(c-1)=

式中r為行區組;c為列區組;ri為行合計次數;cj為列合計次數;n為總次數;pij為二維聯合概率pij=pi·pj,這是按獨立事件概率的乘法原理計算的。

第42頁,共81頁,2023年,2月20日,星期六1.2×2組次數資料的獨立性檢驗這種資料按行分為2組,即r=2;按列分為2組,即c=2;資料的一般形式如下表,其自由度df=(2-1)(2-1)=1,需要用矯正公式。

第43頁,共81頁,2023年,2月20日,星期六其中Aij為實際觀察次數,Tij為理論次數。第44頁,共81頁,2023年,2月20日,星期六例.試驗用80頭小白鼠檢驗某種疫苗是否有預防效果。結果是注射疫苗的44頭中有12頭發病,32頭未發病;未注射的36頭中有22頭發病,14頭未發病,問該疫苗是否有預防效果?第45頁,共81頁,2023年,2月20日,星期六第46頁,共81頁,2023年,2月20日,星期六

(1)提出無效假設與備擇假設

H0:發病與否和注射疫苗無關,即二因子相互獨立。HA:發病與否和注射疫苗有關,即二因子彼此相關。(2)計算理論次數

根據二因子相互獨立的假設,由樣本數據計算出各個理論次數。二因子相互獨立,就是說注射疫苗與否不影響發病率。也就是說注射組與未注射組的理論發病率應當相同,均應等于總發病率34/80=0.425。依此計算出各個理論次數如下:第47頁,共81頁,2023年,2月20日,星期六注射組的理論發病數:T11=44×34/80=18.7注射組的理論未發病數:T12=44×46/80=25.3,或:T12=44-18.7=25.3;未注射組的理論發病數:T21=36×34/80=15.3,或T21=34-18.7=15.3;未注射組的理論未發病數:T22=36×46/80=20.7,或T22=36-15.3=20.7。第48頁,共81頁,2023年,2月20日,星期六從上述各理論次數Tij的計算可以看到,理論次數的計算利用了行、列總和,總總和,4個理論次數僅有一個是獨立的。表中括號內的數據為相應的理論次數。第49頁,共81頁,2023年,2月20日,星期六計算值將表中的實際次數、理論次數代入公式:+第50頁,共81頁,2023年,2月20日,星期六5、由自由度df=1查臨界2值,作出統計推斷因為20.01(1)=6.63,而=7.944>20.01(1),P<0.01,否定H0,接受HA,表明發病率與是否注射疫苗極顯著相關,這里表現為注射組發病率極顯著低于未注射組,說明該疫苗是有預防效果的。第51頁,共81頁,2023年,2月20日,星期六2

值簡算法在(7-6)式中,不需要先計算理論次數,直接利用實際觀察次數Aij,行、列總和Ti.、T.j和總總和T..進行計算簡便,且誤差小。第52頁,共81頁,2023年,2月20日,星期六2.2×c列聯表的獨立性檢驗

2×c列聯表是行因子的屬性類別數為2,列因子的屬性類別數為c(c3)的列聯表。其自由度df=(2-1)(c-1),因為c3,所以自由度大于2,在進行2檢驗時,不需作連續性矯正。2×c表的一般形式見下表第53頁,共81頁,2023年,2月20日,星期六(i=1,2;j=1,2,…,c)為實際觀察次數。第54頁,共81頁,2023年,2月20日,星期六例.在甲、乙兩地進行某種作物生長情況調查,將體型按優、良、中、劣四個等級分類,其結果見下表,問兩地該作物生長情況是否相同。第55頁,共81頁,2023年,2月20日,星期六1.提出無效假設與備擇假設

H0:作物生長情況與地區無關,即兩地作物生長情況與相同。

HA:作物生長情況與與地區有關,即作物生長情況與不同。第56頁,共81頁,2023年,2月20日,星期六2.計算各個理論次數,并填在各觀察次數后的括號中計算方法與2×2表類似,即根據兩地水牛體型構成比相同的假設計算。如優等組中,甲地、乙地的理論次數按理論比率20/135計算;良等組中甲地、乙地的理論次數按理論比率15/135計算;中等、劣等組中甲地、乙地的理論次數分別按理論比率80/135和20/135計算。甲地優等組理論次數:T11=90×20/135=13.3,乙地優等組理論次數:T21=45×20/135=6.7,或T21=20-13.3=6.7;其余各個理論次數的計算類似。第57頁,共81頁,2023年,2月20日,星期六3.計算計算2值4.由自由度df=3查臨界2值,作出統計推斷因為20..05(3)=7.815,而2=7.582<20..05(3),p>0.05,不能否定H0,可以認為甲、乙該作物生長情況相同。本例同樣可以利用2值簡算法。第58頁,共81頁,2023年,2月20日,星期六生物學研究中有時需將數量性狀資料以等級分類這些由數量性狀資料轉化為質量性狀的次數資料檢驗,也可用2檢驗。例.分別統計了A、B兩個品種各67頭試驗用小白鼠的產仔情況,結果見下表,問A、B兩品種的產仔構成比是否相同?第59頁,共81頁,2023年,2月20日,星期六

1、提出無效假設與備擇假設H0:A、B兩個品種產仔數分級構成比相同。HA:A、B兩個品種產仔數分級構成比不同。2、計算2值用簡化公式計算為:3、由自由度df=(2-1)(3-1)=2查臨界2值,作出統計推斷因為20.05(2)=9.21,2>

20.01,

P<0.01,所以否定H0,接受HA,表明A、B兩品種產仔數構成比差異極顯著。第60頁,共81頁,2023年,2月20日,星期六注意本例中A、B兩品種產仔數構成比差異極顯著。但是無法具體確定分級構成比差異在那樣的等級。需用2檢驗的再分割法。第61頁,共81頁,2023年,2月20日,星期六2檢驗的再分割法(1)先對兩個品種產仔數在9頭以下和10—12頭進行2檢驗,分割后的情況見下表:第62頁,共81頁,2023年,2月20日,星期六利用簡化公式(7-7)計算21值為:由df1=2-1=1,查2值表得:20.05(1)=3.841,因為21<

20.05(1),P>0.05,表明這兩個品種的產仔數在9頭以下和10—12頭這兩個級別內的比率差異不顯著。第63頁,共81頁,2023年,2月20日,星期六(2)對產仔數在13頭以上組與其他合并組(即9頭以下和10—12頭兩個組的合并)進行2檢驗,分割后見下表:第64頁,共81頁,2023年,2月20日,星期六簡算法計算2值由df2=2-1=1,查2值表得:20.05(1)=3.846,20.01(1)=6.63,因為22>20.01(1),P<0.01,表明這兩個品種的產仔數在合并組與13頭以上組的比率差異極顯著。其中B品種產仔數在13頭以上的比率為29/67=42.38%,極顯著高于A品種產仔數在13頭以上的比率6/67=8.96%。或者說B品種產仔數在合并組(12頭以下)的比率為38/67=56.72%,極顯著低于A品種產仔數在合并組(12頭以下)的比率61/67=91.04%。第65頁,共81頁,2023年,2月20日,星期六經分割檢驗后,df=df1+df2=2+1=3,2=23.25=21+

22=2.93+20.458=23.388,2略小于21+22,是由于簡算中的舍入誤差所致。第66頁,共81頁,2023年,2月20日,星期六(三)r×c列聯表的獨立性檢驗

r×c表是指行因子的屬性類別數為r(r>2),列因子的屬性類別數為c(c>2)的列聯表。其一般形式見表第67頁,共81頁,2023年,2月20日,星期六r×c列聯表各個理論次數的計算方法與上述(2×2)、(2×c)表適合性檢驗類似。但一般用簡化公式計算2值,其公式為:第68頁,共81頁,2023年,2月20日,星期六【例】對三組小白鼠(每組39頭)分別喂給不同的飼料,各組發病次數統計如下表,問發病次數的構成比與所喂飼料是否有關?第69頁,共81頁,2023年,2月20日,星期六檢驗步驟如下:

1、提出無效假設與備擇假設H0:發病次數的構成比與飼料種類無關,即二者相互獨立。HA:發病次數的構成比與飼料種類有關,即二者彼此獨立。2、計算理論次數對于理論次數小于5者,將相鄰幾個組加以合并(見下表),合并后的各組的理論次數均大于5。第70頁,共81頁,2023年,2月20日,星期六3、計算2值利用公式計算2值,得:第71頁,共81頁,2023年,2月20日,星期六4、查臨界2值,進行統計推斷由自由度df=(4-1)(3-1)=6,查臨界2值得:20..05(6)=12.9,因為計算所得的2<

20.05(6),P>0.05,不能否定H0,可以認為小白鼠的發病次數的構成比與飼料種類相互獨立,即用三種不同的飼料飼喂奶牛,各組小白鼠發病次數的構成比相同。第72頁,共81頁,2023年,2月20日,星期六【例】用同一方法對甲、乙、丙三種試管做滅菌試驗,每種試管又分為完好和破碎兩組,3×2組次數資料列于下表,試做獨立性檢驗第73頁,共81頁,2023年,2月20日,星期六分組完好數破碎數行次數甲種試管乙種試管丙種試管898(908)914(908)912(908)102(92)86(92)88(92)100010001000列次數27242763000第74頁,共81頁,2023年,2月

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論