配合度檢驗、獨立性檢驗與同質性檢驗_第1頁
配合度檢驗、獨立性檢驗與同質性檢驗_第2頁
配合度檢驗、獨立性檢驗與同質性檢驗_第3頁
配合度檢驗、獨立性檢驗與同質性檢驗_第4頁
配合度檢驗、獨立性檢驗與同質性檢驗_第5頁
已閱讀5頁,還剩56頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、配合度檢驗、獨立性檢驗與同質性檢驗2 2檢驗(檢驗(chi-square test)是專門用于)是專門用于數據的統計方法。數據的統計方法。由于這類數據在整理時,常常以由于這類數據在整理時,常常以(contingency table)或交叉表()或交叉表(cross tabulation)呈現,因此這種分析方法又被稱為列聯表分呈現,因此這種分析方法又被稱為列聯表分析或交叉表分析。析或交叉表分析。 2 2檢驗用于對點計而來的檢驗用于對點計而來的數據資料數據資料進行假設檢驗,對總體的進行假設檢驗,對總體的不做要求,也不不做要求,也不對總體對總體進行推論進行推論, ,因此屬于自由分布的非參數因此屬于自

2、由分布的非參數檢驗。檢驗。(151) eefff202配合度檢驗配合度檢驗獨立性檢驗獨立性檢驗同質性檢驗同質性檢驗把實得的點計數據只按一種分類標準編制把實得的點計數據只按一種分類標準編制成表就是單向表。對單向表的數據所進行的成表就是單向表。對單向表的數據所進行的2 2檢驗,稱為單向表的檢驗,稱為單向表的2 2檢驗,也稱為配合度檢檢驗,也稱為配合度檢驗(驗(goodness of fit testgoodness of fit test)。)。獨立性檢驗主要用以兩個或兩個以上因素多項分類的計數獨立性檢驗主要用以兩個或兩個以上因素多項分類的計數資料分析,也就是研究兩類變量的關聯性和依存性問題。如人

3、資料分析,也就是研究兩類變量的關聯性和依存性問題。如人的血型和人的性格是否有關聯。的血型和人的性格是否有關聯。把兩個因素實得的點計數據按兩種分類標準編制成的表就把兩個因素實得的點計數據按兩種分類標準編制成的表就是雙向表。對雙向表的數據所進行的是雙向表。對雙向表的數據所進行的2 2檢驗,叫作雙向表的檢驗,叫作雙向表的2 2檢驗,即雙因素的檢驗,即雙因素的2 2檢驗。兩個以上因素形成的表稱為多檢驗。兩個以上因素形成的表稱為多維列聯表。重點是兩因素的獨立性檢驗。維列聯表。重點是兩因素的獨立性檢驗。假如雙向表中橫行所分的組數用假如雙向表中橫行所分的組數用R R表示,縱列所分的組數表示,縱列所分的組數用

4、用C C表示,那么,雙向表的表示,那么,雙向表的2 2檢驗也稱為檢驗也稱為R RC C表的表的2 2檢驗。檢驗。 在雙向表的在雙向表的2 2檢驗中,如果要判斷兩檢驗中,如果要判斷兩種分類特征,即兩個因素之間是否有依從關種分類特征,即兩個因素之間是否有依從關系,這種系,這種2 2檢驗稱為檢驗稱為。如果是。如果是判斷幾次重復實驗的結果是否相同,這種判斷幾次重復實驗的結果是否相同,這種2 2檢驗稱為檢驗稱為。1理論頻數的計算雙向表雙向表2 2檢驗中,理論頻數的計算公式為檢驗中,理論頻數的計算公式為Nfffyixie(161) 公式中,公式中,fxi表示橫行各組實際頻數的總和表示橫行各組實際頻數的總和

5、 fyi表示縱列各組實際頻數的總和表示縱列各組實際頻數的總和 N表示樣本容量的總和表示樣本容量的總和表10-6 不同家庭經濟狀況學生報考師范大學的不同態度家庭家庭經濟狀況經濟狀況對于報考師范大學的態度對于報考師范大學的態度總和總和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936總和總和565341150解:1.提出假設H H0 0:學生是否愿意報考師范大學與家庭經濟狀況無關:學生是否愿意報考師范大學與家庭經濟狀況無關H H1 1:學生是否愿意報考師范大學與家庭經濟狀況有關:學生是否愿意報考師范大學與家庭經濟狀況有關 2.選擇檢驗統計量并計算對計數數據進行差

6、異檢驗對計數數據進行差異檢驗, ,可選擇可選擇2 2檢驗檢驗計算理論頻數允許有小數,因為計算理論頻數允許有小數,因為2 2分布已被作分布已被作為連續型的分布看待。為連續型的分布看待。表10-7 不同家庭經濟狀況學生報考師范大學的不同態度家庭家庭經濟狀況經濟狀況對于報考師范大學的態度對于報考師范大學的態度總和總和愿意愿意不愿意不愿意未定未定上中下1820182719 710201155=fx159=fx236=fx3總和總和56=fy153=fy241=fy3150=N20.5312.7222.0313.4419.4320.8515.0316.139.84表10-8 學生報考師范大學的態度與家庭

7、經濟狀況的2檢驗計算表愿意愿意- -上上1820.53-2.53 6.40090.3118愿意愿意- -中中2022.03-2.03 4.12090.1871愿意愿意- -下下1813.44 4.5620.79361.5471不愿意不愿意- -上上2719.43 7.5757.30492.9493不愿意不愿意- -中中1920.85-1.85 3.42250.1641不愿意不愿意- -下下712.72-5.7232.71842.5722未定未定- -上上1015.03-5.0325.30091.6834未定未定- -中中2016.13 3.8714.97690.9285未定未定- -下下119

8、.84 1.16 1.34560.1367總總 和和15015010.4802ofefeoff 2eoff eeofff2雙向表的自由度雙向表的自由度: : df=(R=(R -1)(-1)(C-1)-1)查查2 2值表,當值表,當 df =(3-1)(3-1)=4 =(3-1)(3-1)=4 時時49. 9205. 0)4(3 .13201. 0)4(計算結果為:計算結果為: 2=10.48*9.49 2= 10.48 13.3,則 0.05 P 0.01結論:學生是否愿意報考師范大學與家結論:學生是否愿意報考師范大學與家庭經濟狀況有顯著關系。庭經濟狀況有顯著關系。公式中,公式中,foi 表

9、示雙向表中每格的實際頻數表示雙向表中每格的實際頻數122yixioifffN(162) =10.48=10.48家庭家庭經濟狀況經濟狀況對于報考師范大學的態度對于報考師范大學的態度總和總和愿意愿意不愿意不愿意未定未定上上中中下下18201827197102011555936總和總和565341150表10-8 不同家庭經濟狀況學生報考師范大學的不同態度122yixioifffN141361141592041551053367535919535527563618565920565518150222222222雙向表的雙向表的2 2檢驗和檢驗和2 2檢驗,只檢驗,只是檢驗的是檢驗的,而,而。對于同

10、一組數據所進行的對于同一組數據所進行的2 2檢驗,有時既可檢驗,有時既可以理解為獨立性以理解為獨立性2 2檢驗,又可以理解為同質性檢檢驗,又可以理解為同質性檢驗,兩者無根本區別。驗,兩者無根本區別。 1樣本對總體的代表性,既涉及到樣本對總體的代表性,既涉及到,又涉又涉及到及到。2運用運用及及數據處理的準確性數據處理的準確性3樣本對總體的樣本對總體的在收集數據的過程中控制選擇恰當的方法通過抽樣設計控制抽樣設計的要求是樣本對研究總體有良好的抽樣設計的要求是樣本對研究總體有良好的,即樣本的構成與總體保持一致。為了保證這,即樣本的構成與總體保持一致。為了保證這一點,抽樣時必須遵循一點,抽樣時必須遵循(

11、randomizationrandomization)的)的基本原則。基本原則。 所謂隨機化原則,是指在抽樣時,樣本中的每所謂隨機化原則,是指在抽樣時,樣本中的每一個體都是按照隨機的原理被抽取的,總體中每一一個體都是按照隨機的原理被抽取的,總體中每一個體被抽到的可能性是相等的。個體被抽到的可能性是相等的。 1 1簡單隨機抽樣(simple random sampling)簡單隨機抽樣就是按照隨機原則直接從總體中簡單隨機抽樣就是按照隨機原則直接從總體中抽取出若干個單位作為樣本。抽取出若干個單位作為樣本。簡單隨機抽樣法能保證總體中的每一個對象都有同等簡單隨機抽樣法能保證總體中的每一個對象都有同等的

12、被抽取到的可能性,并且個體之間都相互獨立。這是在的被抽取到的可能性,并且個體之間都相互獨立。這是在總體異質性不是很大而且所抽取的樣本較小時經常采用的總體異質性不是很大而且所抽取的樣本較小時經常采用的一種形式。一種形式。 簡單隨機抽樣法的局限是:當樣本規模小時,簡單隨機抽樣法的局限是:當樣本規模小時,樣本的代表性較差。樣本的代表性較差。 簡單隨機取樣有兩種基本方式:抽簽法(drawing lots) 隨機數字表法(random number table) 等距抽樣等距抽樣(interval sampling)也稱為機械也稱為機械抽樣或系統抽樣。實施時,先把總體中的所有個抽樣或系統抽樣。實施時,先

13、把總體中的所有個體按一定順序編號,然后依固定的間隔取樣。體按一定順序編號,然后依固定的間隔取樣。等距抽樣可以保證樣本的成分與總體一致,等距抽樣可以保證樣本的成分與總體一致,但隨機性不如單純隨機抽樣法。應用中可將兩但隨機性不如單純隨機抽樣法。應用中可將兩種方法結合使用。種方法結合使用。 分層隨機取樣簡稱分層抽樣分層隨機取樣簡稱分層抽樣(stratified sampling 或或 hierarchical sampling),是進行大規模研究時常常使),是進行大規模研究時常常使用的抽樣方法。用的抽樣方法。先將總體按照一定標準分先將總體按照一定標準分為若干類型(統計上稱為層),再根據各層對象為若干

14、類型(統計上稱為層),再根據各層對象的數量在總體數量中所占的比例,確定從每一種的數量在總體數量中所占的比例,確定從每一種類型(層)中抽取樣本的數量,然后按隨機原則類型(層)中抽取樣本的數量,然后按隨機原則和所確定的各層取樣的數量,從各層中取樣。和所確定的各層取樣的數量,從各層中取樣。分類的標準要科分類的標準要科學,要符合實際情況。各層內的差別要小,而層學,要符合實際情況。各層內的差別要小,而層與層之間的差異則越大越好。與層之間的差異則越大越好。 NNnnii公式中,公式中,ni為第為第i i層中被抽取的個體數量層中被抽取的個體數量 n為整個研究樣本中個體的總數量為整個研究樣本中個體的總數量 N

15、i i為第為第i i層中對象的數量層中對象的數量 N為總體內個體的數量為總體內個體的數量 (221):為了調查某區重點中學為了調查某區重點中學720720名高一學名高一學生的視力,首先按視力的情況將他們分成生的視力,首先按視力的情況將他們分成(108(108人人) )、(360360人)、人)、(252252人)三種水人)三種水平。若用分層抽樣法抽取平。若用分層抽樣法抽取120120人進行調查,問各人進行調查,問各層應抽多少人?層應抽多少人?計算Nnn好好60720360120NNnn中中42720252120NNnn差差最佳配置法不僅考慮各層的人數比例,而且考最佳配

16、置法不僅考慮各層的人數比例,而且考慮到了各層的標準差。當各層內的標準差已知,應慮到了各層的標準差。當各層內的標準差已知,應該在標準差大的層內多分配而在標準差小的層內少該在標準差大的層內多分配而在標準差小的層內少分配抽樣數量。分配抽樣數量。最佳配置法可以使得到的樣本具有較好的最佳配置法可以使得到的樣本具有較好的。 公式中,公式中,ni i表示從某一層所抽個體數表示從某一層所抽個體數 n表示樣本容量表示樣本容量 Ni i表示某層個體總數表示某層個體總數 i i表示某層標準差表示某層標準差 iiiiiNNnn(222)當各個當各個沒有現成資料可以應用時,可以沒有現成資料可以應用時,可以先從該層抽一個

17、小樣本,由這一小樣本計算先從該層抽一個小樣本,由這一小樣本計算出的樣本標準差出的樣本標準差S對對進行估計。進行估計。iiiiiSNSNnn(223)分層隨機取樣法的分層隨機取樣法的是代表性和推論是代表性和推論的精確性較好。它適用于總體單位數量較多,的精確性較好。它適用于總體單位數量較多,并且內部差異較大的研究對象。并且內部差異較大的研究對象。分層隨機取樣法的分層隨機取樣法的性是要求對總體各性是要求對總體各單位的情況有較多的了解,否則就難以作出科單位的情況有較多的了解,否則就難以作出科學的分類。學的分類。 當總體容量很大時,直接以總體中的所有個當總體容量很大時,直接以總體中的所有個體為對象,從中

18、進行抽樣,在實際調查或研究中體為對象,從中進行抽樣,在實際調查或研究中存在很大困難。存在很大困難。采用分階段的抽樣方法,可以縮小實際采用分階段的抽樣方法,可以縮小實際抽樣的范圍,使實際抽樣工作能夠按研究設抽樣的范圍,使實際抽樣工作能夠按研究設計的要求順利進行。計的要求順利進行。兩階段隨機抽樣(兩階段隨機抽樣(two-stages random two-stages random samplingsampling)的一般過程是:先將總體分成)的一般過程是:先將總體分成個部個部分;分;從這從這個部分中隨機抽取個部分中隨機抽取m個部分個部分作為第一階段樣本作為第一階段樣本;是分別從這是分別從這m個部

19、分中抽取一定數個部分中抽取一定數量(量(ni i)的個體構成第二階段樣本。)的個體構成第二階段樣本。整群隨機抽樣是先將總整群隨機抽樣是先將總體各單位按一定的標準分成體各單位按一定的標準分成許多群(小組),然后按隨許多群(小組),然后按隨機原則從這些群中抽取若干機原則從這些群中抽取若干群作為樣本。群作為樣本。整群隨機取樣法的整群隨機取樣法的是樣本比較集中,適是樣本比較集中,適宜于某些特定的研究,尤其是在教育實驗中常用宜于某些特定的研究,尤其是在教育實驗中常用此法。此外,在規模較大的調查研究中,整群隨此法。此外,在規模較大的調查研究中,整群隨機取樣易于組織,可節省人力、物力和時間。機取樣易于組織,

20、可節省人力、物力和時間。整群隨機抽樣法的整群隨機抽樣法的是樣本分布不均勻,是樣本分布不均勻,代表性較差。代表性較差。 在應用中應根據研究所要求的精確度及經費在應用中應根據研究所要求的精確度及經費情況確定樣本容量。如果樣本容量過小,會影響情況確定樣本容量。如果樣本容量過小,會影響樣本對總體的代表性,增大抽樣誤差而降低研究樣本對總體的代表性,增大抽樣誤差而降低研究推論的精確性;樣本容量過大,雖然減小了抽樣推論的精確性;樣本容量過大,雖然減小了抽樣誤差,但可能增大過失誤差,并且增加不必要的誤差,但可能增大過失誤差,并且增加不必要的人力物力資源的浪費。人力物力資源的浪費。樣本容量與抽樣誤差并不是直樣本

21、容量與抽樣誤差并不是直線關系。線關系。確定容量的基本原則是:在盡確定容量的基本原則是:在盡量節省人力、經費和時間的條件下,量節省人力、經費和時間的條件下,確保用樣本推斷總體達到預定的可確保用樣本推斷總體達到預定的可行度及準確性。行度及準確性。nXZ222dZn其中,最大允許誤差為其中,最大允許誤差為 ,可信度為,可信度為1。 Xd由由有有(224)可以看到,當可以看到,當確定之后,總體標準差和最確定之后,總體標準差和最大允許誤差大允許誤差d d是決定樣本容量的兩個因素。是決定樣本容量的兩個因素。由nSXt222dStn有當樣本容量當樣本容量n n 未確定時,未確定時,t t 值無法確定,值無法

22、確定,因此一般采用嘗試法。因此一般采用嘗試法。 (225). .將將df的的 t 值代入公式求出值代入公式求出n1 1,. .將將n1 1 的的 t 值代入公式求出值代入公式求出n2 2, . .直至前后兩次求出的直至前后兩次求出的n 相同為止。相同為止。 也可據也可據S/dS/d查附表查附表2020求出樣本容量求出樣本容量 擬估計某市高校四級英語考試成績的擬估計某市高校四級英語考試成績的總體平均分數。以往考試成績的標準差為總體平均分數。以往考試成績的標準差為13,這,這次的估計最大允許誤差為次的估計最大允許誤差為2分,可信度為分,可信度為95%,問應抽取多大的樣本?問應抽取多大的樣本?221

23、396. 11633 .16222dZn擬對某市初中升入高中入學考試語文成擬對某市初中升入高中入學考試語文成績的總體平均數進行估計。根據以同等難度的試題績的總體平均數進行估計。根據以同等難度的試題對同等教育水平的另一城市部分初中升入高中入學對同等教育水平的另一城市部分初中升入高中入學考試語文成績算出的考試語文成績算出的S= =11.4。若要求估計的最大。若要求估計的最大允許誤差為允許誤差為d=d=3,可信度為,可信度為99%,問樣本容量應為,問樣本容量應為多少?多少?1.由由t分布表查得分布表查得 自由度自由度df=時,時,t1 1= =2.576 968 .9534 .11576. 2222

24、1dStn2.由由t分布表查得分布表查得 自由度自由度df= =96-1-1時,時,t2 2= =2.629 1008 .9934 .11629. 22222dStn3.由由t分布表查得分布表查得 自由度自由度df=100-1=100-1時,時,t3 3= =2.627 1007 .9934 .11627. 22221dStn前后兩次算出的樣本容量相等,因此前后兩次算出的樣本容量相等,因此 n= =100當估計出的樣本容量比較大時,可以直接按公式當估計出的樣本容量比較大時,可以直接按公式(22.4)計算而不必采用嘗試法。)計算而不必采用嘗試法。 在假設檢驗中,要同時考慮在假設檢驗中,要同時考慮

25、錯誤和錯誤和錯誤,因此錯誤,因此 nXZ02nXZ將以上兩式相加為:將以上兩式相加為: ZZn20ZZn2單側檢驗:2ZZn雙側檢驗:22ZZn(226)(227)式中的式中的和和由研究者預先確定,由研究者預先確定,值要比值要比值小。一般值小。一般為為0.05或或0.01,而,而值一般確定值一般確定為為0.10、0.20或或0.30。對同一個。對同一個值,單側和雙值,單側和雙側時的側時的Z Z臨界值是不一樣的。臨界值是不一樣的。 當樣本容量已知,當樣本容量已知, 值及其他條件也已確值及其他條件也已確定,則定,則就是確定值。這時可以利用有關公式計算就是確定值。這時可以利用有關公式計算值,從而對檢

26、驗的統計力作出評價。值,從而對檢驗的統計力作出評價。可以看到,在平均數的假設檢驗中,當確可以看到,在平均數的假設檢驗中,當確定了定了和和之后,樣本的容量之后,樣本的容量n取決于總體標準差取決于總體標準差和假設的總體差異和假設的總體差異。與參數估計相比,多。與參數估計相比,多考慮了一個考慮了一個因子,并且因子,并且與參數估計中的具與參數估計中的具有不同的涵義。有不同的涵義。 某市高中入學考試數學平均分數歷年來某市高中入學考試數學平均分數歷年來的標準差為的標準差為8.6分。某校欲估計今年該校學生入學分。某校欲估計今年該校學生入學考試數學成績是否與全市一致,希望可信度達到考試數學成績是否與全市一致,希望可信度達到95%,估計誤差不超過,估計誤差不超過2分,而分,而為為0.100.10,問需,問需抽取多大的樣本?抽取多大的樣本?22ZZn108095.10736 .

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論