




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、記數數據統計法卡方檢驗法.作者: 日期:第八草記數數據統汁法一卡方檢驗法 知識引入在各個研究領域中,有些研究問題只能劃分為不同性質的類別,各類別沒有量的聯系。例如, 性別分男女,職業分為公務員、教師、工人,教師職稱又分為教授、副教授有時雖有量的關系,因研究需要將英按一泄的標準分為不同的類別,例如,學習成績、能力水 平、態度等都是連續數據,只是研究者依一左標準將英劃分為優良中差,喜歡與不喜歡等少 數幾個等級。對這些非連續等距性數據,要判別這些分類間的差異或者多個變量間的相關性 方法稱為計數數據統訃方法。卡方檢驗是專用于解決汁數數據統訃分析的假設檢驗法。本章主要介紹卡方檢驗的兩個 應用:擬合性檢驗
2、和獨立性檢驗。擬合性檢驗是用于分析實際次數與理論次數是否相同,適 用于單個因素分類的汁數數#孔獨立性檢驗用于分析各有多項分類的兩個或兩個以上的因素 之間是否有關聯或是否獨立的問題。在計數數據進行統汁分析時要特別注意取樣的代表性。我們知迄統訃分析就是依拯樣本 所提供的信息,正確推論總體的情況。在這一過程中,最根本的一環是確保樣本的代表性及對 實驗的良好控制。在心理與教育研究中,所搜集到的有些數據屬于定性資料,它們常常是通 過調查、訪問或問卷獲得,除了少數實驗可以事先汁劃外,大部分收集數據的過程是難于控 制的。例如,某研究者關于某項教棄措施的問卷調查,由于有一部分教師和學生對該項措施 存有意見,或
3、對問卷本身有偏見,根本就不填寫問卷。這樣該研究所能收回的問卷只能代表一 部分觀點,所以它是一個有偏樣本,若據此對總體進行推論,就會產生一左的偏差,勢必不能真 實地反映出教師與學生對這項教育措施的意見。因此應用汁數資料進行統計推斷時,要特別 小心謹慎,防止樣本的偏倚性,只有具有代表性的樣本才能作岀正確的推論。第一節卡方擬合性檢驗一、卡方檢驗的一般問題卡方檢驗應用于計數數據的分析,對于總體的分布不作任何假設,因此它又是非參數檢驗 法中的一種。它由統汁學家皮爾遜推導。理論證明,實際觀察次數(f )與理論次數(fe), 又稱期望次數)之差的平方再除以理論次數所得的統訃量,近似服從卡方分布,可表示為:宀
4、護;(?)這是卡方檢驗的原始公式,英中當fc越大(f5),近似得越好。顯然f。與fc相差越大,卡方 值就越大;f與fc相差越小,卡方值就越小;因此它能夠用來表示f。與fc相差的程度。根據 這個公式,可認為卡方檢驗的一般問題是要檢驗名義型變量的實際觀測次數和理論次數分布 之間是否存在顯著差異。它主要應用于兩種情況:卡方檢驗能檢驗單個多項分類名義型變量各分類間的實際觀測次數與理論次數之間是否 一致的問題,這里的觀測次數是根據樣本數據得多的實計數,理論次數則是根據理論或經驗得 到的期望次數。這一類檢驗稱為擬合性檢驗。擬合性檢驗的零假設是觀測次數與理論次數之間無差異。英中理論次數的汁算一般是根據 某種
5、理論,按一定的概率通過樣本即實際觀測次數來計算。這里所說的某種理論,可能是經 驗規律,也可能是理論分布。確定理論次數是卡方檢驗的關鍵。擬合性檢驗自由度的確立與兩個因素有關:一是分類的項數,二是在計算理論次數時, 所用統計量或約束條件的個數,這兩者之差即為自由度。由于一般情況下,計算理論次數時 只用到“總數這一統汁量,所以自由度一般是分類的項數減1。但在對連續數據分布的配合 度檢驗中,常常會用數據個數、平均數、標準差等統計量來計算理論次數,所以此時的自由 度應從總分類項中減去更多的個數。按照檢驗中理論次數的左義不同,擬合性檢驗有以下集 中應用。二、檢驗無差假設所謂無差假設,是指各項分類的實計數之
6、間沒有差異,也就是說各項分類之間的概率相等 (均勻分布),因此理論次數完全按概率相等的條件來il算。即任一項的理論次數都等于總 數/分類項數。因此自由度也就等于分類項數減1。2坐創說侑f【例1】隨機地將麻將色子拋擲3 00次,檢驗該色子的六個而是否均勻。結果1一6點向 上的次數依次是,43, 49,5 6, 4 5.66, 4 1。解:每個類的理論次數是3 0 0/ 6 = 50,代入公式:因此,在0.0 5的顯著性水平下,可以說這個色子的六面是均勻的。【例2】隨機抽取60名髙一學生,問他們文理要不要分科,回答贊成的39人,反對的 21人,問對分科的意見是否有顯著的差異。解:如果沒有顯著的差異
7、,則贊成與反對的各占一半,因此是一個無差假設的檢驗,于是理 論次數為60/2=30,代入公式:所以對于文理分科,學生們的態度是有顯著的差異的。三、檢驗假設分布的概率這里的假設分布可以是經驗性的,也可以是某理論分布。公式中所需的理論次數則按照 這里假設的分布進行計算。【例3】國際色覺障礙討論會宣布,每12個男子中,有一個是先天性色盲。從某校抽取 的1 32名男生中有4人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?解:按國際色覺障礙討論會的統訃結果,1 3 2人應該有1 32/12= 1 1人是色盲,剩下的1 21人非色盲,代入公式有:因此,在0.05和顯著性水平下,該校男子色盲比率與國際
8、色覺障礙討論會的統計結果有顯 著差異,顯然根據比例可知該校的色盲率小于國際色覺障礙討論會的統il結果。【例4】 在英語四級考試中,某學生做對了 8 0個四擇一選擇題中的2 8題,現在要判斷 該生是否是完全憑猜測做題。解:假如該生完全憑猜測做題,那么平均而言每逍題做對的可能性是1/4,因此80個題 中平均而能做對80/ 4 =20題,代入公式有:因此,該生可能會做一些題。四、連續變量分布的擬合性檢驗對于一組連續數據,經常需要對其次數分布究竟服從哪種理論分布進行探討,這一方而的 主要應用就是在前而經常所提到的總體正態性檢驗。首先要將測疑數據整理成次數分布表和 畫出次分布圖,并據此選擇恰當的理論分布
9、。這些理論分布是多種多樣的,例如有正態分布、 均勻分布等。然后根據選擇的理論分布汁算出理論次數,就可以計算卡方統汁量并進行顯著 性檢驗了。若差異顯著,說明所選擇的理論分布不合適,可以再選一個理論分布進行檢驗, 直至完全擬合。當然有時也只需檢驗是否與某確定的理論分布相符,如正態性檢驗(參見教 材有關內容)。對連續隨機變量分布的吻合性檢驗,關鍵的步驟是計算理論次數與確定自由度。理論次數 的汁算是按所選理論分布規律,并利用觀測數拯的有關統訃量來計算各分組(次數分布表中) 理論次數。自由度則是用分組數減去計算理論次數時所用統訃量的數目。這種擬合性檢驗計算較為繁瑣,不做要求。五、小理論次數時的連續性校正
10、卡方檢驗中,當某分類理論次數小于5時,卡方統il量不能很好地滿足卡方分布,此時需要 對卡方統計量進行校正,稱為卡方的連續性校正,其公式如下:加弋仏-/IF* ;盡管采用此方法校正后,卡方統汁量能較為接近卡方分布,不過我們仍然建議在實際中最 好增大樣本的容疑,盡量減少出現這種不大服從理論分布的情況。第二節獨立性檢驗卡方檢驗還可以用于檢驗兩個或兩個以上因素(各有兩項或以上的分類)之間是否相互影 響的問題,這種檢驗稱為獨立性檢驗.例如要討論血型與性格的關系,血型有A、B、AB、O 四類,性格采用心理學上的A型性格來劃分,即有A型和B型兩種,每個人可能是它們之間交 叉所形成的8種類型中的一種,那么倒底
11、它們之間有不有關系,就可以用卡方獨立性檢驗。卡方獨立性檢驗用于檢驗兩個或兩個以上因素(各有兩項或以上的分類)之間是否相互影 響的問題。所謂獨立,即無關聯,互不影響,就意味著一個因素各個分類之間的比例關系,在另 一個因素的各項分類下都是相同的,比如在血型與性格關系中,如果A型性格人群中各血型的 比例關系,與B型性格人群中各血型的比例關系相同,就可能說血型為性格相互獨立,當然 這里的“兩者比例相同”在統計的意義下,應表述為“兩比例差異不超過誤差范圍,因為就算總 體之間相互獨立,收集到兩個比例完全相同的樣本的可能是很小很小的,甚至是不可能的。 相反,若一個因素各個分類之間的比例關系,在另一個因素的各
12、項分類下是不同的,則它們之 間相關。假如A型性格中A型血的比例髙于B型性格中A型血的比例,而且達到顯著水平, 那么就可以說血型與性格之間相關,不相互獨立。卡方獨立性檢驗的零假設是各因素之間相互獨立。因此理論次數的汁算也是基于這一假 設,具體計算時,采用列聯表的方式,后面將舉例說明。綸例說刪【例1】某校對學生課外活動內容進行調查,結果整理成下表,表中彩色格子里的數是原 始數據的匯總數,括號內的數是理論次數(是按下而將要介紹的原理計算得來的),此外的 是原始數據。性別(因素2)課外活動內容(因素1)小計秋fx)體育文娛閱讀男生2 1(153)11(10. 2)2 3(29. 5 )55女生6(11
13、.7)7(7.8)2 9 (22.5)42小計和(y)271 85297由于所有學生參加三項活動的比例是27:18:52,因此如果課外活動的選擇與性別沒有關 系的話,男女生參加這三項活動的比例也應是這同一比例,而男女各自的人數可以計算,所以 每格內的理論次數的計算方法如下:男生中參加體冇活動的理論人數:5 5 x27/9 7=15. 3參加文娛活動的理論人數:55x1 8 / 97=10.2參加閱讀活動的理論人數:55x5 2 /97 = 29, 5女生中參加體育活動的理論人數:4 2x27/97= 1 1. 7參加文娛活動的理論人數:42x18/97=7.8參加閱讀活動的理論人數:42x52
14、/97=22.5我們將行列的小計和分別用fx和fy來表示,總人數用N來表示時,上述計算理論次數 的方法可以表示為:f e y = f XiX f 為/N所以,卡方獨立性檢驗的公式可以表示如下,其中最后一個式子比較便于計算,fxy表示每 格的原始數據。2 二 y (兀Qi (凡-/J;/眄彳* 乙X 厶由于在計算理論次數時,用了按每個因素分類的小計和(fx和fy,其個數分別記為R 個和c個),和總和N ,而總和又可由按每個因素分類的小計和計算得來,因此若從總分 類個數RxC中減去R+C,則將總和重復減去了,因此要補1個自由度回來,所以最終獨立 性檢驗的自由度表示為:妙二應xCR C十 1二(尺一
15、1)冊一1)上述例題最終計算得: _ (21-1審,(11-10.2)2 |(23-29.5)215.310.229.5+ (6 11.7)2 |(? 8)2 *(跆-225)21177825=83552或者:=83217+丄+耳D+丄1(55x27 55x18 55x52 42x27 48x18 42x52 ,這兩個公式的計算結果有一點點差異,這完全是訃算誤差即四舍五入引起的。df=(3-l) (2-1)= 2, MA 05(2) = 5. 9 9,所以在0.05的顯著性水平下,拒絕零假 設,即可以認為性別與課外活動內容有關聯,或者說男女生在選擇課外活動上存在顯著的差 異。四格表獨立性檢驗對
16、于兩個都只作兩項分類的因素,它們的數據整理成的是一個2x2的表格,一般稱為 四格表.對于四格表教材里給出了一個更簡潔的公式:(Q+0)C+iO(Q+C) + M)公式中4、b、c、d的規左要求是a和d必須呈對角線。該公式的含義非常明確,即當對 角線單元格中的次數差異越大時,卡方檢驗越容易顯著,自然也就意味著兩變量間的關聯越 密切。掌握了一般的R*C表計算后,四格表計算相對簡單地多。這里不再展開。注意,在獨立性檢驗中,同樣存在某格的理論次數小于等于5的問題,如同擬合性檢 驗中一樣,我們仍然建議在實際中最好增大樣本的容量,盡量減少岀現這種不大服從理論分 布的情況。此外,在獨立性檢驗中,若拒絕了零假
17、設,即各因素之間有關聯,則如同方差分析中僅判 定了存在交互作用一樣,只是一個總體的結果,并不能回答具體關聯的形式的問題。如果各 因素之間獨立,則到此為止,若各因素間有關聯,還應該作進一步的分析,具體搞清楚各變 量的次數間是如何關聯的。對此卡方檢驗有一些辦法,但不如參數檢驗中那樣嚴格。卡方獨立性檢驗一般也僅限于兩變量間的關聯考察,對于多個名義型變量,往往釆用分拆個變量 分別進行獨立性務驗的辦法,然后試圖整合多次檢驗的結果。這種做法就顯得更牽強丄些。品質相關卡方檢驗既然是用來解決變量間關聯性的,則也可以構造和枳差相關或等級相關系數一樣的 相關程度的度量,稱為品質相關。常用的品質相關有以下幾種:1、
18、相關系數相關只適用于四格表,它要求兩變量是不同性質的。相關的公式實際上是根據四格 表的卡方值變換而來的,通過變換使得其取值大約在正負1之間,這樣便于聯系一般的相關系 數的含義進行解釋。在卡方檢驗一節,我們曾講到卡方值的大小反映了實際次數與理論次數 之間差異的大小,而獨立性檢驗中的理論次數是根據兩變量獨立的假設訃算出來的,因此卡 方值的大小也就反映了兩變量距獨立有多遠,離獨立越遠就越相關,因此卡方值本身就反映了 兩變量間相關的程度。相關的計算公式如下:ad-be ja +可(十)+0(十)相關系數依分子的正負號可取正負值。不過,所有的品質相關幾乎都不是獨立構造的, 而都是對卡方檢驗中卡方統計量的變換。因此實際上,只要進行了卡方獨立性檢驗,則這兩 步過程就一次解決了。計算品質相關系數只是為了更好地理解兩變屋間關系的密切程度。2、列聯相關C系數列聯相關實際上是將相關的適用情況從四格表擴展到一般的列聯表。列聯相關公式的 來歷也基本上與相關相同。列聯相關公式為:該系數的取值也在0和1之間,不會取到1。與使用相關一樣,使用列聯相關之前, 最好先檢驗兩變量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 考試過程中情緒管理的重要性與實踐試題及答案
- 軟件開發合作協議
- 項目管理考試的前瞻性分析試題及答案
- 2024新教材高中政治 第四課 只有堅持和發展中國特色社會主義才能實現中華民族偉大復興 4.3 習近平新時代中國特色社會主義思想教學設計 部編版必修1
- 2025年金融理財師考試倫理決策思維訓練及試題答案
- 提高項目管理考試自信的有效途徑與試題答案
- 財務報表分析與特許金融分析師考試試題及答案
- 2025年金融市場法規和監管試題及答案
- 年度工作重點的明確與落實計劃
- 促進幼兒思維發展的教研方法計劃
- 山東省高中名校2025屆高三4月校際聯合檢測大聯考生物試題及答案
- 2025年中鐵快運股份有限公司招聘(98人)筆試參考題庫附帶答案詳解
- 2025年武漢數學四調試題及答案
- 職業病防護設施與個體防護用品的使用和維護
- 綠化養護服務投標方案(技術標)
- 2024年鄭州信息科技職業學院單招職業適應性測試題庫學生專用
- 中國紡織文化智慧樹知到期末考試答案2024年
- TB-T 3356-2021鐵路隧道錨桿-PDF解密
- (正式版)HGT 6313-2024 化工園區智慧化評價導則
- 藥物動力學常見參數及計算方法PK
- 新建三甲醫院醫療器械目錄
評論
0/150
提交評論