獨立性檢驗課件_第1頁
獨立性檢驗課件_第2頁
獨立性檢驗課件_第3頁
獨立性檢驗課件_第4頁
獨立性檢驗課件_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 某醫療機構為了了解呼吸道疾病與吸某醫療機構為了了解呼吸道疾病與吸煙是否有關,進行了一次抽樣調查,共調煙是否有關,進行了一次抽樣調查,共調查了查了515515個成年人,其中吸煙者個成年人,其中吸煙者220220人,不人,不吸煙者吸煙者295295人,調查結果是:吸煙的人,調查結果是:吸煙的220220人人中中3737人患人患病病, 183183人不患人不患病病;不吸煙的;不吸煙的295295人中人中2121人患人患病病, 274274人不患人不患病病。 根據這些數據能否斷定:患病與根據這些數據能否斷定:患病與吸煙有關嗎?吸煙有關嗎?患病患病不患病不患病總計總計吸煙吸煙3737183183220

2、220不吸煙不吸煙2121274274295295總計總計5858457457515515為了研究這個問題,我們將上述問題用下表表示:為了研究這個問題,我們將上述問題用下表表示:2 22 2列聯表列聯表注:什么叫列聯表?注:什么叫列聯表?列聯表列聯表:列出兩個分類變量的頻數統計表列出兩個分類變量的頻數統計表分類變量:變量的不同“值”表示個體所屬的不同類別,這樣的變量稱為分類變量.注:分類變量的取值一定是離散的,而且不同的取值僅表示個體所屬的類別如性別變量,只取男、女兩個值,商品的等級變量只取一級、二級,等等. 性別有兩種:性別變量,只取男、女兩個值男、女患病患病不患病不患病總計總計吸煙吸煙37

3、37183183220220不吸煙不吸煙2121274274295295總計總計5858457457515515為了研究這個問題,我們將上述問題用下表表示:為了研究這個問題,我們將上述問題用下表表示:2 22 2列聯表列聯表在不吸煙者中患病的比重是在不吸煙者中患病的比重是 在吸煙者中患病的比重是在吸煙者中患病的比重是 21/295 7.12%21/295 7.12%37/22016.82%37/22016.82%上述結論能說明吸煙與患病有關嗎?能有多大把上述結論能說明吸煙與患病有關嗎?能有多大把握認為吸煙與患病有關呢?握認為吸煙與患病有關呢?不患病患病1)通過圖形直觀判斷通過圖形直觀判斷三維柱

4、三維柱狀圖狀圖不患病患病2) 通過圖形直觀判斷通過圖形直觀判斷二維條二維條形圖形圖問題1:吸煙與不吸煙,患病的可能性的大小是否有差異? 吸煙者和不吸煙者患吸煙者和不吸煙者患呼吸道疾病呼吸道疾病的可能性存在差的可能性存在差異,吸煙者患呼吸道疾病的可能性大異,吸煙者患呼吸道疾病的可能性大問題2:差異大到什么程度才能作出“吸煙與患病有關”的判斷?問題3:能否用數量刻畫出“有關”的程度?初步結論:初步結論: 有一個顛撲不破的真理,那就是當我們不能確定什么是真的時,我們就應該去探求什么是最可能的。笛卡爾能否用數量來刻畫能否用數量來刻畫“有關有關”程度程度患病患病不患病不患病總計總計吸煙吸煙不吸煙不吸煙總

5、計總計如果“吸煙與患病沒有關系”,則在吸煙者中患病的比例應該與不吸煙者中相應的比例差不多,即0aca cdc abadbcabcd因此|越小,說明吸煙與患病之間關系越弱; | 越大,說明吸煙與患病之間關系越強.為便于研究,用字母代替數據,得為便于研究,用字母代替數據,得22列聯表列聯表患病患病不患病不患病總計總計吸煙吸煙不吸煙不吸煙總計總計列出列出2 22 2列聯表列聯表 我們不妨作出相反的假設,我們不妨作出相反的假設,H H0 0:吸煙和患病之間沒有關系:吸煙和患病之間沒有關系 即即H H0 0:P(AB)P(AB)P(A)P(B) P(A)P(B) 其中其中A A為某人吸煙,為某人吸煙,B

6、 B為某人患病為某人患病 設設n na ab bc cd d 為為樣本量樣本量 則則P(A) P(A) nba P(B) P(B) nca 故故P(AB) P(AB) ncanba吸煙且患病人數吸煙且患病人數ncanbanABPn)(吸煙但未患病人數吸煙但未患病人數ndbnbanBAPn)(不吸煙但患病人數不吸煙但患病人數ncandcnBAPn)(不吸煙且未患病人數不吸煙且未患病人數ndbndcnBAPn)(怎樣描述實際觀測值與預期值的差異呢?怎樣描述實際觀測值與預期值的差異呢?統計學中,為度量觀測值與預期值的差值統計學中,為度量觀測值與預期值的差值皮爾遜(皮爾遜(K.Pearson)引進卡方

7、統計量)引進卡方統計量ncanbanncanbanaK22)(ndbnbanndbnbanb2)(ncandcnncandcnc2)(ndbndcnndbndcnd2)()()()()(22dcbadbcabcadnK化簡得2( 2 2觀觀測測值值預預期期值值) )用用卡卡方方統統計計量量: :K K預預期期值值來來刻刻畫畫實實際際觀觀測測值值與與估估計計值值的的差差異異. .即即卡爾.皮爾遜英國著名的應用數學家 、生物統計學家、優生學家和科學哲學家.若H0成立,即“吸煙與患病沒有關系”,則 應很小2K 獨立性檢驗通過公式計算通過公式計算863.114575829522018321274375

8、1522KH H0 0: 吸煙吸煙和和患病患病之間沒有關系之間沒有關系解解:這個值是不是很大呢?在H0成立的情況下,統計學家估算出如下的概率: H0成立可能性只有1%,因此我們有99%的把握認為H0不成立,即有99%的把握認為“吸煙與患病有關系”01. 0)635. 6(2KP 即在H0成立的情況下, 的值大于6.635的概率非常小,近似于0.01.2KP( k0) 0.50 0.400.250.150.100.050.025 0.010 0.005 0.001k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8282K 獨立性

9、檢驗的思想類似于數學上的反證法.要確認“兩個分類變量有關系”這一結論成立,首先假設該結論不成立,即假設結論“兩個分類變量沒有關系”成立. 在該假設下我們構造的隨機變量 應該很小,如果由觀測數據計算得到的 的觀測值很大,則在一定程度上說明假設不合理.2K2K 獨立性檢驗第一步:第一步:H H0 0: 吸煙吸煙和和患病患病之間沒有關系之間沒有關系 通過數據和圖表分析,得到通過數據和圖表分析,得到結論是:結論是:吸煙與患病有關吸煙與患病有關結論的可靠結論的可靠程度如何?程度如何? 患病患病不患病不患病總計總計吸煙吸煙a ab ba+ba+b不吸煙不吸煙c cd dc+dc+d總計總計a+ca+cb+

10、db+da+b+c+da+b+c+d第二步:列出第二步:列出2 22 2列聯表列聯表 用用K K2 2統計量研究這統計量研究這類問題的方法類問題的方法步驟步驟第三步:引入一個隨機變量:第三步:引入一個隨機變量:卡方統計量卡方統計量第四步:查對臨界值表,作出判斷。第四步:查對臨界值表,作出判斷。dcban其中 22na db cKabcdacbdP( k0) 0.50 0.400.250.150.100.050.025 0.010 0.005 0.001k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8282KP( k0) 0.

11、50 0.400.250.150.100.050.025 0.010 0.0050.001k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828828.102K635. 62K706. 22K706. 22K0.1%0.1%把握認把握認為為A A與與B B無關無關1%1%把握認為把握認為A A與與B B無關無關99.9%99.9%把握認把握認為為A A與與B B有關有關99%99%把握認把握認為為A A與與B B有關有關90%90%把握認把握認為為A A與與B B有關有關10%10%把握認為把握認為A A與與B B無關無關沒有

12、充分的依據顯示沒有充分的依據顯示A A與與B B有關,有關,但也不能顯示但也不能顯示A A與與B B無關無關例如例如:2K反證法原理與假設檢驗原理反證法原理: 在一個已知假設下,如果推出一個矛盾,就證明了這個假設不成立。假設檢驗原理:在一個已知假設下,如果一個與該假設矛盾的小概率事件發生,就推斷這個假設不成立。在某醫院,因為患心臟病而住院的在某醫院,因為患心臟病而住院的665名男性病人名男性病人中,有中,有214人禿頂,而另外人禿頂,而另外772名不是因為患心臟病名不是因為患心臟病而住院的男性病人中有而住院的男性病人中有175人禿頂。利用圖形判斷人禿頂。利用圖形判斷禿頂與患心臟病是否有關系。能

13、夠以禿頂與患心臟病是否有關系。能夠以99%的把握認的把握認為禿頂與患心臟病有關系嗎?為什么?為禿頂與患心臟病有關系嗎?為什么?例1患心臟病患心臟病換其他病換其他病總計總計禿頂禿頂214175389不禿頂不禿頂4515971048總計總計6657721437 底面副對角線上兩個柱體高度的乘積要大一些,因底面副對角線上兩個柱體高度的乘積要大一些,因此可以在某種程度上認為此可以在某種程度上認為“禿頂與患心臟病有關禿頂與患心臟病有關”21437 (214 597 175 451)16.3736.635389 1048 665 772k所以有所以有99%的把握認為的把握認為“禿頂與患心臟病有關禿頂與患心

14、臟病有關”因為這組數據來因為這組數據來自被調查的醫院,自被調查的醫院,因此此結論只是因此此結論只是用于該醫院住院用于該醫院住院的病人群體的病人群體例例2 為了考察高中生的性別與是否喜歡數學課為了考察高中生的性別與是否喜歡數學課程之間的關系,在某城市的某校高中生中隨即程之間的關系,在某城市的某校高中生中隨即抽取抽取300名學生,得到如下列聯表:名學生,得到如下列聯表:由表中數據計算得到由表中數據計算得到 的觀值的觀值 。能。能夠以夠以95%的把握認為高中生的性別與是否喜歡數的把握認為高中生的性別與是否喜歡數學課程之間有關系嗎?為什么?學課程之間有關系嗎?為什么?喜歡數學課程喜歡數學課程不喜歡數學課程不喜歡數學課程總計總計男男3785122女女35143178總計總計722283002K4.514k 222(3.841)0.054.5143.841P KKk解:在假設“性別與是否喜歡數學之間沒有關系”的前提下,K 應該很小,并且 而 的觀測值超過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論