醫學統計學:ch11.2,3分類資料的推斷與x2檢驗_第1頁
醫學統計學:ch11.2,3分類資料的推斷與x2檢驗_第2頁
醫學統計學:ch11.2,3分類資料的推斷與x2檢驗_第3頁
醫學統計學:ch11.2,3分類資料的推斷與x2檢驗_第4頁
醫學統計學:ch11.2,3分類資料的推斷與x2檢驗_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十一章第十一章 分類變量資料的分類變量資料的統計分析統計分析 第二節第二節 分類變量資料統計推斷分類變量資料統計推斷 一、率的抽樣分布一、率的抽樣分布 二、率的抽樣誤差與標準誤二、率的抽樣誤差與標準誤 三、總體率的區間估計三、總體率的區間估計 四、率比較的四、率比較的Z Z檢驗檢驗 一、一、率的抽樣分布率的抽樣分布 n二項分布二項分布(binomial distribution):): 例例:假設注射某種免疫疫苗會有:假設注射某種免疫疫苗會有10% 的人出現不適反應。問的人出現不適反應。問3人接種后各種人接種后各種 可能后果的概率是多少?可能后果的概率是多少? 貝努利試驗貝努利試驗(Bern

2、oulli trials ): nn次次獨立獨立、重復重復試驗(每次試驗只出現試驗(每次試驗只出現A和和 之一,每次之一,每次概率概率都是都是 和和 )。)。 n貝努利試驗中,事件貝努利試驗中,事件A可能發生可能發生0, 1, 2, , n次,次,A 恰好發生恰好發生k次的概率為:次的概率為: 1 A knkk n CkXP )1()( nk, 2 , 1 , 0 二項分布二項分布 (binomial distribution): n若隨機變量若隨機變量X只能在:只能在: 中取值,各種可能值的概率滿足前式,我中取值,各種可能值的概率滿足前式,我 們就說們就說X服從參數服從參數n和和的二項分布的

3、二項分布, 記為:記為: nk, 2 , 1 , 0 ),(nBX 已知:已知: =0.3,n =5 ; =0.3,n =10 ; =0.3,n =15 ; =0.5,n =10 。 試根據式(試根據式(11-6)求各陽性數事件的概)求各陽性數事件的概 率并作概率分布圖。率并作概率分布圖。 knkk n CkXP )1()( nk, 2 , 1 , 0 n , 2, 1, , 0 )1 ( )!( ! ! )( X XnX n XP XnX 圖圖11-1 率的抽樣分布圖率的抽樣分布圖 (二項分布)(二項分布) 率的抽樣分布特征率的抽樣分布特征: : 1.為離散型分布;為離散型分布; 2.當當

4、=0.5時,呈對稱分布;時,呈對稱分布; 3.當當n 增大時,逐漸逼近正態分布。增大時,逐漸逼近正態分布。 一般認為,當一般認為,當n和和n(1-)5時時, 可近似看可近似看 作正態分布。作正態分布。 1. 抽樣誤差的概念:抽樣誤差的概念: 在抽樣研究中,率和均數一樣,也存在抽樣研究中,率和均數一樣,也存 在抽樣誤差,即在抽樣誤差,即樣本率和總體率樣本率和總體率或或各樣各樣 本率之間本率之間存在著差異,這種差異稱為率存在著差異,這種差異稱為率 的的抽樣誤差抽樣誤差(sampling error of rate)。 二、率的抽樣誤差與標準誤二、率的抽樣誤差與標準誤 2. 率的標準誤:率的標準誤:

5、 率的抽樣誤差用率的標準誤率的抽樣誤差用率的標準誤 (standard error of rate)表示。)表示。 其計算公式為:其計算公式為: 其估計值為:其估計值為: n p n pp s p 例例11-6 為了解某地人群結核菌素試為了解某地人群結核菌素試 驗陽性率情況,某醫療機構在該地人驗陽性率情況,某醫療機構在該地人 群中隨機檢測了群中隨機檢測了1773人,結核菌素試人,結核菌素試 驗陽性有驗陽性有682人,陽性率為人,陽性率為38.47%, 試計算其標準誤。試計算其標準誤。 %16. 10116. 0 1773 3847. 03847. 0 p s n pp s p 三、總體率的估計

6、三、總體率的估計 包括包括點估計點估計和和區間估計區間估計。 點估計點估計即用樣本率來估計總體率;即用樣本率來估計總體率; 區間估計區間估計是按一定概率來估計是按一定概率來估計總體率總體率所在所在 的范圍,即估計的范圍,即估計總體率的可信區間總體率的可信區間 (estimation of confidence interval of rate)。 根據根據n和和P的大小,總體率的大小,總體率的的可信區間可信區間 可按下面的兩種方法計算:可按下面的兩種方法計算: (一)(一)正態近似法:正態近似法: 當樣本含量當樣本含量n足夠大(足夠大(例如大于例如大于50), 樣本率樣本率P或或1-P均不太小

7、時(均不太小時(如如nP和和n(1-P) 均大于均大于5),樣本率的分布近似正態分布,),樣本率的分布近似正態分布, 可按可按正態分布的理論正態分布的理論來估計總體率的可信來估計總體率的可信 區間。區間。 (二)查表法:查表法: 當當n 較小,如較小,如n 50,特別是,特別是 P接近于接近于0 或或1時,可根據時,可根據n和和x查總體率置信區間表查總體率置信區間表 得出置信區間。得出置信區間。 正態近似法舉例正態近似法舉例(基于例(基于例11-6) n可信區間可信區間的計算公式為:的計算公式為: p SZp 95%的的可信區間可信區間: 38.47% 1.96 1.16%=36.20%40.

8、74% 99%的的可信區間可信區間: 38.47 % 2.58 1.16 %=35.48%41.46% 四、樣本率比較的四、樣本率比較的Z檢驗檢驗 : (一)(一) 樣本率與總體率的比較:樣本率與總體率的比較: (二)兩個樣本率的比較:(二)兩個樣本率的比較: 515 )p(nnp且且 515 515 2222 1111 )p(npn )p(npn 且且 且且 應用條件:應用條件: (一)(一) 樣本率與總體率的比較:樣本率與總體率的比較: n pp Z p00 00 1 例例11-7 一般情況下,直腸癌圍術期一般情況下,直腸癌圍術期 并發癥發生率為并發癥發生率為30%,現某醫院手,現某醫院手

9、 術治療了術治療了385例例直腸癌患者,圍術期直腸癌患者,圍術期 出現并發癥有出現并發癥有100例,并發癥發生率例,并發癥發生率 為為26%,問該院直腸癌患者圍術期,問該院直腸癌患者圍術期 并發癥發生率與一般情況比較有無并發癥發生率與一般情況比較有無 統計學差異。統計學差異。 首先討論首先討論應用條件應用條件:是否滿足下式。:是否滿足下式。 本例:本例: 515 )p(nnp且且 285%)261(385)1( 100%26385 pn np 1. 建立檢驗假設:建立檢驗假設: H0: = 0 H1: 0 =0.05 2計算計算Z 值:值: 7 71 13 31 1 3 38 85 5 3 3

10、0 01 13 30 0 3 30 02 26 60 0 1 1 0 00 0 0 0 . ).(. . )( n p Z 3. 確定確定P 值,判斷結果值,判斷結果 本題本題Z=1.7131.96,0.05P2.58,P0.01,按,按 =0.05的水準的水準,拒絕拒絕H0,差異具有統計,差異具有統計 學意義,該地城鎮和鄉村小學生蛔蟲感學意義,該地城鎮和鄉村小學生蛔蟲感 染率不相等,鄉村小學生蛔蟲感染率高染率不相等,鄉村小學生蛔蟲感染率高 于城鎮小學生。于城鎮小學生。 一、一、 2 2 檢驗的基本思想檢驗的基本思想 二、四格表資料的二、四格表資料的 2 2 檢驗檢驗 三、配對設計分類變量資料

11、三、配對設計分類變量資料 的的 2 2檢驗檢驗 四、行四、行列表資料的列表資料的 2 2檢驗檢驗 第三節第三節 2 檢驗檢驗 方法簡介:方法簡介: 檢驗(檢驗(chi-square test或稱卡方檢驗)是或稱卡方檢驗)是英國統計學英國統計學 家家Pearson在在1900年年提出的一種用提出的一種用 途廣泛的假設檢驗方法。途廣泛的假設檢驗方法。 這里介紹其用于這里介紹其用于兩個或兩個以兩個或兩個以 上獨立樣本的率(或構成比)上獨立樣本的率(或構成比)的的 比較以及比較以及配對資料配對資料比較的方法。比較的方法。 2 一、一、 檢驗的基本思想:檢驗的基本思想: 例例11-9 某醫生欲比較用甲、

12、乙兩種藥物治療某醫生欲比較用甲、乙兩種藥物治療 動脈硬化的療效,動脈硬化的療效,甲藥甲藥治療治療71例,有效例,有效52例,例, 乙藥乙藥治療治療42例,有效例,有效39例,結果見表例,結果見表11-7。問。問 兩種藥物的有效率是否有差別?兩種藥物的有效率是否有差別? 2 ab cd 四個格子的數據是表四個格子的數據是表11-7中基本數中基本數 據,其余的數據都是從這四個數據推算得據,其余的數據都是從這四個數據推算得 來的,這種資料稱來的,這種資料稱四格表四格表(fourfold table) 資料。資料。 表表11-7 甲、乙兩種藥物治療動脈硬化的療效比較甲、乙兩種藥物治療動脈硬化的療效比較

13、 T TA 2 2 )( A為為實際頻數實際頻數(actual frequency), 即每個即每個 格子的實際發生數,格子的實際發生數,T為為理論數理論數(theoretical frequency),是根據無效假設推算出來的。,是根據無效假設推算出來的。 H0: 1= 2 =p0 = 80.53%(91/113) 卡方檢驗的基本公式:卡方檢驗的基本公式: A藥治療藥治療71人,理論上應該有:人,理論上應該有: 71 (91/113)=57.18人有效;人有效; B藥治療藥治療42人,理論上應該有:人,理論上應該有: 42 (91/113)=33.82人有效。人有效。 理論頻數理論頻數可由下

14、式求得:可由下式求得: 例如:例如: n nn T CR RC 18.57 113 9171 11 T n 2 值值反映的是實際頻數與理論頻數反映的是實際頻數與理論頻數 的吻合程度的吻合程度,在無效假設,在無效假設H0成立的情況下,成立的情況下, 理論數和實際數相差不應該太大,出現較理論數和實際數相差不應該太大,出現較 大的大的 2值的概率較小,或說值的概率較小,或說 2 值越大,就值越大,就 越有理由推翻無效假設越有理由推翻無效假設H0。 T TA 2 2 )( 四格表資料四格表資料 值的自由度:值的自由度: n在行合計與列合計固定的情況下,一個在行合計與列合計固定的情況下,一個 格子的數值

15、確定之后,其它三個格子的格子的數值確定之后,其它三個格子的 數值也就確定下來。數值也就確定下來。 自由度為自由度為1。 n通式計算:通式計算: 2 )1)(1( 列列數數行行數數 n自由度一定時,其自由度一定時,其 2值的概率分布也就值的概率分布也就 確定。確定。 n根據自由度根據自由度 和檢驗水準和檢驗水準 ,查表查表10-13 可可 得得 2界值,若界值,若 2值值 20.05( ( ),則可按 ,則可按 =0.05的檢驗水準拒絕的檢驗水準拒絕H0; n若若 2值值 20.05( ( ),則還不能拒絕 ,則還不能拒絕H0。 T TA 2 2 )( 0246810 0.0 0.1 0.2 0

16、.3 2 2界值表界值表 1. 建立檢驗假設,確定檢驗水準:建立檢驗假設,確定檢驗水準: H0 :兩藥有效率相同,即:兩藥有效率相同,即 1 2 H1 :兩藥有效率不同,即:兩藥有效率不同,即 1 2 =0.05 二、四格表資料的二、四格表資料的 2 檢驗檢驗 (一)(一) 2檢驗的基本步驟:檢驗的基本步驟: 例例11-9:某醫生欲比較用甲、乙兩種藥物治療動某醫生欲比較用甲、乙兩種藥物治療動 脈硬化的療效,脈硬化的療效,甲藥治療甲藥治療71例,有效例,有效52例,例, 乙藥乙藥 治療治療42例,有效例,有效39例,例,結果見表結果見表10-7。問兩種藥。問兩種藥 物的有效率是否有差別?物的有效

17、率是否有差別? 3. 確定確定P值,做出推論:值,做出推論: = (行數行數-1)(列數列數-1)=(2-1)(2-1)=1, 2 0.025(1)=5.02, , 2 0.01(1)=6.63。 。 本例本例 5.02 2=6.486.63,所以,所以,0.025 P 0.01, 按按 =0.05水準,拒絕水準,拒絕H0,接受,接受H1,故認為甲、,故認為甲、 乙兩藥的療效不同,乙藥療效要好于甲藥。乙兩藥的療效不同,乙藥療效要好于甲藥。 2. 計算檢驗統計量和自由度:計算檢驗統計量和自由度: 48. 6 18. 8 18. 83 82.33 82.3339 82.13 82.1319 18.

18、57 18.5752 2222 2 (二)四格表資料專用公式:(二)四格表資料專用公式: dbcadcba nbcad 2 2 48. 6 22914271 113)3919352( 2 2 (三)連續性校正的公式(三)連續性校正的公式 : T TA 2 2 5 . 0 dbcadcba nnbcad 2 2 2/ 2分布是一種連續性分布,而分類變量資料分布是一種連續性分布,而分類變量資料 屬離散性分布,由此得到的屬離散性分布,由此得到的 統計量也是不連續的。統計量也是不連續的。 為改善為改善 2統計量分布的連續性,統計量分布的連續性,英國統計學家英國統計學家 Yates F建議將實際頻數和理

19、論頻數之差的絕對值建議將實際頻數和理論頻數之差的絕對值 減去減去0.5以作校正。以作校正。 (四)卡方檢驗的應用條件:(四)卡方檢驗的應用條件: 1. T5,且,且N40時時,用不校正公式計算,用不校正公式計算 2值。值。 2. 1T5,且且N40時時,用連續性校正,用連續性校正 2檢檢 驗。驗。 3. T1或或N 2=4.79 3.84, 0.025P 25.02, 0.01P乙乙,故 ,故 認為甲法的陽性檢出率較高。認為甲法的陽性檢出率較高。 注意事項注意事項 由于該檢驗只考慮了不一致的情況由于該檢驗只考慮了不一致的情況 (b與與c),而未考慮樣本含量),而未考慮樣本含量n及一致及一致 結

20、果(結果(a與與d),因此,當),因此,當n很大而且兩很大而且兩 法一致率較高(即法一致率較高(即a與與d數值較大),數值較大),b 與與c的數值相對較小時,即使檢驗結果的數值相對較小時,即使檢驗結果 有統計學意義,但實際意義并不大。有統計學意義,但實際意義并不大。 四、行四、行列表資料的列表資料的 2檢驗檢驗 例例11-12 某某研究者欲比較甲、乙、丙研究者欲比較甲、乙、丙3家醫家醫 院住院病人院內感染情況,隨機抽查同一院住院病人院內感染情況,隨機抽查同一 時期各醫院住院病人院內感染情況結果見時期各醫院住院病人院內感染情況結果見 表表11-10,試比較三家醫院院內感染率有無,試比較三家醫院院

21、內感染率有無 差別?差別? 表表11-10 甲乙丙三家醫院住院病人院內感染率比較甲乙丙三家醫院住院病人院內感染率比較 行行列表列表 2 2檢驗的簡化公式:檢驗的簡化公式: 1 2 2 CRn n A n 檢驗步驟:檢驗步驟: 1 檢驗假設:檢驗假設: H0 :三家醫院院內感染率相同。:三家醫院院內感染率相同。 H1 :三家醫院院內感染率不同或不全相同。三家醫院院內感染率不同或不全相同。 =0.05 2 計算計算 2值:值: 09.10)1 509166 151 77166 15 509189 170 77189 19 509231 188 77231 43 (586 2 22222 2 3 確

22、定概率確定概率P值和判斷結果:值和判斷結果: =(3-1)(2-1)=2,查,查 2值表,值表, 10.60 29.21,0.005 P0.01, 按按 =0.05的檢驗水準,拒絕的檢驗水準,拒絕H0,接受,接受H1, 故可認為甲、乙、丙三家醫院院內感故可認為甲、乙、丙三家醫院院內感 染率總的來講有差別。染率總的來講有差別。 例例11-13 某研究者欲了解白內障發病是否與某研究者欲了解白內障發病是否與 ABO血型有關,收集有關資料見表血型有關,收集有關資料見表11-11, 問白內障組與對照組問白內障組與對照組ABO血型分布有無差別?血型分布有無差別? 表表11-11 白內障組與對照組 ABO血型分布 組別 A B O AB 合計 白內障組 113 88 91 33 325 對照組 1123 1013 1075 460 3671 合計 1236 1101 1166 493 3996 1 檢驗假設:檢驗假設: H0 :白內障組與對照組:白內障組與對照組ABO血型分布血型分布 相同。相同。 H1 :白內障組與對照組白內障組與對照組ABO血型分布血型分布 不同。不同。 =0.05 2 計算計算 2值:值: 25. 31 2 2 CRn n A n 3 確定概率確定概率P值和判斷結果:值和判斷結果: =(4-1)(2-1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論