第10章 二項分布和Poisson分布及其應用_第1頁
第10章 二項分布和Poisson分布及其應用_第2頁
第10章 二項分布和Poisson分布及其應用_第3頁
第10章 二項分布和Poisson分布及其應用_第4頁
第10章 二項分布和Poisson分布及其應用_第5頁
已閱讀5頁,還剩75頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第10章

二項分布和Poisson分布

及其應用陳衛中副教授公共衛生系流行病與衛生統計學教研室06二月2023統計分析統計描述:用統計圖、表、指標等描述變量在群體中的分布特征統計推斷:在抽樣研究中,在概率基礎上,用觀察得到的樣本信息推斷未知總體特征定性變量定性變量:變量值為定性描述按該變量的特征表現為若干窮盡,且互斥的類別—分類變量從群體角度出發,考察該變量各類別的觀察對象數—計數變量定性變量的描述指標從群體的角度,描述定性變量的分布特征的指標絕對數:群體中發生某事件(某類別)的頻數相對數:率或構成比抽樣研究中,亦為樣本統計量離散型變量及其分布頻數:數值只能用自然數或整數單位表達——離散型變量(discretevariable)常見描述離散型變量取值及其概率的分布形式0-1分布(0-1distribution)二項分布(Binomialdistribution)泊松分布(Poissondistribution)超幾何分布(Hypergeometricdistribution)例10.1對某化學制品的毒性進行鑒定設某化學制品對小鼠的致死率為60%對符合實驗要求的3只小鼠注射規定劑量的該化學制品觀察指標:是否死亡,即死亡或未死亡計算在本次毒性試驗中2只小鼠死亡的概率P(2)分析該化學制品的毒性試驗—利用3只小鼠重復試驗該化學制品的毒性每次觀察(每只小鼠)只有兩種可能結果—死亡或未死亡每次觀察(每只小鼠)死亡的概率P(死亡)=,且保持不變每次觀察(每只小鼠)結果間彼此保持獨立Bernoulli試驗(伯努利試驗)瑞士數學家JakobBernoulli所發展每一次試驗只有兩個結果,一個記為“發生”,一個記為“未發生”,P(發生)=,P(未發生)=1-發生的概率在每次試驗中保持不變各次試驗之間相互獨立0-1分布(Bernoullidistribution)一次Bernoulli試驗中,事件的發生次數Y取值為0或1則Y的概率分布形式為:稱Y服從參數為的兩點分布,記作X~B(1,)Y10P(Y)1-n次(重)Bernoulli試驗事件的發生次數X的分布服從參數為n、的二項分布(binomialdistribution),記作X~B(n,)本例:X~B(3,0.6)Y 1101010…1n發生次數Y X發生次數的概率分布3只小鼠注射規定劑量的該化學制品,該化學制品對小鼠的致死率為60%“死亡數”X事先不能確定,0,1,2,3都有可能發生在n重伯努利試驗中,發生次數為變量記為X,X=0,1,2,…,k,…,n“死亡數”的發生概率可能的死亡數排列方式甲

丙每種排列概率每種組合概率0生

生0.4×0.4×0.40.431死

生0.6×0.4×0.40.6×0.42生

生0.4×0.6×0.40.6×0.42生

死0.4×0.4×0.60.6×0.422死

生0.6×0.6×0.40.62×0.4死

死0.6×0.4×0.60.62×0.4生

死0.4×0.6×0.60.62×0.43死

死0.6×0.6×0.60.633只小鼠存亡分析二項分布(binomialdistribution)n重Bernoulli試驗中,X為事件A在n次試驗中發生的次數,P(A)=

,若:則稱X服從參數為n,的二項分布,記作X~B(n,)兩點分布是二項分布n=1時的特殊形式在n重Bernoulli試驗中,發生某種結果A(如死亡)次數的一種概率分布分布律本例X~B(3,0.6)X0123P(X)0.0640.2880.4320.216二項分布的概率計算在n重試驗中發生的次數X服從參數為n,的二項分布X~B(3,0.6)X~B(3,0.5)X~B(10,0.6)X~B(30,0.6)二項分布的圖形分布形式當=0.5時,二項分布圖形是對稱的當0.5時,圖形是偏態的隨著n的增大,圖形趨于對稱當n+時,只要不太靠近0或1,近似于正態分布當n和n(1-)都大于5分布特征集中趨勢離散趨勢二項分布中發生次數的均數反映隨機變量的平均取值大小,又稱數學期望,即均數是以相應概率作為“權重”的加權平均二項分布中發生次數的方差度量隨機變量偏離(背離)數學期望(即均數)程度的指標實際值與期望值之差平方的期望值偏離平均值的平均偏離程度二項分布和兩點分布的分布特征分布形式表示方法均數E(X)方差V(X)兩點分布X~B(1,)二項分布X~B(n,)二項分布和兩點分布及其分布特征描述指標正態近似

(德莫佛—拉普拉斯中心極限定理)n和n(1-)均大于5AbrahamdeMoivre(1667-1754)14005815.560.64A藥治療90例缺血性貧血患者效果差值(D)是否有效(E)110181151311110……241定量變量定性變量二項分布及其近似正態分布在n次實際觀測中,發生概率為的某事件發生次數X及其發生頻率p的分布形式考察二分類(發生/未發生)定性變量的分布特征抽樣研究一般發生概率未知有關樣本統計量(發生次數X及其發生頻率p)的分布形式說明樣本統計量與其相對應的總體參數間的關系現實中的二項分布二項分布的基本特征:只有兩種結局、恒定、獨立實驗:考察施加干預措施后,出現某種結果的發生數及其發生頻率觀察:結果已經存在,從陽性率(如死亡率、患病率等)為的總體中,隨機抽取大小為n的樣本有返還抽樣無返還抽樣無限總體有限總體n/N<0.1二項分布及其近似正態

分布的應用統計推斷抽樣研究中利用樣本信息推斷未知的總體特征抽樣誤差客觀存在參數估計:p假設檢驗:利用樣本信息完成總體率的比較單樣本率與已知率的比較獨立樣本率的比較配對樣本率的比較總體率的估計點估計:p區間估計在給定的置信水平(1-)條件下,利用特定的分布形式,估計總體參數所在的區間,該區間為可信區間或置信區間區間估計精確估計利用分布形式:二項分布一般適用條件:n50估計方法:查附表7:百分率的置信區間(P447)據GB/T4088-2008數據的統計處理和解釋—二項分布參數的估計與檢驗當n<10時,置信區間一般太寬,無應用價值例題例10.4某醫院腫瘤科收治某種罕見腫瘤患者40例,1年內死亡5例。試估計該病年病死率。點估計:該病年病死率為12.5%區間估計:n=40<50,根據n=40,x=5,1-=0.95查附表7:百分率的置信區間(P447),得:95%置信區間為:(4%~27%)區間估計正態近似法利用分布形式:近似正態分布條件:n+時,只要不太靠近0或1當np和n(1-p)都大于5時估計方法:1--z/2z/2例題例10.3某醫院用注射用阿奇霉素對110名兒童肺炎患者進行治療,其中痊愈50例,試估計注射用阿奇霉素治療兒童肺炎痊愈率的95%置信區間。痊愈人數:np=50,未痊愈人數n(1-p)=60,均大于5,故p~N(,n(1-))例10.4判斷A市的地中海貧血基因攜帶率是否低于該省平均水平10%在A市進行抽樣調查共調查30人1人陽性,攜帶該基因分析研究目的:判斷A市的地中海貧血基因攜帶率是否低于該省平均水平10%研究假設:<0=10%設計類型:調查研究,單樣本設計變量類型:是否攜帶有地中海貧血基因(是/否)—二分類定性變量已知條件:觀察了30人,1人陽性陽性率為p=1/30=3.33%假設檢驗過程1.建立檢驗假設,確立檢驗水準H0:=0.1,即A市的地中海貧血基因攜帶率與該省平均水平相等H1:<0.1,即A市的地中海貧血基因攜帶率低于該省平均水平單側=0.05H0:=0.1X~B(30,0.1)概率分布P值為當H0成立的條件下,所得到的樣本觀察結果及比其更極端結果的發生概率,更極端:比所得到的樣本觀察結果發生概率更小X012345678P(X)0.04240.14130.22770.23610.17710.10230.04740.01800.0058X91011121314151617P(X)0.00160.00040.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001X181920212223242526P(X)<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001X27282930P(X)<0.0001<0.0001<0.0001<0.00012.確定P值,作出統計推斷在H0成立條件下,P=0.1837>0.05,故按=0.05水準,不拒絕

H0,差異無統計學意義,尚不能認為A市的地中海貧血基因攜帶率低于該省平均水平。例10.5大量文獻顯示,某罕見非傳染性疾病的病死率為60%。某醫院收治的該病患者15人,死亡10例。問該醫院該非傳染性疾病的病死率是否與文獻結果不同?X~B(15,0.6)概率分布X01234567P(X)0.00000.00000.00030.00160.00740.02450.06120.1181X89101112131415P(X)0.17710.20660.18590.12680.06340.02190.00470.0005例10.6吸毒人群的艾滋病知識知曉率是否高于一般人群的艾滋病知識知曉率為65%對該市150名吸毒人員進行調查調查指標:艾滋病知識是否正確調查結果:130人回答正確分析研究目的:吸毒人群的艾滋病知識知曉率是否高于一般人群研究假設:>0=65%設計類型:調查研究變量類型:艾滋病知識是否正確(是/否)—二分類定性變量已知條件:抽樣觀察了150名吸毒人員,130人正確,正確率p=130/150=86.7%正態近似n和n(1-)均大于5H0:=0.65=0.051.65P(z1.65)=0.05完整步驟1.建立檢驗假設,確定檢驗水準H0:=0.65,即該市吸毒人群的艾滋病知識知曉率等于該市一般人群H1:>0.65,即該市吸毒人群的艾滋病知識知曉率高于該市一般人群單側=0.052.計算檢驗統計量本例知曉數為150,不知曉數為20,均大于5,符合正態近似條件,因此在正態分布下確定是否發生了小概率事件。3.確定P值,作出統計推斷查附表3:t界值表(=),得P<0.0005,按=0.05水準,拒絕H0,接受H1,差異有統計學意義,可以認為該市吸毒人群的艾滋病知識知曉率高于該市一般人群。例10.7為了解某校本科生體測合格率的性別差異隨機抽查了本科男生110人和女生130人觀察體測是否合格男生有100人合格,女生有70人合格性別合格不合格合計合格率(%)男1001011090.91女706013053.85合計1707024070.83某校240名本科生體測合格率分析分析目的:性別對本科生體測合格率的影響研究假設:男女合格率有差異,即男

女設計類型:調查研究——兩獨立樣本變量類型:體測是否合格,二分類定性變量已知條件:樣本觀測數據,并根據性別不同組織形成列聯表兩獨立樣本率的比較1.建立檢驗假設,確定檢驗水準H0:1=2=c=70.83%,即不同性別體測合格率相等H1:22,即不同性別體側合格率不等=0.05性別合格不合格合計合格率(%)男1001011090.91女706013053.85合計1707024070.83某校240名本科生體測合格率兩獨立樣本率的比較2.計算檢驗統計量n1p1和n1(1-p1)及n2p2和n2(1-p2)均大于5,則樣本率服從正態分布。兩獨立樣本率的比較3.確定P值,作出統計推斷查P439附表3:t界值表(=),得P<0.0005,按=0.05水準,拒絕H0,接受H1,差異有統計學意義,可以認為該校不同性別體側合格率不等,男性較高。兩獨立樣本率的比較z檢驗2檢驗Fisher確切概率法logistic回歸Poisson分布Poisson定理1838年由法國數學家泊松引入若X~B(n,

),當n

較大,較小(稀有事件),設n=>0且大小適中,則對固定k的發生概率有:Poisson分布(Poissondistribution)由二項分布的近似計算產生的一種隨機變量的概率分布若其中>0,為一常數,則稱X服從參數為的Poisson分布,記為:X~P()二項分布中稀有事件發生次數的分布=3=5=10=20Poisson分布的圖形分布形式當較小時,Poisson分布呈偏態分布隨著增大,迅速接近對稱分布當20時,可以認為近似正態分布分布特征集中趨勢離散趨勢Poisson分布的均數反映隨機變量的平均取值大小,又稱數學期望是以相應概率作為權的加權平均Poisson分布的方差度量隨機變量偏離(背離)數學期望(即均數)程度的指標實際值與期望值之差平方的期望值偏離平均值的平均偏離程度正態近似20時,可以認為近似正態分布Poisson分布的性質當n很大,很小,且n大小適中,Poisson分布是二項分布的極限分布總體均數E(X)與總體方差V(X)相等,都是20時,Poisson分布可作為正態分布處理Poisson分布具備可加性服從Poisson分布的m個相互獨立的隨機變量X1,X2,…,Xm,它們之和也服從Poisson分布,且其均數為這m個隨機變量的均數之和Poisson分布的應用條件與二項分布相同只有某事件發生或不發生兩種可能結果該事件發生的概率恒定n次重復觀察相互獨立特殊要求重復觀察次數n足夠大事件的發生概率足夠小Poisson分布的應用稀有事件發生次數的分布:

n

較大,較小研究大人群中不具傳染性、無遺傳性、無永久免疫,且發病率很低的疾病發生數的分布研究特定時間、空間或容積內某罕見事件發生數的分布某時段內醫院急診病人數或發生的交通事故次數單位體積內粉塵的計數血細胞或微生物在顯微鏡下的計數單位面積內細菌計數Poisson分布的應用Poisson分布的應用Poisson分布的應用把時間、空間分成n(n)個極小的時間片或部分由于被分的足夠小,每個時間片/部分內最多只可能發生1次由于被分的足夠小,出現某事件是稀有事件,即很小在每個時間片/部分內事件隨機、等概率()發生Poisson分布的應用

—統計推斷的區間估計查表法樣本計數X50時,查附表8:Poisson分布的置信區間表(P450)例10.8對一實施了技術改造的潔凈廠房進行環境監測,測得空氣中粉塵的濃度為每1L空氣中含10顆粉塵。假定粉塵在空氣中分布均勻,估計該潔凈廠房平均每升空氣中所含粉塵顆粒數的95%置信區間。根據x=1050,查附表8:Poisson分布的置信區間表(P450)該潔凈廠房平均每升空氣中所含粉塵顆粒數的95%置信區間為(4.7,18.4)的區間估計正態近似法當X20時,可采用正態近似法估計總體均數的(1-)置信區間1--z/2z/2例10.9某市2002年抽樣調查了10萬男性,其中因惡性腫瘤死亡132人,試據此估計2002年該市男性人群惡性腫瘤死亡率的95%置信區間。x=132>20,根據Poisson分布的正態近似法每10萬人死亡數的95%置信區間為:男性人群惡性腫瘤死亡率的95%置信區間為:Poisson分布在假設檢驗中的應用直接法利用Poisson分布計算相應概率,確定是否發生了小概率事件,進而作出結論正態近似法當20(兩獨立樣本120且220)時,Poisson分布近似到正態分布,利用正態分布確定是否發生了小概率事件,進而作出結論例10.10某病在我國男性中的患病率約為4/10萬,在某地區調查了1000名男性,其中陽性者1人。問該地區男性的該病患病率是否高于全國平均水平。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論