第6章總體均數和總體率_第1頁
第6章總體均數和總體率_第2頁
第6章總體均數和總體率_第3頁
第6章總體均數和總體率_第4頁
第6章總體均數和總體率_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第6章 總體均數和總體率的估計第一節 均數抽樣誤差與t分布 欲了解總體的特征,最直接的方法是對總體中的每個觀察單位進行測量,通過整理分析得到總體參數,但這在醫學研究實際中往往是不可能實現的。 通常應用抽樣研究,通過樣本指標來了解總體特征。 抽樣研究所得樣本均數會不會恰好等于未知的總體均數呢? 如果固定樣本含量n從同一總體中進行多次抽樣,所得樣本均數又會如何呢? 假設已知某地30歲-40歲正常男性血清總膽固醇的均值為5.0mmol/L,標準差為0.6mmol/L。現從該總體中進行隨機抽樣,每次抽取30名正常男子,并測得他們的血清總膽固醇水平,最終共抽取100份樣本,并計算出每份樣本的均數。 由個

2、體變異產生的,隨機抽樣引起的樣本統計量與總體參數之間的差異稱為抽樣誤差(sampling error)。 抽樣造成的樣本均數與總體均數間的差異就稱為均數的抽樣誤差。 在抽樣研究中,抽樣誤差是不可避免的,但抽樣誤差分布具有一定的規律性。圖圖3-1 從正態分布總體從正態分布總體N(5.0, 0.62)中隨機抽樣所得樣本均數的分布)中隨機抽樣所得樣本均數的分布 樣本均數大部分分布在總體均數5.0的左右,中間多、兩邊少,左右基本對稱,服從正態分布,并且樣本均數的變異范圍比原變量的變異范圍要小很多。 樣本均數的標準差稱為均數的標準誤,簡稱標準誤,用符號 表示。均數的標準誤說明各樣本均數 圍繞總體均數 的

3、離散程度,可用來反映樣本均數的抽樣誤差大小。XX中心極限定理從正態總體 N (, 2) 中,隨機抽取例數為 n 的樣本,樣本均數也服從正態分布;即使從偏態總體隨機抽樣,當 n 足夠大時(n 50),樣本均數近似正態分布。從均數為,標準差為 的正態或偏態總體中,抽取例數為 n 的樣本,樣本均數的總體均數也為 ,標準差與原標準差成正比,與樣本例數的平方根成反比。22,nXXNXN Xn 越大,樣本均數的分布越分散,樣本均數與總體均數的差別越大,抽樣誤差越大,由樣本均數估計總體均數的可靠性越小。反之, 越小,樣本均數的分布越集中,樣本均數與總體均數的差別越小,抽樣誤差越小,由樣本均數估計總體均數的可

4、靠性越大。XX 的大小與 成正比,與 成反比。當固定不變時,樣本含量n增大, 減小。因此,在實際工作中,可通過適當增加樣本含量來減小抽樣誤差。XnX 常未知,用 S 估計,因此均數標準誤的估計值為XSSnt 分布的演化2,0,1XXNN 2,0,1XXXXNN 常未知,若用 ,這時對樣本均數進行的不是 Z變換而是 t 變換 XXXSXXXtSSn 統計量 t 不再服從N(0,1)標準正態分布 英國統計學家 W. S. Gosset 于1908年以 “Student” 筆名發表論文,證明統計量 t 服從v = n-1的t分布 又稱為Student t分布 (Students t-distribu

5、tion),1XXXttnSSn分布t 分布的圖形及特征t 分布的特征為: 以0為中心,左右對稱的單峰分布 越小,t值越分散,峰越矮,尾越高 增大,t分布逐漸逼近Z分布, 時,t分布即為Z分布 t 界值表 橫標目:自由度 縱標目:概率 P (曲線下面積) 表中數字:自由度為 ,概率P 為時,所對應的 t 界值,記為t, ,t 2,t222,t單側: 或雙側: 即,P tt ,P tt 22,P ttP tt 221,Pttt 在相同自由度時,t 的絕對值越大,P 越小 在相同 P 值時,自由度越大所對應的 t 界值越小 在相同 t 值時,雙側概率 P 為單側概率 P 的兩倍 時,t界值即為Z界

6、值 第二節 總體均數的點估計與區間估計 點估計(point estimation):將樣本統計量直接作為總體參數的估計值 區間估計(interval estimation):按事先給定的概率 ,估計包含未知總體參數的一個可能范圍 區間估計的實質假設某個總體的均數為,需要找到兩個量A和B,使得在一個比較高的可信度下 (如95%),區間(A, B)能包含 。即P(A 50)22,XXXZSXZS2XXZS1.96XXS 例6-3中,因n=120 , , ,試求該地正常成年男性 血清膽固醇平均水平的95可信區間。 1.73/smmol L3.86/xmmol L即(3.55,4.17)mmol/L

7、1.731.963.86 1.963.860.31120 xxs 例6-1 從某地隨機抽取120名30歲-40歲正常男性,得其血清總膽固醇水平的均數為4.95mmol/L,標準差為0.64mmol/L,試估計該地30歲-40歲正常男性血清總膽固醇平均水平的95%可信區間。 因n=120,屬于未知但n足夠大,又均數為4.95mmol/L,標準差為0.64mmol/L ,故該地30歲-40歲正常男性血清總膽固醇平均水平的95%可信區間為 即(4.84,5.06)mmol/L0.641.964.95 1.964.950.11120XXS3. 當未知n 較小2,2,XXXtSXtS/2,/2,/2,/

8、2,/2,/2,()1()1()1XXXPtttXPttSP XtSXtS -t/2, v 0 t/2, v 可信區間的涵義 從總體中作隨機抽樣,每個樣本可以算得一個可信區間。如95%可信區間意味著做100次抽樣,算得100個可信區間,平均有95個估計正確。在實際研究中,一般只進行一次抽樣,算得一個可信區間,對于這個可信區間來說,我們就認為該區間包含了總體均數 ,把握度為95%。圖6-5 從N(0, 1)中隨機抽樣算得的100個95可信區間(n=10)可信區間的兩個要素 可信度:可靠性,即1-。一般取90%、95,可人為控制 區間的寬度:區間的大小(區間的長度),越小越好 必須二者兼顧均數的可

9、信區間與參考值范圍的區別均數的可信區間與參考值范圍的區別區別點均數的可信區間參考值范圍意義按預先給定的概率,確定的未知參數的可能范圍“正常人”的解剖、生理、生化、某項指標的波動范圍計算公式已知或未知但 n 較大未知:正態分布:偏態分布:PX P100-X用途估計總體均數判斷觀察對象的某項指標正常與否2XZS2()XZn2()SXZn2,()SXtn第三節 總體率的點估計與區間估計一、二項分布如某實驗中小白鼠染毒后死亡概率如某實驗中小白鼠染毒后死亡概率P為為0.8,則生存概率為則生存概率為=1-P=0.2,1、對一只小白鼠進行實驗的結果為:死(概率為、對一只小白鼠進行實驗的結果為:死(概率為P)

10、或生(概率為)或生(概率為1-P)2、對二只小白鼠(甲乙)進行實驗的結果為:甲乙均死(概率為、對二只小白鼠(甲乙)進行實驗的結果為:甲乙均死(概率為P2)、)、甲死乙生甲死乙生概率為概率為P(1-P)、乙死甲生、乙死甲生概率為概率為(1-P)P或甲乙均生或甲乙均生概率概率為為(1-P)2,概率相加得,概率相加得P2+P(1-P)+(1-P)P+(1-P)2=P+(1-P)23、依此類推,對、依此類推,對n只小白鼠進行實驗,所有可能結果的概率相加得只小白鼠進行實驗,所有可能結果的概率相加得Pn+cn1P(1-P)n-1+.+cnxPx(1-P)n-x+.+(1-P)x=P+(1-P)n 其中其中

11、n為樣為樣本含量本含量,即事件發生總數,即事件發生總數,x為某事件出現次數為某事件出現次數,cnxPx(1-P)n-x為二項式為二項式通式,通式,cnx=n!/x!(n-x)!, P為總體率。為總體率。 因此,二項分布是說明結果只有兩種情況的因此,二項分布是說明結果只有兩種情況的n次實驗中發生某種結次實驗中發生某種結果為果為x次的概率分布。其概率密度為:次的概率分布。其概率密度為:P(x)=cnxPx(1-P)n-x, x=0,1,.n。:。:二項分布的圖形 4 8 12 16 0 2 4 0 2 4 6 4 8 12 16 X 0.0 0.1 0.2 0.3 0.4 n =20 =0.5 n

12、 =5 =0.3 n =10 =0.3 n =30 =0.3 P(X) 當=0.5時,分布對稱;當 0.5,分布呈偏態;當0.5時分布呈負偏態;特別是當n值不是很大時,偏離0.5愈遠,分布愈偏 隨著n的增大,二項分布逐漸逼近正態分布。如 =0.30,n=5和n=10時,圖形呈偏態,當n=30時,圖形已接近正態分布。一般地說,如果n或n(1-)大于5時,常可用正態近似原理處理二項分布問題二項分布的性質 :累積概率(1)二項分布的概率之和等于10(1)11nnXXn XnXC(2)單側累積概率至多有m例陽性的概率(下側累積概率)mXXnXXnCmXP0)1()(至少有m例陽性的概率(上側累積概率)

13、()1(1)P XmP Xm二項分布的性質 :均數和方差 陽性結果發生數X的總體均數 總體方差 總體標準差n)1 (2 n)1 (n二項分布的抽樣分布及其性質 二項分布的隨機抽樣性質仍然被中心極限定理所反映 在n足夠大時,樣本率近似服從正態分布 樣本率p的均數等于 樣本率p的標準差(率的標準誤)1pn1pppsnp二、Poisson 分布 當二項分布中n很大,p很小時,二項分布就變為Poisson分布,Poisson分布實際上是二項分布的極限分布 法國數學家Simeon Denis Poisson (1781-1840) 1837年在關于判斷的概率之研究一文中提出的描述隨機現象的一種常用分布

14、Poisson分布也是一種重要的離散型概率分布,用于研究單位時間、單位人群、單位空間內,某稀有事件發生次數的分布 單位體積水中細菌數 單位體積空氣中粉塵數 單位時間內放射性物質放射出的質點數 單位空間中某些昆蟲數 一定人群中惡性腫瘤或罕見非傳染性疾病患病數或死亡數 可以認為滿足以下三個條件的隨機變量服從Poisson分布: 平穩性:X的取值與觀察單位的位置無關,只與觀察單位的大小有關 獨立性:在某個觀察單位上X的取值與前面各觀察單位上X的取值獨立(無關) 普通性:在充分小的觀察單位上X的取值最多為1Poisson分布的概率函數)()!XP XeX若隨機變量的概率函數為:則稱此變量服從Poiss

15、on分布,記為Poisson分布的累計概率 011(0)11P X kP XP XP X kP X kP X kPeP XP XX Poisson分布的圖形 P(X) X 0 4 8 0 4 8 12 4 8 12 16 20 8 12 16 20 24 28 32 0.0 0.1 0.2 =3 =5 =10 =20 Poisson分布的性質 均數和方差 Poisson分布的均數和方差相等,均為分布的均數和方差相等,均為 ;即即2XXX Poisson分布中均數的抽樣分布及其性質 在足夠大時,Poisson分布的平均計數近似正態分布 平均計數的標準誤 n=1時(1個單位),Sn S 三、總體率

16、的估計 根據樣本率,也可以對總體率做出點估計和區間估計。我們用樣本率p作為總體率的點估計值。總體率的點估計亦未考慮其抽樣誤差大小,而總體率的區間估計克服了點估計的缺陷。 利用樣本資料可估計二項分布總體率的1- 可信區間, 取0.05或0.01。對于 ,且 接近于0或1時,可直接查表得到總體率的(1-)可信區間。50n 例6-6 某醫院應用氨芐青霉素治療呼吸道感染,45例患者中有2例發生過敏反應。試估計過敏反應發生率的95%可信區間。p70 對例6-6資料,查百分率的可信區間表,n=45 的行與X=2 的列交叉處的數值為1-15, 即氨芐青霉素過敏反應發生率的95%可信區間為(1%,15%)。 當n足夠大,且p和1-p 均不太小,如np和n(1-p)均大于5時, 的抽樣分布逼近正態分布。此時,可根據正態分布的特性計算總體率的可信區間。22(,)pppZSpZS 例6-7 為了解某地18歲以上城市居民的高血壓患病率,從社區中隨機抽取500人進行調查,得高血壓的患病率為32%,試估計該地18歲以上城市居民高血壓患病率的95%可信區間。 即該地18歲以上城市居民高血壓患病率的95%可信區間為(28%,36%)。20.05 210.32(1 0.32)0.32 1.960.320.04

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論