醫學統計學 第06章 參數估計與假設檢驗 學習課件_第1頁
醫學統計學 第06章 參數估計與假設檢驗 學習課件_第2頁
醫學統計學 第06章 參數估計與假設檢驗 學習課件_第3頁
醫學統計學 第06章 參數估計與假設檢驗 學習課件_第4頁
醫學統計學 第06章 參數估計與假設檢驗 學習課件_第5頁
已閱讀5頁,還剩56頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第六章參數估計與假設檢驗

ParameterestimationandHypothesisTest總體:研究對象(某項變量值)的全體。樣本:總體中隨機抽取的一部分研究對象。統計量:從樣本計算出來的統計指標。參數:描述總體的統計指標。幾個概念統計描述:計量(集中水平、變異大小)、計數(相對數)統計推斷:用樣本信息推論總體特征的過程。參數估計:

用樣本的統計指標(統計量),對總體統計指標(參數)進行估計假設檢驗:又稱顯著性檢驗,是指通過樣本間存在的差別對樣本所代表的總體間是否存在著差別做出判斷。第一節參數估計一、抽樣誤差

假定健康成年男子紅細胞服從總體均數

=4.75,總體標準差

=0.38的正態分布N(4.75,0.382)(一)均數的抽樣誤差

將此100個樣本均數看成新變量值,則這100個樣本均數構成一新分布,繪制直方圖。從正態分布總體N(4.75,0.382)隨機抽樣所得樣本均數分布樣本均數的抽樣分布具有以下特點1.各樣本均數未必等于總體均數;2.樣本均數之間存在差異;3.樣本均數的分布為中間多,兩邊少,左右基本對稱4.樣本均數的變異較之原變量的變異大大縮小抽樣誤差

均數的抽樣誤差:由于抽樣造成的樣本均數與總體均數之間的差別原因:1)抽樣

2)個體差異

如何度量抽樣誤差的大小?數理統計可以證明:

的總體均數為

;而的標準差比原個體值的標準差

要小,為區別兩者,的標準差用表示樣本統計量的標準差稱標準誤(standarderror,SE)樣本均數的標準差稱均數的標準誤(standarderrorofmean,SEM),反映樣本均數的抽樣誤差抽樣誤差抽樣誤差實際用樣本標準差來估計總體標準差,從而得到標準誤的估計值樣本均數標準誤的大小與標準差成正比,與樣本含量n的平方根成反比,即在同一總體中隨機抽樣,樣本含量n越大,抽樣誤差越小。在實際應用中可通過增加樣本含量n來減小樣本均數的標準誤,從而降低抽樣誤差。偏態分布總體中抽樣數理統計理論表明:對于任意分布,無論是正態還是偏態,只要n足夠大,則樣本均數的分布近似服從正態分布:均數的標準誤:例子例2000年某研究者隨機調查某地健康成年男子27人,得到血紅蛋白量的均數為125g/L,標準差為15g/L。試估計該樣本均數的抽樣誤差。均數標準差與標準誤聯系與區別均數標準差均數標準誤含義測量值的離散程度樣本均數的離散程度(統計量對參數的離散度)計算大小大小用途描述測量值離散程度、計算cv、計算正常值范圍、計算標準誤參數可信區間的估計假設檢驗聯系都是離散程度的指標,標準誤是通過標準差來計算(二)率的抽樣誤差樣本率(p)和總體率(π)的差異稱為率的抽樣誤差(samplingerrorofrate),用率的標準誤(standarderrorofrate)度量。如果總體率π未知,用樣本率p估計率的標準誤例:為了了解某藥的療效,對100名患者治療的結果進行調查,結果為80人有效,有效率為80%。則樣本率的抽樣誤差為多少?解:已知n=100,p=0.80

二、總體均數的估計(一)t分布的概念

式中為自由度(degreeoffreedom,df)

3.實際工作中,由于未知,用代替,則不再服從標準正態分布,而服從t分布。

t分布(t-distribution)英國統計學家W.S.Gosset于1908年以“Student”筆名發表論文,證明它服從自由度

=

n

1的t分布,即

~t分布,

=

n

1t分布又稱Studentt分布(Student’st-distribution)t分布十分有用,它是小樣本統計推斷的理論基礎。t分布的圖形與特征

1.特征:

t界值表:詳見附表,可反映t分布曲線下的面積。單側面積或單尾面積為

時的t值:用表示;雙側面積或雙尾面積為

時的t值:用表示。

2.t分布曲線下面積

-tt0舉例:

2.t分布曲線下面積

更一般的表示方法如圖中陰影部分所示為:單側:P(t

t

,

)=

和P(t

t

,

)=

雙側:P(t

t

/2,

)+P(t

t

/2,

)=

參數估計:用樣本統計量推斷總體參數總體均數估計:用樣本均數(和標準差)推斷總體均數。(1)點估計(pointestimation)(2)區間估計(intervalestimation)(二)總體均數的估計用相應樣本統計量直接作為其總體參數的估計值其方法簡單,但未考慮抽樣誤差的大小S1.點估計(pointestimation):可信區間:也稱為置信區間(confidenceinterval,CI)

按預先給定的概率(1

),計算一個區間,使它能夠包含未知的總體參數。(1

)稱為可信度計算得到的區間稱為可信區間一般

=0.05,為95%的可信區間或置信區間2.區間估計(intervalestimation)95%CI:(下限,上限)需考慮:(1)總體標準差

是否已知(2)樣本含量n的大小通常有兩類方法:(1)t分布法(2)正態近似法區間估計方法(1)

已知時:按Z分布(標準正態分布)這種情況很少!!

雙側(1

)可信區間

(2)未知:按t分布例:已知某地27名健康成年男子的血紅蛋白量均數=125g/L,標準差S=15g/L。試問該市地健康正常成年男子血紅蛋白血清膽固醇平均含量的95%置信區間和99%置信區間各是多少?解:本例n=27,

=27–1=26,查t界值表,

=0.05時,雙側

t0.05/2,26=2.056,

=0.01時,雙側

t0.01/2,26=2.779;95%CI:125

2.056

=(119.06,130.94)g/L99%CI:125

2.779=(116.98,133.02)g/L該市健康成年男子血紅蛋白平均含量:95%置信區間為(119.06,130.94)g/L,99%置信區間為(116.98,133.02)g/L。(3)未知但n較大:按正態分布近似估計

雙側(1

)可信區間

1.96=172.2

1.96

=(171.3,173.1)

該市2000年19歲健康男大學生平均身高的95%置信區間為(171.3,173.1)cm。例某市2000年隨機測量了90名19歲健康男大學生的身高,其均數為172.2cm,標準差為4.5cm,試估計該市2000年19歲健康男大學生平均身高的95%置信區間。三、總體率的區間估計總體率的可信區間(confidenceintervalofrate):根據樣本率推算總體率可能所在的范圍點估計區間估計正態近似法查表法條件:n足夠大,且np

和n(1-p)均大于51-α可信區間為:

(p-Zα/2Sp,p+Zα/2Sp)(一)正態近似法解:

(p-Z0.05/2Sp,p+Z0.05/2Sp)

=(0.80-1.96×0.04,0.80+1.96×0.04)

=(0.7216,0.8784)即總體率的95%可信區間為(72.16%~87.84%)。試估計p=0.80,Sp=0.04的總體率95%可信區間。注意:如果計算獲得的可信區間下限小于0%,上限大于100%,則將下限直接定為0%,上限直接定為100%條件:當樣本含量n較小時,比如n≤50,可查附表:百分率的可信限,得到總體率的可信區間。(二)查表法例子某眼科醫院在某校抽查了6年級學生30名,其中患近視眼的學生12名,求該校6年級學生患近視眼率的95%可信區間。

1.95%的可信區間的理解:(1)計算出的可信區間有95%的可能性包含了總體參數,即包含總體參數的概率達到95%。(2)從正態總體中隨機抽取100個樣本,可算得100個樣本均數,也可算得100個可信區間,平均約有95個可信區間包含了總體均數。(3)但在實際工作中,只能根據一次試驗結果估計可信區間,我們就認為該區間包含了總體均數

。注意:一般不說總體參數落在此區間內的概率為95%!原因在于總體參數是常量,是固定值。可信區間的確切涵義

2.可信區間的兩個要素(1)準確度:用可信度(1

)表示:即區間包含總體均數

的理論概率大小。當然它愈接近1愈好,如99%的可信區間比95%的可信區間準確度要好(2)精確度:即區間的寬度區間愈窄愈好,如95%的可信區間比99%的可信區間精確度要好

當n確定時,上述兩者互相矛盾。提高準確度(可信度),則精確度降低(可信區間會變寬),勢必降低可信區間的實際應用價值,故不能籠統認為99%可信區間比95%可信區間要好。在實際應用中,95%可信區間更為常用。在可信度確定的情況下,增加樣本含量可減小區間寬度,提高精確度。總體均數可信區間與參考值范圍的區別第二節假設檢驗

hypothesistest一、基本原理假設檢驗(hypothesistest),有時也稱顯著性檢驗(significancetest)是在兩種相反的假設之間做出決定的一個過程它將選擇方案表述為兩種對立的假設,然后對其中的一個假設進行檢驗,根據證據的強弱來決定是否接受這個假設例子(假設)

已知北方農村兒童前囟門閉合月齡為14.1月。某研究人員從東北某縣(缺鈣地區)抽取100名兒童,得前囟門閉合月齡均值為15.2月,標準差為5.08月。問該縣兒童前囟門閉合月齡平均否遲于一般兒童?

研究背景:研究缺鈣對幼兒生長發育的影響研究結果可供選擇的結論(假設)有哪些?1、該縣兒童總體平均閉合月齡與一般兒童沒有差異2、該縣兒童總體平均閉合月齡遲于一般兒童兩種假設在統計上的含義抽樣研究存在抽樣誤差!!總體均數=14.1樣本1樣本2μ1=14.1樣本1樣本2樣本3從總體1中抽樣μ2≠14.1從總體2中抽樣均數與μ1=14.1之間的差異是抽樣誤差造成均數與μ1=14.1之間的差異是本質差異造成μ1=14.1樣本總體1μ2≠14.1總體2????即:需要推斷15.2與14.1之間的差異是由抽樣誤差造成,還是由本質差異造成的?μ0=14.1記樣本所代表的總體為μ1,我們可以將這兩種差異表達為兩種對立的假設μ1假設1:觀察到的差異是由抽樣誤差造成的,其總體沒有差異,即,μ1=μ0

稱為:零假設(NullHypothesis),

或原假設、無效假設符號表示:H0假設2:觀察到的差異是由本質差異造成的,其總體本來就不同,即,μ1≠μ0

稱為:備擇假設(AlternativeHypothesis)符號表示:H1注意:所有的假設檢驗都是對零假設(H0)進行檢驗!!

在目前觀察結果的狀況下,收集“否定H0的證據”,證據的強弱用概率p表示,概率越小證據越強,否定H0的理由就越充分。備擇假設:有時也叫研究假設,它表示研究者希望得到的結論。研究者習慣稱備擇假設為“陽性結論”;而將零假設稱為“陰性結論”假設檢驗是建立在抽樣分布、小概率事件原理基礎上的,對樣本差別性質進行風險推斷的一種邏輯思維方法.

它是利用反證法思想,從問題的對立面(實際觀察到有差異,但假設兩總體沒有差異,即H0)出發間接判斷要解決的問題(兩總體真有差異,即H1)是否成立。假設在H0成立的條件下計算檢驗統計量,獲得P值,根據小概率原理來判斷是否否定H0。假設檢驗基本思想理解兩點:反證法思想、小概率原理二、假設檢驗的基本步驟零假設H0:μ=14.1備擇假設

H1:

μ>14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論