




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、醫學統計學溫醫大公衛學院黃陳平醫學實踐中遇到的統計學問題舉例(1)某中醫師對某方劑進行改良,改良后的方劑治療某病患者30例,有效率為80%,原方劑治療30例,有效率為60%,問兩者有效率有無差別?醫學實踐中遇到的統計學問題舉例(2)某醫師用、和三種方案治療嬰幼兒貧血患者,治療一個月后,血紅蛋白的增加克數如下表,問三種治療方案對嬰幼兒貧血的療效是否相同?表. 三種方案治療后血紅蛋白增加量() 24 20 20 36 18 11 25 17 6 14 10 3 26 19 0 34 24 -1 23 4 5 醫學實踐中遇到的統計學問題舉例(3)在小學生的課間餐面包中添加賴氨酸,以研究其對兒童體重和
2、身高增長的影響,擬分析賴氨酸添加的最佳濃度和面包烤制的最佳條件。賴氨酸的濃度有五個水平:0.0%,0.2%,0.4%,0.6%,0.8%,面包烤制條件有兩個水平:甲和乙。如何設計和分析?醫學實踐中遇到的統計學問題舉例(4) 22例期非小細胞肺癌患者在不同日期經隨機化分配到放療組和放化療聯合組,從緩解出院日開始隨訪,隨訪時間(月)如下,試比較放療和放化療聯合兩種治療方案的療效有無差別?放療組 1,2,3,5,6,9+,11,13,16,26,37+放化療聯合組 10,11+,14,18,22,22,26,32,38, 40+,42+醫學實踐中遇到的統計學問題舉例(5) 欲研究胃癌患者術后發生院內
3、感染的影響因素,某醫生記錄了50名胃癌患者術后院內感染情況,并調查了下列可能的影響因素: 年齡(歲)、手術創傷程度(分5等級)、營養狀態(分3等級)、術前預防性抗菌(分有無)、 白細胞數(109/L)、 腫瘤病理分級(19級)。 欲篩選哪些因素是影響胃癌患者術后發生院內感染的主要因素, 應選擇何種統計分析方法?學習醫學統計學的要求 最低要求:知道常見的統計學方法,會模仿著去應用。基本要求:了解有關統計方法的原理,能較熟練地運用統計軟件,解決常見的統計學問題。較高要求: 對較復雜的統計學問題,能獨立提出系統的解決方案。醫學統計學課件下載鏈接 66/sc8/page/myspace/course/
4、item-content.do?courseId=342&itemId=4452&wrap=0第一章 緒 論 什么是統計學? Whats statistics?運用概率論和數理統計原理,研究數據收集、整理和分析的一門學科。 (目的是找出其特征或規律) 隨機試驗與隨機事件生物醫學研究對象多屬于隨機事物,其觀察試驗稱隨機試驗,觀察結果為隨機事件。隨機事件: 指在一定條件下可能發生、也可能不發生的事件,但事前不能確定。問題: 大量同質隨機事件在統計上有無規律性? 統計分析時,同質觀察對象要達到一定數量實驗過程孟德爾的豌豆雜交實驗P純高莖 純矮莖 F1高莖高莖 F2高莖矮莖3 : 1DD高莖dd矮莖P
5、配子dDF1Dd高莖DDDd高莖Dd高莖F1配子ddF2Dd高莖DDDddd高莖高莖矮莖1:21 【遺傳圖解如下】醫學統計學的應用明確醫學現象的性質比較幾種醫學現象的差異探討醫學現象之間的關系分析影響醫學現象變化的因素由局部的數據去推測總體的特性.第一節 統計學的幾個基本概念一、同質和變異二、總體與樣本三、隨機抽樣四、誤差五、參數與統計量六、頻率與概率醫學統計學的基本概念(一)同質與變異同質(homogeneity) 指各觀察個體(單位)受相同因素影響的部分。變異(variation) 在同質的基礎上個體間的差異。例某地某年用隨機抽樣方法檢查了140名健康成年男子的紅細胞數(1012/L),檢
6、測結果如下表:4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.93觀察指標的
7、同質部分:“某地某年健康成年男子”觀察指標的變異部分:各個體間紅細胞數間的差異(二)總體與樣本(population & sample)總體:是根據研究目的所確定的同質觀察單位(某種變量值)的全部。 1)有限總體(有時間、空間限制) 例研究2012年溫州市肝癌死亡率。 2)無限總體(沒有時間、空間限制) 例研究某藥對高血壓病的療效。樣本:從總體中隨機抽取一部分個體所組成的集合。 絕大多數研究屬抽樣研究總體樣本抽樣推斷如何能使樣本具有較好的代表性?(三)隨機抽樣 從總體中隨機遇而定抽取部分個體的過程。(總體中每一個觀察單位均有同等的機會被抽取到)總體樣本抽樣推斷隨機抽樣是樣本客觀反映總體情況的前
8、提。此外,抽取數量(樣本含量)也很重要。 隨機抽樣方法:1.單純隨機抽樣2.系統(機械)隨機抽樣3.整群隨機抽樣4.分層隨機抽樣總體樣本抽樣推斷上述抽樣方法得到樣本的代表性一樣嗎?(四)誤差 誤差,Error:實測值與真值之差。1. 非隨機誤差:可以而且應該避免粗差(過失誤差)系統誤差(偏倚)2. 隨機誤差:不恒定、呈正態分布,不可避免隨機測量誤差抽樣誤差抽樣誤差(sampling error)抽樣引起的總體指標與樣本指標(之間的差別。有抽樣,抽樣誤差就不可避免。問題:某中醫師對某方劑進行改良,改良后的方劑治療某病患者30例,有效率為80%,原方劑治療30例,有效率為60%,問兩者有效率有無差
9、別?上例從統計學角度,還不能認為兩者有效率有差別。為什么?現從袋子中隨機抽取10個球。第1次:8紅2黑,紅球占80%; 將取出球再放回袋中。第2次:6紅4黑,紅球占60%。例:有一袋子裝有大小相同的100個球,其中紅球70個,黑球30個,紅球占總數70%。已知總體相同,現兩樣本間差別是什么原因所致?若總體未知,現兩樣本間有差別是否等同于總體有差別?通過統計推斷方法“假設檢驗”(五)參數與統計量 (parameter & statistic) 參數: 指總體的指標,如總體均數、總體標準差,用希臘字母表示。 統計量:指樣本的指標,如樣本均數、樣本標準差s,用拉丁字母表示。 檢驗統計量:用于統計檢驗
10、的樣本指標。 如 t、u、x2、F 等(六)頻率與概率 (frequency & probability)頻率:在相同條件下,獨立地重復n次試驗,隨機事件A出現f次,則f/n為隨機事件A出現的頻率。概率:用P表示,0P1。當P0時,稱為不可能事件;當P1時,稱為必然事件。概率是頻率的穩定的、極限的形式。頻率f(A)為變量,概率P(A)為常數。若n足夠大,f(A) P(A)均表示某事件發生可能性大小的量。小概率事件: P(A) 0.05 的事件小概率事件發生的可能性很小,可以認為“在一次抽樣中幾乎不可能發生”。利用該“約定”進行假設檢驗。即提出一個假設,并在此前提下計算有關概率P, 若P 0.0
11、5 ,則可認為此假設不成立。觀察單位的特征變量(數值變量、分類變量)變量的測定值變量值(計量、計數、等級資料) 數值變量 計量資料 分類變量 無序分類(unordered categories) 計數資料 二項分類 多項分類 有序分類(ordered categories) 等級資料第二節 變量及統計資料的類型例:測得一群人Hb值(g/dL),此資料為 ; 按正常和異常分為兩組,此時資料為 ; 按量的多少分為: 16 (Hb增高)。此時資料為 。資料間的相互轉化(1)設計: design(2)收集資料 collection of data (3)整理資料 sorting data (4)分析資
12、料 analysis of data第三節 醫學統計工作的基本步驟1)專業設計2)統計設計1)統計報表2)醫療衛生工作記錄3)專題調查和實驗1)對數據檢查、核對2)按分析要求分組、匯總1)統計描述 2)統計推斷 t 檢驗、z 檢驗 方差分析 非參數檢驗 卡方檢驗 集中趨勢和離散程度 相對數 多因素分析 第二章 計量資料的統計描述一、頻數分布二、集中趨勢的描述三、離散程度的描述1、頻數表的編制2、頻數分布的特征3、頻數分布的類型4、頻數表的用途一、計量資料的頻數分布4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.
13、704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.93例某地用隨機抽樣方法檢查了140名成年男子的紅細胞數,檢測結果如下表:(1)求全距或極差(R) (2)定組段和組距(i) 1. 頻數表的編制(3)列出頻數表
14、某地140名正常男子紅細胞數的頻數表紅細胞數(1012/ L)頻數3.80 24.00 64.20114.40254.60324.80275.00175.20135.40 45.60 25.80 12. 頻數分布的特征(1)集中趨勢(2)離散趨勢(1)對稱分布 其中一種常見的類型為正態分布.(2)非對稱分布 主要為正偏態、負偏態分布.3. 頻數分布的類型4. 頻數表的用途(1)了解資料的分布類型.(2)發現異常值.(3)在頻數表的基礎上計算有關指標。1、算術均數 ,X2、幾何均數 G3、中位數 M二、集中趨勢的描述概念: 數值的平均.計算: 1)直接法: 例 求某地140名正常成年男子紅細胞數
15、均值為1. 均數(mean) ,X 2)加權法:RBC(1012/ L)組中值 X頻數 ffX3.803.90 27.804.004.10 624.64.204.301147.34.404.5025112.54.604.7032150.44.804.9027132.35.005.101786.75.205.301368.95.405.50 422.05.605.70 211.45.805.90 15.9合計140( f)669.8 fx應用: 對 稱分布,尤其是正態分布.概念:指一組數據的倍數平均。計算:(1)直接法: 2. 幾何均數 ( geometric mean, G ) 例:5份血清的
16、抗體效價為1:10,1:100,1:1000,1:10000,1:100000,求其平均效價。 或者: 1:10,1:100,1:1000,1:10000,1:100000的指數部分為:-1,-2,-3,-4,-5,其平均值為-3,故G =10-3=1:1000 (2)加權法:何謂對數正態分布? 某資料由變量值 X1,X2, Xn組成,已知其分布呈偏態。若每個變量值取對數,如Y1=lgX1,Y2=lgX2, Yn=lgXn,且Y1,Y2, Yn呈正態分布。 此時,將對數值還原為原始數值,則:應用: (1)變量值呈倍數關系 (2)對數正態分布概念:是一組由小到大按順序排列的觀察 值中位次 居中的
17、數值。計算:(1)直接法: n為奇數時, n為偶數時, 某病患者9人發病潛伏期為2,3,3,3,4,5,6,9,16天, 求中位數。若在第20天又發現1例患者,則其中位數為:3. 中位數 (median M) 利用百分位數計算公式進行計算. 百分位數(PX)是一種位置指標, 。中位數是一個特定的百分位數,即M= P50 。(2)頻數表法:百分位數計算公式:百分位數計算公式:MMP25P75應用:(1)偏態分布資料;(2)資料分布一端或兩端有未確定值。 某實驗室觀察局部溫熱治療小鼠移植性腫瘤的療效,以生存日數作觀察指標, 結果如下.問兩組生存日數有無差別? 例: 三組同性別、同年齡兒童的體重(K
18、g)如下,分析其集中趨勢與離散趨勢。 甲組:26 28 30 32 34 均數:X=30 Kg 乙組:24 27 30 33 36 均數:X=30 Kg 丙組:26 29 30 31 34 均數:X=30 Kg三、離散趨勢的描述甲乙丙三組兒童體重的離散程度只用平均數描述資料的弊病 It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable。 ON AVERAGE !描述離散程度的常用指標1、全距(極差) (R)2、四分位數間距(QR)3、方
19、差(2 S2)和 標準差(、S)4、變異系數 (CV) 反映一組同質觀察值個體差異的范圍。 R甲=8; R乙=12; R丙=8。 缺點(1)不能反映組內其它觀察值的變異度。 (2)樣本含量越大,則全距可能也越大。1. 全距(極差)即P75P25 四分位數可看作是一組同質觀察值居中的50%變量值的變異范圍。2. 四分位數間距(quartile range, QR) 不受極值影響,較穩定。與全距比較有何優點?應用: (1)偏態分布; (2)資料一端或兩端有未確定值。變量值的離散程度可看作是各個變量值距離中心點(均數)的遠近問題。 用算式表示: x 但: x=0 則求: x2 (離均差平方和) x2
20、 大小與變異度有關外,還與變量值個數(N)有關。 故:3. 方差(2 S2)和 標準差(、S)(variance & standard deviation) 為了用原單位表示,開方即: 標準差或方差越大,說明個體差異越大,則均數的代表性越差。 實際工作中經常得到的是樣本資料,總體均數是不知道的,只能用樣本均數來估計,這樣: 用 xx2 代替 x2 n 代替 N 但這樣算得結果常比真實低。 因此,統計學家提出用 n - 1 來校正。即:樣本標準差(S) S2 稱為 樣本方差 式中n-1稱為自由度,用希臘字母 (niu)表示。自由度的概念: 是指隨機變量能自由取值的個數。 例:X+Y+Z=10 =
21、 2 又例: 當樣本均數一定時,隨機變量可以自由取值的變量值個數只能是n - 1 個。計算: 1)不分組資料:例: 三組同性別、同年齡兒童的體重(Kg)如下,分析其集中趨勢與離散趨勢。 甲組:26 28 30 32 34 均數:X=30 Kg 乙組:24 27 30 33 36 均數:X=30 Kg 丙組:26 29 30 31 34 均數:X=30 Kg計算得:S甲=3.16,S乙=4.74,S丙=2.92 2)分組資料: 計算得:S = 0.38(1012/ L)RBC(1012/ L)組中值 X頻數 ffXfX23.803.90 27.8030.424.004.10 624.64.204
22、.301147.34.404.5025112.54.604.7032150.44.804.9027132.35.005.101786.75.205.301368.95.405.50 422.05.605.70 211.45.805.90 15.9合計140( f)669.8 fx3224.20應用: 對稱分布,尤其是正態分布應用:(1)比較單位不同的幾組資料的變異程度 (2)比較均數相差懸殊的幾組資料的變異程度4. 變異系數(CV) 例2.9 某地調查110名18歲男大學生,其身高均數為172.73cm,標準差為4.09cm;其體重均數為55.04kg,標準差為4.10kg,試比較兩者變異度。
23、 1. X S 2. M(P75 P25)綜合: 某年某地不同型流腦病死率比較 病型 病人數 死亡人數 病死率(%)菌血型 59 4 6.78 腦 型 778 48 6.17混合型 784 39 4.97 合計 1621 91 5.61計數資料下表資料的類型?等級資料下表資料的類型? 10名某病患者,用某藥治療, 測得治療前及治療后一個月的 血沉(mm/小時)如下表: 病人號 1 2 3 4 5 6 7 8 9 10 治療前 10 13 6 11 10 7 8 8 5 9 治療后 6 9 3 10 10 4 2 5 3 3 問該藥是否有效? 計量資料下表資料的類型? 某衛生防疫站對30名麻疹易
24、感兒童經氣溶膠免疫一個月后,測得其血凝抑制抗體滴度資料如下,試計算其平均滴度 抗體滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 例 數 2 6 5 10 4 2 1 某市1974年為了解該地居民發汞的基礎水平, 為汞污染的環境監測積累資料, 調查了留住該市一年以上, 無明顯肝、腎疾病,無汞作業接觸史的居民238 人的發汞含量如下: 用何種指標說明本資料的集中位置和變異程度較好?并計算之; 某檢驗師測定了10名正常成年鋼鐵工人的血紅蛋白值(g/dl)和紅細胞數(萬/mm3)如下,試比較這兩個檢測項目的結果哪個變異性大? 血紅蛋白(g/dL) 13.0 13.6
25、14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0血細胞數(萬/mm3) 510 515 517 518 520 522 524 525 528 530常用統計軟件:SAS真正的巨無霸,被譽為國際上的標準統計軟件SPSS統計軟件中的貴族,操作界面極為友好Stata軟件小巧,命令行方式操作EpiData免費的數據錄入和數據管理軟件學習統計學最好的方法是熟悉一種統計軟件的使用。EpiData EpiData SASStatistical Analysis System是當今國際上最著名的數據分析軟件之一;由美國北卡羅萊納州立大學的兩位教授于1966年開始研制,1976年
26、正式成立SAS軟件研究所;特點:功能強大、編程操作、適宜于高級用戶使用。SPSS 原名:Statistical Package for Social Science(社會科學統計軟件包) 2000年:Statistical Product and Service Solutions(統計產品和服務解決方案)2009年被IBM收購,改名為IBM SPSS, 現版本為21.0功能強大囊括各種統計方法;提供各種數據準備與整理技術;強大的統計圖表功能兼容性好(數據、結果)易用性強(菜單對話框方式)基本特點口號:真正統計,確實簡單。SPSS界面 SPSS數據編輯窗口(SPSS Data Editor )
27、(1)數據視圖 (Data View )SPSS界面 (2)變量視圖 (Variable View )name欄:設置變量名,在8位以內,推薦使用英文變量名。Type欄:常用變量類型為Numeric(數值型)、Data(日期型)、String(字符型)三種,一般默認數值型即可。Width欄:設置變量運算寬度,如數值型默認為8位,一般不用更改Decimals欄:設置小數位,默認為2位。Label欄:定義變量名標簽,在結果輸出中出現,方便閱讀。Values欄:定義變量值標簽。用于將數據中的分類變量或非連續型變量量化。Missing欄:定義變量缺失值。SPSS中默認缺失值用“.”表示,如所用數據集中
28、還有其它表示方法,則用該框來定義。Collumns欄:定義顯示列寬。Align欄:定義顯示對齊方式。Measure欄:定義變量的測量尺度。例2-1 某醫院用隨機抽樣方法檢查了138名成年女子的紅細胞數,其測量結果如下,試編制頻數分布表。THE END單純隨機抽樣 即先將調查總體的全部觀察單位編號,再隨機抽取部分觀察單位組成樣本。例:欲了解某單位職工HBsAg陽性率,該單位有職工1000人,試按單純隨機抽樣法,抽取一例數為100的樣本。系統隨機抽樣又稱等距抽樣或機械抽樣,即先將總體的觀察單位按某一順序號等分成n個部分,再從第一部分隨機抽第k號觀察單位,依次用相等間隔,機械地從每一部分各抽一個觀察
29、單位組成樣本。例:欲了解某單位職工HBsAg陽性率,該單位有職工1000人,試按系統抽樣法,抽取一例數為100的樣本。整群隨機抽樣 先將總體劃分為n個群,每個群包括若干觀察單位,再隨機抽取k個群,并將被抽取的各個群的全部觀察單位組成樣本。例:某校有80個班級,各班學生50人,現用錫克氏試驗調查該校學生白喉易感率,隨機抽查了8個班的全部學生。分層隨機抽樣按有關影響因素把觀察對象分成若干層次,然后將同一層次的觀察對象進行隨機抽取。例:欲了解某地人群HBsAg陽性率情況,按年齡段、職業、性別等因素分層后進行抽樣。病例號年齡(歲)性別身高(cm)血型心電圖尿WBC職業RBC(1012/L)135女16
30、5A正常教師4.67244男174B正常工人5.21326男180O正常職員4.10425女161AB正常農民3.92541男171A異常+工人3.49645女158B正常+工人5.48750女160O異常+干部6.78828男176AB正常+干部7.10931女162O正常軍人5.24變量和變量值變量變量值觀察單位變量值 計量資料 用定量方法測定得到,有大小之分,有度量衡單位。例 某年某市抽樣調查的120名5歲女孩身高(cm),資料如下:105.5118.6110.5104.2110.9107.9108.1 99.1104.8116.5110.4105.7118.2117.0112.3116
31、.5113.2107.9104.8109.6109.1108.1109.4118.2103.9116.0110.1 99.6109.3107.5108.6100.6108.8103.8 95.3104.4102.7101.0112.1118.7124.0104.1109.1108.8111.0106.8120.2105.8103.1105.0115.0 計數資料按不同屬性分類后,匯總各類中的個數所得到的資料。多項分類資料二項分類資料 等級資料 將觀察單位按某屬性不同程度分組計數所得的資料。正態分布及參考值范圍的制定溫醫環境公衛學院黃陳平一、正態分布 (normal distribution)正
32、態分布的圖形正態分布的特征標準正態分布正態分布曲線下面積分布規律4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.12
33、4.854.595.084.824.93例某地用隨機抽樣方法檢查了140名成年男子的紅細胞數,檢測結果如下表:1、正態分布的圖形1)在橫軸上方,均數處最高,為單峰分布2)以均數為中心,左右對稱3)有兩個參數, 和 , 即 N( , 2)4)正態曲線下面積分布有一定規律2、正態分布的特征 不同、下正態分布概率密度函數的圖形正態分布的圖形由 和 所決定,即N( , 2)對上式進行 u 代換,即:可使一般的正態分布轉換為標準正態分布(u 分布),此時 N(0,1)。3、標準正態分布x= 0= 1問題:為什么一般的正態分布要轉換成標準正態分布?表中曲線下面積為 - u 的面積;即 P ( u)P.69
34、5 附表1 4、正態曲線下的面積分布規律表9-6 正態分布和標準正態分布曲線下面積分布規律若為大樣本,則可用 代替,用 s 代替。圖9-6 正態分布和標準正態分布的曲線下面積分布規律 -2.58 -1.96 -1 0 +1 +1.96 +2.58 u -2.58 -1.96 -1 +1 +1.96 +2.58 x95%95%或大樣本時:正態曲線下某一區間的面積占總面積的百分數有何意義? 即該區間的例數占總例數的百分數(頻數分布), 或觀察值落在該區間的概率, 或從此總體隨機抽得該區間觀察值的概率。正態分布的應用估計變量值的頻數分布制定參考值范圍例 某地用隨機抽樣方法檢查了140名成年男子的紅細
35、胞數(1012/L),檢測結果如下表:4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084
36、.824.93 若上例均數為4.78 (1012/L) ,標準差為0.38 (1012/L),問低于41012/ L的人占總人數的比例有多少? 例:對使用過甘草的許多重要處方進行分析,若已知每次的甘草用量X(單位:克)服從正態分布,=8,=2。現任抽一張含甘草的處方,求甘草的用量在510克范圍內的概率。P = P(u2)P(u1)= P(1)P(-1.5)=0.7745二、參考值范圍的估計參考值的意義制定參考值范圍的基本步驟參考值范圍的估計方法問 題 小陳參加體檢,血常規報告其白細胞計數為3.50109/L, 而健康人參考值范圍為: 4.0010.00109/L,問: (1)小陳白細胞計數值正
37、常嗎?(2)何謂參考值范圍?(一) 參考值的意義醫學參考值(medical reference value)指絕大多數正常人的生理、生化指標常數,也稱正常值。由于存在個體差異,正常人某項指標測定值并非常數而是在一定范圍內波動,故采用參考值范圍作為判斷某項指標是否正常的依據。 1)隨機抽得足夠數量(n100)符合條件的觀察對象; 2)控制測量誤差; 3)合理合并或分組; 4)確定單側或雙側 白細胞計數? 肺活量? 血鉛濃度? 5)選定適當的百分界限; 如80%、90%、95%和99%,常用為95%。 6)選定適當的計算方法。(二)制定參考值范圍的基本步驟(三)參考值范圍的估計方法 1、正態分布法
38、 若取95%界限, 雙側: X 1.96S 單側:若高不正常,則 X -1.645S 2、百分位數法 若取95%界限, 雙側: P2.5 P97.5 單側:若高不正常,則 P5362.6359.7285.9300.2333.6334.0288.8338.5341.9344.6337.5298.3364.2367.1338.1316.9332.7324.0282.6369.8398.7338.7308.9392.1368.7352.6378.2346.1278.6318.3323.2322.6382.1322.6309.6352.0372.5399.8335.6341.1371.0355.936
39、2.7368.1332.4405.6328.8358.8371.0387.5413.6348.7392.7401.0313.6366.8387.2319.7329.4352.0372.5399.8335.6341.1371.0355.9362.7368.1332.4405.6328.8358.8362.6359.7285.9300.2333.6334.0288.8338.5341.9344.6337.5298.3364.2367.1338.1316.9332.7324.0282.6369.8398.7338.7308.9392.1368.7352.6378.2346.1278.6318.332
40、3.2322.6382.1322.6309.6352.0376.2388.4344.6308.6347.0428.7369.1311.4376.3349.4289.2366.8371.0387.5413.6348.7392.7401.0313.6366.8387.2319.7329.4357.5372.5399.8335.6341.1371.0355.9362.7368.1332.4405.6328.8357.5387.5342.3366.7387.6332.7329.4 2002年某市150名正常成年男子的尿酸濃度( mol/L ) 上例 ,求雙側95%的參考值范圍。 參考值范圍應用時注意:
41、人數上限值 (95%)NormalPatient假陰性假陽性 問: (1) 理論上95%男孩出生體重在什么范圍? (2) 某男孩出生體重為4.51kg,如何評價? (1) (2.43, 4.14)(2) 超重例 題 某市1974年為了解該地居民發汞的基礎水平, 隨機抽樣檢測該地無汞作業接觸史的健康居民238人的發汞含量如下: 如何制定該地健康居民的發汞參考值范圍?如在以后工作中測得某人發汞值為17.8mol/kg,如何判斷?100)符合條件的觀察對象; 2)控制測量誤差; 3)合理合并或分組; 4)確定單側或雙側 白細胞計數? 肺活量? 血鉛濃度? 5)選定適當的百分界限; 如80%、90%、
42、95%和99%,常用為95%。 6)選定適當的計算方法。(二)制定參考值范圍的基本步驟(三)參考值范圍的估計方法 1、正態分布法 若取95%界限, 雙側: X 1.96S 單側:若高不正常,則 X -1.645S 2、百分位數法 若取95%界限, 雙側: P2.5 P97.5 單側:若高不正常,則 P5362.6359.7285.9300.2333.6334.0288.8338.5341.9344.6337.5298.3364.2367.1338.1316.9332.7324.0282.6369.8398.7338.7308.9392.1368.7352.6378.2346.1278.6318
43、.3323.2322.6382.1322.6309.6352.0372.5399.8335.6341.1371.0355.9362.7368.1332.4405.6328.8358.8371.0387.5413.6348.7392.7401.0313.6366.8387.2319.7329.4352.0372.5399.8335.6341.1371.0355.9362.7368.1332.4405.6328.8358.8362.6359.7285.9300.2333.6334.0288.8338.5341.9344.6337.5298.3364.2367.1338.1316.9332.7324
44、.0282.6369.8398.7338.7308.9392.1368.7352.6378.2346.1278.6318.3323.2322.6382.1322.6309.6352.0376.2388.4344.6308.6347.0428.7369.1311.4376.3349.4289.2366.8371.0387.5413.6348.7392.7401.0313.6366.8387.2319.7329.4357.5372.5399.8335.6341.1371.0355.9362.7368.1332.4405.6328.8357.5387.5342.3366.7387.6332.7329
45、.4 2002年某市150名正常成年男子的尿酸濃度( mol/L ) 上例 ,求雙側95%的參考值范圍。 參考值范圍應用時注意:人數上限值 (95%)NormalPatient假陰性假陽性 問: (1) 理論上95%男孩出生體重在什么范圍? (2) 某男孩出生體重為4.51kg,如何評價? (1) (2.43, 4.14)(2) 超重例 題 某市1974年為了解該地居民發汞的基礎水平, 隨機抽樣檢測該地無汞作業接觸史的健康居民238人的發汞含量如下: 如何制定該地健康居民的發汞參考值范圍?如在以后工作中測得某人發汞值為17.8mol/kg,如何判斷?50),則樣本均數也逼近正態分布。(2)樣本
46、均數的總均數等于原始總體均數。某變量值總體分布樣本含量n相同的樣本均數總體分布抽樣n一、均數的抽樣誤差與標準誤意義: 說明抽樣誤差的大小。抽樣誤差大,用 估計的可靠程度較小。某變量值總體分布樣本含量n相同的樣本均數總體分布抽樣n 為樣本均數的標準差,反映均數抽樣誤差大小的指標, 稱標準誤標準誤的計算標準差計算式增大樣本含量可減少抽樣誤差某變量值總體分布樣本含量n相同的樣本均數總體分布抽樣n標準誤計算式 例4.1某市隨機抽查12歲男孩100人,得身高均數139.6cm,標準差6.85cm,資料,求標準誤? 若X或 X服從正態分布 N( , 2),則可作正態變量 X或 X的 u 代換。則 u 服從
47、標準正態分布 N(0,1) 二、 t 分布某變量值總體分布抽樣得到n相同的樣本均數總體分布 實際工作中, 往往未知,S 代替, 此時就不是u代換,而是 t 代換。 無數t點所組成的分布,稱t 分布。t 分布的特征: (1)以 0 為中心,兩側對稱的單峰分布 (2)與 u 分布比較,峰值較低,兩邊上翹 (3)有一個參數 ,當 ,t分布u分布P696t 界值表的使用當自由度v一定時,t分布也確定,t界值表提供v一定時t分布曲線下某概率分布區間的t界值點。t界值表示: 雙側 t(,v), P(t - t(,v) 且 t t(,v) )= 單側t(,v), P(t - t(,v) 或 t t(,v)
48、)= 單側t(,v)=雙側 t(2,v) 如單側t(0.05,11)=雙側 t(0.10,11) =1.796t 分布的用途總體均數的區間估計t 檢驗三.總體均數的估計1. 點估計(point estimation): 概念: 按一定的概率(1 - )估計總體均數所在范圍(或稱置信區間, confidence interval, CI ),常用95%和99%的概率估計。2. 區間估計(interval estimation):為第一類錯誤的概率,通常取0.05或0.01(3)未知但n較大,可按正態分布原理(2)未知時,按t分布原理 (1)已知時,按正態分布原理 計算: 例2.12 11名18歲
49、男大學生身高得均數172.25厘米,標準差3.31厘米,試估計該地18歲男大學生總體身高均數的95%可信區間。 本例n=11,則=10,查t界值表得:雙側t0.0510=2.228關于置信區間的準確性和精密度準確度反映在可信度(1 - )的大小上;精密度反映在可信區間的長度上。99%總體均數置信區間與95 %總體均數置信區間比較前者準確度較高,但緊密度較低問題:均數的置信區間與參考值范圍有何區別?例: 據大量調查知,健康成年男子脈搏的均數為72次/分,某醫生在山區隨機調查了25名健康男子,其脈搏均數為74.2次/分,標準差為6.0次/分,能否認為該山區成年男子的脈搏高于一般人群?造成 與0不等
50、的原因:(1)抽樣誤差 ,即=0 (2)非同一總體,即0 已知總體 未知總體四. 假設檢驗的基本思想和步驟 如何判斷? 統計上是通過假設檢驗來回答這個問題。(1)建立假設: H0: (檢驗假設或無效假設) 如:兩總體均數相等 H1: (備擇假設) 如:兩總體參數不等 雙側檢驗 單側檢驗怎樣選擇雙側檢驗或單側檢驗? 1.根據專業知識; 2.根據研究目的。H0:H1:或為什么稱H0為無效假設?在建立檢驗假設時,應當注意: 檢驗假設應針對總體而言,不能針對樣本。 H0和H1缺一不可。統計分析是基于H0假設前提進行的(2) 確立檢驗水準 ,又稱顯著性水準。 指拒絕實際上成立的檢驗假設H0 所犯錯誤的概
51、率(假陽性錯誤的概率),即第一類錯誤概率。 的大小要根據分析的要求人為確定,在實際工作中常取0.05,即小概率事件的標準。為什么強調對假陽性錯誤進行嚴格控制?(3)選定檢驗方法和計算檢驗統計量應根據資料的性質和分析目的,選擇適宜的統計檢驗方法,并計算檢驗統計量。常用檢驗統計量如: 、F、X2 等(4)確定P值,作出推斷結論 P值是指由所規定的總體中(本例 H0 : = 0)作隨機抽樣,獲得大于或等于現有樣本計算得到的檢驗統計量值的概率。即 P( t 或 u、F、 X2 等)。P時,則拒絕H0,接受H1,有統計學意義(統計結論),可認為不同或不等(專業結論)。P時,則不拒絕H0,無統計學意義(統
52、計結論),還不能認為不同或不等(專業結論)。 假設檢驗基本步驟小結(1)建立假設 H0: (無效假設) 總體參數相等 H1: (備擇假設) 總體參數不等(2)確定檢驗水準 通常 = 0.05(3)選定檢驗方法和計算檢驗統計量 如:、F、X2 等(4) 確定P值,作出推斷結論 P時,則拒絕H0,接受H1 P時, 則不拒絕H0 應用: 用于兩均數比較的假設檢驗; 資料要求: (1)資料隨機取自正態總體; (2)兩總體方差齊性(相等)。五、 t 檢驗1、樣本均數與總體均數比較 例4.4 據大量調查知,健康成年男子脈搏的均數為72次/分,某一身在山區隨機調查了25名健康男子,其脈搏均數為74.2次/分
53、,標準差為6.0次/分,能否認為該山區成年男子的脈搏高于一般人群? H0: = 0 (72次/分) H1: 0 單側: = 0.05此圖為從 0總體中抽樣(n=25)得到的樣本均數分布圖注意:統計分析是在H0前提下進行的=74.2 125 24 查t界值表(P804),得單側 t0.05,24 = 1.711 因: t =1.833 t0.05,24 所以:P 0.05 結論:按照 = 0.05水準,拒絕H0 ,故可認為該山區健康成年男子脈搏高于一般人群。 上例如用雙側檢驗,查表得雙側 t0.05,24 = 2.064 則: t =1.833 0.05。結論相反。 單側檢驗效率要高于雙側檢驗。
54、 如何選擇單側或雙側檢驗? 主要根據專業知識而定。 如某指標只高不低或只低不高。單樣本t檢驗SPSS演示 例3-5 某醫生測量了36名從事鉛作業男性工人的血紅蛋白含量,算得其均數為130.83g/L,標準差為25.74g/L。問從事鉛作業工人的血紅蛋白是否不同于正常成年男性平均值140g/L? H 0: = 0 H 1: 0 = 0.05v=n-1=35查表 t0.05/2, 35=2.030 t t0.05/2, 35, P 0.05,按= 0.05水準, 拒絕H0,認為鉛作業男性工人平均血紅蛋白含量低于正常成年男性。 本例n=36, =130.83g/L,S=25.74g/L, 140g/
55、L 2、配對設計的兩均數比較 同源配對 觀察指標測自同一受試對象或標本。 異源配對 觀察指標測自不同受試對象或標本,但不同受試對象或標本配成對子,每對除處理因素不同外,其它非處理因素一致或基本一致。 統計分析是比較配對差值與總體均數 0 的差別進行的 H0: d= 0 H1: d 0 = 0.05 1=11 n為對子數或差值個數t0.10,11 = 1.796 , t0.20,11 = 1.363, 故 0.20 P 0.10。 例:某單位研究飲食中缺乏維生素E與肝中維生素A含量的關系,將同種屬的大白鼠按性別相同,年齡、體重相近者配成對子,共8對,并將每對中的兩頭動物隨機分到正常飼料組和E缺乏
56、組,過一定時期將大白鼠殺死,測得其肝中A的含量如下表,問不同飼料的大白鼠肝中維生素A含量有無差別?配對t檢驗 SPSS演示例3-6 為比較兩種方法對乳酸飲料中脂肪含量測定結果是否不同,隨機抽取了10份乳酸飲料制品,分別用脂肪酸水解法和哥特里羅紫法測定其結果如表3-5第(1)(3)欄。問兩法測定結果是否不同?(3)成組設計兩樣本均數的比較 122本例 t= 1.80.05H0: 1= 2 H1: 12 = 0.05成組設計兩樣本均數比較t檢驗SPSS演示方差齊性檢驗t 檢驗結果(4)成組設計的兩樣本幾何均數的比較 一般認為此類資料呈對數正態分布,因此,需將原始資料取對數后,再作兩組對數值均數的t
57、檢驗。 H0: 兩株的總體幾何均數相等 H1:兩株的總體幾何均數不等 = 0.05 將兩組數據分別取對數,X1=lgA,X2=lgB (A、B 分別代表兩組原始數據)注意:這里直接比較的是 lgG1 與 lgG2 ,但間接說明 了 G1 與 G2 的差別。六、 正態性檢驗1、圖示法(2)峰度系數(1)偏度系數2、偏度系數和峰度系數檢驗(2)峰度系數= -0.165/0.457= -0.361P 0.5 H0: r 1=0; r 2= 0 H1: r1 0 ; r2 0 = 0. 10(宜稍大以減少型錯誤)(1)偏度系數=0.156/0.230=0.678P 0.5(2)峰度系數= -0.165
58、/0.457= -0.361P 0.5 H0: r 1=0; r 2= 0 H1: r1 0 ; r2 0 = 0. 10或0.2(1)偏度系數=0.156/0.230=0.678P 0.53、柯爾莫柯羅夫-斯米爾諾夫(Kolmogorov-Smirnov)檢驗一般適用于n大于50樣本的正態性檢驗 H0: 正態分布 H1: 非正態分布 = 0. 10(宜稍大以減少型錯誤)4. Shapira-Wilkinson檢驗一般適用于n小于50樣本的正態性檢驗正態性檢驗正態性檢驗正態性檢驗H0: 正態分布H1: 非正態分布 = 0.10非正態七、 兩樣本方差齊性檢驗S21 較大, S22 較小。 例:由
59、X光片上測得兩組病人的肺門橫徑右側(cm),算得結果如下,試檢驗兩個方差的齊性。 肺癌病人:n1=10,X1=6.21,S1=1.79cm 矽肺0期病人:n2=50,X2=4.34,S2=0.56cm 1 1= 10 1= 9, = 21= 50 1= 49查附表3,P698(齊性檢驗用雙尾界值) 得:F0.10/2,(9,49) F0.10/2,(9,48) =2.08, 所以 P 0.10H0: 兩總體方差相等 H1:兩總體方差不等 = 0.10=1.792/0.562=10.22 一般同質的兩組資料方差相差不大,若兩樣本方差相差一倍左右,要注意方差不齊的可能。 問題: 若方差不齊,將如何
60、處理? (1)采用適當的變量變換,使達到方差齊性; (2)采用秩和檢驗; (3)采用近似法 t檢驗(1)選用的方法應符合其應用條件(2)正確理解差別有無顯著性的統計意義 結論中的“拒絕 H0 ,接受H1”,習慣上亦稱“差別顯著”,不應誤解為相差很大。反之,“不拒絕H0”,不應誤解為相差不大或一定相等。 例兩篇同類文章,兩樣本均數比較,甲文P0.05; 乙文 P0.01。是否可認為乙文中兩樣本均數差值較甲文大?為什么?八、 假設檢驗時應注意的問題(3)結論不能絕對化 統計的結論是按著概率大小作出判斷,若取 = 0.05,此時拒絕H0 ,仍有0.05的概率犯錯誤;同樣,不拒絕H0 ,也可產生錯誤。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 歷代樂清圍海筑塘考略
- 2025華遠集團高層管理人員績效合同
- 2025裝修工程施工合同范本:家居裝修與商業空間裝修
- 買賣合同樣本簡
- k式房合同樣本
- 光租船合同標準文本
- 簡單勞務用工協議書
- 計時工工作制的勞動合同二零二五年
- 光伏經銷合同標準文本
- 二零二五安防工程售后服務承諾書
- 深度學習及自動駕駛應用 課件 第9、10章 生成對抗網絡及自動駕駛應用、強化學習理論及自動駕駛應用實踐
- 拼多多在線測評98道題
- 中國國新基金管理有限公司招聘筆試題庫2024
- 環境監測站運行管理與質量控制標準
- 20以內的加法口算練習題4000題 284
- 國家開放大學《學前兒童語言教育活動指導》形成性考核1-4參考答案
- 項目風險記錄及跟蹤表
- 2024年個人信用報告(個人簡版)樣本(帶水印-可編輯)
- FZ∕T 73037-2019 針織運動襪行業標準
- 保險:保險投資指南之壽險新準則分析手冊
- 工廠化循環水產養殖項目投資計劃書
評論
0/150
提交評論