第二章計量資料的統計描述_第1頁
第二章計量資料的統計描述_第2頁
第二章計量資料的統計描述_第3頁
第二章計量資料的統計描述_第4頁
已閱讀5頁,還剩71頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章第二章 計量資料的統計描述計量資料的統計描述第一節第一節 頻數分布頻數分布第二節第二節 集中趨勢的描述集中趨勢的描述第三節第三節離散趨勢的描述離散趨勢的描述第四節第四節 正態分布正態分布第五節第五節 醫學參考值范圍的制定醫學參考值范圍的制定第一節第一節 頻數分布頻數分布 一、頻數分布表(一、頻數分布表(frequency table) 例例2-1 測得測得130名健康成年男子脈搏資料名健康成年男子脈搏資料(次次/分分)如下,試編制如下,試編制頻數表和觀察頻數分布情況。頻數表和觀察頻數分布情況。757672696672576871726972738280826769736474587064

2、60776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876 (1)求極差求極差(range):即最大值與最小值之差,又稱):即最大值與最小值之差,又稱為全距。為全距。R84 57 =27(次次/分分) (2) 決定分組組數、組距決定分

3、組組數、組距:根據研究目的和樣本含量:根據研究目的和樣本含量n確定分組組數,通常分為確定分組組數,通常分為1015個組。組距個組。組距=極差極差/組數,組數,為方便計,組距為極差的十分之一為方便計,組距為極差的十分之一, 再略加調整。再略加調整。27/10=2.7 3 (3) 列出組段列出組段:第一組段的下限略小于最小值,最后一:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值。個組段上限必須包含最大值。56 59 80 8385 (4) 劃記計數劃記計數:用劃記法將所有數據歸納到各組段,得:用劃記法將所有數據歸納到各組段,得到各組段的頻數。到各組段的頻數。頻數表的編制步驟頻數表的編

4、制步驟表2-1 130名健康成年男子脈搏(次/分)的頻數分布表Nf f 二、頻數分布圖三、頻數表和頻數分布圖用途三、頻數表和頻數分布圖用途1描述頻數分布的描述頻數分布的類型類型(對稱分布、偏態分布)(對稱分布、偏態分布) (1 1)對稱分布)對稱分布 :若:若各組段的頻數以中各組段的頻數以中心位置左右兩側大心位置左右兩側大體對稱,就認為該體對稱,就認為該資料是對稱分布資料是對稱分布 是否為對稱分布?是否為對稱分布?(2)偏態分布)偏態分布 : 1)右偏態分布(正偏態分布):右側的組段數多于)右偏態分布(正偏態分布):右側的組段數多于左側的組段數,頻數向右側拖尾。左側的組段數,頻數向右側拖尾。

5、血清轉氨酶(mmol/L)051015202513.519.525.531.537.543.5.圖2-2 115名正常成年女子血清轉氨酶的頻數分布人 數轉氨酶含量 人 數 12 2 15 9 18 14 21 23 24 19 27 14 30 11 33 9 36 7 39 4 4245 3 表表2-2 115名正常成年女子血清轉氨名正常成年女子血清轉氨酶(酶(mmol/L)含量分布)含量分布 2)左偏態分布(負偏態分布): 左側的組段數多于右側的組段數,頻數向左側拖尾。 血 清 肌 紅 蛋 白(g / m L)05101520252.512.522.532.542.552.5圖 2-3 1

6、01 名 正 常 人 血 清 肌 紅 蛋 白 的 頻 數 分 布人 數肌紅蛋白含量 人 數 0 2 5 3 10 7 15 9 20 10 25 22 30 23 35 14 40 9 4550 2 表表2-3 101名正常人的血清肌紅蛋白含量分布名正常人的血清肌紅蛋白含量分布g/mL2描述頻數分布的描述頻數分布的特征特征表表21數據的頻數分布特征:數據的頻數分布特征:數據數據的范圍在的范圍在5784 (次(次/分分 )數據數據在在6873 (次(次/分)分)之間,尤以組段的人數之間,尤以組段的人數71(次(次/分)最多。分)最多。且上下組段的頻數分布基本對稱。且上下組段的頻數分布基本對稱。3

7、便于發現一些特大或特小的可疑值便于發現一些特大或特小的可疑值 4便于進一步做統計分析和處理便于進一步做統計分析和處理第二節第二節 集中趨勢的描述集中趨勢的描述 統計上使用平均數(統計上使用平均數(average)這一指標體系來描)這一指標體系來描述一組變量值的集中位置或平均水平。述一組變量值的集中位置或平均水平。常用的平均數有常用的平均數有: 算術均數(均數)(算術均數(均數)(mean) 幾何均數(幾何均數(geometric mean) 中位數中位數 (median)與百分位數()與百分位數(percentile) 眾數(眾數(mode) 一、算術均數一、算術均數算術均數:簡稱均數(算術均

8、數:簡稱均數(mean) 可用于反映一組呈對稱分布的變量值可用于反映一組呈對稱分布的變量值在數量上的平均水平或者說是集中位置在數量上的平均水平或者說是集中位置的特征值。的特征值。1、計算方法、計算方法(1)直接計算法)直接計算法 公式公式 :12nXXXXXnn舉例:試計算舉例:試計算4,4,4,6,6,8,8,8,10的均數?的均數?1323101836243X例例2-1 測得測得130健康成年男子脈搏資料健康成年男子脈搏資料(次次/分分)如下,試編制頻如下,試編制頻數表和觀察頻數分布情況。數表和觀察頻數分布情況。757672696672576871726972738280826769736

9、4745870646077667764677675757165627672716067757573796669797870727072787267728068706170737271817066757163777476686577697775796479737661806469707369686570696681636480747876846670736076827364657373638068767079776470666973787632.711307678727675X(2)加權法)加權法(利用頻數表):利用頻數表):公式 :112233123kkkfXf Xf Xf Xf XXffff

10、fX 本組段下限值+下組段下限值其中2k:頻數表的組段數,:頻數表的組段數, f :頻數,:頻數, X:組中值。:組中值。表2-2 130名健康成年男子脈搏(次/分)的頻數分布表Nf ffXfXfXfX2 22 57.55 60.51 84.5931171.62()251130X 次 分2、應用、應用 均數均數適用于對稱分布,特別適用于對稱分布,特別是正態分布資料。是正態分布資料。二、二、 幾何均數(幾何均數(geometric mean) 可用于反映一組經可用于反映一組經對數對數轉換轉換后呈對稱分布或正態分后呈對稱分布或正態分布的變量值在數量上的平均布的變量值在數量上的平均水平。水平。幾何均

11、數(幾何均數(geometric meangeometric mean)12121lg1lg(lglglg)lglgnnnGX XXXGXXXnnXGn為正值,為底的反對數表示以為底的對數;表示以010lg10lg1X幾何均數幾何均數:變量變量對數值的對數值的算術均算術均數數的反對數的反對數。 其他對數(如自然對數)變換獲得相同的幾何均數例例2-5 有有8份血清的抗體效價分別為份血清的抗體效價分別為1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗體效價。求平均抗體效價。57.566403201608040201058G1lg (lg5lg1

12、0lg20lg640)/856.57G平均抗體效價為:平均抗體效價為: 1:57(2)加權法)加權法公式:公式:1lglg ()fXGf 例例2-6 69例類風濕關節炎(例類風濕關節炎(RA)患者)患者血清血清EBV-VCA-lgG抗體滴度的分布見表抗體滴度的分布見表2-4第第(1)、(2)欄,求其平均抗體滴度。欄,求其平均抗體滴度。111lg150.2778lg () lg () lg (2.1779) 150.669fXGf2、應用:、應用: 適用于成等比數列的資料,適用于成等比數列的資料,特別是服從對數正態分布資特別是服從對數正態分布資料。料。三、三、 中位數與百分位數中位數與百分位數1

13、1個大鼠存活天數:個大鼠存活天數:4,10,7,50,3,15,2,9,13,60,60平均存活天數平均存活天數?(一)中位數(一)中位數(median) 是將每個變量值從小到大排列,是將每個變量值從小到大排列,位置位置居于中間的那個變量居于中間的那個變量。 計算計算公式公式: n為奇數時為奇數時 n為偶數時為偶數時 1()2nMX()(1)2212nnMXX例例2-3 9名中學生甲型肝炎的潛伏期名中學生甲型肝炎的潛伏期分別為分別為12,13,14, 14, 15, 15, 15, 17, 19天,求其天,求其中位數中位數。88451222214 15 214.5()MXXXX如果只調查了前八

14、位中學生,則:()( )天)(155219天XXM頻數表資料的中位數頻數表資料的中位數(50%)(50%)LmMnnfMLif 所在組段下限值至該下限值的累計頻數組距所在組段下限值至上限值間的頻數下限值下限值L上限值上限值Ui; fm中位數中位數M)%50(Lfn例21頻數表中位數的計算Nf f中位數71+3x(130 x50%59)/2671.69應用應用1、各種分布類型的資料、各種分布類型的資料2、特別適合大樣本、特別適合大樣本偏態偏態分布資料或分布資料或者者一端或兩端無確切數值的資料一端或兩端無確切數值的資料。 %X(100)%XXP 百分位數示意圖百分位數示意圖(二)百分位數(二)百分

15、位數(percentile)1直接計算法直接計算法 設有設有n個原始數據從小到大排列,第個原始數據從小到大排列,第X百分位數的計算公式為:百分位數的計算公式為:當當 為帶有小數位時:為帶有小數位時: 當當 為為 整數時:整數時:%nXtrunc(%) 1XnXPX(%)(% 1)12XnXnXPXX%nXTrunc()取整函數取整函數 例例 對某醫院細菌性痢疾治愈者的住院對某醫院細菌性痢疾治愈者的住院天數統計,天數統計,120名患者的住院天數從小到大名患者的住院天數從小到大排列如下,試求排列如下,試求第第5百分位數和百分位數和第第99百分位百分位數。數。患患 者者:住院天數住院天數: (1)n

16、=120, ,為整數為整數: 5(6)(7)11(34)3.5()22PXX天120 5%61 2 3 4 5 6 7 8 9 117 118 119 120 1 2 2 2 3 3 4 4 5 40 40 42 45 (2) ,帶有小數,帶有小數,故取整故取整 trunc(118.8)= 118120 99% 118.899(119)(%) 142()trunc nXPXX天患患 者者:住院天數住院天數:1 2 3 4 5 6 7 8 9 117 118 119 120 1 2 2 2 3 3 4 4 5 40 40 42 452頻數表法 公式:(%)XXXLXiPLnXff XL:第 X

17、百分位數所在組段下限 Lf:小于XL各組段的累計頻數 Xi:第 X 百分位數所在組段組距 n:為總例數 當 時,公式(2-9)即為中位數的計算公式50505050()2LinMPLff1%50%2X 例例2-9 試分別求例試分別求例21頻數表的第頻數表的第25、第、第75百分位數。百分位數。P2565+3x(130 x25%19)/1565.90P7574+3x(130 x75%85)/1974.66眾數(mode) 眾數是一組觀察值中出現頻率最高的那個觀察值;若為分組資料,眾數則是出現頻率最高的那個組段的組中值。適用于大樣本;較粗糙。 例2-7 有16例高血壓病人的發病年齡(歲)為:42,4

18、5,48,51,52,54,55,55,58,58,58,58,61,61,62,62,試求眾數。眾數(mode) 眾數是一組觀察值中出現頻率最高的那個觀察值;若為分組資料,眾數則是出現頻率最高的那個組段的組中值。適用于大樣本;較粗糙。 例2-7 有16例高血壓病人的發病年齡(歲)為:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,試求眾數。正態分布時: 均數中位數眾數均數中位數眾數正偏態分布時:均數均數 中位數中位數 眾數眾數負偏態分布時:均數均數 中位數中位數 眾數眾數 設有甲、乙、丙三名醫生,分別對相同的設有甲、乙、丙三名醫生,分別對相同的

19、5份血樣進行份血樣進行紅細胞計數(萬紅細胞計數(萬/mm3),甲得出了),甲得出了560、540、500、460、440,乙得出了,乙得出了520、510、500、490、480,丙得出了,丙得出了510、505、500、495、490,見下圖,見下圖2,三名醫生的計數結果得,三名醫生的計數結果得到的均數均為到的均數均為500,5個數值之和均為個數值之和均為2500。第三節第三節 離散趨勢的描述離散趨勢的描述甲醫生得出的5個觀察值間的差異(離散程度)較大,而丙醫生得出的5個觀察值間的差異(離散程度)較小。常用統計指標:常用統計指標:極差、四分位數間距、極差、四分位數間距、方差、標準差和變異系數

20、。方差、標準差和變異系數。一、極差(一、極差(Range) 極差,用極差,用R表示:即一組變量值最大表示:即一組變量值最大值與最小值之差。值與最小值之差。 對于書中例對于書中例2-1數數據,有據,有845727(/)R 次 分簡單,但僅利用了兩端點值,穩定性差。二、四分位數間距二、四分位數間距(quartile range) 四分位數間距,用Q表示: Q=下四分位數: 上四分位數:50P2575PP 25LQP75UQP25P100P0P75P例21數據P2565+3x(130 x25%19)/1565.90P7574+3x(130 x75%85)/1974.66三、方差與標準差三、方差與標準

21、差 1. 方差(方差(variance)也稱均方差)也稱均方差(mean square deviation),反映一組數),反映一組數據的平均離散水平。據的平均離散水平。 總體方差總體方差 樣本方差樣本方差 22()XN離均差平方和SS22()1XXSn2、公式: 樣本標準差用 表示 ,其度量單位與均數一致,所以最常用。公式:總體標準差用表示 2()XNS2()1XXSn離均差平方和SS 標準差的公式還可以寫成 :利用頻數表計算標準差的公式為22()1XXnSn22()1fXfXfSf例2-11 對例2-1的前10個數據: 75,76,72,69,66,72,57,68,71,72, 用直接法

22、計算標準差。48984727675,698727675,102222XXn248984698 /105.41()10 1S次/分例2-12 利用表2-2中的數據和頻數表法計算標準差。Nf ffXfXfXfX2 22671354.59311.0 /1305.89()130 1S次/分標準差的意義和用途1.說明資料的離散趨勢(或變異程度),標準差的值越大,說明變異程度越大,均數的代表性越差; .。 標準差與原始數據的單位一致,在科技論文報告中,均數與標準差經常被同時用來描述資料的集中趨勢與離散趨勢。2.用于計算變異系數3.用于計算標準誤(見第四章)4.結合均值與正態分布的規律,估計參考值的范圍(見

23、第五節)。四、變異系數四、變異系數C VSX 1 0 0 % 變異系數(coefficient of variation,CV) 常用于比較度量單位不同度量單位不同或均數相差均數相差懸殊懸殊的兩組(或多組)資料的變異程度。 某地某地7歲男孩身高的均數為歲男孩身高的均數為123.10cm,標準差為標準差為4.71;體重均數為;體重均數為22.59kg,標,標準差為準差為2.26kg,比較其變異度?比較其變異度? 體重 2.26100%10.14%22.29CV 身高 4.71100%3.83%123.10CV 第四節第四節 正態分布正態分布圖 2-4 頻 數 分 布 逐 漸 接 近 正 態 分

24、布 示 意正態曲線(正態曲線(normal curvenormal curve)的發現)的發現de Moivre(1667-1754),),published in 1733Laplace(1749-1827)Gauss(1777-1855)正態分布)正態分布: 又稱又稱高斯分高斯分布布(Gaussian distribution)一、正態分布的概念和特征一、正態分布的概念和特征1正態分布曲線的數學表達式正態分布曲線的數學表達式(概率密度函數,概率密度函數,probability density function,pdf ) ,X 則稱 X 服從正態分布,記作2( ,)XN ,為 X 的總體均

25、數, 2為總體方差。 22()21()2Xf Xe2正態分布的特征正態分布的特征正態曲線下面積分布有一定的規律,總面積正態曲線下面積分布有一定的規律,總面積=1。00.10.20.30.40.5-4-3-2-101234 2-5 正態分布位置變換示意圖 00.10.20.30.40.50.60.70.80.9-6-5-4-3-2-10123456=0.5 =1=2 2-6 正態分布形態變換示意圖 累積面積可通過對概率密度函數累積面積可通過對概率密度函數f(X)積分求得積分求得22()21()2XXF XedX X 軸與正態曲線所夾面積恒等于 1 或 100%; 區間的面積為 68.27%; 區

26、間1.96的面積為 95.00%; 區間2.58的面積為 99.00%。 圖圖2-7 正態曲線面積分布示意圖正態曲線面積分布示意圖 二、標準正態分布二、標準正態分布見見P404405,ZN(0,1)2221( )2ZZZedZ例2-1的130名健康成年男子脈搏資料的均數、標準差分別為:71.32與5.80 (次/分);問在正態分布假定下,脈搏在6575(次/分)之間有多少人?126571.325.807571.32051.09,.63.0,8ZZ 該界值左側面積為0.1379該界值左側面積為0.7357兩者之間的面積為0.73570.1379=0.597860%,即包括60 13078人0 .

27、 00 . 10 . 20 . 30 . 4- 4- 3- 2- 101234Zf ( Z )00.010.020.030.040.050.060.0757606366697275788184Xf(X) 正態分布 標準正態分布一、基本概念一、基本概念第五節第五節 醫學參考值范圍的制定醫學參考值范圍的制定 1.意義:意義:醫學參考值(醫學參考值(reference value)是指包括絕大多數正常人的人體形態、機能和是指包括絕大多數正常人的人體形態、機能和代謝產物等各種生理及生化指標常數,也稱正代謝產物等各種生理及生化指標常數,也稱正常值。常值。 由于存在個體差異,生物醫學數據并非由于存在個體差異,生物醫學數據并非常數而是在一定范圍內波動,故采用醫學參考常數而是在一定范圍內波動,故采用醫學參考值范圍作為判定正常和異常的參考標準,但不值范圍作為判定正常和異常的參考標準,但不是是“金標準金標準”。2.單、雙側問題,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論