




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十五章 數值變量的統計分析11頻數分布表與頻數分布圖2集中趨勢的描述3離散趨勢的描述4正態分布和醫學參考值范圍的估計數值變量資料的統計描述 150 名 3 歲女孩身高(cm)資料如下80.1 100.1 97.0 96.7 97.9 100.7 86.2 91.7 94.7 90.8 97.1 95.8 92.5 82.5 102.6 99.1 96.6 99.3 85.2 89.2 90.6 95.1 93.6 93.7 95.1 97.384.4 104.8 101.3 98.7 101.5 87.1 89.0 92.7 96.8 92.7 94.9 99.4 91.187.2 83.5
2、 103.2 101.6 84.4 88.4 91.8 93.6 99.2 94.4 86.4 91.7 88.489.3 84.2 82.3 84.5 87.9 89.4 91.9 94.5 86.9 95.6 96.5 92.5 85.789.1 86.5 85.0 87.6 89.3 90.4 92.1 95.0 89.3 96.3 96.2 94.3 99.591.3 89.7 87.4 89.8 88.7 90.2 92.9 97.2 91.4 90.3 94.2 94.6 96.2一、數值變量資料的頻數分布頻數(frequency)對一組研究對象進行觀察,某變量或變量值出現的次數,
3、就是變量值的個數。 頻數分布:變量在其取值范圍內各組段分布情況。用頻數分布表(簡稱頻數表)、頻數分布圖表示。 反映各變量值與其頻數之間的關系,觀察資料的分布特征和分布類型,為進一步描述奠定基礎。內容 頻數分布表的編制 頻數分布圖 頻數分布的特征 頻數分布的類型 應用 80.1 100.1 97.0 96.7 97.9 100.7 86.2 91.7 94.7 90.8 97.1 95.8 92.5 82.5 102.6 99.1 96.6 99.3 85.2 89.2 90.6 95.1 93.6 93.7 95.1 97.384.4 104.8 101.3 98.7 101.5 87.1 8
4、9.0 92.7 96.8 92.7 94.9 99.4 91.187.2 83.5 103.2 101.6 84.4 88.4 91.8 93.6 99.2 94.4 86.4 91.7 88.489.3 84.2 82.3 84.5 87.9 89.4 91.9 94.5 86.9 95.6 96.5 92.5 85.789.1 86.5 85.0 87.6 89.3 90.4 92.1 95.0 89.3 96.3 96.2 94.3 99.591.3 89.7 87.4 89.8 88.7 90.2 92.9 97.2 91.4 90.3 94.2 94.6 96.2150 名 3 歲
5、女孩身高(cm)資料如下1.計算全距:全距又叫極差(range),以R表示,指數據中最大值與最小值之差,它描述了數據變異的幅度。2.劃分組段:確定組數、組距和上下限。3.列表歸組。本例中最大值為104.8最小值為80.1R=104.880.1=24.7(cm)為了簡化資料組數不宜過多組數也不能太少否則就掩蓋了數據分布的規律一般取815組,最常取10組具體視觀察值個數n的多少而定組距(class interval)即每組間的距離,以i表示i= Rk 即全距組數本例中i =24.710=2.47為了便于分組,可以將 i 取整為2確定了組數和組距就可以劃分組段,每個組段的起點稱“下限”,終點稱“上限
6、”。為避免含混,每個組段包含下限,不包含上限,是個半開半閉區間 : )第一組必包含最小值,最后一組必包括最大值。本例:第一組下限取80,上限=下限+組距=82該值也是第二組的下限,以此類推。本例共劃分13個組段。 以直方圖多見,更直觀了解頻數分布情況。 組距有等距與不等距之分。 不等距是就變量值的劃分而言,直方圖的寬度 始終相等。頻數分布圖圖15-1 某市150名3歲女孩身高的頻數分布年齡(歲) 患者人數 每歲患者人數 年齡(歲)患者人數 每歲患者人數 0 3 3 8 8 8 1 3 3 9 6 6 2 9 9 10 36 3.6 3 11 11 20 13 1.3 4 23 23 30 11
7、 1.1 5 22 22 40 4 0.4 6 11 11 5060 1 0.1 7 14 14某市某年乙腦患者的年齡分布集中趨勢(central tendency)3歲女孩身高雖然有高有矮,但向中間集中,中等身高(92-94cm)的人數最多。離散趨勢(tendency of dispersion)從中等身高向較矮或較高方向頻數逐漸減少,向兩端離散。頻數分布特征頻數分布類型對稱分布(正態分布)偏態分布 偏態分布:頻數分布不對稱,在頻數分布圖上表現為高峰偏向一側,依高峰所在位置又分為正偏態分布和負偏態分布兩種。正偏態分布:高峰偏左側,即在觀察值較小的一端集中了較多的頻數。如:正常人體中某些非必需
8、微量元素的頻數分布。負偏態分布:高峰偏右側,較為少見。238名正常人發汞值(g/g) 的頻數分布發 汞 值 頻 數 累計頻數 累計頻率 (1) (2)(3) (4)=(3)/238 0.3 20 20 8.4 0.7 6686 36.1 1.1 60 146 61.3 1.5 48 194 81.5 1.9 18 212 89.1 2.3 16 228 95.8 2.7 6 234 98.3 3.1 1 235 98.7 3.5 0 235 98.7 3.94.3 3 238 100.0 年齡組 惡性腫瘤死亡率(1/10萬) 0 0.5 10 12 20 15 30 76 40 189 50
9、234 60 386 70 286某地某年惡性腫瘤死亡率的年齡分布 揭示資料的分布特征、分布類型。 便于發現某些特大或特小的可疑值。 便于進一步計算統計學指標。頻數分布表和頻數分布圖的應用 又稱平均數(average),是統計學中應用最廣泛、最重要的一個指標體系。 常用的有算術均數、幾何均數、中位數三個指標。用于描述一組同質計量資料的集中位置或反映一組觀察值的平均水平。二、集中趨勢指標(central tendency)最常用,也簡稱均數(mean)。反映一組數據在數量上的平均水平和在分布圖上的集中位置。總體均數用 表示,樣本均數用 x 表示適用于描述對稱分布、正態分布(或近似正態 分布)資料
10、的集中趨勢。1 算術均數一10名3歲女孩身高(cm)分別為:92.5、82.5、102.6、99.1、96.6、99.3、85.2、89.2、90.6、95.1,求其平均身高。代入公式得:2.加權法(大樣本,一般以頻數表為基礎) f1、f2fk為各組段頻數, X1、 X2 Xk 為各組段組中值,即(本組下限+下組下限)2,k為組數。 表 15-2 某市150名3歲女孩身高均數的加權法計表 組段 頻數 組中值 X fX (1) (2) (3) (4)(2) (3) 80 1 81 8182 3 83 24984 8 85 68086 10 87 870 88 19 89 1691 90 23 9
11、1 209392 26 93 2418 94 24 95 228096 17 97 164998 10 99 990 100 6 101 606102 2 103 206104 106 1 105 105合計 150(f) 13918 (fX)用來描述對數正態分布(呈倍數關系)資料。1.直接法(用于小樣本) 2 幾何均數(geometric mean,G)例2 有5人的血清抗體效價為:1:10,1:100,1:1000,1:10000,1:1000000。求其平均效價? 為計算方便,先求其倒數的平均效價: 5份血清的平均抗體效價為1:1000。2.加權法(用于大樣本、頻數表資料)f1、f2fk
12、 為各組段頻數, X1、 X2 Xk 為倒數,k為組數。 例3 35 人血清抗體滴度見下表,求平均滴度。 代入公式: 得 35 人血清抗體平均滴度為 1:44。抗體滴度 人數f 滴度倒數X lgX flgX (1) (2) (3) (4) (5)=(2) (4) 1:4 2 4 0.6021 1.2042 1:8 5 8 1.9031 4.5155 1:16 6 16 1.2041 7.2246 1:32 2 32 1.5051 3.0102 1:64 7 64 1.8061 12.6434 1:128 10 128 2.1072 21.0720 1:256 1 256 2.4082 2.40
13、82 1:512 2 512 2.7093 5.4186 合計 35 57.4967(flgX)表15-3 平均抗體滴度計算表是將一組變量值從小到大排序后位次居中的變量值。主要用于描述偏態分布資料; 開口資料(一端或兩端無確定數據); 變量值中有個別過大或過小值資料的集中趨勢。3 中位數(median , M)1. 直接法(用于小樣本) n 為奇數時, n 為偶數時,某病患者 5 人的潛伏期(d)從小到大排列為1,3,8,9,15天,求中位數。本例 n=5 為奇數, 例4 某病患者 10 人的潛伏期(d)從小到大排列為1,3,8,9,15,19,20,23, 25,30,求中位數。 此時 n
14、為偶數, 百分位數是一種位置指標,以 PX 表示,即將數據從小到大排列分為100等份:P1、P2P100。 PX 就表示位于X位置的數值。 中位數就是位于50%位置的數值,是百分位數的一個特例。2. 頻數表法LX:第X百分位數所在組下限iX:PX所在組的組距fX:PX所在組的頻數 fL: PX所在組前一組的累計頻數百分位數計算中位數(頻數表法) LM:中位數所在組下限 iM:中位數所在組組距 fM:中位數所在組的頻數 fL:中位數所在組前一組的累計頻數例5 某醫師調查了181名食物中毒患者的潛伏期,見下表,試用中位數反映其平均水平。思路:先判斷中位數在哪一個組段,再用 公式計算。表15-4 1
15、81名食物中毒患者的潛伏期潛伏期(小時) 人數f 累計頻數f 累計頻率() (1) (2) (3) (4)(3)/n 0 30 30 16.57 12 63 93 51.38(16.57+34.81) 24 47 140 77.35 36 20 160 88.40 48 12 172 95.03 60 8 180 99.45 72 84 1 181 100.00本例中位數在第三組段,則L=12,i=12,f=63, fL=30,代入公式得: 先找到包含PX的最小累計頻數; 該累計頻數同行左邊的組段值為L; L同行右邊的頻數為fX(或fm); L前一行的累計頻數為fL; 將上述已知條件代入計算P
16、X或P50。 計算百分位數及中位數技巧: 描述一組同質計量資料離散程度。常用指標有極差、四分位數間距、方差、標準差和變異系數。例 現有3 組健康女大學生口腔溫度測得值,試分析其平均水平和離散趨勢。 1組 36.8 36.9 37.0 37.1 37.2 X1=37.0 2組 36.5 36.9 37.0 37.1 37.5 X2=37.0 3組 36.5 36.7 37.0 37.3 37.5 X3=37.0三、離散趨勢指標怎么才能完整的描述一組資料的特征? 僅用集中趨勢尚不能完全反映一組資料的特征。故應將集中趨勢和離散趨勢結合起來,才能更好地反映一組資料的特征。 優點:易理解易記憶。 缺點:
17、只能反映最大值與最小值的差距,組內其它數的變異反映不出來。 受最大值和最小值的影響,樣本含量相差懸殊時不宜用。 適用范圍:適用于開口資料除外的任何分布資料。1 極差(range,R)又稱全距 是特定的百分位數,把數列分為 100等份,前四分之一變量值比第25百分位數( P25 )小,稱下四分位數,記作QL;后四分之一變量值比第75百分位數( P75 )大,稱上四分位數,記作QU。 四分位數間距= QU QL 2. 四分位數(quartile , Q )LX:第X百分位數所在組下限iX:PX所在組的組距fX:PX所在組的頻數 fL: PX所在組前一組的累計頻數百分位數計算首先求資料的 P25 和
18、 P75由表可見P25 在12 組段,L=12,i=12,f=63, fL=30,代入公式得:P25=同理可知 P75 在24組段,L=24,i=12,f=47, fL=93,代入公式得:P75= 例6 求表15-4數據的四分位數間距表15-4 181名食物中毒患者的潛伏期潛伏期(小時) 人數f 累計頻數f 累計頻率() (1) (2) (3) (4)(3)/n 0 30 30 16.57 12 63 93 51.38 24 47 140 77.35 36 20 160 88.40 48 12 172 95.03 60 8 180 99.45 72 84 1 181 100.00 前面已計算出
19、 P25 = 14.90,P75 = 34.91,代入公式得四分位數間距: QU QL = 34.91 14.90 = 20.01(小時)優點:比極差穩定,誤差較小。缺點:仍未考慮每一個數據的變異。適用范圍:偏態分布資料,特別是分布末端 無確定數據的資料。離均差:離均差平方和:總體方差: 3 方差(variance)53樣本方差: n1 稱自由度(degree of freedom),常用 表示,它描述了當 X 選定時,n個變量值(X )中能自由變動的 X 的個數。 n1_ 54總體標準差:樣本標準差: 加權法:4 標準差(standard deviation)適用條件: 方差與標準差均用于描
20、述對稱分布資料的離散趨勢,尤其是正態分布資料的離散趨勢。例7 5 個 8 歲男孩的體重為:26,28,30,32,34,試求其標準差。例 求表15-2中150名3歲女孩體重的標準差。 表 15-2 某市150名3歲女孩身高均數的加權法計表 組段 頻數 組中值 X fX fX2 (1) (2) (3) (4)(2) (3) (5)=(3)(4)80 1 81 81 656182 3 83 249 2066784 8 85 680 5780086 10 87 870 75690 88 19 89 1691 150499 90 23 91 2093 19046392 26 93 2418 22487
21、4 94 24 95 2280 21660096 17 97 1649 15995398 10 99 990 98010 100 6 101 606 61206102 2 103 206 21218104 106 1 105 105 11025合計 150(f) 13918 (fX) 1294566(fX2) 描述事物變異程度:適用于正態分布資料(或近似正態分布資料)。 衡量均數的代表性:當幾組資料單位相同,均數相差不大時。 標準差大,表示變量值離均數較遠,均數的代表性差; 標準差小,表示變量值密集于均數兩側,均數的代表性好。標準差的應用 標準差與均數共同描述正態分布資料的特征,可用于確定醫學
22、參考值范圍。 計算變異系數和標準誤。 用來比較度量衡單位不同或均數相差懸殊的兩組(或多組)資料的變異程度。公式為:5 變異系數(coefficient of variation , CV) 例8 10名小學生,胸圍 S =3.0cm;背肌力 ,S =2.5kg, 試比較胸圍與背肌力的離散程度。 63胸圍 背肌力 變異指標顯示:背肌力的變異程度大于胸圍。例9 某地 200 名 2 月女嬰的身高均數為 56.9cm,標準差2.3cm;而同年該地 150 名 5 歲女孩的身高均數為109.2cm,標準差3.1cm。比較不同年齡女性的身高的離散程度。2月女嬰身高: 5歲女孩身高:變異系數顯示:2月女嬰
23、身高的離散度大于 5歲女孩身高的離散度。 主要指標 資料類型 X、 S 正態(近似正態)分布資料 G、 lg-1 Slgx 對數正態分布(等比)資料 M、 QU QL 偏態分布、分布不明、分布末端 無確定值資料總結:一正態分布(normal distribution) 也稱高斯分布,是醫學和生物學最常見的連續性分布。如正常人的生理生化指標:身高、體重、紅細胞數、血紅蛋白等。 1、正態分布的圖形四、正態分布和醫學參考值范圍的估計正態分布的曲線函數: 為圓周率: =3.1415926 e為自然對數的底: e=2.71828 為正態總體的均數:它描述了正態分布的集中趨勢位置,又稱為位置參數。 為正態
24、總體的標準差:它描述了正態分布的離散程度,又稱為形狀參數。 為了應用方便,將正態曲線進行 u 轉換 使原來的正態分布變換為=0,=1的標準正態分布(standard normal distribution) , 亦稱 u 分布 , 此時公式化成:標準正態分布 正態曲線在橫軸上方,均數處最高。 以均數為中心,兩側對稱,呈“鐘形”分布。 正態分布有兩個參數: 位置參數 ; 形狀參數 正態分布可表示為 N( ,) 標準正態分布可表示為 N( 0,1) 正態曲線下橫軸上方的面積有一定規律。正態分布特征正態曲線下的面積分布規律 正態分布 標準正態分布 面積(概率)-1+1 -11 68.27%-1.64
25、+1.64 -1.641.64 90.90%-1.96+1.96 -1.961.96 95.00%-2.58 + 2.58 - 2.582.58 99.00% 又稱為正常值,是指正常人的人體形態、功能和代謝產物等各種生理、生化指標的波動范圍。醫學參考值范圍的估計 選擇足夠數量的正常人正常人:不具有對所研究指標有影響因素的人,并不是指沒有任何疾病或一切都正常的人。 對選定人的指標進行測量 確定單、雙側范圍 確定百分數范圍:最常用95%。制定醫學參考值范圍的步驟 資料必須呈正態分布或近似正態分布或經過變量變換可變換成正態分布。否則,應當用其它方法如百分位數法估計醫學正常參考值范圍。應用正態分布理論
26、估計醫學參考值范圍必須注意: 樣本含量必須足夠大,否則估計出的醫學正 常參考值范圍就不夠可靠。 總體必須有明確的定義和范圍。 觀察儀器方法必須統一。正態分布法:正態或近似正態分布資料 雙側界值 單側上限 單側下限 表15-5 常用u值表醫學參考值確定方法(95%) 參考值范圍(%) 單側 雙側 80 0.842 1.282 90 1.282 1.645 95 1.645 1.960 99 1.960 2.576例10 試根據表15-2中150名3歲女孩身高資料,估計該市3歲女孩身高的95%參考值范圍。 83.8101.8cm百分位數法:偏態分布資料(95%) 雙側界限:(P2.5,P97.5)
27、 單側上限:P95 單側下限:P5 表14-6 常用參考值范圍對應得百分位數 Px百分范圍 80 90 95 99 雙側 單側 下限 P20 P10 P5 P1 上限 P80 P90 P95 P99 下限 P10 P5 P2.5 P0.5 上限 P90 P95 P97.5 P99.5 百分位數法:偏態分布資料(95%) 雙側界限:(P2.5,P97.5) 單側上限:P95 單側下限:P5 表15-6 常用參考值范圍對應得百分位數 Px百分范圍 80 90 95 99 雙側 單側 下限 P20 P10 P5 P1 上限 P80 P90 P95 P99 下限 P10 P5 P2.5 P0.5 上限 P90 P95 P97.5 P99.5 例 將某地某年200名正常成年人血鉛含量(ug/100g)資料整理成下表,試估計該市正常成年人血鉛含量的95%參考值范圍。組段 頻數f 累計頻數f 累計頻率()3 47 47 23.59 50 97 48.515 44 141 70.5 21 27 168 84.027 18 186 93.033 5 191 95.539 5 196 98.045 2 198 99.051
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年的苗木購銷合同范本
- 2025梨子購銷合同書范文
- 2025版權轉讓合同協議書范本
- 全民國家安全教育日十周年PT增強安全意識維護國家安全課件下載
- 2025員工勞動合同續簽申請書范文
- 2025保險公司外匯借款合同借款合同
- 2025水泥買賣合同范本水泥買賣合同樣本
- 2025標準商品交易合同范本
- 8.2《做中華傳統美德的踐行者》 課件 2024-2025學年統編版道德與法治七年級下冊
- 2025貸款合同模板
- 2025年高考歷史總復習高中歷史必修二八大專題知識復習提綱
- 2025事業單位考試題庫及答案200題
- 新版《醫療器械經營質量管理規范》(2024)培訓試題及答案
- 健合集團筆試在線測評題
- 大學生創業計劃書word文檔(三篇)
- LY/T 1529-2020普通膠合板生產綜合能耗
- FZ/T 13056-2021滌粘混紡色紡彈力布
- 構圖基礎課件
- 禮儀文書寫作課件
- 20CrMnTi較詳細材料屬性
- 99S203 消防水泵接合器安裝圖集
評論
0/150
提交評論