




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數值變量資料的統計描述山東大學公共衛生學院劉云霞山東大學公共衛生學院LiuYunxia2統計分析StatisticalAnalysis統計描述StatisticalDescription統計推斷StatisticalInference指用統計指標、統計表或統計圖等方法對資料的分布規律及其數量特征進行描述。指由樣本信息推斷總體特征,包括總體參數的估計和假設檢驗。變量類型(復習)數值變量(numericalvariable)其變量值是定量的,表現為數值大小,多有度量單位。如身高(cm)、體重(kg)等。由數值變量的測定值構成的資料稱為數值變量資料或計量資料。分類變量(categoricalvariable)亦稱定性變量,表現為互不相容的類別或屬性。無序分類變量(unorderedcategoricalvariable):所分類別或屬性之間無程度或順序上的差別。如性別、血型等。有序分類變量(ordinalcategoricalvariable):所分類別或屬性之間有程度或順序上的差別。如尿蛋白化驗結果等。變量類型可根據統計分析的需要進行轉化。山東大學公共衛生學院LiuYunxia3山東大學公共衛生學院LiuYunxia4內容提綱§2.1頻數分布頻數表的概念頻數表的編制方法頻數表的用途
※
頻數分布的特征
※
頻數分布的類型山東大學公共衛生學院LiuYunxia5一、頻數分布表的概念當樣本含量n較大時,為了解樣本中觀察值的分布規律和便于指標計算,可編制頻數分布表,簡稱頻數表(frequencytable)。頻數:對某一隨機現象進行重復觀察,或測量大量個體的某項特征,其中某個或某一組變量值出現的次數。頻數表:將各變量值與其相應的頻數列成表格形式即為頻數表。山東大學公共衛生學院LiuYunxia6二、頻數表的編制數值變量資料的頻數分布
變量的取值為正整數時,如軋鋼工人白細胞中的大單核細胞數:384510135347
……山東大學公共衛生學院LiuYunxia7二、頻數表的編制數值變量資料的頻數分布
山東大學公共衛生學院LiuYunxia8變量的取值是連續的,如身高、體重、血壓等。編制頻數表時需要根據變量的取值范圍將變量值劃分為若干組段,然后再匯總各組段的頻數。具體步驟通過例子加以說明9例2.1某地2004年抽樣調查100名男大學生的身高(cm)山東大學公共衛生學院LiuYunxia頻數表的編制步驟1.找出觀察值中的最大值和最小值,求全距(極差,range)。
本例最大值為183.5,最小值為162.9,全距R=183.5-162.9=20.6(cm)。2.確定組段數和組距,劃分組段。組段數:根據樣本量大小,一般劃分8~15個組段。組距:即每一組段上、下限之差。一般取等距分組,組距取極差的1/10(取整或四舍五入)。劃分組段:各組段是連續的,但不能有交叉和重疊,應使觀察單位分組時“不重不漏”,第一個組段包含最小值,最后一個組段包含最大值。本例取組距(cm),第1個組段下限從162cm開始,第2個組段下限為164cm,……,依次類推,最后一個組段為182~184cm。3.列頻數表,匯總頻數。山東大學公共衛生學院LiuYunxia10山東大學公共衛生學院LiuYunxia11山東大學公共衛生學院LiuYunxia12直方圖(histogram)注意:有些資料因為數據中有特大或特小的數值也可以采用不等組距,如某些食物中毒的潛伏期,大部分在短時間內出現癥狀,只有極少部分的人經過較長的時間后才有反應,這種情況可將后面的一些組段作適當的合并,并可以將最后一個組段以大于某個值表示,以避免出現一些組段頻數為零的情況。對于不等距資料繪制直方圖時,應先將不等距的各組頻數折算成等距頻數,然后再做圖。山東大學公共衛生學院LiuYunxia13三、頻數表的用途頻數表可以揭示資料分布類型和分布特征;便于發現資料中的某些遠離群體的特大或特小值。當樣本含量比較大時,可以各組段的頻率估計概率。作為資料的陳述形式,可代替原始資料,直觀地反映被研究事物的分布特征,又便于作進一步的分析研究。山東大學公共衛生學院LiuYunxia14山東大學公共衛生學院LiuYunxia15圖2-1某地100名18歲男大學生身高的頻數分布山東大學公共衛生學院LiuYunxia16頻數分布的類型對稱分布:指頻數分布的集中位置在中間,左右兩側大致對稱。偏態分布:指頻數分布不對稱,集中位置偏向一側。
集中位置偏向數值小的一側,稱為正偏態分布;集中位置偏向數值大的一側,稱為負偏態分布。
如有害化學物質在正常人體內的分布為正偏態分布;冠心病、大多數惡性腫瘤等慢性病患者的年齡分布為負偏態分布。不同的分布類型應選用不同的統計分析方法。
山東大學公共衛生學院LiuYunxia17對于數值變量資料,應將集中趨勢和離散程度二者結合起來分析其分布規律。
集中趨勢(centraltendency):即身高向中央部分集中,以中等身高居多(172cm
組段),此為集中趨勢。反映集中位置或平均水平。離散趨勢(tendencyofdispersion):由中等身高到較矮或較高的頻數分布逐漸減少,反映了身高的離散程度。頻數分布的特征山東大學公共衛生學院LiuYunxia18山東大學公共衛生學院LiuYunxia1920山東大學公共衛生學院LiuYunxia21該地18歲男大學生身高值出現在172~組段的概率為0.24。集中趨勢的描述
集中趨勢指標反映一組同質觀察值的集中位置或平均水平,常作為一組數據的代表值用于分析和進行組間的比較。
常用指標有算術均數、幾何均數、中位數等,統稱為平均數(average)。離散趨勢的描述
離散趨勢指標反映一組同質觀察值的變異程度。常用指標有全距、四分位數間距、方差和標準差、變異系數。山東大學公共衛生學院LiuYunxia22§2.2數值變量資料的描述性指標一、集中趨勢的描述1.算術均數(arithmeticmean)2.幾何均數(geometricmean)3.中位數(median)山東大學公共衛生學院LiuYunxia231.算術均數算術均數(arithmeticmean),簡稱均數(mean)。定義:指所有觀察值的代數和除以觀察值的個數。符號:樣本均數用表示,總體均數用(miu)表示。計算方法:直接法加權法山東大學公共衛生學院LiuYunxia24適用于樣本含量n較小時。
式中,希臘字母(sigma)表示求和;
為各觀察值;n為樣本含量,即觀察值的個數。
均數---直接法山東大學公共衛生學院LiuYunxia25例2.1某地隨機抽取100名18歲健康男大學生身高(cm)分別為173.6165.8
168.7
173.6
173.7
177.8
180.3
173.1
173.0
172.6……175.5175.9,求平均身高。
適用于頻數表資料或樣本中相同觀察值較多時。
均數---加權法該100名18歲健康男大學生身高的均數為172.70cm。山東大學公共衛生學院LiuYunxia26例2.3計算上例表2-1資料100名男大學生的平均身高。
可見,樣本例數比較多的情況下,加權法與直接法的計算結果相差不大。均數的應用均數用于反映一組同質觀察值的平均水平,應用甚廣。主要適用于對稱分布或偏度不大,特別是正態分布的數值變量資料。山東大學公共衛生學院LiuYunxia27均數的兩個重要特征(1)各離均差的總和等于0,即;(2)離均差平方和小于各觀察值x與任何其它實數a
()之差的平方和,即。山東大學公共衛生學院LiuYunxia28附:公式推導山東大學公共衛生學院LiuYunxia29定義:幾何均數(geometricmean)是指一組觀察值的乘積,再被觀察值個數開方。符號:用G
表示。計算方法:直接法加權法2.幾何均數山東大學公共衛生學院LiuYunxia30幾何均數---計算公式或山東大學公共衛生學院LiuYunxia31直接法:用于樣本含量n較小時。加權法:適用于頻數表資料或樣本中相同觀察值較多時。附:公式推導山東大學公共衛生學院LiuYunxia32附:公式推導山東大學公共衛生學院LiuYunxia33幾何均數的應用幾何均數在醫學研究領域多用于血清學和微生物學中。適用于:
①對數正態分布資料:對數正態分布即變量值的對數呈正態分布,而原始變量為右(正)偏態分布。如健康人群的血鉛含量、發汞含量等。②等比級數資料:觀察值之間呈倍數或近似倍數變化的資料。如醫學實踐中的抗體滴度、平均效價等。山東大學公共衛生學院LiuYunxia34例2.4有6份血清的抗體效價為1:10,1:20,1:40,1:80,1:80,1:160,求其平均效價。幾何均數---直接法該6份血清的平均抗體效價為1:45。山東大學公共衛生學院LiuYunxia35幾何均數---加權法山東大學公共衛生學院LiuYunxia例2.5某地區50名麻疹易感兒童接種麻疹疫苗1個月后,測其血凝抑制抗體滴度,如表2-2中(1)、(2)欄,求平均抗體滴度。36注意:計算幾何均數時觀察值中不能有0;一組觀察值中不能同時有正值和負值。幾何均數---加權法即其血凝抗體滴度的平均滴度為1:57。山東大學公共衛生學院LiuYunxia37定義:中位數(median)是一種位置指標,即將一組觀察值按由小到大的順序排列后位次居中的數值。在全部觀察值中,小于和大于中位數的觀察值個數相等。符號:用M表示。計算方法:直接法頻數表法3.中位數50%50%M山東大學公共衛生學院LiuYunxia38直接法:適用于樣本含量n較小的資料。
n為奇數時,n為偶數時,例2.6某病患者9名,其發病的潛伏期(d)分別為:2,3,3,3,4,5,6,9,16,求發病潛伏期的中位數。
本例n=9,為奇數,故(d)。
中位數---直接法山東大學公共衛生學院LiuYunxia39頻數表法:適用于樣本含量n較大的資料。
計算步驟如下:(1)按所分組段由小到大計算累計頻數和累計頻率;(2)確定中位數所在組段,即累計頻率包含50%的組段;(3)求中位數。
式中,分別為中位數所在組段的下限、組距和頻數;
為小于L的各組段的累計頻數。中位數---頻數表法適用于n較大時山東大學公共衛生學院LiuYunxia40山東大學公共衛生學院LiuYunxia41Mn*50%n*50%iLii中位數頻數表法計算公式圖解fM例2.7某疾病控制中心記錄了199名沙門氏菌屬食物中毒患者發病的潛伏期(表2-3),計算平均發病潛伏期。中位數---頻數表法山東大學公共衛生學院LiuYunxia42中位數的應用中位數不受少數特大或特小值的影響,這一點優于均數。適用于:①偏態分布資料;②頻數分布的一端或兩端無確切數據資料;③分布類型未知或不明的資料。山東大學公共衛生學院LiuYunxia43山東大學公共衛生學院LiuYunxia44均數與中位數的關系山東大學公共衛生學院LiuYunxia45均數與中位數的關系正偏態分布:均數>中位數對稱分布:
均數=中位數負偏態分布:均數<中位數負偏態分布左偏態分布均數<中位數
對稱分布
正偏態分布
均數中位數均數=中位數正偏態分布
均數中位數正偏態分布
均數中位數<正偏態分布右偏態分布
均數附:百分位數百分位數(percentile)用Px表示,0<x<100,是描述一組數據某百分位的位置指標。
Px將全部觀察值分為兩部分,理論上有x%的觀察值比它小,有(100-x)%的觀察值比它大。最常用的百分位數是P50,即中位數。山東大學公共衛生學院LiuYunxia46*百分位數(percentile)應用①與中位數結合應用,描述一組資料在某百分位置上的水平,也可以描述資料的分布特征。如:
M-P5=P95–M時,近似對稱;M-P5<P95–M時,正偏態;
M-P5>P95–M時,負偏態②可用多個百分位數的結合來描述一組觀察值的分布特征,如P25和P75合用時,反映中間50%觀察值的分布情況;③可用于確定非正態分布資料的醫學參考值范圍。注意:應用百分位數,樣本含量要足夠大,否則不宜取靠近兩端的百分位數。山東大學公共衛生學院LiuYunxia47設有n個原始數據從小到大排列,第x百分位數的計算公式為:當nx%帶有小數位時:
當nx%為整數時:*百分位數—直接法例對某醫院細菌性痢疾治愈者的住院天數統計,120名患者的住院天數從小到大排列如下,試求第5百分位數和第99百分位數。
*百分位數—直接法患者:123456789…117118119120住院天數:122233445…40404245(1)n=120,120*5%=6為整數(2)n=120,120*99%=118.8帶有小數,故取整trunc(118.8)=118*百分位數—頻數表法計算公式:
分別為Px所在組段的下限、組距和頻數;
為小于L的各組段的累計頻數。山東大學公共衛生學院LiuYunxia50山東大學公共衛生學院LiuYunxia51例:分別取甲、乙、丙三人每人的耳垂血,然后紅細胞計數,每人數5個計數盤,得結果如下(萬/mm3)二、離散趨勢甲乙丙山東大學公共衛生學院LiuYunxia52離散趨勢山東大學公共衛生學院LiuYunxia53離散趨勢的描述1.全距(range)2.四分位數間距(quartileinterval)3.方差(variance)4.標準差(standarddeviation)5.變異系數(coefficientofvariation)山東大學公共衛生學院LiuYunxia54定義:全距(range,R),亦稱極差。指一組同質觀察值中最大值與最小值之差。反映了個體差異的范圍。
全距大,變異度大;反之,全距小,變異度小。應用:簡單明了。常用于說明傳染病、食物中毒等的最短及最長潛伏期。公式:R=xmax-xmin不足:①僅考慮了最大值與最小值之差
,不能反映組內其它觀察值的變異度;②樣本含量越大,抽到較大或較小觀察值的可能性越大,故全距可能越大。故樣本含量相差懸殊時不宜用全距比較。
1.全距山東大學公共衛生學院LiuYunxia55定義:四分位數間距(quartileinterval,Q)為上四分位數與下四分位數之差(或P75與P25之差)。計算公式:應用:用于描述偏態分布以及分布的一端或兩端無確切數值資料或分布類型未知資料的離散程度。2.四分位數間距QLQMQU25%25%25%25%山東大學公共衛生學院LiuYunxia56意義:Q越大,變異度越大;Q越小,變異度越小。
【四分位數間距包括了一組觀察值的一半,故可把四分位數間距看成是中間50%觀察值的極差。】特點:由于四分位數間距不受兩端個別極大值或極小值的影響,因而較全距穩定,但仍未考慮全部觀察值的變異度。
四分位數間距山東大學公共衛生學院LiuYunxia57離均差:總體中每個觀察值X與總體均數μ的差值離均差之和
離均差平方和
離均差平方和的大小除與變異度有關外,還與變量值的個數N有關。為了消除這一影響,取離均差平方和的均數,稱方差(variance)或均方(meanofsquares)。3.方差山東大學公共衛生學院LiuYunxia58計算公式:總體方差樣本方差n-1為自由度(degreeoffreedom),一般用ν(niu)表示。因方差的度量單位是原度量單位的平方,故計算結果難以解釋。離散程度的描述指標---方差樣本方差用自由度n-1去除!山東大學公共衛生學院LiuYunxia59計算公式:總體標準差樣本標準差4.標準差樣本標準差用自由度n-1去除!山東大學公共衛生學院LiuYunxia60樣本標準差離均差平方和常用SS或lXX
表示。直接法:加權法:求表2-1中100名18歲男大學生身高的標準差。山東大學公共衛生學院LiuYunxia61意義:標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 器械健身課程說課
- 更新理念2024西醫臨床試題及答案
- 深度把握文化產業管理證書考試的試題及答案技巧
- 母豬行為觀察的新方法及其效果試題及答案
- 網絡技術應用場景分析試題及答案
- 財務會計基本問題試題及答案
- 肥城會考試題及答案
- 高效制造母豬飼料策略試題及答案
- 高價值專利的挖掘與保護方法試題及答案
- 美術學院素描試題及答案
- 《教育學》課件 第五章 學校教育制度
- 畢業論文-XXX公司招聘管理的研究
- 單位降薪通知范本
- 中國資本市場發展歷程、問題及前瞻
- 電子病歷系統開發和實施項目可行性分析報告
- 梁思成《千篇一律與千變萬化》(課件)
- 泵車作業安全協議書
- 智能汽車傳感器技術-激光雷達
- 武漢市建設工程施工合同管理辦法暫行
- 急救醫藥箱藥品清單
- 突發性聾診療指南
評論
0/150
提交評論