




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫學統計學
2024/11/112
例11、用某藥治某病,治療1例有效,能說該藥的有效率為100%嗎?2、治療2例都有效,能說該藥的有效率為100%嗎?3、治療10例9例有效,能說90%有效嗎?2024/11/113例2
某醫生用某藥治療胃潰瘍病出血患者107例,有效101例,有效率為94.4%。如果別的醫生也用同樣的藥來治療胃潰瘍病出血患者,其有效率也一定是94.4%嗎?2024/11/114例3
某項關于某種藥物的廣告聲稱:“在服用本制劑的1000名上呼吸道感染的兒童中,有970名兒童在72小時內癥狀消失”,因此推斷此藥治療兒童的上呼吸道感染是非常有效的,可以推廣應用。這項推論正確嗎?生物醫學客觀現象
推斷統計揭示生物醫學客觀總體內在數量規律
描述統計
統計學探索生物醫學數量規律過程1.統計學的基本概念一、定義
醫學統計學:以醫學(臨床醫學、預防醫學、康復醫學)理論與實踐為指導,運用概率論及數理統計的原理和方法,研究醫學資料的搜集、整理和分析的一門應用學科。二、統計工作的內容與步驟:研究設計(臨床試驗設計/實驗室設計/調查設計)收集資料整理資料分析資料基本內容收集資料:注意保證原始數據的可靠性(質量控制)整理資料:(數據的清理、數據的邏輯檢查以及數據庫的維護等)分析資料:(描述性分析、推斷性分析、多元統計分析、數據挖掘)收集資料資料來源:醫療日常工作記錄、醫學科學研究。整理資料
對原始資料進行科學的整理、加工,使資料系統化、條理化,以便進行統計分析。分析資料描述性分析(指標計算、統計圖、表)推斷性分析多元統計分析數據挖掘三、資料的類型:1、定性變量分類變量(名義變量):有序變量(等級變量):
2、定量變量
離散型變量:連續型變量:
2024/11/1114
分類變量:又稱名義變量。其變量值是定性的,表現為互不相容的屬性或類別(沒有大小、強弱、優劣之分)。二分類:如性別、生死、疾病有無;多分類:如A、B、O、AB血型。2024/11/1115
有序變量:又稱等級變量。其變量值具有半定量性質,表現為等級大小或屬性程度(即有大小、強弱、優劣之分)。
例如:
觀察用某藥治療某病患者的療效,以每名患者為觀察單位,結果可分為治愈、顯效、好轉、無效四級。2024/11/1116
定量變量:(measurementdata)其變量值是定量的,表現為數值大小,一般有度量衡等單位。離散性變量:如嬰幼兒的牙齒數,孕婦產前檢查次數等連續性變量:如身高、體重、紅細胞數等2024/11/1117
變量轉化:變量只能由高級向低級轉化
離散型變量常常通過適當的變換或連續性校正后借用連續型變量或有序變量的方法來分析。連續型有序分類二值2024/11/1118
例如:測得5人的WBC(個/m3)數如下:
12345
300060005000800012000
定量變量
過低正常正常正常過高
分類變量
過低1人,正常3人,過高1人
等級變量
正常3人,異常2人
二分類變量2024/11/11191、總體(population
)
:同質個體所構成的全體(大同小異的對象全體)。例如:一個國家的所有成年人某地的所有小學生所有的肺結核患者總體與樣本2024/11/11202、樣本(sample):從研究總體中隨機抽得的有代表性的一部分個體,其實測值的集合。例如:長沙市2002年7歲正常男童中隨機抽取200名,其身高值構成一個樣本2024/11/1121變量(觀察指標、因素等):個體的某項或某些特征例如:身高、體重、性別、血型、反應、療效等同質與變異
變量值:變量的觀察結果例如:身高1.65米;體重52公斤性別女;血型“O”型反應陰性;療效好轉2024/11/1122
同質(homogeneity)
:給個體規定的一些相同性質即大同(主要的容易控制的影響因素相同)
例如:變量為身高,長沙市2002年7歲正常男童即為同質同質基礎:同地區、同年份、同年齡、同為正常男童。2024/11/1123
變異(variation):同質個體變量值間的差異即小異
例如:長沙市2002年7歲正常男童的身高值各不相同原因:已知或未知或難于掌控的因素造成。2024/11/1124統計學的任務:在變異的背景上描述同一總體的同質性,揭示不同總體的異質性。2024/11/1125
為研究同性別、同年齡的中國小學生和日本小學生的平均身高是否不同,分別從兩個總體中各抽取一份樣本,各得一個平均數。數值不同,能不能就此推斷兩國同性別、同年齡小學生的平均身高不等?例如:2024/11/1126
試想:如果再從中國小學生中抽取一份樣本,再得一個平均數。數值與前不同,也許你會說這是同一總體的個體大同小異造成的。那么,日本的那個均數與中國的那個均數不相等,是因為他們“大同小異”?還是因為兩個總體本不相同?分析:2024/11/1127四、參數與統計量
參數(parameter):是統計模型的特征指標,是對總體而言,其大小是客觀存在的,然而往往是未知的,如總體均數(mean)和總體方差(variance);
2024/11/1128統計量(statistic):由觀察資料計算出來的量,如計算觀察樣本中的個體得到的樣本均數,樣本方差。統計學關心的常常是總體參數(總體指標)的大小,其依據卻是統計量及其性質。2.統計表與統計圖一、統計表1、統計表的結構:
標題標目(橫標目、縱標目)線條數字必要的文字說明備注統計表的基本內容:
主語:被研究的事物,置于表左側。謂語:說明主語的各項指標,置于表右側。主語和謂語結合起來構成一個完整的句子。2、統計表的種類:
簡單表復合表3、編制統計表的基本要求:
標題:應有時間、地點、主要內容,重點突出,簡單明了;橫標目與縱標目,即分組標志一般不應多于3個;主謂分明,層次清楚——統計表質量優劣的關鍵所在;數據準確、可靠——根本原則;數字,一律用阿拉伯數字,小數位統一,位數對齊,表內不留空白;線條:上下線及隔開縱橫標目的橫線,兩邊原則上不封口表12-4流行病學有關的主要因素(P139)例:上表的缺點:
標題不夠明確,未注明時間、地點內容繁雜標目設計不合理文字、線條過多表12-5某地1974年鉤端螺旋體病患者發病季節分布修改后的表格表12-6某地1974年鉤端螺旋體病患者發病年齡分布修改后的表格表12-7某地1974年鉤端螺旋體病患者發病職業分布修改后的表格二、統計圖
標題圖域(習慣上長:寬為7:5)標目圖例刻度類型:
直條圖(barchart)百分條圖(percentagechart)圓圖(piechart)普通線圖(linechart)半對數線圖(semi-logarithmiclinearchart)
直方圖(histogram)箱圖(box-whiskerplot)散點圖(scatterchart)頻數表與頻數圖頻數表:用于反映各變量(觀察單位的某種特征)值及其相應頻數之間關系的一類表格。頻數:對一種變量在多個觀察單位中進行多次觀察,其中某一變量值重復出現的次數.不同的資料類型編制頻數表難易程度不同,其中計數資料和等級資料比較簡單,而計量資料相對較繁雜些.。
計量資料頻數表的編制
一般情況下,樣本含量小于30的統計資料無須編制頻數表。對于大樣本的資料,編制頻數表有利于進一步的統計分析、且頻數表本身也具有統計描述的作用。
編制頻數表的步驟編制頻數表步驟流程圖舉例說明計量資料頻數表的編制過程
步驟如下:R=160.8-129.4=31.4。組段數=10;組距=R/10=3.14≈3(cm);按要求確定每一組段上下限。分組統計每一組段的頻數,編制頻數表。計量資料頻數分布表計量資料頻數分布圖
計量資料頻數分布的類型和特征頻數分布表的用途揭示數值變量頻數分布的類型和特征作為陳述資料的形式便于發現一些特大或特小的可疑值便于進一步的統計分析3.統計描述和統計推斷算術均數已知性質相同的數值之和除以數值個數所得的商。適用于對稱分布或正態分布、近似正態分布的資料。在醫學中,同性別正常人的生理、生化指標,如果身高、體重、胸圍、血紅蛋白值等都適合用算術均數。通常用希臘字母μ表示總體算術均數,用表示樣本的算術均數。集中趨勢的統計描述幾何均數
用G表示,是將n個觀察值的乘積開n次方所得的根。適用于數值資料按大小排序后呈倍數關系,近似倍數關系或對數正態分布。3.中位數(median)中位數是將一批數據從小至大排列后位次居中的數據值,符號為M,反映一批觀察值在位次上的平均水平。適用條件:適合各種類型的資料。尤其適合于①偏態分布的資料;②資料有不確定數值;③資料分布不明等。
X1
例:對甲乙2名高血壓患者連續觀察5天,測得的收縮壓分別為:甲患者(mmHg):162145178142186
乙患者(mmHg):164160163159166從列出的數據看,兩人收縮壓的均數幾乎無差別,但甲患者血壓波動比較大。因此描述一組觀察值,除了報告平均水平,還需要有離散或變異的情況。離散趨勢的統計描述
反映數據的離散度(Dispersion)。即個體觀察值的變異程度。常用的指標有:
1.極差(Range)(全距)
2.四分位數間距Quartilerange
3.方差Variance
4.標準差StandardDeviation
5.變異系數CoefficientofVariation
衡量變異程度的指標1.極差(Range)(全距)優點:簡便缺點:1.只利用了兩個極端值
2.n大,R也可能會大
3.不穩定R甲=186-142=44(mmHg)R乙=166-159=7(mmHg)2.百分位數與四分位數間距
Percentileandquartilerange百分位數:數據從小到大排列;在百分尺度下,所占百分比對應的值。記為Px。四分位間距:QR=P75-P25P100(max)P75P50(中位數)P25P0(min)Px3.平均偏差為了利用每一個觀察值信息,計算各觀察值偏離平均數的平均距離。為了避免正負抵消,將每個觀察值與均數之差的絕對值相加,然后取平均,稱作平均偏差(MeanDifference).甲患者:平均偏差=15.52(mmHg)乙患者:平均偏差=2.32(mmHg)說明:甲偏差大,但是用了絕對值,不方便后續使用。平均偏差=3.離均差平方和與方差離均差平方和(SS):計算平均距離,可以不通過取絕對值,而是通過取平方來避免正負抵消。方差(variance):樣本觀察值的離均差平方和的均值。表示一組數據的平均離散情況。4.標準差
標準差(standarddeviation)即方差的正平方根;其單位與原變量的單位相同。標準差的計算盤編號甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合計250025002500126040012510001250250標準差50.9915.817.915.變異系數變異系數(coefficientofvariation,CV)適用條件:①觀察指標單位不同,如身高、體重②同單位資料,但均數相差懸殊均數
標準差變異系數青年男子身高170cm6cm3.5%體重60kg7kg11.7%變異指標小結1.極差較粗,適合于任何分布2.標準差與均數的單位相同,最常用,適合于正態分布和近似正態分布。3.變異系數主要用于單位不同或均數相差懸殊資料4.平均指標和變異指標分別反映資料的不同特征,常配套使用如正態分布:均數、標準差;
偏態分布:中位數、四分位半間距正態分布的通俗概念:把數值變量資料編制頻數表后繪制頻數分布圖(又稱直方圖)。若頻數分布呈現中間為最多,左右兩側基本對稱,越靠近中間頻數越多,離中間越遠,頻數越少,形成一個中間頻數多,兩側頻數逐漸減少且基本對稱的分布,那我們一般認為該數值變量服從或近似服從數學上的正態分布。正態分布的概念正態分布的特征及其面積規律正態分布曲線位于橫軸上方,呈鐘形。正態分布曲線以均數所在處最高,且以均數為中心左右對稱。正態分布曲線由兩個參數決定,即總體均數μ和總體標準差σ。在σ不變的情況下,函數曲線形狀不變,若μ變大時,曲線位置向右移;若變小時,曲線位置向左移,故稱μ為位置參數。在μ不變的情況下,函數曲線位置不變,若σ變大時,曲線形狀變的越來越“胖”和“矮”;若σ變小時,曲線形狀變的越來越“瘦”和“高”,故稱σ為形態參數或變異度參數。通常用N(,2)表示均數為
,標準差為
的正態分布。N(μ,12)、N(μ,22)、N(μ,32)N(μ1
,σ2)、N(μ2
,σ2)
標準正態分布
(standardnormaldistribution)概念:均數為0,方差為1的正態分布稱為標準正態分布,記為N(0,1)。2.概率密度函數:標準正態分布與一般正態分布的關系:
若x~N(,2),對x進行如下變換:
則可證明,u服從標準正態分布,即u~N(0,1)。標準正態變換標準正態離差x~N(,2)u~N(0,1)標準正態變換標準正態分布正態分布的特征及曲線下的面積規律正態分布曲線下的面積有一定的分配規律。通過對密度函數積分我們可以得到正態曲線下與橫軸上所夾的面積為1(或100%)。理論上所有的正態分布曲線下面積分布規律:
±σ:范圍內曲線下的面積占總面積的68.27%;
±1.645σ:范圍內曲線下的面積占總面積的90%;
±1.96σ:
范圍內曲線下的面積占總面積的95%;
±2.58σ:范圍內曲線下的面積占總面積的99%。
-+-1.645
+1.645
-1.96
+1.96
-2.58+2.5815.866%15.866%68.27%5%5%90%2.5%2.5%95%99%0.5%0.5%4.
抽樣誤差與假設檢驗第1節均數抽樣誤差與標準誤假如事先知道某地七歲男童的平均身高為119.41cm。為了估計七歲男童的平均身高(總體均數),研究者從所有符合要求的七歲男童中每次抽取100人,共計抽取了五次。μ=119.41cmσ=4.38cm五次抽樣得到了不同的結果,原因何在?個體變異隨機抽樣不同男童的身高不同每次抽到的人幾乎不同抽樣誤差抽樣誤差的定義定義:由于個體變異的存在,在抽樣研究中產生樣本統計量和總體參數之間的差異,稱為抽樣誤差(samplingerror)。各種參數都有抽樣誤差。抽樣誤差的表現抽樣誤差的表現樣本均數和總體均數間的差別樣本均數和樣本均數間的差別
標準誤的定義標準誤:用于表示均數抽樣誤差大小,也叫樣本均數的標準差,它反映了樣本均數之間的離散程度。樣本均數的標準差稱為樣本均數的標準誤。標準誤表示樣本均數的變異度。
標準誤的計算計算公式為其中,σ為總體標準差,n為抽樣的樣本例數在研究工作時,由于總體標準差常常未知,可以利用樣本標準差近似估計標準誤的計算【例】根據7歲男童的身高資料,在已知總體標準差時,標準誤為4.38/10=0.438cm而若以第一次抽樣的樣本標準差來代替總體標準差,則標準誤為4.45/10=0.445cm標準誤的意義標準誤的意義反映了樣本統計量(樣本均數,樣本率)分布的離散程度,體現了抽樣誤差的大小。標準誤越大,說明樣本統計量(樣本均數,樣本率)的離散程度越大,即用樣本統計量來直接估計總體參數越不可靠。反之亦然。標準誤的大小與標準差有關,在例數n一定時,從標準差大的總體中抽樣,標準誤較大;而當總體一定時,樣本例數越多,標準誤越小。說明我們可以通過增加樣本含量來減少抽樣誤差的大小。標準誤的用途標準誤的用途衡量樣本統計量代表總體參數的可靠性;估計總體參數的可信區間;進行假設檢驗??傮w樣本抽取部分觀察單位
統計量
參數
統計推斷第2節總體均數的估計
如:樣本均數樣本標準差S
樣本率P如:總體均數總體標準差總體率內容:參數估計(estimationofparameters)
包括:點估計與區間估計2.假設檢驗(testofhypothesis)參數估計參數估計的概念參數估計:指用樣本指標(統計量)估計總體指標(參數)。參數估計有點估計(pointestimation)區間估計(intervalestimation)1、點估計
用樣本統計量直接作為總體參數的點估計值,即直接用隨機樣本的樣本均數作為總體均數
的點估計值,用樣本頻率p作為總體概率
的點估計值缺點:沒有考慮抽樣誤差,無法評價其可信度估計值它與真值之間的差距。
可信區間亦稱置信區間(confidenceinterval,CI),是按預先給定的概率估計未知的總體均數(μ)的可能范圍。事先給定的概率(1-α)稱為可信度。常取95%
或99%的可信度(一般取雙側)。2.區間估計總體均數的95%(或99%)可信區間:表示該區間包括總體均數的概率(或可能性)為95%(或99%)第3節假設檢驗的基本思想1.、樣本統計量的差別有兩種可能:(1)完全由抽樣誤差引起,即總體參數相等,稱為差別無統計學意義。(2)除由抽樣誤差引起,還由總體參數的差別引起,即總體參數不等,稱為差別有統計學意義。統計學假設檢驗的目的就是為了識別:是由哪種可能所引起不相等?例:某商家宣稱其新入貨的雞蛋“壞蛋率”為1%。為了對這批雞蛋質量進行判斷(即壞蛋率為1%或高于1%),顧客與商家約定從中隨機抽5個檢查。結果為4個好的,1個壞的。在“壞蛋率”為1%的前提下,5個壞蛋中出現1個或1個以上壞蛋的概率為4.9%(二項分布概率計算)。這種4.9%的概率在一次抽樣中理應出現幾率很小,顧客就會懷疑前提條件(“壞蛋率”為1%)的真實性。這一思維邏輯上升到統計理論是:“小概率時間在一次隨機抽樣中不大可能發生”,如果發生了。。。《衛生統計學》第5版方積乾主編
1、無效假設(nullhypothesis),符號為
H0,記為H0:μ=μ0或μ-μ0=0
2、備擇假設(alternativehypothesis),符號為H1,記為H1:μ≠μ0或μ>μ0或μ<μ02、假設檢驗的兩個假設3、小概率事件
統計學通常規定事件發生的概率等于或小于α
,稱為“小概率事件”,小概率事件,在一次抽樣試驗中幾乎是不可能發生的,如果在一次實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玩具設計的歷史與文化研究考核試卷
- 電池制造的發展趨勢考核試卷
- 碳酸鋇在醫療成像中的應用考核試卷
- 描寫自然風光的初三語文作文
- 鹽類產品標準化生產考核試卷
- 教訓初二語文作文
- 滌綸纖維在土工合成材料中的應用考核試卷
- 畫室衛生維護考核試卷
- 遼寧省大連市五校協作體高一語文上學期期中考試
- 盾構機施工中的隧道工程地質適應性評價系統考核試卷
- 新增現澆樓板結構加固施工方案
- 糖尿病足科普
- 妊娠合并結締組織病
- 狂犬病毒流行病學調查
- 初中主題班會《與不良的行為習慣告別》課件
- GB/T 25085.1-2024道路車輛汽車電纜第1部分:術語和設計指南
- 2024新版《藥品管理法》培訓課件
- 制冷與空調設備運行操作作業安全技術實際操作考試標準
- ···管道巡護方案
- 2024新版(閩教版)三年級英語上冊單詞帶音標
- 浙江省杭州市2024年中考英語真題(含答案)
評論
0/150
提交評論