研究生醫學統計學緒論資料收集和整理課件_第1頁
研究生醫學統計學緒論資料收集和整理課件_第2頁
研究生醫學統計學緒論資料收集和整理課件_第3頁
研究生醫學統計學緒論資料收集和整理課件_第4頁
研究生醫學統計學緒論資料收集和整理課件_第5頁
已閱讀5頁,還剩171頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

醫用統計方法

MedicalStatistics張建軍汕大醫學院預防醫學教研室Telmail:zhangjj@醫用統計方法

MedicalStatistics張建軍1第一節緒論

北京某醫院某大夫使用“烏貝散”

(烏賊骨3錢,白芨3錢,川貝3錢,甘草3錢,共研細末過120目篩,沖服)治療胃潰瘍病出血107例,有效101例,有效率為94.4%別的醫院,其他大夫使用“烏貝散”來治療胃潰瘍病出血,其有效率也一定是94.4%嗎?求置信區間第一節緒論別的醫院,其他大夫2北京某醫院有位老大夫,用“冠心靈”治療冠心病,其對照組用西藥,觀察結果如下表:

表1-1冠心靈與單純西藥療效對比顯效有效無效合計單純西藥925640冠心靈1918542冠心靈是否比單純西藥有效?假設檢驗(testofsignificance),俗稱要算P值。北京某醫院有位老大夫,用“冠心靈”治療冠心病,其對照組3統計有三大特性,用三句話予以簡單的概括:實用性:除了實情,數據能證明一切。豐富性:方法多樣,發展之中。公平性:我們相信上帝,其它人請用數據說話。統計有三大特性,用三句話予以簡單的概括:4一、統計學的重要性Importance定義:統計學(Statistics)是研究數據搜集、整理與分析的科學,是認識社會和自然現象數量特征的重要工具。醫用統計學(MedicalStatistics):運用概率論和數理統計的原理,方法,結合醫學實際,研究數字資料的搜集,整理,分析,推斷的一門學科。一、統計學的重要性Importance定義:統計學(Stat5數學統計學醫學數理統計學醫用統計學醫用數學醫學統計學是交叉學科數學統計學醫學數理統計學醫用統計學醫用數學醫學統計學是交叉學6研究生醫學統計學緒論資料收集和整理課件7研究生醫學統計學緒論資料收集和整理課件8統計學的應用意義(Application):統計學的應用意義(Application):9VaccinatedgroupInfectionrate20%UnvaccinatedgroupInfectionrate10%e.g.EvaluationonanewvaccineVaccinatedgroupUnvaccinatedg10Howcanweconclude?

1.

Reallyeffective?orBychance?

Methodsareneededtodifferentiatethesetwosituations.2.Anybiasinvaccinatedpeople?e.g.age,nutrition,orsocialclass.

Asuitabledesigncanexcludethebias.Howcanweconclude?1.R11統計學發展迅速統計學離不開計算工具的進步:計算機,軟件的發展;SPSS(StatisticsPackageforSocialScience)----StatisticalProductandServiceSolutions,SAS,

Stata,PEMS(PackageforEncyclopediaofMedicalStatistics)統計學發展迅速統計學離不開計算工具的進步:12二、統計學研究的對象objects1、有變異(variation)的事物變異來源各種各樣;是客觀存在的;統計必須在一定數量的觀察基礎上進行。隨機事件(Randomevent):一次試驗結果不確定,在一定數量重復條件下呈現出規律性。2、同質(homogeneity)的事物研究的事物性質基本相同;避免將風馬牛不相及的事物作統計分析;(3mules+2donkeys)/5=?二、統計學研究的對象objects1、有變異(variati131、總體(population):是根據研究目的確定的、同質的全部研究對象中所有觀察單位某種變量值的集合。同質基礎:時間、空間、條件等(1)有限總體(finitepopulation):有限觀察單位(2)無限總體(infinitepopulation):很多為無限總體。三、幾個基本概念basicconcepts1、總體(population):三、幾個基本概念basic14如研究某地2003年健康成年男性的身高(cm),則該地2003年全部健康成年男子的身高構成一個總體。該總體只包括有限個觀察單位,稱為有限總體。有時總體是設想的,是抽象的。例如:研究用某藥治療冠心病患者的療效,其總體的同質基礎是同用該藥治療的冠心病患者,而總體為設想用該藥治療的所有冠心病患者的治療結果,這里沒有確定的時間和空間范圍的限制,因而觀察單位數無限,稱為無限總體。如研究某地2003年健康成年男性的身高(cm),則該地200152、樣本根據隨機化原則從總體中抽取的一定數量(samplesize)的個體,稱為樣本(sample),用樣本信息來推斷總體特征。從總體中抽取部分個體的過程稱為抽樣(sampling)。抽樣必須遵循隨機化原則,即要使總體中每一個體有同等的機會被抽取,這樣的樣本對總體有較好的代表性,能根據其統計量推斷總體特征。(隨機化,足夠樣本含量使樣本具有代表性)2、樣本16樣本的可靠性:總體確定后,使樣本中的每個觀察單位確屬預先確定的同質總體。如:正確診斷,正確分期;規定動物的種屬、原始體重,控制非實驗因素等;抽樣的必要性:無限總體;有限總體:人力、財力、不可能性、不必要性(高血壓病人等)。樣本的可靠性:173、同質同質(homogeneity)是指影響被研究指標的非實驗因素相同。有些影響因素往往是難以控制的、甚至是未知的,如遺傳、營養、心理等。實際中只有相對的同質,即影響被研究指標較大的、可以控制的主要因素盡可能相同。如研究兒童的身高,則要求影響身高這一指標較大的、易控制的因素如性別、年齡、民族、地區要相同,而不能控制的因素,如遺傳、營養等影響因素可以略去。3、同質184、變異(variation,variablility)同質基礎上的各觀察單位(亦稱為個體)之間的差異為變異。如同性別、同年齡、同民族、同地區兒童的身高有高有低,稱為身高的變異。統計學是研究變異的科學。沒有變異就不需要統計學。在醫學研究中,這種變異表現在人與人之間的差異。雖然有時我們感興趣的是變異本身,但更多時候我們試圖找出隱藏在變異背后的規律性。4、變異(variation,variablility)195、參數(parameter)和統計量(statistic)總體的統計指標稱為參數。如:總體均數(μ),總體發病率,總體死亡率,等,樣本的統計指標稱為統計量如:樣本均數(x),樣本發病率,樣本死亡率,等,統計學上用不同的符號表示。5、參數(parameter)和統計量(statistic)206、誤差(error)觀察值與實際值的差異,成為誤差。分為:過失誤差;系統誤差;隨機測量誤差;隨機抽樣誤差;(1)過失誤差(mistakenerror):過失所致的誤差(不認真,錯誤判斷,記錄等原因);(2)系統誤差(systematicerror):儀器未校準所致的誤差(統一偏高,或偏低);這兩類誤差可以避免。6、誤差(error)21(3)隨機測量誤差(randommeasurementerror):不同觀察者或同一觀察者多次觀察值的不相同。這種誤差不可避免。那么,抽樣誤差又怎樣呢?(3)隨機測量誤差(randommeasuremente22(4)抽樣誤差(samplingerror):總體中存在個體變異,抽樣研究中所抽取的樣本,只包含總體中一部分個體,因而樣本均數(或率)往往不等于總體均數(或率),表現為多次抽樣的樣本均數或率不同。這種由抽樣引起的差異稱為抽樣誤差。抽樣誤差愈小,用樣本推斷總體的精確度愈高;反之,其精確度愈低。由于生物的個體變異是客觀存在的,因而抽樣誤差是不可避免的,但抽樣誤差有一定的規律性。(4)抽樣誤差(samplingerror):237、概率(probability)幾率,或然率概率是反映某一事件發生的可能性大小的量,常用符號P表示。Theprobabilityofaneventistheevent’slongrunrelativefrequency(相對頻率)inrepeatedtrialsundersimilarconditions.Itcanbeanyvaluefrom0to1.絕對事件(absoluteevent):概率等于1或0。隨機事件(randomevent):概率在0和1之間。7、概率(probability)幾率,或然率24Probability(概率)

EventA,occursB

timesinCtrials,theratioB/C

iscalledtheprobabilityofA.P(A)=B/C

Probability(概率)25P≤0.05和P≤0.01分別表示事件發生的可能性等于或小于0.05和0.01。習慣上把P≤0.05或0.01的事件稱為小概率事件,表示某事件發生的可能性很小。“小概率事件一次抽樣不可能發生”小概率事件定理P≤0.05和P≤0.01分別表示事件發生的可能性等于或小于26P=1P=0P=0.5RandomEventAbsoluteEventAbsoluteEventP=1P=0P=0.5RandomEventAbsolut278、變量及變量值變量(variable):觀察對象的特征或指標。對變量進行取值所采用的工具或標準成為測量尺度(scale)。測量的結果稱為變量值(valueofvariable)或觀察值(observedvalue,measurements)。如健康成年男性的血壓值:某個人是觀察單位,血壓是變量,千帕是測量尺度,千帕數值為觀察值。也可以將變量定性:性別,職業,等。8、變量及變量值28Sample100SamplingParameters

Statistics

Population50000Withrelativelysamefeatures(homogeneity)butstillvariedamongall(variation)ObservedunitwithProbabilityRepresentative(random,size)InferenceSampleSamplingParametersStat299、隨機化(randomization)使總體中的每個個體有均等的機會成為樣本觀察單位的過程,稱為隨機化。醫學研究從總體中抽出一定數量的樣本進行研究,得出規律,推及總體。為使樣本代表總體,必須縮小抽樣誤差。隨機抽樣旨在避免人的主觀性,讓機遇起作用,以反映總體的客觀情況。隨機不是隨便(freeandeasy,casual)或隨意(adlibitum)。常用:抽簽法,隨機數目表法,計算器隨機數法;9、隨機化(randomization)30單純隨機抽樣(簡單隨機抽樣)最簡單、最基本的抽樣方法從總體N個對象中,利用抽簽或其他隨機方法抽取n個總體中每個對象被抽到的概率相等Simplerandomsampling單純隨機抽樣(簡單隨機抽樣)最簡單、最基本的抽樣方法Sim31研究生醫學統計學緒論資料收集和整理課件32系統抽樣(機械抽樣)

按照一定順序,機械地每隔若干單位抽取一個單位的抽樣方法。將總體各個個體單位按某種標志排列、連續編號根據總體數N和確定的樣本數n,計算抽樣距離(N/n)用單純隨機方法在第一組中確定一個起始號從此起始點開始,每隔K(K=N/n)個單位抽取一個作為研究對象

Systemicsampling系統抽樣(機械抽樣)按照一定順序,機械地每隔若干單位抽取33系統抽樣示意圖系統抽樣示意圖34分層抽樣

將總體單位按某種特征分為若干次級(層),然后從每一層內單純隨機抽樣組成一個樣本。分類按比例分配(proportionalallocation)分層隨機抽樣各層內抽樣比例相同最優分配(optimumallocation)分層隨機抽樣各層抽樣比例不同,內部變異小的層抽樣比例小,內部變異大的層抽樣比例大Stratified

sampling分層抽樣將總體單位按某種特征分為若干次級(層),然后從每35研究生醫學統計學緒論資料收集和整理課件36整群抽樣

將總體分成若干群組,抽取其中部分群組作為觀察單位組成樣本分類單純整群抽樣(Simpleclustersampling)

被抽到的群組中的全部個體均作為調查對象二階段抽樣(Twostagessampling)通過再次抽樣后調查部分個體

Clustersampling整群抽樣將總體分成若干群組,抽取其中部分群組作為觀察單位37研究生醫學統計學緒論資料收集和整理課件38四、正確運用統計學1、統計學是工具杜絕統計無用,統計萬能論點。拓寬醫學研究思路統計學知識----指導課題設計----資料分析單因素----多因素----探討病因----預后單純比較均數----相關、回歸四、正確運用統計學1、統計學是工具392、科研設計科學合理,提高效率運用實驗設計的原則,從動物選擇、分組、指標測定、結果分析等方面達到最優化。統計不能創造規律,只能在一定的限度內,彌補實驗設計的不足。3、采集準確可靠的資料,對資料合理使用,尤其對多因素影響的疾病。2、科研設計科學合理,提高效率404、選擇合適的統計方法進行分析,正確解釋分析結果。統計結論是概率性的,在給出統計結論后,恰當地指出專業意義。避免使用:證明(或類似語氣);一般采用:提示,可以認為等較為客觀。4、選擇合適的統計方法進行分析,正確解釋分析結果。41五、幾點注意事項1、著重理解醫學統計學的基本原理與基本概念,掌握搜集、整理與分析資料的基本知識與技能,常用統計指標與基本統計方法的正確應用。重視原始資料的完整性與可靠性,對數據的處理應持嚴肅、認真和實事求是的科學態度,反對偽造和篡改統計數字。五、幾點注意事項1、著重理解醫學統計學的基本原理與基本概念,422、注意培養科學的統計思維方法如:統計工作步驟間的內在聯系;生物個體差異的客觀存在,抽樣誤差不可避免,因而樣本指標的比較時,不能僅從數字表面大小看問題;統計結論具有概率性的思想;統計檢驗的基本思想;2、注意培養科學的統計思維方法433、必須聯系實際,結合專業,才能學好和用好醫學統計學。如:多聯系醫學文獻和醫學科研工作,評價其統計設計與分析的優缺點。4、對數理統計公式,要理解其意義、用途和應用條件,不必深究其數學推導。3、必須聯系實際,結合專業,才能學好和用好醫學統計學。如:多44統計資料的類型統計工作的基本步驟第二章統計資料的收集和整理

datacollectionanddatasorting統計資料的類型第二章統計資料的收集和整理

45一、資料的類型dataclassification1、根據是否定量劃分:(1)計量資料(measurementdata)用定量方法測量每個觀察單位的某項指標,所得的數值資料為計量資料,亦稱數值變量資料。一般有度量衡單位。如7歲男童的身高(cm)、體重(kg)和血壓(kPa);空氣中CO2濃度(mg/L);常用:平均數,標準差,t檢驗,方差分析,相關與回歸等分析。一、資料的類型dataclassification46研究生醫學統計學緒論資料收集和整理課件47例---配對t檢驗pairedt-test為研究體位對高血壓患者收縮壓的影響,隨機抽取了10名高血壓患者,分別在其坐位10分鐘后和臥位10分鐘后測量其收縮壓,結果見表,試問這兩種體位對患者的收縮壓是否有影響?例---配對t檢驗pairedt-test為研究體位對高48(2)計數資料(enumerationdata)將觀察單位按某種屬性或類別分組,然后清點各組的觀察單位數,為計數資料(亦稱分類變量資料,無序分類資料)。如血型分布,按A、B、O、AB型分組得各血型的人數為計數資料。職業類型:工人,農民,干部,軍人;某單位患流感人數與未患流感人數;某藥治療后痢疾病人的治愈人數與未治愈人數;分屬于各組的觀察單位間有質的差別,不同質的觀察單位不能歸在同一個組內。常用:率、構成比、卡方檢驗等。(2)計數資料(enumerationdata)49例---行列表資料的分析(多個樣本率的比較)用某新藥治療不同類型關節炎的療效,問該藥治療不同類型關節炎的療效是否有差別?例---行列表資料的分析(多個樣本率的比較)用某新藥治療不同50(3)等級資料(rankeddata)將觀察單位按某種屬性的不同程度分組,所得各組的觀察單位數為等級資料,亦稱有序分類資料。具有計數資料的特點,但分組又是按一定順序如由輕到重、由小到大排列。如:臨床療效按控制、顯效、好轉和無效分組所得各組人數。按尿蛋白結果將病人分類,-,+-,+,++人數;常用:率、構成比、秩和檢驗等。(3)等級資料(rankeddata)51例---等級資料的秩和檢驗某醫院用中草藥治療兩種不同類型小兒肺炎的療效,問:該藥對兩種類型肺炎患者的療效是否不同。例---等級資料的秩和檢驗某醫院用中草藥治療兩種不同類型小兒52與計數資料不同:屬性的分組有程度差別,各組大小順序排列;與計量資料不同:每個觀察單位未確切定量,稱為半定量資料。等級資料介于計量資料與計數資料之間。與計數資料不同:屬性的分組有程度差別,各組大小順序排列;53根據分析的需要,三類資料可以相互轉化血紅蛋白含量(計量資料)按正常與異常分組得到各組人數(計數資料)按血紅蛋白多少分五個等級:<6(重度貧血)6(中度貧血)9(輕度貧血)12-16(正常)>16(血紅蛋白增高)得各組人數(等級資料)根據分析的需要,三類資料可以相互轉化血紅蛋白含量(計量資料)542、根據測量的整數之間有無小數劃分(1)連續性資料(continuousdata):測定的整數之間有無限多位小數。如:體重,身高,等大多數計量資料。(2)非連續性資料(discretedata):整數間無任何小數。如:病人數,細胞數,動物死亡數;不同的數據類型間可以根據需要相互轉換;數據類型不同,統計分析方法不同。2、根據測量的整數之間有無小數劃分55二、統計工作的基本步驟即設計(design)、搜集資料(datacollection)、整理資料(datasorting)、分析資料(dataanalysis)。是相互聯系,不可分割的。1、設計(design):制定周密的醫學研究計劃,是關鍵的一步。有調查設計和實驗設計之分。二、統計工作的基本步驟56

(1)調查設計(surveydesign)應用人群調查的方法,發現某些特定的醫學問題。調查設計一般包括專業設計和統計設計。專業設計:指調查要達到的專業目的和要求,解決專業問題。統計設計包括資料搜集、整理與分析過程中的統計設想和科學安排。關于搜集資料的調查計劃,在整個設計中占主要地位,應解決的問題是:(1)調查設計(surveydesign)57A:明確調查目的和指標了解參數,用以說明總體特征。如:某地居民某病患病率、環境中某有害物質的平均濃度;研究現象間的相關聯系,以探索病因。如:環境污染與健康的關系。要把調查目的具體到指標:癌癥死亡率:年齡別,地區別,等指標靈敏度、特異度高。如:細胞學,x光對食管癌。A:明確調查目的和指標58B.確定調查對象和觀察單位調查對象是根據調查目的和指標確定的調查總體的同質范圍;觀察單位是要調查的總體中的個體,可以是:一個人,一個病例,一個家庭,一個集體單位,人次,采樣點,等。B.確定調查對象和觀察單位59C.調查方法可分為普查(census)和非全面調查。普查是將組成總體全部觀察單位加以調查。非全面調查包括典型調查和抽樣調查兩種。典型調查是有意識的選擇好的、中間的或壞的典型來調查,一般多用于社會調查或檢查衛生工作等;抽樣調查是通過隨機抽樣來推測總體特征,在實際工作中應用最多。此外:病例對照研究(case-controlstudy),定群研究(cohortstudy),C.調查方法60D.調查方式直接觀察、采訪、填表和通信四種方式。前兩種調查資料由參加研究的人員直接記錄,質量可靠。后兩種則由被調查者自己填寫,誤差較大,只有在必要時才應用。D.調查方式61E.調查項目和調查表設計把調查項目列成調查表,要精簡明了,必需的項目不要遺漏,無關項目不要列入表內,便于填表人理解和正確填寫。擬訂調查表應注意以下事項:只包括能解決調查任務所必需的問題;只包括那些能得到答復的問題;避免引起被調查者的疑慮;問題答案定義要明確。E.調查項目和調查表設計62F.樣本含量的估計根據研究目的要求、研究對象特點和抽樣方法決定樣本大小。詳細的估計,要根據預試和容許誤差通過公式計算。(第41章,509頁)F.樣本含量的估計63

(2)實驗設計(experimentdesign)實驗設計是實驗研究極其重要的一個環節。醫學實驗的基本要素包括處理因素、受試對象和實驗效應三部分。如:用某種鐵制劑治療缺鐵性貧血患者,觀察血紅蛋白升高情況,該鐵制劑即處理因素,缺鐵性貧血患者即受試對象,血紅蛋白的測量值即實驗效應。(2)實驗設計(experimentdesign)64實驗設計應遵循對照、隨機、重復(即樣本例數)的原則。A、對照:首要原則。“齊同對比”,除了要觀察研究的因素外,實驗組與對照組一切條件應盡量相同,要有完全的可比性,才能排除其他影響因素??瞻讓φ?,試驗對照,安慰劑對照,配對對照,組間對照,實驗設計應遵循對照、隨機、重復(即樣本例數)的原則。65B、隨機化(randomization)如前所述。B、隨機化(randomization)66C、重復(replication)實驗樣本必須夠大,在一次試驗中有充分的重復;如果一批實驗結果可靠,應經得起重復試驗的考驗。決定樣本數(重復性)的因素:處理效果;實驗誤差;抽樣誤差;資料性質;顯著性檢驗要求的水平;實驗結果的可能性;實驗設計的類型;動物實驗:大動物:5-15,中等動物:10-20,小動物:15-30C、重復(replication)672、資料搜集(datacollection)按設計的要求及時取得準確、完整的原始數據。(1)資料來源:(A統計報表B報告卡(單)C日常醫療衛生工作記錄D專題調查或實驗(試驗))A統計報表如疫情報表、醫院工作報表等,這些都是根據國家規定的報告制度,由醫療衛生機構定期逐級上報的。這些報表提供了較全面的居民健康狀況和醫療衛生機構的主要數據,是總結、檢查和制訂衛生工作計劃的重要依據。2、資料搜集(datacollection)68對統計報表的檢查:數字檢查:縱、橫的合計是否吻合。專業邏輯檢查:年齡組、性別組等。確信數據的來源及正確性。應有專業人員填寫。對統計報表的檢查:69B報告卡(單)如傳染病和職業病發病報告卡、腫瘤發病及腫瘤死亡報告卡、出生報告單及死亡報告單等。要做到及時填卡(單),防止漏報。例如,出生后不久即死亡的新生兒要同時填寫出生報告單和死亡報告單。對報告卡的檢查:常有漏報,重報等。報告卡上應有病例、報告人詳細的聯系方法,如電話等。B報告卡(單)70C日常醫療衛生工作記錄如門診病歷、住院病歷、健康檢查記錄、衛生監測記錄等。要做到登記完整、準確。注意事項:不能計算發病率,患病率;不同醫院的記錄,比較時要慎重。醫院病人病種的比例,不能很好代表居民中病種比例。同科室不同時期病人病情會不同。注意標準的一致性。對病情的診斷標準,...C日常醫療衛生工作記錄71D專題調查或實驗(試驗)一般統計報表和醫院病歷資料的內容都有局限性,要做到深入分析往往感到資料不全。經常采用專題調查或實驗(試驗)研究。這些資料的質量高,是理想的統計資料。(2)資料的記錄recording和貯存storage調查表中項目的記錄(自學)。(3)記錄表的目視檢查(checking)(自學)D專題調查或實驗(試驗)723、資料整理(datesorting)資料整理的目的是把雜亂無章的原始資料系統化、條理化,便于進一步計算統計指標和分析。資料整理的過程如下:(1)在資料整理之前將收集到的數據和各種資料進行檢查和核對。補充或剔除,需要很大的耐心。3、資料整理(datesorting)73(2)設計分組A.質量分組:即將觀察單位按其屬性或類別(如性別、職業、疾病分類、婚姻狀況等)歸類分組;B.數量分組:即將觀察單位數值大?。ㄈ缒挲g大小、血壓高低等)分組。兩種分組往往結合使用,一般是在質量分組基礎上進行數量分組。如先按性別分組,再按身高的數值大上分組。按分組要求設計整理表,進行手工匯總(劃記法或分卡法)或用計算機匯總。(2)設計分組74頻數表的繪制頻數分布表(frequencydistributiontable)對資料中各變量值的頻數匯總而成的表格,用來反映各變量值與其頻數間的關系,可以觀察該資料的分布類型。是最基礎的統計描述。例:某市1995年110名7歲男童的身高(cm)。頻數表的繪制75某市1995年110名7歲男童的身高(cm)資料如下,某市1995年110名7歲男童的身高(cm)資料如下,76(1)計算極差:找出觀察值中最大值與最小值,二者之差稱為極差(全距Range)。R表示。本例134.5-110.2=24.3。(1)計算極差:找出觀察值中最大值與最小值,二者之差稱為極差77(2)決定組數(classnumber)、組段(class)、組距(classinterval):組數:原始數據能夠被劃分為不同范圍的個數。根據研究目的及觀察例數確定。不宜過多或過少。組段:變量值的范圍。有上限,下限。組距:相鄰兩組段下限值之差稱為組距,一般取等距,R/組數之商。組距應便于分組。本例:預分為10組,組距:24.3/10=2.43,取2所有組段自上而下、從小到大排列。第一組段包括最小值,最后組段包括最大值。(2)決定組數(classnumber)、組段(class78某市1995年110名7歲男童的身高(cm)某市1995年110名7歲男童的身高(cm)79(3)列表劃記:將原始數據用劃記法(或計算機)做出頻數表,得出各組段的頻數、頻率、累計頻率。注意事項:A:除最后組段除外,組段無上限。B:盡量做到等組距。特殊情況特殊對待。如:年齡,數值差異很大;C:要有頻數、頻率、累計頻率標記。(3)列表劃記:將原始數據用劃記法(或計算機)做出頻數表,得80某市1995年110名7歲男童的身高(cm)頻數表某市1995年110名7歲男童的身高(cm)頻數表81頻數表的用途:(1)揭示頻數的分布特征:兩個重要特征:集中趨勢(centraltendency):數值高低不等,但中等水平的人數最多。離散趨勢(tendencyofdispersion):數值之間參差不齊;逐漸變大(或變?。┑娜藬禎u少。向兩端分散。頻數表的用途:82頻數圖(frequencydiagram):更明顯地揭示兩種趨勢。頻數高峰在中央,兩邊對稱(或基本對稱)地逐漸減少,稱為正態分布(或近似正態分布)。高峰位于左側,正偏態分布;位于右側,負偏態分布。醫學資料多為正偏態。均數-眾數>0,正偏態;均數-眾數<0,負偏態;頻數圖(frequencydiagram):更明顯地揭示兩83身高(cm)某市1995年110名7歲男童的身高分布直方圖身高(cm)84(2)便于發現某些特大或特小的可疑值。如在頻數表的兩端,出現連續幾個組段的頻數為0后,尚有一特大或特小值,使人懷疑是否有測定上的差錯(可疑值)。(3)樣本含量足夠大時,以頻率作為概率的估計值。(4)作為陳述資料的形式。(2)便于發現某些特大或特小的可疑值。如在頻數表的兩端,出現85某市1995年110名7歲男童的身高(cm)頻數表某市1995年110名7歲男童的身高(cm)頻數表864、資料分析(dataanalysis)按設計的要求,根據研究目的和資料的類型,對整理出的基礎數據作進一步的計算分析和統計處理,并用適當的統計圖、表表達(presentation)出來,最后結合專業作出結論。統計描述:計算統計指標,平均值,發病率,統計推斷:推斷總體的特征,4、資料分析(dataanalysis)87謝謝!謝謝!88醫用統計方法

MedicalStatistics張建軍汕大醫學院預防醫學教研室Telmail:zhangjj@醫用統計方法

MedicalStatistics張建軍89第一節緒論

北京某醫院某大夫使用“烏貝散”

(烏賊骨3錢,白芨3錢,川貝3錢,甘草3錢,共研細末過120目篩,沖服)治療胃潰瘍病出血107例,有效101例,有效率為94.4%別的醫院,其他大夫使用“烏貝散”來治療胃潰瘍病出血,其有效率也一定是94.4%嗎?求置信區間第一節緒論別的醫院,其他大夫90北京某醫院有位老大夫,用“冠心靈”治療冠心病,其對照組用西藥,觀察結果如下表:

表1-1冠心靈與單純西藥療效對比顯效有效無效合計單純西藥925640冠心靈1918542冠心靈是否比單純西藥有效?假設檢驗(testofsignificance),俗稱要算P值。北京某醫院有位老大夫,用“冠心靈”治療冠心病,其對照組91統計有三大特性,用三句話予以簡單的概括:實用性:除了實情,數據能證明一切。豐富性:方法多樣,發展之中。公平性:我們相信上帝,其它人請用數據說話。統計有三大特性,用三句話予以簡單的概括:92一、統計學的重要性Importance定義:統計學(Statistics)是研究數據搜集、整理與分析的科學,是認識社會和自然現象數量特征的重要工具。醫用統計學(MedicalStatistics):運用概率論和數理統計的原理,方法,結合醫學實際,研究數字資料的搜集,整理,分析,推斷的一門學科。一、統計學的重要性Importance定義:統計學(Stat93數學統計學醫學數理統計學醫用統計學醫用數學醫學統計學是交叉學科數學統計學醫學數理統計學醫用統計學醫用數學醫學統計學是交叉學94研究生醫學統計學緒論資料收集和整理課件95研究生醫學統計學緒論資料收集和整理課件96統計學的應用意義(Application):統計學的應用意義(Application):97VaccinatedgroupInfectionrate20%UnvaccinatedgroupInfectionrate10%e.g.EvaluationonanewvaccineVaccinatedgroupUnvaccinatedg98Howcanweconclude?

1.

Reallyeffective?orBychance?

Methodsareneededtodifferentiatethesetwosituations.2.Anybiasinvaccinatedpeople?e.g.age,nutrition,orsocialclass.

Asuitabledesigncanexcludethebias.Howcanweconclude?1.R99統計學發展迅速統計學離不開計算工具的進步:計算機,軟件的發展;SPSS(StatisticsPackageforSocialScience)----StatisticalProductandServiceSolutions,SAS,

Stata,PEMS(PackageforEncyclopediaofMedicalStatistics)統計學發展迅速統計學離不開計算工具的進步:100二、統計學研究的對象objects1、有變異(variation)的事物變異來源各種各樣;是客觀存在的;統計必須在一定數量的觀察基礎上進行。隨機事件(Randomevent):一次試驗結果不確定,在一定數量重復條件下呈現出規律性。2、同質(homogeneity)的事物研究的事物性質基本相同;避免將風馬牛不相及的事物作統計分析;(3mules+2donkeys)/5=?二、統計學研究的對象objects1、有變異(variati1011、總體(population):是根據研究目的確定的、同質的全部研究對象中所有觀察單位某種變量值的集合。同質基礎:時間、空間、條件等(1)有限總體(finitepopulation):有限觀察單位(2)無限總體(infinitepopulation):很多為無限總體。三、幾個基本概念basicconcepts1、總體(population):三、幾個基本概念basic102如研究某地2003年健康成年男性的身高(cm),則該地2003年全部健康成年男子的身高構成一個總體。該總體只包括有限個觀察單位,稱為有限總體。有時總體是設想的,是抽象的。例如:研究用某藥治療冠心病患者的療效,其總體的同質基礎是同用該藥治療的冠心病患者,而總體為設想用該藥治療的所有冠心病患者的治療結果,這里沒有確定的時間和空間范圍的限制,因而觀察單位數無限,稱為無限總體。如研究某地2003年健康成年男性的身高(cm),則該地2001032、樣本根據隨機化原則從總體中抽取的一定數量(samplesize)的個體,稱為樣本(sample),用樣本信息來推斷總體特征。從總體中抽取部分個體的過程稱為抽樣(sampling)。抽樣必須遵循隨機化原則,即要使總體中每一個體有同等的機會被抽取,這樣的樣本對總體有較好的代表性,能根據其統計量推斷總體特征。(隨機化,足夠樣本含量使樣本具有代表性)2、樣本104樣本的可靠性:總體確定后,使樣本中的每個觀察單位確屬預先確定的同質總體。如:正確診斷,正確分期;規定動物的種屬、原始體重,控制非實驗因素等;抽樣的必要性:無限總體;有限總體:人力、財力、不可能性、不必要性(高血壓病人等)。樣本的可靠性:1053、同質同質(homogeneity)是指影響被研究指標的非實驗因素相同。有些影響因素往往是難以控制的、甚至是未知的,如遺傳、營養、心理等。實際中只有相對的同質,即影響被研究指標較大的、可以控制的主要因素盡可能相同。如研究兒童的身高,則要求影響身高這一指標較大的、易控制的因素如性別、年齡、民族、地區要相同,而不能控制的因素,如遺傳、營養等影響因素可以略去。3、同質1064、變異(variation,variablility)同質基礎上的各觀察單位(亦稱為個體)之間的差異為變異。如同性別、同年齡、同民族、同地區兒童的身高有高有低,稱為身高的變異。統計學是研究變異的科學。沒有變異就不需要統計學。在醫學研究中,這種變異表現在人與人之間的差異。雖然有時我們感興趣的是變異本身,但更多時候我們試圖找出隱藏在變異背后的規律性。4、變異(variation,variablility)1075、參數(parameter)和統計量(statistic)總體的統計指標稱為參數。如:總體均數(μ),總體發病率,總體死亡率,等,樣本的統計指標稱為統計量如:樣本均數(x),樣本發病率,樣本死亡率,等,統計學上用不同的符號表示。5、參數(parameter)和統計量(statistic)1086、誤差(error)觀察值與實際值的差異,成為誤差。分為:過失誤差;系統誤差;隨機測量誤差;隨機抽樣誤差;(1)過失誤差(mistakenerror):過失所致的誤差(不認真,錯誤判斷,記錄等原因);(2)系統誤差(systematicerror):儀器未校準所致的誤差(統一偏高,或偏低);這兩類誤差可以避免。6、誤差(error)109(3)隨機測量誤差(randommeasurementerror):不同觀察者或同一觀察者多次觀察值的不相同。這種誤差不可避免。那么,抽樣誤差又怎樣呢?(3)隨機測量誤差(randommeasuremente110(4)抽樣誤差(samplingerror):總體中存在個體變異,抽樣研究中所抽取的樣本,只包含總體中一部分個體,因而樣本均數(或率)往往不等于總體均數(或率),表現為多次抽樣的樣本均數或率不同。這種由抽樣引起的差異稱為抽樣誤差。抽樣誤差愈小,用樣本推斷總體的精確度愈高;反之,其精確度愈低。由于生物的個體變異是客觀存在的,因而抽樣誤差是不可避免的,但抽樣誤差有一定的規律性。(4)抽樣誤差(samplingerror):1117、概率(probability)幾率,或然率概率是反映某一事件發生的可能性大小的量,常用符號P表示。Theprobabilityofaneventistheevent’slongrunrelativefrequency(相對頻率)inrepeatedtrialsundersimilarconditions.Itcanbeanyvaluefrom0to1.絕對事件(absoluteevent):概率等于1或0。隨機事件(randomevent):概率在0和1之間。7、概率(probability)幾率,或然率112Probability(概率)

EventA,occursB

timesinCtrials,theratioB/C

iscalledtheprobabilityofA.P(A)=B/C

Probability(概率)113P≤0.05和P≤0.01分別表示事件發生的可能性等于或小于0.05和0.01。習慣上把P≤0.05或0.01的事件稱為小概率事件,表示某事件發生的可能性很小。“小概率事件一次抽樣不可能發生”小概率事件定理P≤0.05和P≤0.01分別表示事件發生的可能性等于或小于114P=1P=0P=0.5RandomEventAbsoluteEventAbsoluteEventP=1P=0P=0.5RandomEventAbsolut1158、變量及變量值變量(variable):觀察對象的特征或指標。對變量進行取值所采用的工具或標準成為測量尺度(scale)。測量的結果稱為變量值(valueofvariable)或觀察值(observedvalue,measurements)。如健康成年男性的血壓值:某個人是觀察單位,血壓是變量,千帕是測量尺度,千帕數值為觀察值。也可以將變量定性:性別,職業,等。8、變量及變量值116Sample100SamplingParameters

Statistics

Population50000Withrelativelysamefeatures(homogeneity)butstillvariedamongall(variation)ObservedunitwithProbabilityRepresentative(random,size)InferenceSampleSamplingParametersStat1179、隨機化(randomization)使總體中的每個個體有均等的機會成為樣本觀察單位的過程,稱為隨機化。醫學研究從總體中抽出一定數量的樣本進行研究,得出規律,推及總體。為使樣本代表總體,必須縮小抽樣誤差。隨機抽樣旨在避免人的主觀性,讓機遇起作用,以反映總體的客觀情況。隨機不是隨便(freeandeasy,casual)或隨意(adlibitum)。常用:抽簽法,隨機數目表法,計算器隨機數法;9、隨機化(randomization)118單純隨機抽樣(簡單隨機抽樣)最簡單、最基本的抽樣方法從總體N個對象中,利用抽簽或其他隨機方法抽取n個總體中每個對象被抽到的概率相等Simplerandomsampling單純隨機抽樣(簡單隨機抽樣)最簡單、最基本的抽樣方法Sim119研究生醫學統計學緒論資料收集和整理課件120系統抽樣(機械抽樣)

按照一定順序,機械地每隔若干單位抽取一個單位的抽樣方法。將總體各個個體單位按某種標志排列、連續編號根據總體數N和確定的樣本數n,計算抽樣距離(N/n)用單純隨機方法在第一組中確定一個起始號從此起始點開始,每隔K(K=N/n)個單位抽取一個作為研究對象

Systemicsampling系統抽樣(機械抽樣)按照一定順序,機械地每隔若干單位抽取121系統抽樣示意圖系統抽樣示意圖122分層抽樣

將總體單位按某種特征分為若干次級(層),然后從每一層內單純隨機抽樣組成一個樣本。分類按比例分配(proportionalallocation)分層隨機抽樣各層內抽樣比例相同最優分配(optimumallocation)分層隨機抽樣各層抽樣比例不同,內部變異小的層抽樣比例小,內部變異大的層抽樣比例大Stratified

sampling分層抽樣將總體單位按某種特征分為若干次級(層),然后從每123研究生醫學統計學緒論資料收集和整理課件124整群抽樣

將總體分成若干群組,抽取其中部分群組作為觀察單位組成樣本分類單純整群抽樣(Simpleclustersampling)

被抽到的群組中的全部個體均作為調查對象二階段抽樣(Twostagessampling)通過再次抽樣后調查部分個體

Clustersampling整群抽樣將總體分成若干群組,抽取其中部分群組作為觀察單位125研究生醫學統計學緒論資料收集和整理課件126四、正確運用統計學1、統計學是工具杜絕統計無用,統計萬能論點。拓寬醫學研究思路統計學知識----指導課題設計----資料分析單因素----多因素----探討病因----預后單純比較均數----相關、回歸四、正確運用統計學1、統計學是工具1272、科研設計科學合理,提高效率運用實驗設計的原則,從動物選擇、分組、指標測定、結果分析等方面達到最優化。統計不能創造規律,只能在一定的限度內,彌補實驗設計的不足。3、采集準確可靠的資料,對資料合理使用,尤其對多因素影響的疾病。2、科研設計科學合理,提高效率1284、選擇合適的統計方法進行分析,正確解釋分析結果。統計結論是概率性的,在給出統計結論后,恰當地指出專業意義。避免使用:證明(或類似語氣);一般采用:提示,可以認為等較為客觀。4、選擇合適的統計方法進行分析,正確解釋分析結果。129五、幾點注意事項1、著重理解醫學統計學的基本原理與基本概念,掌握搜集、整理與分析資料的基本知識與技能,常用統計指標與基本統計方法的正確應用。重視原始資料的完整性與可靠性,對數據的處理應持嚴肅、認真和實事求是的科學態度,反對偽造和篡改統計數字。五、幾點注意事項1、著重理解醫學統計學的基本原理與基本概念,1302、注意培養科學的統計思維方法如:統計工作步驟間的內在聯系;生物個體差異的客觀存在,抽樣誤差不可避免,因而樣本指標的比較時,不能僅從數字表面大小看問題;統計結論具有概率性的思想;統計檢驗的基本思想;2、注意培養科學的統計思維方法1313、必須聯系實際,結合專業,才能學好和用好醫學統計學。如:多聯系醫學文獻和醫學科研工作,評價其統計設計與分析的優缺點。4、對數理統計公式,要理解其意義、用途和應用條件,不必深究其數學推導。3、必須聯系實際,結合專業,才能學好和用好醫學統計學。如:多132統計資料的類型統計工作的基本步驟第二章統計資料的收集和整理

datacollectionanddatasorting統計資料的類型第二章統計資料的收集和整理

133一、資料的類型dataclassification1、根據是否定量劃分:(1)計量資料(measurementdata)用定量方法測量每個觀察單位的某項指標,所得的數值資料為計量資料,亦稱數值變量資料。一般有度量衡單位。如7歲男童的身高(cm)、體重(kg)和血壓(kPa);空氣中CO2濃度(mg/L);常用:平均數,標準差,t檢驗,方差分析,相關與回歸等分析。一、資料的類型dataclassification134研究生醫學統計學緒論資料收集和整理課件135例---配對t檢驗pairedt-test為研究體位對高血壓患者收縮壓的影響,隨機抽取了10名高血壓患者,分別在其坐位10分鐘后和臥位10分鐘后測量其收縮壓,結果見表,試問這兩種體位對患者的收縮壓是否有影響?例---配對t檢驗pairedt-test為研究體位對高136(2)計數資料(enumerationdata)將觀察單位按某種屬性或類別分組,然后清點各組的觀察單位數,為計數資料(亦稱分類變量資料,無序分類資料)。如血型分布,按A、B、O、AB型分組得各血型的人數為計數資料。職業類型:工人,農民,干部,軍人;某單位患流感人數與未患流感人數;某藥治療后痢疾病人的治愈人數與未治愈人數;分屬于各組的觀察單位間有質的差別,不同質的觀察單位不能歸在同一個組內。常用:率、構成比、卡方檢驗等。(2)計數資料(enumerationdata)137例---行列表資料的分析(多個樣本率的比較)用某新藥治療不同類型關節炎的療效,問該藥治療不同類型關節炎的療效是否有差別?例---行列表資料的分析(多個樣本率的比較)用某新藥治療不同138(3)等級資料(rankeddata)將觀察單位按某種屬性的不同程度分組,所得各組的觀察單位數為等級資料,亦稱有序分類資料。具有計數資料的特點,但分組又是按一定順序如由輕到重、由小到大排列。如:臨床療效按控制、顯效、好轉和無效分組所得各組人數。按尿蛋白結果將病人分類,-,+-,+,++人數;常用:率、構成比、秩和檢驗等。(3)等級資料(rankeddata)139例---等級資料的秩和檢驗某醫院用中草藥治療兩種不同類型小兒肺炎的療效,問:該藥對兩種類型肺炎患者的療效是否不同。例---等級資料的秩和檢驗某醫院用中草藥治療兩種不同類型小兒140與計數資料不同:屬性的分組有程度差別,各組大小順序排列;與計量資料不同:每個觀察單位未確切定量,稱為半定量資料。等級資料介于計量資料與計數資料之間。與計數資料不同:屬性的分組有程度差別,各組大小順序排列;141根據分析的需要,三類資料可以相互轉化血紅蛋白含量(計量資料)按正常與異常分組得到各組人數(計數資料)按血紅蛋白多少分五個等級:<6(重度貧血)6(中度貧血)9(輕度貧血)12-16(正常)>16(血紅蛋白增高)得各組人數(等級資料)根據分析的需要,三類資料可以相互轉化血紅蛋白含量(計量資料)1422、根據測量的整數之間有無小數劃分(1)連續性資料(continuousdata):測定的整數之間有無限多位小數。如:體重,身高,等大多數計量資料。(2)非連續性資料(discretedata):整數間無任何小數。如:病人數,細胞數,動物死亡數;不同的數據類型間可以根據需要相互轉換;數據類型不同,統計分析方法不同。2、根據測量的整數之間有無小數劃分143二、統計工作的基本步驟即設計(design)、搜集資料(datacollection)、整理資料(datasorting)、分析資料(dataanalysis)。是相互聯系,不可分割的。1、設計(design):制定周密的醫學研究計劃,是關鍵的一步。有調查設計和實驗設計之分。二、統計工作的基本步驟144

(1)調查設計(surveydesign)應用人群調查的方法,發現某些特定的醫學問題。調查設計一般包括專業設計和統計設計。專業設計:指調查要達到的專業目的和要求,解決專業問題。統計設計包括資料搜集、整理與分析過程中的統計設想和科學安排。關于搜集資料的調查計劃,在整個設計中占主要地位,應解決的問題是:(1)調查設計(surveydesign)145A:明確調查目的和指標了解參數,用以說明總體特征。如:某地居民某病患病率、環境中某有害物質的平均濃度;研究現象間的相關聯系,以探索病因。如:環境污染與健康的關系。要把調查目的具體到指標:癌癥死亡率:年齡別,地區別,等指標靈敏度、特異度高。如:細胞學,x光對食管癌。A:明確調查目的和指標146B.確定調查對象和觀察單位調查對象是根據調查目的和指標確定的調查總體的同質范圍;觀察單位是要調查的總體中的個體,可以是:一個人,一個病例,一個家庭,一個集體單位,人次,采樣點,等。B.確定調查對象和觀察單位147C.調查方法可分為普查(census)和非全面調查。普查是將組成總體全部觀察單位加以調查。非全面調查包括典型調查和抽樣調查兩種。典型調查是有意識的選擇好的、中間的或壞的典型來調查,一般多用于社會調查或檢查衛生工作等;抽樣調查是通過隨機抽樣來推測總體特征,在實際工作中應用最多。此外:病例對照研究(case-controlstudy),定群研究(cohortstudy),C.調查方法148D.調查方式直接觀察、采訪、填表和通信四種方式。前兩種調查資料由參加研究的人員直接記錄,質量可靠。后兩種則由被調查者自己填寫,誤差較大,只有在必要時才應用。D.調查方式149E.調查項目和調查表設計把調查項目列成調查表,要精簡明了,必需的項目不要遺漏,無關項目不要列入表內,便于填表人理解和正確填寫。擬訂調查表應注意以下事項:只包括能解決調查任務所必需的問題;只包括那些能得到答復的問題;避免引起被調查者的疑慮;問題答案定義要明確。E.調查項目和調查表設計150F.樣本含量的估計根據研究目的要求、研究對象特點和抽樣方法決定樣本大小。詳細的估計,要根據預試和容許誤差通過公式計算。(第41章,509頁)F.樣本含量的估計151

(2)實驗設計(experimentdesign)實驗設計是實驗研究極其重要的一個環節。醫學實驗的基本要素包括處理因素、受試對象和實驗效應三部分。如:用某種鐵制劑治療缺鐵性貧血患者,觀察血紅蛋白升高情況,該鐵制劑即處理因素,缺鐵性貧血患者即受試對象,血紅蛋白的測量值即實驗效應。(2)實驗設計(experimentdesign)152實驗設計應遵循對照、隨機、重復(即樣本例數)的原則。A、對照:首要原則。“齊同對比”,除了要觀察研究的因素外,實驗組與對照組一切條件應盡量相同,要有完全的可比性,才能排除其他影響因素。空白對照,試驗對照,安慰劑對照,配對對照,組間對照,實驗設計應遵循對照、隨機、重復(即樣本例數)的原則。153B、隨機化(randomization)如前所述。B、隨機化(randomization)154C、重復(replication)實驗樣本必須夠大,在一次試驗中有充分的重復;如果一批實驗結果可靠,應經得起重復試驗的考驗。決定樣本數(重復性)的因素:處理效果;實驗誤差;抽樣誤差;資料性質;顯著性檢驗要求的水平;實驗結果的可能性;實驗設計的類型;動物實驗:大動物:5-15,中等動物:10-20,小動物:15-30C、重復(replication)1552、資料搜集(datacollection)按設計的要求及時取得準確、完整的原始數據。(1)資料來源:(A統計報表B報告卡(單)C日常醫療衛生工作記錄D專題調查或實驗(試驗))A統計報表如疫情

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論