




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
衛生統計學HealthStatisticsLI2023/10/4《衛生統計學》網上教案2第一章緒論2第一節衛生統計學的定義和內容3第二節統計工作的步驟4第三節統計學中的幾個根本概念5第四節學習衛生統計學應注意的問題8第二章定量資料的統計描述8第一節數值變量資料的頻數表8第二節集中趨勢的統計描述指標10第三節離散程度的統計描述指標12第三章正態分布及其應用14第一節正態分布的概念和特征14第二節正態分布的應用16第四章總體均數的估計和假設檢驗18第一節抽樣研究與抽樣誤差18第二節t分布21第三節總體均數的估計23第四節假設檢驗的根本步驟24第五節樣本與總體比擬的假設檢驗26第六節配對設計〔paireddesign〕資料的假設檢驗27第七節兩樣本比擬的假設檢驗28第八節第一類錯誤與第二類錯誤29第五章方差分析30第一節方差分析的根本思想31第二節完全隨機設計的單因素方差分析〔one-wayANOVA〕34第三節隨機區組設計的兩因素方差分析〔two-wayANOVA〕36第四節多個樣本均數間的多重比擬39第五節多個樣本的方差齊性檢驗43第六節變量變換44第六章定性資料的統計描述45第七章二項分布與Poisson分布及其應用48第一節二項分布的概念與特征48第二節二項分布的應用51第三節Poisson分布的概念與特征52第四節Poisson分布的應用55第八章2檢驗58第一節四格表資料的2檢驗58第二節配對四格表資料的2檢驗60第三節四格表資料的Fisher確切概率法62第四節行×列表資料的2檢驗64第五節多個樣本率比擬的2分割法65第六節頻數分布擬合優度的2檢驗69第九章秩和檢驗70第一節配對設計和單樣本資料的符號秩和檢驗71第二節完全隨機化設計兩獨立樣本的秩和檢驗73第三節完全隨機化設計多組獨立樣本的秩和檢驗74第四節隨機化區組設計資料的秩和檢驗75第五節多個樣本間的多重比擬77第六節小結80第十章直線回歸與相關81第一節直線回歸81第二節直線相關分析90第三節等級相關94第四節曲線擬合96第十二章統計表和統計圖99第十三章實驗設計105第一節實驗設計的特點及分類106第二節實驗設計的根本要素106第三節實驗設計的根本原那么109第四節常用的實驗設計方法123第十四章調查設計131第一節調查研究的特點131第二節調查設計的根本原那么與內容132第三節常用的抽樣方法134第四節調查的質量控制134第十五章醫學人口統計學與疾病統計常用指標135第一節醫學人口統計常用指標135第二節疾病統計常用指標140第一章緒論學時分配:2學時掌握內容:1、衛生統計學的定義2、統計工作的步驟3、統計學中的幾個根本概念4、學習衛生統計學應注意的問題了解內容:衛生統計學的內容第一節衛生統計學的定義和內容1、衛生統計學的定義統計學〔statistics〕是研究數據的收集、整理和分析的一門科學,幫助人們分析所占有的信息,到達去偽存真、去粗取精、正確認識世界的一種重要手段。衛生統計學〔healthstatistics〕是應用數統計學的原理與方法研究居民健康狀況以及衛生效勞領域中數據的收集、整理和分析的一門科學。Webster國際大辭典〔第三版〕對統計學的定義是“asciencedealingwiththecollection,analysis,interpretationandpresentationofnumericaldata〞。LastJM主編的一本流行病學辭典對統計學的定義是“thescienceandartofdealingwithvariationindatathroughcollection,classificationandanalysisinsuchawayastoobtainreliableresults〞。由此看出:統計學是處理資料中變異性的科學和藝術,是在收集、歸類、分析和解釋大量數據的過程中獲取可靠結果的一門學科。這里強調了“過程〞,但在實際工作中,許多人往往是忽略了設計、收集和歸類〔整理〕,到了分析數據時才想到統計學,此時難免發生“悔之晚矣〞的憾事。作為統計學的應用者應充分認識到這一點。2、衛生統計學的內容:1〕健康統計:醫學人口統計、疾病統計和生長發育統計等;2〕衛生效勞統計:包括衛生資源利用、醫療衛生效勞的需求、醫療保健體制改革等方面的統計學問題。本教材的主要內容為:1〕衛生統計學的根本原理和方法:包括統計描述〔定量資料和分類資料的描述性指標以及常用統計圖表〕、常見的理論分布及其應用〔正態分布、二項分布與Poisson分布〕、總體參數的估計〔分總體均數、總體率和總體平均數〕、假設檢驗〔t檢驗、u檢驗、方差分析、χ2檢驗、秩和檢驗等〕、回歸與相關、多元線性回歸與logistic回歸、實驗設計和調查設計〔第2~第14章〕;2〕健康統計:醫學人口與疾病統計中常用的指標〔第15章〕、壽命表〔第16章〕、生存率分析〔第17章〕;3〕常用的綜合評價方法〔第18章〕。第二節統計工作的步驟統計學對統計工作的全過程起指導作用,任何統計工作和統計研究的全過程都可分為以下四個步驟:1、設計〔design〕:在進行統計工作和研究工作之前必須有一個周密的設計。設計是在廣泛查閱文獻、全面了解現狀、充分征詢意見的根底上,對將要進行的研究工作所做的全面設想。其內容包括:明確研究目的和研究假說,確定觀察對象、觀察單位、樣本含量和抽樣方法,擬定研究方案、預期分析指標、誤差控制措施、進度與費用等。設計是整個研究工作中最關鍵的一環,也是指導以后工作的依據〔詳見第13、14章〕。2、收集資料〔collection〕:遵循統計學原理采取必要措施得到準確可靠的原始資料。及時、準確、完整是收集統計資料的根本原那么。衛生工作中的統計資料主要來自以下三個方面:①統計報表:是由國家統一設計,有關醫療衛生機構定期逐級上報,提供居民健康狀況和醫療衛生機構工作的主要數據,是制定衛生工作方案與措施、檢查與總結工作的依據。如法定傳染病報表,職業病報表,醫院工作報表等。②經常性工作記錄:如衛生監測記錄、健康檢查記錄等。③專題調查或實驗。3、整理資料〔sortingdata〕:收集來的資料在整理之前稱為原始資料,原始資料通常是一堆雜亂無章的數據。整理資料的目的就是通過科學的分組和歸納,使原始資料系統化、條理化,便于進一步計算統計指標和分析。其過程是:首先對原始資料進行準確性審查〔邏輯審查與技術審查〕和完整性審查;再擬定整理表,按照“同質者合并,非同質者分開〞的原那么對資料進行質量分組,并在同質根底上根據數值大小進行數量分組;最后匯總歸納。4、分析資料〔analysisofdata〕:其目的是計算有關指標,反映數據的綜合特征,說明事物的內在聯系和規律。統計分析包括統計描述〔descriptivestatistics〕和統計推斷〔inferentialstatistics〕。前者是用統計指標與統計圖〔表〕等方法對樣本資料的數量特征及其分布規律進行描述〔詳見第2、6、12章〕;后者是指如何抽樣,以及如何用樣本信息推斷總體特征〔詳見第4、5、7、8、9、10、11、17、18章〕。進行資料分析時,需根據研究目的、設計類型和資料類型選擇恰當的描述性指標和統計推斷方法。統計工作的四個步驟緊密相連、不可分割,任何一步的缺陷,都將影響整個研究結果。第三節統計學中的幾個根本概念1、同質〔homogeneity〕與變異〔variation〕嚴格地講,同質是指被研究指標的影響因素完全相同。但在醫學研究中,有些影響因素往往是難以控制的〔如遺傳、營養等〕,甚至是未知的。所以,在統計學中常把同質理解為對研究指標影響較大的、可以控制的主要因素盡可能相同。例如研究兒童的身高時,要求性別、年齡、民族、地區等影響身高較大的、易控制的因素要相同,而不易控制的遺傳、營養等影響因素可以忽略。同質根底上的個體差異稱為變異。如同性別、同年齡、同民族、同地區的健康兒童的身高、體重不盡相同。事實上,客觀世界充滿了變異,生物醫學領域更是如此。哪里有變異,哪里就需要統計學。假設所研究的同質群體中所有個體一模一樣,只需觀察任一個體即可,無須進行統計研究。2、總體〔population〕與樣本〔sample〕任何統計研究都必須首先確定觀察單位〔observedunit〕,亦稱個體〔individual〕。觀察單位是統計研究中最根本的單位,可以是一個人、一個家庭、一個地區、一個樣品、一個采樣點等。總體是根據研究目確實定的同質觀察單位的全體,或者說,是同質的所有觀察單位某種觀察值〔變量值〕的集合。例如欲研究山東省2002年7歲健康男孩的身高,那么,觀察對象是山東省2002年的7歲健康男孩,觀察單位是每個7歲健康男孩,變量是身高,變量值〔觀察值〕是身高測量值,那么山東省2002年全體7歲健康男孩的身高值構成一個總體。它的同質根底是同地區、同年份、同性別、同為健康兒童。總體又分為有限總體〔finitepopulation〕和無限總體〔infinitepopulation〕。有限總體是指在某特定的時間與空間范圍內,同質研究對象的所有觀察單位的某變量值的個數為有限個,如上例;無限總體是抽象的,無時間和空間的限制,觀察單位數是無限的,如研究碘鹽對缺碘性甲狀腺病的防治效果,該總體的同質根底是缺碘性甲狀腺病患者,同用碘鹽防治;該總體應包括已使用和設想使用碘鹽防治的所有缺碘性甲狀腺病患者的防治效果,沒有時間和空間范圍的限制,因而觀察單位數無限,該總體為無限總體。在實際工作中,所要研究的總體無論是有限的還是無限的,通常都是采用抽樣研究。樣本是按照隨機化原那么,從總體中抽取的有代表性的局部觀察單位的變量值的集合。如從上例的有限總體〔山東省2002年7歲健康男孩〕中,按照隨機化原那么抽取100名7歲健康男孩,他們的身高值即為樣本。從總體中抽取樣本的過程為抽樣,抽樣方法有多種,詳見第14章。抽樣研究的目的是用樣本信息推斷總體特征。統計學好比是總體與樣本間的橋梁,能幫助人們設計與實施如何從總體中科學地抽取樣本,使樣本中的觀察單位數〔亦稱樣本含量,samplesize〕恰當,信息豐富,代表性好;能幫助人們挖掘樣本中的信息,推斷總體的規律性。3、資料〔data〕與變量〔variable〕及其分類總體確定之后,研究者應對每個觀察單位的某項特征進行測量或觀察,特征稱為變量。如“身高〞、“體重〞、“性別〞、“血型〞、“療效〞等。變量的測定值或觀察值稱為變量值〔valueofvariable〕或觀察值〔observedvalue〕,亦稱為資料。按變量的值是定量的還是定性的,可將變量分為以下類型,變量的類型不同,其分布規律亦不同,對它們采用的統計分析方法也不同。在處理資料之前,首先要分清變量類型。1〕數值變量〔numericalvariable〕:其變量值是定量的,表現為數值大小,可經測量取得數值,多有度量衡單位。如身高〔cm〕、體重〔kg〕、血壓〔mmHgkPa〕、脈搏〔次/min〕和白細胞計數〔×109/L〕等。這種由數值變量的測量值構成的資料稱為數值變量資料,亦稱為定量資料〔quantitativedata〕。大多數的數值變量為連續型變量,如身高、體重、血壓等;而有的數值變量的測定值只能是正整數,如脈搏、白細胞計數等,在醫學統計學中把它們也視為連續型變量。2〕分類變量〔catagoricalvariable〕:其變量值是定性的,表現為互不相容的類別或屬性。分類變量可分為無序變量和有序變量兩類:〔1〕無序分類變量〔unorderedcategoricalvariable〕是指所分類別或屬性之間無程度和順序的差異。,它又可分為①二項分類,如性別〔男、女〕,藥物反響〔陰性和陽性〕等;②多項分類,如血型〔O、A、B、AB〕,職業〔工、農、商、學、兵〕等。對于無序分類變量的分析,應先按類別分組,清點各組的觀察單位數,編制分類變量的頻數表,所得資料為無序分類資料,亦稱計數資料。〔2〕有序分類變量〔ordinalcategoricalvariable〕各類別之間有程度的差異。如尿糖化驗結果按-、±、+、++、+++分類;療效按治愈、顯效、好轉、無效分類。對于有序分類變量,應先按等級順序分組,清點各組的觀察單位個數,編制有序變量〔各等級〕的頻數表,所得資料稱為等級資料。變量類型不是一成不變的,根據研究目的的需要,各類變量之間可以進行轉化。例如血紅蛋白量〔g/L〕原屬數值變量,假設按血紅蛋白正常與偏低分為兩類時,可按二項分類資料分析;假設按重度貧血、中度貧血、輕度貧血、正常、血紅蛋白增高分為五個等級時,可按等級資料分析。有時亦可將分類資料數量化,如可將病人的惡心反響以0、1、2、3表示,那么可按數值變量資料〔定量資料〕分析。4、隨機事件〔randomevent〕與概率〔probability〕醫學研究的現象,大多數是隨機現象,對隨機現象進行實驗或觀察稱為隨機試驗。隨機試驗的各種可能結果的集合稱為隨機事件,亦稱偶然事件,簡稱事件。例如用相同治療方案治療一批某病的患者,治療轉歸可能為治愈、好轉、無效、死亡四種結果,對于一個剛入院的患者,治療后究竟發生哪一種結果是不確定的,可能發生的每一種結果都是一個隨機事件。對于隨機事件來說,在一次隨機試驗中,某個隨機事件可能發生也可能不發生,但在一定數量的重復試驗后,該隨機事件的發生情況是有規律可循的。概率是描述隨機事件發生的可能性大小的數值,常用P表示。例如,投擲一枚均勻的硬幣,隨機事件A表示“正面向上〞,用n表示投擲次數;m表示隨機事件A發生的次數;f表示隨機事件A發生的頻率〔f=m/n〕,0≤m≤n,0≤f≤1。用不同的投擲次數n作隨機試驗,結果如下:m/n=8/10=0.8,7/20=0.35,……,249/500=0.498,501/1000=0.501,10001/2000=0.5000,由此看出當投擲次數n足夠大時,f=m/n→0.5,稱P(A)=0.5,或簡寫為:P=0.5。當n足夠大時,可以用f估計P。隨機事件概率的大小在0與1之間,即0<P<1,常用小數或百分數表示。P越接近1,表示某事件發生的可能性越大;P越接近0,表示某事件發生的可能性越小。P=1表示事件必然發生,P=0表示事件不可能發生,它們是確定性的,不是隨機事件,但可以把它們看成隨機事件的特例。假設隨機事件A的概率P(A)≤,習慣上,當=0.05時,就稱A為小概率事件。其統計學意義是小概率事件在一次隨機試驗中不可能發生。例如,某都市大街上疾駛的汽車撞傷行人的事件的發生概率為1/萬,但大街上仍有行人,這是因為“被撞〞事件是小概率事件,所以行人認為自己上街這“一次試驗〞中不會發生“被撞〞事件。“小概率〞的標準是人為規定的,對于可能引起嚴重后果的事件,如術中大出血等,可規定=0.01,甚至更小。第四節學習衛生統計學應注意的問題衛生統計學是從事公共衛生領域研究和工作的必要根底。預防醫學專業的學生在學習本課程時應注意:1、醫學生在學習過程中必須運用邏輯思維方法掌握衛生統計學的根本知識、根本技能、根本概念和根本方法。切忌死記硬背、生搬硬套,應通過實例提高綜合分析問題的能力。2、掌握調查設計和實驗設計的原那么,培養收集、整理、分析統計資料的系統工作能力。在統計工作中要以實事求是、嚴謹的科學態度對待原始資料,反對偽造和篡改統計數字。通過學習這門課程,逐步樹立起實事求是、嚴謹的工作作風。3、在學習統計指標與分析方法時,應重點掌握統計公式的意義、用途和應用條件,不必深究其數學推導。最終掌握正確的分析思路:進行資料分析時,需根據研究目的、設計類型和資料類型選擇恰當的描述性指標和統計推斷方法。〔王潔貞〕第二章定量資料的統計描述學時分配:4學時掌握內容:1、頻數表的編制2、集中趨勢的描述3、離散趨勢的描述第一節數值變量資料的頻數表統計描述是用統計指標、統計圖或統計表描述資料的分布規律及其數量特征。頻數表是統計描述中經常使用的根本工具之一。1.頻數表〔frequencytable〕的編制在觀察值個數較多時,為了解一組同質觀察值的分布規律和便于指標的計算,可編制頻數分布表,簡稱頻數表。〔1〕求全距〔range〕:找出觀察值中的最大值與最小值,其差值即為全距〔或極差〕,用R表示。〔2〕確定組段和組距:根據樣本含量的大小確定“組段〞數,一般設8-15個組段,觀察單位較少時組段數可相對少些,觀察單位較多時組段數可相對多些,常用全距的1/10取整做組距,以便于匯總和計算。第一組段應包括全部觀察值中的最小值,最末組段應包括全部觀察值中的最大值,并且同時寫出其下限與上限。各組段的起點和終點分別稱為下限和上限,某組段包含下限,但不包含上限,其組中值為該組段的〔下限+上限〕/2。相鄰兩組段的下限之差稱為組距。〔3〕列表劃記:確定組段界限,列成表2.1的形式,采用計算機或用劃記法將原始數據匯總,得出各組段的觀察例數,即頻數,表中的第〔1〕、〔3〕欄即所需的頻數表。表2.1某地110名18歲男大學生身高〔cm〕均數的頻數表2.頻數分布的特征由頻數表可看出頻數分布的兩個重要特征:集中趨勢〔centraltendency〕和離散程度(dispersion)。身高有高有矮,但多數人身高集中在中間局部組段,以中等身高居多,此為集中趨勢;由中等身高到較矮或較高的頻數分布逐漸減少,反映了離散程度。對于數值變量資料,可從集中趨勢和離散程度兩個側面去分析其規律性。3.頻數分布的類型頻數分布有對稱分布和偏態分布之分。對稱分布是指多數頻數集中在中央位置,兩端的頻數分布大致對稱。偏態分布是指頻數分布不對稱,集中位置偏向一側,假設集中位置偏向數值小的一側,稱為正偏態分布;集中位置偏向數值大的一側,稱為負偏態分布,如冠心病、大多數惡性腫瘤等慢性病患者的年齡分布為負偏態分布。臨床上正偏態分布資料較多見。不同的分布類型應選用不同的統計分析方法。4.頻數表的用途可以揭示資料分布類型和分布特征,以便選取適當的統計方法;便于進一步計算指標和統計處理;便于發現某些特大或特小的可疑值。第二節集中趨勢的統計描述指標描述一組同質觀察值的平均水平或中心位置的常用指標有均數、幾何均數、中位數等。1.均數〔mean,average〕:是算術均數〔arithmeticmean〕的簡稱。常用表示樣本均數,表示總體均數。均數用于反映一組同質觀察值的平均水平,適用于正態或近似正態分布的數值變量資料。其計算方法有:〔1〕直接法:用于樣本含量較少時,其公式為:〔2.1〕式中,希臘字母Σ(讀作sigma)表示求和;X1,X2,…,Xn為各觀察值;n為樣本含量,即觀察值的個數。〔2〕加權法〔weightingmethod〕:用于頻數表資料或樣本中相同觀察值較多時,其公式為:〔2.2〕式中,X1,X2,…,Xk與f1,f2,…,fk分別為頻數表資料中各組段的組中值和相應組段的頻數(或相同觀察值與其對應的頻數)。2.幾何均數〔geometricmean〕用G表示,適用于①對數正態分布,即數據經過對數變換后呈正態分布的資料;②等比級數資料,即觀察值之間呈倍數或近似倍數變化的資料。如醫學實踐中的抗體滴度、平均效價等。其計算方法有〔1〕直接法:或〔2.3〕〔2〕加權法:〔2.4〕注意:計算幾何均數時觀察值中不能有0,因0不能取對數;一組觀察值中不能同時有正或負值。3.中位數〔median〕用表示。中位數是一組由小到大按順序排列的觀察值中位次居中的數值。中位數可用于描述①非正態分布資料〔對數正態分布除外〕;②頻數分布的一端或兩端無確切數據的資料③總體分布不清楚的資料。在全部觀察中,小于和大于中位數的觀察值個數相等。(1)直接法:將觀察值由小到大排列,按式〔2.6〕或式〔2.7〕計算。為奇數,(1.5)為偶數,(1.6)式中下標、、為有序數列的位次。、、為相應位次的觀察值。〔2〕頻數表法:用于頻數表資料。計算步驟是:①計算的大小,并按所分組段由小到大計算累計頻數和累計頻率,如表2.1第(3)、〔4〕欄;②確定所在組段。累計頻數中大于的最小數值所在的組段即為所在的組段;或累計頻率中大于50%的最小頻率所在的組段即為所在的組段。③按式〔2.7〕求中位數。〔2.7〕式中:L、i、分別為所在組段的下限、組距和頻數;為小于L的各組段的累計頻數。例1.1由表2.1計算中位數M。表2.1199名食物中毒患者潛伏期的M和PX的計算潛伏期〔小時〕〔1〕人數f(2)累計頻數Σf(3)累計頻率(%)(4)=(3)/n0~303015.112~7110150.824~4915075.436~2817889.448~1419296.560~619899.572~841199100.0合計199本例n=199,根據表2.3第(2)欄數據,自上而下計算累計頻數及累計頻率,見第(3)、〔4〕欄。,由第〔3〕欄知,101是累計頻數中大于99.5的最小值,或由第〔4〕欄知50.8%是大于50%的最小的累計頻率,故M在“12~〞組段內,將相應的L、i、f50、代入〔2.8〕,求得M。M=P50==12+12/71〔199×50%-30〕=23.75(小時)4.百分位數〔percentile〕用Px表示。一個百分位數Px將一組觀察值分為兩局部,理論上有X%的觀察值比它小,有〔100-X〕%的觀察值比它大,是一種位置指標。中位數是一個特定的百分位數,即M=P50。百分位數的計算步驟與中位數類似,首先要確定Px所在的組段。先計算,累計頻數中大于的最小值所在的組段就是Px所在組段。計算見公式〔2.8〕。(2.8)式中:L、i、fx分別為Px所在組段的下限、組距和頻數;為小于L的各組段的累計頻數。百分位數用于描述一組數據某一百分位位置的水平,多個百分位數的結合應用時,可描述一組觀察值的分布特征;百分位數可用于確定非正態分布資料的醫學參考值范圍。應用百分位數,樣本含量要足夠大,否那么不宜取靠近兩端的百分位數。第三節離散程度的統計描述指標描述數值變量資料頻數分布的另一主要特征是離散程度,用變異指標表示。只有把集中指標和離散指標結合起來才能全面反映資料的分布特征。常用變異指標有全距、四分位數間距、方差、標準差、變異系數。1.全距〔range,簡記為R〕:亦稱極差,是一組同質觀察值中最大值與最小值之差。它反映了個體差異的范圍,全距大,說明變異度大;反之,全距小,說明變異度小。用全距描述定量資料的變異度大小,雖然計算簡單,但缺乏之處有:①只考慮最大值與最小值之差異,不能反映組內其它觀察值的變異度;②樣本含量越大,抽到較大或較小觀察值的可能性越大,那么全距可能越大。因此樣本含量相差懸殊時不宜用全距比擬。2.四分位數間距〔quartile,簡記為Q〕:為上四分位數QU〔即P75〕與下四分位數QL(即P25)之差。四分位數間距可看成是中間50%觀察值的極差,其數值越大,變異度越大,反之,變異度越小。如例2.7中,已求得QU=P75=35.82小時,QL=P25=15.34小時,那么四分位數間距Q=QU-QL==35.82-15.34=20.48(小時)。由于四分位數間距不受兩端個別極大值或極小值的影響,因而四分位數間距較全距穩定,但仍未考慮全部觀察值的變異度,常用于描述偏態頻數分布以及分布的一端或兩端無確切數值資料的離散程度。3.方差〔variance〕:為了全面考慮觀察值的變異情況,克服全距和四分位數間距的缺點,需計算總體中每個觀察值X與總體均數的差值(X-),稱之為離均差。由于Σ(X-μ)=0,不能反映變異度的大小,而用離均差平方和Σ(X-)2(sumofsquaresofdeviationsfrommean)反映之,同時還應考慮觀察值個數N的影響,故用式〔2.9〕即總體方差σ2表示。〔2.9〕在實際工作中,總體均數μ往往是未知的,所以只能用樣本均數作為總體均數的估計值,即用代替,用樣本例數n代替N,但再按式〔2.9〕計算的結果總是比實際小。英國統計學家W.S.Gosset提出用n-1代替n來校正,這就是樣本方差s2其公式為:〔2.10〕式中的n-1稱為自由度〔degreeoffreedom〕。4.標準差〔standarddeviation〕:方差的度量單位是原度量單位的平方,將方差開方后與原數據的度量單位相同。標準差大,表示觀察值的變異度大;反之,標準差小,表示觀察值的變異度小。計算見公式〔2.11〕和〔2.12〕。(1.11)(1.12)離均差平方和常用SS或lXX表示。數學上可以證明:,所以,樣本標準差的計算公式可寫成:直接法:〔2.13〕加權法:(1.14)5.變異系數〔coefficientofvariation,簡記為CV〕:常用于比擬度量單位不同或均數相差懸殊的兩組或多組資料的變異度。其公式為〔2.15〕〔丁守鑾〕第三章正態分布及其應用學時分配:2學時掌握內容:1、正態分布的概念、特征和標準正態分布2、正態分布的應用第一節正態分布的概念和特征一、正態分布的概念由表1.1的頻數表資料所繪制的直方圖,圖3.1〔1〕可以看出,頂峰位于中部,左右兩側大致對稱。我們設想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連線就會逐漸形成一條頂峰位于中央〔均數所在處〕,兩側逐漸降低且左右對稱,不與橫軸相交的光滑曲線圖3.1〔3〕。這條曲線稱為頻數曲線或頻率曲線,近似于數學上的正態分布〔normaldistribution〕。由于頻率的總和為100%或1,故該曲線下橫軸上的面積為100%或1。圖3.1頻數分布逐漸接近正態分布示意圖為了應用方便,常對正態分布變量X作變量變換。〔3.1〕該變換使原來的正態分布轉化為標準正態分布(standardnormaldistribution),亦稱u分布。u被稱為標準正態變量或標準正態離差〔standardnormaldeviate〕。二、正態分布的特征:1.正態曲線〔normalcurve〕在橫軸上方均數處最高。2.正態分布以均數為中心,左右對稱。3.正態分布有兩個參數,即均數和標準差。是位置參數,當固定不變時,越大,曲線沿橫軸越向右移動;反之,越小,那么曲線沿橫軸越向左移動。是形狀參數,當固定不變時,越大,曲線越平闊;越小,曲線越尖峭。通常用表示均數為,方差為的正態分布。用N〔0,1〕表示標準正態分布。4.正態曲線下面積的分布有一定規律。實際工作中,常需要了解正態曲線下橫軸上某一區間的面積占總面積的百分數,以便估計該區間的例數占總例數的百分數〔頻數分布〕或觀察值落在該區間的概率。正態曲線下一定區間的面積可以通過附表1求得。對于正態或近似正態分布的資料,均數和標準差,就可對其頻數分布作出概約估計。查附表1應注意:①表中曲線下面積為-∞到u的左側累計面積;②當μ、σ和X時先按式〔3.1〕求得u值,再查表,當μ、σ未知且樣本含量n足夠大時,可用樣本均數和標準差S分別代替μ和σ,按式求得u值,再查表;③曲線下對稱于0的區間面積相等,如區間〔-∞,-1.96〕與區間〔1.96,∞〕的面積相等,④曲線下橫軸上的總面積為100%或1。正態分布曲線下有三個區間的面積應用較多,應熟記:①標準正態分布時區間〔-1,1〕或正態分布時區間〔μ-1σ,μ+1σ〕的面積占總面積的68.27%;②標準正態分布時區間〔-1.96,1.96〕或正態分布時區間〔μ-1.96σ,μ+1.96σ〕的面積占總面積的95%;③標準正態分布時區間〔-2.58,2.58〕或正態分布時區間〔μ-2.58σ,μ+2.58σ〕的面積占總面積的99%。如圖3.2所示。圖3.2正態曲線與標準正態曲線的面積分布第二節正態分布的應用某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現為正態或近似正態分布;有些資料雖為偏態分布,但經數據變換后可成為正態或近似正態分布,故可按正態分布規律處理。1.估計正態分布資料的頻數分布例1.10某地1993年抽樣調查了100名18歲男大學生身高〔cm〕,其均數=172.70cm,標準差s=4.01cm,①估計該地18歲男大學生身高在168cm以下者占該地18歲男大學生總數的百分數;②分別求、、范圍內18歲男大學生占該地18歲男大學生總數的實際百分數,并與理論百分數比擬。本例,、未知但樣本含量n較大,按式〔3.1〕用樣本均數和標準差S分別代替和,求得u值,u=(168-172.70)/4.01=-1.17。查附表標準正態曲線下的面積,在表的左側找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學生身高在168cm以下者,約占總數12.10%。其它計算結果見表3.1。表3.1100名18歲男大學生身高的實際分布與理論分布身高范圍〔cm〕實際分布理論分布〔%〕人數百分數〔%〕168.69~176.716767.0068.27164.84~180.569595.0095.00162.35~183.059999.0099.002.制定醫學參考值范圍:亦稱醫學正常值范圍。它是指所謂“正常人〞的解剖、生理、生化等指標的波動范圍。制定正常值范圍時,首先要確定一批樣本含量足夠大的“正常人〞,所謂“正常人〞不是指“健康人〞,而是指排除了影響所研究指標的疾病和有關因素的同質人群;其次需根據研究目的和使用要求選定適當的百分界值,如80%,90%,95%和99%,常用95%;根據指標的實際用途確定單側或雙側界值,如白細胞計數過高過低皆屬不正常須確定雙側界值,又如肝功中轉氨酶過高屬不正常須確定單側上界,肺活量過低屬不正常須確定單側下界。另外,還要根據資料的分布特點,選用恰當的計算方法。常用方法有:〔1〕正態分布法:適用于正態或近似正態分布的資料。雙側界值:單側上界:,或單側下界:〔2〕對數正態分布法:適用于對數正態分布資料。雙側界值:;單側上界:,或單側下界:。常用u值可根據要求由表3.2查出。〔3〕百分位數法:常用于偏態分布資料以及資料中一端或兩端無確切數值的資料。雙側界值:P2.5和P97.5;單側上界:P95,或單側下界:P5。表3.2常用u值表參考值范圍(%)單側雙側800.8421.282901.2821.645951.6451.960992.3262.5763.正態分布是許多統計方法的理論根底:如t分布、F分布、分布都是在正態分布的根底上推導出來的,u檢驗也是以正態分布為根底的。此外,t分布、二項分布、Poisson分布的極限為正態分布,在一定條件下,可以按正態分布原理來處理。〔丁守鑾〕第四章總體均數的估計和假設檢驗學時分配:8學時掌握內容:1.t分布的概念和特征2.總體均數的區間估計3.總體率的區間估計4.假設檢驗的根本步驟5.假設檢驗的根本原理6.常用的數值型變量假設檢驗的方法熟悉:1、抽樣誤差的概念2、引起抽樣誤差的原因3、均數、率的標準誤的計算4、標準差和標準誤的區別了解內容:1.假設檢驗中概率P與檢驗水準的關系2.抽樣研究的意義3.中心極限定理的內容第一節抽樣研究與抽樣誤差一.抽樣研究〔一〕抽樣研究的意義前面已經講述了總體與樣本兩個統計學術語,人們在醫學研究中多采用由樣本信息來推論總體特征的方法,這在實際工作中是十分必要的,經理論與實踐證明也是行之有效的。目前對某一總體進行研究的最重要、最常用的方法就是抽樣研究。由于研究對象很多是無限總體,要直接研究總體的情況是不可能的。即使對有限總體來說,假設包含的觀察單位數過多,需要消耗大量的人力、物力和時間,而且也不易組織,難以保證工作的質量。有的時候,觀察的實質就是一種破壞性實驗,根本就不允許對總體中的每一個體逐一觀察。如對一批注射藥劑作質量檢查,不可能將所有的藥劑瓶都翻開加以檢驗,這顯然是不可能的。抽樣研究作為一種由局部認識整體的觀察方法,從古到今一直被人們自覺或不自覺地應用著,如炒菜時嘗嘗咸淡,就醫時取幾滴血作化驗等。實踐證明這是行之有效的方法。目前抽樣研究的理論與技術已開展成熟,只要嚴格按照有關抽樣研究的要求去做,這是完全可行的。所以,在實際工作中人們多采用抽樣研究的方法,其目的就是要用樣本信息來推斷總體特征,這就叫統計推斷〔statisticalinference〕。〔二〕抽樣研究和抽樣誤差抽樣研究是指從總體中按照隨機化的原那么,抽取一定數量的個體組成樣本進行研究,從而推斷總體的研究方法。在實際工作中,由于總體中各觀察對象之間存在著個體變異,且隨機抽取的樣本又只是總體中的一局部,因此計算的樣本統計量,不一定恰好等于相應的總體參數。這種由于個體變異的存在,在抽樣研究中產生的樣本統計量與相應的總體參數間的差異,稱為抽樣誤差〔samplingerror〕,同樣,來自同一總體的假設干樣本的統計量之間,也會存在誤差,這種誤差也反映在樣本統計量與總體參數間的差異。當樣本是來自相應總體的隨機樣本時,抽樣誤差為隨機誤差,其誤差大小可以依據中心極限定理進行估計。中心極限定理的內容是,以數值變量資料為例,假設從均數為μ的正態總體中以固定n反復屢次〔比方100次〕抽樣時,所得的樣本均數的分布是正態分布;即使是從偏態總體中抽樣,只要足夠大,的分布也近似正態分布。在抽樣研究中抽樣誤差是不可防止的,根據資料的性質和指標種類的不同,抽樣誤差有多種,例如:①從某地7歲男童中隨機抽取110名,測得平均身高為119.95cm,該樣本均數不一定等于該地7歲男童身高的總體均數,這種樣本均數與總體均數間的差異,稱為均數的抽樣誤差。②某縣為血吸蟲病流行區,從該縣人群中隨機抽取400人,測得的血吸蟲感染人數為60人,感染率為15%,該樣本率不一定等于該地人群的總體感染率。此為樣本率與總體率之間的差異,稱為率的抽樣誤差。此外,樣本方差和相應的總體方差也存在抽樣誤差,后面介紹的相關系數和回歸系數也有抽樣誤差的問題。二.均數的抽樣誤差在抽樣研究中,假設從同一總體中隨機抽取樣本含量相同的假設干個樣本,并計算出某種樣本統計量〔如樣本均數〕,由于生物間的個體變異是客觀存在的,抽樣誤差是不可防止的,這些樣本統計量之間具有離散趨勢。數理統計研究說明,抽樣誤差具有一定的規律性,可以用特定的指標來描述。這個指標稱為標準誤〔standarderror〕,標準誤除了反映樣本統計量之間的離散程度外,也反映樣本統計量與相應總體參數之間的差異,即抽樣誤差大小。本章主要介紹最常用的均數標準誤以及率的標準誤。〔一〕均數標準誤的意義將來自同一總體的假設干個樣本均數看成一組新的觀察值,研究其頻數分布,包括集中趨勢和離散趨勢,可計算樣本均數的均數和標準差。例3.1假定某市16歲女中學生的身高分布服從均數〔μ〕為155.4cm,標準差〔σ〕為5.3cm的正態分布。現用電子計算機作抽樣模擬試驗,每次隨機抽出10個觀察值〔即樣本含量n=10〕,共抽取100個樣本,求得100個樣本均數并編制成頻數分布表如表4.1。表4.1100個樣本均數的頻數分布〔μ=155.4cm,σ=5.3cm〕組段〔cm〕頻數151~1152~6153~15154~19155~27156~16157~8158~5159~3合計100從表4.1中可以發現,當原始觀察值的分布為正態分布時,這些樣本均數的頻數分布根本服從正態分布。統計理論證明,假設原始觀察值的分布為偏態分布,當樣本含量n足夠大時,其樣本均數的分布仍近似服從正態分布。所以,可以求得樣本均數的均數為155.38cm,與總體均數155.4cm接近。中心極限定理說明,樣本均數的均數等于原總體的總體均數〔μ〕。同樣,也可以求得樣本均數的標準差為,為了與描述觀察值離散程度的標準差相區別,用均數標準誤來表示樣本均數的標準差。均數標準誤反映來自同一總體的樣本均數的離散程度以及樣本均數與總體均數的差異程度,也是說明均數抽樣誤差大小的指標。均數標準誤大,說明各樣本均數的離散程度大,抽樣誤差就大。反之亦然。〔二〕均數標準誤的計算數理統計可以證明,均數標準誤的計算公式為:〔4.1〕式中為均數標準誤的理論值,σ為總體標準差,n為樣本含量。σ時,可按式〔4.1〕求得均數標準誤的理論值。上述例子中μ=155.4cm,n=10,可得:=計算結果與樣本均數的標準差1.71cm相近。由于在抽樣研究中σ常屬未知,通常用一個樣本的標準差〔s〕來估計,所以,在實際工作中,常用式〔4.2〕計算均數標準誤的估計值〔〕〔4.2〕由式〔4.1〕或〔4.2〕可見,當n一定時,均數標準誤與標準差成正比。標準差越大,均數標準誤越大,即觀察值的離散程度越高,均數的抽樣誤差越大。當標準差一定時,均數標準誤和成反比。樣本含量越大,均數的抽樣誤差越小。因此,在實際工作中,可通過適當增加樣本含量和減少觀察值的離散程度〔如選擇同質性較好的總體〕來減少抽樣誤差。〔三〕均數標準誤的用途:1.衡量樣本均數的可靠性由于均數標準誤越小,均數的抽樣誤差越小,樣本均數就越可靠。2.估計總體均數的可信區間。3.用于均數的假設檢驗。第二節t分布一.t分布(t-distribution)〔一〕u分布在前一章中,我們已經講述了正態分布〔normaldistribution〕是數理統計中的一種重要的理論分布,是許多統計方法的理論根底。正態分布有兩個參數,μ和σ,決定了正態分布的位置和形態。為了應用方便,常將一般的正態變量X通過u變換[]轉化成標準正態變量u,以使原來各種形態的正態分布都轉換為μ=0,σ=1的標準正態分布〔standardnormaldistribution〕,亦稱u分布。根據中心極限定理,通過上述的抽樣模擬試驗說明,在正態分布總體中以固定n〔本次試驗n=10〕抽取假設干個樣本時,樣本均數的分布仍服從正態分布,即N〔μ,σ〕。所以,對樣本均數的分布進行u變換[],也可變換為標準正態分布N(0,1)〔二〕t分布由于在實際工作中,往往σ是未知的,常用s作為σ的估計值,為了與u變換區別,稱為t變換t=,統計量t值的分布稱為t分布。t分布有如下特征:1.以0為中心,左右對稱的單峰分布;2.t分布是一簇曲線,其形態變化與n〔確切地說與自由度ν〕大小有關。自由度ν越小,t分布曲線越低平;自由度ν越大,t分布曲線越接近標準正態分布〔u分布〕曲線,如圖4.1。t=圖4.1自由度為1、5、∞的t分布對應于每一個自由度ν,就有一條t分布曲線,每條曲線都有其曲線下統計量t的分布規律,計算較復雜。因此,統計學家上根據自由度ν的大小與t分布曲線下面積的關系,編制了附表2,t界值表,以便于應用。表中的橫標目為自由度ν,縱標目為概率P,表中數字表示自由度ν為某值時,P為某值時,t的界值。因t分布是以0為中心的對稱分布,故附表中只列出正值,如果算出的t值為負值,可以用絕對值查表。t分布曲線下面積為95%或99%的界值不是一個常量,而是隨著自由度大小而變化的,分別用和表示。第三節總體均數的估計統計推斷包括兩個重要的方面:參數估計和假設檢驗。假設檢驗在后面的章節中討論,這里先討論參數估計。參數估計就是用樣本指標〔稱為統計量,statistic〕來估計總體指標〔參數,parameter〕。參數估計有兩種方法:〔一〕點估計〔pointestimation〕如在服從正態分布的總體中隨機抽取樣本,可以直接用樣本均數來估計總體均數,樣本標準差來估計總體標準差。該方法雖然簡單易行,但未考慮抽樣誤差,而抽樣誤差在抽樣研究中又是客觀存在的、不可防止的,會隨不同的樣本對總體參數作出不同的點估計。〔二〕區間估計〔intervalestimation〕即按一定的概率〔可信度〕估計未知的總體參數可能所在的范圍〔或稱可信區間〕的估計方法。區間估計是在隨機抽取樣本后,考慮抽樣誤差存在的情況下的估計方法,較為準確可靠。統計學上通常用95%〔或99%〕可信區間表示總體參數有95%〔或99%〕的概率在某一范圍,可根據資料的條件選用不同的方法。下面以總體均數的95%可信區間為例,介紹其計算公式。σ時按正態分布原理計算,σ未知時按t分布的原理計算。1.σ時由u分布可知,正態曲線下有95%的u值在±1.96之間,即:P〔-1.96≤u≤+1.96〕=0.95P〔-1.96≤≤+1.96〕=0.95移項后整理得,故總體均數μ的95%可信區間為〔〕〔4.5〕2.σ未知,但n足夠大〔如n>100〕時由t分布可知,當自由度越大,t分布越逼近u分布,此時t曲線下有95%的t值在±1.96之間,即:P〔-1.96≤t≤+1.96〕=0.95P〔-1.96≤≤+1.96〕=0.95P〔≤≤〕=0.95故總體均數μ的95%可信區間為〔,〕〔4.6〕3.σ未知且n小時某自由度的t曲線下有95%的t值在±之間,即:故總體均數μ的95%可信區間為〔,〕〔4.7〕例3.3對某人群隨機抽取20人,用某批號的結核菌素作皮試,平均浸潤直徑為10.9cm,標準差為3.86cm。問這批結核菌素在該人群中使用時,皮試的平均浸潤直徑的95%可信區間是多少?該例n=20,n較小,按公式〔4.7〕計算。ν=20-1=19,查t界值表,得=2.093估計這批結核菌素在該人群中使用,皮試的平均浸潤直徑的95%可信區間為〔10.9-2.093*3.86/,10.9+2.093*3.86/〕cm即(9.1,12.7)cm。〔三〕可信區間的注意問題1.可信區間的涵義意思是從總體中作隨機抽樣,每個樣本可以算得一個可信區間。如95%可信區間意味著做100次抽樣,算得100個可信區間,平均有95個估計正確,估計錯誤的只有5次。5%是小概率事件,實際發生的可能性很小,當然這種估計方法會有5%犯錯誤的風險。2.可信區間的兩個要素:一是準確度,反映在可信度的大小,即區間包含總體均數的概率的大小,愈接近1愈好。二是精密度,反映在區間的長度,長度愈小愈好。在樣本含量確定的情況下,二者是矛盾的,假設只管提高可信度,會把區間變得很長,故不宜認為99%可信區間比95%可信區間好,需要兼顧準確度和精密度,一般來說95%可信區間更為常用,在可信度確定的情況下,增加樣本含量,可減少區間長度,提高精密度。〔王淑康〕第四節假設檢驗的根本步驟一、假設檢驗的根本思想在抽樣研究中,由于樣本所來自的總體其參數是未知的,只能根據樣本統計量對其所來自總體的參數進行估計,如果要比擬兩個或幾個總體的參數是否相同,也只能分別從這些總體中抽取樣本,根據這些樣本的統計量作出統計推斷,籍此比擬總體參數是否相同。由于存在抽樣誤差,總體參數與樣本統計量并不恰好相同,因此判斷兩個或多個總體參數是否相同是一件很困難的事情。如醫生在某山區隨機測量了25名健康成年男子的脈搏,平均次數為74.2次/分鐘,標準差為5.2次/分鐘,但是根據醫學常識,一般男子的平均脈搏次數為72次/分鐘,問該山區男子脈搏數與一般男子是否不同?要答復這個看似簡單的問題并非易事。這個問題難以從正面直接答復,可以先假定該山區所有男子脈搏數數值組成一個總體,其總體均數和標準差均為未知數,不妨分別以、表示。如果我們假設該山區男子的脈搏數與一般地區的男子相同,即屬于同一總體,=72,所測量的25名男子的平均脈搏數〔樣本均數〕之所以不恰好等于72次/分,是由于抽樣誤差所致。如果上述假設成立,那么理論上講,樣本均數很可能在總體均數〔=72〕的附近,樣本均數遠離總體均數的可能性很小。如果將樣本均數變換為值,那么值很可能在0的附近,值遠離0的可能性很小。如果值很小上述假設可能不正確,可拒絕上述假設。假設檢驗包括單側檢驗和雙側檢驗兩種情況,當根據專業知識兩總體的參數中甲肯定不會小于乙,或甲肯定不會大于乙時,可考慮用單側檢驗,否那么,宜用雙側檢驗。假設檢驗中的如何下檢驗結論(以檢驗為例):1、單側檢驗:如計算統計量為正值拒絕,接受不拒絕如計算統計量為負值拒絕,接受不拒絕2、雙側檢驗:拒絕,接受不拒絕二、假設檢驗的一般步驟假設檢驗一般分為三步:1、建立假設,確定檢驗水準。一般假設檢驗中的檢驗假設〔或稱為零假設、無效假設〕,假設樣本來自同一總體,即其總體參數相等。往往建立兩個假設,除建立檢驗假設外,還建立備擇假設,作為拒絕檢驗假設時的備選假設,檢驗水準為拒絕檢驗假設是犯第一類錯誤的概率。2、為選擇檢驗方法,并計算統計量。的類型不同、變量的分布類型不同、研究目的不同,都決定著選擇何種檢驗方法。因此需選擇適宜的檢驗方法,并計算統計量。3、為根據統計量確定值,做出統計推斷。根據計算的統計量,查閱相應的統計表,確定值,以值與檢驗水準比擬,假設,那么拒絕,接受;假設,那么不拒絕。第五節樣本與總體比擬的假設檢驗本章第一節中,在某山區隨機測量25名男子的脈搏數得一樣本均數,而一般男子的脈搏數為可視為一般地區男子的總體均數。假設該山區男子的脈搏數與一般地區相同,即于一般地區的男子屬于同一總體,并將該樣本均數轉化為值〔式1〕〔式2〕式中為樣本均數;為總體的均數;為樣本標準差;為樣本含量。如果樣本含量足夠大時,可將樣本均數轉化為值〔式3〕例1以上述資料為例,比擬某山區男子的脈搏數與一般地區的男子是否相同。假設檢驗的過程如下:1、建立假設,確定檢驗水準。:該山區男子脈搏數與一般地區男子相等,即:該山區男子脈搏數與一般地區男子不等,即2、選擇檢驗方法計算統計量自由度3、查界值表,確定值,以查界值表得,,本例的統計量值為2.115,大于界值,因此,按水準,拒絕,接受,可認為該山區男子的脈搏數與一般地區的男子不同。本例中值確實切值為如果本例用單側檢驗,其與雙側檢驗相同,但有不同,根據專業知識知道,山區男子的脈搏數不會低于一般地區,因此為:該山區男子脈搏數高與一般地區男子,即,所得的值為:。第六節配對設計〔paireddesign〕資料的假設檢驗配對設計是為了控制某些非處理因素對實驗結果的影響。將那些因素相同或相近的受試對象配成對子,使得同一對子中的受試對象除處理因素不同外,其他因素相同或相近,同一對子中的兩受試對象分別接受不同的處理,其實驗結果的差異可以簡單的認為是“純〞處理因素的作用。對于配對資料可以分析其差值。對配對資料的分析,一般用配對檢驗〔pairedt-test〕,其檢驗假設為:差值的總體均數為零。計算統計量的公式為〔式4〕〔式5〕式中為差值的均數;為差值的標準差;為對子數。例1將大白鼠按照同窩、同性別和體重接近的的原那么配成8對,每對中兩只大白鼠隨機確定一只進食正常飼料,另一只進食缺乏維生素E飼料,一段時間以后,測量兩組大白鼠的肝中維生素的A的含量如表1,問食物中維生素E的缺乏能否影響大白鼠肝中維生素A的含量?表1兩種飼料喂養大白鼠肝中維生素A的含量對子號〔1〕正常飼料〔2〕缺乏維生素E飼料〔3〕差值〔4〕〔5〕13350245011001210000220002400-400160000330001800120014400004395032007505625005380032505503025006375027001050110250073450250095090250083050175013001690000合計——65007370000計算得:兩種飼料喂養的大白鼠肝中維生素含量相等,即:兩種飼料喂養的大白鼠肝中維生素含量不等,即查表知,,按水準,拒絕,接受,可認為兩組大白鼠肝中維生素A的含量不等,維生素E缺乏飼料組的大白鼠肝中維生素A含量低。第七節兩樣本比擬的假設檢驗完全隨機設計兩樣本的比擬,用檢驗或檢驗時,要求樣本服從正態分布,并且兩樣本方差齊同。如果資料滿足上述要求,樣本含量小時,用下式計算統計量〔式6〕〔式7〕式中和分別為兩樣本的均數;為兩樣本均數差值的標準誤,可用下式計算〔式8〕如果樣本含量足夠大時,可計算統計量〔式9〕如果方差不齊,可以考慮用檢驗。兩樣本的方差是否齊同,可對樣本的方差做方差齊性檢驗〔式10〕,式中和分別為較大和較小的方差,和分別為方差較大和較小樣本的樣本含量。根據計算得的統計量,查界知表〔方差齊性檢驗用〕,作出推斷。第八節第一類錯誤與第二類錯誤假設檢驗是反證法的思想,依據樣本統計量作出的統計推斷,其推斷結論并非絕對正確,結論有時也可能有錯誤,錯誤分為兩類。Ⅰ型錯誤又稱第一類錯誤〔typeⅠerror〕:拒絕了實際上成立的,為“棄真〞的錯誤,其概率通常用表示。可取單尾也可取雙尾,假設檢驗時研究者可以根據需要確定值大小,一般規定=0.05或=0.01,其意義為:假設檢驗中如果拒絕時,發生Ⅰ型錯誤的概率為5%或1%,即100次拒絕的結論中,平均有5次或1次是錯誤的。Ⅱ型錯誤又稱第二類錯誤〔typeⅡerror〕:不拒絕實際上不成立的,為“存偽〞的錯誤,其概率通常用表示。只取單尾,假設檢驗時值一般不知道,在一定情況下可以測算出,如兩總體的差值〔如〕、樣本含量和檢驗水準。以以下圖說明兩類錯誤:圖a中為均數〔〕的總體和均數〔〕未知的總體。從后者中隨機抽樣,其樣本均數〔〕服從正態分布,假設,那么正態曲線為圖〔b〕中右側曲線,假設那么正態曲線為左側曲線。將樣本均數變換為值曲線如圖〔c〕。假設為單側檢驗,從圖〔c〕中可以清楚地看出兩條曲線下與的意義,即為成立,但由于,被錯誤地拒絕的概率;而為:不成立,但由于,不被拒絕的概率。第五章方差分析學時分配:6學時掌握內容:1、方差分析的根本思想2、完全隨機設計的單因素方差分析3、隨機區組設計的兩因素方差分析熟悉內容:1、多個樣本均數間的多重比擬2、變量變換了解內容:多個樣本的方差齊性檢驗第一節方差分析的根本思想1、方差分析的意義前述的t檢驗和u檢驗適用于兩個樣本均數的比擬,對于k個樣本均數的比擬,如果仍用t檢驗或u檢驗,需比擬次,如四個樣本均數需比擬次。假設每次比擬所確定的檢驗水準=0.05,那么每次檢驗拒絕H0不犯第一類錯誤的概率為1-0.05=0.95;那么6次檢驗都不犯第一類錯誤的概率為(1-0.05)6=0.7351,而犯第一類錯誤的概率為0.2649,因而t檢驗和u檢驗不適用于多個樣本均數的比擬。用方差分析比擬多個樣本均數,可有效地控制第一類錯誤。方差分析(analysisofvariance,ANOVA)由英國統計學家R.A.Fisher首先提出,以F命名其統計量,故方差分析又稱F檢驗。2、方差分析的根本思想下面通過表5.1資料介紹方差分析的根本思想。例如,有4組進食高脂飲食的家兔,接受不同處理后,測定其血清腎素血管緊張素轉化酶〔ACE〕濃度〔表5.1〕,試比擬四組家兔的血清ACE濃度。表5.1對照組及各實驗組家兔血清ACE濃度〔u/ml〕對照組實驗組A降脂藥B降脂藥C降脂藥61.2482.3526.2325.4658.6556.4746.8738.7946.7961.5724.3613.5537.4348.7938.5419.4566.5462.5442.1634.5659.2760.8730.3310.9620.6848.23329.92372.59229.17191.001122.68()667726〔N〕54.9962.1032.7427.2943.18〔〕18720.9723758.128088.596355.4356923.11()由表5.1可見,26只家兔的血清ACE濃度各不相同,稱為總變異;四組家兔的血清ACE濃度均數也各不相同,稱為組間變異;即使同一組內部的家兔血清ACE濃度相互間也不相同,稱為組內變異。該例的總變異包括組間變異和組內變異兩局部,或者說可把總變異分解為組間變異和組內變異。組內變異是由于家兔間的個體差異所致。組間變異可能由兩種原因所致,一是抽樣誤差;二是由于各組家兔所接受的處理不同。正如第四章所述,在抽樣研究中抽樣誤差是不可防止的,故導致組間變異的第一種原因肯定存在;第二種原因是否存在,需通過假設檢驗作出推斷。假設檢驗的方法很多,由于該例為多個樣本均數的比擬,應選用方差分析。方差分析的檢驗假設H0為各樣本來自均數相等的總體,H1為各總體均數不等或不全相等。假設不拒絕H0時,可認為各樣本均數間的差異是由于抽樣誤差所致,而不是由于處理因素的作用所致。理論上,此時的組間變異與組內變異應相等,兩者的比值即統計量F為1;由于存在抽樣誤差,兩者往往不恰好相等,但相差不會太大,統計量F應接近于1。假設拒絕H0,接受H1時,可認為各樣本均數間的差異,不僅是由抽樣誤差所致,還有處理因素的作用。此時的組間變異遠大于組內變異,兩者的比值即統計量F明顯大于1。在實際應用中,當統計量F值遠大于1且大于某界值時,拒絕H0,接受H1,即意味著各樣本均數間的差異,不僅是由抽樣誤差所致,還有處理因素的作用。〔5.1〕方差分析的根本思想是根據研究目的和設計類型,將總變異中的離均差平方和SS及其自由度分別分解成相應的假設干局部,然后求各相應局部的變異;再用各局部的變異與組內〔或誤差〕變異進行比擬,得出統計量F值;最后根據F值的大小確定P值,作出統計推斷。例如,完全隨機設計的方差分析,是將總變異中的離均差平方和SS及其自由度分別分解成組間和組內兩局部,SS組間/組間和SS組內/組內分別為組間變異〔MS組間〕和組內變異〔MS組內〕,兩者之比即為統計量F〔MS組間/MS組內〕。又如,隨機區組設計的方差分析,是將總變異中的離均差平方和SS及其自由度分別分解成處理間、區組間和誤差3局部,然后分別求得以上各局部的變異〔MS處理、MS區組和MS誤差〕,進而得出統計量F值〔MS處理/MS誤差、MS區組/MS誤差〕。3、方差分析的計算方法下面以完全隨機設計資料為例,說明各局部變異的計算方法。將N個受試對象隨機分為k組,分別接受不同的處理。歸納整理數據的格式、符號見下表:處理組〔i〕123…k……合計……1〕總離均差平方和〔sumofsquares,SS〕及自由度〔freedom,ν〕總變異的離均差平方和為各變量值與總均數〔〕差值的平方和,離均差平方和和自由度分別為:〔5.2〕=N-1〔5.3〕2〕組間離均差平方和、自由度和均方組間離均差平方和為各組樣本均數()與總均數()差值的平方和〔5.4〕〔5.5〕〔5.6〕3〕組內離均差平方和、自由度和均方組內離均差平方和為各處理組內部觀察值與其均數〔〕差值的平方和之和,。數理統計證明,總離均差平方和等于各局部離均差平方和之和,因此,〔5.7〕〔5.8〕〔5.9〕4〕三種變異的關系:=N-1=(k-1)+(N-k)=可見,完全隨機設計的單因素方差分析時,總的離均差平方和〔SS總〕可分解為組間離均差平方和〔SS組間〕與組內離均差平方和〔SS組內〕兩局部;相應的總自由度〔〕也分解為組間自由度〔〕和組內自由度〔〕兩局部。5〕方差分析的統計量:〔5.10〕4、方差分析的應用條件與用途方差分析的應用條件為①各樣本須是相互獨立的隨機樣本;②各樣本來自正態分布總體;③各總體方差相等,即方差齊。方差分析的用途①兩個或多個樣本均數間的比擬;②分析兩個或多個因素間的交互作用;③回歸方程的線性假設檢驗;④多元線性回歸分析中偏回歸系數的假設檢驗;⑤兩樣本的方差齊性檢驗等。第二節完全隨機設計的單因素方差分析〔one-wayANOVA〕1、用途:用于完全隨機設計的多個樣本均數間的比擬,其統計推斷是推斷各樣本所代表的各總體均數是否相等。完全隨機設計〔completelyrandomdesign〕不考慮個體差異的影響,僅涉及一個處理因素,但可以有兩個或多個水平,所以亦稱單因素實驗設計。在實驗研究中按隨機化原那么將受試對象隨機分配到一個處理因素的多個水平中去,然后觀察各組的試驗效應;在觀察研究〔調查〕中按某個研究因素的不同水平分組,比擬該因素的效應。2、計算公式:完全隨機設計的單因素方差分析是把總變異的離均差平方和SS及自由度分別分解為組間和組內兩局部,其計算公式如下。表5.2單因素方差分析的計算公式變異來源離均差平方和(SS)自由度〔)均方(MS)F總變異N-1組間變異k-1組內變異N-k*C為校正數3、分析步驟〔以例說明〕:例5.1某軍區總醫院欲研究A、B、C三種降血脂藥物對家兔血清腎素血管緊張素轉化酶〔ACE〕的影響,將26只家兔隨機分為四組,均喂以高脂飲食,其中三個試驗組,分別給予不同的降血脂藥物,對照組不給藥。一定時間后測定家兔血清ACE濃度〔u/ml〕,如表5.1,問四組家兔血清ACE濃度是否相同?本例的初步計算結果見表5.1下部,方差分析的計算步驟為1〕建立檢驗假設,確定檢驗水準H0:四組家兔的血清ACE濃度總體均數相等,μ1=μ2=μ3=μ4H1:四組家兔的血清ACE濃度總體均數不等或不全相等,各μi不等或不全相等α=0.052〕計算統計量F值按表5.2所列公式計算有關統計量和F值=5515.3665ν總=N-1=26-1=25ν組間=k-1=4-1=3ν組內=N-K=26-4=22表5.3例5.1的方差分析表變異來源總變異8445.787625組間變異5515.366531838.455513.80組內變異2930.421122133.20233〕確定P值,并作出統計推斷以=3和=22查F界值表〔方差分析用〕,得P<0.01,按0.05水準拒絕H0,接受H1,可認為四總體均數不同或不全相同。注意:根據方差分析的這一結果,還不能推斷四個總體均數兩兩之間是否相等。如果要進一步推斷任兩個總體均數是否相同,應作兩兩比擬,見本章第四節。第三節隨機區組設計的兩因素方差分析〔two-wayANOVA〕1、用途:用于隨機區組設計的多個樣本均數比擬,其統計推斷是推斷各樣本所代表的各總體均數是否相等。隨機區組設計考慮了個體差異的影響,可分析處理因素和個體差異對實驗效應的影響,所以又稱兩因素實驗設計,比完全隨機設計的檢驗效率高。該設計是將受試對象先按配比條件配成配伍組〔如動物實驗時,可按同窩別、同性別、體重相近進行配伍〕,每個配伍組有三個或三個以上受試對象,再按隨機化原那么分別將各配伍組中的受試對象分配到各個處理組。值得注意的是,同一受試對象不同時間〔或部位〕重復屢次測量所得到的資料稱為重復測量數據〔repeatedmeasurementdata〕,對該類資料不能應用隨機區組設計的兩因素方差分析進行處理,需用重復測量數據的方差分析。2、計算公式:隨機區組設計的兩因素方差分析是把總變異中的離均差平方和SS與自由度分別分解成處理間、區組間和誤差三局部,其計算公式見表5.4。表5.4兩因素方差分析的計算公式變異來源離均差平方和自由度均方總N-1處理間k-1區組間b-1誤差*#b區組數3、分析步驟〔以例說明〕:例5.2某醫師研究A、B和C三種藥物治療肝炎的效果,將32只大白鼠感染肝炎后,按性別相同、體重接近的條件配成8個配伍組,然后將各配伍組中4只大白鼠隨機分配到各組:對照組不給藥物,其余三組分別給予A、B和C藥物治療。一定時間后,測定大白鼠血清谷丙轉氨酶濃度〔IU/L〕,如表5.5。問四組大白鼠的血清谷丙轉氨酶是否相同。表5.5四組大白鼠血清谷丙轉氨酶濃度〔IU/L〕區組對照組試驗組合計A藥組B藥組C藥組1845.1652.4624.3445.12566.92834.7741.3772.3432.52780.83826.5675.6632.5362.72497.34812.8582.8473.6348.72217.95782.8491.8462.8345.92083.36745.6412.2431.8312.81902.47730.4494.6484.9296.32006.28684.3379.5380.7228.41672.96262.24430.24262.92772.417727.7()782.78553.78532.86346.55553.99()4925110.042571668.142391246.57995764.1410883788.89()本研究的主要目的在于比擬不同治療方法的效果,同時還可以比擬不同區組間大鼠血清谷丙轉氨酶濃度是否相同。計算步驟為1〕建立檢驗假設,確定檢驗水準H0:四組大白鼠的血清谷丙轉氨酶濃度含量相同,μ1=μ2=μ3=μ4H1:各處理組的血清谷丙轉氨酶濃度含量不同或不全相同,各μi不等或不全相等H0:各區組的血清谷丙氨酶含量相同H1:各區組的血清谷丙氨酶含量不同或不全相同均等于0.052〕計算統計量F值按表5.4中公式計算各統計量。本例的初步計算結果見表5.5下半部。ν總=N-1=32-1=31ν處理=k-1=4-1=3ν區組=b-1=8-1=7ν誤差=(k-1)(b-1)=(4-1)(8-1)=21列方差分析表,見表5.6。表5.6例5.2的方差分析表變異來源總變異1062809.287031處理間變異766562.77843255520.9261102.798區組間變異244047.7597734863.965714.026誤差52198.7489212485.65473〕確定P值并作出統計推斷以=3,=21查F界值表,得F0.01(3,21)=4.87。本例F=102.798>F0.01(3,21),P<0.01,按=0.05水準拒絕H0,接受H1,可認為各處理組大白鼠的血清谷丙轉氨酶含量不同或不全相同。如果要進一步推斷任兩個總體均數是否相同,應作兩兩比擬,見本章第四節。以=7,=21查F界值表,得F0.01(7,21)=3.65。本例F=14.026>F0.01(7,21),P<0.01,按=0.05水準拒絕H0,接受H1,可認為各區組大白鼠的血清谷丙轉氨酶含量不同或不全相同。第四節多個樣本均數間的多重比擬當方差分析的推斷結果為拒絕H0,接受H1,各總體均數不同或不全相同時,不能說明各總體均數兩兩之間是否不同,為此,可在方差分析的根底上,利用方差分析得到的信息,對均數進一步作兩兩比擬,也稱多重比擬〔multiplecomparisons〕。均數間兩兩比擬的方法有多種,本節僅介紹Newman-Keuls檢驗和最小顯著差〔LSD〕t檢驗。1、Newman-Keuls檢驗亦稱Student-Newman-Keuls〔SNK〕檢驗,簡稱q檢驗。q統計量計算公式為〔5.12〕式中、分別為兩比照組的樣本均數;為兩比照組樣本均數差值的標準誤,假設兩比照組樣本含量相同,即nA=nB=n,其計算公式為式5.13,否那么計算公式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 頸椎個案護理
- 網織紅細胞教學
- 2025年北京老年醫院面向2025年應屆畢業生招聘(第二批)2人考前自測高頻考點模擬試題附答案詳解(奪分金卷)
- 2025年北京教育融媒體中心招聘工作人員(17人)模擬試卷及參考答案詳解
- 2025年北京教育融媒體中心招聘工作人員(17人)考前自測高頻考點模擬試題附答案詳解(突破訓練)
- STER手術護理配合
- 2025年小學語文教師面試試講真題及解析《比尾巴》
- 2025年高中語文人教版選修《中國小說欣賞》檢測(十二)《長恨歌》-圍爐夜話 含解析
- r軟件作圖題目及答案
- 2022法考題目及答案
- 醫療成品審核放行單
- NB/T 11462-2023帶式輸送機用液壓卷帶裝置
- SL+258-2017水庫大壩安全評價導則
- 幼兒園資助自查報告及整改措施
- DZ∕T 0200-2020 礦產地質勘查規范 鐵、錳、鉻(正式版)
- 統一戰線基本理論方針政策課件
- 綠色建筑空間聲環境質量驗收標準(征求意見稿)陜西
- 臨夏州和政縣招聘專職社區工作者筆試真題2023
- 《TypeScript入門與全棧式網站開發實戰》 教學大綱
- 高血壓指南課件
- 喬丹體育侵權案例
評論
0/150
提交評論