



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、科研設計的統計學原則科研設計的統計學原則高月求高月求實驗設計實驗設計 實驗(實驗(Experiment)指由研究者主動地決定給予)指由研究者主動地決定給予部分實驗對象某種處理,給予另一部分對象某種部分實驗對象某種處理,給予另一部分對象某種對照處理的研究設計形式,這種處理的分配常常對照處理的研究設計形式,這種處理的分配常常是隨機的。是隨機的。 實驗設計(實驗設計(Experimental design)是通過對象)是通過對象的選擇、處理因素的合理分配、結果指標的準確的選擇、處理因素的合理分配、結果指標的準確測量和恰當的資料分析來提高組與組間非處理因測量和恰當的資料分析來提高組與組間非處理因素的一
2、致性,使實驗結果有較好的可比性,并且素的一致性,使實驗結果有較好的可比性,并且較好地控制誤差,用較小的樣本獲取可靠的結論。較好地控制誤差,用較小的樣本獲取可靠的結論。實驗設計三要素實驗設計三要素 處理處理 對象對象 效應效應 降壓藥降壓藥 高血壓病人高血壓病人 血壓值血壓值處理處理 處理(處理(treatment):研究者根據研究目的):研究者根據研究目的欲施加或欲觀察的,能作用于受試對象并欲施加或欲觀察的,能作用于受試對象并引起效應的因素。引起效應的因素。 非處理因素:相應的也能使受試對象產生非處理因素:相應的也能使受試對象產生效應的因素,又稱混雜因素效應的因素,又稱混雜因素(confoun
3、ding factor)。 處理因素要標準化,處理水平始終一致。處理因素要標準化,處理水平始終一致。對象對象(subjects) 指根據研究目的確定的觀察對象(動物或指根據研究目的確定的觀察對象(動物或人體),必須具備同質性和代表性人體),必須具備同質性和代表性 1)動物的選擇:種類、品系、年齡、性別、)動物的選擇:種類、品系、年齡、性別、體重、營養體重、營養 2)人的選擇:診斷明確、依從性好,反映)人的選擇:診斷明確、依從性好,反映主觀感覺主觀感覺效應效應(effect)是處理因素作用于受試對象的反應和結果,通過觀察指標表是處理因素作用于受試對象的反應和結果,通過觀察指標表達。指標要求:達。
4、指標要求: 1)客觀性:主觀指標和客觀指標。)客觀性:主觀指標和客觀指標。 2)精確性:)精確性: 準確度準確度(accuracy):觀察值與真值的接近程度,受系:觀察值與真值的接近程度,受系統誤差的影響。統誤差的影響。 精密度精密度(precision):重復觀察時觀察值與其均值的接:重復觀察時觀察值與其均值的接近程度,受隨機誤差的影響;近程度,受隨機誤差的影響; 3)靈敏性)靈敏性(sensitivity):表示指標檢出真陽性的能力,可:表示指標檢出真陽性的能力,可減少假陰性率。減少假陰性率。 4)特異性)特異性(specificity):表示指標檢出真陰性的能力,減表示指標檢出真陰性的能
5、力,減少假陽性率。少假陽性率。實驗誤差及其特點實驗誤差及其特點 在實驗中,由于實驗對象自身特點、實驗在實驗中,由于實驗對象自身特點、實驗條件的變化和實驗結果測量的不確定性造條件的變化和實驗結果測量的不確定性造成實驗結果與真值的差別稱實驗誤差成實驗結果與真值的差別稱實驗誤差(Experimental error)。根據統計分析上)。根據統計分析上的處理不同,實驗誤差分成兩類:的處理不同,實驗誤差分成兩類: 隨機誤差(隨機誤差(Random error) 非隨機誤差非隨機誤差 隨機誤差(隨機誤差(Random error) 隨機誤差是由大量的、微小的、偶然因素隨機誤差是由大量的、微小的、偶然因素引
6、起的不易控制的誤差。如在實驗中,溫引起的不易控制的誤差。如在實驗中,溫度、濕度、風向、振動、試劑、儀器、操度、濕度、風向、振動、試劑、儀器、操作員等都可能造成結果的偏差。作員等都可能造成結果的偏差。 隨機變異是沒有傾向性的,在大量觀察條隨機變異是沒有傾向性的,在大量觀察條件下,隨機誤差的分布呈標準正態分布。件下,隨機誤差的分布呈標準正態分布。隨機誤差的規律可以用統計方法分析。隨機誤差的規律可以用統計方法分析。非隨機誤差非隨機誤差 又稱偏倚(又稱偏倚(bias)或系統誤差()或系統誤差(Systematic error) 由于在對象選擇、處理因素分配的不隨機、測量結果的不由于在對象選擇、處理因素
7、分配的不隨機、測量結果的不準確造成實驗結果有傾向性地偏離稱之。(無統計規律、準確造成實驗結果有傾向性地偏離稱之。(無統計規律、可預防、務必控制)可預防、務必控制) (1)選擇偏倚選擇偏倚(Selection bias):指在選擇研究對象和分組:指在選擇研究對象和分組時的非隨機化,造成結果的偏倚。如肝癌手術治療與化療時的非隨機化,造成結果的偏倚。如肝癌手術治療與化療的療效比較中,由于手術對象的選擇性造成有利于手術組的療效比較中,由于手術對象的選擇性造成有利于手術組的結果。的結果。 (2)信息偏倚(信息偏倚(Information bias):指測量方面的誤差,):指測量方面的誤差,特別是主觀因素
8、造成的有傾向性的偏倚。如在臨床試驗中,特別是主觀因素造成的有傾向性的偏倚。如在臨床試驗中,實驗組是在醫院測量,對照組是在家中測量。實驗組是在醫院測量,對照組是在家中測量。 (3)混雜偏倚(混雜偏倚(Confounding):指實驗組與對照組在一):指實驗組與對照組在一些影響實驗結果的非處理因素不均衡造成結果的偏倚。如些影響實驗結果的非處理因素不均衡造成結果的偏倚。如病情輕重、并發癥、輔助治療和護理等因素不均衡。病情輕重、并發癥、輔助治療和護理等因素不均衡。實驗設計的原則實驗設計的原則 對照(對照(Control) 隨機化(隨機化(Randomization) 重復(重復(Replication
9、) 盲法(盲法(blind method) 對照(對照(Control)指設立對照組以排除非處理因素而顯示出處理的效指設立對照組以排除非處理因素而顯示出處理的效應。應。處理組處理組 處理因素處理因素+非處理因素非處理因素=處理和非處理的效應處理和非處理的效應對照組對照組 非處理因素非處理因素= 非處理因素的效應非處理因素的效應對比對比 處理因素處理因素 =處理效應處理效應 對照組設置的三個條件:對照組設置的三個條件: 對等:除處理因素外,兩組對等的非處理因素對等:除處理因素外,兩組對等的非處理因素 同步:兩組始終處于同一空間和同一時間同步:兩組始終處于同一空間和同一時間 專設:對照組專門設立,
10、一般不能以文獻為對照專設:對照組專門設立,一般不能以文獻為對照(有時可與(有時可與“常模常模”比較)比較)隨機化(隨機化(Randomization) 隨機原則是指隨機原則是指“機會均等機會均等”,最簡單的方,最簡單的方法是抽簽法是抽簽 隨機隨機隨便,任何隨便都不是隨機的隨便,任何隨便都不是隨機的 隨機化類型隨機化類型 隨機抽樣:每個個體有同等的機會被抽中隨機抽樣:每個個體有同等的機會被抽中 分組隨機:每個實驗對象分配到不同處理分組隨機:每個實驗對象分配到不同處理組的機會相同組的機會相同 隨機順序:每個實驗對象接受處理先后的隨機順序:每個實驗對象接受處理先后的機會相同機會相同重復(重復(Rep
11、lication) 重復是指在相同實驗條件下進行多次研究重復是指在相同實驗條件下進行多次研究或多次觀察,以提高實驗的可靠性與科學或多次觀察,以提高實驗的可靠性與科學性。性。 廣義地講,重復包括:整個實驗的重復、廣義地講,重復包括:整個實驗的重復、用多個實驗單位進行重復、同一實驗單位用多個實驗單位進行重復、同一實驗單位的重復觀察。的重復觀察。 決定重復性的關鍵是樣本含量,故常將重決定重復性的關鍵是樣本含量,故常將重復性簡化為復性簡化為“樣本含量樣本含量”盲法(盲法(blind method) 按實驗方案規定,盡量不讓參與臨床實驗的受試按實驗方案規定,盡量不讓參與臨床實驗的受試者、研究者、醫務人員
12、、監視員、數據管理和統者、研究者、醫務人員、監視員、數據管理和統計分析人員知道患者接受何種治療。計分析人員知道患者接受何種治療。 單盲法(單盲法(single blind)指受試者不知道自己屬于)指受試者不知道自己屬于試驗組還是對照組試驗組還是對照組 雙盲法(雙盲法(double blind)指受試者和試驗醫務人)指受試者和試驗醫務人員都不知道病人屬于試驗組還是對照組員都不知道病人屬于試驗組還是對照組 非盲法非盲法(open label): 采用單盲或非盲法試驗應在采用單盲或非盲法試驗應在研究方案中申述理由。研究方案中申述理由。 盲法的原則應自始至終地貫徹于整個試驗之中盲法的原則應自始至終地貫
13、徹于整個試驗之中 針對研究類型選擇適當的研究設計 類型目的首選的研究設計治療研究檢驗各種干預措施如藥物治療、介入或外科手術的效果隨機對照臨床試驗診斷研究評估新的診斷方法的有效性和可行性橫斷面調查(須同時進行新方法和金標準方法檢驗)預后研究了解確診病人以后可能發生的情況縱向隊列研究因果關系研究評估有害因素與疾病發生是否有關隊列研究或病例-對照研究,病例報告亦有用篩選研究評估適于大規模人群檢驗和在疾病呈現癥狀早期檢出該病的各種檢查方法橫斷面調查隨機對照臨床試驗(RCT)n適用RCT解決的臨床問題 對某一疾病,研究藥物在效果上是否優于安慰劑或另一種藥物(對照藥)? 新的手術方法是否優于傳統方法? 改
14、變生活習慣是否會影響病人血壓水平?RCT的優點n在選定的病人組群中,可嚴格評價單一變量的效果n前瞻性設計n應用假設推導進行推理n消除偏倚:比較基線指標相同的兩個組n可作薈萃分析和系統性評價 RCT被認為是臨床科研的“金標準”RCT的缺點n 耗費又耗時:無法完成、樣本量不足、研究時間太短n 多數由研究機構或藥廠(公司)資助,難免不會影響公正n 常使用“替代終點”n 可出現“潛在的偏倚” 隨機化不完善 未對所有合格病人進行隨機化分配 未避免資料評價人員知道病人隨機情況n 其他 排除標準的偏倚 入選標準的偏倚 不適合進行RCT:n預后研究 適于縱向隊列研究n篩查研究 適于橫斷面研究n“保健質量”研究
15、:尚未確定“成功”標準,適于定性研究方法隊列研究 選擇2組,暴露于某種特定物質(藥物、疫苗、環境致病物等)不同的人群,隨訪,觀察每組發生特定疾病結局或人數。 研究對象為可能發病或不發病者。 關注的是病因,而非疾病治療適合采用隊列研究的臨床問題n吸煙導致肺癌嗎?n高血壓隨著時間推移會變好嗎?n避孕藥導致“乳腺癌”嗎?n早產兒在以后的生長發育和學習成績上情況如何?病例-對照研究 確定有某種特定疾病的病人并與對照組進行匹配,收集其暴露于某種可疑致病因子的資料。 關注的是病因而非疾病治療。 對于罕見病的研究可能是唯一選擇。橫斷面調查 對某一研究對象中的代表性樣本(或病人)進行訪問、檢查或研究以獲得對某
16、一特定臨床問題的答案。 資料在單一時間點收集,但可回顧性追溯過去有關健康方面的經歷。病例報告 以故事方式描述單一患者病史。可綜合形成病例系列,以描述一個以上患有某一特殊情況患者的病史,闡述此種情況的某個方面、治療情況或對治療之不良反應。病例報告之優點n可以傳遞大量在臨床試驗中或調查中可能丟失的信息n易被普通醫師或大眾理解n易于完成(數天內)統計工作的步驟統計工作的步驟 第一步設計(design): 第二步收集資料(collection of data): 第三步整理資料(sorting data): 第四步分析資料(analysis of data):設計(設計(design) 首先明確研究目
17、的首先明確研究目的, 根據研究目的,從統計角度對資料的根據研究目的,從統計角度對資料的搜集、整理和分析全過程提出全面具體的計劃和要求,作搜集、整理和分析全過程提出全面具體的計劃和要求,作為統計工作實施的依據,以便用盡可能少的人力、物力和為統計工作實施的依據,以便用盡可能少的人力、物力和時間獲得準確可靠的結論。時間獲得準確可靠的結論。 1、明確對象、明確對象 2、明確取得原始資料的方法、明確取得原始資料的方法 3、如何整理資料、如何整理資料 4、計算哪些指標、計算哪些指標 5、用何種統計推斷方法、用何種統計推斷方法 6、預測結果、預測結果搜集資料搜集資料 搜集及時、準確、完整地搜集原始資料是統計
18、工搜集及時、準確、完整地搜集原始資料是統計工作最重要的一步,它直接關系著統計結論的質量。作最重要的一步,它直接關系著統計結論的質量。 統計資料的來源主要有:統計資料的來源主要有: 1、報表資料。、報表資料。 2、醫療、預防機構的日常工作記錄。、醫療、預防機構的日常工作記錄。 3、專題研究實驗數據和現場調查資料。、專題研究實驗數據和現場調查資料。整理資料(整理資料(sorting of data) 整理資料又稱統計歸納:是把搜集到的資整理資料又稱統計歸納:是把搜集到的資料進行適當的分組,把性質相同的資料歸料進行適當的分組,把性質相同的資料歸納到一起,用表格或圖形的方式展示出來,納到一起,用表格或
19、圖形的方式展示出來,以反映研究對象的規律性。以反映研究對象的規律性。 1、審核資料、審核資料 2、設計分組:質量分組和數量分組、設計分組:質量分組和數量分組 3、擬整理表、擬整理表 4、歸納匯總、歸納匯總分析資料分析資料 分析資料資料的分析過程是通過計算有關的統計分析資料資料的分析過程是通過計算有關的統計指標,對資料進行概括的、全面的描述,以及從指標,對資料進行概括的、全面的描述,以及從樣本信息推斷總體特征,分析資料就是從獲取的樣本信息推斷總體特征,分析資料就是從獲取的資料中抽取有關信息的過程。資料中抽取有關信息的過程。 1、統計指標的計算、統計指標的計算 2、統計圖表的繪制、統計圖表的繪制
20、3、估計總體參數、估計總體參數 4、進行假設檢驗、進行假設檢驗 5、回歸與相關、回歸與相關 6、多元分析、多元分析統計資料的類型統計資料的類型v 計量資料計量資料 v 計數資料計數資料v 等級資料等級資料 計量資料(計量資料(measurement data)measurement data) 通過對觀察單位測量取得數值,其值一般有度量衡單位。 如身高、體重、血壓、脈搏、白細胞空氣中二氧化碳含量等。此類資料具有計量單位,各觀察單位常有量的差別。分析計量資料常用平均數、標準差、t檢驗、方差分析、相關與回歸分析等。 計數資料計數資料(enumeration data)(enumeration da
21、ta) 將觀察單位按某種屬性或類別分組,然后清點各組的觀察單位數。 如性別、血型、民族、職稱、某病的治愈和未愈數等。分屬于各組的觀察單位間有質的差別,不同質的觀察單位不能歸在同一組內。分析計數資料常用率、構成比、x2檢驗等。 將觀察單位按某種屬性的不同程度分組,然后清點各組的觀察單位數。 如療效可分為治愈、顯效、好轉、無效;尿蛋白化驗結果分為-、 + 、+ 、+等。這類資料具有計數資料的性質,但所分各組又是按一定順序如由輕到重、由小到大排列的。分析等級資料常用率、構成比、秩和檢驗等。等級資料等級資料 (ranked data)ranked data)醫學統計中的幾個基本概念醫學統計中的幾個基本
22、概念 數據與變量 總體和樣本 隨機化 統計量與參數 抽樣誤差 概率 變量(variable) 具有變異性的數據稱為變量。 1數值變量(numerical variable) :為連續變量,如身高、體重、血壓等。數值變量均可通過對觀察單位測量取得數值,其值一般有度量衡單位。數值變量資料也稱作計量資料。 2分類變量(categorical variable) :可能取值是離散的,表現為互不相容的類別。比如性別、血型、民族、職稱等。分類變量資料又稱為計數資料。分類變量有兩種:無序分類變量和有序分類變量 總體與樣本總體與樣本 總體(population):是根據研究目的確定的同質的觀察單位的某個變量值
23、的全體。分有限總體和無限總體 。 樣本(sample):通常是從總體中隨機抽取有代表性的一部分觀察單位。注意其代表性 和可靠性。抽樣誤差抽樣誤差(sampling errorsampling error) 用于描述樣本特征的指標稱為統計量,而用于描述總體特征的指標稱為參數。 我們把由隨機抽樣引起的樣本指標與總體指標的差異稱為抽樣誤差。 由于個體變異的普遍存在,抽樣誤差是不可避免的。只要遵循隨機化的原則,抽樣誤差的大小就可以用統計方法進行估計。一般情況下樣本越大,抽樣誤差越小,反映事物客觀規律的準確性越高,反之,樣本越小,抽樣誤差越大。 概率(概率(probability) 描述隨機事件發生的可
24、能性大小的數值稱概率。 隨機事件的概率隨機事件的概率P取值在取值在0 1之間,之間,P越接近越接近1,說明某事,說明某事件發生的可能性越大;件發生的可能性越大;P越接近越接近0,說明某事件發生的可能性,說明某事件發生的可能性越小。越小。 如果某事件的概率如果某事件的概率P=0,表示該事件不可能發生,稱其為,表示該事件不可能發生,稱其為不可能事件;如果不可能事件;如果P=1,表示該事件必然發生,稱其為必然,表示該事件必然發生,稱其為必然事件。事件。 隨機事件是可能發生也可能不發生的事件。如果某隨機隨機事件是可能發生也可能不發生的事件。如果某隨機事件發生的概率事件發生的概率P0.05,或,或P0.
25、01表示該事件發生的可能表示該事件發生的可能性很小,我們稱其為小概率事件。其意義為在一次試驗中不性很小,我們稱其為小概率事件。其意義為在一次試驗中不發生事件。發生事件。 數值變量資料的統計描述數值變量資料的統計描述 統計圖表統計圖表 統計指標統計指標 平均數平均數v 均數v 幾何均數v 中位數和百分數均數均數(meanmean) 均數是算術平均數均數是算術平均數 (arithmetic mean)(arithmetic mean)的簡的簡稱。總體均數用希臘字母稱。總體均數用希臘字母( )表示,樣本均數表示,樣本均數用用( )表示。表示。 1 1、應用條件、應用條件:均數反映同質的一組觀察:均數
26、反映同質的一組觀察值在數量上的平均水平,樣本所代表總體為正值在數量上的平均水平,樣本所代表總體為正態分布。態分布。 x2 2、計算方法:、計算方法: (1)直接法直接法 當樣本中觀察值個數不多時,通常可用直接法,公式當樣本中觀察值個數不多時,通常可用直接法,公式為:為:式中式中是希臘字母,讀作是希臘字母,讀作sigma ,為求和的符號。,為求和的符號。 nxx(2)加權法加權法當觀察值個數較多時。通常可用加權法,公式為:當觀察值個數較多時。通常可用加權法,公式為:式中式中X為各組的組中值,組中值等于該組的上限加為各組的組中值,組中值等于該組的上限加下限之和除以下限之和除以2。 f為各組的頻數,
27、它相當于為各組的頻數,它相當于權數權數權衡了各組中值由于頻數不同對均數的影響,故權衡了各組中值由于頻數不同對均數的影響,故本法也稱為加權法。本法也稱為加權法。nfxx幾何均數(geometric mean) geometric mean) 1 1、應用條件、應用條件: 觀察的數據是呈倍數關系的資料觀察的數據是呈倍數關系的資料 ,采用幾何均數,采用幾何均數簡記為(簡記為( G)表示其平均水平。)表示其平均水平。 2 2、計算方法:、計算方法:如果觀察的數據個數不多可以采用直接算法。如果觀察的數據個數不多可以采用直接算法。公式為:公式為: 如果樣本量很大,或只掌握頻數表資料可以按下式計算分組資料如
28、果樣本量很大,或只掌握頻數表資料可以按下式計算分組資料的幾何均數。公式為:的幾何均數。公式為:)lg(lg1nxG)lg(lg1nxfG百分位數(percentile)(percentile) 百分位數是一種位置指標,用于描述一組觀察百分位數是一種位置指標,用于描述一組觀察值在某百分位置上的水平。第百分位數以值在某百分位置上的水平。第百分位數以 PX表示表示。 PX 是一個數,其意義是將某變量的觀察值按從是一個數,其意義是將某變量的觀察值按從小到大的順序排列,比小到大的順序排列,比PX 小的觀察值的個數占小的觀察值的個數占x%,比,比 PX 大的觀察值的個數占(大的觀察值的個數占(100-x)
29、%。 百分位數用于描述觀察值序列在某百分位位置百分位數用于描述觀察值序列在某百分位位置的水平,公式為:的水平,公式為: 中位數簡記為中位數簡記為M M,中位數是一個位置指標,用于中位數是一個位置指標,用于描述一組資料的平均水平,其含義是將一組觀察值描述一組資料的平均水平,其含義是將一組觀察值按從小到大的順序排列,位置居中的數就是中位數按從小到大的順序排列,位置居中的數就是中位數,中位數即第中位數即第50百分位數。公式為:百分位數。公式為: 應用條件為:應用條件為: 分布呈明顯偏態;分布呈明顯偏態; 分布的一端或兩端無確定數值;分布的一端或兩端無確定數值; 分布不清等資料。分布不清等資料。中位數
30、(medianmedian))2(50CnfiLpxu極差(R)u四分位間距(Q) u標準差(S)u變異系數(CV)u標準誤(SE) 變異指標變異指標 極差簡記為(極差簡記為(R)又稱全距。是一組觀察)又稱全距。是一組觀察值中最大值與最小值之差。值中最大值與最小值之差。 四分位數,簡記為(四分位數,簡記為(Q)是特定的百分位)是特定的百分位數,是上四分位數與下四分位數之差。可以數,是上四分位數與下四分位數之差。可以看成是全部觀察值的位于中間的一半的極差看成是全部觀察值的位于中間的一半的極差。 Q=P75-P25極差(極差(rangerange)和四分位間距(和四分位間距(quartilequa
31、rtile)標準差標準差(standard deviation)(standard deviation) 標準差每個觀察值到均數的平均距離,總體標準差用希臘字母( )表示,樣本標準差用( )表示。1、應用條件:反映同質的一組觀察值在數量 上的變異程度,樣本所代表總體為正態分布。s2、計算方法:、計算方法:(1)直接法直接法 當樣本中觀察值個數不多時,通常可用直接法,公當樣本中觀察值個數不多時,通常可用直接法,公式為:式為:(2)加權法加權法當觀察值個數較多時。通常可用加權法,公式為:當觀察值個數較多時。通常可用加權法,公式為:1)(1)(222nnXXnXXs3 3、標準差應用、標準差應用v
32、標準差的大小反應變異程度的大小,標準 差大 ,表示變異程度大,即觀察值較分散,反之則表示變異程度小,較集中。v 結合均數確定醫學參考值范圍。v 結合均數計算變異系數。v 計算標準誤。 當兩組資料單位不同或均數相差較大時,變異大小不能當兩組資料單位不同或均數相差較大時,變異大小不能直接用標準差進行比較,應計算標準差對均數的百分比,即直接用標準差進行比較,應計算標準差對均數的百分比,即變異系數變異系數(coefficient of variation, 簡記為簡記為CV)。公式為:公式為: 當觀察值為統計量時,描述其變異程度的大小用標準誤當觀察值為統計量時,描述其變異程度的大小用標準誤(stand
33、ard error簡記為簡記為SE)。)。 公式為:公式為: 變異系數和標準誤變異系數和標準誤%100XSCVnSSxnppSp)1( 計量資料的統計推斷計量資料的統計推斷 ( (總體均數的估計與假設檢驗總體均數的估計與假設檢驗) )v均數的抽樣誤差與標準誤均數的抽樣誤差與標準誤v總體均數估計總體均數估計v假設檢驗假設檢驗v抽樣研究抽樣研究:由樣本推斷總體的過程。v抽樣誤差抽樣誤差:由抽樣引起的樣本指標與總體指標的差異稱為抽樣誤差。抽樣誤差是不可避免的,但只要樣本是隨機抽取的,就可以用統計方法來估計它的大小。均數的抽樣誤差與標準誤均數的抽樣誤差與標準誤v均數標準誤均數標準誤:樣本均數變異程度的
34、大小,反映了均數的抽樣誤差的大小。我們以樣本均數的標準差作為衡量均數抽樣誤差大小的尺度,即均數的標準誤。公式為:nSSxv均數標準誤和標準差相同,都是說明變異程度大小的指標。不同的是標準差表示的是某變量個體觀察值變異程度的大小,而標準誤表示的是樣本均數變異程度的大小。樣本含量越小,抽樣誤差越大,即標準誤越大;反之樣本含量越大,抽樣誤差越小,即標準誤越小。根據研究設計類型選擇分析方法 在成組比較設計中,若是兩組比較在成組比較設計中,若是兩組比較需要應用需要應用t檢驗或檢驗或X2檢驗。多組比較需檢驗。多組比較需應用方差分析、行應用方差分析、行列表列表X2檢驗或分級檢驗或分級的分析方法。的分析方法。
35、成組比較的設計成組比較的設計 把除處理因素外,其他條件基本相似的受試對象把除處理因素外,其他條件基本相似的受試對象配成對子,每對中的兩個隨機分配到兩個處理組。配成對子,每對中的兩個隨機分配到兩個處理組。 在同一受試對象上進行兩種不同的處理。上述在同一受試對象上進行兩種不同的處理。上述 兩兩種情況其目的是推斷兩種處理的效果有無差別。種情況其目的是推斷兩種處理的效果有無差別。 在某項處理前后觀察受試對象的某指標值,通過在某項處理前后觀察受試對象的某指標值,通過處理前后該指標值的差推斷該處理是否有效。處理前后該指標值的差推斷該處理是否有效。 這種類型的設計需要按照配比的這種類型的設計需要按照配比的t
36、檢驗,檢驗,X2檢驗及檢驗及配對的病例對照研究方法進行數據分析。配對的病例對照研究方法進行數據分析。配對設計配對設計重復測量的設計重復測量的設計 這類設計方法是在給定一個處理因素這類設計方法是在給定一個處理因素后在不同的時間重復測量某一效應變量的后在不同的時間重復測量某一效應變量的改變情況。如欲評價生物制品接種后的免改變情況。如欲評價生物制品接種后的免疫學效果,在接種后的疫學效果,在接種后的2周、周、4周、周、6周和周和8周測定抗體滴度,即為此類設計類型。對周測定抗體滴度,即為此類設計類型。對于這種設計類型的數據需應用重復測量的于這種設計類型的數據需應用重復測量的方差分析方法進行數據的分析。方
37、差分析方法進行數據的分析。多因素設計多因素設計 若在研究設計中有多個自變量,則可根若在研究設計中有多個自變量,則可根據因變量的性質選擇合適的多因素分析方法。據因變量的性質選擇合適的多因素分析方法。如果自變量是數值變量,則可考慮應用多元如果自變量是數值變量,則可考慮應用多元回歸分析方法、協方差分析方法。如果是分回歸分析方法、協方差分析方法。如果是分類變量,則可選擇類變量,則可選擇logistic回歸分析方法、判回歸分析方法、判別分析方法及聚類分析方法等。別分析方法及聚類分析方法等。 根據變量的類型選擇分析方法 區別與明確研究的因變量和自變量具有重要區別與明確研究的因變量和自變量具有重要的流行病學
38、與生物統計學意義,首先它有助的流行病學與生物統計學意義,首先它有助于選擇擬研究的變量,對調查表的設計具有于選擇擬研究的變量,對調查表的設計具有指導作用。指導作用。 其次數據分析階段可以指導數據分析方法的其次數據分析階段可以指導數據分析方法的選擇及模型的建立。若因變量是分類變量,選擇及模型的建立。若因變量是分類變量,則常考慮應用分類變量的分析方法,如卡方則常考慮應用分類變量的分析方法,如卡方檢驗,檢驗,logistic回歸分析等。如果因變量是數回歸分析等。如果因變量是數值變量,則考慮應用數值變量的分析方法如值變量,則考慮應用數值變量的分析方法如t檢驗、方差分析,協方差分析、多元回歸等。檢驗、方差
39、分析,協方差分析、多元回歸等。同時明確自變量與因變量可以建立正確的統同時明確自變量與因變量可以建立正確的統計學分析模型。計學分析模型。 因變量應該放在模型的左側,自變量則放在模型因變量應該放在模型的左側,自變量則放在模型的右側。的右側。 例如欲評價不同治療方法(口服藥物、注射胰島例如欲評價不同治療方法(口服藥物、注射胰島素及膳食控制)對糖尿病人的治療效果(血糖水素及膳食控制)對糖尿病人的治療效果(血糖水平),在分析時要求調整病人的性別、年齡和病平),在分析時要求調整病人的性別、年齡和病程的影響。對本例的處理需要進行協方差分析,程的影響。對本例的處理需要進行協方差分析,在應用在應用SAS進行分析
40、時,要將血糖水平(因變量)進行分析時,要將血糖水平(因變量)放在模型的左則,而治療方法或其它協變量放在模型的左則,而治療方法或其它協變量(covariate)即性別、年齡和病程放在模型的右)即性別、年齡和病程放在模型的右側。又如分析脂蛋白(側。又如分析脂蛋白(a)與冠心病發生的關系,)與冠心病發生的關系,則冠心病是否發生為因變量,脂蛋白(則冠心病是否發生為因變量,脂蛋白(a)則為自)則為自變量,不可顛倒這種關系。變量,不可顛倒這種關系。 不同變量類型的數據分析方法選擇因變量自變量數值變量分類變量有序變量數值變量相關分析,多元回歸分析t檢驗,方差分析,協方差分析,多元回歸分析相關分析,多元回歸分
41、析分類變量t檢驗,方差分析,logistic回歸分析,判別分析,聚類分析c2檢驗,logistic回歸分析c2檢驗有序變量方差分析,logistic回歸分析,判別分析,聚類分析c2檢驗,logistic回歸分析相關分析,c2檢驗生存時間生存分析不同研究設計和數據類型的數據分析方法選擇 研究設計類型變量類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯系重復測量的方 差 分析線性回歸,Pearson相關系數 數值變量 t檢驗方差分析配對t檢驗 分類變量 c2檢驗c2檢驗配對c2檢驗列聯表相關系數 有序變量Mann-Whitney秩 和 檢驗Kruskal-Wallis分析Wilcoxon符
42、號秩和檢驗Spearman相關系數 生存時間生存分析數據的分析程序 數據的轉換1 )非正態數據的變量轉換非正態數據的變量轉換 多數的統計學分析方法是建立在數據正態多數的統計學分析方法是建立在數據正態分布的基礎上的,若數據不符合正態分分布的基礎上的,若數據不符合正態分布,則不能夠應用參數檢驗布,則不能夠應用參數檢驗(parametric test)的方法,只能應用非參數檢驗的方法,只能應用非參數檢驗(non-parametric test)的方法,而非參數的方的方法,而非參數的方法不是對原始數據的檢驗,如秩和檢驗法不是對原始數據的檢驗,如秩和檢驗就是非參數檢驗方法之一,它是對原始就是非參數檢驗方
43、法之一,它是對原始數據的秩次數據的秩次(rank)進行檢驗,這樣可能損進行檢驗,這樣可能損失數據信息,降低檢驗效率失數據信息,降低檢驗效率 在對數值變量進行分析時,需首先根據統計分在對數值變量進行分析時,需首先根據統計分析方法析方法/統計分析公式的限制性使用條件對數據統計分析公式的限制性使用條件對數據進行進行“條件條件”檢驗,如正態性檢驗和方差齊性檢驗,如正態性檢驗和方差齊性檢驗等。很多統計學軟件具有方便的正態性檢檢驗等。很多統計學軟件具有方便的正態性檢驗、方差齊性檢驗功能如驗、方差齊性檢驗功能如SAS軟件等軟件等 .若經過檢若經過檢驗數據不符合使用條件,就需要進行數據的變驗數據不符合使用條件
44、,就需要進行數據的變量變換,變換后符合條件就可以應用參數檢驗量變換,變換后符合條件就可以應用參數檢驗的方法,否則,只有應用非參數檢驗的方法。的方法,否則,只有應用非參數檢驗的方法。 數據變量轉換的方法很多,可以根據數據的分數據變量轉換的方法很多,可以根據數據的分布特征,選擇合適的數據轉換方法。常用的方布特征,選擇合適的數據轉換方法。常用的方法有對數變換,平方根變換或倒數變換等。法有對數變換,平方根變換或倒數變換等。 2) 分類變量轉換成啞變量分類變量轉換成啞變量 若分類變量是二分類尺度及順序尺度,則可若分類變量是二分類尺度及順序尺度,則可直接應用其原有的數量化數值,但對于名義直接應用其原有的數
45、量化數值,但對于名義尺度因為各類別間沒有順序關系,在進行不尺度因為各類別間沒有順序關系,在進行不同分析(包括多元分析、同分析(包括多元分析、logistic回歸、回歸、Cox回歸等)時,不能使用原始的計算機錄回歸等)時,不能使用原始的計算機錄入數值,必經進行變量轉換。即將該變量轉入數值,必經進行變量轉換。即將該變量轉換成(水平數換成(水平數-1)個啞變量,再將這些新轉)個啞變量,再將這些新轉換的變量放入多因素模型中。換的變量放入多因素模型中。 t檢驗的應用條件 兩組數據的比較兩組數據的比較 1樣本量比較小(樣本量比較小(n50) 2樣本來自正態總體樣本來自正態總體 3兩樣本總體方差齊同兩樣本總
46、體方差齊同 當兩樣本方差不齊時可以采用當兩樣本方差不齊時可以采用t檢驗,變量檢驗,變量變換,或者秩和檢驗。變換,或者秩和檢驗。方差分析的應用條件 兩組以上數據的比較兩組以上數據的比較 1各樣本是相互獨立的隨機樣本;各樣本是相互獨立的隨機樣本; 2各樣本要來自正態總體;各樣本要來自正態總體; 3要求各個樣本的總體方差齊同。要求各個樣本的總體方差齊同。多個樣本均數間的兩兩比較 NewmanKeuls檢驗,亦稱檢驗,亦稱StudentNewmanKeuls(SNK)檢驗,簡稱檢驗,簡稱q檢驗。檢驗。 最小顯著性差距最小顯著性差距(LSD)t檢驗。檢驗。協方差分析 定量分析中,進行兩個樣本或者多個樣本
47、定量分析中,進行兩個樣本或者多個樣本的均數比較時,不僅需要使用假設檢驗判的均數比較時,不僅需要使用假設檢驗判斷其差異是否具有統計學差異,還應該考斷其差異是否具有統計學差異,還應該考慮他們之間是否存在混雜因素(協變量)慮他們之間是否存在混雜因素(協變量)的影響。若存在協變量,則應該通過協方的影響。若存在協變量,則應該通過協方差分析進行校正。協方差分析是定量變量差分析進行校正。協方差分析是定量變量分析中控制混雜因素的重要手段分析中控制混雜因素的重要手段 影響觀察指標的其他非研究性因素(混雜因影響觀察指標的其他非研究性因素(混雜因素)在統計分析中又稱之為協變量;考慮協變量素)在統計分析中又稱之為協變
48、量;考慮協變量影響的方差分析即為協方差分析。協方差分析是影響的方差分析即為協方差分析。協方差分析是解決以上問題的分析方法,它將線性回歸與方差解決以上問題的分析方法,它將線性回歸與方差分析結合起來,檢驗分析結合起來,檢驗2個或者多個修正均數之間有個或者多個修正均數之間有無差別的假設檢驗方法。一般是先用直線回歸的無差別的假設檢驗方法。一般是先用直線回歸的方法找出各組因變量與協變量之間的數量關系,方法找出各組因變量與協變量之間的數量關系,求得修假定協變量相等時的修正系數,然后用方求得修假定協變量相等時的修正系數,然后用方差分析比較修正均數間的差別。差分析比較修正均數間的差別。協方差分析的條件1各個樣
49、本來自方差齊同的正態總體各個樣本來自方差齊同的正態總體2各組的總體直線回歸系數相同,且都不為各組的總體直線回歸系數相同,且都不為0。協方差分析的判別步驟: 1正態性和方差齊性檢驗;正態性和方差齊性檢驗; 2判斷協變量與因變量有無線性關系;判斷協變量與因變量有無線性關系; 3判斷各組回歸直線是否平行。判斷各組回歸直線是否平行。直線回歸與相關的區別與聯系區別區別直線相關直線相關直線回歸直線回歸變量變量地位地位變量變量 x 變量變量 y 處于處于平等的地位,彼此平等的地位,彼此相關關系相關關系變量變量 y 稱為因變量,處稱為因變量,處在被解釋的地位,在被解釋的地位,x 稱稱為自變量,用于預測因為自變
50、量,用于預測因變量的變化變量的變化變量變量性質性質所涉及的變量所涉及的變量 x 和和 y 都是隨機變量,都是隨機變量,要求兩個變量服從要求兩個變量服從雙變量正態分布雙變量正態分布因變量因變量 y 是隨機變量,是隨機變量,自變量自變量 x 可以是隨機變可以是隨機變量,也可以是非隨機的量,也可以是非隨機的確定變量確定變量實際實際作用作用主要是描述兩個變主要是描述兩個變量之間線性關系的量之間線性關系的密切程度密切程度(相關系數(相關系數無單位)無單位)揭示變量揭示變量 x 對變量對變量 y 的影響大小的影響大小(回歸系數(回歸系數有單位),有單位),還可以由回還可以由回歸方程進行預測和控制歸方程進行
51、預測和控制 多元線性回歸的基本概念 事物間的相互聯系往往是多方面的,在很多情況事物間的相互聯系往往是多方面的,在很多情況下對應變量下對應變量y 發生影響的自變量往往不止一個發生影響的自變量往往不止一個 。多。多元線性回歸的目的就是用一個多元線性回歸方程表元線性回歸的目的就是用一個多元線性回歸方程表示多個自變量和示多個自變量和1個應變量間的關系。個應變量間的關系。mmiixbxbxbxbby 22110標準偏回歸系數表示其他自變量固定的情況下,xi改變一個單位,y平均改變bi個單位。多元線性回歸的應用條件:1. 獨立性:各觀察對象間相互獨立。獨立性:各觀察對象間相互獨立。2. 線性:自變量與應變
52、量間的關系為線性。線性:自變量與應變量間的關系為線性。3. 正態性:自變量取不同值時,應變量的分正態性:自變量取不同值時,應變量的分布為正態。布為正態。4. 方差齊性:自變量取不同值時,應變量的方差齊性:自變量取不同值時,應變量的總體方差相等。總體方差相等。5. 當不符合條件時,可對自變量進行變換。當不符合條件時,可對自變量進行變換。 如:如:23322110)lg(xbxbxbby 要比較各個自變量對于應變量的作用大小,要比較各個自變量對于應變量的作用大小,不能用偏回歸系數,因為各偏回歸系數的單不能用偏回歸系數,因為各偏回歸系數的單位不同。必須把偏回歸系數標準化,化成沒位不同。必須把偏回歸系
53、數標準化,化成沒有單位的標準偏回歸系數有單位的標準偏回歸系數. 消除不同單位的影響后,標準偏回歸系數的消除不同單位的影響后,標準偏回歸系數的絕對值越大,該自變量對于應變量的作用越絕對值越大,該自變量對于應變量的作用越大,但該差別是否有統計意義,也必須經過大,但該差別是否有統計意義,也必須經過檢驗。檢驗。(2) 對各偏回歸系數的顯著性檢驗:對各偏回歸系數的顯著性檢驗: F檢驗與檢驗與 t檢驗檢驗 1. 計算截距和各偏回歸系數。2. 多元回歸方程的顯著性檢驗:(1)整個方程的顯著性檢驗:用方差分析。 逐步回歸分析的目的是建立逐步回歸分析的目的是建立“最優最優”回歸回歸方程。方程。 “最優最優”回歸
54、方程是指包含所有對回歸方程是指包含所有對y有顯著有顯著作用的自變量,而不包含對作用的自變量,而不包含對y作用不顯著的作用不顯著的自變量的方程。自變量的方程。 逐步回歸分析的基本概念逐步回歸分析的基本概念 逐步回歸分析的計算方法 在供選的自變量在供選的自變量Xi中,按其對中,按其對y的作用大小,由的作用大小,由大到小地把自變量逐個引入方程,大到小地把自變量逐個引入方程, 每引入一個自每引入一個自變量就對它作顯著性檢驗,顯著時才引入,而當變量就對它作顯著性檢驗,顯著時才引入,而當新的自變量進入方程后新的自變量進入方程后, 對方程中原有的自變量也對方程中原有的自變量也要作檢驗,并把作用最小且退化為不
55、顯著的自變要作檢驗,并把作用最小且退化為不顯著的自變量逐個剔出方程。因此,逐步回歸的每一步(引量逐個剔出方程。因此,逐步回歸的每一步(引入一個變量或剔除一個變量都稱為一步)前后都入一個變量或剔除一個變量都稱為一步)前后都要作顯著性檢驗,以保證每次引入新變量前方程要作顯著性檢驗,以保證每次引入新變量前方程中只包含作用顯著的自變量。這樣一步步進行下中只包含作用顯著的自變量。這樣一步步進行下去去, 直至方程中所含自變量都顯著而又沒有新的作直至方程中所含自變量都顯著而又沒有新的作用顯著的自變量可引入方程為止。用顯著的自變量可引入方程為止。 逐步回歸分析在醫學研究中的應用及需要注意的幾個問題 1方程方程
56、“最優最優”問題,實際是精選自變量以求得擬和效果問題,實際是精選自變量以求得擬和效果最好的多元回歸方程。最好的多元回歸方程。最優子集回歸最優子集回歸是選擇一種使回歸方是選擇一種使回歸方程擬和最好的自變量,而逐步回歸則選擇對因變量作用有程擬和最好的自變量,而逐步回歸則選擇對因變量作用有意義的自變量。要根據研究目的選用適合方法。意義的自變量。要根據研究目的選用適合方法。 2逐步回歸主要在醫學中用于病因探索,臨床療效分析及逐步回歸主要在醫學中用于病因探索,臨床療效分析及控制等。控制等。 3線性回歸模型要注意正態性,方差齊性和獨立性,因變線性回歸模型要注意正態性,方差齊性和獨立性,因變量必須是隨機變量
57、等。量必須是隨機變量等。 4入選變量如果明顯地與實際問題的專業理論不一致時,入選變量如果明顯地與實際問題的專業理論不一致時,首先檢查數據是否有異常點,自變量間有無共線性存在,首先檢查數據是否有異常點,自變量間有無共線性存在,數據輸入是否有誤等,要結合專業知識作出合理的解釋。數據輸入是否有誤等,要結合專業知識作出合理的解釋。 5逐步回歸在對大量因素進行分析時,可以先進行聚類分逐步回歸在對大量因素進行分析時,可以先進行聚類分析,然后進行逐步回歸。通常,觀察單位取變量值的析,然后進行逐步回歸。通常,觀察單位取變量值的510倍為宜。倍為宜。Logistic回歸分析的基本思想回憶: 線性回歸分析對因變量的要求因變量因變量y 連續型連續型 服從正態分布服從正態分布膽固醇含量膽固醇含量自變量自變量x數值型數值型 與與Y呈線性關系呈線性關系年齡年齡舒張壓舒張壓醫學研究中經常遇到分類型變量,例如: 二分類變量: 生存與死亡 有病與無病 有效與無效 感染與未感染 多分類有序變量: 疾病程度(輕度、中度、重度) 治愈效果(治愈、顯效、好轉、無效) 多分類無序變量: 手術方法(A、B、C) 就
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 照明安裝合同協議
- 消殺合同補充協議
- 珠澳人才合同協議
- 試卷印刷合同協議
- 銷售用工合同協議
- 續訂服務合同協議
- 運輸場地合同協議
- 肉羊養殖合同協議
- 贈予房產合同協議
- 移動終端合同協議
- 潔凈手術室規范
- 跨境電子商務物流優化策略研究
- 企業供應鏈管理與優化研究
- 大部分分校:地域文化形考任務三-國開(CQ)-國開期末復習資料
- 有機化學知到智慧樹章節測試課后答案2024年秋山東第一醫科大學
- 施工現場安全防火管理制度與規定范文(2篇)
- 【MOOC】高級綜合英語-北京交通大學 中國大學慕課MOOC答案
- 2024年財務會計制度模版(4篇)
- 2025年河北省職業院校技能大賽建筑工程識圖(高職組)賽項參考試題庫(含答案)
- 2022年河南省商丘市柘城縣實驗中學中考一模地理試題(原卷版)
- 辦公用品、易耗品供貨服務方案
評論
0/150
提交評論