SPSS數據分析的醫學統計方法選擇_第1頁
SPSS數據分析的醫學統計方法選擇_第2頁
SPSS數據分析的醫學統計方法選擇_第3頁
SPSS數據分析的醫學統計方法選擇_第4頁
SPSS數據分析的醫學統計方法選擇_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、SPSS數據分析的醫學統計方法選擇目 錄數據分析的統計方法選擇小結1目 錄1資料12完全隨機分組設計的資料2配對設計或隨機區組設計3變量之間的關聯性分析4資料251.連續性資料51.1兩組獨立樣本比較51.2兩組配對樣本的比較51.3多組完全隨機樣本比較61.4多組隨機區組樣本比較62分類資料62.1四格表資料62.2 2×C表或R×2表資料的統計分析72.3 R×C表資料的統計分析72.4 配對分類資料的統計分析8資料38一、兩個變量之間的關聯性分析8二、回歸分析9資料49一統計方法抉擇的條件91分析目的102資料類型103設計方法114分布特征及數理統計條件1

2、2二數據資料的描述121數值變量資料的描述132分類變量資料的描述13三數據資料的比較141假設檢驗的基本步驟142假設檢驗結論的兩類錯誤143假設檢驗的注意事項154常用假設檢驗方法16四變量間的相關分析171數值變量(計量資料)的關系分析172無序分類變量(計數資料)的相關分析183有序分類變量(等級資料)    等級相關18資料1完全隨機分組設計的資料一、 兩組或多組計量資料的比較1. 兩組資料:1) 大樣本資料或服從正態分布的小樣本資料(1) 若方差齊性,則作成組t檢驗(2) 若方差不齊,則作t檢驗或用成組的Wilcoxon秩和檢驗2) 小樣本偏

3、態分布資料,則用成組的Wilcoxon秩和檢驗2. 多組資料:1) 若大樣本資料或服從正態分布,并且方差齊性,則作完全隨機的方差分析。如果方差分析的統計檢驗為有統計學意義,則進一步作統計分析:選擇合適的方法(如:LSD檢驗,Bonferroni檢驗等)進行兩兩比較。2) 如果小樣本的偏態分布資料或方差不齊,則作Kruskal Wallis的統計檢驗。如果Kruskal Wallis的統計檢驗為有統計學意義,則進一步作統計分析:選擇合適的方法(如:用成組的Wilcoxon秩和檢驗,但用Bonferroni方法校正P值等)進行兩兩比較。二、 分類資料的統計分析1. 單樣本資料與總體比較1) 二分類

4、資料:(1) 小樣本時:用二項分布進行確切概率法檢驗;(2) 大樣本時:用U檢驗。2) 多分類資料:用Pearson c2檢驗(又稱擬合優度檢驗)。2. 四格表資料1) n>40并且所以理論數大于5,則用Pearson c22) n>40并且所以理論數大于1并且至少存在一個理論數<5,則用校正 c2或用Fishers 確切概率法檢驗3) n£40或存在理論數<1,則用Fishers 檢驗3. 2×C表資料的統計分析1) 列變量為效應指標,并且為有序多分類變量,行變量為分組變量,則行評分的CMH c2或成組的Wilcoxon秩和檢驗2) 列變量為效應指

5、標并且為二分類,列變量為有序多分類變量,則用趨勢c2檢驗3) 行變量和列變量均為無序分類變量(1) n>40并且理論數小于5的格子數<行列表中格子總數的25%,則用Pearson c2(2) n£40或理論數小于5的格子數>行列表中格子總數的25%,則用Fishers 確切概率法檢驗4. R×C表資料的統計分析1) 列變量為效應指標,并且為有序多分類變量,行變量為分組變量,則CMH c2或Kruskal Wallis的秩和檢驗2) 列變量為效應指標,并且為無序多分類變量,行變量為有序多分類變量,作none zero correlation analysis

6、的CMH c23) 列變量和行變量均為有序多分類變量,可以作Spearman相關分析4) 列變量和行變量均為無序多分類變量,(1) n>40并且理論數小于5的格子數<行列表中格子總數的25%,則用Pearson c2(2) n£40或理論數小于5的格子數>行列表中格子總數的25%,則用Fishers 確切概率法檢驗三、 Poisson分布資料1. 單樣本資料與總體比較:1) 觀察值較小時:用確切概率法進行檢驗。2) 觀察值較大時:用正態近似的U檢驗。2. 兩個樣本比較:用正態近似的U檢驗。配對設計或隨機區組設計四、 兩組或多組計量資料的比較1. 兩組資料:1) 大樣

7、本資料或配對差值服從正態分布的小樣本資料,作配對t檢驗2) 小樣本并且差值呈偏態分布資料,則用Wilcoxon的符號配對秩檢驗2. 多組資料:1) 若大樣本資料或殘差服從正態分布,并且方差齊性,則作隨機區組的方差分析。如果方差分析的統計檢驗為有統計學意義,則進一步作統計分析:選擇合適的方法(如:LSD檢驗,Bonferroni檢驗等)進行兩兩比較。2) 如果小樣本時,差值呈偏態分布資料或方差不齊,則作Fredman的統計檢驗。如果Fredman的統計檢驗為有統計學意義,則進一步作統計分析:選擇合適的方法(如:用Wilcoxon的符號配對秩檢驗,但用Bonferroni方法校正P值等)進行兩兩比

8、較。五、 分類資料的統計分析1. 四格表資料1) b+c>40,則用McNemar配對 c2檢驗或配對邊際c2檢驗2) b+c£40,則用二項分布確切概率法檢驗2. C×C表資料:1) 配對比較:用McNemar配對 c2檢驗或配對邊際c2檢驗2) 一致性問題(Agreement):用Kap檢驗變量之間的關聯性分析六、 兩個變量之間的關聯性分析1. 兩個變量均為連續型變量1) 小樣本并且兩個變量服從雙正態分布,則用Pearson相關系數做統計分析2) 大樣本或兩個變量不服從雙正態分布,則用Spearman相關系數進行統計分析2. 兩個變量均為有序分類變量,可以用Spe

9、arman相關系數進行統計分析3. 一個變量為有序分類變量,另一個變量為連續型變量,可以用Spearman相關系數進行統計分析七、 回歸分析1. 直線回歸:如果回歸分析中的殘差服從正態分布(大樣本時無需正態性),殘差與自變量無趨勢變化,則直線回歸(單個自變量的線性回歸,稱為簡單回歸),否則應作適當的變換,使其滿足上述條件。2. 多重線性回歸:應變量(Y)為連續型變量(即計量資料),自變量(X1,X2,Xp)可以為連續型變量、有序分類變量或二分類變量。如果回歸分析中的殘差服從正態分布(大樣本時無需正態性),殘差與自變量無趨勢變化,可以作多重線性回歸。1) 觀察性研究:可以用逐步線性回歸尋找(擬)

10、主要的影響因素2) 實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用3. 二分類的Logistic回歸:應變量為二分類變量,自變量(X1,X2,Xp)可以為連續型變量、有序分類變量或二分類變量。1) 非配對的情況:用非條件Logistic回歸(1) 觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素(2) 實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用2) 配對的情況:用條件Logistic回歸(1) 觀察性研究:可以用逐步線性回歸尋

11、找(擬)主要的影響因素(2) 實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用4. 有序多分類有序的Logistic回歸:應變量為有序多分類變量,自變量(X1,X2,Xp)可以為連續型變量、有序分類變量或二分類變量。1) 觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素2) 實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用5. 無序多分類有序的Logistic回歸:應變量為無序多分類變量,自變量(X1,X2,Xp)可以為連續型變量、有

12、序分類變量或二分類變量。1) 觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素2) 實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用八、 生存分析資料:(要求資料記錄結局和結局發生的時間,如:死亡和死亡發生的時間)1. 用Kaplan-Meier方法估計生存曲線2. 大樣本時,可以壽命表方法估計3. 單因素可以用Logrank比較兩條或多條生存曲線4. 多個因素時,可以作多重的Cox回歸1) 觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素2) 實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地

13、引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用資料21.連續性資料1.1兩組獨立樣本比較1.1.1資料符合正態分布,且兩組方差齊性,直接采用t檢驗。1.1.2資料不符合正態分布(1)可進行數據轉換,如對數轉換等,使之服從正態分布,然后對轉換后的數據采用t檢驗;(2)采用非參數檢驗,如Wilcoxon檢驗。1.1.3資料方差不齊(1)采用Satterthwate的t檢驗;(2)采用非參數檢驗,如Wilcoxon檢驗。1.2兩組配對樣本的比較1.2.1兩組差值服從正態分布,采用配對t檢驗。1.2.2兩組差值不服從正態分布,采用wilcoxon的符號配對秩和檢驗。1.3多組完全隨

14、機樣本比較1.3.1資料符合正態分布,且各組方差齊性,直接采用完全隨機的方差分析。如果檢驗結果為有統計學意義,則進一步作兩兩比較,兩兩比較的方法有LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK法等。1.3.2資料不符合正態分布,或各組方差不齊,則采用非參數檢驗的KruscalWallis法。如果檢驗結果為有統計學意義,則進一步作兩兩比較,一般采用Bonferroni法校正P值,然后用成組的Wilcoxon檢驗。1.4多組隨機區組樣本比較1.4.1資料符合正態分布,且各組方差齊性,直接采用隨機區組的方差分析。如果檢驗結果為有統計學意義,則進一步作兩兩比較,兩兩比較的方

15、法有LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK法等。1.4.2資料不符合正態分布,或各組方差不齊,則采用非參數檢驗的Fridman檢驗法。如果檢驗結果為有統計學意義,則進一步作兩兩比較,一般采用Bonferroni法校正P值,然后用符號配對的Wilcoxon檢驗。需要注意的問題:(1)一般來說,如果是大樣本,比如各組例數大于50,可以不作正態性檢驗,直接采用t檢驗或方差分析。因為統計學上有中心極限定理,假定大樣本是服從正態分布的。(2) 當進行多組比較時,最容易犯的錯誤是僅比較其中的兩組,而不顧其他組,這樣作容易增大犯假陽性錯誤的概率。正確的做法應該是,先作總的

16、各組間的比較,如果總的來說差別有統計學意義,然后才能作其中任意兩組的比較,這些兩兩比較有特定的統計方法,如上面提到的LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK法等。絕不能對其中的兩組直接采用t檢驗,這樣即使得出結果也未必正確。(3) 關于常用的設計方法:多組資料盡管最終分析都是采用方差分析,但不同設計會有差別。常用的設計如完全隨即設計,隨機區組設計,析因設計,裂區設計,嵌套設計等。2分類資料2.1四格表資料2.1.1例數大于40,且所有理論數大于5,則用普通的Pearson檢驗。2.1.2例數大于40,所有理論數大于1,且至少一個理論數小于5,則用校正的檢驗或F

17、ishers確切概率法檢驗。2.1.3例數小于40,或有理論數小于2,則用Fishers確切概率法檢驗。2.2 2×C表或R×2表資料的統計分析2.2.1列變量行變量均為無序分類變量,則(1)例數大于40,且理論數小于5的格子數目<總格子數目的25,則用普通的Pearson檢驗。(2)例數小于40,或理論數小于5的格子數目>總格子數目的25,則用Fishers確切概率法檢驗。2.2.2列變量為效應指標,且為有序多分類變量,行變量為分組變量,用普通的Pearson檢驗只說明組間構成比不同,如要說明療效,則可用行平均分差檢驗或成組的Wilcoxon秩和檢驗。2.2.

18、3列變量為效應指標,且為二分類變量,行變量為有序多分類變量,則可采用普通的Pearson檢驗比較各組之間有無差別,如果總的來說有差別,還可進一步作兩兩比較,以說明是否任意兩組之間的差別都有統計學意義。2.3 R×C表資料的統計分析2.3.1列變量行變量均為無序分類變量,則(1)例數大于40,且理論數小于5的格子數目<總格子數目的25,則用普通的Pearson檢驗。(2)例數小于40,或理論數小于5的格子數目>總格子數目的25,則用Fishers確切概率法檢驗。(3)如果要作相關性分析,可采用Pearson相關系數。2.3.2列變量為效應指標,且為有序多分類變量,行變量為分

19、組變量,用普通的Pearson檢驗只說明組間構成比不同,如要說明療效或強弱程度的不同,則可用行平均分差檢驗或成組的Wilcoxon秩和檢驗或Ridit分析。2.3.3列變量為效應指標,且為無序多分類變量,行變量為有序多分類變量,則可采用普通的Pearson檢驗比較各組之間有無差別,如果有差別,還可進一步作兩兩比較,以說明是否任意兩組之間的差別都有統計學意義。2.3.4列變量行變量均為有序多分類變量(1)如要做組間差別分析,則可用行平均分差檢驗或成組的Wilcoxon秩和檢驗或Ridit分析。如果總的來說有差別,還可進一步作兩兩比較,以說明是否任意兩組之間的差別都有統計學意義。(2)如果要做兩變

20、量之間的相關性,可采用Spearson相關分析。2.4 配對分類資料的統計分析2.4.1四格表配對資料(1)bc>40,則用McNemar配對檢驗。(2)bc<40,則用校正的配對檢驗。2.4.1 C×C資料(1)配對比較:用McNemar配對檢驗。(2)一致性檢驗,用Kappa檢驗。資料3 在研究設計時, 統計方法的選擇需考慮以下6個方面的問題: (1)看反應變量是單變量、 雙變量還是多變量; (2)看單變量資料屬于3種資料類型(計量、 計數及等級資料)中的哪一種; (3)看影響因素是單因素還是多因素; (4)看單樣本、 兩樣本或多樣本; (5)看是否是配對或

21、配伍設計; (6)看是否滿足檢驗方法所需的前提條件, 必要時可進行變量變換, 應用參數方法進行假設檢驗往往要求數據滿足某些前提條件, 如兩個獨立樣本比較t檢驗或多個獨立樣本比較的方差分析, 均要求方差齊性, 因此需要做方差齊性檢驗。如果要用正態分布法估計參考值范圍, 首先要檢驗資料是否服從正態分布。在建立各種多重回歸方程時, 常需檢驗變量間的多重共線性和殘差分布的正態性。表1-1連續因變量 分類因變量連續自變量 回歸分析Logistic 回歸分類自變量方差分析(ANOVA)表格檢驗(比如卡方檢驗)不同的統計分析方法都有其各自的應用條件和適用范圍。實際應用時, 必須

22、根據研究目的、 資料的性質以及所要分析的具體內容等選擇適當的統計分析方法, 切忌只關心p值的大小(是否<0.05), 而忽略統計分析方法的應用條件和適用范圍。一、兩個變量之間的關聯性分析1.兩個變量均為連續型變量1)小樣本并且兩個變量服從雙正態分布,則用Pearson相關系數做統計分析2)大樣本或兩個變量不服從雙正態分布,則用Spearman相關系數進行統計分析 2.兩個變量均為有序分類變量,可以用Spearman相關系數進行統計分析 3.一個變量為有序分類變量,另一個變量為連續型變量,可以用Spearman相關系數進行統計分析 二、回歸分析1.直線回歸:如

23、果回歸分析中的殘差服從正態分布(大樣本時無需正態性),殘差與自變量無趨勢變化,則直線回歸(單個自變量的線性回歸,稱為簡單回歸),否則應作適當的變換,使其滿足上述條件。2.多重線性回歸:應變量(Y)為連續型變量(即計量資料),自變量(X1,X2,Xp)可以為連續型變量、有序分類變量或二分類變量。如果回歸分析中的殘差服從正態分布(大樣本時無需正態性),殘差與自變量無趨勢變化,可以作多重線性回歸。1)觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素2)實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用3.二分類的Log

24、istic回歸:應變量為二分類變量,自變量(X1,X2,Xp)可以為連續型變量、有序分類變量或二分類變量。1)非配對的情況:用非條件Logistic回歸(1)觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素(2)實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用2)配對的情況:用條件Logistic回歸(1)觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素(2)實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用 4.有序多

25、分類有序的Logistic回歸:應變量為有序多分類變量,自變量(X1,X2,Xp)可以為連續型變量、有序分類變量或二分類變量。1)觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素2)實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用5.無序多分類有序的Logistic回歸:應變量為無序多分類變量,自變量(X1,X2,Xp)可以為連續型變量、有序分類變量或二分類變量。1)觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素2)實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變

26、量,以校正這些混雜因素對結果的混雜作用。資料4一統計方法抉擇的條件在臨床科研工作中,正確地抉擇統計分析方法,應充分考慮科研工作者的分析目的、臨床科研設計方法、搜集到的數據資料類型、數據資料的分布特征與所涉及的數理統計條件等。其中任何一個問題沒考慮到或考慮有誤,都有可能導致統計分析方法的抉擇失誤。此外,統計分析方法的抉擇應在科研的設計階段來完成,而不應該在臨床試驗結束或在數據的收集工作已完成之后。對臨床科研數據進行統計分析和進行統計方法抉擇時,應考慮下列因素: 1分析目的對于臨床醫生及臨床流行病醫生來說,在進行統計分析前,一定要明確利用統計方法達到研究者的什么目的。一般來說,統計方法可

27、分為描述與推斷兩類方法。一是統計描述(descriptive statistics),二是統計推斷(inferential statistics)。統計描述,即利用統計指標、統計圖或統計表,對數據資料所進行的最基本的統計分析,使其能反映數據資料的基本特征,有利于研究者能準確、全面地了解數據資料所包涵的信息,以便做出科學的推斷。統計表,如頻數表、四格表、列聯表等;統計圖,如直方圖、餅圖,散點圖等;統計指標,如均數、標準差、率及構成比等。統計推斷,即利用樣本所提供的信息對總體進行推斷(估計或比較),其中包括參數估計和假設檢驗,如可信區間、t檢驗、方差分析、c2檢驗等,如要分析甲

28、藥治療與乙藥治療兩組的療效是否不相同、不同地區某病的患病率有無差異等。還有些統計方法,既包含了統計描述也包含了統計推斷的內容,如不同變量間的關系分析。相關分析,可用于研究某些因素間的相互聯系,以相關系數來衡量各因素間相關的密切程度和方向,如高血脂與冠心病、慢性宮頸炎與宮頸癌等的相關分析;回歸分析,可用于研究某個因素與另一因素(變量)的依存關系,即以一個變量去推測另一變量,如利用回歸分析建立起來的回歸方程,可由兒童的年齡推算其體重。 2資料類型資料類型的劃分現多采用國際通用的分類方法,將其分為兩類:數值變量(numerical variable)資料和分類變量(categor

29、ical variable)資料。數值變量是指其值是可以定量或準確測量的變量,其表現為數值大小的不同;而分類變量是指其值是無法定量或不能測量的變量,其表現沒有數值的大小而只有互不相容的類別或屬性。分類變量又可分為無序分類變量和有序分類變量兩小類,無序分類變量表現為沒有大小之分的屬性或類別,如:性別是兩類無序分類變量,血型是四類無序分類變量;有序分類變量表現為各屬性或類別間有程度之分,如:臨床上某種疾病的“輕、中、重”,治療結果的“無效、顯效、好轉、治愈”。由此可見,數值變量資料、無序分類變量資料和有序分類變量資料又可叫做計量資料、計數資料和等級資料。資料類型的劃分與統計方法的抉擇有關

30、,在多數情況下不同的資料類型,選擇的統計方法不一樣。如數值變量資料的比較可選用t檢驗、u檢驗等統計方法;而率的比較多用c2檢驗。值得注意的是,有些臨床科研工作者,常常人為地將數值變量的結果轉化為分類變量的臨床指標,然后參與統計分析,如患者的血紅蛋白含量,研究者常用正常、輕度貧血、中度貧血和重度貧血來表示,這樣雖然照顧了臨床工作的習慣,卻損失了資料所提供的信息量。換言之,在多數情況下,數值變量資料提供的信息量最為充分,可進行統計分析的手段也較為豐富、經典和可靠,與之相比,分類變量在這些方面都不如數值變量資料。因此,在臨床實驗中要盡可能選擇量化的指標反映實驗效應,若確實無法定量時,才選用分類數據,

31、通常不宜將定量數據轉變成分類數據。 3設計方法    在眾多的臨床科研設計方法中,每一種設計方法都有與之相適應的統計方法。在統計方法的抉擇時,必須根據不同的臨床科研設計方法來選擇相應的統計分析方法。如果統計方法的抉擇與設計方法不一致,統計分析得到的任何結論都是錯誤的。在常用的科研設計方法中,有成組設計(完全隨機設計)的t檢驗、配對t檢驗、成組設計(完全隨機設計)的方差分析、配伍設計(隨機區組設計)的方差分析等,都是統計方法與科研設計方法有關的佐證。因此,應注意區分成組設計(完全隨機設計)與配對和配伍設計(隨機區組設計),在成組設計中又要注意區別

32、兩組與多組設計。最常見的錯誤是將配對或配伍設計(隨機區組設計)的資料當做成組設計(完全隨機設計)來處理,如配對設計的資料使用成組t檢驗、配伍設計(隨機區組設計)使用成組資料的方差分析;或將三組及三組以上的成組設計(完全隨機設計)資料的比較采用多個t檢驗、三個或多個率的比較采用四格表的卡方檢驗來進行比較,都是典型的錯誤。如下表: 表1 常見與設計方法有關的統計方法抉擇錯誤表格1設計方法錯誤的統計方法正確統計方法兩個均數的比較(成組設計、完全隨機設計) 成組設計的t檢驗成組設計的秩和檢驗多個均數的比較(成組設計、完全隨機設計)多個成組設計的t檢驗完全隨機設計的方差分析

33、及q檢驗、完全隨機設計的秩和檢驗及兩兩比較數值變量的配對設計      成組設計的t檢驗配對t檢驗、配對秩和檢驗隨機區組設計(配伍設計)     多個成組設計的t檢驗、完全隨機設計的方差分析隨機區組設計的方差分析及q檢驗、隨機區組設計的秩和檢驗及兩兩比較交叉設計 成組設計的t檢驗、配對t檢驗、配對秩和檢驗 交叉設計的方差分析、交叉設計的秩和檢驗 4分布特征及數理統計條件    數理統計和概率論是統計的理論基礎。每種統

34、計方法都要涉及數理統計公式,而這些數理統計公式都是在一定條件下推導和建立的。也就是說,只有當某個或某些條件滿足時,某個數理統計公式才成立,反之若不滿足條件時,就不能使用某個數理統計公式。在數理統計公式推導和建立的條件中,涉及最多的是數據的分布特征。數據的分布特征是指數據的數理統計規律,許多數理統計公式都是在特定的分布下推導和建立的。若實際資料服從(符合)某種分布,即可使用該分布所具有的數理統計規律來分析和處理該實際資料,反之則不能。在臨床資料的統計分析過程中,涉及得最多的分布有正態分布、偏態分布、二項分布等。許多統計方法對資料的分布有要求,如:均數和標準差、t和u檢驗;方差分析都要求資料服從正

35、態分布,而中位數和四分位數間距、秩和檢驗等,可用于不服從正態分布的資料。所以,臨床資料的統計分析過程中,應考慮資料的分布特征,最起碼的要求是熟悉正態分布與偏態分布。例如:在臨床科研中,許多資料的描述不考慮資料的分布特征,而多選擇均數與標準差。如某婦科腫瘤化療前的血象值,資料如下表: 某婦科腫瘤化療前的血象值表格 2指標名例數均數標準差偏度系數P值峰度系數P值血紅蛋白(g/L)98111.9918.820.1800.4590.0250.958血小板(×109/L)98173.5887.111.3530.0001.8430.000白細胞(×109/L)986.7930

36、2.7671.2070.0001.2020.013 從上結果可見,若只看三項指標的均數和標準差,臨床醫生也許不會懷疑有什么問題。但是經正態性檢驗,病人的血紅蛋白服從正態分布,而血小板和白細胞兩項指標的偏度和峰度系數均不服從正態分布(P<0.05)。因此,描述病人的血小板和白細胞平均水平正確的指標是中位數,而其變異程度應使用四分位數間距。除了數據的分布特征外,有些數理統計公式還有其它一些的條件,如t檢驗和方差分析的方差齊性、卡方檢驗的理論數(T)大小等。    總之,對于臨床科研工作者來說,為正確地進行統計方法的抉擇,首先要掌握或熟悉上述影

37、響統計方法抉擇因素;其次,還應熟悉和了解常用統計方法的應用條件。二數據資料的描述統計描述的內容包括了統計指標、統計圖和表,其目的是使數據資料的基本特征更加清晰地表達。本節只討論統計指標的正確選用,而統計圖表的正確使用請參閱其他書籍。 1數值變量資料的描述描述數值變量資料的基本特征有兩類指標,一是描述集中趨勢的指標,用以反映一組數據的平均水平;二是描述離散程度的指標,用以反映一組數據的變異大小。各指標的名稱及適用范圍等見表2。表3  描述數值變量資料的常用指標表格 3指標名稱  用 途適用的資料均   &#

38、160;數(X)描述一組數據的平均水平,集中位置      正態分布或近似正態分布中 位 數(M)與均數相同偏態分布、分布未知、兩端無界幾何均數(G )與均數相同對數正態分布,等比資料標準差  (S)描述一組數據的變異大小,離散程度正態分布或近似正態分布四分位數間距(QU-QL) 與標準差相同 偏態分布、分布未知、兩端無界極  差  (R)與標準差相同觀察例數相近的數值變量變異系數(CV)與標準差相同 比較幾組資料間

39、的變異大小    從表中可看出,均數與標準差聯合使用描述正態分布或近似正態分布資料的基本特征;中位數與四分位數間距聯合使用描述偏態分布或未知分布資料的基本特征。這些描述指標應用時,最常見的錯誤是不考慮其應用條件的隨意使用,如:用均數和標準差描述偏態分布、分布未知或兩端無界的資料,這是目前在臨床研究文獻中較為普遍和典型的錯誤。 2分類變量資料的描述    描述分類變量資料常用的指標有死亡率、患病率、發病率等。    臨床上,這類指標的應用較多,出現的錯誤也較多。這些錯

40、誤歸納起來大致有兩類:一是以比代率,即誤將構成比(proportion)當做率(rate)來描述某病發生的強度和頻率,如用某病的病人數除以就診人數(或人次)得到“某病患病率”或“某病發病率”,就是典型的以比代率的例子。二是把各種不同的率相互混淆,如把患病率與發病率、死亡率與病死率等概念混同。    需要指出的是,單純利用醫院常規資料,最易得到的指標是構成比。而描述疾病發生強度和頻率的指標的率反映如患病率、發病率、死亡率等,很難利用醫院的常規資料(如醫院醫院的病例檔案)獲得。因為,醫院常規資料無法得到計算這些率所需的分子和分母的資料。所以,一旦研究者利用的

41、是醫院常規資料,則無法衡量疾病對人群的危害程度。常用描述指標如表3。表4  描述分類變量資料的常用指標表格 4指標名稱 計算公式意義率    發生某現象的觀察單位數 可能發生某現象的觀察單位總數 ×K描述事件發生的強度和頻率構成比  A A+B+ ×100% 事物內部各組成部分所占的比重相對比 A  BA指標為B指標的若干倍或百分之幾三數據資料的比較    在眾多的科

42、研研究方法中,歸納起來最基本的手段有兩種,一是對研究對象的全體進行研究,在實際工作中往往難以實現;二是從總體中抽取一定數量的樣本進行抽樣研究,但要考慮抽樣誤差對結果的影響。因此,若用樣本信息去推斷其所代表的總體間有無差別時,需要使用假設檢驗(hypothesis testing)或稱顯著性檢驗(significance test)。1假設檢驗的基本步驟(1)建立檢驗假設。    建立假設的過程應有三個內容。即無效假設H0 (null hypothesis)、備擇假設H1 (alternative 

43、;hypothesis)和檢驗水準a (size of test)。無效假設H0是研究者想得到結論的對立事件的假設,對于差異性檢驗而言,研究者想得到的是“有差別”的結論,故首先應假設各總體間無差別;備擇假設H1是其對立的假設,即是“有差別”的假設;此外,還應確定有統計意義的概率水平a,通常a取0.05。建立檢驗假設的通常格式為:H0:多個樣本來自同一總體,各樣本間的差別是由于抽樣誤差所致    H1:多個樣本來自不同的總體,各樣本間的差別是由于不同總體所致    a =0.0

44、5(2)計算統計量。根據資料的類型、分布特征、科研設計方法等條件,選擇不同的統計量計算方法,如t檢驗、u檢驗等統計方法。(3)根據統計量的值得到概率(P)值;再按概率(P)值的大小得出結論。其結論只有兩種情況,若Pa時,即概率小于我們事先確定好的檢驗水平概率(如P0.05),我們就拒絕其無差別假設H0,而接受H1,認為差別有統計學意義,各樣本來自不同總體,樣本間的差別是總體的不同所致;若Pa時,其概率大于我們事先確定好的檢驗水平(如P0.05),我們就不拒絕其無差別的假設H0,還不能認為各總體間有差別,樣本來自同一總體,即差別沒有統計學意義。2假設檢驗結論的兩類錯誤在假設檢驗的兩種結論中無論做

45、出何種結論,都有可能犯錯誤。當Pa時,做出“拒絕其無差別的假設,可認為各總體間有差別”的結論時就有可能犯錯誤,這類錯誤稱為第一類錯誤(型錯誤,type  error),其犯錯誤的概率用a表示,若a取0.05,此時犯型錯誤的概率小于或等于0.05,若假設檢驗的P值比0.05越小,犯一類錯誤的概率就越小。當Pa時,做出“不拒絕其無差別的假設,還不能認為各總體間有差別”的結論時,就有可能犯第二類錯誤(型錯誤,type  error),其犯錯誤的概率用b表示,在通常情況下犯類錯誤的概率未知,雖然b是個未知數,但假設檢驗P值越大,犯二類錯誤的概率就越小。表5

46、60;假設檢驗的兩類錯誤 表格 5     假設檢驗結果真實情況拒絕H0不拒絕H0樣本來自同一總體推斷不正確(a)推斷正確(1-a)樣本來自不同總體推斷正確(1-b)推斷不正確(b) 3假設檢驗的注意事項(1)假設檢驗比較的對象是總體,而研究的方法是抽樣研究,即通過對樣本提供的信息去推斷總體間有無差別。不能誤認為假設檢驗是樣本間的比較,更不能將此體現在結論中。如果研究方法是普查時,由于不存在抽樣誤差,也不存在用樣本提供的信息去推斷總體的問題。因此,在這種情況下也就不能使用假設檢驗的統計方法。   

47、0;(2)當Pa時,概率(P)越小,越有理由拒絕無差別的假設,即拒絕假設的可信程度就越大,這時概率(P)越小,其結論的可靠性就越好。當Pa時,概率(P)越大,越有理由不拒絕無差別的假設,即不拒絕無差別假設的可信程度就越大。這時概率(P)越大,其結論的可靠性就越好。因此,無論概率Pa,還是Pa時,都不能說明組間差別的大小。    (3)假設檢驗的結論不能絕對化。假設檢驗的結論是根據概率(P)的大小得出的,事實上當Pa時,我們拒絕其無差別的假設,可認為各總體間有差別,但是,只要P0,我們無法完全拒絕無差別的假設,即不能肯定各總體間有差別:同理,當Pa時,我們

48、不拒絕其無差別的假設,還不能認為各總體間有差別,但是,只要P1,我們無法完全接受無差別的假設,即不能肯定各總體間無差別。因此,在做出統計結論時,要避免使用絕對的或肯定的語句,如當Pa時,使用“拒絕假設,可認為各組間有差別”;而當Pa時,使用“不拒絕假設,還不能認為各組間有差別”的語言進行描述。   (4)假設檢驗的方法與設計方案和分布特征有關,如:兩組比較的方法有t檢驗、u檢驗、兩組秩和檢驗、四格表和校正四格表的c2檢驗等,這些方法只能用于兩組比較,而不能用于多組的比較。在實際工作中錯誤地使用兩組比較的方法代替多組比較的情況并不少見,如,三個均數比較用三個t檢驗、

49、四個均數比較用六個t檢驗等。多組比較可用方差分析、多組秩和檢驗、行乘列c2檢驗等。t、u檢驗和方差分析用于正態分布的資料,不服從正態分布的資料可用秩和檢驗。4常用假設檢驗方法(1)計量資料的假設檢驗表6 常用計量資料假設檢驗方法表格 6比較目的          應用條件統計方法樣本與總體的比較例數(n)較大,(任意分布)u檢驗         例數(n)較小,樣本來自正態t檢驗兩組資料的比較(完

50、全隨機設計)   例數(n)較大,(任意分布)u檢驗     例數(n)較小,來自正態且方差齊 成組設計的t 檢驗      例數(n)較小且非正態或方差不齊成組設計的秩和檢驗、或成組設計的t檢驗、或成組設計的中位數檢驗配對資料的比較(配對設計)例數(n)較大,(任意分布) 對設計的u檢驗   例數(n)較小,差值來自正態配對設計的t 檢驗         例數(n)較小,差值為非正態 配對設計的秩和檢驗多組資料的比較(完全隨機設計)各組均數來自正態且方差齊  成組設計的方差分析  各組為非正態或方差不齊 成組設計的秩和檢驗配伍資料的比較(配伍設計)各組均數來自正態且方差齊 配伍設計的方差分析各組為非正態或方差不齊配伍設計的秩和檢驗(2)計數資料的假設檢驗表7  常用計數資料假設檢驗方法表格 7比較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論