(完整版)醫學統計學知識點匯總_第1頁
(完整版)醫學統計學知識點匯總_第2頁
(完整版)醫學統計學知識點匯總_第3頁
(完整版)醫學統計學知識點匯總_第4頁
(完整版)醫學統計學知識點匯總_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、醫學統計學總結緒論1、隨機現象:在同一條件下進行試驗,一次試驗結果不能確定,而在一定數量的重復試驗之 后呈現統計規律的現象。2、同質:統計學中對研究指標影響較大的,可以控制的主要因素。3、變異:同質基礎上各觀察單位某變量值的差異。廣數值變量:變量值是定量的,由此而構成的資料稱為數值變量資料或計量資料, 其數 值是連續性的,稱之為連續型變量。變量<r無序分類變量:所分類別或屬性之間無順序和程度上的差異分類變量:定性變量有序分類變量:有順序和程度上的差異4、總體:根據研究目的確定的同人研究對象中所有觀察單位某變量值的集合。可以分為有限 總體和無限總體。5、樣本:是按隨機化原則從同質總體中隨機

2、抽取的部分觀察單位某變量值的集合。樣本代表 性的前提:同質總體,足夠的觀察單位數,隨機抽樣。統計學中,描述樣本特征的指標稱為統計量,描述總體特征的指標稱為參數。6、概率:描述隨機事件發生的可能性大小的一個度量。若P (A) =1,則稱A為必然事件;若P (A) =0,則稱A為不可能事件;隨機事件 A的概率為0<P< 1.小概率事件:若隨機事件 A的概率P&a,則稱隨機事件A為小概率事件,其統計學意義為: 小概率事件在一次隨機試驗中認為是不可能發生的。統計描述1、頻數分布有兩個重要的特征:集中趨勢和離散程度。頻數分布有對稱分布和偏態分布之分。 后者是指頻數分布不對稱,集中趨勢

3、偏向一側,如偏向數值小的一側為正偏態分布, 如偏向數 值大的一側為負偏態分布。2、常用的集中趨勢的描述指標有:均數,幾何均數,中位數等。均數:適用于正態或近似正態的分布的數值變量資料。樣本均數用表示,總體均數用以表小0幾何均數:適用于等比級數資料和對數呈正態分布的資料。注意觀察值中不能有零,一組 觀察值中不能同時有正值和負值。中位數:適用于偏態分布資料以及頻數分布的一端或兩端無確切數據的資料。3、常用的離散程度的描述指標有:全距,四分位數間距,方差,標準差,變異系數。全距:任何資料,一組中最大值與最小值的差。四分位數間距:適用于偏態分布以及分布的一端或兩端無確切數據資料。方差和標準差:正態分布

4、資料。標準差表示觀察值的變異度的大小。變異系數:比較度量單位不同或均數相差懸殊的兩組資料的變異度。4、標準正態分布:對正態分布的(X-N)/進行u的變換,u= (X-N)/,則正態分布變換為N =0, (7=1的標準正態分布,亦稱u分布。u被稱為標準正態變量或標準正態離差。兩個參數:N是位置參數,(T是形狀參數。用N (0,1 )表示標準正態分布。常用估計醫學參考值范圍的方法有:(1)正態分布方法:適用于正態或近似正態分布的資料。雙側界值:X± u“2S單側上界:X+u, S,或單側下界:X-u.S(2)對數正態分布方法:適用于對數正態分布資料。雙側界值:Lg1 (X lgx

5、7; U"2s lgx )單側上界:Lg1 (X Igx +u bS lgx),或單側下界:Lg-1 (X lgx -u 6 lgx)(3)百分位數法:用于偏態分布資料以及資料中一端或兩端無確切數值的資料。雙側上界:P2.5和P97.5;單側上界:P95,或單側下界:P5常用的U值表參考值范圍(%¥1m800.8421.282901.2821.645951.6451.96992.3262.5765、分類變量資料的統計描述:常用相對數指標描述,包括:率,構成比,相對比。率:說明某現象發生的頻率或強度。(病死率不等于死亡率)構成比:說明某現象內部組成部分所占的比重或分布,常以百

6、分數表示。相對比:亦稱比,是A、B 2個有關指標之比,說明A為B的若干倍或百分之幾。兩個指 標可以性質相同,也可以性質不同。應用相對數時的注意事項:1 、計算相對數的分母不宜過小;2、分析時不能以構成比代替率;3、對觀察單位數不等 的幾個率,不能直接相加求其平均率;4、比較相對數時應注意其可比性;5、對樣本率(或構 成比)的比較應遵循隨機抽樣,并做假設檢驗。6、標準化法:標準化的目的在于消除混雜因素對結果的影響,使資料更具有可比性。其基本 思想是:將所比較的兩組或多組資料的構成按統一的“標準”調整后,計算標化率,使其更具 有可比性。標準化率的計算方法:亦稱標化率,直接法用于已知被標化組的年齡別

7、率, 以及已知標準組的 年齡別人口數或年齡別人口構成比時;間接法用于已知被標化組的年齡別人口數與發病 (死亡) 總數,但年齡別率未知,以及已知標準組年齡別發病(死亡)率與總發病(死亡)率時。通常可從下列3種方法選用標準組:以兩組資料中任一組的年齡別人口數或構成比作為標準 組;以兩組資料合并的各年齡組的人口數或構成比作為標準組;以公認的或便于與他人資料比較的標準作為標準組。7、統計表:結構:由標題、標目、線條和數字構成。編制統計表的要求:標題:概括表的內容,列于表的上方居中,應注明時間和地點;標目:主語和謂語分別列于橫、縱標目,文字簡明,層次清楚。橫標目列于表的左側,通常 為被研究的事物,縱標目

8、列于表的上端,為說明橫標目的統計指標。線條:通常,除表的頂線、底線、縱標目下以及合計上的橫線外,其余線條均省去,頂線和底線應略粗些,表的左上角不宜用斜線。數字:用阿拉伯數字表示,同一指標的小數位數要一致并對齊, 數字暫缺或無數字者分別用 “”或"-”表示,數字為0者要記作“ 0”,不應空項,為方便核實和分析,應有合計。備注:一般不列入表內,必要時可用“i標出,列于表下。8、統計圖:條圖:用于相互對比關系的資料;圓圖與百分條圖:適用于百分構成比資料,表示事物各組成部分所占的比重或構成;線圖:用于連續性資料,用于說明事物在時間上的發展變化, 或某現象隨另一現象而變動的 情況;直方圖:表示

9、連續性資料的頻數分布;散點圖:適用于直線相關分析,說明兩個變量間的數量關系和變化趨勢。抽樣分布與參數估計抽樣研究的目的是用樣本信息來推斷總體特征,即統計推斷,包括兩個內容:一是總體參數的估計,二是假設檢驗。1、抽樣誤差:由于變異的存在,抽樣研究所造成的樣本統計量與總體參數之間的差異或各樣 本統計量之間的差異稱為抽樣誤差。常用標準誤x反映均數抽樣誤差的大小;用率的標準誤6p反映率的抽樣誤差的大小;用Possion計數的標準誤V7反映其抽樣誤差的大小。2、中心極限定理和正態分布推理:從正態分布 N(p ,63、t分布:將x看成變量值,那么可將正態變量進行 u變換(u=x-仙/)后,也可將N(j2x

10、)變換成標準正態分布N (0, 1)。常用s作為6的估計值,統計量為t,此分布為t分布。統計量t= t曲線的形態變化與自由度v的大小有關。v越小,t值越分散,曲線越低 sx平,v逐漸增大時,則t分布逐漸逼近正態分布,當丫=無窮大時,t分布即為u分布。4、總體均數的估計有兩種方法:一種是點估計,即用統計量 x估計總體均數 ;二是區間估計,亦稱可信區間。 (T 未知且 n 小:x-t a/2, V s x< N < x+t a/2, V s x (2)(T未知,但n足夠大,t分布逼近u分布:x-u -2sx< n < x+u/2sx (T 已知: x -u a/2 CT x

11、< N < x +u«/2 CT x)總體中以固定n隨機抽取樣本,樣本均數x的分布仍服從正態分布,即使是從偏態分布總體中隨機抽樣,只要n足夠大,x的分布也近似正態分布。樣本均數的均數仍為N ,樣本均數的標準差為-0樣本均數的抽樣誤差 x (簡稱標準誤)是反映均數抽樣誤差大小的指標。x =9用樣本均數S作為6的估計值,則sx=-S,nn標準差標準差和標準誤的比較標準誤S=-2(x x)n 1表示觀察值的變異程度大小s%1 n估計均數的抽樣誤差大小計算變異系數CV=s 100% x估計總體均數可信區問確定醫學參考值的范圍 計算標準誤X t a /2 , v S x< 仙

12、 < X +t a/2 , v S x進行假設檢驗數值變量資料的假設檢驗1、假設檢驗的原理:假設在一次抽樣研究中得出了 u>1.96,則P0 0.05,此為小概率事件, 依據“小概率事件在一次隨機試驗中認為是不可能發生的” 的定理,可認為此樣本不是來自該 總體。2、步驟:建立假設和確定檢驗水準;假設有兩種,一種是檢驗假設,常稱 無效假設或零假 設,記為代,假設樣本所代表的總體參數與已知總體參數相等;另一種是 備擇假設,記為H, 是與H0相聯系且對立的假設;檢驗水準,亦稱顯著性水準,是判斷拒絕或不拒絕 代,也是允 許犯I型錯誤的概率,通常用0.05。選定檢驗方法和計算統計量確定 P值

13、,做出推斷結論。P值是指從H0所規定的總體中隨機 抽樣時,獲得等于及大于現有樣本統計量的概率。3、t檢驗:適用于:樣本均數與總體均數比較(6未知且n<50或n<30);成組設計的兩小樣本均數的比較(m, n2均小于30或50);配對設計的兩樣本均數比較。應用條件:當樣本含量較小(n<50或n<30)時,要求樣本來自正態分布總體;用于成組設計的兩樣本均數比較時,要求兩樣本來自總體方差相等的總體。4、單樣本t檢驗:用于樣本均數與已知總體均數的比較,研究目的是推斷樣本所代表的總體均數以與已知總體均數以0有無差別。統計量t= 土W v=n-1s/ n5、配對t檢驗:用于配對設計

14、資料的 兩均數的比較。其研究目的是推斷某種處理有無作用, 或兩種處理的效果有無差別。配對設計類型有3種:先將受試對象按配比條件配對,然后用隨機分組方法將各對中的2個受試對象分別分配到不同的處理組;同一對象分別接受2種不同處理;同一對象處理前后。t=一d-=(d是差值的樣本均數)v=n-1sd / . n6、兩樣本t檢驗:用于完全隨機設計的兩樣本均數的 比較,兩個樣本來自兩個總體,具研究 目的是推斷兩樣本所分別代表的總體均數是否相等。XiX1X2-2 ,1、2 ,s1 (n1 1) s2(n2t=LXSXiv=n i+n2-2n1n2 21)(11)ni n27、單樣本u檢驗:用于樣本均數與已知

15、總體均數比較,其研究目的同 t檢驗。研究目的是推斷樣本所代表的總體均數以與已知總體均數小。有無差別。其統計量u=x No s/ . n8、兩樣本的u檢驗:用于完全隨機設計的兩樣本均數的比較,兩個樣本來自兩個總體,具研 究目的是推斷兩樣本所分別代表的總體均數是否相等。其統計量為:Xi X2 u=s-Xi X2Xi X2S2 / n1 s2 /n29、正態性檢驗和方差齊性檢驗:資料在做假設檢驗之前首先應該檢驗資料是否來自正態總體, 并且它們的方差是否齊。1。、兩類錯誤:I型錯誤:拒絕了實際上成立的H0,即樣本來自以=-的總體,由于抽樣的偶然性,按a=0.05 檢驗水準拒絕了 H0,接受H。這類在假

16、設檢驗中拒絕了原本正確的H0的錯誤稱為I型錯誤。,理論上犯I型錯誤的概率為a , a值得大小視研究目的而定。通常設a =0.05。R型錯誤:不拒絕了實際上不成立的 H0,即樣本來自。的總體,由于抽樣的偶然性,按 a =0.05檢驗水準不拒絕H,這類在假設檢驗中不拒絕原本不正確的 H的錯誤稱為II型錯誤。 犯H型錯誤的概率為B ,它只有與特定的 H結合起來才有意義。同時減少a和B的方法是 增加樣本含量。1- B稱為檢驗效能或把握度,即兩總體確有差別時, 按a水準能識別該差別的能力。 如1- B =0.95表示:若兩總體確有差別,理論上平均100次抽 樣中,有95次能得出兩總體有差別的結論。11、

17、假設檢驗時應注意的事項:要有嚴密的抽樣研究設計一假設檢驗的前提正確選用檢驗方法:完全隨機的設計的兩數值變量資料比較時, 若n小且方差齊,則選用兩 樣本t檢驗;若方差不齊,則選用t檢驗或成組設計的兩樣本比較的秩和檢驗;若 m, n2均大 于50,則選用兩樣本u檢驗。正確理解“顯著性”的含義對差別有無統計學意義的判斷不能絕對化。方差分析1、基本思想:按研究目的和設計類型,將總變異的離均差平方和SS和自由度v分別分解成若干部分,并求得各相應部分的變異。其中的組內變異或誤差主要反映個體差異或抽樣誤差, 其它部分的變異與之比較得出統計量 F值,由F值的大小確定P值,并作出推斷,從而了解 該因素對觀測指標

18、有無影響。組內變異主要由個體差異所致,組間變異可能由兩種原因所致:一是抽樣誤差,二是由于接 受的處理不同。2、總離均差平方和SS和自由度vk ni_ 2SS總二(Xij x) = X2 ( x) 2 / nv 總"n-l3、組間離均差平方和SS組間,自由度v組間和均方MS且間nik (. xj)2 ( x)2SS、oo 一 j 總變異x2 C n-1bk(Xij)2處理組j C k-1 SS處理/v處理 MS處理/MS誤差 i b k b(Xj)2配伍組 C b-1SS配伍/v配伍MS配伍/MS誤差j i k誤差SS總-SS處壬i-SS配伍(k-1) (b-1)SS誤差/v誤差出同S

19、S組間= V 組間一K-l MS 組間=i ininv組間4、組內離均差平方和 SS組內,自由度v組內和均方MS且內SS組內-SS總-SS 組間 v 組內 =n-k MS 組內 =SS組內/v 組內多樣本均數比較的方差分析的應用條件:各樣本是相互獨立的隨機樣本;各樣本來自正態 分布總體;各總體方差相等,即方差齊。5、完全隨機設計資料的方差分析:亦稱單因素的方差分析,可用于完全隨機設計的多個樣本 均數比較的資料,研究目的是推斷各個樣本所代表的總體均數是否相等。單因素方差分析的計算公式變異來源SSvMSF總變異x2 Cn-1組間變異nik( xij)2 j 1Ck-1SS且間MS組間i 1niv組

20、間MS組內組內變異SS總-SS組間n-kSS組內/v組內*C為校正系數C= ( x)2/n6、配伍組設計資料的方差分析:亦稱兩因素的方差分析,用于配伍組設計的多個樣本均數比較的資料,其研究目的是推斷各樣本所代表的總體均數是否相等, 但考慮了個體差異對試驗 效 應的影響。兩因素方差分析的計算公式 變異來源SS v MS F*C為校正系數 C= ( x)2/n b為配伍組數分類資料的假設檢驗1、二項分布:應用條件:各觀察單位只能具有兩種相互對立的結果已知發生某結果的概率為冗,其對立結果的概率為 1-九n次試驗是在相同的條件下進行的。性質:=n:t0- = n'n it 11fT若均數和標準

21、差用率表示,則pp=兀p p=如(1 冗)/ n冗未知時,用樣本率P作為冗的估計值,則 Sp=Jp(1 p)/n總體率的估計:正態近似法:當樣本含量n足夠大,且樣本率p或1-p均不太小,如np與n(1-p)均大于5時樣本率p的抽樣誤差分布近似正態分布,可信區間為:(p-u /2Sp, p+u/2Sp)2、Poisson分布:對于二項分類變量,若某結果發生的概率很小,如冗<0.05時,單位時間、人群、空間內“陽性”發生次數x (x=0, 1, 2,)的概率可用Poisson分布概率函數來描述:_g , x 、P(X)=e(U /x!)遞推公式:P (0) =e "C /、 P (

22、x 1) HP (x) =應用條件:兀< 0.05外,其余同二項分布。分布的性質:(1)、Poisson分布式一種單參數的離散型分布,其參數為表示單位時間、人群、空間內 某事件平均發生的次數。(2)、Poisson分布的方差J與均數相等。(3)、Poisson分布可以看成是二項分布的極限形式。(4)、Poisson分布的極限形式也是二項分布,一般當 n20時,可按正態分布處理,當冗&0.01時,二項分布可以當作 Poisson分布來處理。(5)、Poisson分布具有 可加性。總體均數的估計:(正態近似法)x 1 , Jx , x | ,_Vx U a/ 27U a / 23、服

23、從二項分布資料的假設檢驗:(1)樣本率和總體率的估計:k直接計算法:最多有k例陽性的概率:P(x< k)= P(x) 0nk 1最少有k例陽性的概率:P (x>k) = P(x)=1-P(x)k0(1-兀0)>5 時,正態近似法:當兀0不太靠近0或1,且樣本含量n足夠大;或n兀05且nP 九0x n九0二項分布接近正態分布u=曲o(1九0) n/冗0(1冗0)(2)兩樣本率的比較:目的是推斷兩個樣本各自代表的兩總體率是否相等,當兩個樣本率均 滿足正態近似條件時,可用u檢驗。其公式為:u= p1 p2 =p1 p2s【Pc(1 Pc)C n12)pc為合并陽性率, p =(X1

24、+X2)/(nl+n2)X1,X2為兩個樣本的陽性例數。4、服從Poisson分布的假設檢驗:對于Poisson分布的假設檢驗,對于總體均數可以用乘法將 小單位化大,也可以用除法將大單位化小,對于樣本均數,只能用除法將大單位化小,而不能 用乘法將小單位化大。(1)樣本均數與總體均數的比較:適用于仙0<20,且樣本陽性數X較小作單側檢驗時。k直接計算法:最多有k例陽性的概率:P(x< k)= P(x)0nk 1最少有k例陽性的概率:P (x>k) = P(x)=1- P(x)k0正態近似法:當20時,Poisson分布逼近正態分布。u=(x n0)/J阿(2)兩樣本陽性數的比較

25、:目的是推斷兩樣本各自代表的兩總體平均數是否相等。當兩樣本 陽性數X1, X2均大于20時,可用u檢驗。其計算用兩種情況:兩樣本觀察單位(時間、面積、容積等)相同時: u= ;X2 =;12XX2 X1X2兩樣本觀察單位(時間、面積、容積等)不同時: u=X1 X1 = X1 1X2 n22。2,.、一2.5、 檢驗:是一種連續型分布,u分布的平方即為分布。對于同一份資料,檢驗的檢驗統計量為2,其基本公式為:22(A/,自由度 v=(行數-1)(列數-1). . . . . . n - * ric.式中A為實際頻數,T為理論頻數。理論頻數T的計算公式為:Trc比上 丁為第R n 1 RC行第C

26、列的理論頻數,nR為相應行的合計,nC為相應列的合計,n為總例數。自由度v= (R-1)(C-1).2反映了實際頻數與理論頻數的吻合程度。只有考慮了自由度v的影響,2值才能正確地反應實際頻數A和理論頻數T的吻合程度6、四格表資料的檢驗:最小理論頻數丁的判斷,R行與C列中,行合計數中的最小值與 T RC列合計數中的最小值所對應的理論頻數最小。(1)四個表資料 2檢驗的專用公式:2(2)四個表資料檢驗的校正公式:(ad bc)2n(a b)(c d)(a c)(b d)2(|A T| 0.5)2T2 (ad bc n 2)2nc (a b)(c d)(a c)(b d)在實際工作中,對于四個表資料

27、,通常規定為:2(1)當n40且所有的T5時,用檢驗的基本公式或四個表資料2檢驗的專用公式;當P= a時,改用四個表資料的 Fisher確切概率法。,2,1,,(2)當 240,但1WT&5時,用四格表資料的檢驗的校正公式;或改用四個表資料的Fisher確切概率計算法。(3)當n<40,或T<1時,用四個表資料的Fisher確切概率法。2(4)連續性校正僅用于v=1的四格表資料,尤其是n小時。當v2時一般不做校正7、配對四個表資料的 2檢驗:由于在抽樣研究中,抽樣誤差是不可避免的,樣本中的b和c22往往不相等(即bwc),為此,需進行假設檢驗,具檢驗統計量為:(b2)-v=

28、1 (條b c件為:b+c> 40)2(|b c 1)2v=1b c(條件為:b+c< 40)本方法只適用于樣本含量不太大的資料,它僅考慮了兩種方法結果不一致的情況,而未考 慮樣本含量n和兩種方法一致的兩種情況,所以當 n很大且a與d的數值也很大,而b與c 的數值相對較小時,即使檢驗統計結果有統計學意義,其實際意義也不大。8、行*列表資料的 2檢驗:只適用于多個樣本率的比較,兩個或多個構成比的比較以及雙向無序分類資料的關聯性檢驗。其基本數據由三種情況:多個樣本率的比較時,有 R行2歹I,稱為R*2表兩個樣本的構成比比較時,有 2列C歹1,稱為2*C表多個樣本的構成比比較以及雙向無序

29、分類資料關聯性檢驗時,有R行C歹I,稱為R*C表。以上三種可統稱為行*列表資料基本公式:基本公式為:2(A T)2TAn(1)nRnc自由度 v=(行數-1)(列數-1)一般人行*列表資料中各格的理論頻數不能小于 1,且仃5格子數不能超過總數的1/5。如果 出現以上情況,可通過以下方法解決:最好是增加樣本含量,使得理論頻數增大;根據專 業知識,考慮能否刪去理論頻數太小的行和列, 能否將理論頻數太小的行和列于性質相近的鄰 行或鄰列合并;改用雙向無序 R*C的Fisher確切概率計算法。當多個樣本率比較時,所得統計推斷為拒絕Ho,接受H1時,只能認為各樣本率問總的來說有差別,但不能說明任兩個樣本率

30、間均有差別,需要做多個樣本率的多重比較。對于有序的R*C表資料不宜用 2檢驗。對于R*C表的資料要根據分類類型和研究目的選用恰當的檢驗方法。9、雙向無序分類資料的關聯性檢驗: 對于此資料,常常需要分析兩個分類變量之間有無關系,關系的密切程度如何,進一步分析密切程度時,可以用Pearson列聯系數rp , rprp取值在01之間,0表示完全不相關,1表示完全相關,愈接近于 0,關系愈不密切,愈接近1,關系愈密切。11、R*C表的分類及檢驗方法的選擇:分類:雙向無序、單向有序、雙向有序屬性相同和雙向有序但屬性不同四種。雙向無序R*C表:兩個分類變量皆為無序分類變量,對于該資料:如果研究目的為兩個樣

31、本率(或構成比)的比較,可用行*列資料的 2檢驗;如果研究目的是分析兩個分類變量之間有無關聯性以及關系的密切程度時,可用行*列表資料的檢驗以及Pearson列聯系數進行分析。單向有序R*C表:有兩種形式:一種是R*C表的分組變量是有序的,而指標變量是無序的; 研究的目的通常是多個構成比的比較,可用行 *列表資料的 2檢驗進行分析。另一種是 R*C 表中的分組變量是無序的,而指標變量是有序的,研究目的通常是多個 等級資料的比較,可用 秩和檢驗或Ridit分析。雙向有序屬性形同的R*C表:兩個分類變量皆為有序且屬性相同,研究目的通常是分析兩 種檢測方法的一致性,此時宜用 一致性檢驗(或稱Kappa

32、檢驗);也可用特殊模型分析方法。 雙向有序屬性不同的R*C表:兩分類變量皆為有序的,但屬性不同,對于該資料:如果 研究目的是分析不同年齡組患者療效見有無差別,可把它視為單向有序的R*C表資料,選用秩和檢驗;如果研究目的是分析兩個有序分類變量間是否存在相關關系,可以用等級相關分析或Pearso制矩相關分析;如果研究目的是分析兩個有序分類變量是否存在線性變化趨勢, 可以用有序分組資料的線性趨勢檢驗。非參數檢驗非參數檢驗的統計推斷基礎是比較分布而不是比較參數,所以不必考慮被研究對象的為何種分布以及分布是否已知。在實際工作中,對符合參數檢驗應用條件的資料,或經變量變換后符合參數檢驗應用條件的資料應首選

33、參數檢驗; 而不能滿足參數檢驗應用條件的資料, 應選用 非參數檢驗。主要選擇編秩的方法,比較統計變量T,而做出統計推斷。直線回歸與相關分析1、直線相關:如果兩個隨機變量中,當其中的一個變量由大到小的變化時,另一個變量也相 應的由大到小(后由小到大)的變化,并且相應變化的散點圖在直角坐標系呈現直線趨 勢,則稱這兩個隨機變量存在直線相關。相關分析是研究變量和變量集合之間數量協同變化關系的密切程度和方向的統計方法。要求:兩個變量X和Y都服從正態分布,嚴格說應服從雙變量正態分布。直線相關系數:用于說明具有直線相關關系的兩個變量間的相關關系的密切程度和相關方向;亦稱積差相關系數,總體的為P ,樣本的為丫

34、。x和y的協方差(x x)(y y)lxy#x 的方差) (y 的方差)( (x_x)2 (yy)2 lxxl yy的取值在-1,1之間。其意義如下:若0則X與Y存在直線相關關系;0為正相關; 0為負相關;|越大,說明兩變量間的相關關系越密切;|越小,說明兩變量間的相關關系越不密切;若| 1為完全相關;若 0 ,則X和Y不存在相關關系。0 | | 1表示存在不同程度的線性相關關系:0 | | 0.4為低度線性相關;0.4 | 0.7為顯著線性相關;0.7 | 1為高度顯著線性相關。相關分析的步驟:(在X與Y均服從雙變量正態分布的情況下)繪制散點圖:呈線性趨勢,計算相關性;呈曲線趨勢,進行曲線擬

35、合;無任何趨勢,不必分析。根據上述公式計算丫的值;相關系數的假設檢驗,由于抽樣誤差的存在,判斷是否來自0的總體,常用t檢驗,公式:t 0 j .n 2 (或直接查t界值表)s 12 n 2總體相關系數的區間估計:當 0時,從這樣的總體中抽樣,計算出的丫不服從正態分布,而進行反正切變換后,n較大時,Z近似服從均數為Z,方差為 2 °的正態分布。n 32ze* 12ze1l xx(x)2n1ln(1一)則Z的可信區間為( u/J匠與,u/j行與),對其進行的變換,可以得出 的可信區問。直線相關分析的注意事項: 算相關系數時首先繪制散點圖,判斷兩變量是否存在線性趨勢;相關分析時要求X、Y均

36、為隨機變量,而不能用于事先界定 X、Y的資料;相關分析時必須剔除異常點;相關分析要有實際意義,兩變量相關,并不一定存在聯系,可能是另外一種因素引起的;分層資料不宜盲目的合并,進行相關分析;同時進行相關分析時,如果不能確定各層研究對 象具有同質基礎,不宜盲目合并。不能將假設檢驗中 顯著性大小理解為兩變量相關程度的大小,后者是由相關系數的大小決定 的。2、等級相關:適用于不服從雙變量正態分布或總體分布未知的資料,還可用于等級資料的相關分析。等級相關系數表示兩個變量間相關系數的密切程度與相關方向。s基本思想:對于不符合正態分布的資料或等級資料, 將兩個變量的原始觀察值分別由小到大編 秩,然后利用量變

37、量的秩次計算相關系數。3、直線回歸: 處理兩個變量間線性數量依存關系的一種統計分析方法。回歸方程為:? a bx ?為應變量,給定x的y的條件均數的估計值;b為回歸斜率,表示a y bx繪制回歸線;注意:不應超過l xyxyx的實測值范圍;(x)( y)n所繪制的直線必然通過當自變量x每變化1個單位時,應變量y平均變化b個單位;a為截距,表示沒有自變量x時 其他因素對y的平均影響。(X, y);直線的左端延長與縱軸的焦點必然是截距 a。回歸方程的假設檢驗:檢驗方法有方差分析和t檢驗方差分析:基本思想:將應變量 y的總變異SS總分解成SS回歸和SS剩余兩部分,然后利用F 檢驗來判斷回歸方程是否成

38、立。任意一點P (x, y)的縱坐標被回歸直線與均數y截成3段:三部分的變異可以表示為:-9一(y y) =(?y)2+ (y y)2即SS總"SS回歸+SS剩余各部分的意義:SS總:即lyy(y y)2 ,為y的總離均差平方和,反映未考慮 x和y的回歸關系時的y的變異;SS回歸:即(?y)2 ,稱回歸平方和,反映在y的總變異中,由于x和y的直線關系而使y變異減小的部分,即在總變異中可以用 x解釋的部分;SS回歸越大,說明回歸效果越好,即SS總中可用X與Y線性關系解釋的變異越多。SS剩余:即 (y y)2 ,殘差平方和或剩余平方和,反映x和y的線性影響之外的一切因素對y的變異的作用,

39、即在總變異中無法用x解釋的部分 小;該部分越小說明直線回歸的估計值誤差越各部分的自由度為:總=回歸+ 剩余總=n-1,回歸=1,剩余二n-2各部分變異的計算公式為:$總=(y y)2(y)2S%歸2l xybl xy i1 xxSS剩余=SS總-SS回歸統計量F的計算公式:FS0歸回歸MS回歸SS馀/剩余 MS剩余回歸系數的t檢驗:基本思想:通過樣本回歸系數 回歸方程是否成立。有關公式如下:b與總體均數回歸系數B進行比較來判斷btb 一;SbsXYn 2 ;sb; sXY VMS 剩余, ixxsXY為剩余標準差,是指扣除了 x因變量線性影響后離散程度。擬合效果評價:回歸模型的擬合優度假設檢驗

40、,檢驗回歸方程對樣本數據的擬合程度。 決定22( y ?)2 1、處理因素:研究者根據研究目的確定的,通過合理安排實驗,從而科學的考察其作用大小 的因素;2 2Mr" rr = R r總體回歸系數的區間估計:(b t &, b t .Sb) 一n 2,n 222回歸方程的應用:利用回歸方程進行預報;統計控制。直線回歸分析的注意事項:I回歸分析要有實際意義,注意變量之間的內在聯系和規律,兩變量之間還必須是因果關系; n對資料的要求:一般y來自正態總體的隨機變量,x可以是正態總體的隨機變量,也可以 是精確測量和嚴密控制的值; 田進行分析前應先繪制散點圖;IV必須剔除一些異常點;V

41、回歸方程的適用范圍不能隨意外延。其適用范圍一般以自變量取值范圍為界。直線相關和回歸的區別與聯系:區別:資料的要求不同:相關要求兩個變量呈雙變量正態分布;回歸要求 y服從正態分布,而x 可以是精確測量和嚴格控制的變量;統計意義不同:相關反映的是兩變量間的伴隨關系, 二者的關聯程度如何,而回歸反映的是 兩變量間的依存關系,即因果關系,或從屬關系;分析的目的不同:相關分析的目的是描述兩個變量間的相互關系, 用r來反映這種關系的方 向以及密切程度,而回歸分析的目的是描述兩個變量間的數量依存關系, 從而進行統計預測和 統計控制;聯系:對于同一資料,r和b的符號一致,說明兩變量間關系的方向;相關系數與回歸

42、系數的假設檢驗是等價的,對于同一樣本,tr tb ,實際應用中只檢驗其中之一即可;二者可以相互解釋,相關系數的平方和等于回歸平方和占總平方和的比例,即反映應變量y的總變異中歸因于x的部分;實驗設計的概述r實驗室研究:以動物或標本為研究對象實驗研究的分類 J 臨床試驗:以人為研究對象仁 社區干預試驗:以社區人群為研究對象,又稱半試驗性研究處理因素試驗設計的基本因素J受試對象Q實驗效應非處理因素:對正確的評價處理因素的作用有一定的干擾,但研究者并不想通過本次實驗考察 其作用大小的因素;注意事項:要區分處理因素和非處理因素;主要依據研究目的來確定;抓住實驗中的主要因素,且 因素的水平數不宜過多;處理

43、因素必須標準化,即保證處理因素在整個實驗過程中始終如 一,保持不變;2、實驗效應:通過觀察指標來反映觀察指標的基本原則:客觀性;精確性(包括準確度和精確度,準確度是指測值與真實值的接近程度,屬系統誤差;而精確度是指對同一變量重復觀測時,觀 測值與平均值的接近程度);靈敏性;特異性3、實驗設計的基本原則:對照,隨機,重復,均衡對照組設計的三個條件 對照的形式:空白對照 實驗對照 標準對照 自身對照 相互對照 歷史對照配對對照;安慰劑對照對照:使實驗組和對照組內的非處理因素基本一致,從而使處理因素的效應得以顯示;專設,同步,對等;不給對照組施加任何處理因素,臨床試驗中不宜用空白對照;不給對照組施加

44、處理因素,但施加某種實驗因素;與現有的標準法或常規方法、公認的有效藥物作對照;對照與實驗在同一受試對象上進行;不單獨設立對照組,而是 2個或幾個實驗組相互對照;除了非處理因素影響較小的少數疾病外,一般不宜用此種對照 隨機:包括隨機抽樣與隨機分配;重復:樣本含量與四個因素有關:a, B, 6,小且均呈反變的關系。均衡:各組的受試對象除接受的處理因素不同外,其他影響實驗的非處理因素要基本相同常用的實驗設計方法1、完全隨機設計:亦稱單因素實驗設計,不考慮個體差異的影響,僅涉及1個處理因素,但可以有2個或2個以上的水平。將受試對象隨機分配到處理組合對照組中,各組的例數可以 相等或不等。分析方法同前。2

45、、配對設計和配伍組設計:先將受試對象按配比條件配成對子,再按隨機化的原則把每對中 的受試對象分配到實驗組和對照組中。通常以影響實驗效應的主要處理因素為配對條件。醫 學實驗中的自身對照也是配對設計,但容易產生混雜影響,最好設立平衡對照。配伍組設計, 亦稱隨機區組設計,是配對設計的擴大。分析方法:配對設計:如果各對的觀察值的差值服從均數為 0的正態分布,用配對設計的t檢驗,否則 用配對設計的秩和檢驗。配伍組設計:滿足方差分析條件的用方差分析,不滿足的經變量變換后也可以用,仍達不 到要求的用配伍組設計的秩和檢驗。3、交叉設計:是在自身配對設計基礎上發展起來的雙因素設計,該設計考慮了 1個處理因素,此

46、因素有兩個水平(A,B),并且還考慮了 2個與處理因素無交互作用的非處理因素對實驗效 應的影響。適用條件及應注意的問題:處理因素只有2個水平(A, B),且2個非處理因素(實驗階段、受試對象)與處理因素之 間無交互作用;兩個實驗階段之間要安排一定的間隔時間, 以便消除前一階段治療措施的殘留效應, 保證兩 個階段的起始條件一樣;兩次觀察的時間不能過長,處理效應不能持續過久;適用于病情較穩定,病程可以分階段,短期治療可見療效的疾病;為消除患者的心理作用或防止研究者的暗示,一般多采用盲法。分析方法:符合方差分析條件的應用方差分析, 不符合的經變量變換后也可以用,仍達不到要 求的用秩和檢驗。方差分析將

47、總變異分為4部分:受試者問,階段問,處理間和誤差。4、拉丁方設計:是按拉丁方陣的字母、行和列安排實驗的三因素等水平的設計。考慮了 3個 因素對實驗效應的影響。基本要求:必須是3個因素的實驗,且3個因素的水平數相等(若不等,以主要的處理因素的水平數為主,其他2個進行調整);3個因素是相互獨立的,均無交互作用;各行、列和字母所得實驗數據的方差齊;設計步驟:根據主要處理因素的水平數確定基本型拉丁方;先將基本型拉丁方隨機化,然后按隨機化后拉丁方陣安排實驗,隨機化是通過拉丁方的任兩行或任兩列交換位置實現;規定行、歹h字母所代表的因素或水平,通常用字母表示主要的處理因素;分析方法:可用方差分析,將總變異分

48、為列間、行間、字母間和誤差4部分。5、析因實驗設計:是一種將2個或多個因素的各水平交叉分組安排實驗的設計,不僅可以檢驗各因素內部不同水平間有無差異,還可以檢驗 2個或多個因素間是否存在交互作用。常用的設計模型有2 2析因實驗設計、2 2 2析因實驗設計和2 2 3 2析因實驗設計。分析方法:可以用方差分析。2 2析因實驗設計:將總變異分為 A問、B間、交互作用(A B)和誤差4部分。2 2 2析因實驗設計:將總變異分為 A間、B問、C間、A B、A C、B C、A B C和 誤差8部分。回歸系數的意義1、多元線性回歸分析中偏回歸系數的意義:在其他自變量保持不變的條件下,自變量 X改變 一個單位是因變量Y的平均該變量。流行病學意義:在其他因素不變的條件下,某因素改變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論