第九講-分層分析(XDL)_第1頁
第九講-分層分析(XDL)_第2頁
第九講-分層分析(XDL)_第3頁
第九講-分層分析(XDL)_第4頁
第九講-分層分析(XDL)_第5頁
已閱讀5頁,還剩80頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九講分層分析StratifiedAnalysis10/17/20231主要內容一、概述二、步驟與方法:資料整理同質性檢驗點值估計假設檢驗區間估計三、效應測量修飾的評價與描述四、應用基本生存分析誘導期分析10/17/20232一、概述歷史:美國著名生物統計學家Mantel和Haenszel于1959年首次提出了著名的分層分析(stratifiedanalysis)法,以解決腫瘤回顧性研究中的混雜問題。

概念:分層分析是將資料按某個(些)需要控制的變量的不同分類進行分層,然后再估計某暴露因子與某疾病之間的關系的一種資料分析方法。10/17/20233概述-分層分析的用途

估計和控制混雜因子;評估和描述效應測量修飾;描述隨訪研究中的失訪問題和競爭風險;研究兩因子之間的生物學交互作用;用于生存分析和誘導期分析。10/17/20234概述-混雜與效應測量修飾(1)

混雜:在研究某疾病與某因子的關系時,由于一個或多個既與疾病有制約關系,又與暴露因子密切相關的第三變量的影響,掩蓋或夸大了所研究的暴露因子與疾病的聯系。這種作用就稱為混雜,這些第三變量就稱為混雜因子。效應測量修飾:是指某種效應測量值的大小隨某個第三變量(暴露和發病以外)的值的變化而變化,這個第三變量稱為效應測量修飾因子。10/17/20235概述-混雜與效應測量修飾(2)效應測量修飾被認為是效應的異質性,而沒有效應測量修飾被稱為效應的同質性。當效應測量修飾因子與暴露因子兩者均對疾病的發生有作用時,如果暴露組的發病率和非暴露組的發病率之比在某可疑效應測量修飾因子的各水平之間恒定,即不存在修飾作用,那么它們的差則可能是不恒定的,即可能存在修飾作用;如果比測量和差測量均不存在修飾作用,那么在其他測量中一定存在修飾作用。反之亦然。10/17/20236概述-混雜與效應測量修飾(3)10/17/20237概述-混雜與效應測量修飾(4)混雜與效應測量修飾的異同:相同之處在于兩者均能使所估計的暴露效應被歪曲;兩者的主要區別表現在下列四個方面:1)效應測量修飾是所研究的效應的一種特性,是獨立于研究,不隨調查研究設計的變化而變化的一種客觀現象;而混雜的存在與否卻取決于研究設計,混雜是研究中的一種偏倚,是系統誤差。2)效應測量修飾存在與否取決于所用的效應測量指標;而混雜卻與特異的效應測量指標無關。10/17/20238概述-混雜與效應測量修飾(5)3)混雜是由于混雜因子在暴露與非暴露組(或病例與對照組)中分布比例不同所造成的;而效應測量修飾是由于效應測量修飾因子對暴露與疾病的關系產生了實質性影響,或者說效應測量修飾因子與暴露因子有交互作用。4)研究者希望預防和消除混雜,而對效應測量修飾卻要盡量的發現和描述。通過改變源人群或設計策略(如配比等),能阻止一個潛在的混雜因子產生混雜,但同時也可能削弱了對效應測量修飾的研究。10/17/20239概述-混雜的判斷混雜因子具有下列四個基本特征:

1)它必須是對照人群中所研究疾病的一個危險因子;2)它必須和源人群中的暴露變量有關;3)它不是暴露和疾病之間的一個中間變量;4)按該可疑混雜因子調整后的效應測量值不同于調整前的效應測量值。10/17/202310概述-混雜作用大小的估計對混雜因子作用大小的最直接估計方法是比較對該混雜因子進行調整前和調整后的效應測量值,用兩個效應測量值之間的不一致的程度來估計。對混雜因子作用大小的估計最好是在其他混雜因子被控制的條件下進行。10/17/202311概述-選擇混雜因子(1)控制的必要性的判斷:對效應估計值的變化選擇一個臨界點作為判斷的標準。臨界點的選擇通常有兩種方法:人為確定法,即人為規定調整后的效應測量值的變化應大于5%,10%或其他標準,才被認為是重要的。統計學檢驗:對未調整和調整估計值兩者之間的差異進行統計學檢驗,如果檢驗結果有顯著性,則對該因子的調整是必須的。選擇混雜因子時,一般需要提高拒絕無效假設的α水平至0.2甚至更高,而不使用傳統的0.05水平。10/17/202312概述-選擇混雜因子(2)選擇控制的必要性:不能試圖通過分層分析控制所有的混雜因子,因為樣本的限制。另一方面,當一部分混雜因子被控制后,另一些混雜因子的作用則可能變小而可被忽視。因此,我們無需對每個重要的混雜因子都進行控制。10/17/202313概述-選擇混雜因子(3)向前選擇(forwardselection)的策略選擇需要控制的混雜因子。一般先從最簡單的可接受的分層(如按性別)開始進行暴露效應估計,然后根據混雜因子作用的大小,將作用較大的混雜因子一個一個地增加到分層變量中。當控制變量的增加對總的效應估計值不再有重要意義時,這種選擇過程即停止。10/17/202314概述-選擇混雜因子(4)后退刪除(backwarddeletion)策略:即首先對所有能夠調整的潛在混雜因子都進行調整,然后將那些導致效應變化最小的混雜因子逐一刪除,如果某變量的刪除導致的總的效應估計值的變化超過某一臨界點時,刪除即可停止。在評價混雜因子的重要性時,會受到其他混雜因子和選擇策略的強烈影響。10/17/202315概述-選擇混雜因子(5)當所有的或大多數的混雜因子都通過分層進行調整時,由于樣本變小,此時以近似統計學為基礎的分層分析方法都將導致很大偏倚的最終結果。這種偏倚的特征是效應估計值開始越來越遠離無效假設。控制或減少這種偏倚的方法主要有:①采用向前選擇的策略;②確定選擇混雜因子的臨界點時,考慮使用可信區間;③應用精確法代替近似法計算效應估計值及其可信限。10/17/202316概述-確定混雜因子的分類理想的情況是控制混雜因子的重要混雜作用所需的最少分類。原則上,如果樣本夠大,分類不宜過少;如果樣本不大,則以檢查精確可信限為標準。要求當分類數發生變化時,精確可信限有一個合適的變化(達到要求的臨界點,但又不出現過于夸大的現象)。10/17/202317概述-分層分析的基本步驟(1)分層分析的前奏是先要判斷某(些)因子是否為混雜因子,然后從眾多混雜因子中選擇必需調整控制的混雜因子,并確定它們的分類。分層分析的基本步驟是:

1、分層列表:將資料按混雜因子分層后列表,然后分別計算各層的效應估計值。10/17/202318概述-分層分析的基本步驟(2)2、檢查層別效應估計值:在絕大多數分層分析中,效應估計值在各層都有一些變化,而這些變化的意義卻不盡相同。檢查與分析的目的就是要明確這種層別效應估計值的變化有無統計學意義,是否是科學的,有無重要的公共衛生意義。明確這些問題對決定下一步用什么分析方法和如何報告分層分析結果將起關鍵作用。10/17/202319概述-分層分析的基本步驟(3)3、層別效應的一致性假設與檢驗:絕大多數的分層分析方法是以各層效應大小一致(即同質的)為基礎的。層別效應一致性的假設檢驗即為同質性檢驗,它是先要在同質性假設條件下,求出一個一致效應的總的估計值,然后與各層別估計值比較。由于比值測量的一致性通常意味著差值測量的異質性,因此,對比值和差異測量的一致性需要單獨評價。10/17/202320概述-分層分析的基本步驟(4)4、調整控制混雜:如果同質性檢驗結果證明,層別效應是一致的,分層分析則以調整控制混雜為主。其計算主要包括一致效應的合并點估計,一致效應的區間估計及一致效應的P值。5、評價和描述效應測量修飾:如果同質性檢驗的結果證明層間效應估計值的差異有統計學顯著性時,則認為該變量具有效應測量修飾作用。此時,分層分析的目標指向效應測量修飾的評價與描述10/17/202321二、步驟與方法

1、資料整理(1)10/17/202322資料整理(2)10/17/202323資料整理(3)10/17/2023242、同質性檢驗(1)同質性檢驗(testinghomogeneity)即檢驗各層的效應大小是否一致,其變異是隨機誤差造成的還是固有的。它是分層分析所面臨的首要任務。同質性檢驗的假設是效應大小U在各層是同質的,同質性檢驗一般采用Wald卡方檢驗的方法。10/17/202325同質性檢驗(2)10/17/202326同質性檢驗(3)10/17/2023273、點值估計(1)10/17/202328分析方法的選擇分析方法:直接合并法最大似然法M-H法資料類型:人時資料純計數資料病例隊列資料測量指標:率差和率比要求精度:精確法和近似法10/17/202329步驟與方法-點值估計(2)(一)直接合并法

直接合并(directpooling)法是利用從各層資料中計算的效應估計值的方差的倒數直接作為對各層別效應估計值進行加權的權重,直接合并法的公式均是直接從一般公式導出的。這種方法要求每一層內都有足夠的樣本,以獲得滿意的方差估計值,如果層內樣本太小,方差將較大,估計的結果將是不可靠的。10/17/202330步驟與方法-點值估計(3)10/17/202331步驟與方法-點值估計(4)10/17/202332步驟與方法-點值估計(5)10/17/202333步驟與方法-點值估計(6)10/17/202334步驟與方法-點值估計(7)10/17/202335步驟與方法-點值估計(8)直接合并與標準化都是將層別效應估計值加權平均以獲得一個一致效應估計值的方法。兩者的區別是:標準化所選擇的權重是以符合一個可能是資料以外的標準分布為基礎的,即權重的選擇可能與被標化的資料無關,并且不要求各層別效應大小是同質的;直接合并法的一個主要缺點就是用于合并的層別權重是直接從該層的效應估計值的方差的倒數獲得的。對于頻數很少的資料,其方差估計和隨后的權重都是高度不精確的。10/17/202336步驟與方法-點值估計(9)(二)最大似然法最大似然法(maximumlikelihood)的一個主要優點就是趨于高度有效和偏倚很小,即使在樣本相對離散,層別估計值高度不規則的情況下,最大似然法亦能對其進行有效的平均,并得出一個適當的相對可靠的結果。缺點是計算復雜。10/17/202337步驟與方法-點值估計(10)應用最大似然法進行合并估計首先需要建立某一資料的似然方程作為所研究參數的函數,然后在似然模型下,通過迭代求解高階方程或高階方程組,求出該參數的最大似然估計值,即使手頭的觀察資料最適的參數值。一個復雜的方程并不包括任何直接的用于平均層別效應估計的權重,但方程的解總是在層別估計值的范圍之內。10/17/202338步驟與方法-點值估計(11)應用最大似然法對一致效應進行估計時,依據資料類型(人時資料、累積發生率資料和病例對照資料)和效應測量指標(發生率差和發生率比)的不同將應用不同的模型,建立不同的方程組,有不同的解法。除人時資料的發生率比的最大似然估計值僅通過對單個方程迭代求解即可獲得外,其他參數估計值均必須對比層數多1的方程組求解,而且必須同時解出滿足似然方程的各層非暴露組的發生率的值。10/17/202339步驟與方法-點值估計(12)一般情況下,分析率比的最大似然法使用泊松(Poisson)概率模型或二項式概率模型,這些模型要求各層內和各層間的數值是相互獨立的。當所研究的疾病有傳染性時,這種假設不能成立,因此,應用似然模型分析傳染性疾病的資料可能是不妥的。對于四格表(2×2)資料的比值比分析有兩種不同的模型:一個是雙二項式模型(two-binomialmodel),又被稱為非條件模型;另一個是單超幾何模型(single-hypergeometricmodel),又稱為條件模型。應用該模型進行似然統計稱為條件似然統計(conditional-likelihoodstatistics)。10/17/202340步驟與方法-點值估計(13)由于雙二項式模型的似然統計要求每一個二項式的分母(N1i和N0i)均很大(一般要求>10),因此,在資料頻數較少時,只有超幾何模型的似然分析是近似有效的。這種小樣本的近似,一般只限于層別效應值的估計,當各層的頻數被匯總時,無論是條件或非條件最大似然估計均要求有一個大的樣本。10/17/202341步驟與方法-點值估計(14)(三)M—H法在一致效應的點值估計中,直接合并法計算簡單,概念明確,但要求每層內有較大的頻數,否則可靠性很低;最大似然法即使在頻數較少時亦能獲得可靠的結果,但計算十分復雜。1959年Mantel和Haenszel提出了著名的M—H法,該法計算簡單,而且象條件最大似然統計一樣,即使在每層內的頻數較少或資料偶然含有零的情況下,也能獲得好的效果。10/17/202342步驟與方法-點值估計(15)10/17/202343步驟與方法-點值估計(16)10/17/2023444、假設檢驗(1)分層資料的統計假設檢驗實際上是一種比值比或發生率比偏離1的檢驗;只對資料與無效假設的總的分離情況進行判斷,即使層別效應測量值是變化的,其檢驗也只是對一致效應的合并估計值與無效值分離的檢驗。10/17/202345步驟與方法-假設檢驗(2)用于分層資料的統計假設檢驗方法是用于未分層資料的假設檢驗方法的直接擴展,有精確檢驗和近似檢驗兩類方法。根據概率的乘法定律,觀察到一系列結果的概率是每一結果出現的概率的乘積,因此,在分層資料中,觀察到一系列層別效應估計值的概率可通過對每一層所出現的結果的概率求積來計算。精確檢驗的指標是Fisher精確P值,近似檢驗指標是計分統計量(scorestatisticχscore)。10/17/202346步驟與方法-假設檢驗(3)10/17/202347步驟與方法-假設檢驗(4)10/17/202348步驟與方法-假設檢驗(5)10/17/2023495、區間估計(1)可信區間估計是流行病學資料分析的基本要求。分層資料的一致效應的可信區間可精確計算,亦可近似估計。區間估計方法依據效應指標、資料類型及所用的點值估計方法的不同而異。1、率差:率差(ratedifference,RD)包括發生率差(ID)和累積發生率差(CID),其精確可信區間的計算目前尚無現成可用的方法,近似可信區間的計算方法是用于未分層資料的區間估計方法的直接擴展。主要有以方差為基礎的方法和以假設檢驗為基礎的方法。10/17/202350步驟與方法-區間估計(2)10/17/202351步驟與方法-區間估計(3)10/17/202352步驟與方法-區間估計(4)10/17/202353步驟與方法-區間估計(5)(二)率比率比(rateratio,RR)包括發生率比(IR)、累積發生率比(CIR)和比值比(OR)三種。分層資料的率比合并估計值的可信區間可通過精確計算(從略)或近似方法獲得,近似方法同樣有以方差為基礎的方法和以假設檢驗為基礎的方法。10/17/202354步驟與方法-區間估計(6)10/17/202355步驟與方法-區間估計(7)10/17/202356步驟與方法-區間估計(8)10/17/202357步驟與方法-區間估計(9)10/17/202358步驟與方法-區間估計(10)10/17/202359三、效應測量修飾的評價與描述(1)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論