生存分析的概念.doc_第1頁
生存分析的概念.doc_第2頁
生存分析的概念.doc_第3頁
生存分析的概念.doc_第4頁
生存分析的概念.doc_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生存分析課程總結生存分析課程總結院 (系) 統(tǒng)計學院 專 業(yè) 統(tǒng)計學 班 級 經(jīng)濟分析2班 學 號 32009121304 姓 名 呂嘉琦 第一章 緒論一、生存分析的概念:將事件的結果和出現(xiàn)此結果所經(jīng)歷的時間結合起來分析的統(tǒng)計分析方法。研究生存現(xiàn)象和響應時間數(shù)據(jù)及其統(tǒng)計規(guī)律的一門學科。對一個或多個非負隨機變量(生存時間)進行統(tǒng)計分析研究。對生存時間進行分析和推斷,研究生存時間和結局與眾多影響因素間關系及其程度的統(tǒng)計分析方法。在綜合考慮相關因素(內因和外因)的基礎上,對涉及生物學、醫(yī)學(臨床、流行病)、工程(可靠性)、保險精算學、公共衛(wèi)生學、社會學和人口學(老齡問題、犯罪、婚姻)、經(jīng)濟學(市場學)等領域中,與事件(死亡,疾病發(fā)生、發(fā)展和緩解,失效,狀態(tài)持續(xù))發(fā)生的時間(也叫壽命、存活時間或失效時間,統(tǒng)稱生存時間)有關的問題提供相關的統(tǒng)計規(guī)律的分析與推斷方法的學科。二、“生存時間”(Survival Time)的概念 生存時間也叫壽命、存活時間、失效時間等等。醫(yī)學:疾病發(fā)生時間、治療后疾病復發(fā)時間可靠性工程系:元件或系統(tǒng)失效時間犯罪學:重罪犯人的假釋時間 社會學:首次婚姻持續(xù)時間人口學:母乳喂養(yǎng)新生兒斷奶時間經(jīng)濟學:經(jīng)濟危機爆發(fā)時間、發(fā)行債券的違約時間保險精算學:保險人的索賠時間、保險公司某一索賠中所付保費汽車工業(yè):汽車車輪轉數(shù) 市場學中:報紙和雜志的篇幅和訂閱費三、生存分析的應用領域:社會學,保險學,醫(yī)學,生物學,人口學,醫(yī)學,經(jīng)濟學,可靠性工程學等四、生存分析的“別名”:生存分析(Survival analysis),事件時間分析(time-to-event analysis),事件歷史分析(event history analysis),失效時間分析(工程學)(failure time analysis),可靠性分析(reliability analysis)。五、生存分析的歷史生存分析方法最早可上溯至十九世紀的死亡壽命表。現(xiàn)代的生存分析則開始于二十世紀三十年代工業(yè)科學中的相關應用。二次世界大戰(zhàn):武器裝備的可靠性研究,這一研究興趣延續(xù)到戰(zhàn)后。此時生存分析都集中在參數(shù)模型。 二十世紀六七十年代:醫(yī)學研究中大量臨床試驗的出現(xiàn),要求方法學有新的突破,導致了生存分析的研究開始轉向非參數(shù)方法。D.R. Cox在72年提出的比例風險模型為此做出了劃時代的貢獻?,F(xiàn)在,生存分析方法的在醫(yī)學領域得到了廣泛的應用,而通過醫(yī)學研究要求的不斷提高,這一方法也得到了飛速的發(fā)展。六、生存分析研究的目的1、描述生存過程:估計不同時間的總體生存率,計算中位生存期,繪制生存函數(shù)曲線。統(tǒng)計方法包括Kaplan-Meier(K-M)法、壽命表法。2、比較:比較不同處理組的生存率,如比較不同療法治療腦瘤的生存率,以了解哪種治療方案較優(yōu)。統(tǒng)計方法log-rank檢驗等。3、影響因素分析:研究某個或某些因素對生存率或生存時間的影響作用。如為改善腦瘤病人的預后,應了解影響病人預后的主要因素,包括病人的年齡、性別、病程、腫瘤分期、治療方案等。統(tǒng)計方法Cox比例風險回歸模型等。4、預測:建立Cox回歸預測模型。主要研究內容描述生存過程:研究人群生存狀態(tài)的規(guī)律,研究生存率曲線的變動趨勢,是人壽保險業(yè)的基礎。生存過程影響因素分析及結局預測:識別與反應、生存及疾病等相關風險因素,預測生存結局,在臨床中應用的非常廣泛。七、主要分析方法1、參數(shù)法方法:首先要求觀察的生存時間t 服從某一特定的分布,采用估計分布中參數(shù)的方法獲得生存率的估計值。生存時間的分布可能為指數(shù)分布、Weibull分布、對數(shù)正態(tài)分布等,這些分布曲線都有相應的生存率函數(shù)形式。只需求得相應參數(shù)的估計值,即可獲得生存率的估計值和生存曲線。2、非參數(shù)方法:實際工作中,多數(shù)生存時間的分布不符合上述所指的分布,就不宜用參數(shù)法進行分析,應當用非參數(shù)法。這類方法的檢驗假設與以往所學的非參數(shù)法一樣,假設兩組或多組的總體生存率曲線分布相同,而不論總體的分布形式和參數(shù)如何。非參數(shù)法是隨訪資料的常用分析方法。3、半?yún)?shù)方法:只規(guī)定了影響因素和生存狀況間的關系,但是沒有對時間(和風險函數(shù))的分布情況加以限定。這種方法主要用于分析生存率的影響因素,屬多因素分析方法,其典型方法是Cox比例風險模型。4、幾種常用的統(tǒng)計軟件:SAS,SPSS,Stata,Excel,R 第二章 數(shù)據(jù)類型一、完全數(shù)據(jù)(Complete data)每個個體確切的生產(chǎn)時間都是知道的。這樣的數(shù)據(jù)稱為完全數(shù)據(jù)(Complete data)。但在實際的生存分析中,數(shù)據(jù)在很多情況下是很難完全觀察到的。二、刪失(Censoring )生存數(shù)據(jù)一個重要的特點是:在研究結束時,無法獲得某些個體確切的生存時間。例如:失去聯(lián)系(病人搬走,電話號碼改變),無法觀察到結局(死于其他原因),研究截止,個體仍然存活在這些情況下獲得的數(shù)據(jù)就是刪失數(shù)據(jù)(Censored data)。對存在刪失的個體,只知道刪失時間(Censoring time)。刪失分為右刪失(Right censoring)、左刪失(Left censoring)和區(qū)間刪失(Interval censoring)1、右刪失(Right censoring)。在進行觀察或調查時,一個個體的確切生存時間不知道,而只知道其生存時間大于時間L,則稱該個體的生存時間在L上是右刪失的,并稱L為右刪失數(shù)據(jù)(Right-censored data)。右刪失有三種類型(按結束時間差別):I型刪失(Type I censoring)、II型刪失(Type II censoring)和III型刪失(Type III censoring)。(1)I型刪失(Type I censoring):對所有個體的觀察停止在一個固定的時間,這種刪失即為I型刪失(或定時刪失)。例如:動物研究通常是以有固定數(shù)目的動物接受一種或多種處理開始,由于時間和費用的限制,研究者常常不能等到所有動物死亡。一種選擇就是在一個固定時間周期內觀察,在截止時間之后仍可能有些動物活著,但不繼續(xù)觀察了。這些動物的生存時間是不知道的,只知其不小于研究周期時間。I型刪失的刪失時間是固定的。圖表 1 I型刪失示例(2)II型刪失(Type II censoring):同時對n個個體進行觀察,一直到有一固定數(shù)目(r n)的個體死亡(失效)為止,這種刪失即為II型刪失。II型刪失的刪失時間是隨機的。圖表 2 II型刪失示例(3)III型刪失(Type III censoring):所有個體在不同時間進入研究,某些個體在研究結束之前死亡,他們的確切生存時間是知道的,其他個體在研究結束之前退出研究而不被跟蹤觀察或在研究結束時仍然活著。進入研究的時間可能不同,刪失時間也可能不同,這種刪失叫做III型刪失,又稱為隨機刪失(Random censoring)。圖表 3 III型刪失示例2、左刪失(Left censoring)研究對象在時刻開始接受觀察,而在此之前我們感興趣的時間已經(jīng)發(fā)生,這就是左刪失。例如:“您初次吸食大麻是在什么時候?” 有一種回答:“我吸食過,但我不記得吸食的具體時間了?!边@些回答的吸食時間數(shù)據(jù)就是左刪失。通過測試確定兒童學會完成特定任務的年齡,有些兒童在進入研究前就已經(jīng)可以完成某項特定任務,這些兒童的事件發(fā)生時間也是左刪失。出現(xiàn)左刪失同時,也可能出現(xiàn)右刪失,稱為雙刪失(Double censoring)。例如:對吸食大麻的問卷還有一種回答:“我從來沒有吸食過”,這樣的數(shù)據(jù)就是右刪失。3、區(qū)間刪失(Interval censoring):若個體的確切生存時間不知道,只知道其生存時間在兩個觀察時間 L和R之間(LR),則稱該個體的生存時間在L,R上是區(qū)間刪失的。實際工作中,凡是不能或者不愿作連續(xù)監(jiān)測時就會遇到這樣的區(qū)間刪失。區(qū)間刪失分兩種:第一類區(qū)間刪失(Case I Interval censoring)和第二類區(qū)間刪失(Case II Interval censoring)。當對個體只進行一次觀察,且個體的確切生存時間不知道,只知道其生存時間是否大于觀察時間(即或),這種刪失稱為第一類區(qū)間刪失,也稱為現(xiàn)實狀況數(shù)據(jù)(Current data)。當對個體進行次觀察,其觀察時間L和R 滿足時,這種刪失稱為第二類區(qū)間刪失,也稱為一般區(qū)間刪失。如果初始時間(如艾滋病感染時間)和發(fā)生時間均為區(qū)間刪失,則稱生存時間為雙重區(qū)間刪失(Double interval censoring)。三、截斷(Truncation)在研究或者觀測中,淘汰了一些對象(樣本),使得研究者“意識不到他們的存在”。對截斷數(shù)據(jù)的分析構造似然采用條件分布。截斷包括兩種:左截斷(Left truncation)和右截斷(Right truncation)。1、左截斷(Left Truncation):只有個體經(jīng)歷某種初始事件以后才能觀察到其生存時間,稱為左截斷(Left truncation),此時獲得的數(shù)據(jù)稱為左截斷數(shù)據(jù)(Left-truncated data)例如:暴露于某疾病、發(fā)生死亡前的中間事件等。退休中心老年居民死亡時間(沒到年齡沒有進入觀測)左截斷與左刪失的區(qū)別:在左截斷的研究中,根本沒有考慮那些在進入研究之前已經(jīng)經(jīng)歷了感興趣時間的個體,而在左刪失的研究中,我們能獲得這些個體的部分信息。即有左截斷又存在右刪失的情況,稱為左截斷右刪失(Left-truncation and right-censoring)2、右截斷(Right Truncation)只有經(jīng)歷了某種終止事件才能觀察到生存時間(將要經(jīng)歷該事件的個體不包含在實驗樣本中),稱為右截斷(Right truncation),此時獲得的數(shù)據(jù)稱為右截斷數(shù)據(jù)(Right-truncated data)。例如:對艾滋病感染和發(fā)病時間觀測數(shù)據(jù),有些個體感染病毒但尚未發(fā)病,這樣的個體不在樣本范圍之內。3、截斷的數(shù)學表示設Y是一個非負的表示生存時間的隨機變量;T是另外一個表示截斷時間的隨機變量。在左截斷下,只有當時,才能觀察到T和Y;在左截斷下,只有當時,才能觀察到T和Y。第三章 基本函數(shù)和模型一、生存函數(shù)(Survival Function)描述生存時間統(tǒng)計特征的基本函數(shù),也叫生存率(Survival Rate) :設T 表示生存時間,F(xiàn)(t)為T 分布函數(shù),生存函數(shù)定義為:生存函數(shù)性質:非增函數(shù)。滿足當生存時間為連續(xù)型隨機變量時:生存函數(shù)的圖像叫做生存曲線(Survival Curve),如下圖:陡峭的生存曲線表示較低的生產(chǎn)率或較短的生存時間;平緩的生存曲線表示較高的生存率或較長的生存時間。離散生存時間產(chǎn)生于舍入操作將失效(或死亡)時間分組從區(qū)間和壽命用整數(shù)計量等。離散時間生存函數(shù)是非增的階梯函數(shù),當T 取值為,且,離散時間生存函數(shù)是非增的階梯函數(shù)二、危險率函數(shù)(Hazard Function):危險率函數(shù):描述觀察個體在某時刻存活條件下,在以后的單位時間內死亡的(條件)概率:當T 連續(xù) ;當T 離散,取值為,則處的危險率為危險率函數(shù)在工程上叫做失效率函數(shù)或損壞函數(shù),在生存分析和醫(yī)學統(tǒng)計中又稱為風險率函數(shù)或瞬時死亡率(Simultaneous death rate)、或死亡強度(Death intensity)、或條件死亡率(Conditional death rate)、或年齡死亡率(Age death rate)等。常見風險函數(shù)曲線三、累積風險函數(shù)(Cumulative Hazard Function)累積危險率函數(shù):當T 連續(xù),當T 離散時,危險率函數(shù)有兩種定義形式:如果的值很小,兩種定義形式的值接近四、平均剩余壽命函數(shù)(Expected residual life)平均剩余壽命函數(shù)定義為:為平均壽命。五、常用的參數(shù)模型生存時間的分布一般不呈正態(tài)分布。常用的分布有:指數(shù)分布、威布爾(Weibull)分布、伽瑪(Gamma)分布、對數(shù)羅吉斯蒂(logistic)分布、對數(shù)正態(tài)分布。1、指數(shù)分布生存函數(shù)形式為:密度函數(shù)為:危險率函數(shù)為:指數(shù)分布的一個重要性質:無記憶性(某事件的發(fā)生時間與歷史記錄無關),即2、威布爾(Weibull)分布生存函數(shù)形式為:其中是尺度參數(shù),是形狀參數(shù),時為指數(shù)分布。危險率函數(shù)為:適用于危險率遞增(取)、遞減(?。┖蜑槌?shù)(?。┑雀鞣N情形。3、伽瑪(Gamma)分布生存函數(shù):其中稱為伽瑪函數(shù)。第四章 生存數(shù)據(jù)基本特征的非參數(shù)估計一、生存函數(shù)的估計假設事件發(fā)生在D個嚴格區(qū)分的時間點上:在無刪失條件下:二、右刪失生存函數(shù)的估計:存在右刪失下:三、乘積限(product-limit)估計乘積限估計又稱Kaplan-Meier估計階梯函數(shù),在觀察時間點上發(fā)生跳躍;跳躍的高度與上發(fā)生的事件數(shù)和前刪失數(shù)有關;超出觀測上限的時間沒有給出很好的估計。四、乘積限估計尾部修正Efron(1967)建議最大觀察時間點以后的生存函數(shù)等于0,即等價于假定最大時間點上的生存者馬上就會死亡。(負偏估計)Gill(1980)建議最大觀察時間點以后的生存函數(shù),即假設最大時間點上的生存者永遠不會死。(正偏估計)Brown、Hollander 和 Kowar(1974)建議尾部估計為一條指數(shù)曲線,即五、乘積限估計的方差Greenwood估計式:六、生存函數(shù)點估計的置信區(qū)間利用漸進正態(tài)性的線性置信區(qū)間:其他變換形式的非線性置信區(qū)間對數(shù)變換 反正弦平方根七、累積死亡率的估計無刪失條件下危險率函數(shù)的估計:有刪失條件下累計死亡率估計:1.直接利用累積死亡率與生存函數(shù)的關系:2.Nelson-Aalen估計為 方差為:具有更好的小樣本性質Nelson-Aalen估計的應用1)用于選擇事件發(fā)生時間的參數(shù)模型2)為危險率提供粗估計(對估計進行核平滑后計算斜率)八、累積死亡力函數(shù)的置信區(qū)間線性置信區(qū)間:其他變換形式的非線性置信區(qū)間對數(shù)變換區(qū)間 反正弦平方根變化區(qū)間注:1、乘積限估計和Nelson-Aalen估計都是建立在非信息刪失(non-informative censoring)假設下2、乘積限估計的尾部估計:a)取0;b)取最大觀測點的值;c)構造指數(shù)曲線3、無刪失時,乘積限估計即為經(jīng)驗生存函數(shù)九、生命時間均值的估計平均生存時間:估計式為:方差為:十、左截斷右刪失數(shù)據(jù)生存函數(shù)的估計只有生存到某時刻之后才能進入觀察乘積限估計(獨立截斷下是最大似然估計)(為條件估計)Lai和Ying(1991)修正乘積限估計: (當風險集較小時忽略此處的死亡) I為指數(shù)函數(shù);n為樣本大??;為常數(shù)。十一、左刪失數(shù)據(jù)生存函數(shù)估計利用“時間倒轉法”:即不是從原點處測量時間,而是從很大的一個時間倒著從相反的方向測量,用時間減去原始時間,得到右刪失數(shù)據(jù)結構,利用乘積限估計式估計純粹左刪失情況很少見。十二、同時存在左、右刪失情況設為觀察時間點, 表示時的死亡數(shù),表示時的右刪失數(shù),表示時的左刪失數(shù),則生存函數(shù)的迭代估計步驟為:步驟0:忽略左刪失獲得乘積限估計作為的初始估計;步驟(K+1)1:使用S的當前估計值通過估計步驟(K+1)2:使用上一步驟的結果,估計在時發(fā)生的事件數(shù)為步驟(K+1)3: 使用上一步修正后的右刪失數(shù)據(jù),仍然忽略左刪失計算乘積限估計。如果這一估計在所有處都有接近,則停止迭代,否則繼續(xù)步驟1。十三、右截斷數(shù)據(jù)生成函數(shù)的估計傳染病的研究中比較常見。設代表第個個體被傳染的時間,是從感染到發(fā)病的時間。研究樣本包含從0到期間病人的觀測值.(只有在時間之前發(fā)病的人才進入研究)。利用顛倒時間軸法:令則變?yōu)樽蠼財嗟模憧蓸嬙斓某朔e限估計式。十四、生命表中生存函數(shù)的估計生命表(也稱壽命表,life table)方法是測定死亡率和描述群體生存現(xiàn)象的最古老的技術之一。主要用于保險精算、人口學、醫(yī)學等方面。一組(大規(guī)模)個體在整個考察時間上被連續(xù)觀察,它們的事件發(fā)生時間或刪失時間被記入 個相鄰但不重疊的區(qū)間內 根據(jù)生命表方法應用的范圍不同,可分為人口生命表和臨床生命表,分析方法相似。生命表方法數(shù)據(jù)假設(1)獨立刪失:假定刪失的事件時間(包括損失和退出)與它們如果一直被觀察到事件發(fā)生所得到的死亡時間是獨立的。(2)假定刪失時間和死亡時間是均勻分布在每個區(qū)間上的。(3)假定死亡力在區(qū)間內是常數(shù)。生命表的構造方法1. 第一列給出相鄰但不重疊的固定區(qū)間事件發(fā)生時間和刪失時間將落入且只落入其中的一個區(qū)間。2. 第二列給出進入第個區(qū)間的對象數(shù),這些個體還沒有經(jīng)歷觀察事件的發(fā)生。3. 第三列給出在第個區(qū)間中失去蹤跡(死亡)或活著退出觀察(遷出)的個體數(shù)4. 第四列給出在第個區(qū)間中,面臨觀察事件風險的暴露數(shù)的一個估計值,假設刪失時間在區(qū)間上是均勻分布的,則5. 第五列是在第個區(qū)間中發(fā)生觀察事件(如死亡)的個體數(shù)6. 第六列給出在第個區(qū)間起點處的生存函數(shù)的估計對于第一個區(qū)間,且生命表分析的主要任務就是估計,基本思想:乘積限方法。7. 第七列給出估計的第個區(qū)間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論