




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
GeneralizedLinearModels廣義線性模型何平平北大醫學部流行病與衛生統計學系Tel:82801619何平平北大醫學部流行病與衛生統計學系廣義線性模型的定義該模型假定:1.Y1,…Yn是n個服從指數分布族的獨立樣本i=E(Yi|X1,X2,…,Xk),i=1,…,n;2.i是k個解釋變量的線性組合i=0+1Xi1+…+kXik3.存在一個連接函數(Linkfunction)g,使得i
與i有下面的關系i
=g(i)廣義線性模型的定義該模型假定:常見分布及其聯系函數指數分布族常見的重要分布如正態分布、二項分布、Poisson分布、指數分布等。對非正態廣義線性模型,經典的最小二乘法已不能用于這種模型的擬合,而是采用最大似然估計方法。分布聯系函數正態分布
=普通線性模型二項分布或多項分布
=log對數線性模型(Poisson分布)
(Poisson回歸)
=log{P/(1-P)}
Logistic回歸模型
=log{h(t)/h0(t)}
COX回歸模型常見分布及其聯系函數指數分布族常見的重要分布如正態分布、二項Logistic回歸分析推薦書籍:Hosmer,DavidW.(2000).Appliedlogisticregression
.JohnWiley,NewYork.何平平北大醫學部流行病與衛生統計學系Tel:82801619推薦書籍:何平平北大醫學部流行病與衛生統計學系(一)Logistic回歸分析的任務影響因素分析logistic回歸常用于疾病的危險因素分析,logistic回歸分析可以提供一個重要的指標:OR。(一)Logistic回歸分析的任務影響因素分析(二)經典Logistic回歸分析的基本原理1.變量特點因變量:二分類變量,若令因變量為y,則常用y=1表示“發病”,y=0表示“不發病”(在病例對照研究中,分別表示病例組和對照組)。自變量:可以為分類變量,也可以為連續變量。(二)經典Logistic回歸分析的基本原理1.變量特點2.Logistic模型P=P(y=1|x),為發病概率;1-P=P(y=0|x),為不發病概率。0為常數項,1
,2…..m分別為m個自變量的回歸系數。g(x)是對P的變換,稱為logit變換:可以得到:2.Logistic模型P=P(y=1|x),為發病概率;1模型估計方法:最大似然法(MaximumLikelihoodMethod):構造似然函數(Likelihoodfunction)L=
P(y=1|x)P(y=0|x),通過迭代法估計一組參數(0,
1
,2…..m)使L達到最大。模型估計方法:3.模型及自變量的統計檢驗模型檢驗:H0:1=2=…=i=…=m=0
H1:至少有一個i0采用似然比檢驗(thelikelihoodratiotest),當P0.05時,拒絕H0,認為模型有統計學意義。自變量檢驗:H0:i=0H1:i0采用Wald檢驗,當P0.05時,拒絕H0,認為i不為0。3.模型及自變量的統計檢驗4.自變量的篩選與多元線性回歸分析類似,有Forward法(前進逐步法
)、Backward(后退逐步法
)法。SPSS中默認的選入標準為0.05,剔除標準為0.10。注:不同自變量的篩選方法,當結果差別較大時,應該結合專業知識,用盡可能少的變量擬合一個最佳模型。有研究者認為,依據Wald統計量(Wald)、似然比統計量(LR)或者條件統計量(Conditional)剔除變量時,LR是決定哪個變量應該被剔除的最好方法。4.自變量的篩選注:不同自變量的篩選方法,當結果差別較大時,5.模型擬合的優良性指標(1)擬合分類表(ClassificationTable)根據Logistic回歸模型,對樣本重新判別分類,總符合率越接近100%,則模型擬合越好。Logistic回歸用于判別分類很粗劣,尤其在很多情況下對于小樣本的分類效果差。(2)Hosmer-Lemeshow擬合優度統計量當檢驗的P值大于0.1時,則說明模型對樣本的擬合是可以接受的。5.模型擬合的優良性指標6.OR與RRLogistic回歸模型中,OR=exp()。lnOR=當某種疾病的發病率或死亡率很低時,ORRROR的置信區間為:6.OR與RR例:比較新療法與舊療法治療某種疾病的療效。現對40例患者隨機分組,分別接受新療法和舊療法治療。根據專業知識,患者的病情嚴重程度、年齡對療效也有影響。如何評價新舊療法的療效(見數據文件logistic.sav)?(注:作為舉例,本例樣本量僅為40例,由于樣本量太小,Logistic回歸的結論僅作為參考)例:比較新療法與舊療法治療某種疾病的療效。現對40例患者隨機變量說明:Y:治愈情況,1=治愈;0=未治愈;X1:病情嚴重程度,0=不嚴重,1=嚴重;X2:年齡。X3:治療方法,0=新療法,1=舊療法。變量說明:Y:治愈情況,1=治愈;0=未治愈;X1:病情嚴重二值Logistic回歸二值因變量協變量(自變量)注:此處將X1、X3看作為連續變量。因變量協變量(自變量)注:此處將X1、X3看作為連續變量。OR的95%置信區間OR的95%置信區間對模型的檢驗經統計學檢驗,模型2=13.951,P=0.003,Logistic回歸模型有顯著性。模型擬合良好對模型的檢驗經統計學檢驗,模型2=13.951,P=0.0符合率為70.0%擬合分類表符合率為70.0%擬合分類表回歸系數標準誤Wald值P值OROR置信區間根據模型,病情嚴重程度與治療方法對患者的治愈情況有影響;其中病情嚴重組相對于不嚴重組,OR=0.203,95%置信區間為(0.038,1.092)(此區間包括1,缺乏實際意義);舊療法組相對于新療法組,OR=0.103,95%置信區間為(0.019,0.553)回歸系數標準誤Wald值P值OROR置信區間根據模型,病情嚴另法:將X1、X3指定為分類變量。另法:將X1、X3指定為分類變量。與前述結果相比,X1與X3的回歸系數符號發生了變化,結果解釋有所不同:病情不嚴重組相對于嚴重組,OR=4.928,95%置信區間為(0.916,26.506);新療法組相對于舊療法組,OR=9.707,95%置信區間為(1.809,52.103)
。另法:將X1、X3指定為分類變量。注:對于二分類變量,可以當作連續變量處理,也可以指定為分類變量,但要注意結果解釋。與前述結果相比,X1與X3的回歸系數符號發生了變化,結果解釋后退法篩選變量后退法篩選變量每步的模型檢驗、擬合分類表每步的模型檢驗、不在模型中的變量后退法篩選變量不在模型中的變量后退法篩選變量前進法篩選變量前進法篩選變量不在模型中的變量前進法篩選變量不在模型中的變量前進法篩選變量應用Logistic回歸分析時的注意事項Logistic回歸是乘法模型,這一點,在結果解釋時需要慎重。對于自變量(X1,X2),OR12=exp(1+2)=OR1×OR2例:某研究調查胃癌發病的危險因素,得到“有不良飲食習慣”相對于“無不良飲食習慣”的OR=2.6,“喜吃鹵食和鹽漬食物”相對于“不吃鹵食和鹽漬食物”的OR=2.4。那么根據Logistic回歸,“有不良飲食習慣且喜吃鹵食和鹽漬食物”相對于“無不良飲食習慣且不吃鹵食和鹽漬食物”的OR=2.6×2.4=6.24,得出此結論時需要考慮從專業知識上是否合理。應用Logistic回歸分析時的注意事項Logistic回歸以下實例摘自HosmeandLemeshow(2000).AppliedLogisticRegression:SecondEdition.JohnWiley&SonsInc.研究目的是考察與嬰兒低出生體重有關的可能危險因素(當體重低于2500g時,認為是低出生體重嬰兒)。研究收集了189例婦女的數據,其中59例分娩低出生體重嬰兒,130例分娩正常體重嬰兒。以下實例摘自HosmeandLemeshow(2000)廣義線性模型課件解析廣義線性模型課件解析(三)條件Logistic回歸分析的基本原理條件Logistic回歸是經典Logistic回歸的重要拓展方法之一,它主要用于分層數據(stratadata)的影響因素分析,通過分層來控制可能的混雜因素對結局變量的影響。分層變量可以包括一個變量或者幾個變量。1.概述(三)條件Logistic回歸分析的基本原理條件Logist2.條件Logistic模型logit變換:令yk為第k層的因變量,yk=1或0;xk1,xk2…xki…xkm為第k層的m個自變量。第k層的模型為:k
為第k層的截距,反映了層的效應。1,2….
m為回歸系數,是未知參數。2.條件Logistic模型logit變換:令yk為第k層模型估計方法:條件最大似然法(theConditionalMaximumLikelihood)。可以估計出回歸系數i,與k無關(在實際應用中,我們并不關心k)。
假定:對于k層,自變量xki的回歸系數相同,這表明對于所有的層,自變量對因變量的影響大小是相同的。模型估計方法:假定:對于k層,自變量xki的回歸系數相同,這最常見的情況是流行病學中的匹配病例對照研究。
SPSS中實現Logistic回歸___借助COX回歸模型:(1)增加一個虛擬的生存時間變量(2)令病例的生存時間比對照短(3)在設置生存狀態變量(status)時,令病例組為完全數據,對照組為刪失數據3.應用最常見的情況是流行病學中的匹配病例對照研究。SPSS中實現以下實例摘自HosmeandLemeshow(2000).AppliedLogisticRegression:SecondEdition.JohnWiley&SonsInc.研究目的是考察與嬰兒低出生體重有關的可能危險因素(當體重低于2500g時,認為是低出生體重嬰兒)。此研究為1:1病例對照研究,包括112例(56例病例,56例對照)。對于每一例分娩低出生體重嬰兒母親,按照母親的年齡進行匹配,選擇一例分娩正常體重嬰兒作為對照。以下實例摘自HosmeandLemeshow(2000)廣義線性模型課件解析廣義線性模型課件解析廣義線性模型課件解析廣義線性模型課件解析廣義線性模型課件解析廣義線性模型課件解析GeneralizedLinearModels廣義線性模型何平平北大醫學部流行病與衛生統計學系Tel:82801619何平平北大醫學部流行病與衛生統計學系廣義線性模型的定義該模型假定:1.Y1,…Yn是n個服從指數分布族的獨立樣本i=E(Yi|X1,X2,…,Xk),i=1,…,n;2.i是k個解釋變量的線性組合i=0+1Xi1+…+kXik3.存在一個連接函數(Linkfunction)g,使得i
與i有下面的關系i
=g(i)廣義線性模型的定義該模型假定:常見分布及其聯系函數指數分布族常見的重要分布如正態分布、二項分布、Poisson分布、指數分布等。對非正態廣義線性模型,經典的最小二乘法已不能用于這種模型的擬合,而是采用最大似然估計方法。分布聯系函數正態分布
=普通線性模型二項分布或多項分布
=log對數線性模型(Poisson分布)
(Poisson回歸)
=log{P/(1-P)}
Logistic回歸模型
=log{h(t)/h0(t)}
COX回歸模型常見分布及其聯系函數指數分布族常見的重要分布如正態分布、二項Logistic回歸分析推薦書籍:Hosmer,DavidW.(2000).Appliedlogisticregression
.JohnWiley,NewYork.何平平北大醫學部流行病與衛生統計學系Tel:82801619推薦書籍:何平平北大醫學部流行病與衛生統計學系(一)Logistic回歸分析的任務影響因素分析logistic回歸常用于疾病的危險因素分析,logistic回歸分析可以提供一個重要的指標:OR。(一)Logistic回歸分析的任務影響因素分析(二)經典Logistic回歸分析的基本原理1.變量特點因變量:二分類變量,若令因變量為y,則常用y=1表示“發病”,y=0表示“不發病”(在病例對照研究中,分別表示病例組和對照組)。自變量:可以為分類變量,也可以為連續變量。(二)經典Logistic回歸分析的基本原理1.變量特點2.Logistic模型P=P(y=1|x),為發病概率;1-P=P(y=0|x),為不發病概率。0為常數項,1
,2…..m分別為m個自變量的回歸系數。g(x)是對P的變換,稱為logit變換:可以得到:2.Logistic模型P=P(y=1|x),為發病概率;1模型估計方法:最大似然法(MaximumLikelihoodMethod):構造似然函數(Likelihoodfunction)L=
P(y=1|x)P(y=0|x),通過迭代法估計一組參數(0,
1
,2…..m)使L達到最大。模型估計方法:3.模型及自變量的統計檢驗模型檢驗:H0:1=2=…=i=…=m=0
H1:至少有一個i0采用似然比檢驗(thelikelihoodratiotest),當P0.05時,拒絕H0,認為模型有統計學意義。自變量檢驗:H0:i=0H1:i0采用Wald檢驗,當P0.05時,拒絕H0,認為i不為0。3.模型及自變量的統計檢驗4.自變量的篩選與多元線性回歸分析類似,有Forward法(前進逐步法
)、Backward(后退逐步法
)法。SPSS中默認的選入標準為0.05,剔除標準為0.10。注:不同自變量的篩選方法,當結果差別較大時,應該結合專業知識,用盡可能少的變量擬合一個最佳模型。有研究者認為,依據Wald統計量(Wald)、似然比統計量(LR)或者條件統計量(Conditional)剔除變量時,LR是決定哪個變量應該被剔除的最好方法。4.自變量的篩選注:不同自變量的篩選方法,當結果差別較大時,5.模型擬合的優良性指標(1)擬合分類表(ClassificationTable)根據Logistic回歸模型,對樣本重新判別分類,總符合率越接近100%,則模型擬合越好。Logistic回歸用于判別分類很粗劣,尤其在很多情況下對于小樣本的分類效果差。(2)Hosmer-Lemeshow擬合優度統計量當檢驗的P值大于0.1時,則說明模型對樣本的擬合是可以接受的。5.模型擬合的優良性指標6.OR與RRLogistic回歸模型中,OR=exp()。lnOR=當某種疾病的發病率或死亡率很低時,ORRROR的置信區間為:6.OR與RR例:比較新療法與舊療法治療某種疾病的療效。現對40例患者隨機分組,分別接受新療法和舊療法治療。根據專業知識,患者的病情嚴重程度、年齡對療效也有影響。如何評價新舊療法的療效(見數據文件logistic.sav)?(注:作為舉例,本例樣本量僅為40例,由于樣本量太小,Logistic回歸的結論僅作為參考)例:比較新療法與舊療法治療某種疾病的療效。現對40例患者隨機變量說明:Y:治愈情況,1=治愈;0=未治愈;X1:病情嚴重程度,0=不嚴重,1=嚴重;X2:年齡。X3:治療方法,0=新療法,1=舊療法。變量說明:Y:治愈情況,1=治愈;0=未治愈;X1:病情嚴重二值Logistic回歸二值因變量協變量(自變量)注:此處將X1、X3看作為連續變量。因變量協變量(自變量)注:此處將X1、X3看作為連續變量。OR的95%置信區間OR的95%置信區間對模型的檢驗經統計學檢驗,模型2=13.951,P=0.003,Logistic回歸模型有顯著性。模型擬合良好對模型的檢驗經統計學檢驗,模型2=13.951,P=0.0符合率為70.0%擬合分類表符合率為70.0%擬合分類表回歸系數標準誤Wald值P值OROR置信區間根據模型,病情嚴重程度與治療方法對患者的治愈情況有影響;其中病情嚴重組相對于不嚴重組,OR=0.203,95%置信區間為(0.038,1.092)(此區間包括1,缺乏實際意義);舊療法組相對于新療法組,OR=0.103,95%置信區間為(0.019,0.553)回歸系數標準誤Wald值P值OROR置信區間根據模型,病情嚴另法:將X1、X3指定為分類變量。另法:將X1、X3指定為分類變量。與前述結果相比,X1與X3的回歸系數符號發生了變化,結果解釋有所不同:病情不嚴重組相對于嚴重組,OR=4.928,95%置信區間為(0.916,26.506);新療法組相對于舊療法組,OR=9.707,95%置信區間為(1.809,52.103)
。另法:將X1、X3指定為分類變量。注:對于二分類變量,可以當作連續變量處理,也可以指定為分類變量,但要注意結果解釋。與前述結果相比,X1與X3的回歸系數符號發生了變化,結果解釋后退法篩選變量后退法篩選變量每步的模型檢驗、擬合分類表每步的模型檢驗、不在模型中的變量后退法篩選變量不在模型中的變量后退法篩選變量前進法篩選變量前進法篩選變量不在模型中的變量前進法篩選變量不在模型中的變量前進法篩選變量應用Logistic回歸分析時的注意事項Logistic回歸是乘法模型,這一點,在結果解釋時需要慎重。對于自變量(X1,X2),OR12=exp(1+2)=OR1×OR2例:某研究調查胃癌發病的危險因素,得到“有不良飲食習慣”相對于“無不良飲食習慣”的OR=2.6,“喜吃鹵食和鹽漬食物”相對于“不吃鹵食和鹽漬食物”的OR=2.4。那么根據Logistic回歸,“有不良飲食習慣且喜吃鹵食和鹽漬食物”相對于“無不良飲食習慣且不吃鹵食和鹽漬食物”的OR=2.6×2.4=6.24,得出此結論時需要考慮從專業知識上是否合理。應用Logistic回歸分析時的注意事項Logistic回歸以下實例摘自HosmeandLemeshow(2000).AppliedLogisticRegression:SecondEdition.JohnWiley&SonsInc.研究目的是考察與嬰兒低出生體重有關的可能危險因素(當體重低于2500g時,認為是低出生體重嬰兒)。研究收集了189例婦女的數據,其中59例分娩低出生體重嬰兒,130例分娩正常體重嬰兒。以下實例摘自HosmeandLemeshow(2000)廣義線性模型課件解析廣義線性模型課件解析(三)條件Logisti
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 許昌職業技術學院《實驗設計方法》2023-2024學年第一學期期末試卷
- 山東省單縣一中2024-2025學年高三適應性月考(七)英語試題含解析
- 煙臺幼兒師范高等專科學校《耐火材料工藝學》2023-2024學年第二學期期末試卷
- 江蘇省鹽城市響水縣2025年初三第二學期第二次綜合練習化學試題文試卷含解析
- 天津現代職業技術學院《英語語言學概論》2023-2024學年第二學期期末試卷
- 廈門醫學院《測繪學科》2023-2024學年第二學期期末試卷
- 電商培訓合同范文
- 二零二五版借款補充合同
- 二零二五版房屋裝修半包合同范文
- 二零二五山地租賃合同范例
- 腳手架穩定計算
- 信息系統網絡安全應急預案
- 掉落物落地品管理規定
- 【圖文】GB8624-2012建筑材料及制品燃燒性能分級(精)
- 科姆龍變頻器說明書kv2000
- 小學生讀書知識競賽試題
- 藍色簡約法律通用PPT模板
- 旅行社掛靠協議(樣板)
- 皮爾遜Ⅲ型曲線模比系數計算表(共享版)
- 房屋租賃合以裝修費抵租金
- Z5140型立式鉆床說明書
評論
0/150
提交評論