多元統計方法課件_第1頁
多元統計方法課件_第2頁
多元統計方法課件_第3頁
多元統計方法課件_第4頁
多元統計方法課件_第5頁
已閱讀5頁,還剩157頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多元統計方法課件1我們要討論的是SPSS建立方程檢驗方程總體和各自變量的統計學意義自變量的篩選Case的剔除(強影響點)共線性診斷我們要討論的是2多元統計方法線性回歸Logistic回歸注:完全可以用于單因素分析,從這一點也可以看出統計學的方法是相通的。SPSS無法進行條件Logistic回歸,就像sas沒有專門針對配對資料的語句一樣,任何統計軟件均有局限性。建立方程的計算量很大,一般需軟件完成。前人手工計算這兩種回歸(借助科學計算器),精神可嘉80年代,一個Logistic回歸即使用計算機,計算的時間也以天計。多元統計方法線性回歸建立方程的計算量很大,一般需軟件完成。前3調整或控制多變量的控制或調整法就是同時記錄可能有影響的因素,把他們與可能的危險因素一起作分析單因素分析有統計學意義,多因素分析沒有意義的解釋,舉例調整或控制多變量的控制或調整法就是同時記錄可能有影響的因素,4Inunivariateanalysis,thefamilyhistoriesofSAHandICHwerepositivelyassociatedwitheachofthesubtypesofstroke.whereasafteradjustmentforpotentialriskfactors,familyhistoryofICHnolongershowedasignificantassociationwithhaematoma.單因素分析有意義,多因素沒有意義的解釋Inunivariateanalysis,thefa5Familyhistoryofintracerebralhaematomawasnotanindependentriskfactorforhaematoma,butitmightbeagoodpredictor,whichindirectly

influencesthepathogenesisofintracerebralhaematomaviacertainhereditarycomponentssuchashypertension,andevenlifestylefactorssuchasalcoholconsumption.

Familyhistoryofintracerebra6Isfamilyhistoryanindependentriskfactorforstroke?

JNeurolNeurosurgPsychiatry.1997Jan;62(1):66-70.Isfamilyhistoryanindepende7多元線性回歸(簡單步驟)指標多,難以理解。在計算自動化時代,這是回歸的難點,我們不懂如何判斷我們的模型的好壞多元線性回歸(簡單步驟)指標多,難以理解。在計算自動化時代,8回歸的實際應用在影響因素分析中

一種是探索模式,在回歸模型中探索所有可能的自變量與應變量的關系

一種是控制模式,即控制混雜因素的影響后者對回歸模型的要求要小的多,不出現異常情況,可僅對模型擬合稍作考慮。回歸的實際應用在影響因素分析中9SPSS菜單analyze-regression-linearSPSS菜單analyze-regression-linea10變量的數量化(1)自變量為連續型變量:必要時作變換(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1(3)自變量為二分類:如令男=1,女=0(4)自變量為名義分類:需要采用啞變量(dummyvariables)進行編碼

變量的數量化(1)自變量為連續型變量:必要時作變換(2)自11名義分類變量的啞變量化假如職業分類為工、農、商、學、兵5類,則可定義比分類數少1個,即4個啞變量。編碼方法如下:亞變量的設置,我們會在Logistic回歸模型中討論名義分類變量的啞變量化假如職業分類為工、農、商、學、12數據格式數據格式13回歸的一些定義應變量(dependentvariable)自變量(independentvariable)偏回歸系數pertialregressioncoefficient常數項b0決定系數determinationcoefficient,Rsquare共線性collinearity:自變量間存在著線性關系yi=b0+b1x1i+b2x2i+…+bnxni回歸的一些定義應變量(dependentvariable)14回歸方程的建立就是求解b0和bi的過程矩陣的各種計算(求解線性方程)SPSS的實現:

analyze-regression-linear將回歸方程中的所有自變量作為一個整體來檢驗他們于應變量之間是否具有線性關系,P<0.05,說明所擬合的方程具有統計學意義,但并不說明模型擬合的好壞各自變量的假設檢驗與評價,檢驗各自變量和應變量是否有線性關系,P<(可放寬)說明有線性關系,同樣t值不說明線性關系的強弱,這樣,一個回歸方程就建立了,回歸方程的建立就是如此easy。回歸方程的建立就是求解b0和bi的過程將回歸方程中的所有自變15線性與擬合優度有線性關系擬合優度不一定很好上述F和t檢驗有統計學意義,只是說明自變量與y有線性關系,但未能表示“關系有多大”舉例:上述方程的R2很小,但因為樣本量大,F值很大R2的意義:可以由BMI,age和膳食口味解釋SBP的4.3%變化我認為,因素分析可以只考慮線性關系的有無。特別是在控制模式中。線性與擬合優度有線性關系擬合優度不一定很好16自變量的選擇全局擇優法:求出所有可能的回歸模型(共有2m-1個)對應的準則值;按R2,Cp準則,AIC準則等統計量選擇最優模型。求出所有可能的回歸模型(共有2m-1個)對應的準則值;按上述準則選擇最優模型缺點:如果自變量個數為4,則所有的回歸有24-1=15個;當自變量數個數為10時,所有可能的回歸為210-1=1023個;……;當自變量數個數為50時,所有可能的回歸為250-1≈1015個。自變量的選擇全局擇優法:17全局擇優法決定系數(R2)和校正決定系數(R2c),可以用來評價回歸方程的優劣。【R2隨著自變量個數的增加而增加,所以需要校正】

校正決定系數(R2c)越大,方程越優。Cp選擇法:選擇Cp最接近p或p+1的方程(不同學者解釋不同)。

Cp無法用Spss直接計算,可能需要手工。其中p為方程中自變量的個數,m為自變量總個數全局擇優法決定系數(R2)和校正決定系數(R2c),可以用來18Cp準則的計算公式Cp準則的計算公式19AIC準則的計算公式AIC準則的計算公式20自變量的選擇逐步選擇法逐步選擇法:(一)前進法(forward)(二)后退法(backward)(三)逐步回歸法(stepwise)小樣本檢驗水準a定為0.10或0.15,大樣本把值定為0.05。值越小表示選取自變量的標準越嚴。注意,引入變量的檢驗水準要小于或等于剔除變量的檢驗水準。自變量的選擇逐步選擇法逐步選擇法:21自變量到底如何選擇兩種方法結合手工選擇,逐步選擇法選擇后手工增減變量看校正決定系數(R2c)等方程擬合優劣指標的好壞放寬或限制進入方程的標準,特別是在逐步回歸的時候硬性進入方程最感興趣的研究變量自變量到底如何選擇兩種方法結合手工選擇,逐步選擇法選擇后手工22統計“最優”與專業的“最優”不同準則、方法得出的“最優”方程不同;不同的引入、剔除標準獲得的“最優”方程不同;方程還受數據的正確性、共線性影響統計“最優”與專業的“最優”不同準則、方法得出的“最優”方程23強影響點,記錄的選擇變量記錄強影響點,記錄的選擇變量記錄24強影響點,記錄的選擇從理論上講,每一個樣本點對回歸模型的影響應該是同等的,實際并非如此。有些樣本點(記錄)對回歸模型影響很大。對由過失或錯誤造成的點應刪去沒有錯誤的強影響點可能和自變量與應變量的相關有關,不可輕易刪除。強影響點,記錄的選擇從理論上講,每一個樣本點對回歸模型的影響25判斷強影響點的指標SPSS軟件中的指標analyze-regression-linear-saveSave中的選項均進入數據庫,而不出現在output中各種殘差越大,單一記錄對方程的影響越大判斷強影響點的指標SPSS軟件中的指標26判斷強影響點的指標(2)距1越遠,越是強影響點其余指標絕對值越大越是強影響點判斷強影響點的指標(2)距1越遠,越是強影響點27多重共線性自變量間存在著線性關系,使一個或幾個自變量可以由另外的自變量線性表示時,稱為該變量與另外的自變量間存在有共線性(collinearity)。容易出現:回歸系數的符號與由專業知識不符變量的重要性與專業不符整個方程決定系數R2高,但各自變量對應的回歸系數均不顯著。多重共線性自變量間存在著線性關系,使一個或幾個自變量28多重共線性的診斷SPSS中的指標容許度:越近似于0,共線性越強特征根:越近似于0,共線性越強條件指數:越大,共線性越強多重共線性的診斷SPSS中的指標29Spss的實現與結果analyze-regression-linear-statisticsSpss的實現與結果analyze-regression-l30實例以BMI為應變量,SBP,DBP和年齡為自變量進行回歸。結果如圖極端例子:以SBP為應變量,BMI和復制BMI為自變量,結果為其中之一無法進入方程從第四個特征根看,特征根小,條件指數大,從變量的方差比例來看,SBP和DBP在其中貢獻最大,可以說兩者有近似共線性不過兩者的共線性對方程的影響并不大實例以BMI為應變量,SBP,DBP和年齡為自變量進行回歸。31容許度越近于0共線性越大,等于0,完全共線復制的BMI根本無法進入方程后面討論交互作用的時候我們還要提到共線性容許度越近于0復制的BMI根本后面討論交互作用的時候32一、應用影響因素分析,控制混雜因素預測:由自變量值推出應變量Y的值控制:指定應變量Y的值查看自變量的改變量影響因素分析,控制混雜因素在醫學研究中最為長用,個人認為對模型擬合要求較低,特別在控制混雜的控制模式中后兩種用途對模型要求嚴格一、應用影響因素分析,控制混雜因素影響因素分析,控制混雜因素33二、應用條件二、應用條件34回歸系數符號反常與主要變量選不進方程的原因分析有重要影響的因素未包括在內某些變量個體間的差異很大樣本內突出點上數據誤差大變量的變化范圍較小樣本數太少上述各項在用最小二乘法求解方程過程中對殘差等重要中間指標的影響大,造成最小二乘法的失效。回歸系數符號反常與主要變量選不進方程的原因分析有重要影響的因35線性回歸的注意事項應變量為連續變量,自變量可以為連續變量、分類變量或有序變量樣本含量:一般要求樣本量n至少是方程中自變量個數m的5-10倍逐步回歸不是萬能的,一個goodoffit好的模型建立需要多方面考證。多重共線性:自變量存在較強的線性關系檢驗兩變量間有無交互作用,普遍的做法是在方程中加入它們的乘積項再做檢驗。但共線性的問題會因此而突出,舉例共線性很大SPSS菜單在處理回歸中選項較少,但完全可以滿足一般模型的擬合。其syntax模式應該有更多選項,但鑒于介紹這方面內容的書籍文獻較少。如確實需要嚴格的模型擬合,SAS可能是更好的選擇線性回歸的注意事項應變量為連續變量,自變量可以為連續變量、分36回歸的發展加權回歸有重復測量的回歸分析:對每一個回歸變量x的y有多次重復的測量值。嶺回歸分析:改進的最小二乘方,用于自變量相關性大,或某些變量變化范圍太小。可用sas實現。回歸的發展加權回歸37Logistic回歸實際上屬于判別分析,因擁有很差的判別效率而不常用。適用于流行病學資料的因素分析實驗室中藥物的劑量-反應關系臨床試驗評價疾病的預后因素分析Logistic回歸實際上屬于判別分析,因擁有很差的判別效率38二、Logistic回歸模型Logistic回歸的分類

二分類多分類其中二分較為常用

條件Logistic回歸非條件Logistic回歸兩者針對的資料類型不一樣,后者者針對成組研究,前者針對配對或配伍研究。二、Logistic回歸模型Logistic回歸的分類3926例冠心病病人和28例對照者進行病例對照研究(變量賦值表)

自變量為連續變量,最好變為等級或計數資料有統計學家持反對意見認為損失信息26例冠心病病人和28例對照者進行病例對照研究(變量賦值表4026例冠心病病人和28例對照者進行病例對照研究(數據格式)

26例冠心病病人和28例對照者進行病例對照研究(數據格式)41Logistic回歸方程的建立建立方程就是求解b0,b1…bpLogistic回歸方程的建立建立方程就是求解b0,b1…b42Logistic回歸中的常數項(b0)表示,在不接觸任何潛在危險/保護因素條件下,效應指標發生與不發生事件的概率之比的對數值。Logistic回歸中的回歸系數(bi)表示,某一因素改變一個單位時,效應指標發生與不發生事件的概率之比的對數變化值,即OR或RR的對數值。參數意義Logistic回歸中的常數項(b0)表示,在不接觸任何潛在43回歸系數的意義單純從數學上講,與多元線性回歸分析中回歸系數的解釋并無不同,亦即bi表示xi改變一個單位時,logitP的平均變化量。回歸系數的意義單純從數學上講,與多元線性回歸分析中回歸系數的44多因素Logistic回歸分析時,對回歸系數的解釋都是指在其它所有自變量固定的情況下的優勢比。存在因素間交互作用時,Logistic回歸系數的解釋變得更為復雜,應特別小心。調整與控制多因素Logistic回歸分析時,對回歸系數的解釋都是指在其45流行病學中的一些基本概念:相對危險度(relativerisk):RR=P1/P2比數

Odds=P/(1-P)比數比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率較小情況下,OR≈RR流行病學中的一些基本概念:46根據Wald檢驗可知,Logistic回歸系數bi服從u分布。因此其可信區間為進而,優勢比e(bi)的可信區間為根據Wald檢驗可知,Logistic回歸系數bi服從u分布47參數估計似然函數計算方法最大似然法迭代法初始值迭代次數人為精度可能不收斂總體來說,解比較穩定。參數估計似然函數計算方法最大似然法48SPSS的實現analyze-regression-binarylogisticSPSS的實現analyze-regression-bina49analyze-regression-binarylogistic-option模型擬合優度指標,2值越小,P值越大表明模型越好迭代過程,可以監察方程計算的過程參數估計的相關矩陣,每步各協變量的零級相關系數(簡單相關系數)均小(<0.80),提示各協變量間相互獨立其他analyze-regression-binarylogi50結果說明內編碼缺省值最好不超過總樣本量的10%不然代表性太差但也不是絕對結果說明內編碼缺省值最好不超過51結果說明(2)

我們只看最后一步模型系數總的檢驗Step:增加或減少的變量對方程的影響,P越大說明這個變量對方程的影響越小Block:Model:方程內包含的變量總體,如果P>,說明Logistic方程總體有意義,借用線性的解釋來說將回歸方程中的所有自變量作為一個整體來檢驗他們于應變量之間是否具有線性關系,P<0.05,說明所擬合的方程具有統計學意義,但并不說明模型擬合的好壞:真正的模型擬合一般要把其提高到0.20或0.10而非0.05。結果說明(2)

我們只看最后一步模型系數總的檢驗將回歸方程中52結果3模型擬合優度指標,2值越小,P值越大表明模型越好兩種R2的解釋與線性方程同,14.9%在流行病學研究中算一個比較好的了判別分析用表結果3模型擬合優度指標,判別分析用表53結果4Wald檢驗(waldtest)

即廣義的t檢驗,統計量為u,下面詳細討論之參數估計的相關矩陣,每步各協變量的零級相關系數(簡單相關系數)均小(<0.80),提示各協變量間相互獨立至此,一個最簡單logistic方程建立和檢驗告一段落,下面涉及自變量的選擇和強影響點的挑選結果4Wald檢驗(waldtest)參數估計的相關矩陣54自變量的篩選目的:與多元線性回歸分析類似,當自變量的數目較多時,為使logistic回歸方程比較穩定和便于解釋。方法:一般統計學書介紹和統計軟件固有的有前進法、后退法,逐步法。個人認為,還應考慮模型的整體擬合優度,并結合專業知識手工增加或剔除變量自變量的篩選目的:與多元線性回歸分析類似,當自變量的數目較多55全局擇優指標擬合分類表最大似然函數值L(=1)或logL(=0)即-2loglikelihood=0擬合優度檢驗通過上述指標,比較不同方程擬合優度的優劣R2越大,擬合越好模型擬合優度指標,2值越小,P值越大表明模型越好全局擇優指標擬合分類表R2越大,擬合越好模型擬合優度指標,56逐步選擇法三種向前逐步法,協變量引入檢驗均基于score統計量刪除變量基于條件估計的似然比刪除變量基于最大偏似然估計似然比刪除變量基于Wald統計量逐步選擇法三種向前逐步法,刪除變量基于刪除變量基于刪除變量基57似然比檢驗(likehoodratiotest)通過比較包含與不包含某一個或幾個待檢驗觀察因素的兩個模型的對數似然函數變化來進行,其統計量為G(又稱Deviance)。G=-2(lnLp-lnLk)

樣本量較大時,G近似服從自由度為待檢驗因素個數的2分布。似然比檢驗(likehoodratiotest)通過比較58比分檢驗(scoretest)

以未包含某個或幾個變量的模型為基礎,保留模型中參數的估計值,并假設新增加的參數為零,計算似然函數的一價偏導數(又稱有效比分)及信息距陣,兩者相乘便得比分檢驗的統計量S。樣本量較大時,S近似服從自由度為待檢驗因素個數的2分布。比分檢驗(scoretest)59Wald檢驗(waldtest)

即廣義的t檢驗,統計量為u

u服從正態分布,即為標準正態離差。

Logistic回歸系數的區間估計

Wald檢驗(waldtest)60上述三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但兩者均要求較大的計算量;而Wald檢驗未考慮各因素間的綜合作用,在因素間有共線性時結果不如其它兩者可靠。但SPSS和SAS軟件均采用Wald檢驗來判斷變量在方程中的作用由于軟件的計算相對容易,可以多種方法比較,結果多數一致,如果不一致,也均發生在臨近界值的變量上,這些變量在方程中本身對應變量的影響就不大,在實際中對研究的影響也較小。上述三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但61尋找強影響點,記錄的選擇殘差:非標準化Logit單位學生化標準化偏差絕對值越大,影響越大記錄對方程影響大小的指標,值越大影響越大預測值和概率尋找強影響點,記錄的選擇殘差:預測值和概率62

分類自變量的啞變量編碼為了便于解釋,對二項分類變量一般按0、1編碼,一般以0表示陰性或較輕情況,而1表示陽性或較嚴重情況。如果對二項分類變量按+1與-1編碼,那么所得的,容易造成錯誤的解釋。在sas的計算中無法對分類變量做多種處理?在SAS中使用啞變量必須用數據步建立新變量分類自變量的啞變量編碼在sas的計算中63西、中西、中三種療法啞變量化

原資料姓名性別年齡療法張山150中西李四120西王五018中劉六070中趙七135中西孫八029西啞變量化姓名性別年齡X1X2張山15001李四12010王五01800劉六07000趙七13501孫八02910西、中西、中三種療法啞變量化原資料姓名性64Spss中亞變量的設置分類變量必須轉化。如地區對血壓的影響。等級資料,當等級之間量度不一時必須轉化,如正常,超重和肥胖連續資料不宜直接進入方程時,轉化為等級資料或分類資料Spss中亞變量的設置分類變量必須轉化。如地區對血壓的影響。65亞變量的SPSS處理菜單亞變量的SPSS處理菜單66亞變量的SPSS處理菜單(二)亞變量的SPSS處理菜單(二)67亞變量設置(Spss)IndicatorSimpleDifferenceRepeated參照分類為0,其余為1,即各分類與參照分類比較除第一類分類外,各分類與其之前平均分類效應比較亞變量設置(Spss)Indicator參照分類為0,其余為68亞變量設置(2)Helmert:與Difference相反,各水平與其之后水平的平均效應比較Deviation:除參照分類外,各水平與分類的總效應比較Polynomial#◎¥%#¥!◎#¥)9……好像和連續變量有關手工設置亞變量還是有缺點的,如應用于等級資料就不合適亞變量設置(2)Helmert:手工設置亞變量69第二節.條件logistic回歸

Sas統計軟件所得的結果解釋與spss相似第二節.條件logistic回歸

Sas70七、條件Logistic回歸對配對/比調查資料,應該用條件Logistic回歸分析。對于配比資料,第i個配比組可以建立一個Logistic回歸:七、條件Logistic回歸對配對/比調查資料,應該用條件L71假設自變量在各配比組中對結果變量的作用是相同的,即自變量的回歸系數與配比組無關。配比設計的Logistic回歸模型其中不含常數項。假設自變量在各配比組中對結果變量的作用是相同的,即自變量的回72可以看出此回歸模型與非條件Logistic回歸模型十分相似,只不過這里的參數估計是根據條件概率得到的,因此稱為條件Logistic回歸模型。條件Logistic回歸模的回歸系數檢驗與分析和非條件Logistic回歸完全相同。可以看出此回歸模型與非條件Logistic回歸模型十分相似,73個體配對資料的優缺點配對資料特別適用于罕見疾病,由于病例的獲取不易,匹配并增加對照的例數使研究效率大大增加。小樣本的匹配特別有用Pitman效率遞增公式2R/(R+1)『如圖』匹配增加了選擇對照的難度一旦某個因子做匹配,就不能分析它與疾病的關系,另外它與其他因子的交互也不能充分分析。------把不必要的信息列入匹配成為配比過度,如在腦出血危險因素研究中匹配高血壓。個體配對資料的優缺點配對資料特別適用于罕見疾病,由于病例的獲74個體匹配的經典之作Herbst,1969,Boston.8例年輕女性陰道癌病例,每個病例配4個未患病個體做對照。要求對照與病例在同等級病房中出生時間前后不超過5天,女嬰。優選選擇與病例出生時間最近者比較諸多因素。最終得到病因。個體匹配的經典之作Herbst,1969,Boston.751:3配對的例子

1:3配對的例子

761:2配對的例子

SPSS菜單對條件Logistic回歸無能為力1:2配對的例子

SPSS菜單對條件Lo77Logistic回歸的注意事項變量的取值形式應變量,自變量(亞變量的SPSS處理菜單)樣本含量:經驗數在100例以上。配對資料一般要求對子數是自變量個數的20倍以上。

Logistic回歸的注意事項變量的取值形式78多分類logistic回歸##_)(&^%$>>>>>>……>,!!多分類logistic回歸##_)(&^%$>>>>>>……79參考書目孫振球,醫學統計學(供研究生用).人民衛生出版社,2002,第一版。孫尚拱,醫學多變量統計與統計軟件.北京醫科大學出版社.2000,第一版.劉潤幸,醫學統計學方法與應用(上、下冊).2001.第一版.倪宗瓚,衛生統計學.2001.第四版參考書目孫振球,醫學統計學(供研究生用).人民衛生出版社,280網上資源//spss/spssfaq.htm網上資源http://medstatstar.myetang81多元統計方法課件82我們要討論的是SPSS建立方程檢驗方程總體和各自變量的統計學意義自變量的篩選Case的剔除(強影響點)共線性診斷我們要討論的是83多元統計方法線性回歸Logistic回歸注:完全可以用于單因素分析,從這一點也可以看出統計學的方法是相通的。SPSS無法進行條件Logistic回歸,就像sas沒有專門針對配對資料的語句一樣,任何統計軟件均有局限性。建立方程的計算量很大,一般需軟件完成。前人手工計算這兩種回歸(借助科學計算器),精神可嘉80年代,一個Logistic回歸即使用計算機,計算的時間也以天計。多元統計方法線性回歸建立方程的計算量很大,一般需軟件完成。前84調整或控制多變量的控制或調整法就是同時記錄可能有影響的因素,把他們與可能的危險因素一起作分析單因素分析有統計學意義,多因素分析沒有意義的解釋,舉例調整或控制多變量的控制或調整法就是同時記錄可能有影響的因素,85Inunivariateanalysis,thefamilyhistoriesofSAHandICHwerepositivelyassociatedwitheachofthesubtypesofstroke.whereasafteradjustmentforpotentialriskfactors,familyhistoryofICHnolongershowedasignificantassociationwithhaematoma.單因素分析有意義,多因素沒有意義的解釋Inunivariateanalysis,thefa86Familyhistoryofintracerebralhaematomawasnotanindependentriskfactorforhaematoma,butitmightbeagoodpredictor,whichindirectly

influencesthepathogenesisofintracerebralhaematomaviacertainhereditarycomponentssuchashypertension,andevenlifestylefactorssuchasalcoholconsumption.

Familyhistoryofintracerebra87Isfamilyhistoryanindependentriskfactorforstroke?

JNeurolNeurosurgPsychiatry.1997Jan;62(1):66-70.Isfamilyhistoryanindepende88多元線性回歸(簡單步驟)指標多,難以理解。在計算自動化時代,這是回歸的難點,我們不懂如何判斷我們的模型的好壞多元線性回歸(簡單步驟)指標多,難以理解。在計算自動化時代,89回歸的實際應用在影響因素分析中

一種是探索模式,在回歸模型中探索所有可能的自變量與應變量的關系

一種是控制模式,即控制混雜因素的影響后者對回歸模型的要求要小的多,不出現異常情況,可僅對模型擬合稍作考慮。回歸的實際應用在影響因素分析中90SPSS菜單analyze-regression-linearSPSS菜單analyze-regression-linea91變量的數量化(1)自變量為連續型變量:必要時作變換(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1(3)自變量為二分類:如令男=1,女=0(4)自變量為名義分類:需要采用啞變量(dummyvariables)進行編碼

變量的數量化(1)自變量為連續型變量:必要時作變換(2)自92名義分類變量的啞變量化假如職業分類為工、農、商、學、兵5類,則可定義比分類數少1個,即4個啞變量。編碼方法如下:亞變量的設置,我們會在Logistic回歸模型中討論名義分類變量的啞變量化假如職業分類為工、農、商、學、93數據格式數據格式94回歸的一些定義應變量(dependentvariable)自變量(independentvariable)偏回歸系數pertialregressioncoefficient常數項b0決定系數determinationcoefficient,Rsquare共線性collinearity:自變量間存在著線性關系yi=b0+b1x1i+b2x2i+…+bnxni回歸的一些定義應變量(dependentvariable)95回歸方程的建立就是求解b0和bi的過程矩陣的各種計算(求解線性方程)SPSS的實現:

analyze-regression-linear將回歸方程中的所有自變量作為一個整體來檢驗他們于應變量之間是否具有線性關系,P<0.05,說明所擬合的方程具有統計學意義,但并不說明模型擬合的好壞各自變量的假設檢驗與評價,檢驗各自變量和應變量是否有線性關系,P<(可放寬)說明有線性關系,同樣t值不說明線性關系的強弱,這樣,一個回歸方程就建立了,回歸方程的建立就是如此easy。回歸方程的建立就是求解b0和bi的過程將回歸方程中的所有自變96線性與擬合優度有線性關系擬合優度不一定很好上述F和t檢驗有統計學意義,只是說明自變量與y有線性關系,但未能表示“關系有多大”舉例:上述方程的R2很小,但因為樣本量大,F值很大R2的意義:可以由BMI,age和膳食口味解釋SBP的4.3%變化我認為,因素分析可以只考慮線性關系的有無。特別是在控制模式中。線性與擬合優度有線性關系擬合優度不一定很好97自變量的選擇全局擇優法:求出所有可能的回歸模型(共有2m-1個)對應的準則值;按R2,Cp準則,AIC準則等統計量選擇最優模型。求出所有可能的回歸模型(共有2m-1個)對應的準則值;按上述準則選擇最優模型缺點:如果自變量個數為4,則所有的回歸有24-1=15個;當自變量數個數為10時,所有可能的回歸為210-1=1023個;……;當自變量數個數為50時,所有可能的回歸為250-1≈1015個。自變量的選擇全局擇優法:98全局擇優法決定系數(R2)和校正決定系數(R2c),可以用來評價回歸方程的優劣。【R2隨著自變量個數的增加而增加,所以需要校正】

校正決定系數(R2c)越大,方程越優。Cp選擇法:選擇Cp最接近p或p+1的方程(不同學者解釋不同)。

Cp無法用Spss直接計算,可能需要手工。其中p為方程中自變量的個數,m為自變量總個數全局擇優法決定系數(R2)和校正決定系數(R2c),可以用來99Cp準則的計算公式Cp準則的計算公式100AIC準則的計算公式AIC準則的計算公式101自變量的選擇逐步選擇法逐步選擇法:(一)前進法(forward)(二)后退法(backward)(三)逐步回歸法(stepwise)小樣本檢驗水準a定為0.10或0.15,大樣本把值定為0.05。值越小表示選取自變量的標準越嚴。注意,引入變量的檢驗水準要小于或等于剔除變量的檢驗水準。自變量的選擇逐步選擇法逐步選擇法:102自變量到底如何選擇兩種方法結合手工選擇,逐步選擇法選擇后手工增減變量看校正決定系數(R2c)等方程擬合優劣指標的好壞放寬或限制進入方程的標準,特別是在逐步回歸的時候硬性進入方程最感興趣的研究變量自變量到底如何選擇兩種方法結合手工選擇,逐步選擇法選擇后手工103統計“最優”與專業的“最優”不同準則、方法得出的“最優”方程不同;不同的引入、剔除標準獲得的“最優”方程不同;方程還受數據的正確性、共線性影響統計“最優”與專業的“最優”不同準則、方法得出的“最優”方程104強影響點,記錄的選擇變量記錄強影響點,記錄的選擇變量記錄105強影響點,記錄的選擇從理論上講,每一個樣本點對回歸模型的影響應該是同等的,實際并非如此。有些樣本點(記錄)對回歸模型影響很大。對由過失或錯誤造成的點應刪去沒有錯誤的強影響點可能和自變量與應變量的相關有關,不可輕易刪除。強影響點,記錄的選擇從理論上講,每一個樣本點對回歸模型的影響106判斷強影響點的指標SPSS軟件中的指標analyze-regression-linear-saveSave中的選項均進入數據庫,而不出現在output中各種殘差越大,單一記錄對方程的影響越大判斷強影響點的指標SPSS軟件中的指標107判斷強影響點的指標(2)距1越遠,越是強影響點其余指標絕對值越大越是強影響點判斷強影響點的指標(2)距1越遠,越是強影響點108多重共線性自變量間存在著線性關系,使一個或幾個自變量可以由另外的自變量線性表示時,稱為該變量與另外的自變量間存在有共線性(collinearity)。容易出現:回歸系數的符號與由專業知識不符變量的重要性與專業不符整個方程決定系數R2高,但各自變量對應的回歸系數均不顯著。多重共線性自變量間存在著線性關系,使一個或幾個自變量109多重共線性的診斷SPSS中的指標容許度:越近似于0,共線性越強特征根:越近似于0,共線性越強條件指數:越大,共線性越強多重共線性的診斷SPSS中的指標110Spss的實現與結果analyze-regression-linear-statisticsSpss的實現與結果analyze-regression-l111實例以BMI為應變量,SBP,DBP和年齡為自變量進行回歸。結果如圖極端例子:以SBP為應變量,BMI和復制BMI為自變量,結果為其中之一無法進入方程從第四個特征根看,特征根小,條件指數大,從變量的方差比例來看,SBP和DBP在其中貢獻最大,可以說兩者有近似共線性不過兩者的共線性對方程的影響并不大實例以BMI為應變量,SBP,DBP和年齡為自變量進行回歸。112容許度越近于0共線性越大,等于0,完全共線復制的BMI根本無法進入方程后面討論交互作用的時候我們還要提到共線性容許度越近于0復制的BMI根本后面討論交互作用的時候113一、應用影響因素分析,控制混雜因素預測:由自變量值推出應變量Y的值控制:指定應變量Y的值查看自變量的改變量影響因素分析,控制混雜因素在醫學研究中最為長用,個人認為對模型擬合要求較低,特別在控制混雜的控制模式中后兩種用途對模型要求嚴格一、應用影響因素分析,控制混雜因素影響因素分析,控制混雜因素114二、應用條件二、應用條件115回歸系數符號反常與主要變量選不進方程的原因分析有重要影響的因素未包括在內某些變量個體間的差異很大樣本內突出點上數據誤差大變量的變化范圍較小樣本數太少上述各項在用最小二乘法求解方程過程中對殘差等重要中間指標的影響大,造成最小二乘法的失效。回歸系數符號反常與主要變量選不進方程的原因分析有重要影響的因116線性回歸的注意事項應變量為連續變量,自變量可以為連續變量、分類變量或有序變量樣本含量:一般要求樣本量n至少是方程中自變量個數m的5-10倍逐步回歸不是萬能的,一個goodoffit好的模型建立需要多方面考證。多重共線性:自變量存在較強的線性關系檢驗兩變量間有無交互作用,普遍的做法是在方程中加入它們的乘積項再做檢驗。但共線性的問題會因此而突出,舉例共線性很大SPSS菜單在處理回歸中選項較少,但完全可以滿足一般模型的擬合。其syntax模式應該有更多選項,但鑒于介紹這方面內容的書籍文獻較少。如確實需要嚴格的模型擬合,SAS可能是更好的選擇線性回歸的注意事項應變量為連續變量,自變量可以為連續變量、分117回歸的發展加權回歸有重復測量的回歸分析:對每一個回歸變量x的y有多次重復的測量值。嶺回歸分析:改進的最小二乘方,用于自變量相關性大,或某些變量變化范圍太小。可用sas實現。回歸的發展加權回歸118Logistic回歸實際上屬于判別分析,因擁有很差的判別效率而不常用。適用于流行病學資料的因素分析實驗室中藥物的劑量-反應關系臨床試驗評價疾病的預后因素分析Logistic回歸實際上屬于判別分析,因擁有很差的判別效率119二、Logistic回歸模型Logistic回歸的分類

二分類多分類其中二分較為常用

條件Logistic回歸非條件Logistic回歸兩者針對的資料類型不一樣,后者者針對成組研究,前者針對配對或配伍研究。二、Logistic回歸模型Logistic回歸的分類12026例冠心病病人和28例對照者進行病例對照研究(變量賦值表)

自變量為連續變量,最好變為等級或計數資料有統計學家持反對意見認為損失信息26例冠心病病人和28例對照者進行病例對照研究(變量賦值表12126例冠心病病人和28例對照者進行病例對照研究(數據格式)

26例冠心病病人和28例對照者進行病例對照研究(數據格式)122Logistic回歸方程的建立建立方程就是求解b0,b1…bpLogistic回歸方程的建立建立方程就是求解b0,b1…b123Logistic回歸中的常數項(b0)表示,在不接觸任何潛在危險/保護因素條件下,效應指標發生與不發生事件的概率之比的對數值。Logistic回歸中的回歸系數(bi)表示,某一因素改變一個單位時,效應指標發生與不發生事件的概率之比的對數變化值,即OR或RR的對數值。參數意義Logistic回歸中的常數項(b0)表示,在不接觸任何潛在124回歸系數的意義單純從數學上講,與多元線性回歸分析中回歸系數的解釋并無不同,亦即bi表示xi改變一個單位時,logitP的平均變化量。回歸系數的意義單純從數學上講,與多元線性回歸分析中回歸系數的125多因素Logistic回歸分析時,對回歸系數的解釋都是指在其它所有自變量固定的情況下的優勢比。存在因素間交互作用時,Logistic回歸系數的解釋變得更為復雜,應特別小心。調整與控制多因素Logistic回歸分析時,對回歸系數的解釋都是指在其126流行病學中的一些基本概念:相對危險度(relativerisk):RR=P1/P2比數

Odds=P/(1-P)比數比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率較小情況下,OR≈RR流行病學中的一些基本概念:127根據Wald檢驗可知,Logistic回歸系數bi服從u分布。因此其可信區間為進而,優勢比e(bi)的可信區間為根據Wald檢驗可知,Logistic回歸系數bi服從u分布128參數估計似然函數計算方法最大似然法迭代法初始值迭代次數人為精度可能不收斂總體來說,解比較穩定。參數估計似然函數計算方法最大似然法129SPSS的實現analyze-regression-binarylogisticSPSS的實現analyze-regression-bina130analyze-regression-binarylogistic-option模型擬合優度指標,2值越小,P值越大表明模型越好迭代過程,可以監察方程計算的過程參數估計的相關矩陣,每步各協變量的零級相關系數(簡單相關系數)均小(<0.80),提示各協變量間相互獨立其他analyze-regression-binarylogi131結果說明內編碼缺省值最好不超過總樣本量的10%不然代表性太差但也不是絕對結果說明內編碼缺省值最好不超過132結果說明(2)

我們只看最后一步模型系數總的檢驗Step:增加或減少的變量對方程的影響,P越大說明這個變量對方程的影響越小Block:Model:方程內包含的變量總體,如果P>,說明Logistic方程總體有意義,借用線性的解釋來說將回歸方程中的所有自變量作為一個整體來檢驗他們于應變量之間是否具有線性關系,P<0.05,說明所擬合的方程具有統計學意義,但并不說明模型擬合的好壞:真正的模型擬合一般要把其提高到0.20或0.10而非0.05。結果說明(2)

我們只看最后一步模型系數總的檢驗將回歸方程中133結果3模型擬合優度指標,2值越小,P值越大表明模型越好兩種R2的解釋與線性方程同,14.9%在流行病學研究中算一個比較好的了判別分析用表結果3模型擬合優度指標,判別分析用表134結果4Wald檢驗(waldtest)

即廣義的t檢驗,統計量為u,下面詳細討論之參數估計的相關矩陣,每步各協變量的零級相關系數(簡單相關系數)均小(<0.80),提示各協變量間相互獨立至此,一個最簡單logistic方程建立和檢驗告一段落,下面涉及自變量的選擇和強影響點的挑選結果4Wald檢驗(waldtest)參數估計的相關矩陣135自變量的篩選目的:與多元線性回歸分析類似,當自變量的數目較多時,為使logistic回歸方程比較穩定和便于解釋。方法:一般統計學書介紹和統計軟件固有的有前進法、后退法,逐步法。個人認為,還應考慮模型的整體擬合優度,并結合專業知識手工增加或剔除變量自變量的篩選目的:與多元線性回歸分析類似,當自變量的數目較多136全局擇優指標擬合分類表最大似然函數值L(=1)或logL(=0)即-2loglikelihood=0擬合優度檢驗通過上述指標,比較不同方程擬合優度的優劣R2越大,擬合越好模型擬合優度指標,2值越小,P值越大表明模型越好全局擇優指標擬合分類表R2越大,擬合越好模型擬合優度指標,137逐步選擇法三種向前逐步法,協變量引入檢驗均基于score統計量刪除變量基于條件估計的似然比刪除變量基于最大偏似然估計似然比刪除變量基于Wald統計量逐步選擇法三種向前逐步法,刪除變量基于刪除變量基于刪除變量基138似然比檢驗(likehoodratiotest)通過比較包含與不包含某一個或幾個待檢驗觀察因素的兩個模型的對數似然函數變化來進行,其統計量為G(又稱Deviance)。G=-2(lnLp-lnLk)

樣本量較大時,G近似服從自由度為待檢驗因素個數的2分布。似然比檢驗(likehoodratiotest)通過比較139比分檢驗(scoretest)

以未包含某個或幾個變量的模型為基礎,保留模型中參數的估計值,并假設新增加的參數為零,計算似然函數的一價偏導數(又稱有效比分)及信息距陣,兩者相乘便得比分檢驗的統計量S。樣本量較大時,S近似服從自由度為待檢驗因素個數的2分布。比分檢驗(scoretest)140Wald檢驗(waldtest)

即廣義的t檢驗,統計量為u

u服從正態分布,即為標準正態離差。

Logistic回歸系數的區間估計

Wald檢驗(waldtest)141上述三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但兩者均要求較大的計算量;而Wald檢驗未考慮各因素間的綜合作用,在因素間有共線性時結果不如其它兩者可靠。但SPSS和SAS軟件均采用Wald檢驗來判斷變量在方程中的作用由于軟件的計算相對容易,可以多種方法比較,結果多數一致,如果不一致,也均發生在臨近界值的變量上,這些變量在方程中本身對應變量的影響就不大,在實際中對研究的影響也較小。上述三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但142尋找強影響點,記錄的選擇殘差:非標準化Logit單位學生化標準化偏差絕對值越大,影響越大記錄對方程影響大小的指標,值越大影響越大預測值和概率尋找強影響點,記錄的選擇殘差:預測值和概率143

分類自變量的啞變量編碼為了便于解釋,對二項分類變量一般按0、1編碼,一般以0表示陰性或較輕情況,而1表示陽性或較嚴重情況。如果對二項分類變量按+1與-1編碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論