二分類Logistic回歸模型_第1頁
二分類Logistic回歸模型_第2頁
二分類Logistic回歸模型_第3頁
二分類Logistic回歸模型_第4頁
二分類Logistic回歸模型_第5頁
免費預覽已結束,剩余10頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、實用標準文檔二分類Logistic回歸模型在對資料進行統計分析時常遇到反應變量為分類變量的資料,那么,能否用類似于線 性回歸的模型來對這種資料進行分析呢?答案是肯定的。本章將向大家介紹對二分類因變量進行回歸建模的 Logistic 回歸模型。第一節模型簡介一、模型入門在很多場合下都能碰到反應變量為二分類的資料,如考察公司中總裁級的領導層中是否有女性職員、某一天是否下雨、某病患者結局是否痊愈、調查對象是否為某商品的潛在消費者等。對于分類資料的分析,相信大家并不陌生,當要考察的影響因素較少,且也為分類 變量時,分析者常用列聯表 (contingency Table)的形式對這種資料進行整理,并使用

2、 2檢驗來進行分析,漢存在分類的混雜因素時,還可應用Mantel-Haenszel2檢驗進行統計學檢驗,這種方法可以很好地控制混雜因素的影響。但是這種經典分析方法也存在局限性,首先,它雖然可以控制若干個因素的作用,但無法描述其作用大小及方向,更不能考察各因素間是否存在交互任用;其次,該方法對樣本含量的要求較大,當控制的分層因素較多時,單元格被劃分的越來越細, 列聯表的格子中頻數可能很小甚至為0,將導致檢驗結果的不可靠。最后,2檢驗無法對連續性自變量的影響進行分析,而這將大大限制其應用范圍,無疑是其致使的缺陷。那么,能否建立類似于線性回歸的模型,對這種數據加以分析?以最簡單的二分類因變量為例來加

3、以探討,為了討論方便,常定義出現陽性結果時反應變量取值為1,反之則取值為0。例如當領導層有女性職員、下雨、痊愈時反應變量y 1 ,而沒有女性職員、未下雨、未痊愈時反應變量 y 0。記出現陽性結果的頻率為反應變量P(y 1)。首先,回顧一下標準的線性回歸模型:Y1X1 LmXm如果對分類變量直接擬合,則實質上擬合的是發生概率,參照前面線性回歸方程,很自然地會想到是否可以建立下面形式的回歸模型:B1X1 LmXm顯然,該模型可以描述當各自變量變化時,因變量的發生概率會怎樣變化,可以滿足 分析的基本要求。實際上,統計學家們最早也在朝這一方向努力,并考慮到最小二乘法擬合時遇到的各種問題,對計算方法進行

4、了改進, 最終提出了加權最小二乘法來對該模型進行擬 合,至今這種分析思路還偶有應用。既然可以使用加權最小二乘法對模型加以估計,為什么現在又放棄了這種做法呢?原 因在于有以下兩個問題是這種分析思路所無法解決的:(1)取值區間:上述模型右側的取值范圍,或者說應用上述模型進行預報的范圍為整個實數集(,),而模型的左邊的取值范圍為 0 P 1 ,二者并不相符。模型本身不能保證在自變量的各種組合下,因變量的估計值仍限制在。1內,因此可能分析者會得到這種荒唐的結論:男性、30歲、病情較輕的患者被治愈的概率是 300%研究者當然可以將此 結果等價于100%可以治愈,但是從數理統計的角度講,這種模型顯然是極不

5、嚴謹的。(2)曲線關聯:根據大量的觀察,反應變量P與自變量的關系通常不是直線關系,而是S型曲線關系。這里以收入水平和購車概率的關系來加以說明,當收入非常低時, 收入的增加對購買概率影響很小; 但是在收入達到某一閾值時,購買概率會隨著收入的增加而迅速增加;在購買概率達到一定水平,絕大部分在該收入水平的人都會購車時,收入增加的影響又會逐漸減弱。如果用圖形來表示, 則如圖1所示。顯然,線性關聯是線性回歸中至關重要 的一個前提假設,而在上述模型中這一假設是明顯無法滿足的。圖1 S型曲線圖以上問題促使統計學家們不得不尋求新的解決思路,如同在曲線回歸中,往往采用變量變換,使得曲線直線化,然后再進行直線回歸

6、方程的擬合。那么,能否考慮對所預測的因變量加以變換,以使得以上矛盾得以解決?基于這一思想,又有一大批統計學家在尋找合適的變換函數。終于,在 1970年,Cox引入了以前用于人口學領域的Logit變換(LogitTransformation),成功地解決了上述問題。那么,什么是 Logit變換呢?通常的把出現某種結果的概率與不出現的概率之比稱為比值(odds ,國內也譯為優勢、比數),即Odds ,取其對數ln(Odds) ln11這就是logit變換。下面來看一下該變換是如何解決上述兩個問題的,首先是因變量取值區間的變化,概率是以0.5為對稱點,分布在01的范圍內的,而相應的logit(P)的

7、大小為:0logit() ln(0/1)oo0.5 logit( )ln(0.5/ 0.5) 01logit() ln(1/ 0)8顯然,通過變換,Logit()的取值范圍就被擴展為以0為對稱點的整個實數域,這使得在任何自變量取值下,對值的預測均有實際意義。其次,大量實踐證明,Logit()往往和自變量呈線性關系, 換言之,概率和自變量間關系的 S形曲線往往就符合logit函數關 系,從而可以通過該變換將曲線直線化。因此,只需要以Logit()為因變量,建立包含 p個自變量的logistic 回歸模型如下:log it( P) 01X1L pXp以上即為logistic回歸模型。由上式可推得:

8、exp( 01X1 Lpxp)1 exp( 01X1 LpXp)11 eXp( 01X1 LpXp)上面三個方程式相互等價。通過大量的分析實踐,發現 logistic回歸模型可以很好地滿足對分類數據的建模需求,因此目前它已經成為了分類因變量的標準建模方法。通過上面的討論,可以很容易地理解二分類logistic 回歸模型對資料的要求是:(1)反應變量為二分類的分類變量或是某事件的發生率。(2)自變量與Logit()之間為線性關系。(3)殘差合計為0,且服從二項分布。(4)各觀測值間相互獨立。由于因變量為二分類,所以logistic回歸模型的誤差應當服從二項分布,而不是正態分布。因此,該模型實際上

9、不應當使用以前的最小二乘法進行參數估計,上次均使用最大似然法來解決方程的估計和檢驗問題。二、一些基本概念由于使用了 logit變換,Logistic 模型中的參數含義略顯復雜,但有很好的實用價值,為此現對一些基本概念加以解釋。1 .優勢比如前所述,人們常把出現某種結果的概率與不出現的概率之比稱為比值(odds),即Podds 。兩個比值之比稱為優勢比(odds Ratio ,簡稱OR。首先考察 OR的特性:1 P若 P1P2,貝Uodds1PP2odds21 P 1 F2若 P1P2,貝Uodds1PP2odds21 P 1 P2若 P1P2,貝Uodds1PP2odds21 P 1 P2顯然

10、,O幅否大于1可以用作兩種情形下發生概率大小的比較。2. Logistic 回歸系數的意義從數學上講,和多元回歸中系數的解釋并無不同,代表X改變一個單位時logit( P) 的平均改變量,但由于odds的自然對數即為logit變換,因此Logistic 回歸模型中的系數 和ORW著直接的變換關系, 使彳導Logistic回歸系數有更加貼近實際的解釋, 從而也使得該 模型得到了廣泛的應用。下面用一個實例加以說明:以4格表資料為例具體說明各回歸系數的意義:表1 4格表資料治療方法(treat)治療結果(outcome),合計治愈率治愈(=1)未治愈(=0)新療法(=1)傳統療法(=0)60 (a)

11、21 (c)8174.07%42 (b)27 (d)6960.87%1024813068.00%該資料如果擬合 Logistic 回歸模型,則結果如下(操作步驟詳見后述):Logit (P | outcome 1)01 treat 0.442 0.608 treat(1)常數項:表示自變量取全為0 (稱基線狀態)時,比數 (Y=1與Y=0的概率之比)的自然對數值,本例中為00.442 ln(42 / 69) / (27 / 69) ln(42 / 27) ln(b/d),即傳統療法組的治愈率與未治愈率之比的自然對數值。在不同的研究設計中,常數項的具體含義可能不同,如基線狀態下個體患病率、基線個

12、體發病率、基線狀態中病例所占比例等, 但這些數值的大小研究者一般并不關心。(2)各自變最的回歸系數:i(i 1,L p)表示自變量x每改變一個單位,優勢比的自然對數值改變量,而 exp( J即OR直,表示自變量Xi每變化一個單位,陽性結果出現概率與不出現概率的比值是變化前的相應比值的倍數,即優勢比(注意:不是出現陽性結果的概率為變化前的倍數,即優勢比并不等同于相對危險度)。本例中自變量治療方法的回歸系數 1 0.608,為兩組病人的治愈率與未治愈率之比的對數值之差,即 ln(60 /81)/(21/81) ln(42 /69)/(27 /69) ln( ad/bc)。因此,對于四格表資料而言,

13、所建立的Logistic 回歸模型也可以寫成:logit( P | outcome 1) ln(b/d) ln(ad/bc) treat ln(b/d) ln(OR) treat由以上關系可知,exp( 0)表示傳統療法組的治愈率與未治愈之比值。exp( 1)則表示治療方法增加一個單位, 即將療法從傳統療法改為新療法時,新療法組病人治愈率與未治愈率之比值相對于傳統療法組病人的治愈率與未治愈率比值的倍數。而兩組病人的治愈率之比(60/81)/(42 /69) 1.217 ,并不完全相同。但是,當研究結果出現陽性的概率較小時(一般認為小于0.1 ,反之當概率大于 0.9時亦可),OR直大小和發生概

14、率之比非常接近,此時可以近似地說一組研究對象的陽性結果發生率是另一組研究對象發生率的OR直倍,即用OR值的大小來挖地表示相對危險度的大小。三、簡單分析實例SPSS中通過regression 模塊中的 Binary Logistic過程實現結果變量為二分類的Logistic回歸,下面通過一個實例分析,具體講解相應的操作和結果解釋。例1某醫師希望研究病人的年齡(歲)、性別(0為女性,1為男性)、心電圖檢驗是否 異常(ST段壓低,0為正常、1為輕度異常、2為重度異常)與患冠心病是否有關。調用 SPSS中的 Binary Logistic 過程:圖2 Logistic回歸主對話框本例中涉及的對話框界面

15、如圖9.2所示,注意對話框中部有一個以前未出現過的a*b按鈕、用于納入交互作用,只要先將相應變量選中,然后單擊此按鈕,相應的交互項就會被納入模型。本例因較為簡單,未用到此功能。性別雖為分類變量,但僅有兩個取值水平,所 以可以直接引入模型,結果仍然可以被正常解釋。結果如下:首先輸出分析中使用的記錄數匯總,此處略。表 2 Dependent Variable EncodingOriginal ValueInternal Value未患病0患病1表2為因變量的取值水平編碼,SPSS以合模型時默認取值水平高的為陽性結果,對于本例來講,擬合的模型是logit(P|y=患病)。隨后進行模型擬合,首先給出的

16、是模型不含任何自變量,而只有常數項(即無效模型)時的輸出結果,標題為: Block 0: Beginning Block 。此時的模型為:exp( 0)exp(0.103) 八log it (p) 0 0.103, P 0.52571 exp( 0) 1 exp(0.103)ObservedPredicted是否患冠心病Percentagea,b表 3 Classification Table未患病患病CorrectStep 0 是否患冠心病未患病037.0患病041100.0Overall Percentage52.6a. Constant is included in the model.

17、b. The cut value is .500表9.3輸出的是模型中僅含有常數項(見表4)時計算的預測分類結果,SPSS艮據p值是否大于0.5將觀察對象判斷為是否出現陽性結果,即是否患冠心病。由于模型中僅含有常數項,因此所有人的預測概率均為樣本率估計值P= 0.5257,將所有的觀察對象均判斷為冠心病。判斷正確率為52.6%,實際上就是全部研究對象的患病率41、78=0.5256 (細小差別為四舍五入產生)。也就是說,由于當前樣本中大部分人為患病,因此當模型中不包含任何自變量時,樣本中所有觀察對象皆被預測為患病,總的預測準確率為52.6%。表 4 Variables in the Equat

18、ionBS.E.WalddfSig.Exp(B)Step 0 Constant.103.227.2051.6511.108表4輸出結果中B為模型中未引入自變量時常數項的估計值,S.E為其標準誤,Wald為2Wald 2,是對總體回歸系數是否為 0進行統計學檢驗。表格中df為其自由度,Sig.為相應的P值。此時的exp(B)為e的0次方。其實際意義為總體研究對象患病率與未患病率的比值。即1.108 =0.5256/0.4744 。表 5 Variables not in the EquationScoredfSig.Step 0 Variables sex6.0211.014ecg7.1111.

19、008age7.7341.005Overall Statistics18.5623.000表5輸出了當前未引入模型的變量的比分檢驗( Score Test )結果,其意義為向當前模 型中引入某變量(如sex時),該變量回歸系數是否等于 0的比分檢驗假設。對于取值水平為 二分類的自變量來說,得分檢驗的2值等于由該自變量與反應變量構成的四格表的2Pearson 。基于無效模型,現在開始在分析中引入自變量。標題為 Block 1:Method=Enter ” c文案大全Chi-squaredfSig.Step 1 Step21.1143.000Block21.1143.000Model21.1143

20、.000表 6 Omnibus Tests of Model Coefficients由于此處尚未涉及變量篩選的問題,模型中會同時引入三個自變量,自由度=3,此處的2值為似然比 2值,等于上一步(模型中只含有常數項時)的 -2log (似然比值)與當前模型的-2log (似然比值)的差值,參見表 6 。本例286.8113 ( 107.9257) 21.1144。表 7 Model SummaryStep-2 Log likelihoodCox & Snell RSquareNagelkerke R Square186.811 a.237.316a. Estimation terminated

21、 at iteration number 5 because parameter estimates changed by less than .001.表7輸出了當前模型的-2log (似然比值)和兩個偽決定系數(“偽”,以示與線性回歸模型中的決定系數相區別)Cox & SnellR2和Nagelkerke R2。后兩者從不同角度反映了當前模型中自戀量解釋了反應變量的變異占反應變量總變異的比例。但對于Logistic回歸而言,通常看到的模型偽決定系數的大小不像線性回歸模型中的決定系數那么大。ObservedPredicted是否患冠心病PercentageCorrect未患病患病Step 1

22、 是否患冠心病未患病患病Overall Percentage2510123167.675.671.8表 8 Classification Table aa. The cut value is .500這是應用引入三個自變量后重新擬合的回歸模型進行預測的分類表格,P0.5判斷為出現陽性結果。可見已經出現了被預測為未患病的研究對象,此處78例研究對象中共有56(25+31)例判斷正確,總正確率為56/78 =71.8%,如表8所示。表9輸出了模型中各自變量的偏回歸系數及其標準誤、Wald 2、自由度、P值,及OR1(即表格最右側的Exp(B)。由此可以得出結論,男性(sex=1)較女性更容易患冠心

23、病、心電圖異常程度越高,越容易被診斷為冠心病,年齡越大的越容易患冠心病。由于年齡不可能為0 ,這也超出了樣本所觀察的自變量age取值范圍,因此這里的常數項無實際意義。表 9 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1 a sex1.356.5466.1621.0133.882ecg.873.3845.1621.0232.395age.093.0357.0001.0081.097Constant-5.6421.8069.7571.002.004a. Variable(s) entered on step 1: sex, ecg, ag

24、e.到此為止,可建立如下 Logistic回歸方程:P(y )或 Logit (P)exp( 5.642 1.356 sex 0.873 ecg 0.093 age)1 exp( 5.642 1.356 sex 0.873 ecg 0.093 age)5.642 1.356 sex 0.873 ecg 0.093 age第二節分類自變量的定義與比較方法一、使用啞變量的必要性在回歸模型中,回歸系數 b表示其他自變量不變,x每改變一個單位時,所預測的 y的平 均變化量,當x為連續性變量時這樣解釋沒有問題,二分類變量由于只存在兩個類別間的比 較,也可以對系數得到很好的解釋,但是當x為多分類變量時擬合

25、一個回歸系數就不太合適了,此時需要使用啞變量(Dummy/ariable )方式對模型加以定義,為說明該問題,先引入 下面的一個實例。例2 Hosmer和LemeshowF 1989年研究了低出生體重嬰兒的影響因素。結果變量為是否 娩出低出生體重兒(變量名為LOW 1為低出生體重,即嬰兒出生體重 0.05),說明該分類變量對風險率產生的影響在該水平處達到停滯狀態。此選擇項一般用于有序的分類變量。對無序多分類變量則無實際意義。4 . Helmert :赫爾默特對比。分類變量某水平與其后面各水平平均值進行比較。如果在某水 平系數增大且有統計學意義,說明該分類變量自該水平起開始對風險率產生影響。同樣

26、也適用于有序的分類變量。5 .Repeated :重復對比。分類變量的各水平與其前面相鄰的水平相比較(第一水平除外),此時以“前一水平”為參照水平。6 .Polynomial :多項式對比。僅用于數字型的分類變量。無效假設是假設各水平是等距離的(可以是線性的關系,也可以是立方、四次方的關系)。例如年齡每增加5歲,娩出低出生體重兒的危險增加幅度是一樣的,但實際情況常常與之相反,例如在20歲與30歲年齡段,年 齡都增加5歲,所增加的娩出低出生體重兒的危險肯定是不一樣的,具體情況需要根據各人 的研究課題而定。7.Deviation :離差對比。除了所規定的參照水平外,其余每個水平均與總體水平相比。此

27、 時每個水平的回歸系數都是相對于總體水平而言的改變量。對于那個參照水平而言,它的回歸系數可以通過其他n-1個回歸系數算出來,等于0減去其他幾個水平回歸系數的代數和。即些時n個水平的回歸系數的代數和為“ 0”。三、設置啞變量時要注意的問題1 .參照水平最好要有實際意義,否則將會推動比較的目標。如果將一些難以分類的個體放到一起,然后美其名曰“其他”,此時往往不知道已知的某個類別具體在與誰進行比較, 進而導致啞變量的回歸系數難以解釋。因為不同研究樣本中的“其他”往往是不同的,這樣研究結果之間難以相互進行比較。2 .參照水平組應有一定的頻數作保證。 如果參照水平頻數過少,將導致其他與之相對比 的水平參

28、數估計的標準誤增大, 進而置信區間擴大,精確度降低。 有學者認為,參照水平組 的頻數應不少于30例或50例。3 .如果不通過Categorical模型對分類自變量產生啞變量,而是自己通過Computed程產生,需要注意在逐步回歸篩選自變量時,啞變量應該同時進入模型或者同時退出模型。4 .對有序自變量的分析。一是從專業出發,如果認為在不同等級對反應變量的影響程度 是一致的,如文化程度每增加一個等級,成為某項時尚消費品潛在消費者的比數(P/(1-P)的自然對數增加幅度也相同,這時可以將該變量作為連續性變量進行處理,這樣得到的模型也更簡潔,結果的解釋也更方便。 當專業上不能給出以上假設時,則需要先將

29、該有序變量分別以啞變量和連續性變量的方式引入模型,觀察各啞變量的回歸系數間是否存在等級關系,以及對兩個模型進行似然比檢驗,似然比2值等于兩個模型的-2log(L)之差,自由度為兩個模型中自變量個數之差,如果似然比檢驗無統計學意義,且各啞變量的回歸系數間存在等 級關系,可以將該自變量作為連續性變量引入模型, 否則最好還是采用啞變量的方式引入模 型。第三節 標準化回歸系數和回歸模型的擬合優度一、標準化回歸系數與多重線性回歸類似,自變量量綱(單位)不同,非標準化的logistic回歸系數不能用于比較各自變量對事件發生概率的貢獻大小。欲研究logistic回歸中各變量的相對貢獻,要么事先將各自變量標準

30、化后再作回歸分析,要么對logistic回歸系數進行標準化。我們可以用極大似然估計的回歸系數乘以該變量的樣本標準差求得logistic回歸的標準化回歸系數。b bi Sb(16)spss件可以提供回歸系數及其變量的樣本標準差,但不能直接得到標準化回歸系數。在標準化系數問題上要謹慎,應注意標準化的原意是消去不同量綱的影響,增加可比性。對于一些二分類的自變量,不存在量綱問題,則不宜作標準化。另外,一般不利用標準化回歸系數估計優勢比,因為按標準化回歸系數所計算的優勢比不是變化一個單位,而是變化一個標準差的優勢比了。二、回歸模型的擬合優度對回歸系數進行假設檢驗,只能說明logistic回歸方程中的回歸系數是否有統計學意義,因變量與自變量是否有統計學聯系,不表明自變量對因變量變異的解釋程度。要說明這一點,如線性回歸一樣,應對回歸方程進行擬合優度評價。Logistic 回歸方程擬合優度評價的思路有兩種:第一種是希望找到一個評價指標,類 似線性回歸中的確定系數 R2,但是logistic回歸還沒有對應的理想指標;第二種是通過回歸方程預測值與實際觀測值的吻合程度,說明

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論