含定性變量的回歸模型_第1頁
含定性變量的回歸模型_第2頁
含定性變量的回歸模型_第3頁
含定性變量的回歸模型_第4頁
含定性變量的回歸模型_第5頁
已閱讀5頁,還剩77頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1第第9章章 含定性變量的回歸模型含定性變量的回歸模型信計學院統計系信計學院統計系 沈菊紅沈菊紅2變量的類型變量的類型間隔尺度間隔尺度(數值型變量數值型變量)有序尺度有序尺度(有次序關系有次序關系)名義尺度名義尺度(定性變量定性變量)(定量變量定量變量)如身高、重量等連續的量如身高、重量等連續的量如某產品分上、中、下三等如某產品分上、中、下三等如醫學化驗中的陰性、陽性如醫學化驗中的陰性、陽性3對定性變量數量化對定性變量數量化:只取:只取0和和1兩個值的變量稱兩個值的變量稱為虛擬變量。為虛擬變量。4虛擬變量的回歸虛擬變量的回歸9.1 含有一個虛擬自變量的回歸含有一個虛擬自變量的回歸9.2 用虛擬

2、自變量回歸解決方差分析問題用虛擬自變量回歸解決方差分析問題9.3 因變量是定性變量的回歸模型因變量是定性變量的回歸模型9.4 Logistic回歸模型回歸模型5含有一個虛擬自變量的回歸含有一個虛擬自變量的回歸6虛擬變量虛擬變量(dummy variable)用數字代碼表示的定性變量用數字代碼表示的定性變量虛擬變量可有不同的水平虛擬變量可有不同的水平n只有兩個水平的虛擬變量只有兩個水平的虛擬變量w比如,性別比如,性別(男,女男,女) n有兩個以上水平的虛擬變量有兩個以上水平的虛擬變量w貸款企業的類型貸款企業的類型(家電,醫藥,其他家電,醫藥,其他) 虛擬變量的取值為虛擬變量的取值為0,110 x

3、男女7虛擬自變量的回歸虛擬自變量的回歸回歸模型中使用虛擬自變量時,稱為回歸模型中使用虛擬自變量時,稱為虛擬自變虛擬自變量量的回歸的回歸當虛擬自變量只有當虛擬自變量只有兩個水平兩個水平時,可在回歸中引時,可在回歸中引入入一個虛擬變量一個虛擬變量n比如,性別比如,性別(男,女男,女) 一般而言,如果定性自變量有一般而言,如果定性自變量有k個水平,需要在個水平,需要在回歸中模型中引進回歸中模型中引進k-1個虛擬變量個虛擬變量121111211,000kkxxx水平水平水平其他水平其他水平其他水平8虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題分析)9虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題

4、分析)男 女10Coefficientsa66.8754.55814.673.00014.8756.445.5252.308.037(Constant)XModel1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 回歸方程為回歸方程為66.875 14.875yx11虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題分析)引進虛擬變量時,回歸方程可寫為:引進虛擬變量時,回歸方程可寫為:E(y) = 0+ 1x男男(x=0):E(y) = 0男學生考試成績的期

5、望值男學生考試成績的期望值女女(x=1):E(y) = 0+ 1女學生考試成績的期望值女學生考試成績的期望值注意:當指定虛擬變量注意:當指定虛擬變量0,1時時 0總是代表與虛擬變量值總是代表與虛擬變量值0所對應的那個分類變量水平的所對應的那個分類變量水平的平均值平均值 1總是代表與虛擬變量值總是代表與虛擬變量值1所對應的那個分類變量水平的所對應的那個分類變量水平的平均值與虛擬變量值平均值與虛擬變量值0所對應的那個分類變量水平的平所對應的那個分類變量水平的平均值的差值,即均值的差值,即 平均值的差值平均值的差值=( 0+ 1) - 0= 1 12虛擬自變量的回歸虛擬自變量的回歸(例題分析例題分析

6、)13虛擬自變量的回歸虛擬自變量的回歸 (例題分析例題分析)引進虛擬變量時,回歸方程可寫為:引進虛擬變量時,回歸方程可寫為: E(y) = 0+ 1x1+ 2x2女女( x2=0):E(y|女性女性) = 0 + 1x1男男(x2=1):E(y|男性男性) =( 0 + 2 ) + 1x1 0的含義表示:女性職工的期望月工資收入的含義表示:女性職工的期望月工資收入 ( 0+ 2)的含義表示:男性職工的期望月工資收入的含義表示:男性職工的期望月工資收入 1含義表示:工作年限每增加含義表示:工作年限每增加1年,男性或女性工資年,男性或女性工資的平均增加值的平均增加值 2含義表示:男性職工的期望月工

7、資收入與女性職含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值工的期望月工資收入之間的差值 ( 0+ 2) - 0= 214Coefficientsa2147.273604.9773.549.008304.132100.412.7313.029.016(Constant)X1Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. Model Summary.731a.534.476781.022Model1RR SquareAdj

8、ustedR SquareStd. Error ofthe EstimatePredictors: (Constant), X1a. ANOVAb559603315596033.0589.174.016a48799678609995.8681.0E+079RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), X1a. Dependent Variable: Yb. 15Model Summary.927a.859.819459.048Model1RR SquareAdjustedR

9、 SquareStd. Error ofthe EstimatePredictors: (Constant), X2, X1a. ANOVAb900092324500461.30021.357.001a14750777210725.3431.0E+079RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), X2, X1a. Dependent Variable: Yb. Coefficientsa930.495466.9741.993.087387.61662.565.9316.1

10、95.0001262.693314.127.6044.020.005(Constant)X1X2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 16例題分析例題分析【例例9.1】某經濟學家想調查文化程度對家庭儲蓄的某經濟學家想調查文化程度對家庭儲蓄的影響,在一個中等收入的樣本框中,隨機調查了影響,在一個中等收入的樣本框中,隨機調查了13戶高等學歷家庭與戶高等學歷家庭與14戶中低學歷的家庭。因變量戶中低學歷的家庭。因變量y為為上一年家庭儲蓄增加額

11、,自變量上一年家庭儲蓄增加額,自變量 為上一年家庭總收為上一年家庭總收入,自變量入,自變量 表示家庭學歷。高學歷家庭表示家庭學歷。高學歷家庭 ,低,低學歷家庭學歷家庭 ,調查數據見下表。,調查數據見下表。1x2x21x 20 x 17序號序號 (元元) (萬元萬元)1234567891011121314152353463654686588671085123612381345236523653256325632562.33.22.83.52.63.22.63.42.22.82.33.74.02.93.801010101010110158822023711246131330188696797230

12、915421153711374034552372104732291011851326213517846725851985207415171412y1x2xieide18序號序號 (元元) (萬元萬元)161718192021222324252627326535673658458864369047798589509865986610235101404.64.23.73.54.85.04.23.94.84.64.84.2111011000000265882611788272521593108200552424315420474023241669289115054532002394719242578

13、22944157y1x2xieide19Model Summaryb.938a.879.8691288.563Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), X2, X1a. Dependent Variable: Yb. ANOVAb2.9E+08214519733187.448.000a4.0E+07241660394.2983.3E+0826RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictor

14、s: (Constant), X2, X1a. Dependent Variable: Yb. 建立建立 對對 的線性回歸,并計算殘差的線性回歸,并計算殘差iey12,x x20Coefficientsa-7976.8751093.346-7.296.0003826.148304.564.92112.563.000-3701.031513.399-.529-7.209.000(Constant)X1X2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Y

15、a. 兩個自變量兩個自變量 與與 的系數都是顯著的,復決定系數的系數都是顯著的,復決定系數 ,回歸方程為,回歸方程為1x2x20.879R 12797638263701yxx 該結果表明,中等收入的家庭每增加該結果表明,中等收入的家庭每增加1萬元收入,平均萬元收入,平均拿出拿出3826元作為儲蓄。高學歷家庭每年的平均儲蓄額元作為儲蓄。高學歷家庭每年的平均儲蓄額少于低學歷的家庭,平均少少于低學歷的家庭,平均少3701元。元。21如果不引入學歷定性變量如果不引入學歷定性變量 ,用,用 對家庭年收入對家庭年收入 作作一元線性回歸,得一元線性回歸,得 說明擬合效果不好。說明擬合效果不好。 對對 的一元

16、回歸殘差的一元回歸殘差 見表中。見表中。2x1x20.618,R yy1xideModel Summaryb.786a.618.6032246.211Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), X1a. Dependent Variable: Yb. Coefficientsa-7728.1171904.962-4.057.0003264.366513.239.7866.360.000(Constant)X1Model1BStd. ErrorUnstandardizedCoeff

17、icientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 22Coefficientsa5059.357928.7415.448.000-2050.7421338.458-.293-1.532.138(Constant)X2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 如果不考慮家庭年收入如果不考慮家庭年收入 ,13戶高學歷家庭的平均年戶高學歷家庭的平均年儲蓄增加額為儲蓄增

18、加額為3008.62元,元,14戶低學歷家庭的平均年戶低學歷家庭的平均年儲蓄增加額為儲蓄增加額為5059.36元,高學歷家庭每年的儲蓄額元,高學歷家庭每年的儲蓄額比低學歷的家庭平均少比低學歷的家庭平均少5059.363008.622050.74元,元,而用前面的回歸法算出的值是而用前面的回歸法算出的值是3701元,兩者并不相等。元,兩者并不相等。3701元是在假設兩者的家庭年收入相等的基礎上的儲元是在假設兩者的家庭年收入相等的基礎上的儲蓄差值,反映了學歷高低對儲蓄額的真實差異。蓄差值,反映了學歷高低對儲蓄額的真實差異。(調整后的調整后的 )1x20.049R 23說明:雖然虛擬變量取某一數值,

19、但這一數值說明:雖然虛擬變量取某一數值,但這一數值沒有任何數量大小的意義,它僅僅用來說明變沒有任何數量大小的意義,它僅僅用來說明變量的量的性質或屬性。性質或屬性。24自變量中含有定性變量的回歸模型的應用自變量中含有定性變量的回歸模型的應用25一一.回歸系數相等的檢驗回歸系數相等的檢驗 【例例9.2】在例在例9.1中引入中引入01型虛擬自變量的方法型虛擬自變量的方法是假定儲蓄增加額是假定儲蓄增加額y對家庭收入的回歸斜率對家庭收入的回歸斜率 與家庭與家庭年收入年收入 無關,無關, 只影響只影響 。該假定是否合理,需作。該假定是否合理,需作統計檢驗。檢驗方法是引入含交互效應的回歸模型統計檢驗。檢驗方

20、法是引入含交互效應的回歸模型11x1x001122312iiiiiiyxxx x(9.1)回歸模型回歸模型(9.1)可以分解為如下的兩個線性回歸模型可以分解為如下的兩個線性回歸模型 高學歷家庭高學歷家庭21,x 02131()()iiiyx低學歷家庭低學歷家庭20,x 011iiiyx(9.2)(9.3)26要檢驗兩個回歸方程的回歸系數相等,就是檢驗要檢驗兩個回歸方程的回歸系數相等,就是檢驗03:0H當拒絕當拒絕 時,認為時,認為 ,這時高學歷與低學歷家,這時高學歷與低學歷家庭的儲蓄回歸模型被拆分為兩個不同的模型庭的儲蓄回歸模型被拆分為兩個不同的模型(9.2和和(9.3)式;當接受式;當接受

21、時,認為時,認為 ,此時高學歷,此時高學歷與低學歷家庭的儲蓄回歸模型是與低學歷家庭的儲蓄回歸模型是0H30300H01122iiiiyxx(9.4)擬合模型擬合模型(9.1),回歸系數檢驗如下表,回歸系數檢驗如下表27Coefficientsa-8763.9361270.763-6.897.0004057.151359.252.97711.293.000-777.8852514.231-.111-.309.760-787.498663.307-.443-1.187.247(Constant)X1X2X3Model1BStd. ErrorUnstandardizedCoefficientsBet

22、aStandardizedCoefficientstSig.Dependent Variable: Ya. 從輸出結果看到,應該接受從輸出結果看到,應該接受 。 問題:是否首先剔除問題:是否首先剔除 ?03:0H2x否,因為與經濟意義不符,對模型否,因為與經濟意義不符,對模型(9.2)與與(9.3),當當 時,表明兩個回歸方程的常數項相等,時,表明兩個回歸方程的常數項相等,當當 時,表明兩個回歸方程的斜率相等。時,表明兩個回歸方程的斜率相等。020328二二.用虛擬自變量回歸用虛擬自變量回歸解決方差分析問題解決方差分析問題29設設 是正態總體是正態總體 的樣本,原假設為的樣本,原假設為記記 則

23、有則有 進而有進而有,1,2,ijjyin 2(,)(1,2, )jNjc 012:cH,ijijjy2(0,),ijN,1,;1,ijjijjyinjc記記 則上式改寫為則上式改寫為,1,;1,ijiijjyainjc11,cjjjjac引入虛擬自變量引入虛擬自變量 ,將,將(2)式表示為多元線性回歸式表示為多元線性回歸模型模型(2)ijx1122ijiicicijya xa xa x(1)30其中其中121,10,11,20,21,0,iiicjxjjxjjcxjc當當當當當當由于由于c個自變量個自變量 之和恒等于之和恒等于1,存在完全共,存在完全共線性。為此,剔除線性。為此,剔除 ,建立

24、回歸模型,建立回歸模型 12,cx xxcx112211ijiicicijya xa xax(3)31(1)式回歸方程顯著性檢驗的原假設為式回歸方程顯著性檢驗的原假設為0121:0cHaaa由由 可知,可知,(1)式和式和(4)式的兩式的兩個原假設是等價的。作個原假設是等價的。作(4)式的顯著性式的顯著性F檢驗,該檢驗檢驗,該檢驗與單因素方差分析的與單因素方差分析的F檢驗是等價的。檢驗是等價的。稱自變量全是定性變量的回歸模型為方差分析模型;稱自變量全是定性變量的回歸模型為方差分析模型;如果模型中既包含數量變量,又包含定性變量,其如果模型中既包含數量變量,又包含定性變量,其中以定性自變量為主,稱

25、這樣的模型為協方差模型。中以定性自變量為主,稱這樣的模型為協方差模型。(4)11cjjjjjac32方差分析的回歸方法方差分析的回歸方法 (例題分析例題分析)引進虛擬變量建立回歸方程:E(Y)=0+ 1x1+ 2x2+3x3用用Excel進行回歸進行回歸 0家電制造業投訴次數的平均值 ( 0+ 1)零售業投訴次數的平均值 ( 0+ 2)旅游業投訴次數的平均值 ( 0+ 3)航空公司投訴次數的平均值 123111,000 xxx零售業旅游業航空公司其他行業其他行業其他行業33使用虛擬變量需注意的問題使用虛擬變量需注意的問題n虛擬變量陷阱:若定性變量有虛擬變量陷阱:若定性變量有k個類別,個類別,則

26、引入則引入k個虛擬變量將會產生個虛擬變量將會產生完全多重完全多重共線性問題共線性問題,避免方法:,避免方法:w只引入(只引入(k-1)個虛擬變量)個虛擬變量34自變量中含有定性變量的回歸模型的應用自變量中含有定性變量的回歸模型的應用 三三.分段回歸分段回歸 【例例9.2】用分段回歸建立某工廠生產批量用分段回歸建立某工廠生產批量 與單位與單位成本成本 (美元美元)的回歸模型。的回歸模型。xy序號序號1 12.572.576506501501502 24.44.43403400 03 34.524.524004000 04 41.391.398008003003005 54.754.7530030

27、00 06 63.553.5557057070707 72.492.497207202202208 83.773.774804800 0y1()xx2x35X1900800700600500400300200Y5.04.54.03.53.02.52.01.51.0單位成本對批量的散點圖單位成本對批量的散點圖36假定回歸直線的斜率在假定回歸直線的斜率在 處改變,建立回歸處改變,建立回歸模型模型500px 012(500)iiiiiyxxD來擬合,其中來擬合,其中1,5000,500iiiiDxDx (9.5)模型模型(9.5)實際上是一個二元線性回歸模型,記實際上是一個二元線性回歸模型,記12,

28、(500)iiiixxxxD則有則有01122iiiiyxx(9.6)37(9.6)式可以分解為兩個線性回歸方程式可以分解為兩個線性回歸方程 當當 時,時,(9.6)式的回歸方程為式的回歸方程為1500 x 01 1( )E yx(9.7)當當 時,時,(9.6)式的回歸方程為式的回歸方程為1500 x 02121( )(500)()E yx(9.8)用普通最小二乘法擬合模型用普通最小二乘法擬合模型(9.6)38Model Summary.985a.969.957.24494Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePred

29、ictors: (Constant), X2, X1a. ANOVAb9.48624.74379.059.000a.3005.0609.7867RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), X2, X1a. Dependent Variable: Yb. 39Coefficientsa5.895.6049.757.000-.004.001-.611-2.650.045-.004.002-.388-1.685.153(Constant)X1X2Model1BStd. Erro

30、rUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 用普通最小二乘法得回歸方程為用普通最小二乘法得回歸方程為125.8950.0040.004yxx對回歸系數對回歸系數 作顯著性檢驗,不能認為本數據適作顯著性檢驗,不能認為本數據適合于折線回歸擬合。合于折線回歸擬合。此模型說明生產批量小于此模型說明生產批量小于500500時,每增加時,每增加1 1個單位批量,單位個單位批量,單位成本降低成本降低0.0040.004美元;當生產批量大于美元;當生產批量大于500500時,每增加時,每

31、增加1 1個單位個單位批量,單位成本降低批量,單位成本降低0.004+0.004=0.0080.004+0.004=0.008美元美元. .240Model Summary.976a.952.944.27998Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), X1a. ANOVAb9.31619.316118.839.000a.4706.0789.7867RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predic

32、tors: (Constant), X1a. Dependent Variable: Yb. 作作 對對 的一元線性回歸。的一元線性回歸。yx41Coefficientsa6.795.32420.963.000-.006.001-.976-10.901.000(Constant)X1Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 6.7950.006yx一元回歸方程為一元回歸方程為42因變量是定性變量的回歸模型因變量是定性變量的回歸模型因變量只

33、有兩個可能結果,可用虛擬變量來表示。因變量只有兩個可能結果,可用虛擬變量來表示。定性因變量的回歸方程的意義定性因變量的回歸方程的意義設因變量是只取設因變量是只取0,1兩個值的定性變量,對于線性兩個值的定性變量,對于線性回歸模型回歸模型因變量均值因變量均值 的意義的意義由于由于 是是01型貝努利隨機變量,則得概率分布型貝努利隨機變量,則得概率分布01iiiyxiy(1),(0)1iiiiP yP y 01()iiE yx43得得()1()0(1)iiiiE y即有即有01()iiiE yx由回歸函數給定的因變量均值由回歸函數給定的因變量均值 是自是自變量水平為變量水平為 時時 的概率。的概率。2

34、. 定性因變量回歸的特殊問題定性因變量回歸的特殊問題(1) 離散非正態誤差項離散非正態誤差項 誤差項誤差項 只取兩個值:只取兩個值:01()iiE yxix1iy 01()iiiyx01011110當時,當時, iiiiiiiiyxyx442. 零均值異方差性零均值異方差性( )0iE0101( )()(1)()(1)iiiiiiDD yxx回歸方程的限制回歸方程的限制 由于回歸方程代表概率分布,由于回歸方程代表概率分布,所以所以0()1iiE y0-1型隨機變量的方差型隨機變量的方差45 Logistic回歸分析回歸分析 (Logistic Regression Analysis) 46Lo

35、gistic回歸分析回歸分析 在醫學研究中,在醫學研究中, 經常要分析某種結果的產經常要分析某種結果的產生與哪些因素有關。生與哪些因素有關。 例如:生存與死亡,例如:生存與死亡,發病與未發病,發病與未發病, 陰性與陽性等結果的產生陰性與陽性等結果的產生可能與病人的年齡、性別、生活習慣、體可能與病人的年齡、性別、生活習慣、體質、遺傳等許多因素有關。如何找出其中質、遺傳等許多因素有關。如何找出其中哪些因素對結果的產生有顯著性影響呢?哪些因素對結果的產生有顯著性影響呢? Logistic回歸分析能較好地解決這類問題。回歸分析能較好地解決這類問題。47Logistic回歸分析回歸分析一、一、 Logi

36、stic回歸模型回歸模型48 1、 Logistic回歸模型的構造回歸模型的構造若因變量若因變量 為連續型正態定量變量時,可采用多元為連續型正態定量變量時,可采用多元線性回歸分析線性回歸分析 與變量與變量 之間的關系:之間的關系: 現現 為發病或未發病,生存與死亡等定性分類變量,為發病或未發病,生存與死亡等定性分類變量,不能直接用上述模型進行分析。不能直接用上述模型進行分析。y l 能否用發病的概率能否用發病的概率P來直接代替來直接代替 呢?呢? y12,px xx01 122ppyxxxyy01 122pppxxx用用 的比例代替的比例代替 本身作為因變量;回歸函數是本身作為因變量;回歸函數

37、是0,1區間的連續曲線。區間的連續曲線。1iy iy?49等式左邊等式左邊 變化范圍變化范圍P 發病概率 0 P11P 不發病概率 0 P1 p/1-p 比數 (ratio) 0 p/1-p+ ln(p/1-p) 對數比 (ratio) - ln(p/1-p) +502、 Logistic 回歸模型為回歸模型為:l定義定義: 為為 Logistic變變換換, Logistic 回歸模型為回歸模型為: 01 1ln/1ppppxx 01 1logppit pxxlog ( )ln/1it ppp51Logit變換變換經數學變換可得經數學變換可得: l exp表示指數函數。表示指數函數。01 10

38、1 1exp()1exp()ppppxxpxx52 Logistic回歸模型是一種回歸模型是一種概率模型概率模型,它,它是以疾病,死亡等結果發生的概率為因變是以疾病,死亡等結果發生的概率為因變量,影響疾病發生的因素為自變量建立回量,影響疾病發生的因素為自變量建立回歸模型。它特別適用于因變量為二項,多歸模型。它特別適用于因變量為二項,多項分類的資料。項分類的資料。 在臨床醫學中多用于鑒別診斷,評價在臨床醫學中多用于鑒別診斷,評價治療措施的好壞及分析與疾病愈后有關的治療措施的好壞及分析與疾病愈后有關的因素等。因素等。 53 SPSS軟件要求,對分類變量軟件要求,對分類變量Y數量化,而且數量化,而且

39、賦值為:賦值為: 發病發病 (陽性,死亡,治愈等陽性,死亡,治愈等) 未發病未發病 (陰性,生存,未治愈等陰性,生存,未治愈等) 注意注意 : ,即發病的概率。,即發病的概率。 l 軟件的要求軟件的要求10y(1)pP y54回歸系數回歸系數 的意義的意義設只有一個自變量設只有一個自變量 ,Logistic方程為方程為 表示非暴露,表示非暴露,1 表示暴露。表示暴露。 時的發病概率為時的發病概率為 ; 時的發病概率為時的發病概率為 。 則優勢比則優勢比(相對危險度相對危險度) i01ln/1ppx1p0p1100/(1)/(1)ppORppx0 x 1x 0 x 55 01011ln()log

40、 (1)log (0)(1)(0)ORit pit p01011ln()log ( )log (1)()(1)ORit p xit p xxx56logistic 回歸系數的回歸系數的意義意義 1ORe 表示自變量每增加一個單位,其優勢比的對數值的改變量, 亦即自變量每增加一個單位,其相對危險度為 。1lnOR01ln/1ppx1e157例如,吸煙與肺癌的關系的研究例如,吸煙與肺癌的關系的研究 令令 吸煙吸煙 肺癌肺癌 不吸煙不吸煙 非肺癌非肺癌若求得若求得: , 意思是:意思是: 吸煙的人得肺癌的危險吸煙的人得肺癌的危險性是不吸煙的性是不吸煙的2.71828倍。倍。 01ln/1ppx10y

41、10 x11eOR 58注意變量注意變量X的賦值與的賦值與OR的關系的關系令令 0 吸煙吸煙 X = 1 不吸煙不吸煙 則求得則求得若求得若求得: 意思是:意思是: 不吸煙的人得肺癌的危險不吸煙的人得肺癌的危險性是吸煙的性是吸煙的36.79%。 1ln()OR, 11eOR/1?1?OR59二、二、logistic回歸的作用回歸的作用(1) 建立建立logistic回歸模型:回歸模型: (2) 預測預報預測預報 若已知若已知 數值大小時,通過模型可數值大小時,通過模型可 以預測發病、死亡等的概率;以預測發病、死亡等的概率;(3) 因素分析因素分析 尋找對發病、死亡等影響有顯著性的因素尋找對發病

42、、死亡等影響有顯著性的因素。 01 1logppit pxx12,px xx60設研究問題中含有設研究問題中含有p個指標變量個指標變量 及及Y;有;有 n個觀察對象,其數據結構為個觀察對象,其數據結構為: 編號編號 1 2 n Y 的值要求數值化;的值要求數值化;Y=1 為發病。為發病。三、數據結構三、數據結構12,px xx11121121222212,ppnnnpnxxxyxxxyxxxy12,pXXXY61四、四、Logistic分析的具體任務分析的具體任務:1) 采用極大似然估計或加權最小二乘估計采用極大似然估計或加權最小二乘估計確定方程中系數確定方程中系數 2) 采用采用( (剩余剩

43、余) )卡方檢驗對回歸方程進行檢卡方檢驗對回歸方程進行檢驗;驗; 3) 采用采用Wald檢驗對方程中的每個系數檢驗對方程中的每個系數 進進行顯著性檢驗。行顯著性檢驗。,1,2,iii62五、五、SPSS的實現的實現 63例題講解例題講解【例例1】為評價某新療法的療效,某研究者隨機為評價某新療法的療效,某研究者隨機抽查了抽查了40名某病患者,治療后一定時間內觀察名某病患者,治療后一定時間內觀察其康復狀況。變量其康復狀況。變量y為康復狀況為康復狀況(y=0表示未康表示未康復,復,y=1表示康復表示康復);變量;變量 為病情嚴重程度為病情嚴重程度( 表示不嚴重,表示不嚴重, 表示嚴重表示嚴重);變量

44、;變量為療法為療法( 表示傳統療法,表示傳統療法, 表示新療表示新療法法),請作統計分析。,請作統計分析。 1x10 x 11x 2x21x 20 x 641 10 01 11 1 0 01 11 10 01 11 10 01 11 11 11 11 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 00 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 01

45、11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 01 11 10 00 00 00 00 00 00 01 10 00 01 10 00 01 10 00 01 10 00 01 10 00 00 00 0序號序號yx1x2序號序號yx1x2序號序號yx1x21152921630317314183251933620347213582236923371024381125391226401327142865Dependent Variable Encoding01Original Value未康復康復Internal Valu

46、e上表為因變量賦值情況。上表為因變量賦值情況。Binary Logistic 過程默認過程默認以因變量較大取值的概率以因變量較大取值的概率P(Y=1),而不是以,而不是以P(Y=0)建立模型。建立模型。Analyze Regression Binary Logistic66Classification Tablea,b230100.0170.057.5Observed未康復康復康復情況Overall PercentageStep 0未康復康復康復情況PercentageCorrectPredictedConstant is included in the model.a. The cut va

47、lue is .500b. 首先給出的是模型不含任何自變量,而只有常數項時首先給出的是模型不含任何自變量,而只有常數項時的輸出預測分類結果,此時所觀察對象都被預測為未的輸出預測分類結果,此時所觀察對象都被預測為未康復,總的預測準確率為康復,總的預測準確率為57.5。模型擬合模型擬合Block 0: Beginning Block67Variables in the Equation-.302.320.8931.345.739ConstantStep 0BS.E.WalddfSig.Exp(B)模型中只有常數項的檢驗結果。模型中只有常數項的檢驗結果。68Variables not in the

48、Equation.9211.3375.0131.0256.4272.040X1X2VariablesOverall StatisticsStep0ScoredfSig.該表反映的是如果將現有模型外的各個變量納入模型,該表反映的是如果將現有模型外的各個變量納入模型,則整個模型的擬合優度改變是否有統計學意義。若將則整個模型的擬合優度改變是否有統計學意義。若將 (療法療法)引入,則模型改變有統計意義引入,則模型改變有統計意義( ) ,而將,而將(病情嚴重程度病情嚴重程度) 引入,則模型改引入,則模型改變無統計意義。變無統計意義。 2x1x0.05p 25.013,69Omnibus Tests of

49、 Model Coefficients6.7882.0346.7882.0346.7882.034StepBlockModelStep 1Chi-squaredfSig.這是模型總的全局檢驗,為似然比檢驗,共給出三個結這是模型總的全局檢驗,為似然比檢驗,共給出三個結果:果:Step統計量為每一步與前一步相比的似然比檢驗統計量為每一步與前一步相比的似然比檢驗結果;結果;Block統計量是將統計量是將Block 1與與Block 0相比的似然相比的似然比檢驗結果;比檢驗結果;Model統計量則是上一個模型與現在模型統計量則是上一個模型與現在模型相比的似然比檢驗結果。結果表明相比的似然比檢驗結果。結

50、果表明 兩個變量至少兩個變量至少有一個的作用是有統計意義的。有一個的作用是有統計意義的。Block 1: Method=Enter12,x x70Classification Tablea15865.251270.667.5Observed未康復康復康復情況Overall PercentageStep 1未康復康復康復情況PercentageCorrectPredictedThe cut value is .500a. 該表為引入該表為引入 的模型對因變量的分類預測情況。的模型對因變量的分類預測情況。預測準確率由預測準確率由57.5上升到上升到67.5,說明新變量的,說明新變量的引入對改善模型

51、預測效果的確有意義。引入對改善模型預測效果的確有意義。12,x x71Variables in the Equation-.909.7241.5761.209.403-1.669.7295.2401.022.188.928.6392.1101.1462.529X1X2ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: X1, X2.a. 上表結果表明,排除病情嚴重程度的混雜作用后,上表結果表明,排除病情嚴重程度的混雜作用后,傳統療法促使患者康復的能力為新療法的傳統療法促使患者康復的能力為新療法的0.188倍;倍;排

52、除療法的混雜作用后,病情嚴重促使患者康復的能力排除療法的混雜作用后,病情嚴重促使患者康復的能力為病情不嚴重的為病情不嚴重的0.403倍。倍。對于變量對于變量 (病情嚴重程度病情嚴重程度)的的Wald檢驗結果檢驗結果P=0.209表明,病情嚴重程度對康復無影響。常數項表明,病情嚴重程度對康復無影響。常數項的的OR=2.529,是指病情不嚴重且接受新療法者比數,是指病情不嚴重且接受新療法者比數的自然對數值。的自然對數值。 1x72Variables not in the Equation5.0131.0255.0131.025X2VariablesOverall StatisticsStep 0S

53、coredfSig.Variables in the Equation-1.504.6894.7631.029.222.405.456.7891.3741.500X2ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: X2.a. 剔除剔除 ,建立,建立 與與 的的Logistic回歸方程回歸方程1xy2x22exp(0.405 1.504)1exp(0.405 1.504)ixpx73【例例2】 在一次關于公共交通的社會調查中,一個調查在一次關于公共交通的社會調查中,一個調查項目是項目是“是乘坐公共汽車上下班,還是

54、騎自行車上下班是乘坐公共汽車上下班,還是騎自行車上下班”。因變量因變量 表示主要乘坐公共汽車上下班,表示主要乘坐公共汽車上下班, 表示表示主要騎自行車上下班。自變量主要騎自行車上下班。自變量 是年齡,作為連續型是年齡,作為連續型變量;變量; 是月收入;是月收入; 是性別,是性別, 表示男性,表示男性,表示女性。調查對象為工薪族群體,試建立表示女性。調查對象為工薪族群體,試建立 與自變量與自變量間的間的Logistic回歸。回歸。例題分析例題分析1y 0y 1x2x3x31x 30 x y741 10 018188508500 02 20 02121120012000 03 30 0232385

55、08501 14 40 023239509501 15 50 02828120012001 16 60 031318508500 07 70 03636150015001 18 80 04242100010001 19 90 046469509501 110100 04848120012000 011110 05555180018001 112120 05656210021001 113130 05858180018001 114141 118188508500 015151 12020100010000 016161 12525120012000 017171 12727130013000

56、018181 12828150015000 019191 130309509501 120201 13232100010000 021211 13333180018000 022221 13333100010000 023231 13838120012000 024241 14141150015000 025251 14545180018001 126261 14848100010000 027271 15252150015001 128281 15656180018001 1序號序號序號序號3x1x2xyy3x1x2x75Classification Tablea,b150100.0130.053.6Observed01YOverall PercentageStep 001YPercentageCorrectPredictedConsta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論