




已閱讀5頁,還剩40頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
.,第九章定性數據的建模分析,.,本章內容,第一節解釋變量中含有定性變量的回歸模型第二節二項Logistic回歸模型第三節判別分析,.,第一節解釋變量中含有定性變量的回歸模型,在回歸分析中,我們對一些解釋變量是定性變量的情形先給予數理化,處理方法是引進只取0和1兩個值的虛擬變量。當某一屬性出現時,虛擬變量取值為1,否則為0。,.,(一)簡單情況簡單情況是指定性變量只取兩類可能性的情況。例如研究企業資本結構問題,為企業資本結構,為企業規模。另外再考慮審計意見兩種情況:企業資本結構的回歸模型為:(9.1),.,(二)復雜情況復雜情況是指定定性變量可能取多類值的情況。假設以采掘業、建筑業、房地產業和社會服務業4個行業的上市公司為例,研究企業資本結構問題,其中為企業資本結構,為企業規模,為審計意見,另外再考慮行業差異。為了用虛擬變量反映這4個行業,我們初步設想引入如下4個0-1型解釋變量:,.,可是這樣作卻產生了一個新的問題,即4個自變量之和恒等于1,構成完全多重共線性。解決這個問題的方法很簡單,我們只需去掉一個0-1型變量,只保留3個0-1型解釋變量即可。所以,對于具有個分類的變量,當確定了參照系后,只需設置個0-1型解釋變量。企業資本結構的回歸模型為:(9.2),.,第二節二項Logistic回歸模型,一、二項Logistic回歸模型概述(一)二項Logistic回歸模型的應用背景在許多會計研究問題中,所研究的被解釋變量往往只有“是”或“否”兩個可能結果,就需要設置虛擬變量。當被解釋變量為虛擬變量時,建立一般的多元線性回歸模型就會出現以下問題:(1)殘差不再滿足且的假設條件。(2)殘差不再服從正態分布。(3)被解釋變量的取值區間受限制。由此可見,當被解釋變量是0-1型變量時,無法直接采用一般的多元線性回歸模型建模,通常應采用Logistic回歸模型。本章只介紹二項Logistic回歸模型。,.,利用Logistic回歸可以直接預測觀測量相對于某一事件的發生概率在一般的多元回歸中,若以概率為被解釋變量,則方程為:(9.3)但用該方程計算時,常會出現或的不合理情形。為此需要對作對數單位轉換,即,于是可得到Logistic回歸方程為:(9.4)其中、為常數和解釋變量的系數,為自然數,其曲線為型。,.,某一事件不發生地概率為:Prob(noevent)=1-Prob(event)(9.5)二元Logistic模型對數據要求為:(1)被解釋變量應具二分特點。(2)解釋變量數據最好為多元正態分布。,.,(三)二項Logistic回歸模型中回歸系數的含義在應用中人們通常更關心的是解釋變量給發生比帶來的變化。當Logistic回歸模型的回歸系數確定后,將其代入的函數,即(9.6)當其他解釋變量保持不變而研究變化一個單位對的影響時,可將新的發生比設為,則有:(9.7),.,于是有(9.8)由此可知,當增加一個單位時,將引起發生比擴大倍。一般化則為(9.9)式(9.9)表明,當第個解釋變量發生一個單元的變化時,幾率的變化值為。解釋變量的系數為正值,意味著事件發生的幾率會增加,的值大于1;解釋變量的系數為負值,意味著事件發生的幾率會減少,的值小于1;當為0時,此值等于1。,.,(四)二項Logistic回歸模型的檢驗1、回歸模型的顯著性檢驗Logistic回歸模型顯著性檢驗的目的是檢驗解釋變量全體與Logit的線性關系是否顯著,是否可以用線性模型擬合。其原假設是:各回歸系數同時為0,解釋變量全體與Logit的線性關系不顯著。(9.10)好的模型的似然比值較高,其值相對較小。似然比值的變化說明當變量進入與被剔除出模型對數據擬合度方面的變化。,.,常用的3種卡方統計量分別為Model、Block、Step。(1)Model統計量檢驗除常數項以外,模型中所有變量系數為零的假設。(2)Block卡方值為當前值與后一組變量進入模型后的值之差。(3)Step卡方值是在建立模型的過程中,當前與下一步之間的差值。SPSS將自動計算似然比卡方的觀測值和相伴概率值。如果相伴概率值小于給定的顯著水平,則應拒絕零假設;反之,如果相伴概率值大于給定的顯著水平,則不應拒絕零假設。,.,2、回歸系數的顯著性檢驗Logit回歸系數顯著性檢驗的目的是逐個檢驗模型中各解釋變量是否與Logit有顯著的線性關系,對解釋Logit是否有重要貢獻。其原假設是,即某回歸系數與零無顯著差異,相應的解釋變量與Logit之間的線性關系不顯著。回歸系數顯著性檢驗采用的檢驗統計量是統計量,數學定義為(9.11)式(9.11)中,是回歸系數,是回歸系數的標準誤差。檢驗統計量服從自由度為1的卡方分布。,.,SPSS將自動計算各解釋變量的的觀測值和相伴概率值。如果概率值小于給定的顯著性水平,則應拒絕零假設,認為某解釋變量的回歸系數與零有顯著差異,該解釋變量與Logit之間的線性關系顯著,應保留在模型中;反之,如果概率值大于給定的顯著性水平,則不應拒絕零假設,可以認為某解釋變量的回歸系數與零無顯著差異,該解釋變量與Logit之間的線性關系不顯著,不應保留在模型中。,.,3、回歸模型的擬合優度檢驗在Logistic回歸分析中,擬合優度可以從兩大方面考察。第一,回歸模型能夠解釋被解釋變量變差的程度。第二,回歸模型計算出的預測值與實際值之間吻合的程度,即模型的總體錯判率是低還是高。常用的指標有Cox&Snell統計量、Nagelkerke統計量、錯判矩陣、Hosmer-Lemeshow統計量。4、殘差分析Logistic回歸中可以利用一下殘差指標進行殘差分析,主要包括:非標準化殘差、標準化殘差、Logit殘差等。,.,二、二項Logistic回歸分析在SPSS中的實現1建立或打開數據文件后,進入AnalyzeRegressionBinaryLogistic對話框,如圖9-1所示。圖9-1Logistic邏輯回歸分析主對話框,.,2、選擇被解釋變量放入Dependent框,選擇一個或多個解釋變量放入Covariates框。也可以將不同解釋變量組放在不同的塊(Block)中,進而分析不同解釋變量組對解釋變量的貢獻。3、在Method框后選擇解釋變量的篩選策略,包括Enter選項、Forward:Conditional選項、Forward:LR選項、Forward:Wald選項、Backward:Conditional選項、Backward:LR選項、Backward:Wald選項。4、SelectionVariable框,根據指定變量的取值范圍,選擇參與分析的觀察量。,.,5、單擊Categorical按鈕,展開如圖9-2對話框,設置處理分類變量的方式。適用于解釋變量(協變量)為非定距的品質變量。圖9-2定義分類協變量對話框,.,(1)在Covariates框中包含了在主對話框中已經選擇好的全部協變量及交互項。(2)CategoricalCovariates框中列出了所選擇的分類變量。(3)ChangeContrast欄,設置分類協變量中各類水平的對比方式。有Indicator選項、Simple選項、Difference選項、Helmert選項、Repeated選項、Polynomial選項、Deviation選項。(4)ReferenceCategory選項,如果選擇了Deviation、Simple、Indicator對比方式,可選擇First或Last,指定分類變量的第一類或最后一類作為參考類。(5)如果改變了ChangeCovariates的設置,單擊Change按鈕以示對選項的確定。,.,6、單擊Save按鈕,激活儲存新變量對話框,如圖9-3所示。選擇在數據文件中保存的新變量。圖9-3保存新變量對話框,.,(1)PredictedValue欄,預測值選項。其中,Probability復選項,表示每個觀測量發生特定事件的預測概率;Groupmembership復選項,表示依據預測概率得到的每個觀測量的預測分組。(2)Residual欄,保存殘差,包括Unstandardized非標準化殘差、Logit殘差、Studentized學生化殘差、Standardized標準化殘差和Deviance偏差。(3)Influence欄,保存每一個觀測量的影響力指標,包括Cook距離、Leveragevalues杠桿值和Dfbeta(s)統計量。,.,7單擊Options按鈕,展開如圖9-4所示對話框。圖9-4Options選擇項對話框,.,(1)StatisticsandPlot欄,輸出統計量和圖形。包括Classificationplots復選項、Correlationsofesti復選項、Hosmer-Lemeshowgoodness-of-f復選項、Iterationhistory復選項、Casewiselistingofresiduals復選項、CIforexp(B)復選項。(2)Display欄中,Ateachstep選項,表示對每一步計算過程輸出表、統計量和圖形。Atlaststep選項,表示只輸出最終方程的表、統計量和圖形。(3)ProbabilityforStepwise欄,設置變量進入模型及從模型中刪除的判據。(4)Classification欄,被解釋變量分類界限。(5)Maximum欄,設定最大迭代次數。(6)Includeconstantinm:模型包含常數項。,.,8、圖形診斷模型,包括:(1)使用Graphs圖形功能,對保存在數據文件中的Deviance統計量做P-P圖。(2)將保存的StandardizedResiduals,DfBeta(s)和Leverage統計量,用SPSS圖形功能做散點圖(橫坐標為變量ID,縱坐標為各種保存的新變量)。,.,第三節判別分析,一、判別分析的概念和基本步驟(一)判別分析的概念判別分析是根據觀察到的若干變量值,判斷研究對象如何分類的方法。判別分析能夠解決兩組或者更多組的情況,當包含兩組時,稱做兩組判別分析;當包含三組或者三組以上時,稱做多組判別分析聚類分析和判別分析都是分類學的基本方法,但它們也有很大的不同。,.,(二)判別分析的基本步驟1、判別分析的研究設計(1)解釋變量和被解釋變量的選擇。判別分析中,被解釋變量為定性變量。解釋變量可以為定量變量,也可以為定性變量。(2)樣本容量。在判別分析中,最小的組的大小必須超過解釋變量的個數。(3)樣本的分割。在實際研究中,很多時候樣本需要分割為兩個子樣本,一個子樣本用于估計判別函數,另一個子樣本用于驗證判別函數,每個子樣本都要有適當的樣本容量來支持結論。分割樣本有很多種方法,最常用的是將整個樣本隨機的分為兩組,這種驗證方法稱為分割樣本法或者交叉驗證法。,.,2、判別分析的假定(1)每一個判別變量(解釋變量)不能是其他判別變量的線性組合,即不能出現多重共線性問題。(2)各組變量的協方差矩陣相等。判別分析最簡單和最常用的形式是采用線性判別函數,它們是判別變量的簡單線性組合。在各組協方差矩陣相等的假設條件下,可以使用很簡單的公式來計算判別函數和進行顯著性檢驗。(3)各判別變量之間具有多元正態分布,即每個變量對于所有其他變量的固定值有正態分布。在這種條件下可以精確計算顯著性檢驗值和分組歸屬的概率。當違背該假設時,計算的概念將非常不準確。,.,3、估計判別模型和評估整體擬合(1)計算方法。推導判別函數時可以使用兩種計算方法:聯立(直線)法和逐步法。聯立估計在計算時同時考慮所有的解釋變量。而當研究者考慮了相對較多的解釋變量時,逐步法是適用的。(2)統計顯著性。在計算了判別函數以后,必須評估它的顯著性。有一系列不同的統計準則可用。Wilkslambda,Mahalanobisdistance和RaosV等都可以用來評估判別函數。,.,(3)評估整體擬合。這個評估包括三個任務:計算每個觀測的判別得分、檢驗各組在判別得分上的差異、評估組關系預測的精度。4、結果的解釋這個過程主要是解釋在判別分析中每個解釋變量的相對重要性,主要有三種方法:標準化判別權重、判別載荷、偏值。5、結果的驗證判別分析的最后一個階段就是驗證判別分析的結果,通常采用分割樣本和交叉驗證法。,.,1、建立或打開數據文件后,按AnalyzeClassifyDiscriminant的順序打開DiscriminantAnalysis對話框。見圖9-7所示。圖9-7判別分析主對話框,.,2、選擇分類變量及其范圍在主對話框中左面的矩形框中選擇表明已知的觀測量所屬類別的變量,按向右按鈕,使該變量名移到右面的GroupingVariable框中。此時矩形框下面的“DefineRange”按鈕加亮,按該按鈕,顯示如圖9-8所示的對話框,在該框中分類變量的最小值和最大值。圖9-8DefineRange對話框,.,3、指定判別分析的解釋變量在主對話框左面的變量表中選擇表明觀測量特征的變量,按下面一個箭頭按鈕把選中的變量移到Independents矩形框中,作為參與判別分析的變量。完成前面3步驟的操作即可使用各種系統默認值對數據集的數據進行判別分析了,但結果有時不能令人滿意,因此有必要根據以下步驟做進一步的分析。,.,4、選擇觀測量如果希望使用一部分觀測量進行判別函數的推導,而且有一個變量的某個值可以作為這些觀測量的標識,則用Select功能進行選擇。展開SetValue子對話框,如圖9-9所示,鍵入標識參與分析的觀測量所具有的該變量值。圖9-9SetValue子對話框在分析中一般均使用數據文件中的所有合法觀測量,因此此步驟也可以省略。,.,5、選擇分析方法在主對話框中解釋變量矩形框下面有兩個選擇項,用于選擇判別分析方法。(1)Enterindependenttogether選項。當認為所有解釋變量都能對觀測量的特性提供豐富的信息且彼此獨立時,使用該選擇項。建立全模型,不需要進一步進行選擇。(2)Usestepwisemethod選項。當不認為所有解釋變量都能對觀測量的特性提供豐富的信息時,因此需要使用該選擇項,根據判別貢獻的大小再進行選擇。單擊該項,“Method”按鈕加亮,可以進一步選擇判別分析方法。,.,6、單擊“Method”按鈕,展開StepwiseMethod對話框,如圖9-10所示。其中:圖9-10StepwiseMethod對話框,.,(1)Method欄選擇,進行逐步判別分析的方法。可供選擇的判別分析方法有:Wilkslambda選項、Unexplainedvariance選項、Mahalanobisdistance選項、SmallestFratio選項、RaosV選項。(2)Criteria欄,選擇逐步判別停止的判據。可供選擇的判據有:UseFvalue選項使用值、UseProbabilityofF選項,用檢驗的概率決定變量是否加入函數或被剔除。(3)Display欄顯示選擇的內容,有Summaryofsteps復選項和FforPairwisedistances復選項進行選擇。,.,7、單擊Statistics按鈕,展開Statistics對話框,指定輸出的統計量,如圖9-11所示。圖9-11Statistics對話框,.,(l)Descriptives欄,選擇對原始數據的描述統計量的輸出,包括Means復選項、UnivariateANOV復選項、BoxsM復選項。(2)Functioncoefficients欄,選擇判別函數系數的輸出形式,有Fisherhs復選項、Unstandardized復選項。(3)Matrices欄,選擇要求給出的解釋變量的系數矩陣。包括Within-groupscorrelation復選項、Within-groupscovariance復選項、Separate-groupscovariance復選項、Totalcovariance復選項。,.,8、在主對話框中單擊Classify按鈕,展開Classification對話框,指定分類參數和判別結果,如圖9-12所示。圖9-12Classification
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高吞吐5G LDPC碼編譯碼器的研究與實現
- 高壓下金屬鹵化物鈣鈦礦材料的結構相變及其發光性能研究
- 房地產開發勞務協議樣本
- 網絡拍賣協議模板
- 電子產品銷售與維修協議
- 洗衣粉購銷合同
- 獨家品牌使用權許可協議
- 2025中職學校德育實踐基地建設總結范文
- 酒精對健康影響的警示教育心得體會
- 兒童安全意識提升計劃
- 醫患溝通技巧培訓
- 壓電陶瓷完整版課件
- 獲獎QC小組活動-提高苗木栽植成活率
- GB/T 36876-2018中小學校普通教室照明設計安裝衛生要求
- GB/T 304.9-2008關節軸承通用技術規則
- GB/T 20388-2006紡織品鄰苯二甲酸酯的測定
- GB/T 15823-1995氦泄漏檢驗
- 銀行結售匯統計案例分析
- 質量整改回執單
- 青海省干部履歷表
- 垂直度檢測記錄表
評論
0/150
提交評論