SPSS教程04(帶圖)_回歸分析及多元線性回歸三大問題_chenxy_第1頁
SPSS教程04(帶圖)_回歸分析及多元線性回歸三大問題_chenxy_第2頁
SPSS教程04(帶圖)_回歸分析及多元線性回歸三大問題_chenxy_第3頁
SPSS教程04(帶圖)_回歸分析及多元線性回歸三大問題_chenxy_第4頁
SPSS教程04(帶圖)_回歸分析及多元線性回歸三大問題_chenxy_第5頁
已閱讀5頁,還剩44頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、簡單教程 04 1. 相關配套數據 已經 上傳百度文庫:2. 配套軟件 SPSS 17.0 已經上傳百度文庫;百度文庫搜索“SPSS簡單教程配套數據及軟件_chenxy”百度云盤鏈接;5. 回歸分析25.1 一元線性回歸分析25.2 回歸分析曲線估計55.3 多元線性回歸分析105.3.1 多元線性回歸分析強制全部回歸分析105.3.2 多元線性回歸分析_逐步回歸分析115.4 多元線性回歸三大問題135.4.1 問題1:判定多重共線性135.4.2 對多重共線性處理175.4.3 問題2:判定異方差215.4.4 對異方差處理265.4.5 問題3:判定序列相關365. 回歸分析一元線性回歸

2、分析多元線性回歸分析回歸:揭示出不確定數量關系的內在數量變化規律,并通過一定的表達式 (回歸方程) 描述數量之間的這種內在關系的方法。被解釋變量:必須是刻度級數據解釋變量:可以是刻度級、順序級、名義級的變量 但是都必須用Numeric 型來定義5.1 一元線性回歸分析效果檢驗系數檢驗操作步驟 1 (數據見文件 20151105_回歸分析)回歸系數的顯著性檢驗T檢驗H0:回歸方程不顯著 H1:回歸方程顯著 t(n-k)針對回歸系數的統計量的顯著性檢驗決定了相應的變量能否作為解釋變量進入回歸方程。 Analyze-> Regression-> LinearEnter 強行全部回歸Con

3、tinue->OK 結果如下SSR = 27272426.508 SSE= 254044.393F= 27.576P = 0.000 < 0.05;故拒絕原假設H0;有95%的把握認為回歸方程顯著操作步驟2 回歸方程的效果檢驗判定相關系數法判定相關系數越接近1 表明回歸平方和占離chat平方和的比例越大,用x的變動解釋y變動的部分就越多,回歸的效果就越好。判定相關系數R0.9 以上 非常好 0.8 以上 很好 0.7以上 比較好 0.6以上 一般 0.6 以下 不好分析結果如下1. 0.956 自變量(人均月收入,廣告投入)和因變量(銷售額)之間存在著極度相關關系2. 由表可知:判

4、定相關系數為0.915;說明回歸平方和占總離差平方和的比例91.5%,用(人均月收入,廣告投入)的變動 解釋 (銷售額)變動的比例為91.5%,且該回歸的效果非常好;調整的判定系數(校正的判定系數)公式(待補充)R2 校正后 不考慮自由度校正與否不會差異太大操作步驟 3 系數檢驗: 含常數項的檢驗 一元 2 個 二元 3 個 以此類推H0:=0; H1:0;( 決定了這個變量是否進入回歸方程 )1. Constant P值 = 0.01 < 0.05 即選擇B一列 反之 P值>0.05; 則該方程不含常數項,選擇Standardized (標準化系數)檢驗其他系數:2. X1能不能

5、進入回歸方程 P=0.001<0.05 即這個變量能進入回歸方程3. X2能不能進入回歸方程 P=0.007<0.05 即這個變量能進入回歸方程 y = 8.577 + 599.454+2116.516附注:從而判斷實際最后得到的方程的最高次項判定該模型實際含義5.2 回歸分析曲線估計操作步驟1 (數據文件見 20151112_回歸分析_曲線估計 ) ( 以下英文步驟了解即可,暫不實際操作,后面通過轉化成中文界面再實際操作 )Analyze ->Regression-> Curve Estimation 進入 下面窗口 勾選相應多選框Model : 所有曲線名字點擊右上

6、角Save 按鈕 查看 該窗口暫不 Continue->OK第一次操作由于輸出表格過多且相應曲線模型較多,轉換成漢語界面,該次分析轉換成漢語界面,便于了解輸出結果的具體模型名稱,查看輸出結果:General 將 language 選擇 Simplified Chinese OK中文操作步驟 :分析 -> 回歸 -> 曲線估計 勾選各選擇項了解各模型具體含義點擊右上角 保存 按鈕 繼續 -> 確定確定輸出界面分析 首先會根據 所勾選的 曲線估計模型 生成每一種曲線估計對應的三個表格Model Summary 模型總匯表格ANOVA 表格Coefficients 系數表格首

7、先根據 模型總匯表 中 R和R方值(R Square) 簡單比較各曲線的模型優劣,選擇R和R方值越接近1的模型越合適,然后具體篩選,分析然后以一兩種表格舉例具體分析 分析案例 1 : 注釋:必須滿足三個條件1. R Square >= 0.6 回歸效果好2. P < 0.05 回歸方程顯著3. 系數檢驗任意通過一項模型才可以采用條件一: 模型總匯表 檢驗相關系數 判定回歸效果好壞R為自變量和因變量之間的相關系數,R=1.0說明兩者之間完全相關R方(R Square)為判定相關系數判定相關系數越接近1 表明回歸平方和占離差平方和的比例越大,用自變量的變動解釋因變量變動的部分就越多,回

8、歸的效果就越好。條件二: ANOVA表格 判定回歸方程 顯著性 效果由P值檢驗法:該P=0.00<0.05 故拒絕原假設H0;有95%的把握認為回歸方程顯著條件三:系數檢驗 ( 二次項一般表達式 )由各項均含有自己的假設檢驗P值,故自下而上從 常數項的P值往上判斷1. 由常數項(Constant)對應P=0.813>0.05 故采用標準化系數;即該二次項不含常數項;(若P值<0.05 則采用未標準化系數對應B列)2. 由 苗齡 和 苗齡2 對應系數各位 0.005 和 0.000 均小于 0.05 故都可進入回歸方程最后得到模型:(這個P=0.05 比較特殊 個人觀點 暫且化

9、為 P<=0.05 )分析案例 2 :同樣的分析結果如下R=1.0 因變量和自變量 完全相關R=1.0 R Square=1.0 回歸效果好P=0.00 < 0.05 回歸方程顯著系數檢驗由常數項 P值=0.337 >0.05 故采用標準化系數由三項P值均大于 0.05 故該模型不可采用引申:三次項一般形式 :若方程最高次項系數 a 的 p值 > 0.05 其他項滿足則最后模型方程為 : 其實質是 二次曲線估計5.3 多元線性回歸分析5.3.1 多元線性回歸分析強制全部回歸分析操作步驟 1 ( 數據文件見 20151112_多元線性回歸分析_強制全部回歸分析 ) Ana

10、lyze -> Regression -> Linear OK 得出結果如下結果分析如下:R=0.949 自變量和因變量之間 高度相關R Square=0.883 回歸效果很好P值<0.05 回歸方程顯著系數檢驗:P值=0.168 >0.05 故不含常數項 且采用規范化系數有 X1 糧食平均單價 P值=0.007 < 0.05有 X2 人均收入 P值=0.000 < 0.05最后模型如下:5.3.2 多元線性回歸分析_逐步回歸分析操作步驟 1 ( 數據文件見 20151112_多元線性回歸分析_逐步回歸分析 )Analyze -> Regression

11、 -> Linear 年齡證券市場以外年收入受教育程度入市年份輸出結果如下:由于是逐步檢驗,依次加入因變量Model 表示4個因變量依次加入形成的的模型組合方式 如上 a b c d 四種模型由P值 均 < 0.05 故4種模型 回歸方程顯著具體分析4個模型,各模型系數檢驗在依次加入前三個因變量 P值均 <= 0.05 即不同 系數項均通過假設檢驗,可以加入到回歸方程中最后模型4得出最終結果 不同 系數項均通過假設檢驗,可以加入到回歸方程中; 各個模型被刪除的變量即不包含的變量的假設檢驗,用于輔助判定上表中可以看出,各模型中,各項系數檢驗均 > > 0.05故也可

12、以判定 各模型缺失項可以進入回歸方程5.4 多元線性回歸三大問題多重共線性異方差問題序列相關問題5.4.1 問題1:判定多重共線性多重共線性后果:多重共線性判別指標1. 容忍度對應于解釋變量xj的容忍度定義為 是解釋變量xj與方程中其他所有解釋變量之間的復相關系數平方,可以衡量xj與其他解釋變量的線性相關程度。如果 <0.1 則可能存在多重共線性2. 方差膨脹因子一般認為,方差膨脹因子大于10時,就認為存在多重共線性。3. 相關系數矩陣自變量間的相關系數矩陣:如果相關系數超過0.9的變量在分析時將會存在共線性問題。在0.8以上可能會有問題。但這種方法只能對共線性作初步的判斷,并不全面。4

13、. 特征根 Eigenvalue該方法實際上就是對自變量進行主成分分析,如果相當多維度的特征根等于0,則可能有比較嚴重的共線性。5. 條件指數由Stewart等提出,當某些維度的該指標數值大于30時,則能存在共線性。選擇 奇數 個判別因子 要么5個 要么3個 避免偶數個判別因子出現 相互矛盾的現象多共線性問題的處理 (理論)1. 逐步刪除不重要的(t 相對小的)解釋變量,采用多種自變量篩選方法相結合的方式,建立一個最優的逐步回歸方程。可直接用逐步回歸法完成。2. 增大樣本量,可部分的解決共線性問題3. 從專業的角度加以判斷,人為的去除在專業上比較次要的,或者缺失值比較多,測量誤差比較大的共線性

14、因子。4. 進行因子分析,用提取的因子代替原變量進行回歸分析。其他方法: (1)用變量的比例代替原來的變量,即用相對數變量替代絕對數變量:(2)差分法(3)逐步回歸分析 (4)偏最小二乘回歸(5)嶺回歸(6)恰當處理滯后變量。操作步驟 1 (數據文件見 20151112_多重共線性 )Analyze->Regression->Linear可支配收入金融資產服裝價格指數一般價格指數點擊 statistics共線的診斷Continue ->->OK 輸出結果如下(1)特征根(Eigenvalue):(3,4,5)多個維度特征根約為0證明存在多重共線性;(2)條件指數(Con

15、dition Index):(3,4,5)大于30時提示我們可能存在多重共線性(3)看相關系數矩陣,找到數值接近1的相關,這也提示出可能存在多重共線性。用SPSS處理,主要采用: 1、使用Transform中的Create time series命令,對數據進行一階差分處理后,重新使用Linear Regression命令,采用自變量全部入選法,做線性回歸分析。 2、針對自變量存在的嚴重多重共線性,普通最小二乘法明顯變壞的問題,可以在SPSS軟件中運用嶺回歸分析。嶺參數K值從0到1,步長可以取0.05。3、采用逐步回歸方法5.4.2 對多重共線性處理操作步驟 1 (數據文件見 20151112

16、_多重共線性 )Transform -> Create Time Series ->->OK 輸出結果如下數據窗口生成新的五列數據添加新創建的五列數據因變量: DFF(服裝消費)自變量(其他四個 DFF列數據)操作步驟 2 : Analyze->Regression->Linear> OK 輸出結果如下表格分析:由表格( Model Summary ) 判定相關系數 R2 = 0.511 0.6所以該模型回歸效果不好由表格( ANOVA) )P=0.4840.05,接受原假設,有95%把握認為該方程沒有顯著性故不要下一步系數檢驗,且該種處理方式不適用操作步驟

17、 3 :Analyze > Regression -> Linear -> 點擊 Reset添加原始數據因變量 服裝消費其他自標量:可支配收入;.;一般價格指數> OK 輸出結果如下 表格分析:由以上操作步驟共產生兩個模型:且由表格可以看出第一個模型:R2 =0.998 回歸效果好 且P=0.00 <0.05 回歸方程顯著 但是在系數檢驗中存在很多系數無法進入回歸方程 故判斷存在多重共線性 不適用第一個模型:R2 =0.998 回歸效果好 且P=0.00 <0.05 回歸方程顯著 并且通過系數檢驗,較多系數可以進入回歸方程 故該模型適用得出結果如下:常數項系

18、數 P=0.098 > 0.05 故采用標準化 引申回歸分析 選擇方法的區別:Enter:所有X一次性全部進入Forward:X一個一個進,每次進入P-value最小的X,直到未進入的X都不significantBackward:所有的X先一次性進入,然后一個一個剔除,每次剔除P-value最大的X,直到保留的X全都significantStepwise:X一個一個進,但是進入新的X以后,會重新審查所有已進入X的P-value,如果進入新的X導致原來的X的P-value從significant變成不significant,則把原來的X剔除5.4.3 問題2:判定異方差問題內涵(了解):是

19、指隨著解釋變量的變化,被解釋變量的方差存在明顯的變化趨勢(不具有常數方差的特征)這也是經濟與管理領域中經常出現的問題之一。異方差造成的后果: 回歸方程的估計值不具有實用價值判定是否存在異方差問題的方式1. 散點圖判斷(不完全準確)2. 求e變量的絕對值與殘差的等級相關系數 絕對值大 存在非齊性方差操作步驟 1 ( 數據文件見 20151119_異方差 ) Analyze -> Regression -> Linear 點擊 plots “DEPENDNT” 因變量。“ZPRED” 標準化預測值。“ZRESID” 標準化殘差。“DRESID” 刪除殘差。“ADJPRED” 調節預測值

20、。“SRESID” 學生氏化殘差。“SDRESID” 學生氏化刪除殘差。從圖形看可能存在異方差,進一步通過 等級相關系數 判斷操作步驟 2 :Analyze -> Regression -> Linear 記得 Reset點擊 save 按鈕 :殘差非標準化 Continue -> OK 出現一列新的數據對該列數據絕對值化 Transform -> Computer Variable ->依次 1.錄入新變量名稱; 2.選擇方法all; 3.選擇函數abs 雙擊; 4. 雙擊處理對象OK-> 數據增加新的一列操作步驟 3 : 計算 絕對值(abs1) 和 非

21、標準殘差絕對值 的相關系數Analyze -> correlate -> Bivariate 選擇 Spearman系數Person系數表示兩個變量的 積矩相關系數 Kendalls tau-b 和 Spearman 表示兩個變量的等級相關系數 -> OK 輸出結果如下:表格分析由表格可知 : P=0.000 < 0.05 拒絕原假設H0,故有99%的把握認為存在異方差顯著等級 *5.4.4 對異方差處理方法一 直接回歸 : 以1/收入為權重,作如下回歸直接回歸(1)定義變量“儲蓄/收入”和“1/收入”(2)進入一元線性回歸過程用加權最小二乘法估計回歸系數-繼續上面數據

22、進行操作增加兩個新變量:1. 儲蓄除以收入2. 收入的倒數操作步驟 1 (數據文件見: 20151119_異方差 ):變量一: Transform -> Computer variable 點擊 Reset點擊 OK變量二 : Transform -> Computer variable 點擊 Reset點擊 OK操作步驟 2 : (檢驗異方差)Analyze -> Regression -> Linear 繪制散點圖Analyze -> Regression ->Linear點擊 saveContinue -> OK表格分析由表格可知: 判定相關系數

23、 R2 = 0.774 回歸效果比較好 P= 0.000 回歸方程顯著由系數檢驗結果: y = -722.47x + 0.088 現實含義 : 兩邊同乘以收入得到: 儲蓄 = -0.722.47 + 0.088 收入操作步驟 3 :檢驗異方差 是否得到改善Analyze -> Regression -> Linear 點擊 save continue -> OK非標準殘差 絕對值化 Transform -> Computer Variable -> OK 結果如下判定 abs2 和 收入的倒數 的相關系數Analyze -> Correlate ->

24、Bivariate 由表格 可知 P=0.289 > 0.05所以 接收原假設,即有95%的把握認為內無異方差方法二: 加權-最小二乘法估計回歸系數操作步驟 1 ( 2數據文件見:0151119_異方差_最小二乘法 ): 注意: 收入的倒數 小數位數值設為 7 顯示如下 Analyze -> Regression-> Linear點擊 OK 輸出結果如下:表格分析:由上表的出結果如下:1. R2 =0.933 回歸效果好 P=0.000<0.05 回歸方程顯著2. 系數檢驗后,方程如下: ( 與第一種方法得出結果作比較 )判定該回歸方程是否可以直接使用,必須通過等級相關

25、系數檢驗三步:1. 添加 未標準化異方差Analyze -> Regression -> Linear 點擊 save 勾選 OK2. 絕對值化 未標準化異方差Transform -> Computer Variable3. 計算 自變量(收入) 和 絕對值的 相關系數Analyze -> correlate -> Brivariate操作步驟 2 : Analyze -> Regression -> Weight Estimation -> OK 輸出結果如下 表格分析:由上表的出結果如下:1. R2 =0.936 回歸效果好 P=0.000&

26、lt;0.05 回歸方程顯著2. 系數檢驗后,方程如下: ( 與第一種方法得出結果作比較 )判定該回歸方程是否可以直接使用,必須通過等級相關系數檢驗三步:1. 添加 未標準化異方差 Analyze -> Regression -> Linear 點擊 save 勾選 OK2. 絕對值化 未標準化異方差 Transform -> Computer Variable3. 計算 自變量 和 絕對值的 相關系數 Analyze -> correlate -> Brivariate5.4.5 問題3:判定序列相關自相關問題,是指隨著不同期的樣本值(不同編號的樣本值)之間存在

27、相關關系,這也是經濟與管理領域中經常出現的問題之一。經濟管理問題中產生序列相關的主要原因:1. 遺漏重要變量2. 經濟變量的滯后性3. 采用錯誤的回歸形式4. 因數據加工整理而導致誤差項之間出現自相關性。檢驗工具:DW 統計量(公式了解即可)公式:其中 ;由于 : ;DW 判定區間如下觀察、檢驗序列相關圖示和DW值檢查自相關的原因,若不是遺漏重要變量或回歸形式選擇錯誤,則用恰當方法處理;常用方法是:(1)迭代法廣義差分法(2)一階差分法序列相關的診斷yt操作步驟 1 :( 數據文件見 20151126_序列相關 )Analyze -> Regression -> Linearxt點

28、擊 statistic 勾選Continue-> 點擊 plots 畫散點圖Continue -> 點擊 save 勾選 殘差非標準化點擊 continue -> OK 輸出結果如下:由表格DW = 0.934 故存在正一階序列相關并由DW值并結合圖形 診斷出存在序列相關序列相關 處理方法一:廣義差分法操作步驟 2 :由上述操作的出 DW = 0.934 由此得出 = 0.533第一步:transform Compute中的LAG(1) 函數產生兩個新變量 和 Transform -> Computer Variable -> ->OK結果如下同理生成新變量

29、 Transform -> Computer Variable -> LAG(gnp)-> OK 結果如下根據公式繼續產生兩個新變量 Transform -> Computer Variable -> 進口額-0.533 * -> OK 結果如下:Transform -> Computer Variable -> Gnp - 0.533 * -> OK 輸出結果如下對新生成的兩個因變量 自變量 進行診斷 :Analyze -> Regression -> Linear 依次點擊 Statistic Plots Save 勾選相應屬性(省略) - 診斷序列相關輸出結果如下:DW = 1.428 < 2圖像( 省略 )由DW值并結合圖形 診斷出依然

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論