多重共線性問題_第1頁
多重共線性問題_第2頁
多重共線性問題_第3頁
多重共線性問題_第4頁
多重共線性問題_第5頁
已閱讀5頁,還剩35頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、問題一:多重共線性問題一:多重共線性 Multi-CollinearityMulti-Collinearity一、多重共線性的概念一、多重共線性的概念二、實際經濟問題中的多重共線性二、實際經濟問題中的多重共線性三、多重共線性的后果三、多重共線性的后果四、多重共線性的檢驗四、多重共線性的檢驗五、克服多重共線性的方法五、克服多重共線性的方法六、案例六、案例*七、分部回歸與多重共線性七、分部回歸與多重共線性一、多重共線性的概念一、多重共線性的概念 對于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n其基本假設之一是解釋變量是互相獨立的。 如果某兩個或多個解釋變量之間出現了相如果某兩個

2、或多個解釋變量之間出現了相關性,則稱為關性,則稱為多重共線性多重共線性(Multicollinearity)。 如果存在如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中其中: ci不全為不全為0,則稱為解釋變量間存在,則稱為解釋變量間存在完全共線完全共線性性(perfect multicollinearity)。 如果存在如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中其中ci不全為不全為0,vi為隨機誤差項,則稱為為隨機誤差項,則稱為 近似共線近似共線性性(approximate multicollinearity)或或交互相關交互相關(in

3、tercorrelated)。 注意:注意: 完全共線性的情況并不多見,一般出現完全共線性的情況并不多見,一般出現的是在一定程度上的共線性,即近似共線的是在一定程度上的共線性,即近似共線性。性。 二、實際經濟問題中的多重共線性二、實際經濟問題中的多重共線性 一般地,產生多重共線性的主要原因有以下一般地,產生多重共線性的主要原因有以下三個方面:三個方面: (1 1)經濟變量相關的共同趨勢)經濟變量相關的共同趨勢 時間序列樣本:時間序列樣本:經濟經濟繁榮時期繁榮時期,各基本經濟,各基本經濟變量(收入、消費、投資、價格)都趨于增長;變量(收入、消費、投資、價格)都趨于增長;衰退時期衰退時期,又同時趨

4、于下降。,又同時趨于下降。 橫截面數據:橫截面數據:生產函數中生產函數中,資本投入與勞動資本投入與勞動力投入往往出現高度相關情況,大企業二者都大,力投入往往出現高度相關情況,大企業二者都大,小企業都小。小企業都小。 (2 2)滯后變量的引入)滯后變量的引入 在經濟計量模型中,往往需要引入滯在經濟計量模型中,往往需要引入滯后經濟變量來反映真實的經濟關系。后經濟變量來反映真實的經濟關系。 例如例如,消費,消費=f(當期收入當期收入, 前期收入)前期收入) 顯然,兩期收入間有較強的線性相關顯然,兩期收入間有較強的線性相關性。性。 (3 3)樣本資料的限制)樣本資料的限制 由于完全符合理論模型所要求的

5、樣本數據較由于完全符合理論模型所要求的樣本數據較難收集,特定樣本可能存在某種程度的多重共線難收集,特定樣本可能存在某種程度的多重共線性。性。 一般經驗一般經驗: 時間序列數據時間序列數據樣本:簡單線性模型,往往存在樣本:簡單線性模型,往往存在多重共線性。多重共線性。 截面數據截面數據樣本:問題不那么嚴重,但多重共線樣本:問題不那么嚴重,但多重共線性仍然是存在的。性仍然是存在的。 二、多重共線性的后果二、多重共線性的后果 1 1、完全共線性情況下的后果、完全共線性情況下的后果 (1) (1) 完全共線性下參數估計量不存在完全共線性下參數估計量不存在 (2) (2) 參數估計量的方差無限大參數估計

6、量的方差無限大 2 2、不完全多重共線性產生的后果、不完全多重共線性產生的后果 如果模型中存在不完全的多重共線性,可以得到如果模型中存在不完全的多重共線性,可以得到參數的估計值,但是對計量分析可能會產生一系參數的估計值,但是對計量分析可能會產生一系列的影響。列的影響。 (1)參數估計值的方差增大)參數估計值的方差增大(2)對參數區間估計時)對參數區間估計時, 置信區間趨于變大置信區間趨于變大(3)嚴重多重共線時)嚴重多重共線時,假設檢驗容易做出錯誤的假設檢驗容易做出錯誤的判斷判斷(4)當多重共線性嚴重時)當多重共線性嚴重時,可能造成可決系數可能造成可決系數R2較高經較高經F檢驗的參數聯合顯著性

7、也很高,但對各檢驗的參數聯合顯著性也很高,但對各個參數單獨的個參數單獨的t檢驗卻可能不顯著,甚至可能使檢驗卻可能不顯著,甚至可能使估計的回歸系數相反,得出完全錯誤的結論估計的回歸系數相反,得出完全錯誤的結論 。變量的顯著性檢驗失去意義變量的顯著性檢驗失去意義存在多重共線性時存在多重共線性時參數估計值的方差與標準差變大參數估計值的方差與標準差變大容易使通過樣本計算的容易使通過樣本計算的t值小于臨界值,值小于臨界值, 誤導作出參數為誤導作出參數為0的推斷的推斷可能將重要的解釋變量排除在模型之外可能將重要的解釋變量排除在模型之外注意:注意: 除非是完全共線性,多重共線性并不意味著除非是完全共線性,多

8、重共線性并不意味著任何基本假設的違背;任何基本假設的違背; 因此,即使出現較高程度的多重共線性,因此,即使出現較高程度的多重共線性,OLS估計量仍具有線性性等良好的統計性質。估計量仍具有線性性等良好的統計性質。 問題在于問題在于,即使,即使OLS法仍是最好的估計方法,法仍是最好的估計方法,它卻不是它卻不是“完美的完美的”,尤其是在統計推斷上無,尤其是在統計推斷上無法給出真正有用的信息。法給出真正有用的信息。 多重共線性檢驗的任務多重共線性檢驗的任務是: (1)檢驗多重共線性是否存在;)檢驗多重共線性是否存在; (2)估計多重共線性的范圍,即判斷哪些變量之)估計多重共線性的范圍,即判斷哪些變量之

9、間存在共線性。間存在共線性。 多重共線性表現為解釋變量之間具有相關關系,所以用于多重共線性的檢驗方法主要是統計方法用于多重共線性的檢驗方法主要是統計方法:如判定系數檢驗法判定系數檢驗法、逐步回歸檢驗法逐步回歸檢驗法等。 三、多重共線性的檢驗三、多重共線性的檢驗 1 1、檢驗多重共線性是否存在、檢驗多重共線性是否存在 (1)(1)對兩個解釋變量的模型,采用對兩個解釋變量的模型,采用簡單相關系數法簡單相關系數法 求出X1與X2的簡單相關系數r,若|r|接近1,則說明兩變量存在較強的多重共線性。 (2) (2)對多個解釋變量的模型,對多個解釋變量的模型,采用綜合統計檢驗法采用綜合統計檢驗法 若 在在

10、OLS法下:法下:R2與與F值較大,但值較大,但t檢驗值較小檢驗值較小,說明各解釋變量對Y的聯合線性作用顯著,但各解釋變量間存在共線性而使得它們對Y的獨立作用不能分辨,故t檢驗不顯著。 2 2、判明存在多重共線性的范圍、判明存在多重共線性的范圍 如果存在多重共線性,需進一步確定究竟由哪些變量引起。 (1) 判定系數檢驗法判定系數檢驗法 使模型中每一個解釋變量分別以其余解釋變量為解釋變量進行回歸,并計算相應的擬合優度。 如果某一種回歸 Xji=1X1i+2X2i+LXLi的判定系數判定系數較大,說明Xj與其他X間存在共線性共線性。具體可進一步對上述回歸方程作具體可進一步對上述回歸方程作F檢驗:檢

11、驗: 式中:Rj2為第j個解釋變量對其他解釋變量的回歸方程的決定系數, 若存在較強的共線性,則Rj2較大且接近于1,這時(1- Rj2 )較小,從而Fj的值較大。 因此,給定顯著性水平,計算F值,并與相應的臨界值比較,來判定是否存在相關性。 構造如下F統計量) 1, 2() 1/()1 ()2/(2.2.knkFknRkRFjjj 在模型中排除某一個解釋變量在模型中排除某一個解釋變量Xj,估,估計模型計模型; 如果擬合優度與包含如果擬合優度與包含Xj時十分接近,時十分接近,則說明則說明Xj與其它解釋變量之間存在共線性。與其它解釋變量之間存在共線性。 另一等價的檢驗另一等價的檢驗是是: (2)逐

12、步回歸法逐步回歸法 以Y為被解釋變量,逐個引入解釋變量,構成回歸模型,進行模型估計。 根據擬合優度的變化決定新引入的變量是否獨立。 如果擬合優度變化顯著如果擬合優度變化顯著,則說明新引入的變量是一個獨立解釋變量; 如果擬合優度變化很不顯著如果擬合優度變化很不顯著,則說明新引入的變量與其它變量之間存在共線性關系。(3)方差擴大(膨脹)因子法)方差擴大(膨脹)因子法 統計上可以證明,解釋變量統計上可以證明,解釋變量的參數估計式的參數估計式的方差可表示為的方差可表示為 其中的其中的是變量是變量(Variance Inflation Factor),即,即的方差擴大因子的方差擴大因子其中其中 是多個解

13、釋變量輔助回歸的可決系數是多個解釋變量輔助回歸的可決系數 21VIF =1-jjR222221Var() =VIF1-jjjjjxRxVIFjjXjXj2jR經驗規則經驗規則方差膨脹因子越大,表明解釋變量之間的多重共方差膨脹因子越大,表明解釋變量之間的多重共性越嚴重。反過來,方差膨脹因子越接近于性越嚴重。反過來,方差膨脹因子越接近于1,多重共線性越弱。多重共線性越弱。經驗表明,方差膨脹因子經驗表明,方差膨脹因子10時,說明解釋變量時,說明解釋變量與其余解釋變量之間有嚴重的多重共線性,且這與其余解釋變量之間有嚴重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計。種多重共線性可能會過度地

14、影響最小二乘估計。(4)直觀判斷法)直觀判斷法當增加或剔除一個解釋變量,或者改變一當增加或剔除一個解釋變量,或者改變一個觀測值時,回歸參數的估計值發生較大個觀測值時,回歸參數的估計值發生較大變化,回歸方程可能存在嚴重的多重共線變化,回歸方程可能存在嚴重的多重共線性。性。從定性分析認為,一些重要的解釋變量的從定性分析認為,一些重要的解釋變量的回歸系數的標準誤差較大,在回歸方程中回歸系數的標準誤差較大,在回歸方程中沒有通過顯著性檢驗時,可初步判斷可能沒有通過顯著性檢驗時,可初步判斷可能存在嚴重的多重共線性。存在嚴重的多重共線性。有些解釋變量的回歸系數所帶正負號與定性分有些解釋變量的回歸系數所帶正負

15、號與定性分析結果違背時,很可能存在多重共線性。析結果違背時,很可能存在多重共線性。解釋變量的相關矩陣中,自變量之間的相關系解釋變量的相關矩陣中,自變量之間的相關系數較大時,可能會存在多重共線性問題。數較大時,可能會存在多重共線性問題。 找出引起多重共線性的解釋變量,將它排除出去。 以逐步回歸法逐步回歸法(stepwise)得到最廣泛的應用。 注意:注意: 這時,剩余解釋變量參數的經濟含義和數值都這時,剩余解釋變量參數的經濟含義和數值都發生了變化。發生了變化。 如果模型被檢驗證明存在多重共線性,則需要發展新的方法估計模型,最常用的方法有三類。四、克服多重共線性的方法四、克服多重共線性的方法 1

16、1、第一類方法:排除引起共線性的變量、第一類方法:排除引起共線性的變量 2 2、第二類方法:差分法、第二類方法:差分法 時間序列數據、線性模型:將原模型變換為時間序列數據、線性模型:將原模型變換為差分模型差分模型: Yi= 1 X1i+ 2 X2i+ k Xki+ i可以有效地消除原模型中的多重共線性。可以有效地消除原模型中的多重共線性。 一般而言,差分后變量之間的相關性要比一般而言,差分后變量之間的相關性要比差分前弱得多,所以差分后的模型可能降差分前弱得多,所以差分后的模型可能降低出現共線性的可能性,此時可直接估計低出現共線性的可能性,此時可直接估計差分方程。差分方程。問題:問題:差分會丟失

17、一些信息,差分模型的誤差差分會丟失一些信息,差分模型的誤差項可能存在序列相關,可能會違背經典線性回項可能存在序列相關,可能會違背經典線性回歸模型的相關假設,在具體運用時要慎重。歸模型的相關假設,在具體運用時要慎重。 例例如如:表表 4.3.2 中國中國 GDP 與居民消費與居民消費 C 的總量與增量數據的總量與增量數據(億元)(億元)年份CYC/YCYC/Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.40.531287.03

18、50.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.518890.4176

19、2.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.530199734854.67

20、4894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40.556 由表中的比值可以直觀地看到,增量的增量的線性關系弱于總量之間的線性關系線性關系弱于總量之間的線性關系。 進一步分析:進一步分析: Y與C(-1)之間的判定系數為0.9988, Y與C(-1)之間的判定系數為0.9567 3、第三類方法:減小參數估計量的方差、第三類方法:減小參數估計量的方差 多重共線性

21、多重共線性的主要后果后果是參數估計量具有較大的方差,所以 采取適當方法減小參數估計量的方差采取適當方法減小參數估計量的方差,雖然沒有消除模型中的多重共線性,但確能消除多重共線性造成的后果。 例如: 增加樣本容量增加樣本容量,可使參數估計量的方可使參數估計量的方差減小差減小。 橫截面數據與時序數據并用橫截面數據與時序數據并用首先利用橫截面數據估計出部分參數,再利用首先利用橫截面數據估計出部分參數,再利用時序數據估計出另外的部分參數,最后得到整時序數據估計出另外的部分參數,最后得到整個方程參數的估計。個方程參數的估計。 注意:注意:這里包含著假設,即參數的橫截面估計和這里包含著假設,即參數的橫截面

22、估計和從純粹時間序列分析中得到的估計是一樣的。從純粹時間序列分析中得到的估計是一樣的。 變量變換變量變換變量變換的主要方法:變量變換的主要方法:(1)計算相對指標計算相對指標 (2)將名義數據轉換為實際數據將名義數據轉換為實際數據 (3)將小類指標合并成大類指標將小類指標合并成大類指標 變量數據的變換有時可得到較好的結果,但無變量數據的變換有時可得到較好的結果,但無法保證一定可以得到很好的結果。法保證一定可以得到很好的結果。 *嶺回歸法嶺回歸法(Ridge Regression) 70年代發展的嶺回歸法,以引入偏誤為代價減小以引入偏誤為代價減小參數估計量的方差參數估計量的方差,受到人們的重視。

23、 具體方法是:引入矩陣D,使參數估計量為 其中矩陣D一般選擇為主對角陣,即 D=aI a為大于0的常數。YXDXX1)((*) 顯然,與未含顯然,與未含D的參數的參數B的估計量相比,的估計量相比,(*)式的估式的估計量有較小的方差。計量有較小的方差。 六、案例六、案例中國糧食生產函數中國糧食生產函數 根據理論和經驗分析,影響糧食生產(Y)的主要因素有: 農業化肥施用量(X1);糧食播種面積(X2) 成災面積(X3); 農業機械總動力(X4); 農業勞動力(X5) 已知中國糧食生產的相關數據,建立中國糧食生產函數: Y= 0+ 1 X1 + 2 X2 + 3 X3 + 4 X4 + 4 X5 +

24、 表表 4.3.3 中國糧食生產與相關投入資料中國糧食生產與相關投入資料年份糧食產量Y(萬噸)農業化肥施用量1X(萬公斤)糧食播種面積2X(千公頃)受災面積3X(公頃)農業機械總動力4X(萬千瓦)農業勞動力5X(萬人)1983387281659.811404716209.31802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.02295030467.01987402081999.311126820392.7248

25、3630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.111231427814.02938934186.31992442642930.211056025894.73030834037.01993456493151.911050923133.03181733258.21994445103317.910954431383.03380232690.319954666235

26、93.711006022267.03611832334.51996504543827.911254821233.03854732260.41997494173980.711291230309.04201632434.91998512304083.711378725181.04520832626.41999508394124.311316126731.04899632911.82000462184146.410846334374.05257432797.5 1 1、用、用OLS法估計上述模型法估計上述模型: R2接近于1; 給定=5%,得F臨界值 F0.05(5,12)=3.11 F=638.4 15.19,故認上述糧食生產的總體線性關系顯著成立。 但X4 、X5 的參數未通過t檢驗,且符號不正確,故解釋變量間可能存在多重共線性解釋變量間可能存在多重共線性。54321028. 0098. 0166. 0421. 0213. 644.12816XXXXXY (-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14) 2 2、檢驗簡單相關系數、檢驗簡單相關系數 發現:發現: X1與X4間存在高度相關性。列出X1,X2,X3,X4,X5的相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論