總結:線性回歸分析的基本步驟_第1頁
總結:線性回歸分析的基本步驟_第2頁
總結:線性回歸分析的基本步驟_第3頁
總結:線性回歸分析的基本步驟_第4頁
總結:線性回歸分析的基本步驟_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、線性回歸分析的基本步驟步驟一、建立模型知識點:1、總體回歸模型、總體回歸方程、樣本回歸模型、樣本回歸方程總體回歸模型:研究總體之中自變量和因變量之間某種非確定依賴關系的計量模型。YXU特點:由于隨機誤差項U的存在,使得Y和X不在一條直線/平面上。例1:某鎮共有60個家庭,經普查,60個家庭的每周收入(X)與每周消費(Y)數據如下:每周收入(X)每周消費支出(Y)8055606570751006570748085881207984909498140809395103108113115160102107110116118125180110115120130135140200120136140144

2、145220135137140152157160162240137145155165175189260150152175178180185191作出其散點圖如下:200180160140Y1201008060404080120160200240280X總體回歸方程(線):由于假定EU0,因此因變量的均值與自變量總處于一條直線上,這條直線EY|XX就稱為總體回歸線(方程)。總體回歸方程的求法:以例1的數據為例1)對第一個X,求出E(YX)o每周收入(X)每周消費支出(Y)E(YX)8055606570756510056707480858877120978490949889140089395103

3、10811311510116002110711011611812511318010111512013013514012520020113614014414513722035113714015215716016214924011451551651751891612372601152175178180185191173|50由于EYi|Xi01Xi,因此任意帶入兩個X和其對應的E(Y|X)值,即可求出和1,弁進而得到總體回歸方程。如將X2100,EY2|X277和X7200,EY7|X7137代入7701001017EYJXi。陽可得:1370200110.6以上求出0和1反映了E(YX)和X之間

4、的真實關系,即所求的總體回歸方程為:EYilXi170.6Xi,其圖形為:樣本回歸模型:總體通常難以得到,因此只能通過抽樣得到樣本數據。如在例1中,通過抽樣考察,我們得到了20個家庭的樣本數據:每周收入(X)每周消費支出(Y)80551006570120798414080931601021071101801102001201362201351373240260137150145152175那么描述樣本數據中因變量Y和自變量X之間非確定依賴關系的模型YX?e就稱為樣本回歸模型。樣本回歸方程(線):通過樣本數據估計出?,得到樣本觀測值的擬合值與解釋變量之間的關系方程Y?X?稱為樣本回歸方程。如下圖

5、所四者之間的關系:i:總體回歸模型建立在總體數據之上,它描述的是因變量Y和自變量X之間的真實的非確定型依賴關系;樣本回歸模型建立在抽樣數據基礎之上,它描述的是因變量Y和自變量X之間的近似于真實的非確定型依賴關系。這種近似表現在兩個方面:一是結構參數?是其真實值的一種近似估計;二是殘差e是隨機誤差項U的一個近似估計;ii:總體回歸方程是根據總體數據得到的,它描述的是因變量的條件均值E(YX)與自變量X之間的線性關系;樣本回歸方程是根據抽樣數據得到的,它描述的是因變量Y樣本預測值的擬合值Y?與自變量X之間的線性關系iii:回歸分析的目的是試圖通過樣本數據得到真實結構參數的估計值,弁要求估計結果?足

6、夠接近真實值。由于抽樣數據有多種可能,每一次抽樣所得到的估計值?都不會相同,即的估計量?是一個隨機變量。因此必須選擇合適的參數估計方法,使其具有良好的統計性質。2、隨機誤差項U存在的原因:非重要解釋變量的省略人的隨機行為數學模型形式欠妥歸弁誤差(如一國GDP勺計算)測量誤差等3、多元回歸模型的基本假定隨機誤差項的期望值為零E(UJ0隨機誤差項具有同方差性Var(Ui)2i1,2,|,n隨機誤差項彼此之間不相關Cov(Ui,Uj)0ij;i,j1,2,|,n解釋就變量方,4,Xk為確定型變量,與隨機誤差項彼此不相關。Cov(Xj,Uj)0i1,2,|,kj1,2,|,n解釋就變量X1,X2,Xk

7、之間不存在精確的(完全的)線性關系,即解釋變量的樣本觀測值矩陣X為滿秩矩陣:rank(X)=k+1n隨機誤差項服從正態分布,即:uiN(0,2),i=1,2,n步驟二、參數估計知識點:1、最小二乘估計的基本原理:殘差平方和最小化。2、參數估計量:?xiyi-12一元回歸:xi?0Y?iX多元回歸:?XX1XTY3、最小二乘估計量的性質(Gauss-Markov定理):在滿足基本假設的情況下,最小二乘估計量?是的最優線性無偏估計量(BLUE估計量)步驟三、模型檢驗1、經濟計量檢驗(后三章內容)2、統計檢驗擬合優度檢驗知識點:i:擬合優度檢驗的作用:檢驗回歸方程對樣本點的擬合程度ii:擬合優度的檢

8、驗方法:計算(調整的)樣本可決系數R2/R22RSSESS2ESS/nk1R1,R1TSSTSSTSS/n1注意掌握離差平方和、回歸平方和、殘差平方和之間的關系以及它們的自由度。計算方法:通過方差分析表計算方差來源符號計算公式自由度.)均方值(MSS離差平TSSYiY2n-1一2/Yiy/n6方和-1回歸平方和RSSYY2k2y?Y/k殘差平方和ESSYY2n-k-1YiY?2/n-k-1例2:下表列出了三變量(二元)模型的回歸結果:方差來源平方和(SS)自由度均方值離差平方和TSS6604214回歸平方和RSS65965殘差平方和ESS1)樣本容量為多少解:由于TSS的自由度為n-1,由上表

9、知n-1=14,因此樣本容量n=152)求ESS解:由于TSS=ESS+RSS故ESS=TSS-RSS=773) ESS和RSS的自由度各為多少解:對三變量模型而言,k=2,故ESS的自由度為n-k-1=12RSS的自由度為k=24) 求R2和R2解:R2RSSTSS6596566042O.88,R2ESS/nk10.9986TSS/n1回歸方程的顯著性檢驗(F檢驗)目的:檢驗模型中的因變量與自變量之間是否存在顯著的線性關系步驟:1、提出假設:H0:12.k0H1:至少有一j0,j1,2,.,k2、構造統計量:FRSS/kF(k,nk1)ESS/nk13、給定顯著性水平,確定拒絕域FFk,nk

10、14、計算統計量值,弁判斷是否拒絕原假設例3:就例2中的數據,給定顯著性水平1%,對回歸方程進行顯著性檢驗。解:由于統計量值FRSS/k型型5140.13,ESS/nk177/12又F0.012,126.93,而F5140.13F0.012,126.93故拒絕原假設,即在1%勺顯著性水平下可以認為回歸方程存在顯著的線性關系。附:R2與F檢驗的關系:-RSSRSSRRSS由于TSSESSRSS22ESSRSS/k2R2/k_21R/nk1ESS/nk1解釋變量的顯著性檢驗(t檢驗)目的:檢驗模型中的自變量是否對因變量存在顯著影響。知識點:2多元回歸:s?JG1i其中Ci1,為xX1中位于第i+1

11、行i,nk1,和i+1列的元素;一元回歸:S?Ie2X22,S?Ie220nn2x21n2x:變量顯著性檢驗的基本步驟:1、提出假設:H0:i0H1:i0?2、構造統計量:t/t(nk1)s?i3、給定顯著性水平,確定拒絕域|tt及”k1)4、計算統計量值,弁判斷是否拒絕原假設例4:根據19個樣本數據得到某一回歸方程如下:Y?58.90.2X10.1X2se(0.0092)(0.084)試在5%勺顯著性水平下對變量X1和X2的顯著性進行檢驗。解:由于t(nk1)t0.025(16)2.12,故t檢驗的拒絕域為t2.121對自變量X1而言,其t統計量值為t-02-21.742.12,落入S?0.

12、00921拒絕域,故拒絕10的原假設,即在5%勺顯著性水平下,可以認為自變量X1對因變量有顯著影響;對自變量X2而言,其t統計量值為t工41.192.12,未落入S?J0.084拒絕域,故不能拒絕20的原假設,即在5%勺顯著性水平下,可以認為自變量X2對因變量Y的影響弁不顯著。回歸系數的置信區間目的:給定某一置信水平1,構造某一回歸參數的一個置信區間,使落在該區間內的概率為1基本步驟:?1、構造統計建t-L-t(nk1)S?i2、給定置信水平1,查表求出水平的雙側分位數t$nk1)3、求出i的置信度為1的置信區間?it/2S?,?t/2S?ii例5:根據例4的數據,求出1的置信度為95%勺置信

13、區間。解:由于b.025(16)2.12,故1的置信度為95%勺置信區間為:0.22.120.0092,0.22.120.00920.18,0.223、經濟意義檢驗目的:檢驗回歸參數的符號及數值是否與經濟理論的預期相符。例6:根據26個樣本數據建立了以下回歸方程用于解釋美國居民的個人消費支出:Y?10.960.93X12.09X2t(3.33)(249.06)(3.09)R20.9996其中:Y為個人消費支出(億元);X為居民可支配收入(億元);Xz為利率(%1) 先驗估計?和?2的符號;解:由于居民可支配收入越高,其個人消費水平也會越高,因此預期自變量X回歸系數的符號為正;而利率越高,居民儲

14、蓄意愿越強,消費意愿相應越低,因此個從消費支出與利率應該存在負相關關系,即3應為102) 解釋兩個自變量回歸系數的經濟含義;解:?i0.93表示,居民可支配收入每增加1億元,其個人消費支出相應會增加億元,即居民的邊際消費傾向MP&;22.09表示,利率提高1個百分點,個人消費支出將減少億元。截距項表示居民可支配收入和利率為零時的個人消費支出為億元,沒有明確的經濟含義。3)檢驗1是否顯著不為1;(5%)解:1)提出假設:H0:11Hi:112)構造統計量:t3)給定顯著性水平5%,查表得t/2(nk1)t0.025(23)2.07,故拒絕2.074)計算統計量值:由于t(?)1S?1S?1?10

15、.93-4-0.003734t(?1)249.06設。即在解:2)3)域為t4)0.0718.752.07,0.003734落入拒絕域。故拒絕11的原假5%勺顯著性水平下,可認為邊際消費傾向4)檢驗2顯否顯著不為零;1)提出假設:H0:20H1:5%)構造統計量:t給定顯著性水平2.07MPO著不為1。-t(nk1)S?25%,查表得t/2(nk1)t0.025(23)2.07,故拒絕計算統計量值:由于t(G)3.092.07,落入拒絕域,故拒絕原假11設。即在5%勺顯著性水平下,可以認為2顯著異于零。5)計算良2值;解:由于R21ESS/nk11ESSnTSS/n1TSSnk261110.9

16、9960.9995726216)計算每個回歸系數的標準差;S?0t(?0)10.963.333.29解:由于t(?)US?fS?1t(?)S?1t(?)0.93249.060.00373S?2t(?2)2.093.090.67647)給出2置信水平為95%勺置信區間;解:由于?2.09,S?0.6764,t皿QB)2.07,故2置信水平為95%勺置信區間為2.092.070.6764,2.092.070.6764-3.49,-0.698)對回歸方程進行顯著性檢驗;解:提出假設:H0:120H1:1或20構造統計量FRSS/kESS/nk一F(k,n11)確定拒絕域:FF(k.nk1)F0.05

17、Q,23)3.42計算統計量弁進行判斷:由于FR2/k1R2/nk109996/20.0004/2328738.53.42故拒絕原假設,即在5%勺顯著性水平下認為回歸方程的線性關系顯著成立。12步驟四:經濟預測點預測:毛X。?可以看著是Y的條件均值EY0|X。和個別值Y。的預測值,分別稱為均值預測和個值預測;性質:Y?X。?是E丫。|X。和Y。的一個無偏估計量。區間預測:均值EYo|X。的區間預測預測步驟:1)確定統計量:t丫。E丫。1X。t(nk1)SY其中與3:二X。XX1X。0.nk12)給定置信水平1,確定EYo|X。的預測區間為:Y。t/2(nk1)SY?,Y。t/2(nk1)Sy?個值Yo的區間預測預測步驟:1)確定統計量:t亙丫t(nk1)SeoSeo其中Seo,n;112)給定置信水平11XoXXXoYOt/2(nk1)Seo,YO,確定Yo的預測區間為:t/2(nk1)Seo13作業:為解釋某地對酒的消費,根據20年的樣本數據得到了如下回歸方程:Y?0.0140.354X10.018X20.657X30.059X4其中:Y:每一成年人每年對酒的消費量(升);Xi:酒類的平均價格(元);X2:個人可支配收入(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論