第2章 簡單線性回歸模型_第1頁
第2章 簡單線性回歸模型_第2頁
第2章 簡單線性回歸模型_第3頁
第2章 簡單線性回歸模型_第4頁
第2章 簡單線性回歸模型_第5頁
已閱讀5頁,還剩88頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計量經濟學基礎第二章簡單線性回歸模型1第二章簡單線性回歸模型

本章主要討論:

●回歸分析與回歸函數●簡單線性回歸模型參數的估計●擬合優度的度量●回歸系數的區間估計和假設檢驗●回歸模型預測2第一節回歸分析與回歸方程本節基本內容:

●回歸與相關●總體回歸函數●隨機擾動項●樣本回歸函數

3

1.經濟變量間的相互關系

◆確定性的函數關系◆不確定性的統計關系—相關關系

(ε為隨機變量)◆沒有關系一、回歸與相關

(對統計學的回顧)42.相關關系◆相關關系的描述

相關關系最直觀的描述方式——坐標圖(散點圖)

5

◆相關關系的類型

從涉及的變量數量看

簡單相關多重相關(復相關)

從變量相關關系的表現形式看

線性相關——散布圖接近一條直線非線性相關——散布圖接近一條曲線

從變量相關關系變化的方向看

正相關——變量同方向變化,同增同減負相關——變量反方向變化,一增一減不相關6

3.相關程度的度量—相關系數

總體線性相關系數:

其中:——X

的方差;

——Y的方差

——X和Y的協方差樣本線性相關系數:其中:和分別是變量

和的樣本觀測值和分別是變量和樣本值的平均值7

●和都是相互對稱的隨機變量●

線性相關系數只反映變量間的線性相關程度,不能說明非線性相關關系●

樣本相關系數是總體相關系數的樣本估計值,由于抽樣波動,樣本相關系數是個隨機變量,其統計顯著性有待檢驗●

相關系數只能反映線性相關程度,不能確定因果關系,不能說明相關關系具體接近哪條直線

計量經濟學關心:變量間的因果關系及隱藏在隨機性后面的統計規律性,這有賴于回歸分析方法

使用相關系數時應注意84.回歸分析回歸的古典意義:高爾頓遺傳學的回歸概念

(父母身高與子女身高的關系)回歸的現代意義:一個應變量對若干解釋變量依存關系的研究回歸的目的(實質):由固定的解釋變量去估計應變量的平均值9●

的條件分布

當解釋變量

取某固定值時(條件),

的值不確定,

的不同取值形成一定的分布,即

的條件分布。●

的條件期望

對于

的每一個取值,對

所形成的分布確定其期望或均值,稱為

的條件期望或條件均值

注意幾個概念10

●回歸線:

對于每一個

的取值,都有

的條件期望與之對應,代表這些

的條件期望的點的軌跡所形成的直線或曲線,稱為回歸線。回歸線與回歸函數11

回歸函數:應變量的條件期望隨解釋變量的變化而有規律的變化,如果把的條件期望表現為的某種函數這個函數稱為回歸函數。回歸函數分為:總體回歸函數和樣本回歸函數舉例:假如已知100個家庭構成的總體。

回歸線與回歸函數12每月家庭可支配收入

X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每960121013101432183510682319248828563201月125913401520188520662321258729003288家132414001615194321852365265030213399庭1448165020372210239827893064消1489171220782289248728533142費1538177821792313251329343274支160018412298239825383110出17021886231624232567

Y1900238724532610201224982487271025892586900115014001650190021502400265029003150例:100個家庭構成的總體(單位:元)13

1.總體回歸函數的概念

前提:假如已知所研究的經濟現象的總體應變量

和解釋變量

的每個觀測值,可以計算出總體應變量

的條件均值,并將其表現為解釋變量

的某種函數

這個函數稱為總體回歸函數(PRF)二、總體回歸函數(PRF)14

(1)條件均值表現形式

假如

的條件均值是解釋變量

的線性函數,可表示為:

(2)個別值表現形式

對于一定的,

的各個別值分布在的周圍,若令各個與條件均值的偏差為,顯然是隨機變量,則有

2.總體回歸函數的表現形式15●實際的經濟研究中總體回歸函數通常是未知的,只能根據經濟理論和實踐經驗去設定。“計量”的目的就是尋求PRF。●總體回歸函數中

的關系可是線性的,也可是非線性的。對線性回歸模型的“線性”有兩種解釋

就變量而言是線性的

——

的條件均值是

的線性函數

就參數而言是線性的

——

的條件均值是參數

的線性函數

3.如何理解總體回歸函數16

變量、參數均為“線性”

參數“線性”,變量”非線性”變量“線性”,參數”非線性”計量經濟學中:

線性回歸模型主要指就參數而言是“線性”,因為只要對參數而言是線性的,都可以用類似的方法估計其參數。“線性”的判斷17三、隨機擾動項◆概念:

各個值與條件均值的偏差代表排除在模型以外的所有因素對

的影響。◆性質:是期望為0有一定分布的隨機變量重要性:隨機擾動項的性質決定著計量經濟方法的選擇18

未知影響因素的代表●

無法取得數據的已知影響因素的代表●

眾多細小影響因素的綜合代表●

模型的設定誤差●

變量的觀測誤差●

變量內在隨機性引入隨機擾動項的原因19四、樣本回歸函數(SRF)

樣本回歸線:

對于的一定值,取得的樣本觀測值,可計算其條件均值,樣本觀測值條件均值的軌跡稱為樣本回歸線。

樣本回歸函數:如果把應變量的樣本條件均值表示為解釋變量的某種函數,這個函數稱為樣本回歸函數(SRF)。

20SRF的特點●每次抽樣都能獲得一個樣本,就可以擬合一條樣本回歸線,所以樣本回歸線隨抽樣波動而變化,可以有許多條(SRF不唯一)。

SRF2SRF121●樣本回歸函數的函數形式應與設定的總體回歸函數的函數形式一致。●樣本回歸線還不是總體回歸線,至多只是未知總體回歸線的近似表現。22

樣本回歸函數如果為線性函數,可表示為

其中:是與相對應的的樣本條件均值和分別是樣本回歸函數的參數應變量的實際觀測值不完全等于樣本條件均值,二者之差用表示,稱為剩余項或殘差項:

或者樣本回歸函數的表現形式23

對樣本回歸的理解

如果能夠獲得和的數值,顯然:●和是對總體回歸函數參數和的估計●是對總體條件期望的估計●

在概念上類似總體回歸函數中的,可視為對的估計。24

樣本回歸函數與總體回歸函數的關系

SRF

PRF

A

25

回歸分析的目的

用樣本回歸函數SRF去估計總體回歸函數PRF。由于樣本對總體總是存在代表性誤差,SRF總會過高或過低估計PRF。要解決的問題:尋求一種規則和方法,使得到的SRF的參數和盡可能“接近”總體回歸函數中的參數和。這樣的“規則和方法”有多種,最常用的是最小二乘法26第二節

簡單線性回歸模型的最小二乘估計

本節基本內容:●簡單線性回歸的基本假定●普通最小二乘法●OLS回歸線的性質●參數估計式的統計性質27

一、簡單線性回歸的基本假定

1.為什么要作基本假定?

●模型中有隨機擾動,估計的參數是隨機變量,只有對隨機擾動的分布作出假定,才能確定所估計參數的分布性質,也才可能進行假設檢驗和區間估計●只有具備一定的假定條件,所作出的估計才具有較好的統計性質。28

(1)對模型和變量的假定如假定解釋變量是非隨機的,或者雖然是隨機的,但與擾動項

是不相關的假定解釋變量

在重復抽樣中為固定值假定變量和模型無設定誤差2、基本假定的內容29又稱高斯假定、古典假定假定1:零條件均值假定

在給定的條件下,的條件期望為零(2)對隨機擾動項

的假定3031假定2:同方差假定在給定的條件下,的條件方差為某個常數(2)對隨機擾動項

的假定323334

假定3:無自相關假定

隨機擾動項的逐次值互不相關

353637

假定4:隨機擾動與解釋變量不相關

38

假定5:對隨機擾動項分布的正態性假定即假定服從均值為零、方差為的正態分布

(說明:正態性假定不影響對參數的點估計,但對確定所估計參數的分布性質是需要的。且根據中心極限定理,當樣本容量趨于無窮大時,的分布會趨近于正態分布。所以正態性假定是合理的)39的分布性質由于的分布性質決定了的分布性質。對的一些假定可以等價地表示為對的假定:

假定1:零均值假定假定2:同方差假定假定3:無自相關假定假定5:正態性假定40

◆OLS的基本思想●不同的估計方法可得到不同的樣本回歸參數和,所估計的也不同。●理想的估計方法應使與的差即剩余越小越好●因可正可負,所以可以取最小即二、普通最小二乘法(OrdinaryLeastSquares)

41

正規方程和估計式

用克萊姆法則求解得觀測值形式的OLS估計式:

取偏導數為0,得正規方程42

為表達得更簡潔,或者用離差形式OLS估計式:

注意其中:而且樣本回歸函數可寫為

用離差表現的OLS估計式43三、OLS回歸線的性質可以證明:●回歸線通過樣本均值●估計值的均值等于實際觀測值的均值

44●剩余項的均值為零●應變量估計值與剩余項不相關

●解釋變量與剩余項不相關

45

四、參數估計式的統計性質(一)參數估計式的評價標準

1.無偏性前提:重復抽樣中估計方法固定、樣本數不變、經重復抽樣的觀測值,可得一系列參數估計值參數估計值的分布稱為的抽樣分布,密度函數記為如果,稱是參數

的無偏估計式,否則稱是有偏的,其偏倚為(見圖1.2)46圖1.2估計值偏倚

概率密度47前提:樣本相同、用不同的方法估計參數,可以找到若干個不同的估計式

目標:努力尋求其抽樣分布具有最小方差的估計式——最小方差準則,或稱最佳性準則(見圖1.3)

既是無偏的同時又具有最小方差的估計式,稱為最佳無偏估計式。2.最小方差性48概率密度

圖1.3估計值49

4.漸近性質(大樣本性質)

思想:當樣本容量較小時,有時很難找到最佳無偏估計,需要考慮樣本擴大后的性質一致性:

當樣本容量

n

趨于無窮大時,如果估計式依概率收斂于總體參數的真實值,就稱這個估計式是

的一致估計式。即或

漸近有效性:當樣本容量n趨于無窮大時,在所有的一致估計式中,具有最小的漸近方差。

(見圖1.4)50概率密度

估計值

圖1.451(二)

OLS估計式的統計性質●

由OLS估計式可以看出

由可觀測的樣本值和唯一表示。●

因存在抽樣波動,OLS估計是隨機變量●

OLS估計式是點估計式521.線性特征

是的線性函數

2.無偏特性

3.最小方差特性

在所有的線性無偏估計中,OLS估計具有最小方差結論:在古典假定條件下,OLS估計式是最佳線性無偏估計式(BLUE)

OLS估計式的統計性質——高斯定理53第三節擬合優度的度量本節基本內容:●什么是擬合優度●總變差的分解●可決系數54

一、什么是擬合優度?

概念:樣本回歸線是對樣本數據的一種擬合,不同估計方法可擬合出不同的回歸線,擬合的回歸線與樣本觀測值總有偏離。樣本回歸線對樣本觀測數據擬合的優劣程度

——擬合優度擬合優度的度量建立在對總變差分解的基礎上55二、總變差的分解

分析Y的觀測值、估計值與平均值的關系將上式兩邊平方加總,可證得

(TSS)(ESS)(RSS)

56

總變差(TSS):應變量Y的觀測值與其平均值的離差平方和(總平方和)

解釋了的變差(ESS):應變量Y的估計值與其平均值的離差平方和(回歸平方和)

剩余平方和(RSS):應變量觀測值與估計值之差的平方和(未解釋的平方和)57

變差分解的圖示58

三、可決系數以TSS同除總變差等式兩邊:或

定義:回歸平方和(解釋了的變差ESS)在總變差(TSS)中所占的比重稱為可決系數,用表示:

59作用:可決系數越大,說明在總變差中由模型作出了解釋的部分占的比重越大,模型擬合優度越好。反之可決系數小,說明模型對樣本觀測值的擬合程度越差。特點:●可決系數取值范圍:●隨抽樣波動,樣本可決系數是隨抽樣而變動的隨機變量●可決系數是非負的統計可決系數的作用和特點60可決系數與相關系數的關系(1)聯系

數值上,可決系數等于應變量與解釋變量之間簡單相關系數的平方:61可決系數與相關系數的關系可決系數相關系數就模型而言就兩個變量而言說明解釋變量對應變量的解釋程度度量兩個變量線性依存程度。度量不對稱的因果關系度量不含因果關系的對稱相關關系取值:[0,1]取值:[-1,1](2)區別62運用可決系數時應注意●可決系數只是說明列入模型的所有解釋變量對因變量的聯合的影響程度,不說明模型中每個解釋變量的影響程度(在多元中)●回歸的主要目的如果是經濟結構分析,不能只追求高的可決系數,而是要得到總體回歸系數可信的估計量,可決系數高并不表示每個回歸系數都可信任●如果建模的目的只是為了預測因變量值,不是為了正確估計回歸系數,一般可考慮有較高的可決系數63第四節

回歸系數的區間估計和假設檢驗本節基本內容:●OLS估計的分布性質●回歸系數的區間估計●回歸系數的假設檢驗64問題的提出

為什么要作區間估計?OLS估計只是通過樣本得到的點估計,不一定等于真實參數,還需要找到真實參數的可能范圍,并說明其可靠性。為什么要作假設檢驗?OLS估計只是用樣本估計的結果,是否可靠?是否抽樣的偶然結果?還有待統計檢驗。區間估計和假設檢驗都是建立在確定參數估計值概率分布性質的基礎上。65

一、OLS估計的分布性質基本思想

是隨機變量,必須確定其分布性質才可能進行區間估計和假設檢驗是服從正態分布的隨機變量,決定了也是服從正態分布的隨機變量,是的線性函數,決定了也是服從正態分布的隨機變量,只要確定的期望和方差,即可確定的分布性質66●的期望:(無偏估計)●的方差和標準誤差

(標準誤差是方差的算術平方根)

注意:以上各式中未知,其余均是樣本觀測值

的期望和方差67

可以證明的無偏估計為

(n-2為自由度,即可自由變化的樣本觀測值個數)對隨機擾動項方差的估計68

●在已知時將作標準化變換69

(1)當樣本為大樣本時,用估計的參數標準誤差對作標準化變換,所得Z統計量仍可視為標準正態變量(根據中心極限定理)(2)當樣本為小樣本時,可用代替,去估計參數的標準誤差,用估計的參數標準誤差對作標準化變換,所得的t統計量不再服從正態分布(這時分母也是隨機變量),而是服從t分布:

●當未知時

70二、回歸系數的區間估計概念:對參數作出的點估計是隨機變量,雖然是無偏估計,但還不能說明估計的可靠性和精確性,需要找到包含真實參數的一個范圍,并確定這個范圍包含參數真實值的可靠程度。在確定參數估計式概率分布性質的基礎上,可找到兩個正數δ和α(),使得區間包含真實的概率為,即

這樣的區間稱為所估計參數的置信區間。71

一般情況下,總體方差未知,用無偏估計去代替,由于樣本容量較小,統計量

t不再服從正態分布,而服從

t分布。可用t分布去建立參數估計的置信區間。

回歸系數區間估計的方法72選定α,查t分布表得顯著性水平為

,自由度為

的臨界值,則有即73三、回歸系數的假設檢驗1.假設檢驗的基本思想為什么要作假設檢驗?所估計的回歸系數、和方差都是通過樣本估計的,都是隨抽樣而變動的隨機變量,它們是否可靠?是否抽樣的偶然結果呢?還需要加以檢驗。74

對回歸系數假設檢驗的方式計量經濟學中,主要是針對變量的參數真值是否為零來進行顯著性檢驗的。目的:對簡單線性回歸,判斷解釋變量是否是被解釋變量

的顯著影響因素。在一元線性模型中,就是要判斷是否對具有顯著的線性影響。這就需要進行變量的顯著性檢驗。

75一般情況下,總體方差未知,只能用去

代替,可利用t分布作t檢驗給定,查

t分布表得▼如果或者則拒絕原假設,而接受備擇假設▼如果則接受原假設2.回歸系數的檢驗方法76

P用P值判斷參數的顯著性假設檢驗的p值:p值是基于既定的樣本數據所計算的統計量,是拒絕原假設的最低顯著性水平。統計分析軟件中通常都給出了檢驗的p值統計量t由樣本計算的統計量為:相對于顯著性水平的臨界值:或注意:t檢驗是比較和P值檢驗是比較和p與相對應與P相對應77

用P值判斷參數的顯著性假設檢驗的p

值:p

值是根據既定的樣本數據所計算的統計量,拒絕原假設的最小顯著性水平。統計分析軟件中通常都給出了檢驗的p

值。78方法:將給定的顯著性水平與

值比較:?若值,則在顯著性水平下拒絕原假設,即認為

有顯著影響?若值,則在顯著性水平下接受原假設,即認為

沒有顯著影響規則:當時,

值越小,越能拒絕原假設用P值判斷參數的顯著性的方法79

本節主要內容:

●回歸分析結果的報告

●被解釋變量平均值預測

●被解釋變量個別值預測第五節

回歸模型預測80一、回歸分析結果的報告

經過模型的估計、檢驗,得到一系列重要的數據,為了簡明、清晰、規范地表述這些數據,計量經濟學通常采用了以下規范化的方式:例如:回歸結果為

標準誤差SEt統計量可決系數和自由度81

二、被解釋變量平均值預測1.基本思想●運用計量經濟模型作預測:指利用所估計的樣本回歸函數,用解釋變量的已知值或預測值,對預測期或樣本以外的被解釋變量數值作出定量的估計。●計量經濟預測是一種條件預測:

條件:◆模型設定的關系式不變

◆所估計的參數不變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論