線性回歸的基本思想_第1頁
線性回歸的基本思想_第2頁
線性回歸的基本思想_第3頁
線性回歸的基本思想_第4頁
線性回歸的基本思想_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章 線性回歸的基本思想:雙變量線性回歸(也稱為一元回歸)本章目的:介紹一元線性回歸的基本思想和最小二乘法,的估計及檢驗要求:掌握回歸的含義、總體回歸方程、隨機誤差項、樣本回歸函數、殘差項、最小二乘法、正規方程的含義;掌握一元回歸最小二乘估計量的證明,會運用OLS估計量公式得到回歸方程。教學時數:4學時第一節 一些重要概念一、總體回歸直線(PRF)和樣本回歸直線(SRF)第一節我們學習了消費函數模型:案例:假設一個村莊人口總體由60戶家庭組成,研究每周家庭消費支出(Y)和每周稅后可支配收入(X)之間的關系。這樣我們如果知道每周的家庭收入,即可預測每周消費支出的總體平均水平。數據如下: XY8

2、0100120140160180200220240280每周家庭消費支出50606570756570748085887984909498809395103108113115102107110116118125110115120130135140120136140144145135137140152157160162137145155165175189150152175178180185191合計平均325654627744589707101678113750125685137104314996616112111731、 模型完整寫成:,隨機誤差項:是不可觀測的隨機事件,當80時,-15、-10

3、、0、5、15, 我們假設:,所以直線表示的是收入為時,收入決定的消費的平均值。 :我們為了簡便假設為確定型變量2、總體回歸直線(population Regression line)、總體回歸函數總體回歸函數:總體回歸直線:其中 ,表示回歸系數;表示截距項;表示斜率系數。3、PRF的隨機設定由上例子可以知道,對于每個家庭的消費支出并不一定收入成正比,把個別的消費圍繞的與期望的偏差表述如下:則4、隨即干擾項的意義:除X外的所因素(1)可能代表了模型中并未包括的變量的影響。如上例中,家庭中的兒童數、性別、宗教、教育和地區。 我們為什么在模型中不把這些變量也包括呢?這是節省原則,也就是說模型的要簡

4、單。這些變量,有的是對因變量的解釋能力不大,不重要;另一方面是我們沒其數據。(2)人類行為的內在隨機性也一定會發生。人類行為是理性的,也不可以完全可預測。(3)隨機誤差項可能代表了測量誤差:數據處理中產生的誤差。(4)錯誤的函數形式。二、樣本回歸函數(SPF) 在上一節中,我們學習參數估計的公式,結果是多少:、1、PRF是一個理想化的概念,實際上人們很少知道他們所研究的總體。(1) 總體的數據不可能全部得到(2) 也不需要知道全部信息2、樣本回歸線:用樣本得出的估計樣本當我們的例子中的60是總體,現在如果我們只有10個數據,而得出的如上面的值那么這條f(x)= (1)樣本回歸線:,叫做的預測值

5、 (2),:一個樣本,一個結果從算法來講是隨機變量。三、要點:總體回歸函數、樣本回歸函數第二節 一元線性回歸模型的估計原理(最小二乘法)一、 最小二乘法(OLS):如何估計,的的公式1、原理:殘差平方和最小 我們是通過樣本來得到總體回歸方程,的估計:樣本回歸方程。其中,叫做的估計值,如果,對,估計得準確,則對估計也準確。(1)由準確估計的方法:殘差最小 定義:或-(),表示樣本點到擬合點B的距離。(2)殘差最小的方法: 和最小:直接相加,如圖L1和L0的殘差和應是一樣的。 平方和最小:正、負全部相加 , Q= 問:Q的大小由什么決定?(樣本已知,已定)2、參數的推導程:求當=的、 ()可得()

6、上述式子稱為正規方程組。簡記為:最后可解得:()3、化簡 設可將()化簡為:()()和()給出的估計量稱為最小二乘估計量(OLSE)注:的化簡過程: 問題:1、和一樣嗎?前者是最小二乘法的要求,后者是n個的和。 2、和均值: (-)+,() 所以:+(-),兩邊求和取平均即得。3、 減 4、的含義:當收入是時平均對消費的影響,個別由決定。二、對誤差項的假定假定1:假定2:=常數 同方差假定假定3: 序列相關假定上述三個假定稱為GM假定,即高斯馬爾可夫假定;假定4:只要是非隨機變量,就有反之不成立。假定1和4書上寫成一個假定5、問題:1、假設1真實嗎? 。如果,則令 這和原模型有多少區別呢? 2

7、、同方差的含義:不同收入水平對消費的影響程度是一樣的,而實際上一般是隨X的增大而增大。 3、有了這些假定你對和的關系模型是還有哪些疑問?線性也是一個假定。三、估計量的統計性質(BLUE: best linear unbiased estimator)1線性。所謂線性是指估計式和為的函數。(1)為的線性函數:= =請同學們證明又因為 ,令,則 =();由于可以證明+注:由減+得,把代入,可得。(但) (2)同理可求得: = () - 也可以得出: =2、無偏性。所謂無偏性是指估計量和的均值等于總體回歸參數和證明: =因為 ,所以3、最小方差性.這里所說的方差最小是指在無偏估計類中方差最小。這里可

8、以先推導出參數估計量和的方差,不用證明可以得到: () ()證明:設是有別于的線性無偏估計量=,+, 設 =注:綜上所述 ,OLS估計量具有線性、無偏性和最小方差性,這三條性質又稱為BLUE性質。這一性質稱為高斯馬爾科夫定理。附:證明 由 = 4、方差與精度:估計量的方差越小,精度越高 (1)可知X的樣本越大越好。(2)由,解釋變量的數據越小方差越小,這就是要把數據取對數的一個道理。樣本越大越好。5、和的關系 這意味著估計過高則就估計過低。注:,則- 所以:-(-)6、,是隨機變量:只有隨機變量才有期望和方差。案例:某地區居民的每月收入(X)和每月的消費支出(Y)的樣本數據如表(2)XYXY8

9、070180115100652001201209022014014095240155160110260150由上述表格數據可以計算得:, 設回歸方程為:, ,,,第三節 回歸模型的統計檢驗一、樣本決定系數及回歸直線擬合優度的檢驗 根據變量X和Y的樣本觀測值應用最小二乘法求得了回歸直線方程。但是這條回歸直線到底在多大程度上擬和了觀測值?擬合:樣本點逼近樣本回歸線的程度1、總離差平方和的分解我們有恒等式 :(=)兩邊平方并求和:由正規方程中和得到 于是有: ()稱為總離差平方和,記為TSS:Total sum of square 稱為回歸平方和,記為ESS: Explained sum of sq

10、uare 稱為殘差平方和,記為RSS:Residual sum of square總離差平方和=回歸平方和殘差平方和2、樣本決定系數:“擬合優度”的度量 (1)首先,殘差殘差平方和小就意味著,逼近,擬合得好,也就是X對Y的解釋能力強。(用最小二乘法來估計、時,對已知的一個樣本相對于其它方法來說,殘差平方和是最小的。)但是不同的回歸方程,我們如何來比較擬合高低,那個方程的X對Y真正有解釋能力呢?比較相對殘差平方和的大小, 圖:給定一個樣本,總離差是固定的,說明總離差分解為兩個部分,ESS歸于回歸直線,RSS歸于隨機因素,RSS小,來自回歸的ESS就大擬合就好。從回歸平方和與殘差平方和的意義可以知

11、道,如果在總離差平方和中回歸平方和所占的比重越大,則線性回歸效果越好,也就是說回歸直線與樣本觀測值擬合優度就越好。(2)定義: ()所以,就可以來量度回歸線的擬和優度,表示回歸線對樣本點的解釋程度,0£ £1。(3)應注意:如果回歸中沒有截距項,不可能有,也就得不到離差分解公式,所以我們定義的只對有截距項的回歸有效。對沒有截距項的回歸的擬和優度的判斷應使用其它方法,同學們可以參考經濟計量學(古亞拉提著,中國人民大學出版社,1998年)的相應內容。 注:如沒有截距項,方程為殘差平方和Q=,求導只有(3)、樣本決定系數的相關公式 ()上式還可以寫成: ()對于第二節中的案例題,

12、我們可以計算得: =0.9621這說明每月的消費支出的離差中有96%可以用收入來解釋,既每月的消費支出96%取決于收入。3、樣本相關系數 下面我們介紹一個與樣本決定系數有密切關系但是又有區別的概念:樣本相關系數。由數理統計知識可以知道,兩個變量X和Y之間的相關程度用相關系數表示 ()由于總體X和Y的分布是未知的,就無法計算,因此自然的想法就是利用樣本觀測值給出的一個估計量, 這個估計量就是樣本相關系數。根據觀測值,定義: 為X、Y的樣本協方差;, ,分別叫做X和Y的樣本方差。定義樣本相關系數 ()當給定觀測值以后,利用()可計算樣本相關系數r,r可作為的一個估計值。比較()和()可以知道,樣本

13、相關系數和樣本決定系數在計算上是一致的,這樣可以由樣本決定系數得到相關系數 但是相關系數和樣本決定系數是兩個不同的概念。樣本決定系數是對變量作出回歸分析得出的,它是樣本觀測值擬合優度的一個數量指標。相關系數是對變量作相關分析得出的。二、 隨機項的方差的估計量 在第二節分析和的方差時,發現影響其方差的因素有隨機擾動項的方差。但它是不可觀測的。如何估計呢? 我們可以證明: ()可以作為的無偏估計量。證明如下:(本科可以不作要求)分析:把的平方轉化成及的平方,和的方差,則可建立與的關系 證明:設,所以 把回歸方程 化為又 又因為 所以 =所以 所以 ()注:我們經常把()記作: 三、回歸系數估計量的

14、顯著性檢驗 根據樣本值利用最小二乘法我們求出了回歸系數和的估計量和,如果,的方差不大,即估計的精度很高,但如果真實的0,0.001我們的工作有何作用,這時能說X對Y有解釋能力,即X和Y有顯著的線性關系嗎?因此作為的估計量必須進行顯著性檢驗,或者說使假設檢驗。檢驗0是否成立。 :01、假設檢驗:類似于反證法,是用樣本的結果,來證明一個虛擬假設()真偽的一種程序。虛是指不知是否正確的判斷。(1)例:這個同學是個共產黨員背景(規律):絕大多數的共產黨員為人民服務,正人君子,為人表率,事實(樣本):(有人發現)這個同學吃喝嫖賭,不上課,騙助學貸款結論:拒絕這人同學是真正共產黨員這個結論(2)小概率原理

15、(規律):在隨機變量的概率空間中,經常發生是大概率事件,隨機變量值接近其數學期望的那些事件;而那些概率接近于0的小概率事件在一次試驗中是不可能發生的。 :隨機變量E0,那么在一次試驗中,按最可能事件是的取值落在0附近的區域(畫一個正態分布圖),如果在這次偶然的試驗中100,落在了遠處,的情況沒有發生;由于小概率事件不可能在一次試驗中出現,只有一種解釋,不對。E比較大,所以100這樣的事件才會在一次試驗中出現。這叫拒絕。2、估計量和的概率分布 (1)由()和()我們可以知道: N ,N() N ()(2)由于表示了估計量接近真實值的程度,因此可以用表示的穩定性,要注意的是:含有,而是一個未知的變

16、量,要用代替。 所以 =,但N不成立了。3、參數的T統計量 (1)令:Tt(n-2) T其中:N ,自由度來自于RSS所以:Tt(n-2)同理:T t(n-2)(2)T分布:介紹書后的表,告訴取值的概率,單邊分布有單側的臨界值。 P(t>)=,或P(t<-)=,畫一圖:4、顯著性水平:小概率的值 : E()=0 (1)小概率的度量:考慮隨機變量的T分布,T在下,則T。通過概率分布圖可知,(圖)小概率事件為,一般取0.10,0.05,0.025,0.01。的含義:顯著性水平,越小,如果從一個樣本(一次試驗)計算出的T值落入這個范圍的概率就越小,這個事件就更不能發生,就更有把握地說,隨

17、機變量的期望不是0。而是比0大許多。(2)回歸T檢驗的臨界值:雙邊臨界值,兩邊加起來為,這個臨界值得從t分布表中查。由圖可以得出顯著性水平為雙側檢驗的臨界界值,是表中單邊檢驗概率/2的臨界值。(3)拒絕域:(,+)和(-,-)叫拒絕域。在下,T值落入拒絕域的概率為。5、檢驗過程 因為 所以 因此我們可以用T作為統計量進行t檢驗,其檢驗過程步驟如下:第一步 原假設: 備擇假設:第二步 計算統計量T第三步 給定檢驗水平,查自由度為n-2的t分布臨界值表。可以得到臨界值第四步 作出判斷如果,則接不拒絕原假設,認為X與Y線性關系不顯著如果,則接拒絕原假設,認為X與Y線性關系顯著6、自由度:是獨立數據的

18、個數。殘差平方和RSS有兩個參數、的約束,只有n-2個自由度。所以,有n-2個獨立數據,T,自然有n-2個自由度了。7、兩類錯誤:(1)第一類錯誤:拒絕時犯的錯誤拒真試驗事件,發生了,樣本t值落入了拒絕域,我們拒絕。這樣做一點風險也沒有嗎?聯想共產黨員的例子,我們知道在共產黨員中有極少數人如些。那么是共產黨員而又吃喝嫖賭的人概率是,這樣人出現我們就以的概率犯了錯誤。這個人真的是共產黨員,而我們拒絕了認為他不是,這叫拒真。我們把這類錯誤稱為第一類錯誤。所以,當我們拒絕時我們犯錯誤的概率為顯著水平。但由于很小,由于我們拒絕時出錯的概率小,所以當拒絕時應很堅決。(2)第二類錯誤:接受時犯的錯誤納偽如

19、共產黨的例了,這個同學如果真的為人表帥,我們就下他是共產黨員的結論合適嗎?(好人多的是)這時我們犯的錯誤的概率很大。當時,我們接受虛擬假設。T值落入接受域,就為0嗎?如(P19)圖,當t值落入接受域,我們認為它來自,所以接受。但些時,它可以來自其它均值不為0的總體,而這樣的分布有太多。所以我們犯錯誤的概率會相當大。所以,當時,我們接受虛擬假設,這很為難。我們應該說不拒絕,而不是接受它。由于,接受域很寬概率大,所以犯第二類錯誤的概率很大。但錯誤的概率不1- ,其大小依賴于樣本所在總體所決定的的真正分布。8、的正態假定:(1)假定的意義:保證Tt(n-2),T檢驗有效。(2)當正態假定不成立時的檢

20、驗:由+可得:T,根據中心極限定理當,T服從正態分布。而當樣本大,自由度大時,t分布和正態分布是很相近的。所以,當N>30時,T檢驗就認為比較有效。而N>100時,則認為很可靠。案例分析對于第二節中案例中,我們得到了: =24.4545,=0.50911、對做t檢驗 提出原假設原假設:;備擇假設:計算統計量 =14.2605>2.306因此拒絕原假設。認為存在線性關系。2、對做t檢驗 提出原假設原假設:;備擇假設:計算統計量 =3.8128>2.306因此拒絕原假設。認為存在線性關系注意,在一般情況下回歸函數經常寫成: 四、方程總體顯著性檢驗 由前面可以知道,利用它的樣

21、本值得出了回歸方程,我們的目的就是利用回歸方程對總體進行經濟分析和預測,回歸方程能否代表總體,即總體模型的設定是否顯著,必須進行檢驗。 由擬合優度可以知道,回歸平方和越大,殘差平方和越小,回歸直線和樣本點擬合的越好。利用樣本決定系數可以更清楚的說明這一點,我們的目的不僅在于判定樣本擬合優度,而是必須對總體作出判斷,即總體的線性是否顯著成立。1、分布 可以證明:F=2、檢驗的步驟第一步:原假設: 備擇假設: 第二步 計算統計量 第三步 給定檢驗水平,查自由度為(1,n-2)的F分布臨界值表。可以得到臨界值第四步 作出判斷如果,則接受原假設,認為X與Y線性關系不顯著如果,則接拒絕原假設,認為X與Y線性關系顯著3、F檢驗下的t檢驗當回歸模型只有一個解釋變量時二者的功效是一樣的,都可以用來檢驗,的顯著性。但當模型主多元模型時F檢驗是檢驗除截距項之外所有參數顯著性的聯合檢驗。4、F與判定系數 = 所以:,這說明當低時方程不一定不顯著,要看F值。此時只能說解釋變量能夠解釋的部分為,但這點能力是可信的。五、回歸參數的區間估計:以為例1、置信區間在點估計量的兩旁構造一個以100(1-)的概率包含真實參數的區間(范圍)。已知:T,P(-<t<)=P(-<<) =P(-<+)=1-。則顯著水平為時的置信區間為(-<+)2、區間(-&l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論