第五講 統計檢驗與預測_第1頁
第五講 統計檢驗與預測_第2頁
第五講 統計檢驗與預測_第3頁
第五講 統計檢驗與預測_第4頁
第五講 統計檢驗與預測_第5頁
已閱讀5頁,還剩28頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、5、參數估計的最大似然法和矩法、參數估計的最大似然法和矩法2?4、參數估計量的概率分布及隨機干擾項方差的估計、參數估計量的概率分布及隨機干擾項方差的估計10.5091 0.0823思考:在思考:在5%5%的顯著性水平下,若通過樣本得到了的顯著性水平下,若通過樣本得到了置信區間置信區間一個一個,如何解釋?,如何解釋?1答:給定置信系數95%,從長遠看,在類似于的固定區間含有真實值的概率不是1就是0。區間中,將有95個包含著真實的每100個的值;但這個特殊0823. 05091. 0一、參數的區間估計二、擬合優度檢驗 三、變量的顯著性檢驗 一、擬合優度檢驗一、擬合優度檢驗二、變量的顯著性檢驗二、變

2、量的顯著性檢驗三、條件均值與個別值的預測三、條件均值與個別值的預測對樣本回歸直線與樣本觀測對樣本回歸直線與樣本觀測值之間擬合程度的檢驗值之間擬合程度的檢驗。 回答回答樣本回歸直線對樣本觀測點擬合的多樣本回歸直線對樣本觀測點擬合的多么好的度量么好的度量 :判定系數判定系數(可決系數可決系數)R2 2 1 1、總離差平方和的分解、總離差平方和的分解 已知由一組樣本觀測值(Xi,Yi),i=1,2,n得到如下樣本回歸直線 iiXY10iiiiiiiyeYYYYYYy)()(Y的第的第i個觀測值可表述為個觀測值可表述為Y01iiiiiYXeYe 如果如果Yi=i 即實際觀測值落在樣本回歸即實際觀測值落

3、在樣本回歸“線線”上,則上,則擬合最好擬合最好。可認為,可認為,“離差離差”全部來自回歸線,而與全部來自回歸線,而與“殘差殘差”無關。無關。 對于所有樣本點,則需考慮這些點與樣本均值離差的平方和(兩邊取平方后求和)平方和(兩邊取平方后求和),可以證明(P34頁結論):記22)(YYyTSSii總離差平方和總離差平方和(Total Sum of Squares)22)(YYyESSii回歸平方和回歸平方和(Explained Sum of Squares)22)(iiiYYeRSS殘差平方和殘差平方和(Residual Sum of Squares )TSS=ESS+RSS Y的觀測值圍繞其均值

4、的的觀測值圍繞其均值的總離差總離差(total variation)可分解為兩部分:可分解為兩部分:一部分來自回歸線一部分來自回歸線(ESS),另一部,另一部分則來自隨機勢力分則來自隨機勢力(RSS)。在給定樣本中,TSS不變, 如果實際觀測點離樣本回歸線越近,則ESS在TSS中占的比重越大,因此 擬合優度擬合優度:回歸平方和:回歸平方和ESS/YESS/Y的總離差的總離差TSSTSSTSSRSSTSSESSR1記22、可決系數、可決系數R2 2統計量統計量 稱 R2 為(樣本)(樣本)可決系數可決系數/判定系數判定系數(coefficient of determination)。 可決系數可

5、決系數的取值范圍:取值范圍:0,1 。 R2 2越接近越接近1 1,說明實際觀測點離樣本線越近,擬,說明實際觀測點離樣本線越近,擬合優度越高合優度越高。在實際計算可決系數時,在1已經估計出后: 22212iiyxR 在例2.1.1的收入收入-消費支出消費支出例中, 9935. 033549557425000)670. 0(222212iiyxR 注:可決系數注:可決系數是一個非負的統計量。它也是是一個非負的統計量。它也是隨著抽樣的不同而不同。為此,對可決系數的統隨著抽樣的不同而不同。為此,對可決系數的統計可靠性也應進行檢驗,這將在第計可靠性也應進行檢驗,這將在第3章中進行。章中進行。 擬合優度

6、擬合優度0.9935說明說明X的變化可以解釋的變化可以解釋Y的的99.35%的變化。的變化。可決系數只是說明列入模型的可決系數只是說明列入模型的所有解釋變量對被解釋變所有解釋變量對被解釋變量的量的聯合聯合的影響程度,的影響程度,不說明模型中各解釋變量的單獨不說明模型中各解釋變量的單獨的影響程度(在多元中)的影響程度(在多元中)回歸分析的回歸分析的主要目的如果是經濟結構分析主要目的如果是經濟結構分析,不能只追求,不能只追求高的可決系數,而是要得到總體回歸系數可信的估計量。高的可決系數,而是要得到總體回歸系數可信的估計量。可決系數高并不一定每個系數都可信任。可決系數高并不一定每個系數都可信任。如果

7、建模的目的只是為了如果建模的目的只是為了預測被解釋變量的值預測被解釋變量的值,不是為,不是為了正確估計回歸系數,一般可考慮有較高的可決系數。了正確估計回歸系數,一般可考慮有較高的可決系數。 從擬合優度中看出,擬合優度越高,就說明樣本回歸線對觀測值的擬合就越好,但這只是推測,解解釋變量對被解釋變量是否有顯著的線性影響釋變量對被解釋變量是否有顯著的線性影響需要我們去研究,這就是變量的顯著性檢驗。 回歸分析中,主要是回歸分析中,主要是針對變量前的參數真值是否針對變量前的參數真值是否為零來檢驗。為零來檢驗。 先根據實際問題的要求提出一個論斷,稱為原假設,然后根據樣本信息,看能得到什么結果,如果導致一個

8、不合理的結果,拒絕原假設。 判斷結果合理與否,是基于判斷結果合理與否,是基于“小概小概率事件不易發生率事件不易發生”這一原理的。這一原理的。注意這里的注意這里的“接受和拒絕接受和拒絕” 2、變量的顯著性檢驗、變量的顯著性檢驗 ),(2211ixN)2(1112211ntSxti如果變量如果變量X是顯著的,那么參數是顯著的,那么參數 應該顯著的不為應該顯著的不為01 檢驗步驟:檢驗步驟: (1)對總體參數提出假設 H0: 1=0, H1:10(2)以原假設H0構造t統計量,并由樣本計算其值11St (3)給定顯著性水平,查t分布表,得臨界值t /2(n-2)(4) 比較,判斷若給定顯著性水平 ,

9、則雙側檢驗的臨界值為0) 2(2nt) 2(2ntt2t若|t| t /2(n-2),則拒絕H0,接受H1;(小概率事件發生)(小概率事件發生)若|t| t /2(n-2),則接受H0 ; 對于一元線性回歸方程中的0,可構造如下t統計量進行顯著性檢驗: )2(0022200ntSxnXtii在上述收入-消費支出例中,首先計算2的估計值 27342107425000670. 03354955222221222nxyneiii019. 00004. 07425000/2734221ixS45.44742500010/5365000027342220iixnXSt統計量的計算結果分別為: 給定顯著性

10、水平=0.05,查t分布表得臨界值 t 0.05/2(8)=2.306 |t1|2.306,說明家庭可支配收入在家庭可支配收入在95%95%的置信的置信度下顯著,即是消費支出的主要解釋變量;度下顯著,即是消費支出的主要解釋變量; |t0|2.306,表明在95%的置信度下,拒絕截距項為零的假設。 92.34019. 0670. 0111St20. 345.4440.142000St一個一個“大大”的的 是與虛擬假設相抵觸的跡象。是與虛擬假設相抵觸的跡象。t觀察觀察t分布表,當自由度為分布表,當自由度為20或更大時,計算的或更大時,計算的t值如果值如果是是2.5或或3或更大,則我們就不需要再查閱

11、或更大,則我們就不需要再查閱t分布表以評分布表以評定所估的參數的顯著性,它必定是要拒絕原假設,即定所估的參數的顯著性,它必定是要拒絕原假設,即該變量通過了顯著性檢驗。該變量通過了顯著性檢驗。當自由度小于當自由度小于20時,我們要查閱時,我們要查閱t分布表。分布表。 注意注意1: 注意注意2: 顯著性水平顯著性水平 犯第一類錯誤的概率犯第一類錯誤的概率拒絕了真值的假設的概率拒絕了真值的假設的概率 經典假設檢驗方法的痛處經典假設檢驗方法的痛處 選擇選擇 的武斷的武斷P值是根據既定的樣本數據所計算的統計量與相應自由度下查值是根據既定的樣本數據所計算的統計量與相應自由度下查到的臨界值比較,得到的臨界值

12、和計算的統計量一樣大或者更到的臨界值比較,得到的臨界值和計算的統計量一樣大或者更大的概率大的概率拒絕原假設的最小顯著性水平拒絕原假設的最小顯著性水平規則:規則:pp時,時,值越小,越能拒絕原假設。值越小,越能拒絕原假設。如果數據不支持原假設,則在原假設下得到的如果數據不支持原假設,則在原假設下得到的 值將會很值將會很t“大大”,得到這樣一個的,得到這樣一個的 值的值的p值就很值就很“小小”。t固定在一定的水平上固定在一定的水平上將將1111P 1112tt nse:給定顯著性水平給定顯著性水平 112211Pttse11整理可以得到整理可以得到的置信度下的置信度下的置信區間是的置信區間是111

13、122,t St S通過變量的顯著性通過變量的顯著性檢驗,我們知道檢驗,我們知道 由于置信區間一定程度地給出了樣本參數估計由于置信區間一定程度地給出了樣本參數估計值與總體參數真值的值與總體參數真值的“接近接近”程度,因此置信區間程度,因此置信區間越小越好。越小越好。 要縮小置信區間,需 (1 1)增大樣本容量)增大樣本容量n n,因為在同樣的置信水平下,n越大,t分布表中的臨界值越小 (2 2)提高模型的擬合優度)提高模型的擬合優度,因為樣本參數估計量的標準差與殘差平方和呈正比,模型擬合優度越高,殘差平方和應越小。111122,t St S2103.1720.77798.410.04251.0

14、4818.290.9766828591.85iiYXtRdfFDW 回歸分析結果的報告回歸分析結果的報告 經過模型的估計、檢驗,得到一系列重要的數經過模型的估計、檢驗,得到一系列重要的數據,為了簡明、清晰、規范的表述這些數據,計量據,為了簡明、清晰、規范的表述這些數據,計量經濟學通常采用以下規范化的方式:經濟學通常采用以下規范化的方式:標準誤差標準誤差SE估計的估計的t統計量統計量可決系數和自由度可決系數和自由度F統計量統計量 DW統計量統計量估計的樣本回歸函數估計的樣本回歸函數模型設定的關系式不變模型設定的關系式不變所估計的參數不變所估計的參數不變解釋變量在預測期的取值已作出預測解釋變量在預

15、測期的取值已作出預測PRFSRFFX點預測值點預測值真實平均值真實平均值FFE YX個別值個別值FYFFeFY是真實平均值預測值的點估計,也是個別值預測是真實平均值預測值的點估計,也是個別值預測值的點估計。值的點估計。u必須找出與必須找出與 和和 都有關的統計量都有關的統計量FYFFE YXu由于存在抽樣波動,預測的由于存在抽樣波動,預測的 值不一定等于真實總值不一定等于真實總體條件均值體條件均值 。FFE YXFY基本思想:基本思想:010101()()()()FFFFE YEXEX EX01FFYX2221FFiXXVar Ynx具體做法:從具體做法:從 的分布分析的分布分析FY)(1(,

16、(2202F10FixXXnXNYFE Y012221FFFiYXtt nXXnx22FFFFFYYYt SE Y XYt S于是,在1-的置信度下,總體均值總體均值 的置信區間為的置信區間為 FE Y X個別預測值的置信區間個別預測值的置信區間基本思想:基本思想:0Y是真實平均值的點估計,也是個別值的點估計。是真實平均值的點估計,也是個別值的點估計。由于存在隨機擾動項的影響,由于存在隨機擾動項的影響,Y的條件均值并不等于的條件均值并不等于Y的個別值。的個別值。為了對為了對Y的個別值的個別值 做區間預測,需要尋找與預測做區間預測,需要尋找與預測值值 和個別值和個別值 有關的統計量,并要明確其概

17、率有關的統計量,并要明確其概率分布。分布。0Y0Y0Y),(20100XNY于是于是 )(1(,(22020100ixXXnXNY 202200001xxXXVar YYVar YVar YnL具體做法:具體做法:已知殘差項已知殘差項 是與預測值是與預測值 和個別值和個別值 都都有關的變量,并且已知有關的變量,并且已知 服從正態分布服從正態分布000eYY0Y0Y0e)(11 (, 0(220200ixXXnNYY0e )2(0000ntSYYtYY式中 :)(11 (220200iYYxXXnS從而在1-的置信度下, 個別值Y0的置信區間的置信區間為 002020000YYYYStYYStY

18、Y的總體條件均值的預測值與真實的總體條件均值有誤差,主的總體條件均值的預測值與真實的總體條件均值有誤差,主要是受抽樣波動影響。要是受抽樣波動影響。 Y個別值的預測值與真實個別值的差異,不僅受抽樣波動個別值的預測值與真實個別值的差異,不僅受抽樣波動影響,而且還受隨機擾動項的影響。影響,而且還受隨機擾動項的影響。總體條件均值和個別值的預測區間都不是常數,是隨總體條件均值和個別值的預測區間都不是常數,是隨XF的變的變化而變化。化而變化。預測區間上下限與樣本容量有關,樣本容量預測區間上下限與樣本容量有關,樣本容量n越大,預測精度越大,預測精度越高,反之預測精度越低;當樣本容量越高,反之預測精度越低;當樣本容量n趨近于無窮時,個別趨近于無窮時,個別值的預測誤差只決定于隨機擾動項的方差。值的預測誤差只決定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論