




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
(優選)第六相關與回歸分析當前1頁,總共83頁。學習目標1、理解相關關系的概念2、掌握一元線性回歸的基本原理和參數估計及模型檢驗的基本方法3、了解多元線性與曲線回歸的分析方法4、利用回歸方程進行估計和預測5、用Excel
進行回歸分析當前2頁,總共83頁。第一節相關關系概述當前3頁,總共83頁。一、變量間的關系當前4頁,總共83頁。(一)函數關系1、反映變量之間一一對應的確定關系。2、設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x
,當變量x取某個數值時,
y依確定的關系取相應的值,則稱y是x的函數,記為y=f(x),其中x稱為自變量,y稱為因變量3、各觀測點落在一條線上
xy當前5頁,總共83頁。函數關系
(幾個例子)函數關系的例子某種商品的銷售額y與銷售量x之間的關系可表示為y=px(p為單價)圓的面積S與半徑之間的關系可表示為S=R2
企業的原材料消耗額y與產量x1
、單位產量消耗x2
、原材料價格x3之間的關系可表示為
y=x1x2x3
當前6頁,總共83頁。(二)相關關系
(correlation)變量間之間不嚴格的數量依存關系。一個變量的取值不能由另一個變量唯一確定。當變量
x取某個值時,變量y的取值可能有幾個。各觀測點不在一條線上。
xy當前7頁,總共83頁。相關關系
(幾個例子)相關關系的例子父親身高y與子女身高x之間的關系收入水平y與受教育程度x之間的關系居民消費支出y與收入x之間的關系商品銷售額y與廣告費支出x之間的關系居民儲蓄余額y與收入x之間的關系當前8頁,總共83頁。
二、相關關系的種類單相關1、按相關的形式分為:線性相關非線性相關2、按所研究的變量多少分為:復相關3、按相關的方向分為:正相關負相關4、按相關的程度分為:完全相關不完全相關不相關當前9頁,總共83頁。不同相關形式散點圖
(scatterdiagram)不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關當前10頁,總共83頁。三、相關關系分析的方法當前11頁,總共83頁。(一)相關分析相關分析主要用于測定具有相關關系的變量之間相互關系的密切程度。是回歸分析的基礎。分析方法主要有:繪制散點圖、編制相關表、計算相關系數或相關指數等。當前12頁,總共83頁。(二)回歸分析
(Regression)研究具有相關關系的變量值之間一般的數量變動關系,即自變量發生變化時,因變量平均會發生多大的變化。通過建立回歸方程進行分析。回歸方程除可用于研究相關變量之間的一般數量變動關系外,還常用于進行預測。當前13頁,總共83頁。回歸模型的類型當前14頁,總共83頁。第二節相關分析當前15頁,總共83頁。一、相關表和相關圖當前16頁,總共83頁。相關表與相關圖
(概念要點)1、相關表和相關圖是研究相關關系的直觀工具。一般在進行詳細的定量分析之前,可以利用它們對現象之間存在的相關關系的方向、形式和密切程度做大致的判斷。2、相關表是一種反映變量之間相關關系的統計表。3、相關圖又稱散點圖:用來反映變量之間相關關系的圖形。當前17頁,總共83頁。相關表
(例6.1)家庭編號12345678910可支配收入25186045628892997598可支配收入18254560627588929899
10各家庭收入和消費的原始資料計量單位:百元
消費和收入相關表計量單位:百元消費支出20154030426065705378消費支出15203040425360657870當前18頁,總共83頁。
散點圖
(例6.2)當前19頁,總共83頁。二、相關系數及其檢驗當前20頁,總共83頁。(一)相關系數及其計算當前21頁,總共83頁。
相關系數
(correlationcoefficient)用于測度變量之間線性相關關系密切程度的度量值(指標)。對兩個變量之間線性相關程度的度量稱為單相關系數。若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為,若是根據樣本數據計算的,則稱為樣本相關系數,記為r當前22頁,總共83頁。相關系數
(計算公式)
樣本相關系數的計算公式或化簡為當前23頁,總共83頁。相關系數
(取值及其意義)
r
的取值范圍是[-1,1]
|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負正相關
r=0,不存在線性相關關系
-1r<0,為負相關
0<r1,為正相關
|r|越趨于1表示關系越密切;|r|越趨于0表示關系越不密切當前24頁,總共83頁。相關系數
(取值及其意義)-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加當前25頁,總共83頁。相關系數
(密切程度的判斷標準)當r=0時,不存在線性相關關系當0﹤|r|≦0.3時,為弱度相關當0.3﹤|r|≦0.5時,為低度相關當0.5﹤|r|≦0.8時,為中度相關0.8﹤|r|﹤1時,為高度相關當|r|
=1時,為完全相關
當前26頁,總共83頁。相關系數
(例題分析)
[例6.3]一位心理學家搜集了10名工人的智商值和勞動生產率資料如表6-3所示。根據表中的資料計算智商值和勞動生產率之間的相關系數r如下:當前27頁,總共83頁。表6-3相關系數計算表樣本序號智商值x勞動生產率(件/小時)yx2y2xy11105.21210027.0457221206.0144003672031306.31690039.6981941265.71587632.49718.251224.81488423.04585.661214.21464117.64508.271033.01060993098982.996048.41284.29802.764007.2921610973.2940910.24310.4合計110744.0124823.0210.845042.6當前28頁,總共83頁。相關系數的顯著性檢驗當前29頁,總共83頁。相關系數的顯著性檢驗
(r
的抽樣分布)r的抽樣分布隨總體相關系數和樣本量的大小而變化。
當為較大的正值時,r呈現左偏分布;當為較小的負值時,r呈現右偏分布。只有當接近于0,而樣本容量n很大時,才能認為r是接近于正態分布的隨機變量具體表現為:當前30頁,總共83頁。1-10=0.1r
的抽樣分布P接近0時樣本相關系數r的分布當前31頁,總共83頁。1r
的抽樣分布-10=0.8P接近1時樣本相關系數r的分布當前32頁,總共83頁。1-10=-0.8r
的抽樣分布P接近-1時樣本相關系數r的分布當前33頁,總共83頁。相關系數的顯著性檢驗
(檢驗的步驟)1. 檢驗兩個變量之間是否存在線性相關關系由于對r的正態性假設具有很大的風險,因此通常情況下,不采用正態檢驗,而采用提出的t檢驗,該檢驗可用于小樣本,也可用于大樣本。檢驗的步驟為:提出假設:H0:;H1:0
計算檢驗的統計量:
確定顯著性水平,并作出決策若t>t,拒絕H0
若t<t,不能拒絕H0當前34頁,總共83頁。相關系數的顯著性檢驗
(例題分析)對[例6.3]智商值與勞動生產率之間的相關系數進行顯著性檢(0.05)提出假設:H0:;H1:0計算檢驗的統計量3.根據顯著性水平=0.05,查t分布表得t(n-2)=2.306由于t=4.921>t(10-2)=2.306,拒絕H0,智商值與勞動生產率之間存在著顯著的正線性相關關系當前35頁,總共83頁。第三節一元線性回歸當前36頁,總共83頁。一、一元線性回歸函數與模型當前37頁,總共83頁。一元線性回歸函數一元線性回歸模型總體樣本(一)一元線性回歸函數與模型的數學表達式
式中:0是回歸直線在y軸上的截距,是當x=0時y的期望值。1是直線的斜率,稱為回歸系數,表示當x每變動一個單位時,y的平均變動值。當前38頁,總共83頁。XYX1X2X3X4(二)一元線性回歸函數與模型意義的圖形解釋當前39頁,總共83頁。(三)一元線性回歸模型的基本假定1.誤差項u是一個期望值為0的正態分布隨機變量,即2.對于所有的x值,u的方差σ2都相同,即3.對于一個特定的x值,它所對應的u與其他x值所對應的u不相關。即4.對于一個特定的x值,它所對應的y值與其他x所對應的y值也不相關當前40頁,總共83頁。XYX1X2X3X4回歸模型基本假定的圖形解釋當前41頁,總共83頁。(四)樣本回歸方程與總體回歸方程的聯系與區別聯系:樣本回歸方程與總體回歸方程具有相同的形式,且樣本回歸模型是作為總體回歸模型的估計而存在的。區別:1、總體回歸線是未知的,且只有一條。而樣本回歸線則是根據樣本數據擬合的,每抽取一個樣本,便可以擬合一條回歸線。2、總體回歸方程中的參數是未知的,但它是確定的。而樣本回歸方程中的參數是隨機變量,隨樣本的不同而不同。3、總體回歸模型中的ui是(因變量實際觀測值)Yi與總體回歸線之間的縱向距離,它是不可直接觀測的。而樣本回歸模型中ei是Yi與樣本回歸線之間的縱向距離,當根據樣本數據擬合出樣本回歸線之后,可以計算出ei的具體數值。當前42頁,總共83頁。二、模型參數的估計當前43頁,總共83頁。(一)回歸系數的估計
—最小二乘估計使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關系與實際數據的誤差比其他任何直線都小當前44頁,總共83頁。最小二乘估計
(圖示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^當前45頁,總共83頁。最小二乘法
(
和的計算公式)
根據最小二乘法的要求,可得求解和的公式如下當前46頁,總共83頁。最小二乘法
(例題分析)【例6.4】一項調查得到9個家庭的月收入和存款數據如表7-4,用最小而乘法建立回歸方程如下:回歸方程為:回歸系數為0.1017,表示收入每增加1千元,家庭存款額平均增加0.1017千元
當前47頁,總共83頁。當前48頁,總共83頁。用Excel繪制回歸直線當前49頁,總共83頁。(二)總體方差的估計
此外,S2的正平方根也叫做回歸估計的標準差。S越小,回歸線的代表性越強,否則相反。
總體方差(б2)是檢驗模型時,必須利用的一個重要參數,可以反映理論模型誤差的大小。由于б2本身不能直接觀測,因而需要用∑et2(最小二乘殘差)來估計б2。
可以證明б2的無偏估計為:當前50頁,總共83頁。三、回歸模型的檢驗當前51頁,總共83頁。1、經濟理論檢驗經濟理論檢驗主要涉及估計值的符號和取值區間。2、統計檢驗(一級檢驗)統計檢驗是利用統計學中的抽樣理論檢驗樣本回歸方程的可靠性,包括擬合優度檢驗和顯著性檢驗。3、計量經濟學檢驗(二級檢驗)計量經濟學檢驗是對標準回歸方程的假定條件能否得到滿足進行檢驗。(一)模型檢驗的內容當前52頁,總共83頁。(二)模型擬合優度檢驗當前53頁,總共83頁。
擬合優度檢驗是檢驗樣本回歸方程對樣本觀測值代表性大小。衡量這一問題的指標稱為可決系數(決定系數),其公式為:
(RegressionSumofSquare)(ResidualSumofSquare)(TotalDeviationSumofSquare)1、概念及公式當前54頁,總共83頁。變差的分解
(圖示)xyy{}}當前55頁,總共83頁。離差平方和的分解
(三個平方和的關系)SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{當前56頁,總共83頁。離差平方和的分解
(三個平方和的意義)總平方和(SST)反映因變量的n個觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和當前57頁,總共83頁。2、可決系數r2
的特性(1)具有非負性(2)r2的值越接近1,SSR越接近SST,即說明回歸方程對實際觀測值的擬合程度愈好,否則相反。(3)可決系數是樣本觀測值的函數,它也是一個隨機變量。(4)可決系數的平方根為相關系數,用公式表示為:
當前58頁,總共83頁。可決系數r2
(例題分析)
根椐【例6.4】計算月收入與存款額回歸的判定系數,并解釋其意義
計算結果表明,存款額的總變差中,有96.6%可以由家庭月收入與存款額之間的關系來解釋,只有3%屬于隨機因素的影響。因此,上述擬合的是合適的。當前59頁,總共83頁。(三)顯著性檢驗當前60頁,總共83頁。顯著性檢驗(概念要點)
回歸分析中的顯著性檢驗包括兩方面的內容:一是對各回歸系數的顯著性檢驗;對于回歸系數的顯著性檢驗通常采用t檢驗。二是對整個回歸方程的顯著性檢驗。對回歸方程的顯著性檢驗則是在方差分析的基礎上采用F檢驗。當前61頁,總共83頁。回歸系數的檢驗
(概念要點)2.檢驗x與y之間是否具有線性關系,或者說,檢驗自變量x對因變量y的影響是否顯著3.理論基礎是回歸系數
的抽樣分布,
1.就是根據樣本估計的結果對總體回歸系數的是否為0進行假設檢驗。當前62頁,總共83頁。回歸系數的檢驗
(的分布)1.
是根據最小二乘法求出的樣本統計量,它是一個隨機變量,有自己的分布2.的分布具有如下性質分布形式:正態分布數學期望:標準差:由于未知,需用其估計量sy來代替得到的估計標準差當前63頁,總共83頁。回歸系數的檢驗
(檢驗步驟)提出假設H0:b1=0(沒有線性關系)H1:b1
0(有線性關系)計算檢驗的統計量
確定顯著性水平,并進行決策t>t,拒絕H0;t<t,不能拒絕H00當前64頁,總共83頁。回歸系數的檢驗
(例題分析)對例題的回歸系數進行顯著性檢驗(=0.05)提出假設H0:b1=0H1:b1
0計算檢驗的統計量
t=14.956>t=2.365,拒絕H0,表明家庭月收入與存款額之間有線性關系,收入是影響存款的顯著因素。當前65頁,總共83頁。四、利用樣本回歸方程進行預測當前66頁,總共83頁。利用樣本回歸方程進行預測根據自變量x
的取值估計或預測因變量y的取值估計或預測的類型點估計y的平均值的點估計y的個別值的點估計區間估計y的平均值的置信區間估計y的個別值的預測區間估計當前67頁,總共83頁。(一)點估計當前68頁,總共83頁。點估計
(概念要點)2.點估計值有y的平均值的點估計y的個別值的點估計在點估計條件下,平均值的點估計和個別值的的點估計是一樣的,但在區間估計中則不同對于自變量x的一個給定值x0
,根據回歸方程得到因變量y的一個估計值當前69頁,總共83頁。
y的平均值的點估計利用估計的回歸方程,對于自變量x的一個給定值x0
,求出因變量y
的平均值的一個估計值E(y0),就是平均值的點估計在前面的例子中,假如我們要估計收入為25千元時,所有家庭存款額的平均值,就是平均值的點估計。根據估計的回歸方程得當前70頁,總共83頁。y的個別值的點估計利用估計的回歸方程,對于自變量x的一個給定值x0
,求出因變量y
的一個個別值的估計值,就是個別值的點估計例如,如果我們只是想知道月收入為20千元的那個家庭(這里是編號為9的那個家庭)的存款額是多少,則屬于個別值的點估計。根據估計的回歸方程得當前71頁,總共83頁。(二)區間估計當前72頁,總共83頁。區間估計與預測點估計不能給出估計的精度,點估計值與實際值之間是有誤差的,因此需要進行區間估計對于自變量
x的一個給定值x0,根據回歸方程得到因變量y的一個估計區間區間估計有兩種類型均值的預測區間(confidenceintervalestimate)個別值的預測區間(predictionintervalestimate)當前73頁,總共83頁。均值的區間估計利用樣本回歸函數方程,對于自變量x的一個給定值x0
,求出因變量y
的平均值的估計區間,這一估計區間稱為置信區間(confidenceinterval)
E(y0)
在1-置信水平下的置信區間為式中:sy為估計標準誤差當前74頁,總共83頁。均值的區間估計
(例題分析)
【例6.5】求出月收入為25千元時,存款額95%置信水平下的置信區間
解:根據前面的計算結果,已知n=9,
sy=0.053,t(9-2)=2.365
置信區間為當月為25千元時,家庭存款額的平均值在0.1065千元到2.5271千元之間當前75頁,總共83頁。個別值的預測區間利用估計的回歸方程,對于自變量x的一個給定值x0
,求出因變量y
的一個個別值的估計區間,這一區間稱為預測區間(predictioninterval)
y0在1-置信水平下的預測區間為注意!當前76頁,總共83頁。預測區間估計
(例題分析)【例6.6】求出月收入為20千元時,家庭存款額95%
置信水平下的預測區間
解:根據前面的計算結果,已知n=9,
sy=0.053,t(9-2)=2.356
置信區間為家庭月收入為20千元的那個家庭,其存款額的預測區間在0.6058千元到0.9531千元之間當前77頁,總共83頁。影響區間寬度的因素置信水平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中建施工方案流程詳解
- 項目管理中的可持續發展理念實踐試題及答案
- 2025年注冊會計師備考時間分配試題及答案
- 財務報表披露中的常見合規問題試題及答案
- 2024項目管理資格的考試重點與趨勢分析試題及答案
- 2024年項目管理復習策略試題及答案
- 礦區塑膠跑道施工方案
- 證券從業資格證考試監測試題及答案
- 2024項目管理考試復習試題及答案
- 2025年注會備考的自我監督與激勵機制試題及答案
- 科目余額表(匯總)
- 園林植物的識別與應用-裸子植物的識別與應用
- 河南輕工職業學院單招《職業技能測試》參考試題庫(含答案)
- 職業生涯規劃與個人職業發展培訓課件
- NB-T 47015-2011(JB-T 4709) 壓力容器焊接規程
- 建立世界貿易組織協定(中英)
- 智能桌椅商業計劃書
- 供應商年度評價內容及評分表
- 公務車輛定點加油服務投標方案(技術標)
- 泵檢驗標準及方法
- 水土保持學試卷 答案
評論
0/150
提交評論