




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
會計學1第3章多元線性回歸3.1多元線性回歸模型一、多元線性回歸模型的一般形式
對n組觀測數據(xi1,xi2,…,xip;yi),i=1,2,…,n,線性回歸模型表示為:第1頁/共58頁3.1多元線性回歸模型一、多元線性回歸模型的一般形式
寫成矩陣形式為:y=Xβ+ε,其中,第2頁/共58頁3.1多元線性回歸模型二、多元線性回歸模型的基本假定
1.解釋變量x1,x2,…,xp是確定性變量,不是隨機變量,且要求rk(X)=p+1<n。表明設計矩陣X中的自變量列之間不相關,X是一滿秩矩陣。第3頁/共58頁3.1多元線性回歸模型二、多元線性回歸模型的基本假定
2.隨機誤差項具有0均值和等方差,即這個假定稱為Gauss-Markov條件第4頁/共58頁3.1多元線性回歸模型二、多元線性回歸模型的基本假定
3.正態分布的假定條件為:用矩陣形式(3.5)式表示為:ε~N(0,s2In)第5頁/共58頁3.1多元線性回歸模型二、多元線性回歸模型的基本假定
在正態假定下:y~N(Xβ,s2In)E(y)=Xβ
var(y)=s2In
第6頁/共58頁3.1多元線性回歸模型三、多元線性回歸方程的解釋
y表示空調機的銷售量,x1表示空調機的價格,x2表示消費者可用于支配的收入。y=β0+β1x1+β2x2+εE(y)=β0+β1x1+β2x2
在x2保持不變時,有在x1保持不變時,有第7頁/共58頁3.1多元線性回歸模型三、多元線性回歸方程的解釋
考慮國內生產總值GDP和三次產業增加值的關系,
GDP=x1+x2+x3現在做GDP對第二產業增加值x2的一元線性回歸,得回歸方程第8頁/共58頁3.1多元線性回歸模型年份GDP第一產業增加值x1第二產業增加值x2第三產業增加值x3199018547.95017.07717.45813.5199121617.85288.69102.27227.0199226638.15800.011699.59138.6199334634.46882.116428.511323.8199446759.49457.222372.214930.0199558478.111993.028537.917947.2199667884.613844.233612.920427.5199774462.614211.237222.723028.7199878345.214552.438619.325173.5199982067.514472.040557.827037.7200089468.114628.244935.329904.6200197314.815411.848750.033153.02002105172.316117.352980.236074.82003117390.216928.161274.139188.02004136875.920768.172387.243720.6第9頁/共58頁3.1多元線性回歸模型三、多元線性回歸方程的解釋
建立GDP對x1和x2的回歸,得二元回歸方程=2914.6+0.607x1+1.709x2你能夠合理地解釋兩個回歸系數嗎?第10頁/共58頁3.2回歸參數的估計
一、回歸參數的普通最小二乘估計
最小二乘估計要尋找第11頁/共58頁3.2回歸參數的估計
一、回歸參數的普通最小二乘估計
第12頁/共58頁3.2回歸參數的估計
一、回歸參數的普通最小二乘估計
經整理后得用矩陣形式表示的正規方程組
移項得存在時,即得回歸參數的最小二乘估計為:第13頁/共58頁3.2回歸參數的估計
二、回歸值與殘差為回歸值
稱為帽子矩陣,其主對角線元素記為hii
,則第14頁/共58頁3.2回歸參數的估計
二、回歸值與殘差
此式的證明只需根據跡的性質tr(AB)=tr(BA),因而第15頁/共58頁3.2回歸參數的估計
二、回歸值與殘差
cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得
D(ei)=(1-hii)σ2,i=1,2,…,n第16頁/共58頁3.2回歸參數的估計
二、回歸值與殘差
是σ2的無偏估計
第17頁/共58頁3.2回歸參數的估計
三、回歸參數的最大似然估計
y~N(Xβ,σ2In)似然函數為等價于使(y-Xβ)′(y-Xβ)達到最小,這又完全與OLSE一樣第18頁/共58頁3.2回歸參數的估計
例3.1國際旅游外匯收入是國民經濟發展的重要組成部分,影響一個國家或地區旅游收入的因素包括自然、文化、社會、經濟、交通等多方面的因素,本例研究第三產業對旅游外匯收入的影響。《中國統計年鑒》把第三產業劃分為12個組成部分,分別為x1農林牧漁服務業,x2地質勘查水利管理業,x3交通運輸倉儲和郵電通信業,x4批發零售貿易和餐飲業,x5金融保險業,x6房地產業,x7社會服務業,x8衛生體育和社會福利業,x9教育文化藝術和廣播,x10科學研究和綜合藝術,x11黨政機關,x12其他行業。采用1998年我國31個省、市、自治區的數據,以國際旅游外匯收入(百萬美元)為因變量y,以如上12個行業為自變量做多元線性回歸,數據見表3.1,其中自變量單位為億元人民幣。第19頁/共58頁3.2回歸參數的估計
第20頁/共58頁3.3參數估計量的性質
性質1
是隨機向量y的一個線性變換。性質2
是β的無偏估計。
第21頁/共58頁3.3參數估計量的性質
第22頁/共58頁3.3參數估計量的性質
當p=1時
第23頁/共58頁3.3參數估計量的性質
性質4Gauss-Markov定理預測函數是的線性函數
Gauss-Markov定理
在假定E(y)=Xβ,D(y)=σ2In時,β的任一線性函數的最小方差線性無偏估計(BestLnearUnbiasedEstimator簡記為BLUE)為c′,其中c是任一p+1維向量,是β的最小二乘估計。第24頁/共58頁3.3參數估計量的性質
第一,取常數向量c的第j(j=0,1,…,n)個分量為1,其余分量為0,這時G-M定理表明最小二乘估計是βj的最小方差線性無偏估計。第二,可能存在y1,y2,…,yn的非線性函數,作為的無偏估計,比最小二乘估計的方差更小。第三,可能存在的有偏估計量,在某種意義(例如均方誤差最小)下比最小二乘估計更好。第四,在正態假定下,是的最小方差無偏估計。也就是說,既不可能存在y1,y2,…,yn的非線性函數,也不可能存在y1,y2,…,yn的其它線性函數,作為的無偏估計,比最小二乘估計方差更小。第25頁/共58頁3.3參數估計量的性質
性質5cov(,e)=0此性質說明與e不相關,在正態假定下等價于與e獨立,從而與獨立。性質6
在正態假設(1)(2)第26頁/共58頁3.4回歸方程的顯著性檢驗
一、F檢驗
H0:β1=β2=…=βp=0SST=SSR+SSE
當H0成立時服從第27頁/共58頁3.4回歸方程的顯著性檢驗
一、F檢驗
方差來源自由度平方和均方F值P值回歸殘差總和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(F>F值)=P值第28頁/共58頁3.4回歸方程的顯著性檢驗
二、回歸系數的顯著性檢驗
H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)記(X'X)-1=(cij)i,j=0,1,2,…,p構造t統計量
其中第29頁/共58頁3.4回歸方程的顯著性檢驗
二、回歸系數的顯著性檢驗(剔除x1)第30頁/共58頁3.4回歸方程的顯著性檢驗
二、回歸系數的顯著性檢驗
第31頁/共58頁3.4回歸方程的顯著性檢驗
二、回歸系數的顯著性檢驗
從另外一個角度考慮自變量xj的顯著性。y對自變量x1,x2,…,xp線性回歸的殘差平方和為SSE,回歸平方和為SSR,在剔除掉xj后,用y對其余的p-1個自變量做回歸,記所得的殘差平方和為SSE(j),回歸平方和為SSR(j),則自變量xj對回歸的貢獻為ΔSSR(j)=SSR-SSR(j),稱為xj的偏回歸平方和。由此構造偏F統計量第32頁/共58頁3.4回歸方程的顯著性檢驗
二、回歸系數的顯著性檢驗
當原假設H0j
:βj=0成立時,(3.42)式的偏F統計量Fj服從自由度為(1,n-p-1)的F分布,此F檢驗與(3.40)式的t檢驗是一致的,可以證明Fj=tj2第33頁/共58頁3.4回歸方程的顯著性檢驗
三、回歸系數的置信區間可得βj的置信度為1-α的置信區間為:第34頁/共58頁3.4回歸方程的顯著性檢驗四、擬合優度
決定系數為:
y關于x1,x2,…,xp的樣本復相關系數第35頁/共58頁3.5中心化和標準化
一、中心化
經驗回歸方程經過樣本中心將坐標原點移至樣本中心,即做坐標變換:回歸方程轉變為:回歸常數項為第36頁/共58頁3.5中心化和標準化
二、標準化回歸系數
當自變量的單位不同時普通最小二乘估計的回歸系數不具有可比性,例如有一回歸方程為:其中x1的單位是噸,x2的單位是公斤第37頁/共58頁3.5中心化和標準化
二、標準化回歸系數
樣本數據的標準化公式為:得標準化的回歸方程第38頁/共58頁3.5中心化和標準化
二、標準化回歸系數
標準化回歸系數第39頁/共58頁3.6相關陣與偏相關系數
一、樣本相關陣自變量樣本相關陣
增廣的樣本相關陣為:
第40頁/共58頁3.6相關陣與偏相關系數
一、樣本相關陣YX1X2X3X4X5X6X7X8X9X10X11X12Y1.0000.2600.3420.5800.4790.5180.5300.7410.3790.5750.6730.2570.038X10.2601.0000.6400.6910.7380.5820.5190.6630.6910.7190.1500.7580.301X20.3420.6401.0000.7730.6580.5020.4640.6020.6600.6860.1180.7600.337X30.5800.6910.7731.0000.9340.7420.7100.8850.8670.8890.3140.8550.457X40.4790.7380.6580.9341.0000.7800.7430.8870.9260.8920.3480.8490.437X50.5180.5820.5020.7420.7801.0000.9890.7400.7900.8500.6300.7050.515X60.5300.5190.4640.7100.7430.9891.0000.7030.7530.8210.6460.6660.493X70.7410.6630.6020.8850.8870.7400.7031.0000.7810.8340.5410.6490.190X80.3790.6910.6600.8670.9260.7900.7530.7811.0000.9310.4040.9060.548X90.5750.7190.6860.8890.8920.8500.8210.8340.9311.0000.5690.8950.533X100.6730.1500.1180.3140.3480.6300.6460.5410.4040.5691.0000.2410.155X110.2570.7580.7600.8550.8490.7050.6660.6490.9060.8950.2411.0000.613X120.0380.3010.3370.4570.4370.5150.4930.1900.5480.5330.1550.6131.000第41頁/共58頁3.6相關陣與偏相關系數
二、偏判定系數
當其他變量被固定后,給定的任兩個變量之間的相關系數,叫偏相關系數。
偏相關系數可以度量p+1個變量y,x1,x2,xp之中任意兩個變量的線性相關程度,而這種相關程度是在固定其余p-1個變量的影響下的線性相關。
第42頁/共58頁3.6相關陣與偏相關系數
二、偏判定系數
偏判定系數測量在回歸方程中已包含若干個自變量時,再引入某一個新的自變量后y的剩余變差的相對減少量,它衡量y的變差減少的邊際貢獻。第43頁/共58頁3.6相關陣與偏相關系數
二、偏判定系數
以x1表示某種商品的銷售量,
x2表示消費者人均可支配收入,
x3表示商品價格。從經驗上看,銷售量x1與消費者人均可支配收入x2之間應該有正相關,簡單相關系數r12應該是正的。但是如果你計算出的r12是個負數也不要感到驚訝,這是因為還有其它沒有被固定的變量在發揮影響,例如商品價格x3在這期間大幅提高了。反映固定x3后x1與x2相關程度的偏相關系數r12;3會是個正數。第44頁/共58頁3.6相關陣與偏相關系數
1.兩個自變量的偏判定系數二元線性回歸模型為:yi=β0+β1xi1+β2xi2+εi記SSE(x2)是模型中只含有自變量x2時y的殘差平方和,SSE(x1,x2)是模型中同時含有自變量x1和x2時y的殘差平方和。因此模型中已含有x2時再加入x1使y的剩余變差的相對減小量為:此即模型中已含有x2時,y與x1的偏判定系數。第45頁/共58頁3.6相關陣與偏相關系數
1.兩個自變量的偏判定系數同樣地,模型中已含有x1時,y與x2的偏判定系數為:第46頁/共58頁3.6相關陣與偏相關系數
2.一般情況在模型中已含有x2,…,xp時,y與x1的偏判定系數為:第47頁/共58頁3.6相關陣與偏相關系數
三、偏相關系數
偏判定系數的平方根稱為偏相關系數,其符號與相應的回歸系數的符號相同。
例3.2
研究北京市各經濟開發區經濟發展與招商投資的關系,因變量y為各開發區的銷售收入(百萬元),選取兩個自變量,
x1為截至1998年底各開發區累計招商數目,
x2為招商企業注冊資本(百萬元)。表中列出了至1998年底招商企業注冊資本x2在5億至50億元的15個開發區的數據。第48頁/共58頁3.6相關陣與偏相關系數
三、偏相關系數
北京開發區數據x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.12第49頁/共58頁3.6相關陣與偏相關系數
三、偏相關系數
偏相關系數表第50頁/共58頁3.6相關陣與偏相關系數
三、偏相關系數
用y與x1做一元線性回歸時,x1能消除y的變差SST的比例為再引入x2時,x2能消除剩余變差SSE(X1)的比例為因而自變量x1和x2消除y變差的總比例為=1-(1-0.651)(1-0.546)=0.842=84.2%。這個值84.2%恰好是y對x1和x2二元線性回歸的判定系數R2第51頁/共58頁3.6相關陣與偏相關系數
三、偏相關系數
對任意p個變量x1,x2,…,xp定義它們之間的偏相關系數其中符號Δij表示相關陣第i行第j列元素的代數余子式驗證第52頁/共58頁3.7本章小結與評注
例3.3中國民航客運量的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京市延慶區2025屆高三下學期2月一模試題 物理(含答案)
- 河北省衡中清大教育集團2025年高三第二學期期中考試物理試題試卷含解析
- 建東職業技術學院《專業英語B》2023-2024學年第一學期期末試卷
- 廊坊市廣陽區2025年小升初素養數學檢測卷含解析
- 湖北省黃石市育英高級中學2025屆高三第二學期高考生物試題模擬試卷含解析
- 日喀則地區定日縣2025年三下數學期末教學質量檢測試題含解析
- 沈陽體育學院《水土保持工程學》2023-2024學年第二學期期末試卷
- 四川省達州市重點中學2025屆高三第四次聯合測試卷語文試題文試卷含解析
- 山東省青島市市南區重點達標名校2025屆初三第三次質量預測生物試題試卷含解析
- 云南省麗江市古城中學2024-2025學年第二學期高三第二次模擬考試語文試題含解析
- 山東省日照市東港區2023-2024學年六年級下學期期中數學試題
- 李豐黃金K線理論詳解
- MOOC 家庭與社區教育-南京師范大學 中國大學慕課答案
- 癌癥的一病一品
- 初中一年級下學期期末考試語文試卷含答案(人教版)
- 合作商務方案
- 檔案數字化培訓課件
- 母與子性可行性報告
- 口腔行業人效分析
- 人工智能教育在中小學班級管理中的應用策略
- 華為QSA審核報告
評論
0/150
提交評論