




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章多元線性回歸模型2第一節多元回歸模型及基本假定
現實中引起被解釋變量變化的因素可能有很多個。
多元總體線性回歸模型的形式為
Yi=b1+
b2X2i+
b3X3i
+…
+bkXki
+ui一、多元線性回歸模型的形式3Yi=β1
+β2
X2i+β3
X3i+ui如二元線性回歸模型:被解釋變量截距項解釋變量隨機誤差項偏回歸系數(partialregressioncoefficients)4偏回歸系數的含義Yi=β1
+β2
X2i+β3
X3i+ui度量X3i保持不變的情況下,E(Y
|X2i,X3i)的變化,即β2度量X2i
的單位變化對Y均值的“直接”或“凈”影響。β3的含義呢?5若總體個數為n,則寫成矩陣形式:6即X稱為數據矩陣或設計矩陣。7二、古典假定假定1:零均值假定矩陣形式:8假定2:同方差假定假定3:無自相關假定統一成矩陣形式:9假定4:隨機擾動項與解釋變量不相關假定5:正態性假定,即假定6:解釋變量之間無多重共線性即各解釋變量的樣本觀測值之間線性無關,解釋變量的樣本觀測值矩陣的秩為參數個數,從而保證參數的估計值唯一。10
當總體觀測值難于得到時,回歸系數向量b是未知的,這時可以由樣本觀測值進行估計,可表示為但實際觀測值與計算值有偏差,記為:稱為多元樣本回歸函數。于是11分別稱為回歸系數估計值向量、剩余項或殘差向量、
Y的樣本估計值向量。12第二節多元回歸模型的估計設(Yi,X2i,X3i,…
,Xki)為第i個觀測樣本(i=1,2,…,n),一、參數的最小二乘估計要使殘差平方和其必要條件是于是13即或14將兩邊同時左乘得由無多重共線性假定,即可得參數向量b的最小二乘估計式的矩陣表達式對于只有兩個解釋變量的線性回歸模型的參數的最小二乘估計,書上給出了具體的代數表達式(P80)15回歸殘差為:設殘差平方和為Q
:令1617正規方程組(NormalEquation)18下面推導參數估計式公式:
即1920類似地于是21同理22(1)無偏性二、OLS估計式的統計性質23(3)最小方差性參數最小二乘估計是所有線性無偏估計量中方差最小的估計量。(2)線性性每個參數估計量是Yi
(i=1,2,…,n)的線性組合。
即在古典假定條件下,多元線性回歸模型的最小二乘估計是最佳線性無偏估計式。(BestLinearUnbiasedEstimator,BLUE)24
在古典假定條件下,三、OLS估計的分布性質而是Yi的線性函數,故它們也服從正態分布。
為了進行區間估計和假設檢驗,需要弄清參數估計量的分布。從而由無偏性25所以是矩陣中第j行第j列上的元素26四、隨機擾動項方差的估計
通常s2是未知的,參數估計量的無法計算,可以證明:是s2的無偏估計量。27五、參數的區間估計
當用代替s2時,給定顯著性水平a,查t分布自由度為n-k的臨界值t0,則回歸系數bj的置信度為1-
a的置信區間為:28例1
已知線性回歸模型
n=5,并且根據各個變量的數據計算出:
(1)求模型中三個參數的最小二乘估計;(保留二位小數)
(2)求估計參數的標準差的估計量。29解:(1)于是又30解:(2)又于是31第三節多元回歸模型的檢驗
為了從估計出的模型出發(即SRF),檢驗SRF對樣本觀測值的擬合程度。與簡單線性回歸一樣,考察在Y的總變差中由多個解釋變量作出了解釋的那部分比重。一、擬合優度檢驗32在中,TSS=RSS+ESS自由度:
n-1=(k-1)+(n-k)由于RankX=k,所以在中獨立的變量只有k個,又已知,故的自由度為k-1.33我們用回歸平方和(RSS)與總離差平方和(TSS)的比值表示二元回歸方程的擬合優度,稱為多重可決系數或多重判定系數即:=RSS+ESS34可用矩陣表示:P79(3.25)式:35由知當R2=1時,從而ei=0,這時,被解釋變量的總變差完全由解釋變量解釋。此時,從取得樣本看,樣本觀測值完全落在樣本回歸線上;當R2=0時,總變差完全不能由解釋變量解釋。R2越接近于1,擬合狀態越好。36所以可決系數也可表示為:37問題:
在多元線性回歸模型中增加一個解釋變量,殘差平方和一般會減小,從而可決系數會相應增大,那是不是解釋變量越多越好呢?事實上不是這樣,實際情況中,經濟現象是錯綜復雜的,一個模型不可能把它的所有影響因素都考慮進去,有時越追求全面,喪失的是越不準確,另外,解釋變量越多,損失的自由度越多。38
為了消除因解釋變量個數不同對可決系數的影響,提出了修正的可決系數(Adjustedcoefficientofdetermination)注意上式右邊可能為負值,這是規定:39
可決系數只是對模型擬合優度的度量,可決系數或修正的可決系數越大,表明列入模型中的解釋變量對被解釋變量的聯合影響程度越大,并非各個解釋變量對被解釋變量的影響都很大。在回歸分析中,不僅模型的擬合程度要高,而且要求各個解釋變量對被解釋變量的影響都是顯著的,即對總體回歸參數的估計值要可靠。因此,在建立模型時,不能單憑可決系數的高低斷定模型的優劣,在通盤考慮時,可以適當降低對可決系數的要求。40
被解釋變量與多個解釋變量之間是否存在顯著的線性關系呢?需在總體上是否顯著作出推斷。二、回歸方程的顯著性檢驗(F檢驗)假設的形式為原假設H0:b2=b3=…=bk=0備擇假設H1:bj(j=2,3,…,k)不全為0統計量41(3)給定顯著性水平a,在F分布表查自由度為k-1和n-k的臨界值Fa
。(1)提出檢驗假設(4)比較F值與臨界值Fa的大小,檢驗步驟:(2)用樣本觀測值計算統計量F的值若F>Fa,則拒絕原假設,表明回歸方程顯著;若F<Fa,則接受原假設,表明回歸方程不顯著,即列入模型的各個解釋變量聯合起來對被解釋變量的影響不顯著。42需要指出的是:在一元線性回歸中,由于解釋變量只有一個,不存在解釋變量聯合影響的整體檢驗問題,也就用不著進行F檢驗。事實上,對一元回歸模型的t檢驗與F檢驗是一致的。事實上P39(2.43)P48(2.67)而臨界值與也存在平方關系。43F與R2的關系F與R2成正比,R2越大,F
值也越大。所以可以把F檢驗看成是對擬合優度的檢驗。但擬合優度的檢驗不能取代F檢驗。因為可決系數或修正可決系數只能提供擬合優度的度量,但它沒有回答它的值究竟要達到多大才算模型通過了檢驗。44
因為方程的整體線性關系顯著,并不表示每個解釋變量對被解釋變量的影響都是顯著的,因此,還必須分別對每個解釋變量進行顯著性進行檢驗。三、回歸參數的顯著性檢驗(t檢驗)我們知道標準化后這里Cjj是第j行第j列元素45而總體方差s2未知,當用代替s2時,此時構造的t
統計量對回歸參數的顯著性檢驗分兩種情況:1)檢驗估計的參數的顯著性:2)檢驗解釋變量對被解釋變量影響的顯著性:46(3)給定顯著性水平a,在
t分布表查自由度為n-k的臨界值ta/2
;(1)提出檢驗假設(4)比較
t值與臨界值ta/2的大小,對各個回歸參數顯著性檢驗的步驟:(2)用樣本觀測值計算統計量
的值;若|t|>ta/2,則拒絕原假設,表明在其他解釋變量不變的情況下,Xj對Y的影響顯著;反之,若|t|<ta/2
,則接受原假設,不顯著。H0:bj=bj*(j=1,2,…,k)H1:bj≠bj*(j=1,2,…,k)47(3)給定顯著性水平a,在
t分布表查自由度為n-k的臨界值ta/2
;(1)提出檢驗假設(4)比較
t值與臨界值ta/2的大小,對各個解釋變量的顯著性檢驗的步驟:(2)用樣本觀測值計算統計量
的值;若|t|>ta/2,則拒絕原假設,表明在其他解釋變量不變的情況下,Xj對Y的影響顯著;反之,若|t|<ta/2
,則接受原假設,不顯著。H0:bj=0(j=2,…,k)H1:bj≠0(j=2,…,k)48第四節多元線性回歸模型預測一、對Y
平均值的點預測將解釋變量預測值的行向量代入樣本回歸函數即得Y的平均值的點預測值49二、對Y
平均值的區間預測
因為是隨機變量,所以也是隨機變量,為了由預測值去對總體真實均值E(Yf|Xf)
作區間估計,需要知道的分布及相關統計量。5051由于s2未知,當用無偏估計代替s2時給定顯著性水平a,查t分布表,得臨界值ta/2,可得均值E(Yf)
置信度為1-a的預測區間為52三、對Y個別值的區間預測因為均服從正態分布,所以也服從正態分布,且即53由于s2未知,當用無偏估計代替s2時給定顯著性水平a,查t分布表,得臨界值ta/2,可得Y的真實值Yf
的置信度為1-a的預測區間為54例2
以企業研發支出(R&D)占銷售額的比重為被解釋變量(Y),以企業銷售額(X1)與利潤占銷售額的比重(X2)為解釋變量,一個容量為32的樣本企業的估計結果如下:其中括號中為系數估計值的標準差。(1)解釋log(X1)的系數。如果X1增加10%,估計Y會變化多少個百分點?這在經濟上是一個很大的影響嗎?(2)針對R&D強度隨銷售額的增加而提高這一備擇假設,檢驗它不隨X1而變化的假設。分別在5%和10%的顯著性水平上進行這個檢驗。(3)利潤占銷售額的比重X2對R&D強度Y是否在統計上有顯著的影響?55解(1)log(X1)的系數表明在其他條件不變時,log(X1)變化1個單位,Y變化的單位數,即Y=0.32log(X1)0.32(X1/X1)=0.32100%,換言之,當企業銷售X1增長100%時,企業研發支出占銷售額的比重Y會增加32個百分點。由此如果X1增加10%,Y會增加3.2個百分點。這在經濟上不是一個較大的影響。56(2)針對備擇假設
檢驗原假設
計算的t統計量的值為t=0.32/0.22=1.468。在5%的顯著性水平下,自由度為32-3=29的t
分布的臨界值為1.699(單側),計算的t值小于該臨界值,所以不拒絕原假設。意味著R&D強度不隨銷售額的增加而變化。在10%的顯著性水平下,t分布的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 黑龍江省哈爾濱市五常市2025年初三下學期“揚帆起航”英語試題含答案
- 江蘇省南京市名校2025屆中考模擬金典卷化學試題(六)試題含解析
- 遼寧省大連高新園區四校聯考2025屆初三化學試題第一次適應性測試試題含解析
- 新疆維吾爾阿克蘇地區沙雅縣2025年三下數學期末學業質量監測模擬試題含解析
- (二模)呂梁市2025年高三第二次模擬考試地理試卷(含答案詳解)
- 火力發電廠熱力設備與清潔能源技術應用考核卷考核試卷
- 玻璃保溫容器行業綠色生產與環保政策研究分析報告考核試卷
- 石油化工產品的市場營銷與品牌推廣考核試卷
- 堅守廉潔底線筑牢拒腐防線
- 濕地公園與生態系統服務考核試卷
- 脫硫培訓課件大綱
- 2020年四川綿陽中考滿分作文《人生最貴的是緣》
- 某縣林業局“新官不理舊賬”問題專項清理工作方案
- 高考數學一輪復習:導數中的隱零點問題 高階拓展 專項練習(學生版+解析)
- 統編版小學語文五年級下冊第二單元快樂讀書吧整本書閱讀課《西游記》課件
- 患者舒適與安全護理(基礎護理課件)
- 2024年湖南省高中學業水平合格性考試英語試卷真題(含答案詳解)
- 智能云服務交付工程師認證考試題庫(網大版)-中(多選題)
- 中醫醫療技術手冊2013普及版
- 景區人員管理制度
- 采礦學課程設計-潘三煤礦1
評論
0/150
提交評論