高級管理統計章回歸分析_第1頁
高級管理統計章回歸分析_第2頁
高級管理統計章回歸分析_第3頁
高級管理統計章回歸分析_第4頁
高級管理統計章回歸分析_第5頁
已閱讀5頁,還剩105頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2024/1/19高級管理統計1第5章回歸分析5.1一元線性回歸模型5.2多元線性回歸模型5.3多元逐步回歸分析5.4多重線性回歸分析2024/1/19高級管理統計2第六章回歸分析5.1一元線性回歸模型

背景從定量的角度來看,變量之間的關系可以分為兩類:一類變量之間的關系是完全確定的,可以用函數的形式表達另一類變量之間有關系,但不能用函數形式表達,例如人的體重與身高有關,一般而言,較高的人體重也重,但同樣身高的人體重卻不完全相同,這樣的變量間關系在統計上稱為相關關系。回歸分析是研究變量之間相關關系的一種統計方法。2024/1/19高級管理統計3模型的基本形式設是的未知線性函數:。今對在點上進行試驗,測得函數的試驗值為

由于受隨機誤差因素的影響,試驗結果為此處為未知參數。2024/1/19高級管理統計4

隨機誤差項滿足條件(1)獨立性:相互獨立,因而也相互獨立。(2)無偏性:,因而2024/1/19高級管理統計5

(3)等方差性:,因而(4)正態性:,因而上述四個條件可簡化為:獨立同分布2024/1/19高級管理統計6回歸直線的確定

參數與的估計應使殘差平方和達到最小,即令2024/1/19高級管理統計72024/1/19高級管理統計8

此為正規方程組2024/1/19高級管理統計9

參數的最小二乘估計其中2024/1/19高級管理統計10

為簡單起見,令2024/1/19高級管理統計11

于是

因此,回歸直線

2024/1/19高級管理統計12回歸方程的統計性質

定理在一元線性回歸模型假設下,回歸系數具有以下性質

(1)(2)(3)2024/1/19高級管理統計13

證明根據線性模型的假定,為相互獨立的正態變量,且

另一方面,均是的線性函數,即故均為正態變量。2024/1/19高級管理統計14

求的數學期望2024/1/19高級管理統計152024/1/19高級管理統計16求的方差2024/1/19高級管理統計172024/1/19高級管理統計18

求與的相關矩2024/1/19高級管理統計19結論

2024/1/19高級管理統計20

定理在線性模型的假定條件下,(1);(2)相互獨立。其中2024/1/19高級管理統計21證明2024/1/19高級管理統計222024/1/19高級管理統計23對作如下線性變換2024/1/19高級管理統計24此處滿足條件顯然2024/1/19高級管理統計25

從而

由于相互獨立,都服從正態分布,所以均服從正態分布,且2024/1/19高級管理統計26

以上表明相互獨立同分布,從而

所以并且根據的獨立性,知三者相互獨立。2024/1/19高級管理統計27

回歸方程的顯著性檢驗在實際工作中,我們不能斷定因變量與自變量間確有線性關系,線性模型只是一種假設,盡管這種假設不是沒有根據的,但還是需要對這種線性回歸方程同實際觀察或試驗數據擬合的效果進行檢驗。2024/1/19高級管理統計28T檢驗檢驗問題檢驗統計量

其中2024/1/19高級管理統計29因為相互獨立,并且所以2024/1/19高級管理統計30也就是說,所以拒絕域根據分布與分布之間的關系,有因而拒絕域也可以寫為。2024/1/19高級管理統計31相關系數檢驗二維樣本的相關系數定義為2024/1/19高級管理統計32

當成立時,應該比較小,從而值較小;因此,當較大時,應拒絕。拒絕域其中滿足條件2024/1/19高級管理統計33

利用回歸方程作預測當線性系數經過檢驗確認不等于零,即回歸直線效果是顯著的,此時,便可以利用所得的回歸直線,給定自變量的值來預報因變量的值:給定和置信水平,預報隨機變量的取值范圍。2024/1/19高級管理統計34當時,的估計值2024/1/19高級管理統計352024/1/19高級管理統計36而所以,的置信水平為的置信區間為2024/1/19高級管理統計37

國家

國民經濟增長率x(%)

失業率y(%)

美國3.25.8

日本5.62.1

法國3.56.1

西德4.53.0

意大利4.93.9

英國1.45.7

以下是六個工業發達國家在1979年的失業率與國民經濟增長率的數據2024/1/19高級管理統計38

(1)研究與之間的關系;

(2)建立關于的一元線性回歸方程;

(3)對所求得的回歸方程作顯著性檢驗,在作檢驗時做了什么假定?(取)(4)若一個工業發達國家的國民經濟增長率為,求其失業率的預測值。2024/1/19高級管理統計392024/1/19高級管理統計402024/1/19高級管理統計41R計算程序與計算結果x=c(3.2,5.6,3.5,4.5,4.9,1.4)y=c(5.8,2.1,6.1,3.0,3.9,5.7)fit=lm(y~1+x)summary(fit)yhat=predict(fit)yhatplot(y,type="l",lwd=1,xlab="x",ylab="y");text(3.6,5.8,expression(觀察值))lines(yhat,lwd=2.5,col="blue");text(5.3,6,expression(估計值))2024/1/19高級管理統計42R計算程序與計算結果Call:lm(formula=y~1+x)Residuals:1234560.7742-0.73811.3476-0.84080.4238-0.9666Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)7.94281.33805.9360.00404**x-0.91150.3276-2.7820.04971*---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1.093on4degreesoffreedomMultipleR-squared:0.6593,AdjustedR-squared:0.5741F-statistic:7.74on1and4DF,p-value:0.049712024/1/19高級管理統計432024/1/19高級管理統計442024/1/19高級管理統計452024/1/19高級管理統計46

可化為一元線性回歸的曲線回歸(1)雙曲線令,則。(2)冪函數令,則。2024/1/19高級管理統計47(3)指數函數若,則令,于是若,則令,同樣有2024/1/19高級管理統計48(4)對數函數令,則有。(5)S曲線令,則有。2024/1/19高級管理統計493.2多元線性回歸模型

multivariateregression●多元的含義:多個解釋變量?多個因變量(被解釋變量)?例如,血壓與年齡、體重之間的關系消費支出與收入、價格之間的關系其他………?●線性的含義:變量的線性組合

2024/1/19高級管理統計50●

建模目的①分析變量之間的結構關系②預測分析:給定自變量的取值,預測因變量Y將來取值的大小2024/1/19高級管理統計51●模型結構分析

設是個變量的線性函數現對多元變量

在個點上進行試驗,結果如下2024/1/19高級管理統計52

此處為隨機誤差項,它滿足條件(1)獨立性:相互獨立,因而也相互獨立。(2)無偏性:,因而2024/1/19高級管理統計53(3)等方差性:,因而(4)正態性:,因而

上述四個條件等價于:2024/1/19高級管理統計54●

模型參數估計

模型系數估計:設所求回歸方程為其中為參數的估計,稱為回歸系數,它使殘差平方和取最小值2024/1/19高級管理統計55

根據多元函數求極值的必要條件,應滿足下列線性方程組

2024/1/19高級管理統計562024/1/19高級管理統計57寫成矩陣形式2024/1/19高級管理統計58記2024/1/19高級管理統計59則2024/1/19高級管理統計602024/1/19高級管理統計61因此,正規方程組從而,未知參數向量的最小二乘估計量

2024/1/19高級管理統計62●方差的無偏估計量

并且此處2024/1/19高級管理統計63其中,殘差序列為2024/1/19高級管理統計64●回歸方程優劣的評價模型的擬合程度:

回歸系數是否顯著不等于零2024/1/19高級管理統計65●回歸方程的顯著性檢驗檢驗問題檢驗統計量2024/1/19高級管理統計66

●模型系數的顯著性檢驗若考慮變量是否對因變量有顯著影響,則檢驗問題

檢驗統計量

2024/1/19高級管理統計67

拒絕域判斷:對于給定的顯著水平,若,則拒絕原假設,即認為;若則接受,認為2024/1/19高級管理統計68

例題考慮我國31個省市自治區的城鎮居民人均食品消費支出與其人均收入,糧食價格的依賴關系回歸模型:

人均消費支出(Y)=β0+β1糧食價格(X1)+β2人均收入2024/1/19高級管理統計69多元回歸分析的建模數據2024/1/19高級管理統計70變量之間的相關系數分析食品支出與糧價相關系數=0.730

食品支出與收入相關系數=0.9212024/1/19高級管理統計71參數估計β0=-87.386,β1=213.423,β2=0.3522024/1/19高級管理統計72回歸方程的表達式:2024/1/19高級管理統計73

常數項的經濟涵義不清晰,原因:可能有重要的解釋變量未引入方程中;因此,需再尋找其他解釋變量

2024/1/19高級管理統計74●

解釋變量確定的方法:逐步回歸基本思路:先列出所有可能的解釋變量,然后逐一增加或刪除變量,將其引入方程或者將其從方程中剔出2024/1/19高級管理統計75

模型擬合檢驗:F檢驗,分析數據的擬合程度,它是對模型的整體檢驗F值=106.1642024/1/19高級管理統計76殘差分布圖2024/1/19高級管理統計77F檢驗的解釋在回歸分析中,觀測數據的總波動,用每個觀測值與總平均的差異平方和表示,即2024/1/19高級管理統計78

是觀測值與回歸值的離差平方和,反映了誤差的大小,稱為誤差平方和;其取值越小越好;它的自由度=31-3=28

是回歸值與總平均離差平方和,它表示x與y的線性關系引起y的變化;稱為回歸平方和,它的自由度=3-1=22024/1/19高級管理統計79模型的經濟涵義

①在保持收入水平不變的條件下,糧價上漲1元,則人均食品消費支出將增加213.423元②在糧價保持不變的情況下,收入每增加1元,將有其中的0.352元用于食品消費支出2024/1/19高級管理統計80

例題根據經驗,在人的身高相等的情況下,血壓的收縮壓Y與體重X1(kg)、年齡X2(歲數)有關。現在收集了13個男子的數據,試建立Y關于X1,X2的回歸方程2024/1/19高級管理統計81序號X1X2Y176.050120291.520141385.520124482.530126579.030117680.550125774.560123879.050125985.0401321076.5551231182.0401321295.0401551392.5201472024/1/19高級管理統計82R軟件運行程序blood<-data.frame(X1=c(76.0,91.5,85.5,82.5,79.0,80.5,74.5,79.0,85.0,76.5,82.0,95.0,92.5),X2=c(50,20,20,30,30,50,60,50,40,55,40,40,20),Y=c(120,141,124,126,117,125,123,125,132,123,132,155,147))lm.sol<-lm(Y~X1+X2,data=blood)summary(lm.sol)2024/1/19高級管理統計83結果Call:lm(formula=Y~X1+X2,data=blood)Residuals:Min1QMedian3QMax-4.0404-1.01830.46400.69084.3274Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-62.9633616.99976-3.7040.004083**X12.136560.1753412.1852.53e-07***X20.400220.083214.8100.000713***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.854on10degreesoffreedomF-statistic:87.84on2and10DF,p-value:4.531e-072024/1/19高級管理統計84模型表達式

Y=-62.96+2.136X1+0.4002X2

(-3.704)(12.185)(4.810)2024/1/19高級管理統計852024/1/19高級管理統計86參數的區間估計source(".R")(lm.sol)EstimateLeftRight(Intercept)-62.9633591-100.8411862-25.0855320X12.13655811.74587092.5272454X20.40021620.21480770.58562462024/1/19高級管理統計873.3多元逐步回歸

在實際問題中,人們總是希望從對因變量有影響的諸多變量中選擇一些變量作為自變量,應用多元回歸分析的方法建立“最優”回歸方程,以便對因變量進行預報或控制2024/1/19高級管理統計88●所謂“最優”回歸方程,主要是指在回歸方程中包含所有對因變量影響顯著的自變量而不包含對影響不顯著的自變量的回歸方程●逐步回歸分析的主要思路是在所考慮的全部自變量中按其對的作用大小,顯著程度大小,或者說貢獻大小,由大到小地逐個引入回歸方程,而對那些對作用不顯著的變量可能始終不被引人回歸方程2024/1/19高級管理統計89●另外,己被引人回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進行檢驗,以保證在引人新變量前回歸方程中只含有對影響顯著的變量,而不顯著的變量已被剔除2024/1/19高級管理統計90

例題某種水泥在凝固時放出的熱能Y與水泥的四種化學成分X1,X2,X3,X4有關,現測得13組數據,希望從中選出主要的變量,建立Y關于它們的線性回歸方程2024/1/19高級管理統計91序號X1X2X3X4Y172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.42024/1/19高級管理統計92cement<-data.frame(X1=c(7,1,11,11,7,11,3,1,2,21,1,11,10),X2=c(26,29,56,31,52,55,71,31,54,47,40,66,68),X3=c(6,15,8,8,6,9,17,22,18,4,23,9,8),X4=c(60,52,20,47,33,22,6,44,22,26,34,12,12),Y=c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4))lm.sol<-lm(Y~X1+X2+X3+X4,data=cement)summary(lm.sol)2024/1/19高級管理統計93主要結果Call:lm(formula=Y~X1+X2+X3+X4,data=cement)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)62.405470.07100.8910.3991X11.55110.74482.0830.0708.X20.51020.72380.7050.5009X30.10190.75470.1350.8959X4-0.14410.7091-0.2030.8441---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.446on8degreesoffreedomF-statistic:111.5on4and8DF,p-value:4.756e-07

2024/1/19高級管理統計94從上述計算中可以看出,如果選擇全部變量作回歸方程,效果不好,因為回歸方程的系數沒有一項通過檢驗,下面用函數step()作逐步回歸2024/1/19高級管理統計95lm.step<-step(lm.sol)Start:AIC=26.94Y~X1+X2+X3+X4DfSumofSqRSSAIC-X310.10947.97324.974-X410.24748.11125.011-X212.97250.83625.728<none>47.86426.944-X1125.95173.81530.576Step:AIC=24.974Y~X1+X2+X4DfSumofSqRSSAIC<none>47.9724.97-X419.9357.9025.42-X2126.7974.7628.74-X11820.91868.8860.632024/1/19高級管理統計96名詞解釋●

AIC準則:赤池信息量準則(Akaikeinformationcriterion,簡稱AIC)是衡量統計模型擬合優良性的一種標準,是由日本統計學家赤池弘次創立和發展的;赤池信息量準則建立在熵的概念基礎上,可以權衡所估計模型的復雜度和此模型擬合數據的優良性

AIC=2k-log(L)其中:k是參數的數量,L是似然函數2024/1/19高級管理統計97●從程序運行結果來看,用全部變量作回歸方程時,AIC的值為26.94,接下來的數據表明:如果去掉X3,得到回歸方程AIC的值為24.974,如果去掉X4,AIC的值為25.011,依次類推;由于去掉X3可以使AIC達到最小,因此去掉X3進入下一輪計算。●在下一輪計算中,無論去掉那一個變量,AIC的值均會升高,因此中止逐步回歸,進入回歸建模。2024/1/19高級管理統計98summary(lm.step)Call:lm(formula=Y~X1+X2+X4,data=cement)Residuals:Min1QMedian3QMax-3.0919-1.80160.25621.28183.8982Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)71.648314.14245.0660.000675***X11.45190.117012.4105.78e-07***X20.41610.18562.2420.051687.X4-0.23650.1733-1.3650.205395---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.309on9degreesoffreedomF-statistic:166.8on3and9DF,p-value:3.323e-082024/1/19高級管理統計99

殘差分布圖

lm.sol<-lm(Y~X1+X2+X4,data=cement)

res<-residuals(lm.sol)

plot(res)2024/1/19高級管理統計1003.4多重線性回歸分析

主要討論多個因變量與多個自變量之間的線性函數關系,當然多個因變量之間具有相關性;否則,就是多個多元線性回歸模型問題2024/1/19高級管理統計101多對多的問題①發電量、工業總產值與鋼材產量、水泥產量和機械工業總產值之間的關系②麥當勞、肯德基消費與居民收入、價格等因素之間的關系③?????2024/1/19高級管理統計102模型結構因變量:y1,y2,…,ym解釋變量:x1,x2,…,xk函數關系2024/1/19高級管理統計103矩陣形式2024/1/19高級管理統計104n組觀察值其表達式為2024/1/19高級管理統計1052024/1/19高級管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論