管理統計學-第九章-回歸分析方法_第1頁
管理統計學-第九章-回歸分析方法_第2頁
管理統計學-第九章-回歸分析方法_第3頁
管理統計學-第九章-回歸分析方法_第4頁
管理統計學-第九章-回歸分析方法_第5頁
已閱讀5頁,還剩65頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第九章 回歸分析方法“回歸” 一詞的由來 “回歸”英文為“regression”,是由英國著名生物學家兼統計學家Galton(高爾頓)在研究人類遺傳問題時提出的。 為了研究父代身高(X)與子代身高(Y)的關系,Galton收集了上千對父親及其一子的身高數據。經過對數據的深入分析,發現了一個很有趣的現象回歸效應。回歸分析的定義 回歸分析是數理統計學的一個重要組成部分,它的任務是研究變量之間的相關關系,建立變量之間的經驗公式,以便達到預測和控制的目的。 回歸分析是研究變量間相關關系的一門學科。它通過對客觀事物中變量的大量觀察或試驗獲得的數據,去尋找隱藏在數據背后的相關關系,給出它們的表達式回歸函數

2、的估計。1.相關關系在實際問題中,我們常常遇到多個變量處于同一個過程之中,它們相互聯系、相互制約。 不完全確定關系:人的身高(X)與體重(Y),人的血壓(Y)與年齡(X)(不能用一個確定的函數關系式表達出來)這些r、v之間的關系稱為“相關關系”。完全確定函數關系:2.回歸分析 為了深入了解事物的本質,往往也需要我們去尋找這些變量之間的數量關系式。 回歸分析就是為了尋找這類不完全確定的變量間的數學關系式并進行統計推斷的一種方法。3.回歸分析的主要內容(1)從一組數據出發,確定這些變量(參數)間的定量關系(回歸模型)(2)對模型的可信度進行統計檢驗(3)從有關的許多變量中,判斷變量的顯著性(即哪些

3、是顯著的,哪些是不顯著的,顯著的保留,不顯著的忽略)(4)應用結果對實際問題做出判斷自變量X回歸變量,因變量Y應變量(響應變量)我們可以設想:Y的值由兩部分組成一、由X能決定的部分,它是X的函數,記為(X)二、由其它眾多未加考慮的因素(包括隨機因素)產生的影響,它被看作隨機誤差,也是隨即變量,記為于是我們得到如下模型:Y=(X)+9.1一元線性回歸方法1.一般形式一元回歸模型的一般形式記為:并設觀察值為y,則: , 是未知的待定系數,稱其為回歸系數 2.模型分析:假設 , ,即是相互獨立的rv,則隨機變量假設有一組試驗數據并假設其中是相互獨立的隨機變量,且若用分別表示的估計值,則稱為y關于x的

4、一元線性回歸方程下面我們要研究的問題是(2)如何檢驗回歸方程的可信度?解決第一個問題采用最小二乘估計解決第二個問題采用統計檢驗的方法(1)如何根據來求的估計值?隨機誤差的平方和達到最小9.1.2 參數的最小二乘估計最小二乘法估計,即取的估計值使若記為使 與 的擬合最佳,則顯然,且關于可微,則由多元函數存在極值的必要條件得:此方程為正規方程組,求解可得到:稱 為 的最小二乘估計,其中即的性質:(1)(2)(3) 三者相互獨立(4)(5)9.1.3 回歸方程的顯著性檢驗前面是根據回歸方程 求出了估計值 ,現在的問題是:y與x之間是否存在這種關系?即回歸方程是否一定有意義?即當x變化時,y是否為這就

5、需要對回歸方程作出顯著性檢驗,實際上,只要統計量。從而有一常數,也就是說這里 是否為0?檢驗 是否為真,這就需要建立一個檢驗的之間的差異回歸變量x的變化所引起的誤差,它的大小反映了x的重要程度。先考慮總偏差平方和 ,表示其中 是殘差平方和,表示由隨即誤差和其它未加控制的因素所引起的誤差, 是回歸平方和,表示由事實上,由正規方程組知由于每一個平方和都有一個自由度(free)(即相互獨立的不受約束隨機變量的個數),用 表示則總偏差平方和的自由度回歸平方和的自由度殘差平方和的自由度可以證明在 的假設下,給定一個模型的顯著性水平通過查表得到F分布的值,記為,若是顯著的,反之是不顯著的。則表明 是小概率

6、事件確實算出 ,說明 不成立,說明 必不可少。換言之,模型對水平 而言9.1.4 回歸方程的擬合檢驗通過對回歸方程的顯著性檢驗,在顯著的情況下,即說明x對y的影響是主要的, 但不能肯定y與x的關系一定是線性的,也可能是非 線性的,也可能還存在其他的影響因素下進行重復試驗,檢驗回歸方程的擬合問題 假設對同一個 ,進行 次試驗,得到觀測數據 ,為此,就需要在同一個即,共有 組獨立觀測數據檢驗是否為真。為建立統計量,考慮相應的殘差平方和其中為第 i 組試驗數據的平均值 這有兩種可能:y不是x的線性關系。回歸變量的個數不夠,需要增加新的變量,究竟屬于哪一種需要找出原因作進一步的改進。若 ,模型擬合是好

7、的,其它因素所產生的誤差不明顯,不顯著若 ,模型擬合不好,說明其它因素所產生的誤差超過了試驗誤差,是顯著的,需要進一步改進模型9.2 多元線性回歸方法9.2.1多元線性回歸模型(9.2)(9.3)令其中 為隨機誤差, , 均為實際問題的解釋變量,是已知函數。假設作了n次試驗得到n組觀測值為:代入(9.3)中可得(9.4)(其中 為第i次試驗時隨機誤差)該模型關于回歸系數 是線性的,u為一般向量,若用矩陣形式,(9.4)變為:即其中X是模型設計矩陣,Y與 是隨機向量且 , (I為n階單位陣) 是不可觀測的隨機誤差向量, 是回歸系數構成的向量,是未知、待定的常數向量。9.2.2 回歸系數 的最小二

8、乘估計選取 的一個估計值 使隨機誤差 的平方和達到最小由上式(正規方程組)記系數矩陣 ,常數矩陣 是非負二次式,是可微的,由多元函數取得極值的必要條件可得:如果 存在,稱其為相關矩陣1.可以證明:對任意給定的X,Y,正規方程組總有解,雖然當X不滿秩時,其解不唯一,但對任意一組解 都能是殘差平方和最小,即3.性質2.當X滿秩時,即則正規方程組的解為 ,即為回歸系數的估計值9.2.3 回歸分析模型的顯著性檢驗主要是檢驗模型是否一定與解釋變量有密切的關系類似一元情形,考慮回歸分析表來源平方和自由度均方和F值回歸平方和m-1殘差平方和n-m總平方和n-1,回歸與響應關系越密切定義:負相關系數對于給定顯

9、著水平 ,模型顯著則拒絕 成立,即 與u存在明顯的函數關系;當 ,模型不顯著, 是成立的,即 與u不存在明顯的函數關系。9.2.4 回歸模型的擬合性檢驗 在模型的檢驗顯著的情況下,需要進一步地做擬合性檢驗,目的是檢驗是否一定為(9.2)所給的形式,即是否還存在其他的影響因素沒有考慮到。將回歸變量u的n個觀測值 按相同值分為k組,每組個數為 ,顯然 ;相應 也可以分為k組,即第i組觀測值為 當 ,說明模型擬合比較好,是不顯著的,省略所造成誤差不大 當 ,模型擬合不好,是顯著的,省略所造成的誤差影響不可忽略,需要增加新的變量9.3 回歸模型的選擇方法由上面擬合性檢驗結果:引入新的解釋變量從模型中去

10、掉 模型擬合性檢驗是顯著的,即未考慮到的因素的影響不可忽略 模型擬合性檢驗是不顯著的,即模型中的解釋變量已經足夠了,但是并不足說明模型中所有的變量都是必須的,有可能有多余的變量引入,去掉都涉及到模型的選擇 模型選擇的基本原則:即不遺漏一個重要的解釋變量,但也不把一個無用的解釋變量保留在模型中。 用偏回歸平方和的大小來衡量一個解釋變量在模型中的重要性。假設給定一組解釋變量,它的殘差平方和為:9.3.1 去掉解釋變量假設把一個無用的解釋變量去掉(不妨去掉 ,即 )相應的計算 ,如果則稱:為解釋變量 的偏回歸平方和,其大小反映了 在模型中的貢獻的大小,即是衡量一個解釋變量的重要性的定量指標,其大小決

11、定了能否去掉這個解釋變量。9.3.2 增加解釋變量 設引進 ,記為 在試驗觀測點的值為:m個變量的回歸系數的估計值取為:相應的殘差平方和為:而可以證明: 的偏回歸平方和為9.4 回歸模型的正交設計法由前面幾節知:多元線性回歸有兩個基本缺點: 一是計算復雜,其復雜程度隨著自變量個數的增加而迅速增加 二是由于回歸系數之間存在相關性,當剔除某個自變量后,還必須重新計算回歸系數 多元線性回歸的兩個基本缺點是由于系數矩陣A不是對角陣造成的,因此如何使A為對角矩陣是問題的關鍵所在9.4.1 正交的概念設 是m個解釋變量,如果對于 滿足1)對角線上的元素不為02)除對角線上都為0則稱 是正交的如何構造正交函

12、數系呢? 通常情況下,正交函數都為正交多項式,首先對于一維回歸變量u來說明構造正交多項式的方法。設有點列 ,取 ,其中其中由此可以構造出任意階的正交多項式我們可以得到正交回歸且第k個解釋變量的偏回歸平方和為:所以殘差平方和為:9.5 多重線性與有偏估計我們先引進評價一個估計優劣的標準均方誤差(MSE)(Mean Squared Errors)設Q未知參數向量, 為 的一個估計,定義 的均方誤差為它度量了估計 與未知參數向量 平均偏離的大小,故一個好的估計應該有較小的均方誤差。定理1.這里trA表示方陣A的跡,即A的對角元素和由于最小二乘估計 為無偏估計,在均方差中,第二項值為0,又因為由于 是

13、對稱正定陣,于是存在mxm正交陣使 對角化,即這里 為 的特征值記 ,則 分別為對應于的標準正交化特征向量,所以容易驗證故從這里可以看出 為 的特征值,再利用 ,以及得所以為病態方程。 從這個表達式中我們可以看出,如果 至少有一個特征根非常小,即非常接近于零 那么 就會很大,這時,從均方誤差的標準來看,這時的最小二乘估計 就不是一個好的估計,并且稱正規方程組當 很大時,此時m個解釋變量之間具有多重共線性,即也就是說設計矩陣X的列向量之間有近似的線性關系,但非絕對的線性關系。衡量多重共線性程度量用來表示1)k100時,則不存在多重共線性2)100k1000時,則存在較強的多重共線性3)當k100

14、0時,則存在嚴重的多重共線性9.5.2 回歸系數的有偏估計從上面討論我們知道,當設計矩陣存在復共線關系時,最小二乘估計的性質不理想,有時甚至很壞。在這種情況下我們就需要些新的估計方法,近三十年來,人們提出了許多種新估計,其中在理論上最有影響并且得到廣泛應用的就是嶺估計。回歸系數的嶺估計定義為:這里k0是可選擇參數,稱為嶺參數或偏參數,當k取不同值時,我們就得到不同的估計,因此嶺估計 是一個估計量。主成份估計的方法:1)做正交變換Z=XP,獲得新的自變量,稱為主成份2)做回歸自變量選擇,剔除對應的特征值比較小的那些主成份3)將剩余的主成份對Y做最小二乘回歸,再返回到原來的參數,使得到因變量到原始

15、自變量的主成份回歸本章例題:(1)問題研究學者,得到如下數據(i為學者序號)(見表8.1)。某類研究學者的年薪工薪階層關心年薪與哪些因素有關,以此可制定出它們自己的奮斗目標。某科學基金會希望估計從事某研究的學者的年薪Y與他們的研究成果(論文、著作等)的質量指標X1、從事研究工作的時間X2、能成功獲得資助的指標X3之間的關系,為此按一定的實驗設計方法調查了24位i123456789101112xi13.55.35.15.84.26.06.85.53.17.24.54.9xi29201833311325305472511xi36.16.47.46.77.55.96.04.05.88.35.06.4

16、yi33.240.338.746.841.437.539.040.730.152.938.231.8i131415161718192021222324xi18.06.56.63.76.27.04.04.55.95.64.83.9xi223353921740352333273415xi37.67.05.04.45.57.06.03.54.94.38.05.8yi43.344.142.533.634.248.038.035.940.436.845.235.1表8.1 從事某種研究的學者的相關指標數據試建立Y與X1,X2,X3之間關系的數學模型,并得出有關結論和作統計分析。(2)作出因變量Y與各自變

17、量的樣本散點圖作散點圖的目的主要是觀察因變量Y與各自變量間是否有比較好的線性關系,以便選擇恰當的數學模型形式。圖8.1分別為年薪Y與成果質量指標x1、研究工作時間x2、獲得資助的指標x3之間的散點圖,從圖8.1可以看出這些點大致分布在一條直線旁邊,因此,有比較好的線性關系,可以采用線性回歸。Y與x1的散點圖Y與x2的散點圖Y與x3的散點圖圖8.1 因變量Y與各自變量的樣本散點圖(3)利用Matlab統計工具得到初步的回歸方程設回歸方程為:建立m-文件輸入如下程序數據:x1=3.5 5.3 5.1 5.8 4.2 6.0 6.8 5.5 3.1 7.2 4.5 4.9 8.0 6.5 6.5 3

18、.7 6.2 7.0 4.0 4.5 5.9 5.6 4.8 3.9;x2=9 20 18 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 35 39 21 7 40 35 23 33 27 34 15;x3=6.1 6.4 7.4 6.7 7.5 5.9 6.0 4.0 5.8 8.3 5.0 6.4 7.6 7.0 5.0 4.0 5.5 7.0 6.0 3.5 4.9 4.3 8.0 5.0;Y=33.2 40.3 38.7 46.8 41.4 37.5 39.0 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42

19、.5 33.6 34.2 48.0 38.0 35.9 40.4 36.8 45.2 35.1;n=24; m=3;X=ones(n,1),x1,x2,x3;b,bint,r,rint,s=regress(Y,X,0.05);b,bint,r,rint,s,運行后即得到結果如表8.2所示。表8.2 對初步回歸模型的計算結果回歸系數回歸系數的估計值回歸系數的置信區間018.015713.9052 22.126211.08170.3900 1.773320.32120.2440 0.398431.28350.6691 1.8979R2=0.9106 F=67.9195 p0.0001 s2=3.0

20、719計算結果包括回歸系數m-1)計算。因此我們得到初步的回歸方程為:統計變量stats,它包含四個檢驗統計量;相關系且置信區間均不包含零點;殘差及置信區間;p, 的值7.0以前版本 也可由程序sum(r.2)/(n-數的平方 ,假設檢驗統計量F,與F對應的概率由結果對模型的判斷表明線性相關性較強。有較強的線性相關性。本例中R的絕對值為0.9542 ,值在0.81范圍內,可判斷回歸自變量與因變量具相關系數R的評價:一般地,相關系數絕對驗統計量R、F、p的值判斷該模型是否可用。殘差在零點附近也表示模型較好,接著就是利用檢回歸系數置信區間不包含零點表示模型較好,F檢驗法:當 ,即認為因變查F分布表

21、或輸入命令finv(0.95,3,20)計算。系;否則認為因變量y與自變量 之間線量y與自變量 之間顯著地有線性相關關性相關關系不顯著。本例p值檢驗:若 ( 為預訂顯著水平),線性相關關系。本例輸出結果, ,顯然滿則說明因變量y與自變量 之間顯著地有足 。以上三種統計推斷方法推斷的結果是一致的,(4)模型的精細分析和改進在模型改進時作為參考。說明因變量y與自變量之間顯著地有線性相關關系,所得線性回歸模型可用。 當然越小越好,這主要殘差分析。殘差 ,是各種觀測值 與回歸方程所對應得到的擬合值之差,實際上,它是線性回歸模型中誤差 的估計值。 即有零均值和常值方差,利用殘差的這種特性反過來考察模型的

22、合理性就是殘差分析的基本思想。利用Matlab進行殘差分析則是通過殘差自變量的高次項及交叉項等問題給出直觀的檢驗。差的等方差性以及回歸函數中是否包含其他自變量、觀察殘差圖,可以對奇異點進行分析,還可以對誤變量的觀測值;c.橫坐標為因變量的擬合值。通過坐標為觀測時間或觀測值序號;b.橫坐標為某個自其他指定的量為橫坐標的散點圖。主要包括:a.橫圖或時序殘差圖。殘差圖是指以殘差為縱坐標,以以觀測值序號為橫坐標,殘差為縱坐標所得到模型為如果作為奇異點看待,去掉后重新擬合,則得回歸第4、12、 19這三個樣本點的殘差偏離原點較遠,差大多分布在零的附近,因此還是比較好的,不過語句為rcoplot(r,rint) (見圖8.2)。可以清楚看到殘的散點圖稱為時序殘差圖,畫出時序殘差圖的Matlab圖8.2 時序殘差圖且回歸系數的置信區間更小,均不包含原點,統計得到改進。115.5586, 0.0000,比較可知R,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論