《概率論與數理統計》課件 孟祥波 第十章 回歸分析_第1頁
《概率論與數理統計》課件 孟祥波 第十章 回歸分析_第2頁
《概率論與數理統計》課件 孟祥波 第十章 回歸分析_第3頁
《概率論與數理統計》課件 孟祥波 第十章 回歸分析_第4頁
《概率論與數理統計》課件 孟祥波 第十章 回歸分析_第5頁
已閱讀5頁,還剩103頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

概率論

與數理統計理學院數學系“悟道詩---嚴加安”隨機非隨意,概率破玄機;無序隱有序,統計解迷離.第十章回歸分析第一節相關與回歸分析概述二、相關關系的度量與可視化四、小結一、相關關系三、什么是回歸分析一、相關關系函數關系:人的身高和體重父親的身高和成年兒子的身高糧食的施肥量和產量商品的廣告費和銷售額相關關系:例如例如二、相關關系的度量與可視化1.相關系數隨機變量X

和Y

的相關系數定義如下:其中

是X和Y的協方差,分別為X和Y的方差.二、相關關系的度量與可視化1.相關系數在實際問題中,基于X

和Y

的n

對觀測數據

可以利用下式計算X和Y的相關系數:稱r

為變量X

和Y

的樣本相關系數.二、相關關系的度量與可視化1.相關系數樣本相關系數r度量了變量X

和Y

的線性相關性的強弱,滿足.對于固定的樣本容量n1);2)越接近于1時,X

和Y

的線性相關性越強;3)越接近于0時,X

和Y

的線性相關性越弱.二、相關關系的度量與可視化1.相關系數二、相關關系的度量與可視化2.散點圖二、相關關系的度量與可視化3.相關系數矩陣圖設有m個變量,對它們進行n

次獨立的觀測,觀測數據矩陣記為定義的相關系數矩陣如下:3.相關系數矩陣圖其中這里為變量和的相關系數,滿足.例10.1.1

在有氧鍛煉中,人的耗氧能力Y是衡量身體狀況的重要指標,它可能與以下因素有關:年齡X1

(歲),體重X2(kg),1500米跑所用的時間X3(min),靜止時心速X4(次/min),跑步后心速X5(次/min).對24名40至57歲的志愿者進行了測試,結果如下表所列.試根據這些數據分析耗氧能力Y與諸因素之間的相關性.例10.1.1

數據表:序號yx1x2x3x4x5144.64489.56.8262178245.34075.16.0462185354.34485.85.1945156459.64268.24.940166549.938895.5355178…………………2345.45276.35.78481642454.75070.95.3548146解經計算得的相關系數矩陣如下:為了直觀,繪制相關系數矩陣圖,圖中用橢圓色塊直觀地表示變量間的線性相關程度的大小.相關系數矩陣圖第i行,第j

列的橢圓色塊用來表示第i個變量和第j

個變量的相關性,其短半軸和長半軸滿足注:橢圓越扁,變量間相關系數的絕對值越接近于1,橢圓越圓,變量間相關系數的絕對值越接近于0.若橢圓的長軸方向是從左下到右上,則變量間為正相關,反之為負相關.三、什么是回歸分析回歸分析是對變量的相關關系進行建模的數學工具.回歸分析的內容包括:1)從一組樣本數據出發,確定因變量和自變量之間的數學關系式,即經驗回歸方程;2)對經驗回歸方程進行顯著性檢驗;3)對回歸方程中的各項進行檢驗,判斷哪些項對因變量的影響是顯著的,哪些是不顯著的,通常需要剔除不顯著的項,重新計算,對模型做出改進;4)利用所求得的經驗回歸方程進行預測和控制.小結1.主要概念:相關關系,相關系數,樣本相關系數,相關系數矩陣.2.基于樣本數據計算樣本相關系數和相關系數矩陣.3.散點圖和相關系數矩陣圖.概率論

與數理統計理學院數學系“悟道詩---嚴加安”隨機非隨意,概率破玄機;無序隱有序,統計解迷離.第十章回歸分析第二節一元線性回歸二、參數的最小二乘估計四、利用回歸方程進行預測一、一元線性回歸模型三、回歸方程的顯著性檢驗五、小結一、一元線性回歸模型隨機變量

Y可控變量X線性相關Y

關于X的一

元線性回歸模型:

n

次獨立觀測數據a,b

為待估計的模型參數.εi為隨機誤差項.一、一元線性回歸模型當時,,可得對每個,相應的因變量的觀測值來自于正態總體,回歸直線將穿過點,即回歸直線從Y的均值位置穿過.理論回歸方程:二、參數的最小二乘估計假設a,b

的估計量為擬合誤差(殘差)一個比較好的回歸方程應該使所有觀測點的殘差平方和盡可能小二、參數的最小二乘估計殘差平方和:二元函數的最小值點稱為a,b

的最小二乘估計.求關于的偏導數,并令其等于0,列方程組如下:二、參數的最小二乘估計進一步整理得:其中當不全相等時,方程組的系數矩陣的行列式二、參數的最小二乘估計解得唯一解:經驗回歸方程:其中注:經驗回歸直線一定過觀測數據散點圖的幾何中心例10.2.1

由專業知識可知,合金鋼的強度Y(107

Pa)與合金鋼中碳的含量X

(%)有關.為了研究它們之間的關系,從生產中收集了一批數據,如下表所列.試根據這些數據求Y關于X的經驗回歸方程.序號xy序號xy10.1042.070.1649.020.1143.580.1753.030.1245.090.1850.040.1345.5100.2055.050.1445.0110.2155.060.1547.5120.2360.0解先根據已知數據繪制X

和Y

的散點圖解由散點圖可知,12個觀測數據點分布在一條直線附近,Y與X是線性相關的.假定Y

關于X

的理論回歸方程為經計算得從而可得故Y

關于X

的經驗回歸方程為三、回歸方程的顯著性檢驗對于變量Y和X的任意n對觀測值,只要不全相等,則無論變量Y和X之間是否存在線性相關關系,都可根據上面介紹的方法求得一個線性回歸方程。顯然,只有當變量Y和X之間存在線性相關關系時,這樣的線性回歸方程才是有意義的.為了使求得的線性回歸方程真正有意義,就需要檢驗變量Y

和X

之間是否存在顯著的線性相關關系.三、回歸方程的顯著性檢驗1.F

檢驗離差分解:三、回歸方程的顯著性檢驗1.F

檢驗殘差平方和回歸平方和三、回歸方程的顯著性檢驗1.F檢驗定理10.2.1對于一

元線性回歸,有并且和相互獨立H0成立時,三、回歸方程的顯著性檢驗1.F檢驗檢驗統計量拒絕域aF

(1,n-2)0拒絕H0不能拒絕H0FF分布三、回歸方程的顯著性檢驗1.F

檢驗當時拒絕原假設H0,認為Y

和X之間的線性相關關系是顯著的.方差來源平方和自由度均方F值臨界值回歸SSR1MSR=SSR/1MSR/MSE

Fα(1,n–2)殘差SSEn–2MSE=SSE

/(n–2)總和SSTn–1一元線性回歸的方差分析表:例10.2.2

在研究合金鋼的強度(Y)與碳含量(X)關系的例10.2.1中,我們已經求出了Y關于X的經驗回歸方程,接下來取顯著性水平α

=0.01,對回歸方程進行顯著性檢驗.解經計算得從而可得解SST,SSR,SSE

的自由度分別為11,1和10,從而可得各均方分別為檢驗統計量的觀測值由于檢驗統計量可得檢驗的p

值為解由上表可知兩不等式均可說明在顯著性水平0.01下,Y和X之間的線性相關關系是顯著的,或者說Y關于X的回歸方程是顯著的.又F(1,10)分布的上側0.01分位數,于是可得方差分析表如下:方差來源平方和自由度均方F值臨界值p值回歸317.25871317.2587176.539310.040.0000殘差17.9705101.7971

總計335.229211

三、回歸方程的顯著性檢驗2.t檢驗定理10.2.2對于一

元線性回歸,有并且和相互獨立(1)的分布并且和相互獨立2.t檢驗當原假設成立時,檢驗統計量(2)檢驗統計量和拒絕域拒絕域檢驗的p

值其中稱為剩余標準差(或均方根誤差)故在顯著性水平0.01下拒絕原假設H0,認為Y關于X

的回歸方程是顯著的以例10.2.1中數據為例,經計算得注:對于一元線性回歸分析,t檢驗和F檢驗是等同的四、利用回歸方程進行預測1.點預測稱為

y0的點預測.對于給定的X=x0,由于因變量Y是隨機變量,Y

的相應取值y0是無法準確預測的.將x0代入經驗回歸方程,只能得到y0的均值的估計四、回歸系數的顯著性檢驗2.區間預測對于給定的X=x0,相應的y0

的均值a+bx0

的點估計為由可得y0

的置信水平為1-α

的預測區間為其中四、回歸系數的顯著性檢驗2.區間預測當時,y0的預測區間的長度達到最短當x0逐漸遠離時,預測區間的長度逐漸增大例10.2.3

在例10.2.1中,若碳含量為0.19,求相應的合金鋼強度的預測值和置信水平為95%的預測區間.解令,可得合金鋼強度y0

的預測值為取,則,又可得從而可得所求預測區間為小結1.主要概念:一元線性回歸模型,理論回歸方程,經驗回歸方程.2.參數的最小二乘估計.3.回歸方程的顯著性檢驗:F檢驗和

t

檢驗.4.利用回歸方程進行預測:點預測和區間預測.概率論

與數理統計理學院數學系“悟道詩---嚴加安”隨機非隨意,概率破玄機;無序隱有序,統計解迷離.第十章回歸分析第三節多元線性回歸二、參數的最小二乘估計四、回歸系數的顯著性檢驗一、多元線性回歸模型三、回歸方程的顯著性檢驗五、小結一、多元線性回歸模型隨機變量

Y可控變量X1,X2,…,

Xm線性相關Y

關于X1,X2,…,

Xm

的m

元線性回歸模型:

n

組獨立觀測數據b0,b1,…,

bm為待估計的模型參數.εi為隨機誤差項.一、多元線性回歸模型Y

關于X1,X2,…,

Xm

的m

元線性回歸模型:Y

關于X1,X2,…,

Xm

的理論回歸方程:二、參數的最小二乘估計假設b0,b1,…,

bm的估計量為回歸平面擬合誤差(殘差)一個比較好的回歸方程應該使所有觀測點的殘差平方和盡可能小二、參數的最小二乘估計殘差平方和:求m+1元函數的最小值點,即得未知參數b0,b1,…,

bm的最小二乘估計二、參數的最小二乘估計求關于的偏導數,并令其等于0,列方程組如下:稱為正規方程組二、參數的最小二乘估計1.第一種解法求解方程組其中二、參數的最小二乘估計1.第一種解法由后m個方程解得,代入第一個方程得Y

關于X1,X2,…,

Xm

的經驗回歸方程:二、參數的最小二乘估計2.第二種解法(矩陣解法)令可得正規方程組的矩陣形式X

稱為設計矩陣二、參數的最小二乘估計2.第二種解法(矩陣解法)由解得將代入理論回歸方程式同樣可得經驗回歸方程三、回歸方程的顯著性檢驗1.離差平方和分解殘差平方和回歸平方和三、回歸方程的顯著性檢驗2.F檢驗法定理10.3.1對于m

元線性回歸,有并且和相互獨立H0成立時,三、回歸方程的顯著性檢驗2.F檢驗法檢驗統計量拒絕域aF

(m,n-m-1)0拒絕H0不能拒絕H0FF分布三、回歸方程的顯著性檢驗3.方差分析表當時拒絕原假設H0,認為回歸方程整體上是顯著的.方差來源平方和自由度均方F值回歸SSRmMSR=SSR/mMSR/MSE

剩余SSEn–m–1MSE=SSE

/(n–m–1)總和SSTn–1四、回歸系數的顯著性檢驗1.的分布并且和相互獨立.定理10.3.2記,對于m元線性回歸模型,有四、回歸系數的顯著性檢驗2.t

檢驗法對于給定的顯著性水平α,檢驗的拒絕域為當原假設H0成立時,檢驗統計量檢驗的p

值:例10.3.1

考察15名不同程度的煙民的每日抽煙量X1(支)、飲酒(啤酒)量X2(L)與其心電圖指標Y的對應數據,如下表所列:(1)求變量的相關系數矩陣;(2)求Y

關于的二元線性回歸方程;(3)對回歸方程進行顯著性檢驗(取).解(1)由式(10.25)~式(10.27)計算得于是可得X1和X2的相關系數為解(1)X1

和Y的相關系數為X2

和Y的相關系數為X1

,X2,Y的相關系數矩陣為解(2)假設Y關于X1

,X2

的理論回歸方程為根據式(10.28)寫出如下方程組解得可得Y關于X1

,X2

的經驗回歸方程為解(3)顯著性檢驗的原假設和備擇假設為顯著性檢驗的方差分析表如下:由上表可知,

所以Y關于X1

,X2

的回歸方程是顯著的.方差來源平方和自由度均方F值臨界值p值回歸110638.83255319.4273.893.890.0000殘差8984.512748.71

總計119623.3314

小結1.主要概念:m元線性回歸模型,理論回歸方程,經驗回歸方程,正規方程組.2.求解參數最小二乘估計的兩種方法.3.回歸方程的顯著性檢驗:F檢驗法(方差分析表).4.回歸系數的顯著性檢驗:t檢驗法.概率論

與數理統計理學院數學系“悟道詩---嚴加安”隨機非隨意,概率破玄機;無序隱有序,統計解迷離.第十章回歸分析第四節一元非線性回歸二、可線性化的非線性函數一、一元非線性回歸模型三、小結一、一元非線性回歸模型隨機變量

Y可控變量X非線性相關Y

關于X的一元非線性回歸模型:

n

組獨立觀測數據b0,b1,…,

bk為待估計的模型參數.εi為隨機誤差項.二、可線性化的非線性函數1.雙曲線函數3)線性化方法:1)

函數形式:令,則有2)函數圖形:2.冪函數3)線性化方法:1)

函數形式:取對數得2)函數圖形:令,則有3.對數函數3)線性化方法:1)

函數形式:2)函數圖形:令,則有4.指數函數3)線性化方法:1)

函數形式:取對數得2)函數圖形:令,則有5.負指數函數3)線性化方法:1)

函數形式:取對數得2)函數圖形:令,則有6.邏輯斯蒂(logistic)函數3)線性化方法:1)

函數形式:取倒數得2)函數圖形:令,則有7.多項式函數3)線性化方法:1)

函數形式:2)函數圖形:令,則有例10.4.1

頭圍是反映嬰幼兒大腦和顱骨發育程度的重要指標之一.為研究頭圍Y和月齡X的關系,現收集21名男童的頭圍(cm)和月齡數據,如下表所列:序號月齡頭圍序號月齡頭圍序號月齡頭圍1137.88844.7154851.42239.49946.1166052.33340.7101045.4177252.94441.8111146.9188453.15542.8121247.0199653.36643.7132449.72010853.07742.9143651.22112053.5求Y

關于X

的回歸方程.解(1)散點圖(2)理論回歸方程解(3)線性化對理論回歸方程取對數得令建立V

關于U

的一元線性回歸方程uvuvuv0.13.63230.05883.80.01753.93960.09093.67380.05563.83080.01453.9570.08333.70620.05263.81550.01233.96840.07693.73290.053.8480.01083.97220.07143.75650.04763.85010.00953.97590.06673.77730.03033.9060.00853.97030.06253.75890.02223.93570.00783.9797利用本例中已給數據計算得U,V

的數據如下表:解(3)經計算得可得于是V關于U的經驗回歸方程為解(3)進一步計算得由于所以V和U之間的線性相關關系是非常顯著的.解(4)換回原變量可得故Y關于X的經驗回歸方程為注:對于一元非線性回歸,如何選取合適的回歸曲線是一個難題,通常要用到專業知識,如果專業上也不清楚,還可以根據散點圖選取回歸曲線,并且可能會有多種不同的回歸曲線供選擇.如何評價回歸曲線的好壞呢?一個常用的指標是殘差平方和SSE(或均方根誤差),SSE(或)越小的回歸曲線越好.小結1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論