多重線性回歸與多元逐步回歸 統(tǒng)計(jì)學(xué)_第1頁
多重線性回歸與多元逐步回歸 統(tǒng)計(jì)學(xué)_第2頁
多重線性回歸與多元逐步回歸 統(tǒng)計(jì)學(xué)_第3頁
多重線性回歸與多元逐步回歸 統(tǒng)計(jì)學(xué)_第4頁
多重線性回歸與多元逐步回歸 統(tǒng)計(jì)學(xué)_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多重線性回歸流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系內(nèi)容多重線性回歸回歸分析中自變量的選擇多因素線性回歸的應(yīng)用及注意事項(xiàng)復(fù)習(xí)線性回歸分析是研究一個(gè)變量和另外一些變量間線性關(guān)系的統(tǒng)計(jì)分析方法。在回歸分析中,最簡(jiǎn)單的情形是模型中只包含兩個(gè)有“依存關(guān)系”的變量,一個(gè)變量(反應(yīng)變量)隨另一個(gè)變量(自變量)的變化而變化,且呈直線變化趨勢(shì),稱之為簡(jiǎn)單線性回歸。

給定X的數(shù)值,Y

的數(shù)值取在一個(gè)平均值

(

y|x)附近對(duì)應(yīng)于不同的X值,Y

的平均值座落在一條直線上

----回歸直線.

y|x

和X的關(guān)系可用一個(gè)線性方程描寫.簡(jiǎn)單線性回歸方程總體樣本“Yhat”表示估計(jì)值,給定x時(shí)y的總體均數(shù)的估計(jì)值。直線回歸方程的求解:最小二乘原理YX

回歸系數(shù)及其計(jì)算找一條直線使殘差平方和最小

利用微積分知識(shí),容易得到

這條線一定過兩個(gè)點(diǎn)和線性回歸分析的前提條件線性(Linear)反應(yīng)變量Y與自變量X呈線性變化趨勢(shì)獨(dú)立(Independent)任意兩個(gè)觀察值相互獨(dú)立,一個(gè)個(gè)體的取值不受其他個(gè)體的影響給定X時(shí),Y正態(tài)分布(Normal)給定X取值時(shí),Y的取值服從正態(tài)分布等方差(Equalvariance)指對(duì)應(yīng)于不同的X值,Y值的總體變異相同直線回歸應(yīng)用條件LINE示意圖回歸方程有統(tǒng)計(jì)學(xué)意義嗎

建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,這種關(guān)系是否有統(tǒng)計(jì)學(xué)意義,還需要進(jìn)一步進(jìn)行假設(shè)檢驗(yàn)。檢驗(yàn)回歸模型是否成立:方差分析檢驗(yàn)總體回歸系數(shù)β是否為零:t檢驗(yàn)例1:某研究者研究大氣污染物一氧化氮(NO)的濃度(ppm)與汽車流量(千輛)、氣溫(℃)、空氣濕度(%)、風(fēng)速(m/s)等因素的關(guān)系,結(jié)果見表1:?jiǎn)挝粫r(shí)間內(nèi)過往的汽車數(shù)(千輛)、氣溫(℃)、空氣濕度(%)、風(fēng)速(m/s)這四個(gè)因素是否都對(duì)空氣中一氧化氮(NO)的濃度(ppm)有影響?如何定量地描述這些因素對(duì)一氧化氮濃度的影響?哪個(gè)因素對(duì)一氧化氮濃度的影響最大?哪個(gè)因素的影響最???如果利用這些影響因素去預(yù)測(cè)空氣中一氧化氮的濃度,如何預(yù)測(cè)?效果如何?第一節(jié)多重線性回歸多重線性回歸(multiplelinearregression)因變量:一個(gè),Y自變量:多個(gè),X1,X2,X3,…,Xp方程:概念多元線性回歸(multi-variatelinearregression)簡(jiǎn)稱多元回歸(multi-variateregression):因變量:多個(gè),Y1,Y2,…自變量:多個(gè),X1,X2,X3,…方程:多重線性回歸方程多重線性回歸方程是簡(jiǎn)單線性回歸方程的擴(kuò)展其中表示當(dāng)所有自變量為0時(shí)反應(yīng)變量Y的總體平均值。為變量Xi

的總體偏回歸系數(shù)(partialregressioncoefficient),表示當(dāng)方程中其他自變量保持常量時(shí),自變量Xi每增加(或減少)一個(gè)計(jì)量單位,反應(yīng)變量Y平均變化個(gè)單位。樣本回歸方程

反應(yīng)變量Y的總體平均值的估計(jì)值。b0的估計(jì)。為常數(shù)項(xiàng),又稱為截距,是總體參數(shù)bi為自變量Xi

的偏回歸系數(shù),是總體參數(shù)的估計(jì)值。如果要建立由車流量()和風(fēng)速()預(yù)測(cè)一氧化氮濃度(Y)的線性回歸方程,模型可以寫成:表示在車流量不變的情況下,風(fēng)速每增加一個(gè)單位(1m/s),估計(jì)空氣中一氧化氮的濃度平均改變個(gè)單位(ppm)。表13-1

多重線性回歸分析數(shù)據(jù)格式

前提條件(LINE)多重線性回歸分析步驟求回歸方程-----最小二乘原則假設(shè)檢驗(yàn)-----檢驗(yàn)回歸方程是否具有統(tǒng)計(jì)學(xué)意義,模型有意義的前提下,再分別對(duì)各偏回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)。(3)變量選擇-----以盡量少的自變量,達(dá)到較好地解釋Y的目的基本原理:尋找一套適宜的偏回歸系數(shù)(),建立多重線性回歸方程,使得反應(yīng)變量的觀測(cè)值與回歸方程的估計(jì)值回歸系數(shù)的估計(jì),求回歸方程采用最小二乘法

(leastsquaredmethod)來估計(jì)偏回歸系數(shù)

之間的殘差平方和最小。SPSS實(shí)現(xiàn)方法:Analyze---Regression---Linear---y選入Dependentx1、x2、X3...XP選入IndependentMethod---EnterStepwise

Backward

Forward---ok當(dāng)建立樣本回歸方程后,首先要考察這個(gè)回歸方程是否有意義?即在,,,,中,是否至少存在一個(gè)自變量與Y的總體均數(shù)呈線性關(guān)系?回歸方程的效果如何?也即是這四個(gè)自變量能夠解釋反應(yīng)變量的變異的百分比是多少?四個(gè)自變量是否都對(duì)反應(yīng)變量有影響?即各個(gè)偏回歸系數(shù)()所對(duì)應(yīng)的總體偏回歸系數(shù)()是否等于0?考慮:回歸的目的:估計(jì)H0成立時(shí),只能用Y的均數(shù)來估計(jì)殘差:,自由度=H1成立時(shí),給定可以用來估計(jì)殘差:,自由度=

殘差減少了統(tǒng)計(jì)推斷這個(gè)回歸方程有統(tǒng)計(jì)學(xué)意義嗎?

----這是回歸模型的貢獻(xiàn)

自由度=

方差分析的基本思想總變異:把反應(yīng)變量的觀察值的離均差平方和記為,它反映了沒有利用自變量的信息時(shí)的觀察值的變異性,即沒有考慮車流量、氣溫、氣濕和風(fēng)速等因素的情況下一氧化氮濃度的變異的大小,其自由度記為(n為樣本量)。根據(jù)回歸方程計(jì)算得到的預(yù)測(cè)值與實(shí)際觀察值

之間的差異稱為殘差,記殘差的離均差平方和為,它反映了的變異中不能由回歸解釋的部分,其自由度記為

,P為自變量個(gè)數(shù)。

把與之差記為回歸平方和,它反應(yīng)了回歸模型的貢獻(xiàn),即車流量、氣溫、氣濕和風(fēng)速等因素對(duì)一氧化氮濃度的影響,其自由度記為。

表13-2方差分析表

表13-3

檢驗(yàn)回歸方程整體意義的方差分析表變異來源自由度回歸40.0640.01617.59<.001殘差190.0170.001總230.081表中值小于0.001,按照0.05的檢驗(yàn)水準(zhǔn),可以拒絕認(rèn)為所建立的回歸方程是有意義的。用這四個(gè)自變量構(gòu)成的回歸方程解釋空氣中一氧化氮濃度的變化是有意義的。32回歸模型好壞的評(píng)價(jià)1)擬合的回歸方程在總體上有統(tǒng)計(jì)學(xué)意義2)決定系數(shù)R2R2=1-SS殘/SS總=SS模/SS總,

它表示在因變量y的總變異中可由回歸方程所解釋部分的比例。0<R2≤1,越接近于1,說明回歸方程效果越好。33復(fù)相關(guān)系數(shù)是隨方程中的變量個(gè)數(shù)增加而增加的,為了克服這一缺點(diǎn),對(duì)它進(jìn)行校正AdjR2=1-MS殘/MS總,0<AdjR2≤1,越接近于1,說明回歸方程效果越好。調(diào)整的確定系數(shù)(adjustedR2,)

353)剩余標(biāo)準(zhǔn)差或標(biāo)準(zhǔn)估計(jì)誤差(standarderrorofestimate)。它反映了應(yīng)變量在扣除自變量的線性影響后的離散程度;剩余標(biāo)準(zhǔn)差越接近于0,說明回歸方程效果越好。364)回歸系數(shù)估計(jì)值的正負(fù)號(hào)與專業(yè)上的含義相吻合,根據(jù)回歸方程計(jì)算的Y的預(yù)測(cè)值在專業(yè)上有意義。確定系數(shù)

或稱決定系數(shù),以反映回歸方程的效果好壞。本例

=0.79,說明利用車流量、氣溫、氣濕和風(fēng)速等四個(gè)因素可以解釋一氧化氮濃度的約80%的變異,可以認(rèn)為回歸的效果較好。復(fù)相關(guān)系數(shù)

(coefficientofmultiplecorrelation)又稱多重相關(guān)系數(shù)

回歸系數(shù)的假設(shè)檢驗(yàn)

由于存在抽樣誤差,即使總體偏回歸系數(shù)為零,也可能得到樣本偏回歸系數(shù)不為零的情形,因此需要對(duì)偏回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn),以推斷總體偏回歸系數(shù)是否為零。檢驗(yàn)統(tǒng)計(jì)量為其中,是第個(gè)偏回歸系數(shù)的標(biāo)準(zhǔn)誤車流量、氣溫、風(fēng)速對(duì)一氧化氮濃度的影響有統(tǒng)計(jì)學(xué)意義(),但是氣濕的影響沒有統(tǒng)計(jì)學(xué)意義()。)。

標(biāo)準(zhǔn)偏回歸系數(shù)

Standardizedpartialregressioncoefficient所有變量標(biāo)準(zhǔn)化后做回歸,所得系數(shù)稱為標(biāo)準(zhǔn)偏回歸系數(shù).

注意:

一般回歸系數(shù)有單位,用來解釋各自變量對(duì)應(yīng)變量的影響,表示在其它自變量保持不變時(shí),增加或減少一個(gè)單位時(shí)Y的平均變化量。不能用各來比較各對(duì)的影響大小。

標(biāo)準(zhǔn)化回歸系數(shù)無單位,用來比較各自變量對(duì)應(yīng)變量的影響大小,越大,對(duì)的影響越大。第二節(jié)回歸分析中變量的選擇并不是事先考慮的所有的自變量對(duì)反應(yīng)變量的影響都有統(tǒng)計(jì)學(xué)意義。在許多研究中,多因素線性回歸分析的目的是建立一個(gè)預(yù)測(cè)效果最優(yōu)的回歸模型,需要對(duì)自變量進(jìn)行篩選:將對(duì)反應(yīng)變量沒有影響的自變量從模型中剔除,將對(duì)反應(yīng)變量的作用有意義的自變量納入模型當(dāng)中。殘差平方和()縮小或確定系數(shù)()增大

越小越好!越大越好!

然而,

只要增加自變量個(gè)數(shù),這個(gè)量就會(huì)減小!?自變量篩選的統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)殘差的均方()縮小或調(diào)整確定系數(shù)()增大

自變量篩選的統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)AIC統(tǒng)計(jì)量AIC值達(dá)到最小,該模型為最佳模型,AIC準(zhǔn)則自變量篩選的統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)自變量篩選的方法最優(yōu)子集回歸分析法:

p個(gè)變量有2p-1個(gè)方程逐步回歸分析:向前引入法(forwardselection)向后剔除法(backwardselection)逐步引入-剔除法(stepwiseselection)(一)最優(yōu)子集回歸法求出所有自變量可能組合子集的回歸方程的模型(共有2p-1個(gè)),按一定準(zhǔn)則選擇最優(yōu)模型,常用的準(zhǔn)則有:①校正決定系數(shù)或殘差的均方(考慮了自變量的個(gè)數(shù))②AIC(Akaike`sInformationCriterion)準(zhǔn)則;AIC越小越好最優(yōu)子集法的局限性

如果自變量個(gè)數(shù)為4,則所有的回歸有24-1=15個(gè);當(dāng)自變量數(shù)個(gè)數(shù)為10時(shí),所有可能的回歸為210-1=1023個(gè);……..;當(dāng)自變量數(shù)個(gè)數(shù)為50時(shí),所有可能的回歸為250-1≈1015個(gè)。

前進(jìn)法(forwardselection)后退法(backwardelimination)逐步回歸法(stepwiseregression)。它們的共同特點(diǎn)是每一步只引入或剔除一個(gè)自變量。決定其取舍則基于對(duì)偏回歸平方和的F檢驗(yàn),它表示在原有回歸方程基礎(chǔ)上引入或剔除某一自變量后所增加或減少的那部分回歸平方和.(二)逐步回歸分析(1)前進(jìn)法

自變量從無到有、從少到多

將偏回歸平方和最大且能使回歸系數(shù)檢驗(yàn)拒絕者入選為第一個(gè)自變量;規(guī)定一個(gè)界值,接著將余下的變量中偏回歸平方和最大并使檢驗(yàn)拒絕者選為第二個(gè)自變量;……

如此不斷引入新的自變量,直到再不能拒絕時(shí)為止。局限性:只進(jìn)不出,后續(xù)變量的引入可能會(huì)使先進(jìn)入方程的自變量變得不重要。(2)后退法

先將全部自變量放入方程,然后逐步剔除

首先對(duì)全部候選變量作總的回歸,每次剔除一個(gè)偏回歸平方和最小而使回歸系數(shù)的檢驗(yàn)不能拒絕者。直到再不能剔除時(shí)為止。

局限性:只出不進(jìn),自變量高度相關(guān)時(shí),可能得不出正確的結(jié)果;開始時(shí)剔除的變量即使后來變得有顯著性也不能再進(jìn)入方程。(3)逐步回歸法

雙向篩選(實(shí)際應(yīng)用最多):在向前引入的每一步之后都要考慮從已引入方程的變量中剔除相形見絀者引入有意義的變量(前進(jìn)法)剔除無意義的變量(后退法)先規(guī)定兩個(gè)閾值P引入和P剔除(P引入<P剔除),當(dāng)候選變量中最大P值≤P引入時(shí),引入相應(yīng)變量;已進(jìn)入方程的變量最小P值≥P剔除時(shí),剔除相應(yīng)變量。如此交替進(jìn)行直到無引入和無剔除為止(計(jì)算復(fù)雜)多重線性回歸的應(yīng)用(1)定量地建立一個(gè)反應(yīng)變量與多個(gè)解釋變量之間的線性關(guān)系。例如,建立肺活量的大小與身高、體重、年齡和性別之間的線性關(guān)系。(2)篩選危險(xiǎn)因素。例如,篩選高血壓的危險(xiǎn)因素。(3)通過較易測(cè)量的變量估計(jì)不易測(cè)量的變量。例如,建立嬰兒體表面積關(guān)于身高、體重、月齡的多因素線性回歸方程,可以通過容易測(cè)量的身高、體重、月齡等變量估計(jì)不易測(cè)量的體表面積。(4)通過解釋變量預(yù)測(cè)反應(yīng)變量。例如,通過風(fēng)速、汽車流量、氣溫等指標(biāo)預(yù)測(cè)空氣中一氧化氮的濃度。(5)通過反應(yīng)變量控制解釋變量。例如,在氣溫、風(fēng)速不變的情況下,通過控制汽車流量來實(shí)現(xiàn)空氣中一氧化氮濃度不超過一定的水平。多重線性回歸的應(yīng)用多重線性回歸應(yīng)用時(shí)的注意事項(xiàng)

1.樣本含量2.方程“最優(yōu)”問題3.關(guān)于逐步回歸4.多重共線性5.啞變量設(shè)定6.變量間的交互作用7.殘差分析多重共線性是指在進(jìn)行多元回歸分析時(shí),自變量間存在較強(qiáng)的線性相關(guān)關(guān)系。共線關(guān)系的存在,可使得估計(jì)系數(shù)方差加大,系數(shù)估計(jì)不穩(wěn),結(jié)果分析困難。因此在多因素線性回歸分析時(shí),特別是當(dāng)回歸結(jié)果難以用專業(yè)知識(shí)解釋時(shí),要進(jìn)行共線性診斷,找出存在共線性且不重要的那些自變量,剔出方程,另行回歸分析。對(duì)于存在共線性的資料,可以利用共線性診斷有選擇的保留自變量以消除共線性;或者采用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標(biāo)對(duì)結(jié)果的影響。剔除某個(gè)造成共線性的自變量,重建回歸方程;合并自變量;采用逐步回歸方法。4.多重共線性

多重共線性的表現(xiàn)在實(shí)際應(yīng)用中主要表現(xiàn)為:(1)模型擬合效果很好,但偏回歸系數(shù)幾乎都無統(tǒng)計(jì)學(xué)意義;(2)偏回歸系數(shù)估計(jì)值的方差很大;(3)偏回歸系數(shù)估計(jì)值不穩(wěn)定,隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當(dāng)一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論