




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1多重線性回歸分析復旦大學生物統計學教研室2線性回歸模型單因素線性回歸模型(復習)多重線性回歸方程多重線性回歸模型模型的參數估計多重線性回歸對資料的要求多重線性回歸舉例應用3單因素線性回歸的復習4舉例復習單因素回歸模型例為了研究3歲至8歲男孩人群平均身高(cm)與年齡(year)的規律,在某地區在3歲至8歲男孩中隨機抽樣,共分6個年齡層抽樣:3歲,4歲,…,8歲,每個層抽3名男孩,共抽18名男孩。資料如下:5本例的研究目的和實現方法研究目的:了解年齡與兒童人群的平均身高對應關系。方法1:可以做普查,得到每個年齡組所有兒童的身高,并且計算每個年齡組的兒童人群的平均身高。方法2:作抽樣調查,本例就是通過按年齡組分層抽樣調查,獲得樣本后用回歸分析的方法得到每個年齡組兒童人群的平均身高估計值和相應的統計推斷。6兒童身高的分布特征一般而言,兒童身高滿足同一年齡x的兒童身高y近似服從正態分布,因此對于每個年齡x,均有一個身高y的總體均數。不同年齡x的兒童身高分別近似服從對應不同身高總體均數的正態分布。身高的總體均數是年齡x的一個函數7畫散點圖考查身高與年齡的分布關系Y的離散程度與X沒有關系,并且散點呈直線帶8畫散點圖考查身高總體均數與年齡的關系
年齡組的身高樣本均數與年齡的散點圖9由散點圖確定身高總體均數與年齡
可能是直線關系年齡組的身高樣本均數與年齡的散點圖顯示年齡組的身高樣本均數與年齡幾乎在一條直線上,略有些偏離直線的點可以理解為樣本均數的抽樣誤差所致(因為樣本均數一般不等于總體均數),因此可以假定固定年齡的身高總體均數與年齡x的關系可能是直線關系,即假定:10回歸方程并且稱上述直線方程為(總體)回歸方程。回歸方程中,為未知參數,需要用樣本資料通過擬合曲線后得到其估計值,并分別記為a和b,相應得到樣本估計的回歸方程通常稱為Y的預測值,其意義為固定x,Y的總體均數的估計值。11Y與x的直線回歸關系由總體回歸方程可知:當=0時,。即:對于x的任何值,總體均數沒有任何改變,因此建立Y與x的直線回歸方程就沒有任何意義了,所以稱0時,Y與x
之間存在直線回歸關系,反之=0Y與x
之間稱不存在直線回歸關系。12回歸模型根據正態分布性質,可以得到:固定年齡X,身高Y服從總體均數為,方差為2的正態分布由散點圖可以假定總體均數故令,即:,并稱為直線回歸模型13誤差與殘差
稱為隨機誤差稱為殘差(residual)根據上述,直線回歸分析要求資料滿足固定X,Y服從正態分布等價于殘差服從正態分布。14直線回歸原理示意圖所以如果固定x,Y服從正態分布,其散點圖呈直線帶分布15直線回歸系數的估計用最小二乘法擬合直線,選擇a和b使其殘差(樣本點到直線的垂直距離)平方和達到最小。即使下列的SSE達到最小值。由此得到16回歸系數的意義由總體回歸方程可知回歸系數表示:x增加一個單位,總體均數增加個單位由于是的估計表達式,所以(樣本)回歸系數b表示x增加一個單位,估計y平均增加b個單位。
17回歸系數假設檢驗的必要性由于樣本回歸系數b與總體回歸系數存在抽樣誤差,即:一般情況下,b,因此需要考慮抽樣誤差對統計推斷是否存在重大影響。由于
=0時,,Y與x之間不存在直線回歸關系,因此是否為0,涉及到所建立的回歸方程是否有意義的重大問題,然而即使=0,樣本回歸系數b一般不為0,因此需要對回歸系數是否等于0進行假設檢驗。18回歸系數的假設檢驗H0:=0vs.H1:0=0.05回歸系數的標準誤為其中s為殘差的標準差則回歸系數的檢驗統計量為
19回歸系數的假設檢驗殘差的標準差s還可以表示為可以證明:H0:=0成立時,檢驗統計量tb服從自由度為n-2的t分布。即:當出現,=0而言這是小概率事件,故可以拒絕H0:=0,認為0。20回歸系數檢驗統計量t的分布示意圖當|t|>t0.05,1,n-2時,對=0而言是小概率事件,對>0而言并非是小概率事件21成組t檢驗由單因素線性回歸實現下列將舉例證實成組t檢驗可以用單因素線性回歸實現,以此進一步理解線性回歸的意義。舉例:在2型糖尿病患者人群和健康人群中分別隨機抽取15個年齡在50歲~60歲男性對象,測量其體重指數BMI,分析這兩個人群的平均BMI是否不同。22成組t檢驗由單因素線性回歸實現先做成組t檢驗,借助Stata軟件得到下列t檢驗結果糖尿病組的BMI均數-健康組的BMI均數=1.74,t=4.2754,P=0.0002,95%CI為(0.9063416,2.573658)23成組t檢驗由單因素線性回歸實現定義因變量Y為BMI,糖尿病組定義自變量x=1,健康組定義自變量x=0,數據格式如下借助Stata軟件實現線性回歸:regyx24成組t檢驗由單因素線性回歸實現Stata輸出結果為回歸系數=糖尿病組均數-健康組均數=1.74t=4.28,P<0.001,95%可信區間為(0.9063416,2.573658),與t檢驗結果完全相同25成組t檢驗由單因素線性回歸實現原理因為回歸方程為Y是固定X時的Y總體均數,所以X=0時,健康人群的總體均數為,X=1時,糖尿病人群的總體均數為因此糖尿病人群總體均數與健康人群的總體均數之差為,因此檢驗兩個總體均數相等的問題就是檢驗回歸系數的問題。26成組t檢驗由單因素線性回歸實現原理由于預測值是總體均數的估計值,所以x=0,X=1,所以事實上,樣本回歸方程就是成組t檢驗由單因素線性回歸實現原理27成組t檢驗由單因素線性回歸實現原理由于線性回歸模型為X=0時,X=1時即:對于成組t檢驗資料而言,用X=1和X=0定義分組變量,其資料滿足線性回歸對資料的要求,故其結果與成組t檢驗相同。28多重線性回歸模型介紹29多重線性回歸方程設有m個自變量為,亦稱協變量,應變量為Y,則描述Y的總體均數與m個自變量之間的線性關系可以用下列的多重線性回歸方程
其中0為常數項,亦稱截距,1,2,…,m稱為偏回歸系數。30多重線性回歸模型刻畫觀察變量Y與自變量之間的對應關系為下列多重線性回歸模型i表示除Xi以外的其它自變量固定的情況下,Xi變化一個單位,相應Y的平均變化值,即Y總體均數的相應變化值。31多重線性回歸模型0,1,2,…,m
一般是未知的,但可根據樣本資料擬合回歸方程得到其估計值,,由此可寫出相應的樣本回歸方程稱樣本偏回歸系數,簡稱偏回歸系數。32多重線性回歸模型由于多重線性回歸方程的參數估計方法采用最小二乘法,對于多個自變量的情況,計算量相對比較煩瑣,一般需用計算機完成計算,故以下將通過實例介紹多重線性回歸方程的基本分析步驟和分析策略。33多重線性回歸舉例1欲研究糖尿病患者的總膽固醇(X1)和甘油三酯(X2)對空腹血糖(Y)的影響,某研究者調查40名糖尿病患者的總膽固醇、甘油三酯和空腹血糖的測量值如下,試根據上述研究問題作統計分析。34舉例1的數據
總膽固醇X1,和甘油三酯X2對空腹血糖Y35參數估計根據上述研究問題,考慮用多重線性回歸進行統計分析,其回歸方程為尋找0,1和2
使下列和式SS達到最小,稱為最小二乘法。36參數估計結果故借助統計軟件,得到下列參數估計由此得到回歸方程的估計表達式37線性回歸的模型檢驗借助線性回歸的方差分析可以進行模型檢驗。首先線性回歸方程可以把因變量的總變異SS總分解為回歸平方和SS回歸和殘差平方和SS殘差。對應的自由度為38線性回歸的模型檢驗模型檢驗的檢驗假設H0:1=2=…=m=0H1:1,2,…,m
不全為0=0.05檢驗統計量39線性回歸的模型檢驗當H0:1=2=…=m=0為真時,即:如果,可以拒絕H0,推斷1,2,…,m
不全為0。40線性回歸的模型檢驗本例借助Stata軟件輸出結果得到:拒絕H0,故可以推斷1,2不全為041線性回歸模型的單個參數檢驗單個回歸系數i的檢驗表示其它m-1個自變量均在當前回歸模型中的條件下,Xi的回歸系數i是否為0的統計檢驗,具體方法如下:H0:i=0H1:i0=0.05檢驗統計量42線性回歸模型的單個參數檢驗其中bi是i的最小二乘估計(而且是無偏估計),是bi的標準誤,n為樣本量,m為模型中的自變量個數。可以證明:當H0:i=0成立時,統計量服從自由度為n-m-1的t分布。即:i=0為真時,對于1次隨機抽樣而言:出現的概率為0.05,故可拒絕無效假設H0:i=0,并可以認為i0。43線性回歸模型的單個參數檢驗本例單個參數檢驗結果總膽固醇(X1)上升1mmol/L,估計空腹血糖平均上升0.172mmol/L,差異有統計學意義。甘油三酯(X2)上升1mmol/L,估計空腹血糖平均上升0.318mmol/L,差異有統計學意義。44線性回歸模型舉例2為了研究0歲至8歲兒童身高增長的規律,在某社區隨機抽樣,調查了20名男孩和20女孩的年齡和身高,男性取值為1,女性取值為0。試找出兒童身高的一般規律。定義身高為因變量Y,年齡為X1,性別為X245線性回歸模型舉例2的數據46線性回歸模型舉例2對于同一性別而言,兒童的平均身高與年齡通常呈線性增長關系,但不同性別的兒童身高及其增長速度有一定的差異,因此試圖用下列回歸方程表示不同性別的兒童身高與年齡的關系。47線性回歸模型舉例2方程對于女孩,代入方程,得到下列回歸方程1表示女孩的每年的平均身高增長量,0表示女孩出生時的平均身高。對于男孩,代入方程,得到下列回歸方程48線性回歸模型舉例2男孩的每年的平均身高增長量為1+3男孩出生時的平均身長為0+2如果3=0,則男孩與女孩的每年的平均身高增長量相同。如果2=0,則男孩與女孩出生時的平均身長相同。49線性回歸模型舉例2借助Stata軟件輸入命令genx1x2=x1*x2產生x1*x2變量regyx1x2x1x2線性回歸分析50線性回歸模型2舉例由線性回歸的方差分析結果可以推斷:1,2,3不全為0,故可以認為擬合該回歸模型是有統計學意義的。擬合回歸方程的主要評價指標是決定系數R2R2表示因變量Y與自變量X1,┄,Xm
伴隨變化的變異成分占Y總變異的比例。51線性回歸模型2舉例本例的Stata輸出結果如下R2=0.9972,即:Y的99.72%的變異是與X1和X2伴隨變化的52線性回歸模型舉例2由此得到樣本估計的回歸方程女孩(X2=0)的身高回歸方程為女孩在出生時(X1=0)的平均身高約為64.6cm,身高平均每年增長約為8cm,由1的P<0.0001,推斷差異有統計學意義。53線性回歸模型舉例2男孩(X2=1代入方程)的身高回歸方程為其中1+3的估計值為8.279,還應檢驗總體回歸系數之和1+3是否為0借助Stata軟件:testx1+x1x2=0,得到(1)x1+x1x2=0F(1,36)=6379.64Prob>F=0.0000,故有統計學意義。54線性回歸模型對資料的要求線性回歸要求資料滿足:殘差變異程度與任何一個自變量Xi沒有關聯性殘差變化與任何一個自變量Xi沒有任何伴隨趨勢。因變量觀察值之間獨立(從抽樣背景上考察)其中第1條和第2條要求是通過分別作殘差與每個自變量的散點圖進行判別的。55線性回歸模型對資料的要求本例:用Stata命令計算殘差predicte,residualgraphex1,xlabelylabel散點圖顯示殘差與X1之間沒有明顯的伴隨趨勢56線性回歸模型對資料的要求graphex2,xlabelylabel殘差與x2的散點圖顯示沒有明顯的伴隨趨勢57舉例介紹應用線性回歸進行協方差分析例:為了評價缺鐵性貧血的兩種不同的療效,某研究者在預試驗中收集了40名患者,隨機分為A組和B組,兩組的治療方案分別稱為A方案和B方案,A方案用分組變量X1=0表示,B方案用X1=1表示。經過一個月治療后,治療前紅細胞數(萬/l)和治療后的紅細胞增加數等如表20-8,記治療后的紅細胞增加數為Y,治療前的紅細胞數為X2,試評價兩種治療方案的療效差異。58協方差分析舉例數據59協方差分析舉例記治療后的紅細胞增加數Y的總體均數為,若不考慮治療前紅細胞數(稱為基線)對療效的影響,則可用下列回歸方程刻畫兩種治療方案的療效。A方案對應X1=0方程,得到用A方案治療前后的紅細胞數改變量的總體均數為0,B方案對應X1=1
代入方程,得到用B方案治療前后的紅細胞數改變量的總體均數為0+1,因此兩種方案的療效差異的總體均數為1,本質上就是一個成組t檢驗。60協方差分析舉例由于治療后的紅細胞增加數往往與治療前的紅細胞數水平X2有關,一般需要校正治療前紅細胞數水平X2對治療后的紅細胞增加數的影響(稱為校正基線對結果的影響),故可用下列回歸方程61協方差分析舉例由方程A方案(X1=0)的紅細胞增加數的總體均數為B方案(X1=1)的紅細胞增加數的總體均數為兩種治療方案的紅細胞增加數的總體均數差值為62協方差分析舉例所以稱協方差模型中的1的估計和檢驗是校正了基線后的兩種治療方案療效差異的統計推斷。借助Stata軟件:regyx1x2校正基線后,兩組均數差異為0.625,t=2.11,P=0.042<0.05差異有統計學意義。63協方差分析的意義未校正基線是比較兩條水平直線的高度差異是否為0,校正基線后是比較兩條非水平直線的平行距離是否為064線性回歸模型分析應注意問題由于自變量之間往往存在一定的相關性,甚至有可能出現多個自變量的共線問題,以致回歸系數的估計出現較大誤差,甚至可能出現模型檢驗是有統計學意義的,但每個回歸系數的單個系數檢驗顯示差異無統計學意義,一般要通過篩選自變量或主成分方法解決。多個自變量共線一般用膨脹系數表述。65線性回歸模型分析應注意問題設自變量為,以Xi為自變量,其他m-1個變量為自變量做線性回歸,得到相應的決定系數R2,由此計算Xi的膨脹系數如果存在某個VIFk>10,則可以認為存在較嚴重的多元共線。如果遠大于1,也可認定多元共線。66自變量的篩選策略一般而言,自變量的篩選策略要根據研究問題和研究背景,分析研究背景,選擇最合理的自變量進入模型。例如:干預性研究,干預因素必須放入模型中,同時考慮哪些變量是對評價干預效果是有影響,并且要考慮這些因素能否對干預效果能否控制其混雜作用。例如:要考查不同自變量與因變量之間的直接關系與間接關系。67自變量的篩選策略舉例例:為了研究糖尿病患者的C反應蛋白Y與年齡X1和體重指數X2的關系,某研究者調查了60名糖尿病患者,測量和收集了C反應蛋白Y(mg/L)與年齡X1和體重指數X2,試分析C反應蛋白與年齡和體重指數的關系。68自變量的篩選策略舉例的數據69自變量的篩選策略舉例考慮模型1考慮模型2考慮模型370自變量的篩選策略舉例模型1的擬合結果為模型2的擬合結果為71自變量的篩選策略舉例模型3的擬合結果3個模型結果綜述如下72自變量的篩選策略舉例討論模型1的結果雖然顯示X1的P<0.001,推斷Y與X1呈線性回歸關系,但當模型中增加一個自變量x2時(即:模型3),則X1的P值大大增加,P=0.605,無統計學意義,回歸系數大幅度下降,而X2的P值<0.001,其回歸系數為0.233,比較模型中僅有一個自變量X2(模型2),其回歸系數為0.251,兩者相差很小,并且P值也<0.001,進一步分析X1與X2的相關系數為0.702,P<0.001,故可以推斷模型1所得到的Y與X1的線性回歸關系實際上是X1與X2相關并且Y與X2的線性回歸關系而間接形成的。73逐步回歸如果作為探索性研究,對研究背景中的許多因素不太了解之間的關系,可以采用逐步回歸作為各種關系的初探,其意義為尋找影響Y的主要因素。一般而言,模型的參數越多,模型的擬合程度越好,殘差平方和就越小,但回歸系數的檢驗效能就越低,另外過多的參數會導致內部符合程度很好但外部的預測誤差會很大,所以從外部預測誤差和統計檢驗的效能角度,希望在基本相同的擬合程度情況下,參數越少越好。74逐步回歸逐步回歸的基本準則是在滿足模型中的所有自變量的回歸系數的P值均小于前提下,盡可能地使模型中引入的自變量個數達到最多。嚴格地講:逐步回歸可以分為前進法(forward),后退法(Backward),逐步前進法(stepwiseforward)和逐步后退法(stepwisebackward)。75逐步回歸前進法:從未進入模型的自變量中挑選一個自變量進入模型,要求進入模型時,該自變量回歸系數P值<并且比其他為進入模型的自變量的P值都小,每次只挑選一個自變量進入模型,直到在沒有進入模型的自變量的P值(如果該變量進入模型)>為止。76逐步回歸后退法:將所有待選的自變量全部進入模型,如果存在P值>的自變量,則挑選P值最大的自變量剔除模型中,然后再擬合模型,如果還存在P值>的自變量,則繼續剔除P值最大的自變量,直到模型中所有自變量的P值均<為止。77逐步回歸逐步前進法:在前進法的基礎上,每引入一個自變量,還需考察引入后模型中是否存在自變量>,如果存在某些自變量的P值>,則挑選P值最大的自變量剔除,然后再考察是否還存在自變量的P值>,如果還存在繼續按照這個準則剔除,直到模型中的自變量的P均小于,然后在從待選自變量中挑選P值最小并且P<的自變量引入模型,依次循環,直至既沒有變量可以引入模型,也沒有變量可以剔除模型為止。78逐步回歸逐步后退法:在后退法的基礎上,每剔除一個自變量,考察一下未進入模型的自變量中有沒有自變量滿足P<,在P<的自變量中挑選P值最小的自變量進入模型,直至沒有自變量可以進入模型后,繼續在模型中挑選P值最大并且P>的自變量剔除,依次循環,直至既沒有自變量可以剔除,也沒有自變量可以引入為止。79逐步回歸舉例例:為了研究影響糖尿病患者糖化血紅蛋白(HbA1c)的主要危險因素,某研究者調查了某醫院內分泌門診的200名糖尿病患者的糖化血紅蛋白,年齡,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 委托制酒合同范本
- 買賣合同范本
- 銀行創業貸款合同范本
- 借款合同范本最大利息
- 中考古詩詞模擬訓練及詳細講解
- 鄉村院子租賃合同范本
- 畢業論文答辯匯報
- 2025買賣合同優先權
- 2016年福建省福州市中考數學試卷(含解析版)
- 軟件項目開發合同范本版2
- 500噸每日小區生活污水處理工程設計大學本科畢業論文
- 焊接工藝評定規程
- 第2課 我給家人泡杯茶(課件)-四年級上冊勞動鄂教版
- 五腧穴、原穴、郄穴、募穴、背俞穴、絡穴、八脈交會穴、八會穴、下合穴
- 全文《中國式現代化》PPT
- 創傷后應激障礙(PTSD)
- 必修二英語單詞默寫
- 宋詞欣賞《虞美人·聽雨》課件
- 文言文王安石《答司馬諫議書》司馬光《與王介甫書》閱讀練習及答案
- 松木樁地基處理計算表格(自動版)
- IPC6012C培訓
評論
0/150
提交評論