




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、專題4:多元線性回歸分析1 處理的問題2 回歸方程3 原始數(shù)據(jù)4 基本思想5 主要統(tǒng)計結果6 多元回歸例題7 模型的要求8 自變量的篩選逐步回歸9 多對多回歸雙重篩選逐步回歸簡介10 應用舉例1 處理的問題多元線性回歸是一元線性回歸的拓展,可以同時考慮多個自變量,用于分析幾個自變量與一個因變量之間的線性關系,建立由幾個自變量推測一個因變量的回歸方程。注:這里的多元是指多個自變量,因變量只有一個,即一對多回歸。多元統(tǒng)計分析中的多元回歸也指同時有多個因變量和多個自變量,即多對多回歸。返回2 回歸方程多元線性回歸的回歸方程為:y b0 + b1x1 + b2x2 + + bkxk其中: x1、x2、
2、xk 為一組自變量 y 為因變量 y 為y的估計值 b0 為截距(即常數(shù)項) b1、b2、bk 為(偏)回歸系數(shù) 回歸方程在體育中有許多重要的應用,如運動成績的預測和訓練中的控制、運動成績的影響因素分析、難測生理指標的估計等等。返回3 原始數(shù)據(jù) 抽取一個樣本,測取樣本中每個觀察對象的因變量y值及自變量x1、x2、xk的值,注意每個對象各指標的值都要測全。為了取得較好的效果,樣本含量n不能太小,最好有k的5至10倍或更多。對象yx1x2xk1y1x11x21xk12y2x12x22xk2nynx1nx2nxkn返回4 基本思想 建立回歸方程的準則有多種,其中最常用的是“最小二乘法”,這是一種經(jīng)典
3、的方法,也是一種默認方法,即不作說明的話,一般都是用該法。該法要求建立的回歸方程使Q(yy )2達到最小。在該準則下,回歸系數(shù)可以通過解下面的方程組(稱為正規(guī)方程組)得到:其中: (Lij Lji) (i , j 1,2,3,k)從而可以根據(jù)“正規(guī)方程組”解出b1、b2、bk常數(shù)項b0可通過下式計算:返回5 主要統(tǒng)計結果51 回歸系數(shù)和截距52 回歸方程的檢驗與評價53 偏回歸系數(shù)的檢驗各自變量作用的檢驗54 影響因素分析返回51 回歸系數(shù)和截距因為回歸方程為:y b0 + b1x1 + b2x2 + + bkxk所以給出截距(常數(shù)項)b0和回歸系數(shù)b1、b2bk,也就是給出回歸方程。返回52
4、 回歸方程的檢驗與評價521 回歸方程的檢驗522 復相關系數(shù)、測定系數(shù)和剩余標準差返回521 回歸方程的檢驗上述回歸系數(shù)b1、b2bk 是根據(jù)樣本計算出的,為樣本回歸系數(shù)。總體回歸系數(shù)記為1、2k ,反映總體關系的回歸方程應該為:回歸方程的檢驗就是要檢驗原假設H0 :12k0若該假設成立,則說明總體上這組自變量x1、x2、xk 與因變量y間沒有線性關系,所以回歸方程沒有意義。若該假設被拒絕,則說明總體上這組自變量(至少其中一部分)與y有線性關系,回歸方程有意義。 檢驗方法仍然是方差分析的思想:=+ SSR SSE其中:SSR 稱為回歸平方和,SSE稱為剩余平方和。顯然,若回歸效果較好的話,應
5、該SSE比較小而SSR比較大,所以我們可以用以下公式來檢驗: F(k , nk1)一般檢驗結果仍然以方差分析表的形式給出。如:返回522 復相關系數(shù)、測定系數(shù)和剩余標準差復相關系數(shù)決定系數(shù)調(diào)整的決定系數(shù)剩余標準差決定系數(shù)等計算結果例返回復相關系數(shù) 復相關系數(shù)R是簡單相關系數(shù)r的推廣,它反映一組自變量x1、x2、xk與因變量y之間的相關程度。其定義如下:R顯然總有:0 R 1事實上,R也就是實際觀察值y與回歸估計值y 之間的簡單相關。R的顯著性檢驗等價于上述回歸方程的F檢驗。返回決定系數(shù)復相關系數(shù)的平方R2稱為決定系數(shù)(也稱為測定系數(shù)),它反映了因變量y的變化中,有多少由自變量x1、x2、xk所
6、決定。如R20.78,則說明y的變化中有78由x1、x2、xk決定。顯然R或R2越大,回歸效果越好。返回調(diào)整的決定系數(shù)在多元回歸中,當樣本固定時,隨著多元線性回歸模型中自變量的不斷加入,R會越來越大,當模型中自變量的個數(shù)為樣本含量減1時,R必然為1,這也可以從兩點決定一直線、三點決定一平面中直觀地看出。 所以在衡量回歸方程的效果時,常常還要考慮方程中變量的個數(shù)。變量越多,應要求R越大,所以又常用調(diào)整的決定系數(shù)Ra2或調(diào)整的復相關系數(shù)Ra,在若干個回歸方程中選擇一個時,常常考慮Ra最大的。返回 剩余標準差用回歸方程對因變量y進行估計(預測)時,估計精度主要由剩余標準差SE決定,其定義如下:SE越
7、小,估計精度越高,越準確。 設有一觀察對象各自變量的值為x1, 0、x2, 0xk, 0 ,根據(jù)回歸方程推算的因變量的估計值為y 0 ,因變量值為y0(未知)。當有關變量服從多元正態(tài)分布、樣本含量較大、自變量的值離均值不太遠時,近似地有:y0的95置信區(qū)間為(y 02SE ,y 02SE)注意,這只是一個非常粗糙的近似,估計預測精度的確切的公式相當復雜,但一般而言,樣本含量大則預測精度較高,各自變量接近均值則預測精度較高。返回決定系數(shù)等計算結果例返回53 偏回歸系數(shù)的檢驗各自變量作用的檢驗在回歸方程的檢驗中,當原假設H0 :12k0被拒絕時,1、2、k不全為0,但不一定全不為0,究竟哪幾個不為
8、0,還需要進一步檢驗。反映總體關系的回歸方程應該為:若i0,則xi在方程中有作用,若i0,則xi在方程中不起作用。對原假設H0 :i0 (i1、2、k)的檢驗,常用的方法有兩種,一種是用偏回歸平方和作F檢驗,另一種是用參數(shù)方法作t檢驗。(SPSS中,對回歸系數(shù)進行檢驗時,用t檢驗;對變量進行篩選時,用F檢驗)若方程中有些自變量該檢驗不具有顯著性,則說明方程中有多余自變量,應考慮剔除。返回54 影響因素分析建立了回歸方程后,我們自然要問:哪個自變量對y的影響程度更大?哪個自變量與y的關系更密切?這就是回歸中的影響因素分析問題。541 標準偏回歸系數(shù)542 偏相關系數(shù)返回541 標準偏回歸系數(shù)回歸
9、方程為:y b0 + b1x1 + b2x2 + + bkxk根據(jù)回歸方程反映的關系,當xi增大一個單位時,y將增大bi個單位左右。但bi與xi所取單位有關,用同樣的資料計算,自變量單位越大,則偏回歸系數(shù)絕對值也越大。若xi的單位為毫米時,其偏回歸系數(shù)為bi,則當其單位改用厘米時,偏回歸系數(shù)將變?yōu)?0bi,顯然直接用偏回歸系數(shù)衡量自變量對y的影響不合理,必須消除單位的影響,所以要用標準偏回歸系數(shù)。設x的總體均數(shù)為,總體標準差為,則稱為x的標準化變量。標準化變量的均數(shù)為0、標準差為1。因、常不知道,也近似地用。將數(shù)據(jù)作如上變換后,稱為標準化數(shù)據(jù)。用標準化數(shù)據(jù)建立的關于標準化變量的回歸方程y b1
10、x1+b2x2+bkxk稱為標準回歸方程(標準回歸方程中的常數(shù)項總為0),標準回歸方程中的(偏)回歸系數(shù)b1、b2、bk 稱為標準(偏)回歸系數(shù)。 當xi增大一個標準差(xi的標準差)時,y將增大bi 個標準差(y的標準差)。所以標準偏回歸系數(shù)的絕對值越大,相應的自變量對y的影響就越大。標準偏回歸系數(shù)的檢驗等價于偏回歸系數(shù)的檢驗。返回542 偏相關系數(shù)在多元統(tǒng)計中,變量之間的相關關系是錯綜復雜的,兩個變量之間的相關關系往往摻雜著其他變量的影響。例如,我們測18歲男童的握力和詞匯量,會發(fā)現(xiàn)兩者之間的簡單相關程度很高,這主要是由于兩者共同受著年齡的影響,年齡大的握力大、詞匯量大,年齡小的握力小、詞
11、匯量小,若排除年齡的影響,握力與詞匯量幾乎不相關。要排除其他因素的影響有兩個方法,一個是在獲取數(shù)據(jù)時將該因素固定,如上例中都取相同年齡的男童,另一個是用統(tǒng)計方法,如用偏相關系數(shù)。 偏相關系數(shù)表示剔除了x3的影響后x1與x2的相關,表示剔除了x1、x3、x4的影響后,x2與x5間的相關,依此類推。偏相關系數(shù)和簡單相關系數(shù)有時會相差很大,甚至符號相反。 在多元回歸中,考慮一個自變量與因變量的相關程度時,應該用排除了其他自變量的影響后的偏相關系數(shù)來衡量。返回6 多元回歸例題例:根據(jù)20名女中學生的體重(x1,kg)、胸圍(x2,cm)、胸圍的呼吸差(x3,cm)及肺活量(y,ml)的資料,以y為因變
12、量作多元回歸。(數(shù)據(jù)略)主要結果如下:模型概述復相關系數(shù)、測定系數(shù)和剩余標準差:方差分析表:系數(shù)及檢驗返回7 模型的要求 線性回歸模型一般要求:l 各誤差項相互獨立,且服從均數(shù)為0的正態(tài)分布。l 各誤差項的方差相等。l 各自變量相互獨立(不相關)。對第一條一般程度的違背,不會對模型造成實質(zhì)性的影響。嚴重違背且樣本含量又較小時,會影響假設檢驗的結果。第二條明顯不滿足時,應使用加權回歸。第三條在實踐中不易做到,若相關程度不高則問題不大,但當自變量間具有較高程度的線性相關關系,某些自變量能近似地用其他自變量的線性函數(shù)來描述時(這種現(xiàn)象稱為“多重共線性”),將會對模型的擬合產(chǎn)生嚴重影響。用下面要介紹的
13、“逐步回歸”對變量進行篩選是解決共線性問題的方法之一,也可在聚類分析的基礎上再做回歸分析,另外,結合專業(yè)知識人工剔除部分變量也是重要的途徑之一。實在不行只有換用其他統(tǒng)計方法,如嶺回歸。返回8 自變量的篩選逐步回歸為什么要對自變量進行篩選?逐步回歸的基本思想*自變量對方程作用的衡量*控制標準逐步回歸例題返回為什么要對自變量進行篩選 原因一:在回歸分析中,自變量的選擇是頭等重要的問題。如果某個重要變量遺漏,回歸方程的效果一定好不了。而若變量太多,使用起來又不方便。原因二:當自變量存在多重共線性問題時,也需要在具有共線性關系的變量中剔除一部分,以解決該問題。比較好的做法是,先根據(jù)專業(yè)知識挑選一批與因
14、變量有關的變量(盡量保證不遺漏重要變量),然后用統(tǒng)計方法進行篩選。篩選變量的方法有許多,目前使用最多的是逐步回歸法。返回逐步回歸的基本思想 首先,所有自變量都在方程外,然后開始以下程序:l 步1:在方程外變量中挑一個對方程作用最大的,判斷其作用是否顯著(是否達到進入方程的標準),若不顯著則結束。若顯著,將其選入方程,然后轉“步2”。l 步2:判斷方程中各變量作用是否顯著(是否達到留在方程中的標準),若都顯著,返回步1。若有不顯著的,挑一個最不顯著的剔出方程,然后重新進行步2。如此在步1、步2之間反復進行,直到方程外沒有變量可進入方程,方程內(nèi)也沒有變量可剔出方程為止。注意在這個過程中剔出方程的變
15、量可以再進入方程的。返回自變量對方程作用的衡量 自變量對方程作用的衡量,也即偏回歸系數(shù)的檢驗,可以用上述的t檢驗,但在逐步回歸中一般使用偏回歸平方和的檢驗。自變量xi的偏回歸平方和SSi定義如下SSi(包含xi時的回歸平方和)(剔除xi后的回歸平方和)由于回歸平方和越大,回歸的效果越好,所以SSi越大,xi對方程的作用就越大。但要注意SSi不僅與xi有關,還與方程中有哪些自變量有關。 偏回歸平方和可用下面公式檢驗: F(1,nk1)這一檢驗也常用于偏回歸系數(shù)的檢驗。返回控制標準 逐步回歸中控制變量進入或剔出方程的標準,常用的有以下幾種。 用上述F檢驗的顯著性p值來控制。設一個P-entry,一
16、個P- removal,必須P-entryP- removal。某自變量的pP- removal時 需要剔出方程最常用的設法是P-entry0.05,P- removal0.10。 用上述F檢驗的統(tǒng)計量F值來控制。設一個F-entry,一個F- removal,必須F-entryF-removal。某自變量的FF-entry時 可以進入方程某自變量的FF- removal時 需要剔出方程常用的設法是F-entry3.84,F(xiàn)- removal2.71。一般所設p值越大,進入方程的變量越多。所設F值越小,進入方程的變量越多。實際操作時可以用不同的控制值來試探,挑一個較滿意的方程使用。有時會將專業(yè)
17、上非常重要的指標排除在方程外,要將控制標準放寬到該變量能進入方程的話,又會造成大量無用變量的進入,這時可使用一些高級程序中提供的變量“強制進入”功能,或人為地將與該變量相關程度高的變量剔除后再做逐步回歸。返回逐步回歸例題我們?nèi)砸陨鲜龇位盍繂栴}為例。例:根據(jù)20名女中學生的體重(x1,kg)、胸圍(x2,cm)、胸圍的呼吸差(x3,cm)及肺活量(y,ml)的資料,以y為因變量作多元回歸。(數(shù)據(jù)略)當取Pin=0.05、Pout=0.10時,可得如下計算結果:l 變量進出情況:l Model Summary(模型概述復相關系數(shù)、測定系數(shù)和剩余標準差)l ANOVA(方差分析表)l Coeffic
18、ients(系數(shù))l Excluded Variables被排除的變量若進入方程的話,其標準偏回歸系數(shù)、偏相關系數(shù)、容差(容許值)當取Pin=0.06、Pout=0.10時,可得如下計算結果:返回9 多對多回歸雙重篩選逐步回歸簡介 上述多元回歸是多個自變量、一個因變量,是一對多回歸。在多元統(tǒng)計中,多元回歸主要指多個自變量、多個因變量,即自變量與因變量都是多元隨機變量,為區(qū)別起見,稱為多對多回歸。一對多回歸是多對多回歸的特例。 在多對多回歸中,不是每個因變量都與相同的一組自變量有線性關系的,與各因變量有關系的自變量是交叉的。所以在進行變量的篩選時,既要對自變量進行篩選,又要對因變量進行篩選,最后把多個因變量分成若干組,使同一組中的因變量都與相同的一組自變量有關,并對每個因變量給出一個回歸方程。這就是雙重篩選逐步回歸。 雙重篩選逐步回歸的算法與一對多逐步回歸的算法不同,控制標準既要有針對篩選自變量的,又要有針對因變量分組的。但最后所得回歸方程的理解與一對多回歸基本相同。返回10 應用舉例應用方面:1. 運動成績的預測:橫向、縱向、橫向帶滯后2. 運動成績的影響因素分析:因變量為運動成績,自變量為有關的身體素質(zhì)、形態(tài)、生理機能等。3. 難測生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025買賣鋼材簡易合同范本
- 2025合同違約與合同無效的差異
- 2025鋁合金窗戶安裝合同
- 2025標準個人住宅抵押擔保借款合同
- 2025網(wǎng)簽版私人購房合同
- 2025租賃合同范本匯編
- 2025標準版土地轉讓合同
- 2025年國際貿(mào)易代理合同范本
- 2025年安徽省淮北市五校聯(lián)考中考二模歷史試題(含答案)
- 用戶受電施工合同協(xié)議
- 初中道德與法治實踐性作業(yè)創(chuàng)新設計
- 永善縣污水處理廠污泥無害化處理工程環(huán)評報告
- 移動應用程序安全漏洞檢測項目可行性分析報告
- 易燃液體罐式運輸半掛車合格證
- 齒輪泵泵體的加工工藝與專用夾具設計
- 《全國非融資性擔保機構規(guī)范管理指導意見》
- 高溫下的安全生產(chǎn)教育培訓
- 固定資產(chǎn)盤點情況范文
- 畢業(yè)設計(論文):智能環(huán)境監(jiān)控系統(tǒng)設計
- 2023山西焦煤集團有限責任公司井下操作工招聘2000人筆試備考試題及答案解析
- 勞動與技術教育課程資源開發(fā)和整合
評論
0/150
提交評論