多元線性回歸_第1頁
多元線性回歸_第2頁
多元線性回歸_第3頁
多元線性回歸_第4頁
多元線性回歸_第5頁
已閱讀5頁,還剩60頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多元統計分析郭靜緒論近三十年來在數理統計學基礎上發展起來的一個新的數學分支。它屬于應用數學范疇。它的發展分為以下幾個階段:

第一階段:早在三十年代英國著名的統計學家R.A.Fisher做了許多杰出的貢獻,我國著名的數學家許寶錄先生也取得了許多成果,起到了奠基的作用。

第二階段:T.W.Anderson所寫的“IntroductiontoMultivariateStatisticalAnalysis”是一部很成功的著作,被譽為經典著作。第三階段:50年代后,多元統計有了很大的發展,世界各國先后出版了一批不同風格的比較有水平的著作,發表了大量文章,進一步促進了這一學科的發展。

第四階段:由于多元統計的計算量非常龐大,有些計算要幾個月,甚至幾年才能完成,這一時期計算工具的落后束縛了多元統計的發展。

第五階段:隨著計算機技術的飛速發展,計算機比較廣泛地使用,多元統計的許多龐大計算得以實現,所以,80年代未到90年代初又有了大的發展。

目前,多元統計分析方法已經廣泛應用于自然科學和社會科學的許多領域。我國近年來,在工業、農業、經濟、地質、醫學、氣象以及社會科學等許多方面,多元統計分析的理論和方法都得到了應用,并取得了可喜的成果。

多元統計分析在農業科學和生物科學中,用于:

數值分類(動、植物,微生物分類等)

數學模型

預測預報

種類判別

數量遺傳

數量生態等方面

多元統計是醫學研究的一個強有力的工具。緒論引入多元分析的原因醫學、生物學中,許多現象的發生、發展和變化是多種因素在一定條件下相互影響、制約而產生的共同結果。主要內容是研究多個因素(變量)間關系及具有這些因素的樣品(個體)之間的關系。主要任務直接減少因素(變量)個數從原有的因素中選出一些典型的、有代表性的、能說明問題的因素,舍棄不典型的、無代表性的因素。通過變量變換減少參數個數把彼此相關的原變量轉換成彼此獨立的新變量,從而減少許多相關系數的參數緒論主要分析方法多元線形回歸Logistic回歸判別分析聚類分析生存分析主成分分析*因子分析*緒論幾個重要問題總體分布?樣本含量問題?樣本含量n與研究因素m之間的比例關系因素/變量類型?定量因素定性因素等級因素緒論指標的數量化注意必須思路清晰,知道自己要干什么;在作多元分析前,必須先作描述性分析。只有在充分了解資料性質的基礎上,才有可能正確選擇方法,得出有價值的結論;當多得結果不符邏輯,或有悖于專業知識時,既不要輕易接受,亦不要輕易放棄,必須弄清楚為什么。多元線性回歸內容介紹多元線性回歸的概念多元線性回歸方程的求解過程自變量選擇多元線性回歸的應用多元線性回歸注意事項一、多元線性回歸的概念1.直線回歸

直線回歸:研究一個應變量與單個自變量之間呈直線關系的一種統計方法。如在一定年齡階段,體重與身高之間可表達為: (體重)=a+bx(身高) a:截距 b:斜率2.多元線形回歸定義:研究一個因變量與多個自變量之間的線性關系。如兒童的心象面積與身高、體重、月齡等有關系。1.方程形式:

=b0+b1x1+b2x2+…+bpxp+e b0:截距 bi:偏回歸系數,其意義為: 在其他自變量不變的條件下,某個自變量變化一個單位導致的因變量的y平均變化量。2.條件 1)個體之間獨立(各觀測值Y之間獨立)2)Y與各X之間有線性關系3)殘差服從正態分布一、多元線性回歸的概念條件自變量與應變量的關系是線性的(line)COV(ei,ej)=0,即獨立性(independence)ei~N(0,),即正態性(normality)Var(ei)=,即方差齊性(homogeneity,equalvariance)LINE如果只是建立方程,探討自變量與因變量的關系,后兩個條件可以適當放寬3.對多元回歸求解結果的要求:

找出確實影響因變量的因素(自變量)

1)建立的方程必須有意義 2)方程內不存在對因變量沒有顯著影響的變量一、多元線性回歸的概念二、多元線性回歸方程的求解過程1.數據的收集、整理2.方程的建立 1)估計偏回歸系數,建立回歸方程 2)回歸方程顯著性檢驗及擬合效果評估 3)各偏回歸系數的顯著性檢驗 4)各自變量作用大小的評估1.數據的收集、整理1)數據收集要求

盡可能包括影響自變量的因素/與自變量有影響的因素數據應該成組的收集2)數據的整理要求

最后的數據可以整理成以下形式:

表127名糖尿病人的血糖及有關變量的測量值———————————————————————序號 總膽固醇甘油三酯胰島素血紅蛋白血糖———————————————————————

1 5.68 1.90 4.53 8.211.223.791.64 7.32 6.98.8…… …………273.84 1.206.45 9.610.4———————————————————————1.數據的收集、整理2.方程的建立1)方程中參數的求解

采用最小二乘法原理求解正規方程組,得到b1,…,bm,進一步得到b0。

最小二乘法示例求解過程:1.設計若干個矩陣如下:1)因變量矩陣Y=(y1

y2…..yn)’2)設計矩陣3)誤差矩陣E=(e1e2…en)’4)系數矩陣B=(b0b1b2…bp)2.解正規方程:正規方程.可以表述成如下形式:

X’XB=X’Y

根據正規方程,我們可以得到:

B=(X’X)-1X’Y2)回歸方程的顯著性檢驗及評價(一)分析方法:方差分析

i)回歸可以解釋的部分 ii)回歸不能解釋的部分

方差分析表——————————————————————————— 變異 平方和 自由度均方 F值 來源 (MS)—————————————————————————— 回歸SS回 p

SS回/pMS回/MS誤 剩余SS誤 n-p-1SS誤/(n-p-1)————————————————————————————總 SS總 n-1

—————————————————————————方差分析表中參數的計算

回歸變異:

SS回=

∑biliy

bi:為每個自變量的偏回歸系數

liy:每個自變量與因變量的離均差平方和

回歸自由度=方程內的自變量個數

剩余(誤差):SS誤=

SS總-SS回

剩余自由度=總自由度-回歸自由度總自由度=總樣本數-1方差分析表中參數的計算(續)F值的自由度:

分子自由度:為回歸自由度(p) 分母自由度:為誤差(剩余)自由度2)回歸方程的顯著性檢驗及評價(二)方程的評價決定系數(R2)說明自變量能解釋Y變化的百分比,說明模型對數據擬合程度,(0,1)復相關系數用來度量Y與多個自變量間的線性相關程度。2)回歸方程的顯著性檢驗及評價(二)方程的評價校正R2剩余標準差(MSE)赤池系數/赤池信息準則(AIC)最小二乘法估計極大似然法估計CP統計量3)各自變量的顯著性檢驗及作用大小評價方差分析和決定系數是將所有變量作為整體來檢驗和說明它們與Y的相關程度及解釋能力

a.

未解釋在眾多回歸變量中是那一個/些的作用。 b.變量中是否存在對因變量的作用不顯著的自變量。3)各自變量的顯著性檢驗(一)偏回歸平方和回歸方程中某一自變量的偏回歸平方和,表示模型中含有其它m-1個自變量的條件下,該自變量對Y的回歸貢獻,相當于從回歸方程中剔除該變量后,總平方和減少的量。偏回歸平方和愈大,相應的自變量愈重要。3)各自變量的顯著性檢驗(二)t檢驗同一資料,不同自變量的t值間可以比較,t的絕對值愈大,說明該自變量對Y的回歸所起的作用愈大。3)各自變量作用大小評價標準化回歸系數偏回歸系數由于單位不同,不能進行直接的比較。為此有必要對此進行標準化,使它們都成為無量綱的系數。標準化回歸系數的絕對值愈大說明相應的自變量對Y的作用愈大。標準偏回歸系數表示該自變量對因變量的直接貢獻標準化回歸系數的意義調查了某地29名13歲男童的身高(cm)、體重(kg)與肺活量(L)。擬研究肺活量與身高及體重之間的關系。三個變量之間的相關系數

身高 肺活量

體重 0.7421 0.7362

肺活量 0.5884建立肺活量與兩個變量的標準化回歸方程

=-0.09352x1+0.66682x2

標準化回歸系數的意義兩個變量對因變量的間接貢獻

身高對于肺活量的間接貢獻: 0.66682x0.7421=0.4948體重對于肺活量的間接貢獻: 0.09352x0.7421=0.0694各變量對于因變量的總貢獻(相當于各自對因變量的相關系數)

身高;0.09352+0.4948=0.5884

體重:0.66682+0.0694=0.7362自變量間接作用的估計假設有三個自變量,一個因變量??梢援嫵梢韵玛P系圖:Yx2x3x1r23r12b2’b1’b3’變量之間的相關系數矩陣 X1 X2 X3 YX1 1 R12 R13 R1Y

X2 R21 1 R23 R2YX3 R31 R32 1 R3YY RY1 RY2 RY3 1間接作用的估計X1對因變量的間接作用等于 b2’r12+b3’r13

X2對因變量的間接作用等于 b1’r21+b3’r23X3對因變量的間接作用等于 b1’r13+b2’r32三、自變量選擇為什么要進行變量選擇自變量不一定都對因變量有顯著意義(將不重要的自變量引入方程,會降低模型的精度)變量之間存在共線性目的盡可能將回歸效果顯著的自變量選入方程,作用不顯著的自變量則排除在外。全局擇優法對自變量各種不同的組合建立的方程進行比較,從全部組合中找出“最優”的方程。校正決定系數選擇法:選擇法三、自變量選擇逐步選擇法:基于偏回歸平方和引入或剔除一個自變量前進法可以去掉高度相關的自變量后續變量的引入可能會使先進入的變量不顯著后退法考慮了自變量的組合作用自變量較多或高度相關時,結果不準確逐步回歸法三、自變量選擇多元線性回歸的應用影響因素分析篩選、比較各因素對因變量的作用估計與預測用容易測量的變量推算不容易測量的變量均數可信區間允許區間統計控制利用回歸方程進行逆估計四、多元線性回歸應用注意事項(一)指標的數量化

一般要求Y為連續變量,X可以是連續變量、分類變量、有序變量。連續變量:分類變量:數量化二分類多分類(K-1個啞變量)有序變量:連續變量處理啞變量注意事項(一)--指標的數量化二分類以性別(x)為例,男性:x=0,女性:x=1,建立回歸方程:

a:男性對因變量作用大小a+b1:女對因變量作用大小b1:女相對于男對因變量作用大小X的值可以隨意取,所得回歸方程是等價的

多分類--設置啞變量

以地區為例,變量名為‘region’,用一組啞變量的取值來表示一個地區。 地區名原賦值X1X2X3X4 北京 11 0 0 0 上海 20 1 0 0 天津 30 0 1 0 河北 40 0 0 1 江蘇 50 0 0 0注意事項(一)--指標的數量化

多分類--設置啞變量

a+b1,a+b2,a+b3,a+b4,a,分別表示北京、上海、天津、河北、江蘇對應變量作用的大小。b1,b2,b3,b4分別是北京、上海、天津、河北相對于江蘇的對應變量作用大小之差。注意事項(一)--指標的數量化

多分類--設置啞變量

采用不同的賦值方法,得到的回歸方程不同,但分析總體效果不變。當K>2時,不能用常規的逐步回歸方法進行自變量的選擇,要將K-1個啞變量作為一個整體考慮是否引進方程。(結果解釋?)注意事項(一)--指標的數量化

有序變量

連續變量表示意義表示方法不同時,所得回歸方程不等價啞變量:分析每個等級對因變量的作用方法選擇

注意事項(一)--指標的數量化多元線性回歸應用注意事項(二)樣本含量樣本含量是方程中自變量個數的5—10倍關于逐步回歸所謂的“最優”回歸方程并不一定是最好的剔除、選入標準研究用途多元線性回歸應用注意事項(二)4變量的交互作用定義:某一自變量對應變量Y的作用大小與另一個自變量的取值有關處理方程中加入乘積項多元線性回歸應用注意事項(三)共線性:一些自變量間存在較強的線性關系(相關的)危害參數估計值的標準誤增大;回歸方程不穩定;t檢驗不準確;估計值的正負符號與客觀實際不一致多元線性回歸應用注意事項(三)共線性:一些自變量間存在較強的線性關系(相關的)方法剔除某個造成共線性的自變量,重新建立方程;定義新的自變量代替具有共線性的自變量;將一組具有共線性的自變量合并成一個變量采用逐步回歸法。多元線性回歸應用注意事項(三)共線性:主要診斷指標條件數(ConditionIndex)方差膨脹因子(VarianceofflationFactor,VIF)容許值(ToleranceValue,TOL)多元線性回歸應用注意事項(四)6殘差分析:檢驗資料是否符合模型條件定義:ei=?i

–Yi在正常情況下,殘差符合標準正態分布,ei~N(0,σ2)影響分析:定義:研究每個觀察對于參數估計的影響。目的在于找出對參數估計影響大的點,影響較大的點,稱為杠桿點。主要診斷指標:h值、學生化殘差等。多元線性回歸—小結變量的數量化根據實際情況,變量類型間的相互轉換逐步回歸是一種思維方法、一種建模策略逐步回歸分析的目的除建立方程外,更重要的是觀察變量進出方程的過程,深入分析變量的獨立作用和聯合作用方程與變量有意義是不同的概念多元線性回歸—小結回歸系數反常情況b與專業知識不符,甚至符號相反方程顯著,但每個自變量均不顯著專業上重要的變量未選入方程原因數據中有離群值或異常點(對即定模型偏離很大的點)自變量的觀察范圍太窄,或方差太小樣本含量不夠,或自變量數太多自變量間存在(復)共線性多元線性回歸—小結(復)共線性存在導致如下現象:回歸系數的符號與實際不符回歸系數的估計值與實際相差太大回歸系數的標準誤太大;因而有些重要變量選不進方程整個方程有顯著性,而每個自變量均無顯著性回歸分析的正確應用多元線性回歸分析的應用條件方程與變量的檢驗樣本含量什么時候可能出現不合理的回歸結果回歸過程

PROCREG

一、必須語句PROCREG語句Model語句1、procreg語句數據集選項Data=SAS數據集Outest=SAS數據集Outsscp=SAS數據集輸出及其它選項AllCorrSimpleNoprint2、model語句(一)格式Model應變量=自變量列表/選擇項模型選擇的選項Selection=F/B/Stepwise/CPslentry=slstay=DetailsInclude=n:指定前n個自變量包含在模型中Noint:取消模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論