回歸分析的基本思想及其初步應用_第1頁
回歸分析的基本思想及其初步應用_第2頁
回歸分析的基本思想及其初步應用_第3頁
回歸分析的基本思想及其初步應用_第4頁
回歸分析的基本思想及其初步應用_第5頁
已閱讀5頁,還剩31頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

選修1-2第一章1.1回歸分析的基本思想及其初步應用選修2-3第三章3.1回歸分析的基本思想及其初步應用學習目標1.了解隨機誤差、殘差、殘差圖的概念.2.會通過分析殘差判斷線性回歸模型的擬合效果.3.掌握建立回歸模型的步驟.4.通過對典型案例的探究,了解回歸分析的基本思想方法和初步應用.通過對必修3的學習,我們知道,變量之間存在關系時,有兩種關系:確定性關系非確定性關系函數關系相關關系如:正方形的面積y與正方形的邊長x之間的函數關系是y=x2確定性關系如:某水田水稻產量y與施肥量x之間沒有一個確定性的關系

在7塊并排、形狀大小相同的試驗田上進行施肥量對水稻產量影響的試驗,得到如下所示的一組數據:施化肥量x15202530354045水稻產量y330345365405445450455相關關系是一種變化的,通過《數學3》的學習我們知道,回歸分析(regressionanalysis)是相關關系的一種分析方法,它是對具有相關關系的兩個變量進行統計分析一般步驟為:散點圖求回歸方程利用回歸方程預報下面我們通過實際案例。進一步學習回歸分析的基本思想及其應用最小二乘法函數關系例1.從某大學中隨機選取8名女大學生。其身高和體重數據如表所示:編號12345678身高/cm165165157170175165155170體重/kg4857505464614359求根據一名大學生的身高預報她的體重的回歸方程,并預報一名172cm的女大學生的體重。解利用前面的知識我們首先作身高x和體重y的散點圖:于是得到線性回歸方程

是回歸方程直線的斜率的估計值,說明身高x每增加一個單位,體重y就增加0.849個單位,這表明體重與身高具有正的線性相關關系所以,對于身高為172cm的女大學生,由回歸方程可以預報其體重為探究:身高172cm的女生的體重一定是60.316嗎?如果不是,你能解釋一下原因嗎?事實上,從散點圖可以看出,樣本點并不是分布在這條直線上,而是分布在它的兩邊,所以嚴格來說:

y=bx+a不是真正的表示它們之間的關系,這時我們把身高和體重的關系做一下調整來模擬回歸關系:Y=bx+a+e其中a和b為模型的未知參數,e稱為隨機誤差如何產生的?顯然身高為172cm的女生體重不一定是60.316kg,但一般認為她的體重在60.316左右。從圖中樣本點和回歸直線的相互位置說明了這一點身高X(cm)體重y(kg)飲食習慣運動習慣質量誤差沒有人知道身高和體重之間的真正關系是什么,現在只是利用線性回歸方程來近似這種關系,而這種近似和上面提到的影響因素都會導致隨機誤差e的產生線性回歸模型y=bx+a+e與我們了的一次函數模型不同之處在于多了一個隨機誤差e,y的值由x和e共同確定,即自變量x只能解釋部分y的變化,在統計中,我們也把自變量x稱為解釋變量,因變量y稱為預報變量。解釋變量x預報變量y隨機誤差e探究:在線性回歸模型中,e是用bx+a預報真實值y的隨機誤差,它是一個不可觀測的量,那么應該怎樣研究隨機誤差呢?(x1,y1),(x2,y2),…,(xn,yn)而言,它們的隨機誤差為ei=yi-bxi-a,i=1,2,…,n在實際應用中,我們用回歸方程中的估計bx+a,由于隨機誤差e=y-(bx+a),所以是e的估計量,對于樣本點其估計值為稱為相應于點(xi,yi)的殘差編號12345678身高/cm165165157170175165155170體重/kg4857505464614359殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382思考:如何發現數據中的錯誤?如何衡量模型的擬合效果?

可以通過殘差發現原始數據中的可疑數據,判斷所建立模型的擬合效果。下表列出了女生身高和體重的原始數據以及相應的殘差數據殘差圖:問題數據越窄越好我們可以利用圖形來分析殘差特性。作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數據,或體重估計值等,這樣做出的圖形稱為殘差圖從圖中可以看出,第1個樣本點和第6個樣本點的殘差比較大,需要確認在采集這兩個樣本點的過程中是否有人為的錯誤。如果數據采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數據;如果數據采集沒有錯誤,則需要尋找其他原因。另外,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,這樣的帶狀區域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高我們可以用R2來刻畫回歸的效果:

顯然,當R2的值越大,說明殘差所占的比例越小,回歸效果約好;反之,回歸效果越差。一般的,當R2越接近于1,說明解釋變量和預報變量之間的相關性越強,如果同一個問題,采用不同的回歸方法分析,我們可以通過選擇R2大的來作為回歸模型

在線性回歸模型中,R2表示解釋變量對于預報變量變化的貢獻率,R2越接近1,表示回歸的效果越好,在例1中,R2=0.64,表明身高解釋了64%的體重變化,或者說,體重差異有64%是由身高引起的。R2是常用的選擇模型的指標之一,在實際應用中應盡量選擇R2大的回歸模型用身高預報體重時,需要注意下列問題:1.回歸方程只適用于我們所研究的樣本的總體。例如,不能用女大學生的身高和體重之間的回歸方程描述女運動員的身高和體重之間的關系,同樣,不能用生長在南方多雨地區的樹木地高于直徑之間的回歸方程,描述北方干旱地區的樹木地高與直徑之間的關系。2.我們所建立的回歸方程一般都有時間性,例如不能用20世紀80年代的身高體重數據所建立的回歸方程,描述現在的身高和體重之間的關系。3.樣本取值的范圍會影響回歸方程的適用范圍,例如我們的回歸方程是由女大學生身高和體重的數據建立的,那么用它來描述一個人幼兒時期的身高和體重之間的關系就不恰當(在回歸方程中解釋變量x的樣本的取值范圍為155-175cm,而用這個方程計算x=70cm時的y值顯然不合適)4.不能期望回歸方程,得到的預報值就是預報變量的精確值,事實上,它是預報變量的可能取值的平均值一般地,建立回歸模型的基本步驟為:(1)確定研究對象,明確哪個變量是解釋變量,哪個變量是預報變量。(2)畫出解釋變量和預報變量的散點圖,觀察它們之間的關系(如是否存在線性關系等)(3)由經驗確定回歸方程的類型(如我們觀察到數據呈線性關系,而選用線性回歸方程)(4)按一定規則(如最小二乘法)估計回歸方程中的參數。(5)得出結果后分析殘差圖是否有異常(如個別數據對應殘差過大,殘差呈現不隨機的規律性等)若存在異常,則檢查數據是否有誤,或模型是否合適等。例2一只紅蛉蟲的產卵數y與溫度x有關,現收集了7組數據,請建立y與x的回歸方程溫度x/℃21232527293235產卵數y/個711212466115325解1.制作散點圖2.觀察模擬樣本點不能直接利用線性回歸,根據我們的函數知識,它應該是一個指數模型:y=c1ec2x其中c1c2為參數或二次函數模型,根據對數回歸知識我們知道:令z=lny將其變換到樣本點的分布直線z=a+bxx21232527293235z1.9462.3983.0453.1784.1904.7455.784z=0272x-3.843則:y=e0.272x-3.8433.我們認為樣本點集中在某二次函數y=c3x2+c4附近,c3c4為參數,則,令t=x2則:y=c5t+c6其中c5c6為參數t44152962572984110241225y711212466115325y=0.367t-202.544.殘差分析:X21232527293235合計(殘差平方和)R2Y711212466115329e(1)0.518-0.1671.760-9.1498.889-14.15332.9281450.6730.98e(2)47.69319.397-5.835-41.003-40.107-58.26877.965154

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論