




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
8.2.2一元線性回歸模型參數的最小二乘估計(2)復習:1.經驗回歸方程:我們將
稱為Y關于x的經驗回歸方程,也稱經驗回歸函數或經驗回歸公式,其圖形稱為經驗回歸直線.這種求經驗回歸方程的方法叫做最小二乘法.2.最小二乘估計:經驗回歸方程中的參數計算公式為:
例1
經驗表明,一般樹的胸徑(樹的主干在地面以上1.3m處的直徑)越大,樹就越高,由于測量樹高比測量胸徑困難,因此研究人員希望由胸徑預測樹高.在研究樹高與胸徑之間的關系時,某林場收集了某種樹的一些數據(如下表),試根據這些數據建立樹高關于胸徑的經驗回歸方程.編號123456789101112胸徑/cm18.120.122.224.426.028.329.632.433.735.738.340.2樹高/cm18.819.221.021.022.122.122.422.623.024.323.924.7解:以胸徑為橫坐標、樹高為縱坐標作散點圖如圖示.
散點大致分布在一條從左下角到右上角的直線附近,表明兩個變量正線性相關,因此可以用一元線性回歸模型刻畫樹高與胸徑之間的關系.用d表示胸徑,h表示樹高,根據最小二乘法,計算可得經驗回歸方程為例1
經驗表明,一般樹的胸徑(樹的主干在地面以上1.3m處的直徑)越大,樹就越高,由于測量樹高比測量胸徑困難,因此研究人員希望由胸徑預測樹高.在研究樹高與胸徑之間的關系時,某林場收集了某種樹的一些數據(如下表),試根據這些數據建立樹高關于胸徑的經驗回歸方程.編號123456789101112胸徑/cm18.120.122.224.426.028.329.632.433.735.738.340.2樹高/cm18.819.221.021.022.122.122.422.623.024.323.924.7相應的經驗回歸直線如圖(1)所示.(1)編號胸徑/cm樹高觀測值/m樹高預測值/m殘差/m118.118.819.4-0.6220.119.219.9-0.7322.221.020.40.6424.421.020.90.1526.022.121.30.8628.322.121.90.2729.622.422.20.2832.422.622.9-0.3933.723.023.2-0.21035.724.323.70.61138.323.924.4-0.51240.224.724.9-0.2計算殘差:以胸徑為橫坐標,殘差為縱坐標,作殘差圖,如圖(2)所示.作殘差圖:觀察殘差表和殘差圖,可以看到,殘差的絕對值最大是0.8,所有殘差分布在以橫軸為對稱軸、寬度小于2的帶狀區域內.可見經驗回歸方程較好地刻畫了樹高與胸徑的關系,我們可以根據經驗回歸方程由胸徑預測樹高.00.51.0-0.5-1.0152025303540殘差/m胸徑/cm??????????????45(2)問題人們常將男子短跑100m的高水平運動員稱為“百米飛人”.下表給出了1968年之前男子短跑100m世界紀錄產生的年份和世界紀錄的數據.試依據這些成對數據,建立男子短跑100m世界紀錄關于紀錄產生年份的經驗回歸方程.編號12345678年份18961912192119301936195619601968記錄/s11.8010.6010.4010.3010.2010.1010.009.951.畫散點圖:由散點圖可知,散點看上去大致分布在一條直線附近,似乎可用一元線性回歸模型建立經驗回歸方程.根據最小二乘法,由表中數據可得經驗回歸方程為2.求經驗回歸方程:將經驗回歸方程疊加到散點圖,如圖(3)所示.由圖形可知,第一點遠離經驗回歸直線,并且前后兩時間段中的散點都在經驗回歸直線的上方,中間時間段的散點都在經驗回歸直線的下方.這說明散點并不是隨機分布在經驗回歸直線的周圍,而是圍繞著經驗回歸直線有一定的變化規律,即成對樣本數據呈現出明顯的非線性相關的特征.(3)3.修改模型:對模型進行修改,以使其更好地反映散點的分布特征.仔細觀察圖形,可以發現散點更趨向于落在中間下凸且遞減的某條曲線附近.回顧已有的函數知識,可以發現函數y=-lnx的圖象具有類似的形狀特征.注意到100m短跑的第一個世界紀錄產生于1896年,因此可以認為散點是集中在曲線的周圍.其中c1和c2為未知參數,且c2<0.用上述函數刻畫數據變化的趨勢,這是一個非線性經驗回歸函數,其中c1,c2是待定參數.現在問題轉化為如何利用成對數據估計參數c1和c2.為了利用一元線性回歸模型估計參數c1和c2,我們引進一個中間變量x,令x=ln(t-1895).通過x=ln(t-1895),將年份變量數據進行變換,得到新的成對數據(精確到0.01),如下表所示.編號12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95作出上表的散點圖:由散點圖可知,現在散點的分布呈現出很強的線性相關特征,故可以一元線性回歸模型建立經驗回歸方程.根據最小二乘法,可得新的經驗回歸方程為再在散點圖中畫出(*)式所對應的經驗回歸直線,如圖(4)所示.(4)圖(4)表明,經驗回歸方程(*)對于改進后的成對數據具有非常好的擬合精度.將圖(4)與圖(3)進行對比,可以發現x和Y之間的線性相關程度比原始樣本數據的線性相關程度強得多.將x=ln(t-1895)代入(*)式,得到由創紀錄年份預報世界紀錄的經驗回歸方程在同一坐標系中畫出成對數據散點圖、非線性經驗回歸方程②的圖象(藍色)以及經驗回歸方程①的圖象(紅色),如圖(5)所示.我們發現,散點圖中各散點都非常靠近②的圖象,表明非線性經驗回歸方程②對于原始數據的擬合效果遠遠好于經驗回歸方程①.(5)下面通過殘差來比較這兩個經驗回歸方程對數據刻畫的好壞.用ti表示編號為i的年份數據,用yi表示編號為i的紀錄數據,則經驗回歸方程①和②的殘差計算公式分別為兩個經驗回歸方程的殘差(精確到0.001)如下表所示.觀察各項殘差的絕對值,發現經驗回歸方程②遠遠小于①,即經驗回歸方程②的擬合效果要遠遠好于①.編號12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022在一般情況下,直接比較兩個模型的殘差比較困難,因為在某些散點上一個模型的殘差的絕對值比另一個模型的小,而另一些散點的情況則相反.可以通過比較殘差的平方和來比較兩個模型的效果.由可知Q2小于Q1.因此在殘差平方和最小的標準下,非線性回歸模型的擬合效果要優于一元線性回歸模型的擬合效果.決定系數R2:通過前面的討論我們知道,當殘差的平方和越小,經驗回歸模型的擬合效果就越好,故我們可以用決定系數R2來驗證模型的擬合效果.決定系數R2的計算公式為在R2表達式中,由于與經驗回歸方程無關,殘差平方和與經驗回歸方程有關,因此R2越大,表示殘差平方和越小,即模型的擬合效果越好;R2越小,表示殘差平方和越大,即模型的擬合效果越差.決定系數R2:決定系數是總偏差平方和中回歸平方和所占的比重.顯然0≤R2≤1,R2越接近1,則線性回歸刻畫的效果越好.還可以證明,在一元線性回歸模型中R2=r2,即決定系數R2等于響應變量與解釋變量的樣本相關系數r的平方.回歸平方和總偏差平方和編號12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022由上述殘差表可算出經驗回歸方程①和②的決定系數R2分別為由于因此經驗回歸方程②的刻畫效果比經驗回歸方程①的好很多.
例2為研究質量x(單位:g)對彈簧長度y(單位:cm)的影響,對不同質量的6個物體進行測量,數據如表所示:
(1)作出散點圖,并求經驗回歸方程;(2)求出R2;(3)進行殘差分析.x51015202530y7.258.128.959.9010.911.8(2)求出R2;(3)進行殘差分析.x51015202530y7.258.128.959.9010.911.8解:(2)列表如下:0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31解:(3)由殘差表中的數值可以看出第3個樣本點的殘差比較大,需要確認在采集這個數據的時候是否有人為的錯誤,如果有的話,需要糾正數據,重新建立回歸模型;由表中數據可以看出殘差點比較均勻地落在不超過0.15的狹窄的水平帶狀區域中,說明選用的回歸模型的精度較高,由以上分析可知,彈簧長度與質量成線性關系.0.050.005-0.08-0.0450.040.025-2.24-1.37-0.540.411.412.31變式已知某種商品的單價x(單位:元)與需求量y(單位:件)之間的關系有如下一組數據:x1416182022y1210753求y關于x的經驗回歸方程,并說明回歸模型擬合效果的好壞.解:列殘差表如下:y1210753129.77.45.12.800.3-0.4-0.10.24.62.6-0.4-2.4-4.4故回歸模型的擬合效果很好.
例3某企業為確定下一年投入某種產品的研發費用,需了解年研發費用x(單位:千萬元)對年銷售量y(單位:千萬件)的影響,統計了近10年投入的年研發費用xi與年銷售量yi(i=1,2,???,10)的數據,得到散點圖如圖所示.(1)利用散點圖判斷y=a+bx和y=c?xd(其中c,d均為大于0的常數)哪一個更適合作為年銷售量y和年研發費用x的回歸方程類型(只要給出判斷即可,不必說明理由);(2)對數據作出如下處理,令ui=lnxi,vi=lnyi,得到相關統計量的值如下表.根據第(1)問的判斷結果及表中數據,求y關于x的回歸方程.附:對于一組數據(u1,v1),(u2,v2),???,(un,vn),其回歸直線的斜率和截距的最小二乘估計分別為解:(1)由散點圖可知,選擇回歸類型y=c?xd更合適.(2)對y=c?xd兩邊取對數,的lny=lnc+dlnx,變式某地今年上半年患某種傳染病的人數y(人)與月份x(月)之間滿足函數關系,模型為y=aebx,確定這個函數解析式.月份x/月123456人數y/人526168747883解:x123456u=lny3.95124.11094.21954.30414.35674.4188在使用經驗回歸方程進行預測時,需要注意下列問題:(1)經驗回歸方程只適用于所研究的樣本的總體.例如,根據我國父親身高與兒子身高的數據建立的經驗回歸方程,不能用來描述美國父親身高與兒子身高之間的關系.同樣,根據生長在南方多雨地區的樹高與胸徑的數據建立的經驗回歸方程,不能用來描述北方干旱地區的樹高與胸徑之間的關系.(2)經驗回歸方程一般都有時效性.例如,根據20世紀80年代的父親身高與兒子身高的數據建立的經驗回歸方程,不能用來描述現在的父親身高與兒子身高之間的關系.(3)解釋變量的取值不能離樣本數據的范圍太遠.一般解釋變量的取值在樣本數據范圍內,經驗回歸方程的預報效果會比較好,超出這個范圍越遠,預報的效果越差.(4)不能期望經驗回歸方程得到的預報值就是響應變量的精確值.事實上,它是響應變量的可能取值的平均值.課本120頁1.在回歸分析中,分析殘差能夠幫助我們解決哪些問題?解:分析殘差可以幫助我們解決以下幾個問題:(1)尋找殘差明顯比其他殘差大很多的異常點,如果有,檢查相應的樣本數據是否有錯.(2)分析殘差圖可以診斷選擇的模型是否合適,如果不合適,可以參考殘差圖提出修改模型的思路.(1)作GDP和年份的散點圖,根據該圖猜想它們之間的關系可以用什么模型描述;(2)建立年份為解釋變量,GDP為響應變量的一元線性回歸模型,并計算殘差;(3)根據你得到的一元線性回歸模型,預測2017年的GDP,看看你的預測值與實際的GDP的誤差是多少;(4)你認為這個模型能較好地刻畫GDP和年份的關系嗎?請說明理由.課本120頁2.1997-2006年我國的國內生產總值(GDP)的數據如下:年份GDP/億元年份GDP/億元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5(5)隨著時間的發展,又收集到2007-2016年的GDP數據如下:建立年份(1997-2016)為解釋變量,GDP為響應變量的經驗回歸方程,并預測2017年的GDP,與實際的GDP誤差是多少?你能發現什么?年份GDP/億元年份GDP/億元2007270232.32012540367.42008319515.52013595244.42009349081.42014643974.02010413030.32015689052.12011489300.62016744127.2(1)作GDP和年份的散點圖,根據該圖猜想它們之間的關系可以用什么模型描述;課本120頁2.1997-2006年我國的國內生產總值(GDP)的數據如下:年份GDP/億元年份GDP/億元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5解:(1)畫GDP與年份的散點圖,如圖所示,可以觀察到隨著年份的增加GDP也隨之增加,GDP值與年份呈現近似線性關系,可以用一元線性回歸模型刻畫.(2)建立年份為解釋變量,GDP為響應變量的一元線性回歸模型,并計算殘差;(3)根據你得到的一元線性回歸模型,預測2017年的GDP,看看你的預測值與實際的GDP的誤差是多少;課本120頁2.1997-2006年我國的國內生產總值(GDP)的數據如下:解:(2)用y表示GDP的值,t表示年份,用一元線性回歸模型擬合數據,用統計軟件計算,得到經驗回歸方程為殘差的計算結果見下表.年份1997199819992000200120022003200420052006殘差171267752-1734-6873-11145-15145-14296-4732589223157(3)2017年的GDP預報值為359684億元,2017年的實際的GDP為820754億元,預測值比實際值少461070億元.(4)你認為這個模型能較好地刻畫GDP和年份的關系嗎?請說明理由.課本120頁2.1997-2006年我國的國內生產總值(GDP)的數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化肥獎勵政策合同范本
- 四年級社會實踐活動實施計劃
- 消防工程施工質量檢查措施
- 公共場所安全檢查及整改報告
- 小學代課教師合同范本
- 民生公司(連鎖性休息站)商業計劃書
- 2023《井下安全用電的基本知識》
- 中考英語模擬試卷及試卷分析
- 我與汽車產業的共贏發展
- 建筑工程勞動爭議處理計劃
- 液冷數據中心白皮書 2023:數據中心液冷革命解鎖未來的數字冰河
- 同等學力申碩英語詞匯
- 軟件工程導論課件(第六版)(張海潘編著)(1-13章)
- 2023-2024學年廣東廣州天河區明珠中英文學校數學三上期末聯考試題含答案
- 智能倉儲管理實戰手冊
- 提高住院病歷完成及時性持續改進(PDCA)
- 氣門搖臂軸支座的機械加工工藝及夾具設計畢業設計
- 企業職工代表任命協議書
- 地下管線測繪及數據處理
- 附件1:中國聯通動環監控系統B接口技術規范(V3.0)
- 醫療器械經營公司-年度培訓計劃表
評論
0/150
提交評論