第九章相關與回歸分析_第1頁
第九章相關與回歸分析_第2頁
第九章相關與回歸分析_第3頁
第九章相關與回歸分析_第4頁
第九章相關與回歸分析_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1第九章相關與回歸分析經濟管理類核心課程《統計學》19.1

相關分析9.3

多元線性回歸分析9.2

一元線性回歸分析主要內容2全球吃死的人比餓死的人多

據世界衛生組織統計,全球肥胖癥患者達3億人,其中兒童占2200萬人,11億人體重過重。肥胖癥和體重超常早已不是發達國家的“專利”,已遍及五大洲。目前,全球因“吃”致病乃至死亡的人數已高于因饑餓死亡的人數。

(引自《光明日報》劉軍/文)

問題:肥胖癥和體重超常與死亡人數有顯著的數量關系嗎?

解決:用相關分析與回歸分析的方法來驗證。3

美國印第安納州的地區教會想要籌款興建新教堂,提出教堂能潔凈人們的心靈,減少犯罪,降低監獄服刑人數的口號。為了增進民眾參與的熱誠和信心,教會的神父收集了近15年的教堂數與在監獄服刑的人數進行統計分析。

結果卻令教會大吃一驚!教堂數與監獄服刑人數同步增長4相關分析結論

最近15年教堂數與監獄服刑人數呈顯著的正相關。那么是否可以由此得出,教堂建得越多,就可能帶來更多的犯罪呢?經過統計學家和教會神父深入討論,并進一步收集近15年的當地人口變動資料和犯罪率等資料作進一步分析,發現監獄服刑人數的增加和教堂數的增加都與人口的增加有關。

結論:教堂數的增加并非監獄服刑人數增加的原因。至此,教會人士總算松了一口氣。數據來源:《現代統計學及其應用》,吳柏林、曹立人著,浙江教育出版社2007年版。5相關分析的意義第一節相關分析社會經濟現象中,一些現象與另一些現象之間往往存在著依存關系,當我們用變量來反映這些現象的的特征時,便表現為變量之間的依存關系。

在分析變量的依存關系時,我們把變量分為兩種:自變量因變量引起其他變量發生變化的量受自變量的影響發生對應變化的量6現象之間的相互關系,可以概括為兩種不同的類型:(一)函數關系

家庭收入決定消費支出,收入的變化必然引起消費支出的變化,這兩個變量中收入是,而消費支出則是。舉例

自變量

因變量(二)相關關系7函數關系指變量之間存在著確定性依存關系。即當一個或一組變量每取一個值時,相應的另一個變量必然有一個確定值與之對應。函數關系可以用一個確定的公式,即函數式

來表示。

或:Y=F(X)1.函數關系8相關關系指變量之間存在著非確定性依存關系。即當一個或一組變量每取一個值時,相應的另一個變量可能有多個不同值與之對應。

如:根據消費理論,商品需求量Q與商品價格P、居民收入I之間具有相關關系:

或:Y=F(X)+ε或用統計模型表示:2.相關關系9現實生活中存在大量相關關系人的身高與年齡;產品的成本與生產數量;商品的銷售額與廣告費;家庭的支出與收入。等等10單相關

是兩個變量之間存在的相關關系,即一個因變量與一個自變量之間的依存關系。因此也稱為一元相關。復相關

也稱多元相關,是指三個或三個以上變量之間存在的相關關系,通常涉及一個因變量與兩個或更多個自變量,也稱多元相關。1、按相關關系涉及變量的多少可分為:相關關系的種類11直線相關當自變量X值每變動一個單位,因變量Y值則隨著發生大致均等的變動,這就是直線相關。亦稱為簡單相關或一元線性相關。曲線相關當自變量X值每變動一個單位,因變量Y值則隨之發生不均等的變化,這就曲線相關。或一元非線性相關。2、按相關關系形式可分為12正相關當自變量X值增加(或減少)時,因變量Y值也隨之增加(或減少),這樣的相關關系就是正相關,也叫同向相關。負相關當自變量X的值增加(或減少)時,因變量Y的值隨之而減少(或增加),這樣的相關關系就是負相關,也叫異向相關。3、按相關的方向可分為134、按相關關系的密切程度分為完全相關因變量完全隨自變量變動而變動,存在著嚴格的依存關系。即變量間的關系為函數關系。不完全相關變量之間存在著不嚴格的依存關系,即因變量的變動除了受自變量變動的影響外,還受其他因素的影響。它是相關關系的主要表現形式。完全不相關自變量與因變量彼此獨立,互不影響,其數量變化毫無聯系。。14(1)確定現象之間有無相關關系,以及相關關系的表現形態。(2)確定相關關系的密切程度。(3)確定相關關系的數字模型,并進行參數估計和擬合優度檢驗。(4)回歸預測,并分析估計標準誤差。

相關關系的主要內容15相關關系的測定定性分析是依據研究者的理論知識和實踐經驗,對客觀現象之間是否存在相關關系,以及何種關系作出判斷定量分析在定性分析的基礎上,通過編制相關表、繪制相關圖、計算相關系數與判定系數等方法,來判斷現象之間相關的方向、形態及密切程度16產量與生產費用情況表相關分析表17正相關負相關曲線相關不相關xyxyxyxy

用直角坐標系的x軸代表自變量,y軸代表因變量,將兩個變量間相對應的變量值用坐標點的形式描繪出來,用以表明相關點分布狀況的圖形。相關圖的種類18產品產量與生產費用相關圖19在直線相關的條件下,用以反映兩變量間線性相關密切程度的統計指標,用r表示相關系數其基本算法是英國統計學家皮爾遜所創的乘積動差法(發現:x、y是對等關系)。20相關系數的取值范圍0<|r|<1表示存在不同程度線性相關:

|r|

<

0.5為低度線性相關;

0.5≤|r|<0.8為中度性線性相關;

0.8≤|r|為高度顯著性線性相關。r>0為正相關,r<0為負相關;|r|=0表示不存在線性關系;|r|=1表示完全線性相關;21相關系數取值及其意義-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加22回歸:退回regression1877年弗朗西斯?高爾頓爵士遺傳學研究回歸線。平均身高第二節一元線性回歸模型231889年F.Gallton和他的朋友K.Pearson收集了上千個家庭的身高、臂長和腿長的記錄企圖尋找出兒子們身高與父親們身高之間關系的具體表現形式下圖是根據1078個家庭的調查所作的散點圖回歸分析法產生的歷史24160165170175180185140150160170180190200YX兒子們身高向著平均身高“回歸”25回歸形式回歸分析通過一個變量x或一些變量(x1,x2,x3…)的變化解釋另一變量y的變化.即根據相關關系的數量表達式(回歸方程式)與給定的自變量x,揭示因變量y在數量上的平均變化和求得因變量的預測值的統計分析方法回歸方程回歸模型反映自變量和因變量之間數學聯系的表達式。某一類回歸方程的總稱。26回歸分析的內容和步驟1、根據理論和對問題的分析判斷,區分自變量和因變量;2、設法找出適合的數學方程式(即:回歸模型)描述變量間的關系;3、對回歸模型進行統計檢驗;

4、統計檢驗通過后,利用回歸模型,根據自變量去估計,預測因變量。27回歸分析的分類根據變量的多少分為:簡單回歸多元回歸只有一個自變量和一個因變量的回歸自變量數目在兩個或兩個以上根據建立的回歸模型形式分為:線性回歸非線性回歸從所擬合的回歸模型來看,一變量表現為其它變量的線性組合。從所擬合的回歸模型來看,一變量表現為其它變量的非線性組合。28回歸分析與相關分析理論和方法具有一致性;無相關就無回歸,相關程度越高,回歸越好;

相關系數和回歸系數方向一致,可以互相推算。聯系:區別:相關分析中x與y對等,回歸分析中x與y要確定自變量和因變量;相關分析中x、y均為隨機變量,回歸分析中只有y為隨機變量;相關分析測定相關程度和方向,回歸分析用回歸模型進行預測和控制。29一元線性回歸模型其中:yi表示因變量y在樣本中某一個具體的觀察值;xi表示在研究樣本中自變量x的具體觀察數值;a與b是參數,b稱為回歸系數;εi是一個隨機變量,其平均數為0,方差為σ2。30一元線性回歸模型圖解31樣本一元線性回歸方程:以樣本統計量估計總體參數斜率(回歸系數)截距(估計的回歸方程)總體一元線性回歸模型32殘差(Residual)散點圖33最小平方法基本數學要求34標準方程3536回歸模型的檢驗1、擬合優度檢驗確定回歸直線后,需要評價這一直線方程是否有效地反映了這兩變量之間的關系。評價回歸方程配合好壞的一個主要指標是可決系數(或稱判定系數)是相關系數的平方,用表示;用來衡量回歸方程對y的解釋程度。可決系數取值范圍:越接近于1,表明x與y之間的相關性越強;越接近于0,表明兩個變量之間幾乎沒有直線相關關系。可決系數37誤差平方和回歸平方和總離差平方和平方和關系(教材P237)38總偏差=回歸偏差+剩余偏差

r2表示全部偏差中有百分之幾的偏差可由x與y的回歸關系來解釋。r的符號同b數量關系及意義3940判定系數與相關系數的區別判定系數無方向性,相關系數則有方向,其方向與樣本回歸系數b相同;判定系數說明變量值的總離差平方和中可以用回歸線來解釋的比例,相關系數只說明兩變量間關聯程度及方向;相關系數有夸大變量間相關程度的傾向,因而判定系數是更好的度量值。412、顯著性檢驗(例9-3)42被害棉花紅鈴蟲喜高溫高濕,適宜各蟲態發育的溫度為25℃—32℃,相對濕度為80%一100%,低于20℃和高于35℃卵不能孵化,相對濕度60%以下成蟲不產卵。冬季月平均氣溫低于一4.8℃時,紅鈴蟲就不能越冬而被凍死。

1953年,18省發生紅鈴蟲大災害,受災面積300萬公頃,損失皮棉約二十萬噸。

案例分析43溫度xoC21232527293235產卵數y/個711212466115325收集一只紅鈴蟲的產卵數y和溫度xoC之間的7組觀測數據列于下表:(1)試建立產卵數y與溫度x之間的回歸方程;并預測溫度為28oC時產卵數目。(2)你所建立的模型中溫度在多大程度上解釋了產卵數的變化?問題呈現:44畫散點圖假設線性回歸方程為:選模型分析和預測當x=28時,y=19.87×28-463.73≈93選變量解:選取氣溫為解釋變量x,產卵數為預報變量y。050100150200250300350036912151821242730333639當x=28時,y=19.87×28-463.73≈93估計參數由Excel得:線性回歸方程為探析1—擬合直線45殘差編號12345671020304050607080-10-20-30-40-50-6090100題解153.4617.72-12.02-48.76-46.5-57.1193.28

R2≈0.7464所以,一次函數模型中溫度解釋了74.64%的產卵數變化。46

y=bx2+a變換y=bx+a非線性關系線性關系問題2產卵數氣溫問題1如何求a、b?

t=x2探析2—拋物線擬合47溫度xoC21232527293235產卵數y/個711212466115325作散點圖,并由Excel計算得:y=0.367x2-202.54tt當x=28時,y=0.367×282-202.54≈85題解248編號12345671020304050607080-10-20-30-40-50-60拋物線模型47.69619.400-5.832-41.000-40.104-58.26577.968R2=0.802,拋物線模型中溫度解釋了80.2%的產卵數變化。49問題2變換y=bx+a非線性關系線性關系問題1如何選取指數函數的底?產卵數氣溫對數探析3—指數函數模型50xz當x=28oC時,y≈44溫度xoC21232527293235產卵數y/個711212466115325題解351殘差編號12345671020304050607080-10-20-30-40-50-6090指數函數模型-0.19441.7248-9.18948.8521-14.121933.2573指數回歸模型中溫度解釋了98.5%的產卵數的變化0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論