回歸分析的基本知識點及習習題_第1頁
回歸分析的基本知識點及習習題_第2頁
回歸分析的基本知識點及習習題_第3頁
回歸分析的基本知識點及習習題_第4頁
回歸分析的基本知識點及習習題_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、回歸分析的基本知識點及習題 本周難點:(1)求回歸直線方程,會用所學的知識對實際問題進行回歸分析. (2)掌握回歸分析的實際價值與基本思想. (3)能運用自己所學的知識對具體案例進行檢驗與說明. (4)殘差變量的解釋;(5)偏差平方和分解的思想;回歸直線:如果散點圖中點的分布從整體上看大致在一條直線附近,我們就稱這兩個變量之間具有線性相關關系,這條直線叫作回歸直線。求回歸直線方程的一般步驟:作出散點圖(由樣本點是否呈條狀分布來判斷兩個量是否具有線性相關關系),若存在線性相關關系求回歸系數 寫出回歸直線方程 ,并利用回歸直線方程進行預測說明.2.回歸分析:對具有相關關系的兩個變量進行統計分析的一

2、種常用方法。建立回歸模型的基本步驟是:確定研究對象,明確哪個變量是解釋變量,哪個變量是預報變量;畫好確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(線性關系). 由經驗確定回歸方程的類型. 按一定規則估計回歸方程中的參數 (最小二乘法);得出結論后在分析殘差圖是否異常,若存在異常,則檢驗數據是否有誤,后模型是否合適等. 4.殘差變量 的主要來源:(1)用線性回歸模型近似真實模型(真實模型是客觀存在的,通常我們并不知道真實模型到底是什么)所引起的誤差。可能存在非線性的函數能夠更好地描述 與 之間的關系,但是現在卻用線性函數來表述這種關系,結果就會產生誤差。這種由于模型近似所引起的誤差包含

3、在 中。(2)忽略了某些因素的影響。影響變量 的因素不只變量 一個,可能還包含其他許多因素(例如在描述身高和體重關系的模型中,體重不僅受身高的影響,還會受遺傳基因、飲食習慣、生長環境等其他因素的影響),但通常它們每一個因素的影響可能都是比較小的,它們的影響都體現在 中。(3)觀測誤差。由于測量工具等原因,得到的 的觀測值一般是有誤差的(比如一個人的體重是確定的數,不同的秤可能會得到不同的觀測值,它們與真實值之間存在誤差),這樣的誤差也包含在 中。上面三項誤差越小,說明我們的回歸模型的擬合效果越好。二、例題選講1為研究某市家庭平均收入與月平均生活支出的關系,該市統計部門隨機調查了10個家庭,得數

4、據如下:家庭編號12345678910xi(收入)千元yi(支出)千元(1)判斷家庭平均收入與月平均生活支出是否相關(2)若二者線性相關,求回歸直線方程.解 (1)作出散點圖: 觀察發現各個數據對應的點都在一條直線附近,所以二者呈線性相關關系. (2)= +=,=(+)=, = 6,= 6 3,回歸方程= 6x+ 3.2下表提供了某廠節能降耗技術改造后生產甲產品過程中記錄的產量x(噸)與相應的生產能耗y(噸)標準煤的幾組對照數據. x3456y34(1)請畫出上表數據的散點圖;(2)請根據上表提供的數據,用最小二乘法求出y關于x的線性回歸方程=x+;(3)已知該廠技改前100噸甲產品的生產能耗

5、為90噸標準煤.試根據(2)求出的線性回歸方程,預測生產100噸甲產品的生產能耗比技改前降低多少噸標準煤解 (1)散點圖如下圖: (2)=,=3×+4×3+4×5+6×=.=32+42+52+62=86= =-=所求的線性回歸方程為=+.(3)現在生產100噸甲產品用煤y=×100+=,降低=(噸)標準煤.3科研人員為了全面掌握棉花新品種的生產情況,查看了氣象局對該地區年降雨量與年平均氣溫的統計數據(單位分別是mm,),并作了統計.年平均氣溫年降雨量748542507813574701432(1)試畫出散點圖;(2)判斷兩個變量是否具有相關關系

6、.解 (1)作出散點圖如圖所示,(2)由散點圖可知,各點并不在一條直線附近,所以兩個變量是非線性相關關系.4在研究硝酸鈉的可溶性程度時,對于不同的溫度觀測它在水中的溶解度,得觀測結果如下: 溫度(x)010205070溶解度(y)由資料看y與x呈線性相關,試求回歸方程.解 =30,=.= 9.=-= 9×30=.回歸方程為= 9x+.5.某企業上半年產品產量與單位成本資料如下:月份產量(千件)單位成本(元)127323723471437354696568(1)求出線性回歸方程;(2)指出產量每增加1 000件時,單位成本平均變動多少(3)假定產量為6 000件時,單位成本為多少元解

7、(1)n=6,=21,=426,=,=71,=79,=1 481,=.=-=71+×=.回歸方程為=+x=(2)因為單位成本平均變動=0,且產量x的計量單位是千件,所以根據回歸系數b的意義有:產量每增加一個單位即1 000件時,單位成本平均減少元.(3)當產量為6 000件時,即x=6,代入回歸方程:=(元)當產量為6 000件時,單位成本為元.1.觀察下列散點圖,則正相關;負相關;不相關.它們的排列順序與圖形對應順序是 .答案 a,c,b2.回歸方程=,則下列說法正確的有 個.=15是回歸系數a是回歸系數ax=10時,y=0答案 13.(2009.湛江模擬)某地區調查了29歲兒童的

8、身高,由此建立的身高y(cm)與年齡x(歲)的回歸模型為=+,下列敘述正確的是 .該地區一個10歲兒童的身高為 cm該地區29歲的兒童每年身高約增加 cm該地區9歲兒童的平均身高是 cm利用這個模型可以準確地預算該地區每個29歲兒童的身高答案 4.某人對一地區人均工資x(千元)與該地區人均消費y(千元)進行統計調查,y與x有相關關系,得到回歸直線方程=+.若該地區的人均消費水平為千元,估計該地區的人均消費額占人均工資收入的百分比約為 .答案 83%5.某化工廠為預測產品的回收率y,需要研究它和原料有效成分含量x之間的相關關系,現取8對觀測值,計算,得=52, =228, =478, =1 84

9、9,則其線性回歸方程為 .答案 =+6.有下列關系:人的年齡與他(她)擁有的財富之間的關系;曲線上的點與該點的坐標之間的關系;蘋果的產量與氣候之間的關系;森林中的同一種樹木,其斷面直徑與高度之間的關系.其中,具有相關關系的是 .答案 7.已知關于某設備的使用年限x與所支出的維修費用y(萬元),有如下統計資料:使用年限x23456維修費用y若y對x呈線性相關關系,則回歸直線方程=x+表示的直線一定過定點 .答案 (4,5)二、解答題8.期中考試結束后,記錄了5名同學的數學和物理成績,如下表: 學生學科ABCDE數學8075706560物理7066686462(1)數學成績和物理成績具有相關關系嗎

10、(2)請你畫出兩科成績的散點圖,結合散點圖,認識(1)的結論的特點.解 (1)數學成績和物理成績具有相關關系.(2)以x軸表示數學成績,y軸表示物理成績,可得相應的散點圖如下:由散點圖可以看出,物理成績和數學成績對應的點不分散,大致分布在一條直線附近.9.以下是某地搜集到的新房屋的銷售價格y和房屋的面積x的數據:房屋面積x(m2)11511080135105銷售價格y(萬元)22(1)畫出數據對應的散點圖;(2)求線性回歸方程,并在散點圖中加上回歸直線.解 (1)數據對應的散點圖如圖所示:(2)=109,=,=60 975,=12 952,= 2=- 2= 2x+ 2.10.某公司利潤y與銷售

11、總額x(單位:千萬元)之間有如下對應數據:x10151720252832y12(1)畫出散點圖;(2)求回歸直線方程;(3)估計銷售總額為24千萬元時的利潤.解 (1)散點圖如圖所示:(2)=(10+15+17+20+25+28+32)=21,=(1+2+=,=102+152+172+202+252+282+322=3 447,=10×1+15×+17×+20×2+25×+28×+32×=,=,=-=把x=24(千萬元)代入方程得,=(千萬元).估計銷售總額為24千萬元時,利潤為千萬元.11某種產品的廣告費支出x與銷售額y(

12、單位:百萬元)之間有如下對應數據:x24568y3040605070(1)畫出散點圖;(2)求回歸直線方程;(3)試預測廣告費支出為10百萬元時,銷售額多大解 (1)根據表中所列數據可得散點圖如下:(2)列出下表,并用科學計算器進行有關計算:i12345xi24568yi3040605070xiyi60160300300560因此,=5,= =50,=145, =13 500, =1 380.于是可得:=;=-=×5=.因此,所求回歸直線方程為:=+.(3)根據上面求得的回歸直線方程,當廣告費支出為10百萬元時,=×10+=(百萬元),即這種產品的銷售收入大約為百萬元.獨立

13、性檢驗的基本知識點及習題本周內容: 一、基礎知識梳理1.獨立性檢驗利用隨機變量 來確定在多大程度上可以認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗。2.判斷結論成立的可能性的步驟:(1)通過三維柱形圖和二維條形圖,可以粗略地判斷兩個分類變量是否有關系,但是這種判斷無法精確地給出所得結論的可靠程度。(2)可以利用獨立性檢驗來考察兩個分類變量是否有關系,并且能較精確地給出這種判斷的可靠程度。二、例題選講例1.為了探究患慢性氣管炎是否與吸煙有關,調查了339名50歲以上的人,調查結果如下表所示: 患病不患病合計吸煙43162205不吸煙13121134合計56283339試問:50歲

14、以上的人患慢性氣管炎與吸煙習慣有關嗎分析:最理想的解決辦法是向所有50歲以上的人作調查,然后對所得到的數據進行統計處理,但這花費的代價太大,實際上是行不通的,339人相對于全體50歲以上的人,只是一個小部分,已學過總體和樣本的關系,當用樣本平均數,樣本方差去估計總體相應的數字特征時,由于抽樣的隨機性,結果并不唯一。現在情況類似,我們用部分對全體作推斷,推斷可能正確,也可能錯誤。如果抽取的339個調查對象中很多人是吸煙但沒患慢性氣管炎,而雖不吸煙因身體體質差而患慢性氣管炎,能夠得出什么結論呢我們有95%(或99%)的把握說事件 與事件 有關,是指推斷犯錯誤的可能性為5%(或1%),這也常常說成是

15、“以95%(或99%)的概率”是一樣的。解:根據列聯表中的數據,得 。因為 ,所以我們有99%的把握說:50歲以上的人患慢性氣管炎與吸煙習慣有關。例2甲乙兩個班級進行一門考試,按照學生考試成績優秀和不優秀統計成績后,得到如下的列聯表:班級與成績列聯表 優秀不優秀總計甲班103545乙班73845總計177390畫出列聯表的條形圖,并通過圖形判斷成績與班級是否有關;利用列聯表的獨立性檢驗估計,認為“成績與班級有關系”犯錯誤的概率是多少。解:列聯表的條形圖如圖所示:由表中數據計算得K2的觀察值為k>。由下表中數據P(K2k)k得:P(K2,從而有50%的把握認為“成績與班級有關系”,即斷言“

16、成績優秀與班級有關系”犯錯誤的概率為。評注:(1)畫出條形圖后,從圖形上判斷兩個分類變量之間是否有關系。這里通過圖形的直觀感覺的結果可能會出錯。(2)計算得到K2的觀測值比較小,所以沒有理由說明“成績優秀與班級有關系”。這與反證法也有類似的地方,在使用反證法證明結論時,假設結論不成立的條件下如果沒有推出矛盾,并不能說明結論成立也不能說明結論不成立。在獨立性檢驗中,在假設“成績優秀與班級沒有關系”的情況下,計算得到的K2的值比較小,且P(K2,說明事件(K2不是一個小概率事件,這個事件的發生不足以說明“成績優秀與班級沒有關系”,即沒有理由說明“成績優秀與班級有關系”。這里沒有推出小概率事件發生類

17、似于反證法中沒有推出矛盾。例3為考察某種藥物預防疾病的效果,進行動物試驗,得到如下的列聯列表:藥物效果與動物試驗列聯表 患病未患病總計服用藥104555沒服用藥203050總計3075105請問能有多大把握認為藥物有效解: 假設“服藥情況與是否患病之間沒有關系”,則K2的值應比較小;如果K2的值很大,則說明很可能“服藥情況與是否患病之間有關系”。由題目中所給數據計算,得K2的觀測值為k,而P(K2,所以有%的把握認為“服藥情況與是否患病之間有關系”,即大約有%的把握認為藥物有效。例4在一次惡劣氣候的飛行航程中調查男女乘客在機上暈機的情況如下表所示,根據此資料你是否認為在惡劣氣候中男人比女人更容

18、易暈機 暈機不暈機合計男人243155女人82634合計325789分析:這是一個 列聯表的獨立性檢驗問題,根據列聯表的數據求解。解:由條件中數據,計算得: ,因為 ,所以我們沒有理由說暈機是否跟男女性別有關,盡管這次航班中男人暈機的比例 比女人暈機的比例 高,但我們不能認為在惡劣的氣候飛行中男人比女人更容易暈機。評注:在使用 統計量作 列聯表的獨立性檢驗時,要求表中的4個數據大于等于5,為此,在選取樣本的容量時一定要注意這一點,本例中的4個數據都大于5,且滿足這一要求的。例5在對人們休閑的一次調查中,共調查了124人,其中女性70人,男性54人。女性中有43人主要的休閑方式是看電視,另外27人主要的休閑方式是運動;男性中有21人主要的休閑方式是看電視,另外33人主要的休閑方式是運動。(1)根據以上數據建立一個 的列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論