考點5,回歸分析與獨立性檢驗_第1頁
考點5,回歸分析與獨立性檢驗_第2頁
考點5,回歸分析與獨立性檢驗_第3頁
考點5,回歸分析與獨立性檢驗_第4頁
考點5,回歸分析與獨立性檢驗_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、考點五回歸分析與獨立性檢驗考點要攬會做兩個相關變量的數據的散點圖,會利用散點圖認識變量間的相關關 系。了解最小二乘法的思想,能根據給出的線性回歸方程系數公式建立線性回 歸方程。 了解獨立性檢驗(只要求2 2列聯表)的基本思想、方法及其簡單應用。 了解回歸分析的基本思想、方法及其簡單應用。命題趨向以選擇題和填空題的形式考查線性回歸系數或利用線性回歸方程進行預 測,在給出臨界值的情況下判斷兩個變量是否有關。在解答題中與頻率分布結合考查線性回歸方程的建立及應用和獨立性檢 驗的應用。備考策略系統掌握有關概念能熟練的運用公式求線性回歸系數一、回歸分析Xi -x yy 、 XiYi - nXy(一)回歸直

2、線方程:y = bx a,其中 b=i呂n、Xi -X 2n、Xi2 -nX2i=1i =1w = y -依,X, y稱為樣本中心點,因而回歸直線過樣本中心點 (二)樣本相關系數r用來衡量兩個變量之間線性相關關系的方法Xi X yi yr越接近1,表im nnXi -X2yi -y2 i =1當r 0時,表明兩變量正相關;當r :0,表明兩變量負相關明兩變量的線性相關性越強;r越接近0,表明兩變量的線性相關關系幾乎不存 在,通常當r 0.75時,認為兩個變量有很強的線性相關關系.理解總結(一)線性回歸分析一般情況下,在尚未斷定兩個變量之間是否具有線性相關關系的情況下,應先進行相關性檢驗,在確認

3、具有線性相關關系后,再求回歸直線方程回歸分析的一般步驟為:1. 從一組數據出發,畫出散點圖,只有在散點圖大致呈線性時,求出的回歸直線方 程才有實際意義,否則,求出的回歸直線方程毫無意義;2. 如果具有線性相關關系,求出回歸方程y = 8x a?,其中?是常數項,b?是回歸 系數;3. 根據回歸方程,由一個變量的值,預測或控制另一個變量的值(二)估計線性回歸模型中的未知參數 召和?時,般利用最小二乘法.其計算公式為:?=v Xi -X Yi-y v XiYi - nxyi 4i 4n二Xi - Xi =4P 22x Xi - nXi 二o? = ?-bX其中X丄Xi,Y 丄 Yi.n i呂n i

4、呂對此公式不要求記憶,但要會用. 咼考導航例1假設關于某設備使用年限X和所支出的維修費用y(萬元)有如下的統計資料:使用年限X23456維修費用Y2.23.85.56.57.0若由資料知Y對X呈線性相關關系試求:(i)線性回歸方程? = bX ?的回歸系數a,?;(2)估計使用年限為10時,維修費用是多少? 解題思路求回歸直線方程的計算量較大,需要細心、謹慎地計算.可以通過列表,計算nn出XiYiXi2 , X , y,后將這些量代入公式計算.i =4i 丑解析:(1)制表如下:i12345合計X2345620yi2.23.85.56.57.025XYi4.411.422.032.542.01

5、12.3?Xi24916253690nn2? x=4; ? y =5; ?送 Xj =90;送 xy =112.3i i 于是JH1.23,依心皿. 回歸直線方程為y=1.23x 0.08=12.38.當x =10時,0=12.38,即估計使用10年時,維修費用是12.38萬元.二、獨立性檢驗(一)獨立性檢驗的概念y1y2總計X1aba +bX2cdc +d總計a +cb +da +b +c + d其樣本頻數列聯表(稱為2 2列聯表)為:n (ad -bcf般地,假設有兩個分類變量 X和Y ,它們的值域分別為 g, X2 和治,耐,我們利用隨機變量K2來確定在多大程度上可以(a+b(c + d

6、(a + c(b + d )認為“兩個分類變量有關系”,這種方法稱為兩個分類變量的獨立性檢驗.(二)獨立性檢驗的基本思想獨立性檢驗的基本思想類似于反證法.要確認“兩個分類變量有關系”這一 結論成立的可信程度,首先假設該結論不成立,即假設結論“兩個分類變量沒有關系”成立.在該假設下我們構造的隨機變量 K2應該很小,如果由觀測數據計算得到的K 2的觀測值k很大,則在一定程度上說明假設不合理.具體比較如下表:反證法原理與獨立性檢驗原理的比較反證法原理在假設Ho下,如果推出一個矛盾,就證明了 Ho不成立.獨立性檢驗原理在假設Ho下,如果出現一個與Ho矛盾的小概率事件,就推 斷Ho不成立,且該推斷犯錯誤

7、的概率不超過這個小概率.(三)獨立性檢驗的方法假設Hi: “ X與Y有關系”,可按如下步驟判斷結論Hi成立的可能性:1. 通過等高條形圖,可以粗略地判斷兩個分類變量是否有關系 ,但是這種判斷無 法精確地給出所得結論的可靠程度2. 利用獨立性檢驗來考查兩個分類變量是否有關系,并且能較精確地給出這種判 斷的可靠程度,具體做法是:2n(ad - be)(1)根據實際問題的需要確定容許推斷“兩個分類變量有關系”犯錯誤概率的上界a,然后通過下表確定臨界值k0.P(K2 * )0.500.400.250.150.100.050.0250.010 ().0050.001ko0.4550.7081.3232.

8、0722.7063.8415.0246.635 879 10.828由公式宀& Fe d; eb d,計算的觀測值k *(3)如果k 一 k。,就推斷“ X與Y有關系”.這種推斷犯錯誤的概率不超過a;否 則,就認為在犯錯誤的概率不超過 a的前提下不能推斷“ X與Y有關系”,或者 在樣本數據中沒有足夠證據支持結論“ X與Y有關系”.理解總結根據獨立性檢驗的基本思想,可知對于K2的觀測值k ,存在一個正數ko為判斷規則的臨界值,當k k。,就認為“兩個分類變量之間有關系”;否則就認為“兩個分類變量沒有關系” 在實際應用中,我們把k 一 ko解釋為有1 - P K2 - ko 100%的把握認為“兩

9、個分類變量之間有關系”;把k : ko解釋為不能以1 - P K2 一 ko 100%的把握認為“兩個分類變量之間有關系”,或者樣本觀測數據沒有提供“兩個分類變量之間有關系”的充分證據咼考導航例1 (1)下列關系中不是相關關系的是?()(A) 產品投入的廣告費與產品的銷售量.(B) 數軸上的點與實數X.(C) 人的身高與體重的大小.(D) 一天中的濕度與氣溫的高低 對分類變量X與Y的隨機變量K 2的值,下列說法正確的是()(A) K2越大,“X與Y有關系”可信度越小.(B) K2越小,“X與Y有關系”可信度越小.(C) K2越接近于0, “ X與Y無關”程度越小.(D) K2越大,“X與Y無關

10、”程度越大.解題思路(1)觀察給出的兩個量之間是否是函數關系、是否具備一定的聯系,是否沒有 關系,從而可以判斷出各種關系(2) K2是反映變量X與Y是否有相關關系的一個重要參數.解析:(1)A項產品投入的廣告費與產品的銷售量、C項的人的身高與體重的大小、 D項的一天中的濕度與氣溫的高低之間都是有一定的聯系但是是不確定性的關 系,故為相關關系.B項數軸上的點與實數x之間為確定的函數關系.例2為了比較注射A、B兩種藥物后產生的皮膚皰疹的面積,選200只家兔做 試驗,將這200只家兔隨機地分成兩組,每組100只,其中一組注射藥物A,另一組 注射藥物B .(1) 甲、乙是200只家兔中的2只,求甲、乙

11、分在不同組的概率;(2) 下表1和表2分別是注射藥物A和B后的試驗結果.(皰疹面積單位:mm2)表1:注射藥物A后皮膚皰疹面積的頻數分布表皰疹面積60,65)65,70)70,75)75,80)頻數30402010表2:注射藥物B后皮膚皰疹面積的頻數分布表皰疹面積60,65)65,70)70,75)75,80) 80,85)頻數1025203015完成下面頻率分布直方圖,并比較注射兩種藥物后皰疹面積的中位數大小頻率/組距JI111T | Irli廠i1匚T 1VT 11 IT 11尸iV1V1 II1V1VH11: :IWtL1V11 1111hV11h111Il; 11一11 人VI_ -1

12、1I|111V1111V1A1LI 1|111II1AT*-_&5 了U 73 U 85皰疹面積 圖1注射藥物4后皮膚皰疹面積的頻率分布直方圖0.0f頻率/組距r!訃.-.1iTI1r II廠11fIIIiIVIi11t1iiI1I fl11riLJ_i1J_11Jui1 lUi1卜r11i111fl 11111 1-11111VLIIII-.L .-.11VV1A亠11JV1i|11I111VI i| A11r-r_皰疹面積2注射藥物后皮膚皰疹 面積的頻率分布直方圖完成下面2 2列聯表,并回答能否有99.9%的把握認為“注射藥物A后的皰疹 面積與注射藥物B后皰疹面積有差異”.皰疹面積小于70

13、mm2皰疹面積不小于70mm合計注射藥物Aa =b =注射藥物Bc =d =合計n =附:KSnadbc(a +b c +d (a +c j(b +d )P(K2)0.100.050.0250.0100.001ko2.7063.8415.0246.63510.828解題思路(1) 將甲、乙兩只家兔分在不同組,可在剩余的198只中選99只,也就是將剩 余的分為兩組,然后再將甲乙兩只分在兩個組中即可;(2) 第問畫頻率分布直方圖時,應該首先計算出相應的頻率,要注意其縱軸為頻率與組距的比值;在頻率分布直方圖中,中位數將小矩形的面積分為相等的 兩部分,據此可以估計中位數所在的范圍;第問可以根據給出的頻

14、數分布表得 到2 2列聯表,然后利用給定的公式和對應表來確定其可信程度.199【解析】甲、乙兩只家兔分在不同組的概率為:PUCC9100.C2001 99(2)0.0&0.070.06).050.040.030.020.01-O_65_70758085皰疹面積圖1注射藥物蟲后皮膚皰疹面積的頻率分布直方圖+頻率/組距 在頻率分布直方圖中,中位數兩邊對應的小長方形的面積相等,都等于0.5,可以 看出注射藥物A后的皰疹面積的中位數在65至70之間,而注射藥物B后的皰疹 面積的中位數在70至75之間,所以注射藥物A后皰疹面積的中位數小于注射藥 物B后皰疹面積的中位數.OOOOOOOOz60657075

15、8085 舟疹面積圖2注射藥物B后皮膚皰疹面積的頻率分布直方圖表3:皰疹面積小于70mm2皰疹面積不小于70mm合計注射藥物Aa = 70b =30100注射藥物Bc = 35d =65100合計10595n = 200K 200 (A)變量x與y正相關,u與v正相關(B)變量x與y正相關,u與v負相關30 65: 24.56100 100 105 95由于K210.828 ,所以有99.9%的把握認為“注射藥物 A后的皰疹面積與注射藥物B后的皰疹面積有差異”.遷移應用1、( 2009寧夏海南卷理科)對變量x, y有觀測數據x,yi i =1,2,,10,得散點圖1;對變量u,v有觀測數據Ui

16、,Vi i =1,2/ ,10 ,得散點圖2.由這兩個散點圖可以判斷。(C)變量x與y負相關,u與v正相關(D)變量x與y負相關,u與v負相關2、(2010 湖南卷文科)則其回歸方程可能是(A) ? -10x 200某商品銷售量y (件)與銷售價格x (元/件)負相關,(B)?=10x200Vi W 25 20 15 W(C) y - -10x -200(D)yy=iox _2oo3、(2011 江西卷文科)為了解兒子身高與其父親身高的關系,隨機抽取5對父子的身高數據如下:父親身咼x(cm)174176176176178兒子身高y (cm)175175176177177則y對x的線性回歸方程為

17、()(A)yy = x _i(B)y = x i1(C) y x 88( D) y = 17624、 (2011 江西卷理科)變量X與Y相對應的一組數據為(10, 1), (11.3,2 ),(11.8,3 ), (12.5,4 ), (13,5);變量 U 與 V 相對應的一組數據為(10,5 ),(11.3,4 ), (11.8,3 ), (12.5,2 ), (13,1 ),幾表示變量Y與X之間的線性相關系數,Q表示變量V與U之間的線性相關系數,則()(A)r2: a: 0(B)0 r2: r1(C)r2: 0: r1(D)r2二 r15、 (2012 湖南卷理科)設某大學的女生體重y

18、(單位:kg)與身高x (單位:cm)具有線性相關關系,根據一組樣本數據,yi i =1,2,,n,用最小二乘法建立的回歸方程為y = 0.8585.71,則下列結論中不正確的是()(A) y與x具有正的線性相關關系(B) 回歸直線過樣本點的中心 x, y(C) 若該大學某女生身高增加1cm則其體重約增加0.85kg(D) 若該大學某女生身高為170cm則可斷定其體重必為58.79kg& (2012 新課標全國卷文科)在一組樣本數據x1,y1 , x2, y2 ,焉,yn(n 2 , X1,X2, ,xn不全相等)的散點圖中,若所有樣本點 Xi,% i = 1,2, ,n1都在直線y = 1 x 1上,則這組樣本數據的樣本相關系數為()21(A) -1(B) 0(C) -(D) 127、(2010 廣東卷文科)某市居民20052009年家庭年平均收入x (單位:萬元)與年平均支出y (單位:萬元)的統計資料如下表所示:年份20052006200720082009收入11.512.11313.315支出6.88.89.81012根據統計資料,居民家庭年平均收入的中位數是 ,家庭年平均

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論