新蘇教版高中數學(選修1-2)(基礎版)(全冊知識點考點梳理、重點題型分類鞏固練習)(家教、補習、復習用)_第1頁
新蘇教版高中數學(選修1-2)(基礎版)(全冊知識點考點梳理、重點題型分類鞏固練習)(家教、補習、復習用)_第2頁
新蘇教版高中數學(選修1-2)(基礎版)(全冊知識點考點梳理、重點題型分類鞏固練習)(家教、補習、復習用)_第3頁
新蘇教版高中數學(選修1-2)(基礎版)(全冊知識點考點梳理、重點題型分類鞏固練習)(家教、補習、復習用)_第4頁
新蘇教版高中數學(選修1-2)(基礎版)(全冊知識點考點梳理、重點題型分類鞏固練習)(家教、補習、復習用)_第5頁
已閱讀5頁,還剩165頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精品文檔 精心整理精品文檔 精心整理 蘇教版高中數學(選修1-2)重難點突破全冊知識點梳理及重點題型舉一反三鞏固練習獨立性檢驗的基本思想及其初步應用 【學習目標】1. 了解獨立性檢驗(只要求22列聯表)的基本思想、方法及初步應用2. 通過典型案例的探究,了解實際推斷原理和假設檢驗的基本思想、方法及初步應用.【要點梳理】要點一、分類變量有一種變量,這種變量所取不同的“值”表示的是個體所屬不同類別,稱這種變量為分類變量。要點詮釋:(1)對分類變量的理解。這里的“變量”和“值”都應作為廣義的“變量”和“值”進行理解。例如:“性別變量”有“男”和“女”兩種類別,這里的變量指的是性別,同樣這里的“值”指

2、的是“男”和“女”。因此,這里所說的“變量”和“值”取的不一定是具體的數值。(2)分類變量可以有多種類別。例如:吸煙變量有“吸煙”與“不吸煙”兩種類別,而國籍變量則有多種類別。要點二、22列聯表1. 列聯表用表格列出的分類變量的頻數表,叫做列聯表。2. 22列聯表對于兩個事件A,B,列出兩個事件在兩種狀態下的數據,如下表所示:事件B事件合計事件Aaba+b事件cdc+d合計a+cb +da+b+c+d這樣的表格稱為22列聯表。要點三:卡方統計量公式為了研究分類變量X與Y的關系,經調查得到一張22列聯表,如下表所示 Y1Y2合計X1aba+bX2cdc+d合計a+cb+dn=a+b+c+d統計中

3、有一個有用的(讀做“卡方”)統計量,它的表達式是: (為樣本容量)。要點四、獨立性檢驗獨立性檢驗通過22列聯表,再通過卡方統計量公式計算的值,利用隨機變量來確定在多大程度上可以認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗。變量獨立性的判斷通過對統計量分布的研究,已經得到兩個臨界值:3.841和6.635。當數據量較大時,在統計中,用以下結果對變量的獨立性進行判斷:如果3.841時,認為事件A與B是無關的。如果3.841時,有95%的把握說事件A與事件B有關;如果6.635時,有99%的把握說事件A與事件B有關;要點詮釋:(1)獨立性檢驗一般是指通過計算統計量的大小對兩個事件是否

4、有關進行判斷;(2)獨立性檢驗的基本思想類似于反證法。即在H0:事件A與B無關的統計假設下,利用統計量的大小來決定在多大程度上拒絕原來的統計假設H0,即拒絕“事件A與B無關”,從而認為事件A與B有關。獨立性檢驗為假設檢驗的特例。(3)利用獨立性檢驗可以考察兩個分類變量是否有關,并且能較精確地給出這種判斷的把握程度。3獨立性檢驗的基本步驟及簡單應用 獨立性檢驗的步驟:要推斷“A與B是否有關”,可按下面步驟進行:(1)提出統計假設H0:事件A與B無關(相互獨立);(2)抽取樣本(樣本容量不要太小,每個數據都要大于5);(3)列出22列聯表;(4)根據22列聯表,利用公式:,計算出的值;(5)統計推

5、斷:當3.841時,有95的把握說事件A與B有關;當6.635時,有99的把握說事件A與B有關;當10.828時,有99.9的把握說事件A與B有關;當3.841時,認為事件A與B是無關的要點詮釋:使用統計量作22列聯表的獨立性檢驗時,要求表中的4個數據都要大于5一定要弄清的表達式中各個量的含義獨立性檢驗的基本思想類似于反證法要確認“兩個分類變量有關系”這一結論成立的可信程度,首先假設結論不成立,即假設結論“兩個分類變量沒有關系”成立,在該假設下構造的隨機變量應該很小,如果由觀測數據計算得到的的觀測值很大,則在一定程度上說明假設不合理根據隨機變量的含義,由實際計算的6.635,說明假設不合理的程

6、度約為99,即“兩個分類變量有關系”這一結論成立的可信程度約為99當3.841時,認為兩個分類變量是無關的【典型例題】類型一、利用22列聯表計算卡方例1為了考察中學生的性別與是否喜歡數學課程之間的關系,在某校學生中隨機地抽取了50名學生,得到如下列聯表:喜歡數學不喜歡數學合計男131023女72027合計203050根據表中的數據,計算【思路點撥】利用公式計算【解析】得到【思路點撥】在利用列聯表計算統計量作獨立性檢驗時,要求表中的4個數據大于等于5,為此,在選取樣本的容量時一定要注意這一點。舉一反三:【變式1】研究兩個事件A,B之間的關系時,根據數據信息列出如下的22列聯表:B合計An11n1

7、2n1+n21n22n2+合計n+1n+2n則以下計算公式正確的是( )A BC D【答案】A【變式2】由列聯表合計4316220513121134合計56283339則隨機變量 。(精確到0.001)【答案】由公式計算得:7.469 類型二、獨立性檢驗例2 近年來,隨著我國經濟的飛速發展,在生產車間中,由于保護不當,對生產工人造成傷害的事件也越來越多某礦石粉廠當生產一種礦石粉時,在數天內即有部分工人患職業性皮膚炎(注:檢查為陽性則為患皮膚炎),在生產季節開始時,隨機抽取75名車間工人穿上新防護服,其余仍穿原用的防護服,生產進行一個月后,檢查兩組工人的皮膚炎患病人數的結果如下:陽性例數陰性例數

8、合計新57075舊101828合計1588103 問這種新防護服對預防工人患職業性皮膚炎是否有效?并說明你的理由 【思路點撥】 這是一個列聯表的獨立性檢驗問題,根據列聯表的數據求解判斷。【解析】 提出假設H0:新防護服對預防工人患職業性皮膚炎無效 將表中數據代入,得,查表可知:P(10.828)0.001,而13.82610.828,故有99.9的把握認為新防護服對預防這種職業性皮膚炎有效【總結升華】 在掌握了獨立性檢驗的基本思想后我們一般通過計算的值,然后比較的值與臨界值的大小來精確地給出“兩個分類變量”的相關程度舉一反三:【變式1】某企業為了更好地了解設備改造前后與生產合格品的關系,隨機抽

9、取了180件產品進行分析。其中設備改造前生產的合格品有36件,不合格品有49件;設備改造后生產的合格品有65件,不合格品有30件。根據上面的數據,你能得出什么結論?【答案】由已知數據得到下表合格品不合格品合計設備改造后653095設備改造前364985合計10179180根據公式得12.38。由于12.386.635,可以得出產品是否合格與設備改造是有關的。【變式2】考察黃煙經過培養液處理與否跟發生青花病的關系。調查了457株黃煙,得到下表中數據,請根據數據作統計分析。培養液處理未處理合計青花病25210235無青花病80142222合計105352457分析:計算的值與臨界值的大小關系。【答

10、案】根據公式41.61。由于41.616.635,說明經過培養液處理的黃煙跟發生青花病是有關的。【變式3】為了研究色盲與性別的關系,調查了1000人,調查結果如下表所示:男女正常442514色盲386根據上述數據試問色盲與性別是否是相互獨立的?【答案】由已知條件可得下表男女合計正常442514956色盲38644合計4805201000依據公式得27.139。由于27.1396.635,所以有99%的把握認為色盲與性別是有關的,從而拒絕原假設,可以認為色盲與性別不是相互獨立的。【獨立性檢驗的基本思想及其初步應用406875 例題 1】例3. 對196個接受心臟搭橋手術的病人和196個接受血管清

11、障手術的病人進行3年的跟蹤研究,調查他們是否又發作過心臟病,調查結果如下表所示:又發作過心臟病未發作過心臟病合計心臟搭橋手術39157196血管清障手術29167196合計68324392 試根據上述數據比較這兩種手術對病人又發作過心臟病的影響有沒有差別【思路點撥】先提出假設,然后根據的大小做出準確估計判斷。【解析】 假設病人又發作過心臟病與做過心臟搭橋手術還是血管清障手術沒有關系 由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,所以 。 因為1.7790.455。由下表中數據P(K2k)0.500.400.250.15

12、0.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828得:P(K20.455)0.50,從而有50%的把握認為“成績與班級有關系”,即斷言“成績優秀與班級有關系”犯錯誤的概率為0.5。【總結升華】(1)畫出條形圖后,從圖形上判斷兩個分類變量之間是否有關系。這里通過圖形的直觀感覺的結果可能會出錯。(2)計算得到K2的觀測值比較小,所以沒有理由說明“成績優秀與班級有關系”。這與反證法也有類似的地方,在使用反證法證明結論時,假設結論不成立的條件下如果沒有推出矛盾,并不能說明結論成立也不能說明結論

13、不成立。在獨立性檢驗中,在假設“成績優秀與班級沒有關系”的情況下,計算得到的K2的值比較小,且P(K20.653)0.42,說明事件(K20.653)不是一個小概率事件,這個事件的發生不足以說明“成績優秀與班級沒有關系”,即沒有理由說明“成績優秀與班級有關系”。這里沒有推出小概率事件發生類似于反證法中沒有推出矛盾。 舉一反三:【變式1】 在調查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分別利用圖形和獨立性檢驗的方法來判斷色盲與性別是否有關你所得到的結論在什么范圍內有效? 【答案】 根據題目所給的數據作出如下的列聯表:色盲不色盲合計男38442480女6514520合計44

14、9561000 作出相應的二維條形圖,如圖所示由二維條形圖可知在男人中患色盲的比例要比在女人中患色盲的比例大,其差值比較大,因而我們可以認為性別與患色盲是有關的; 根據列聯表中所給的數據可知: a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1000, 代入公式 得,因為27.110.828,所以我們有99.9的把握認為性別與患色盲有關系這個結論只對所調查的480名男人和520名女人有效【變式2】 某年高考后,某市教育主管部門對該市一重點中學高考上線情況進行統計,隨機抽查244名學生,得到如下表格:語文數學英語綜合科目上線不上線上線不

15、上線上線不上線上線不上線總分上線201人17427178231762517526總分不上線43人3013232024192617總計20440201432004420143 試求各科上線與總分上線之間的關系,并求出哪一科目與總分上線關系最大? 【答案】對于上述四個科目,分別構造四個隨機變量, 由表中數據可以得到: 語文:, 數學:, 英語:, 綜合科目:所以,有99的把握認為語文上線與總分上線有關系,有99.9的把握認為數學、英語、綜合科目上線與總分上線有關系,數學上線與總分上線關系最大【變式3】有甲、乙兩個班級進行數學考試,按照大于等于85分為優秀,85分以下為非優秀統計成績后,得到如下的列

16、聯表.優秀非優秀合計甲班10乙班30合計105已知在全部105人中隨機抽取1人為優秀的概率為.(1)請完成上面的列聯表;(2)根據列聯表的數據,若按95%的可靠性要求,能否認為“成績與班級有關系”;(3)若按下面的方法從甲班優秀的學生抽取一人:把甲班優秀的10名學生從2到11進行編號,先后兩次拋擲一枚均勻的骰子,出現的點數之和為被抽取人的序號,試求抽到6或10號的概率【答案】(1)優秀非優秀合計甲班104555乙班203050合計3075105(2)根據列聯表中的數據,得到,因此有95%的把握認為“成績與班級有關系”(3)設“抽到6或10號”為事件A,先后兩次拋擲一枚均勻的骰子,出現的點數為(

17、x,y)所有的基本事件有(1,1)、(1,2)、(1,3)、(6,6),共36個事件A包含的基本事件有:(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共8個,P(A).【鞏固練習】一、選擇題1. 對兩個分類變量A、B的下列說法中正確的個數為( ) A與B無關,即A與B互不影響;A與B關系越密切,則K2的值就越大;K2的大小是判定A與B是否相關的唯一依據 A1 B2 C3 D02在檢驗雙向分類列聯表數據中,兩個分類特征(即兩個因素變量)之間是彼此相關還是相互獨立的問題,在常用的方法中,最為精確的做法是( )A三維柱形圖 B二維條形圖 C等高條形圖

18、 D獨立性檢驗3對于分類變量X與Y的統計量,下列說法正確的是( )A越大,說明X與Y有關的把握越小B越大,說明X與Y無關的把握越大C越小,說明X與Y有關的把握越小D越接近于0,說明X與Y無關的把握越小4.右表是對與喜歡足球與否的統計列聯表依據表中的數據,得到( )(A)(B)(C)(D)5為了研究色盲與性別的關系,調查了1 000人,調查結果如下表所示:男女正常442514色盲386根據上述數據,試問色盲與性別關系是( ) A. 相互獨立 B.不相互獨立 C. 有99.9的把握認為色盲與性別無關 D. 只有0.1的把握認為色盲與性別有關6對長期吃含三聚氰胺的嬰幼兒奶粉與患腎結石這兩個分類變量的

19、計算中,下列說法正確的是 ( )A. 若的值大于 6.635,我們有99%的把握認為長期吃含三聚氰胺的三鹿嬰幼兒奶粉與患腎結石有關系,那么在100個長期吃含三聚氰胺的三鹿奶粉的嬰幼兒中必有99人患有腎結石病;B.從獨立性檢驗可知有99%的把握認為吃含三聚氰胺的三鹿嬰幼兒奶粉與患腎結石有關系時,我們說某一個嬰幼兒吃含三聚氰胺的三鹿嬰幼兒奶粉,那么他有99%的可能患腎結石病;C.若從統計量中求出有95% 的把握認為吃含三聚氰胺的三鹿嬰幼兒奶粉與患腎結石有關系,是指有5% 的可能性使得推判出現錯誤;D.以上三種說法都不正確。7通過隨機詢問110名性別不同的大學生是否愛好某項運動,得到如下的列聯表:男

20、女總計愛好402060不愛好203050總計6050110由算得, 附表:P(K2k)0.0500.0100.001k3.8416.63510.828參照附表,得到的正確結論是( ) A在犯錯誤的概率不超過0.1的前提下,認為“愛好該項運動與性別有關” B在犯錯誤的概率不超過0.1的前提下,認為“愛好該項運動與性別無關” C有99以上的把握認為“愛好該項運動與性別有關” D有99以上的把握認為“愛好該項運動與性別無關”8.根據下面的列聯表得到如下幾個判斷:有的把握認為患肝病與嗜酒有關;有的把握認為患肝病與嗜酒有關;認為患肝病與嗜酒有關的出錯的可能為;認為患肝病與嗜酒有關的出錯的可能為。 其中正

21、確命題的個數為( )(A) (B) (C) (D)二、填空題9.下表是關于出生男嬰與女嬰調查的列聯表那么,A= ,B= ,C= ,D= ,E= ;10. 獨立性檢驗中,假設:變量X與變量Y沒有關系則在成立的情況下,估算概率表示的意義是 11根據下表,計算K2的觀測值k_(保留兩位小數)又發病未發病做移植手術39157未做移植手術2916712.某學校對校本課程人與自然的選修情況進行了統計,得到如下數據:那么,選修人與自然與性別有關的把握是 ;三、解答題13.有甲、乙兩個班,進行數學考試,按學生考試及格與不及格統計成績后,得到如下的列聯表根據表中數據,你有多大把握認為成績及格與班級有關?14.某

22、企業為了更好地了解設備改造前后與生產合格品的關系,隨機抽取了180件產品進行分析。其中設備改造前生產的合格品有36件,不合格品有49件;設備改造后生產的合格品有65件,不合格品有30件。根據上面的數據,你能得出什么結論?15.在大街上,隨機調查339名成人,有關吸煙、不吸煙、患支氣管炎、不患支氣管炎的數據如下表根據表中數據,(1)判斷:吸煙與患支氣管炎是否有關?(2)用假設檢驗的思想予以證明。【答案與解析】1【答案】A 【解析】 正確。A與B無關即A與B相互獨立;不正確,K2的值的大小只是用來檢驗A與B是否相互獨立;不正確,例如借助三維柱形圖、二維條形圖等,就可判定A與B是否相關。2【答案】D

23、 【解析】 前三種方法只能直觀地看出兩變量x與y是否相關,不能看出相關的程度,獨立性檢驗可以通過計算得出相關的可能性。3【答案】C【解析】 越大,說明“X與Y有關”的把握越大,越小,說明“X與Y有關”的把握越小,故選C。4. 【答案】D【解析】由5【答案】 B 【解析】 ,所以的99.9的把握認為色盲與性別是有關的,從而拒絕原假設,可以認為色盲與性別不是相互獨立.6【答案】C 【解析】對于A,若的值為6.635,我們有99%的把握認為吃含三聚氰胺的三鹿奶粉的嬰幼兒與患腎結石有關系,但在100個吃含三聚氰胺的三鹿嬰幼兒奶粉嬰幼兒中未必有99人患有肺病; 對于B同樣不成立,C是正確的,故選C.7【

24、答案】C 【解析】 根據獨立檢測的思想方法,正確選項為C項。8. 【答案】D;【解析】由9. 【答案】A=47,B=92,C=88,D=82,E=53; 【解析】由公式可得。10. 【答案】變量X與變量Y有關系的概率為。【解析】由定義可得。11【答案】1.78 【解析】 。12. 【答案】【解析】,即有的把握,認為選修人與自然與性別有關。13. 【解析】由列聯表中的數據,得沒有充分的證據顯示“及格或不及格否與班級有關”。14. 【解析】先轉化為二元獨立性檢驗問題。由已知數據得到下表合格品不合格品合計設備改造后653095設備改造前364985合計10179180根據公式得12.38。由于12.

25、386.635,可以得出產品是否合格與設備改造是有關的。15. 【解析】(1)由列聯表中的數據,得所以,有的把握認為吸煙與患支氣管炎有關。(2)假設吸煙與患支氣管炎無關,由于,即為小概率事件,而小概率事件發生了,進而假設錯誤,得到吸煙與患支氣管炎有關。 回歸分析的基本思想及其初步應用【學習目標】1. 通過對實際問題的分析,了解回歸分析的必要性與回歸分析的一般步驟。2. 能作出散點圖,能求其回歸直線方程。3. 會用所學的知識對簡單的實際問題進行回歸分析。【要點梳理】要點一、變量間的相關關系1. 變量與變量間的兩種關系:(1) 函數關系:這是一種確定性的關系,即一個變量能被另一個變量按照某種對應法

26、則唯一確定例如圓的面積S與半徑r之間的關系S=r2為函數關系 (2)相關關系:這是一種非確定性關系當一個變量取值一定時,另一個變量的取值帶有一定的隨機性,這兩個變量之間的關系叫做相關關系。例如人的身高不能確定體重,但一般來說“身高者,體重也重”,我們說身高與體重這兩個變量具有相關關系 2. 相關關系的分類:(1)在兩個變量中,一個變量是可控制變量,另一個變量是隨機變量,如施肥量與水稻產量;(2)兩個變量均為隨機變量,如某學生的語文成績與化學成績 3. 散點圖:將兩個變量的各對數據在直角坐標系中描點而得到的圖形叫做散點圖它直觀地描述了兩個變量之間有沒有相關關系這是我們判斷的一種依據4. 回歸分析

27、:與函數關系不同,相關關系是一種非確定性關系,對具有相關關系的兩個變量進行統計分析的方法叫做回歸分析。要點二、線性回歸方程: 1回歸直線如果散點圖中點的分布從整體上看大致在一條直線附近,我們就稱這兩個變量之間具有線性相關關系,這條直線叫作回歸直線。2回歸直線方程對于一組具有線性相關關系的數據,其回歸直線的截距和斜率的最小二乘法估計公式分別為:,其中表示數據xi(i=1,2,n)的均值,表示數據yi(i=1,2,n)的均值,表示數據xiyi(i=1,2,n)的均值 、的意義是:以為基數,x每增加一個單位,y相應地平均變化個單位要點詮釋:回歸系數,也可以表示為,這樣更便于實際計算。;。稱為樣本中心

28、點,回歸直線必經過樣本中心點。回歸直線方程中的表示x增加1個單位時的變化量,而表示不隨x的變化而變化的量。3求回歸直線方程的一般步驟:作出散點圖由樣本點是否呈條狀分布來判斷兩個量是否具有線性相關關系,若存在線性相關關系,進行第二步。求回歸系數、計算,利用公式求出,再由求出的值; 寫出回歸直線方程;利用回歸直線方程預報在x取某一個值時y的估計值。要點詮釋:一般地,我們可以利用回歸直線方程進行預測,但這里所得到的值是預報值,而不是精確值,它帶有很大的隨機性,可能對于某一次的實際值而言會有很大的出入,這是因為:(1)回歸直線的截距和斜率都是通過樣本估計出來的,存在隨機誤差,這種誤差可以導致預測結果的

29、偏差。(2)即使截距和斜率的估計沒有誤差,也不可能保證對應于x的預報值能夠與實際值y很接近。我們不能保證點(x,y)落在回歸直線上,甚至不能保證它落在回歸直線的附近,事實上,這里是隨機變量,預報值與實際值y的接近程度由隨機變量決定。盡管我們利用回歸直線方程所得到的值僅是一個預報值,它具有隨機性,但它是我們根據統計規律所得到的結論,因而結論正確的概率很大。故我們可以放心地利用回歸直線方程進行預測。要點三、相關性檢驗(1)相關系數r的定義對于變量x與y隨機抽取到的n對數據,稱為x與y的樣本相關系數。(2)相關系數r的作用樣本相關系數r用于衡量兩個變量之間是否具有線性相關關系,描述線性相關關系的強弱

30、:越接近1,表明兩個變量之間的線性相關程度越強;越接近0,表明兩個變量之間的線性相關程度越弱。當r0時,表明兩個變量正相關, 即x增加,y隨之相應地增加,若x減少,y隨之相應地減少當r0時,表明兩個變量負相關, 即x增加,y隨之相應地減少;若x減少,y隨之相應地增加若r=0,則稱x與y不相關。當,認為x與y之間具有很強的線性相關關系。當大于時,表明有95%的把握認為x與y之間具有線性相關關系,這時求回歸直線方程有必要也有意義,當時,尋找回歸直線方程就沒有意義。(3)利用相關系數r檢驗的一般步驟:法一:作統計假設:x與y不具有線性相關關系。根據樣本相關系數計算公式算出r的值。比較與0.75的大小

31、關系,得出統計結論。如果,認為x與y之間具有很強的線性相關關系。法二:作統計假設:x與y不具有線性相關關系。根據樣本相關系數計算公式算出r的值。根據小概率0.05與n-2在相關性檢驗的臨界值表中查出r的一個臨界值(n未數據的對數)。比較與,作統計推斷,如果,表明有95%的把握認為x與y之間具有線性相關關系。如果,我們沒有理由拒絕原來的假設,即不認為x與y之間具有線性相關關系。這時尋找回歸直線方程是毫無意義的。要點四、線性回歸分析與非線性回歸分析1線性回歸分析 對于回歸分析問題,在解題時應首先利用散點圖或相關性檢驗判斷x與y是否具有線性相關關系,如果線性相關,才能求解后面的問題否則求線性回歸方程

32、沒有實際意義,它不能反映變量x與y,之間的變化規律只有在x與y之間具有相關關系時,求線性回歸方程才有實際意義 相關性檢驗的依據:主要利用檢驗統計量 (其中化簡式容易記也好用)求出檢驗統計量的樣本相關系數,再利用r的性質確定x和y是否具有線性相關關系,r具有的性質為:|r|1且|r|越接近于1,線性相關程度越強;|r|越接近于0,線性相關程度越弱2. 線性回歸分析的一般步驟(1)確定研究對象,明確哪個變量是解釋變量,哪個變量是預報變量;(2)判斷兩變量是否具有線性相關關系作散點圖由樣本點是否呈條狀分布來判斷兩個量是否具有線性相關關系。求相關系數r當,認為x與y之間具有很強的線性相關關系。(3)若

33、兩變量存在線性相關關系,設所求的線性回歸方程為,求回歸系數、。(4)寫出回歸直線方程;(5)利用回歸直線方程預報在x取某一個值時y的估計值。 3非線性回歸分析 (1)對于非線性回歸分析問題,如果給出了經驗公式可直接利用換元,使新元與y具有線性相關關系,進一步求出,對新元的線性回歸方程,換回x即可得y對x的回歸曲線方程(2)非線性回歸問題有時并不給出經驗公式,這時按以下步驟求回歸方程:畫出已知數據的散點圖,看是否是線性回歸分析問題,如果不是,把它與必修數學中學過的函數(冪函數、指數函數、對數函數等)圖像作比較,挑選一種跟這些散點擬合得最好的函數,采用適當的變量置換,把非線性回歸分析問題化為線性回

34、歸分析問題作相關性檢驗,即判斷尋找線性回歸方程是否有意義當尋找線性回歸方程有意義時,計算系數,得到線性回歸方程代回x得y對x的回歸曲線方程【典型例題】【回歸分析的基本思想及其初步應用407591例題1】類型一、利用散點圖判斷兩個變量的線性相關性 例1 在某種產品表面進行腐蝕刻線試驗,得到腐蝕深度y與腐蝕時間x的一組數據如下表所示x秒510152030405060y微米610111316171923 (1)畫出散點圖 (2)根據散點圖,你能得出什么結論? 【思路點撥】 利用散點圖,直觀地歸結出相關關系的兩個變量所具備的特點 【解析】 (1)如圖所示散點圖 (2)結論:設x與y是具有相關關系的兩個

35、變量,且相應于n組觀測值的n個點大致分布在一條直線附近,其中整體上與這n個點最接近的一條直線最能代表x與y之間的關系【總結升華】解決此類問題,最直觀也最直接的方法就是畫散點圖。如果散點圖中的點分布在一條直線附近,那么就可判斷兩個變量之間具有近似的線性相關關系。可進一步對它進行回歸分析。解決本題的關鍵是正確建立坐標系,合理地選取單位長度準確地描出所有點,然后觀察散點圖中的點呈現在一條直線附近即說明二者具有線性相關關系。解決此類題目,由于有時數據較大,在建立平面直角坐標系時,若單位長度確定不合適,往往容易造成描點的困難。因此必須選擇適當的單位長度。舉一反三:【變式1】給出x與y的數據如下:x245

36、68y3040605070 畫出散點圖,并由圖判斷x、y之間是否具有線性相關關系。【答案】散點圖如圖所示: 從圖中可以看出,各點散布在一條直線附近,即可認為x與y具有線性相關關系。【變式2】 如圖所示的5組數據中,去掉_點,剩下的4組數據的線性相關系數最大 【答案】D,由本圖的直觀性可得。【變式3】如下表所示,某地區一段時間內觀察到的大于或等于某震級x的地震個數為N,試畫出散點圖,并由圖判斷x、N之間是否具有線性相關關系。震級33.23.43.63.844.24.44.64.85.0地震數28381203801479510695764155023842269819191356973震級5.25

37、.45.65.866.26.46.66.87地震數74660443527420614898574125【答案】由表中數據得散點圖如下:從散點圖中可以看出,震級x與大于該震級的地震次數N之間不呈線性相關關系,隨著x的減少,所考察的地震數N近似地以指數形式增長.類型二、運用樣本相關系數r檢驗線性相關關系例2下表是隨機抽取的對母女的身高數據,試根據這些數據探討與之間的關系母親身高女兒身高【思路點撥】相對于用散點圖檢驗相關性,利用相關系數r,檢驗兩個變量之間的線性相關關系的強弱更為準確。【解析】所給數據的散點圖如圖所示:由圖可以看出,這些點在一條直線附近, 因為, ,所以,由檢驗水平及,在附錄中查得,

38、因為,所以可以認為與之間具有較強的線性相關關系【總結升華】(1)討論x與y之間的線性相關關系,一般稱之為相關性檢驗。一般地,相關性檢驗是討論線性回歸模型的第一步。當時,可以認為兩個變量有很強的線性相關關系,此時,建立線性回歸模型是有意義的,其他情況下,建立線性回歸模型意義就不大了,基本上沒有什么價值。(2)相關系數r的計算公式:(3)利用相關系數r檢驗兩個變量之間的線性相關關系的強弱的步驟:運用公式求出相關系數r;比較與0.75的大小關系,得出統計結論。如果,認為x與y之間具有很強的線性相關關系。舉一反三:【變式1】給出x與y的數據如下:x24568y3040605070判斷x與y的線性相關性

39、。【答案】相關性檢驗:,所以。因為,所以x與y之間有很強的線性相關關系。【變式2】要分析學生高中入學的數學成績對高一年級數學學習的影響,在高一年級學生中隨機抽取名學生,分析他們入學的數學成績和高一年級期末數學考試成績如下表:學生編號入學成績高一期末成績計算入學成績與高一期末成績的相關系數;【答案】(1)因為,因此求得相關系數為結果說明這兩組數據的相關程度是比較高的。類型三、求線性回歸方程例3. 以下是某地搜集到的新房屋的銷售價格和房屋的面積的數據: (1)畫出數據對應的散點圖;(2)求線性回歸方程,并在散點圖中加上回歸直線;【思路點撥】本題考查如何求回歸直線的方程,可先把有關數據用散點圖表示出

40、來,若這些點大致分布在通過散點圖中心的一條直線附近,說明這兩個變量線性相關,從而可利用我們學過的最小二乘估計思想及計算公式求得線性回歸直線方程。【解析】(1)數據對應的散點圖如圖所示: (2),設所求回歸直線方程為,則故所求回歸直線方程為【總結升華】如果散點圖中的點分布在一個直線狀帶形區域,可以選用線性回歸模型來建模。舉一反三:【變式1】下面是兩個變量的一組數據。x12345678y1491625364964求x與y兩個變量之間的回歸直線方程。【答案】根據表中的數據,可以計算出有關數據,列成下表。序號11111224483399274416166455252512566363621677494

41、9343886464512362042041296所以有,。所以,。于是回歸直線方程為。【回歸分析的基本思想及其初步應用407591例題1】【變式2】從某大學中隨機選取8名女大學生,其身高和體重數據如下表所示:編號12345678身高/cm165165157170175165155170體重/kg4857505464614359求根據一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重. 【答案】所給數據的散點圖如圖:類型四、線性回歸分析及應用例4.近幾年來,隨著我國經濟的發展,汽車已進入普通百姓家中根據某汽車協會資料統計,國產某種型號家庭轎車的使用年限x(年)

42、和所支出的維修費用y(千元),如下表:使用年限年23456維修費用千元2.23.85.56.57.0 (1)求出相關系數r,并根據所求的r判斷兩個變量之間的線性相關關系的強弱; (2)試求出回歸直線方程,若某家庭購得此型號的汽車,請你為他們估計一下使用年限為10年時,維修費用是多少? 【思路點撥】 通過求出相關系數r,從而判斷出是否具有相關關系;再求回歸方程,從而進行回歸預測 【解析】 (1)根據公式,求得r0.97920.878,故兩個變量之間有較強的線性相關關系(2)設所求的回歸方程為則, 即所求的回歸直線方程為 當x=10時,代入回歸直線方程得=12.38,所以傳計使用年限為10年時,維

43、修費用是1.238萬元【總結升華】 求x與y的回歸直線方程,應首先判斷x與y是否具有線性相關關系,如果直接求x與y的回歸直線方程,它就沒有任何實際價值,也就不能準確反映變量x與y之間的變化規律 舉一反三:【變式1】下表提供了某廠節能降耗技術改造后生產甲產品過程中記錄的產量x(噸)與相應的生產能耗y(噸標準煤)的幾組對照數據。x3456y2.5344.5 (1)請畫出上表數據的散點圖;(2)請根據上表提供的數據,用最小二乘法求出y關于x的線性回歸方程;(3)已知該廠技改前100噸甲產品的生產能耗為90噸標準煤。試根據(2)求出的線性回歸方程,預測生產100噸甲產品的生產能耗比技改前降低多少噸標準

44、煤?(參考數值:32.5+43+54+64.5=66.5)【答案】(1)由題設所給數據,可得散點圖如圖所示:(2)計算得,已知,所以,由最小二乘法確定的回歸方程的系數為,。因此,所求的線性回歸方程為。(3)由(2)的回歸方程及技改前生產100噸甲產品的生產能耗,得降低的生產能耗為90(0.7100+0.35)=19.65(噸標準煤)。【變式2】 測得某地10對父子身高(單位:英寸)如下: 父親身高(x)60626465666768707274兒子身高(y)63.665.26665.566.967.167.468.370.170 如果x與y之間具有線性相關關系,求線性回歸方程如果父親的身高為78

45、英寸,試估計兒子的身高【答案】 解法一:先將兩個變量的有關數據在表中計算出來,如下表所示:序號xiyixi2yi2xiyi16063.636004044.96381626265.238444251.044042.43646640964356422446565.542254290.254257.556666.943564475.614415.466767.144894502.414495.776867.446244542.764583.287068.349004664.89478197270.151844914.015047.2107470547649005180668670.144796449

46、41.9344842.4由表中數據可計算,代入公式所以因而所求得線性回歸方程為:當x=78時,所以當父親的身高為78英寸時,估計兒子的身高約為72.2英寸【變式3】 已知某地每單位面積菜地年平均使用氮肥量x(kg)與每單位面積蔬菜年平均產量y(t)之間的關系有如下數據:年份19851986198719881989199019911992xkg7074807885929095yt5.16.06.87.89.010.210.012.0年份1993199419951996199719981999xkg92108115123130138145yt11.511.011.812.212.512.813.0

47、 (1)求x與y之間的相關系數,并檢驗是否線性相關; (2)若線性相關,求蔬菜產量y與使用氮肥量x之間的回歸直線方程,并估計每單位面積施肥150 kg時,每單位面積蔬菜的年平均產量 【答案】(1)使用樣本相關系數計算公式來完成(2)先作統計假設,由小概率0.05與n2在附表中查得相關系數臨界值r0.05,若r0.05則線性相關,否則不線性相關 列出下表,并用科學計算器進行相關計算:i12345678xi7074807885929095yi5.16.06.87.89.010.210.012.0 xiyi357444544608.4765938.49001140i9101112131415xi92

48、108115123130138145yi11.511.011.812.212.512.813.0 xiyi1058118813571500.616251766.41885(1)由小概率0.05與n2=13在附表中查得r0.05=0.514,|r|r0.05,x與y線性相關回歸直線方程為多=0093 7x+0646 3(2),回歸直線方程為 當每單位面積施肥150 kg時,每單位面積蔬菜的年平均產量為0.0937150+0.6463=14.701314.7(t)類型五、 非線性回歸的轉化 例5 在一化學反應過程中某化學物質的反應速度y gmin與一種催化劑的量x g有關,現收集了8組數據列于表中

49、,試建立y與x之間的回歸方程催化劑量xg1518212427303336化學物質反應速度y(gmin)6830277020565350 【思路點撥】 兩個變量不一定是線性關系,不能直接利用線性回歸方程建立兩個變量的關系,可以通過變換的方法將非線性關系轉化為線性回歸模型 【解析】 根據收集的數據作散點圖: 根據樣本點分布情況,可選用兩種曲線模型來擬合 (1)可認為樣本點集中在某二次曲線y=c1x2+c2的附近令t=x2,則變換后樣本點應該分布在直線,y=bt+a(b=c1,a=c2)的周圍 由題意得變換后的t與y的樣本數據表如下:t22532444157672990010891296y68302

50、77020565350 作y與x的散點圖 由y與t的散點圖可觀察到樣本數據點并不分布在一條直線的周圍,因此不宜用線性回歸方程來擬合,即不宜用二次曲線y=c1x2+c2來擬合y與x之間的關系 (2)根據x與y的散點圖也可以認為樣本點集中在某一條指數型函數曲線的周圍 令,則, 即變換后樣本點應該分布在直線z=bx+a(a=lnc1,b=c2)的周圍, 由y與x數據表可得z與x的數據表x1518212427303336z1.7922.0793.4013.2964.2485.3234.1745.858 作出z與x的散點圖 由散點圖可觀察到大致在一條直線上,所以可用線性回歸方程來擬合它 由z與x的數據表

51、,得到線性回歸方程,=0.1812x0.8485, 所以非線性回歸方程為, 因此,該化學物質反應速度關于催化劑的量的非線性回歸方程為【總結升華】 非線性回歸問題有時并不給出經驗公式,這時我們可以畫出已知數據的散點圖。把它與學過的各種函數圖像作比較,挑選一種跟這些散點擬合得最好的函數,然后像本例這樣,采用適當的變量置換,把問題化為線性回歸分析問題,使之得到解決舉一反三: 【變式1】某種圖書每冊的成本費y(元)與印刷冊數x(千冊)有關,經統計得到數據如下:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15 檢測每冊書的成本費y

52、與印刷冊數的倒數之間是否具有線性相關關系?如有,求出y對x的回歸方程【答案】首先作變量置換,題目所給數據變成如下表所示的數據ui10.50.330.20.10.050.030.020.010.005yi10.155.524.082.852.111.621.411.301.21.15 可以求得 由r0.999 80.75,因此,變量y與u之間具有較強的線性相關關系,并且, 最后回代可得 因此y與x的回歸方程為 【回歸分析的基本思想及其初步應用407591例題3】【變式2】一只紅鈴蟲的產卵數和溫度有關,現收集了7組觀測數據列于下表中,試建立與之間的回歸方程.溫度21232527293235產卵數個

53、711212466115325【答案】觀察右圖中的散點圖,發現樣本點并沒有分布在某個帶狀區域內,即兩個變量不呈線性相關關系,所以不能直接用線性回歸方程來建立兩個變量之間的關系. 根據已有的函數知識,可以發現樣本點分布在某一條指數函數曲線y=的周圍(其中是待定的參數),故可用指數函數模型來擬合這兩個變量.在上式兩邊取對數,得,再令,則,而與間的關系如下:X21232527293235z1.9462.3983.0453.1784.1904.7455.784觀察與的散點圖,可以發現變換后樣本點分布在一條直線的附近,因此可以用線性回歸方程來擬合.利用計算器算得,與間的線性回歸方程為,因此紅鈴蟲的產卵數

54、對溫度的非線性回歸方程為.【鞏固練習】一、選擇題1.下列關系中為相關關系的有( )學生的學習態度和學習成績之間的關系;教師的執教水平與學生的學習成績之間的關系;學生的身高與學生的學習成績之間的關系;某個人的年齡與本人的知識水平之間的關系.(A)(B)(C)(D)2對于線性相關系數r,下列敘述正確的是( ) A|r|(0,+),|r|越大,相關程度越大,反之,相關程度越小 B|r|(,+),r越大,相關程度越大,反之,相關程度越小 C|r|1,且|r|越接近于1,相關程度越大;|r|越接近于0,相關程度越小 D以上說法都不對3判斷圖中的兩個變量,具有相關關系的是( ) 4變量x與y相對應的一組數

55、據為(10,1),(11.3,2),(11.8,3),(125,4),(13,5);變量u與v相對應的一組數據為(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示變量y與x之間的線性相關系數,r2表示變量v與u之間的線性相關系數,則( ) Ar2r10 B0r2r1 Cr20r1 Dr2= r15工人月工資y(元)按勞動生產率x(千元)變化的回歸方程為=50+80 x,下列判斷正確的是( ) 勞動生產率為1000元時,則月工資為130元;勞動生產率提高1000元時,則月工資提高80元;勞動生產率提高1000元時,則月工資提高130元;當月工資為210元時

56、,勞動生產率為2000元 A B C D6在一次試驗中,測得(x,y)的四組值分別是(1,2),(2,3),(3,4),(4,5),則y與x之間的回歸直線方程是( )A B C D7線性回歸方程必過( ) A(0,0) B(,0) C(0,) D(,)8已知兩個變量x和y之間具有線性相關關系,5次試驗的觀測數據如下:x100120140160180y4554627592經計算得回歸方程=bx+a的系數b=0.575,則a=( ) A14.9 B13.9 C12.9 D14.99.一位母親記錄了她兒子3到9歲的身高,數據如下表:年齡(歲)3456789身高(94.8104.2108.7117.8

57、124.3130.8139.0由此她建立了身高與年齡的回歸模型,她用這個模型預測兒子10歲時的身高,則下面的敘述正確的是( )A.她兒子10歲時的身高一定是145.83 B.她兒子10歲時的身高在145.83以上C.她兒子10歲時的身高在145.83左右 D.她兒子10歲時的身高在145.83以下二、填空題10.經調查知,某品牌汽車的銷售量y(輛)與廣告費用x(萬元)之間的回歸直線方程為 y=250+4x,當廣告費用為50萬元時,預計汽車銷售量約為 _輛.11.某市居民20052009年家庭平均收入x(單位:萬元)與年平均支出y(單位:萬元)的統計資料如表所示:根據統計資料,居民家庭年平均收入

58、的中位數是 _,家庭年平均收入與年平均支出有 _的線性相關關系.(填“正相關”、“負相關”)12一唱片公司所支出出歌費用x(十萬元)與唱片銷售量y(千張)之間的關系,從其所發行的唱片中隨機抽選了10張,得到如下的資料:,則y與x的相關系數r的絕對值為_三、解答題13彈簧長度y(cm)隨所掛物體質量x(g)不同而變化的情況如下:物質質量x51015202530彈簧長度y7.258.128.969.9010.9611.80 (1)畫出散點圖; (2)求y對x的回歸直線方程; (3)預測所掛物體的質量為27 g時的彈簧長度(精確到0.01 cm)14隨著人們經濟收入的不斷增長,購買家庭轎車已不再是一

59、種時尚車的使用費用,尤其是隨著使用年限的增加,所支出的費用到底會增長多少,一直是購車一族非常關心的問題某汽車銷售公司為此進行了一次抽樣調查,并統計得出某款車的使用年限x與所支出的總費用y(萬元)有如下的數據資料:使用年限x23456總費用y2.23.85.56.57.0若由資料知,y對x呈線性相關關系試求: (1)線性回歸方程的回歸系數、; (2)估計使用年限為10年時,車的使用總費用是多少?15某工業部門進行一項研究,分析該部分的產量與生產費用之間的關系,從這個工業部門內隨機抽選了10個企業作樣本,有如下資料:產量x(千件)40424855657988100120140生產費用y(千元)15

60、0140160170150162185165190185 (1)計算x與y的相關系數;(2)對這兩個變量之間是否線性相關進行相關性檢驗;(3)設回歸直線方程為,求系數,。【答案與解析】1.【答案】A【解析】據相關性的定義可知為相關關系,無相關關系.2【答案】C 【解析】 對相關系數的性質應熟練掌握。3【答案】B 【解析】由圖易知,A、C為函數關系,B、D為散點圖,只有B中兩個變量成相關關系。4【答案】C 【解析】 對于變量y與x而言,y隨x的增大而增大,故y與x正相關,即r10;對于變量v與u而言,v隨u的增大而減小,而v與u負相關,即r20,所以有r20r1。5【答案】B 【解析】 回歸直線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論