數(shù)學(xué)列聯(lián)表與獨(dú)立性檢驗(yàn)課件-2024-2025學(xué)年高二下學(xué)期人教A版(2019)選擇性必修第三冊(cè)_第1頁
數(shù)學(xué)列聯(lián)表與獨(dú)立性檢驗(yàn)課件-2024-2025學(xué)年高二下學(xué)期人教A版(2019)選擇性必修第三冊(cè)_第2頁
數(shù)學(xué)列聯(lián)表與獨(dú)立性檢驗(yàn)課件-2024-2025學(xué)年高二下學(xué)期人教A版(2019)選擇性必修第三冊(cè)_第3頁
數(shù)學(xué)列聯(lián)表與獨(dú)立性檢驗(yàn)課件-2024-2025學(xué)年高二下學(xué)期人教A版(2019)選擇性必修第三冊(cè)_第4頁
數(shù)學(xué)列聯(lián)表與獨(dú)立性檢驗(yàn)課件-2024-2025學(xué)年高二下學(xué)期人教A版(2019)選擇性必修第三冊(cè)_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

8.3

列聯(lián)表與獨(dú)立性檢驗(yàn)8.3.1分類變量與列聯(lián)表8.3.2獨(dú)立性檢驗(yàn)變量數(shù)值變量分類變量例:人的身高;100米短跑所用時(shí)間;產(chǎn)品月銷量

數(shù)值變量的取值為實(shí)數(shù).其大小和運(yùn)算都有實(shí)際含義.兩個(gè)數(shù)值變量之間的關(guān)系為非確定性關(guān)系(相關(guān)關(guān)系或無關(guān)系)確定性關(guān)系(函數(shù)關(guān)系)例:班級(jí);性別;是否經(jīng)常鍛煉;是否每年體檢,分類變量是一種特殊的隨機(jī)變量,以區(qū)別不同的現(xiàn)象或性質(zhì)。分類變量有兩個(gè)或兩個(gè)以上不同的取值;每一個(gè)取值代表一類現(xiàn)象或性質(zhì)。取值不同代表的性質(zhì)或現(xiàn)象不同分,分類變量的取值可以用實(shí)數(shù)來表示這些數(shù)值只作為編號(hào)使用,用來表示不同的類別;并沒有通常的大小和運(yùn)算意義.例如,學(xué)生所在的班級(jí)可以用1,2,3等表示,男性、女性可以用1,0表示一、分類變量與列聯(lián)表

本節(jié)我們主要討論取值于{0,1}的兩個(gè)分類變量之間的關(guān)聯(lián)性或互相影響的問題。如何利用統(tǒng)計(jì)數(shù)據(jù)判斷一對(duì)分類變量之間是否具有關(guān)聯(lián)性呢?對(duì)于這樣的統(tǒng)計(jì)問題,有時(shí)可以利用普查數(shù)據(jù),通過比較相關(guān)的比率給出問題的準(zhǔn)確回答,但在大多數(shù)情況下,需要借助概率的觀點(diǎn)和方法.我們先看下面的具體問題.問題:某中學(xué)需要了解性別因素是否對(duì)本校學(xué)生體育鍛煉的經(jīng)常性有影響,為此對(duì)學(xué)生是否經(jīng)常鍛煉的情況進(jìn)行了普查.全校學(xué)生的普查數(shù)據(jù)如下:523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉.你能利用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?方法1——頻率分析法

結(jié)論:該校的女生和男生在體育鍛煉的經(jīng)常性方面存在差異,男生更經(jīng)常鍛煉。性別在體育鍛煉的經(jīng)常性方面是否存在差異呢?比較經(jīng)常鍛煉的學(xué)生在女生和男生中的比率方法2——條件概率法

為了清楚起見,我們用表格整理數(shù)據(jù)根據(jù)條件概率的計(jì)算公式,我們有

方法3——借助等高堆積條形圖(圖形分析法)性別X鍛煉Y總計(jì)不經(jīng)常(Y=0)經(jīng)常(Y=1)女生(X=0)192331523男生(X=1)128473601總計(jì)3208041124

性別在體育鍛煉的經(jīng)常性方面是否存在差異呢?通過比較發(fā)現(xiàn),男生與女生經(jīng)常鍛煉的人生存在差異,男生經(jīng)常鍛煉的的頻率高于女生經(jīng)常鍛煉的人數(shù).

以上表為例,2×2列聯(lián)包含了X和Y的如下信息:最后一行的前兩個(gè)數(shù)分別是事件{Y=0}和{Y=1}中樣本點(diǎn)的個(gè)數(shù);最后一列的前兩個(gè)數(shù)分別是事件{X=0}和{X=1}中樣本點(diǎn)的個(gè)數(shù);中間的四個(gè)格中的數(shù)是表格的核心部分,給出了事件{X=x,Y=y}(x,y=0,1)中樣本點(diǎn)的個(gè)數(shù);右下角格中的數(shù)是樣本空間中樣本點(diǎn)的總數(shù).2×2列聯(lián)表在實(shí)踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問題的需要,將數(shù)據(jù)分類統(tǒng)計(jì),并做成表格加以保存.我們將形如下表這種形式的數(shù)據(jù)統(tǒng)計(jì)表稱為2×2列聯(lián)表.

2×2列聯(lián)表給出了成對(duì)分類變量數(shù)據(jù)的交叉分類頻數(shù).例1:

為比較甲、乙兩所學(xué)校學(xué)生的數(shù)學(xué)水平,采用簡單隨機(jī)抽樣的方法抽取88名學(xué)生.通過測驗(yàn)得到了如下數(shù)據(jù):甲校43名學(xué)生中有10名數(shù)學(xué)成績優(yōu)秀;乙校45名學(xué)生中有7名數(shù)學(xué)成績優(yōu)秀.試分析兩校學(xué)生中數(shù)學(xué)成績優(yōu)秀率之間是否存在差異.解:用Ω表示兩所學(xué)校的全體學(xué)生構(gòu)成的集合.考慮以Ω為樣本空間的古典概型.對(duì)于Ω中每一名學(xué)生,定義分類變量X和Y如下:我們將所給數(shù)據(jù)整理成2×2列聯(lián)表.例1:

為比較甲、乙兩所學(xué)校學(xué)生的數(shù)學(xué)水平,采用簡單隨機(jī)抽樣的方法抽取88名學(xué)生.通過測驗(yàn)得到了如下數(shù)據(jù):甲校43名學(xué)生中有10名數(shù)學(xué)成績優(yōu)秀;乙校45名學(xué)生中有7名數(shù)學(xué)成績優(yōu)秀.試分析兩校學(xué)生中數(shù)學(xué)成績優(yōu)秀率之間是否存在差異.因此,甲校學(xué)生中數(shù)學(xué)成績不優(yōu)秀和數(shù)學(xué)成績優(yōu)秀的頻率分別為:乙校學(xué)生中數(shù)學(xué)成績不優(yōu)秀和數(shù)學(xué)成績優(yōu)秀的頻率分別為:可以用等高堆積條形圖直觀地展示上述計(jì)算結(jié)果:通過比較發(fā)現(xiàn),兩個(gè)學(xué)校學(xué)生抽樣數(shù)據(jù)中數(shù)學(xué)成績優(yōu)秀的頻率存在差異,甲校的頻率明顯高于乙校的頻率.依據(jù)頻率穩(wěn)定于概率的原理,我們可以推斷甲校學(xué)生數(shù)學(xué)成績優(yōu)秀的概率大于乙校學(xué)生數(shù)學(xué)成績優(yōu)秀的概率.

因此,可以認(rèn)為兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率存在差異,甲校學(xué)生的數(shù)學(xué)成績優(yōu)秀率比乙校學(xué)生的高.

思考:你認(rèn)為“兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率存在差異”這一結(jié)論是否有可能是錯(cuò)誤的?有可能

“兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率存在差異”這個(gè)結(jié)論是根據(jù)兩個(gè)頻率間存在差異推斷出來的.有可能出現(xiàn)這種情況:在隨機(jī)抽取的這個(gè)樣本中,兩個(gè)頻率間確實(shí)存在差異,但兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率實(shí)際上是沒有差別的.對(duì)于隨機(jī)樣本而言,因?yàn)轭l率具有隨機(jī)性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯(cuò)誤,而且在樣本容量較小時(shí),犯錯(cuò)誤的可能性會(huì)較大.因此,需要找到一種更為合理的推斷方法,同時(shí)也希望能對(duì)出現(xiàn)錯(cuò)誤推斷的概率有一定的控制或估算.

下一節(jié)我們將討論犯這種錯(cuò)誤的概率大小問題.通常把H0稱為零假設(shè)或原假設(shè).二、獨(dú)立性檢驗(yàn)假設(shè)H0:兩個(gè)分類變量X和Y沒有關(guān)系即:即:H0:分類變量X和Y獨(dú)立.1.零假設(shè)(原假設(shè))H0

XY合計(jì)Y=0Y=1X=0aba+bX=1cdc+d合計(jì)a+cb+dn=a+b+c+d2.獨(dú)立性檢驗(yàn)公式及定義:2x2列聯(lián)表χ2計(jì)算公式:構(gòu)造統(tǒng)計(jì)量χ2隨機(jī)變量χ2取值的大小作為判斷零假設(shè)H0是否成立的依據(jù),小概率值α的臨界值:忽略χ2的實(shí)際分布與該近似分布的誤差后,對(duì)于任何小概率值α,可以找到相應(yīng)的正實(shí)數(shù)xα,使得P(χ2≥xα)=α成立.我們稱xα為α的臨界值,這個(gè)臨界值就可作為判斷χ2大小的標(biāo)準(zhǔn),概率值α越小,臨界值xα越大.由P(χ2≥xα)=α可知,只要把概率值α取得充分小,在假設(shè)H0成立的情況下,事件{χ2≥xα}是不大可能發(fā)生的.根據(jù)這個(gè)規(guī)律,如果該事件發(fā)生,我們就可以推斷H0不成立.3.臨界值的定義:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828下表為幾個(gè)常用的小概率值和相應(yīng)的臨界值4.基于小概率值α的檢驗(yàn)規(guī)則是:當(dāng)χ2≥xα?xí)r,我們就推斷H0不成立,認(rèn)為X和Y不獨(dú)立即X和Y有關(guān)聯(lián),該推斷犯錯(cuò)誤的概率不超過α;當(dāng)χ2<xα?xí)r,我們沒有充分證據(jù)推斷H0不成立,認(rèn)為X和Y獨(dú)立即X和Y無關(guān)聯(lián).這種利用χ2的取值推斷分類變量X和Y是否獨(dú)立的方法稱為χ2獨(dú)立性檢驗(yàn),讀作“卡方獨(dú)立性檢驗(yàn)”,簡稱獨(dú)立性檢驗(yàn).由圖知χ2≥xα是小概率事件找某個(gè)值xα來界定χ2的大小(卡方)獨(dú)立性檢驗(yàn)的步驟(1)認(rèn)清分類變量,提出零假設(shè)H0:X和Y獨(dú)立,即…與…無關(guān)聯(lián)(無差異);(2)列表:列出2×2列聯(lián)表.(3)求值:由表中數(shù)據(jù)計(jì)算χ2的值.(4)推斷:將χ2值與臨界值xα比較,根據(jù)小概率值α的獨(dú)立性檢驗(yàn)規(guī)則,得出結(jié)論若χ2≥xα,則推斷H0不成立,即認(rèn)為X和Y不獨(dú)立,該推斷犯錯(cuò)誤的概率不超過α;若χ2<xα,則我們沒有充分證據(jù)推斷H0不成立,可認(rèn)為X和Y獨(dú)立.P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828利用χ2的取值推斷分類變量X和Y是否獨(dú)立的方法稱為χ2獨(dú)立性檢驗(yàn)例1.根據(jù)以下列聯(lián)表的數(shù)據(jù),依據(jù)小概率值α=0.1的χ2獨(dú)立性檢驗(yàn),分析例1中的抽樣數(shù)據(jù),能否據(jù)此推斷兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率有差異?學(xué)校成績合計(jì)不優(yōu)秀(Y=0)優(yōu)秀(Y=1)甲校(X=0)331043乙校(X=1)38745合計(jì)711788P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828提出原(零)假設(shè)計(jì)算

χ2找臨界值比較下結(jié)論零假設(shè)為H0:療法與療效獨(dú)立,即兩種療法效果沒有差異.

例2某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機(jī)抽樣的方法對(duì)治療情況進(jìn)行檢查,得到了如下數(shù)據(jù):抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名.試根據(jù)小概率值α=0.005的獨(dú)立性檢驗(yàn),分析乙種療法的效果是否比甲種療法好.療法療效合計(jì)未治愈治愈甲155267乙66369合計(jì)21115136根據(jù)小概率值α=0.005的χ2獨(dú)立性檢驗(yàn),沒有充分證據(jù)推斷H0不成立,因此可以認(rèn)為H0成立,即認(rèn)為兩種療法效果沒有差異.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828解:由已知數(shù)據(jù)列出列聯(lián)表.解:零假設(shè)為H0:吸煙與患肺癌之間無關(guān)聯(lián),由表中數(shù)據(jù)可得

例3

為研究吸煙是否與肺癌有關(guān),某腫瘤研究所采取有放回簡單隨機(jī)抽樣的方法,調(diào)查了9965人,得到成對(duì)樣本觀測數(shù)據(jù)的分類統(tǒng)計(jì)結(jié)果,如下表所示.依據(jù)小概率值α=0.001的獨(dú)立性檢驗(yàn),分析吸煙是否會(huì)增加患肺癌的風(fēng)險(xiǎn).吸煙肺癌合計(jì)非肺癌患者肺癌患者不吸煙者7775427817吸煙者2099492148合計(jì)9874919965α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828根據(jù)小概率值α=0.001的χ2獨(dú)立性檢驗(yàn),推斷H0不成立,即認(rèn)為吸煙與患肺癌有關(guān)聯(lián),此推斷犯錯(cuò)誤的概率不大于0.001.練習(xí)1.同學(xué)寒假期間對(duì)其30位親屬的飲食習(xí)慣進(jìn)行了一次調(diào)查,列出了如下2×2列聯(lián)表,則可以說其親屬的飲食習(xí)慣與年齡有關(guān),該推斷犯錯(cuò)誤的概率不超過 ()A.0.005 B.0.004

C.0.002 D.0.001P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828年齡飲食習(xí)慣合計(jì)偏愛蔬菜偏愛肉類50歲以下481250歲以上16218合計(jì)201030

P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828吸煙情況患病情況合計(jì)患肺癌不患肺癌吸煙4xx5x不吸煙x4x5x合計(jì)5x5x10x課堂小結(jié):1.小概率值α的臨界值:忽略χ2的實(shí)際分布與該近似分布的誤差后,對(duì)于任何小概率值α,可以找到相應(yīng)的正實(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論