8.3.1分類變量與列聯(lián)表 課件(共16張PPT)_第1頁
8.3.1分類變量與列聯(lián)表 課件(共16張PPT)_第2頁
8.3.1分類變量與列聯(lián)表 課件(共16張PPT)_第3頁
8.3.1分類變量與列聯(lián)表 課件(共16張PPT)_第4頁
8.3.1分類變量與列聯(lián)表 課件(共16張PPT)_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、8.3 列聯(lián)表與獨立性檢驗 前面兩節(jié)所討論的變量 , 如人的身高、樹的胸徑、樹的高度、短跑100m世界紀錄和創(chuàng)紀錄的時間等, 都是數(shù)值變量, 數(shù)值變量的取值為實數(shù). 其大小和運算都有實際含義. 在現(xiàn)實生活中 , 人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或性質(zhì)之間是否存在關(guān)聯(lián)性或相互影響的問題. 例如 ,就讀不同學校是否對學生的成績有影響 , 不同班級學生用于體育鍛煉的時間是否有差別 , 吸煙是否會增加患肺癌的風險 , 等等 , 本節(jié)將要學習的獨立性檢驗方法為我們提供了解決這類問題的方案. 在討論上述問題時 , 為了表述方便 , 我們經(jīng)常會使用一種特殊的隨機變量 , 以區(qū)別不同的現(xiàn)象或性質(zhì) , 這類

2、隨機變量稱為分類變量. 分類變量的取值可以用實數(shù)表示 , 例如, 學生所在的班級可以用1, 2, 3等表示 , 男性、女性可以用1 , 0表示 , 等等. 在很多時候 , 這些數(shù)值只作為編號使用, 并沒有通常的大小和運算意義 , 本節(jié)我們主要討論取值于0 , 1的分類變量的關(guān)聯(lián)性問題.8.3.1 分類變量與列聯(lián)表 如何利用統(tǒng)計數(shù)據(jù)判斷一對分類變量之間是否具有關(guān)聯(lián)性呢? 對于這樣的統(tǒng)計問題 , 有時可以利用普查數(shù)據(jù) , 通過比較相關(guān)的比率給出問題的準確回答 , 但在大多數(shù)情況下, 需要借助概率的觀點和方法, 我們先看下面的具體問題. 問題 為了有針對性地提高學生體育鍛煉的積極性, 某中學需要了解

3、性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響 , 為此對學生是否經(jīng)常鍛煉的情況進行了普查 , 全校學生的普查數(shù)據(jù)如下: 523名女生中有 331 名經(jīng)常鍛煉 ; 601名男生中有 473 名經(jīng)常鍛煉 . 你能利用這些數(shù)據(jù) , 說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎? 問題 普查數(shù)據(jù)如下: 523名女生中有 331 名經(jīng)常鍛煉 ; 601名男生中有 473 名經(jīng)常鍛煉 . 該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎? 這是一個簡單的統(tǒng)計問題 , 最直接的解答方法是 , 比較經(jīng)常鍛煉的學生在女生和男生中的比率, 為了方便, 我們設(shè) 那么 , 只要求出f0和f1的值 , 通過

4、比較這兩個值的大小,就可以知道女生和男生在鍛煉的經(jīng)常性方面是否有差異, 由所給的數(shù)據(jù), 經(jīng)計算得到 上面的問題還可以通過建立一個古典概型, 使用條件概率的語言,給出另外一種解答方法. 用表示該校全體學生構(gòu)成的集合 , 這是我們所關(guān)心的對象的總體 . 考慮以為樣本空間的古典概型 , 并定義一對分類變量X和Y如下: 對于中的每一名學生, 分別令 我們希望通過比較條件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的問題. 我們希望通過比較條件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的問題. 按照條件概率的直觀解釋, 如果從該校女生和男生中各隨機選取一名學生, 那么該女生屬于經(jīng)常

5、鍛煉群體的概率是P(Y=1|X=0), 而該男生屬于經(jīng)常鍛煉群體的概率是P(Y=1|X=1). 因此,“性別對體育鍛煉的經(jīng)常性有影響”可以描述為“性別對體育鍛煉的經(jīng)常性沒有影響”可以描述為P(Y=1|X=0)=P(Y=1|X=1);P(Y=1|X=0)P(Y=1|X=1).為了清楚起見, 我們用表格整理數(shù)據(jù)性別鍛煉合計不經(jīng)常(Y=0)經(jīng)常(Y=1)女生(X=0)192331523男生(X=1)128473601合計3208041124 我們用X=0, Y=1表示事件X=0和Y=1的積事件, 用X=1, Y=1表示事件X=1和Y=1的積事件, 根據(jù)古典概型和條件概率的計算公式, 我們有 由P(Y

6、=1|X=1)P(Y=1|X=0)可以作出判斷 , 在該校的學生中, 性別對體育鍛煉的經(jīng)常性有影響 , 即該校的女生和男生在體育鍛煉的經(jīng)常性方面存在差異, 且男生更經(jīng)常鍛煉. 在實踐中 , 由于保存原始數(shù)據(jù)的成本較高 , 人們經(jīng)常按研究問題的需要, 將數(shù)據(jù)分類統(tǒng)計, 并做成表格加以保存, 我們將上表這種形式的數(shù)據(jù)統(tǒng)計表稱為22列聯(lián)表. 22列聯(lián)表給出了成對分類變量數(shù)據(jù)的交叉分類頻數(shù).以上表為例, 它包含了X和Y的如下信息: 最后一行的前兩個數(shù)分別是事件Y=0和Y=1中樣本點的個數(shù); 最后一列的前兩個數(shù)分別是事件 X=0和 X=1中樣本點的個數(shù) ; 中間的四個格中的數(shù)是表格的核心部分, 給出了事

7、件X=x, Y=y(x, y=0, 1)中樣本點的個數(shù); 右下角格中的數(shù)是樣本空間中樣本點的總數(shù). 在上面問題的兩種解答中,使用了學校全部學生的調(diào)查數(shù)據(jù),利用這些數(shù)據(jù)能夠完全確定解答問題所需的比率和條件概率 . 然而,對于大多數(shù)實際問題,我們無法獲得所關(guān)心的全部對象的數(shù)據(jù),因此無法準確計算出有關(guān)的比率或條件概率 . 在這種情況下,上述古典概型和條件概率的觀點為我們提供了一個解決問題的思路 . 比較簡單的做法是利用隨機抽樣獲得一定數(shù)量的樣本數(shù)據(jù),再利用隨機事件發(fā)生的頻率穩(wěn)定于概率的原理對問題答案作出推斷. 例1 為比較甲、乙兩所學校學生的數(shù)學水平, 采用簡單隨機抽樣的方法抽取88名學生 . 通過

8、測驗得到了如下數(shù)據(jù):甲校43名學生中有10名數(shù)學成績優(yōu)秀;乙校45名學生中有7名數(shù)學成績優(yōu)秀. 試分析兩校學生中數(shù)學成績優(yōu)秀率之間是否存在差異. 解:用表示兩所學校的全體學生構(gòu)成的集合. 考慮以為樣本空間的古典概型 . 對于中每一名學生,定義分類變量X和Y如下:我們將所給數(shù)據(jù)整理成下表(單位:人).我們將所給數(shù)據(jù)整理成下表(單位:人).學校數(shù)學成績合計不優(yōu)秀(Y=0)優(yōu)秀(Y=1)甲校(X=0)331043乙校(X=1)38745合計711788 上表是關(guān)于分類變量X和Y的抽樣數(shù)據(jù)的22列聯(lián)表: 最后一行的前兩個數(shù)分別是事件Y=0和Y=1 的頻數(shù) ; 最后一列的前兩個數(shù)分別是事件X=0和X=1

9、的頻數(shù) ; 中間的四個格中的數(shù)是事件X=x, Y=y(x, y=0, 1)的頻數(shù); 右下角格中的數(shù)是樣本的容量. 甲校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為乙校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為 我們可以用等高堆積條形圖直觀地展示上述計算結(jié)果,如下圖所示. 左邊的藍色和紅色條的高度分別是甲校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率; 右邊的藍色和紅色條的高度分別是乙校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率. 通過比較發(fā)現(xiàn),兩個學校學生抽樣數(shù)據(jù)中數(shù)學成績優(yōu)秀的頻率存在差異,甲校的頻率明顯高于乙校的頻率. 依據(jù)頻率穩(wěn)定于概率的原理,我們可以推斷P(Y=1|X=0)P(Y=1|X=1) . 也就是說,如果從甲校和乙校各隨機選取一名學生,那么甲校學生數(shù)學成績優(yōu)秀的概率大于乙校學生數(shù)學成績優(yōu)秀的概率,因此,可以認為兩校學生的數(shù)學成績優(yōu)秀率存在差異,甲校學生的數(shù)學成績優(yōu)秀率比乙校學生的高. 思考? 你認為“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這一結(jié)論是否有可能是錯誤的? 事實上,“兩校學生的數(shù)學成績優(yōu)秀率存在差異”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論