統計學:第九章 列聯分析_第1頁
統計學:第九章 列聯分析_第2頁
統計學:第九章 列聯分析_第3頁
統計學:第九章 列聯分析_第4頁
統計學:第九章 列聯分析_第5頁
已閱讀5頁,還剩47頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Chapter9列聯分析泰坦尼克的死亡記錄1912年4月15日,豪華巨輪泰坦尼克與冰山相撞而沉沒。1985年沉船遺骸被發現,船上的一幅畫揭開了一段凄美的愛情故事:杰克&羅絲……據記載,當時船上有1316名乘客和892名船員共2208人,事故發生后幸存718人,約有2/3的人在海難中喪生,其中成年人2099人,兒童109人;男性1738人,女性470人;一等艙325人,二等艙285人,三等艙706人,船員艙892人。在幸存的718人中,男性374人,女性344人;成年人661人,兒童57人;一等艙203人,二等艙118人,三等艙178人,船員艙219人。☆★泰坦尼克的死亡記錄死亡與性別有關嗎?死亡與年齡有關嗎?死亡與所在艙位有關嗎?人們的價值觀和對待死亡的態度有什么聯系?讓我們用數據說話本章重點解釋列聯表進行卡方檢驗數據的類型與列聯分析數據定量數據(數值型數據)定性數據(品質數據)離散數據連續數據列聯分析第一節分類數據與列聯表一、分類數據二、列聯表的構造三、列聯表的分布一、分類數據分類變量的結果表現為類別例如:性別(男,女)各類別用符號或數字代碼來測度使用分類或順序尺度你吸煙嗎?1.是;2.否你贊成還是反對這一改革方案?1.贊成;2.反對對分類數據的描述和分析通常使用列聯表二、列聯表的構造(contingencytable)由兩個以上的變量交叉分類的頻數分布表行變量的類別用r

表示,ri

表示第i

個類別列變量的類別用c

表示,cj

表示第j

個類別每種組合的觀察頻數用fij

表示表中列出了行變量和列變量的所有可能的組合,所以稱為列聯表一個

r行c

列的列聯表稱為r

c

列聯表列聯表的結構

(22列聯表)列(cj)合計j=1j=2i=1f11f12f11+f12i=2f21f22f21+f22合計f11+f21f12+f22n列(cj)行(ri)表1基于性別與是否生還兩個變量的列聯表性別是否生還合計是否男性37413641738女性344126470合計71814902208★表2基于年齡與是否生還兩個變量的列聯表年齡是否生還合計是否成年人66114382099兒童5752109合計71814902208列聯表的結構

(r

c

列聯表的一般表示)列(cj)合計j=1j=2…i=1f11f12…r1i=2f21f22…r2:::::合計c1c2…n列(cj)行(ri)fij

表示第i

行第j

列的觀察頻數表3基于艙位與是否生還兩個變量的列聯表是否生還艙位等級合計一二三四是203118178219718否1221675286731490合計3252857068922208一分公司二分公司三分公司四分公司合計贊成該方案68755779279反對該方案32753331141合計10012090110420【例】一個集團公司在四個不同的地區設有分公司,現該集團公司欲進行一項改革,此項改革可能涉及到各分公司的利益,故采用抽樣調查方式,從四個分公司共抽取420個樣本單位(人),了解職工對此項改革的看法,調查結果如下表三、列聯表的分布

(觀察值分布)邊緣分布-行邊緣分布行觀察值的合計數的分布例如,贊成改革方案的共有279人,反對改革方案的141人-列邊緣分布列觀察值的合計數的分布例如,四個分公司接受調查的人數分別為100人,120人,90人,110人2.條件分布與條件頻數變量X條件下變量Y

的分布,或在變量Y

條件下變量X

的分布每個具體的觀察值稱為條件頻數觀察值的分布

(圖示)一分公司二分公司三分公司四分公司合計贊成該方案68755779279反對該方案32753331141合計10012090110420行邊緣分布列邊緣分布條件頻數百分比分布

條件頻數反映了數據的分布,但不適合對比為在相同的基數上進行比較,可以計算相應的百分比,稱為百分比分布行百分比:行的每一個觀察頻數除以相應的行合計數(fij

/ri)列百分比:列的每一個觀察頻數除以相應的列合計數(fij

/cj)總百分比:每一個觀察值除以觀察值的總個數(fij

/n)百分比分布

(圖示)一分公司二分公司三分公司四分公司合計贊成該方案24.4%26.9%20.4%28.3%66.4%68.0%62.5%63.3571.8%—16.2%17.8%13.6%18.8%—反對該方案22.7%31.9%23.4%22.0%33.6%32.0%37.5%36.7%28.2%—7.6%10.7%7.9%7.4%—合計23.8%28.6%21.4%26.2%100%總百分比列百分比行百分比期望頻數的分布

一分公司二分公司三分公司四分公司贊成該方案期望頻數0.664*100=660.664*120=800.664*90=600.664*110=73反對該方案期望頻數0.336*100=340.336*120=400.336*90=300.336*110=37觀察值與期望頻數的分布對比表一分公司二分公司三分公司四分公司贊成該方案實際頻數68755779期望頻數66806073反對該方案實際頻數32753331期望頻數34403037練習計算泰坦尼克號性別與是否生還的百分比分布與期望頻數?性別是否生還合計是否男性37413641738期望值5651173女性344126470期望值153317

合計71814902208表1基于性別與是否生還兩個變量的列聯表性別是否生還合計是否男性3741364173821.52%78.48%78.71%52.09%91.54%16.94%61.78%女性34412647073.19%26.81%21.29%47.91%8.46%

15.58%5.71%

合計71814902208

32.52%67.48%100%第二節

檢驗一、

統計量檢驗步驟由阿貝(Abbe)

于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)

分別于1875年和1900年推導出來設,則令,則y服從自由度為1的

2分布,即對于n個正態隨機變量y1

,y2

,yn,則隨機變量稱為具有n個自由度的

2分布,記為c2-分布

(

2-distribution)c2-分布

(性質和特點)1.期望為:E(

2)=n,方差為:D(

2)=2n(n為自由度)2.可加性:若U和V為兩個獨立的

2分布隨機變量,U~

2(n1),V~

2(n2),則U+V這一隨機變量服從自由度為n1+n2的

2分布3.當時,

2分布的極限分布是正態分布不同自由度的c2-分布c2n=1n=4n=10n=20一、

統計量用于測定兩個分類變量之間的相關程度

計算公式為

統計量

實際頻數(fij)期望頻數(eij)fij-eij(fij-eij)2687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730合計:3.0319擬合優度檢驗

(goodnessoffittest)檢驗多個比例是否相等檢驗的步驟提出假設H0:

1=2=…=j;H1:

1,2,…,j

不全相等

計算檢驗的統計量

進行決策根據顯著性水平

和自由度(r-1)(c-1)查出臨界值

2

2>

2,拒絕H0;若

2<

2,接受H0擬合優度檢驗

H0:

1=

2=

3=

4

H1:

1

2

3

4

不全相等

=0.1df=

(2-1)(4-1)=3臨界值(s):統計量:

=0.1的水平上不能拒絕H0可以認為四個分公司對改革方案的贊成比例是一致的

決策:結論:

206.2153.0319

=0.1獨立性檢驗

(testofindependence)檢驗列聯表中的行變量與列變量之間是否獨立檢驗的步驟為提出假設H0:行變量與列變量獨立H1:行變量與列變量不獨立計算檢驗的統計量進行決策根據顯著性水平

和自由度(r-1)(c-1)查出臨界值

2若

2

2,拒絕H0;若

2<

2,接受H0獨立性檢驗

【例】一種原料來自三個不同的地區,原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結果如下表。檢驗各地區與原料之間是否存在依賴關系(0.05)地區一級二級三級合計甲地區526424140乙地區605952171丙地區506574189合計162188150500期望頻數的分布假定行變量和列變量是獨立的一個實際頻數fij

的期望頻數eij

,是總頻數的個數n乘以該實際頻數fij

落入第i

行和第j列的概率,即期望頻數的分布

由于觀察頻數的總數為n

,所以f11

的期望頻數e11應為

例如,第1行和第1列的實際頻數為f11

,它落在第1行的概率估計值為該行的頻數之和r1除以總頻數的個數n

,即:r1/n;它落在第1列的概率的估計值為該列的頻數之和c1除以總頻數的個數n

,即:c1/n。根據概率的乘法公式,該頻數落在第1行和第1列的概率應為獨立性檢驗提出假設H0:地區與原料等級之間獨立H1:地區與原料等級之間不獨立計算檢驗的統計量根據顯著性水平

=0.05和自由度(3-1)(3-1)=4查出相應的臨界值

2=9.488。由于

2=19.82>

2=9.448,拒絕H0獨立性檢驗

H0:地區與原料等級之間獨立H1:地區與原料等級之間不獨立

=0.05df=(3-1)(3-1)=4臨界值(s):統計量:

=0.05的水平上拒絕H0地區和原料等級之間存在依賴關系決策:結論:

2019.829.488

=0.05練習以顯著性水平為0.05檢驗泰坦尼克號年齡與是否生還有無關系表2基于年齡與是否生還兩個變量的列聯表年齡是否生還合計是否成年人66114382099兒童5752109合計71814902208解:年齡是否生還是否成年人6611438期望682.561416.44兒童5752期望35.4473.56擬合優度檢驗

H0:年齡與是否生還無關H1:

年齡與是否生還相關

=

0.05df=

(2-1)(2-1)=1臨界值(s):統計量:

=0.05的水平上拒絕H0可以認為年齡與是否生還有關系決策:結論:

203.8415

=0.0520.44第三節列聯表中的相關測量一、

相關系數二、列聯相關系數三、V

相關系數列聯表中的相關測量品質相關對品質數據(分類和順序數據)之間相關程度的測度列聯表變量的相關屬于品質相關列聯表相關測量的統計量主要有

相關系數列聯相關系數V

相關系數

相關系數

(correlationcoefficient)測度22列聯表中數據相關程度對于22列聯表,

系數的值在0~1之間

相關系數計算公式為

相關系數

(原理分析)一個簡化的22列聯表因素Y因素X合計x1x2y1aba+by2cdc+d合計a+cb+dn

相關系數列聯表中每個單元格的期望頻數分別為將各期望頻數代入

的計算公式得

相關系數將

相關系數的計算公式得ad等于bc,

=0,表明變量X與Y

之間獨立若b=0

,c=0,或a=0

,d=0,意味著各觀察頻數全部落在對角線上,此時|

|=1,表明變量X與Y

之間完全相關列聯表中變量的位置可以互換,

的符號沒有實際意義,故取絕對值即可列聯相關系數

(coefficientofcontingency)用于測度大于22列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論