分類數據分析_第1頁
分類數據分析_第2頁
分類數據分析_第3頁
分類數據分析_第4頁
分類數據分析_第5頁
已閱讀5頁,還剩83頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第 9 章分類數據分析,概 述,第七、八章介紹的估計和檢驗方法僅主要針對數值型變量。而列聯分析是針對分類變量進行分析的方法。,第 9 章 分類數據分析,9.1 分類數據與c2統計量 9.2 擬合優度 檢驗 9.3 列聯分析:獨立性檢驗 9.4 列聯表中的相關測量 9.5 列聯分析中應注意的問題,學習目標,1. 解釋列聯表 進行 c2 檢驗 擬合優度檢驗 獨立性檢驗 3. 測度列聯表中的相關性,9.1 分類數據,9.1.1 分類數據 補充:列聯表的構造 列聯表的分布 9.1.2 2統計量,分類數據,分類變量的取值表現為類別 例如:性別 (男, 女) 各類別可用符號或數字代碼來測度 例如:性別 (

2、男用1表示, 女用0表示) 順序數據也可以看作分類數據 原料的質量等級:一等品、二等品、三等品 數值型數據也可以轉化為分類數據 數學期末考試成績是一個數值型數據,可以根據分數段將成績為“優秀”、“良好”、“及格”和“不及格”幾個類別 對分類數據的描述和分析通常使用列聯表,列聯表的構造,列聯表 (contingency table),由兩個以上的變量交叉分類的頻數分布表 行變量的類別用 r 表示, ri 表示第 i 個類別 列變量的類別用 c 表示, cj 表示第 j 個類別 每種組合的觀察頻數用 fij 表示 表中列出了行變量和列變量的所有可能的組合,所以稱為列聯表 一個 R 行 C 列的列聯

3、表稱為 R C 列聯表,列聯表的結構 (2 2 列聯表),列(cj),行 (ri),列聯表的結構 (r c 列聯表的一般表示),列(cj),行(ri),fij 表示第 i 行第 j 列的觀察頻數,列聯表 (例題分析),【例】一個集團公司在四個不同的地區設有分公司,現該集團公司欲進行一項改革,此項改革可能涉及到各分公司的利益,故采用抽樣調查方式,從四個分公司共抽取420個樣本單位(人),了解職工對此項改革的看法,調查結果如下表,列聯表的分布,觀察值的分布,邊緣頻數 行邊緣分布(頻數) 行觀察值的合計數的分布 例如,贊成改革方案的共有279人,反對改革方案的141人 列邊緣分布(頻數) 列觀察值的

4、合計數的分布 例如,四個分公司接受調查的人數分別為100人,120人,90人,110人 條件分布與條件頻數 表中每個具體的觀察值都是變量 X 條件下變量 Y 的頻數,或在變量 Y 條件下變量 X 的頻數,稱為條件分布(頻數),觀察值的分布 (圖示),行邊緣分布,列邊緣分布,條件頻數,百分比分布 (概念要點),條件頻數反映了數據的分布,但不適合對比 如二分公司贊成人數比一分公司多,并不表明二分公司比一分公司更贊成該方案,因為兩公司調查人數不同。 為在相同的基數上進行比較,可以計算相應的百分比,稱為百分比分布 行百分比:行的每一個觀察頻數除以相應的行合計數(fij / ri) 列百分比:列的每一個

5、觀察頻數除以相應的列合計數( fij / cj ) 總百分比:每一個觀察值除以觀察值的總個數( fij / n ),百分比分布 (圖示),總百分比,列百分比,行百分比,列聯分析是利用列聯表來研究: ( ) A. 兩個分類變量的關系 B . 兩個數值型變量的關系 C. 一個分類變量和一個數值型變量的關系 D. 兩個數值型變量的分布 以下列聯表中,最右邊一列稱為:( ) A. 列邊緣頻數; B. 行邊緣頻數; C. 條件頻數; D. 總頻數,練 習 (1),A,B,(3) 對于學生宿舍上網收費的新措施,男女學生的抽樣調查結果如下列聯表所示,在男女生贊成的比例相同的前提下,男女生贊成該措施的期望頻數

6、分別為: ( ) A. 48和39 B . 102和81 C. 15和14 D. 25和19,A, 統計量,概 述,2檢驗(Chi-square test)是現代統計學的創始人之一,英國人K . Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統計方法,因此又稱為Pearson 2檢驗??捎糜趦蓚€或多個率或構成比間的比較,定性資料的關聯度分析,擬合優度檢驗等等。, 統計量,用于檢驗列聯表中變量間擬合優度和獨立性 檢驗統計量為: 或 2統計量可以看作是檢驗真實值與期望值的接近程度。, 統計量,分布與自由度的關系,9.2 擬合優度檢驗 (goodness of fit te

7、st), 統計量,擬合優度檢驗: 用于檢驗一個分類變量中各類別的期望頻數和觀察頻數是否有顯著差異。 其實際為假設檢驗 在原假設為觀察頻數和實際頻數一致的前提下,有如下檢驗統計量:,擬合優度檢驗的期望頻數的計算,若可求出第i行第j列元素的期望概率pij,則一個實際頻數 fij 的期望頻數eij ,是總頻數的個數 n 乘以該實際頻數 fij 的期望概率pij,期望頻數的計算舉例,舉例:要檢驗各分公司對某項改革方案的看法是否相同?,期望頻數的分布 (例題分析),在全部420個樣本中,贊成改革方案的人數為279,占66.4%;反對的人數占33.6%。在各分公司對改革方案看法相同的前提下,各分公司贊成(

8、反對)這項改革不同態度的期望頻數為分公司總樣本數*66.4%(33.6%)。等價于檢驗各分公司贊成方案的實際頻數與期望頻數是否一致。,期望頻數的分布 (例題分析),在廣告宣傳戰之前,A公司、B公司和其它公司的市場占有率分別為45%、40%和15%。上表給出了廣告后對200個消費者購買意愿的調查的結果,檢驗廣告戰前后各公司的市場占有率是否發生了變化 ? 等價于檢驗三個公司的期望購買人數和實際購買人數是否一致。,擬合優度檢驗 (例題分析1-1),【例9.1】 1912年4月15日,豪華巨輪泰坦尼克號與冰山相撞沉沒。當時船上共有共2208人,其中男性1738人,女性470人。海難發生后,幸存者為71

9、8人,其中男性374人,女性344人,以的顯著性水平( 0.05)檢驗存活狀況與性別是否有關。,擬合優度檢驗 (例題分析1-2),分析:在這次海難中,幸存者共718人,即總存活比例為718/2208=0.325。若存活狀況與性別無關,則男性存活的期望人數為:0.3251738565人,女性存活的期望人數為: 0.325470153人,若男女性期望的存活人數和實際的存活人數非常接近,則可以認為存活率與性別無關,反之,則認為存狀況與性別相關。因此可以利用2統計量來檢驗。,擬合優度檢驗 (例題分析1-3),H0:生存狀況與性別無關(觀察頻數與期望頻數一致) H1:生存狀況與性別相關(觀察頻數與期望頻

10、數不一致) = 0.05 df = (2-1)= 1 臨界值(s):,統計量:,在 = 0.05的水平上拒絕H0,有較充分的理由認為生存狀況與性別相關,決策:,結論:,擬合優度檢驗 (例題分析2-1),【例】 一項統計結果聲稱:某市老年人口(年齡在65歲以上)所占的比例為14.7%,該市老年人口研究會為了檢驗該項統計是否可靠,隨機抽選了400名居民,發現其中有57人年齡在65歲以上。調查結果是否支持該市老年人口比例為14.7%的說法?(=0.05)。,擬合優度檢驗 (例題分析2-2),解:要回答觀察的老年人數與期望的老年人數是否一致,檢驗如下假設:,H0:老年人口比例為14.7%(觀察頻數與期

11、望頻數一致) H1:老年人口比例并非14.7%(觀察頻數與期望頻數不一致),擬合優度檢驗 (例題分析2-3), = 0.05 df = (2-1)= 1 臨界值(s): 注意:教材P223中作的雙側檢驗有誤。,統計量:,在 = 0.05的水平上接受H0,有較充分的理由認為老年人比比例為14.7%相關,決策:,結論:,擬合優度檢驗 (例題分析2-1),注意:第8章介紹的總體比例檢驗只能用于二項分布,而2統計量可用于多項分布的比例檢驗。,9.3 列聯分析:獨立性檢驗,9.3.1 列聯表(已講) 9.3.2 獨立性檢驗,兩個變量的獨立性檢驗,獨立變量檢驗 (goodness of fit test)

12、,檢驗兩個分類變量是否獨立 檢驗的步驟 提出假設 H0:變量X和Y獨立j;H1: X和Y 不獨立 在原假設成立的前提下,可得到以下檢驗統計量,進行決策 根據顯著性水平和自由度(r-1)(c-1)查出臨界值2 若22,拒絕H0;若2 0.05(4)=9.488 故拒絕H0,接受H1 ,即地區和原料等級之間存在依賴關系,原料的質量受地區的影響,獨立性檢驗 (例題分析2-1),【例】某集團公司 欲進行一項改革,從所屬的四個分公司中共隨機抽取了420名職工,了解它們對改革方案的態度(見下表),以=0.1的顯著性水平檢驗員工態度是否受所在分公司的影響。,獨立性檢驗 (例題分析2-1),解:若員工態度不受

13、影響,則所在分公司與對改革方案的態度是相互獨立的??稍O定原假設和備擇假設分別為 (1) 確定假設 H0: 員工所在分公司和對改革方案的態度是相互獨立的 H1:員工所在分公司和對改革方案的態度并非相互獨立,獨立性檢驗 (例題分析2-3),(2) 計算期望頻數及2統計量的值,獨立性檢驗 (例題分析2-4),(3) 作出判斷, 0.05(3)=7.8147. 故接受H0。即員工所在分公司與其態度是相互獨立的。,2檢驗的實質,獨立性檢驗等價于檢驗多個比例是否相等或由期望的比例算出的期望頻數與實際頻數是否相等。 檢驗的步驟 提出假設 H0:1 =p1, 2 =p2, j=pj; H1 1 =p1, 2

14、=p2, j=pj至少有一個不成立 原假設意為在一個分類變量C的不同取值下,另一個分類變量R的某一類別的占該R比例是否等于某個期望比例,2檢驗的實質,在原假設成立的前提下,可得到以下檢驗統計量 若列聯表中其中一個分類變量只是考慮的一個類別的觀測值,則使用以下統計量(擬合優度檢驗) 進行決策 根據顯著性水平和自由度(r-1)查出臨界值2 若22,拒絕H0;若22,拒絕H0;若22,接受H0,2檢驗舉例 (例題分析1-1),【例9.3】某集團公司 欲進行一項改革,從所屬的四個分公司中共隨機抽取了420名職工,了解它們對改革方案的態度(見下表),以=0.1的顯著性水平檢驗員工態度是否受所在分公司的影

15、響。,2檢驗舉例 (例題分析1-2),解:若員工對改革方案的態度不受所在子公司的影響,四個分公司對贊成改革方案的比例是一致的。 ,設i為第i個分公司贊成改革方案的百分比)??稍O定原假設和備擇假設分別為: H0: 1= 2= 3= 4 H1: 1,2,3,4 不全相等,2檢驗舉例 (例題分析1-3),合計:3.0319,擬合優度檢驗 (例題分析1-3),H0: 1= 2= 3= 4 H1: 1,2,3,4 不全相等 = 0.1 df = (4-1)= 3 臨界值(s):,統計量:,在 = 0.1的水平上不能拒絕H0,可以認為四個分公司對改革方案的贊成比例是一致的,決策:,結論:,2檢驗 (例題分

16、析2-1),【例】 1912年4月15日,豪華巨輪泰坦尼克號與冰山相撞沉沒。當時船上共有共2208人,其中男性1738人,女性470人。海難發生后,幸存者為718人,其中男性374人,女性344人,以的顯著性水平( 0.05)檢驗存活狀況與性別是否有關。,2檢驗 (例題分析2-2),分析:設男女存活率分別為1和2 若男女存活率相同,則均為718/2208=0.325 本問題等價于檢驗如下假定: H0: 1=2 H1: 12,2檢驗 (例題分析2-3),H0: 1=2 H1: 12 = 0.05 df = (2-1)= 1 臨界值(s):,統計量:,在 = 0.05的水平上拒絕H0,有較充分的理

17、由認為生存狀況與性別相關,決策:,結論:,思 考 1,問題1: 為什么2檢驗采用右單側檢驗而不采用雙邊檢驗? 答:因為應用2檢驗時,原假設H0實際上可以概括為: 觀測頻數期望頻數,備擇假設H1為:觀測頻數期望頻數,而2統計量的值越小,表明觀測頻率與期望頻率越接近,越因該接受原假設,因此,拒絕域應該在2分布的右側,故采用右單側檢驗。,思 考 2,問題2: 如何解釋2統計量的自由度為(R-1)(C-1)?,品質數據的假設檢驗,(1) 對于學生宿舍上網收費的新措施,男女學生的抽樣調查結果如下列聯表所示,如果要檢驗男女生贊成上網的比例( 1 和2 )是否相同,則提出的原假設為: ( ) A. H0:

18、1=2= 0.678 B . H0: 1=2= 45 C. H0: 1=2= 0.322 D. H0: 1=2= 42 檢驗(1)所使用的2統計量的自由度為( ) 采用( )(左側,右側,雙邊)檢驗,練 習 (2),C,1,右側,(3) 對于學生宿舍上網收費的新措施,男女學生的抽樣調查結果如下列聯表所示,如果要檢驗男女生贊成上網的比例是否相同,即檢驗H0: 1=2= 0.322,若給定=0.05,得出的結論是: ( ) A. 拒絕原假設 B . 不拒絕原假設 C. 可以拒絕也可以不拒絕原假設 D. 既不拒絕也不接收原假設,B,9.4 列聯表中的相關測量,9.4.1 相關系數 9.4.2 列聯相

19、關系數 9.4.3 V 相關系數,列聯表中的相關測量,品質相關 對品質數據(分類和順序數據)之間相關程度的測度 列聯表變量的相關屬于品質相關 列聯表相關測量的統計量主要有 相關系數 列聯相關系數 V 相關系數, 相關系數 (correlation coefficient),測度22列聯表中數據相關程度 對于22 列聯表, 系數的值在01之間 相關系數計算公式為, 相關系數 (原理分析),一個簡化的 22 列聯表, 相關系數 (原理分析),列聯表中每個單元格的期望頻數分別為,將各期望頻數代入 的計算公式得, 相關系數 (原理分析),將入 相關系數的計算公式得,ad 等于 bc , = 0,表明變

20、量X 與 Y 之間獨立 若 b=0 ,c=0,或a=0 ,d=0,意味著各觀察頻數全部落在對角線上,此時| =1,表明變量X 與 Y 之間完全相關, | 越接近1,相關程度越大,,列聯表中變量的位置可以互換,的符號沒有實際意義,故取絕對值即可, 相關系數取值范圍 (原理分析),對22列聯表,-1 1 對非22列聯表,,故對非22列聯表,系數將隨著R或C的變大而增大,且值沒有上限,故不適合用系數測定兩個變量的相關程度。,列聯相關系數C (coefficient of contingency),列聯相關系數C用于測度大于22列聯表中數據的相關程度 計算公式為,C 的取值范圍是 ,其中m=min(R

21、, C) C = 0表明列聯表中的兩個變量獨立 C 的數值大小取決于列聯表的行數和列數,并隨行數和列數的增大而增大,列聯相關系數 (優缺點),優點: 計算簡單,對總體分布沒有任何要求。 缺點: 根據不同行和列計算的列聯相關系數不便于比較。,V 相關系數 (V correlation coefficient),由Gramer提出,計算公式為,V 的取值范圍是 0V1 V =0表明列聯表中的兩個變量獨立 V =1表明列聯表中的兩個變量完全相關 不同行和列的列聯表計算的列聯系數不便于比較 當列聯表中有一維為2,min(r-1),(c-1)=1,此時V=,列聯表中的相關測量 (例題分析),【例9.2】

22、一種原料來自三個不同地區,原料質量被分成三個不同等級。從這批原料中隨機抽取500件進行檢驗,結果如下表。分別計算系數、C系數和V系數,并分析相關程度(假設已檢驗得到地區和材料質量相關),列聯表中的相關測量 (例題分析),解:已知n=500,19.82,列聯表為33,結論:三個系數均不高,表明產地和原料等級之 間的相關程度不高,、C、V 的比較,同一個列聯表,、C、V 的結果會不同 在對不同列聯表變量之間的相關程度進行比較時,不同列聯表中的行與行、列與列的個數要相同,并且采用同一種系數,(1) 對于學生宿舍上網收費的新措施,男女學生的抽樣調查結果如下列聯表所示,如果要檢驗男女生贊成上網的比例是否

23、相同,若根據數據計算得到|=1,則: ( ) A. 男學生全部贊成,女學生全部反對 B . 男女學生全部都贊成 C. 男女學生全部都反對 D. 男學生全部贊成,女學生全部反對;或男學生全部反對,女學生全部贊成,練 習 (3),D,(2) 以下測度列聯表中數據的相關程度的參數,取值范圍有可能不在0,1范圍內的是:( ) A. 相關系數 B . C相關系數 C. V相關系數 D. A、B、C都有可能,A,9.4 列聯分析中應注意的問題,9.4.1 條件百分表的方向 9.4.2 2分布的期望值準則,條件百分表的方向(1),列聯表中行列變量的置放位置 習慣做法:將自變量X放在列頭,因變量Y放在行頭,條件百分比按照自變量的方向計算 例如:調查不同職業的人的價值取向,職業看作自變量,價值取向為因變量, 如左表,從左表數據可以看出:從事服務業的人更注重人情關系。,條件百分表的方向(2),列聯表中行列變量的置放位置 (2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論