第09章非參數檢驗_第1頁
第09章非參數檢驗_第2頁
第09章非參數檢驗_第3頁
第09章非參數檢驗_第4頁
第09章非參數檢驗_第5頁
已閱讀5頁,還剩90頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics12003-10-8第十章第十章 非參數檢驗非參數檢驗 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics22003-10-8第一節、非參數檢驗的概念 一、非參數檢驗的概念 1.參數檢驗。 以總體分布已知或對總體分布做出某種假定為前提,而總體中有些參數是未知的,統計分析的目的是對這些未知參數進行估計或檢驗。 2.非參數檢驗。 是對總體分布的具體形式不必作任何限制性假定和不以總體參數具體數值估計為目的的統計推斷。 第十章第十

2、章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics32003-10-8二、非參數統計的特點 (1) 不但可以對現象進行定量研究,而且還能對現實生活中無法用數值大小加以精確測度的定性現象進行研究。 (2) 是一種經濟有效的方法,容易理解,計算簡便,有時可以不完全考慮數據排列順序。 (3) 不需要對總體的分布做出假設,不需要檢驗總體的參數,使得條件容易滿足。適用于計量信息較弱的資料且計算方法也簡單易行,所以在實際中有廣泛的應用第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics42003

3、-10-8 (4)在總體分布形式已知時,非參數檢驗就不如傳統方法效率高。這是因為非參數方法利用的信息要少些。往往在傳統方法可以拒絕零假設的情況,非參數檢驗無法拒絕。 (5)非參數統計在總體未知時效率要比傳統方法要高,有時要高很多。是否用非參數統計方法,要根據對總體分布的了解程度來確定。 非參數統計檢驗方法有:卡方檢驗,游程檢驗,獨立兩樣本檢驗,配對兩樣本檢驗,等級相關檢驗,多樣本檢驗。 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics52003-10-8第二節 檢驗 2一、什么是 檢驗 2 1. 檢驗。是利用隨機樣本對總體分布與某

4、種特定分布擬合程度的檢驗,也就是檢驗觀察值與理論值間的擬合程度。2 2. 統計量。當我們研究 個事件時( ),可以測定 個事件的觀察值。通過分析可以計算出k個事件的理論值,從而計算出觀察值與理論值之間的差異,在此基礎上構造的統計量稱為 統計量。 2kkk22第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics62003-10-82k0fef2eefff202)(2(1)k) 1( k 3. 統計量數學表達式。當樣本容量充分大時,樣本分成 類,每類實際出現的次數用 表示,其理論次數用 表示,則 統計量的數學表達式為: 且 服從 分布,其

5、中 為自由度。 檢驗主要用于擬合優度檢驗和獨立性檢驗 22第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics72003-10-8二、擬合優度檢驗 例10-1 某消費者協會想確定市場上5種牌子的啤酒哪一種受歡迎,該協會隨機抽取1000名啤酒飲用者做為樣本進行如下實驗:每個人得到5種牌子的啤酒各一瓶,但都未標名牌子,這5瓶啤酒分別寫著A,B,C,D,E字母的5張卡片隨機確定的順序送給每一個人,要求每人在品嘗完各個啤酒后將最喜歡的啤酒標在卡片上,下表便是根據樣本資料整理得到的各種牌子啤酒愛好者的頻數分布。 最喜歡的牌子 A B C D E

6、 合計 人 數 210 312 170 85 223 1000 試判斷消費者對這幾種牌子啤酒的愛好有無差別? 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics82003-10-8 解:若無差別,則各個啤子的啤酒喜歡飲用人數將呈均勻分布,喜歡人數將各占20%,據此可以提出如下假設: :不同牌子喜歡飲用人數服從均勻分布 :不同牌子喜歡飲用人數不服從均勻分布 ( 中至少有一個不等于200)設定顯著性水平 20054321ffffffe0H1Hif05. 0第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶App

7、lied Statistics92003-10-8200)200170(200)200312(200)200210()(222202eefff4 .136200)200223(200)20085(22如果 值很大,則有理由拒絕 ,但大到什么程度需要有統計意義,即需要一個臨界值 ,當 時,才有理由拒絕 。 C20HC20H第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics102003-10-82 由假設檢驗的一般原理, 的值可以由給定顯著性水平確定,即滿足 ,根據 ,自由度為5-1=4,查 分布臨界值得 。 C)(2CP05. 048

8、8. 9) 4(205. 0C對于 ,決策規定如下:若 , 拒絕若 , 接受488. 9)4(205. 02488. 920H488. 920H由于 ,所以拒絕原假設,也即認為消費者對各種啤酒的愛好是有差別的,用擬合優度的術語表示:就這個樣本而言,均值分布肯定不是最佳擬合。 448. 94 .1362第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics112003-10-8三、獨立性檢驗(聯列表分析) 例10-2 在對某城市家庭的社會經濟特征調查中,美國某調查公司想確定家庭的電話擁有量與汽車擁有量之間是否獨立,該公司對10000戶家庭

9、組成的簡單隨機樣本進行調查,獲得資料如下表,試分析汽車擁有量與電話擁有量之間是否獨立。顯著性水平=0.01 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics122003-10-8 汽車擁有量與電話擁有量的聯列表 汽車擁有量 0 1 2 合計 0 1000 900 100 2000 1 1500 2600 500 4600 電話擁有量 2 500 2500 400 3400 合計 3000 6000 1000 10000 這種表稱為聯列表(列聯表) 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Appl

10、ied Statistics132003-10-8特 性 B (列) B1 B2 . Bc 合計 特 性 A (行) A1 A2 Ar n11 n12 n1c n21 n22 n2c nr1 nr2 nrc n1. n2. nr. 合計 n.1 n.2 . n.c n 頻數聯列表 cjriijnn11cjijinn1riijjnn1第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics142003-10-8在聯列表中,一般是檢驗特征A和特征B有無關聯或特征A和特征B是否相互獨立,因此這類問題的一般假設為: :特征A和特征B無關 :特征A

11、和特征B有關 0H1H成立時的理論頻數 滿足下式 0HijEnnnEjiij第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics152003-10-8由統計理論 cccEEnEEn121111211112)()(rcrcrcrrrEEnEEn21211)()(cccEEnEEn22222122121)()(ricjijijijEEn112)(第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics162003-10-8 服從自由度為 的 分布,給定值,查 分布表,得臨界值 來檢驗

12、 。 2) 1)(1(cr222(1)(1)rc0H:汽車擁有量與電話擁有量是獨立的:汽車擁有量與電話擁有量不獨立 0H1H在本例中,設計算理論頻數第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics172003-10-834010000340010003333nnnE 汽車擁有量 0 1 2 合計 0 1000 900 100 2000 1 1500 2600 500 4600 電話擁有量 2 500 2500 400 3400 合計 3000 6000 1000 10000 60010000200030001111nnnE3401

13、0000340010003333nnnE第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics182003-10-8汽車擁有量 0 1 2 合計 0 1000 900 100 2000 1 1500 2600 500 4600 電話擁有量 2 500 2500 400 3400 合計 3000 6000 1000 10000 汽車擁有量 0 1 2 合計 0 1000(600) 900(1200) 100(200) 2000 1 1500(1380) 2600(2760) 500(460) 4600 電話擁有量 2 500(1020)

14、2500(2040) 400(340) 3400 合計 3000 6000 1000 10000 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics192003-10-8340)340400(2040)20402500(1020)1020500(200)200100(1200)1200900(600)6001000(222222230.794汽車擁有量 0 1 2 合計 0 1000(600) 900(1200) 100(200) 2000 1 1500(1380) 2600(2760) 500(460) 4600 電話擁有量 2

15、500(1020) 2500(2040) 400(340) 3400 合計 3000 6000 1000 10000 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics202003-10-82故拒絕 ,也即汽車擁有量與電話擁有量是不獨立的。 0H查 分布表得 =13.277,=794.3013.277= 20.01(4)220.01(4)自由度為(r-1)(c-1)=(3-1)(3-1)=4第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics212003-10-8 例10-

16、3 某公司要了解職工對現行的獎勵制度是否滿意,共調查了210個職工,有關資料分別按男,女整理如表10-4,要求在 =0.05顯著水平下, 分析男職工和女職工對獎勵制度的看法是否有顯著差異 滿意程度 滿意 不滿意 合計 男 30 70 100 性 別 女 45 65 110 合計 75 135 210 表10-4 職工對獎勵制度是否滿意 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics222003-10-8解: 假設: :男職工和女職工的滿意程度沒有差別 :男職工和女職工的滿意程度有差別0H1H計算在 成立情況下的聯列表 滿意 不滿

17、意 合計 男 30(35.71) 70(64.29) 100 女 45(39.29) 65(70.71) 110 合計 75 135 210 0H第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics232003-10-871.35)71.3530(2229.64)29.6470(229.39)29.3940(271. 271.70)71.7065(2 計算2自由度為(2-1)(2-1)=1,查 分布表得 =3.841 ,由于 =2.713.84= ,故接受 ,即認為男職工和女職工的滿意程度沒有明顯差別。 20.05(1)220.05(

18、1)0H第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics242003-10-8第三節 游程檢驗 一、游程和游程檢驗的概念 1.游程。如果將兩個樣本觀察值 和 混合起來,按從小到大的次序排列起來,形成類似于 的序列,那么,我們把每個連續出現的某一樣本觀察值區段稱為游程。 nxxx,21nyyy,212.游程長度。每個區段包含的樣本觀察值的個數。 3.游程檢驗。又稱連貫檢驗,它既可以檢驗樣本的隨機性,也可以檢驗兩個總體是否具有相同的分布。yyyxxyyxyxxxx第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權

19、 寶Applied Statistics252003-10-8 對一些不能進行比率測定而只能用名義尺度和次序尺度的檢驗問題,可以用游程檢驗方法解決。 二、游程檢驗的基本原理和方法 1.游程檢驗可以分為兩種情況。 (1)如果兩個樣本來自兩個不同總體,可以采用混合有序樣本的方法根據實際游程的個數檢驗兩個總體分布是否相同。 (2)如果兩個樣本來自同一個總體,可以先按樣本觀察值從小到大順序排列,然后按中位數(或平均值)將觀察第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics262003-10-8值分為大于和小于中位數兩個部分,再根據上、下兩

20、部分相互交錯形成的游程個數來檢驗樣本的隨機性。2.游程檢驗的基本原理 (1)對于兩組樣本觀察值,將兩組樣本觀察值從小到大按順序排列之后,可以計算其游程的個數 ,如何根據 相對于樣本容量 的大小來判斷兩個樣本所屬總體分布是否相同,或者判斷一個樣本觀察值的隨機性這類問題,可利用書中表13進行檢驗。 rr21nn (2)基本步驟: 1)先將兩個組樣本觀察值按順序從小到大排序。 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics272003-10-8 2)設某種符號(A)的觀察數目為 ,另一種符號(B)的觀察數目為 ,其樣本總容量為 。在已

21、排序的序列組中計算游程個數r .nnn214)檢驗 若 或 , 則以0.05顯著性水平否定隨機性的原則。 1tr 2tr 若, 則以0.05的顯著性水平接受關于隨機性的原則。 21trt2n1n 3)根據 和 的數值,查附表13a得下限臨界值t1 ,查附表13b得上限值t2 。1n2n第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics282003-10-8 例:某校為調查學生成績,隨機選取16個學生,對他們進行口試,按他們進入試場的先后順序,將成績記錄如下:61,74,70,63,64,58,82,78,60,76,85,72,68

22、,54,62,56 。 問該成績排列在0.05顯著性水平下,是否具有隨機性。 (1)先將這些學生成績由小到大排列計算中位數 54, 56, 58, 60, 61, 62, 63, 64, 68, 70, 72, 74, 76, 78, 82, 85 6626864第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics292003-10-8(2)然后按原記錄的順序,61,74,70,63,64,58,82,78,60,76,85,72,68,54,62,56 用 x 表示66分以下的成績,用y 表示66分以上的成績,這樣得到如下序列xyy

23、xxxyyxyyyyxxx (3) 檢驗 設立假設 H0:該樣本有隨機性 H1:該樣本排列不具有隨機性 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics302003-10-8 n1=8,n2=8,實際游程數目n=7 查附表13a和13b,得下限臨界值為t1=4,上限臨界值 t2 =14。 由于 ,故接受原假設H0, 即認為該樣本具有 隨機性。217tt第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics312003-10-8兩個樣本的數值可以用0,1數值表示,這樣游程檢驗

24、方法是檢驗一個取兩個值的變量的這兩個值的出現是否是隨機的。假定下面是由0和1組成的一個這種變量的樣本(數據run1.sav):0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的0(或相同的1)在一起稱為一個游程(單獨的0或1也算)。這個數據中有4個0組成的游程和3個1組成的游程。一共是R=7個游程。其中0的個數為m=15,而1的個數為n=10。 貝努力分布的游程檢驗(貝努力分布的游程檢驗(run testrun test) 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics3

25、22003-10-8貝努力分布的游程檢驗(貝努力分布的游程檢驗(run testrun test) 出現0和1的這樣一個過程可以看成是參數為某未知p的Bernoulli試驗。但在給定了m和n之后,在0和1的出現是隨機的零假設之下,R的條件分布就和這個參數無關了。根據初等概率論,R的分布可以寫成(令N=m+n)11211(2 ),11112211(21)mnkkP RkNnmnmnkkkkP RkNn第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics332003-10-8于是就可以算出在零假設下有關R的概率,以及進行有關的檢驗了。利用

26、上面公式可進行精確檢驗;也可以利用大樣本的漸近分布和利用Monte Carlo方法進行檢驗。利用上面數據的結果是:第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics342003-10-8第四節 配對樣本檢驗 配對樣本比較檢驗所分析的對象可以分成兩類,且兩類對象數據的數目相同。秩(秩(rank)或)或 等級等級 非參數檢驗中秩是最常使用的概念。什么是一個數據的秩呢?一般來說,秩就是該數據按照升序排列之后,每個觀測值的位置。例如我們有下面數據Xi159183178513719Ri75918426310第十章第十章 非非 參參 數數 檢檢

27、 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics352003-10-8 一、符號檢驗 1.符號檢驗 用兩組數據差異的正負號而忽略具體量的差異來進行判斷的一種檢驗方法,也稱正負檢驗。適用于無法用數字計量的情況進行比較。 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics362003-10-82.符號檢驗的步驟 (1) 確定配對樣本,分別計算差異正與負的數目,無差異則記為0,將它從樣本中剔除,并相應地減少樣本容量n,把正負號數目的和看作為樣本總個數。 (2) 建立假設: (3) 觀察樣本容量,如果n30 ,則

28、作為正態分布近似處理。 5 . 0:0pH5 . 0:1pH總數的比重或概率。為正號或負號占正負號其中 p第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics372003-10-8 (4) 設定顯著性水平,查相應的臨界值表,確定臨界值,(5) 進行檢驗和作出判斷。 例10-4 下表為兩種不同飲料,在不知品牌等相同的條件下60名測試者對這兩種飲料打的等級分,5代表最好,1代表最差,根據表中資料判斷測試者對這兩種飲料的評分有無差異? 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statist

29、ics382003-10-8品嘗者 甲的得分 乙的得分 差別的符號 A B C D E 3 4 2 3 1 2 1 4 3 2 + + 0 匯總:+號為 35 個,號為 15 個,0 號為 10 個 兩種品牌飲料等級分 在表中正號表示乙種飲料受歡迎,負號表示甲種飲料受歡迎,0表示受歡迎的程度相同。 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics392003-10-8令P表示得到正號的概率, 做出假設 (兩種飲料受歡迎程度相同) (兩種飲料受歡迎程度不同) 本問題作正態分布處理 5 . 0 pp071. 0505 . 05 . 0

30、)1 (nppsp5 . 0:0pH5 . 0:1pH第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics402003-10-8根據正態分布理論 ) 1 , 0(NspZpp對于 ,當 時,則拒絕原假設。 本例中: 由于2.821.96,則拒絕原假設,認為兩種飲料受歡迎程度不同。 05. 096. 1Z7 . 05035p82. 2071. 050. 070. 0Z第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics412003-10-8二、威爾克森帶符號的平均秩檢驗 1.

31、威爾克森等級檢驗(帶符號)不但考慮了正負號, 而且采用了差別值大小的信息檢驗兩個樣本的差異性。 2. 威爾克森帶符號的檢驗步驟 (1)計算帶有正負號的差數; (2)將差數取絕對值,按從小到大的順序編上等級數(即確定順序號),對于相鄰的等值數據,其等級數取位序的平均數; (3)給每個等級恢復原來的正負號,分別將正負號的等級相加,用T+表示正號等級數的和,T-表示負號等級數的和。第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics422003-10-8(4) 確定帶正號或負號差數值的總個數 ; (6) 設定顯著性水平; (7) 從威爾克森

32、帶符號等級檢驗T值的臨界值表(附11)查出臨界值T.n (8) T值為T+和T-中較小的觀察值,當觀察值T臨界值T時,拒絕 H0,當T臨界值T時,接受H。(5)提出假設 H0:兩組數據沒有差異 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics432003-10-8威爾克森帶符號平均秩檢驗可以轉換成正態分布檢驗。正態分布統計量為:(1)/ 4(1)(21)/ 24Tn nZn nnT值為T+和T-中較小的觀察值第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics442003

33、-10-8 例10-5 下表為某班10名學生統計學期中和期末的考試成績,問兩次考試成績有無顯著差異 ?期中成績 75 87 72 65 93 85 59 73 64 71 期末成績 72 94 92 67 86 85 58 79 69 82 解:(1)建立假設; H0: 兩次考試成績沒有差異 H1: 兩次考試成績有差異 (2) 計算差值及等級數; 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics452003-10-8TT第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics

34、462003-10-8 計算期末與期中考試成績之差。 將差數按其絕對值從小到大編制等級,由于第6等級和第7等級的兩項差值相同,將這兩項按位數的平均數 =6.5排列,若相同的項數多于兩項,可類似處理。 267 (3) 將等級按原來差數符號分類,并分別計算正的等級和 =34.5和負的等級和 =10.5 ; T(4)若考試沒有差異,即H0為真時, 和 應該相等。而且 2) 1(21nnnTTTTT第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics472003-10-8其均值 5 .2241094) 1()2(nnTTT (5)將較小的 值

35、 與 相比較。較小的 值總是小于22.5,當接近于22.5時,應該判斷 為真,若 離22.5較遠以至超出臨界值 時,就拒絕 。TT)min(TTT0HT0HT接受區域T拒絕區域5 .22第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics482003-10-8(6)威爾克森等級檢驗值的臨界值已編成表 本例中為雙側檢驗,n=9,假設顯著性水平=0.05,查表得到臨界值 ,而較小的 ( )為10.5,故接受 。認為兩次考試成績無顯著差異。 505. 0TTTT T0H第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權

36、 寶Applied Statistics492003-10-8第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics502003-10-8一、 曼惠特尼(Mann-Whitney)U檢驗 (一)曼惠特尼U檢驗的基本原理 1.曼惠特尼U檢驗。 與威科克森帶符號等級檢驗基本一致,這種方法通常稱為等級和檢驗,可用于檢驗兩個獨立樣本是否來自相同均值的總體。或用于檢驗兩個總體樣本A和B的相對次數分布是否相同,其特點是用順序數據,而不是用正負號,因此它比符號檢驗運用的更充分。 第五節 獨立樣本檢驗第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業

37、大學管理學院 陳 權 寶Applied Statistics512003-10-82.曼惠特尼U檢驗的步驟(小樣本) (1)從兩個總體A和B中隨機抽取容量為n1 和n2的兩個樣本,將(n1+n2 )個樣本觀察值從大到小順序排列,指定1 為最(大)小的觀察值的秩,2為第二個最(大)小的觀察值的秩,依次類推,如果存在相同的觀察值,則用它們的秩的平均數作為秩; (2) 計算兩個樣本觀察值的秩和TA 、 TB ; (3) 根據TA和TB即可給出曼惠特尼U檢驗公式。AATnnnnU2) 1(1121BBTnnnnU2) 1(222121nnUUBA第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學

38、管理學院 陳 權 寶Applied Statistics522003-10-8 (5)選擇其中較小的U值與U的鄰界值U比較,若U大于U,則接受原假設,若U小于U,則拒絕原假設。 在檢驗時,用較小的U值作為檢驗統計量。 計算得到的兩個U值不相等,但是它們的和總是等于n1n2。(4)設定顯著性水平,查表得臨界值U 。 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics532003-10-8曼惠特尼檢驗臨界值表第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics542003-10

39、-83. 曼-惠特尼檢驗的步驟(大樣本)大樣本時,曼-惠特尼檢驗可以轉化成正態分布檢驗,當樣本容量增大時,U的分布趨近于正態分布,統計已證明,對大樣本(n110且n210)的曼惠特尼U檢驗,其抽樣分布接近于正態分布,均值和標準差分別為 221nnU12) 1(2121nnnnU其檢驗統計量為: UUUZ設定顯著性水平 ,查正態分布表的臨界值(1) 雙側檢驗時,若 則拒絕接受原假設 21Z第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics552003-10-8 另: U為混合樣本中,A樣本大于B樣本的次數, U稱為Mann-Whitn

40、ey U統計量,它與TA 的關系有 (1)2An nUT第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics562003-10-8(二) 案例1(小樣本U檢驗) 例10-6 下表為9名男工和5名女工的技能測試分,問男女職工的技能有無差別? 表 男女職工技能測試分 解:將男女職工的得分分別按大小順序從大到小排列,并標明等級。見表10-8 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics572003-10-8等級 分數 性別 1 1600 男 2 1500 男 3 1400

41、女 4 1350 女 5 1320 男 6 1200 女 7 1150 男 等級 分數 性別 8 1100 男 9 890 女 10 800 男 11 800 男 12 780 女 13 670 男 14 600 男 用 表示男職工樣本容量, 用 表示女職工樣本容量, AnBn9An5Bn用 表示男職工的各項等級之和 AT用 表示女職工的各項等級之和 34BT71ATBT表10-8第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics582003-10-819712109592) 1(1121AATnnnnU2634265592) 1(

42、2221BBTnnnnU45592619:BABAnnUU建立假設: H0:男女職工技能沒有差異 H1:男女職工技能有差異 設給定顯著性水平,查附表12得U的臨界值, 5, 9,05. 0BAnn7U第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics592003-10-8我們從中 中找出小者,對 作比較, 故接受H0,也即斷定男女職工技能沒有顯著差異。 BAUU 和BAUU 和UUA719 (三) 案例2 (大樣本的U檢驗) 當樣本容量增大時,U的分布趨近于正態分布,統計已證明,對大樣本(n110且n210)的曼惠特尼U檢驗,其抽樣

43、分布接近于正態分布,均值和標準差分別為 221nnU12) 1(2121nnnnU第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics602003-10-8其檢驗統計量為: UUUZ設定顯著性水平 ,查正態分布表的臨界值(1) 雙側檢驗時,若 則拒絕接受原假設 21Z 例10-7 某公司經理從該公司兩個地區人員中各抽取15名銷售人員組成一個簡單隨機樣本。進行銷售額的比較,把兩個地區銷售員上年銷售額排列后,其等級順序如下 A地區 1, 2, 4, 7, 8, 10, 12, 13, 14, 17, 21, 24, 26, 27, 28.

44、 B地區 3, 5, 6, 9, 11, 15, 16, 18, 19, 20, 22,23, 25, 29, 30. 現用曼惠特尼U檢驗法,判斷兩個地區銷售水平是否有顯著差異? 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics612003-10-8建立假設 : 兩地區平均銷售水平無顯著差異 : 兩地區平均銷售水平有顯著差異 0H1H設顯著性水平01. 0A地區樣本容量 ,B地區樣本容量 15An15BnA地區的等級和 ,B地區的等級和 214AT251AT1312142161515152) 1(AAABAATnnnnU5 .11

45、2215152BAUnn第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics622003-10-81 .2412) 11515(151512) 1(BABAUnnnn77. 01 .245 .112131UUUZ01. 058. 2212/58. 277. 0ZZ接受原假設 即判斷兩個樣本的平均銷售水平無顯著差異 0H第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics632003-10-8942512161515152) 1(BBBBABTnnnnU5 .112215152

46、BAUnn1 .2412) 11515(151512) 1(BABAUnnnn77. 01 .245 .11294UUBUZBBBBABTnnnnU2) 1(0H即:定義若用,BT第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics642003-10-801. 058. 221Z2/58. 277. 0ZZ故接受原假設, 也即判斷兩個樣本的平均銷售水平無顯著差異。 用UA和UB的結果完全一致。因此當 和 不相等時,為簡便起見,可以用較小的樣本容量進行計算。BnAn第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權

47、 寶Applied Statistics652003-10-8二、兩樣本分布的二、兩樣本分布的Kolmogorov-Smirnov檢驗檢驗 假定有分別來自兩個獨立總體的兩個樣本。要想檢驗它們背后的總體分布相同的零假設,可以進行兩獨立樣本的Kolmogorov-Smirnov檢驗。檢驗步驟是:1)從兩個總體A和B中隨機抽取容量為n1 和n2的兩個樣本,將(n1+n2 )個樣本觀察值從大到小順序排列,指定1 為最(大)小的觀察值的秩,2為第二個最(大)小的觀察值的秩,依次類推,如果存在相同的觀察值,則用它們的秩的平均數作為秩;第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權

48、 寶Applied Statistics662003-10-82)分別計算兩組樣本秩的累計頻率和各個樣本點上的累計頻率; S1 (X)和S2 (X),再記,DjS1 (Xj)-S2 (Xj)。3)構建統計量1212max |jjn nZDnnZ 近似服從正態分布的檢驗統計量 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics672003-10-8第六節 等級相關檢驗 一、等級相關檢驗的基本概念及原理 1.概念。等級相關檢驗是把數量標志或者品質標志的具體表現按等級次序排列后,用計算等級相關系數的方法來測定兩個標志等級序列間相關密切程度

49、和相關方向。 2.公式。設X,Y為兩個樣本容量為n 的隨機變量,X的等級由小到大排列為 ,Y 的等級由小到大排列為 ,如果兩個變量等級完全正相關,則對于所有 應有 ,如果兩個變量等級完全負相關,則對于所有 應有 。 nxxx,21nyyy,21iiyx i1iniyxi第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics682003-10-8 等級相關系數就是把兩個變量等級差,對完全正相關或完全負相關的偏離程度的度量,其公式為:16122nndrs其中,n 為等級的項數, 為兩個變量間的等級差,即: diiivvd 這一公式由斯皮爾曼

50、(spearman)提出,故稱斯皮爾曼(spearman)等級相關系數。第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics692003-10-8 由公式可知, 和 之間的差別越大, 就越大,若所有差數都等于零,則 為零, 等于1,因而兩個等級可以認為完全相關,若在 和 之間觀察到可能有的最大差數,即相關程度弱于完全相關時, 將處于+1和-1之間。 ixiy2d2dsrixiysr二、等級相關系數的應用 利用斯皮爾曼等級相關系數,可以用于以下的假設檢驗。 (1) : 和 相互獨立 : 和 不獨立。0Hixiy1Hixiy(2) : 和

51、 相互獨立 : 和 是正相關。0Hixiy1Hixiy(3) : 和 相互獨立 : 和 是負相關。0Hixiy1Hixiy第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics702003-10-8 等級相關系數 的顯著性檢驗與樣本容量 有關,如果 ,可以查等級相關系數表,該表給出了與不同顯著性水平值相應的 臨界值 :如 可利用如下統計量計算將相關系數與臨界值比較1nrZssr30nnsrr30n0,Hrrs則拒絕原假設0,Hrrs則接受原假設第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied S

52、tatistics712003-10-8 例:下表為大學生學習時間與得分的平均等級之間的關系,問學習時間與得分的平均等級之間有無顯著關系。 學習時間 24 17 20 41 52 23 46 17 15 29 平均等級 3.6 2.0 2.7 3.6 3.7 3.1 3.8 2.5 2.1 3.3 解;因為得分的平均等級與學習時間的度量單位不一樣,在利用等級相關系數檢驗之前,需要將兩個變量轉換成等級性指標,換算方式:10個數據從小到達排列,然后從最小等級為1,最大等級為10將全部數據轉換成等級數,之后進行分析。 第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶App

53、lied Statistics722003-10-8變 量 等 級 學習時間 平均等級 時間等級 分數等級 )(iiiyxd 22)(iiiyxd 24 17 20 41 52 23 46 17 15 29 3.6 2.0 2.7 3.6 3.7 3.1 3.8 2.5 2.1 3.3 6 2.5 4 8 10 5 9 2.5 1 7 7.5 1 4 7.5 9 5 10 3 2 6 -1.5 1.5 0 0.5 1.0 0 1.0 0.5 -1.0 1.0 2.25 2.25 0 0.25 1 0 1 0.25 1.00 1.00 合計 9.00 第十章第十章 非非 參參 數數 檢檢 驗驗

54、中國礦業大學管理學院 陳 權 寶Applied Statistics732003-10-8946. 0990541) 110(10961161222nndrs建立假設H0:學習時間與得分的平均等級之間獨立H1;學習時間與得分的平均等級之間相關05. 0取 ,樣本容量n=10, 查附表14 得526. 0srrrs526. 0946. 0 檢驗由于 故拒絕原假設,即認為學習時間與得分的平均等級之間存在相關關系。第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics742003-10-8一、多個獨立樣本的檢驗一、多個獨立樣本的檢驗(一)一)

55、Kruskal-Wallis關于多個樣本的秩和檢驗關于多個樣本的秩和檢驗( (獨立)獨立) 第七節第七節 多個樣本的秩和檢驗多個樣本的秩和檢驗 這個檢驗的目的是看多個總體的分布是否存在顯著的差異,或多個總體的位置參數是否有顯著差異。方法和Wilcoxon-Mann-Whitney檢驗的思想類似。假定有k個總體。先把從這個k個總體來的樣本混合起來,按數值的大小進行排序,求出秩。記各個總體觀測值的秩之和為Ri,i=1,k。與平均秩和Ri/ni ,顯然如果這些Ri 有顯著差異,就可以認為k個總體的分布不相同,它們位置參數相同的零假設不妥(備選假設為各個位置參數不全相等)。第十章第十章 非非 參參 數

56、數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics752003-10-8顯然如果這些Ri無顯著差異,就可以認為k個總體的分布相同,它們位置參數相同的零假設成立。Kruskal-Wallis檢驗統計量為 21123(1)(1)kiiiRHNN Nn公式中ni為第i個樣本容量,而N 為各個樣本容量之和(總樣本量)。第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics762003-10-8如果觀測值中有大小一樣的數值,這個公式會有稍微的變化。這個統計量在位置參數相同的零假設下有漸近的自由度為k-1的2分布。

57、Kruskal-Wallis檢驗僅僅要求各個總體變量有相似形狀的連續分布。22(1)1123(1)(1)kikiiRHNN Nn第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics772003-10-8(二)(二)Brown-Mood中位數檢驗(獨立)中位數檢驗(獨立) 在有多個獨立樣本的情況,希望知道它們的中位數是否相等。零假設是這些樣本所代表的總體的中位數相等。備選假設是這些中位數不全相等。 基本思想:假定有k個總體,ni為第i個樣本容量;把所有樣本容量之和記為N。先把從這個k個總體來的樣本混合起來排序,找出它們的中位數M,( M

58、是k個總體來的共同中位數)。再計算每個總體中小于該中位數的觀測值個數O1i,i=1,k,和每個總體中大于該中位數的觀測值個數O2i,i=1,k。這樣就形成了一個由元素Oji組成的2k表。12KQ11Q12Q1KR1Q21Q22Q2KR2n1n2nkN第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics782003-10-8其列總和為ni,i=1,k;而R1O11+O12+ O1k為各樣本小于總中位數的觀測值頻數總和:R2O21+O22+ O2k為各樣本大于總中位數的觀測值頻數總和。 如果零假設成立,即多個總體具有相同的中位數,那么對于

59、每個總體而言,O1i和O1j應該相差不大,反之,如果O1i和O1j相差明顯,則有理由認為多個總體的中位數存在顯著差異。 由元素Oji組成的2k表是一個列聯表,可以用Pearson 2統計量進行檢驗,統計量為 22211()kijijjiijOEEijijRnEN第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics792003-10-8其中Oij 為實際樣本計算的頻數值,E1j是根據零假設成立時計算的理論頻數, 2 統計量近似服從自由度為k-1的分布,如果假設成立, 2應偏小,如果2 偏大時,應拒絕零假設,認為總體的中位數存在顯著地差異

60、。第十章第十章 非非 參參 數數 檢檢 驗驗 中國礦業大學管理學院 陳 權 寶Applied Statistics802003-10-8(三)(三)Jonckheere-Terpstra多樣本的檢驗多樣本的檢驗 這個檢驗處理的問題和Kruskal-Wallis檢驗類似,零假設都是多個總體的分布是相同,或各個總體的位置參數相同,但這里的備選假設為各個總體的位置參數按升冪排列(如為降冪排列,可把總體編號顛倒順序即為升冪排列)。Jonckheere-Terpstra檢驗先在每兩個樣本所有觀測值之間比較,計算第i個樣本觀測值中小于第j個樣本觀測值的次數,記為Uij #(0,1,.,1,.,)ijikj

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論