




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學─從數據到結論統計學─從數據到結論1第六章總體參數的假設檢驗第六章總體參數的假設檢驗2如果一個人說他從來沒有罵過人。他能夠證明嗎?要證明他沒有罵過人,他必須出示他從小到大每一時刻的錄音錄像,所有書寫的東西等等,還要證明這些物證是完全的、真實的、沒有間斷的。這簡直是不可能的。即使他找到一些證人,比如他的同學、家人和同事,那也只能夠證明在那些證人在場的某些片刻,他沒有被聽到罵人。如果一個人說他從來沒有罵過人。他能夠證明嗎?3反過來,如果要證明這個人罵過人很容易,只要有一次被抓住就足夠了。看來,企圖肯定什么事物很難,而否定卻要相對容易得多。這就是假設檢驗背后的哲學??茖W總往往是在否定中發展反過來,如果要證明這個人罵過人很容易,只要有一次被抓住就足夠4在假設檢驗中,一般要設立一個原假設(上面的“從來沒罵過人”就是一個例子);而設立該假設的動機主要是企圖利用人們掌握的反映現實世界的數據來找出假設與現實之間的矛盾,從而否定這個假設。在假設檢驗中,一般要設立一個原假設(上面的“從來沒罵過人”就5在多數統計教科書中(除理論探討外)假設檢驗都是以否定原假設為目標。如否定不了,說明證據不足,無法否定原假設。但不能說明原假設正確。就像一兩次沒有聽過他罵人還遠不能證明他從來沒有罵過人。在多數統計教科書中(除理論探討外)假設檢驗都是以否定原假設為6§6.1假設檢驗的過程和邏輯先要提出個原假設,比如某正態總體的均值等于5(m=5)。這種原假設也稱為零假設(nullhypothesis),記為H0。與此同時必須提出備選假設(或稱為備擇假設,alternativehypothesis),比如總體均值大于5(m>5)。備選假設記為H1或Ha。形式上,這個關于總體均值的H0相對于H1的檢驗記為§6.1假設檢驗的過程和邏輯先要提出個原假設,比如某正態總7§6.1假設檢驗的過程和邏輯備選假設應該按照實際世界所代表的方向來確定,即它通常是被認為可能比零假設更符合數據所代表的現實。比如上面的H1為m>5;這意味著,至少樣本均值應該大于5;至于是否顯著,依檢驗結果而定。檢驗結果顯著(significant)意味著有理由拒絕零假設。因此,假設檢驗也被稱為顯著性檢驗(significanttest)。§6.1假設檢驗的過程和邏輯備選假設應該按照實際世界所代表8§6.1假設檢驗的過程和邏輯有了兩個假設,就要根據數據來對它們進行判斷。數據的代表是作為其函數的統計量;它在檢驗中被稱為檢驗統計量(teststatistic)。根據零假設(不是備選假設?。?,可得到該檢驗統計量的分布;再看這個統計量的數據實現值(realization)屬不屬于小概率事件?!?.1假設檢驗的過程和邏輯有了兩個假設,就要根據數據來對9§6.1假設檢驗的過程和邏輯也就是說把數據代入檢驗統計量,看其值是否落入零假設下的小概率范疇;如果的確是小概率事件,那么就有可能拒絕零假設,或者說“該檢驗顯著,”否則說“沒有足夠證據拒絕零假設”,或者“該檢驗不顯著?!薄?.1假設檢驗的過程和邏輯也就是說把數據代入檢驗統計量,10§6.1假設檢驗的過程和邏輯注意:在我們所涉及的問題中,零假設和備選假設在假設檢驗中并不對稱。因檢驗統計量的分布是從零假設導出的,因此,如果發生矛盾,就對零假設不利了。不發生矛盾也不能說明零假設沒有問題?!?.1假設檢驗的過程和邏輯注意:在我們所涉及的問題中,零11§6.1假設檢驗的過程和邏輯在零假設下,檢驗統計量取其實現值及(沿著備選假設的方向)更加極端值的概率稱為p-值(p-value)。如果得到很小的p-值,就意味著在零假設下小概率事件發生了。如果小概率事件發生,是相信零假設,還是相信數據呢?當然多半是相信數據,拒絕零假設。§6.1假設檢驗的過程和邏輯在零假設下,檢驗統計量取其實現12§6.1假設檢驗的過程和邏輯但小概率并不能說明不會發生,僅僅發生的概率很小罷了。拒絕正確零假設的錯誤常被稱為第一類錯誤(typeIerror)。在備選假設正確時反而說零假設正確的錯誤,稱為第二類錯誤(typeIIerror)。在本書的假設檢驗問題中,由于備選假設不是一個點,所以無法算出犯第二類錯誤的概率?!?.1假設檢驗的過程和邏輯但小概率并不能說明不會發生,僅13§6.1假設檢驗的過程和邏輯零假設和備選假設哪一個正確,是確定性的,沒有概率可言。而可能犯錯誤的是人。涉及假設檢驗的犯錯誤的概率就是犯第一類錯誤的概率和犯第二類錯誤的概率。負責任的態度是無論做出什么決策,都應該給出該決策可能犯錯誤的概率?!?.1假設檢驗的過程和邏輯零假設和備選假設哪一個正確,是14§6.1假設檢驗的過程和邏輯到底p-值是多小時才能夠拒絕零假設呢?也就是說,需要有什么是小概率的標準。這要看具體應用的需要。但在一般的統計書和軟件中,使用最多的標準是在零假設下(或零假設正確時)根據樣本所得的數據來拒絕零假設的概率應小于0.05,當然也可能是0.01,0.005,0.001等等。這種事先規定的概率稱為顯著性水平(significantlevel),用字母a來表示?!?.1假設檢驗的過程和邏輯到底p-值是多小時才能夠拒絕零15§6.1假設檢驗的過程和邏輯a并不一定越小越好,因為這很可能導致不容易拒絕零假設,使得犯第二類錯誤的概率增大。當p-值小于或等于a時,就拒絕零假設。所以,a是所允許的犯第一類錯誤概率的最大值。當p-值小于或等于a時,就說這個檢驗是顯著的。無論統計學家用多大的a作為顯著性水平都不能脫離實際問題的背景。統計顯著不一定等價于實際顯著。反過來也一樣?!?.1假設檢驗的過程和邏輯a并不一定越小越好,因為這很可16§6.1假設檢驗的過程和邏輯歸納起來,假設檢驗的邏輯步驟為:1.寫出零假設和備選假設;2.確定檢驗統計量;3.確定顯著性水平a;4.根據數據計算檢驗統計量的實現值;5.根據這個實現值計算p-值;6.進行判斷:如果p-值小于或等于a,就拒絕零假設,這時犯(第一類)錯誤的概率最多為a;如果p-值大于a,就不拒絕零假設,因為證據不足?!?.1假設檢驗的過程和邏輯歸納起來,假設檢驗的邏輯步驟為17§6.1假設檢驗的過程和邏輯實際上,多數計算機軟件僅僅給出p-值,而不給出a。這有很多方便之處。比如a=0.05,而假定所得到的p-值等于0.001。這時如果采用p-值作為新的顯著性水平,即新的a=0.001,于是就可以說,在顯著性水平為0.001時,拒絕零假設。這樣,拒絕零假設時犯錯誤的概率實際只是千分之一而不是舊的a所表明的百分之五。在這個意義上,p-值又稱為觀測的顯著性水平(observedsignificantlevel)?!?.1假設檢驗的過程和邏輯實際上,多數計算機軟件僅僅給出18§6.1假設檢驗的過程和邏輯在統計軟件輸出p-值的位置,有的用“p-value”,有的用significant的縮寫“Sig”就是這個道理。根據數據產生的p-值來減少a的值以展示結果的精確性總是沒有害處的。這好比一個身高180厘米的男生,可能愿意被認為高于或等于180厘米,而不愿意說他高于或等于155厘米,雖然這第二種說法數學上沒有絲毫錯誤。§6.1假設檢驗的過程和邏輯在統計軟件輸出p-值的位置,有19§6.1假設檢驗的過程和邏輯關于“臨界值”的注:作為概率的顯著性水平a實際上相應于一個檢驗統計量取值范圍的一個臨界值(criticalvalue),它定義為,統計量取該值或更極端的值的概率等于a。也就是說,“統計量的實現值比臨界值更極端”等價于“p-值小于a”。使用臨界值的概念進行的檢驗不計算p-值。只比較統計量的取值和臨界值的大小。§6.1假設檢驗的過程和邏輯關于“臨界值”的注:作為概率的20§6.1假設檢驗的過程和邏輯使用臨界值而不是p-值來判斷拒絕與否是前計算機時代的產物。當時計算p-值不易,只采用臨界值的概念。但從給定的a求臨界值同樣也不容易,好在習慣上僅僅在教科書中列出相應于特定分布的幾個有限的a臨界值(比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001等等),或者根據分布表反過來查臨界值(很不方便也很粗糙)。現在計算機軟件大都不給出a和臨界值,但都給出p-值和統計量的實現值,讓用戶自己決定顯著性水平是多少。§6.1假設檢驗的過程和邏輯使用臨界值而不是p-值來判斷拒21§6.1假設檢驗的過程和邏輯在一些統計教科書中會有不能拒絕零假設就“接受零假設”的說法。這種說法是不嚴格的。首先,如果你說“接受零假設”,那么就應該負責任地提供接受零假設時可能犯第二類錯誤的概率。這就要算出在備選假設正確的情況下錯誤接受零假設的概率。但是,這只有在備選假設僅僅是一個與零假設不同的確定值(而不是范圍)時才有可能。多數基本統計教科書的備選假設是一個范圍而根本無法確定犯第二類錯誤的概率?!?.1假設檢驗的過程和邏輯在一些統計教科書中會有不能拒絕22§6.1假設檢驗的過程和邏輯在許多統計教科書中,往往把一系列不能拒絕零假設的檢驗當成接受這些假設的通行證。比如不能拒絕某樣本的正態性就變成了證明了該樣本是正態的等等。不能拒絕這些零假設,僅僅說明根據所使用的檢驗方法(或檢驗統計量)和當前的數據沒有足夠證據拒絕這些假設而已?!?.1假設檢驗的過程和邏輯在許多統計教科書中,往往把一系23§6.1假設檢驗的過程和邏輯對于同一個假設檢驗問題,往往都有多個檢驗統計量;而且人們還在構造更優良的檢驗統計量。人們不可能把所有的目前存在的和將來可能存在的檢驗都實施。因此,只能夠說,按照目前的證據,不足以拒絕零假設而已。后面將會用例子說明“接受零假設”的說法是不妥當的。§6.1假設檢驗的過程和邏輯對于同一個假設檢驗問題,往往都24§6.2對于正態總體均值的檢驗
§6.2.1根據一個樣本對其總體均值大小進行檢驗例6.1一個顧客買了一包標有500g重的一包紅糖,覺得份量不足,于是找到監督部門;當然他們會覺得一包份量不夠可能是隨機的。于是監督部門就去商店稱了50包紅糖(數據在sugar.txt);其中均值(平均重量)是498.35g;這的確比500g少,但這是否能夠說明廠家生產的這批紅糖平均起來不夠份量呢?于是需要統計檢驗??梢援嫵鲞@些重量的直方圖§6.2對于正態總體均值的檢驗
§6.2.1根據一個樣本2550包紅糖重量的直方圖
50包紅糖重量的直方圖26§6.2.1根據一個樣本對其總體均值大小進行檢驗這個直方圖看上去象是正態分布的樣本。不妨假定這一批袋裝紅糖有正態分布。由于廠家聲稱每袋500g(標明重量),因此零假設為總體均值等于500g(被懷疑對象總是放在零假設);而且由于樣本均值少于500g(這是懷疑的根據),把備選假設定為總體均值少于500g(備選假設為單向不等式的檢驗稱為單尾檢驗,為不等號“≠”的稱為雙尾檢驗)§6.2.1根據一個樣本對其總體均值大小進行檢驗這個直方圖27§6.2.1根據一個樣本對其總體均值大小進行檢驗檢驗統計量就是第四章引進的作為對均值的某種標準化的符號中的m0通常表示為零假設中的均值(這里是500)。在零假設之下,它有自由度為n-1=49的t分布。當然實際上不必代入這個公式去手工計算了,讓計算機去代勞好了?!?.2.1根據一個樣本對其總體均值大小進行檢驗檢驗統計量28§6.2.1根據一個樣本對其總體均值大小進行檢驗計算結果是t=-2.696(也稱為t值),同時得到p-值為0.005(由于計算機輸出的為雙尾檢驗的p-值,比單尾的大一倍,應該除以2)??磥砜梢赃x擇顯著性水平為0.005,并宣稱拒絕零假設,而錯誤拒絕的概率為0.005?!?.2.1根據一個樣本對其總體均值大小進行檢驗計算結果是29統計量t=-2.696相應于左邊尾概率(p-值)0.005統計量t=-2.696相應于左邊尾概率(p-值)0.00530§6.2.1根據一個樣本對其總體均值大小進行檢驗上面例子的備選假設為小于(“<”)某個值。同樣也可能有備選假設為均值大于(“>”)某個值的情況。取備選假設為均值大于或小于某個值的檢驗稱為單尾檢驗(one-tailedtest,也稱為單側檢驗或單邊檢驗)。下面舉一個選假設為均值大于(“>”)某個值的例子?!?.2.1根據一個樣本對其總體均值大小進行檢驗上面例子的31§6.2.1根據一個樣本對其總體均值大小進行檢驗例6.2(exh.txt)汽車廠商聲稱其發動機排放標準的一個指標平均低于20個單位。在抽查了10臺發動機之后,得到下面的排放數據:17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。該樣本均值為21.13。究竟能否由此認為該指標均值超過20?這次的假設檢驗問題就是§6.2.1根據一個樣本對其總體均值大小進行檢驗例6.2(32§6.2.1根據一個樣本對其總體均值大小進行檢驗和前面的例子的方法類似,可以發現p-值為0.1243(計算機輸出的雙尾檢驗的p-值除以2),因此,沒有證據否定零假設。這時的檢驗統計量t=1.2336。也可以畫出類似于圖6.2的圖(圖6.3)這時的t分布的自由度為9。下面是結果的計算機輸出:§6.2.1根據一個樣本對其總體均值大小進行檢驗和前面的例33統計量t=1.2336相應于右邊尾概率(p-值)0.1243統計量t=1.2336相應于右邊尾概率(p-值)0.124334§6.2.1根據一個樣本對其總體均值大小進行檢驗注意:在假設檢驗中往往也用帶等號的不等式來表示零假設,比如上述的檢驗記為但這里用于計算p-值的零假設還是m=20;但如果能夠拒絕零假設m=20,那么對于任何m小于20的零假設就更有理由拒絕了。這和以拒絕零假設為初衷的假設檢驗思維方式是一致的?!?.2.1根據一個樣本對其總體均值大小進行檢驗注意:在假35§6.2.1根據一個樣本對其總體均值大小進行檢驗還有所謂的雙尾檢驗(twotailedtest,也稱為雙側檢驗或雙邊檢驗)問題,即在這種情況下,尾概率不僅是左邊或右邊的一個尾概率,而是兩邊尾概率之和。因此如果是一個單尾檢驗問題,用了雙尾檢驗的模式,p-值就比用單尾檢驗時大了一倍?!?.2.1根據一個樣本對其總體均值大小進行檢驗還有所謂的36§6.2.1根據一個樣本對其總體均值大小進行檢驗如果上面發動機排放指標例子的檢驗問題改為是否該發動機的排放指標均值等于20。即這時t統計量還是取原來的值1.2336,但p-值為0.1243×2=0.2486。圖6.3就變成圖6.4的樣子§6.2.1根據一個樣本對其總體均值大小進行檢驗如果上面發37統計量t=1.2336,而p-值等于左右尾概率之和,即0.2486統計量t=1.2336,而p-值等于左右尾概率之和,即0.238§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗例6.3(數據:drug.txt)為檢測某種藥物對攻擊性情緒的影響,對處理組的100名服藥者和對照組的150名非服藥者進行心理測試,得到相應的某指標。要檢驗處理組指標的總體均值m1是否等于對照組指標的總體均值m2。相應的假設檢驗問題為:或§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗例39§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗通過計算,t統計量等于0.942,p-值為0.1735(輸出中的雙尾檢驗p-值的一半)。因此無法拒絕零假設,即不能得出處理組的平均指標大于對照組的結論。計算機輸出的相應表格(部分,刪除了置信區間部分)為:§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗通40§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗注意:這個輸出的前面三列用Levene的F-檢驗來看這兩個樣本所代表的總體之方差是否相等(零假設為相等)。第一行是該檢驗的零假設:兩個總體方差相等,而第二行為備選假設:兩個總體方差不等。如果該檢驗顯著,即在Sig列中的該Levene檢驗p-值很?。ㄟ@里是0.008),就應該看第二行備選假設的t檢驗輸出,這里是0.347;由于是單邊檢驗,p-值=0.347/2=0.1735;如果Levene檢驗的p-值較大(本例并不大),則看第一行原假設下的結果。之所以要檢驗總體方差,是因為總體方差相同時使用的檢驗統計量與方差不同時使用的不同。§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗注41§6.2.3成對樣本的問題例6.4減肥數據(diet.txt)。這里有50對數據。為50人是減肥前后的重量要比較50個人在減肥前后的重量。不能用前面的獨立樣本均值差的檢驗;這是因為兩個樣本并不獨立。每一個人減肥后的重量都和自己減肥前的重量有關。但不同人之間卻是獨立的。令所有個體減肥前后重量差(減肥前重量減去減肥后重量)的均值為mD;這樣所要進行的檢驗為§6.2.3成對樣本的問題例6.4減肥數據(diet.tx42§6.2.3成對樣本的問題我們可以把兩個樣本中配對的觀測值逐個相減,形成一個由獨立觀測值組成的樣本;然后用單樣本檢驗方法,看其均值是否為零。在相減之后公式和單樣本均值檢驗無異。當然,如果直接選用軟件中成對樣本均值的檢驗,就不用事先逐個相減了。這里也有單尾和雙尾檢驗。這里介紹的是假定總體分布為正態分布時的t檢驗??傮w分布未知時,應該利用第十六章的非參數檢驗方法?!?.2.3成對樣本的問題我們可以把兩個樣本中配對的觀測值43§6.2.3成對樣本的問題再接著看例6.4。計算機輸出了雙尾p-值0.002,這里的單尾p-值于是為0.001。因此在顯著性水平為0.001時,可以拒絕零假設。也就是說,減肥后和減肥前相比,平均重量顯著要輕。下面是這個檢驗的SPSS的部分計算機輸出為(刪去了置信區間):§6.2.3成對樣本的問題再接著看例6.4。計算機輸出了雙44§6.3對于比例的檢驗
§6.3.1對于離散變量總體比例的檢驗例6.5(two.txt)為評價電視的收視率,電話調查,在某一節目播出的時候,被訪的正在觀看電視的人中有23%的正在觀看這個節目。現在想知道,這是否和該節目的制作人所期望的p0=25%有顯著不足。這顯然是一個參數為p的二項分布問題。形式上的假設檢驗問題是§6.3對于比例的檢驗
§6.3.1對于離散變量總體比例45§6.3.1對于離散變量總體比例的檢驗如果n為訪問的正在看電視的人數,x為其中觀看該節目的人數,那么樣本中的觀看比例為檢驗統計量則是在零假設下當大樣本時近似有標準正態分布的統計量§6.3.1對于離散變量總體比例的檢驗如果n為訪問的正在看46§6.3.1對于離散變量總體比例的檢驗這個數值用手算也不費力氣。請注意,前面第五章提起過,即使被訪者的百分比一樣,但樣本少的信息就少。對于假設檢驗也是一樣。樣本量對于假設檢驗的結果就十分重要。對于本例,現在還未給出樣本量n呢!下面看看不同的樣本量會得到什么結果(假定x/n=0.23不變)§6.3.1對于離散變量總體比例的檢驗這個數值用手算也不費47§6.3.1對于離散變量總體比例的檢驗如樣本量為n=1500(和數據給的一樣),那么,上面的檢驗得到的p-值為0.0368。因此,可以認為(如果選顯著性水平為0.05的話)說收視率有25%是過分了。即拒絕零假設。如樣本量為n=100,那么,上面的檢驗得到的p-值為0.3221。因此,沒有足夠的理由拒絕收視率有25%的零假設(如果選顯著性水平為0.05的話)注意,利用軟件時,上面的p-值計算往往在公式中加上用連續變量近似離散變量分布時常用的連續性糾正,因此結果和用上面公式直接手算的稍有不同?!?.3.1對于離散變量總體比例的檢驗如樣本量為n=15048§6.3.1對于離散變量總體比例的檢驗下面是對于n=1500時,例6.5的SPSS輸出。這里正在觀看該節目的人數為n1=345,而1500人中觀看其他節目的人數為n2=1155。樣本中收視比例為n1/n=345/1500=0.23?!?.3.1對于離散變量總體比例的檢驗下面是對于n=15049§6.3.1對于離散變量總體比例的檢驗前面對總體比例的檢驗所用的公式利用了二項分布的大樣本正態近似;怎樣才是大樣本呢?這和第五章求比例的置信區間時大樣本的近似標準類似,即當區間完全包含在(0,1)區間內部時,可以認為樣本足夠大,能夠用正態近似?!?.3.1對于離散變量總體比例的檢驗前面對總體比例的檢驗50§6.3.1對于離散變量總體比例的檢驗對于兩個樣本,也有關于兩個總體比例之差p1-p2的檢驗。還拿收視率為例。節目甲的樣本收視率為20%,節目乙為21%,是不是節目甲的總體收視率就真的低于節目乙?即檢驗這里的零假設意味著節目甲和節目乙收視率相等?!?.3.1對于離散變量總體比例的檢驗對于兩個樣本,也有關51§6.3.1對于離散變量總體比例的檢驗假定n1=1200,n2=1300,檢驗統計量則是在零假設下當大樣本時有近似標準正態分布的統計量得到p-值等于0.2679。因此,在顯著性水平即使是0.1時,也沒有足夠證據可以拒絕“節目甲和節目乙收視率相等”的零假設?!?.3.1對于離散變量總體比例的檢驗假定n1=1200,52§6.3.2對于連續變量比例的檢驗有時需要檢驗收入低于某個水平的人占有的比例p是否和預期的p0一樣。和6.3.1節一樣,只要把大于某水平的觀測值看作Bernoulli試驗的“成功”,而把小于某水平的觀測值看成“失敗”,就回到二項分布的問題了。當然,用不著把這些連續變量的觀測值都變成“成功”和“失敗”之后,再數各有多少。統計軟件會替我們做所有的事情。下面通過一個例子來說明?!?.3.2對于連續變量比例的檢驗有時需要檢驗收入低于某個53§6.3.2對于連續變量比例的檢驗例6.6某微生物的壽命問題(數據life.txt)。這里有某微生物在一種污染環境下生存的壽命數據(單位:小時)§6.3.2對于連續變量比例的檢驗例6.6某微生物的壽命54§6.3.2對于連續變量比例的檢驗問題是存活時間低于2小時的是否少于70%(存活時間多于2小時的是否多于30%)?零假設為存活時間低于2小時的少于或等于70%,備選假設為存活時間低于2小時的多于70%。該檢驗用符號表示,對于p0=0.7,§6.3.2對于連續變量比例的檢驗問題是存活時間低于2小時55§6.3.2對于連續變量比例的檢驗由計算機很容易得到檢驗結果這說明,活不過2小時的有52個觀測值,所占的比例為90%。檢驗的精確p-值和大樣本近似的p-值均為0.002。因此,可以拒絕“存活時間低于2小時的少于70%”的零假設。§6.3.2對于連續變量比例的檢驗由計算機很容易得到檢驗結56§6.3.2對于連續變量比例的檢驗這個檢驗的假設還可以有另一種等價形式。前面第三、四章介紹過樣本和總體的a-分位數的概念。例6.6的檢驗問題等價于檢驗0.7分位數q是等于2(q0=2)還是小于2;即:該例的結論是實際存活時間的0.7分位數q小于2小時?!?.3.2對于連續變量比例的檢驗這個檢驗的假設還可以有另57§6.3.2對于連續變量比例的檢驗上面的檢驗又稱為(推廣的)符號檢驗(signtest)。它用不著對總體分布進行任何假定。而狹義的符號檢驗是指上面的p0=0.5或者(等價地)q0等于中位數的情況。通常把符號檢驗歸于非參數檢驗范疇(參見后面介紹非參數檢驗的一章)?!?.3.2對于連續變量比例的檢驗上面的檢驗又稱為(推廣的58§6.4從一個例子說明“接受零假設”的說法不妥雖然前面已經有了一些例子說明“接受零假設”說法的不妥,但還可能會有些人對于在檢驗結果不顯著時只能說“不能拒絕零假設”而不能說“接受零假設”感到不解。下面用一個個描述性例子來說明?!?.4從一個例子說明“接受零假設”的說法不妥雖然前面已經59§6.4從一個例子說明“接受零假設”的說法不妥例6.7(數據rice.txt)一個大米加工廠賣給一個超市一批標明10kg重的大米。而該超市懷疑該廠家缺斤短兩,對10包大米進行了稱重,得到下面結果(單位:千克)這里假定打包的大米重量服從正態分布?!?.4從一個例子說明“接受零假設”的說法不妥例6.7(60§6.4從一個例子說明“接受零假設”的說法不妥由于發生分歧,于是各方同意用這個數據進行關于大米重量均值m的t檢驗;以廠家所說的平均重量為10kg作為零假設,而以超市懷疑的份量不足10kg作為備選假設:于是,超市、加工廠老板和該老板的律師都進行了檢驗。結果是:§6.4從一個例子說明“接受零假設”的說法不妥由于發生分歧61§6.4從一個例子說明“接受零假設”的說法不妥1.超市用全部數據進行t檢驗,得到拒絕零假設的結論。他們根據計算得到:樣本均值為9.92kg,而p-值為0.0106。因此超市認為,對于顯著性水平a=0.05,應該拒絕零假設。§6.4從一個例子說明“接受零假設”的說法不妥1.超市用全62§6.4從一個例子說明“接受零假設”的說法不妥2.大米加工廠老板只用2個數據,得到“接受零假設”的結論。大米加工廠老板也懂些統計,他只取了上面樣本的頭兩個個數目9.93和9.83進行同樣的t檢驗。通過對這兩個數進行計算得到:樣本均值為9.88kg,而p-值為0.1257。雖然樣本均值不如超市檢驗的大,但p-值大大增加。加工廠老板于是下了結論:對于水平a=0.05,“接受零假設”,即加工廠的大米平均重量的確為10kg?!?.4從一個例子說明“接受零假設”的說法不妥2.大米加工63§6.4從一個例子說明“接受零假設”的說法不妥3.大米加工廠老板的律師用了全部數據,但不同的檢驗方法,得到“接受零假設”的結論。大米加工廠老板的律師說可以用全部數據。他利6.3.2節對于連續變量比例的檢驗,也就是關于中位數的符號檢驗(注意對于正態分布,對中位數的檢驗等價于對均值的檢驗)。根據計算,得到該檢驗的p-值為0.0547。所以這個律師說在顯著性水平a=0.05時,應該“接受零假設”。還說,“既然三個檢驗中有兩個都接受零假設,就應該接受。”§6.4從一個例子說明“接受零假設”的說法不妥3.大米加工64§6.4從一個例子說明“接受零假設”的說法不妥加工廠老板實際上減少了作為證據的數據,因此只能得到“證據不足,無法拒絕零假設”的結論。但加工廠老板利用一些錯誤的統計教科書的說法,把“證據不足以拒絕零假設”改成“接受零假設”了。而且,從樣本中僅選擇某些數目(等于銷毀證據)違背統計道德。§6.4從一個例子說明“接受零假設”的說法不妥加工廠老板實65§6.4從一個例子說明“接受零假設”的說法不妥律師雖然用了全部數據,但用了不同的方法。他也只能夠說“在這個檢驗方法下,證據不足以拒絕零假設”而不能說“接受零假設”。另外,律師對超市用更有效的檢驗方法得到的“拒絕零假設”的結論視而不見,這也違背了統計原理。其實,對于同一個檢驗問題,可能有多種檢驗方法。但只要有一個拒絕,就可以拒絕。那些不能拒絕的檢驗方法是能力不足。用統計術語來說,該拒絕而不能拒絕的檢驗方法是勢(power)不足,或者效率(efficiency)低。§6.4從一個例子說明“接受零假設”的說法不妥律師雖然用了66§6.4從一個例子說明“接受零假設”的說法不妥該例說明了幾個問題:在已經得到樣本的情況下,隨意舍取一些數目是違背統計原理和統計道德的。這相當于篡改或銷毀證據。由于證據不足而不能拒絕零假設絕對不能說成“接受零假設”。如果一定要說,請給出你接受零假設所可能犯第二類錯誤的概率(這是無法算出的)。這是加工廠老板和律師所犯的錯誤?!?.4從一個例子說明“接受零假設”的說法不妥該例說明了幾67§6.4從一個例子說明“接受零假設”的說法不妥例中律師的檢驗和超市所做的檢驗都針對同樣的檢驗問題,但由于超市的檢驗方法比律師的檢驗更強大(或更強勢,morepowerful,更有效率,moreefficient),所以超市拒絕了零假設,而律師的檢驗則不能拒絕。如果有針對同一檢驗問題的許多檢驗方法,那么,只要有一個拒絕,就必須拒絕。絕對不能“少數服從多數”,也不能“視而不見”。§6.4從一個例子說明“接受零假設”的說法不妥例中律師的檢68統計學─從數據到結論統計學─從數據到結論69第六章總體參數的假設檢驗第六章總體參數的假設檢驗70如果一個人說他從來沒有罵過人。他能夠證明嗎?要證明他沒有罵過人,他必須出示他從小到大每一時刻的錄音錄像,所有書寫的東西等等,還要證明這些物證是完全的、真實的、沒有間斷的。這簡直是不可能的。即使他找到一些證人,比如他的同學、家人和同事,那也只能夠證明在那些證人在場的某些片刻,他沒有被聽到罵人。如果一個人說他從來沒有罵過人。他能夠證明嗎?71反過來,如果要證明這個人罵過人很容易,只要有一次被抓住就足夠了??磥?,企圖肯定什么事物很難,而否定卻要相對容易得多。這就是假設檢驗背后的哲學。科學總往往是在否定中發展反過來,如果要證明這個人罵過人很容易,只要有一次被抓住就足夠72在假設檢驗中,一般要設立一個原假設(上面的“從來沒罵過人”就是一個例子);而設立該假設的動機主要是企圖利用人們掌握的反映現實世界的數據來找出假設與現實之間的矛盾,從而否定這個假設。在假設檢驗中,一般要設立一個原假設(上面的“從來沒罵過人”就73在多數統計教科書中(除理論探討外)假設檢驗都是以否定原假設為目標。如否定不了,說明證據不足,無法否定原假設。但不能說明原假設正確。就像一兩次沒有聽過他罵人還遠不能證明他從來沒有罵過人。在多數統計教科書中(除理論探討外)假設檢驗都是以否定原假設為74§6.1假設檢驗的過程和邏輯先要提出個原假設,比如某正態總體的均值等于5(m=5)。這種原假設也稱為零假設(nullhypothesis),記為H0。與此同時必須提出備選假設(或稱為備擇假設,alternativehypothesis),比如總體均值大于5(m>5)。備選假設記為H1或Ha。形式上,這個關于總體均值的H0相對于H1的檢驗記為§6.1假設檢驗的過程和邏輯先要提出個原假設,比如某正態總75§6.1假設檢驗的過程和邏輯備選假設應該按照實際世界所代表的方向來確定,即它通常是被認為可能比零假設更符合數據所代表的現實。比如上面的H1為m>5;這意味著,至少樣本均值應該大于5;至于是否顯著,依檢驗結果而定。檢驗結果顯著(significant)意味著有理由拒絕零假設。因此,假設檢驗也被稱為顯著性檢驗(significanttest)?!?.1假設檢驗的過程和邏輯備選假設應該按照實際世界所代表76§6.1假設檢驗的過程和邏輯有了兩個假設,就要根據數據來對它們進行判斷。數據的代表是作為其函數的統計量;它在檢驗中被稱為檢驗統計量(teststatistic)。根據零假設(不是備選假設?。?,可得到該檢驗統計量的分布;再看這個統計量的數據實現值(realization)屬不屬于小概率事件?!?.1假設檢驗的過程和邏輯有了兩個假設,就要根據數據來對77§6.1假設檢驗的過程和邏輯也就是說把數據代入檢驗統計量,看其值是否落入零假設下的小概率范疇;如果的確是小概率事件,那么就有可能拒絕零假設,或者說“該檢驗顯著,”否則說“沒有足夠證據拒絕零假設”,或者“該檢驗不顯著?!薄?.1假設檢驗的過程和邏輯也就是說把數據代入檢驗統計量,78§6.1假設檢驗的過程和邏輯注意:在我們所涉及的問題中,零假設和備選假設在假設檢驗中并不對稱。因檢驗統計量的分布是從零假設導出的,因此,如果發生矛盾,就對零假設不利了。不發生矛盾也不能說明零假設沒有問題?!?.1假設檢驗的過程和邏輯注意:在我們所涉及的問題中,零79§6.1假設檢驗的過程和邏輯在零假設下,檢驗統計量取其實現值及(沿著備選假設的方向)更加極端值的概率稱為p-值(p-value)。如果得到很小的p-值,就意味著在零假設下小概率事件發生了。如果小概率事件發生,是相信零假設,還是相信數據呢?當然多半是相信數據,拒絕零假設。§6.1假設檢驗的過程和邏輯在零假設下,檢驗統計量取其實現80§6.1假設檢驗的過程和邏輯但小概率并不能說明不會發生,僅僅發生的概率很小罷了。拒絕正確零假設的錯誤常被稱為第一類錯誤(typeIerror)。在備選假設正確時反而說零假設正確的錯誤,稱為第二類錯誤(typeIIerror)。在本書的假設檢驗問題中,由于備選假設不是一個點,所以無法算出犯第二類錯誤的概率?!?.1假設檢驗的過程和邏輯但小概率并不能說明不會發生,僅81§6.1假設檢驗的過程和邏輯零假設和備選假設哪一個正確,是確定性的,沒有概率可言。而可能犯錯誤的是人。涉及假設檢驗的犯錯誤的概率就是犯第一類錯誤的概率和犯第二類錯誤的概率。負責任的態度是無論做出什么決策,都應該給出該決策可能犯錯誤的概率?!?.1假設檢驗的過程和邏輯零假設和備選假設哪一個正確,是82§6.1假設檢驗的過程和邏輯到底p-值是多小時才能夠拒絕零假設呢?也就是說,需要有什么是小概率的標準。這要看具體應用的需要。但在一般的統計書和軟件中,使用最多的標準是在零假設下(或零假設正確時)根據樣本所得的數據來拒絕零假設的概率應小于0.05,當然也可能是0.01,0.005,0.001等等。這種事先規定的概率稱為顯著性水平(significantlevel),用字母a來表示?!?.1假設檢驗的過程和邏輯到底p-值是多小時才能夠拒絕零83§6.1假設檢驗的過程和邏輯a并不一定越小越好,因為這很可能導致不容易拒絕零假設,使得犯第二類錯誤的概率增大。當p-值小于或等于a時,就拒絕零假設。所以,a是所允許的犯第一類錯誤概率的最大值。當p-值小于或等于a時,就說這個檢驗是顯著的。無論統計學家用多大的a作為顯著性水平都不能脫離實際問題的背景。統計顯著不一定等價于實際顯著。反過來也一樣。§6.1假設檢驗的過程和邏輯a并不一定越小越好,因為這很可84§6.1假設檢驗的過程和邏輯歸納起來,假設檢驗的邏輯步驟為:1.寫出零假設和備選假設;2.確定檢驗統計量;3.確定顯著性水平a;4.根據數據計算檢驗統計量的實現值;5.根據這個實現值計算p-值;6.進行判斷:如果p-值小于或等于a,就拒絕零假設,這時犯(第一類)錯誤的概率最多為a;如果p-值大于a,就不拒絕零假設,因為證據不足?!?.1假設檢驗的過程和邏輯歸納起來,假設檢驗的邏輯步驟為85§6.1假設檢驗的過程和邏輯實際上,多數計算機軟件僅僅給出p-值,而不給出a。這有很多方便之處。比如a=0.05,而假定所得到的p-值等于0.001。這時如果采用p-值作為新的顯著性水平,即新的a=0.001,于是就可以說,在顯著性水平為0.001時,拒絕零假設。這樣,拒絕零假設時犯錯誤的概率實際只是千分之一而不是舊的a所表明的百分之五。在這個意義上,p-值又稱為觀測的顯著性水平(observedsignificantlevel)?!?.1假設檢驗的過程和邏輯實際上,多數計算機軟件僅僅給出86§6.1假設檢驗的過程和邏輯在統計軟件輸出p-值的位置,有的用“p-value”,有的用significant的縮寫“Sig”就是這個道理。根據數據產生的p-值來減少a的值以展示結果的精確性總是沒有害處的。這好比一個身高180厘米的男生,可能愿意被認為高于或等于180厘米,而不愿意說他高于或等于155厘米,雖然這第二種說法數學上沒有絲毫錯誤。§6.1假設檢驗的過程和邏輯在統計軟件輸出p-值的位置,有87§6.1假設檢驗的過程和邏輯關于“臨界值”的注:作為概率的顯著性水平a實際上相應于一個檢驗統計量取值范圍的一個臨界值(criticalvalue),它定義為,統計量取該值或更極端的值的概率等于a。也就是說,“統計量的實現值比臨界值更極端”等價于“p-值小于a”。使用臨界值的概念進行的檢驗不計算p-值。只比較統計量的取值和臨界值的大小?!?.1假設檢驗的過程和邏輯關于“臨界值”的注:作為概率的88§6.1假設檢驗的過程和邏輯使用臨界值而不是p-值來判斷拒絕與否是前計算機時代的產物。當時計算p-值不易,只采用臨界值的概念。但從給定的a求臨界值同樣也不容易,好在習慣上僅僅在教科書中列出相應于特定分布的幾個有限的a臨界值(比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001等等),或者根據分布表反過來查臨界值(很不方便也很粗糙)?,F在計算機軟件大都不給出a和臨界值,但都給出p-值和統計量的實現值,讓用戶自己決定顯著性水平是多少?!?.1假設檢驗的過程和邏輯使用臨界值而不是p-值來判斷拒89§6.1假設檢驗的過程和邏輯在一些統計教科書中會有不能拒絕零假設就“接受零假設”的說法。這種說法是不嚴格的。首先,如果你說“接受零假設”,那么就應該負責任地提供接受零假設時可能犯第二類錯誤的概率。這就要算出在備選假設正確的情況下錯誤接受零假設的概率。但是,這只有在備選假設僅僅是一個與零假設不同的確定值(而不是范圍)時才有可能。多數基本統計教科書的備選假設是一個范圍而根本無法確定犯第二類錯誤的概率?!?.1假設檢驗的過程和邏輯在一些統計教科書中會有不能拒絕90§6.1假設檢驗的過程和邏輯在許多統計教科書中,往往把一系列不能拒絕零假設的檢驗當成接受這些假設的通行證。比如不能拒絕某樣本的正態性就變成了證明了該樣本是正態的等等。不能拒絕這些零假設,僅僅說明根據所使用的檢驗方法(或檢驗統計量)和當前的數據沒有足夠證據拒絕這些假設而已。§6.1假設檢驗的過程和邏輯在許多統計教科書中,往往把一系91§6.1假設檢驗的過程和邏輯對于同一個假設檢驗問題,往往都有多個檢驗統計量;而且人們還在構造更優良的檢驗統計量。人們不可能把所有的目前存在的和將來可能存在的檢驗都實施。因此,只能夠說,按照目前的證據,不足以拒絕零假設而已。后面將會用例子說明“接受零假設”的說法是不妥當的?!?.1假設檢驗的過程和邏輯對于同一個假設檢驗問題,往往都92§6.2對于正態總體均值的檢驗
§6.2.1根據一個樣本對其總體均值大小進行檢驗例6.1一個顧客買了一包標有500g重的一包紅糖,覺得份量不足,于是找到監督部門;當然他們會覺得一包份量不夠可能是隨機的。于是監督部門就去商店稱了50包紅糖(數據在sugar.txt);其中均值(平均重量)是498.35g;這的確比500g少,但這是否能夠說明廠家生產的這批紅糖平均起來不夠份量呢?于是需要統計檢驗??梢援嫵鲞@些重量的直方圖§6.2對于正態總體均值的檢驗
§6.2.1根據一個樣本9350包紅糖重量的直方圖
50包紅糖重量的直方圖94§6.2.1根據一個樣本對其總體均值大小進行檢驗這個直方圖看上去象是正態分布的樣本。不妨假定這一批袋裝紅糖有正態分布。由于廠家聲稱每袋500g(標明重量),因此零假設為總體均值等于500g(被懷疑對象總是放在零假設);而且由于樣本均值少于500g(這是懷疑的根據),把備選假設定為總體均值少于500g(備選假設為單向不等式的檢驗稱為單尾檢驗,為不等號“≠”的稱為雙尾檢驗)§6.2.1根據一個樣本對其總體均值大小進行檢驗這個直方圖95§6.2.1根據一個樣本對其總體均值大小進行檢驗檢驗統計量就是第四章引進的作為對均值的某種標準化的符號中的m0通常表示為零假設中的均值(這里是500)。在零假設之下,它有自由度為n-1=49的t分布。當然實際上不必代入這個公式去手工計算了,讓計算機去代勞好了?!?.2.1根據一個樣本對其總體均值大小進行檢驗檢驗統計量96§6.2.1根據一個樣本對其總體均值大小進行檢驗計算結果是t=-2.696(也稱為t值),同時得到p-值為0.005(由于計算機輸出的為雙尾檢驗的p-值,比單尾的大一倍,應該除以2)??磥砜梢赃x擇顯著性水平為0.005,并宣稱拒絕零假設,而錯誤拒絕的概率為0.005?!?.2.1根據一個樣本對其總體均值大小進行檢驗計算結果是97統計量t=-2.696相應于左邊尾概率(p-值)0.005統計量t=-2.696相應于左邊尾概率(p-值)0.00598§6.2.1根據一個樣本對其總體均值大小進行檢驗上面例子的備選假設為小于(“<”)某個值。同樣也可能有備選假設為均值大于(“>”)某個值的情況。取備選假設為均值大于或小于某個值的檢驗稱為單尾檢驗(one-tailedtest,也稱為單側檢驗或單邊檢驗)。下面舉一個選假設為均值大于(“>”)某個值的例子?!?.2.1根據一個樣本對其總體均值大小進行檢驗上面例子的99§6.2.1根據一個樣本對其總體均值大小進行檢驗例6.2(exh.txt)汽車廠商聲稱其發動機排放標準的一個指標平均低于20個單位。在抽查了10臺發動機之后,得到下面的排放數據:17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。該樣本均值為21.13。究竟能否由此認為該指標均值超過20?這次的假設檢驗問題就是§6.2.1根據一個樣本對其總體均值大小進行檢驗例6.2(100§6.2.1根據一個樣本對其總體均值大小進行檢驗和前面的例子的方法類似,可以發現p-值為0.1243(計算機輸出的雙尾檢驗的p-值除以2),因此,沒有證據否定零假設。這時的檢驗統計量t=1.2336。也可以畫出類似于圖6.2的圖(圖6.3)這時的t分布的自由度為9。下面是結果的計算機輸出:§6.2.1根據一個樣本對其總體均值大小進行檢驗和前面的例101統計量t=1.2336相應于右邊尾概率(p-值)0.1243統計量t=1.2336相應于右邊尾概率(p-值)0.1243102§6.2.1根據一個樣本對其總體均值大小進行檢驗注意:在假設檢驗中往往也用帶等號的不等式來表示零假設,比如上述的檢驗記為但這里用于計算p-值的零假設還是m=20;但如果能夠拒絕零假設m=20,那么對于任何m小于20的零假設就更有理由拒絕了。這和以拒絕零假設為初衷的假設檢驗思維方式是一致的?!?.2.1根據一個樣本對其總體均值大小進行檢驗注意:在假103§6.2.1根據一個樣本對其總體均值大小進行檢驗還有所謂的雙尾檢驗(twotailedtest,也稱為雙側檢驗或雙邊檢驗)問題,即在這種情況下,尾概率不僅是左邊或右邊的一個尾概率,而是兩邊尾概率之和。因此如果是一個單尾檢驗問題,用了雙尾檢驗的模式,p-值就比用單尾檢驗時大了一倍。§6.2.1根據一個樣本對其總體均值大小進行檢驗還有所謂的104§6.2.1根據一個樣本對其總體均值大小進行檢驗如果上面發動機排放指標例子的檢驗問題改為是否該發動機的排放指標均值等于20。即這時t統計量還是取原來的值1.2336,但p-值為0.1243×2=0.2486。圖6.3就變成圖6.4的樣子§6.2.1根據一個樣本對其總體均值大小進行檢驗如果上面發105統計量t=1.2336,而p-值等于左右尾概率之和,即0.2486統計量t=1.2336,而p-值等于左右尾概率之和,即0.2106§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗例6.3(數據:drug.txt)為檢測某種藥物對攻擊性情緒的影響,對處理組的100名服藥者和對照組的150名非服藥者進行心理測試,得到相應的某指標。要檢驗處理組指標的總體均值m1是否等于對照組指標的總體均值m2。相應的假設檢驗問題為:或§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗例107§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗通過計算,t統計量等于0.942,p-值為0.1735(輸出中的雙尾檢驗p-值的一半)。因此無法拒絕零假設,即不能得出處理組的平均指標大于對照組的結論。計算機輸出的相應表格(部分,刪除了置信區間部分)為:§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗通108§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗注意:這個輸出的前面三列用Levene的F-檢驗來看這兩個樣本所代表的總體之方差是否相等(零假設為相等)。第一行是該檢驗的零假設:兩個總體方差相等,而第二行為備選假設:兩個總體方差不等。如果該檢驗顯著,即在Sig列中的該Levene檢驗p-值很小(這里是0.008),就應該看第二行備選假設的t檢驗輸出,這里是0.347;由于是單邊檢驗,p-值=0.347/2=0.1735;如果Levene檢驗的p-值較大(本例并不大),則看第一行原假設下的結果。之所以要檢驗總體方差,是因為總體方差相同時使用的檢驗統計量與方差不同時使用的不同。§6.2.2根據來自兩個總體的獨立樣本對其總體均值的檢驗注109§6.2.3成對樣本的問題例6.4減肥數據(diet.txt)。這里有50對數據。為50人是減肥前后的重量要比較50個人在減肥前后的重量。不能用前面的獨立樣本均值差的檢驗;這是因為兩個樣本并不獨立。每一個人減肥后的重量都和自己減肥前的重量有關。但不同人之間卻是獨立的。令所有個體減肥前后重量差(減肥前重量減去減肥后重量)的均值為mD;這樣所要進行的檢驗為§6.2.3成對樣本的問題例6.4減肥數據(diet.tx110§6.2.3成對樣本的問題我們可以把兩個樣本中配對的觀測值逐個相減,形成一個由獨立觀測值組成的樣本;然后用單樣本檢驗方法,看其均值是否為零。在相減之后公式和單樣本均值檢驗無異。當然,如果直接選用軟件中成對樣本均值的檢驗,就不用事先逐個相減了。這里也有單尾和雙尾檢驗。這里介紹的是假定總體分布為正態分布時的t檢驗??傮w分布未知時,應該利用第十六章的非參數檢驗方法?!?.2.3成對樣本的問題我們可以把兩個樣本中配對的觀測值111§6.2.3成對樣本的問題再接著看例6.4。計算機輸出了雙尾p-值0.002,這里的單尾p-值于是為0.001。因此在顯著性水平為0.001時,可以拒絕零假設。也就是說,減肥后和減肥前相比,平均重量顯著要輕。下面是這個檢驗的SPSS的部分計算機輸出為(刪去了置信區間):§6.2.3成對樣本的問題再接著看例6.4。計算機輸出了雙112§6.3對于比例的檢驗
§6.3.1對于離散變量總體比例的檢驗例6.5(two.txt)為評價電視的收視率,電話調查,在某一節目播出的時候,被訪的正在觀看電視的人中有23%的正在觀看這個節目?,F在想知道,這是否和該節目的制作人所期望的p0=25%有顯著不足。這顯然是一個參數為p的二項分布問題。形式上的假設檢驗問題是§6.3對于比例的檢驗
§6.3.1對于離散變量總體比例113§6.3.1對于離散變量總體比例的檢驗如果n為訪問的正在看電視的人數,x為其中觀看該節目的人數,那么樣本中的觀看比例為檢驗統計量則是在零假設下當大樣本時近似有標準正態分布的統計量§6.3.1對于離散變量總體比例的檢驗如果n為訪問的正在看114§6.3.1對于離散變量總體比例的檢驗這個數值用手算也不費力氣。請注意,前面第五章提起過,即使被訪者的百分比一樣,但樣本少的信息就少。對于假設檢驗也是一樣。樣本量對于假設檢驗的結果就十分重要。對于本例,現在還未給出樣本量n呢!下面看看不同的樣本量會得到什么結果(假定x/n=0.23不變)§6.3.1對于離散變量總體比例的檢驗這個數值用手算也不費115§6.3.1對于離散變量總體比例的檢驗如樣本量為n=1500(和數據給的一樣),那么,上面的檢驗得到的p-值為0.0368。因此,可以認為(如果選顯著性水平為0.05的話)說收視率有25%是過分了。即拒絕零假設。如樣本量為n=100,那么,上面的檢驗得到的p-值為0.3221。因此,沒有足夠的理由拒絕收視率有25%的零假設(如果選顯著性水平為0.05的話)注意,利用軟件時,上面的p-值計算往往在公式中加上用連續變量近似離散變量分布時常用的連續性糾正,因此結果和用上面公式直接手算的稍有不同。§6.3.1對于離散變量總體比例的檢驗如樣本量為n=150116§6.3.1對于離散變量總體比例的檢驗下面是對于n=1500時,例6.5的SPSS輸出。這里正在觀看該節目的人數為n1=345,而1500人中觀看其他節目的人數為n2=1155。樣本中收視比例為n1/n=345/1500=0.23?!?.3.1對于離散變量總體比例的檢驗下面是對于n=150117§6.3.1對于離散變量總體比例的檢驗前面對總體比例的檢驗所用的公式利用了二項分布的大樣本正態近似;怎樣才是大樣本呢?這和第五章求比例的置信區間時大樣本的近似標準類似,即當區間完全包含在(0,1)區間內部時,可以認為樣本足夠大,能夠用正態近似?!?.3.1對于離散變量總體比例的檢驗前面對總體比例的檢驗118§6.3.1對于離散變量總體比例的檢驗對于兩個樣本,也有關于兩個總體比例之差p1-p2的檢驗。還拿收視率為例。節目甲的樣本收視率為20%,節目乙為21%,是不是節目甲的總體收視率就真的低于節目乙?即檢驗這里的零假設意味著節目甲和節目乙收視率相等。§6.3.1對于離散變量總體比例的檢驗對于兩個樣本,也有關119§6.3.1對于離散變量總體比例的檢驗假定n1=1200,n2=1300,檢驗統計量則是在零假設下當大樣本時有近似標準正態分布的統計量得到p-值等于0.2679。因此,在顯著性水平即使是0.1時,也沒有足夠證據可以拒絕“節目甲和節目乙收視率相等”的零假設?!?.3.1對于離散變量總體比例的檢驗假定n1=1200,120§6.3.2對于連續變量比例的檢驗有時需要檢驗收入低于某個水平的人占有的比例p是否和預期的p0一樣。和6.3.1節一樣,只要把大于某水平的觀測值看作Bernoulli試驗的“成功”,而把小于某水平的觀測值看成“失敗”,就回到二項分布的問題了。當然,用不著把這些連續變量的觀測值都變成“成功”和“失敗”之后,再數各有多少。統計軟件會替我們做所有的事情。下面通過一個例子來說明?!?.3.2對于連續變量比例的檢驗有時需要檢驗收入低于某個121§6.3.2對于連續變量比例的檢驗例6.6某微生物的壽命問題(數據life.txt)。這里有某微生物在一種污染環境下生存的壽命數據(單位:小時)§6.3.2對于連續變量比例的檢驗例6.6某微生物的壽命122§6.3.2對于連續變量比例的檢驗問題是存活時間低于2小時的是否少于70%(存活時間多于2小時的是否多于30%)?零假設為存活時間低于2小時的少于或等于70%,備選假設為存活時間低于2小時的多于70%。該檢驗用符號表示,對于p0=0.7,§6.3.2對于連續變量比例的檢驗問題是存活時間低于2小時123§6.3.2對于連續變量比例的檢驗由計算機很容易得到檢驗結果這說明,活不過2小時的有52個觀測值,所占的比例為90%。檢驗的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論