檢驗與方差分析_第1頁
檢驗與方差分析_第2頁
檢驗與方差分析_第3頁
檢驗與方差分析_第4頁
檢驗與方差分析_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 第十三章 檢驗與方差分析我們前面已經比較系統地討論了雙樣本的參數和非參數檢驗的問題。現在,我們希望利用一般的方法來檢驗三個以上樣本的差異,檢驗法和方差分析法就是解決這方面問題的。檢驗法可以對擬合優度和獨立性等進行檢驗,方差分析法則可以對多個總體均值是否相等進行檢驗。后者由于通過各組樣本資料之間的方差和組內方差的比較來建立服從F分布的檢驗統計量,所以又稱F檢驗。 第一節 擬合優度檢驗 1問題的導出 第十一章最后一節,我們將累計頻數檢驗用于經驗分布與理論分布的比較,實際已經提供了擬合優度檢驗的一種方法。擬合優度檢驗與累計頻數擬合優度檢驗相對應,在評估從經驗上得到的頻數和在一組特定的理論假設下期望

2、得到的頻數之間是否存在顯著差異時,是一種更普遍的檢驗方法。 2擬合優度檢驗(比率擬合檢驗)據經驗分布來檢驗總體分布等于理論分布的零假設,檢驗統計量是 理論證明,當n足夠大時,該統計量服從分布。因此對給定的顯著性水平,將臨界值與比較,可以就Ho作出檢驗結論。對于擬合優度檢驗,在試驗規模小時,否定零假設的意義大,接受零假設的意義不大;若試驗規模大時,則接受零假設的意義大,否定零假設的意義不大。 3正態擬合檢驗第二節 無關聯性檢驗 檢驗的另一個重要應用是對交互分類資料的獨立性檢驗,即列聯表檢驗。由于列聯表一般是按品質標志把兩個變量的頻數進行交互分類的,所以,檢驗法用于對交互分類資料的獨立性檢驗,有其

3、它方法無法比擬的優點;如何求得列聯表中的理論頻數就成了獨立性檢驗的關鍵。 1獨立性、理論頻數及自由度檢驗統計量 進一步上式可變為 n 在使用檢驗法進行列聯表檢驗之前,還必須確定與這個檢驗統計量相聯系的自由度,即 (r×c-1)-(r-1)-(c-1)(c-1)(r-1)。 2關于頻數比較和連續性修正用卡方作為列聯表的統計量,有兩點我們應該特別注意。首先,列聯表檢驗是通過頻數而不是通過相對頻數的比較進行的。其次,使用卡方對列聯表進行檢驗每一格理論頻數必須保持在一定數目之上。 3列聯表的卡方分解 若一個復雜的列聯表具有顯著性,有時需要檢查子表以確定表格的那一部分卡方影響最大。一種可行的簡

4、便方法就是考察每一格的殘差,其公式為 根據計算結果可以知道哪一個殘差對卡方影響大。另一種方法是利用卡方分布的可加性,把r×c表的總體卡方分解為若干獨立部分。 4關系強度的量度 到目前為止,本節一直在討論列聯表變量間是否存在關系。其方法是建立變量間無關系的零假設,然后再試圖否定它。然而,對變量間是否存在關系的討論,必然引出對變量間關系強弱的討論。在樣本小的時候,獲得顯著性即表明變量間有強關系。對大樣本來說,更重要的問題是:“如果變量間存在關系,其強度有多大?”現在由于PRE準則,許多不同測量層次的變量已經可以統一起來進行關聯強度的討論了。第三節 方差分析方差分析,是一種很重要的分析方法

5、,它可以檢驗兩個以上樣本均值之差。方差分析是均值差檢驗的推廣,一般用于處理自變量是一個(或多個)定類變量和因變量是一個定距變量之間的關系。方差分析所包含的假定與均值差檢驗所包含的假定差不多,例如正態分布、獨立隨機樣本、等方差性等,但檢驗本身卻很不相同。方差分析直接涉及的是方差而不是均值和標準差。同時,比較也不取兩種估計量之差,而是取兩種估計量的比率。在兩種估計量彼此獨立的前提下,兩種估計量之比率F具有已知的抽樣分布,因而可進行很簡單的檢驗。 1總變差及其分解第十二章已經引入了變差的概念。但在方差分析中,由于自變量都是定類變量,我們不能像回歸分析那樣找出自變量和因變量的線性或非線性關系,即不能確

6、定自變量X取不同值時因變量Y的擬合值Yc,而只能研究自變量X取不同類別時,因變量Y的均值是否有所不同。但是在三種變差的討論中,和Yc的地位是一樣的。所以,有了上一章的知識,方差分析的方法是不難掌握的。 首先我們看總變差。總變差這個概念不同于方差,在方差分析中記作SST,它表示對于總均值的偏差之平方和,即 SST 為什么會形成總變差這個散布度呢?顯然有兩個原因:一是三個樣本可能不同,這使全部數據有三個“中心”;二是隨機抽樣誤差的影響,使數據在每個中心附近有散布。這樣,將總變差分解成兩部分。第一部分是各觀測值對其所屬類別均值的偏差的平方和,稱為組內變差,記作SSW。組內變差反映了數據圍繞各“中心”

7、的散布程度,即反映了因隨機波動所產生的變異,與自變量因素無關。換言之,SSW是自變量因素所沒有解釋的的變異。因此,又稱之為殘差。第二部分是組間平方和,記作SSB ,它涉及到諸類別均值對總均值的偏差,反映數據在c個“中心” 附近的散布程度。2關于自由度 弄清了組間變差和組內變差,檢驗零假設(H0:12c)的思路也就梳理出來了:關鍵是比較兩種變差是否有顯著差異。但在統計學上,方差分析不取兩者之差而取兩者之比來進行這種比較。而且,方差分析不是直接用SSB/SSW作為檢驗統計量,而是用(可以解釋的方差)/(不能解釋的方差)作為檢驗統計量,即 在統計學上,變差除以自由度即可“規格化”成方差。總自由度組內

8、自由度 + 組間自由度,即nl (nc)+(c1)。這樣一來,在零假設(H0:12c)之下,檢驗統計量Fo的計算公式就找到了 Fo 3關于檢驗統計量Fo的計算 總平方和(SST) 組間平方和(SSB) 組內平方和(SSW)總平方和(SST)組間平方和(SSB) 注意,由于總變差等于另兩個變差之和,所以三個變差中僅需求出兩個變差。求出組內平方和比求另兩個平方和繁瑣得多,故通常我們都是從總平方和減去組間平方和來求組內平方和的。 檢驗統計量 Fo 4相關比率 當方差分析的檢驗呈顯著性后,進一步討論兩變量間的相關程度是很自然的。方差分析中相關程度的測定仍采用PRE法。 PRE 正是因為上式,我們把SS

9、B稱為已解釋的變差。顯然,已解釋的變差越大,預測Y所減少的誤差就越多,X與Y之間的關系就越密切。據此,方差分析中把已解釋的變差對總變差的比值稱為相關比率,用符號表示 1 可用于一個定類變量與一個定距變量的相關程度的測定,當然也可以用于定序定距變量或定距定距變量的相關程度的測定。 相關比率研究的是定類定距變量之間的相關程度。由于定類變量不具有數量大小的問題,不存在關系是否線性的問題。因此,當被用于研究定距定距變量之間的關系時,不僅可以作為線性相關的量度,也可以作為非線性相關的量度。這意味著,對線性相關,相關比率與r2(積差系數之平方)有相同的PRE性質;但如果對非線性相關,用積差系數r來討論就不

10、行了。對于定距定距變量,曲線相關既然要用R來測量,那么反過來,同一資料通過相關指數R與積差系數r計算的比較,可以判斷確定兩定距變量的關系是不是直線。如果同時求出r與R,r等于或略大于R,可說明兩變量關系是直線的,用r去測量是合適的;如果rR,則說明兩變量關系可能是曲線的。 5關于方差分析的幾點討論 鑒于方差分析的重要性,我們有必要對它進行某些深入討論:(1)MSB和MSW可以分別稱為組間方差和組內方差,其中(在等方差的假設下)組內方差總是2的無偏估計;而組間方差,只有當諸總體(即各樣本所代表的子總體)均值實際上相等時,它才是2的無偏估計。(2)方差分析的優點在于,一個檢驗可以代替多個檢驗。(3

11、)方差分析中的自變量X如果是二分變量,也可以采用均值差t檢驗。(1)如果對因變量Y影響的自變量由一個變為兩個以上,我們就將面對多元方差分析了。總變差分解的思想可以直接推廣至多因素顯著性檢驗。 第四節 回歸方程與相關系數的檢驗 1回歸系數的檢驗 檢驗兩個總體變量(定距定距變量)是否具有線性關系,主要是檢驗總體的回歸系數B是否等于零。在H0成立的條件下,檢驗回歸直線的統計量可構造為 Fo F(1,n2) 對選定顯著性水平,可查表得臨界值F。若出現FoF(1,n2)的情況,則拒絕H0,即認為回歸方程中X變量對Y的解釋力是顯著的;若出現FoF(1,n2)的情況,則不能拒絕H0,即認為回歸方程中X變量對

12、Y沒有的顯著的解釋力。 2積差系數的檢驗 在社會研究中,要想確切了解兩總體變量 (定距定距變量)間的積差系數是很困難的。所以,通常需要通過樣本積差系數的統計檢驗來認識總體的積差系數 。設有兩變量X和Y,它們的積差系數記為。當0時,表示X和Y不具有線性相關關系,當0時,表示X和Y具有線性相關關系。統計理論證明,樣本積差系數r是總體積差系數的一個無偏估計量,有=,=而且當0時,樣本容量越大,r(顯然為一隨機變量)的抽樣分布越接近于自由度為n2的t分布(見圖13.1)。因而有檢驗統計量 tor t(n2) 3回歸方程的區間估計對于定距定距變量計算積差系數r時,要求相關的兩個變量均為隨機變量。回歸分析

13、則不同,因為回歸方程旨在披露X和Y之間的因果聯系,所以自變量X是給定的,只有因變量Y才是隨機的。這樣一來,就回歸線來說,Y值在每個估計值Yc兩側都有個隨機分布。而且,Yc對Y的代表性越高,Y值在回歸線兩側分布得就越集中;Yc對Y的代表性越差,Y值在回歸線兩側分布得就越分散。根據第九章的知識,當知道Y和X有關系后,用Yc來估計Y固然可以消減不少估計誤差,這也不過是點估計。而如果我們能在擬合值Yc上下設置一個合適區間,那么Y被估計到的可能性便會大大增加。這樣一來,回歸方程區間估計的問題便提出來了。當然,在回歸線兩側設置一個估計區間總是容易做到的,但問題是我們需要對估計的信度和效度作通盤考慮。為此,我們必須了解Y在Yc兩側的分布特征以及Y在Yc兩側的分散程度。所幸的是,由于誤差為正態分布的原理(即中心極限定理),當樣本容量n大于30時,我們可以作如下假定:(1) Y的實際觀測值在對應的每個估計值Yc周圍都是正態分布。越靠近Yc的地方,Y值出現的機會越多;反之出現的機會越少;(2)所有正態分布都具有相同的標準差,即所謂的同方差性。于是,除了重溫過去的知識,只有一個具體問題要解決:為了測定回歸線的代表性,有必要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論