第十一章-方差分析與試驗設計-課件_第1頁
第十一章-方差分析與試驗設計-課件_第2頁
第十一章-方差分析與試驗設計-課件_第3頁
第十一章-方差分析與試驗設計-課件_第4頁
第十一章-方差分析與試驗設計-課件_第5頁
已閱讀5頁,還剩135頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十一章方差分析與

試驗設計第十一章方差分析與

試驗設計1方差分析導論方差分析多重比較方法試驗設計(完全隨機化試驗設計、隨機化區組設計、雙因素方差分析)方差分析導論2方差分析導論之前已經討論過對于雙總體均值差異的假設檢驗,那么如果是三個或三個以上的總體均值差異比較的檢驗呢?先看一個現實例子:某公司有下屬甲、乙、丙三家工廠生產主要產品。為了確定這些工廠中有多少員工了解全面質量管理,從每個工廠中抽取一個由6名員工組成的樣本,對這些樣本進行質量管理有關知識的考核。得到了下表所示的考試分數:方差分析導論之前已經討論過對于雙總體均值差異的假設檢驗,那么3員工代號工廠甲工廠乙工廠丙185715927575643827362476746957169756858267員工代號工廠甲工廠乙工廠丙185715927575643824公司想知道:下屬的三個工廠工人在質量管理知識掌握上是否有差異?因此相應的檢驗假設為:;Ha:u1,u2,u3不全相等該例題中,響應變量(responsevariables)為工人考分;因素(factor)為工廠;各工廠的名稱所屬為處理(Treatment)我們本章引入的方差分析方法就是用來檢驗:三個或三個以上總體均值的方法。如果拒絕了H0,則說明:三個或三個以上的總體均值不全相等;至少有兩個總體均值不同。公司想知道:下屬的三個工廠工人在質量管理知識掌握上是否有差異5進行方差分析之前有幾個假設:1.對于每個總體,響應變量服從正態分布;2.對于所有總體,響應變量的方差相同;3.觀測值是獨立的。進行方差分析之前有幾個假設:6方差分析的原理:如果H0:u1=u2=u3為真,且滿足以上假定時,對于三個樣本均值都來自同一個抽樣分布,那么此時該總體的均值估計(或稱為)可以用三個樣本均值的算術平均數來估計。方差分析的原理:7此時的總體方差的估計可以由:此時可以由樣本的組間方差估計得到;也可以通過樣本的組內方差的平均值估計。在H0為真的情況下,二者的比值應接近于1。組間方差:組內估計:此時的總體方差的估計可以由:8如果H0:u1=u2=u3為假,說明總體均值不全相等,他們來自不同的抽樣分布。此時的樣本均值不接近。相應的,組間方差增大。此時的組間方差不適合估計且組間方差和組內方差的比值遠大于1.如果H0:u1=u2=u3為假,說明總體均值不全相等,他們來9由上例計算:可見,總體方差的組間估計遠大于組內估計,比率為9.如前所述,當總體方差的組間估計與組內估計的比值較大時,可能導致拒絕原假設,那么多大的程度可以拒絕H0的原假設呢?由上例計算:10方差分析的思想:比較總體方差的組間估計和組內估計:組間估計是以樣本均值間的變動來估計總體方差組內估計是合并每個樣本內的變動來估計總體方差比較總體方差的組內估計和組間估計在各總體均值無差異時,這兩個估計應很接近若兩個估計很接近,則不能否定各總體均值無差異若兩個估計不是很接近,則按照一定的原則否定各總體均值無差異的假定方差分析的思想:比較總體方差的組內估計和組間估計在各總體均值11方差分析根據之前對方差分析原理的闡述,我們可以用判斷樣本方差比值的方法對k個總體均值進行檢驗。假設從k個總體或處理中選擇一個樣本容量為n的簡單隨機樣本。我們有以下定義,方差分析根據之前對方差分析原理的闡述,我們可以用判斷樣本方差12其中,nT=n1+n2+…+nk其中,nT=n1+n2+…+nk13若每個樣本的樣本容量相等,則總樣本平均值為:即總體均值恰好等于k個樣本均值的算術平均數.若每個樣本的樣本容量相等,則總樣本平均值為:14定義總體方差的組間估計和組內估計的組間估計:MSTR稱為處理均方(meansquareduetotreatments)其中,MSTR的分子稱為處理平方和SSTR(sumofsquaresduetotreatments)定義總體方差的組間估計和組內估計15的組內估計:MSE稱為組內均方(meansquareduetoerror)其中,MSE的分子稱為組內平方和,(sumofsquareduetoerror)若H0為真,組間估計是總體方差的無偏估計;若H0為假,組間估計得到的則偏大.不論H0真或假,組內估計都是總體方差的無偏估計.組內估計反映每個處理內部的變動.的組內估計:16定義方差分析的統計量F統計量的構造:兩個chi方分布被各自自由度除以后的比值.在響應變量服從獨立正態分布的假定下,且H0為真時,我們可以推知,SSTR/,SSE/分別服從自由度為(K-1)和(nT-k)的chi方分布.根據F分布的構造,可知,統計量F=MSTR/MSE~F(k-1,nT-k)服從自由度為k-1和nT-k的F分布.由上例的數據計算可得,樣本F統計量為F=258/28.67=9定義方差分析的統計量17方差分析的拒絕規則:H0:u1=u2=…=uk;Ha:u1,u2,…,uk不全相等在顯著水平α下的拒絕規則為:若F>F(α;k-1,nT-k),則拒絕H0的原假設,認為總體1,總體2,….總體k的均值不全相等.上例中的拒絕域是,F>F(0,05,2,15)=3.68即當由樣本信息計算得到的F統計量大于3.68時,拒絕初始假設H0.因為9>3.68,我們拒絕三個總體均值無差異的假設.方差分析的拒絕規則:18αF=MSTR/MSEF(α;k-1,nT-k)αF=MSTR/MSEF(α;k-1,nT-k)19方差分析表(ANOVA)方差來源平方和自由度均方(meansquare)F統計量組間(處理)SSTRK-1MSTRMSTR/MSE組內(誤差)SSEnT-kMSE合計SSTnT-1方差分析表(ANOVA)方差來源平方和自由度均方(mean20方差分析就是將總得平方和及自由度分解為相應的來源:處理和誤差.當各樣本的容量相等時,方差分析就是將總得平方和及自由度分解為相應的來源:處理和誤差21多重比較方法之前討論的方差分析檢驗原假設時,只能得到所有總體均值是否相等的結論,但具體到若干個配對總體均值是否相等,就不能得出準確結論.多重比較方法:FisherLSD方法(LeastSignificantDifference)該法是對總體方差估計稍微做出修改得出,別切給予兩個總體情形的t檢驗統計量.多重比較方法之前討論的方差分析檢驗原假設時,只能得到所有總體22LSD方法的多重比較步驟1.H0:ui=uj;Ha:ui≠uj2.檢驗統計量3.拒絕規則為:如果t>t(a/2)或t<-t(a/2),則拒絕H0其中的t分布自由度為(nT-k)LSD方法的多重比較步驟1.H0:ui=uj;Ha:23上例,我們對甲乙丙三家工廠的員工測試表明,三家工廠員工對質量管理的知識認同沒有達到一致.但具體是哪兩家工廠間,或所有工廠間出現了認識差異呢?用LSD多重比較方法分別對甲乙、甲丙、乙丙來進行判斷,相應的變量為:n1=n2=n3=6,k=3,nT=18;MSTR=258;MSE=28.67上例,我們對甲乙丙三家工廠的員工測試表明,三家工廠員工對質量24H0:u1=u2;Ha:u1≠u2在假定H0為真的情形下,有統計量t服從自由度為15的t分布此時,t<t(0.025;15)=2.131不能拒絕H0,不能得出甲乙兩廠工人對質量認知有差異的結論。H0:u1=u2;Ha:u1≠u225H0:u1=u3;Ha:u1≠u3在假定H0為真的情形下,有統計量t服從自由度為15的t分布此時,t>t(0.025;15)=2.131拒絕H0,可以得出甲丙兩廠工人對質量認知有差異的結論。H0:u1=u3;Ha:u1≠u326H0:u2=u3;Ha:u2≠u3在假定H0為真的情形下,有統計量t服從自由度為15的t分布此時,t<t(0.025;15)=2.131拒絕H0,得出乙丙兩廠工人對質量認知有差異的結論。H0:u2=u3;Ha:u2≠u327換句話說,通過判斷統計量(樣本均值間的差值),可以判定是否拒絕H0.假設,H0:ui=uj;Ha:ui≠uj統計量為拒絕法則為:若,則拒絕H0其中換句話說,通過判斷統計量(樣本均值間的差值),可以判定是否拒28我們用該法來對甲乙丙三個工廠進行多重比較。由題意,可計算即判斷,樣本均值差是否大于6.59,即可判定兩總體均值是否有差異。(無法得出甲乙總體均值有差異)(乙丙兩廠總體均值有差異)(甲丙兩廠總體均值有差異)我們用該法來對甲乙丙三個工廠進行多重比較。29利用LSD方法對兩個總體均值之差進行置信區間估計:由上例可知,U1-u2的95%置信區間為:U1-u3的95%置信區間為:U2-u3的95%置信區間為:若區間包含0值,則不能拒絕兩總體均值相等的假設;若區間不包含0值,則得出兩總體均值不等的結論。利用LSD方法對兩個總體均值之差進行置信區間估計:30關于第一類錯誤的概率1、FISHERLSD方法的使用前提是:方差分析是我們有證據拒絕所有總體均值相等的假設。2、比較性第一類錯誤概率與實驗性第一類錯誤概率:我們用LSD方法分別對兩兩配對總體進行了比較,在每個檢驗中,都將顯著水平設定為5%,對于每一個檢驗,犯第一類錯誤的概率是5%,在多重比較問題中,這個第一類錯誤概率稱為比較性第一類錯誤概率。關于第一類錯誤的概率31在以上三個比較過程中,至少有一次犯第一類錯誤的概率應為:1-0.95^3=0.1426這個概率稱為試驗性第一類錯誤概率。將其記為:3、Bonferroni修正在多重比較問題中,若有k個總體,則有,這時,對α=5%,若k=5,則試驗性第一類錯誤概率為,顯然,要使試驗性第一類錯誤概率降低,我們要減少α的設定,我們令,該值稱為Bonferroni修正。在以上三個比較過程中,至少有一次犯第一類錯誤的概率應為:32由上例可知,k=3,經過修正的α值應為0.05/3=1.7%,即需要選擇比較性第一類錯誤概率α=1.7%4、若樣本容量固定,則在多重檢驗中減少第一類錯誤概率,將增加犯第二類錯誤的概率。因此在多重比較檢驗中取較小的比較性第一類錯誤概率,必定要冒第二類錯誤的風險。由上例可知,k=3,經過修正的α值應為33試驗設計:完全隨機化設計某公司開發一種新的城市供水過濾設備,購得元件后,由屬下一家工廠負責裝配。工程部確定了三種最佳裝配方法,并從全體裝配工人隨機抽取了若干名工人進行操作,目的是要比較三中裝配方法的優劣。在這項研究中,響應變量為裝配元件個數;因素為裝配方法;處理為方法1、方法2、方法3(分別對應三個總體);試驗單元:被抽到的每個工人。在該試驗中,三個總體分別是:使用裝配方法1的全體員工;使用裝配方法2的全體員工;使用裝配方法3的全體員工。試驗設計:完全隨機化設計某公司開發一種新的城市供水過濾設備,34這個試驗設計稱為完全隨機化設計,它要求將三種裝配方式的其中一個隨機分配給工人,例如方法1隨機分配給第一名工人;方法2隨機分配給第二名工人;方法3隨機分配給第三名工人。即每個工人接受任一裝配方法的機會相等。所有的裝配工進行試驗抽取15名工人做為隨機樣本將每一種裝配方法隨機指派給5個工人方法1n1=5方法2n2=5方法3n3=5這個試驗設計稱為完全隨機化設計,它要求將三種裝配方式的其中一35當數據來自完全隨機化試驗設計是,為檢驗均值是否相等的假設,我們可以使用之前敘述的方差分析方法。工人號方法1方法2方法315858482646957355715946664475676849樣本均值626652樣本方差27.226.531樣本標準差5.245.155.57當數據來自完全隨機化試驗設計是,為檢驗均值是否相等的假設,我36根據之前方差分析的步驟,我們分別計算主要統計量,MSTR,MSE及F根據之前方差分析的步驟,我們分別計算主要統計量,MSTR,M37進行假設設定:H0:u1=u2=u3;Ha:u1,u2,u3不全相等檢驗統計量F,F=MSTR/MSE在原假設為真,所有總體滿足正態分布假定,且所有觀測值獨立的前提下,該統計量服從自由度為(2,12)的F分布。由樣本計算F值F=260/28.33=9.18在顯著水平為5%下,檢驗的拒絕域為:F>F(0.05;2,12)=3.89進行假設設定:38由于F=9.18>3.89,說明拒絕H0原假設,即三種裝配方法的平均產量有差異。相應的ANOVA表方差來源平方和自由度均方(meansquare)F統計量組間(處理)52022609.18組內(誤差)3401228.33合計86014由于F=9.18>3.89,說明拒絕H0原假設,即三種裝配方39試驗設計:隨機化區組設計什么叫隨機化區組設計當試驗單元同質時,完全隨機設計有效;若試驗單元異質,則需要采用隨機化區間設計。這個設計的目的就是通過剔除MSE項中的外部來源方差,來得到實際誤差方差的最佳估計。隨機化區組設計由b個區組所組成,每個區組包含k個試驗單位。K個處理被隨機的指派給每個區組中的單位,且每個處理在每個區組中只出現一次。試驗設計:隨機化區組設計什么叫隨機化區組設計40例:一項對3種不同包裝設計的顧客偏好研究采用隨機化區組試驗設計,在4個超級市場進行。該試驗進行了3周。超級市場包裝1包裝2包裝31173423215262131238462216例:一項對3種不同包裝設計的顧客偏好研究采用隨機化區組試驗設41表中給出的是每個超級市場在給定三周內每周每種包裝設計售出的單位數。問這些數據是否可以提供足夠的證據表明各種包裝設計的平均銷售量有差異?在純隨機設計中,包裝設計被隨機的指派到每個超級市場,然而由題可知,超級市場由于受到地域、人流量等的因素影響,存在異質性。因此總體方差的組內估計MSE除了誤差的影響以外,還受到市場間的異質而導致的誤差。因此,如果仍采用純隨機設計的方差分析方法,則可能產生錯誤的結果。表中給出的是每個超級市場在給定三周內每周每種包裝設計售出的單42SST=SSTR+SSBL+SSE總方差可以分解為:分解為處理平方和(SSTR),區組平方和(SSBL)以及誤差平方和(SSE)其中,k為處理個數,b為區組數,nT為總的樣本大小,SST=SSTR+SSBL+SSE43方差來源平方和自由度均方(meansquare)F統計量處理SSTRk-1MSTRMSTR/MSE區組SSBLb-1MSBL誤差SSE(k-1)(b-1)MSE合計SSTnT-1方差來源平方和自由度均方(meansquare)F統計量處44由例題計算得到各統計量:

SSE=SST-SSTR-SSBL=45.5由例題計算得到各統計量:45由例題計算得到各統計量:方差來源平方和自由度均方(meansquare)F統計量處理547.1672273.48336.08區組3483116誤差45.567.58合計940.66711由例題計算得到各統計量:方差來源平方和自由度均方(mean46同樣的,我們也可以根據統計量F=MSTR/MSE的抽樣分布來判定處理均值之間的差異。在假定H0為真,總體滿足正態分布,且觀測值獨立的情形下,統計量F服從自由度為(k-1,(k-1)*(b-1))的F分布。拒絕規則為:若F>F(a;k-1,(k-1)*(b-1)),則拒絕H0的原假設。本例的F統計量為36.08>10.92,因此我們拒絕原假設,認為各種包裝設計的平均銷售量有差異。同樣的,我們也可以根據統計量F=MSTR/MSE的抽樣分布來47例:空中交管員的壓力測試一項研究通過衡量空中交通管制員的工作壓力,建議改造并重新設置管制員工作站。設計三個工作方案,先想知道這三個工作方案對減輕管制員壓力的效果有多大差異。由于不同的管制員對壓力的承受力是不同的,即考察對象不是同質的,組內方差有兩個來源,一個是隨機誤差,一個是管制員的個人差異導致的誤差。因此我們通過隨機化區組設計將個人差異從MSE中分離出來。為了體現隨機化的特點,我們以管制員為區組,將三個方案以隨機的順序指派給每個管制員。每個管制員要操作每個系統。例:空中交管員的壓力測試48第十一章-方差分析與試驗設計-課件49收集到以下數據:可以計算得到以下匯總數據:收集到以下數據:50第十一章-方差分析與試驗設計-課件51計算SST,SSTR,SSBL及SSESSE=SST-SSTR-SSBL=19計算SST,SSTR,SSBL及SSE52將各平方和被各自的自由度除以后,可得到相應的均方:MSTR=SSTR/(K-1)=10.5MSE=SSE/{(k-1)*(b-1)}=1.9MSBL=SSBL/(b-1)=6F=MSTR/MSE=10.5/1.9=5.53將各平方和被各自的自由度除以后,可得到相應的均方:53計算的結果通過ANOVA表表示出來,如下:通過比較F與F(a;2,10)可以得出是否拒絕H0的結論:F=5.53>F(a;2,10)=4.1,拒絕原假設H0:u1=u2=u3說明,統計上可以認為三種方案在對空中交通管制員平均壓力效果上有差異。計算的結果通過ANOVA表表示出來,如下:54試驗設計:雙因素試驗之前的試驗設計僅針對一個因子(factor)考慮相應的統計結論,現在我們需要考慮關于兩個或更多因子相關的結論。我們介紹雙因素試驗以及雙因素的方差分析方法。例:某大學考慮以下三種GMAT輔導課程(factor1),對應的有三個因子值(處理):1.3小時復習,內容覆蓋GMAT常考題型;2.1天課程,覆蓋有關考試資料,及模擬考試;3.10周課程,發現學生弱點并建立個人改進課程。另外,報考GMAT考試的學生主要來自三類學院(factor2),對應的三個因子值(處理),分別為1.商學院;2.工學院;3.藝術與科學學院。試驗設計:雙因素試驗之前的試驗設計僅針對一個因子(facto55因此,發現影響考試成績的兩個因素分別為:課程類型及考生所在的院系。現想考察輔導課程是否GMAT成績的影響不同?考生所在的院系是否對GMAT成績的影響不同?以及是否某些院校的考生參加某種輔導課程表現不錯,但參加另一種輔導課程則表現不佳?顯著水平為:5%因此,發現影響考試成績的兩個因素分別為:56現分別從各學院抽取6名考生,將其隨機安排,其中各學院中的兩名學生參加課程1,兩名參加課程2,兩名參加課程3。由GMAT考試收集到的考分數據如下:現分別從各學院抽取6名考生,將其隨機安排,其中各學院中的兩名57因此,總的觀測個數為18.因子1的處理個數為3,因子2的處理個數為3.且樣本進行了2次復制。(在每個組合中有2個觀測值)由于雙因素之間也可能產生影響,因此有交互作用(interaction),如果這個影響對GMAT考分有明顯作用,我們就能得出輔導課程效果依賴于畢業院校的結論。因此,總的觀測個數為18.因子1的處理個數為3,因子2的處理58方差分析方法:SST=SSA+SSB+SSAB+SSE設,a—因子1的水平數(處理數);b-因子2的水平數(處理數);r-復制的個數;nT為總的觀測個數。方差分析方法:59相關記號:A的第i個處理與B的第j個處理的第k個復制的觀測值A的第i個處理的樣本均值B的第j個處理的樣本均值A的第i個處理與B的第j個處理的組合的樣本均值所有nT個觀測值的樣本均值相關記號:60第十一章-方差分析與試驗設計-課件61第十一章-方差分析與試驗設計-課件62根據GMAT分數數據,我們計算以上統計量:方差來源平方和自由度均方(meansquare)F統計量因素16100230501.38因素24530022265010.27交互作用11200428001.27誤差1985092206合計8245017根據GMAT分數數據,我們計算以上統計量:方差來源平方和自由631.檢驗輔導課程是否對GMAT成績影響差異?H0:u1=u2=u3;Ha:u1,u2,u3不全相等F=MSA/MSE=1.38在H0為真的前提下,F統計量服從自由度為(2,9)的F分布。F<4.26,不能拒絕H0的假定,我們認為輔導課程之間對成績的影響沒有明顯差異。1.檢驗輔導課程是否對GMAT成績影響差異?642.檢驗學院類型是否對成績有影響差異?H0:u1=u2=u3;Ha:u1,u2,u3不全相等F=MSB/MSE=10.27在H0為真的前提下,F統計量服從自由度為(2,9)的F分布。F>4.26,拒絕H0的假定,我們認為不同的學院對成績的影響有明顯差異。即三個來自不同學院的學生參加相同課程會產生明顯差異的考試分數。2.檢驗學院類型是否對成績有影響差異?653.檢驗兩因素是否有顯著的交互作用?H0:V1=V2=V3;H0:v1,v2,v3不全相等統計量F=MSAB/MSE=1.27在原假設為真(即三種輔導課程對不同學院學生的考試成績影響相同),則該統計量服從自由度為(4,9)的F分布,因為F<F(a;4,9)=3.63,所以不能拒絕H0假設,即認為三種輔導課程對不同學院學生的GMAT考試影響沒有顯著差異。3.檢驗兩因素是否有顯著的交互作用?66作業1.一次研究調查了市場專業人員的公司倫理價值觀念。假定在類似的研究中得到了下列數據(高分值表明倫理價值觀念程度高)。對于顯著水平0.05,檢驗三個專業人員群體之間的觀念有無顯著差異。作業1.一次研究調查了市場專業人員的公司倫理價值觀念。假定在672.一位汽車交易商進行測試以判斷完成一個小型引擎啟動所需分鐘數是否與使用計算機引擎分析器或電子分析器有關。因為啟動時間對于微型、中型和大型汽車是不同的,使用了三種類型的汽車作為試驗中的區組,得到如下數據。顯著水平為0.05.2.一位汽車交易商進行測試以判斷完成一個小型引擎啟動所需分鐘683.一家郵購公司設計了一個析因試驗以檢驗雜志廣告大小以及廣告方案對于收到郵購請求的數目(千個)的影響。考察了三種廣告方案和兩種不同大小的廣告,得到如下數據。利用雙因素分析檢驗屬于廣告方案、廣告大小或交互作用的顯著影響。顯著水平為5%3.一家郵購公司設計了一個析因試驗以檢驗雜志廣告大小以及廣告69謝謝騎封篙尊慈榷灶琴村店矣墾桂乖新壓胚奠倘擅寞僥蝕麗鑒晰溶廷籮侶郎蟲林森-消化系統疾病的癥狀體征與檢查林森-消化系統疾病的癥狀體征與檢查謝謝騎封篙尊慈榷灶琴村店矣墾桂乖新壓胚奠倘擅寞僥蝕麗鑒晰溶廷70第十一章方差分析與

試驗設計第十一章方差分析與

試驗設計71方差分析導論方差分析多重比較方法試驗設計(完全隨機化試驗設計、隨機化區組設計、雙因素方差分析)方差分析導論72方差分析導論之前已經討論過對于雙總體均值差異的假設檢驗,那么如果是三個或三個以上的總體均值差異比較的檢驗呢?先看一個現實例子:某公司有下屬甲、乙、丙三家工廠生產主要產品。為了確定這些工廠中有多少員工了解全面質量管理,從每個工廠中抽取一個由6名員工組成的樣本,對這些樣本進行質量管理有關知識的考核。得到了下表所示的考試分數:方差分析導論之前已經討論過對于雙總體均值差異的假設檢驗,那么73員工代號工廠甲工廠乙工廠丙185715927575643827362476746957169756858267員工代號工廠甲工廠乙工廠丙1857159275756438274公司想知道:下屬的三個工廠工人在質量管理知識掌握上是否有差異?因此相應的檢驗假設為:;Ha:u1,u2,u3不全相等該例題中,響應變量(responsevariables)為工人考分;因素(factor)為工廠;各工廠的名稱所屬為處理(Treatment)我們本章引入的方差分析方法就是用來檢驗:三個或三個以上總體均值的方法。如果拒絕了H0,則說明:三個或三個以上的總體均值不全相等;至少有兩個總體均值不同。公司想知道:下屬的三個工廠工人在質量管理知識掌握上是否有差異75進行方差分析之前有幾個假設:1.對于每個總體,響應變量服從正態分布;2.對于所有總體,響應變量的方差相同;3.觀測值是獨立的。進行方差分析之前有幾個假設:76方差分析的原理:如果H0:u1=u2=u3為真,且滿足以上假定時,對于三個樣本均值都來自同一個抽樣分布,那么此時該總體的均值估計(或稱為)可以用三個樣本均值的算術平均數來估計。方差分析的原理:77此時的總體方差的估計可以由:此時可以由樣本的組間方差估計得到;也可以通過樣本的組內方差的平均值估計。在H0為真的情況下,二者的比值應接近于1。組間方差:組內估計:此時的總體方差的估計可以由:78如果H0:u1=u2=u3為假,說明總體均值不全相等,他們來自不同的抽樣分布。此時的樣本均值不接近。相應的,組間方差增大。此時的組間方差不適合估計且組間方差和組內方差的比值遠大于1.如果H0:u1=u2=u3為假,說明總體均值不全相等,他們來79由上例計算:可見,總體方差的組間估計遠大于組內估計,比率為9.如前所述,當總體方差的組間估計與組內估計的比值較大時,可能導致拒絕原假設,那么多大的程度可以拒絕H0的原假設呢?由上例計算:80方差分析的思想:比較總體方差的組間估計和組內估計:組間估計是以樣本均值間的變動來估計總體方差組內估計是合并每個樣本內的變動來估計總體方差比較總體方差的組內估計和組間估計在各總體均值無差異時,這兩個估計應很接近若兩個估計很接近,則不能否定各總體均值無差異若兩個估計不是很接近,則按照一定的原則否定各總體均值無差異的假定方差分析的思想:比較總體方差的組內估計和組間估計在各總體均值81方差分析根據之前對方差分析原理的闡述,我們可以用判斷樣本方差比值的方法對k個總體均值進行檢驗。假設從k個總體或處理中選擇一個樣本容量為n的簡單隨機樣本。我們有以下定義,方差分析根據之前對方差分析原理的闡述,我們可以用判斷樣本方差82其中,nT=n1+n2+…+nk其中,nT=n1+n2+…+nk83若每個樣本的樣本容量相等,則總樣本平均值為:即總體均值恰好等于k個樣本均值的算術平均數.若每個樣本的樣本容量相等,則總樣本平均值為:84定義總體方差的組間估計和組內估計的組間估計:MSTR稱為處理均方(meansquareduetotreatments)其中,MSTR的分子稱為處理平方和SSTR(sumofsquaresduetotreatments)定義總體方差的組間估計和組內估計85的組內估計:MSE稱為組內均方(meansquareduetoerror)其中,MSE的分子稱為組內平方和,(sumofsquareduetoerror)若H0為真,組間估計是總體方差的無偏估計;若H0為假,組間估計得到的則偏大.不論H0真或假,組內估計都是總體方差的無偏估計.組內估計反映每個處理內部的變動.的組內估計:86定義方差分析的統計量F統計量的構造:兩個chi方分布被各自自由度除以后的比值.在響應變量服從獨立正態分布的假定下,且H0為真時,我們可以推知,SSTR/,SSE/分別服從自由度為(K-1)和(nT-k)的chi方分布.根據F分布的構造,可知,統計量F=MSTR/MSE~F(k-1,nT-k)服從自由度為k-1和nT-k的F分布.由上例的數據計算可得,樣本F統計量為F=258/28.67=9定義方差分析的統計量87方差分析的拒絕規則:H0:u1=u2=…=uk;Ha:u1,u2,…,uk不全相等在顯著水平α下的拒絕規則為:若F>F(α;k-1,nT-k),則拒絕H0的原假設,認為總體1,總體2,….總體k的均值不全相等.上例中的拒絕域是,F>F(0,05,2,15)=3.68即當由樣本信息計算得到的F統計量大于3.68時,拒絕初始假設H0.因為9>3.68,我們拒絕三個總體均值無差異的假設.方差分析的拒絕規則:88αF=MSTR/MSEF(α;k-1,nT-k)αF=MSTR/MSEF(α;k-1,nT-k)89方差分析表(ANOVA)方差來源平方和自由度均方(meansquare)F統計量組間(處理)SSTRK-1MSTRMSTR/MSE組內(誤差)SSEnT-kMSE合計SSTnT-1方差分析表(ANOVA)方差來源平方和自由度均方(mean90方差分析就是將總得平方和及自由度分解為相應的來源:處理和誤差.當各樣本的容量相等時,方差分析就是將總得平方和及自由度分解為相應的來源:處理和誤差91多重比較方法之前討論的方差分析檢驗原假設時,只能得到所有總體均值是否相等的結論,但具體到若干個配對總體均值是否相等,就不能得出準確結論.多重比較方法:FisherLSD方法(LeastSignificantDifference)該法是對總體方差估計稍微做出修改得出,別切給予兩個總體情形的t檢驗統計量.多重比較方法之前討論的方差分析檢驗原假設時,只能得到所有總體92LSD方法的多重比較步驟1.H0:ui=uj;Ha:ui≠uj2.檢驗統計量3.拒絕規則為:如果t>t(a/2)或t<-t(a/2),則拒絕H0其中的t分布自由度為(nT-k)LSD方法的多重比較步驟1.H0:ui=uj;Ha:93上例,我們對甲乙丙三家工廠的員工測試表明,三家工廠員工對質量管理的知識認同沒有達到一致.但具體是哪兩家工廠間,或所有工廠間出現了認識差異呢?用LSD多重比較方法分別對甲乙、甲丙、乙丙來進行判斷,相應的變量為:n1=n2=n3=6,k=3,nT=18;MSTR=258;MSE=28.67上例,我們對甲乙丙三家工廠的員工測試表明,三家工廠員工對質量94H0:u1=u2;Ha:u1≠u2在假定H0為真的情形下,有統計量t服從自由度為15的t分布此時,t<t(0.025;15)=2.131不能拒絕H0,不能得出甲乙兩廠工人對質量認知有差異的結論。H0:u1=u2;Ha:u1≠u295H0:u1=u3;Ha:u1≠u3在假定H0為真的情形下,有統計量t服從自由度為15的t分布此時,t>t(0.025;15)=2.131拒絕H0,可以得出甲丙兩廠工人對質量認知有差異的結論。H0:u1=u3;Ha:u1≠u396H0:u2=u3;Ha:u2≠u3在假定H0為真的情形下,有統計量t服從自由度為15的t分布此時,t<t(0.025;15)=2.131拒絕H0,得出乙丙兩廠工人對質量認知有差異的結論。H0:u2=u3;Ha:u2≠u397換句話說,通過判斷統計量(樣本均值間的差值),可以判定是否拒絕H0.假設,H0:ui=uj;Ha:ui≠uj統計量為拒絕法則為:若,則拒絕H0其中換句話說,通過判斷統計量(樣本均值間的差值),可以判定是否拒98我們用該法來對甲乙丙三個工廠進行多重比較。由題意,可計算即判斷,樣本均值差是否大于6.59,即可判定兩總體均值是否有差異。(無法得出甲乙總體均值有差異)(乙丙兩廠總體均值有差異)(甲丙兩廠總體均值有差異)我們用該法來對甲乙丙三個工廠進行多重比較。99利用LSD方法對兩個總體均值之差進行置信區間估計:由上例可知,U1-u2的95%置信區間為:U1-u3的95%置信區間為:U2-u3的95%置信區間為:若區間包含0值,則不能拒絕兩總體均值相等的假設;若區間不包含0值,則得出兩總體均值不等的結論。利用LSD方法對兩個總體均值之差進行置信區間估計:100關于第一類錯誤的概率1、FISHERLSD方法的使用前提是:方差分析是我們有證據拒絕所有總體均值相等的假設。2、比較性第一類錯誤概率與實驗性第一類錯誤概率:我們用LSD方法分別對兩兩配對總體進行了比較,在每個檢驗中,都將顯著水平設定為5%,對于每一個檢驗,犯第一類錯誤的概率是5%,在多重比較問題中,這個第一類錯誤概率稱為比較性第一類錯誤概率。關于第一類錯誤的概率101在以上三個比較過程中,至少有一次犯第一類錯誤的概率應為:1-0.95^3=0.1426這個概率稱為試驗性第一類錯誤概率。將其記為:3、Bonferroni修正在多重比較問題中,若有k個總體,則有,這時,對α=5%,若k=5,則試驗性第一類錯誤概率為,顯然,要使試驗性第一類錯誤概率降低,我們要減少α的設定,我們令,該值稱為Bonferroni修正。在以上三個比較過程中,至少有一次犯第一類錯誤的概率應為:102由上例可知,k=3,經過修正的α值應為0.05/3=1.7%,即需要選擇比較性第一類錯誤概率α=1.7%4、若樣本容量固定,則在多重檢驗中減少第一類錯誤概率,將增加犯第二類錯誤的概率。因此在多重比較檢驗中取較小的比較性第一類錯誤概率,必定要冒第二類錯誤的風險。由上例可知,k=3,經過修正的α值應為103試驗設計:完全隨機化設計某公司開發一種新的城市供水過濾設備,購得元件后,由屬下一家工廠負責裝配。工程部確定了三種最佳裝配方法,并從全體裝配工人隨機抽取了若干名工人進行操作,目的是要比較三中裝配方法的優劣。在這項研究中,響應變量為裝配元件個數;因素為裝配方法;處理為方法1、方法2、方法3(分別對應三個總體);試驗單元:被抽到的每個工人。在該試驗中,三個總體分別是:使用裝配方法1的全體員工;使用裝配方法2的全體員工;使用裝配方法3的全體員工。試驗設計:完全隨機化設計某公司開發一種新的城市供水過濾設備,104這個試驗設計稱為完全隨機化設計,它要求將三種裝配方式的其中一個隨機分配給工人,例如方法1隨機分配給第一名工人;方法2隨機分配給第二名工人;方法3隨機分配給第三名工人。即每個工人接受任一裝配方法的機會相等。所有的裝配工進行試驗抽取15名工人做為隨機樣本將每一種裝配方法隨機指派給5個工人方法1n1=5方法2n2=5方法3n3=5這個試驗設計稱為完全隨機化設計,它要求將三種裝配方式的其中一105當數據來自完全隨機化試驗設計是,為檢驗均值是否相等的假設,我們可以使用之前敘述的方差分析方法。工人號方法1方法2方法315858482646957355715946664475676849樣本均值626652樣本方差27.226.531樣本標準差5.245.155.57當數據來自完全隨機化試驗設計是,為檢驗均值是否相等的假設,我106根據之前方差分析的步驟,我們分別計算主要統計量,MSTR,MSE及F根據之前方差分析的步驟,我們分別計算主要統計量,MSTR,M107進行假設設定:H0:u1=u2=u3;Ha:u1,u2,u3不全相等檢驗統計量F,F=MSTR/MSE在原假設為真,所有總體滿足正態分布假定,且所有觀測值獨立的前提下,該統計量服從自由度為(2,12)的F分布。由樣本計算F值F=260/28.33=9.18在顯著水平為5%下,檢驗的拒絕域為:F>F(0.05;2,12)=3.89進行假設設定:108由于F=9.18>3.89,說明拒絕H0原假設,即三種裝配方法的平均產量有差異。相應的ANOVA表方差來源平方和自由度均方(meansquare)F統計量組間(處理)52022609.18組內(誤差)3401228.33合計86014由于F=9.18>3.89,說明拒絕H0原假設,即三種裝配方109試驗設計:隨機化區組設計什么叫隨機化區組設計當試驗單元同質時,完全隨機設計有效;若試驗單元異質,則需要采用隨機化區間設計。這個設計的目的就是通過剔除MSE項中的外部來源方差,來得到實際誤差方差的最佳估計。隨機化區組設計由b個區組所組成,每個區組包含k個試驗單位。K個處理被隨機的指派給每個區組中的單位,且每個處理在每個區組中只出現一次。試驗設計:隨機化區組設計什么叫隨機化區組設計110例:一項對3種不同包裝設計的顧客偏好研究采用隨機化區組試驗設計,在4個超級市場進行。該試驗進行了3周。超級市場包裝1包裝2包裝31173423215262131238462216例:一項對3種不同包裝設計的顧客偏好研究采用隨機化區組試驗設111表中給出的是每個超級市場在給定三周內每周每種包裝設計售出的單位數。問這些數據是否可以提供足夠的證據表明各種包裝設計的平均銷售量有差異?在純隨機設計中,包裝設計被隨機的指派到每個超級市場,然而由題可知,超級市場由于受到地域、人流量等的因素影響,存在異質性。因此總體方差的組內估計MSE除了誤差的影響以外,還受到市場間的異質而導致的誤差。因此,如果仍采用純隨機設計的方差分析方法,則可能產生錯誤的結果。表中給出的是每個超級市場在給定三周內每周每種包裝設計售出的單112SST=SSTR+SSBL+SSE總方差可以分解為:分解為處理平方和(SSTR),區組平方和(SSBL)以及誤差平方和(SSE)其中,k為處理個數,b為區組數,nT為總的樣本大小,SST=SSTR+SSBL+SSE113方差來源平方和自由度均方(meansquare)F統計量處理SSTRk-1MSTRMSTR/MSE區組SSBLb-1MSBL誤差SSE(k-1)(b-1)MSE合計SSTnT-1方差來源平方和自由度均方(meansquare)F統計量處114由例題計算得到各統計量:

SSE=SST-SSTR-SSBL=45.5由例題計算得到各統計量:115由例題計算得到各統計量:方差來源平方和自由度均方(meansquare)F統計量處理547.1672273.48336.08區組3483116誤差45.567.58合計940.66711由例題計算得到各統計量:方差來源平方和自由度均方(mean116同樣的,我們也可以根據統計量F=MSTR/MSE的抽樣分布來判定處理均值之間的差異。在假定H0為真,總體滿足正態分布,且觀測值獨立的情形下,統計量F服從自由度為(k-1,(k-1)*(b-1))的F分布。拒絕規則為:若F>F(a;k-1,(k-1)*(b-1)),則拒絕H0的原假設。本例的F統計量為36.08>10.92,因此我們拒絕原假設,認為各種包裝設計的平均銷售量有差異。同樣的,我們也可以根據統計量F=MSTR/MSE的抽樣分布來117例:空中交管員的壓力測試一項研究通過衡量空中交通管制員的工作壓力,建議改造并重新設置管制員工作站。設計三個工作方案,先想知道這三個工作方案對減輕管制員壓力的效果有多大差異。由于不同的管制員對壓力的承受力是不同的,即考察對象不是同質的,組內方差有兩個來源,一個是隨機誤差,一個是管制員的個人差異導致的誤差。因此我們通過隨機化區組設計將個人差異從MSE中分離出來。為了體現隨機化的特點,我們以管制員為區組,將三個方案以隨機的順序指派給每個管制員。每個管制員要操作每個系統。例:空中交管員的壓力測試118第十一章-方差分析與試驗設計-課件119收集到以下數據:可以計算得到以下匯總數據:收集到以下數據:120第十一章-方差分析與試驗設計-課件121計算SST,SSTR,SSBL及SSESSE=SST-SSTR-SSBL=19計算SST,SSTR,SSBL及SSE122將各平方和被各自的自由度除以后,可得到相應的均方:MSTR=SSTR/(K-1)=10.5MSE=SSE/{(k-1)*(b-1)}=1.9MSBL=SSBL/(b-1)=6F=MSTR/MSE=10.5/1.9=5.53將各平方和被各自的自由度除以后,可得到相應的均方:123計算的結果通過ANOVA表表示出來,如下:通過比較F與F(a;2,10)可以得出是否拒絕H0的結論:F=5.53>F(a;2,10)=4.1,拒絕原假設H0:u1=u2=u3說明,統計上可以認為三種方案在對空中交通管制員平均壓力效果上有差異。計算的結果通過ANOVA表表示出來,如下:124試驗設計:雙因素試驗之前的試驗設計僅針對一個因子(factor)考慮相應的統計結論,現在我們需要考慮關于兩個或更多因子相關的結論。我們介紹雙因素試驗以及雙因素的方差分析方法。例:某大學考慮以下三種GMAT輔導課程(factor1),對應的有三個因子值(處理):1.3小時復習,內容覆蓋GMAT常考題型;2.1天課程,覆蓋有關考試資料,及模擬考試;3.10周課程,發現學生弱點并建立個人改進課程。另外,報考GMAT考試的學生主要來自三類學院(factor2),對應的三個因子值(處理),分別為1.商學院;2.工學院;3.藝術與科學學院。試驗設計:雙因素試驗之

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論