《應用統(tǒng)計分析》課件-第6章 方差分析_第1頁
《應用統(tǒng)計分析》課件-第6章 方差分析_第2頁
《應用統(tǒng)計分析》課件-第6章 方差分析_第3頁
《應用統(tǒng)計分析》課件-第6章 方差分析_第4頁
《應用統(tǒng)計分析》課件-第6章 方差分析_第5頁
已閱讀5頁,還剩101頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第6章方差分析6.1方差分析概述6.2單因素方差分析6.3雙因素方差分析6.4SPSS應用舉例12引入案例為了探究扶貧政策與貧困戶類型對扶貧效果的影響,對a縣不同貧困類型實施政策前后貧困戶的收入變化情況進行了調查,調查結果如表6-1所示。從表6-1中數(shù)據(jù)能否推斷出扶貧政策與貧困戶類型對貧困戶收入有影響?解決此問題需要應用到方差分析,本章將介紹相關知識。第1節(jié)方差分析概述6.1.1概念6.1.2基本思想6.1.3一般提法和基本假定36.1.1概念4在上述案例中,若想知道在實施扶貧政策后不同貧困類型對貧困戶收入的影響程度,利用已經(jīng)學過的假設檢驗的知識,我們可以采用兩兩依次配對的方法得出4項因素之間是否具有顯著差異,但當研究因素涉及n項時需要利用n(n-1)/2次假設檢驗,工作量隨n的增大而大大增加。除此之外,假設檢驗次數(shù)增多還會使得偶然因素造成的誤差被放大,我們作出錯誤決策的風險也隨之增大。6.1.1概念5比如,上述案例中因有4項因素需要進行共計6次假設檢驗,若每次檢驗犯第I類錯誤的概率為α=0.05,則進行6次假設檢驗后犯第I類錯誤的概率就會累積到1-(1-α)6≈0.265,此時相應的置信水平就會下降到0.956=0.735。由此可見多次假設檢驗帶來的誤差是不可忽略的,此時引入方差分析就顯得十分必要。方差分析只需通過一次性的檢驗即可得出結論,既避免了大量工作的麻煩,也大大降低了錯誤不斷累積造成最終誤判(即拒絕了真實的假設)的可能性。定義6.1方差分析(analysisofvariance,ANOVA):是用于一次性檢驗兩個以上樣本均值是否存在顯著差異的統(tǒng)計方法,又稱為“變異數(shù)分析”或“F檢驗”。6.1.1概念6方差分析的基本術語包括以下幾種:因素或因子:是所要研究的變量。引例中的因素就是我們所要研究的是否實行扶貧政策與貧困戶類型。水平或處理:是因素在試驗中的不同表現(xiàn)狀態(tài)。引例中老年貧困、因病致貧、因學致貧、受教育程度低這4個類型可以看作是因素貧困戶類型的水平(處理)。觀察值:是在每個因素水平下得到的樣本數(shù)據(jù)。引例中的觀察值就是4個貧困戶類型與是否實行扶貧政策下對應的貧困戶收入數(shù)據(jù)。總體與樣本的概念詳見第2.1節(jié)。在方差分析中可將因素的每一個水平都看作一個總體,而樣本數(shù)據(jù)就是對應的觀察值。6.1.2基本思想7方差分析由英國統(tǒng)計學家羅納德?艾爾默?費歇爾于1923年提出,他在研究不同的混合肥料是否對馬鈴薯產(chǎn)量產(chǎn)生影響這一實驗中受到啟發(fā),提出了方差分析的思想并首次將其實現(xiàn)應用。方差分析通過數(shù)據(jù)的波動對因素的影響力進行衡量。方差分析的基本思想可概括為:通過分析不同來源的數(shù)據(jù)波動對總變異的貢獻大小來確定可控因素對研究結果影響力的大小,具體可通過對數(shù)據(jù)誤差來源的分析來判斷因素影響作用是否顯著。6.1.2基本思想8引入案例中,我們關注的問題是:貧困戶類型是否對貧困戶收入產(chǎn)生影響,或貧困戶類型不同對貧困戶收入的影響有多大?在這個問題中,我們探究的是貧困戶類型這一因素對收入情況的影響度。而調研數(shù)據(jù)本身會有波動,這種波動可用誤差來表示。例如,在某次調査中,因病致貧的貧困戶收入比因學致貧貧困戶收入少1000元,不能說明因病致貧的貧困戶收入比因學致貧收入少,但因病致貧的貧困戶收入比因學致貧貧困戶收入少1000元,那么可能就是由于貧困戶類型的不同造成貧困戶收入的不同。此時需要探討引起這種誤差的來源究竟是什么:導致因病致貧的貧困戶收入比因學致貧貧困戶收入不同的原因可能是貧困戶類型的不同,也可能是其他因素(如人們的居住環(huán)境、地方經(jīng)濟發(fā)展水平等)造成的。6.1.2基本思想9根據(jù)上述分析,我們將誤差來源分為系統(tǒng)誤差和隨機誤差兩類。系統(tǒng)誤差是指因素的不同水平(不同總體)之間觀察值的差異。如引例中貧困戶類型的不同造成的數(shù)據(jù)間的差異。隨機誤差是指因素的同一水平(總體)下,樣本各觀察值之間的差異,如引例中其他因素造成的數(shù)據(jù)間的差異。接下來就可以通過誤差來源來度量因素的影響度:如果系統(tǒng)誤差大得多,那么說明我們關注的因素對結果的影響程度較大;如果系統(tǒng)誤差和隨機誤差的大小差異不大,那么說明因素對結果的影響程度不大。6.1.2基本思想10在方差分析中,我們通過方差來衡量數(shù)據(jù)波動或數(shù)據(jù)變異(數(shù)據(jù)偏離均值)的程度:通過方差分解,將方差分解為水平間方差與水平內方差,這兩種方差分別隱含著系統(tǒng)因素與隨機因素造成的數(shù)據(jù)波動信息。分析兩類方差對總方差的貢獻度,從而確定研究的因素對問題結果的影響程度:如果數(shù)據(jù)誤差都是由隨機誤差造成的,那么水平間的方差與水平內的方差比值幾乎相等;如果數(shù)據(jù)誤差不僅包含隨機誤差,也包含系統(tǒng)誤差,那么兩方差之比就會比較大。按照上述思路就可以判斷所研究的因素對研究問題結果的影響程度,從而對我們關注的問題進行判斷。6.1.3一般提法和基本假定11方差分析的最終問題歸結為:通過一次分析解決多個水平的均值是否有顯著差異的問題。要分析自變量對因變量是否有影響,形式上即轉化為檢驗自變量的各個水平(總體)的均值是否相等,因此方差分析一般提法如下:設因子有k個水平,每個水平的均值分別用μ1,μ2,…,μk來表示,要檢驗k個水平(總體)的均值是否相等,需要提出如下假設:

H0:μ1=μ2=…=μk

,即自變量對因變量沒有顯著影響;

H1:

μ1,μ2,…,μk不全相等,即自變量對因變量有顯著影響。將方差分析的形式轉化為檢驗自變量各個水平的均值是否相等的問題時需要滿足方差分析的基本假定,即可加性、隨機性、正態(tài)性、方差齊性和獨立性。6.1.3一般提法和基本假定121.可加性——各效應可加可加性是方差分析最基本的假定,即觀測值是由各主效應、交互作用以及誤差相加到的。方差分析屬于一般線性模型的分支,樣本觀測值y是一系列效應之和。例如,在一個單因素完全隨機方差分析中,其中,共有a

個水平,每個水平下有

n個觀測值,即i=1,2,…,a,k=1,2,…,n。yik是在自變量第i個水平下第k個被試的觀測值,是自變量第i個水平的效應,在固定的水平下是一個定值。這個值表示了單獨由自變量的第i個水平帶來的效果;eik是在自變量第i個水平下對第k個被試值進行觀測時產(chǎn)生的誤差,是一個變量。6.1.3一般提法和基本假定131.可加性——各效應可加令且。簡單來說,就是計算出自變量的平均效應值,然后用各水平的效應減去均值,得到相對的效應值,那么。上面的模型可以寫為:。同理,如果是一個兩因素方差分析,可以將觀測值yijk認為是由總平均μ、A因素主效應αi、B因素主效應βi、A與B的交互作用rij以及誤差eijk相加得到,即其中,除了隨機誤差是隨機變量之外,其他的效應在固定的處理中都是定值。6.1.3一般提法和基本假定142.隨機性——各樣本是隨機樣本由上述可知,觀測值中只有誤差e是變量,其余的效應都是固定的,即在某個觀測值中是不變的。方差分析中樣本觀測值的隨機性體現(xiàn)在誤差上,即隨機性是針對變量e而言的,誤差e是一個隨機誤差,期望為0。因此,隨機性假設的意義為:在同樣條件下反復施測多次時,隨機誤差被抵消了,因此所有觀測結果的均值即為效應值。6.1.3一般提法和基本假定153.方差齊性——各樣本來自的總體方差相同在進行方差分析之前都會先進行方差齊性檢驗,通常用來比較各處理間的方差是否齊性,即比較某個水平下數(shù)據(jù)的方差與其他水平下數(shù)據(jù)的方差是否齊性。但基于yik是一個變量,因此方差齊性的實質即各隨機誤差方差齊性,并不僅僅是指各處理間的方差齊性。

方差分析的方差齊性假設可細分為兩個方面:①各處理內,每一個個體的方差齊性;②不同處理間,各樣本的方差齊性。通常來說,第一條比較容易滿足,而且,在一次取樣中每個個體只有一個觀測值,也沒有辦法比較每一個個體的方差,因此,方差齊性檢驗都是在處理間進行比較的,相當于已經(jīng)默認了各處理內的方差齊性。6.1.3一般提法和基本假定16

6.1.3一般提法和基本假定17

第2節(jié)單因素方差分析6.2.1數(shù)據(jù)結構6.2.2單因素方差分析的一般步驟6.2.3關系強度的測量與判定系數(shù)6.2.4多重比較本節(jié)介紹方差分析中較為簡單常用的、只涉及一種影響因素的單因素方差分析。186.2.1數(shù)據(jù)結構19單因素方差分析方法用于解決如何通過一次檢驗就檢驗出多個均值間是否存在差異的問題,研究定性自變量對于定量因變量的影響。單因素方差分析主要適用的數(shù)據(jù)類型為符合正態(tài)分布且對樣本容量無特別要求的定量數(shù)據(jù)。6.2.1數(shù)據(jù)結構20假設:單因素A具有k個水平,分別記為A1,A2,…,Ak;在每個水平Ai(i=1,2,…,k)下,要考察的指標可以看成一個總體,共有k個總體,每個總體均服從正態(tài)分布且方差相同;從每個總體中抽取的樣本Xi1,Xi2,…,Xini(

i=1,2,…,k)相互獨立,那么,單因素方差分析的數(shù)據(jù)結構如表6-2所示。注:從不同總體抽取的樣本數(shù)量可以相同也可以不同,即ni(i=1,2,…,k)可以取不同值,若取不同值,則是一個非平衡數(shù)據(jù)的單因素方差分析問題。6.2.2單因素方差分析的一般步驟21提出假設提出原假設H0:μ1=μ2=…=μk

表示自變量對因變量沒有顯著影響,而備擇假設H1:

μ1,μ2,…,μk不全相等則表示自變量對因變量有顯著影響。值得注意的是,若最終作岀決策為拒絕原假設,則表明至少有兩個總體的均值不相等,但不能說明所有均值都不相等。6.2.2單因素方差分析的一般步驟22構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:1)水平均值若從第i個總體中抽取出一個容量為ni的簡單隨機樣本,水平均值則是第i個總體的樣本均值,即用該樣本的全部觀察值之和除以觀察值的數(shù)量。公式表示為:式中,xij為第i個總體的第j個觀察值;ni為第i個總體的樣本觀察值個數(shù)。6.2.2單因素方差分析的一般步驟23構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:2)總體均值全部觀察值的總均值計算方法為利用全部觀察值的總和除以觀察值的總個數(shù),公式表示為:式中,n=n1+n2+…+nk。6.2.2單因素方差分析的一般步驟24構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:3)誤差平方和SS與方差相同,數(shù)據(jù)的誤差即偏離程度,一般用平方和(sumofsquares,SS)來表示,分為組內平方和與組間平方和。組內平方和是指因素在同一水平下數(shù)據(jù)誤差的平方和,刻畫同一水平下與均值的偏離程度。而組間平方和是指因素在不同水平之間的數(shù)據(jù)誤差的平方和,刻畫不同水平間數(shù)據(jù)的偏離程度。6.2.2單因素方差分析的一般步驟253)誤差平方和SS值得注意的是,組內平方和只受隨機因素影響,而組間平方和既包含隨機誤差也包含系統(tǒng)誤差。如在案例中,在只考慮貧困戶類型這一因素的條件下,如果僅分析老年貧困對應的貧困戶收入,那么貧困戶收入只受被調査者居住環(huán)境、地方經(jīng)濟發(fā)展狀況等隨機因素影響;如果分析的是4種不同貧困戶類型對應的貧困戶收入,那么貧困戶收入既受上述隨機誤差的影響,還可能受到因貧困戶類型差異帶來的系統(tǒng)誤差的影響,兩種誤差平方和的差異正是方差分析方法的切入點。6.2.2單因素方差分析的一般步驟26構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:4)總誤差平方和SST總誤差平方和(sumofsquaresfortotal,SST)是全部觀察值與總平均值之間的離差平方和,反映的是所有觀察值的離散狀況。計算公式為:6.2.2單因素方差分析的一般步驟27構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:5)組間平方和SSA組間平方和(sumofsquaresforfactorA,SSA)是各組平均值與總平均值之間的離差平方和,反映各個總體的樣本均值間的離散程度,它既包括隨機誤差也包括系統(tǒng)誤差。計算公式為:

6.2.2單因素方差分析的一般步驟28構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:6)組內平方和SSE組內平方和(sumofsquaresforerror,SSE)是每個水平或每個組的樣本數(shù)據(jù)與此組的平均值的離差平方和,它反映的是各個樣本觀察值的差異程度,它只由隨機誤差決定。計算公式表示為:6.2.2單因素方差分析的一般步驟29構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:7)誤差平方和分解式通過對案例進行計算不難發(fā)現(xiàn)SST=SSE+SSA,這種規(guī)律性不是巧合的,而是必然的結論,因為在上述方差分析思想中需要將總方差分解為組間方差與組內方差,所以此處代表數(shù)據(jù)波動的平方和也能相應地得到誤差平方和分解式。誤差平方和分解式SST=SSE+SSA的推導如下:6.2.2單因素方差分析的一般步驟307)誤差平方和分解式其中,因為需符合方差相等且各觀察值均符合正態(tài)分布,所以等式右邊:因此:即SST=SSE+SSA。6.2.2單因素方差分析的一般步驟31構造統(tǒng)計量一些統(tǒng)計量的概念與計算方法如下:8)均方由于誤差平方和的數(shù)值與觀察值的個數(shù)有關,為消除觀察值多少對誤差平方和的影響,需要將平方和平均,因此這里引入自由度(degreeoffreedom,df)的概念。自由度指的是計算某一統(tǒng)計量時取值不受限制的變量個數(shù),一般等于樣本數(shù)量減去被限制的條件或變量。舉例來說,現(xiàn)有4個變量a、b、c、d,如果已知a+b+c+d=l,那么,當a、b、c

有確定數(shù)值(如a=1、b=0、c=2)后,變量d的取值只能為-2,故4個變量中有3個變量可以自由變化,而當這3個變量的取值確定后最后一個變量的取值也被確定。因此,這4個變量的自由度為3。6.2.2單因素方差分析的一般步驟328)均方在上述離差平方和中,SST的樣本數(shù)量為觀察值總個數(shù)n,其約束條件為

,其自由度為n-1。SSA的樣本數(shù)量為因素水平的個數(shù)k個,而其約束條件為,其自由度為k-1。同理,SSE的樣本數(shù)量為n,但其約束條件為,共有k個,故其自由度為n-k。也可以看出,3個平方和自由度之間也滿足n-1=k-1+n-k的關系。6.2.2單因素方差分析的一般步驟33

6.2.2單因素方差分析的一般步驟34

6.2.2單因素方差分析的一般步驟353.進行F檢驗前面構造出F統(tǒng)計量=組間方差/組內方差,構建的原假設為各控制變量下的響應均值相等(μ1=μ2=…=μk

),即控制變量對響應變量無顯著性差異。原假設的均值都相等,所以對應到F統(tǒng)計量即組間方差較小。在本質上采用方差分析的方法進行假設檢驗的是統(tǒng)計量大于還是小于1的問題,因此方差分析是單側檢驗。利用概率P值判斷拒絕還是不拒絕原假設時,直接和顯著性水平α值(一般為0.05)對比即可。根據(jù)假設檢驗的原理,當顯著性水平α給定后,查表可得出相應第一自由度為k-1,第二自由度為n–k的F分布的P值,并將其與顯著性水平α進行比較。6.2.2單因素方差分析的一般步驟363.進行F檢驗當P值小于α時,我們拒絕原假設;當P值大于α時,我們不拒絕原假設。同樣的,我們也可以利用拒絕域來進行判斷,將統(tǒng)計量的值與臨界值Fα進行對比,從而作出相應的決策。如圖6-1所示,若F>Fα,則拒絕原假設H0,表明誤差部分來源于系統(tǒng)誤差,即均值之間的差異是顯著的,所以所檢驗的因素對觀察值有顯著影響;若F≤

Fα,則不拒絕H0,無法證明所檢驗的因素對觀察值有顯著影響。6.2.2單因素方差分析的一般步驟373.進行F檢驗方差分析表(見表6-3)更加清晰地展示各個統(tǒng)計量的關系,在進行方差分析時可以對表中各個統(tǒng)計量依次進行計算,最終將顯著性水平與P值進行比較,或將F統(tǒng)計量與臨界值比較,從而作出決策。6.2.2單因素方差分析的一般步驟38【例6.1】在本章引例中,若想探究是否施用政策這個因素對老年貧困的貧困戶收入的影響,則需要用到單因素方差分析的思想。老年貧困的貧困戶在實行政策前后收入如下:(單位:元)實行扶貧政策前∶4756.984788.614372.16實行扶貧政策后∶8139.086694.805399.91解:步驟一:提出假設。H0:μ1=μ2(即實行政策對貧困戶收入無顯著影響)H1:μ1

μ2(即實行政策對貧困戶收入有顯著影響)6.2.2單因素方差分析的一般步驟39步驟二:構造統(tǒng)計量。由數(shù)據(jù)得出單因素方差分析表如表6-4所示。步驟三:作出決策。由表6-4可以看出,P值小于顯著性水平0.05,所以我們拒絕原假設,認為在顯著性水平0.05下實行政策對貧困戶收入有顯著影響。6.2.3關系強度的測量與判定系數(shù)40在上述分析中,若最后決策為拒絕原假設H0,則表明誤差來源既有隨機因素又有系統(tǒng)因素,觀察值與自變量之間有顯著的關系。容易理解,只要組間平方和SSA不為0,兩變量之間就有關系;組內平方和SSE則是表現(xiàn)隨機誤差導致的數(shù)據(jù)誤差。當SSA比SSE大且到達一定程度時,誤差來源主要由組間誤差貢獻,故兩變量間的關系較顯著,且SSA比SSE大得越多此關系越強;反之,若SSA比SSE小得越多則它們間關系越不顯著。因此,我們可以利用上述特點引入關系強度來表現(xiàn)變量間的關系,關系強度的測定與判定系數(shù)R2密切相關,在此對判定系數(shù)進行介紹。6.2.3關系強度的測量與判定系數(shù)41定義6.2判定系數(shù)(coefficientofdetermination,記作R2):回歸平方和占總平方和的比例,稱為判定系數(shù),也稱為可決系數(shù)或決定系數(shù)。由定義可得:判定系數(shù)R2反映了因變量y取值的變差中能被估計的多元回歸方程所解釋的比例。由于R2=SSA/SST,SSA在區(qū)間[0,SST]范圍內,因此R2在區(qū)間[0.1]的范圍內。A6.2.3關系強度的測量與判定系數(shù)42當R2=1時,表示殘差平方和SSE=0,此時y值的變差完全用x的變化來解釋,各觀測點落在回歸直線上,回歸直線的擬合效果最好。當R2=0時,x完全無助于y的變差,回歸直線的擬合效果最差。R2在(0,1)范圍內時,越接近1,擬合效果越好。6.2.3關系強度的測量與判定系數(shù)43經(jīng)過變換,R2的表達式可以表達成:其中,括號內的部分是線性相關系數(shù)r,即R2=(r)2,相關系數(shù)r實際上是判定系數(shù)R2的平方根。因此,相關系數(shù)r也可以表示回歸直線的擬合優(yōu)度。|r|越接近1,則說明回歸直線擬合程度越好。但是,用r來表示擬合優(yōu)度的時候要慎重,因為r總是大于R2,例如,當r=0.5時,R2=0.25,只能解釋總變差的25%。6.2.3關系強度的測量與判定系數(shù)44

6.2.3關系強度的測量與判定系數(shù)45

6.2.3關系強度的測量與判定系數(shù)46值得注意的是,對于方差分析的結果解讀有兩個指標,即p值與R2,因此有4種情況:①p<α,R2很大;②p>α,R2很大;③p<α,R2很小;④p>α,R2很小。對指標可由以下方面來解讀:p值大小表示檢驗結果的可靠性,p值越小檢驗結果越顯著;而R2的大小表示自變量與因變量間關系的強弱。6.2.3關系強度的測量與判定系數(shù)47①p<α,R2很大;②p>α,R2很大;③p<α,R2很小;④p>α,R2很小。情況①是我們所希望的理想情況。情況②則一般不太可能出現(xiàn)。情況③在問卷分析中經(jīng)常遇到,這說明模型存在欠擬合的情況,預測的點和實際點差異較大,當不斷提高自變量個數(shù)時R2將會越來越大,自變量對因變量的影響還是很顯著。情況④則說明對于因變量的變化沒有考慮較為重要的因素,將隨機因素放入了誤差項,此時若采用單因素分析不能直接下結論說明檢驗不顯著,而應該考慮其他因素的影響,如采用雙因素方差分析重新分析問題。6.2.4多重比較48在進行單因素方差分析的過程中,我們發(fā)現(xiàn)無法通過“兩個總體均值不相等”推斷出“所有總體均值都不相等”的結論。那么,各個總體均值之間,究竟是哪一個或者幾個的均值與其他均值顯著不同?哪幾個因素的均值又無明顯差異?——為解決到底哪些均值存在差異的問題,引出多重比較的方法。多重比較是通過總體均值間的配對比較從而進一步檢驗存在差異的均值的方法。可以利用費歇爾提出的最小顯著差異(簡稱為LSD)法來解決問題。LSD方法是對檢驗兩個總體均值是否相等的t檢驗方法的總體方差估計加以修正(用MSE來代替)而得到的。6.2.4多重比較49值得注意的是,多重比較與兩兩配對檢驗的區(qū)別在于,多重比較是在方差分析得出均值間有顯著差異的基礎之上進行的,即多重比較是探究究竟是哪些均值間有差異,而兩兩配對檢驗是分別兩兩配對進行假設檢驗。換句話說,若F檢驗不顯著,則不能做多重比較檢驗。多重比較方法的具體步驟如下:步驟一:提岀假設。

H0:μi=μj(第i個總體均值等于第j個總體均值);

H1:μi≠

μj(第i個總體均值不等于第j個總體均值)。6.2.4多重比較50步驟二:計算檢驗的統(tǒng)計量。需要計算的統(tǒng)計量為步驟三:計算LSD。其中,tα為t分布臨界值,可査表獲得;自由度為n-k(n是樣本數(shù),k為水平個數(shù));MSE為組內方差;ni和nj為第i個和第j個樣本的樣本數(shù)。步驟四:進行決策。若,則拒絕假設H0;若,則不拒絕假設H0。6.2.4多重比較51【例6.2】在本章引例中,若只考慮貧困戶類型這個單因素對貧困戶收入情況的影響,數(shù)據(jù)如表6-5所示,可以通過單因素方差分析的一般步驟得到結論:貧困戶類型對貧困戶收入情況有顯著影響,但無法確定不同貧困戶類型的貧困戶收入數(shù)據(jù)得到的幾個均值間是否有顯著差異。我們可以利用多重比較法來進一步分析得出新的結論。6.2.4多重比較52解:由表6-5易得各組均值為:μ1=5858.59,μ2=6490.94,μ3=7189.01,μ4=11322.04,共有4組均值;將這4組均值兩兩配對后,通過提出假設、計算檢驗統(tǒng)計量、計算LSD、作出決策等步驟對兩兩配對的組進行分析。例如,對μ1=5858.59、μ2=6490.94進行分析:步驟一:提出假設。H0:μ1=μ2;H1:μ1

μ2步驟二:計算檢驗統(tǒng)計量。步驟三:計算LSD。步驟四:做出決策。

,即老年貧困與因病致貧貧困戶類型對貧困戶收入間無顯著差異。6.2.4多重比較53同理,對另外5個兩兩配對的組進行分析后,得到結論:計算結論老年貧困與因學致貧貧困戶類型對貧困戶收入間有顯著差異。老年貧困與受教育程度低貧困戶類型對貧困戶收入間有顯著差異。因病致貧與因學致貧貧困戶類型對貧困戶收入間無顯著差異。因病致貧與受教育程度低貧困戶類型對貧困戶收入間有顯著差異。因學致貧與受教育程度低貧困戶類型對貧困戶收入間有顯著差異。6.2.4多重比較54比LSD小得越多,說明第i個總體與第j

個總體的差異越小;反之,若比LSD大得越多,說明第i

個總體與第j個總體的差異越大。比如,上述計算結果中,老年貧困與受教育程度低貧困戶類型對貧困戶收入的影響差異就比老年貧困與因學致貧貧困戶類型對貧困戶收入間的影響差異更大。第3節(jié)雙因素方差分析6.3.1無重復試驗雙因素方差分析6.3.2有重復試驗雙因素方差分析6.3.3平衡數(shù)據(jù)的雙因素方差分析6.3.4雙因素方差分析的一般步驟55第3節(jié)雙因素方差分析實際問題中,試驗結果往往不止受到一個因素的影響,因此引出雙因素方差分析法。與單因素方差分析相同的是,雙因素方差分析方法也是用于解決如何通過一次檢驗出多個均值間是否存在差異的問題,且適用的數(shù)據(jù)類型同樣是分布為正態(tài)分布、對樣本容量無特別要求的定量數(shù)據(jù),而不同之處在于雙因素方差涉及兩個因素的分析(行因素與列因素)。下面對各種情況下的雙因素方差分析進行詳細介紹。566.3.1無重復試驗雙因素方差分析57無重復試驗的雙因素方差分析基本假定與單因素方差分析相同,即滿足每個總體均服從正態(tài)分布、各個總體方差必須相同以及觀察值之間是相互獨立的,且其數(shù)據(jù)不需要重復進行試驗得出。如果兩個因素對試驗結果的影響是相互獨立的,分別判斷行因素和列因素對試驗數(shù)據(jù)的影響,這時的雙因素方差分析稱為無重復試驗雙因素方差分析或無交互作用的雙因素方差分析。無重復試驗的雙因素方差分析數(shù)據(jù)結構一般如表6-6所示。6.3.1無重復試驗雙因素方差分析58

6.3.1無重復試驗雙因素方差分析59

6.3.1無重復試驗雙因素方差分析60

6.3.2有重復試驗雙因素方差分析61在雙(多)因素方差分析中會出現(xiàn)這樣一種現(xiàn)象,兩個以上因素對結果的影響不是獨立的,即因素不同水平的搭配會對數(shù)據(jù)造成影響,這種現(xiàn)象稱為交互作用。6.3.2有重復試驗雙因素方差分析62由于交互作用的影響,在進行雙因素方差分析時需要在同一條件下進行多次試驗,否則無法將交互作用的平方和從誤差平方和中分離出來,這種數(shù)據(jù)結構稱為有重復試驗的方差分析數(shù)據(jù)。有重復試驗的雙因素方差分析數(shù)據(jù)結構與無重復試驗的雙因素方差分析相同。適用的數(shù)據(jù)類型也是分布為正態(tài)分布、對樣本容量無特別要求的定量數(shù)據(jù)。6.3.2有重復試驗雙因素方差分析636.3.2有重復試驗雙因素方差分析646.3.3平衡數(shù)據(jù)的雙因素方差分析65在第6.2節(jié)的單因素方差分析數(shù)據(jù)結構中述及,從不同總體抽取的樣本數(shù)量可以相同也可以不同,即ni(i=1,2,…,k)可以取不同值。當從總體抽取的樣本數(shù)量相同時,即當n1=n2=…=nk時,可以定義這組數(shù)據(jù)為平衡數(shù)據(jù);當從總體抽取的樣本數(shù)量不全相同時,定義這組數(shù)據(jù)為非平衡數(shù)據(jù)。在研究的所有組別里,各組的樣本量是相同的數(shù)字(相同例數(shù)),則這樣的一組數(shù)據(jù)稱為平衡數(shù)據(jù);在研究的所有組別里,各組的樣本量是不同的數(shù)字(不同例數(shù)),則這樣的一組數(shù)據(jù)稱為非平衡數(shù)據(jù)。6.3.3平衡數(shù)據(jù)的雙因素方差分析66在機器學習與數(shù)據(jù)挖掘的研究中,很多算法都有一個基本假設,即數(shù)據(jù)分布是均勻的。當我們把這些算法直接應用于實際數(shù)據(jù)時,大多數(shù)情況下都無法取得理想的結果。因為實際數(shù)據(jù)往往分布得很不均勻,都會存在“長尾現(xiàn)象”。因此,在機器學習中需要對非平衡數(shù)據(jù)進行一系列處理。與機器學習中類似,在方差分析中的非平衡數(shù)據(jù),即各個水平下的樣本容量不相等、不同水平下試驗次數(shù)不完全相等的數(shù)據(jù),尤其是雙因素的非平衡數(shù)據(jù),也需要在解決問題時單獨考慮。6.3.3平衡數(shù)據(jù)的雙因素方差分析67非平衡數(shù)據(jù)的雙因素方差分析適用于符合正態(tài)分布且對樣本容量無特別要求的定量數(shù)據(jù),它的數(shù)據(jù)結構表如表6-8所示。6.3.3平衡數(shù)據(jù)的雙因素方差分析686.3.3平衡數(shù)據(jù)的雙因素方差分析69為更好地說明平衡數(shù)據(jù)結構與非平衡數(shù)據(jù)結構的差異,把引入案例中的平衡數(shù)據(jù)改為非平衡數(shù)據(jù),即調査過程中不是各組均調査3次,而是各組調査次數(shù)不同,得到的調査結果如表6-9所示。該例子的分析將會在例6.4中呈現(xiàn)。6.3.4雙因素方差分析的一般步驟70對于無重復與有重復試驗的雙因素方差分析,一般步驟如下:步驟一:提出假設。

對行因素提出的假設為:

H0:

μ1=μ2=…=μi=…=μk(μi為第i個水平的均值)

H1:μi(i=1,2,…,k)不全相等。

對列因素提出的假設為:

H0:

μ1=μ2=…=μj=…=μr(μj為第j個水平的均值)

H1:μj(j=1,2,…,r)不全相等。此外,對于有重復試驗雙因素方差分析,對兩因素的交互作用提出的假設為:

H0:交互作用的影響不顯著;H1:交互作用的影響顯著。6.3.4雙因素方差分析的一般步驟71步驟二:構造統(tǒng)計量——1.計算平方和SS對于無重復試驗雙因素方差分析,其因素誤差包含兩部分,總誤差平方和SST可以分解為行因素誤差平方和SSR與列因素誤差平方和SSC以及隨機誤差平方和SSE。各平方和計算公式如下:容易得到與單因素方差分析時相似的誤差平方和之間的關系:6.3.4雙因素方差分析的一般步驟72步驟二:構造統(tǒng)計量——1.計算平方和SS

而在有交互作用的重復試驗雙因素方差分析中,總誤差平方和SST可以分解為行變量平方和SSR、列變量平方和SSC、交互作用平方和SSRC以及誤差項平方和SSE,故相應的均方值也包含4項,進行檢驗的F值有3項。計算公式如下:6.3.4雙因素方差分析的一般步驟73步驟二:構造統(tǒng)計量——2.計算均方MS均方由誤差平方和除以相應的自由度得到。在無重復試驗的雙因素方差分析中,總誤差平方和SST自由度為kr-1,行因素誤差平方和SSR自由度為k-1,列因素誤差平方和SSC自由度為r-1,隨機誤差平方和SSE自由度為(k-1)(r-l),故可以得到相應的均方MSR、MSC、MSE:有交互作用的雙因素方差分析中:兩因素交互作用自由度為(k-1)(r-l),誤差平方和自由度為kr(m-1),可以得到相應的MSR、MSC、MSRC、MSE:6.3.4雙因素方差分析的一般步驟74步驟二:構造統(tǒng)計量——3.計算檢驗統(tǒng)計量F根據(jù)均方結果可以構造出相應的F統(tǒng)計量。檢驗行因素統(tǒng)計量:檢驗列因素統(tǒng)計量:對于有交互作用的方差分析,分別構造檢驗行因素、列因素和交互作用的統(tǒng)計量:6.3.4雙因素方差分析的一般步驟75步驟三:進行F檢驗作出決策總誤差平方和:與單因素方差分析相同,將統(tǒng)計量的值F與顯著性水平α下的臨界值Fα(可查表獲得)進行比較,從而作出決策。例如,在對行因素進行方差分析時,若FR>Fα則拒絕原假設H0,即表明均值間的差異是顯著的,所檢驗的行因素對觀察值有顯著影響;若FR<Fα則不拒絕原假設H0,表明行因素對觀察值無顯著影響。在對列因素方差分析及交互作用方差分析時同理。6.3.4雙因素方差分析的一般步驟76步驟三:進行F檢驗作出決策為更淸晰地表示雙因素方差分析基本結構,下面給出無重復實驗與有重復實驗的雙因素方差分析表,如表6-10、表6-11所示。6.3.4雙因素方差分析的一般步驟77步驟三:進行F檢驗作出決策為更淸晰地表示雙因素方差分析基本結構,下面給出無重復實驗與有重復實驗的雙因素方差分析表,如表6-10、表6-11所示。6.3.4雙因素方差分析的一般步驟78步驟四:雙因素方差分析下的關系強度的測量在雙因素方差分析下,SSR與SSC分別表示兩個自變量對因變量的影響效應,SSR與SSC之和則反應了兩個自變量對因變量的聯(lián)合效應,在此定義R2=(SSR+SSC)/SST,其平方根R則表示兩個自變量與因變量的關系強度。值得注意的是,對于方差分析的結果解讀有兩個指標,即P值與R2,因此有4種情況:①P<α,R2很小;②P<α,R2很大;③P>α,R2很小;④P<α,R2很大。6.3.4雙因素方差分析的一般步驟79步驟四:雙因素方差分析下的關系強度的測量指標可解讀為:P值大小表示檢驗結果的可靠性,P值越小檢驗結果越顯著;而R2的大小表示自變量與因變量間關系的強弱。例如,當P<α且R2很小時,表明因變量的變化可能主要由誤差項引起。以上為無重復試驗及有重復試驗雙因素方差分析的一般步驟。而對于非平衡數(shù)據(jù)的雙因素方差分析,雖然每個水平下樣本容量不全相等,但上述的方差分析方法依舊適用。下面通過例題來進一步闡述雙因素方差分析的應用。6.3.4雙因素方差分析的一般步驟80【例6.3】用雙因素方差分析的步驟對引入案例進行分析。解:步驟一:提出假設。

對于行因素:H0:貧困戶類型對貧困戶收入的影響不顯著;H1:貧困戶類型對貧困戶收入的影響顯著。

對于列因素:H0:實行政策對貧困戶收入影響不顯著;H1:實行政策對貧困戶收入影響顯著。

對于行因素與列因素的交互作用:H0:行因素與列因素的交互作用的影響不顯著;H1:行因素與列因素的交互作用的影響顯著。6.3.4雙因素方差分析的一般步驟81步驟二:構造統(tǒng)計量。根據(jù)表中數(shù)據(jù)計算出的方差分析表如表6-12所示。步驟三:作出決策。表6-12展示了方差分析方法中所用的指標,包括行因素(貧困戶類型)、列因素(實行政策)以及兩者交互作用的離差平方和(SS)、自由度(df)、均方(MS)與P值。6.3.4雙因素方差分析的一般步驟82在進行分析時我們主要根據(jù)P值來決策,當顯著性水平α=0.05時,對于行因素(貧困戶類型),

P值小于顯著性水平,故選擇拒絕原假設即認為貧困戶類型對貧困戶收入有顯著影響。同理,對于列因素(實行政策),由于P值也明顯小于顯著性水平,故也拒絕原假設即認為實行政策對貧困戶收入有顯著影響。對于兩因素交互作用,同樣是由于

P>α,故不拒絕原假設,即認為兩因素交互作用對貧困戶收入沒有顯著影響。因此,最終的結論是:貧困戶類型和實行政策都是貧困戶收入的影響因素,但兩者的交互作用對貧困戶收入的影響卻不大。6.3.4雙因素方差分析的一般步驟83【例6.4】若把引入案例中的平衡數(shù)據(jù)改為非平衡數(shù)據(jù),即調査過程中不是各組均調査3次,而是各組調査次數(shù)不同,得到的調査結果如表6-9所示,請分析此時貧困戶類型、實行政策對貧困戶收入是否仍然有顯著影響。6.3.4雙因素方差分析的一般步驟84解:步驟一:提出假設。

對于行因素:H0:貧困戶類型對貧困戶收入的影響不顯著;H1:貧困戶類型對貧困戶收入的影響顯著。

對于列因素:H0:實行政策對貧困戶收入影響不顯著;H1:實行政策對貧困戶收入影響顯著。

對于行因素與列因素的交互作用:H0:行因素與列因素的交互作用的影響不顯著;H1:行因素與列因素的交互作用的影響顯著。6.3.4雙因素方差分析的一般步驟85步驟二:構造統(tǒng)計量。可以根據(jù)數(shù)據(jù)計算出各統(tǒng)計量,其方差分析表如表6-13所示:6.3.4雙因素方差分析的一般步驟86步驟三:作出決策。與例6.3一樣,表6-13也展示了方差分析的主要指標,可以看到取顯著性水平α=0.05時,對于行因素(貧困戶類型)、列因素(實行政策)均有P值明顯小于顯著性水平,即P<α,所以選擇拒絕原假設,認為貧困戶類型、實行政策對貧困戶收入都有顯著影響,但二者交互作用有P>α,不拒絕原假設,認為二者交互作用對貧困戶收入無顯著影響。第6節(jié)SPSS應用舉例6.4.1單因素方差分析與多重比較SPSS操作6.4.2有重復試驗的雙因素方差分析SPSS操作步驟6.4.3非平衡數(shù)據(jù)的方差分析SPSS操作6.4.4選項說明本節(jié)將介紹方差分析在軟件SPSS中的應用。由于方差分析在單因素方差分析、無重復試驗雙因素方差分析、有重復試驗雙因素方差分析幾種方法下略有不同,故本節(jié)將通過3個例子展示相應操作步驟。8788利用SPSS對例6.1即實行政策對老年貧困的貧困戶收入情況是否有顯著影響的問題進行單因素方差分析,具體操作步驟如下:第一步:在【數(shù)據(jù)視圖】中輸入貧困戶收入與實行政策的數(shù)據(jù),實行政策前用數(shù)字0表示,實行政策后用數(shù)字1表示,如圖6-3所示;在【變量視圖】中,對實行政策的值進行編輯,規(guī)定數(shù)字0、1的實際意義。6.4.1單因素方差分析與多重比較SPSS操作89第二步:依次點擊【分析】→【比較均值】→【單因素ANOVA檢驗】,進入“單因素ANOVA檢驗”對話框,并將貧困戶收入作為因變量,實行政策作為因子,如圖6-5所示。6.4.1單因素方差分析與多重比較SPSS操作90第三步:點擊【確定】后,得到輸出結果,如表6-14、表6-15所示。SPSS得到的結果與在例6.1求解計算的結果相同,驗證了結果的正確性。6.4.1單因素方差分析與多重比較SPSS操作91下面通過例6.3展示有交互作用的雙因素方差分析SPSS具體操作步驟。第一步:導入數(shù)據(jù),如圖6-6所示。6.4.2有重復試驗的雙因素方差分析

SPSS操作步驟92第二步:與無重復試驗雙因素方差分析相似,依次點擊【分析】→【一般線性模型】→【單變量】進入“單變量”對話框,將貧困戶收入放入因變量列表,在固定因子列表放入貧困戶類型與實行政策兩個變量,如圖6-7所示。6.4.2有重復試驗的雙因素方差分析

SPSS操作步驟93第三步:點擊【模型】進入“單變量:模型”對話框,選擇【構建項】,首先在類型處選擇【主效應】,將實行政策與貧困戶類型選入模型列表,再在類型處選擇【交互】,并利用“Ctrl”按鍵同時選擇【實行政策】、【貧困戶類型】,勾選【在模型中包括截距】,如圖6-8所示,點擊【繼續(xù)】回到主對話框,點擊【確定】即可得到輸出結果。6.4.2有重復試驗的雙因素方差分析

SPSS操作步驟94輸出結果如表6-16所示,SPSS計算出相應結果與例6.3結果一致。6.4.2有重復試驗的雙因素方差分析

SPSS操作步驟95由表6-16可以看出,SPSS軟件能直接輸岀6.1節(jié)中述及的大部分指標,若僅僅做的是方差分析,則離差平方和與均方使用較少,直接使用F值或P值進行檢驗。在進行F檢驗時,其中,含行因素自由度為k-1,列因素自由度為r-1,交互作用自由度為(k-l)(r-l),自由度也可以由表6-16得出,因此直接查閱F值臨界表即可進行檢驗,F(xiàn)值越大表示回歸模型方差與殘差比值越小,通過檢驗可能性越大。另外,也可以查閱對于顯著水平的P值臨界值做檢驗,P值越小表示原假設發(fā)生的概率越小,更有理由拒絕原假設。6.4.2有重復試驗的雙因素方差分析

SPSS操作步驟96SPSS中對于平衡數(shù)據(jù)與非平衡數(shù)據(jù)都可以進行方差分析,因此,對例6.4(即對引例改編的非平衡數(shù)據(jù)例),我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論