




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第9章方差分析PowerPoint統計學第9章方差分析PowerPoint統計學1主要內容一、方差分析及其有關術語二、方差分析的基本思想和原理三、單因素方差分析四、雙因素方差分析主要內容一、方差分析及其有關術語29.1方差分析概述9.1方差分析概述39.1.1什么是方差分析1.檢驗多個總體均值是否相等的統計方法,稱為方差分析。研究分類型變量與數值型變量之間有無關系、關系的強度。方法:通過檢驗各總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著的影響。2.有單因素方差分析和雙因素方差分析單因素方差分析:只涉及一個分類型自變量對數值型因變量的影響;雙因素方差分析:涉及兩個分類型自變量對數值型因變量的影響9.1.1什么是方差分析1.檢驗多個總體均值是否相等的統4消費者對四個行業的投訴次數行業觀測值零售業旅游業航空公司家電制造業12345675766494034534468392945565131492134404451657758【例】為了對幾個行業的服務質量進行評價,消費者協會在四個行業分別抽取了不同的企業作為樣本。據統計,最近一年中消費者對總共23家企業投訴的次數如下表消費者對四個行業的投訴次數行業觀測值零售業旅游業航空公司家5
分析四個行業之間的服務質量是否有顯著差異,也就是要判斷“行業”對“投訴次數”是否有顯著影響一般而言,如果它們的均值相等,就意味著它們之間的服務質量沒有顯著差異;如果均值不全相等,則意味著它們之間的服務質量有顯著差異要分析四個行業的服務質量是否有顯著差異,可以歸結為檢驗這四個行業被投訴次數的均值是否相等。
分析四個行業之間的服務質量是否有顯著差異,也就是要判斷“行69.1.2方差分析的有關術語
1.因素或因子在方差分析中,所要檢驗的對象稱為因素或因子;上例中,要分析行業對投訴次數是否有影響,行業是所要檢驗的對象——因素或因子。2.水平或處理因素的不同表現稱為水平或處理;零售業、旅游業、航空公司、家電制造業是“行業”這一因素的具體表現,稱為水平或處理。本例有四個水平。9.1.2方差分析的有關術語1.因素或因子73.觀測值每個水平下的樣本數據稱為觀測值。本例不同行業的投訴次數就是觀測值
。4.總體因素的每一個水平可以看做是一個總體。如零售業、旅游業等。5.樣本數據調查得到的數據可以看做從總體中抽取的樣本數據。本例各行業的被投訴次數即為樣本數據。
3.觀測值8本例是只涉及一個分類型自變量——行業和數值型因變量——被投訴次數,故是單因素方差分析;是要研究“行業”對“投訴次數”的影響。零售業、旅游業、航空公司、家電制造業是“行業”這一分類型自變量的具體取值,“投訴次數”是因變量,它是一個數值型變量,不同的投訴次數就是因變量的具體取值。本例是只涉及一個分類型自變量——行業和數值型因變量——被投訴99.1.3方差分析的基本思想和原理9.1.3方差分析的基本思想和原理10圖形分析零售業旅游業航空公司家電制造圖形分析零售業旅游業11從散點圖上可以看出不同行業被投訴的次數是有明顯差異的即使是在同一個行業,不同企業被投訴的次數也明顯不同家電制造業被投訴的次數較高,航空公司被投訴的次數較低行業與被投訴次數之間有一定的關系如果行業與被投訴次數之間沒有關系,那么它們被投訴的次數應該差不多相同,在散點圖上所呈現的模式也就應該很接近從散點圖上可以看出12僅從散點圖上觀察還不能提供充分的證據證明不同行業被投訴的次數之間有顯著差異,因為這種差異也可能是由于抽樣的隨機性所造成的。需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析。
因為我們感興趣的是均值,但在判斷均值之間是否有差異時需借助于方差,所以叫方差分析。這個名字也表示:它是通過對數據誤差來源的分析,來判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數據誤差的來源。
僅從散點圖上觀察還不能提供充分的證據證明不同行業被投訴的次數13關于誤差隨機誤差因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一行業下不同企業被投訴次數是不同的這種差異可以看成是隨機因素的影響,稱為隨機誤差
系統誤差因素的不同水平(不同總體)下,各觀察值之間的差異。比如,不同行業之間的被投訴次數之間的差異這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業本身所造成的,后者所形成的誤差是由系統性因素造成的,稱為系統誤差關于誤差隨機誤差14
組內方差因素的同一水平(同一個總體)下樣本數據的方差比如,零售業被投訴次數的方差組內方差只包含隨機誤差組間方差因素的不同水平(不同總體)下各樣本之間的方差比如,四個行業被投訴次數之間的方差組間方差既包括隨機誤差,也包括系統誤差反映誤差的指標——方差
組內方差反映誤差的指標——方差15
若不同行業對投訴次數沒有影響,則組間方差中只包含隨機誤差,沒有系統誤差。這時,組間方差與組內方差的比值就會接近1若不同行業對投訴次數有影響,在組間方差中除了包含隨機誤差外,還會包含有系統誤差,這時它們之間的比值就會大于1當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響關于兩個方差的比值
若不同行業對投訴次數沒有影響,則組間方差中只包含隨機誤差,16判斷行業對被投訴次數是否有顯著影響,實際上是檢驗被投訴次數的差異主要是由于什么原因所引起的。如果這種差異主要是系統誤差,則說明不同行業對被投訴次數有顯著影響。判斷行業對被投訴次數是否有顯著影響,實際上是檢驗被投訴次數的179.1.4方差分析的基本假定1.每個總體都服從正態分布。2.各個總體的方差必須相同。3.觀測值是獨立的。在上述假定下,要分析自變量對因變量是否有影響,實際上就是要檢驗自變量的各個水平的均值是否相等。盡管我們不知道4個總體的均值,但可以用樣本數據來檢驗它們是否相等。如果4個總體的均值相等,可以期望4個樣本均值也非常接近。9.1.4方差分析的基本假定1.每個總體都服從正態分布189.2單因素方差分析9.2單因素方差分析19要點:一、數據結構二、分析步驟三、關系強度四、Excel的應用要點:一、數據結構209.2.1單因素方差分析的數據結構觀察值(j)因素(A
i)
水平A1水平A2
…水平Ak12::n
x11x21…xk1x12x22…xk2::::::::x1n
x2n…xkn9.2.1單因素方差分析的數據結構觀察值(j)因素(219.2.2單因素方差分析1.提出假設2.計算均值誤差平方和方差3.構造并計算檢驗統計量4.統計決策
9.2.2單因素方差分析1.提出假設221.提出假設一般提法H0:m1=m2=…=
mk自變量對因變量沒有顯著影響
H1:m1,m2,…,mk不全相等自變量對因變量有顯著影響
注意:拒絕原假設,并不意味著所有的均值都不相等1.提出假設一般提法232.計算均值:各水平的均值、全部觀察值的均值誤差平方和:總誤差平方和SST、水平項平方和SSA、誤差項平方和SSE均方(方差):總方差、組間方差、組內方差2.計算均值:各水平的均值、全部觀察值的均值24各水平均值的計算公式為
全部觀察值的總均值計算均值各水平均值的計算公式為全部觀察值的總均值計算均值25計算平方和方差組內SSEMSE組間(水平)SSAMSA總SSTMST計算平方和方差組內SSEMSE組間(水平)SSAMSA總SS26總誤差平方和SST全部觀察值與總平均值的離差平方和反映全部觀察值的離散狀況其計算公式為總誤差平方和SST全部觀察值與總平均值的27水平項平方和SSA各組(水平)平均值與總平均值的離差平方和反映各組的樣本均值之間的差異程度,又稱組間平方和該平方和既包括隨機誤差,也包括系統誤差計算公式為水平項平方和SSA各組(水平)平均值28誤差項平方和SSE各組數據與其組平均值的離差平方和反映樣本中觀察值的離散狀況,又稱組內平方和該平方和反映的是隨機誤差的大小計算公式為誤差項平方和SSE各組數據與其組平均值的離差平方和29三個平方和的關系總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和(SSA)之間的關系SST=SSA+SSE三個平方和的關系總離差平方和(SST)、誤差項離差平方和(S30方差MS各誤差平方和的大小與觀察值的多少有關,為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差計算方法是用誤差平方和除以相應的自由度三個平方和對應的自由度分別是SST
的自由度為n-1,n為全部觀察值的個數SSA的自由度為k-1,k為因素水平(總體)的個數SSE的自由度為n-k方差MS各誤差平方和的大小與觀察值的多少有關,為消除觀察值多31計算方差組間方差MSA
:組內方差MSE
:計算方差計算方差組間方差MSA:組內方差MSE:計算方差323.構造檢驗的統計量將MSA和MSE進行對比,即得到檢驗統計量F當H0為真時,F服從分子自由度(第一自由度)為k-1、分母自由度(第二自由度)為n-k的F分布。3.構造檢驗的統計量將MSA和MSE進行對比,即得到檢驗統計33F分布與拒絕域如果均值相等,F=MSA/MSE1a
F分布F(k-1,n-k)0拒絕H0不拒絕H0FF分布與拒絕域如果均值相等,F=MSA/MSE1aF344.統計決策
根據給定的顯著性水平,在F分布表中查找與第一自由度(分子自由度)df1=k-1、第二自由度(分子自由度)df2=n-k
相應的臨界值F
若F>F,則拒絕H0,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若F<F,則不拒絕H0,不能認為所檢驗的因素對觀察值有顯著影響4.統計決策根據給定的顯著性水平,在F分布表中查找與第一35例題分析消費者對四個行業的投訴次數行業觀測值零售業旅游業航空公司家電制造業12345675766494034534468392945565131492134404451657758【例】為了對幾個行業的服務質量進行評價,消費者協會在四個行業分別抽取了不同的企業作為樣本。據統計,最近一年中消費者對總共23家企業投訴的次數如下表例題分析消費者對四個行業的投訴次數行業觀測值零售業旅游業航361.提出假設:原假設H0:μ1=μ2=μ3=μ4
即:四個行業被投訴的次數相等,行業對被投訴次數沒有影響。備擇假設H1:μi不完全相等
即:四個行業的被投訴次數不完全相等,行業對被投訴次數有影響。觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值1.提出假設:觀測值行業零售業旅游業航空公司家電制造業157372.計算均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值2.計算均值觀測值行業零售業旅游業航空公司家電制造業157638計算誤差平方和(260-261頁)
總誤差平方和=4146.608696水平項平方和(組間平方和)
=7*(49-47.869565)2+6*(48-47.869565)2+5*(35-47.869565)2+5*(59-47.869565)2=1456.608695誤差項平方和(組內平方和)SSE先求出每個行業被投訴次數與其平均值的誤差平方和,然后將其加總,即為SSE:零售業:=(57-49)2+(66-49)2+(49-49)2+……+(44-49)2=700旅游業:=(68-48)2+(39-48)2+(29-48)2+……+(51-48)2=924航空公司:=(31-35)2+(49-35)2+(21-35)2+……+(40-35)2=434家電制造業:=(44-59)2+(51-59)2+(65-59)2+……+(58-59)2=650加總得:=700+924+434+650=2708計算誤差平方和(260-261頁)總誤差平方和39三個平方和的關系
4164.608696=1456.608696+2708SST=SSA+SSE三個平方和的關系SST=SSA+SSE40計算方差(均方)組間方差MSA=
組內方差MSE=計算方差(均方)組間方差組內方差MSE41F=3.構造并計算檢驗統計量FF=3.構造并計算檢驗統計量F424.統計決策設顯著性水平為0.05,根據分子自由度df1=k-1=4-1=3和分母自由度df2=n-k=23-4=19,查F分布表得到臨界值F0.05(3,19)=3.13,由于F=3.406643大于F0.05
=3.13,故拒絕H0,即可以認為行業對投訴次數有顯著的影響,不同行業的服務質量有顯著差異。4.統計決策設顯著性水平為0.05,43
為了使計算過程更加清晰,通常將上述過程的內容列在一張表上,這就是方差分析表,其一般形式如:
為了使計算過程更加清晰,通常將上述過程的內容列在一張表上,44誤差來源平方和SS自由度df均方MSF值P值F臨界值組間(因素影響)SSAk-1MSAMSA/MSE
組內(誤差)SSEn-kMSE
總和SSTn-1
誤差來源平方和SS自由度df方差MSF值P值F臨界值組間(因素影響)1456.6086963485.5362323.4066430.03876453.1273544組內(誤差)270819142.526316
總和4164.60869622
誤差來源平方和自由度均方F值P值F臨界值組間(因素影響)SS459.2.3關系強度的測量9.2.3關系強度的測量46拒絕原假設表明因素(自變量)與觀測值之間有關系組間平方和(SSA)度量了自變量(行業)對因變量(投訴次數)的影響效應當組間平方和比組內平方和(SSE)大,而且大到一定程度時,就意味著兩個變量之間的關系顯著,大得越多,表明這它們之間的關系就越強。反之,就意味著兩個變量之間的關系不顯著,小得越多,表明它們之間的關系就越弱拒絕原假設表明因素(自變量)與觀測值之間有關系47關系強度的測量
變量間關系的強度用組間平方和(SSA)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2,即其平方根R可以用來測量兩個變量之間的關系強度關系強度的測量變量間關系的強度用組間平方和(SSA)占總48例題分析
R=0.591404結論:行業(自變量)對投訴次數(因變量)的影響效應占總效應的34.9759%,而殘差效應則占65.0241%。即行業對投訴次數差異解釋的比例達到近35%,而其他因素(殘差變量)所解釋的比例近為65%以上
R=0.591404,表明行業與投訴次數之間有中等以上的關系
例題分析499.2.4Excel的應用1.列出數據結構表;2.工具-數據分析-單因素方差分析-確定;3.在“數據區域”中引用數據結構表中的數據(各水平的縱標目和數值)等;4.根據輸出結果做出統計決策。9.2.4Excel的應用50Excel輸出結果Excel輸出結果51用P值做統計決策在統計決策時,可以直接利用方差分析表中的P值做統計決策:若P?α,則拒絕原假設在本例中,P=0.038765,小于0.05,所以拒絕原假設,即行業對投訴次數的影響是顯著的。
用P值做統計決策在統計決策時,可以直接利用方差分析表中的P值529.2.5方差分析中的多重比較比較檢驗到底哪些均值之間存在差異可采用最小顯著差異方法,簡寫為LSD9.2.5方差分析中的多重比較比較檢驗到底哪些均值之間存在差53多重比較的步驟1.提出假設H0:mi=mj(第i個總體的均值等于第j個總體的均值)H1:mi
mj(第i個總體的均值不等于第j個總體的均值)2.計算檢驗的統計量:3.計算LSD4.決策:若,拒絕H0;若
,不拒絕H0多重比較的步驟1.提出假設54多重比較例題分析1.提出假設檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:多重比較例題分析1.提出假設55多重比較例題分析2.計算檢驗統計量檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:多重比較例題分析2.計算檢驗統計量56多重比較例題分析3.計算LSD檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:多重比較例題分析3.計算LSD57多重比較例題分析4.作出決策零售業與旅游業均值之間沒有顯著差異
零售業與航空公司均值之間有顯著差異零售業與家電業均值之間沒有顯著差異旅游業與航空業均值之間沒有顯著差異旅游業與家電業均值之間沒有顯著差異航空業與家電業均值有顯著差異多重比較例題分析4.作出決策零售業與旅游業均值之間沒有顯著差589.3
雙因素方差分析
雙因素方差分析及其類型無交互作用的雙因素方差分析有交互作用的雙因素方差分析9.3雙因素方差分析
雙因素方差分析及其類型599.3.1什么是雙因素方差分析9.3.1什么是雙因素方差分析60什么是雙因素方差分析單因素方差分析只考慮一個分類型自變量對一個數值型因變量的影響。研究兩個分類型自變量對一個數值型因變量影響的分析就是雙因素方差分析。例如,分析彩電銷售量與品牌、銷售地區或與價格、質量等因素的影響。什么是雙因素方差分析單因素方差分析只考慮一個分類型自變量對一61例有四個品牌的電視機在5個地區銷售,為了解彩電的品牌和銷售地區對銷售量是否有影響,對每種品牌在各地區的銷售量取得以下數據。試分析品牌和銷售地區對彩電的銷售量是否有顯著影響。(α=0.05)例有四個品牌的電視機在5個地區銷售,為了解彩電的品牌和銷售62不同地區各品牌電視機銷售量
地區1地區2地區3地區4地區5品牌1365350343340323品牌2345368363330333品牌3358323353343308品牌4288280298260298不同地區各品牌電視機銷售量地區1地區2地區3地區4地區5品639.3.2雙因素方差分析的類型1.無交互作用的雙因素方差分析若兩個分類型自變量因素對一個數值型因變量的影響是相互獨立的,稱為無交互作用的或無重復雙因素方差分析;2.有交互作用的雙因素方差分析除了兩個分類型自變量因素對一個數值型因變量的有影響外,兩個因素搭配還會對因變量產生一種新的影響效應,例如,某個地區對某種品牌的彩電有特殊的偏好,這就是兩個因素結合后產生的新效應,這時的雙因素分析稱為有交互作用的或重復雙因素方差分析。
9.3.2雙因素方差分析的類型1.無交互作用的雙因素方649.3.3無交互作用的雙因素方差分析9.3.3無交互作用的雙因素方差分析65
地區1地區2地區3地區4地區5品牌1365350343340323品牌2345368363330333品牌3358323353343308品牌4288280298260298雙因素方差分析的數據結構地區1地區2地區3地區4地區5品牌13653503433466分析步驟
1.提出假設
2.計算誤差平方和、方差3.計算檢驗統計量4.統計決策分析步驟1.提出假設67例題分析1.提出假設:行因素(品牌)H0:μ1=μ2=μ3=μ4……=μn
品牌對銷售量沒有影響H1:μi不完全相等
品牌對銷售量有顯著影響列因素(地區)
H0:μ1=μ2=μ3=μ4…=
μn
地區對銷售量沒有影響
H1:μi不完全相等
地區對銷售量有顯著影響例題分析1.提出假設:682.計算均值、誤差平方和、方差計算機計算結果如下:2.計算均值、誤差平方和、方差計算機計算結果如下:69第章方差分析(現)課件703.計算檢驗統計量行因素的檢驗統計量
列因素的檢驗統計量用Excel計算的結果如下:3.計算檢驗統計量行因素的檢驗統計量71第章方差分析(現)課件724.統計決策從計算表中看出FR?Fα,即18.1?3.4903所以拒絕原假設,說明品牌對銷售量有顯著的影響
Fc?Fα,即2.1?3.259160,所以接受原假設,說明地區對銷售量沒有顯著影響用P值進行分析,結論相同。4.統計決策從計算表中看出73關于強度的測定上面的分析結果表明,品牌對銷售量有顯著的影響,而地區對銷售量之間的關系是不顯著的,那么,這兩個因素合起來與銷售量之間的關系強度如何呢?計算聯合效應與總平方和的比值R2,其平方根則反映了這兩個自變量和起來與因變量之間的關系強度,即:
關于強度的測定上面的分析結果表明,品牌對銷售量有顯著的影響,74計算結果表明,品牌和地區因素和起來總共解釋了銷售量差異的83.94%,其它因素(殘差變量)只解釋了銷售量差異的16.06%。R=0.9162則表明品牌和地區兩個因素和起來與銷售量之間有較強的關系。
計算結果表明,品牌和地區因素和起來總共解釋了銷售量差異的83759.3.4有交互作用的雙因素方差分析
(可重復雙因素分析)9.3.4有交互作用的雙因素方差分析
(可重復雙因素分析76例題分析
城市道路交通管理部門為研究不同的路段和不同的時間段對行車時間的影響,讓一名交通警察分別在兩個路段和高峰期與非高峰期親自駕車進行試驗,通過試驗共獲得20個行車時間(分鐘)的數據。試分析路段、時段以及路段和時段的交互作用對行車時間的影響。調查資料和方差分析數據結構表如下:例題分析
城市道路交通管理部門為研究不同的路段和不同的時間段77第章方差分析(現)課件78可重復雙因素分析的平方和的計算總平方和:行變量平方和:列變量平方和:交互作用平方和:誤差項平方和:可重復雙因素分析的平方和的計算總平方和:79Excel計算結果如下:Excel計算結果如下:80第章方差分析(現)課件81統計決策時段(行)因素FR=44.06329>
=4.493998,拒絕原假設路段(列)因素
FC=23.40506>
=4.493998,拒絕原假設兩因素的交互作用
FRC=0.012658<
=4.493998,接受原假設
結論:在顯著性水平0.05下,時段和路段都對行車時間有顯著的影響,但兩者的配合對行車時間無顯著作用,即時段和路段無交互作用。
統計決策時段(行)因素FR=44.06329>=4.49382用P值決策表中的“樣本”(行因素)的P=5.7E-06?0.05,用于檢驗行因素“時段”,拒絕原假設,表明不同時段的行車時間之間有顯著差異“路段”(行因素)的P=0.000182?
0.05,同樣拒絕原假設,表明不同路段的行車時間之間有顯著差異“交互”的P=0.911819
?0.05,因此接受原假設,表明路段和時段的交互作用對行車時間沒有顯著的影響。用P值決策表中的“樣本”(行因素)的P=5.7E-06?0.83主要內容及要點一、方差分析的含義及其有關術語
因素或因子、水平或處理、觀測值二、方差分析的基本思想和原理隨機誤差、系統誤差;組內方差、組間方差三、單因素方差分析四、雙因素方差分析無交互作用、有無交互作用五、Excel計算結果的意義主要內容及要點一、方差分析的含義及其有關術語84課堂練習1.某家電制造公司準備購進一批5號電池,現有A、B、C三個電池生產廠家愿意供貨,為比較它們生產的電池的質量,從每個企業各隨機抽取5只電池,經過試驗得其壽命(小時)如下:試分析三個企業生產的電池的平均壽命之間有無顯著差異(取顯著性水平=0.05);寫出計算機計算結果各數值的意義。
課堂練習85第章方差分析(現)課件862.為研究食品的包裝和銷售地區對其銷售量是否有影響,某周在3個不同地區中用3種不同包裝方法進行銷售,獲得的銷售量資料如下。
檢驗不同的地區和不同的包裝方法對該食品的銷售量是否有顯著的影響(顯著性水平0.05);寫出計算機相關計算結果的意義。2.為研究食品的包裝和銷售地區對其銷售量是否有影響,某周在387銷售地區包裝方法B1B2B3A1457530A2505040A3356550銷售地區包裝方法B1B2B3A1457530A288結束結束89第9章方差分析PowerPoint統計學第9章方差分析PowerPoint統計學90主要內容一、方差分析及其有關術語二、方差分析的基本思想和原理三、單因素方差分析四、雙因素方差分析主要內容一、方差分析及其有關術語919.1方差分析概述9.1方差分析概述929.1.1什么是方差分析1.檢驗多個總體均值是否相等的統計方法,稱為方差分析。研究分類型變量與數值型變量之間有無關系、關系的強度。方法:通過檢驗各總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著的影響。2.有單因素方差分析和雙因素方差分析單因素方差分析:只涉及一個分類型自變量對數值型因變量的影響;雙因素方差分析:涉及兩個分類型自變量對數值型因變量的影響9.1.1什么是方差分析1.檢驗多個總體均值是否相等的統93消費者對四個行業的投訴次數行業觀測值零售業旅游業航空公司家電制造業12345675766494034534468392945565131492134404451657758【例】為了對幾個行業的服務質量進行評價,消費者協會在四個行業分別抽取了不同的企業作為樣本。據統計,最近一年中消費者對總共23家企業投訴的次數如下表消費者對四個行業的投訴次數行業觀測值零售業旅游業航空公司家94
分析四個行業之間的服務質量是否有顯著差異,也就是要判斷“行業”對“投訴次數”是否有顯著影響一般而言,如果它們的均值相等,就意味著它們之間的服務質量沒有顯著差異;如果均值不全相等,則意味著它們之間的服務質量有顯著差異要分析四個行業的服務質量是否有顯著差異,可以歸結為檢驗這四個行業被投訴次數的均值是否相等。
分析四個行業之間的服務質量是否有顯著差異,也就是要判斷“行959.1.2方差分析的有關術語
1.因素或因子在方差分析中,所要檢驗的對象稱為因素或因子;上例中,要分析行業對投訴次數是否有影響,行業是所要檢驗的對象——因素或因子。2.水平或處理因素的不同表現稱為水平或處理;零售業、旅游業、航空公司、家電制造業是“行業”這一因素的具體表現,稱為水平或處理。本例有四個水平。9.1.2方差分析的有關術語1.因素或因子963.觀測值每個水平下的樣本數據稱為觀測值。本例不同行業的投訴次數就是觀測值
。4.總體因素的每一個水平可以看做是一個總體。如零售業、旅游業等。5.樣本數據調查得到的數據可以看做從總體中抽取的樣本數據。本例各行業的被投訴次數即為樣本數據。
3.觀測值97本例是只涉及一個分類型自變量——行業和數值型因變量——被投訴次數,故是單因素方差分析;是要研究“行業”對“投訴次數”的影響。零售業、旅游業、航空公司、家電制造業是“行業”這一分類型自變量的具體取值,“投訴次數”是因變量,它是一個數值型變量,不同的投訴次數就是因變量的具體取值。本例是只涉及一個分類型自變量——行業和數值型因變量——被投訴989.1.3方差分析的基本思想和原理9.1.3方差分析的基本思想和原理99圖形分析零售業旅游業航空公司家電制造圖形分析零售業旅游業100從散點圖上可以看出不同行業被投訴的次數是有明顯差異的即使是在同一個行業,不同企業被投訴的次數也明顯不同家電制造業被投訴的次數較高,航空公司被投訴的次數較低行業與被投訴次數之間有一定的關系如果行業與被投訴次數之間沒有關系,那么它們被投訴的次數應該差不多相同,在散點圖上所呈現的模式也就應該很接近從散點圖上可以看出101僅從散點圖上觀察還不能提供充分的證據證明不同行業被投訴的次數之間有顯著差異,因為這種差異也可能是由于抽樣的隨機性所造成的。需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析。
因為我們感興趣的是均值,但在判斷均值之間是否有差異時需借助于方差,所以叫方差分析。這個名字也表示:它是通過對數據誤差來源的分析,來判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數據誤差的來源。
僅從散點圖上觀察還不能提供充分的證據證明不同行業被投訴的次數102關于誤差隨機誤差因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一行業下不同企業被投訴次數是不同的這種差異可以看成是隨機因素的影響,稱為隨機誤差
系統誤差因素的不同水平(不同總體)下,各觀察值之間的差異。比如,不同行業之間的被投訴次數之間的差異這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業本身所造成的,后者所形成的誤差是由系統性因素造成的,稱為系統誤差關于誤差隨機誤差103
組內方差因素的同一水平(同一個總體)下樣本數據的方差比如,零售業被投訴次數的方差組內方差只包含隨機誤差組間方差因素的不同水平(不同總體)下各樣本之間的方差比如,四個行業被投訴次數之間的方差組間方差既包括隨機誤差,也包括系統誤差反映誤差的指標——方差
組內方差反映誤差的指標——方差104
若不同行業對投訴次數沒有影響,則組間方差中只包含隨機誤差,沒有系統誤差。這時,組間方差與組內方差的比值就會接近1若不同行業對投訴次數有影響,在組間方差中除了包含隨機誤差外,還會包含有系統誤差,這時它們之間的比值就會大于1當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響關于兩個方差的比值
若不同行業對投訴次數沒有影響,則組間方差中只包含隨機誤差,105判斷行業對被投訴次數是否有顯著影響,實際上是檢驗被投訴次數的差異主要是由于什么原因所引起的。如果這種差異主要是系統誤差,則說明不同行業對被投訴次數有顯著影響。判斷行業對被投訴次數是否有顯著影響,實際上是檢驗被投訴次數的1069.1.4方差分析的基本假定1.每個總體都服從正態分布。2.各個總體的方差必須相同。3.觀測值是獨立的。在上述假定下,要分析自變量對因變量是否有影響,實際上就是要檢驗自變量的各個水平的均值是否相等。盡管我們不知道4個總體的均值,但可以用樣本數據來檢驗它們是否相等。如果4個總體的均值相等,可以期望4個樣本均值也非常接近。9.1.4方差分析的基本假定1.每個總體都服從正態分布1079.2單因素方差分析9.2單因素方差分析108要點:一、數據結構二、分析步驟三、關系強度四、Excel的應用要點:一、數據結構1099.2.1單因素方差分析的數據結構觀察值(j)因素(A
i)
水平A1水平A2
…水平Ak12::n
x11x21…xk1x12x22…xk2::::::::x1n
x2n…xkn9.2.1單因素方差分析的數據結構觀察值(j)因素(1109.2.2單因素方差分析1.提出假設2.計算均值誤差平方和方差3.構造并計算檢驗統計量4.統計決策
9.2.2單因素方差分析1.提出假設1111.提出假設一般提法H0:m1=m2=…=
mk自變量對因變量沒有顯著影響
H1:m1,m2,…,mk不全相等自變量對因變量有顯著影響
注意:拒絕原假設,并不意味著所有的均值都不相等1.提出假設一般提法1122.計算均值:各水平的均值、全部觀察值的均值誤差平方和:總誤差平方和SST、水平項平方和SSA、誤差項平方和SSE均方(方差):總方差、組間方差、組內方差2.計算均值:各水平的均值、全部觀察值的均值113各水平均值的計算公式為
全部觀察值的總均值計算均值各水平均值的計算公式為全部觀察值的總均值計算均值114計算平方和方差組內SSEMSE組間(水平)SSAMSA總SSTMST計算平方和方差組內SSEMSE組間(水平)SSAMSA總SS115總誤差平方和SST全部觀察值與總平均值的離差平方和反映全部觀察值的離散狀況其計算公式為總誤差平方和SST全部觀察值與總平均值的116水平項平方和SSA各組(水平)平均值與總平均值的離差平方和反映各組的樣本均值之間的差異程度,又稱組間平方和該平方和既包括隨機誤差,也包括系統誤差計算公式為水平項平方和SSA各組(水平)平均值117誤差項平方和SSE各組數據與其組平均值的離差平方和反映樣本中觀察值的離散狀況,又稱組內平方和該平方和反映的是隨機誤差的大小計算公式為誤差項平方和SSE各組數據與其組平均值的離差平方和118三個平方和的關系總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和(SSA)之間的關系SST=SSA+SSE三個平方和的關系總離差平方和(SST)、誤差項離差平方和(S119方差MS各誤差平方和的大小與觀察值的多少有關,為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差計算方法是用誤差平方和除以相應的自由度三個平方和對應的自由度分別是SST
的自由度為n-1,n為全部觀察值的個數SSA的自由度為k-1,k為因素水平(總體)的個數SSE的自由度為n-k方差MS各誤差平方和的大小與觀察值的多少有關,為消除觀察值多120計算方差組間方差MSA
:組內方差MSE
:計算方差計算方差組間方差MSA:組內方差MSE:計算方差1213.構造檢驗的統計量將MSA和MSE進行對比,即得到檢驗統計量F當H0為真時,F服從分子自由度(第一自由度)為k-1、分母自由度(第二自由度)為n-k的F分布。3.構造檢驗的統計量將MSA和MSE進行對比,即得到檢驗統計122F分布與拒絕域如果均值相等,F=MSA/MSE1a
F分布F(k-1,n-k)0拒絕H0不拒絕H0FF分布與拒絕域如果均值相等,F=MSA/MSE1aF1234.統計決策
根據給定的顯著性水平,在F分布表中查找與第一自由度(分子自由度)df1=k-1、第二自由度(分子自由度)df2=n-k
相應的臨界值F
若F>F,則拒絕H0,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若F<F,則不拒絕H0,不能認為所檢驗的因素對觀察值有顯著影響4.統計決策根據給定的顯著性水平,在F分布表中查找與第一124例題分析消費者對四個行業的投訴次數行業觀測值零售業旅游業航空公司家電制造業12345675766494034534468392945565131492134404451657758【例】為了對幾個行業的服務質量進行評價,消費者協會在四個行業分別抽取了不同的企業作為樣本。據統計,最近一年中消費者對總共23家企業投訴的次數如下表例題分析消費者對四個行業的投訴次數行業觀測值零售業旅游業航1251.提出假設:原假設H0:μ1=μ2=μ3=μ4
即:四個行業被投訴的次數相等,行業對被投訴次數沒有影響。備擇假設H1:μi不完全相等
即:四個行業的被投訴次數不完全相等,行業對被投訴次數有影響。觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值1.提出假設:觀測值行業零售業旅游業航空公司家電制造業1571262.計算均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值觀測值行業零售業旅游業航空公司家電制造業15768314426639495134929216544045347753456405865351
744
樣本均值49483559樣本容量7655總均值2.計算均值觀測值行業零售業旅游業航空公司家電制造業1576127計算誤差平方和(260-261頁)
總誤差平方和=4146.608696水平項平方和(組間平方和)
=7*(49-47.869565)2+6*(48-47.869565)2+5*(35-47.869565)2+5*(59-47.869565)2=1456.608695誤差項平方和(組內平方和)SSE先求出每個行業被投訴次數與其平均值的誤差平方和,然后將其加總,即為SSE:零售業:=(57-49)2+(66-49)2+(49-49)2+……+(44-49)2=700旅游業:=(68-48)2+(39-48)2+(29-48)2+……+(51-48)2=924航空公司:=(31-35)2+(49-35)2+(21-35)2+……+(40-35)2=434家電制造業:=(44-59)2+(51-59)2+(65-59)2+……+(58-59)2=650加總得:=700+924+434+650=2708計算誤差平方和(260-261頁)總誤差平方和128三個平方和的關系
4164.608696=1456.608696+2708SST=SSA+SSE三個平方和的關系SST=SSA+SSE129計算方差(均方)組間方差MSA=
組內方差MSE=計算方差(均方)組間方差組內方差MSE130F=3.構造并計算檢驗統計量FF=3.構造并計算檢驗統計量F1314.統計決策設顯著性水平為0.05,根據分子自由度df1=k-1=4-1=3和分母自由度df2=n-k=23-4=19,查F分布表得到臨界值F0.05(3,19)=3.13,由于F=3.406643大于F0.05
=3.13,故拒絕H0,即可以認為行業對投訴次數有顯著的影響,不同行業的服務質量有顯著差異。4.統計決策設顯著性水平為0.05,132
為了使計算過程更加清晰,通常將上述過程的內容列在一張表上,這就是方差分析表,其一般形式如:
為了使計算過程更加清晰,通常將上述過程的內容列在一張表上,133誤差來源平方和SS自由度df均方MSF值P值F臨界值組間(因素影響)SSAk-1MSAMSA/MSE
組內(誤差)SSEn-kMSE
總和SSTn-1
誤差來源平方和SS自由度df方差MSF值P值F臨界值組間(因素影響)1456.6086963485.5362323.4066430.03876453.1273544組內(誤差)270819142.526316
總和4164.60869622
誤差來源平方和自由度均方F值P值F臨界值組間(因素影響)SS1349.2.3關系強度的測量9.2.3關系強度的測量135拒絕原假設表明因素(自變量)與觀測值之間有關系組間平方和(SSA)度量了自變量(行業)對因變量(投訴次數)的影響效應當組間平方和比組內平方和(SSE)大,而且大到一定程度時,就意味著兩個變量之間的關系顯著,大得越多,表明這它們之間的關系就越強。反之,就意味著兩個變量之間的關系不顯著,小得越多,表明它們之間的關系就越弱拒絕原假設表明因素(自變量)與觀測值之間有關系136關系強度的測量
變量間關系的強度用組間平方和(SSA)占總平方和(SST)的比例大小來反映自變量平方和占總平方和的比例記為R2,即其平方根R可以用來測量兩個變量之間的關系強度關系強度的測量變量間關系的強度用組間平方和(SSA)占總137例題分析
R=0.591404結論:行業(自變量)對投訴次數(因變量)的影響效應占總效應的34.9759%,而殘差效應則占65.0241%。即行業對投訴次數差異解釋的比例達到近35%,而其他因素(殘差變量)所解釋的比例近為65%以上
R=0.591404,表明行業與投訴次數之間有中等以上的關系
例題分析1389.2.4Excel的應用1.列出數據結構表;2.工具-數據分析-單因素方差分析-確定;3.在“數據區域”中引用數據結構表中的數據(各水平的縱標目和數值)等;4.根據輸出結果做出統計決策。9.2.4Excel的應用139Excel輸出結果Excel輸出結果140用P值做統計決策在統計決策時,可以直接利用方差分析表中的P值做統計決策:若P?α,則拒絕原假設在本例中,P=0.038765,小于0.05,所以拒絕原假設,即行業對投訴次數的影響是顯著的。
用P值做統計決策在統計決策時,可以直接利用方差分析表中的P值1419.2.5方差分析中的多重比較比較檢驗到底哪些均值之間存在差異可采用最小顯著差異方法,簡寫為LSD9.2.5方差分析中的多重比較比較檢驗到底哪些均值之間存在差142多重比較的步驟1.提出假設H0:mi=mj(第i個總體的均值等于第j個總體的均值)H1:mi
mj(第i個總體的均值不等于第j個總體的均值)2.計算檢驗的統計量:3.計算LSD4.決策:若,拒絕H0;若
,不拒絕H0多重比較的步驟1.提出假設143多重比較例題分析1.提出假設檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:多重比較例題分析1.提出假設144多重比較例題分析2.計算檢驗統計量檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:多重比較例題分析2.計算檢驗統計量145多重比較例題分析3.計算LSD檢驗1:檢驗2:檢驗3:檢驗4:檢驗5:檢驗6:多重比較例題分析3.計算LSD146多重比較例題分析4.作出決策零售業與旅游業均值之間沒有顯著差異
零售業與航空公司均值之間有顯著差異零售業與家電業均值之間沒有顯著差異旅游業與航空業均值之間沒有顯著差異旅游業與家電業均值之間沒有顯著差異航空業與家電業均值有顯著差異多重比較例題分析4.作出決策零售業與旅游業均值之間沒有顯著差1479.3
雙因素方差分析
雙因素方差分析及其類型無交互作用的雙因素方差分析有交互作用的雙因素方差分析9.3雙因素方差分析
雙因素方差分析及其類型1489.3.1什么是雙因素方差分析9.3.1什么是雙因素方差分析149什么是雙因素方差分析單因素方差分析只考慮一個分類型自變量對一個數值型因變量的影響。研究兩個分類型自變量對一個數值型因變量影響的分析就是雙因素方差分析。例如,分析彩電銷售量與品牌、銷售地區或與價格、質量等因素的影響。什么是雙因素方差分析單因素方差分析只考慮一個分類型自變量對一150例有四個品牌的電視機在5個地區銷售,為了解彩電的品牌和銷售地區對銷售量是否有影響,對每種品牌在各地區的銷售量取得以下數據。試分析品牌和銷售地區對彩電的銷售量是否有顯著影響。(α=0.05)例有四個品牌的電視機在5個地區銷售,為了解彩電的品牌和銷售151不同地區各品牌電視機銷售量
地區1地區2地區3地區4地區5品牌1365350343340323品牌2345368363330333品牌3358323353343308品牌4288280298260298不同地區各品牌電視機銷售量地區1地區2地區3地區4地區5品1529.3.2雙因素方差分析的類型1.無交互作用的雙因素方差分析若兩個分類型自變量因素對一個數值型因變量的影響是相互獨立的,稱為無交互作用的或無重復雙因素方差分析;2.有交互作用的雙因素方差分析除了兩個分類型自變量因素對一個數值型因變量的有影響外,兩個因素搭配還會對因變量產生一種新的影響效應,例如,某個地區對某種品牌的彩電有特殊的偏好,這就是兩個因素結合后產生的新效應,這時的雙因素分析稱為有交互作用的或重復雙因素方差分析。
9.3.2雙因素方差分析的類型1.無交互作用的雙因素方153
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋買賣補充協議書參考二零二五年
- 2025年四方合作協議合同范本
- 2025年一氧化二氮項目合作計劃書
- 代辦檢測合同樣本
- 人教版《中學美術八年級上冊》教案說課稿
- 剪剪撕撕畫畫貼貼教學設及反思
- 公司分賬合同樣本
- led屏保修合同標準文本
- 工程掛靠承諾書正式版
- 一年級下冊數學教案-7.4-解決實際問題復習丨蘇教版
- 住院透析患者操作流程
- 云倉合同標準文本
- 清明節假期安全教育主題班會 課件
- 倒閘操作考試試題及答案
- 2025年小學生安全知識競賽考試指導題庫300題(含答案)
- 專題5 壓強 2021年和2022年四川省成都市中考物理模擬試題匯編
- 春季預防傳染病課件
- 2025年領導干部任前廉政法規知識競賽試題庫及答案(130題)
- 康復科制度及職責
- 《心理B證論文:淺談小學生自我監控能力的培養》3100字
- 切口引流管非計劃拔管不良事件根本原因RCA分析
評論
0/150
提交評論