ch03-區間估計與假設檢驗_第1頁
ch03-區間估計與假設檢驗_第2頁
ch03-區間估計與假設檢驗_第3頁
ch03-區間估計與假設檢驗_第4頁
ch03-區間估計與假設檢驗_第5頁
已閱讀5頁,還剩96頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章

區間估計與假設檢驗武漢大學計算機學院區間估計與假設檢驗3.1區間估計與假設檢驗的基本概念3.2總體均值的區間估計與假設檢驗的SAS實現3.3總體比例的區間估計與假設檢驗的SAS實現3.4總體方差的區間估計與假設檢驗的SAS實現3.5分布檢驗3.1區間估計與假設檢驗的基本概念利用樣本對總體進行統計推斷,主要有二類問題參數估計:根據樣本的統計量對總體的參數進行估計;假設檢驗:研究如何利用樣本的統計量來檢驗事先對總體參數作的假設是否正確3.1.1區間估計3.1.2假設檢驗3.1.1區間估計1.點估計和區間估計

參數的估計方法主要有兩種:點估計和區間估計。

點估計是用樣本的觀測值估計總體未知參數的值。由于樣本的隨機性,不同樣本觀測值計算得出的參數的估計值間存在著差異,因此常用一個區間估計總體的參數,并把具有一定可靠性和精度的估計區間稱為置信區間。利用構造的統計量及樣本觀測值,計算得出參數的置信區間的方法稱為參數的區間估計。正態分布的實例如果數據來自正態分布總體,則:68%的值落在距均值1個標準差的范圍之內95%的值落在距均值2個標準差的范圍之內99%的值落在距均值3個標準差的范圍之內

例如:由12歲女孩體重組成一個總體,這個總體服從均值為39公斤,標準差4.5公斤,則:

68%的值落在34.5~43.5公斤之間

95%的值落在30~48公斤之間

99%的值落在25.5~52.5公斤之間置信區間正態分布描述落入不同范圍的概率.例如,近似地有(“3

”原則):◆68%的數據落入以均值為中心一倍標準差的范圍內;◆95%的數據落入以均值為中心兩倍標準差的范圍內;◆99%的數據落入以均值為中心三倍標準差的范圍內;

若樣本均值的分布為正態的,當構造置信區間時就可用正態分布給定的概率,這一概率對應于置信水平.所以,構造一個95%的置信區間,這個置信區間就有95%的概率包括總體均值.95%就為置信水平.2.參數的置信區間在區間估計中,對于總體的未知參數θ,需要求出兩個統計量θ1(X1,X2,...,Xn)和θ2(X1,X2,...,Xn)來分別估計總體參數θ的上限和下限,使得總體參數在區間(θ1,θ2)內的概率為P{θ1<θ<θ2}=1–α

其中1–α稱為置信水平,而(θ1,θ2)稱為θ的置信區間,θ1,θ2分別稱為置信下限和置信上限。置信水平為1–α的含義是:隨機區間(θ1,θ2)以1–α的概率包含了參數θ。3.正態總體均值和方差的置信區間參數的區間估計大多是對正態總體的參數進行估計,如對單總體均值、方差的估計、兩總體均值差的估計和兩總體方差比的估計等。正態總體參數的各種置信區間見表3-1。被估參數條件樞軸量及其分布參數的置信區間單正態總體μ2已知2未知2μ已知μ未知正態總體參數的各種置信區間見表3-1。

其中被估參數條件樞軸量及其分布參數的置信區間兩正態總體μ1-μ2兩樣本獨立,12,22已知兩樣本獨立,12=22=2

未知兩樣本獨立,μ1,

μ2未知4.總體比例與比例差的置信區間實際應用中經常需要對總體比例進行估計,如產品的合格率、大學生的就業率和手機的普及率等。記π和P分別表示總體比例和樣本比例,則當樣本容量n很大時(一般當nP和n(1–P)均大于5時,就可以認為樣本容量足夠大),樣本比例P的抽樣分布可用正態分布近似。總體比例與比例差的置信區間如表3-2所示。待估參數樞軸量及其分布參數的置信區間總體比例π兩總體比例差π1-π2其中P1,P2為兩個樣本比例

3.1.2假設檢驗情形一:“根據我們的檢驗,我們的產品缺陷率只有千分之一.”,從1000件產品中隨機抽了5件貨品,其中2個有質量問題.你的結論?不可能->概率為0->小概率事件發生了->否定原假設情形二:“根據我們的檢驗,我們的產品缺陷率只有百分之一.”,從1000件產品中隨機抽了5件貨品,其中2個有質量問題.你的結論?1)缺陷率肯定高于1%,不合要求;2)缺陷率確實只有1%,只是恰巧抽到有缺陷的.在原假設成立的條件下,如果計算出樣本所對應的事件發生概率比較大,那么沒有理由拒絕原假設;如果計算出樣本所對應的事件發生概率比較小,即小概率事件發生了,依據小概率事件在一次試驗中幾乎不會發生的原理,它在一次實驗中是不應該發生的。可事實是,本來不該發生的事件卻在我們的實驗中發生了。那么,只能說抽查結果不支持原假設中的論斷。假設檢驗的基本思路反證法思想先假定“H0為真”,如果檢驗中出現了不合理現象,則表明“H0為真”的假設是錯誤的,應該拒絕H0。如果檢驗中未出現不合理現象,則表明“H0為真”的假設是正確的,應該接受H0。小概率原理小概率事件在一次實驗中幾乎不可能發生,如果小概率事件在一次實驗中發生了,則有理由懷疑原假設的真實性,從而拒絕原假設。3.1.2假設檢驗1.假設檢驗的基本原理對總體參數進行假設檢驗時,首先要給定一個原假設H0,H0是關于總體參數的表述,與此同時存在一個與H0相對立的備擇假設H1,H0與H1有且僅有一個成立;經過一次抽樣,若發生了小概率事件(通常把概率小于0.05的事件稱為小概率事件),可以依據“小概率事件在一次實驗中幾乎不可能發生”的理由,懷疑原假設不真,作出拒絕原假設H0,接受H1的決定;反之,若小概率事件沒有發生,就沒有理由拒絕H0,從而應作出拒絕H1的決定。2.假設檢驗的步驟

1)根據問題確立原假設H0和備選假設H1;

2)確定一個顯著水平,它是衡量稀有性(小概率事件)的標準,常取為0.05;

3)選定合適的檢驗用統計量W(通常在原假設中相等成立時,W的分布是已知的),根據W的分布及的值,確定H0的拒絕域。

4)由樣本觀測值計算出統計量W的觀測值W0,如果W0落入H0的拒絕域,則拒絕H0;否則,不能拒絕原假設H0。注意:在SAS系統中,是由樣本觀測值計算出統計量W的觀測值W0和衡量觀測結果極端性的p值(p值就是當原假設成立時得到樣本觀測值和更極端結果的概率),然后比較p和作判斷:p<,拒絕原假設H0;否則,不能拒絕原假設H0。3.正態總體均值和方差的假設檢驗

對正態總體的參數進行假設檢驗是假設檢驗的重要內容,如對單總體均值、方差的檢驗、兩總體均值之差的檢驗和兩總體方差比的檢驗等。正態總體參數的各種檢驗方法見下表3-3至表3-5。表3-3單正態總體N(μ,2)均值μ的檢驗法檢驗名稱條件檢驗類別H0H1檢驗統計量分布拒絕域Z檢驗σ2已知雙邊檢驗μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左邊檢驗μ≥μ0μ<μ0Z≤-Zα右邊檢驗μ≤μ0μ>μ0Z≥Zαt檢驗σ2未知雙邊檢驗μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n

–1)左邊檢驗μ≥μ0μ<μ0t≤–

tα(n

–1)右邊檢驗μ≤μ0μ>μ0t≥tα(n

–1)表3-4單正態總體N(μ,2)方差2的檢驗法檢驗名稱條件檢驗類別H0H1檢驗統計量分布拒絕域χ2檢驗μ已知雙邊檢驗左邊檢驗右邊檢驗μ未知雙邊檢驗左邊檢驗右邊檢驗表3-5兩正態總體的均值差與方差比的檢驗名稱條件類別H0H1檢驗統計量分布拒絕域Z檢驗兩樣本獨立,12=22=2未知雙邊檢驗μ1-μ2=0μ1-μ2≠0t(n1+n2

–2)左邊檢驗μ1-μ20μ1-μ2<0右邊檢驗μ1-μ20μ1-μ2>0t檢驗成對匹配樣本,12,22未知雙邊檢驗μd=0μd≠0左邊檢驗μd0μd<0右邊檢驗μd0μd>0F檢驗兩樣本獨立,μ1,μ2未知雙邊檢驗F(n1–1,n2–1)左邊檢驗右邊檢驗4.總體比例與比例差的檢驗當樣本容量n很大時,可根據表3-6對總體比例與比例差進行假設檢驗。表3-6總體比例與比例差的檢驗檢驗名稱檢驗類別H0H1檢驗統計量分布拒絕域比例檢驗雙邊檢驗

=0

0N(0,1)|z|

zα/2左邊檢驗

0

<0|z|≤–zα右邊檢驗

0

>0|z|

zα兩總體比例差檢驗雙邊檢驗1

=21

2N(0,1)|z|

zα/2左邊檢驗1

21<2|z|≤–zα右邊檢驗1

21>2|z|

zα3.2總體均值的區間估計與假設檢驗的SAS實現3.2.1使用INSIGHT模塊3.2.2使用“分析家”3.2.3使用TTEST過程3.2.1使用INSIGHT模塊1.總體均值的區間估計【例3-1】某藥材生產商要對其倉庫中的1000箱藥材的平均重量進行估計,藥材重量的總體方差未知,隨機抽取16箱樣本稱重后結果如表3-7所示。表3-716箱藥材重量(單位:千克)設藥材重量數據存放于數據集Mylib.yczl中,其中重量變量名為weight。求該倉庫中每箱藥材平均重量在95%置信水平下的置信區間。50505651495347525353495355485055步驟如下:

1)啟動INSIGHT模塊,并打開數據集Mylib.yczl;

2)選擇菜單“Analyze”→“Distribution(Y)”;

3)在打開的“Distribution(Y)”對話框中進行區間估計的設置(如圖)。

結果包括一個名為“95%ConfidenceIntervals(95%置信區間)”的列表,表中給出了均值、標準差、方差的估計值(Parameter)、置信下限(LCL)和置信上限(UCL),如圖3-2所示。結果表明,根據抽樣樣本,該倉庫中藥材的平均重量以95%的可能性位于50.08千克至52.92千克之間。2.單樣本總體均值的假設檢驗【例3-2】一家食品廠以生產袋裝食品為主,每天的產量大約為8000袋,每袋重量規定為100克。為了分析每袋重量是否符合要求,質檢部門經常進行抽檢。現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如表3-8所示。表3-825袋食品的重量(單位:克)試從抽檢的樣本數據出發,檢驗變量WEIGHT的均值與100克是否有顯著差異。假定表3-8數據存放在數據集Mylib.spzl中,重量變量名為WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3設變量WEIGHT的均值為μ,問題是希望通過樣本數據檢驗變量WEIGHT均值的如下假設:

H0:μ=100, H1:μ

100。使用INSIGHT對均值進行檢驗的步驟如下:

1)首先啟動INSIGHT,并打開數據集Mylib.spzl;

2)選擇菜單“Analyze”→“Distribution(Y)”;

3)在打開的“Distribution(Y)”對話框中選定分析變量WEIGHT;

4)單擊“OK”按鈕,得到變量的描述性統計量;

5)選擇菜單“Tables(表)”→“TestsforLocation(位置檢驗)”;在彈出的“TestsforLocation”對話框中輸入100,單擊“OK”按鈕得到輸出結果如圖所示。

結果顯示,觀測值不等于100克的觀測有24個,其中19個觀測值大于100。圖中第一個檢驗為t檢驗(Student‘st),需要假定變量服從正態分布,檢驗的p值為0.0105,這個檢驗在0.05水平下是顯著的,所以可認為均值與100克有顯著差異。第二個檢驗(Sign)是叫做符號檢驗的非參數檢驗,其p值為0.0066,在0.05水平下也是顯著的,結論不變。第三個檢驗(SignedRank)是叫做符號秩檢驗的非參數檢驗,其p值為0.0048,在0.05水平下是顯著的,結論不變。3.兩樣本總體均值的比較:成對匹配樣本在INSIGHT中比較成對樣本均值是否顯著差異,可以計算兩變量的差值變量,再檢驗差值變量的均值是否顯著為0。【例3-3】由10名學生組成一個隨機樣本,讓他們分別采用A和B兩套試卷進行測試,結果如表3-9所示。表3-910名學生兩套試卷的成績試從樣本數據出發,分析兩套試卷是否有顯著差異。試卷A78637289914968768555試卷B71446184745155607739差值71911517-21316816

步驟如下:

1)首先生成差值變量:啟動INSIGHT,并打開數據集Mylib.sjdf。選擇菜單“Edit”→“Variables”→“Other”,打開“EditVariables”對話框,選擇A為Y變量,B為X變量,然后選擇變換(Transformation):Y–X,如圖,生成新的差值變量d;

2)然后對變量d的均值做如下假設:

H0:μd=0, H1:μd

0。

3)選擇菜單“Analyze”→“Distribution(Y)”;在打開的“Distribution(Y)”對話框中選定分析變量:選擇變量差值d,單擊“Y”按鈕,將變量d移到右上方的列表框中;

4)單擊“Output”按鈕,在打開的對話框中選中“TestsforLocation(位置檢驗)”復選框;

5)兩次單擊“OK”按鈕,得到變量的描述性統計量;

6)選擇菜單“Tables(表)”→“TestsforLocation(位置檢驗)”;在彈出的“TestsforLocation”對話框中輸入0,單擊“OK”按鈕得到輸出結果如圖所示。

結果顯示三個檢驗的結論都是p值小于0.05,所以應拒絕原假設,即總體的均值與0有顯著差異。所以兩套試卷有顯著差異。雖然SAS給出三個檢驗結果,其實作結論時只需其中一個。如果可以認為分析變量服從正態分布只要看t檢驗結果;否則只須看符號秩檢驗結果。只有在數據為兩兩比較的大小結果而沒有具體數值時符號檢驗才有用。正態分布檢驗Insight下,“分布”菜單;選擇待分析變量,單擊”Y”按鈕;“輸出”按鈕-->”累積分布”-->”正態”-->”確定”概率值>0.05,接受原假設(該變量的總體分布與正態分布無顯著差異)3.2.2使用“分析家”1.總體均值的置信區間【例3-4】在“分析家”中求例3-1中每箱藥材平均重量在95%置信水平下的置信區間。步驟如下:

1)在“分析家”模塊中打開數據集Mylib.yczl;

2)選擇菜單“Statistics(統計)”→“HypothesisTests(假設檢驗)”→“OneSamplet–testforaMean(單樣本均值t-檢驗)”;

3)在打開的“OneSamplet–testforaMean”對話框中設置均值的置信區間(如圖3-6)。

3)在打開的“OneSamplet–testforaMean”對話框中設置均值的置信區間(如圖3-6)。

結果表明(下圖),根據抽樣樣本,該倉庫中藥材的平均重量以95%的可能性位于50.08千克至52.92千克之間。

2.單樣本總體均值的假設檢驗【例3-5】使用“分析家”檢驗例3-2中食品重量是否符合要求。希望通過樣本數據檢驗變量WEIGHT均值的如下假設:

H0:μ=100, H1:μ

100。由于此時的方差未知,所以使用t檢驗法。步驟如下:

1)在“分析家”中打開數據集Mylib.spzl;

2)選擇菜單“Statistics(統計)”→“HypothesisTests(假設檢驗)”→“OneSamplet–testforaMean(單樣本均值t-檢驗)”,打開“OneSamplet–testforaMean”對話框;

4)按圖3-8所示設置均值檢驗,單擊“OK”按鈕,得到結果如圖所示。;

T統計量抽樣的密度曲線顯示結果表明t統計量的p值為0.0105<0.05,所以拒絕原假設,即認為總體的均值不等于100。T統計量的橫坐標落在陰影區域的范圍內,拒絕原假設3.兩樣本總體均值的比較:成對匹配樣本【例3-6】使用“分析家”對例3-3中兩套試卷檢驗有無顯著差異。這是一個(成對匹配)雙樣本均值檢驗問題,若μ1和μ2分別表示兩套試卷的平均成績,則檢驗的是:

H0:μ1–μ2=0, H1:μ1–μ2

0;分析步驟如下:

1)在“分析家”中打開數據集Mylib.sjdf;

2)選擇菜單“Statistics(統計)”→“HypothesisTests(假設檢驗)”→“TwoSamplePairedt-TestforaMean(均值的成對雙樣本t-檢驗)”;

3)在打開的“TwoSamplePairedt-TestforaMean”對話框中,按圖所示設置雙樣本均值檢驗,單擊“OK”按鈕,得到結果如圖右所示

結果顯示,無論兩總體的方差是否相等,t統計量的p值=0.0005<0.05,所以在95%的置信水平下,拒絕原假設,兩總體的均值有顯著差異。結果表明可以95%的把握認為兩套試卷有顯著差異。4.兩樣本總體均值的比較:獨立樣本【例3-7】為估計兩種方法組裝產品所需時間的差異,分別對兩種不同的組裝方法各隨機安排一些工人進行操作試驗,每個工人組裝一件產品所需的時間如表3-10所示。試以95%的置信水平推斷兩種方法組裝產品所需平均時間有無差異。表3-10兩種方法組裝產品所需的時間(單位:分鐘)

這是一個(獨立)兩樣本均值檢驗問題,若μ1和μ2分別表示兩種方法組裝一件產品所需的平均時間,則檢驗的是:

H0:μ1–μ2=0,H1:μ1–μ2

0;方法128.330.129.037.632.128.836.037.238.534.428.030.0方法227.622.231.033.820.030.231.726.032.031.2

假定表3-10數據存放在數據集Mylib.zzcpsj中,將兩個樣本中被比較均值的變量的觀測值記在同一分析變量F下,不同的樣本用一個分類變量g的不同值加以區分,而且分類變量g只能取兩個值,不能取>=3個的值,否則無法進行。(現在學習的是二樣本的均值比較,而不是多樣本的比較呀!)

分析步驟如下:

1)在“分析家”中打開數據集Mylib.zzcpsj;

2)選擇菜單“Statistics(統計)”→“HypothesisTests(假設檢驗)”→“TwoSamplet-TestforMean(兩樣本均值的t-檢驗)”;

3)在打開的“TwoSamplet-TestforaMean”對話框中,按圖3-12所示設置雙樣本均值檢驗,單擊“OK”按鈕,得到結果如圖3-13所示

結果顯示,由于t統計量的p值=0.0433,所以在95%的置信水平下,應該拒絕原假設,即兩種方法所需時間有差異。表明有95%的把握認為兩種方法所需時間有差異。數據集用2個變量分別表示二種組裝方法所花時間時,如何實現呢?3.2.3使用TTEST過程TTEST過程可以執行單樣本均值的t檢驗、配對數據的t檢驗以及雙樣本均值比較的t檢驗。1.語法格式PROCTTEST<選項列表>;

[CLASS<分組變量名>;][VAR<分析變量名列表>;][PAIED<變量名列表>;][BY<分組變量名>;]RUN;其中,PROCTTEST和RUN語句是必須的,其余語句都是可選的,而且可調換順序。

CLASS語句所指定的分組變量是用來進行組間比較的;而BY語句所指定的分組變量是用來將數據分為若干個更小的樣本,以便SAS分別在各小樣本內進行各自獨立的處理。

VAR語句引導要檢驗的所有變量列表,SAS將對VAR語句所引導的所有變量分別進行組間均值比較的t檢驗。

PAIED語句用來指定配對t檢驗中要進行比較的變量對,其后所帶的變量名列表一般形式及其產生的效果見表3-11。表3-11選項及其含義變量名列表形式產生的效果a*ba–ba*bc*da–b,c–d(ab)*(cd)a–c,a–d,b–c,b–d(ab)*(cb)a–c,a–b,b–c

PROCTTEST語句后可跟的選項及其表示的含義如表3-12所示。表3-12選項及其含義選項代表的含義data=等號后為SAS數據集名,指定ttest過程所要處理的數據集,默認值為最近處理的數據集alpha=等號后為0~1之間的任何值,指定置信水平,默認為0.05ci=等號后為“equal,umpu,none”中的一個,表示標準差的置信區間的顯示形式,默認為ci=equalcochran有此選項時,ttest過程對方差不齊時的近似t檢驗增加cochran近似法h0=等號后為任意實數,表示檢驗假設中對兩均值差值的設定,默認值為02.總體均值的置信區間【例3-8】仍然考慮例3-3中的樣本數據。假定其中數據使用如下數據步存放在數據集sjcj中,兩套試卷得分的變量名分別為A和B。datasjcj;inputAB@@;cards;7871634472618984917449516855766085775539;run;【例3-8】仍然考慮例3-3中的樣本數據。假定其中數據使用如下數據步存放在數據集sjcj中,兩套試卷得分的變量名分別為A和B。使用最簡代碼求均值、標準差的置信區間:procttestdata=sjcj;run;

代碼運行結果給出兩個變量在95%置信水平下的均值、標準差的置信區間,以及對原假設μ0=0所作的t檢驗的p值,如圖所示。3.單樣本總體均值的假設檢驗在例3-8中增加原假設選項以及置信水平,代碼如下:procttesth0=70alpha=0.01data=sjcj;varA;run;

代碼運行結果除了給出變量A在99%置信水平下的均值、標準差的置信區間外,還給出對假設μ0=70,所作的t-檢驗的p值,如圖3-15所示。結果顯示t統計量的p值=0.5734,不能拒絕(57.34%的把握)原假設:均值=70。4.配對兩樣本均值的假設檢驗在例3-8中檢驗兩套試卷有無顯著差異,代碼如下:procttestdata=sjcj;pairedA*B;run;

代碼運行結果給出了對原假設μ1–μ2=0所作的t檢驗的p值,如圖3-16所示。結果顯示t統計量的p值=0.0005<0.05,因此拒絕原假設。說明兩套試卷有顯著差異。5.獨立兩樣本均值的假設檢驗過程TTEST還可以用于進行獨立雙樣本均值比較的t檢驗法。它的用法為PROCTTESTDATA=<數據集名>;CLASS<分組變量名>;VAR<分析變量名列>;RUN;

使用這一格式要求將兩個樣本中被比較均值的變量的觀測值記在同一分析變量下,不同的樣本用另一個分類變量的不同值加以區分,而且分類變量只能取兩個值,否則將報錯。【例3-9】仍然考慮例3-7中的樣本數據。假定其中數據使用如下數據步存放在數據集zzcpsj中:datazzcpsj;inputfg$@@;cards;28.3127.6230.1122.2229131237.6133.8232.1120228.8130.2236131.7237.2126238.5132234.4131.22281301;run;

將兩批工人的測量結果看作兩個樣本,但其數據都放在一個數據集之中,所需的時間值是記錄在同一分析變量f之下,而兩種方法的差別是由變量g的值加以區分的,所以g可作為分類變量。檢驗代碼如下:procttestdata=zzcpsj;classg;varf;run;檢驗結果如圖所示在檢驗中,先看其最后關于方差等式的檢驗結果,檢驗方差相等是用的F'統計量,其數值為1.29,相應的p值為0.6779>0.05=α,所以不能拒絕方差相等的假設。在方差相等的前提下,檢驗均值差異使用Pooled方法,對應統計量的t值為2.16,相應的p值為0.0433<0.05=α,所以兩種方法所需的時間是有顯著差異的。在異方差的情況下,使用Satterthwaite法檢驗均值的差異。3.3總體比例的區間估計與假設檢驗的SAS實現(分析家下實現)比例值:0~1或0~100%實際情況中,常檢驗總體比例是否為某假定值,如:產品合格率是否為1%?3.3.1單樣本總體比例的置信區間3.3.2單樣本總體比例的假設檢驗3.3.3兩總體比例的比較

3.3.1總體比例的置信區間【例3-10】2004年底北京市私家車擁有量已達到129.8萬輛,位居全國之首,據業內人士分析其中國產中低檔汽車的比例較大,為了估計目前北京市場個人購車的平均價格,調查人員于某日在北京最大的車市隨機抽取36位私人消費購車者,得到他們所購汽車的價格,見下表。表3-13年底購車價格(單位:萬元)根據以上調查數據,試以95%的置信水平推斷該地區購買私家車在15萬元以上的消費者占有的比例。6.8811.2819.9813.610.614.86.8811.7820.9824.412.314.86.8813.6813.630.314.614.88.2814.9814.79.614.617.49.615.6815.89.612.95.3810.1815.6820.510.614.87.38設購車價格數據存放在數據集Mylib.gcjg中,價格變量名為price。這是一個單樣本比例的區間估計問題。由于在SAS中只能對兩水平的分類變量作比例的區間估計與檢驗,所以首先要按變量price生成一個新的分類變量。步驟如下:

1)在“分析家”中打開數據集Mylib.gcjg;

2)選擇主菜單“編輯”→“模式”→“編輯”,使數據集可以被編輯(修改);

3)選擇主菜單“數據”→“變換”→“重編碼范圍”,打開“RecodeRangesInformation”對話框并按圖3-18(左)設置有關內容;

4)單擊“OK”按鈕,打開“RecodeRanges”對話框,按圖3-18右所示生成新變量price_f;

5)選擇菜單“統計”→“假設檢驗”→“比例的單樣本檢驗”;

6)在打開的單樣本比例檢驗對話框中,按圖3-19設置比例的置信區間。

分析結果中包括變量的置信區間:按95%的置信水平變量price取值為“>15”的比例在區間(0.109,0.391)范圍中,即可以95%的概率估計該地區所購買車輛在15萬元以上的消費者所占比例在10.9%~39.1%之間。3.3.2單樣本總體比例的假設檢驗【例3-11】對購車價格數據gcjg,試檢驗總體中購買車輛在15萬元以上者所占比例是否超過30%。這是一個單樣本比例檢驗問題,若表示總體中購買車輛在15萬元以上者所占比例,則檢驗的是:

H0:≥0.3, H1:

<0.3;步驟如下:

1)選擇菜單“統計”→“假設檢驗”→“比例的單樣本檢驗”

,打開并按圖左設置“OneSampleTestforaProportion”對話框;檢驗結果如圖右所示。顯示的結果表明樣本中購買車輛在15萬元以上者的比例為25%,檢驗用的Z統計量的p值為0.2563>0.05,所以不能拒絕原假設。結果表明購買車輛在15萬元以上者所占比例在95%的置信水平下超過30%。3.3.3兩總體比例的比較【例3-12】2004年底很多類型的國產轎車價格都比年中有所下降,為了對比2004年底與年中私家購車族購車價格的差異,在年中新購車者中隨機抽取32人,調查得到的價格數據如表3-14。表3-14年中購車價格(單位:萬元):綜合表3-13與表3-14的調查數據,試以95%的置信水平推斷該地區年底與年中購買私家車在15萬元以上的消費者占有比例有無差異。5.3810.7812.8814.718.8830.37.3811.213.61519.9815.287.9811.7813.6515.820.59.999.3811.7814.615.920.989.3610.312.314.71724.48.9911.3810.28這是一個雙樣本比例檢驗問題,若1和2分別表示總體中年底和年中購買私家車在15萬元以上的消費者所占的比例,則檢驗的是假設:

H0:1–2=0, H1:1–2

0;步驟如下:在分析家中打開數據集Mylib.gcjgQ后,選擇菜單“比例的雙樣本檢驗”,在對話框中,按圖左設置雙樣本比例檢驗,分析結果如圖右所示。結果顯示,由于Z統計量的p值為0.5664,所以在95%的置信水平下,不能拒絕原假設。即該地區2004年底與年中私家購車價格在15萬元以上者所占比例無明顯差異。3.4總體方差的區間估計與假設檢驗的SAS實現方差反映著數據分布離散程度,方差大,表明數據波動大經濟生活中,居民收入的方差大小是評價收入是否合理的一項指標;產品質量中,尺寸、重量、抗拉強度的方差大小反映著產品的穩定性;考試成績中,成績的方差大小反映出試卷難易程度;投資方面,收益率方差是評價投資風險的重要依據;……3.4.1總體方差的置信區間3.4.2單樣本總體方差的假設檢驗3.4.3兩樣本總體方差的比較3.4.1總體方差的置信區間【例3-13】表3-15所示為某中學1980年模擬高考數學的部分學生成績,試估計本次模擬考試成績的方差。表3-15部分學生成績

假定表3-15數據存放在數據集Mylib.kscj中,成績變量名為score。分析步驟如下:

1)在“分析家”中打開數據集Mylib.kscj;

2)選擇菜單“統計”→“假設檢驗”→“方差的單樣本檢驗”;100969690921001009099921009810097979594100

3)在打開的“OneSampleTestforaVariance”對話框中設置方差的置信區間。結果表明,本次模擬考試成績方差在置信水平95%下的置信區間為(7.1692,28.614)。

3.4.2單樣本總體方差的假設檢驗【例3-14】考慮例3-13中的模擬考試成績,檢驗考試成績是否太集中。這是一個單樣本方差檢驗問題,若表示總體方差,則檢驗的是:

H0:2≤52, H1:2>52;

步驟:選擇菜單“統計”→“假設檢驗”→“方差的單樣本檢驗”,打開“OneSampleTestforaVariance”對話框并按圖設置;結果顯示,樣本方差為12.732,由于2檢驗的p值=0.9504,所以不能拒絕方差≤25的原假設。結果表明有95%的把握可以認為該模擬考試的成績太過集中。加之均值高,有理由認為試卷偏容易.3.4.3兩樣本總體方差的比較【例3-15】已知兩只股票深發展(000001)和萬科A(000002)在2004年6月21個交易日的收益率如表3-16所示。試在0.05的顯著水平下判斷深發展的風險是否高于萬科A?表3-16深發展和萬科A在2004年6月21個交易日的收益率day深發展萬科Aday深發展萬科Aday深發展萬科A200406010.00310.009920040610-0.00220.004120040621-0.00220.0131200406020.0301-0.01372004061100.002200406220.00330.02820040603-0.0231-0.013920040614-0.0209-0.012320040623-0.0066-0.014720040604-0.00820.006200406150.04610.018620040624-0.01440.008520040607-0.0228-0.00820040616-0.0097-0.00220040625-0.0056-0.012720040608-0.02230.00220040617-0.0228-0.042820040628-0.05190.004320040609-0.0109-0.0202200406180.0111-0.0255200406290.02260.0319這是一個雙樣本方差檢驗問題,若1和2分別表示深發展和萬科A兩只股票收益率的方差,則檢驗的是:

H0:1≥2, H1:1<2;檢驗步驟:

1)首先,生成數據集mylib.gupiao,深發展和萬科的收益率可以用同一變量表示,另加一個分類變量以區別;也可用兩個變量表示,如分別用s和w表示。本例用第二種方法。

2)在分析家中打開數據集mylib.gupiao后,選擇菜單“統計”→“假設檢驗”→“方差的雙樣本檢驗”,設置如下

結果顯示,在0.05的顯著性水平下不能拒絕原假設,說明深發展的股票風險要高于萬科A。3.5分布檢驗3.5.1數據的分布研究3.5.2在INSIGHT模塊中研究分布3.5.3在“分析家”中研究分布3.5.4使用UNIVARIATE過程3.5.1數據的分布研究檢驗數據是否來自正態分布檢驗常用方法分布擬合圖QQ圖分布檢驗1.分布擬合圖由于密度直方圖中矩形的面積是數據落入對應區間中的頻率,根據大數定理,數據量很大時,頻率近似于概率。所以,如果數據來自一個具有概率密度f(x)的連續型隨機變量,密度直方圖就可以作為概率密度f(x)的一個估計。所謂分布擬合圖就是在限定的參數分布類中通過對參數的估計,用估計得到的參數所對應的密度曲線去擬合直方圖頂部的形態。圖示為分布擬合圖,左圖為正態分布擬合圖,右圖為對數正態分布擬合圖。

在SAS系統中提供的參數分布類型有:正態(Normal)分布—最為常用的分布、對數正態(Lognormal)分布、指數分布、Gamma分布、Weibull分布,它們的分布密度分別為:

1)參數為(μ,)的正態分布

2)參數為(,μ,)的對數正態分布

3)參數為(,)的指數分布的密度為

4)參數為(,c,)的指數分布的密度為

5)參數為(,α,)的Gamma分布的密度為

6)參數為(,c,)的Weibull分布的密度為2.QQ圖不論密度直方圖還是分布擬合圖,要從圖上鑒別數據的分布是否近似于某種類別的分布是較困難的。QQ圖可以幫助我們方便地鑒別數據的分布是否近似于某種類型的分布。

QQ圖是一種散點圖。若觀測數據近似正態分布N(μ,2),則QQ圖上的散點近似在直線y=x+μ附近,斜率為標準差,截距為均值。圖示為居民家庭收入情況的QQ圖,分別為對應于正態分布與對數正態分布的QQ圖。

數據是否近似于正態分布,只需看QQ圖上的點是否近似地在一條直線附近,該直線的斜率為標準差,截距為均值。SAS下也可以作對應于對數正態分布、指數分布、Gamma分布、Weibull分布的QQ圖,以鑒別樣本數據是否來自某一類型的總體分布。

3.5.2在INSIGHT模塊中研究分布1.繪制分布擬合圖【例3-16】在INSIGHT模塊中繪制居民家庭收入情況(參見例2-1)的分布擬合圖。選擇菜單“Analyze”→“Distribution(Y)”,打開“Distribution(Y)”對話框并按如圖3-33所示設置。

圖3-34參數估計對話框與income變量的密度擬合圖圖3-35income變量的參數密度估計

2.繪制QQ圖如果在“Distribution(Y)”對話框中選中“NormalQQPlot(正態QQ圖)”復選框,,則可以得到QQ圖,如右圖所示。

選擇菜單“曲線”→“QQ參考線”,打開“QQRefLine”對話框。選擇“Method(方法)”欄下的“LeastSquares(最小二乘)”,單擊“OK”按鈕得到帶參考線的QQ圖。

選擇菜單“Graphs(圖形)”→“QQPlot(QQ圖)”,打開“QQPlot”對話框。選擇“Distribution(分布)”欄下的“LognormalQQPlot(對數正態QQ圖)”,如圖左,單擊“OK”按鈕得到對數正態QQ圖,如圖右所示。

雖然從分布擬合圖中似乎得到居民家庭收入情況的樣本數據接近于對數正態分布,但從QQ圖可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論