




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學制作:安徽大學商學院洪文統計學
版權所有,未經準許,不得翻制3第五章參數估計和假設檢驗
第一節抽樣分布
第二節
參數估計第三節假設檢驗的基本原理第四節幾種常見的假設檢驗第五節方差分析附錄6用SPSS進行參數估計和假設檢驗4第一節抽樣分布
從總體中抽取樣本的方法有很多,根據抽取的原則不同,抽樣方法可分為隨機抽樣法和非隨機抽樣法兩種。隨機抽樣法又稱概率抽樣法,即樣本的抽取按照一定的概率原則,不依據個人的主觀意愿,隨機性地從總體中抽取樣本。相應的,非隨機抽樣法又稱為非概率抽樣法,即樣本的抽取不是按照一定的概率原則,而是根據人們的主觀經驗或其他條件來抽取樣本。5第一節抽樣分布
抽樣推斷在通常情況下都是建立在隨機抽樣的基礎上的,因為這種方法在保證所抽取的樣本具有總體代表性的前提下,還可以用一定的概率來保證抽樣誤差被控制在規定的范圍之內。6第一節抽樣分布
一、簡單隨機抽樣(SimpleRandomSampling)
(一)什么是簡單隨機抽樣?簡單隨機抽樣也稱為純隨機抽樣,是從總體N個單位中任意抽取n個單位作為樣本,而且每個單位可能被抽中的概率相等的一種抽樣方法。按照樣本抽選時每個單位是否允許被重復抽中,簡單隨機抽樣可分為重復抽樣和不重復抽樣兩種。7第一節抽樣分布
重復抽樣是指從總體的N個單位中抽取一個單位數為n的樣本,每次抽出一個單位,登記其特征后,再放回總體再抽,這樣連續抽n次即得到所需樣本。特點:(1)同一總體單位可能被重復抽中;(2)每次抽取是獨立的,都是在N個總體單位中抽一個。例如,從20個總體單位中抽取2個,若第一次抽中5號,第二次還有抽中5號單位的可能。第一次抽取的結果并不影響第二次抽取的結果,每次抽取各總體單位被抽中的概率都是1/N。8第一節抽樣分布
不重復抽樣是指從總體中隨機抽取一個單位,登記其特征后不再放回總體中,下一個樣本單位再從余下的總體單位中抽取,這樣連續抽取n次即得到一個單位數為n的樣本。不重復抽樣方法的特點是:
(1)同一總體單位不可能被再次抽取;
(2)每次抽取不是獨立的,上次抽取的結果要影響下次抽取的結果,每次抽取是在不同數目的總體單位中進行的。9第一節抽樣分布
例如,從10個總體單位中抽取3個單位構成樣本,若第一次抽中6號單位,第二次只能在其余9個單位中抽取,不可能再抽到6號單位,同理第三次只能在余下的8個單位中抽取。在抽樣調查中,特別是對社會經濟現象的抽樣調查中,簡單隨機抽樣一般是指不重復抽樣。簡單隨機抽樣是其他隨機抽樣方法的基礎,因為它在理論上最容易處理,而且當總體單位數N不太大時,實施起來也不困難。10第一節抽樣分布
(二)簡單隨機抽樣的實施方法常用簡單隨機抽樣方法有兩種:抽簽法和隨機數字表法。隨機數字表法:首先對總體元素編號,確定位數(總體位數+1),選定列數和起點。確定樣本個數,符合總體編號的元素就被選中,達到樣本個數中止。
11第一節抽樣分布
抽樣的目的就是要根據樣本的統計量去估計總體的參數,如根據樣本均值估計總體均值,根據樣本比例p估計總體比例等。但在做這樣的估計之前,必須要知道樣本統計量的概率分布。由前面的介紹可知,從總體中抽取樣本的方法有多種,而簡單隨機抽樣是最常用的一種方法,以下討論的就是在簡單隨機抽樣方法下有關抽樣分布的問題。12第一節抽樣分布
什么是抽樣分布呢?可以這樣理解:在抽樣過程中,由于樣本是隨機抽取的,因此統計量(樣本的函數)是一個隨機變量,其形成的概率分布稱為抽樣分布,它是進行統計推斷的理論基礎。13第一節抽樣分布
一、單一樣本統計量的抽樣分布當我們要對某一總體的參數進行估計時,就要研究來自該總體的所有可能樣本統計量的分布問題,比如樣本均值的分布、樣本比例的分布等,目的是概括有關統計量抽樣分布的一般規律。(一)樣本均值的抽樣分布
1、樣本均值抽樣分布的構成14第一節抽樣分布2、樣本均值抽樣分布的特征如同描述總體數據的數量特征一樣,要反映樣本均值的數量特征,同樣也需要計算樣本均值的平均數(集中趨勢值)和標準差(離散程度值)。數理統計證明樣本均值抽樣分布有如下兩個主要特征值(證明從略):
*無論是重復抽樣還是不重復抽樣,樣本均值的期望值總是等于總體均值,即15第一節抽樣分布
*樣本均值的標準差總是小于總體標準差,其關系表現為:
公式中樣本均值的標準差反映所有可能樣本均值與其中心的平均離散程度,可用于衡量樣本對總體的代表性大小。16第一節抽樣分布
對比上面兩個公式可以看出二者僅相差系數[(N-n)/(N-1)]0.5,,該系數通常被稱為有限總體修正系數。在實際應用中,這一系數常常被忽略不計,主要是因為:對于無限總體進行不重復抽樣時,由于N未知,此時樣本均值的標準差仍可重復抽樣來處理;對于有限總體,當N很大,其修正系數趨于1,通常在樣本容量n小于總體容量N的5%,即n/N≤5%時,有限總體修正系數就可以忽略不計了。17第一節抽樣分布3、樣本均值抽樣分布的形狀上面介紹了樣本均值抽樣分布的均值和標準差,但我們還不知道其抽樣分布的形狀。如果樣本均值所圍繞的總體均值的抽樣分布的形狀不同,則推斷的概率界限便不同。通常,樣本均值抽樣分布的形狀與下述抽樣分布定理有關。18第一節抽樣分布*正態分布再生定理如果總體服從正態分布,總體均值為、總體標準差為,則從這個總體中抽取容量為n的隨機樣本,樣本均值的抽樣分布也服從于正態分布,其平均數仍為,其標準差為*
。這條定理表示,只要總體分布是正態的,在總體標準差已知時,則不管樣本單位數是多少,樣本均值都服從正態分布,分布的中心不變。19第一節抽樣分布
而標準差x
則視重復抽樣或不重復抽樣分別為:
例1某罐頭廠出口鮮蘑菇罐頭,已知每瓶罐頭的凈重服從正態分布,平均每瓶罐頭重量為184克,標準差為2.5克,若隨機抽取16罐作為樣本,試求:(a)樣本平均重量的數學期望與標準差值;(b)樣本平均重量的抽樣分布的形狀;(c)樣本罐頭平均重量超過184.5克的概率是多少?20第一節抽樣分布
(a)
(b)由于已知總體重量服從正態分布,且=184,=2.5,依據正態分布再生定理得:樣本均值的抽樣分布也是正態分布。服從N(184,0.6252)。21第一節抽樣分布
結果表明:隨機抽取16罐樣本罐頭,平均重量超過184.5克的概率是21.19%(查表和演示)。22第一節抽樣分布*中心極限定理對任意分布形狀的平均數為,標準差為的總體進行隨機抽樣,只要樣本容量足夠大,則樣本均值抽樣分布逼近期望值為,標準差為x的正態分布。其中標準差x視重復抽樣或不重復抽樣分別為:23第一節抽樣分布
在實際應用中,中心極限定理所說的樣本“足夠大”,可以理解為n在30以上。就是說,在處理實際問題時,只要樣本容量n>30,即使總體明顯是偏態的,樣本均值的抽樣分布仍近似服從正態分布。現舉例說明其應用。24第一節抽樣分布
例2某地區高考學生的入學考試成績均值為550分,標準差為250分,若從考生中隨機抽取100名,求:(a)樣本平均成績的數學期望與標準差值;(b)分析樣本平均成績的抽樣分布;(c)樣本平均成績在520~580分之間的概率有多大?(d)樣本平均成績小于580分的概率有多大?
解:(a)25第一節抽樣分布(b)雖然總體成績的分布形態未知,但已知,且n=100為大樣本,依據中心極限定理得:樣本均值的抽樣分布近似服從正態分布。26第一節抽樣分布
例3已知某單位有2000名職工,平均每人每年醫療費用為1200元,標準差為380元,若隨機抽取100名職工,求:(a)樣本平均醫療費用的數學期望與標準差是多少?(b)樣本平均醫療費用的抽樣分布怎樣?(c)樣本平均醫療費用在1100元至1350元之間的概率。解:(a)27第一節抽樣分布(b)雖然總體成績的分布形態未知,但已知,且n=100為大樣本,依據中心極限定理得:樣本均值的抽樣分布近似服從正態分布。28第一節抽樣分布(二)樣本比例的抽樣分布樣本比例即指樣本中具有某種特征的單位所占的比例,如樣本合格率、樣本失業率等。在許多管理問題中,都要用樣本的比例p去估計相應總體的比例P(總體均值P,方差P(1-P)),因此掌握樣本比例的抽樣分布問題就顯得十分必要。樣本比例是一種特殊的樣本均值*,故樣本比例的抽樣分布就是前述樣本均值分布的一個特例。29第一節抽樣分布
根據前面介紹的內容,顯然樣本比例的分布屬于二項分布問題,當樣本容量n足夠大時,即nP與n(1-P)都不小于5時,樣本比例的抽樣分布近似為正態分布(說明、演示)。在大樣本情況下,樣本比例的抽樣分布特征值可概括如下:*無論是重復抽樣還是不重復抽樣,樣本比例p的數學期望總是等于總體比例P,即
E(p)=P30第一節抽樣分布
而樣本比例p的標準差為p,其計算公式為:31第一節抽樣分布
例4已知某廠零件加工不合格率達到6%,現從中隨機抽取100件,求:(a)樣本不合格率的期望值與標準差;(b)此時樣本不合格率的抽樣分布如何?(c)樣本不合格率在4%以上的可能性有多大?
解:(a) P=0.06,n=100
E(p)=P=0.0632第一節抽樣分布(b)由于已知P=0.06,n=100,所以nP=6,n(1-P)=94,均大于5,所以樣本不合格率的抽樣分布近似為正態分布。服從N(0.06,0.02372)。33第一節抽樣分布
二、兩個樣本統計量的抽樣分布當我們要對兩個總體有關參數的差異進行估計時,就要研究來自這兩個總體的所有可能樣本相應統計量差異的抽樣分布,比如,樣本均值差異的抽樣分布,樣本比例差異的抽樣分布等。34第一節抽樣分布
(一)兩個樣本均值差異的抽樣分布若從總體X1和總體X2中分別獨立地抽取容量為n1和n2的樣本,則由兩個樣本均值之差的所有可能取值形成的概率分布稱為兩個樣本均值差異的抽樣分布。假設總體X1和總體X2的均值分別是1和2,標準差分別是1和2,則兩個樣本均值之差的抽樣分布可概括為以下兩種情況:35第一節抽樣分布1、若總體X1~N(1,1),總體X2~N(2,2),則2、若兩個總體都是非正態總體,當兩個樣本容量n1和n2都足夠大時,依據中心極限定理,兩個樣本均值之差分別近似服從正態分布,故36第一節抽樣分布
例5某家具公司在市區和郊區開辦兩個家具城,根據某年的銷售統計,得資料如下:總體平均消費額(元)總體標準差(元)市區4000800郊區3500900
若分別從市區和郊區的消費者中隨機抽取36人和49人,問:37第一節抽樣分布(1)樣本平均消費額差異的抽樣分布怎樣?(2)樣本平均消費額差異的標準差是多少?(3)樣本平均消費額差異在總體平均消費額差異附近±2倍的抽樣標準差之間的概率為多少?
解:(1)由于兩個隨機樣本是獨立大樣本,所以樣本平均消費額差異的抽樣分布近似為正態分布。樣本平均消費額差異的的均值為500。38第一節抽樣分布(2)兩個總體標準差分別已知,所以樣本平均消費額差異的標準差是:
(3)查正態分布概率表得:樣本平均消費額差異在總體平均消費額差異附近±2倍的抽樣標準差之間的概率即為95.45%。39第一節抽樣分布
(二)兩個樣本比例差異的抽樣分布若從總體X1和總體X2中分別獨立地抽取容量為n1和n2的樣本,則由兩個樣本比例之差p1-p2的所有可能取值形成的概率分布稱為兩個樣本比例差異的抽樣分布。假設兩個總體的比例分別是P1和P2,當n1和n2足夠大時,即n1P1與n1(1-P1)且n2P2與n2(1-p2)都不小于5時,根據中心極限定理,pl和p2分別近似服從正態分布,故40第一節抽樣分布
例6據某中學醫務室體檢結果的統計,男、女生配戴近視眼鏡的比例分別為32%和45%,若分別從男生和女生中隨機抽取100人和150人,問:(1)兩個樣本中戴眼鏡比例差異的抽樣分布怎樣?(2)樣本比例差異的標準差是多少?(3)樣本比例差異在總體比例差異附近±2.58倍的抽樣標準差之間的概率為多少?41第一節抽樣分布
解:(1)設P1=32%,n1=100,P2=45%,n2=150
由于n1P1與n1(1-P1)且n2P2與n2(1-P2)都不小于5,所以樣本比例差異的抽樣分布近似為正態分布。樣本比例差異的均值為0.07。
(2)樣本比例差異的的標準差是:42第一節抽樣分布(3)查表得:樣本比例差異在總體比例差異附近±2.58倍的抽樣標準差之間的概率為99%。43第二節參數估計所謂參數估計也就是用樣本統計量去估計總體的參數。比如,用樣本均值估計總體均值,用樣本比例p估計總體比例P,等等。參數估計的方法有點估計和區間估計兩種,下面分別予以介紹。44第二節參數估計
一、參數估計的基本原理
1、幾個基本概念
(1)參數(Parameter)
參數是用來描述總體特征的概括性數值。如總體均值()、總體比例(P)等。在進行推斷統計時,總體數據通常是不完全的,所以參數是一個未知的常數。45第二節參數估計(2)統計量(Statistic)
統計量是用來描述樣本特征的概括性值(樣本的函數)。如樣本均值、樣本比例(p)等。由于樣本是經過隨機抽樣確定的,所以統計量是隨機變量,可以根據抽樣結果計算出具體的數值。推斷統計的目的就是要根據已知樣本統計量去估計未知總體參數。例如,根據樣本職工的平均收入去推斷總體職工的平均收入;根據樣本產品的合格率去推斷總體產品的合格率,等等。46第二節參數估計(3)估計量(Estimator)
估計量是用于估計總體參數的統計量的名稱。例如,根據樣本汽車的平均價格去估計總體汽車的平均價格時,樣本汽車的平均價格就是估計量。顯然,樣本是隨機的,所以估計量也是一個隨機變量(對于總體均值參數,樣本均值,最大值,最小值都可以是總體均值的估計量)。47第二節參數估計(4)估計值(Estimate)
根據隨機抽樣的結果計算的估計量的具體數值即為估計值。例如,根據某次抽樣結果計算得樣本旅客的平均通過安檢的時間為167.77秒,用于估計總體旅客的平均通過安檢的時間,這個167.77秒就是估計值。48第二節參數估計
二、點估計(Pointestimate)
點估計就是用樣本估計量的觀察值直接作為總體參數的估計值。比如,用樣本均值直接作為總體均值的估計值,用樣本比例p直接作為總體比例P的估計值,等等。49第二節參數估計
例72006年中國民航業迅猛發展,民航旅客的滿意度越來越受到社會的關注,其中機場安全檢查的通過時間就是關系到旅客滿意度的重要指標之一,調查員于2006年年底在某機場的某個安檢通道隨機抽取了35位旅客,測量他們通過安全檢查的時間如下(單位:秒):
50第二節參數估計 86158229180145295158 204187471122339089 1761382512227597165 11821016936270167130 1899525014398539121
根據此樣本數據,對同期該機場旅客的平均安檢通過時間以及通過安檢時間在3分鐘及以上旅客所占比例作出點估計。51第二節參數估計
解:根據抽樣調查的35個數據計算得樣本平均通過時間為167.77秒,樣本數據中通過時間在3分鐘以上者占34.29%(演示)。據此可以估計同期該機場所有旅客通過安檢通道的平均時間為167.77秒,而通過時間在3分鐘及以上者占34.29%。這里的167.77秒和34.29%就作為整個機場旅客的平均安檢通過時間和通過時間在3分鐘及以上者比例的估計值,這些都是采用點估計方法。52第二節參數估計*點估計優良性評價的標準在上述點估計問題中,為了估計機場旅客的平均安檢通過時間,我們是用樣本安檢通過時間均值作點估計的,這里能否利用樣本的中位數作點估計呢(樣本中某人時間太長效果就不好)?實際上,我們在對具體問題的估計中總是希望使用估計效果最好的估計量,而數理統計證明,一個好的估計量一定滿足以下幾個評價標準:53第二節參數估計(1)無偏性(Undiasedness)
無偏性是指估計量抽樣分布的數學期望等于被估計的總體參數。這表明,從一次抽樣結果來看,樣本估計量的值與總體參數可能存在誤差,但結合抽樣分布的情況,所有估計量的平均數等于總體參數實際值,即平均來講估計是無偏的。可以說樣本均值和樣本比例p分別是總體均值和總體比例P的無偏估計量(樣本標準差除n-1就是為了滿足無偏性)。54第二節參數估計(2)有效性(Efficiency)
有效性是指估計量的離散程度比較小。對估計量有效性的評價往往是在無偏性基礎之上進行的,若兩個估計量都是總體參數的無偏估計量,則標準差較小的估計量更有效。很明顯,樣本均值與樣本中某個值都是總體均值的無偏估計,即55第二節參數估計
但是樣本均值抽樣分布的標準差為:
樣本均值X抽樣分布的標準差小于樣本中某個值的標準差,可以判斷樣本均值比樣本中某個值作為總體均值的估計值更有效(樣本均值也是最有效的估計量)。
56第二節參數估計(3)一致性(Consistency)
一致性是指隨著樣本容量的增大,估計量的值與總體參數真值越來越接近。可以證明,樣本均值和樣本比例p分別是總體均值和總體比例P的一致估計量。
在實際問題的分析中,我們不一定能找到完全符合以上標準的優良估計量(樣本標準差滿足無偏性但不滿足有效性),但總是希望所采用的估計量盡可能接近這些標準。57第二節參數估計
理論證明,再重復抽樣的前提下,樣本均值作為總體均值的估計量、樣本比例作為總體比例的估計量,都具有上述優良性質,所以,通常采用樣本均值或樣本比例作為相應的總體均值或總體比例的點估計量。
58第二節參數估計
很明顯,點估計的優點是簡單、具體、明確。它能夠提供總體參數的具體估計值,可以作為行動決策的數量依據。但要使點估計的結果恰好等于總體參數的值幾乎是不可能的,通常總有一定的抽樣誤差,而點估計本身無法說明抽樣誤差的大小。若估計總體參數可能落在某一個區間內就有把握多了,因此在實際問題估計中,我們更多地使用區間估計。59第二節參數估計
三、區間估計
1、區間估計的基本原理區間估計(IntervalEstimate)是在點估計的基礎上,根據給定的置信度估計總體參數取值范圍的方法。比如,根據樣本結果估計出民航旅客的通過安檢時間總體的均值介于150秒到200秒之間,而且估計的概率(可能性)是95%,這就是區間估計。我們以總體均值的區間估計為例說明區間估計的基本原理。60第二節參數估計
由上一節所講述的樣本均值的抽樣分布可知,在大樣本情況下,樣本均值近似服從正態分布,且樣本均值的數學期望等于總體均值,樣本均值的標準差為:
由此可以利用正態分布概率表確定樣本均值落在總體均值的兩側各為一個標準差范圍內的概率為0.687;落在兩個標準差范圍內的概率為0.9545,等等。61第二節參數估計
依此類推,我們可以求出樣本均值落在總體均值的兩側任何幾個標準差值的范圍內的概率。但實際估計時,要求的情況恰好相反。樣本均值是已知的,而是未知的,怎樣根據樣本均值估計呢?62第二節參數估計
總體均值的區間估計的數學表達式可概括為(100個抽樣,100個區間,95個包含總體均值):
式中:區間上下端點稱為置信上限和下限;
1-表示該區間包括總體均值的概率;1-稱為置信水平;z/2稱為概率度,是標準正態分布的臨界值,依據給定的置信水平1-查表確定。63第二節參數估計2、區間估計的準確程度和可靠程度如前所述,點估計方法既不能說明抽樣誤差的大小,也不能說明估計的結果有多大把握程度,但區間估計方法可以彌補這一不足。64第二節參數估計z/2x是估計總體均值時的誤差范圍,表示用樣本均值估計時最大允許誤差,可見這一乘積的值越大,說明樣本均值與總體均值的誤差越大,則區間估計的準確性就越差;反之,這一乘積的值越小,說明樣本均值與總體均值的誤差越小,則區間估計的準確性就越好。65第二節參數估計置信水平1-則反映著區間估計的可靠程度,顯然置信水平越大,據此查正態概率表得到的概率度z值也越大,然而估計的誤差范圍z/2x也隨之越大,則估計的準確性就越差。上述分析說明,在其他條件不變的情況下,要提高區間估計的可靠程度,就會增大允許誤差,從而降低估計的準確程度;而縮小允許誤差,提高估計的準確程度,則會降低區間估計的可靠程度。66第二節參數估計3、區間估計的步驟現將總體均值的區間估計步驟歸納如下:
(1)確定置信水平1-,即估計的可靠性或把握程度。對于可靠性要求較高的統計問題,置信度要求也較高,實際統計推斷中通常采用95%。
(2)根據置信水平1-
,查標準正態分布表確定z/2值。
(3)實際抽樣,計算樣本均值和標準差x。
(4)確定置信區間。67第二節參數估計
前面給出了總體均值區間估計的一般步驟,在實際估計時,通常依據研究問題的不同或資料條件的不同而采用不同的處理方法,主要有大樣本情況下對單一總體均值的區間估計、小樣本情況下對單一總體均值的區間估計以及大樣本情況下對兩個總體均值之差的區間估計等幾種情況。68第二節參數估計
四、單一總體均值的區間估計1、大樣本
依據中心極限定理,我們不難判斷:只要進行大樣本(n>30)抽樣,無論總體是否服從正態分布,樣本均值的抽樣分布均近似為正態分布。當總體標準差已知時,在重復抽樣情況下,總體均值在1-置信水平下的置信區間為:69第二節參數估計
如果采取的是有限總體不重復抽樣,而且抽取樣本數比較大(n/N>5%)時,則樣本均值抽樣分布的標準差應乘以修正系數:
這時總體均值在1-置信水平下的置信區間可以寫為:70第二節參數估計
當總體標準差未知時,在大樣本條件下,則可以用樣本標準差s代替總體標差,這時無論總體是否服從正態分布,總體均值在1-置信水平下的置信區間可以寫為:71第二節參數估計
現在我們按照以上介紹的方法來解決例5.7中的相關問題。例8假定調查人員從該機場得到的信息是:雖然每個旅客通過安檢的時間有所不同,但每人通過安檢時間的總體標準差=100秒。試根據隨機抽樣的結果,在95%的置信水平下估計所有旅客的平均通過安檢時間的置信區間。解:由于n=35,此題屬于大樣本抽樣;72第二節參數估計
已知=100;當天的旅客總量N未知,做出區間估計如下:樣本旅客等候時間的均值:
由已知1-=0.95,查標準正態分布概率表得:z0.025=1.96,于是在95%的置信水平下置信區間為:73第二節參數估計
結果表明:誤差范圍是33.13,總體均值在95%的置信水平下的置信區間為(134.6,200.9)。即調查人員可以95%的把握認為該抽查的安檢通道旅客通過安檢時間的總體均值介于134.64秒到200.9秒之間。74第二節參數估計
例9若已知當天從該通道通過的旅客總量N=350人,調查人員是按照不重復抽樣的方法進行調查得到樣本數據的,假定總體標準差=100秒,試在95%的置信水平下估計該安檢通道所有旅客平均通過安檢時間的置信區間。解:由于n=35,為大樣本抽樣;=100;N=350,且n/N=10%>5%,做出區間估計如下:
在95%的置信水平下置信區間為:75第二節參數估計
結果表明:誤差范圍是31.47,總體均值在95%的置信水平下的置信區間為:(136.3,199.24)即調查人員可以95%的把握認為該安檢通道旅客通過安檢時間的總體均值介于136.3秒到199.24秒之間(為什么區間會變小?)。76第二節參數估計
對比例8與例9會發現,對于同樣的資料(信息不完全一樣),按照重復抽樣方法得到的置信區間略大些,說明重復抽樣的誤差大于不重復抽樣的誤差,但隨著總體容量增大,抽樣比會縮小,修正系數接近于1,兩種方法的抽樣誤差就趨于一致了。因此,盡管實際抽樣中一般是進行不重復抽樣的,但為了簡便計算,在大樣本情況下通常是按照重復抽樣方法估計置信區間的。77第二節參數估計
例10如果總體的旅客通過安檢的時間標準差未知,試根據上述隨機抽樣的結果,在95%的置信水平下估計該安檢通道的所有旅客平均通過安檢時間的置信區間。解:由于n=35,為大樣本抽樣;總體標準差未知,可以樣本的標準差s代替(區間變大變小不確定,有偶然性),做出區間估計如下:78第二節參數估計
在95%的置信水平下置信區間為:
結果表明:誤差范圍是30.26,總體均值在95%的置信水平下的置信區間為:
(137.51,198.03)。即調查人員可以95%的把握認為該安檢通道旅客通過安檢時間的總體均值介于137.51秒到198.03秒之間。79第二節參數估計2、小樣本
在實際工作中,為了經濟節約,常常進行小樣本抽樣;或有時受條件限制(如帶有破壞性的檢查),做大樣本抽樣是十分困難的,所以實踐中利用小樣本對總體均值進行估計的情況較為常見。正如前一節所述,若總體服從正態分布,只要總體標準差已知,無論樣本容量如何,樣本均值的抽樣分布都服從正態分布,計算總體均值的置信區間和前面一樣。80第二節參數估計
例11假設研究人員于某日在該機場通道隨機抽取12位旅客的安檢通過時間組成樣本,得到樣本如下:
8616225021315995 2043212719732070
據以往情況知:安檢通過時間服從正態分布,且標準差為100秒。試以95%的置信水平估計平均通過時間的置信區間。81第二節參數估計
解:已知通過安檢的時間服從正態分布,且總體標準差=100,盡管n=12為小樣本,但依據正態分布再生定理,樣本均值的抽樣分布仍為正態分布。計算:樣本均值=187.33,1-=0.95,
z/2=1.96,估計得:82第二節參數估計
即187.33±56.58=(130.75,243.91)。也就是說,我們可以95%的概率估計該通道旅客通過安檢時間的總體均值介于130.75秒到243.91秒之間(效果比較差,是不是一定如此?)。83第二節參數估計
上面討論的樣本均值的分布都有一個前提,需要知道總體的標準差。而在抽樣估計的問題中,一般情況下總體的標準差是未知的,這時可以考慮用樣本的標準差s來代替,于是便得到一個新的統計量,即:
這個t的分布已不是正態分布了,稱t為服從自由度為n-1的t分布,記為T~t(n-1)。84第二節參數估計t分布與正態分布一樣都是對稱分布,但較正態分布離散度強,分布密度曲線較標準正態分布密度曲線更為扁平,t分布為一曲線族,隨著自由度n-1的增大,其曲線中部向上攏起,兩尾部向下低垂,逐漸逼近于標準正態曲線。因此,對于正態總體不明確的樣本均值的抽樣分布,首先要分清楚n是否大于30。不大于30,稱為小樣本,按t分布處理。反之,稱為大樣本,按z分布(正態分布)處理(演示)。85第二節參數估計86第二節參數估計t的取值在(-,+)之間,若計算樣本均值落在某一區間內的概率可以通過查t分布表得到(見書后附表3,舉例說明)。如果總體服從正態分布,但是總體的標準差未知,且在小樣本抽樣情況下,則需要用樣本標準差s代替,這時應采用t分布來建立總體均值在1-置信水平下的置信區間,公式為:87第二節參數估計
式中:t/2是自由度為n-1時,t分布中上側面積為/2時的t值,可通過書后附表3查得;s為樣本標準差。下面通過實例說明這種方法的應用。88第二節參數估計
例12假設研究人員于某日在該機場隨機抽取12位旅客的安檢通過時間組成樣本,得到樣本如下:
8616225021315995 2043212719732070
據以往情況知:安檢通過的時間服從正態分布,且總體標準差未知。試以95%的置信水平估計平均通過時間的置信區間。89第二節參數估計
解:已知安檢通過的時間服從正態分布,且總體標準差未知,小樣本。根據樣本計算得:
樣本均值=187.33,s=90.20,1-=0.95,
t(0.025,11)=2.201,所以置信區間為:
即187.33±57.31=(130.02,244.64)。90第二節參數估計
也就是說,我們可以95%的概率估計該安檢通道旅客安檢通過時間的總體均值介于130.02秒到244.64秒之間(效果差,原因何在?)。
對比例11與例12可以看出,在小樣本情況下,由于ta/2>za/2,所以即使其他條件一樣,t分布置信區間的寬度會大于正態分布,因此在實際抽樣中,為了提高估計的精度,最好抽取大樣本。
91第二節參數估計
五、兩個總體均值差異的區間估計(大樣本)
在實際管理工作中,我們經常需要對來自兩個不同總體的均值進行比較,如比較兩個地區平均收入的差異、比較兩種產品平均壽命的差異等,往往是利用樣本數據對這些情況做出估計。在上節中介紹了兩個樣本均值差異的抽樣分布理論,從中我們可以得出:若兩個樣本容量都較大(n1>=30且n2>=30),對兩個總體均值差異做區間估計的公式為:92第二節參數估計
上式適用于以下兩種情形:
(1)如果兩個總體都服從正態分布,標準差分別已知,即x1~N(1,1),x2~N(2,2)。(2)若兩個總體均不服從正態分布,分別從這兩個總體中隨機抽取兩個獨立樣本,當兩個樣本容量n1和n2都足夠大時。93第二節參數估計
在此情形下,若兩個總體的標準差1和2未知,可分別以樣本的標準差s1和s2來代替。94第二節參數估計
例13機場為了提高顧客滿意度,在2006年下半年對機場的安檢設施進行了改良,有關調查人員想對比該機場2006年年底與年中抽查的安檢通道旅客平均通過時間的差異,于是在年中的機場數據中隨機抽取30名旅客的等待時間,得到數據如下:
9520445301168 45614116880536 18057513710815195第二節參數估計 13310515533695 21025116899177 16161163101147
將以上數據和例5.7的數據整理如下:年中年底樣本容量樣本均值樣本標準差30190.23130.135167.7796.1496第二節參數估計
根據以上整理的結果,試以95%的置信水平估計該機場年底與年中旅客平均通過安檢時間差異的置信區間。解:由于兩個樣本相互獨立,而且均為大樣本,因此樣本均值差異也近似服從正態分布,并以樣本標準差代替未知的總體標準差,所以在置信度95%時的置信區間為:97第二節參數估計
即(-33.95,78.87)。結果表明,可以95%的概率估計該安檢通道旅客總體通過安檢時間的差異介于-33.9秒到78.9秒之間。本例中,所求置信區間包含0,說明我們沒有足夠的理由認為該地區2006年年底與年中旅客的平均安檢通過時間有明顯差異(演示)。
98第二節參數估計
例14某研究機構想要估計某城市與近郊地區家庭收入的差異狀況,隨機在這兩個地區抽取一定量的家庭構成樣本,得到樣本家庭收入的資料如下:城區近郊家庭數年收入均值年收入標準差606000090004055000700099第二節參數估計
試以95%的置信水平估計兩個地區家庭平均收入差異的置信區間。解:由于大樣本抽樣,與上例情況相同,在95%的置信水平下置信區間為:
即(1855,8145)。100第二節參數估計
結果表明,在95%的置信水平下,兩個地區家庭的年平均收入差異的區間估計為1855元至8145元之間,即估計城市居民平均收入比郊區至少高1855元。101第二節參數估計可以得到以下結論:對于兩個總體均值差異的區間估計,如果所求置信區間的置信上限與下限均為正值,則意味著兩個總體均值實際之差可能為正,即1>2;如果所求置信區間的置信上限與下限均為負值,則意味著兩個總體均值實際之差可能為負,即1<2;如果所求置信區間包含0,則意味著不能判斷出兩個總體均值實際存在差異。102第二節參數估計六、單一總體比例的區間估計(大樣本)與總體均值的區間估計一樣,在對總體比例進行區間估計時,通常也分為對單一總體比例的區間估計以及對兩個總體比例之差的區間估計等情況。下面僅就大樣本情形分別予以介紹。在統計推斷問題中,常常需要推斷總體中具有某種特征的數量所占的百分比,這種隨機變量與二項分布有密切關系。103第二節參數估計
如前所述,二項分布當nP與n(1-P)不小于5時,樣本的比例P的抽樣分布趨于正態分布。p的數學期望等于總體的比例P;而p的抽樣標準差在重復抽樣條件下為:
在利用樣本的比例p估計總體比例P時,由于P未知,大樣本情況下,我們可以用樣本比例p來代替P
,于是得:104第二節參數估計總體比例P在1-
置信水平下的置信區間為:105第二節參數估計
例15在例7問題中,根據抽樣的結果,試以95%的概率估計該機場通道年底的安檢通過時間在3分鐘及以上的旅客所占比例的置信區間。解:已知n=35,根據抽樣結果計算的樣本比例為p=12/35=34.29%,由于np與n(1-p)都大于5,假設當天抽查的通道旅客總量N未知,依題意:1-
=95%,得Z/2=1.96106第二節參數估計
所以
即(18.56%,50.02%)。
也就是說,我們可以95%的概率估計該機場此通道年底的平均通過時間在3分鐘及以上的旅客所占比例在18.56%到50.02%之間(如果認為區間太寬怎么辦?)。
107第二節參數估計
例16某企業共有職工1000人。企業準備實行一項改革,在職工中征求意見,采取不重復抽樣方法隨機抽取200人作為樣本,調查結果顯示,有150人表示贊成該項改革,50人表示反對。試以90%的概率估計企業全部職工中贊成改革的人員比例的置信區間。解:已知n=200,根據抽樣結果計算的贊成改革的人數比例為p=150/200=75%。108第二節參數估計
由于np與n(1-p))都大于5,且n/N=200/1000=20%>5%,根據1-=90%,得Z/2=1.645
即75%土4.5%=(70.5%,79.5%)。109第二節參數估計
也就是說,我們可以90%的概率估計該企業職工中贊成改革的人數比例在70.5%到79.5%之間。
七、兩個總體比例差異的區間估計根據抽樣分布理論,可以判定,如兩個樣本容量足夠大,即指n1P1與n1(1-P1))且n2P2與n2(1-P2))都不小于5,p1和p2分別近似服從正態分布,則有:110第二節參數估計
在對總體參數進行估計時,由于總體比例P是未知的,所以需要以樣本比例p代替,因此,在1-置信水平下,兩個總體比例差異的置信區間為:111第二節參數估計
例17根據例13調查的資料,試以95%的概率估計該機場2006年年底與年中抽查的安檢通道旅客通過時間在3分鐘及以上者所占比例的差異的置信區間。解:根據樣本數據計算得:年中p1=9/30=30%,年底p2=12/35=34.29%,由n1p1=9,n1(1-p1)=21,且n2p2=12,n2(1-p2)=23均大于5,且為大樣本,因此p1-p2也近似服從正態分布。112第二節參數估計置信區間為:
即-0.0429±0.2272=(-0.2701,0.1843)
結果表明,以95%概率估計該機場此通道年底與年中的旅客安檢通過時間在3分鐘及以上的旅客所占比例差異的置信區間在-27%到18%之間,并未看出年底與年中存在明顯差異(演示)。113第二節參數估計八、樣本容量的確定所謂樣本容量是指抽取的樣本中包含的單位數目,通常表示為n。在對社會經濟問題進行抽樣調查時,樣本容量的多少,與抽樣誤差和調查費用都有直接的關系。如果樣本容量很大,即使抽樣誤差很小,但是調查的工作量會很大,時間和經費也會被浪費掉,這樣一來就體現不出來抽樣調查的優越性。114第二節參數估計
反之,如果樣本容量過小,工作量和耗費會減少,但是抽樣誤差太大,抽樣推斷就會失去意義。所以抽樣設計中的一個重要內容就是要確定需要的樣本容量即抽樣數目。關于樣本容量的確定方法,通常是根據所研究的具體問題,首先提出估計的置信度和允許的誤差范圍,然后結合經驗值或抽樣數據估計總體的標準差值,再通過抽樣允許的誤差范圍計算公式推算必要的樣本容量。115第二節參數估計
下面僅就估計總體均值時所必需的樣本容量的確定和估計總體比例時所必需的樣本容量的確定方法做一概括介紹。
1、估計總體均值時所需樣本容量在重復抽樣條件下,若規定在一定的置信水平下允許的誤差范圍為E,即
則可以推導出確定樣本容量的計算公式如下:116第二節參數估計
同樣,在不重復抽樣條件下,我們可以得出確定樣本容量的公式為:
在實際應用中,通常的值不知道,為了求得樣本容量,需要對作出估計,一般采用以往經驗值或類似的樣本值s來代替。117第二節參數估計
例18研究人員欲估計2011年年底該機場此安檢通道旅客的平均通過時間是多少。已知當日該通道旅客總量為350人,按照以往的經驗,總體標準差約為100秒。要求在95%的置信水平下,使平均通過時間的誤差范圍不超出30秒,應抽取多大的樣本?
解:已知N=350,=100,E=30,
1-=95%,z/2=1.96。118第二節參數估計
在重復抽樣條件下,得:
即應抽職43名旅客作為樣本。在不重復抽樣條件下,得:
即應抽取39名旅客作為樣本。119第二節參數估計2、估計總體比例時所需樣本容量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設備代加工協議書
- 資產代保管協議書
- 申辦世界杯協議書
- 債權投資AI應用企業制定與實施新質生產力項目商業計劃書
- 保健品店企業制定與實施新質生產力項目商業計劃書
- 生物材料創新行業深度調研及發展項目商業計劃書
- 型農民就餐協議書
- 電子級醋酸制備工藝企業制定與實施新質生產力項目商業計劃書
- 供應鏈金融平臺行業跨境出海項目商業計劃書
- 黑豆腰果行業深度調研及發展項目商業計劃書
- 2023-2024學年科學四年級下冊人教鄂教版2.8《蠶的一生》教學設計
- 防汛應急預案演練說辭
- 教育系統后備干部面試題目
- 河南省鄭州市2023-2024學年高一下學期6月期末數學試題(無答案)
- 14J936變形縫建筑構造
- TD/T 1012-2016 土地整治項目規劃設計規范(正式版)
- 2024年共青團入團積極分子考試題庫(附答案)
- 魚類卵子受精機制與精子激活
- 植物營養學智慧樹知到期末考試答案章節答案2024年黑龍江八一農墾大學
- 小學數學項目化設計教學案例
- 燃氣工程項目全生命周期管理與維保策略
評論
0/150
提交評論