《應用統計分析》課件-第3章 參數估計_第1頁
《應用統計分析》課件-第3章 參數估計_第2頁
《應用統計分析》課件-第3章 參數估計_第3頁
《應用統計分析》課件-第3章 參數估計_第4頁
《應用統計分析》課件-第3章 參數估計_第5頁
已閱讀5頁,還剩132頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第3章參數估計3.1參數估計概述3.2點估計3.3區間估計3.4樣本容量的確定3.5Bootstrap區間估計3.6SPSS應用舉例1第1節參數估計概述3.1.1基本思想3.1.2數據的適用范圍23.1.1基本思想3統計推斷的過程樣本總體樣本統計量如:樣本均值、比例、方差總體均值、比例、方差等3.1.1基本思想4參數估計:在實際問題中,我們經常需要得知一些總體的總體均值、總體方差、總體比例等數量特征,如果我們已知總體中的所有數據值,就可以通過簡單的統計描述得到該值。但是,往往會出現總體數據數量太多的情況,在這種情況下我們需要對總體數據進行抽樣,通過總體中已有的某些樣本統計量去估計總體參數。這樣的估計方法稱為參數估計。3.1.1基本思想5

3.1.2數據的適用范圍6本章介紹的參數估計的方法主要有點估計法、區間估計法、Boostrap區間估計法三種。點估計法:矩估計法、順序統計量法、最大似然法、最小二乘法區間估計:對單總體的均值、比例、方差的分析和對雙總體的均值差、比例差、方差比的研究Bootstrap:經驗Bootstrap法和Bootstrap百分位法3.1.2數據的適用范圍7與比例有關的估計問題針對定性數據與均值方差有關的問題則針對定量數據。除Boostrap區間估計外的其他方法均對總體是大樣本還是小樣本、服從正態分布有具體要求Boostrap區間估計則對數量與服從分布完全沒有要求第2節點估計3.2.1矩估計法3.2.2順序統計量法3.2.3最大似然法3.2.4最小二乘法3.2.5評價估計量的標準83.2點估計9矩估計法最小二乘法最大似然法順序統計量法估計方法點估計區間估計3.2點估計10用樣本的估計量的某個取值直接作為總體參數的估計值例如:用樣本均值直接作為總體均值的估計;用兩個樣本均值之差直接作為總體均值之差的估計無法給出估計值接近總體參數程度的信息雖然在重復抽樣條件下,點估計的均值可望等于總體真值,但由于樣本是隨機的,抽出一個具體的樣本得到的估計值很可能不同于總體真值一個點估計量的可靠性是由它的抽樣標準誤差來衡量的,這表明一個具體的點估計值無法給出估計的可靠性的度量3.2.1矩估計法11當想要獲得某總體的k階矩的估計量(如總體均值:一階矩;總體方差:二階矩)時,可以使用矩估計法。矩估計法可以對定量數據中的定距數據與定比數據進行處理,且它的估計量與樣本容量的大小、服從的分布無關。矩估計法是英國統計學家K.Pearson最早提出的,它的理論基礎是辛欽大數定律,是基于“替換思想”建立起來的估計方法。矩估計法的思路為:用樣本的k階矩作為總體的hk階矩的估計量,建立含待估計參數的方程,從而解出待估計參數。3.2.1矩估計法12記總體k階原點矩為:樣本k階原點矩為:總體k階中心距為:樣本k階中心距為:用上述相應的樣本矩去估計總體矩的估計方法就是矩估計法。3.2.1矩估計法矩估計法(例題分析)【例3.1】抽樣調查某班10名同學“應用統計學”考試的成績,調查結果如下表所示。請用矩估計法估計總體的均值和標準差。133.2.1矩估計法矩估計法(例題分析)143.2.1矩估計法矩估計法(例題分析)15因此,由矩估計法公式可得3.2.2順序統計量法16當想要使用數據排列后某位置的特殊值作為估計量,則可以使用順序統計量法。順序統計量法可以對定量數據進行排序、分析處理,且估計量與該數據的樣本容量大小、分布情況無關。順序統計量估計是指用順序統計量或其函數構造的估計,它的基本思想是:將總體中的某樣本的數據按照從小到大的順序排列后,選取重新排列后某個位置的值代表總體的未知參數值。3.2.2順序統計量法17

3.2.2順序統計量法18

3.2.2順序統計量法19

中位數不受極端值的影響,且滿足各變量與中位數的離差絕對值之和最小,即

3.2.2順序統計量法20

3.2.2順序統計量法順序統計量法(例題分析)【例3.2】為了估計某批燈泡的平均壽命μ與燈泡壽命的標準差σ,隨機抽取7個燈泡測得壽命數據為:1575,1503,1346,1630,1575,1453,1650h。試用順序統計量估計法估計μ、σ。213.2.2順序統計量法順序統計量法(例題分析)22解:樣本順序統計量的觀測值為:1364,1453,1530,1575,1575,1630,1650n=7為奇數,所以μ的順序統計量估計值為中位數:=x4=1575x7=1650,x1=1364,所以σ的順序統計量估計值為極差:R=x7–x1=2863.2.3最大似然法23當想要求一個樣本集的相關概率密度函數的參數時,可以使用最大似然法。最大似然法可以對定量數據進行分析處理。由于涉及概率密度函數,估計量通常與數據服從的分布有關。當想要求一個樣本集的相關概率密度函數的參數時,可以使用最大似然法。最大似然法可以對定量數據進行分析處理。由于涉及概率密度函數,估計量通常與數據服從的分布有關。3.2.3最大似然法24設總體的概率密度為f(x;θ),其中θ為待估計參數。設X,X,…X。是總體的一個隨機樣本,由于樣本內每個元素是相互獨立的,因此有:其中,L(θ)稱為樣本的似然函數。3.2.3最大似然法25

3.2.3最大似然法最大似然法(例題分析)26【例3.3】設總體X的概率密度為:其中θ>-1,是未知參數,X1,X2,…,Xn是來自總體X的一個容量為n的簡單隨機樣本,是分別用矩估計和最大似然估計法求θ的估計值。3.2.3最大似然法最大似然法(例題分析)273.2.3最大似然法最大似然法(例題分析)28最大似然估計法:3.2.4最小二乘法29當希望求到與數據匹配的函數表達時,可以使用最小二乘法。最小二乘法可以對定量數據中的定距數據與定比數據進行處理,且它的估計量與樣本容量的大小、服從的分布無關。最小二乘法可以是研究一組數據的特征,也可以研究兩組數據的關系。“二乘”即平方的意思,“最小二乘法”即“平方和最小”法。最小二乘法估計是通過最小化誤差的平方和尋找數據的最佳函數匹配。找到匹配的函數后,則可求得未知的數據,且求得的數據與實際數據之間誤差的平方和是最小的,如下圖所示。3.2.4最小二乘法30最小二乘法圖示3.2.5評價估計量的標準31P(

)BA無偏有偏無偏性:估計量抽樣分布的數學期望等于被估計的總體參數無偏性(unbiasedness)3.2.4最小二乘法最小二乘法(例題分析)32【例3.4】某班學生每周用于英語學習的時間x(單位:h)與數學成績y(單位:分)之間的對應數據如表所示。如果y與x之間有線性關系,求回歸直線方程3.2.4最小二乘法最小二乘法(例題分析)33解:列出下表并進行計算3.2.4最小二乘法最小二乘法(例題分析)34因此,所求的回歸方程是3.2.5評價估計量的標準35有效性:對同一總體參數的兩個無偏點估計量,有更小標準差的估計量更有效

有效性(efficiency)AB

的抽樣分布

的抽樣分布P(

)3.2.5評價估計量的標準36一致性:隨著樣本容量的增大,估計量的值越來越接近被估計的總體參數一致性(consistency)AB較小的樣本容量較大的樣本容量P(

)第3節區間估計3.3.1區間估計概述3.3.2單總體參數區間估計3.3.3雙總體參數區間估計373.3.1區間估計概述38在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間由樣本統計量加減估計誤差而得到根據樣本統計量的抽樣分布能夠對樣本統計量與總體參數的接近程度給出一個概率度量比如,某班級平均分數在75~85之間,置信水平是95%3.3.1區間估計概述區間估計的圖示

x95%的樣本

-1.96

x

+1.96

x99%的樣本

-2.58

x

+2.58

x90%的樣本

-1.65

x

+1.65

x393.3.1區間估計概述置信水平(confidencelevel)將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數所占的比例稱為置信水平表示為(1-

為是總體參數未在區間內的比例常用的置信水平值有99%,95%,90%相應的

為0.01,0.05,0.10403.3.1區間估計概述置信區間(confidenceinterval)由樣本統計量所構造的總體參數的估計區間稱為置信區間統計學家在某種程度上確信這個區間會包含真正的總體參數,所以給它取名為置信區間用一個具體的樣本所構造的區間是一個特定的區間,我們無法知道這個樣本所產生的區間是否包含總體參數的真值我們只能是希望這個區間是大量包含總體參數真值的區間中的一個,但它也可能是少數幾個不包含參數真值的區間中的一個總體參數以一定的概率落在這一區間的表述是錯誤的413.3.1區間估計概述置信區間(95%的置信區間)重復構造出的20個置信區間

點估計值423.3.1區間估計概述影響區間寬度的因素總體數據的離散程度,用

來測度樣本容量n,

置信水平(1-

),影響z的大小433.3.2單總體參數區間估計單總體參數的區間估計總體參數符號表示樣本統計量均值比例方差443.3.2單總體參數區間估計總體均值的區間估計(大樣本)1. 假定條件總體服從正態分布,且方差(

2)

已知如果不是正態分布,可由正態分布來近似(n

30)2.使用正態分布統計量z總體均值

在1-

置信水平下的置信區間為453.3.2單總體參數區間估計數據正態性的評估方法對數據畫出頻數分布的直方圖或莖葉圖若數據近似服從正態分布,則圖形的形狀與上面給出的正態曲線應該相似求出樣本數據的四分位差Qd和標準差s,然后計算比值Qd/s

。若數據近似服從正態分布,則有

Qd/s

1.3繪制正態概率圖463.3.2單總體參數區間估計正態概率圖的繪制(normalprobabilityplots)

正態概率圖可以在概率紙上繪制,也可以在普通紙上繪制。在普通紙上繪制正態概率圖的步驟第1步:將樣本觀察值從小到大排列第2步:求出樣本觀察值的標準正態分數zi

。標準正態分數滿足第3步:將zi作為縱軸,xi作為橫軸,繪制圖形,即為標準正態概率圖473.3.2單總體參數區間估計正態概率圖的繪制(例題分析)【例】一家電腦公司連續10天的銷售額(單位:萬元)分別為176,191,214,,220,205,192,201,190,183,185。繪制正態概率圖,判斷該組數據是否服從正態分布483.3.2單總體參數區間估計正態概率圖的繪制(例題分析)電腦公司銷售額的正態概率圖

493.3.2單總體參數區間估計正態概率圖的判斷503.3.2單總體參數區間估計正態概率圖的判斷

短尾分布:如果尾部比正常的短,則點所形成的圖形左邊朝直線上方彎曲,右邊朝直線下方彎曲——如果傾斜向右看,圖形呈S型。表明數據比標準正態分布時候更加集中靠近均值。

長尾分布:如果尾部比正常的長,則點所形成的圖形左邊朝直線下方彎曲,右邊朝直線上方彎曲——如果傾斜向右看,圖形呈倒S型。表明數據比標準正態分布時候有更多偏離的數據。一個雙峰分布也可能是這個形狀。513.3.2單總體參數區間估計正態概率圖的判斷

右偏態分布:右偏態分布左邊尾部短,右邊尾部長。因此,點所形成的圖形與直線相比向上彎曲,或者說呈U型。把正態分布左邊截去,也會是這種形狀。

左偏態分布:左偏態分布左邊尾部長,右邊尾部短。因此,點所形成的圖形與直線相比向下彎曲。把正態分布右邊截去,也會是這種形狀。523.3.2單總體參數區間估計總體均值的區間估計(例題分析)【例3.5】一家食品生產企業以生產袋裝食品為主,為對產量質量進行監測,企業質檢部門經常要進行抽檢,以分析每袋重量是否符合要求。現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量(單位:g)如下表所示。已知產品重量的分布服從正態分布,且總體標準差為10g。試估計該批產品平均重量的置信區間,置信水平為95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3533.3.2單總體參數區間估計總體均值的區間估計(例題分析—正態性評估)食品重量的正態概率圖543.3.2單總體參數區間估計總體均值的區間估計(例題分析)解:已知X~N(

,102),n=25,1-

=95%,z

/2=1.96。根據樣本數據計算得:。由于是正態總體,且方差已知。總體均值

在1-

置信水平下的置信區間為該食品平均重量的置信區間為101.44g~109.28g統計函數—CONFIDENCE553.3.2單總體參數區間估計總體均值的區間估計(例題分析)【例】一家保險公司收集到由36投保個人組成的隨機樣本,得到每個投保人的年齡(單位:周歲)數據如下表。試建立投保人年齡90%的置信區間36個投保人年齡的數據233539273644364246433133425345544724342839364440394938344850343945484532563.3.2單總體參數區間估計總體均值的區間估計(例題分析)解:已知n=36,1-

=90%,z

/2=1.645。根據樣本數據計算得:,總體均值

在1-

置信水平下的置信區間為投保人平均年齡的置信區間為37.37歲~41.63歲573.3.2單總體參數區間估計總體均值的區間估計(例題分析)【例3.6】從華南理工大學2020屆本科畢業生中隨機抽取30人的畢業薪酬(單位:元)如下:5858780082208540880080009200854075001100072008220830078007800860088009000875096009430102008100840085407500950085008350825080003.3.2單總體參數區間估計總體均值的區間估計(例題分析)

即華南理工大學2020屆本科畢業生平均畢業薪酬的置信區間為8304.34~8793.66元593.3.2單總體參數區間估計總體均值的區間估計(小樣本)1. 假定條件總體服從正態分布,但方差(

2)

未知小樣本(n<30)2.使用t

分布統計量總體均值

在1-

置信水平下的置信區間為603.3.2單總體參數區間估計t分布

t分布是類似正態分布的一種對稱分布,它通常要比正態分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數。隨著自由度的增大,分布也逐漸趨于正態分布xt

分布與標準正態分布的比較t分布標準正態分布t不同自由度的t分布標準正態分布t(df=13)t(df=5)z613.3.2單總體參數區間估計t分布(用Excel繪制t分布圖)第1步:在工作表的第1列A2:A62輸入一個等差數列,初始值為“-3”,步長為“0.1”,終值為“3”第2步:在單元格C1輸入t分布的自由度(如“20”)第3步:在單元格B2輸入公式“=TDIST(-A2,$C$1,1)”,并將其復制到B3:B32區域,在B33輸入公式“=TDIST(A33,$C$1,1)”并將其復制到B34:B62區域第4步:在單元格C3輸入公“=(B3-B2)*10”,并將其復制到C4

:C31區域,在單元格C32輸入公式“=(B32-B33)*10”

并將其復制到C33:C61區域第5步:將A2:A62作為橫坐標,C2:C62作為縱坐標,根據“圖表向導”繪制折線圖623.3.2單總體參數區間估計t分布(用Excel繪制t分布圖)633.3.2單總體參數區間估計總體均值的區間估計(例題分析)【例3.7】已知某種燈泡的壽命服從正態分布,現從一批燈泡中隨機抽取16只,測得其使用壽命(單位:h)如下。建立該批燈泡平均使用壽命95%的置信區間16只燈泡使用壽命的數據151015201480150014501480151015201480149015301510146014601470147064643.3.2單總體參數區間估計總體均值的區間估計(例題分析-正態性評估)燈泡壽命的正態概率圖653.3.2單總體參數區間估計總體均值的區間估計(例題分析)解:已知X~N(

,2),n=16,1-

=95%,t

/2=2.131

根據樣本數據計算得:,

總體均值

在1-

置信水平下的置信區間為該種燈泡平均使用壽命的置信區間為1476.8h~1503.2h663.3.2單總體參數區間估計總體比例的區間估計1. 假定條件總體服從二項分布可以由正態分布來近似使用正態分布統計量z3.總體比例

在1-

置信水平下的置信區間為673.3.2單總體參數區間估計總體比例的區間估計(例題分析)68【例3.8】某城市想要估計下崗職工中女性所占的比例,隨機地抽取了100名下崗職工,其中65人為女性職工。試以95%的置信水平估計該城市下崗職工中女性比例的置信區間解:已知n=100,p=65%,1-=95%,z/2=1.96該城市下崗職工中女性比例的置信區間為55.65%~74.35%3.3.2單總體參數區間估計總體方差的區間估計691. 估計一個總體的方差或標準差2. 假設總體服從正態分布3.總體方差

2

的點估計量為s2,且4.總體方差在1-

置信水平下的置信區間為3.3.2單總體參數區間估計總體方差的區間估計(圖示)70

2

21-

2

總體方差1-

的置信區間自由度為n-1的

23.3.2單總體參數區間估計總體方差的區間估計(例題分析)71【例3.9】一家食品生產企業以生產袋裝食品為主,現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如下表所示。已知產品重量的分布服從正態分布。以95%的置信水平建立該種食品重量方差的置信區間25袋食品的重量單位:g112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.33.3.2單總體參數區間估計總體方差的區間估計(例題分析)72解:已知n=25,1-

=95%,根據樣本數據計算得

s2=93.21

2置信度為95%的置信區間為該企業生產的食品總體重量標準差的的置信區間為7.54g~13.43g3.3.2單總體參數區間估計單總體參數區間估計(小結)73待估參數均值比例方差大樣本小樣本大樣本

2分布

2已知

2已知Z分布

2未知Z分布Z分布Z分布

2未知t分布3.3.2單總體參數區間估計未來觀察值的預測區間估計74預測隨機變量未來的觀察值,并希望求出各某個未來觀察值的取值范圍,這個范圍就是對某個未來觀察值的預測區間估計預測誤差的期望為,預測誤差的方差為未來觀察值經標準化后服從標準正態分布,當用樣本方差s2代替總體方差2后,則服從t分布新觀察值95%的預測區間為743.3.3雙總體參數區間估計雙總體參數區間估計7575總體參數符號表示樣本統計量均值差比例差方差比3.3.3雙總體參數區間估計兩個總體均值之差的估計(大樣本)76761. 假定條件兩個總體都服從正態分布,

12,

22已知若不是正態分布,可以用正態分布來近似(n1

30和n2

30)兩個樣本是獨立的隨機樣本2.使用正態分布統計量z3.3.3雙總體參數區間估計兩個總體均值之差的估計(大樣本)77771.

12,

22已知時,兩個總體均值之差

1-

2在1-

置信水平下的置信區間為

12,

22未知時,兩個總體均值之差

1-

2在1-

置信水平下的置信區間為3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)7878【例3.10】某地區教育管理部門想估計兩所中學的學生高考時的英語平均分數之差,為此在兩所中學獨立抽取兩個隨機樣本,有關數據如右表所示。建立兩所中學高考英語平均分數之差95%的置信區間

兩個樣本的有關數據中學1中學2n1=46n1=33S1=5.8S2=7.2English3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)7979解:兩個總體均值之差在1-

置信水平下的置信區間為兩所中學高考英語平均分數之差的置信區間為5.03分~10.97分3.3.3雙總體參數區間估計兩個總體均值之差的估計(小樣本:

12=

22

)80801. 假定條件兩個總體都服從正態分布兩個總體方差未知但相等:

12=

22兩個獨立的小樣本(n1<30和n2<30)2.總體方差的合并估計量估計量

x1-x2的抽樣標準差3.3.3雙總體參數區間估計兩個總體均值之差的估計(小樣本:

12=

22

)81兩個樣本均值之差的標準化兩個總體均值之差

1-

2在1-

置信水平下的置信區間為3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)82【例】為估計兩種方法組裝產品所需時間的差異,分別對兩種不同的組裝方法各隨機安排12名工人,每個工人組裝一件產品所需的時間(單位:min)如下表。假定兩種方法組裝產品的時間服從正態分布,且方差相等。試以95%的置信水平建立兩種方法組裝產品所需平均時間差值的置信區間兩個方法組裝產品所需的時間方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.5213.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析—正態性評估)83兩種方法組裝時間的正態概率圖

3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)84解:根據樣本數據計算得合并估計量為兩種方法組裝產品所需平均時間之差的置信區間為0.14min~7.26min3.3.3雙總體參數區間估計兩個總體均值之差的估計(小樣本:

12

22

)851. 假定條件兩個總體都服從正態分布兩個總體方差未知且不相等:

12

22兩個獨立的小樣本(n1<30和n2<30)2.使用統計量3.3.3雙總體參數區間估計兩個總體均值之差的估計(小樣本:

12

22

)86

兩個總體均值之差

1-

2在1-

置信水平下的置信區間為自由度3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)87【例】沿用前例。假定第一種方法隨機安排12名工人,第二種方法隨機安排8名工人,即n1=12,n2=8,所得的有關數據如表。假定兩種方法組裝產品的時間服從正態分布,且方差不相等。以95%的置信水平建立兩種方法組裝產品所需平均時間差值的置信區間兩個方法組裝產品所需的時間方法1方法228.336.027.631.730.137.222.226.529.038.531.037.634.433.832.128.020.028.830.030.2213.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)88解:根據樣本數據計算得自由度為兩種方法組裝產品所需平均時間之差的置信區間為0.192min~9.058min3.3.3雙總體參數區間估計兩個總體均值之差的估計(匹配大樣本)89假定條件兩個匹配的大樣本(n1

30和n2

30)兩個總體各觀察值的配對差服從正態分布兩個總體均值之差

d=

1-

2在1-

置信水平下的置信區間為對應差值的均值對應差值的標準差3.3.3雙總體參數區間估計兩個總體均值之差的估計(匹配小樣本)90假定條件兩個匹配的小樣本(n1<30和n2<30)兩個總體各觀察值的配對差服從正態分布

兩個總體均值之差

d=

1-

2在1-

置信水平下的置信區間為3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)91【例】由10名學生組成一個隨機樣本,讓他們分別采用A和B兩套試卷進行測試,結果如右表。試建立兩種試卷分數之差

d=

1-

295%的置信區間

10名學生兩套試卷的得分學生編號試卷A試卷B差值d17871726344193726111489845691741754951-27685513876601698577810553916STATISTICS3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析—正態性評估)92兩套試卷分數之差的正態概率圖3.3.3雙總體參數區間估計兩個總體均值之差的估計(例題分析)93解:根據樣本數據計算得兩種試卷所產生的分數之差的置信區間為6.33分~15.67分3.3.3雙總體參數區間估計兩個總體比例之差的區間估計941. 假定條件兩個總體服從二項分布可以用正態分布來近似兩個樣本是獨立的2. 兩個總體比例之差

1-

2在1-

置信水平下的置信區間為3.3.3雙總體參數區間估計兩個總體比例之差的區間估計(例題分析)95【例3.11】在某個電視節目的收視率調查中,農村隨機調查了400人,有32%的人收看了該節目;城市隨機調查了500人,有45%的人收看了該節目。試以90%的置信水平估計城市與農村收視率差別的置信區間123.3.3雙總體參數區間估計兩個總體比例之差的區間估計(例題分析)96解:已知

n1=500,n2=400,p1=45%,p2=32%,

1-

=95%,z/2=1.96

1-

2置信度為95%的置信區間為城市與農村收視率差值的置信區間為6.68%~19.32%3.3.3雙總體參數區間估計兩個總體方差比的區間估計971. 比較兩個總體的方差比用兩個樣本的方差比來判斷如果S12/S22接近于1,說明兩個總體方差很接近如果S12/S22遠離1,說明兩個總體方差之間存在差異總體方差比在1-

置信水平下的置信區間為3.3.3雙總體參數區間估計兩個總體方差比的區間估計(圖示)98FF1-

F

總體方差比1-

的置信區間方差比置信區間示意圖3.3.3雙總體參數區間估計兩個總體方差比的區間估計(例題分析)99【例3.12】為了研究男女學生在生活費支出(單位:元)上的差異,在某大學各隨機抽取25名男學生和25名女學生,得到下面的結果男學生:女學生:試以90%置信水平估計男女學生生活費支出方差比的置信區間3.3.3雙總體參數區間估計兩個總體方差比的區間估計(例題分析)100解:根據自由度

n1=25-1=24,n2=25-1=24,查得F/2(24)=1.98,F1-/2(24)=1/1.98=0.505

12/22置信度為90%的置信區間為男女學生生活費支出方差比的置信區間為0.47~1.843.3.3雙總體參數區間估計雙總體參數區間估計(小結)101待估參數均值差比例差方差比獨立大樣本獨立小樣本匹配樣本獨立大樣本

12、

22已知

12、

22未知Z分布Z分布

12、

22已知

12、

22未知Z分布

12=

22

12≠

22正態總體F分布Z分布t分布t分布t分布第4節樣本容量的確定3.4.1估計單總體均值時樣本容量的確定3.4.2估計單總體比例時樣本容量的確定3.4.3估計雙總體均值差時樣本容量的確定3.4.4估計雙總體比例差時樣本容量的確定1023.4.1估計單總體均值時樣本容量的確定103估計總體均值時樣本容量的確定估計總體均值時樣本容量n為樣本容量n與總體方差

2、邊際誤差E、可靠性系數Z或t之間的關系為與總體方差成正比與邊際誤差的平方成反比與可靠性系數成正比樣本容量的圓整法則:當計算出的樣本容量不是整數時,將小數點后面的數值一律進位成整數,如24.68取25,24.32也取25等等其中:3.4.1估計總體均值時樣本容量的確定104估計總體均值時樣本容量的確定(例題分析)

【例】擁有工商管理學士學位的大學畢業生年薪的標準差大約為2000元,假定想要估計年薪95%的置信區間,希望邊際誤差為400元,應抽取多大的樣本容量?3.4.1估計總體均值時樣本容量的確定105估計總體均值時樣本容量的確定(例題分析)

解:已知

=2000,E=400,1-

=95%,z/2=1.96

應抽取的樣本容量為即應抽取97人作為樣本3.4.2估計單總體比例時樣本容量的確定106估計總體比例時樣本容量的確定根據比例區間估計公式可得樣本容量n為

E的取值一般小于0.1

未知時,可取使方差最大值0.5其中:3.4.2估計單總體比例時樣本容量的確定107估計總體比例時樣本容量的確定(例題分析)【例】根據以往的生產統計,某種產品的合格率約為90%,現要求邊際誤差為5%,在求95%的置信區間時,應抽取多少個產品作為樣本?解:已知

=90%,

=0.05,z/2=1.96,E=5%

應抽取的樣本容量為

應抽取139個產品作為樣本3.4.3估計雙總體均值差時樣本容量的確定108估計雙總體均值差時樣本容量的確定設n1和n2為來自兩個總體的樣本,并假定n1=n2根據均值之差的區間估計公式可得兩個樣本的容量n為其中:3.4.3估計雙總體均值差時樣本容量的確定109估計雙總體均值差時樣本容量的確定(例題分析)【例】一所中學的教務處想要估計試驗班和普通班考試成績平均分數差值的置信區間。要求置信水平為95%,預先估計兩個班考試分數的方差分別為:試驗班

12=90,普通班

22=120。如果要求估計的誤差范圍(邊際誤差)不超過5分,在兩個班應分別抽取多少名學生進行調查?English3.4.3估計雙總體均值差時樣本容量的確定110估計雙總體均值差時樣本容量的確定(例題分析)解:已知

12=90,22=120,E=5,1-

=95%,z/2=1.96即應抽取33人作為樣本3.4.4估計雙總體比例差時樣本容量的確定111估計雙總體比例差時樣本容量的確定設n1和n2為來自兩個總體的樣本,并假定n1=n2根據比例之差的區間估計公式可得兩個樣本的容量n為其中:3.4.4估計雙總體比例差時樣本容量的確定112估計雙總體比例差時樣本容量的確定(例題分析)【例】一家瓶裝飲料制造商想要估計顧客對一種新型飲料認知的廣告效果。他在廣告前和廣告后分別從市場營銷區各抽選一個消費者隨機樣本,并詢問這些消費者是否聽說過這種新型飲料。這位制造商想以10%的誤差范圍和95%的置信水平估計廣告前后知道該新型飲料消費者的比例之差,他抽取的兩個樣本分別應包括多少人?(假定兩個樣本容量相等)綠色健康飲品3.4.4估計雙總體比例差時樣本容量的確定113估計雙總體比例差時樣本容量的確定(例題分析)解:E=10%,1-

=95%,z/2=1.96,由于沒有

的信息,用0.5代替即應抽取193位消費者作為樣本3.4.4估計雙總體比例差時樣本容量的確定114估計雙總體比例差時樣本容量的確定(例題分析)【例3.13】2015年全國1%人口抽樣調查于2015年11月1日0時,抽樣樣本量約為1600萬。樣本設計要求全國出生率、死亡率的相對誤差分別控制在0.6%、0.8%左右,試利用本章所學知識論證1600萬抽樣量的合理性。已知預估全國出生率為12.07‰,死亡率為7.11‰,人口總數為13.83億,置信水平為99%3.4.4估計雙總體比例差時樣本容量的確定115估計雙總體比例差時樣本容量的確定(例題分析)解:由于全國人口總數很大,人口抽樣調查可以看作無限總體抽樣條件

出生率:3.4.4估計雙總體比例差時樣本容量的確定116估計雙總體比例差時樣本容量的確定(例題分析)

死亡率:

由以上結果可知,至少需要抽取2205人,才能同時滿足出生率和死亡率的抽樣誤差要求。 1600萬遠大于2205,因從樣本容量的角度來看是合理的。第5節Bootstrap區間估計3.5.1基本思想3.5.2經驗Boottrap法3.5.3Bootstrap百分位法1173.5.1基本思想對于一個未知分布總體均值的推斷,我們必須倚賴中心極限定理和正態分布的假設。如果未知分布非常不規則或樣本數不足,那么,中心極限定理指出的均值近似為正態分布便難以成立,而基于t分布計算出來的均值置信區間也不夠準確。因此,在未知分布非常不規則或樣本數不足的情況下,需要使用Bootstrap區間估計的方法。1183.5.1基本思想Bootstrap的核心思想是:通過使用數據本身而估計從該數據中計算出來的統計數據的變化。即僅僅利用已有的樣本數據,不對總體的分布做任何假設,來計算樣本統計量在估計總體統計量時的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論