第6抽樣與抽樣分布_第1頁
第6抽樣與抽樣分布_第2頁
第6抽樣與抽樣分布_第3頁
第6抽樣與抽樣分布_第4頁
第6抽樣與抽樣分布_第5頁
已閱讀5頁,還剩64頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計應用

“抓鬮”征兵計劃在美國的對越戰爭中,為使前線有足夠的士兵,美國政府制定了一個“抓鬮”的征兵計劃。該計劃打算把1到366的號碼隨機地分配給一年中每一天,然后由軍事部門按分配的號碼順序把生日與之對應的年輕人分批征召入伍。這種方法的目的是為了給大家相等的機會卷入這場不受歡迎的戰爭中,因此被征召的可能性應該是隨機的在第一年的征兵計劃中,號碼1被分配給了9月14日,分配方法是隨機抽取一個大容器中的366個寫上了日子的乒乓球。結果所有年滿18歲且生于9月14日的合格青年將作為第一批被征召入伍。生日被分配為號碼2的青年則在第二批被征召入伍,以此類推當前1頁,總共69頁。統計應用

“抓鬮”征兵計劃我們知道,并不是所有的人都被征召入伍,因此,生日被分配的號碼較大的人也許永遠輪不上到軍隊服役這種抓鬮看起來對決定應該被征召入伍是一個相當不錯的方法。然而,在抓鬮的第二天,當所有的日子和它們對應的號碼公布以后,統計學家們開始研究這些數據。經過觀察和計算,統計學家們發現了一些規律。例如,我們本應期望應該有差不多一半的較小的號碼(1到183)被分配給前半年的日子,即從1月份到6月份;另外一半較小的號碼被分配給后半年的日子,從7月到12月份。由于抓鬮的隨機性,前半年中可能不會分到正好一半較小的號碼,但是應當接近一半當前2頁,總共69頁。統計應用

“抓鬮”征兵計劃然而結果是,有73個較小的號碼被分配給了前半年的日子,同時有110個較小的號碼被分配給了后半年的日子。換句話說,如果你生于后半年的某一天,那么,你因為被分配給一個較小號碼而去服兵役的機會要大于生于前半年的人在這種情況下,兩個數字之間只應該有隨機誤差,而73和110之間的差別超出了隨機性所能解釋的范圍。這種非隨機性是由于乒乓球在被抽取之前沒有被充分攪拌造成的。在第二年,主管這件事的部門在抓鬮之前去咨詢了統計學家(這可能使生于后半年的人感覺稍微舒服些)當前3頁,總共69頁。第6章抽樣與抽樣分布6.1概率抽樣方法6.2三種不同性質的分布6.3一個總體參數推斷時樣本統計量的抽樣分布6.4兩個總體參數推斷時樣本統計量的抽樣分布當前4頁,總共69頁。學習目標了解概率抽樣方法區分總體分布、樣本分布、抽樣分布理解抽樣分布與總體分布的關系掌握單總體參數推斷時樣本統計量的分布掌握雙總體參數推斷時樣本統計量的分布當前5頁,總共69頁。6.1

概率抽樣方法6.1.1簡單隨機抽樣6.1.2分層抽樣6.1.3系統抽樣6.1.4整群抽樣當前6頁,總共69頁。抽樣方法當前7頁,總共69頁。概率抽樣

(probabilitysampling)根據一個已知的概率來抽取樣本單位,也稱隨機抽樣特點按一定的概率以隨機原則抽取樣本抽取樣本時使每個單位都有一定的機會被抽中每個單位被抽中的概率是已知的,或是可以計算出來的當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率當前8頁,總共69頁。簡單隨機抽樣

(simplerandomsampling)從總體N個單位(元素)中隨機地抽取n個單位作為樣本,使得總體中每一個元素都有相同的機會(概率)被抽中抽取元素的具體方法有重復抽樣和不重復抽樣特點簡單、直觀,在抽樣框完整時,可直接從中抽取樣本用樣本統計量對目標量進行估計比較方便局限性當N很大時,不易構造抽樣框抽出的單位很分散,給實施調查增加了困難沒有利用其他輔助信息以提高估計的效率當前9頁,總共69頁。簡單隨機樣本

(simplerandomsample)由簡單隨機抽樣形成的樣本從總體N個單位中隨機地抽取n個單位作為樣本,使得每一個容量為n樣本都有相同的機會(概率)被抽中參數估計和假設檢驗所依據的主要是簡單隨機樣本當前10頁,總共69頁。簡單隨機抽樣

(用Excel對分類數據隨機抽樣)【例】某班級共有30名學生,他們的名單如右表。用Excel抽出一個由5個學生構成的隨機樣本當前11頁,總共69頁。簡單隨機抽樣

(用Excel對分類數據隨機抽樣)第1步:將30個學生的名單錄入到Excel工作表中的一列第2步:給每個學生一個數字代碼,分別為1,2…,30,并按順序排列,將代碼錄入到Excel工作表中的一列,與學生名單相對應第3步:選擇【工具】下拉菜單,并選擇【數據分析】選項,然后在【數據分析】選項中選擇【抽樣】第4步:在【抽樣】對話框中的【輸入區域】中輸入學生代碼區域,在【抽樣方法】中單擊【隨機】

。在【樣本數】中輸入需要抽樣的學生個數。在【輸出區域】中選擇抽樣結果放置的區域。【確定】后即得到要抽取的樣本用Excel對分類數據抽樣當前12頁,總共69頁。簡單隨機抽樣

(用Excel對數值型數據隨機抽樣)第1步:將原始數據錄入到Excel工作表中的一列第2步:選擇【工具】下拉菜單,并選擇【數據分析】選項,然后在【數據分析】選項中選擇【抽樣】第3步:在【抽樣】對話框中的【輸入區域】中輸入原始數據區域,在【抽樣方法】中單擊【隨機】。在【樣本數】中輸入需要抽樣的數據個數。在【輸出區域】

中選擇抽樣結果放置的區域。【確定】后即得到要抽取的樣本數據用Excel對數值型數據抽樣當前13頁,總共69頁。分層抽樣

(stratifiedsampling)將總體單位按某種特征或某種規則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本優點保證樣本的結構與總體的結構比較相近,從而提高估計的精度組織實施調查方便既可以對總體參數進行估計,也可以對各層的目標量進行估計當前14頁,總共69頁。系統抽樣

(systematicsampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規定的范圍內隨機地抽取一個單位作為初始單位,然后按事先規定好的規則確定其他樣本單位先從數字1到k之間隨機抽取一個數字r作為初始單位,以后依次取r+k,r+2k等單位優點:操作簡便,可提高估計的精度缺點:對估計量方差的估計比較困難當前15頁,總共69頁。整群抽樣

(clustersampling)將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實施調查特點抽樣時只需群的抽樣框,可簡化工作量調查的地點相對集中,節省調查費用,方便調查的實施缺點是估計的精度較差當前16頁,總共69頁。多階段抽樣

(multi-stagesampling)先抽取群,但并不是調查群內的所有單位,而是再進行一步抽樣,從選中的群中抽取出若干個單位進行調查群是初級抽樣單位,第二階段抽取的是最終抽樣單位。將該方法推廣,使抽樣的段數增多,就稱為多階段抽樣具有整群抽樣的優點,保證樣本相對集中,節約調查費用需要包含所有低階段抽樣單位的抽樣框;同時由于實行了再抽樣,使調查單位在更廣泛的范圍內展開在大規模的抽樣調查中,經常被采用的方法

當前17頁,總共69頁。6.2

三種不同性質的分布6.2.1總體分布6.2.2樣本分布6.2.3抽樣分布當前18頁,總共69頁。總體中各元素的觀察值所形成的分布分布通常是未知的可以假定它服從某種分布總體分布

(populationdistribution)總體當前19頁,總共69頁。一個樣本中各觀察值的分布也稱經驗分布當樣本容量n逐漸增大時,樣本分布逐漸接近總體的分布樣本分布

(sampledistribution)樣本當前20頁,總共69頁。樣本統計量的概率分布,是一種理論分布在重復選取容量為n的樣本時,由該統計量的所有可能取值形成的相對頻數分布隨機變量是樣本統計量樣本均值,樣本比例,樣本方差等結果來自容量相同的所有可能樣本提供了樣本統計量長遠而穩定的信息,是進行推斷的理論基礎,也是抽樣推斷科學性的重要依據 抽樣分布

(samplingdistribution)當前21頁,總共69頁。抽樣分布的形成過程

(samplingdistribution)總體計算樣本統計量如:樣本均值、比例、方差樣本當前22頁,總共69頁。6.3

樣本統計量的抽樣分布

(一個總體參數推斷時)6.3.1樣本均值的抽樣分布6.3.2樣本比例的抽樣分布6.3.3樣本方差的抽樣分布當前23頁,總共69頁。樣本均值的抽樣分布當前24頁,總共69頁。在重復選取容量為n的樣本時,由樣本均值的所有可能取值形成的相對頻數分布一種理論概率分布推斷總體均值的理論基礎 樣本均值的抽樣分布當前25頁,總共69頁。樣本均值的抽樣分布

(例題分析)【例】設一個總體,含有4個元素(個體)

,即總體單位數N=4。4

個個體分別為x1=1,x2=2,x3=3,x4=4

。總體的均值、方差及分布如下總體分布14230.1.2.3均值和方差當前26頁,總共69頁。樣本均值的抽樣分布

(例題分析)

現從總體中抽取n=2的簡單隨機樣本,在重復抽樣條件下,共有42=16個樣本。所有樣本的結果為3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能的n=2的樣本(共16個)當前27頁,總共69頁。樣本均值的抽樣分布

(例題分析)計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值(x)x樣本均值的抽樣分布1.000.10.20.3P

(x)1.53.04.03.52.02.5當前28頁,總共69頁。樣本均值的分布與總體分布的比較

(例題分析)=2.5σ2=1.25總體分布14230.1.2.3抽樣分布P(x)1.00.1.2.31.53.04.03.52.02.5x當前29頁,總共69頁。樣本均值的抽樣分布

與中心極限定理=50

=10X總體分布n=4抽樣分布xn=16當總體服從正態分布N(μ,σ2)時,來自該總體的所有容量為n的樣本的均值x也服從正態分布,x

的數學期望為μ,方差為σ2/n。即x~N(μ,σ2/n)當前30頁,總共69頁。中心極限定理

(centrallimittheorem)當樣本容量足夠大時(n

30),樣本均值的抽樣分布逐漸趨于正態分布從均值為,方差為

2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ,方差為σ2/n的正態分布一個任意分布的總體x當前31頁,總共69頁。中心極限定理

(centrallimittheorem)x的分布趨于正態分布的過程當前32頁,總共69頁。抽樣分布與總體分布的關系總體分布正態分布非正態分布大樣本小樣本樣本均值正態分布樣本均值正態分布樣本均值非正態分布當前33頁,總共69頁。樣本均值的數學期望樣本均值的方差重復抽樣不重復抽樣樣本均值的抽樣分布

(數學期望與方差)當前34頁,總共69頁。樣本均值的抽樣分布

(數學期望與方差)比較及結論:1.樣本均值的均值(數學期望)等于總體均值

2.樣本均值的方差等于總體方差的1/n當前35頁,總共69頁。統計量的標準誤

(standarderror)樣本統計量的抽樣分布的標準差,稱為統計量的標準誤,也稱為標準誤差標準誤衡量的是統計量的離散程度,它測度了用樣本統計量估計總體參數的精確程度以樣本均值的抽樣分布為例,在重復抽樣條件下,樣本均值的標準誤為當前36頁,總共69頁。估計的標準誤

(standarderrorofestimation)當計算標準誤時涉及的總體參數未知時,用樣本統計量代替計算的標準誤,稱為估計的標準誤以樣本均值的抽樣分布為例,當總體標準差未知時,可用樣本標準差s代替,則在重復抽樣條件下,樣本均值的估計標準誤為當前37頁,總共69頁。樣本比例的抽樣分布當前38頁,總共69頁。總體(或樣本)中具有某種屬性的單位與全部單位總數之比不同性別的人與全部人數之比合格品(或不合格品)與全部產品總數之比總體比例可表示為樣本比例可表示為

比例

(proportion)當前39頁,總共69頁。在重復選取容量為n的樣本時,由樣本比例的所有可能取值形成的相對頻數分布一種理論概率分布當樣本容量很大時,樣本比例的抽樣分布可用正態分布近似推斷總體比例的理論基礎 樣本比例的抽樣分布當前40頁,總共69頁。樣本比例的數學期望樣本比例的方差重復抽樣不重復抽樣樣本比例的抽樣分布

(數學期望與方差)當前41頁,總共69頁。樣本方差的抽樣分布當前42頁,總共69頁。樣本方差的分布在重復選取容量為n的樣本時,由樣本方差的所有可能取值形成的相對頻數分布對于來自正態總體的簡單隨機樣本,則比值的抽樣分布服從自由度為(n-1)的2分布,即當前43頁,總共69頁。由阿貝(Abbe)

于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)

分別于1875年和1900年推導出來設,則令,則Y服從自由度為1的2分布,即

當總體,從中抽取容量為n的樣本,則2分布

(2

distribution)當前44頁,總共69頁。分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱期望為E(2)=n,方差為D(2)=2n(n為自由度)可加性:若U和V為兩個獨立的服從2分布的隨機變量,U~2(n1),V~2(n2),則U+V這一隨機變量服從自由度為n1+n2的2分布2分布

(性質和特點)當前45頁,總共69頁。c2分布

(圖示)

選擇容量為n的簡單隨機樣本計算樣本方差s2計算卡方值2=(n-1)s2/σ2計算出所有的

2值不同容量樣本的抽樣分布c2n=1n=4n=10n=20

ms總體當前46頁,總共69頁。c2分布

(例題的圖示)16個樣本方差的分布樣本方差s2s2取值的概率0.04/160.56/1624/164.52/16當前47頁,總共69頁。c2分布

(用Excel計算c2分布的概率)利用Excel提供的CHIDIST統計函數,計算c2分布右單尾的概率值語法為CHIDIST(x,df),其中df為自由度,x是隨機變量的取值給定自由度和統計量取值的右尾概率,也可以利用“插入函數”命令來實現計算自由度為8,統計量的取值大于10的概率用Excel計算c2

分布的概率當前48頁,總共69頁。c2分布

(用Excel計算c2分布的臨界值)利用Excel提供的CHIINV統計函數,計算分布右單尾的概率值為的臨界值語法為CHIINV(,df),其中df為自由度給定自由度和分布右尾概率為的臨界值也可以利用“插入函數”命令來實現計算自由度為10,右尾概率為0.1的臨界值用Excel計算c2

分布的臨界值當前49頁,總共69頁。c2分布

(用Excel生成c2分布的臨界值表)第一步:將c2分布自由度df的值輸入到工作表的

A列,將右尾概率的取值輸入到第1行第二步:在B2單元格輸入公式

“=CHIINV(B$1,$A2)”

然后將其向下、向右復制即可得到分布的臨界值表

用Excel生成c2

分布的臨界值表當前50頁,總共69頁。c2分布

(用Excel繪制c2分布圖)第1步:在工作表的第1列A2:A62輸入應一個等差數列,初始值為“0”,步長為“1”,終值為“60”第2步:在單元格B1輸入c2分布自由度(如“15”)第3步:在單元格B2輸入公式“=CHIDIST(A2,$B$1)”,并將其復制到B3:B62區域第4步:在單元格C2輸入公“=B2-B3”,并將其復制到C3:C62

區域第5步:將A2:A62作為橫坐標、C2:C62作為縱坐標,根據“圖表向導”繪制折線圖

用Excel繪制c2分布圖當前51頁,總共69頁。c2分布

(用Excel繪制c2分布圖)當前52頁,總共69頁。6.4

樣本統計量的抽樣分布

(兩個總體參數推斷時)6.4.1兩個樣本均值之差的抽樣分布6.4.2兩個樣本比例之差的抽樣分布6.4.3兩個樣本方差比的抽樣分布當前53頁,總共69頁。兩個樣本均值之差的抽樣分布當前54頁,總共69頁。兩個總體都為正態分布,即,兩個樣本均值之差的抽樣分布服從正態分布,其分布的數學期望為兩個總體均值之差方差為各自的方差之和 兩個樣本均值之差的抽樣分布當前55頁,總共69頁。兩個樣本均值之差的抽樣分布

m

1s

1總體1s

2

m

2總體2抽取簡單隨機樣樣本容量n1計算x1抽取簡單隨機樣樣本容量n2計算x2計算每一對樣本的x1-x2所有可能樣本的x1-x2m1-m2抽樣分布當前56頁,總共69頁。兩個樣本比例之差的抽樣分布當前57頁,總共69頁。兩個總體都服從二項分布分別從兩個總體中抽取容量為n1和n2的獨立樣本,當兩個樣本都為大樣本時,兩個樣本比例之差的抽樣分布可用正態分布來近似分布的數學期望為方差為各自的方差之和 兩個樣本比例之差的抽樣分布當前58頁,總共69頁。兩個樣本方差比的抽樣分布當前59頁,總共69頁。兩個樣本方差比的抽樣分布

兩個總體都為正態分布,即X1~N(μ1,σ12),X2~N(μ2,σ22)從兩個總體中分別抽取容量為n1和n2的獨立樣本兩個樣本方差比的抽樣分布,服從分子自由度為(n1-1),分母自由度為(n2-1)的F分布,即當前60頁,總共69頁。由統計學家費希爾()

提出的,以其姓氏的第一個字母來命名設若U為服從自由度為n1的2分布,即U~2(n1),V為服從自由度為n2的2分布,即V~2(n2),且U和V相互獨立,則稱F為服從自由度n1和n2的F分布,記為F分布

(F

distribution)當前61頁,總共69頁。F分布

(圖示)

不同自由度的F分布F(1,10)(5,10)(10,10)當前62頁,總共69頁。F分布

(用Excel計算F分布的概率)利用Excel提供的FDIST統計函數,計算分布右單尾的概率值其語法為FDIST(x,df1,df2),其中x是隨機變量的取值,df1為分子自由度,df2為分母自由度給定分子自由度df1、分母自由度df2和統計量取值的右尾概率,也可以利用“粘貼函數”命令來實現計算分子自由度為4,分母自由度為6,統計量的取值大于2.5的概率用Excel計算F分布的概率當前63頁,總共69頁。F分布

(用Exc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論