




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第六章抽樣理論與參數估計第一節抽樣的基本概念一、概念回顧二、抽樣方法三、抽樣設計的意義及原則四、樣本容量的計算統計推斷的可靠性與下列因素有關
1.數據的質量樣本對總體的代表性,既涉及到抽樣方法,又涉及到樣本的容量。2.運用統計方法及數據處理的準確性3.樣本對總體的代表性在收集數據的過程中控制選擇恰當的方法通過抽樣設計控制一、概念回顧總體、個體、樣本參數、統計量二.幾種重要的隨機抽樣方法
1.簡單隨機抽樣(simplerandomsampling)簡單隨機抽樣就是按照隨機原則直接從總體中抽取出若干個單位作為樣本。簡單隨機抽樣法能保證總體中的每一個對象都有同等的被抽取到的可能性,并且個體之間都相互獨立。這是在總體異質性不是很大而且所抽取的樣本較小時經常采用的一種形式。
簡單隨機抽樣法的局限是:當樣本規模小時,樣本的代表性較差。簡單隨機取樣有兩種基本方式:抽簽法(drawinglots)隨機數字表法(randomnumbertable)2.等距抽樣
等距抽樣(intervalsampling)也稱為機械抽樣或系統抽樣。實施時,先把總體中的所有個體按一定順序編號,然后依固定的間隔取樣。等距抽樣可以保證樣本的成分與總體一致,但隨機性不如單純隨機抽樣法。應用中可將兩種方法結合使用。3.分層隨機抽樣
分層隨機取樣簡稱分層抽樣(stratifiedsampling或hierarchicalsampling),是進行大規模研究時常常使用的抽樣方法。分層抽樣的方法:先將總體按照一定標準分為若干類型(統計上稱為層),再根據各層對象的數量在總體數量中所占的比例,確定從每一種類型(層)中抽取樣本的數量,然后按隨機原則和所確定的各層取樣的數量,從各層中取樣。做好分層隨機取樣的關鍵:分類的標準要科學,要符合實際情況。各層內的差別要小,而層與層之間的差異則越大越好。例1:為了調查某區重點中學720名高一學生的視力,首先按視力的情況將他們分成好(108人)、中(360人)、差(252人)三種水平。若用分層抽樣法抽取120人進行調查,問各層應抽多少人?計算:⑵.最佳配置法
最佳配置法不僅考慮各層的人數比例,而且考慮到了各層的標準差。當各層內的標準差已知,應該在標準差大的層內多分配而在標準差小的層內少分配抽樣數量。最佳配置法可以使得到的樣本具有較好的異質性。在各層內應抽取個體數計算
公式中,ni表示從某一層所抽個體數n表示樣本容量Ni表示某層個體總數σi表示某層標準差(22.2)當各個σ沒有現成資料可以應用時,可以先從該層抽一個小樣本,由這一小樣本計算出的樣本標準差S對σ進行估計。(22.3)分層隨機取樣法的優點是代表性和推論的精確性較好。它適用于總體單位數量較多,并且內部差異較大的研究對象。分層隨機取樣法的局限性是要求對總體各單位的情況有較多的了解,否則就難以作出科學的分類。4.兩階段隨機抽樣
當總體容量很大時,直接以總體中的所有個體為對象,從中進行抽樣,在實際調查或研究中存在很大困難。采用分階段的抽樣方法,可以縮小實際抽樣的范圍,使實際抽樣工作能夠按研究設計的要求順利進行。兩階段隨機抽樣(two-stagesrandomsampling)的一般過程是:先將總體分成M個部分;第一階段從這M個部分中隨機抽取m個部分作為第一階段樣本;第二階段是分別從這m個部分中抽取一定數量(ni)的個體構成第二階段樣本。5.整群抽樣
整群隨機抽樣是先將總體各單位按一定的標準分成許多群(小組),然后按隨機原則從這些群中抽取若干群作為樣本。整群隨機取樣法的優點是樣本比較集中,適宜于某些特定的研究,尤其是在教育實驗中常用此法。此外,在規模較大的調查研究中,整群隨機取樣易于組織,可節省人力、物力和時間。整群隨機抽樣法的缺點是樣本分布不均勻,代表性較差。
三.抽樣設計的意義及原則
1.抽樣設計的意義
⑴.使研究節省人力及費用;⑵.使研究節省時間,提高時效性;⑶.保證研究結果的準確性。
2.抽樣設計的原則
抽樣設計的要求是樣本對研究總體有良好的代表性,即樣本的構成與總體保持一致。為了保證這一點,抽樣時必須遵循隨機化(randomization)的基本原則。所謂隨機化原則,是指在抽樣時,樣本中的每一個體都是按照隨機的原理被抽取的,總體中每一個體被抽到的可能性是相等的。
四.樣本容量的確定
1.確定樣本容量的意義在應用中應根據研究所要求的精確度及經費情況確定樣本容量。如果樣本容量過小,會影響樣本對總體的代表性,增大抽樣誤差而降低研究推論的精確性;樣本容量過大,雖然減小了抽樣誤差,但可能增大過失誤差,并且增加不必要的人力物力資源的浪費。樣本容量與抽樣誤差并不是直線關系。確定容量的基本原則是:在盡量節省人力、經費和時間的條件下,確保用樣本推斷總體達到預定的可行度及準確性。2.總體平均數估計樣本容量的確定
⑴.總體σ已知其中,最大允許誤差為
,可信度為1-α。
由有(22.4)可以看到,當α確定之后,總體標準差和最大允許誤差d是決定樣本容量的兩個因素。⑵.總體σ未知
由有當樣本容量n未確定時,t值無法確定,因此一般采用嘗試法。
(22.5)例:擬估計某市高校四級英語考試成績的總體平均分數。以往考試成績的標準差為13,這次的估計最大允許誤差為2分,可信度為95%,問應抽取多大的樣本?第二節樣本分布一、什么是樣本分布二、正態分布及漸近正態分布三、t分布四、分布五、F分布一、樣本分布/抽樣分布樣本分布指樣本統計量的分布,它是統計推論的重要依據。在談及樣本統計量的分布時,首先要保證各個樣本是獨立的,各個樣本都服從同樣的分布。要保證這一點,取樣方法應該用隨機抽樣的方法。樣本統計量的概率分布是一種理論概率分布隨機變量是樣本統計量樣本均值,樣本比例,樣本方差等結果來自容量相同的所有可能樣本提供了樣本統計量長遠我們穩定的信息,是進行推斷的理論基礎,也是抽樣推斷科學性的重要依據
抽樣分布
(samplingdistribution)抽樣分布
(samplingdistribution)總體計算樣本統計量例如:樣本均值、比例、方差樣本樣本統計量的抽樣分布1、樣本平均數的分布2、樣本方差的抽樣分布容量相同的所有可能樣本的樣本均值的概率分布一種理論概率分布進行推斷總體總體均值的理論基礎
樣本均值的抽樣分布樣本均值的抽樣分布
(例題分析)(重復抽樣)【例】設一個總體,含有4個元素(個體),即總體單位數N=4。4個個體分別為x1=1、x2=2、x3=3、x4=4。總體的均值、方差及分布如下總體分布14230.1.2.3均值和方差樣本均值的抽樣分布
(例題分析)(重復抽樣)
現從總體中抽取n=2的簡單隨機樣本,在重復抽樣條件下,共有42=16個樣本。所有樣本的結果為所有可能的n
=2的樣本(共16個)第一個觀察值第二個觀察值123411,11,21,31,422,12,22,32,433,13,23,33,444,14,24,34,4樣本均值的抽樣分布
(例題分析)(重復抽樣)16個樣本的均值(x)第一個觀察值第二個觀察值123411.01.52.02.521.52.02.53.032.02.53.03.542.53.03.54.0計算出各樣本的均值如下表。給出樣本均值的抽樣分布均值X的取值1.01.52.02.53.03.54.0均值X的個數1234321取值的概率P(X)1/162/163/164/163/162/161/16X樣本均值的抽樣分布1.000.10.20.3P(X)1.53.04.03.52.02.5樣本均值的分布與總體分布的比較
(例題分析)(重復抽樣)=2.5σ2=1.25總體分布14230.1.2.3抽樣分布P(X)1.00.1.2.31.53.04.03.52.02.5X樣本均值的抽樣分布
(例題分析)(不重復抽樣)
如果從總體中抽取n=2的簡單隨機樣本,在不重復抽樣條件下,共有4×3=12個樣本。所有樣本的結果為所有可能的n=2的樣本(共12個)第一個觀察值第二個觀察值123411,21,31,422,12,32,433,13,23,444,14,24,3樣本均值的抽樣分布
(例題分析)(不重復抽樣)16個樣本的均值(x)第一個觀察值第二個觀察值123411.52.02.521.52.53.032.02.53.542.53.03.5計算出各樣本的均值如下表。給出樣本均值的抽樣分布均值X的取值1.52.02.53.03.5均值X的個數22422取值的概率P(X)2/122/124/122/122/12X樣本均值的抽樣分布1.000.10.20.3P(X)1.53.04.03.52.02.5樣本均值的抽樣分布
(例題分析)(不重復抽樣)=2.5σ2=1.25總體分布14230.1.2.3抽樣分布P(X)1.00.1.2.31.53.04.03.52.02.5X樣本均值的抽樣分布
與中心極限定理=50
=10X總體分布n=4抽樣分布Xn=16當總體服從正態分布N~(μ,σ2)時,來自該總體的所有容量為n的樣本的均值X也服從正態分布,X
的數學期望為μ,方差為σ2/n。即X~N(μ,σ2/n)中心極限定理
(centrallimittheorem)當樣本容量足夠大時(n
30),樣本均值的抽樣分布逐漸趨于正態分布中心極限定理:設從均值為,方差為
2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態分布一個任意分布的總體X抽樣分布與總體分布的關系總體分布正態分布非正態分布大樣本小樣本正態分布正態分布非正態分布抽樣分布問題樣本平均數的分布是怎么得到的?樣本平均數分布的平均數與方差和母總體的平均數與方差有何關系?在不同情況下一樣嗎?什么叫自由度?樣本平均數的分布與t分布的關系?分布是什么分布?特點?應用于?F分布用來分析什么?特點?二、正態分布及漸近正態分布㈠樣本平均數的分布⒈總體方差已知,總體分布為正態,樣本平均數的分布為正態分布。⒉總體方差已知,總體分布非正態,當樣本容量足夠大(n>30)時,其樣本平均數的分布為漸近正態分布。二、正態分布及漸近正態分布㈡方差及標準差的分布⒈自正態分布總體中抽取容量為n的樣本,當n足夠大(n>30),樣本方差及標準差的分布,漸趨于正態分布。⒉因此公式要求樣本容量足夠大,一般難以保證,故標準差及方差的統計推論,較少用到漸近分布,而用其精確分布(分布)。⒊此外,還有多種統計量的分布為正態分布或漸近正態分布,如兩樣本平均數之差的分布、相關系數的分布、比率的分布等將在以后章節介紹。三、t分布t分布是統計分析中應用較多的一種隨機變量函數的分布,是統計學者高賽特1908年在以筆名“Student”發表的一篇論文中推導的一種分布。這種分布是一種左右對稱、峰態比較高狹、分布形狀隨樣本容量n-1的變化而變化的一族分布。t分布與n-1(自由度)有關,t分布的自由度通常用符號df表示。自由度是指任何變量中可以自由變化的數目,它代表t分布中獨立隨機變量的數目。三、t分布㈠t分布的特點⒈平均值為0⒉以平均值0左右對稱的分布,左側t為負值,右側t為正值。⒊變量取值在之間。⒋曲線下總面積為1。⒌t分布曲線隨自由度變化而變化,為一簇分布。樣本容量越小,曲線越低闊,樣本容量大于30時,曲線接近正態分布,當時,t分布與標準正態曲線重合,方差為1。㈡t分布表的使用三、t分布㈢樣本平均數的分布⒈總體分布為正態,方差未知時,樣本平均數的分布為t分布。⒉當總體分布為非正態而其方差又未知時,若滿足n>30這一條件,樣本平均數的分布近似為t分布。四、分布㈠定義四、分布五、F分布五、F分布樣本方差的分布對于來自正態總體N(u,σ2)的簡單隨機樣本,則比值的抽樣分布服從自由度為(n-1)的2分布,即卡方(2)分布
(2
distribution)χ2分布:設X1,X2,……,Xn是來自總體N(0,1)的樣本,則統計量服從自由度為n的χ2分布,記為χ2~χ2(n)。設,則令,則Y服從自由度為1的2分布,即
當總體,從中抽取容量為n的樣本,則分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對稱的右偏分布,但隨著自由度的增大逐漸趨于對稱期望為:E(2)=n,方差為:D(2)=2n(n為自由度)
可加性:若U和V為兩個獨立的2分布隨機變量,U~2(n1),V~2(n2),則U+V這一隨機變量服從自由度為n1+n2的2分布2分布
(性質和特點)c2分布
(圖示)選擇容量為n的簡單隨機樣本計算樣本方差S2計算卡方值2=(n-1)S2/σ2計算出所有的
2值不同容量樣本的抽樣分布c2n=1n=4n=10n=20ms總體第三節參數估計
當在研究中從樣本獲得一組數據后,如何通過這組數據信息,對總體特征進行估計,也就是如何從局部結果推論總體的情況,稱為總體參數估計。
參數估計可分為點估計和區間估計兩種。第一節點估計、區間估計與標準誤一、點估計的定義點估計是指在進行參數估計時,直接用一個特定點值作為總體參數的估計值。二、良好估計量的標準⑴無偏性:即用多個樣本的統計量作為總體參數的估計值,其偏差的平均數為0。⑵有效性:當總體參數的無偏估計不止一個統計量時,無偏估計變異小者有效性高,變異大者有效性低,即方差越小越好。⑶一致性:當樣本容量無限增大時,估計值應能夠越來越接近它所估計的總體參數,估計值越來越精確,逐漸趨近于真值。⑷充分性:指一個容量為n的樣本統計量,是否充分地反映了全部n個數據所反映總體的信息。三、區間估計與標準誤㈠區間估計的定義是根據樣本統計量,利用抽樣分布的原理,在一定的可靠程度上,估計出總體參數所在的范圍,即以數軸上的一段距離表示未知參數可能落入的范圍。㈡置信區間與顯著性水平⑴置信區間:也稱置信間距,指在一定可靠程度上,總體參數所在的區域距離或區域長度。⑵置信界限(臨界值):置信區間的上下兩端點值。⑶顯著性水平:指估計總體參數落在某一區間時,可能犯錯誤的概率,用符號表示。有時也稱為意義階段、信任系數等。⑷置信度(置信水平):。三、區間估計與標準誤㈢區間估計的原理與標準誤⑴區間估計是根據樣本分布理論,用樣本分布的標準誤計算區間長度,解釋總體參數落入某置信區間可能的概率。⑵區間估計存在成功估計的概率大小及估計范圍大小兩個問題。妥協辦法:在保證置信度的前提下,盡可能提高精確度。規定正確估計的概率即置信度為0.95和0.99,則顯著性水平為0.05和0.01。小概率事件在一次抽樣中不可能出現。⑶區間估計的原理是樣本分布理論。在計算區間估計值解釋估計的正確概率時,依據的是該樣本統計量的分布規律及樣本分布的標準誤。樣本分布可提供概率解釋,而標準誤的大小決定區間估計的長度。一般情況下,加大樣本容量可使標準誤變小。一、參數估計的原理㈡區間估計的原理和方法⒈置信區間和顯著性水平區間估計時,某一概率下,總體參數所在的區間稱為置信區間,區間的端點值稱為臨界值,這個概率稱為置信度,以概率表示,α又稱顯著性水平,表示該區間估計的不可靠程度。⒉區間估計的原理和方法
第二節總體平均數的估計一、總體平均數估計的計算步驟:⒈利用抽樣的方法抽取樣本,計算出樣本的平均值和標準差S。⒉計算樣本平均數的標準誤:①當總體方差已知時,樣本平均數的標準誤的計算為:②當總體方差未知時,樣本平均數的標準誤的計算為:一、總體平均數估計的計算步驟:⒊確定顯著性水平和置信水平⒋根據樣本平均數的抽樣分布確定查何種分布表,確定理論值。⒌確定置信區間:⒍解釋總體平均數的置信區間。二、總體方差已知時,對總體平均數的估計⒈當總體分布為正態分布時,(無論樣本容量n的大小,從該總體抽取的樣本分布均成正態分布。)對總體平均數的估計可以依正態分布進行估計。例1已知某市6歲正常男童體重的總體方差為6.55公斤,從該市隨機抽取15名6歲男童,其平均體重為20.4公斤,試求該市6歲男童平均體重的95%和99%的置信區間。例1的計算解:95%的置信區間的顯著性水平α=0.05,因此,μ的95%的置信區間為:即:μ的99%的置信區間為:即:故該市6歲男童平均體重μ的95%的置信區間為[19.11,21.69];99%的置信區間為[18.7,22.1]。二、總體方差已知時,對總體平均數的估計⒉當總體為非正態分布時(只有當樣本容量n>30時,此時樣本抽樣分布漸近正態分布。這時可依正態分布進行估計,否則不能對總體平均數進行估計。)例3已知某區15歲男生立定跳遠的方差為,現從該區抽取58名15歲男生,測得該組男生立定跳遠的平均數為198.4cm,試求該區15歲男生立定跳遠平均成績的95%和99%的置信區間。例3解:由題意知:由于樣本容量(n=58)大于30,該樣本的抽樣分布為漸進正態分布。因此,μ的95%的置信區間為:198.4-1.96×2.75≤μ≤198.4+1.96×2.75即193.01≤μ≤203.79μ的99%的置信區間為:198.4-2.58×2.75≤μ≤198.4+2.58×2.75即191.3≤μ≤205.5故該區15歲男生立定跳遠的平均成績有95%的可能落入[193.01,203.79]內,有99%的可能落入[191.3,205.5]內。三、總體方差未知,對總體平均數的估計⒈當總體分布為正態分布時(無論樣本容量n的大小,從該總體抽取的樣本所形成的分布均服從自由度為n
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權】 IEC 62290-2:2025 EN-FR Railway applications - Urban guided transport management and command/control systems - Part 2: Functional requirements specification
- 【正版授權】 IEC 60512-99-002:2022/AMD1:2025 EN-FR Amendment 1 - Connectors for electrical and electronic equipment - Tests and measurements - Part 99-002: Endurance test schedules - Tes
- 【正版授權】 IEC 60947-7-1:2025 EN-FR Low-voltage switchgear and controlgear - Part 7-1: Ancillary equipment - Terminal blocks for copper conductors
- 2025年影視制作過程與技術考試試卷及答案
- 2025年心理學專業考試試題及答案
- 2025年數據挖掘與機器學習技術考試試題及答案
- 2025年海洋科學專業考試試卷及答案
- 2025年電子商務實務及案例分析考試試題及答案
- 配送貨車合同協議書
- 2025年母嬰護理專項考核試題
- 10SMS202-2 埋地矩形雨水管道及其附屬構筑物(磚、石砌體)
- 河道景觀設計合同范本
- 翻譯員工作合同
- NB-T31052-2014風力發電場高處作業安全規程
- 2024年湖南高考歷史真題
- 海外倉合同范本
- 體育行業投標書
- 慢性淋巴增殖性疾病的診斷課件
- 2024年高校教師資格證資格考試題庫含答案(滿分必刷)
- 2024-2029全球及中國電氣電子中的CFD行業市場發展分析及前景趨勢與投資發展研究報告
- 中國法律史-第三次平時作業-國開-參考資料
評論
0/150
提交評論