教學目的通過本章的學習使學生掌握抽樣推斷的基本原理和方法,_第1頁
教學目的通過本章的學習使學生掌握抽樣推斷的基本原理和方法,_第2頁
教學目的通過本章的學習使學生掌握抽樣推斷的基本原理和方法,_第3頁
教學目的通過本章的學習使學生掌握抽樣推斷的基本原理和方法,_第4頁
教學目的通過本章的學習使學生掌握抽樣推斷的基本原理和方法,_第5頁
已閱讀5頁,還剩41頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 教學目的教學目的:通過本章的學習使學生掌握抽樣推斷的基本原理和方法,理解抽樣分布的理論和樣本容量的確定方法。 教學重點教學重點:重點介紹抽樣誤差的概念、抽樣平均誤差的計算方法、參數估計的基本方法、必要樣本容量的確定和抽樣組織形式等。 教學學時教學學時:本章將用12個學時介紹。第一節第一節 抽樣推斷的一般問題抽樣推斷的一般問題l一、抽樣推斷的概念和應用場合一、抽樣推斷的概念和應用場合 l1、抽樣推斷的概念和特點l抽樣推斷是指根據隨機原則,從總體中抽取一部分單位進行觀察,并依據所獲得數據的處理結果,對總體的數量特征做出具有一定可靠程度的估計和判斷,從而達到對總體的分布狀況及其數量特征認識的目的。

2、l抽樣推斷的特點: l(1)遵循隨機原則;l(2)由部分推斷總體的一種研究方法;l(3)抽樣推斷的誤差可以事先計算并加以控制。l 2、抽樣推斷的應用場合 l(1)用于無法采用或不必采用全面調查的現象;l(2)對全面調查的結果進行復核;l(3)生產過程的質量控制;l(4)對總體的假設進行檢驗。l二、抽樣推斷中的幾個基本概念二、抽樣推斷中的幾個基本概念l1、全及總體和樣本總體 l(1)全及總體l全及總體又稱母體,簡稱總體,它是指所要認識的,具有某種共同性質的許多單位的集合體。總體單位數用N表示。l(2)樣本總體 l樣本總體又稱子樣,簡稱樣本,是從全及總體中隨機抽取出來,代表全及總體的那部分單位的集

3、合體。樣本總體的單位數稱為樣本容量,通常用小寫英文字母n來表示。l通常將樣本單位數不少于30個的樣本稱為大樣本,不及30個的稱為小樣本。社會經濟統計的抽樣調查多屬于大樣本調查。l對于一次抽樣調查,全及總體是唯一確定的,而樣本總體則不是這樣,樣本是不確定的,一個全及總體可能抽出很多個樣本總體,樣本的個數和樣本的容量有關,也和抽樣的方法有關。l2、總體參數和樣本統計量l(1)總體參數l總體參數又稱為全及指標,根據全及總體各個單位的標志值或標志屬性計算的,反映總體某種屬性或特征的綜合指標。常用的全及指標有總體平均數(或總體成數)、總體標準差(或總體方差 )。 總體平均數: NiiXNX11總體方差:

4、 NiiXXN122)(1總體標準差: NiiXXN12)(1設總體中具有某一標志的單位數為 1N則總體成數為: NNP1總體成數的方差為: )1 (2PPPl 2、樣本統計量l 樣本統計量又稱樣本指標,由樣本總體各單位標志值計算出來反映樣本特征,用來估計全及指標的綜合指標(抽樣指標)。統計量是樣本變量的函數,用來估計總體參數,因此與總體參數相對應,統計量有樣本平均數(或抽樣成數)、樣本標準差(或樣本方差)。樣本平均數: niixnx11樣本方差: niixxns122)(11樣本標準差: niixxns12)(11樣本成數: nnp1樣本成數的方差: )1 (2ppspl 對于一個問題全及總

5、體是唯一確定的,所以全及指標也是唯一確定的,全及指標也稱為參數,它是待估計的數。而統計量則是隨機變量,它的取值隨樣本的不同而發生變化。 3、抽樣方法和樣本的可能數目 1、抽樣方法 (1)根據取樣方式不同,可分為重復抽樣和不重復抽樣 重復抽樣是從N個總體單位中抽取一個單位進行觀察、紀錄后,再放回總體中,然后再抽取下一個單位,這樣連續抽取n個單位組成樣本的方法。 不重復抽樣是從N個總體單位中抽取一個單位進行觀察、紀錄后,不放回總體中,在余下的總體中抽取下一個單位,這樣連續抽取n個單位組成樣本的方法。 (2)根據對樣本的要求不同,分考慮順序的抽樣和不考慮順序的抽樣 考慮順序的抽樣,是從總體N個單位中

6、抽取n個單位構成樣本,不但要考慮各單位的不同性質,而且還要考慮不同性質各單位的中選順序。相同構成成分的單位,由于順序不同,也作為不同的樣本。 不考慮順序的抽樣,是從總體N個單位中抽取n個單位構成樣本,只考慮樣本各單位的組成成分如何,而不問各單位的抽選順序。如果樣本的成分相同,不論順序有多大不同,也作為一種樣本。 2、樣本的可能數目 (1)考慮順序的不重復抽樣,樣本的可能數目為: (2)考慮順序的重復抽樣,樣本的可能數目為: (3)不考慮順序的不重復抽樣,樣本的可能數目為: (4)不考慮順序的重復抽樣,樣本的可能數目為:)!(!) 1()2)(1(nNNnNNNNAnNnnNNB)!( !) 1

7、()2)(1(nNnNnnNNNNCnNnnNnNCD1 三、抽樣誤差三、抽樣誤差 1、統計誤差的種類 統計誤差是指統計數據與客觀實際數量之間的差距。有兩種情況: (1)登記性誤差。指在調查、整理過程中,由于各種主客觀原因引起的誤差。 (2)代表性誤差。指由于樣本單位的結構情況不足以代表總體所產生的誤差。又分兩種: 系統性誤差。由于違反了抽樣調查的隨機原則而產生的誤差。 隨機性誤差。由于遵守抽樣的隨機原則,但可能抽到不同的樣本而產生的誤差。又分兩種: 實際誤差:某一樣本指標與總體指標之間的差異; 平均誤差:所有可能出現的樣本指標與總體指標的平均離差。 2、抽樣平均誤差 (1)抽樣平均誤差的概念

8、 指由于抽樣隨機性所產生的所有可能出現的樣本指標與總體指標的平均離差。反映了抽樣誤差的一般水平,其實質含義是抽樣平均數(或成數)的標準差。即它反映了抽樣指標與總體指標的平均離差程度。 樣本的可能數目樣本的可能數目22)()(xxXxx樣本的可能數目樣本的可能數目22)()(ppPpp (2)抽樣平均誤差的計算 樣本平均數的抽樣平均誤差重復抽樣: nx不重復抽樣: )1(2NnNnx)1 (2Nnnx或l 樣本成數的抽樣平均誤差重復抽樣: nppp)1 ( 不重復抽樣: )1 ()1 (Nnnppp)1()1 (NnNnppp或 (3)影響抽樣誤差的因素 樣本單位數; 總體各單位標志值的差異程度

9、; 抽樣方法; 抽樣調查組織形式。 第二節第二節 參數估計參數估計 一、抽樣估計的理論基礎一、抽樣估計的理論基礎 1、正態分布 設連續型隨機變量X的概率密度為: 222)(21)(xexfxl其中 為常數,則稱X服從參數 為的正態分布。記為 。0,),(2NXl根據密度函數可以求出服從正態分布的隨機變量X的分布函數:dtexFxt222)(21)(根據密度函數可以求出服從正態分布的隨機變量X的分布函數:dtexFxt222)(21)(同時X在區間(a, b)內取值的概率為: dtebxaPbat222)(21)(正態分布的密度函數曲線象一個鐘形,且是對稱的。對正態分布的密度函數作進一步的分析可

10、以發現正態分布的如下特征:服從正態分布的隨機變量,取值區域是整個x軸,曲線無論向左或向右延伸均以x軸為漸近線;密度曲線在x軸的上方,它和x軸所圍成的面積為1; 在 處,曲線達到最大值 。 21)(f曲線以 為對稱軸,在距離對稱軸兩邊相同距離 處,各有一個拐點。參數 稱為均值, 稱為方差。x2 稱 =0, =1的正態分布為標準正態分布,一般習慣用 表示它的概率密度, 表示它的概率分布函數,其公式為:)(x)(x2221)(xexdtexxt2221)(x),(2NX標準化:若 ,則可以將其標準化。即 服從標準正態分布。Xz 2、Chebyshev大數定律nXXX,21的數學期望和方差:設隨機變量

11、序列相互獨立,且具有相同, 2 , 1,)(,)(2iXDXEii01lim1niinXnP或11lim1niinXnP則對于任意小數 有:0 3、中心極限定律 (Central Limit Theorem) 給出一個任意形式的總體,其平均值和方差 為有限值,在對總體進行抽樣時,隨著樣本容量n的增大,由這些樣本算出的平均數 的抽樣分布將近似服從平均值和方差為 的正態分布?;蛘哒f,若統計量 ,則Z近似標準正態分布。 2xn2xz 二、參數估計二、參數估計 參數估計就是用樣本統計量來估計總體參數??煞譃辄c估計和區間估計兩類。 1、點估計方法 點估計就是將樣本指標直接作為未知的總體指標的估計值。 假

12、設在 總體中, 為未知參數(均值、方差、成數等)。由樣本 構造統計量,估計未知參數 。稱 為 的點估計量。XnXXX,21),(21nXXX點估計量的評價準則:(1)無偏性 如果樣本統計量的期望值等于總體的期望值,則稱這個估計量為無偏估計。 設總體的參數為 ,其估計量為 ,如 ,即估計量 的數學期望等于被估計的總體參數,我們稱估計量 是參數 的無偏估計量。)(E(2)一致性 隨著樣本容量增大,估計量會越來越接近被估計的參數。即對任意的 ,有則稱 是參數 的一致估計量。01|limPn (3)有效性 是指估計量的離散程度。如果有兩個估計量都是無偏的,其中方差較小的(對給定樣本容量而言)就可以認為

13、相對來說更有效。有效性可用下述比率決定: 221221其中 是較小的方差。 2、區間估計 設 是從總體X中抽出的樣本, 是總體的未知參數。根據樣本構造統計量和 ,且 ,如果對給定的常數 ,有:),(2111nXXXT),(2122nXXXT21121P) 10(nXXX,21 則稱區間( )為 的置信水平為 的置信區間,稱 為估計的顯著性水平。 分別為上下置信限。21,121, 評價區間估計的兩個標準:評價區間估計的兩個標準: (1)估計的可靠度 置信度 反映了區間估計的可信度。置信水平 =0.95,說明估計區間( )以95%的概率包含總體的參數 。或者說,100個這樣的估計區間中,平均有95

14、個包含了總體參數 ; (2)估計的精確度 區間的長度 反映了區間估計的精確度。當區間的長度愈大,估計區間包含真值 的可能性也就愈大,但是估計也愈不精確。 可靠度和精確度是相互矛盾的。1121,12 步驟:步驟: 首先,構造一個與待估計參數 有關的統計量T; 其次,找出統計量的分布,在一定的置信水平下, 給出臨界值; 最后,計算總體參數的置信區間。 3、總體平均數的區間估計根據估計條件的不同,估計的公式也不一樣,也就是說,要根據是否知道總體的分布、是否知道總體的方差、是大樣本還是小樣本,是重復抽樣還是不重復抽樣來確定。參數估計的基礎是抽樣分布理論。(1)樣本取自總體方差已知的正態分布如果樣本來自

15、正態分布總體,即: 則:),(2NX),(2nNx經變換, 服從標準正態分布,即 xxz) 1 , 0( Nxzx進行總體均值的置信區間估計,就是要求得,1)(21p對于標準正態分布,就是要求得,1)(22zxzpx由此可以推出, xxzxzx22在重復抽樣的情況下, nx由此可以推出, nzxnzx22故所求的100(1-)%的置信區間為),(22nzxnzx記 表示以樣本指標 為中心向左、向右的最大誤差,稱為極限誤差或允許誤差。nZZxx22x在進行不重復抽樣時, 1NnNnx 例例 某保險公司欲了解某個險種投保人的平均年齡,隨機抽取24人,計算出24人的平均年齡為39歲,總體標準差7.2

16、歲。試以95%的置信度估計該險種投保人的平均年齡。已知投保人的年齡 , 且 已知, 是X的一個樣本。 解: 由樣本得樣本均值 ,標準差 = 7.2 對于給定的置信度95%,有 =0.05查標準正態分布表確定臨界值 。 所以有: 投保人的年齡以95%的可靠程度在35.894到42.106歲),(2NXnXXX,21239X96. 1025. 0z242 . 796. 139242 . 796. 139,),866. 239866. 239()866.41,134.36(2)樣本取自總體方差已知的非正態分布根據中心極限定理,對于非正態分布總體,當樣本容量n足夠大時,無論總體服從什么分布, 的抽樣分

17、布都近似服從正態分布。因此,仍可以用 或 來近似求出非正態分布總體的均值的置信區間。x)(2xzx)(2nzx(3)總體方差未知且小樣本時(正態分布)上述方法只能在總體標準差已知的情況下才能使用。若總體服從正態分布,標準差不知道,則要用樣本的方差 來代替總體方差 建立置信區間。這時,新的統計量不服從標準正態分布,而是服從自由度為n-1的t分布。21ns2所以構造, nsxsxtxxx/它服從自由度為n-1的t分布。 因此的置信區間為 ) 1(2xsntx或 ) 1(2nsntx例例 某手表廠生產的精益牌手表,其走時誤差為正態分布,(單位:秒/日)。檢驗員從裝配線上隨機抽出9只進行檢驗,檢測的結

18、果如下: -4.0,3.1,2.5,-2.9,0.9,1.1,2.0,-3.0,2.8 取置信水平為0.95,求該品牌手表的走時,誤差的均值和方差的置信區間。 解:27. 098 . 21 . 30 . 49191iixx79. 219)(291iixxS306. 2)8(025. 0t 置信區間為nsntx) 1(2979. 2306. 227. 0(4)總體方差未知且大樣本時 若 ,則可用正態分布來近似t分布,即均值的置信區間為 或 來近似求出非正態分布總體的。 30n)(2xzx)(2xszx 4、總體成數的區間估計 設從成數為P的總體X中隨機抽出容量為n的樣本,其中 是樣本中具有某種統

19、計特性的單位的數量,則樣本的成數為 。樣本成數的抽樣分布服從平均值為p,標準差為 的正態分布。在給定的置信度下 ,總體成數的置信區間為 : 1nnnp11)1 (pppnPPzpnPPzp)(,1)1 (22在估計總體的成數時,總體的成數是未知的,所以在置信上下限中的P可以用樣本成數代替,當樣本容量足夠大,誤差很小。例例 為了研究我國所生產的絲綢產品在國外的銷路,在紐約所舉辦的絲綢展銷會上,對1000名成年人進行了調查,得知600人喜歡這種產品。試以95%的置信度估計紐約市成年人喜歡此種產品的比率獲得置信區間。6 . 01000600p96. 12znppzp)1 (21000)6 . 01

20、(6 . 096. 160. 0解:%)36.63%,96.56(第三節第三節 抽樣組織形式抽樣組織形式 一、抽樣設計的基本原則一、抽樣設計的基本原則 1、保證實現抽樣的隨機性原則。即總體的各個單位 相互獨立,任何一個單位被抽中的機會都是相等的。 2、保證實現最大的抽樣效果原則。即在一定的調查費用條件下,選取抽樣誤差最小的方案。 二、簡單隨機抽樣二、簡單隨機抽樣 簡單隨機抽樣又稱純隨機抽樣,是直接從總體 中按隨機性原則抽容量為 的樣本,每一個總體單位有相同的可能性被抽中。適用于均勻總體。 簡單隨機抽樣的具體方法有:直接抽選項法、抽簽法、隨機數表法、使用計算機模擬抽取。 NXXX,21Nn簡單隨

21、機抽樣的抽樣誤差,前面已介紹過:重復抽樣: 不重復抽樣: nx)1 (2Nnnxnppp)1 ( )1 ()1 (Nnnppp樣本容量的確定樣本容量的確定1、估計總體均值時的樣本容量用表示允許誤差,表示總體標準差,另給定,1-和 2z在重復抽樣的情況下 :nzx22222xzn在不重復抽樣的情況下 :12NnNnzx2222222) 1(zNNznx注:確定樣本容量時,無論是總體還是樣本方差均是未知的,所以要用其它的替代。若歷史資料有若干個可供選擇的,應該選最大的。2、估計總體成數時的樣本容量在重復抽樣的情況下 :在不重復抽樣的情況下 :nppzp)1 (2222)1 (pppzn1)1 (2

22、NnNnppzp)1 () 1()1 (22222ppzNppNznp 不重復抽樣的樣本容量和重復抽樣的樣本容量的關系為:NnnNPPZNNPPNZnNnnNZNNNZnpppxxx重重不重重不1)1()1(12222222222222222 注:確定樣本容量時,無論是總體還是樣本成數均是未知的,所以要用其它的替代。若歷史資料有若干個可供選擇的,應該選最靠近50%的。 3、影響樣本容量的因素 (1)總體方差 影響。 越大,n就越大。若 =0,則只抽取一個樣本就夠了。 (2)允許誤差大小的影響。 (3)概率保證程度大小的影響。概率保證程度1-說明了估計的可靠程度。所以,在其他條件不變的情況下,如

23、果要求較高的可靠度,就要增大樣本容量;反之,可以相應減少樣本容量。 (4)抽樣方法的不同。在相同條件下,重復抽樣的抽樣平均誤差比不重復抽樣的抽樣平均誤差大,所以需要的樣本容量也就不同。 (5)抽樣的組織形式的影響。222 例:某燈泡廠對一批燈泡的平均使用壽命和合格品率進行檢驗,要求置信度為95%,前幾批的經驗數據資料有:平均使用壽命的標準差為200、250、300小時,合格品率為92%、93%、95%。要求: 推斷平均壽命的抽樣誤差不超過50小時,推斷合格率的誤差不超過5%,試問應至少抽多少只燈泡。 )(3 .1385030096. 12222222只xxZn)( 1 .113%)5(%8%9

24、296. 1)1 (22222只ppPPZn為了滿足兩者共同的需要,應抽取139只進行調查。 解:三、分層抽樣三、分層抽樣1、分層抽樣的意義(1)分層抽樣的概念分層抽樣又稱類型抽樣。首先將總體單位按某一個標志分層;然后在各層按隨機抽樣的方法分別抽出各層的樣本。(2)分層抽樣的特點分層抽樣在層內是抽樣調查,層間是全面調查,所以分層時應該盡量讓每層內的變異程度小,而層間的變異程度大。分層抽樣的抽樣誤差較簡單隨機抽樣小,樣本具有很好的代表性。(3)各層樣本容量的確定比例分配法考慮每層中的總體單位數,按比例在每層中抽出相同比例的樣本,即常數kkNnNnNn11NNNNk21NNnniikiiiiiiN

25、Nnn1每層的樣本容量奈曼最佳分配法考慮每層中總體單位的變異程度不同,在樣本容量一定的條件下,變異大的層樣本容量也大,變異小的層樣本容量也小。每層的樣本容量為i是各層的標準差。 經濟分配法既考慮每層中總體單位的變異程度不同,又考慮每層的調查費用。所以在樣本容量一定的條件下,標志變異大的層樣本容量也大一些,調查費用大的層,樣本容量相對小些。則 kiiiiiiiiCNCNnn1)/(/2、抽樣平均數的計算已知: ,現由各類取樣,則有:NNNNNki21nnnnnki21ijx設:第i組(類)第j個樣本單位的標志值為 ,則:各組樣本平均值:kiiixnnx11kiiiikiiikiixnnxNNxW

26、x11111injijiixnx11nnNNWiii總樣本平均值:如果在按比例抽樣的條件下:3、抽樣平均數的抽樣誤差 的計算xiixni22其中:i設 表示第i組的抽樣平均誤差; 表示第i組的總體標準差;為第i組的總體單位數比重,根據方差定理有:2122ixkiixWix在重復抽樣的條件下 :iikiiiikiixkiixnsWnWWi2122122122kiiiikiiiixnNNnW12221221在按比例抽樣下 :nnNNWiiinnnnnnikiiikiiix212121kiiiiiiixNnNnNN1222)1(1kiiiiiixNnnNN1222)1 (1在不重復抽樣的條件下 :在按比例抽樣下 :kiiikiiiiixNnNNnNnNNn1212)1 (1)1 (1)1 ()1 (1212NnnNnnnnikiiix4、抽樣成數的抽樣誤差 的計算pkiiiiipnNPPN122)1 (1)1 ()1 ()1 ()1 (11NnnPPNnNNPPNiikiiiip在重復抽樣的條件下 :在按比例抽樣下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論