




已閱讀5頁,還剩21頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第六章從樣本統計量估計總體參數,第一節點估計第二節區間估計一、樣本平均數的抽樣分布二、總體平均數的區間估計,1,從樣本統計量估計或推斷總體參數是推斷統計的一個重要部分。我們在引入“樣本”和“總體”這兩個概念時看到,語言研究所涉及的總體往往非常大(甚至是無限大的),因而難以對其中所有個體都加以研究,研究者們所能做的只是通過隨機的方法從總體中抽取一個具有代表性的樣本加以研究,然后再從有關樣本統計量來估計或推斷未知的總休參數,例如從樣本平均數來估計總體平均數。本章只討論如何從樣本平均數X和比分別估計總體平均數和比。估計的方法有兩種:點估計與區間估計。,2,第一節點估計,當總休平均數或比例未知時,我們可以直接把樣本平均數或比例用作它的估計值。由于樣本統計量為數軸上的一個點,所以稱為“點估計值”。一個理想的點估計值至少應具備以下兩個條件:,3,(1)無偏性,一般情況下,樣本統計量是不會和相應的總體參數完全相同的,兩者多少都會有一定的差距,但是如果用無限多個樣本的統計量來估計總體參數,平均估計誤差將會等于0。具有這一特征的統計量就無偏估計值。例如,用樣本平均數估計總體平均數時,總會有些誤差,在有些樣本中,它可能會大于總體平均數,而在另一些樣本中它又可能會小于總體平均數,而且對于不同的樣本估計誤差的大小也是不同的,但是無限多個樣本平均數的平均估計誤差為0。換句話說,樣本平均數的平均數將會等于總體平均數。,4,因而樣本平均數是一個無偏點估計值(在第四章里,我們在討論樣本方差和標準差時曾經指出,公式中要用N-1(而不能用N)做分母,就是要保證方差和標準差具有無偏性,因為用N做分母時,樣本方差一般要小于總休的方差)。(2)一致性。樣本容量越大,根據樣本計算出的估計值越接近總體參數的真值。作為總休平均數的估計值,樣本平均數就具有一致性。,5,第二節區間估計,即便是一個理想的點估計值,也無法克服點估計的一個致命缺陷,那就是它易受樣本變化的影響:每次抽取的樣本不同,得出的統計量也就不同,因而它所提供的參數估計值也就會不同。如果能把抽樣所帶來的這種變異性或不確定性考慮進去,對總體參數的估計將會更有意義簡而言之,區間估計就是為總體參數計算出一個可能的取值范圍或值域,然后指出總體參數處在該值域的可能性有多大。,6,一、樣本平均數的抽樣分布,假如有一個變量的總體(至于何種總體無關緊要),我們從中隨機抽取取一個含有若干個觀測值的樣本(記作S1),計算出樣本平均數(記作X1),然后把所抽取的觀測值再放回總體。按照此法,再抽取樣本S2,得樣本平均數X2,等等。從理論上講,我們可以無限次地重復這一過程,抽取n個樣本,計算出n個樣本平均數。正如我們可以為觀測值繪制分布圖那樣,我們也可以為這些樣本平均數繪制分布圖(為了便于理解,不妨把這些平均數看作觀測值),這個分布就叫做平均數的抽樣分布。,7,1.(漸近)正態分布,平均數的抽樣分布的形態取決于總體的分布和總體方差是否已知,以及樣本容量的大小:當總體的分布為正態,總體方差已知時,樣本平均數的分布為正態分布;當總體的分布為非正態,總體方差已知時,如果樣本較大,則樣本平均數的分布接近正態分布,其樣本越大,總體偏接近的程度取決于樣本容量以及總體的偏斜程度斜程度越輕,兩者就越接近。這一現象叫做“中心極限定理”。,8,當樣本平均數的分布為正態或漸近正態時,分布的平均數與總體平均數相等,而分布的離散程度則小于總休的離散程度。如果橫軸上的測量單位相同,那么總體的分布形態較為平闊,而樣本平均數的分布則較為尖狹。不過,如前所述,一個呈正態分布的變量可以通過求標準分的方法,轉換為標準正態變量(見第五章),我們也可以用此方法把每個樣本平均數轉換為標準分,進而把正態的樣本平均數的抽樣分布轉換為標準正態分布,公式為,9,樣本平均數分布的離散程度是用樣本平均數的抽樣分布的標準差來表示的。為了與樣本標準差區別開來,抽樣分布的標準差習慣上稱作“標準誤”,用符號SE表示。標準誤與樣本容量(N)以及總體的標準差有關,即也就是說,標準誤與總體標準差的大小成正比,與樣本的大小成反比(嚴格來說是與樣本大小的開方成反比,因此在總休標準差一定時,為了使標準誤減少一半,就必須使樣本容量擴大四倍)。,10,2.t分布,前面講的是樣本平均數呈正態分布或接近正態分布的情況。此外,還有兩種情況:一是總體分布為正態,但總體方差未知,且樣本容量又較小;二是總休分布為非正態,而且總體方差未知,樣本容量又較小。在這些情況下,樣木平均數的分布為t分布這是因為總體力一差末知,在計算這一比率時,要用樣本標準差S取代,但是在樣本較小的情況下,樣本方差差S2作為總體方差的估計值并不是很準確的,這時不再呈正態分布,而是呈“t分布”,因而該比率也就不再稱作Z值,而是t值。,11,t分布在某些方面與正態分布是一樣的,譬如它的平均值為0,平均值兩側是對稱的,左側t為負值,右側為正值。但是不同的是,t分布的方差要大于(標準)正態分布的方差(即大于1),因而與正態分布相比,t分布的中間要低平一些。樣本越小,分布的方差就越大,其中間也就越低,兩尾端就翹得越高。反過來,隨著樣本容量的增加,t分布的方差(逐漸接近1),而當樣本容量大到一定程度時,t分布的方差就等于1。因而,t分布的形狀隨著樣本大小的變化而變化,但是這里“樣本大小”不是通常所指的N,而是N-1(即樣本容量減1),即所謂的“自由度”。,12,從以上的討論可以看到,雖然決定樣本平均數分布的因素有總體的分布形態、總體方差是否已知以及樣本容量,但是由于在實際應用中總體的分布情況和方差往往是未知的(當然在語言研究中經常遇到的許多變量都是呈正態分布的),因而在多數情況下,樣本的容量就成了關鍵因素或唯一的因素。因而,除非對統計的條件要求很嚴格或對統計結果的準碗性要求非常高,一般是避繁就簡,而僅考慮樣本的容量:樣本較大時,就認定其平均數的抽樣分布為正態分布,否則為t分布。至于何為“大樣本”,下面還要進一步討論。,13,二、總體平均數的區間估計,顧名思義,區間估計不像點估計那樣給出一個值(樣本統計量)作為總體的參數,而是在樣本的基礎上計算出總體參數值所在的可能區域。由于這個區域在數軸上不是一個點,而是一個區間或一段距離,所以稱作“區間估計值”。,14,1.樣本抽樣分布為正態時的區間估計,(1)幾個基本概念置信水平:從樣本統計量估計總體參數時的把握程度或信心程度。置信區間:兩個標準誤的值所界定的區間。置信界限:這一區間的上下界。臨界值:定義這一置信區間的標準誤的值。,15,(2)總體平均數的區間估計從樣本平均數X來估計總體平均數,是進行總體參數估計的常見情形之一。這時,我們的任務就是根據樣本平均數計算出總體平均數可能落入的置信區間,以此來估計總體平均數的可能取值范圍。該置信區間的計算方法是我們看到,對于大樣本,抽樣分布服從正態分布,這時式中的“臨界值”為對應于某置信水平(或顯著水平)的Z值(從正態分布表中可以查到)。該式用符號表示,則為或,16,第二式表示處于其兩邊的式子(表示置信區間的下限和上限)所界定的范圍之內。式中表示以平均數為界置信水平的一半所對應的Z值。在有的書中該項寫成,這表示顯著水平的一半(即正態分布的一端的尾巴)所對應的Z值。不同的表示方法適用于按不同的方法編制的正態分布表(第二式適用于本書所列的正態分布表),但最后查得的Z值是一樣的。在計算標準誤時,如果總體標準差未知,則用樣本標準差S代替,即。,17,(3)比例的區間估計如同對總體平均數的估計那樣,我們可以為其計算一個可能的取值區間(即置信區間),并同時指出正確估計的概率。為了計算此置信區間,同樣要先計算樣本的比例的抽樣分布的標準誤SE公式為樣本中的比例,N樣本容量。,18,計算總體比例P的置信區間的公式為用符號表示為式中校正值。對于較大的樣本,加與不加該值對結果不會有太大的影響,但當樣本較小時,則最好加上。,19,2.從小樣本對總體平均數進行區間估計,我們上面討論的是當樣本平均數的抽樣分布為正態時如何對總體平均數或比例進行估計。從小樣本對總體平均數或比例進行區間估計的方法是一樣的,即:。唯一不同的是,當樣本較小時,其抽樣分布不是正態分布,而是t分布。這時,公式中的“臨界值”不再是從正態分布表中查得的Z值,而是t分布表中對應于某一置信水平或顯著水平的t值。,20,3.置信區間與置信水平、樣本容量以及標準差的關系,區間估計是在樣本統計量的基礎上來估計相應的總體參數,因而我們所希望的當然是:這一區間越小越好,而估計的正確概率越大越好。但是,從進行區間估計的公式可以看出,在其它條件一定時,要提高正碗估計的概率(即提高置信水平),置信區間就不可避免地會增大,而要使置信區間縮小,就要降低正確估計的概率。必須牢記的是,置信水平越低,置信區間越小,該區間不包括總體參數的可能性就越大;置信水平越高,置信區間越大,該區間包括總體參數的可能性就越大。,21,4.樣本容量,樣本的“大”與“小”是相對的,一般情況下,一個變量的總體的分布是未知的。如果一個量是由數個互相獨立的部分相加而來的,那么該量的分布一般為正態.在語言研究中經常遇到的許多變量(例如“測試分數”)都具有這種性質,那么不需要太大的樣本容量就可以保證樣本平均數的正態分布。當樣本容量大于30時,不論總體的分布是否為正態,基本上都可以保證樣本平均數的抽樣分布為正態或接近正態。因此,一般30為界,樣本的觀測值少于30,就是“小”樣本,大于30就叫做“大”樣本。,22,此外,所需樣本容量的大小與其中觀測值是否互相獨立也有關系。如果它們不具備相互獨立性(觀測值之間在有關方面互相聯系,或者一些觀測值的性質受其它觀測值的影響),就需要增大樣本容量才能保證樣本平均數的正態分布。,23,5.要達到一定的精確度,如何計算所需樣本容量,估計總體平均數:如果用E來表示容許的誤差(或估計的精確度),以表示總體標準差,以Z表示對應于某一置信水平)的標準分(假設抽樣分布為正態),所需樣本容量的計算公式為但是,在通常情況下,總體的標準差都是未知的,因此在計算所需樣本容量之前,就需要先抽取一個小一些的樣本,計算出標準差S,以此作為總體標準差的估計值,這時,上面的公式就應改寫為,24,估計總體比例:同樣可以設定一個容許誤差,然后計算所需樣本容量。估計總休比例的公式是當樣本容量較大時,要不要校正值關系不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 城市公共交通信息化建設與應用考核試卷
- 管道工程標準化戰略實施展望與挑戰應對考核試卷
- 港口及航運設施工程合同管理考核試卷
- 租賃市場客戶關系維護與管理考核試卷
- 深海打撈裝備的作業安全標準制定與實施考核試卷
- 滌綸纖維在高端運動品牌的技術創新與市場應用趨勢考核試卷
- 海洋石油鉆探的鉆井工程優化考核試卷
- 生物質能源項目風險評估與管理考核試卷
- 江漢藝術職業學院《數碼圖形處理》2023-2024學年第二學期期末試卷
- 江西旅游商貿職業學院《運動解剖學》2023-2024學年第二學期期末試卷
- 供應商年度評價內容及評分表
- 公務車輛定點加油服務投標方案(技術標)
- 強化學習與聯邦學習結合
- 泵檢驗標準及方法
- 水土保持學試卷 答案
- 變電站工程施工危險點辨識及預控措施(匯編)
- 關于新能源汽車的論文10000字
- 停車場建設工程監理規劃
- 口腔檢查-口腔一般檢查方法(口腔科課件)
- 中型水力發電廠電氣部分初步設計
- 魚臺工程運河杯匯報材料
評論
0/150
提交評論