第一講抽樣和抽樣分布_第1頁
第一講抽樣和抽樣分布_第2頁
第一講抽樣和抽樣分布_第3頁
第一講抽樣和抽樣分布_第4頁
第一講抽樣和抽樣分布_第5頁
已閱讀5頁,還剩80頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一講抽樣和抽樣分布第1頁,課件共85頁,創作于2023年2月第7章抽樣與抽樣分布7.1

抽樣的基本概念7.2抽樣分布第2頁,課件共85頁,創作于2023年2月學習目標了解抽樣中的概率抽樣方法理解抽樣分布的意義了解抽樣分布的形成過程理解中心極限定理理解抽樣分布的性質第3頁,課件共85頁,創作于2023年2月從研究現象總體的所有單位中,按照隨機原則抽取部分單位作為樣本,然后以樣本的觀測結果對總體的數量特征作出具有一定可靠程度和精度的估計或推斷的一種統計調查方法。抽樣推斷的含義總體

隨機樣本

第4頁,課件共85頁,創作于2023年2月1.在調查單位的抽取上遵循隨機原則抽樣推斷方法的特點2.以樣本的數量特征去推斷總體的數量特征3.存在抽樣誤差,可計算并加以控制第5頁,課件共85頁,創作于2023年2月一、了解不能或難以采用全面調查的總體的數量特征二、與全面調查相結合,修正和補充全面調查三、在生產過程中進行質量控制四、可以對總體的某種假設進行檢驗抽樣推斷的作用第6頁,課件共85頁,創作于2023年2月(一)參數估計(二)假設檢驗抽樣推斷的內容第7頁,課件共85頁,創作于2023年2月7.1抽樣的基本概念

7.1.1抽樣推斷7.1.2抽樣的方法

7.1.3樣本容量和樣本個數

7.1.4參數和樣本統計量

7.15抽樣框

7.1.6抽樣的組織形式

7.1.7抽樣誤差第8頁,課件共85頁,創作于2023年2月7.1.2抽樣的方法抽樣的方法重復抽樣不重復抽樣第9頁,課件共85頁,創作于2023年2月重復抽樣:也叫回置抽樣。特點:每個單位在每次抽中機會一樣。不重復抽樣:也叫不回置抽樣。特點:每個單位在每次抽中機會不一樣;每個單位最多只能被抽中一次。不重復抽樣的抽樣平均誤差小于重復抽樣的抽樣平均誤差。第10頁,課件共85頁,創作于2023年2月7.1.3樣本容量和樣本個數樣本容量:樣本中的單位數,通常用字母n表示。通常,n≥30的樣本稱為大樣本,n<30的樣本稱為小樣本。樣本個數:從總體中可能抽得的樣本的數目第11頁,課件共85頁,創作于2023年2月樣本的可能數目從總體N中隨機抽取n個樣本單位共有多少種可能的抽選結果與抽樣方法和是否考慮順序有關。有以下四種組合:⒈重復抽樣考慮順序⒉不重復抽樣考慮順序3.不重復抽樣不考慮順序4重復抽樣不考慮順序(不常用)第12頁,課件共85頁,創作于2023年2月⒈重復抽樣考慮順序的可能樣本數目:⒉不重復抽樣考慮順序的可能樣本數目:共n個3不重復抽樣不考慮順序的可能樣本數目:第13頁,課件共85頁,創作于2023年2月7.1.4參數和統計量參數(parameter)來描述總體數量特征的指標,又稱總體指標。即對總體特征的數量描述。參數已知,總體的分布特征就已知。所關心的參數主要有總體均值(

)、標準差(

)、總體比例(P/)等用表示參數的特點:參數的數值是客觀存在的,總體一定,參數就唯一確定,但卻是未知的。第14頁,課件共85頁,創作于2023年2月統計量(statistic)又稱樣本指標或估計量,是根據樣本數據計算出來的一些量,用以推斷總體參數(總體指標)的綜合指標。特點:是隨樣本不同而不同的隨機變量,不含未知參數。所關心的樣本統計量有:樣本均值(

x)、樣本標準差(s)、樣本比例(p)等用表示第15頁,課件共85頁,創作于2023年2月平均數標準差比例參數

統計量

xsp

總體

樣本第16頁,課件共85頁,創作于2023年2月7.15抽樣框抽樣框:全部抽樣單位的名單框架。抽樣框的好壞通常會直接影響到抽樣調查的隨機性和調查效果。有如下幾種抽樣框形式:名單抽樣框:列出全部總體單位的名錄一覽表。如職工名單,企業名單。區域抽樣框:按地理位置將總體范圍劃分為若干小區,以小區為單位進行抽樣。如市住房調查劃分為街道、區片。時間抽樣框:將總體全部單位按時間順序排列,每隔一定時間抽樣。如流水線抽樣進行產品質檢。第17頁,課件共85頁,創作于2023年2月7.1.6抽樣的組織形式一、簡單隨機抽樣二、分層抽樣三、系統抽樣四、整群抽樣五、多階段抽樣第18頁,課件共85頁,創作于2023年2月——對總體單位逐一編號,然后按隨機原則直接從總體中抽出若干單位構成樣本應用僅適用于規模不大、內部各單位標志值差異較小的總體是最簡單、最基本、最符合隨機原則,但同時也是抽樣誤差最大的抽樣組織形式簡單隨機抽樣

(simplerandomsampling)抽簽、隨機數字表法第19頁,課件共85頁,創作于2023年2月5907946755723486959553408927086711068260798209112348391764866042169414372718927607577438800813309898670723369381976680188936339340932948229095922963298605007331899943626562934473612535261467516834383384426404395759537715166390634300144982946451219201

注意:

必須先對總體中的每一個單位進行編碼或編號,確定抽樣框。簡單隨機抽樣適合于調查標志在各單位分布較均勻的總體,一般情況下,簡單隨機抽樣的效果相對差些。

第20頁,課件共85頁,創作于2023年2月——將總體全部單位分類,形成若干個類型組,然后從各類型中分別抽取樣本單位組成樣本。總體N樣本n等額抽取等比例抽取最優抽取······能使樣本結構更接近于總體結構,提高樣本的代表性;能同時推斷總體指標和各子總體的指標分層抽樣

(stratifiedsampling)第21頁,課件共85頁,創作于2023年2月注意:

1、隨機性2、分層抽樣要求事先對總體有較多的了解。3、分層抽樣對層而言是全面調查,對層內單位而言是非全面調查。4、能避免明顯的偏高或偏低情況。5、適合于調查標志在各單位間的分布差異大的總體。第22頁,課件共85頁,創作于2023年2月等距抽樣/機械抽樣——將總體單位按某一標志排序,而后按一定的間隔抽取樣本單位。······隨機起點半距起點對稱起點(總體單位按某一標志排序)按無關標志排隊,其抽樣效果相當于簡單隨機抽樣;按有關標志排隊,其抽樣效果相當于類型抽樣。系統抽樣

(systematicsampling)第23頁,課件共85頁,創作于2023年2月——將總體全部單位分為若干“群”,然后隨機抽取一部分“群”,被抽中群體的所有單位構成樣本例:總體群數R=16樣本群數r=4ABCDEFGHIJKLMNOPLHPD樣本容量簡單、方便,能節省人力、物力、財力和時間,但其樣本代表性可能較差整群抽樣

(clustersampling)第24頁,課件共85頁,創作于2023年2月——指分兩個或兩個以上的階段來完成抽取樣本單位的過程例:在某省100多萬農戶抽取1000戶調查農戶生產性投資情況。第一階段:從該省所有縣中抽取5個縣第二階段:從被抽中的5個縣中各抽4個鄉第三階段:從被抽中的20個鄉中各抽5個村第四階段:從被抽中的100個村中各抽10戶樣本n=100×10=1000(戶)多階段抽樣第25頁,課件共85頁,創作于2023年2月調查對象的性質特點對調查對象的了解程度抽樣誤差的大小人力、財力和物力等條件的限制在實際工作中,選擇適當的抽樣組織方式主要應考慮:抽樣組織方式的選擇第26頁,課件共85頁,創作于2023年2月抽樣中的誤差登記性誤差,也叫調查誤差代表性誤差系統性誤差偶然性誤差偏差抽樣誤差抽樣中的誤差(抽樣誤差的計算在后邊講)第27頁,課件共85頁,創作于2023年2月7.2抽樣分布7.2.1三種不同性質的分布

7.2.2樣本均值的抽樣分布

7.2.3樣本比例的抽樣分布

7.2.4抽樣平均誤差的計算

7.2.5樣本方差的抽樣分布

7.2.6兩個樣本統計量的抽樣分布第28頁,課件共85頁,創作于2023年2月總體分布總體中各元素的觀察值所形成的分布分布通常是未知的可以假定它服從某種分布7.2.1三種不同性質的分布總體第29頁,課件共85頁,創作于2023年2月一個樣本中各觀察值的分布也稱經驗分布當樣本容量n逐漸增大時,樣本分布逐漸接近總體的分布樣本分布樣本第30頁,課件共85頁,創作于2023年2月抽樣分布是來自容量相同的所有可能樣本的概率分布,是一種理論分布抽取容量為n

的樣本時,由該統計量的所有可能取值形成的概率分布樣本統計量(如樣本均值,樣本比例,樣本方差等)是隨機變量,樣本不同,樣本統計量的計算值是不同的。3.抽樣分布反映樣本統計量的分布特征,是進行推斷的理論基礎,揭示樣本統計量和總體參數之間的關系,估計抽樣誤差,是抽樣推斷科學性的重要依據 抽樣分布第31頁,課件共85頁,創作于2023年2月抽樣分布的形成過程總體計算樣本統計量如:樣本均值、比例、方差樣本第32頁,課件共85頁,創作于2023年2月在選取容量為n的樣本時,由樣本均值的所有可能取值形成的概率分布推斷總體均值

的理論基礎 7.2.2樣本均值的抽樣分布第33頁,課件共85頁,創作于2023年2月(例題分析)【例】設一個總體,含有4個元素(個體)

,即總體單位數N=4。4

個個體分別為x1=1,x2=2,x3=3,x4=4

。總體的均值、方差及分布如下總體分布14230.1.2.3均值和方差第34頁,課件共85頁,創作于2023年2月(例題分析)

現從總體中抽取n=2的簡單隨機樣本,在重復抽樣條件下,共有42=16個樣本。所有樣本的結果為3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能的n=2的樣本(共16個)第35頁,課件共85頁,創作于2023年2月x樣本均值的抽樣分布1.000.10.20.3P

(x)1.53.04.03.52.02.5

(例題分析)

計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值(x)第36頁,課件共85頁,創作于2023年2月樣本均值的分布與總體分布的比較

=2.5σ2=1.25總體分布14230.1.2.3抽樣分布P(x)1.00.1.2.31.53.04.03.52.02.5x第37頁,課件共85頁,創作于2023年2月樣本均值的抽樣分布

(數學期望與方差)比較及結論:1.樣本均值的均值(數學期望)等于總體均值

2.樣本均值的方差等于總體方差的1/n第38頁,課件共85頁,創作于2023年2月樣本抽樣分布特征的證明第39頁,課件共85頁,創作于2023年2月樣本均值的數學期望樣本均值的方差重復抽樣不重復抽樣樣本均值的抽樣分布特征

(數學期望與方差)第40頁,課件共85頁,創作于2023年2月樣本均值的抽樣分布

正態分布的再生定理

=50

=10X總體分布n=4抽樣分布xn=16當總體服從正態分布N(μ,σ2)時,來自該總體的所有容量為n的樣本的均值

x也服從正態分布,

x

的數學期望為μ,方差為σ2/n。即

x~N(μ,σ2/n)第41頁,課件共85頁,創作于2023年2月中心極限定理中心極限定理:設從均值為

,方差為

2的一個任意總體中采取重復抽樣抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態分布不論總體服從何種分布,只要其數學期望和方差存在,對這一總體進行重復抽樣時,當樣本量n充分大,就趨于正態分布該定理為均值的抽樣推斷奠定了理論基礎。第42頁,課件共85頁,創作于2023年2月中心極限定理當樣本容量足夠大時(n

30),樣本均值的抽樣分布逐漸趨于正態分布一個任意分布的總體x第43頁,課件共85頁,創作于2023年2月中心極限定理

x的分布趨于正態分布的過程第44頁,課件共85頁,創作于2023年2月抽樣分布與總體分布的關系總體布正態分布非正態分布大樣本小樣本正態分布正態分布非正態分布第45頁,課件共85頁,創作于2023年2月1.總體服從正態分布N(μ,)時2.總體分布未知,當n充分大時

重復抽樣時不重復抽樣時重復抽樣時不重復抽樣時近似近似第46頁,課件共85頁,創作于2023年2月例題分析

[例]某酒店電梯中質量標志注明最大載重為18人,1350kg。假定已知該酒店旅客及其攜帶行李的平均重量為70kg,標準差為6kg。試問隨機進入電梯18人,總重量超重的概率是多少?

第47頁,課件共85頁,創作于2023年2月比例:總體(或樣本)中具有某種屬性的單位與全部單位總數之比不同性別的人與全部人數之比合格品(或不合格品)與全部產品總數之比總體比例可表示為樣本比例可表示為

7.2.3樣本比例的抽樣分布第48頁,課件共85頁,創作于2023年2月在重復選取容量為的樣本時,由樣本比例的所有可能取值形成的相對頻數分布當樣本容量很大時,樣本比例的抽樣分布可用正態分布近似推斷總體比例的理論基礎 樣本比例的抽樣分布中心極限定理第49頁,課件共85頁,創作于2023年2月樣本比例的數學期望樣本比例的方差重復抽樣不重復抽樣樣本比例的抽樣分布

(數學期望與方差)第50頁,課件共85頁,創作于2023年2月7.2抽樣分布

7.2.1三種不同性質的分布

7.2.2樣本均值的抽樣分布

7.2.3樣本比例的抽樣分布

7.2.4樣本方差的抽樣分布

7.2.5兩個樣本統計量的抽樣分布

7.2.6抽樣平均誤差的計算第51頁,課件共85頁,創作于2023年2月

7.2.4樣本方差的抽樣分布

對總體為正態總體:

~分布的形狀見課本頁

用樣本方差推斷總體方差,必須知道總體方差的抽樣分布。樣本方差的抽樣分布在重復選取容量為n的樣本時,由樣本方差的所有可能取值形成的相對頻數分布。第52頁,課件共85頁,創作于2023年2月兩個樣本統計量的抽樣分布兩個樣本均值之差的抽樣分布兩個樣本比例之差的抽樣分布兩個樣本方差比的抽樣分布第53頁,課件共85頁,創作于2023年2月兩個總體都為正態分布,即,兩個樣本均值之差的抽樣分布服從正態分布,其分布的數學期望為兩個總體均值之差方差為各自的方差之和 一、兩個樣本均值之差的抽樣分布第54頁,課件共85頁,創作于2023年2月第55頁,課件共85頁,創作于2023年2月從兩個服從二項分布的總體中,分別獨立抽取兩個樣本,由兩個樣本比例之差的所有可能取值形成的相對頻數分布。分別從兩個服從二項分布總體中抽取容量為n1和n2的獨立樣本,當兩個樣本都為大樣本時,兩個樣本比例之差的抽樣分布近似服從正態分布。分布的數學期望為方差為各自的方差之和 二、兩個樣本比例之差的抽樣分布第56頁,課件共85頁,創作于2023年2月第57頁,課件共85頁,創作于2023年2月三、兩個樣本方差比的抽樣分布1.兩個樣本方差比的抽樣分布:若兩個總體都為正態分布,即X1~N(μ1,σ12),X2~N(μ2,σ22),從兩個總體中分別抽取容量為n1和n2的獨立樣本,由兩個樣本方差比的所有可能取值形成的相對頻數分布。2.兩個樣本方差比的抽樣分布,服從分子自由度為(n1-1),分母自由度為(n2-1)的F分布,即第58頁,課件共85頁,創作于2023年2月由統計學家費舍(R.A.Fisher)

提出的,以其姓氏的第一個字母來命名則設若U為服從自由度為n1的

2分布,即U~

2(n1),V為服從自由度為n2的

2分布,即V~

2(n2),且U和V相互獨立,則稱F為服從自由度n1和n2的F分布,記為F分布第59頁,課件共85頁,創作于2023年2月F分布圖示

不同自由度的F分布F(1,20)(5,20)(10,20)第60頁,課件共85頁,創作于2023年2月抽樣誤差實際抽樣誤差抽樣平均誤差抽樣極限誤差第61頁,課件共85頁,創作于2023年2月實際抽樣誤差,指樣本統計量與總體參數之間的絕對離差。實際抽樣誤差││

││

││

第62頁,課件共85頁,創作于2023年2月抽樣平均誤差是樣本統計量與總體參數的平均離差,也即樣本統計量的標準差。1.抽樣平均誤差的概念第63頁,課件共85頁,創作于2023年2月一、總體內部的差異程度(用標準差衡量)二、樣本容量三、抽樣方法(重復與不重復)四、抽樣組織形式(分層抽樣和系統抽樣要小,簡單隨機抽樣和整群抽樣相對要大)2.影響抽樣平均誤差的因素第64頁,課件共85頁,創作于2023年2月以均值的抽樣平均誤差為例測度所有樣本均值對其中心值的離散程度,所有可能的樣本均值的標準差所有樣本均值分布在總體均值的周圍,抽樣平均誤差反映了樣本估計值與相應總體參數的平均差異程度抽樣平均誤差越小,樣本估計值的分布越集中在總體參數的附近,樣本估計值對總體的代表性越高第65頁,課件共85頁,創作于2023年2月(1)理論公式3.抽樣平均誤差的計算第66頁,課件共85頁,創作于2023年2月抽樣平均誤差計算式推導第67頁,課件共85頁,創作于2023年2月〖例3〗現有A、B、C、D四名工人構成的總體,他們的日產量分別為22、24、26、28件。從四名工人中任取兩名構成一個樣本,請利用重復抽樣和不重復抽樣的方法計算抽樣平均誤差。【分析】先計算出三類數值:根據抽樣平均誤差的計算公式,我們必須本題要求我們計算抽樣平均誤差。可能樣本個數。總體平均日產量、樣本平均日產量、第68頁,課件共85頁,創作于2023年2月解:

但由于本題計算抽樣平均誤差要分別采用重復抽樣和不重復抽樣兩種方法,因此,除總體平均日產量計算結果相同外,樣本平均日產量、可能樣本總數均不完全相同。為了準確計算有關數據,我們將所有可能的樣本及其平均數列舉出來,然后,根據列舉結果就可以計算出抽樣平均誤差。

列舉過程見表4-11.采用重復抽樣第69頁,課件共85頁,創作于2023年2月2224262822(22,22)(22)(22,24)(23)(22,26)(24)(22,28)(25)24(24,22)(23)(24,24)(24)(24,26)(25)(24,28)(26)26(26,22)(24)(26,24)(25)(26,26)(26)(26,28)(27)28(28,22)(25)(28,24)(26)(28,26)(27)(28,28)(28)第70頁,課件共85頁,創作于2023年2月2224262822(22,24)(23)(22,26)(24)(22,28)(25)24(24,22)(23)(24,26)(25)(24,28)(26)26(26,22)(24)(26,24)(25)(26,28)(27)28(28,22)(25)(28,24)(26)(28,26)(27)第71頁,課件共85頁,創作于2023年2月應當指出的是,上面計算抽樣平均誤差的這個理論公式,在實際應用上會存在兩個困難:列舉過程見表4-22.采用不重復抽樣⑴運用這個公式要求把所有的樣本都抽選出來,然后計算它們的指標數值。這在實際應用過程中幾乎是不可能的。⑵運用上面公式要求總體平均數的數值是已知的。但實際上,總體平均數的數值是未知的,它正是抽樣調查要推斷的。第72頁,課件共85頁,創作于2023年2月因此,根據上面這個理論公式計算樣本平均數的抽樣平均誤差是行不通的。必須選用其他計算公式。數理統計已經證明,在隨機抽樣方式下,樣本平均數(成數)的抽樣平均誤差可以按下述公式來計算。⑴在重復抽樣條件下:樣本平均數的抽樣平均誤差樣本成數的抽樣平均誤差第73頁,課件共85頁,創作于2023年2月⑵在不重復抽樣條件下:①樣本平均數的抽樣平均誤差在總體單位數很大的情況下,樣本平均數的抽樣誤差第74頁,課件共85頁,創作于2023年2月②樣本成數的抽樣平均誤差在總體單位數很大的情況下,樣本成數的抽樣誤差第75頁,課件共85頁,創作于2023年2月〖例〗現有A、B、C、D四名工人構成的總體,他們的日產量的標準差為2.236。從四名工人中任取兩名構成一個樣本,請利用重復抽樣和不重復抽樣的方法計算抽樣平均誤差。

由題意知,總體標準差σ解:=4,樣本單位數n總體單位數N=2.236,=2⑴在重復抽樣條件下:樣本平均數的抽樣平均誤差第76頁,課件共85頁,創作于2023年2月⑵在不重復抽樣條件下:樣本平均數的抽樣平均誤差第77頁,課件共85頁,創作于2023年2月例題分析

[例]某班組有5個工人,他們的單位工時分別是4,6,8,10,12元,現用重復抽樣方式從5個工人中隨機抽出2人,計算樣本的平均工時工資及其抽樣平均誤差。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論