




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
課程說明
課程名稱:《統計學》Statistics
課程編號:171JB008
課程性質:專業必修課
學時學分:64學時,4學分
考試與成績:考試;
平時成績占30%期末考試占70%
先修課程:經濟數學2000年中國GDP為89404億元,比上年增長8%;2001年GDP為95933億元,比上年增長7.3%;2004年GDP為136515億元,比上年增長9.5%;2008年GDP為300670億元,比上年增長9.0%;什么是統計?請先看看實際數據1953.7.1~587961964.7.1~704991982.7.1~1015411990.7.1~1132742000.11.1~1295332008年末~132802人口?(萬人)中國進行了幾次人口普查?人口平均預期壽命
中國:2000年71.4歲,其中男性69.63歲,女性為73.33歲
北京城區人口平均預期壽命79.6歲居全國之首(2006.5.7)
世界:2000年為66歲,發達國家和地區為76
歲,發展中國家和地區為64歲
其中:日本81歲瑞士79歲德國78歲澳大利亞79歲加拿大79歲美國78歲嬰兒性別比1982年108.5:1001990年111.3:1001995年115.6:1002000年116.86:1002008年120.56:1002001-2008年我國居民消費價格指數年份20012002200320042005200620072008城鎮居民(%)100.799.0100.9103.3101.6101.5104.5105.6農村居民(%)100.899.6101.6104.8102.2101.5105.4106.5注:當CPI>103%時,即為通貨膨脹;當CPI>105%時,即為嚴重通貨膨脹。第1章數據與統計學1.1
統計數據與統計學1.2統計學的產生和發展1.3統計學的分科1.4統計數據的來源1.5統計數據的質量1.6統計學的基本概念學習目標理解統計學的含義理解統計學與統計數據的關系了解統計學的分科了解統計學的發展過程了解統計數據的來源理解統計中的幾個基本概念1.1統計數據與統計學什么是統計學?1.數據搜集:取得數據2.數據分析:分析數據3.數據表述:圖表展示數據數據解釋:結果的說明
收集、整理、顯示和分析數據的科學
統計規律
(一些例子)正常條件下新生嬰兒的性別比為105:100投擲一枚均勻的硬幣,出現正面和反面的頻率各為1/2;投擲一枚骰子出現1~6點的頻率各為1/6農作物的產量與施肥量之間存在相關關系銷售額與廣告費用之間的關系1.2統計學的產生和發展1.2統計學的產生和發展一、統計學的三大源頭1、政府統計:配第的《政治算術》2、人口統計:格朗特的《關于死亡表的自然觀察和政治觀察》3、古典概率論:帕斯卡、費馬二、統計學的發展階段1、第一階段:17C中葉—19C末,描述統計2、第二階段:20C初—20C中葉,推斷統計3、第三階段:20C中葉以來,全面發展1.3統計學的分科統計方法統計方法描述統計推斷統計參數估計假設檢驗描述統計
(descriptivestatistics)研究數據收集、整理和描述的統計學分支內容搜集數據整理數據展示數據描述性分析目的描述數據特征找出數據的基本規律推斷統計
(inferentialstatistics)研究如何利用樣本數據來推斷總體特征的統計學分支內容參數估計假設檢驗目的對總體特征作出推斷描述統計與推斷統計的關系反映客觀現象的數據總體內在的數量規律性推斷統計(利用樣本信息和概率論對總體的數量特征進行估計和檢驗等)概率論(包括分布理論、大數定律和中心極限定理等)描述統計(統計數據的搜集、整理、顯示和分析等)總體數據樣本數據理論統計與應用統計理論統計研究統計學的一般理論研究統計方法的數學原理應用統計研究統計學在各領域的具體應用1.4統計數據的來源普查和抽樣調查普查為某一特定目的,專門組織的一次性全面調查。這是一種摸清國情、國力的重要調查方法。抽樣調查抽樣調查是統計調查中應用最廣、最為重要的調查方法,它是通過隨機樣本對總體數量規律性進行推斷的調查研究方法1.5統計數據的質量抽樣誤差和非抽樣誤差抽樣誤差利用樣本推斷總體時產生的誤差由于樣本只是總體的一部分,用樣本的信息去推斷總體,或多或少總會存在誤差,因而抽樣誤差對任何一個隨機樣本來講都是不可避免的非抽樣誤差由于調查過程中各有關環節工作失誤造成的包括調查方案中有關規定或解釋不明確所導致的填報錯誤、抄錄錯誤、匯總錯誤,不完整的抽樣框導致的誤差,調查中不回答產生的誤差等1.6統計學的基本概念總體和樣本總體(population)所研究的全部個體(數據)的集合,其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數目是有限的無限總體所包括的元素是無限的,不可數的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數目稱為樣本容量
參數和統計量參數(parameter)描述總體特征的概括性數字度量,是研究者想要了解的總體的某種特征值所關心的參數主要有總體均值(
)、標準差(
)、總體比例()等總體參數通常用希臘字母表示統計量(statistic)用來描述樣本特征的概括性數字度量,它是根據樣本數據計算出來的一些量,是樣本的函數所關心的樣本統計量有樣本均值(
x)、樣本標準差(s)、樣本比例(p)等樣本統計量通常用小寫英文字母表示統計中的幾個基本概念平均數標準差比例參數
統計量
xsp
總體
樣本變量在研究總體時,我們重點關注的是總體單位具有哪些特征或屬性,我們把這些特征稱為變量。如:工業企業的基本情況包括企業所有制、職工人數、產值、勞動生產率、利潤、稅金等。幾種常用的統計軟件
(Software)
典型的統計軟件SASSPSSMINITABSTATISTICAExcelMINITABSTATISTICAExcelSASSPSS本章小節統計數據與統計學統計學的產生和發展統計學的分科統計數據的來源和質量統計學的基本概念第2章統計數據的描述2.1統計數據的整理2.2分布集中趨勢的測度2.3分布離散程度的測度2.4分布偏態與峰態的測度2.5統計表與統計圖
本章小結學習目標掌握數值型數據的整理方法掌握數據集中趨勢和離散程度的測度方法掌握莖葉圖和箱線圖的制作方法掌握分布偏態與峰度的測度方法掌握統計表和統計圖的使用2.1統計數據的整理一、統計數據的分組二、次數分配三、次數分配直方圖四、洛倫茨曲線一、統計數據的分組(一)定性分組如按性別、民族、經濟類型分組(二)定量分組如按產量、年齡、利潤分組1、單項分組:每組只有一個變量值2、組距分組2.1統計數據的整理二、次數分配(以組距分組為例)(一)組距分組的要點將變量值的一個區間作為一組適合于數值型變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組~~~~~2.1統計數據的整理組距分組
(幾個概念)(二)組距分組的概念1.下限(lowlimit)
:一個組的最小值2.上限(upperlimit)
:一個組的最大值3.組距(classwidth)
:上限與下限之差4.組中值(classmidpoint)
:下限與上限之間的中點值下限值+上限值2組中值=2.1統計數據的整理(三)組距分組的步驟確定組數:組數的確定應以能夠顯示數據的分布特征和規律為目的確定組距:組距(classwidth)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,即
組距=(最大值-最小值)÷組數統計出各組的頻數并整理成頻數分布表2.1統計數據的整理次數分配表的編制
(例題分析)【例】某車間30名工人每周加工某種零件件數如右表,試對數據進行分組。
次數分配表使用Excel頻數函數
(FREQUENCY)Excel的“直方圖”工具的缺陷是:頻數分布和直方圖沒有與數據聯系起來,這樣,如果你改變任何一個數據,頻數分布表和直方圖不會跟著改變使用Excel中的統計函數“FREQUENCY”來創建頻數分布表和直方圖,可解決這一問題。創建頻數分布表的步驟是選擇與接受區域相臨近的單元格區域,作為頻數分布表輸出的區域選擇統計函數中的“FREQUENCY”函數在對話框Date-array后輸入數據區域,在Bins-array后輸入各組分界點同時按下ctrl-shift-Enter組合鍵,即得到頻數分布統計函數—FREQUENCY直方圖
三、次數分配直方圖(一)直方圖(histogram)用矩形的寬度和高度來表示頻數分布的圖形,實際上是用矩形的面積來表示各組的頻數分布在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖直方圖下的總面積等于12.1統計數據的整理分組數據的圖示
(直方圖的繪制)某車間工人周加工零件直方圖
我一眼就看出來了,周加工零件在100~110之間的人數最多!(frequencypolygon)(二)折線圖(frequencypolygon)折線圖也稱頻數多邊形圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數分布是一致的2.1統計數據的整理分組數據的圖示
(折線圖的繪制)折線圖與直方圖下的面積相等!某車間工人周加工零件折線圖
對稱分布右偏分布左偏分布正J型分布反J型分布U型分布幾種常見的頻數分布(三)分布曲線2.1統計數據的整理洛倫茨曲線三、洛倫茨曲線和基尼系數(一)洛倫茨曲線20世紀初美國經濟學家、統計學家洛倫茨(M.E.Lorentz)根據意大利經濟學家巴雷特(V.Pareto)提出的收入分配公式繪制而成描述收入和財富分配性質的曲線,分析該國家或地區分配的平均程度
AB累積的人口百分比
累積的收入百分比
絕對公平線
2.1統計數據的整理基尼系數
(二)基尼系數20世紀初意大利經濟學家基尼(G.Gini)根據洛倫茨曲線給出了衡量收入分配平均程度的指標AB
其中,A表示實際收入曲線與絕對平均線之間的面積,B表示實際收入曲線與絕對不平均線之間的面積2.1統計數據的整理基尼系數2.評價標準(1)如果A=0,則基尼系數=0,表示收入絕對平均;(2)如果B=0,則基尼系數=1,表示收入絕對不平均;(3)基尼系數在0和1之間取值;(4)基尼系數若小于0.2,表明分配平均但缺乏效率;(5)基尼系數在0.2至0.4之間是比較適當的,即一個社會既有效率又沒有造成極大的分配不公;(6)基尼系數在0.4被認為是收入分配不公平的警戒線,超過了0.4應該采取措施縮小這一差距。2.2分布集中趨勢的測度一、眾數二、中位數三、四分位數四、均值五、幾何均值六、切尾均值七、眾數、中位數和均值的比較(mode)一、眾數(mode)一組數據中出現次數最多的變量值適合于數據量較多時使用不受極端值的影響一組數據可能沒有眾數或有幾個眾數2.2分布集中趨勢的測度眾數
(不惟一性)無眾數
原始數據:10591268一個眾數
原始數據:659855多于一個眾數
原始數據:252828
364242排序后處于中間位置上的值Me50%50%不受極端值的影響3.各變量值與中位數的離差絕對值之和最小,即2.2分布集中趨勢的測度二、中位數(median)(一)中位數的概念原始數據:分組數據:2.2分布集中趨勢的測度(二)中位數的位置中位數的求法
(9個數據的算例)【例】
9個家庭的人均月收入數據原始數據:15007507801080850960200012501630排序:7507808509601080
1250150016302000位置:1234
56789中位數
1080
中位數的求法
(10個數據的算例)【例】:10個家庭的人均月收入數據排序:
660
75078085096010801250150016302000位置:1234
5678910
三、四分位數(quartile)(一)四分位數的概念排序后處于25%和75%位置上的值不受極端值的影響QLQMQU25%25%25%25%2.2分布集中趨勢的測度原始數據:分組數據:2.2分布集中趨勢的測度(二)四分位數的位置四分位數的求法
(9個數據的算例)【例】:9個家庭的人均月收入數據原始數據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789
四分位數的求法
(10個數據的算例)【例】:10個家庭的人均月收入數據排序:
660
75078085096010801250150016302000位置:1234
5678910
統計函數—QUARTILE四、均值(mean)(一)均值的概念集中趨勢的最常用測度值一組數據的均衡點所在體現了數據的必然性特征易受極端值的影響2.2分布集中趨勢的測度(二)均值的算法1、簡單均值(simplemean)設一組數據為:x1,x2,…,xn總體均值樣本均值2.2分布集中趨勢的測度2、加權均值(weightedmean)設一組數據為:x1,x2,…,xn相應的頻數為:f1,f2,…,fk總體均值樣本均值2.2分布集中趨勢的測度加權均值計算表零件數
工人數
組中值xifi80-9038525590-100795665100-110131051365110-1205115575120-1302125250合計30
—3110加權均值
(例題分析)(三)均值的數學性質1. 各變量值與均值的離差之和等于零
2.各變量值與均值的離差平方和最小2.2分布集中趨勢的測度五、幾何平均數(geometricmean)1.n個變量值乘積的
n次方根2.適用于對比率數據的平均3.主要用于計算平均增長率4.計算公式為5.可看作是均值的一種變形2.2分布集中趨勢的測度幾何均值的求法
(例題分析)
【例】一位投資者購持有一種股票,在2000年、2001年、2002年和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內的平均收益率算術平均:
幾何平均:六、切尾均值(trimedmean)
1.去掉大小兩端的若干數值后計算中間數據的均值2.在電視大獎賽、體育比賽及需要人們進行綜合評價的比賽項目中已得到廣泛應用3.計算公式為n
表示觀察值的個數;α表示切尾系數,
2.2分布集中趨勢的測度切尾均值
(例題分析)
【例】謀次比賽共有11名評委,對某位歌手的給分分別是:
經整理得到順序統計量值為去掉一個最高分和一個最低分,取1/11
眾數、中位數和均值的關系左偏分布均值
中位數
眾數對稱分布
均值=中位數=
眾數右偏分布眾數
中位數均值2.2分布集中趨勢的測度眾數、中位數、均值的特點和應用眾數不受極端值影響具有不惟一性數據分布偏斜程度較大時應用中位數不受極端值影響數據分布偏斜程度較大時應用均值易受極端值影響數學性質優良數據對稱分布或接近對稱分布時應用2.3分布離散程度的測度一、極差二、內距三、方差和標準差四、離散系數一、極差(rang)一組數據的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數據的分布7891078910
R
=max(xi)-min(xi)計算公式為2.3分布離散程度的測度二、內距(Inter-QuartileRange,IQR)
也稱四分位差上四分位數與下四分位數之差
內距=QU
–QL反映了中間50%數據的離散程度不受極端值的影響可用于衡量中位數的代表性2.3分布離散程度的測度三、方差與標準差(VarianceandStandarddeviation)(一)方差與標準差的概念1. 離散程度的測度值之一2. 最常用的測度值3. 反映了數據的分布4.反映了各變量值與均值的平均差異根據總體數據計算的,稱為總體方差或標準差;根據樣本數據計算的,稱為樣本方差或標準差可用于衡量均值的代表性大小4681012
x=8.32.3分布離散程度的測度(二)總體方差和標準差(PopulationvarianceandStandarddeviation)的計算公式未分組數據:組距分組數據:未分組數據:組距分組數據:1、總體方差的計算公式2、總體標準差的計算公式2.3分布離散程度的測度(三)樣本方差和標準差(simplevarianceandstandarddeviation)的計算公式未分組數據:組距分組數據:未分組數據:組距分組數據:1、樣本方差的計算公式2、樣本標準差的計算公式注意:樣本方差用自由度n-1去除!2.3分布離散程度的測度注解:樣本方差自由度(degreeoffreedom)一組數據中可以自由取值的數據的個數當樣本數據的個數為
n時,若樣本均值
x
確定后,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值例如,樣本有3個數值,即x1=2,x2=4,x3=9,則
x
=5。當
x
=5
確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量2.3分布離散程度的測度方差、標準差計算表(組距數列)零件數
工人數
組中值(Xi-x)280-90385348.4490-10079575.11100-110131051.78110-1205115128.44120-1302125455.11合計30
—1008.89方差、標準差(例題)四、離散系數(coefficientofvariation)1. 標準差與其相應的均值之比2.對數據相對離散程度的測度3.消除了數據水平高低和計量單位的影響4. 用于對不同組別數據離散程度的比較5.計算公式為2.3分布離散程度的測度離散系數
(例題分析)某管理局所屬8家企業的產品銷售數據企業編號產品銷售額(萬元)x1銷售利潤(萬元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所屬的8家企業,其產品銷售數據如表。試比較產品銷售額與銷售利潤的離散程度離散系數
(例題分析)結論:
計算結果表明,v1<v2,說明產品銷售額的離散程度小于銷售利潤的離散程度
v1=536.25309.19=0.577v2=32.521523.09=0.7102.7偏態與峰態的度量一、偏態-----偏度二、峰態-----峰度一、偏態及其測度(一)偏態的概念1.統計學家Pearson于1895年首次提出2.數據分布偏斜程度的測度,數據分布的不對稱性稱為偏態。3.偏態系數=0為對稱分布偏態系數>0為右偏分布偏態系數<0為左偏分布2.7偏態與峰態的度量二、偏態系數
(skewnesscoefficient)根據原始數據計算2.7偏態與峰態的度量2.根據分組數據計算二、峰態及其測度(一)峰態的概念1.統計學家Pearson于1905年首次提出2.數據分布扁平程度的測度,反映數據分布的尖峭程度(與正態分布比較)。3.峰態系數=0為峰度適中峰態系數<0為扁平分布峰態系數>0為尖峰分布2.7偏態與峰態的度量(二)峰態系數(kurtosiscoefficient)1.根據原始數據計算2.7偏態與峰態的度量2.根據分組數據計算偏態系數和峰態系數
(例題分析)
某電腦公司銷售量偏態及峰度計算表
按銷售量份組(臺)組中值(Mi)頻數
fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合計—120540000
70100000
結論:偏態系數為正值,但與0的差異不大,說明電腦銷售量為輕微右偏分布。結論:峰態系數為負值,但與0的差異不大,說明電腦銷售量為輕微扁平分布STAT《統計學》非對稱的,右偏斜的分布對稱的、高度適中的分布既左偏斜又低平的分布2.5統計表與統計圖一、統計表二、統計圖一、統計表(一)統計表的結構1999~2000年城鎮居民家庭抽樣調查資料項目單位1999年2000年
調查戶數平均每戶家庭人口平均每戶就業人口平均每戶就業面平均一名就業者負擔人數平均每人全部年收入??芍涫杖肫骄咳讼M性支出戶人人%元元元元
400443.141.7756.431.775888.775854.024615.91
4222.03.131.6853.671.866316.816279.984998.00資料來源:《中國統計年鑒2001》,中國統計出版社,2001,第305頁。注:本表為城市和縣城的城鎮居民家庭抽樣調查材料。
行標題列標題數字資料表頭附加2.5統計表與統計圖(1)合理安排統計表的結構(2)總標題內容應滿足3W(where,when,what)
要求(3)數據計量單位相同時,可放在表的右上角標明,不同時應放在每個指標后或單列出一列標明(4)表中上下兩條橫線一般用粗線,其他線用細線(5)通常情況下,統計表的左右兩邊不封口(6)表中的數據一般是右對齊,有小數點時應以小數點對齊,而且小數點的位數應統一(7)對于沒有數字的表格單元,一般用“—”表示(8)必要時可在表的下方加上注釋(二)設計和使用統計表的注意事項2.5統計表與統計圖一、統計圖
(一)莖葉圖(stem-and-leafdisplay)用于顯示未分組的原始數值型數據的分布由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉樹葉上只保留一位數字莖葉圖類似于橫置的直方圖,但又有區別直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息2.5統計表與統計圖莖葉圖
(例題分析)莖葉圖
(擴展的莖葉圖)(二)箱線圖(boxplot)用于顯示未分組的原始數值型數據的分布箱線圖由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成箱線圖的繪制方法首先找出一組數據的5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)連接兩個四分(位)數畫出箱子,再將兩個極值點與箱子相連接2.5統計表與統計圖箱線圖
(箱線圖的構成)中位數4681012QUQLX最大值X最小值簡單箱線圖箱線圖
(例題分析)最小值84最大值128中位數105下四分位數96上四分位數10980859095100105110150120125130周加工零件數的箱線圖分布的形狀與箱線圖
對稱分布QL中位數
QU左偏分布QL中位數
QU右偏分布QL
中位數
QU不同分布的箱線圖未分組數據—多批數據箱線圖
(例題分析)【例】
從某大學經濟管理專業二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學生各科的考試成績數據課程名稱學生編號1234567891011英語經濟數學西方經濟學市場營銷學財務管理基礎會計學統計學計算機應用基礎76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分組數據—多批數據箱線圖
(例題分析)8門課程考試成績的箱線圖11名學生8門課程考試成績的箱線圖min-max25%-75%medianvalue455565758595105學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10學生11未分組數據—多批數據箱線圖
(例題分析)本章小結統計數據的整理分布集中趨勢的測度分布離散程度的測度偏態系數與峰態系數統計表與統計圖第2章結束了!THANKS第3章抽樣與抽樣分布3.3
常用的抽樣方法3.4抽樣分布學習目標了解抽樣的概率抽樣方法理解抽樣分布的意義了解抽樣分布的形成過程理解中心極限定理理解抽樣分布的性質3.3常用的抽樣方法一、簡單隨機抽樣二、分層抽樣三、系統抽樣四、整群抽樣3.3常用的抽樣方法一、抽樣方法的類型3.3常用的抽樣方法二、概率抽樣(probabilitysampling)(一)概率抽樣概述根據一個已知的概率來抽取樣本單位,也稱隨機抽樣特點按一定的概率以隨機原則抽取樣本抽取樣本時使每個單位都有一定的機會被抽中每個單位被抽中的概率是已知的,或是可以計算出來的當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率3.3常用的抽樣方法(二)簡單隨機抽樣(simplerandomsampling)從總體N個單位中隨機地抽取n個單位作為樣本,使得每一個單位都有相同的機會(概率)被抽中抽取元素的具體方法有重復抽樣和不重復抽樣特點簡單、直觀,在抽樣框完整時,可直接從中抽取樣本用樣本統計量對目標量進行估計比較方便局限性當N很大時,不易構造抽樣框抽出的單位很分散,給實施調查增加了困難沒有利用其他輔助信息以提高估計的效率3.3常用的抽樣方法(三)分層抽樣(stratifiedsampling)將總體單位按某種特征或某種規則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本單位優點保證樣本的結構與總體的結構比較相近,從而提高估計的精度組織實施調查方便既可以對總體參數進行估計,也可以對各層的目標量進行估計3.3常用的抽樣方法(四)系統抽樣(systematicsampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規定的范圍內隨機地抽取一個單位作為初始單位,然后按事先規定好的規則確定其他樣本單位先從數字1到k之間隨機抽取一個數字r作為初始單位,以后依次取r+k,r+2k…等單位優點:操作簡便,可提高估計的精度缺點:對估計量方差的估計比較困難3.3常用的抽樣方法(五)整群抽樣(clustersampling)將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實施調查特點抽樣時只需群的抽樣框,可簡化工作量調查的地點相對集中,節省調查費用,方便調查的實施缺點是估計的精度較差3.4抽樣分布一、抽樣分布的概念二、由正態分布導出的幾個重要分布三、樣本均值的抽樣分布四、樣本比例的抽樣分布五、樣本方差的抽樣分布六、兩個樣本統計量的抽樣分布一、抽樣分布(samplingdistribution)樣本統計量的概率分布,是一種理論分布在重復選取容量為n的樣本時,由該統計量的所有可能取值形成的相對頻數分布隨機變量是樣本統計量樣本均值,樣本比例,樣本方差等結果來自容量相同的所有可能樣本提供了樣本統計量長遠而穩定的信息,是進行推斷的理論基礎,也是抽樣推斷科學性的重要依據 3.4抽樣分布抽樣分布的形成過程
(samplingdistribution)總體計算樣本統計量如:樣本均值、比例、方差樣本二、由正態分布導出的幾個重要分布(一)
2分布1.定義設隨機變量X1,X2,…,Xn
相互獨立,且服從標準正態分布N(0,1),則Y=X12+X22+…+Xn2服從自由度為n的
2分布,記為Y~
2(n)
。2.與
2分布相關的抽樣分布設總體服從參數為μ、σ2的正態分布,從中抽取容量為n的樣本,則
3.4抽樣分布c2分布(圖示)
選擇容量為n的簡單隨機樣本計算樣本方差s2計算卡方值
2=(n-1)s2/σ2計算出所有的
2值不同容量樣本的抽樣分布c2n=1n=4n=10n=20ms總體3.4抽樣分布(二)t分布1.定義設隨機變量X~N(0,1),Y~
2(n),且X與Y獨立,則稱是自由度為n的t分布,記為t~t(n)。2.與t分布相關的抽樣分布設總體,從中抽取容量為n的樣本,則t分布(圖示)xt
分布與標準正態分布的比較t分布標準正態分布t不同自由度的t分布標準正態分布t(df=13)t(df=5)z
t分布是類似正態分布的一種對稱分布,它通常要比正態分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數。隨著自由度的增大,分布也逐漸趨于正態分布3.4抽樣分布(三)F分布1.定義
設隨機變量U與V相互獨立,且U和V分別服從自由度為n1和n2的
2(n)分布,則稱服從第一自由度為n1,第二自由度為n2的F分布,記為F~F(n1,n2)。2.與F分布相關的抽樣分布設兩個總體都為正態分布,兩總體的方差分別為σ12,σ22,從兩個總體中分別抽取容量為n1和n2的獨立樣本,樣本方差分別為S12,S22則有F分布(圖示)
不同自由度的F分布F(1,10)(5,10)(10,10)三、樣本均值的抽樣分布(一)樣本均值的抽樣分布的概述1.在重復選取容量為n的樣本時,由樣本均值的所有可能取值形成的相對頻數分布2.一種理論概率分布3.推斷總體均值
的理論基礎 3.4抽樣分布樣本均值的抽樣分布
(例題分析)【例】設一個總體,含有4個元素(個體)
,即總體單位數N=4。4
個個體分別為x1=1,x2=2,x3=3,x4=4
。總體的均值、方差及分布如下總體分布14230.1.2.3均值和方差樣本均值的抽樣分布
(例題分析)
現從總體中抽取n=2的簡單隨機樣本,在重復抽樣條件下,共有42=16個樣本。所有樣本的結果為3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能的n=2的樣本(共16個)樣本均值的抽樣分布
(例題分析)
計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值(x)x樣本均值的抽樣分布1.000.10.20.3P
(x)1.53.04.03.52.02.5樣本均值的分布與總體分布的比較
(例題分析)
=2.5σ2=1.25總體分布14230.1.2.3抽樣分布P(x)1.00.1.2.31.53.04.03.52.02.5x3.4抽樣分布
=50
=10X總體分布n=4抽樣分布xn=16(二)總體分布為正態分布時的樣本均值的分布當總體服從正態分布N(μ,σ2)時,來自該總體的所有容量為n的樣本的均值
x也服從正態分布,
x
的數學期望為μ,方差為σ2/n。即
x~N(μ,σ2/n)3.4抽樣分布當樣本容量足夠大時(n
30),樣本均值的抽樣分布逐漸趨于正態分布(三)總體分布未知時的樣本均值的分布中心極限定理(centrallimittheorem)
:設從均值為
,方差為
2的一個任意總體中抽取容量為n的樣本,當n充分大時(n≥30),樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態分布一個任意分布的總體x中心極限定理
(centrallimittheorem)
x的分布趨于正態分布的過程(四)樣本均值的數學期望與方差1.樣本均值的數學期望3.4抽樣分布2.樣本均值的方差重復抽樣:不重復抽樣:樣本均值的數學期望與方差
(例題分析)比較及結論:1.樣本均值的均值(數學期望)等于總體均值2.在重復抽樣下,樣本均值的方差等于總體方差的1/n3.4抽樣分布四、樣本比例的抽樣分布當樣本容量n足夠大時(即np≥5,n(1-p)≥5),樣本比例p近似服從均值為π
、方差為π(1-π)/n的正態分布。即五、樣本方差的分布當總體,從中抽取容量為n的樣本,則3.4抽樣分布3.4抽樣分布六、兩個樣本統計量的抽樣分布(一)兩個樣本均值之差的分布設兩個總體都服從正態分布或兩總體不是正態分布,但n1
30和n2
30,分別從兩總體中獨立抽取兩個樣本,則3.4抽樣分布(二)兩個樣本比例之差的分布設兩個總體都服從二項分布,分別從兩個總體中抽取容量為n1和n2的獨立樣本,當n1p1≥5,n1(1-p1)≥5,n2p2≥5,n2(1-p2)≥5時,則有3.4抽樣分布(三)兩個樣本方差之比的分布設兩個總體都是正態總體,分別從兩個總體中抽取容量為n1和n2的獨立樣本,其中σ12、σ22分別是兩個總體的方差,s12、s22分別是兩個樣本的方差,則有抽樣分布與總體分布的關系總體分布正態分布非正態分布大樣本小樣本正態分布正態分布非正態分布抽樣分布與總體分布的關系正態分布
t分布正態分布
2分布樣本均值統計量樣本比例樣本方差正態總體(小樣本)正態總體或大樣本二項總體(大樣本)正態總體本章小結了解抽樣的概率抽樣方法理解抽樣分布的意義了解抽樣分布的形成過程理解中心極限定理理解抽樣分布的性質第4章結束了!THANKS第4章參數估計4.1
參數估計的基本原理4.2一個總體參數的區間估計4.3兩個總體參數的區間估計4.4樣本容量的確定學習目標估計量與估計值的概念點估計與區間估計的區別評價估計量優良性的標準一個總體參數的區間估計方法兩個總體參數的區間估計方法樣本容量的確定方法參數估計在統計方法中的地位參數估計假設檢驗統計方法描述統計推斷統計統計推斷的過程樣本總體樣本統計量如:樣本均值、比率、方差總體均值、比率、方差等4.1參數估計的基本原理一、估計量與估計值二、點估計與區間估計三、評價估計量的標準一、估計量與估計值(estimator&estimatedvalue)估計量:用于估計總體參數的隨機變量如樣本均值,樣本比率、樣本方差等例如:樣本均值就是總體均值
的一個估計量參數用
表示,估計量用表示估計值:估計參數時計算出來的統計量的具體值如果樣本均值
x
=80,則80就是
的估計值4.1參數估計的基本原理參數估計的方法估計方法點估計區間估計4.1參數估計的基本原理二、點估計和區間估計(一)點估計(pointestimate)用樣本統計量直接作為總體參數的估計量例如:用樣本均值直接作為總體均值的估計例如:用兩個樣本均值之差直接作為總體均值之差的估計沒有給出估計值接近總體參數程度的信息點估計的方法有矩估計法、順序統計量法、最大似然法、最小二乘法等4.1參數估計的基本原理(二)區間估計(intervalestimate)在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間由樣本統計量加減抽樣誤差而得到的根據樣本統計量的抽樣分布能夠對樣本統計量與總體參數的接近程度給出一個概率度量比如,某班級平均分數在75~85之間,置信水平是95%
樣本統計量
(點估計)置信區間置信下限置信上限區間估計的圖示
x95%的樣本
-1.96
x
+1.96
x99%的樣本
-2.58
x
+2.58
x90%的樣本
-1.65
x
+1.65
x(三)置信區間(confidenceinterval)由樣本統計量所構造的總體參數的估計區間稱為置信區間統計學家在某種程度上確信這個區間會包含真正的總體參數,所以給它取名為置信區間用一個具體的樣本所構造的區間是一個特定的區間,我們無法知道這個樣本所產生的區間是否包含總體參數的真值我們只能是希望這個區間是大量包含總體參數真值的區間中的一個,但它也可能是少數幾個不包含參數真值的區間中的一個4.1參數估計的基本原理(四)置信水平(confidencelevel)將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數所占的比率稱為置信水平表示為(1-
為是總體參數未在區間內的比率常用的置信水平值有99%,95%,90%相應的
為0.01,0.05,0.104.1參數估計的基本原理置信區間與置信水平
樣本均值的抽樣分布(1-
)區間包含了
的區間未包含
1–aa/2a/24.1參數估計的基本原理(五)影響置信區間寬度的因素1. 總體數據的離散程度,用
來測度樣本容量3. 置信水平(1-
),影響z的大小4.1參數估計的基本原理三、評價估計量的標準(一)無偏性(unbiasedness)
估計量的數學期望等于被估計的總體參數,即P(
)BA無偏有偏4.1參數估計的基本原理(二)有效性(efficiency)
對同一總體參數的兩個無偏點估計量,有更小標準差的估計量更有效,即
AB
的抽樣分布
的抽樣分布P(
)4.1參數估計的基本原理(三)一致性(consistency)隨著樣本容量的增大,估計量的值越來越接近被估計的總體參數,即AB較小的樣本容量較大的樣本容量P(
)4.2一個總體參數的區間估計一、總體均值的區間估計二、總體比率的區間估計三、總體方差的區間估計4.2一個總體參數的區間估計總體參數符號表示樣本統計量均值比率方差4.2一個總體參數的區間估計一、總體均值的估計(一)利用Z統計量對總體均值進行區間估計1. 假定條件總體服從正態分布,且方差(
2)
已知總體不是正態分布或
2未知,當n
30時,可由正態分布來近似代替2.使用正態分布統計量z總體均值
在1-
置信水平下的置信區間為
2已知:
2未知:標準正態分布的上側分為點
(圖示)01-αzzα/2-zα/2α/2α/2總體均值的區間估計
(例題分析)【例】一家食品生產企業以生產袋裝食品為主,為對產量質量進行監測,企業質檢部門經常要進行抽檢,以分析每袋重量是否符合要求。現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如下表所示。已知產品重量的分布服從正態分布,且總體標準差為10g。試估計該批產品平均重量的置信區間,置信水平為95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3總體均值的區間估計
(例題分析)解:已知X~N(
,102),n=25,1-
=95%,z
/2=z0.025=1.96。根據樣本數據計算得:
總體均值
在1-
置信水平下的置信區間為該食品平均重量的置信區間為101.44g~109.28g總體均值的區間估計
(例題分析)【例】一家保險公司收集到由36投保個人組成的隨機樣本,得到每個投保人的年齡(周歲)數據如下表。試建立投保人年齡90%的置信區間
36個投保人年齡的數據233539273644364246433133425345544724342839364440394938344850343945484532總體均值的區間估計
(例題分析)解:已知n=36,1-
=90%,z
/2=z0.051.645。根據樣本數據計算得:
總體均值
在1-
置信水平下的置信區間為投保人平均年齡的置信區間為37.37歲~41.63歲4.2一個總體參數的區間估計(二)利用t統計量對總體均值進行區間估計1. 假定條件總體服從正態分布,方差(
2)
未知,小樣本(n<30)使用t
分布統計量總體均值
在1-
置信水平下的置信區間為
t分布的上側分位點
(圖示)01-αttα/2-tα/2α/2α/2總體均值的區間估計
(例題分析)【例】已知某種燈泡的壽命服從正態分布,現從一批燈泡中隨機抽取16只,測得其使用壽命(小時)如下。建立該批燈泡平均使用壽命95%的置信區間16燈泡使用壽命的數據1510152014801500145014801510152014801490153015101460146014701470總體均值的區間估計
(例題分析)解:已知X~N(
,2),n=16,1-
=95%,t
/2(n-1)=t0.025(15)=2.131,根據樣本數據計算得:該種燈泡平均使用壽命的置信區間為1476.8小時~1503.2小時總體均值
在1-
置信水平下的置信區間為4.2一個總體參數的區間估計二、總體比例的區間估計1. 假定條件總體服從二項分布,當樣本容量充分大,即np≥5,n(1-p)≥5時,可以由正態分布來近似2.使用正態分布統計量z
總體比率
在1-
置信水平下的置信區間為總體比率的區間估計
(例題分析)【例】某城市想要估計下崗職工中女性所占的比率,隨機地抽取了100名下崗職工,其中65人為女性職工。試以95%的置信水平估計該城市下崗職工中女性比率的置信區間解:已知n=100,p=65%,np=65≥5,n(1-p)=35≥5,1-=95%,z/2=z0.025=1.96該城市下崗職工中女性比率的置信區間為55.65%~74.35%
4.2一個總體參數的區間估計三、總體方差的區間估計1. 估計一個總體的方差或標準差2. 假設總體服從正態分布3.總體方差
2
的點估計量為s2,且4.總體方差在1-
置信水平下的置信區間為
χ2分布的上側分位點
(圖示)
2
21-
2
總體方差1-
的置信區間自由度為n-1的
2分布α/2α/2
總體方差的區間估計
(例題分析)【例】一家食品生產企業以生產袋裝食品為主,現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如下表所示。已知產品重量的分布服從正態分布。以95%的置信水平建立該種食品重量方差的置信區間
25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3總體方差的區間估計
(例題分析)解:已知n=25,1-
=95%,根據樣本數據計算得
s2=93.21該企業生產的食品總體重量標準差的的置信區間為7.54g~13.43g
2置信度為95%的置信區間為4.3
兩個總體參數的區間估計一、兩個總體均值之差的區間估計二、兩個總體比率之差的區間估計三、兩個總體方差比的區間估計4.3兩個總體參數的區間估計總體參數符號表示樣本統計量均值之差比率之差方差比4.3兩個總體參數的區間估計一、兩個獨立樣本總體均值之差的區間估計(一)利用Z統計量對兩總體均值差進行區間估計1. 假定條件兩個總體都服從正態分布,
12、
22已知,兩個樣本是獨立的隨機樣本若不是正態分布或
12、
22未知,兩個樣本是獨立的隨機樣本,當n1
30和n2
30時,可用正態分布來近似2.使用正態分布統計量z(1)當
12、
22已知時:(2)當
12、
22未知時:4.3兩個總體參數的區間估計3.
12,
22已知時,兩個總體均值之差
1-
2在1-
置信水平下的置信區間為4.12、
22未知,當n1≥30,n2≥30時,兩個總體均值之差
1-
2在1-
置信水平下的置信區間為兩個總體均值之差的估計
(例題分析)【例】某地區教育委員會想估計兩所中學的學生高考時的英語平均分數之差,為此在兩所中學獨立抽取兩個隨機樣本,有關數據如右表。建立兩所中學高考英語平均分數之差95%的置信區間
兩個樣本的有關數據
中學1中學2n1=46n1=33S1=5.8S2=7.2兩個總體均值之差的估計
(例題分析)解:由1-
=95%得z/2=z0.025=1.96,故兩個總體均值之差在1-
置信水平下的置信區間為兩所中學高考英語平均分數之差的置信區間為5.03分~10.97分4.3兩個總體參數的區間估計(二)利用t統計量對兩總體均值差的區間估計1.當
12=
22時(1) 假定條件兩個總體都服從正態分布,兩個總體方差未知但相等:
12=
22,兩個獨立的小樣本(n1<30和n2<30)(2)總體方差的合并估計量(3)估計量
x1-x2的抽樣標準差4.3兩個總體參數的區間估計(4)兩個樣本均值之差的標準化(5)兩個總體均值之差
1-
2在1-
置信水平下的置信區間為兩個總體均值之差的估計
(例題分析)【例】為估計兩種方法組裝產品所需時間的差異,分別對兩種不同的組裝方法各隨機安排12名工人,每個工人組裝一件產品所需的時間(分鐘)下如表。假定兩種方法組裝產品的時間服從正態分布,且方差相等。試以95%的置信水平建立兩種方法組裝產品所需平均時間差值的置信區間。兩個方法組裝產品所需的時間方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521兩個總體均值之差的區間估計
(例題分析)解:由1-
=95%得t/2(n1+n2-2)=t0.025(22)=2.0739,根據樣本數據計算得兩種方法組裝產品所需平均時間之差的置信區間為0.14分鐘~7.26分鐘合并估計量為:4.3兩個總體參數的區間估計2.當σ12
≠σ22但n1=n2=n時(1)假定條件兩個總體都是正態分布,獨立小樣本,
12,
22未知且不相等:即
12
22,樣本容量相等:即n1=n2=n(2)檢驗統計量自由度:~4.3兩個總體參數的區間估計(3)兩個總體均值之差
1-
2在1-
置信水平下的置信區間為兩個總體均值之差的區間估計
(例題分析)【例】為檢驗兩種方法組裝產品所需時間的差異,分別對兩種不同的組裝方法各隨機安排12個工人,每個工人組裝一件產品所需的時間(分鐘)下如表。假定兩種方法組裝產品的時間服從正態分布,但方差未知且不相等。取顯著性水平0.05,能否認為方法1組裝產品的平均數量明顯地高于方法2?兩個方法組裝產品所需的時間方法1方法228.336.027.631.730.137.222.226.029.038.531.032.037.634.433.831.232.128.020.033.428.830.030.226.521兩個總體均值之差的區間估計
(例題分析)解:由1-
=95%得t/2(n1+n2-2)=t0.025(22)=2.0739,根據樣本數據計算得兩種方法組裝產品所需平均時間之差的置信區間為0.14分鐘~7.26分鐘所求的置信區間為:4.3兩個總體參數的區間估計3.當
12
22,n1n2時(1) 假定條件兩個總體都服從正態分布,兩個總體方差未知且不相等:即
12
22,兩個樣本容量不等:即n1n2,兩個獨立的小樣本(n1<30和n2<30)(2)使用統計量4.3兩個總體參數的區間估計(3)兩個總體均值之差
1-
2在1-
置信水平下的置信區間為自由度兩個總體均值之差的估計
(例題分析)【例】沿用前例。假定第一種方法隨機安排12名工人,第二種方法隨機安排名工人,即n1=12,n2=8,所得的有關數據如表。假定兩種方法組裝產品的時間服從正態分布,且方差不相等。以95%的置信水平建立兩種方法組裝產品所需平均時間差值的置信區間兩個方法組裝產品所需的時間方法1方法228.336.027.631.730.137.222.226.529.038.531.037.634.433.832.128.020.028.830.030.221兩個總體均值之差的估計
(例題分析)解:根據樣本數據計算得兩種方法組裝產品所需平均時間之差的置信區間為0.192分鐘~9.058分鐘自由度為:由1-
=95%得t/2(v)=t0.025(13)=2.1604,故所求的置信區間為:4.3兩個總體參數的區間估計(三)匹配樣本的總體均值差的區間估計1.利用Z統計量對匹配樣本的總體均值差的區間估計(1)假定條件兩個匹配的大樣本(n1=n2=n
30)兩個總體各觀察值的配對差服從正態分布,σd已知
(2)兩個總體均值之差
d=
1-
2在1-
置信水平下的置信區間為對應差值的樣本均值對應差值的總體標準差對應差值的樣本標準差σd已知:σd未知:4.3兩個總體參數的區間估計2.利用t統計量對匹配小樣本的總體均值差的區間估計(1)假定條件兩個總體各觀察值的配對差服從正態分布,兩個匹配的小樣本(n1<30和n2<30)(2)兩個總體均值之差
d=
1-
2在1-
置信水平下的置信區間為兩個總體均值之差的估計
(例題分析)【例】由10名學生組成一個隨機樣本,讓他們分別采用A和B兩套試卷進行測試,結果如下表。試建立兩種試卷分數之差
d=
1-
2
95%的置信區間
10名學生兩套試卷的得分學生編號試卷A試卷B差值d17871726344193726111489845691741754951-27685513876601698577810553916兩個總體均值之差的估計
(例題分析)解:由1-
=95%得t/2(n-1)=t0.025(9)=2.2622,根據樣本數據計算得兩種試卷所產生的分數之差的置信區間為6.33分~15.67分二、兩個總體比例之差的區間估計1. 假定條件兩個總體服從二項分布,兩個樣本是獨立的,且n1、n2充分大:即n1p1≥5,n1(1-p1)≥5,n2p2≥5,n2(1-p2)≥5,可以用正態分布來近似2. 兩個總體比率之差
1-
2在1-
置信水平下的置信區間為4.3兩個總體參數的區間估計兩個總體比率之差的估計
(例題分析)【例】在某個電視節目的收視率調查中,農村隨機調查了400人,有32%的人收看了該節目;城市隨機調查了500人,有45%的人收看了該節
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論