




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1章導論1.1統計學與統計分析1.2統計數據的分類1第1節
統計學與統計分析1.1.1統計學1.1.2統計分析21.1.1統計學3參考書目1.《統計學(原書第5版)》作者:(美)門登霍爾,(美)辛塞奇
著,梁馮珍
等譯出版社:機械工業出版社出版時間:2009年10月
2.《應用多元統計分析(第三版)》作者:朱建平出版社:科學出版社有限責任公司出版時間:2016年12月
1.1.1統計學4什么是統計學?收集數據:取得數據處理數據:整理與圖表展示分析數據:利用統計方法分析數據數據解釋:結果的說明得到結論:從數據分析中得出客觀結論
收集、處理、分析、解釋數據并從數據中得出結論的科學1.1.1統計學5統計學的發展歷史1.1.2統計分析6統計研究的過程收集數據(取得數據)整理數據(處理數據)解釋數據(結果說明)分析數據(研究數據)實際問題1.1.2統計分析7統計方法統計方法描述統計推斷統計參數估計假設檢驗8描述統計
(descriptivestatistics)研究數據收集、整理和描述的統計學分支內容收集數據整理數據展示數據描述性分析目的描述數據特征找出數據的基本規律02550Q1Q2Q3Q4¥x=30s2=1051.1.2統計分析9推斷統計
(inferentialstatistics)研究如何利用樣本數據來推斷總體特征的統計學分支內容參數估計假設檢驗目的對總體特征作出推斷樣本總體1.1.2統計分析10描述統計與推斷統計的關系反映客觀現象的數據總體內在的數量規律性推斷統計(利用樣本信息和概率論對總體的數量特征進行估計和檢驗等)概率論(分布理論、大數定律和中心極限定理等)描述統計(數據的收集、整理、顯示和分析等)總體數據樣本數據1.1.2統計分析11統計的應用領域經濟學管理學醫學工程學社會學…
統計學1.1.2統計分析第2節
統計數據的分類1.2.1按計量方式分類1.2.2按收集方式分類1.2.3按時間狀況分類1213統計數據的分類統計數據的分類按計量方式截面數據時間序列數據面板數據按時間狀況定性數據定量數據按收集方法觀測數據試驗數據1.2.1按計量方式分類14定性數據(qualitativedata)用來描述事物的性質、類別的數據。定類數據(categoricaldata)只能歸于某一類別的非數字型數據對事物進行分類的結果,數據表現為類別,用文字來表述例如,人口按性別分為男、女兩類定序數據(rankdata)只能歸于某一有序類別的非數字型數據對事物類別順序的測度,數據表現為類別,用文字來表述例如,產品分為一等品、二等品、三等品、次品等1.2.1按計量方式分類15數值數據(quantitativedata)由數值表示且可以測量的數據。定距數據(distancedata)按數字尺度測量的觀察值結果表現為具體的數值,對事物的精確測度例如:身高為175cm、168cm、183cm定比數據(ratiodata)對事物順序、距離與比例屬性測量的結果表現為數值,可以進行加減乘除運算例如:獎金為0元、2000元、4000元1.2.2按收集方式分類16觀測數據(observationaldata)通過調查或觀測而收集到的數據在沒有對事物人為控制的條件下而得到的有關社會經濟現象的統計數據幾乎都是觀測數據試驗數據(experimentaldata)在試驗中控制試驗對象而收集到的數據比如,對一種新藥療效的試驗,對一種新的農作物品種的試驗等自然科學領域的數據大多數都為試驗數據1.2.3按時間狀況分類17截面數據(cross-sectionaldata)在相同或近似相同的時間點上收集的數據描述現象在某一時刻的變化情況比如,2005年我國各地區的國內生產總值數據時間序列數據(timeseriesdata)在不同時間上收集到的數據描述現象隨時間變化的情況比如,2000年至2005年國內生產總值數據面板數據(paneldata)在時間序列上取多個截面,在截面上同時選取觀測值面板數據有時間序列和截面兩個維度比如,2000年至2005年我國各地區的國內生產總值數據18教學內容幾種常用的統計軟件(software)19
典型的統計軟件SPSSMINITABSTATISTICAExcelSASMINITABSTATISTICAExcelSASSPSS第2章統計分析基礎2.1統計分析中的基本概念2.2統計分析基礎1——概率論2.3統計分析基礎2——抽樣與抽樣分布2.4SPSS實現2.5拓展內容——抽樣方法探索性實驗20第1節統計分析中的基本概念2.1.1總體和樣本2.1.2參數與統計量2.1.3變量2.1.4數據特征測度212.1.1總體和樣本22總體(population)所研究的全部個體(數據)的集合,其中的每一個個體也稱為元素分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數目是有限的無限總體所包括的元素是無限的,不可數的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數目稱為樣本
容量或樣本量(samplesize)
2.1.2參數與統計量23
2.1.3變量(variable)24變量是一個用于說明現象的某種特征的概念例如衡量一批產品質量的好壞我們需要的變量為質量等級,而質量等級是一級、二級等就是變量值。再例如為研究一公司銷售產品情況,則我們需要的變量就是商品銷售額,而銷售額具體的數值就是變量值。2.1.3變量25變量的分類2.1.4數據特征測度26統計中的幾個基本概念平均數標準差比例參數
統計量
xsp
總體
樣本2.1.4數據特征測度27集中趨勢(位置)離中趨勢
(分散程度)偏態和峰度(形狀)2.1.4數據特征測度(集中趨勢的測度)28集中趨勢
(Centraltendency)一組數據向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數據一般水平的代表值或中心值不同類型的數據用不同的集中趨勢測度值選用哪一個測度值來反映數據的集中趨勢,要根據所掌握的數據的類型來確定2.1.4數據特征測度(集中趨勢的測度)291.定類數據:眾數2.定序數據:中位數和分位數3.定距和定比數據:均值4.眾數、中位數和均值的比較2.1.4數據特征測度(集中趨勢的測度)30眾數集中趨勢的測度值之一出現次數最多的變量值不受極端值的影響可能沒有眾數或有幾個眾數主要用于定類數據,也可用于定序數據和數值型數據2.1.4數據特征測度(集中趨勢的測度)31眾數
(眾數的不唯一性)無眾數
原始數據:10591268一個眾數
原始數據:659855多于一個眾數
原始數據:2528283642422.1.4數據特征測度(集中趨勢的測度)32某城市居民關注廣告類型的頻數分布
廣告類型人數(人)比例頻率(%)
商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合計2001100根據如下表中的數據,計算眾數解:這里的變量為“廣告類型”,這是個定類變量,不同類型的廣告就是變量值。我們看到,在所調查的200人當中,關注商品廣告的人數最多,為112人,占總被調查人數的56%,因此眾數為“商品廣告”這一類別,即
Mo=商品廣告2.1.4數據特征測度(集中趨勢的測度)33中位數集中趨勢的測度值之一排序后處于中間位置上的值Me50%50%不受極端值的影響主要用于定序數據,也可用數值型數據,但不能用于定類數據各變量值與中位數的離差絕對值之和最小,即2.1.4數據特征測度(集中趨勢的測度)34數值型未分組數據的中位數
(6個數據的算例)原始數據:105 91268排序: 56891012位置:123
456位置
N+126+123.5中位數
8+928.5
2.1.4數據特征測度(集中趨勢的測度)35四分位數1.集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值3.不受極端值的影響4.主要用于定序數據,也可用于數值型數據,但不能用于定類數據QLQMQU25%25%25%25%2.1.4數據特征測度(集中趨勢的測度)36四分位數(位置的確定)未分組數據:組距分組數據:下四分位數(QL)位置=N+14上四分位數(QU)位置=3(N+1)4下四分位數(QL)位置=N4上四分位數(QL)位置=3N42.1.4數據特征測度(集中趨勢的測度)37解:下四分位數(QL)的位置為:
QL位置=(300)/4=75
上四分位數(QL)的位置為:
QU位置=(3×300)/4=225從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此
QL
=不滿意
QU
=一般表
甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—2.1.4數據特征測度(集中趨勢的測度)38均值1. 集中趨勢的測度值之一2. 最常用的測度值3. 一組數據的均衡點所在4. 易受極端值的影響5.用于數值型數據,不能用于定類數據和定序數據2.1.4數據特征測度(集中趨勢的測度)39均值
(計算公式)設一組數據為:X1,X2,…,XN簡單均值的計算公式為設分組后的數據為:X1,X2,…,XK相應的頻數為:F1,F2,…,FK加權均值的計算公式為2.1.4數據特征測度(集中趨勢的測度)40加權均值
(算例)某車間50名工人日加工零件均值計算表按零件數分組組中值(Xi)頻數(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合計—506160.0計算50名工人日加工零件數的均值2.1.4數據特征測度(集中趨勢的測度)41加權均值
(權數對均值的影響)
甲乙兩組各有10名學生,他們的考試成績及其分布數據如下甲組:考試成績(X): 020100
人數分布(F):118
乙組:考試成績(X): 020100
人數分布(F):811X甲0×1+20×1+100×8n
10i=1
Xi82(分)X乙0×8+20×1+100×1n
10i=1
Xi12(分)2.1.4數據特征測度(集中趨勢的測度)42均值
(數學性質)1. 各變量值與均值的離差之和等于零2.各變量值與均值的離差平方和最小2.1.4數據特征測度(集中趨勢的測度)43幾何平均數
(概念要點)1.集中趨勢的測度值之一2.N個變量值乘積的N次方根3.適用于特殊的數據4.主要用于計算平均發展速度5.計算公式為2.1.4數據特征測度(集中趨勢的測度)44一位投資者持有一種股票,1996年、1997年、1998年和1999年收益率分別為4.5%、2.0%、3.5%、5.4%。計算該投資者在這四年內的平均收益率。平均收益率=103.84%-1=3.84%思考:給定平均收益率3.84%,四年總的收益是否一定?例(簡單幾何平均數)2.1.4數據特征測度(集中趨勢的測度)45如何構造合適的平均增長率計算公式?案例思考:平均增長率計算公式平均增長率方程式法2.1.4數據特征測度(集中趨勢的測度)46幾何平均數特點:1)幾何平均數受極端值的影響較算術平均數小。2)如果變量值有負值,計算出的幾何平均數就會成
為負數或虛數。3)它僅適用于具有等比或近似等比關系的數據。4)幾何平均數的對數是各變量值對數的算術平均數2.1.4數據特征測度(集中趨勢的測度)47眾數、中位數和均值的關系對稱分布
均值=中位數=眾數左偏分布均值
中位數
眾數右偏分布眾數
中位數
均值2.1.4數據特征測度(集中趨勢的測度)48案例:“被加工資了”有一個小工廠,生產小玩具。管理人員由老板、他的弟弟、六個親戚組成。工作人員由5個領工和10個工人組成。老板(1)老板弟弟(1)老板親戚(6)領工(5)工人(10)24000100002500200010002.1.4數據特征測度(集中趨勢的測度)49工資平均數:3000元工資中位數:2000元工資眾數:1000元集中趨勢的測度取決于分布形狀,當數據分布與單峰分布嚴重不符時,3個集中趨勢測度也都將相背離。2.1.4數據特征測度(離散程度的測度)50二、離散程度的測度1.定類數據:異眾比率2.定序數據:四分位差3.定距和定比數據:方差及標準差4.相對離散程度:離散系數2.1.4數據特征測度(離散程度的測度)51離中趨勢數據分布的另一個重要特征離中趨勢的各測度值是對數據離散程度所作的描述反映各變量值遠離其中心值的程度,因此也稱為離中趨勢從另一個側面說明了集中趨勢測度值的代表程度不同類型的數據有不同的離散程度測度值2.1.4數據特征測度(離散程度的測度)52異眾比率
(概念要點)1. 離散程度的測度值之一2. 非眾數組的頻數占總頻數的比率3. 計算公式為4.用于衡量眾數的代表性2.1.4數據特征測度(離散程度的測度)53異眾比率
(算例)某城市居民關注廣告類型的頻數分布
廣告類型人數(人)頻率(%)
商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告1125191610256.025.54.58.05.01.0合計200100解:在所調查的200人當中,關注非商品廣告的人數占44%,異眾比率還是比較大。因此,用“商品廣告”來反映城市居民對廣告關注的一般趨勢,其代表性不是很好
Vr=200-112200
=1-112200
=0.44=44%2.1.4數據特征測度(離散程度的測度)54四分位差
(概念要點)1. 離散程度的測度值之一2. 也稱為內距或四分間距3. 上四分位數與下四分位數之差
QD
=QU-QL4. 反映了中間50%數據的離散程度5.不受極端值的影響6.用于衡量中位數的代表性2.1.4數據特征測度(離散程度的測度)55四分位差
(定序數據的算例)計算甲城市家庭對住房滿意狀況評價的四分位差解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5已知QL
=不滿意=2,
QU=
一般=
3四分位差:QD=QU=
QL
=3–2
=1甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)累計頻數
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—2.1.4數據特征測度(離散程度的測度)56極差
(概念要點及計算公式)1.一組數據的最大值與最小值之差2.離散程度的最簡單測度值3.易受極端值影響4.未考慮數據的分布7891078910未分組數據R=max(Xi)-min(Xi).=組距分組數據R
最高組上限-最低組下限5.計算公式為2.1.4數據特征測度(離散程度的測度)57平均差
(概念要點及計算公式)1.離散程度的測度值之一2.各變量值與其均值離差絕對值的平均數3.能全面反映一組數據的離散程度4.數學性質較差,實際中應用較少5.計算公式為未分組數據組距分組數據2.1.4數據特征測度(離散程度的測度)58平均差表某車間50名工人日加工零件標準差計算表按零件數分組組中值(Xi)頻數(Fi)|Xi-X||Xi-X|Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合計—50—312根據如下表中的數據,計算工人日加工零件數的平均差2.1.4數據特征測度(離散程度的測度)59方差和標準差
(概念要點)1. 離散程度的測度值之一2. 最常用的測度值3. 反映了數據的分布4.反映了各變量值與均值的平均差異5.根據總體數據計算的,稱為總體方差或標準差;根據樣本數據計算的,稱為樣本方差或標準差4681012X=8.32.1.4數據特征測度(離散程度的測度)60總體方差和標準差
(計算公式)未分組數據:組距分組數據:方差的計算公式標準差的計算公式未分組數據:組距分組數據:2.1.4數據特征測度(離散程度的測度)61總體標準差表
某車間50名工人日加工零件標準差計算表按零件數分組組中值(Xi)頻數(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合計—50—3100.5計算工人日加工零件數的標準差2.1.4數據特征測度(離散程度的測度)62樣本方差和標準差
(計算公式)未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!2.1.4數據特征測度(離散程度的測度)63樣本方差
(算例)原始數據:10 5913682.1.4數據特征測度(離散程度的測度)64標準化值
(概念要點和計算公式)1.也稱標準分數2.給出某一個值在一組數據中的相對位置3.可用于判斷一組數據是否有離群點4.用于對變量的標準化處理5.計算公式為2.1.4數據特征測度(離散程度的測度)65離散系數
(概念要點和計算公式)1.標準差與其相應的均值之比2.消除了數據水平高低和計量單位的影響3.測度了數據的相對離散程度4.用于對不同組別數據離散程度的比較5.計算公式為2.1.4數據特征測度(離散程度的測度)66離散系數
(實例和計算過程)某管理局所屬8家企業的產品銷售數據企業編號產品銷售額(萬元)X1銷售利潤(萬元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0某管理局抽查了所屬的8家企業,其產品銷售數據。
試比較產品銷售額與銷售利潤的離散程度2.1.4數據特征測度(離散程度的測度)67離散系數
(計算結果)X1=536.25(萬元)S1=309.19(萬元)V1=536.25309.19=0.577S2=23.09(萬元)V2=32.521523.09=0.710X2=32.5215(萬元)結論:計算結果表明,V1<V2,說明產品銷售額的離散程度小于銷售利潤的離散程度2.1.4數據特征測度(偏態與峰度的測度)68偏態與峰度的測度1.偏態及其測度2.峰度及其測度2.1.4數據特征測度(偏態與峰度的測度)69偏態與峰度分布的形狀扁平分布尖峰分布偏態峰度左偏分布右偏分布與標準正態分布比較!2.1.4數據特征測度(偏態與峰度的測度)702.1.4數據特征測度(偏態與峰度的測度)71偏態
(概念要點)1.數據分布偏斜程度的測度2.偏態系數=0為對稱分布3.偏態系數>0為右偏分布4.偏態系數<0為左偏分布5.計算公式為2.1.4數據特征測度(偏態與峰度的測度)72偏態
(實例)已知1997年我國農村居民家庭按純收入分組的有關數據如表4.9。試計算偏態系數1997年農村居民家庭純收入數據按純收入分組(元)戶數比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.942.1.4數據特征測度(偏態與峰度的測度)73戶數比重(%)252015105農村居民家庭村收入數據的直方圖偏態與峰度
(從直方圖上觀察)按純收入分組(元)1000500←15002000250030003500400045005000→結論:1.為右偏分布
2.峰度適中2.1.4數據特征測度(偏態與峰度的測度)74結論:偏態系數為正值,而且數值較大,說明農村居民家庭純收入的分布為右偏分布,即收入較少的家庭占據多數,而收入較高的家庭則占少數,而且偏斜的程度較大2.1.4數據特征測度(偏態與峰度的測度)75峰度
(概念要點)1.數據分布扁平程度的測度2.峰度系數=3扁平程度適中3.峰度系數<3為扁平分布4.峰度系數>3為尖峰分布5.計算公式為2.1.4數據特征測度(偏態與峰度的測度)76結論:由于=3.4>3,說明我國農村居民家庭純收入的分布為尖峰分布,說明低收入家庭占有較大的比重2.1.4數據特征測度(偏態與峰度的測度)77由Excel輸出的描述統計量第2節統計分析基礎1——概率論2.2.1隨機事件2.2.2常見分布2.1.3大數定律與中心極限定理782.2.1隨機事件79一、隨機現象自然界中存在的兩類現象確定性現象
例如:自由落體距離與時間隨機現象
例如:明天是否下雨?廣告投入與產品的銷售量等隨機現象的一個特點是:不確定性2.2.1隨機事件80二、隨機現象的統計規律性
隨機現象也存在其固有的量的規律性,人們把這一規律性稱為隨機現象的統計規律性。對隨機現象的觀察稱為隨機試驗,并簡稱試驗,用以研究隨機現象的統計規律性2.2.1隨機事件81隨機試驗的特點(1)可重復性
在相同試驗條件下(2)可觀察性
試驗結果是可觀察的,且所有可能結果是明確的(3)隨機性
試驗結果不確定2.2.1隨機事件82
統計中的抽樣過程其實就是一次隨機試驗。因而可以利用概率論的技巧來分析推斷統計方法。而樣本其實就是隨機變量。2.2.1隨機事件83三、隨機變量隨機變量也分為離散型隨機變量和連續性隨機變量,若是隨機變量的取值可以被一一列舉出來我們稱其為離散型隨機變量,比如扔一次骰子可能出現的點數。連續性隨機變量則是取值不能被一一列舉,把數軸作為其樣本空間,取數軸上的任一點作為隨機變量。2.2.1隨機事件84三、隨機變量
由定義可知,隨機變量X應是一個函數,但與已知函數式的普通函數不同,X在試驗前不能確定,只能由其分布函數來確定它的統計規律性。2.2.2常見分布85一、二項分布在n重貝努里試驗中,每次試驗事件A發生的概率為p。若以X表示n重貝努里試驗事件A發生的次數,則稱X服從參數為n,p的二項分布。記作X~B(k;n,p),其分布律為:2.2.2常見分布86二、幾何分布在n重貝努里試驗中,每次試驗事件A發生的概率為p。若以X表示直到事件A發生為止所進行的試驗的次數。顯然X取值正整數。稱X服從參數為p的幾何分布。記作X~g(k,p),其分布律為:2.2.2常見分布87三、指數分布若X~則稱X服從參數為
>0的指數分布。其分布函數為
數字特征:
EX=1/
;DX=1/
22.2.2常見分布88
指數分布一般用來描述對某一事件發生的等待時間。比如:乘客在公共汽車站等車的時間,燈泡的使用壽命(等待用壞的時間),電話交換臺收到兩次呼叫的時間間隔等。它時幾何分布在連續型情形的推廣。2.2.2常見分布89
正態分布是實踐中應用最為廣泛,在理論上研究最多的分布之一,故它在概率統計中占有特別重要的地位。四、
正態分布ABA,B間真實距離為,測量值為X。X的概率密度應該是什么形態?2.2.2常見分布90
其中為實數,
>0,則稱X服從參數為
,2的正態分布,記為N(,2),可表為X~N(,2).若隨機變量
數字特征:
EX=
;DX=
22.2.2常見分布91
正態分布的“鐘型”特征與實際中很多隨機變量的“中間大,兩頭小”的分布規律相吻合,比如考察一群人的身高,一個班的一次考試成績,測量誤差等。正態分布時概率論中最重要的分布,高斯(Gauss)在研究誤差理論時曾用過它來刻劃誤差,所以,正態分布也被稱為高斯分布。2.2.3大數定律與中心極限定理92大數定律的基本理解大數定律是指在隨機試驗中,每次出現的結果不同,但是大量重復試驗出現的結果平均值卻幾乎總是接近于某個確定的值,往往呈現幾乎必然的趨勢。通俗地說,這個定理就是,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它的概率。2.2.3大數定律與中心極限定理93大數定律的重要性它解釋了當試驗次數足夠多時,事件發生的頻率就無限接近于其概率,也就為推斷統計樣本估計總體的思想提供了理論依據。例如在拋硬幣試驗中,一次試驗硬幣可能正面朝上也可能反面朝上,但若是反復進行試驗,當試驗次數足夠大時,正面朝上的頻率穩定于一個值附近,這個值就叫做概率,根據生活經驗我們也知道這個值就是0.5,因此下一次試驗前我們就可以估計出現正面朝上的概率為0.5,也就實現了樣本推斷出總體的均值。2.2.3大數定律與中心極限定理941、切比雪夫大數定律
設{Xk,k=1,2,...}為獨立的隨機變量序列,且有相同的數學期望,及方差2>0,則即若任給
>0,使得2.2.3大數定律與中心極限定理952.伯努里大數定律
設進行n次獨立重復試驗,每次試驗中事件A發生的概率為p,記fn為n次試驗中事件A發生的頻率,則“時空轉換”2.2.3大數定律與中心極限定理96中心極限定理正態分布的普適性2.2.3大數定律與中心極限定理97第3節統計分析基礎2
——抽樣與抽樣分布2.3.1抽樣的概念與特點2.3.2常用的抽樣方法2.3.3抽樣分布982.3.1抽樣的概念與特點99統計推斷的過程樣本總體樣本統計量如:樣本均值、比例、方差總體均值、比例、方差等2.3.1抽樣的概念與特點1001)抽樣的概念從總體中抽取一個樣本作為總體的代表,這一過程稱為抽樣。對樣本進行調查,再根據抽樣分布的原理利用樣本資料對總體數量特征進行科學的估計與推斷,這就是抽樣估計。2)抽樣的特點
(1)隨機性;(2)部分推斷總體;(3)抽樣推斷的誤差可以事先計算并加以控制。2.3.2常用的抽樣方法101非概率抽樣概率抽樣
簡單隨機抽樣
分層抽樣
簇群抽樣
等距抽樣方便抽樣、判斷抽樣、資源抽樣
滾雪球抽樣、配額抽樣2.3.2常用的抽樣方法102一、簡單隨機抽樣從總體中抽取n個單位作為樣本時,要使得每一個總體單位都有相同的概率被抽中,這樣的抽樣方法稱為簡單隨機抽樣(simplerandomsampling),又稱為純隨機抽樣。又分為重復抽樣和不重復抽樣。應用最廣泛;最基本的抽樣方法;
其他抽樣方法都是在它的基礎上發展;
總體單位很大時,編制抽樣框較難;可能得到一個“差”的簡單隨機樣本。2.3.2常用的抽樣方法103一、簡單隨機抽樣簡單隨機抽樣常用的兩種方法:1)抽簽法。當總體單位N較少時,可以用同質均勻的材料制作N個簽,并充分混合,可分別采取兩種方法抽取。一種是全樣本抽選法,即從N個簽中一次抽選n個,這n個簽上的號碼即為入樣的單位號碼;另一種是逐個抽選法,即一次抽取一個簽,但不放回,接著抽下一個簽,直到抽夠n個簽為止,這n個簽上號碼所對應的單位入樣。可以證明,這兩種方法抽到的
個單位的樣本是等價的。2)隨機數法。當總體較大時,抽簽法實施起來比較困難,這時可以利用隨機數表、隨機數色子、搖獎機、計算機產生的偽隨機數進行抽樣。2.3.2常用的抽樣方法104利用輔助信息,在抽樣之前將總體的N個單元劃分為互不交叉、互不重疊的L個層,每一層包含的單元數分別為
,從而
。然后在每一層中進行獨立抽樣,分別從各層中抽取的容量為
的樣本,得到的樣本容量為,這種抽樣方式就是分層抽樣(StratifiedSampling),也被稱為分類抽樣。二、分層抽樣2.3.2常用的抽樣方法105層(類)間的差距盡可能大,而層內個體之間的差異盡可能小。優點:1)分層抽樣的研究對象更為具體2)分層抽樣適合大規模,跨地區和跨行業的大規模調查3)提高估計的精度二、分層抽樣2.3.2常用的抽樣方法106三、簇群抽樣
簇群抽樣(ClusterSampling),也稱整群抽樣,就是先將總體依據存在的某種聯系劃分為幾個簇群(Cluster),即初級抽樣單元,然后以群為單位進行抽樣,進而對抽中的各個群中包含的所有個體單位(即次級抽樣單元)進行觀察和研究。
例如,對某居民小區的戶均網購情況進行調查,可以采取兩種不同的抽樣方法,一種方法是將住戶看做抽樣基本抽樣單元,采用簡單隨機抽樣對被選中的住戶進行調查;另一種方法是將小區內每棟居民樓看成一個群,隨機抽取一定數量的居民樓,然后對樓內的所有的住戶進行調查,這就是簇群抽樣。2.3.2常用的抽樣方法107三、簇群抽樣優點:抽樣工作簡單高效,而且當簇內各單位差異明顯,而且基本能夠反映和接近總體特征的時候,簇群抽樣的精度較好;缺點:如果抽中的簇群與總體特征差距明顯,則會導致估計精度較低,效果較差
與分層抽樣相比,簇群抽樣是選擇一個或者幾個簇作為總體的代表,而簇的劃分有時并沒有一個客觀的標準。因此,從抽樣估計的通體精度考慮,簇群抽樣要低于分層抽樣。但由于簇群抽樣調查單位相對集中,平均單位調查費用較少,因此可以適當擴大群樣本量以提高簇群抽樣的精度,同時使調查費用仍比較少。2.3.2常用的抽樣方法108四、等距抽樣如果把總體按照某種順序進行排列,然后采取某種既定規則進行間隔抽取個體的方式被稱為等距抽樣(SystematicSampling),或者系統抽樣,又稱為機械抽樣。1、簡單容易2、實際的抽樣誤差很可能要低于簡單隨機抽樣2.3.2常用的抽樣方法109直線等距抽樣:
把總體單元排成一條直線,以
為抽樣間距,把總體分為n段,每段k個單元。然后從1至k之間隨機抽取一個整數
,即在第一段的k個單元中隨機抽取一個單元為起點,假設為第r個單元,而后每隔k個單元抽出一個樣本單元,直到抽滿n個單元。這樣總體中編號為
的單元全部入樣。四、等距抽樣2.3.2常用的抽樣方法110五、Bootstrap抽樣“子樣本之于樣本,可以類比樣本之于總體”Bootstrap抽樣法的具體做法是從原有樣本數據中再次“抽樣”產生偽樣本,再利用偽樣本數據計算估計量的標準誤差。Bootstrap抽樣法一般適用于未知分布非常不規則或樣本數不足的情況。例如,若要估計某社區居民的平均年齡,而已知其中200人的信息,我們就可以利用已知200人的信息,“有放回”地抽取50次,得到的平均年齡就可以大致認為是社區居民平均年齡。2.3.3抽樣分布1111)總體分布2)樣本分布3)抽樣分布三種不同性質的分布2.3.3抽樣分布112總體分布總體分布:所有元素出現概率的分布。總體分布往往是未知的,很多場合不可能獲取得對所有個體元素的觀察值。當然有些時候可以通過理論計算進行假定。2.3.3抽樣分布113樣本分布
樣本分布:假設總體變量為N,抽取樣本規模為n,如果n趨近N的時候,樣本分布實際上也在趨向總體分布。因此,樣本分布又稱為經驗分布。2.3.3抽樣分布114抽樣分布抽樣分布是對樣本統計量概率分布的一種描述方式。關鍵點:1)樣本統計量;2)由樣本n個觀察值計算的統計量的概率分布就是抽樣分布。3)抽樣分布經常用到的統計量:樣本均值,中位數等。2.3.3抽樣分布115總體計算樣本統計量如:樣本均值、比例、方差樣本總體分布抽樣分布的形成過程2.3.3抽樣分布116【例】設一個總體(比如擲骰子),含有6個元素(個體),即總體單位數N=6。6個個體分別為x1=1,x2=2,x3=3,x4=4,x5=5,x6=6。總體的均值、方差及分布如下:均值和方差案例分析2.3.3抽樣分布117
現從總體中抽取n=2的簡單隨機樣本,在重復抽樣條件下,共有62=36個樣本。所有樣本的結果為:
第二觀察值第一觀察值1234561(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)2(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)3(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)4(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)5(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)6(6,1)(6,2)(6,3)(6,4)(6,5)(6,6)案例分析表3-1樣本容量為2的36次重復抽樣觀察值2.3.3抽樣分布118
計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布如下圖
第二觀察值第一觀察值123456111.522.533.521.522.533.54322.533.544.542.533.544.55533.544.555.563.544.555.56案例分析樣本平均值一覽圖投擲骰子時間樣本的均值分布圖2.3.3抽樣分布119
=3.5σ2=2.9
=3.5σ2=1.45案例分析觀察:兩組數值特征存在怎么樣的關系?2.3.3抽樣分布120一、正態總體的抽樣分布定理設總體X~N(μ,σ2),(X1,X2,…,Xn)是其容量為n的一個樣本,X和S2分別為此樣本的樣本均值與樣本方差,則有:2.3.3抽樣分布1211、單正態總體的抽樣分布
定理設總體X~N(μ,σ2),(X1,X2,…,Xn)是其容量為n的一個樣本,X和S2分別為此樣本的樣本均值與樣本方差,則有:2.3.3抽樣分布1221、單正態總體的抽樣分布
2.3.3抽樣分布1231、單正態總體的抽樣分布
2.3.3抽樣分布1241、單正態總體的抽樣分布
2.3.3抽樣分布1251、單正態總體的抽樣分布
2.3.3抽樣分布1262、雙正態總體的抽樣分布
定理設總體X~N(μ1,σ12)與Y~N(μ2,σ22)是兩個相互獨立的正態總體。又設(X1,X2,…,Xn1)是其容量為n1的樣本,X和S12分別為此樣本的樣本均值與樣本方差,再設(Y1,Y2,…,Yn2)是其容量為n2的樣本,Y和S22分別為此樣本的樣本均值與樣本方差,另記S2為S12與S22有的加權平均:則有:2.3.3抽樣分布1272、雙正態總體的抽樣分布
2.3.3抽樣分布1282、雙正態總體的抽樣分布
2.3.3抽樣分布1292、雙正態總體的抽樣分布
2.3.3抽樣分布1302.3.3抽樣分布131二、一般總體抽樣分布的極限分布定理設(X1,X2,…,Xn)是總體X的樣本,并設總體X的數學期望和方差均存在,分別記為EX=μ,DX=σ2再記第4節SPSS實現132133第一步:首先將數據導入SPSS中134第二步:依次點擊〖分析〗→〖描述統計〗→〖描述〗,進入〖描述〗對話框,并將4個變量添加到〖變量〗列表中135第三步:點擊〖選項〗進入選項對話框,勾選〖平均值〗、〖標準差〗、〖方差〗、〖最大值〗、〖最小值〗、〖峰度〗、〖偏度〗,如圖2.13,點擊〖繼續〗返回主對話框,再點擊〖確定〗即可得到相應計算結果136第四步:相應輸出結果第5節拓展內容
——抽樣方法探索性實驗2.5.1實驗目標2.5.2實驗數據2.5.3實驗內容1372.5.1實驗目標1381、利用簡單隨機抽樣(重復和無重復)、分層抽樣、簇群抽樣、等距抽樣等五種抽樣方法分別在身高數據總體中抽取10人的樣本,每種抽樣方案抽30次樣本,計算數值特征(包括樣本和總體),制作不同抽樣方案下的直方圖,并以此比較抽樣方案的優劣;2、假設身高數據服從正態分布,構造實驗驗證抽樣分布定理(單總體和雙總體)。2.5.2實驗數據1392.5.3實驗內容2.5.3.1五種抽樣方案的數據展示及對比2.5.3.2驗證抽樣分布定理定理2.2的驗證定理2.3的驗證定理2.4的驗證定理2.6的驗證定理2.7的驗證1402.5.3.1五種抽樣方案的數據展示及對比進行簡單重復隨機抽樣時,每次隨機抽取10人的樣本,共實現3000次抽樣,計算樣本均值的期望和標準差,得到的直方圖如下:1412.5.3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 健康促進工作培訓課件
- T/ZHCA 106-2023人參提取物稀有人參皂苷Rh2
- 垂花柱設計思路解析
- 中華優傳統文化 課件 第六章 中國傳統史學
- 2025遼寧廣告職業學院輔導員考試試題及答案
- 2025貴州航天職業技術學院輔導員考試試題及答案
- 2025紅河衛生職業學院輔導員考試試題及答案
- 《鋼鐵是怎樣練成的》讀后感字
- 體育與衛生健康融合知識
- 秦漢時期的藝術設計
- 無菌藥品(附檢查指南)
- 眾辰變頻器說明書3400
- 山東大學《概率論與數理統計》期末試題及答案
- GB∕T 33917-2017 精油 手性毛細管柱氣相色譜分析 通用法
- 高壓氧治療操作規程以及護理常規
- 新能源汽車的研究論文
- 材料科學基礎基礎知識點總結
- 數控銑工圖紙(60份)(共60頁)
- 惠州市出租車駕駛員從業資格區域科目考試題庫(含答案)
- 加工設備工時單價表
- 高脂血癥藥物治療ppt課件
評論
0/150
提交評論