單變量統(tǒng)計(jì)描述分析_第1頁
單變量統(tǒng)計(jì)描述分析_第2頁
單變量統(tǒng)計(jì)描述分析_第3頁
單變量統(tǒng)計(jì)描述分析_第4頁
單變量統(tǒng)計(jì)描述分析_第5頁
已閱讀5頁,還剩101頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

單變量統(tǒng)計(jì)描述分析第1頁,共106頁,2023年,2月20日,星期三統(tǒng)計(jì)資料的分類

第一節(jié)統(tǒng)計(jì)調(diào)查所謂原始資料,是指由調(diào)查者直接搜集的、未經(jīng)加工整理而保持其原本狀態(tài)的資料。原始資料又稱第一手資料或初級(jí)資料。所謂次級(jí)資料,是指經(jīng)他人加工整理,可以在一定程度上被引用來說明總體特征的資料。

如果考慮到資料的時(shí)間過程,凡某一特定時(shí)刻的資料稱為靜態(tài)資料;凡某時(shí)期內(nèi)變動(dòng)累計(jì)的資料稱為動(dòng)態(tài)資料。

第2頁,共106頁,2023年,2月20日,星期三

普遍主義

公有性

無私利性

有條理的懷疑主義

特殊情況下的禁止性功能

誠實(shí)性第一類規(guī)范

普適的禁止性功能

科學(xué)的規(guī)范結(jié)構(gòu)

第二類規(guī)范

普適的倡導(dǎo)性功能

控制越軌行為

第3頁,共106頁,2023年,2月20日,星期三普查、重點(diǎn)調(diào)查、典型調(diào)查

統(tǒng)計(jì)調(diào)查的組織形式

1.普查普查即全面調(diào)查,顧名思義,就是對(duì)研究對(duì)象的全體作無一遺漏的逐個(gè)調(diào)查。

2.重點(diǎn)調(diào)查重點(diǎn)調(diào)查就是在研究現(xiàn)象的總體中.選取其中的重點(diǎn)單位進(jìn)行調(diào)查。

3.典型調(diào)查典型調(diào)查就是根據(jù)調(diào)查的目的和要求,在對(duì)所研究對(duì)象進(jìn)行初步全面分析的基礎(chǔ)上,從中選擇有代表性的單位,做周密細(xì)致的調(diào)查。第4頁,共106頁,2023年,2月20日,星期三抽樣調(diào)查

隨機(jī)抽樣

非隨機(jī)抽樣

抽樣調(diào)查是在社會(huì)學(xué)研究中最常用的調(diào)查組織方式,它屬于非全面調(diào)查的范疇。抽樣調(diào)查是按照科學(xué)的原理和計(jì)算,從若干單位組成的事物總體中,抽取部分樣本單位來進(jìn)行調(diào)查、觀察,然后用所得到的調(diào)查結(jié)果來推斷總體。

定額抽樣

偶遇抽樣

等距抽樣

分層抽樣隨機(jī)抽樣簡單整群抽樣

“滾雪球”抽樣

第5頁,共106頁,2023年,2月20日,星期三概念的操作化概念的操作化與測量

要展開社會(huì)研究,一個(gè)必要的步驟就是要把理論層次上的抽象定義,變?yōu)榻?jīng)驗(yàn)層次上的可操作定義。概念的操作化就是指這一過程。

出身、地位、關(guān)系等(A’)理論層次貢獻(xiàn)(A)承認(rèn)(B)…………經(jīng)驗(yàn)層次成果(X)獎(jiǎng)勵(lì)(Y)第6頁,共106頁,2023年,2月20日,星期三測量的水平

在任何一門科學(xué)中,最基本和最簡單的操作是分類(或組)。只要類別是可窮盡的,且總體單位對(duì)分類而言是互斥的,那么便可以使用定類尺度來進(jìn)行測量。

如果我們不僅可以測量被研究對(duì)象的類別和順序,而且還可以獲得有關(guān)它們之間差值的信息,那么測量便提高到了定距尺度。

在社會(huì)調(diào)查和社會(huì)統(tǒng)計(jì)中,測量被分為四個(gè)水平:①定類尺度;②定序尺度;②定距尺度;①定比尺度。

如果我們不僅可以區(qū)分出類,而且可以排列出各類的順序,那么測量便提高到定序尺度。

如果我們在定距尺度上可以確定一個(gè)絕對(duì)的或非任意性的零點(diǎn),那么測量便提高到了定比尺度。

第7頁,共106頁,2023年,2月20日,星期三

所謂統(tǒng)計(jì)誤差,是指在調(diào)查和統(tǒng)計(jì)過程中所得數(shù)據(jù)(或指標(biāo))與實(shí)際值之間存在的差別。登記性誤差

代表性誤差

抽樣誤差是在遵守隨機(jī)原則的條件下,用樣本指標(biāo)代表總體指標(biāo)不可避免存在的誤差,它表示抽樣估計(jì)的精度。一般抽樣誤差越小,抽樣估計(jì)的精度就越高,反之就越低。由于抽樣誤差是概率抽樣固有的、不可避免的誤差,它本身又是隨機(jī)變量,所以可以按數(shù)理統(tǒng)計(jì)的方法計(jì)算,確定其數(shù)量界限(如用抽樣平均誤差表示)并加以一定控制。

統(tǒng)計(jì)誤差抽樣誤差第8頁,共106頁,2023年,2月20日,星期三一、社會(huì)學(xué)定量研究的基本邏輯第9頁,共106頁,2023年,2月20日,星期三主要內(nèi)容第二節(jié)社會(huì)統(tǒng)計(jì)資料的整理

原始資料雜亂無章,需加整理,才能為人所用。統(tǒng)計(jì)資料的整理,其基礎(chǔ)是統(tǒng)計(jì)分組。所謂統(tǒng)計(jì)分組.就是按統(tǒng)計(jì)研究的目的和要求,將總體單位或全部調(diào)查數(shù)據(jù)按一定的標(biāo)志劃分成若干組,使組內(nèi)差異盡量小,而組與組之間則有明顯差異,從而使原本雜亂無章的資料有序化,以便為在統(tǒng)計(jì)分析中提煉各種有用信息打下基礎(chǔ)。

統(tǒng)計(jì)表變量數(shù)列的編制統(tǒng)計(jì)圖

統(tǒng)計(jì)分組的原則與標(biāo)準(zhǔn)

第10頁,共106頁,2023年,2月20日,星期三統(tǒng)計(jì)分組的原則統(tǒng)計(jì)分組的原則與標(biāo)準(zhǔn)

1.分組應(yīng)使各類別構(gòu)成之和等于總體“窮舉”“互斥”

2.分組設(shè)計(jì)應(yīng)能反映統(tǒng)計(jì)總體的分布規(guī)律性

統(tǒng)計(jì)分組主要是為了能很好地反映統(tǒng)計(jì)總體的構(gòu)成狀況,即反映總體中各單位的分布特征。分組設(shè)計(jì)要適應(yīng)這一要求,必須在分組后使總體單位總數(shù)在各組的分配情況能夠反映總體的分布規(guī)律性。

第11頁,共106頁,2023年,2月20日,星期三某社團(tuán)成員的構(gòu)成

性別

人數(shù)

男女28

22

人數(shù)

年齡

3712181055--6535--45

45--5525--3515--25頻數(shù)分布數(shù)列

在統(tǒng)計(jì)資料搜集的基礎(chǔ)上,按分組原則,將總體中所有單位依一定順序歸類整理,即可得到能夠表明總體單位總數(shù)在各組分配情況的頻數(shù)(或次數(shù))分布數(shù)列,簡稱數(shù)列。頻數(shù)分布數(shù)列是統(tǒng)計(jì)分組工作的產(chǎn)物。品質(zhì)數(shù)列

變量數(shù)列

第12頁,共106頁,2023年,2月20日,星期三

100名男性青年的身高表

單位:厘米統(tǒng)計(jì)表

166181173171168164178167156194169175183168165180170172167175173169174172171169173184173169170181185168174187167174169165167172174173155179164158165162157175182168176161171163176159171178172169158163166168160178170164160170166178171167162169165171165168176174163177164170161179177162149169166153177164

統(tǒng)計(jì)調(diào)查搜集來的資料往往是沒有次序的原始資料(參見右表),使原始資料有序化,列表和作圖是兩種基本方法,得到的分別就是統(tǒng)計(jì)表和統(tǒng)計(jì)圖。第13頁,共106頁,2023年,2月20日,星期三2002年我國城鄉(xiāng)人口情況

按城鄉(xiāng)分

比重(%)

人口數(shù)(萬人)

12845339.0960.917824150212統(tǒng)計(jì)表1.格式統(tǒng)計(jì)表是表示統(tǒng)計(jì)資料的表格,在由橫行、縱欄交叉結(jié)合而成的表格上,它能系統(tǒng)地組織和合理地安排大量數(shù)字資料。

總標(biāo)題

鄉(xiāng)村

城鎮(zhèn)100.00合計(jì)

縱欄標(biāo)題

統(tǒng)計(jì)數(shù)值

橫行標(biāo)題

第14頁,共106頁,2023年,2月20日,星期三表3.4離婚案件構(gòu)成草率型外遇型猜疑型虐待型再婚型家務(wù)型生理型分居型其他型合計(jì)離婚案件(件)比重(%)851479136410447447188314671425996231002.內(nèi)容主詞——統(tǒng)計(jì)表所要說明的對(duì)象。賓詞——用來說明主詞的標(biāo)志和標(biāo)志值。如需要,主賓詞可互換。第15頁,共106頁,2023年,2月20日,星期三●簡單表我國城市居民家庭基本情況(2002年)主要指標(biāo)單位數(shù)值平均每戶家庭人口平均每戶就業(yè)人口平均每個(gè)就業(yè)者負(fù)擔(dān)數(shù)平均每人全部年收入平均每人可支配收入平均每人消費(fèi)性支出人人人元元元3.041.581.928177.407702.806029.88

3.統(tǒng)計(jì)表按主詞是否分組以及分組的程度可分為簡單分組表復(fù)合分組表簡單表簡單設(shè)計(jì)復(fù)合設(shè)計(jì)第16頁,共106頁,2023年,2月20日,星期三中國人口年齡結(jié)構(gòu)狀況單位:%年齡組1953年1964年1982年1990年2000年0―14歲15―64歲65歲以上36.359.34.440.755.73.633.661.54.927.766.75.622.970.17.0

資料來源|:《2003中國統(tǒng)計(jì)年鑒》第99頁?!?/p>

簡單分組表第17頁,共106頁,2023年,2月20日,星期三●復(fù)合分組表我國社會(huì)福利主要費(fèi)用情況單位:億元項(xiàng)目1998199920002001(一)優(yōu)撫對(duì)象補(bǔ)助金額國家支出集體供給(二)農(nóng)村傳統(tǒng)救濟(jì)金額國家支出集體供給(三)城鄉(xiāng)各種福利院支出國家支出集體供給68.032.435.629.87.022.820.210.39.991.451.140.328.57.920.623.113.79.4

107.660.746.931.78.323.428.719.09.7

108.169.538.6

29.512.117.440.526.414.1合計(jì)118.0143.0168.0178.1

資料來源|:《2003中國統(tǒng)計(jì)年鑒》第838頁。第18頁,共106頁,2023年,2月20日,星期三標(biāo)題部分

1、標(biāo)題置于表格正上方

2、總標(biāo)題所示要點(diǎn)與表中項(xiàng)目一致,在需要時(shí)還應(yīng)表明資料所屬的時(shí)間和地區(qū)

3、表次:左;單位:右

4、對(duì)分頁的同一表格,在每頁上端都要寫標(biāo)題,加(續(xù)一)、(續(xù)二)欄目部分

1、先局部后整體

2、若欄目較多,可加以編號(hào);統(tǒng)計(jì)數(shù)字間有計(jì)算關(guān)系的,可用計(jì)算式表達(dá)。統(tǒng)計(jì)表的制作規(guī)則第19頁,共106頁,2023年,2月20日,星期三線格部分

1、統(tǒng)計(jì)表上下兩端線應(yīng)以粗線或雙細(xì)線標(biāo)劃,表的左右兩側(cè)開口。

2、各欄間用直線標(biāo)劃,大項(xiàng)目間線條較粗,小欄目線條較細(xì);各行間不必劃線條。數(shù)字部分

1、表中數(shù)字要對(duì)準(zhǔn)位數(shù)。

2、不存在某數(shù)字時(shí),用“——”表示;缺少某項(xiàng)數(shù)字時(shí),用“……”表示。

3、數(shù)字較大時(shí),加分位點(diǎn)。其他規(guī)則

1、資料來源寫在表格下方。

2、有說明解釋需要時(shí),在表下方注釋。

3、單位有數(shù)種時(shí)而不能在表右上角劃一標(biāo)注時(shí),分兩種情況處理。第20頁,共106頁,2023年,2月20日,星期三變量數(shù)列的構(gòu)成要素

變量數(shù)列的編制

在社會(huì)統(tǒng)計(jì)學(xué)中,總體中各單位的分布特征首先是用統(tǒng)計(jì)表來表示的。能夠表示變量分布及其特征的統(tǒng)計(jì)表,即變量數(shù)列。它有兩個(gè)構(gòu)成要素:

變量值

Xi頻數(shù)fi相對(duì)頻數(shù)Pi第21頁,共106頁,2023年,2月20日,星期三離散變量數(shù)列

離散變量所描述的對(duì)象的數(shù)量特征,可以按一定次序列出它的整數(shù)值,相鄰兩變量值不會(huì)出現(xiàn)小數(shù),因而能編制出單項(xiàng)式和組距式兩種變量數(shù)列。

單項(xiàng)數(shù)列

組距數(shù)列

組距(hi)=上限(ui)―下限(li)組中值(mi)=或組中值(mi)=第22頁,共106頁,2023年,2月20日,星期三

1.單項(xiàng)式變量數(shù)列——數(shù)列中每一組的變量值只有一個(gè)。單項(xiàng)數(shù)列用于離散變量整數(shù)值變動(dòng)幅度較小時(shí)。某社區(qū)各戶人口數(shù)統(tǒng)計(jì)表人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計(jì)501.00●離散變量單項(xiàng)數(shù)列第23頁,共106頁,2023年,2月20日,星期三組中值(間距組中值()學(xué)校數(shù)()8―1415―2122―2829―3536―421118253239251084合計(jì)

——29●離散變量組距數(shù)列某地區(qū)小學(xué)班級(jí)數(shù)2.組距式變量數(shù)列——離散變量的整數(shù)值如果變動(dòng)幅度較大,而且總體單位數(shù)N又很大,則要編制組距數(shù)列。

第24頁,共106頁,2023年,2月20日,星期三連續(xù)變量數(shù)列

連續(xù)變量因其數(shù)學(xué)特征,在一個(gè)區(qū)間可以有無限多數(shù)值,無法按順序一一列舉,所以只能編制組距數(shù)列。與離散變量組距數(shù)列不同之處在于,根據(jù)連續(xù)變量的特征,此時(shí)組距數(shù)列中相鄰兩組的上限和下限共有一個(gè)組限,即相鄰兩組交界處的組限重合。至于恰等于某一組限的數(shù)據(jù)(如下表中身高164厘米)歸于哪一組,應(yīng)該按照“上限不包括在內(nèi)”的原則處理。這就是說,164應(yīng)歸于“164—168”這一組,而不應(yīng)歸于“160—l64”這一組。有了這一規(guī)定,就不會(huì)在編制連續(xù)變量的數(shù)列時(shí),發(fā)生違背“窮舉”與“互斥”這兩個(gè)基本原則的情況了。第25頁,共106頁,2023年,2月20日,星期三

男青年身高按4厘米的間距分組時(shí)的頻數(shù)分布身高間距(厘米)組中值(Xi)頻數(shù)(fi)頻率(Pi)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―196150154158162166170174178182186190194125101925171253010.010.020.050.100.190.250.170.120.050.030.000.01合計(jì)

——100——●連續(xù)變量數(shù)列第26頁,共106頁,2023年,2月20日,星期三

對(duì)于等距分組且為閉口組的情況,確定組距已有某些數(shù)學(xué)公式可供參考

但最佳決定還是依據(jù)常識(shí)和數(shù)列使用的目的而定。一般地說,組距應(yīng)不小于可以忽略的數(shù)值之差。

注意,在資料被整理成數(shù)列時(shí),全距可適當(dāng)放大(但不能縮小),以便組數(shù)(或組距)取整數(shù)值。確定組距和組數(shù)第27頁,共106頁,2023年,2月20日,星期三異距分組

異距分組主要在變量變動(dòng)并不是均勻的、有急劇上升或突然下降之類情況發(fā)生時(shí)考慮。

標(biāo)準(zhǔn)組距頻數(shù)的換算方法:(1)選定某一合適的組距為標(biāo)準(zhǔn)組距;(2)用標(biāo)準(zhǔn)組距除以各組組距,得到折合系數(shù);(3)將各組的折合系數(shù)乘以各組的頻數(shù)。第28頁,共106頁,2023年,2月20日,星期三

頻數(shù)密度和標(biāo)準(zhǔn)組距頻數(shù)計(jì)算表男青年按身高分組(厘米)頻數(shù)組距頻數(shù)密度折合系數(shù)(取標(biāo)準(zhǔn)組距4)標(biāo)準(zhǔn)組距頻數(shù)148―156156―164164―168168―172172―176176―180180―188188―1963151925171281884444883/815/819/425/417/412/48/81/81/21/211111/21/21.57.519.025.017.012.04.00.5合計(jì)100——

——

————第29頁,共106頁,2023年,2月20日,星期三累計(jì)頻數(shù)(F)向上累計(jì)——以變量數(shù)列首組的頻數(shù)為始點(diǎn),逐個(gè)累計(jì)各組的頻數(shù),展示小于該組上限的頻數(shù)和。向下累計(jì)——以變量數(shù)列末組的頻數(shù)為始點(diǎn),逐個(gè)累計(jì)各組的頻數(shù),展示大于該組下限的頻數(shù)和。第30頁,共106頁,2023年,2月20日,星期三頻數(shù)分布不但可以用統(tǒng)計(jì)表的形式表現(xiàn),也可以用統(tǒng)計(jì)圖的形式表現(xiàn)。用統(tǒng)計(jì)圖表示頻數(shù)分布,較之用統(tǒng)計(jì)表,要直觀便捷得多。但缺點(diǎn)是不及統(tǒng)計(jì)表精確。統(tǒng)計(jì)圖的種類很多,本節(jié)僅就與頻數(shù)分布數(shù)列相銜接的統(tǒng)計(jì)圖加以介紹。根據(jù)編制好的頻數(shù)分布數(shù)列,可以繪制出相應(yīng)的統(tǒng)計(jì)圖,最常用的有頻數(shù)分布直方圖、折線圖、曲線圖以及累計(jì)頻數(shù)分布曲線。具體方法是:先畫直角坐標(biāo)系,橫軸代表分組或各組組限,縱軸代表各組頻數(shù)或頻率,然后再根據(jù)相應(yīng)的分配數(shù)列作圖。統(tǒng)計(jì)圖第31頁,共106頁,2023年,2月20日,星期三條件下,很顯然各矩形的面積與其高度成正比。因此,各矩形的面積同樣可以用來表示各組的頻數(shù)或頻率,而且看起來更形象直觀。如果取各矩形的總面積為1,各矩形的面積必定等于各組的相對(duì)頻數(shù)。

直方圖(Histograms)直方圖是用矩形(或長條)的高度來表示數(shù)列各組的頻數(shù)或頻率。對(duì)于定類變量和定序變量的分組,矩形(或長條)的寬度是沒有意義的,各矩形之間要留出一定的空隙;對(duì)于定距變量(和定比變量)的分組,矩形的寬度表示各組組距,各矩形之間一般不留空隙。在等距分組的第32頁,共106頁,2023年,2月20日,星期三其實(shí),在頻數(shù)分布圖中,用面積來理解頻數(shù)分布狀況更合適。比如直方圖,當(dāng)處理異距分組時(shí)應(yīng)該用矩形面積而不是用矩形高度來顯示頻數(shù)分布。下面是根據(jù)表3.15繪制出的兩個(gè)直方圖。左圖用矩形高度來表示各組頻數(shù)就會(huì)產(chǎn)生錯(cuò)覺。右圖是按照標(biāo)準(zhǔn)組距頻數(shù)作出來的,用矩形面積來表示各組頻數(shù)就避免了不必要的錯(cuò)覺。以后當(dāng)我們接觸正態(tài)曲線等曲線后,將進(jìn)一步體會(huì)到用面積來表示頻數(shù)分布的好處。第33頁,共106頁,2023年,2月20日,星期三

折線圖(Polygon)表示頻數(shù)分布的另一種圖形是頻數(shù)多邊形圖,簡稱折線圖。直接把直方圖各矩形頂部的中點(diǎn)用直線連接起來,并把原來的矩形抹掉,就得到頻數(shù)多邊形圖。

第34頁,共106頁,2023年,2月20日,星期三當(dāng)變量數(shù)列中的組數(shù)愈加增多,變量值也非常多時(shí),折線圖會(huì)逐步過渡到平滑曲線。頻數(shù)分布曲線圖實(shí)質(zhì)上是對(duì)應(yīng)于連續(xù)變量的頻數(shù)分布的函數(shù)關(guān)系圖。

曲線圖第35頁,共106頁,2023年,2月20日,星期三下表是諾貝爾獲獎(jiǎng)?wù)叩哪挲g分布表。(1)請根據(jù)數(shù)據(jù)制作直方圖和折線圖;(2)將折線圖修勻?yàn)橐粭l曲線圖,并描述該曲線的特點(diǎn)。年齡獲獎(jiǎng)人數(shù)25歲以下25~3030~3535~4040~4545~5050歲以上15347068533728合計(jì)305第36頁,共106頁,2023年,2月20日,星期三常見曲線圖類型●鐘形曲線:“中間大,兩頭小”對(duì)稱分布:正態(tài)分布非對(duì)稱分布:偏態(tài)分布——右偏、左偏以橫軸為漸近線,與橫軸所圍的面積為1,代表變量X全部可能取值的概率婚齡、學(xué)生身高——近似正態(tài)分布收入分配、資源配置——偏態(tài)分布第37頁,共106頁,2023年,2月20日,星期三第38頁,共106頁,2023年,2月20日,星期三●

U形曲線:中間小,兩頭大●J形曲線:正J分布,反J分布●邏輯斯蒂曲線:變量值分布的次數(shù)隨變量值增大而增多或相反,但有上限。第39頁,共106頁,2023年,2月20日,星期三●累計(jì)頻數(shù)分布曲線顯然,累計(jì)頻數(shù)分布曲線只有兩種形狀:或持續(xù)增長的或持續(xù)減少的。這分別取決于向上累計(jì)或向下累計(jì)。累計(jì)頻數(shù)分布曲線一般都呈邏輯斯諦曲線形,其斜率最大的地方對(duì)應(yīng)于頻數(shù)最大的組,其水平的地方對(duì)應(yīng)于空組。

第40頁,共106頁,2023年,2月20日,星期三

洛侖茲曲線和基尼系數(shù)●洛侖茲(Lorenz)曲線乃反映社會(huì)收入分配平均程度的一種累計(jì)百分?jǐn)?shù)曲線,其特點(diǎn)是在縱軸和橫軸上都進(jìn)行累計(jì)。(下凹程度愈大,收入分配愈不平均)

第41頁,共106頁,2023年,2月20日,星期三基尼系數(shù)的計(jì)算公式,可以根據(jù)定義,用求三角形和梯形面積的方法,很簡單地推導(dǎo)出來,即●基尼系數(shù)

意大利經(jīng)濟(jì)學(xué)家基尼(Gini)根據(jù)洛侖茲曲線提出了判斷收入分配平均程度的指標(biāo)。合理界限0.2~0.3;警戒線0.4;紅線0.6。(中國,2003,0.46)第42頁,共106頁,2023年,2月20日,星期三1984年我國農(nóng)民家庭人口及收入構(gòu)成累計(jì)

單位:%農(nóng)民家庭收入按收入多少的人口序列在全部收入中所占百分比累積的人口百分比累積的收入百分比絕對(duì)平均絕對(duì)不平均實(shí)際情況最低的20%第二個(gè)20%第三個(gè)20%第四個(gè)20%第五個(gè)20%10.1214.0717.8221.9936.002040608010020406080100000010010.1224.1942.0164.00100.00

資料來源:《統(tǒng)計(jì)研究》1986年第1期。第43頁,共106頁,2023年,2月20日,星期三中國居民收入GINI系數(shù)

(1979-2007)第44頁,共106頁,2023年,2月20日,星期三第三節(jié)集中趨勢測量法主要內(nèi)容算術(shù)平均數(shù)中位數(shù)眾數(shù)幾何平均數(shù)和調(diào)和平均數(shù)第45頁,共106頁,2023年,2月20日,星期三統(tǒng)計(jì)分析首先要解決的問題,就是尋求一個(gè)簡單數(shù)值以代表搜集所得的資料。平均指標(biāo)就是表明同質(zhì)總體在一定條件下某一數(shù)量標(biāo)志所達(dá)到的一般水平。平均指標(biāo)把總體各單位之間的差異加以抽象概括,其中個(gè)別標(biāo)志值的偶然性被相互抵消,從而反映出總體分布的集中趨勢。第46頁,共106頁,2023年,2月20日,星期三下面是一個(gè)小故事:一個(gè)人到某公司求職,經(jīng)過調(diào)查,得出關(guān)于該公司工資的一些數(shù)據(jù),如果是你,應(yīng)該如何選擇?第47頁,共106頁,2023年,2月20日,星期三撓頭的數(shù)值公司員工的月薪如下:員工經(jīng)理副經(jīng)理職員A職員B職員C職員D職員E職員F職員G月薪(元)60004000170013001200110011001100500第48頁,共106頁,2023年,2月20日,星期三我們有三種方法選擇集中趨勢:(1)根據(jù)頻數(shù):哪個(gè)變量值出現(xiàn)次數(shù)越多,就選擇哪個(gè)變量值,比如民主決策的表決機(jī)制。(2)根據(jù)居中:比如一個(gè)城鎮(zhèn)居民的生活水平,居中的是小康家庭,那么就用小康家庭來代表該城鎮(zhèn)的生活水平。(3)根據(jù)平均:用平均數(shù)來代表變量的平均水平。第49頁,共106頁,2023年,2月20日,星期三關(guān)于集中趨勢的一個(gè)故事吉斯莫先生有一個(gè)小工廠,生產(chǎn)超級(jí)小玩意兒。

管理人員由吉斯莫先生、他的弟弟、六個(gè)親戚組成。工作人員由5個(gè)領(lǐng)工和10個(gè)工人組成。工廠經(jīng)營得很順利,現(xiàn)在需要一個(gè)新工人?,F(xiàn)在吉斯莫先生正在接見薩姆,談工作問題。第50頁,共106頁,2023年,2月20日,星期三吉斯莫:我們這里報(bào)酬不錯(cuò)。平均薪金是每周300美元。你在學(xué)徒期間每周得75美元,不過很快就可以加工資。薩姆工作了幾天之后,要求見廠長。薩姆;你欺騙我!我已經(jīng)找其他工人核對(duì)過了,沒有一個(gè)人的工資超過每周100元。平均工資怎么可能是一周300元呢?吉斯莫:啊,薩姆,不要激動(dòng)。平均工資是300元。我要向你證明這一點(diǎn)。第51頁,共106頁,2023年,2月20日,星期三吉斯莫:這是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六個(gè)親戚每人得250元,五個(gè)領(lǐng)工每人得200元,10個(gè)工人每人100元??偣彩敲恐?900元,付給23個(gè)人,對(duì)吧?薩姆:對(duì),對(duì),對(duì)!你是對(duì)的,平均工資是每周300元。可你還是蒙騙了我。吉斯莫;我不同意!你實(shí)在是不明白。我已經(jīng)把工資列了個(gè)表,并告訴了你,工資的中位數(shù)是200元,可這不是平均工資,而是中等工資。第52頁,共106頁,2023年,2月20日,星期三薩姆:每周100元又是怎么回事呢?吉斯莫:那稱為眾數(shù),是大多數(shù)人掙的工資。吉斯莫:老弟,你的問題是出在你不懂平均數(shù)、中位數(shù)和眾數(shù)之間的區(qū)別。薩姆:好,現(xiàn)在我可懂了。我……我辭職!第53頁,共106頁,2023年,2月20日,星期三1.算術(shù)平均數(shù)(MEAN)

用總體標(biāo)志總量除以總體單位數(shù)即得算術(shù)平均數(shù)(Arithematicmean)。

算術(shù)平均數(shù)是反映集中趨勢最常用、最基本的平均指標(biāo),也被稱為均值。它只適用于定距以上的變量。第54頁,共106頁,2023年,2月20日,星期三例:某小區(qū)350戶家庭共有居民1190人。在這個(gè)例子中,家庭總數(shù)350戶是總體單位數(shù),居民總數(shù)1190人是該總體的標(biāo)志總量。根據(jù)算術(shù)平均數(shù)的定義

戶均人口==3.4(人)

第55頁,共106頁,2023年,2月20日,星期三

1.對(duì)于未分組資料

注意:對(duì)求和符號(hào),此時(shí)流動(dòng)腳標(biāo)的變動(dòng)范圍是1,2,3,…,N,N是總體單位數(shù)。

[例]求74、85、69、9l、87、74、69這些數(shù)字的算術(shù)平均數(shù)。

[解]

==78.4

第56頁,共106頁,2023年,2月20日,星期三

2.對(duì)于分組資料

注意:對(duì)求和符號(hào),此時(shí)流動(dòng)腳標(biāo)的變動(dòng)范圍是1,2,3…,n,n是組數(shù),而不是總體單位數(shù)。很顯然,算術(shù)平均數(shù)不僅受各變量值(X)大小的影響,而且受各組單位數(shù)(頻數(shù))的影響。由于對(duì)于總體的影響要由頻數(shù)(f)大小所決定,所以f也被稱為權(quán)數(shù)。值得注意的是,在統(tǒng)計(jì)計(jì)算中,權(quán)數(shù)不僅用來衡量總體中各標(biāo)志值在總體中作用,同時(shí)反映了指標(biāo)的結(jié)構(gòu),所以它有兩種表現(xiàn)形式:絕對(duì)數(shù)(頻數(shù))和相對(duì)數(shù)(頻率)。這樣一來,在統(tǒng)計(jì)學(xué)中,凡對(duì)應(yīng)于分組資料的計(jì)算式,都被稱為加權(quán)式。第57頁,共106頁,2023年,2月20日,星期三

[例]求下表(單項(xiàng)數(shù)列)所示數(shù)據(jù)的算術(shù)平均數(shù)。人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計(jì)501.00第58頁,共106頁,2023年,2月20日,星期三對(duì)于組距數(shù)列,要用每一組的組中值權(quán)充該組統(tǒng)一的變量值。

[例]求下表所示數(shù)據(jù)的的算術(shù)平均數(shù)間距頻數(shù)(f)組中值(X)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―19612510192517125301150154158162166170174178182186190194合計(jì)100

——第59頁,共106頁,2023年,2月20日,星期三3.算術(shù)平均數(shù)的性質(zhì)各變量值與算術(shù)平均數(shù)的離差之和等于0。各變量值對(duì)算術(shù)平均數(shù)的平方和,小于它們對(duì)任何他數(shù)偏差的平方和算術(shù)平均數(shù)受抽樣變動(dòng)影響較小。分組資料如遇有開放組距時(shí),不經(jīng)特殊處理不能進(jìn)行算術(shù)平均數(shù)的計(jì)算。受極端值影響較大。第60頁,共106頁,2023年,2月20日,星期三2.中位數(shù)(Median)把總體單位某一數(shù)量標(biāo)志的各個(gè)數(shù)值按大小順序排列,位于正中處的變量值,即為中位數(shù),用Md表示。Md可用于定序、定距、定比資料。第61頁,共106頁,2023年,2月20日,星期三1.對(duì)未分組資料

(1)、先把所有數(shù)據(jù)按大小順序排列,如果總體單位數(shù)為奇數(shù),則取第(N+1)/2位上的變量值為中位數(shù);(2)、如果總體單位數(shù)為偶數(shù)。因?yàn)榫又械臄?shù)值不存在,按慣例,取第N/2位和第(N+1)/2位上的兩個(gè)變量值的平均作為中位數(shù)。第62頁,共106頁,2023年,2月20日,星期三例求54,65,78,66,43這些數(shù)字的中位數(shù)。例、求54,65,78,66,43,38這些數(shù)字的中位數(shù)。你會(huì)嗎?第63頁,共106頁,2023年,2月20日,星期三

2.對(duì)于分組資料(1)單項(xiàng)數(shù)列根據(jù)N/2在累計(jì)頻數(shù)分布中找到中位數(shù)所在組,該組變量值就是Md

。中位數(shù)第64頁,共106頁,2023年,2月20日,星期三(2)組距數(shù)列

按中位數(shù)所在組的下限:

按中位數(shù)所在組的上限:

當(dāng)根據(jù)組距數(shù)列求中位數(shù)時(shí),要采用所謂的比例插值法:先根據(jù)N/2在累計(jì)頻數(shù)分布中找到中位數(shù)所在組,然后假定該組中各變量值是均勻分布的,再用以下任何一種方法求出中位數(shù)(注意:此處用的是向上累計(jì))。第65頁,共106頁,2023年,2月20日,星期三

[例]某年級(jí)學(xué)生身高如下,求中位數(shù)第66頁,共106頁,2023年,2月20日,星期三

[解]第一種方法

=168+×6

=171.12(厘米)請你用第二種方法來做一下第67頁,共106頁,2023年,2月20日,星期三3.中位數(shù)的性質(zhì)(1)各變量值對(duì)中位數(shù)之差的絕對(duì)值總和,小于它們對(duì)任何其他數(shù)的絕對(duì)值總和。(2)中位數(shù)不受極端值的影響。(3)分組資料有不確定組距時(shí),仍可求得中位數(shù)。(4)中位數(shù)受抽樣變動(dòng)的影響較算術(shù)平均數(shù)略大。第68頁,共106頁,2023年,2月20日,星期三

4.四分位數(shù)

中位數(shù)所有單位被等分為兩部分,因而被稱為二分位數(shù)。類似于求中位數(shù),我們還可求出四分位數(shù)、十分位數(shù)、百分位數(shù)。將總體中的各單位分割成相等的四部分,則這三個(gè)分割的變量值就是四分位數(shù)。若以Q1、Q2、Q3分別代表第一、第二、第三四分位數(shù)。Q2

即中位數(shù),Q1、Q3的算法分別是第69頁,共106頁,2023年,2月20日,星期三請從下表中指出第一四分位數(shù)和第三四分位數(shù)第70頁,共106頁,2023年,2月20日,星期三求出下表中的第一四分位數(shù)和第三四分?jǐn)?shù)第71頁,共106頁,2023年,2月20日,星期三3、眾數(shù)(Mode)

眾數(shù)是在一組資料中,出現(xiàn)次數(shù)(或頻數(shù))呈現(xiàn)出“峰”值的那些變量值,用Mo表示。

眾數(shù)只與次數(shù)有關(guān),可以用于定類、定序、定距、定比資料。第72頁,共106頁,2023年,2月20日,星期三

1.對(duì)于未分組資料

直接觀察首先,將所有數(shù)據(jù)順序排列;然后,只要觀察到某些變量值(與相鄰變量值相比較)出現(xiàn)的次數(shù)(或頻數(shù))呈現(xiàn)“峰”值,這些變量值就是眾數(shù)。第73頁,共106頁,2023年,2月20日,星期三

2.對(duì)于分組資料

單項(xiàng)式:觀察頻數(shù)分布(或頻率分布)

組距式:Lo為眾數(shù)組下限;Δ1為眾數(shù)組頻數(shù)與前一組頻數(shù)之差;Δ2為眾數(shù)組頻數(shù)與后一組頻數(shù)之差;

ho為眾數(shù)組組距。第74頁,共106頁,2023年,2月20日,星期三人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410.100.160.320.200.120.080.02合計(jì)501.00求下表中的眾數(shù)眾數(shù)第75頁,共106頁,2023年,2月20日,星期三求下表中的眾數(shù)第76頁,共106頁,2023年,2月20日,星期三

(1)眾數(shù)僅受上下相鄰兩組頻數(shù)大小的影響,不受極端值影響,對(duì)開口組仍可計(jì)算眾數(shù);

(2)受抽樣變動(dòng)影響大;

(3)眾數(shù)不唯一確定。

(4)眾數(shù)標(biāo)示為其峰值所對(duì)應(yīng)的變量值,能很容易區(qū)分出單峰、多峰。因而具有明顯偏態(tài)集中趨勢的頻數(shù)分布,用眾數(shù)最合適。3.眾數(shù)的性質(zhì)第77頁,共106頁,2023年,2月20日,星期三4、幾何平均數(shù)、調(diào)和平均數(shù)(了解)

1.

幾何平均數(shù)Mg

(geometricmean

N個(gè)變量值連乘積的N次方根。(不能有變量值為0)。適用于:(1)計(jì)算某種比率的平均數(shù);(2)計(jì)算大致具有幾何級(jí)數(shù)關(guān)系的一組數(shù)字的平均數(shù),如經(jīng)濟(jì)指標(biāo)的平均發(fā)展速度。

(1)簡單幾何平均數(shù)對(duì)數(shù)式:第78頁,共106頁,2023年,2月20日,星期三(2)加權(quán)幾何平均數(shù)

對(duì)數(shù)式:

應(yīng)該指出,用以計(jì)算幾何平均數(shù)的各項(xiàng)數(shù)值必須大于0,否則就不能計(jì)算幾何平均數(shù)或計(jì)算結(jié)果無實(shí)際意義。

第79頁,共106頁,2023年,2月20日,星期三

[例]求3,9,27,81,243這些數(shù)字的幾何平均數(shù)。

[解]

(1)(2)第80頁,共106頁,2023年,2月20日,星期三

2.調(diào)和平均數(shù)Mh

(harmonicmean)N個(gè)變量值倒數(shù)算術(shù)平均數(shù)的倒數(shù),也稱倒數(shù)平均數(shù)。適用于:掌握的情況是總體標(biāo)志總量而缺少總體單位數(shù)的資料時(shí)。簡單調(diào)和平均數(shù)加權(quán)調(diào)和平均數(shù)第81頁,共106頁,2023年,2月20日,星期三3.各種平均數(shù)的關(guān)系(1)當(dāng)總體呈正態(tài)分布時(shí):(2)當(dāng)總體呈偏態(tài)分布時(shí):中位數(shù)總在均數(shù)和眾數(shù)之間正偏:負(fù)偏:(注:和合稱位置平均數(shù))(3)皮爾遜發(fā)現(xiàn),在鐘形分布的偏態(tài)不大顯著時(shí),、、三者大致構(gòu)成一個(gè)比較固定的關(guān)系:(4)、和合稱數(shù)值平均數(shù)第82頁,共106頁,2023年,2月20日,星期三第83頁,共106頁,2023年,2月20日,星期三第四節(jié)離散趨勢測量法

主要內(nèi)容:(1)變異指標(biāo);(2)全距和四分位差;(3)平均差、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)分;(4)絕對(duì)離勢和相對(duì)離勢;(5)偏度(及峰度)。

第84頁,共106頁,2023年,2月20日,星期三所謂離散趨勢,是指數(shù)列中各變量值之間的差距和離散程度。離勢小,平均數(shù)的代表性高;離勢大,平均數(shù)代表性低。

例如有A、B、C、D四組學(xué)生各5人的成績?nèi)缦拢?/p>

A組:60,60,60,60,60

B組:58,59,60,61,62

C組:40,50,60,70,80

D組:80,80,80,80,80

數(shù)據(jù)顯示,平均數(shù)相同,離勢可能不同;平均數(shù)不同,離勢可能相同。第85頁,共106頁,2023年,2月20日,星期三變異指標(biāo)如按數(shù)量關(guān)系來分有以下兩類;凡用絕對(duì)數(shù)來表達(dá)的變異指標(biāo),統(tǒng)稱絕對(duì)離勢;凡用相對(duì)數(shù)來表達(dá)的變異指標(biāo),統(tǒng)稱相對(duì)離勢;主要有極差、平均差、四分位差、標(biāo)準(zhǔn)差等。主要有異眾比率、標(biāo)準(zhǔn)差系數(shù)、平均差系數(shù)和一些常用的偏態(tài)系數(shù)。

變異指標(biāo)用以反映總體各單位標(biāo)志值的變動(dòng)范圍或參差程度,與平均指標(biāo)相對(duì)應(yīng),從另一個(gè)側(cè)面反映了總體的特征。

第86頁,共106頁,2023年,2月20日,星期三1、全距與四分位差1.全距(Range)

R=Xmax–Xmin

[例]求74,84,69,91,87,74,69這些數(shù)字的全距。

[解]把數(shù)字按順序重新排列:69,69,74,74,84,87,91,顯然有

R=Xmax–Xmin

=91—69=22全距(R):最大值和最小值之差。也叫極差。全距越大,表示變動(dòng)越大。第87頁,共106頁,2023年,2月20日,星期三運(yùn)用上述方法計(jì)算左邊數(shù)列的全距對(duì)分組資料,不能確知最大值和最小值,求全距:(1)用組值最大組的組中值減去最小組的組中值(2)用組值最大組的上限減去最小組的下限(3)用組值最大組的組中值減去最小組的下限;或最大組的上限減去最小組的組中值第88頁,共106頁,2023年,2月20日,星期三優(yōu)點(diǎn):缺點(diǎn):計(jì)算簡單、直觀。(1)受極端值影響大;(2)沒有量度中間各個(gè)單位間的差異性,數(shù)據(jù)利用率低,信息喪失嚴(yán)重;(3)受抽樣變動(dòng)影響大,大樣本全距比小樣本全距大。第89頁,共106頁,2023年,2月20日,星期三2.四分位差(Quartiledeviation)

第三四分位數(shù)和第一四分位數(shù)的半距。避免全距受極端值影響大的缺點(diǎn)。求下列兩組成績的四分位差:A:788082858987908679888481B:5568788899100989085838481請大家計(jì)算一下,看能否算對(duì)第90頁,共106頁,2023年,2月20日,星期三2、平均差(Meanabsolutedeviation)

要測定變量值的離中趨勢,尤其是要測定各變量值相對(duì)于平均數(shù)的差異情況,一個(gè)很自然的想法就是計(jì)算各變量值與算術(shù)平均數(shù)的離差。平均差是離差絕對(duì)值的算術(shù)平均數(shù)。

1.對(duì)于未分組資料

2.對(duì)于分組資料

3.平均差的性質(zhì)

在受抽樣變動(dòng)、極端值影響,處理不確定組距方面均同于算術(shù)平均數(shù);不適于代數(shù)運(yùn)算,其理論意義不易闡述。第91頁,共106頁,2023年,2月20日,星期三

[例1]試分別以算術(shù)平均數(shù)為基準(zhǔn),求85,69,69,74,87,91,74這些數(shù)字的平均差。

[例2]試以算術(shù)平均數(shù)為基準(zhǔn),求下表所示數(shù)據(jù)的平均差。

計(jì)算左邊數(shù)列的平均差第92頁,共106頁,2023年,2月20日,星期三3、標(biāo)準(zhǔn)差(standarddeviation)

各變量值對(duì)其算術(shù)平均數(shù)的離差平方的算術(shù)平均數(shù)的平方根,均方差,又稱用S表示。

即克服平均差帶有絕對(duì)值的缺點(diǎn),又保留其綜合平均的優(yōu)點(diǎn)。1.對(duì)于未分組資科

第93頁,共106頁,2023年,2月20日,星期三

求72、81、86、69、57這些數(shù)字的標(biāo)準(zhǔn)差。第94頁,共106頁,2023年,2月20日,星期三2.對(duì)于分組資料

計(jì)算左邊數(shù)列的標(biāo)準(zhǔn)差第95頁,共106頁,2023年,2月20日,星期三

計(jì)算左邊數(shù)列的標(biāo)準(zhǔn)差

[例]調(diào)查大一男生60人的身高情況如下表所示,求他們身高的標(biāo)準(zhǔn)差。第96頁,共106頁,2023年,2月20日,星期三

[解]因?yàn)槭欠纸M資料,計(jì)算標(biāo)準(zhǔn)差運(yùn)用加權(quán)式,并參見下表第97頁,共106頁,2023年,2月20日,星期三

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論