人大統計學第四章-數據描述_第1頁
人大統計學第四章-數據描述_第2頁
人大統計學第四章-數據描述_第3頁
人大統計學第四章-數據描述_第4頁
人大統計學第四章-數據描述_第5頁
已閱讀5頁,還剩61頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統學第四章 數據的描述2——重要的統計量第四章數據的描述2---重要的統計量§1集中趨勢的描述§2離散趨勢的描述§3偏態與峰度的描述§4數據的標準化處理1集中趨勢的描述集中趨勢是指一組數據向某中心值靠攏的傾向,是描述數據分布的一個重要特征。集中趨勢的測度實際是對一組數據的一般水平代表值或中心值的測度。1集中趨勢的描述§1.1均值§1.2中位數§1.3眾數§1.4均值、中位數、眾數之間的比較均值(Mean)又稱平均數,是一組數據大小相互抵消的結果,可以看作是數據集的重心。是最主要的集中趨勢測度統計量。適用于定量變量的取值,一般用符號

x

表示。1.算術平均數分組整理的原始數據,其算術平均(arithmeticmean)的計算就是直接將一組數據的各個數值相加除以數值個數,稱為簡單算術平均數。1設一組樣本數據為

x

、x2、、xn

,則算術平均數的計算公式為:nx

nnx1

x2

xn

i1

xi根據分組整理的數據計算的算術平均數,要以各組變量值出現的次數或頻數為權數計算

算術平均數。假設樣本數據被分成組,樣本數據各組變量的代表值用m1、m2、…、mk

表示,各組變量值出現的頻數用f1、f2、…、fk

,則

算術平均數的計算公式為:1

1

2

21kk2

km

f

m

f

m

f

k k

i1

x

f

f

fmi

fi

fii1如果是單變量分組,上式中的代表值就是各組的分組變量值;如果是組距分組,上式中的代表值就是各組的組中值。算術平均數其數值的大小,不僅受各組變量值大小的影響,而且受各組變量值出現的頻數即權數大小的影響。kki1

i

kik

i1

f

fii1x

xi

fi

fii1x算術平均數的數學性質:性質1

各變量值與其算術平均數的離差之和等于零,即:性質2

各變量值與其算術平均數的離差平方和最小,即:n(

xi

x

)

0i1或k(

xi

x

)

fi

0i1nii1(

x

x

)2

最小值

或2ki

i(

x

x

)

f

i1最小值【例4.1】根據表中給出的某項,計算其平均收入水平:中30名被訪者的月收入水平分組數據解:55x

i1

101000

3366.67

(元)30

xi

fi

fii1所以30名被訪者的平均月收入水平是3366.67元。2.調和平均數調和平均數(harmonic

mean)也稱倒數平均數或調和均值。有簡單和兩種形式。簡單調和平均數是各個變量值倒數的簡單算術平均數的倒數。主要應用于各變量值對應的標志總量相等的情況。當變量值用xi表示時,其計算公式如下:Hnnx1

x2

x1

1

1M

1

1

1當各變量值對應的標志總量不相等時,用Mi表示各單位或各組的變量值對應的標志總量,其計算公式如下:nMHMix1

x2xkxi

M

M

M

M

1

M

2 1

2n

i1

Mn

Mini1【例4.2】根據某

交易所信息,已知四只 某日的收盤價和成交額如表所示,計算這四只

的當日平均收盤價格。解:44

i1

Mix1

x2

x3

x4i1864891MH

Mi4xiM

M

M

M

7460000 1

2

31

2

3M

M

M

M

4

8.63(元)所以4只的當日平均收盤價是8.63元。3.幾何平均數幾何平均數(geometric

mean)也稱幾何均值,通常用來計算平均比率和平均速度。計算公式為:幾何平均數也可看作是算術平均數的一種變形nMG

n

x1

x2

xn

n

xii1【例4.3】某投資者長期持有一只,2005-2008年每年的收益率分別是5.6%,7.2%,28.5%,-15.6%。計算該

投資者4年內的平均收益率。解:根據四年的平均收益率可得到其四年的相對價格分別是105.6%,107.2%,128.5%,84.4%。計算四年平均相對價格四年的平均收益率是105.26%-1=5.26%。4nn

M

x

105.6%

107.2%

128.5%

84.4%

G

ii1105.26%4.均值的特點:均值一般用于尋找定量數據的中心代表值,并不適用于定性數據。均值的優點在于它對變量的每一個取值都加以利用。均值的缺點在于其統計量的穩健性較差,即容易受到值的干擾?!?.2中位數中位數(median)是將變量取值按大小順序排列后,處于中間位置的那個變量值。適用于定量變量,以及定性變量中的順序變量取值的集中趨勢測度。不適用于定性變量中的分類變量取值。一般用Me表示。1.中位數的確定單算術平均數即為中位數。22變量的取值數據規模較小時,將數據按大小排列。當數據個數N為奇數時,處在N

1

位置上的變量取值大小即為改2組數據的中位數;當數據個數N為偶數時,處在

N

和N

1

位置上兩個變量取值的簡22當N為奇數時當N為偶數時

X

N

1

Me

1

X

N

X

N

2

12

如果是單變量分組,可以該組標志值作為中位數。如果是組距分組,則采用如下公式近似計算得到計算公式下限公式:上限公式:2當變量的取值數據規模較大時,將數據按單變量分組或組距分組,得到頻數分布。對頻數分布做向上累計或向下累計:當

f

為偶數時,第

f

個變量值所在的組為中位數所在的組。2當

f

為奇數時,第

f

1

個變量值所在的組為中位數所在的組。2emM

L

f

Sm1

i

f

f2emM

U

f

Sm1

i【例4.4】給出的某項

中30名被訪者的月收入水平分組數據,得到累積頻數分布表,計算其中位數。解:2

f

15L

3000fm

13U

4000i

1000Sm1

3

7

10

Sm1

2

5

7對應的收入水平是,3000-4000元,因此該組就是中位數所在組,有2em

fM

L

f

Sm1

i

(元)2emfM

f

Sm1

i

(元)因此,30名被訪者的月收入水平的中位數是3384.6元。2.根據統計圖來尋找中位數對于處理成莖葉圖的數據:首先找到頻數一半所對應的那段莖。然后在對應的葉上找處在全部數據中間位置上的數即可。例:100名員有效問卷數分布的莖葉圖如果圖形中沒有原始數據,例如直方圖。1090420100名員的有效問卷數分布直方圖假設數據在中位數所在區間組均勻分布,全部100名員的中位數說對應的位置應當是50.5。通過圖中觀察在140-150組之前的累積頻數是42,只需要在140-150之間找到第8.5位置上所對應的數。由于假設140-150間這18個數是均勻分布的,而這段區間的長時10,因此區間上第8.5位置上的數應當是

。即中位數是144.718140

8.5

10

144.73.中位數的特點中位數很好的代表了一組數據的中間位置。當直方圖顯示數據時一個有偏分布時。中位數具有較好的穩健性,對

值并不敏感。中位數并沒有利用數據的所有信息,其對原始數據信息的代表性不如均值?!?

3眾數眾數(mode)是指一組數據中出現次數最多的變量值,主要用于測度分類數據的集中趨勢。一組數據分布的最

點所對應的變量值即為眾數。具有不唯一性,用M0表示。1.定性變量的眾數確定根據分類變量和順序變量的不同取值得到頻數分布,確定眾數時,只需找出頻數出現最多所對應的變量取值即為眾數。例:通過觀察頻數分布表,可以直

到受教育水平為高中的頻數最大。因此對于3000名被

者受教育水平來說,眾數就是高中學歷。2.定量變量的眾數確定對于離散型變量的取值,計算眾數時,只需找出出現次數最多的變量取值即為眾數?!纠?.5】根據表中35名

員的有效問卷頻數分布資料,確定眾數。解:根據表中所示,問卷數為145份所對應的人數是4人,高于其他所有問卷數對應的人數。因此35名

員有效問卷的眾數是145份。對于連續性變量的取值,首先根據組距分組得到頻數分布。對于等距分組,對應頻數最大的組為眾數所在組;對于不等距分組,對應頻數密度最大的組為眾數組。設眾數組的頻數為

fm

,眾數前一組的頻數為

f

1

,眾數后一組的頻數為

f

1。假定數據在眾數組均勻分布,眾數與其相鄰兩組的頻數分布有如下關系:下限公式:上限公式:1Mo

L

(

fm

f1

)

(

fmfm

f1om1M

U

(

fm

f1

)

(

f

f

)

i§1.3眾數34L

3000U

4000fm1

7fm1

5fm

13i

1000者月收入水平【例4.6】根據例4.4,確定表4.3中30名被的眾數。解:首先確定眾數組是3000-40000元組,因此Mo

L

(

f

fm

Mo

U

(

f

fm因此,30名被訪者的月收入水平的眾數是3428.6元。3.眾數的特點眾數根據眾數組及相鄰組的頻率分布信息來確定數據中心點位置的。眾數是一個位置代表值,它不受數據中

值的影響。對原數據信息的代表性也不如均值。只有在數據量較多時才有意義。§1.4均值中位數、眾數之間的比較從分布的角度看:均值是一組數據全部數值的平均數。中位數是處于一組數據中間位置上的數值。眾數始終是一組數據分布的最

值。對于具有單峰分布的大多數數據而言,均值、中位數、眾數存在以下關系:(1)當變量取值的頻數分布對稱時,則均值與眾數、中位數三者完全相等,即x

Mex

Me

Mo正態分布1.4均值、中位數、眾數之間的比較(2)當變量取值的頻數分布呈現右偏時,說明數據存在最大值,必然拉動均值向極大值一方靠,而眾數和中位數由于不受 值的影響,因此,三者之間的關系為x

Me

MoM0

Me

x右偏分布1.4均值、中位數、眾數之間的比較(3)當變量取值的頻數分布呈現左偏時,說明數據存在最小值,必然拉動均值向極小值一方靠,而眾數和中位數由于不受 值的影響,因此,三者之間的關系為x

Me

Mo

。x

Me

M0左偏分布1.4均值、中位數、眾數之間的比較當頻數分布呈對稱分布或近似對稱分布時,以均值、中位數或眾數來描述數據的集中趨勢都比較理想;當頻數分布呈偏態時,

值會對均值產生較大影響,而對眾數、中位數沒有影響,此時,用眾數、中位數來描述集中趨勢比較好。根據經驗,頻數分布無論是左偏還是右偏,眾數與中位數的距離約為算術平均數與中位數的距離的兩倍,即:Me

Mo

x

MeMo

x

3(x

Me

)

3Me

2x2離散趨勢的描述§2.1異眾比率§2.2極差和四分位差§2.3平均差、方差和標準差§2.4離散系數2

1異眾比率異眾比率(variation

ratio)是指一組數據中非眾數(組)的頻數占總頻數的比例。既適用于定性數據,也適用于定量數據,但主要用于測度分類數據的離散趨勢。用Vr表示。計算公式是:異眾比率的作用是衡量眾數對一組數據的代表性程度的指標。異眾比率越大,說明非眾數組的頻數占總頻數的就越大,眾數的代表性就越差;反之,異眾比率越小,眾數的代表性就越好。i

mmri

i

f

1

f

fV

f

f1.極差級差(range)是一組數據的最大值與最小值之差,也稱全距。級差主要用于測度順序數據和定量數據的離散趨勢。用R表示。級差是最容易計算的離散趨勢的測度統計量。但它容易受值的影響。計算公式是:R

max(xi【例4.8】根據表4.5中35名

員的有效問卷數分組表計算極差。R

max(

xi

)

min(

xi

)

148

131

172.四分位差四分位數是指一組數據按大小排序后處于25%和75%位置上的值,也稱四分位點。通常所說的四分位數是指:處在25%位置上的數值(下四分位數)處在75%位置上的數值(上四分位數)。記下四分位數為QL

,上四分位數為QU其計算公式是當四分位數的位置不是整數時,按比例分攤四分位數兩側的差值。QL

Xn14

X

3(n1)4QU【例4.8】在某城市隨機抽取9個家庭,

得到每個家庭的人均月收入數據(單位:元)分別是1450,950,820,860,1060,900,1280,1040,1700。要求計算這九個家庭人均月收入水平的四分位數。解:將數據由小到大按順序排列:820,860,900,950,1040,1060,1280,1450,1700。QL

Xn1

X2.54

X

3(n1)

X7.54QU由于2.5處于順序為2和3的兩個數中間,因此按比例分攤兩端的差值,即:QL

860

(900

860)*0.5

880

X2.5

X7.5同理,

1280

(1450

1280)*

0.5

1365QU內距或四分間距(inter-quartile

range):四分位差是上四分位數與下四分位數之差,用Qd表示計算公式為:克服了級差容易受數據中兩端極值的影響這一缺陷。

QU

QL1.平均差平均差(mean

deviation)是一組數據與其均值離差絕對值的平均數。用Md表示。據掌握資料的不同,有兩種計算方法。對于未分組數據,采用簡單平均法,其計算公式是:對于分組數據,采用nn平均法,其計算公式是:Md

x

i1

xikMdk

x

fi

i1

xi

fii1【例4.9】根據表中給出的某項,計算其平均差。中30名被訪者的月收入水平分組數據解:平均差能夠準確地、全面地反映一組數值的離散趨勢。平均差用絕對值進行運算,不適宜于代數形式處理,在實際應用上受到很大的限制。22333.3

777.78(元)30kMdk

x

fi

i1

xi

fii12.方差和標準差方差(variance)是一組數據與其均值離差平方的算術平均數。標準差(standard

deviation)是方差的平方根。方差、標準差是實際中應用最廣泛的離散趨勢度量值。設總體的方差為

2

,標準差為

。對于分組數據,方差和標準差的計算公式分別是:對于未分組的數據,方差和標準差的計算公式分別是:N

iN

2

i1

(

X

X

)2NN(

X

X

)2

ii1

K

2K

2

i1

(

Xi

X

)

Fi

Fii1Ki

iKi1(

X

X

)2

F

Fii1

總體的方差和標準差在對各個離差平方平均時是除以數據個數或總頻數。樣本的方差和標準差在對各個離差平方平均時是用樣本數據個數度)去除總離差平方和。設樣本的方差為s2,或總頻數減1(稱為標準差為

s

。對于未分組的數據,方差和標準差的計算公式為:對于分組數據,方差和標準差的計算公式為:22n

i1

n

1(

xi

x

)s

2n(x

x

)n

1

ii1s

2

1kk(

x

x

)

fs2

i1

i

i

fii12kik(

x

x

)

f

1

ii1

fii1s【例4.10】根據表中給出的某項據,計算其方差和標準差。中30名被訪者的月收入水平分組數解:方差222770000730

1

955172.65

1ki

ik(

x

x

)

f

i1

s

fii1標準差s

955172.65

977.33(元)§2.4離散系數離散系數(coefficient

of

variation)是一組數據的標準差與其均值之比,又稱變異系數。用Vs表示。主要用于比較不同樣本數據的離散程度。s計算公式是:

Vs

x2

4離散系數【例4.11】甲乙兩地的個人收入

中,甲地的人均月收入是6520元,標準差是1640元;乙地的人均月收入是5800歲,標準差是1300元。比較甲乙兩地人均月收入的差異程度。解:由得到由于Vs甲

Vs乙,因此甲地的人均月收入差異程度大于乙地。由

x

6520

得到甲甲s

1640

Vx

6520

1640

0.254s甲

s甲甲x

6520乙s

1640乙x

5800

1300

0.224

s乙Vs乙乙3偏態與峰度的描述§3.1矩的概念§3.2偏態§3.3峰度3.1矩的概念階矩。其公式表示是:時,上式一階原點矩是kin(

xi

a)

f變量X

的樣本觀測值與a

之差k

次方的平均數稱為變量X

關于a

的kn

i1

fii1當a

0時,上式稱為

k

階原點矩,用字母M表示。當

a

稱為k

階中心矩,用字母m表示。1nnx

f

i1

i

i

fii1M22即均值,二階中心矩是

m

n

i1

n(x

x

)

f

i

i

fii1§3

2偏態偏態(skewness)是對數據分布對稱性的側度。偏態系數用SK表示。偏態系數采用矩進行計算。3ni

i(

x

x

)

f

i1

im

3計算公式是:

SK

3fn

3

i13.2偏態當分布對稱時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論