




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統學第四章 數據的描述2——重要的統計量第四章數據的描述2---重要的統計量§1集中趨勢的描述§2離散趨勢的描述§3偏態與峰度的描述§4數據的標準化處理1集中趨勢的描述集中趨勢是指一組數據向某中心值靠攏的傾向,是描述數據分布的一個重要特征。集中趨勢的測度實際是對一組數據的一般水平代表值或中心值的測度。1集中趨勢的描述§1.1均值§1.2中位數§1.3眾數§1.4均值、中位數、眾數之間的比較均值(Mean)又稱平均數,是一組數據大小相互抵消的結果,可以看作是數據集的重心。是最主要的集中趨勢測度統計量。適用于定量變量的取值,一般用符號
x
表示。1.算術平均數分組整理的原始數據,其算術平均(arithmeticmean)的計算就是直接將一組數據的各個數值相加除以數值個數,稱為簡單算術平均數。1設一組樣本數據為
x
、x2、、xn
,則算術平均數的計算公式為:nx
nnx1
x2
xn
i1
xi根據分組整理的數據計算的算術平均數,要以各組變量值出現的次數或頻數為權數計算
算術平均數。假設樣本數據被分成組,樣本數據各組變量的代表值用m1、m2、…、mk
表示,各組變量值出現的頻數用f1、f2、…、fk
,則
算術平均數的計算公式為:1
1
2
21kk2
km
f
m
f
m
f
k k
i1
x
f
f
fmi
fi
fii1如果是單變量分組,上式中的代表值就是各組的分組變量值;如果是組距分組,上式中的代表值就是各組的組中值。算術平均數其數值的大小,不僅受各組變量值大小的影響,而且受各組變量值出現的頻數即權數大小的影響。kki1
i
kik
i1
f
fii1x
xi
fi
fii1x算術平均數的數學性質:性質1
各變量值與其算術平均數的離差之和等于零,即:性質2
各變量值與其算術平均數的離差平方和最小,即:n(
xi
x
)
0i1或k(
xi
x
)
fi
0i1nii1(
x
x
)2
最小值
或2ki
i(
x
x
)
f
i1最小值【例4.1】根據表中給出的某項,計算其平均收入水平:中30名被訪者的月收入水平分組數據解:55x
i1
101000
3366.67
(元)30
xi
fi
fii1所以30名被訪者的平均月收入水平是3366.67元。2.調和平均數調和平均數(harmonic
mean)也稱倒數平均數或調和均值。有簡單和兩種形式。簡單調和平均數是各個變量值倒數的簡單算術平均數的倒數。主要應用于各變量值對應的標志總量相等的情況。當變量值用xi表示時,其計算公式如下:Hnnx1
x2
x1
1
1M
1
1
1當各變量值對應的標志總量不相等時,用Mi表示各單位或各組的變量值對應的標志總量,其計算公式如下:nMHMix1
x2xkxi
M
M
M
M
1
M
2 1
2n
i1
Mn
Mini1【例4.2】根據某
交易所信息,已知四只 某日的收盤價和成交額如表所示,計算這四只
的當日平均收盤價格。解:44
i1
Mix1
x2
x3
x4i1864891MH
Mi4xiM
M
M
M
7460000 1
2
31
2
3M
M
M
M
4
8.63(元)所以4只的當日平均收盤價是8.63元。3.幾何平均數幾何平均數(geometric
mean)也稱幾何均值,通常用來計算平均比率和平均速度。計算公式為:幾何平均數也可看作是算術平均數的一種變形nMG
n
x1
x2
xn
n
xii1【例4.3】某投資者長期持有一只,2005-2008年每年的收益率分別是5.6%,7.2%,28.5%,-15.6%。計算該
投資者4年內的平均收益率。解:根據四年的平均收益率可得到其四年的相對價格分別是105.6%,107.2%,128.5%,84.4%。計算四年平均相對價格四年的平均收益率是105.26%-1=5.26%。4nn
M
x
105.6%
107.2%
128.5%
84.4%
G
ii1105.26%4.均值的特點:均值一般用于尋找定量數據的中心代表值,并不適用于定性數據。均值的優點在于它對變量的每一個取值都加以利用。均值的缺點在于其統計量的穩健性較差,即容易受到值的干擾?!?.2中位數中位數(median)是將變量取值按大小順序排列后,處于中間位置的那個變量值。適用于定量變量,以及定性變量中的順序變量取值的集中趨勢測度。不適用于定性變量中的分類變量取值。一般用Me表示。1.中位數的確定單算術平均數即為中位數。22變量的取值數據規模較小時,將數據按大小排列。當數據個數N為奇數時,處在N
1
位置上的變量取值大小即為改2組數據的中位數;當數據個數N為偶數時,處在
N
和N
1
位置上兩個變量取值的簡22當N為奇數時當N為偶數時
X
N
1
Me
1
X
N
X
N
2
12
如果是單變量分組,可以該組標志值作為中位數。如果是組距分組,則采用如下公式近似計算得到計算公式下限公式:上限公式:2當變量的取值數據規模較大時,將數據按單變量分組或組距分組,得到頻數分布。對頻數分布做向上累計或向下累計:當
f
為偶數時,第
f
個變量值所在的組為中位數所在的組。2當
f
為奇數時,第
f
1
個變量值所在的組為中位數所在的組。2emM
L
f
Sm1
i
f
f2emM
U
f
Sm1
i【例4.4】給出的某項
中30名被訪者的月收入水平分組數據,得到累積頻數分布表,計算其中位數。解:2
f
15L
3000fm
13U
4000i
1000Sm1
3
7
10
Sm1
2
5
7對應的收入水平是,3000-4000元,因此該組就是中位數所在組,有2em
fM
L
f
Sm1
i
(元)2emfM
f
Sm1
i
(元)因此,30名被訪者的月收入水平的中位數是3384.6元。2.根據統計圖來尋找中位數對于處理成莖葉圖的數據:首先找到頻數一半所對應的那段莖。然后在對應的葉上找處在全部數據中間位置上的數即可。例:100名員有效問卷數分布的莖葉圖如果圖形中沒有原始數據,例如直方圖。1090420100名員的有效問卷數分布直方圖假設數據在中位數所在區間組均勻分布,全部100名員的中位數說對應的位置應當是50.5。通過圖中觀察在140-150組之前的累積頻數是42,只需要在140-150之間找到第8.5位置上所對應的數。由于假設140-150間這18個數是均勻分布的,而這段區間的長時10,因此區間上第8.5位置上的數應當是
。即中位數是144.718140
8.5
10
144.73.中位數的特點中位數很好的代表了一組數據的中間位置。當直方圖顯示數據時一個有偏分布時。中位數具有較好的穩健性,對
值并不敏感。中位數并沒有利用數據的所有信息,其對原始數據信息的代表性不如均值?!?
3眾數眾數(mode)是指一組數據中出現次數最多的變量值,主要用于測度分類數據的集中趨勢。一組數據分布的最
點所對應的變量值即為眾數。具有不唯一性,用M0表示。1.定性變量的眾數確定根據分類變量和順序變量的不同取值得到頻數分布,確定眾數時,只需找出頻數出現最多所對應的變量取值即為眾數。例:通過觀察頻數分布表,可以直
到受教育水平為高中的頻數最大。因此對于3000名被
者受教育水平來說,眾數就是高中學歷。2.定量變量的眾數確定對于離散型變量的取值,計算眾數時,只需找出出現次數最多的變量取值即為眾數?!纠?.5】根據表中35名
員的有效問卷頻數分布資料,確定眾數。解:根據表中所示,問卷數為145份所對應的人數是4人,高于其他所有問卷數對應的人數。因此35名
員有效問卷的眾數是145份。對于連續性變量的取值,首先根據組距分組得到頻數分布。對于等距分組,對應頻數最大的組為眾數所在組;對于不等距分組,對應頻數密度最大的組為眾數組。設眾數組的頻數為
fm
,眾數前一組的頻數為
f
1
,眾數后一組的頻數為
f
1。假定數據在眾數組均勻分布,眾數與其相鄰兩組的頻數分布有如下關系:下限公式:上限公式:1Mo
L
(
fm
f1
)
(
fmfm
f1om1M
U
(
fm
f1
)
(
f
f
)
i§1.3眾數34L
3000U
4000fm1
7fm1
5fm
13i
1000者月收入水平【例4.6】根據例4.4,確定表4.3中30名被的眾數。解:首先確定眾數組是3000-40000元組,因此Mo
L
(
f
fm
Mo
U
(
f
fm因此,30名被訪者的月收入水平的眾數是3428.6元。3.眾數的特點眾數根據眾數組及相鄰組的頻率分布信息來確定數據中心點位置的。眾數是一個位置代表值,它不受數據中
值的影響。對原數據信息的代表性也不如均值。只有在數據量較多時才有意義。§1.4均值中位數、眾數之間的比較從分布的角度看:均值是一組數據全部數值的平均數。中位數是處于一組數據中間位置上的數值。眾數始終是一組數據分布的最
值。對于具有單峰分布的大多數數據而言,均值、中位數、眾數存在以下關系:(1)當變量取值的頻數分布對稱時,則均值與眾數、中位數三者完全相等,即x
Mex
Me
Mo正態分布1.4均值、中位數、眾數之間的比較(2)當變量取值的頻數分布呈現右偏時,說明數據存在最大值,必然拉動均值向極大值一方靠,而眾數和中位數由于不受 值的影響,因此,三者之間的關系為x
Me
MoM0
Me
x右偏分布1.4均值、中位數、眾數之間的比較(3)當變量取值的頻數分布呈現左偏時,說明數據存在最小值,必然拉動均值向極小值一方靠,而眾數和中位數由于不受 值的影響,因此,三者之間的關系為x
Me
Mo
。x
Me
M0左偏分布1.4均值、中位數、眾數之間的比較當頻數分布呈對稱分布或近似對稱分布時,以均值、中位數或眾數來描述數據的集中趨勢都比較理想;當頻數分布呈偏態時,
值會對均值產生較大影響,而對眾數、中位數沒有影響,此時,用眾數、中位數來描述集中趨勢比較好。根據經驗,頻數分布無論是左偏還是右偏,眾數與中位數的距離約為算術平均數與中位數的距離的兩倍,即:Me
Mo
x
MeMo
x
3(x
Me
)
3Me
2x2離散趨勢的描述§2.1異眾比率§2.2極差和四分位差§2.3平均差、方差和標準差§2.4離散系數2
1異眾比率異眾比率(variation
ratio)是指一組數據中非眾數(組)的頻數占總頻數的比例。既適用于定性數據,也適用于定量數據,但主要用于測度分類數據的離散趨勢。用Vr表示。計算公式是:異眾比率的作用是衡量眾數對一組數據的代表性程度的指標。異眾比率越大,說明非眾數組的頻數占總頻數的就越大,眾數的代表性就越差;反之,異眾比率越小,眾數的代表性就越好。i
mmri
i
f
1
f
fV
f
f1.極差級差(range)是一組數據的最大值與最小值之差,也稱全距。級差主要用于測度順序數據和定量數據的離散趨勢。用R表示。級差是最容易計算的離散趨勢的測度統計量。但它容易受值的影響。計算公式是:R
max(xi【例4.8】根據表4.5中35名
員的有效問卷數分組表計算極差。R
max(
xi
)
min(
xi
)
148
131
172.四分位差四分位數是指一組數據按大小排序后處于25%和75%位置上的值,也稱四分位點。通常所說的四分位數是指:處在25%位置上的數值(下四分位數)處在75%位置上的數值(上四分位數)。記下四分位數為QL
,上四分位數為QU其計算公式是當四分位數的位置不是整數時,按比例分攤四分位數兩側的差值。QL
Xn14
X
3(n1)4QU【例4.8】在某城市隨機抽取9個家庭,
得到每個家庭的人均月收入數據(單位:元)分別是1450,950,820,860,1060,900,1280,1040,1700。要求計算這九個家庭人均月收入水平的四分位數。解:將數據由小到大按順序排列:820,860,900,950,1040,1060,1280,1450,1700。QL
Xn1
X2.54
X
3(n1)
X7.54QU由于2.5處于順序為2和3的兩個數中間,因此按比例分攤兩端的差值,即:QL
860
(900
860)*0.5
880
X2.5
X7.5同理,
1280
(1450
1280)*
0.5
1365QU內距或四分間距(inter-quartile
range):四分位差是上四分位數與下四分位數之差,用Qd表示計算公式為:克服了級差容易受數據中兩端極值的影響這一缺陷。
QU
QL1.平均差平均差(mean
deviation)是一組數據與其均值離差絕對值的平均數。用Md表示。據掌握資料的不同,有兩種計算方法。對于未分組數據,采用簡單平均法,其計算公式是:對于分組數據,采用nn平均法,其計算公式是:Md
x
i1
xikMdk
x
fi
i1
xi
fii1【例4.9】根據表中給出的某項,計算其平均差。中30名被訪者的月收入水平分組數據解:平均差能夠準確地、全面地反映一組數值的離散趨勢。平均差用絕對值進行運算,不適宜于代數形式處理,在實際應用上受到很大的限制。22333.3
777.78(元)30kMdk
x
fi
i1
xi
fii12.方差和標準差方差(variance)是一組數據與其均值離差平方的算術平均數。標準差(standard
deviation)是方差的平方根。方差、標準差是實際中應用最廣泛的離散趨勢度量值。設總體的方差為
2
,標準差為
。對于分組數據,方差和標準差的計算公式分別是:對于未分組的數據,方差和標準差的計算公式分別是:N
iN
2
i1
(
X
X
)2NN(
X
X
)2
ii1
K
2K
2
i1
(
Xi
X
)
Fi
Fii1Ki
iKi1(
X
X
)2
F
Fii1
總體的方差和標準差在對各個離差平方平均時是除以數據個數或總頻數。樣本的方差和標準差在對各個離差平方平均時是用樣本數據個數度)去除總離差平方和。設樣本的方差為s2,或總頻數減1(稱為標準差為
s
。對于未分組的數據,方差和標準差的計算公式為:對于分組數據,方差和標準差的計算公式為:22n
i1
n
1(
xi
x
)s
2n(x
x
)n
1
ii1s
2
1kk(
x
x
)
fs2
i1
i
i
fii12kik(
x
x
)
f
1
ii1
fii1s【例4.10】根據表中給出的某項據,計算其方差和標準差。中30名被訪者的月收入水平分組數解:方差222770000730
1
955172.65
1ki
ik(
x
x
)
f
i1
s
fii1標準差s
955172.65
977.33(元)§2.4離散系數離散系數(coefficient
of
variation)是一組數據的標準差與其均值之比,又稱變異系數。用Vs表示。主要用于比較不同樣本數據的離散程度。s計算公式是:
Vs
x2
4離散系數【例4.11】甲乙兩地的個人收入
中,甲地的人均月收入是6520元,標準差是1640元;乙地的人均月收入是5800歲,標準差是1300元。比較甲乙兩地人均月收入的差異程度。解:由得到由于Vs甲
Vs乙,因此甲地的人均月收入差異程度大于乙地。由
x
6520
得到甲甲s
1640
Vx
6520
1640
0.254s甲
s甲甲x
6520乙s
1640乙x
5800
1300
0.224
s乙Vs乙乙3偏態與峰度的描述§3.1矩的概念§3.2偏態§3.3峰度3.1矩的概念階矩。其公式表示是:時,上式一階原點矩是kin(
xi
a)
f變量X
的樣本觀測值與a
之差k
次方的平均數稱為變量X
關于a
的kn
i1
fii1當a
0時,上式稱為
k
階原點矩,用字母M表示。當
a
稱為k
階中心矩,用字母m表示。1nnx
f
i1
i
i
fii1M22即均值,二階中心矩是
m
n
i1
n(x
x
)
f
i
i
fii1§3
2偏態偏態(skewness)是對數據分布對稱性的側度。偏態系數用SK表示。偏態系數采用矩進行計算。3ni
i(
x
x
)
f
i1
im
3計算公式是:
SK
3fn
3
i13.2偏態當分布對稱時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省南通市如東縣2025屆初三下學期3月適應性檢測試題語文試題含解析
- 離散課件 代數系統和群1學習資料
- 天津濱海職業學院《工程項目管理課程設計》2023-2024學年第二學期期末試卷
- 四川省成都實驗中學2025年高三年級第五次月考物理試題含解析
- 二零二五保安勞務派遣服務協議書
- 雇傭攝影師勞動合同書二零二五年
- 股權轉讓居間合同書協議書二零二五年
- 二零二五版隱名股東協議書
- 臨時工工作協議書二零二五年
- 二零二五硫酸運輸合同書
- 江西卷-2025屆高考歷史4月模擬預測卷(解析版)
- bim安全教育試題及答案
- 運輸公司機務管理制度
- 婦科管理制度
- 初中數學課標培訓
- 2025年濟源職業技術學院單招職業技能測試題庫附答案
- 《浙江省中藥飲片炮制規范》 2015年版
- 新晉管理者培訓
- GB 19762-2025離心泵能效限定值及能效等級
- 廣東省清遠市清新區2025年中考一模語文試題(含答案)
- 2025-2030中國二氯乙烷行業市場發展趨勢與前景展望戰略研究報告
評論
0/150
提交評論