統計學教程:第4章 數據分布特征的度量_第1頁
統計學教程:第4章 數據分布特征的度量_第2頁
統計學教程:第4章 數據分布特征的度量_第3頁
統計學教程:第4章 數據分布特征的度量_第4頁
統計學教程:第4章 數據分布特征的度量_第5頁
已閱讀5頁,還剩68頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《統計學教程》第4章數據分布特征的度量

2024年7月11日/*《統計學》第4章數據分布特征的度量

4.1集中趨勢的度量4.2.5方差和標準差

4.1.1眾數4.2.6離散系數

4.1.2中位數4.2.7標準化值

4.1.3均值

4.1.4調和平均數

4.1.5幾何平均數4.3偏態和峰度的度量

4.1.6均值、眾數和中位數的比較4.3.1偏態系數

4.1.7均值、眾數和中位數的比較4.3.2峰度系數4.2離散程度的度量

4.2.1異眾比率

4.2.3取值范圍

4.2.4平均差第4章數據分布特征的度量

4.1集中趨勢的度量《統計學教程》2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

原始數據經過分組整理所形成的頻數分布,直觀和概略地反映出數據分布的基本特征。頻數分布屬于對數據分布特征的初步描述,缺乏對數據分布特征的綜合度量,若需要深入地表述數據分布特征的具體特征和內在聯系,還應對數據分布特征進行綜合性的度量。數據分布特征的度量包括三個方面的內容,一是數據分布的集中趨勢,反映總體中各個單位的數值水平向其聚集,或者集中的中心數值;二是數據分布的離散趨勢,反映總體中各個單位的數值水平偏離中心數值的綜合程度;三是數據分布的偏態和峰度,反映各個總體單位的數值水平的分布形態是對稱或偏倚,平坦或尖聳的具體數值。

集中趨勢(CentralTendency)是指一組數據所趨向的中心數值。對集中趨勢的度量就是采用具體的統計方法和統計測度對這一中心數值的測量和計量,以一綜合數值來表述數據所趨向的這一中心數值的一般水平。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量4.1.1眾數

眾數(Mode)是一組數據中頻數最大的變量值,直觀地反映了數據的集中趨勢。眾數是度量定類數據集中趨勢的測度,一般用表示。例4.1某品牌運動服裝專賣店一批新品球衣銷售情況如下表4.1某專賣店新品球衣銷售情況件2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量4.1.1眾數

眾數(Mode)是一組數據中頻數最大的變量值,直觀地反映了數據的集中趨勢。眾數是度量定類數據集中趨勢的測度,一般用表示。

例4.1某品牌運動服裝專賣店一批新品球衣銷售情況如下表4.1某專賣店新品球衣銷售情況件2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.2利用第三章中例3.1中某學期某班35名學生統計學考試成績的原始數據。要求試計算計算該班35名學生統計學考試成績的眾數。解將該原始數據排序之后,得到有序數據如下

52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,

81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,

91,91,92,96,98

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.2利用第三章中例3.1中某學期某班35名學生統計學考試成績的原始數據。要求試計算計算該班35名學生統計學考試成績的眾數。解將該原始數據排序之后,得到有序數據如下

52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,

81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,

91,91,92,96,9884分在這35名學生的統計學考試成績的原始數據中出現了4次,屬于出現次數最多的變量值,根據眾數定義,可以確定眾數為84分,即2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

利用已經分組的數值型數據計算眾數的場合,需要運用插值公式來計算眾數的近似數值。眾數的插值公式有下限公式和上限公式。其下限公式從眾數所在組的上限出發,有

(4.1)上限公式則從眾數所在組的上限出發,有

(4.2)

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.3表4.2為第三章中表3.7“某學期某班35名學生的統計學考試成績”中的部分數據。根據表4.2的已經分組的數值型數據,計算該班35名學生的統計學考試成績眾數的近似數值。表4.2某學期某班35名學生的統計學考試成績2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

通過上限公式或下限公式的計算眾數所得到的計算結果是一致的。眾數是一個通過數據中頻數最大的數據的數值來反映集中趨勢的測度,為一位置型的代表數值,所以眾數的取值不受極端數值的影響,也不受組距分組中開口組設置的影響。當數值型數據中含有極小值和極大值時,使用眾數來度量數據的集中趨勢,可以作為其它集中趨勢測度的補充。眾數是一個適用于最低層次的定類數據的測度,因此可以用于各種量表數據的集中趨勢分析,有效使用眾數的前提是數據的頻數分布存在明顯的集中態勢。

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

通過上限公式或下限公式的計算眾數所得到的計算結果是一致的。眾數是一個通過數據中頻數最大的數據的數值來反映集中趨勢的測度,為一位置型的代表數值,所以眾數的取值不受極端數值的影響,也不受組距分組中開口組設置的影響。當數值型數據中含有極小值和極大值時,使用眾數來度量數據的集中趨勢,可以作為其它集中趨勢測度的補充。眾數是一個適用于最低層次的定類數據的測度,因此可以用于各種量表數據的集中趨勢分析,有效使用眾數的前提是數據的頻數分布存在明顯的集中態勢。★討論題:你認為那些現象不適宜采用眾數來描述其集中趨勢?

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

4.1.2中位數

中位數(Median)是位于有序數據正中間位置上的變量值,中位數用其特殊的位置屬性直接地體現了集中趨勢的中心數值特征。中位數是度量定序數據集中趨勢的測度,一般用表示。中位數也是一種位置型的代表數值,同時中位數還是一種順序統計量,因此,計算中位數要求數值至少具備定序數據的性質。中位數一旦確定,就可以根據中位數的具體取值,將全部數據分成數量相等的兩個部分,一半數據的數值小于或等于中位數;另一半數據的數值大于或等于中位數。由此可得出中位數的計算公式。當數據的個數為奇數時,有

(4.3)當數據的個數為偶數時,有

(4.4)

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.4

仍然采用第三章中例3.1某學期某班35名學生的統計學考試成績的原始數據。要求試計算該班35名學生的統計學考試成績的中位數。解將原始數據排序之后,得到以下有序數據52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98

該組數據的個數為35,因此采用式(4.3)計算,排列在該組有序數據第18位上的變量值為82分,該班35名學生的統計學考試成績的中位數為82分。即2024年7月11日/*《統計學》

第4章數據分布特征的度量

利用已經分組的數值型數據計算中位數時,需要運用插值公式計算中位數的近似數值。中位數的插值公式也有下限公式和上限公式。其下限公式從中位數所在組的下限出發,為

(4.5)

上限公式從中位數所在組的上限出發,為

(4.6)4.1集中趨勢的度量2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.5

表4.3為第三章“表3.7某學期某班35名學生的統計學考試成績”中的部分資料,為已經分組的數值型數據。要求根據表4.3數據,計算該班35名學生的統計學考試成績的中位數。解運用插值公式計算該班學生統計學考試成績中位數的近似數值。表4.3某學期某班35名學生的統計學考試成績2024年7月11日/*《統計學》

第4章數據分布特征的度量

顯然,我們可以任選上限公式或下限公式來計算中位數,得到結果是相同的。中位數是一個順序統計量,其取值不受極端數值的影響,也不受組距分組中開口組設置的影響。當數值型數據中含有極小值和極大值時,可以使用中位數來度量數據的集中趨勢。

4.1集中趨勢的度量2024年7月11日/*《統計學》

第4章數據分布特征的度量

顯然,我們可以任選上限公式或下限公式來計算中位數,得到結果是相同的。中位數是一個順序統計量,其取值不受極端數值的影響,也不受組距分組中開口組設置的影響。當數值型數據中含有極小值和極大值時,可以使用中位數來度量數據的集中趨勢。★討論題:你認為中位數的主要局限是什么?

4.1集中趨勢的度量2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量4.1.3均值均值(Mean)為一組數值型數據之和除以該組數據總數的商,即同一組數據的總值與其頻數的商。在大多數場合,均值采用算術平均方法計算,所以人們經常將均值稱為算術平均數(ArithmeticalAverage)。計算均值的數據需要具備數值型數據的屬性,均值是一個數值型的集中趨勢測度。通過計算均值的運算過程,首先將各個數據之間的數量差異抽象掉了,以一個抽象性的綜合測度概括地反映事物的集中趨勢。其次將不同總體的總量規模抽象掉了,表現出來的只是一個一般性的代表水平,有利于不同規模的同類總體在不同空間和時間上的廣泛比較。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量1.簡單均值簡單均值(SimpleMean)是根據未分組的原始數據計算出來的均值。有

(4.7)

例4.6仍采用第三章中例3.1某學期某班35名學生的統計學考試成績的原始數據要求試計算該班35名學生的統計學考試成績的均值。解采用式(4.7)計算,有

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量2.加權均值加權均值(WeightedMean)是運用各組頻數作為權數對各組數值水平進行加權計算出來的均值。根據是單變量值分組還是組距分組,以及組距分組的各組數值水平代表數據是組均值還是組中值,加權均值的計算分為以下三種類型。(1)單變量值分組加權均值在單變量值分組場合,加權均值的計算公式為

(4.8)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.7某機床總裝車間10個裝配小組日完成產品臺數情況,計算單變量值分組加權均值。表4.4某機床總裝車間10個裝配小組日完成產品臺數情況要求試計算單變量值分組加權均值。解采用式(4.8)計算,可得2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量(2)采用組均值計算加權均值在組距分組中,采用組均值計算加權均值時,計算公式為

(4.9)

式(4.9)中表示第j組的組均值。

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量例4.8

采用第三章中例3.1的各組均值數據。要求試計算組距分組的該班35名學生的統計學考試成績的加權均值。解依據各組中的數據數值和數據個數,按照式(4.7)的均值計算公式,計算出各組的組均值,填入表4.5中。表4.5某學期某班35名學生統計學考試成績的組均值和頻數2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量(3)采用組中值計算加權均值在不占有原始數據和組均值數值,只擁有已分組的數據時,只有利用各組組中值采用加權的方式計算均值的近似數值。利用組中值計算均值近似值的公式為

(4.10)

式(4.10)中表示第j組的組中值。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.9

根據第三章中表3.7中“某學期某班35名學生的統計學考試成績”的各組組中值和頻數數據。要求試采用組中值計算該班35名學生的統計學考試成績的加權均值。解采用式(4.10)計算。表4.6某學期某班35名學生統計學考試成績的組中值和頻數2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量3.權數與加權結構對于加權均值而言,有兩個因素決定著均值數值的大小,一個因素是各組的數值水平;另一個因素是各組的頻數。頻數對各組的數值水平數值起著權衡輕重的作用,所以將加權均值的計算公式中頻數稱為“權數”。在均值的計算中又將頻數分布稱為“加權結構”,“加權結構”更加清晰地反映了數據在各組中的分布與集中趨勢之間的聯系,及其對均值數值水平形成的影響。將式(4.8)略加變形,有

(4.11)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

均值的數學性質:(1)各個變量值與其均值的離差和為零,即(2)各個變量值與其均值平均數的離差平方和為最小,即當取均值作為集中趨勢的測度時,各個數據的取值與集中趨勢測度的離差平方和為最小值。均值的這一數學性質是度量離散程度,進行誤差分析和最小二乘估計等統計方法的基礎。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

均值的數學性質:(1)各個變量值與其均值的離差和為零,即(2)各個變量值與其均值平均數的離差平方和為最小,即當取均值作為集中趨勢的測度時,各個數據的取值與集中趨勢測度的離差平方和為最小值。均值的這一數學性質是度量離散程度,進行誤差分析和最小二乘估計等統計方法的基礎。★討論題:試比較均值、眾數和中位數在數值型數據的集中趨勢分析中的作用?2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量4.1.4調和平均數調和平均數(HarmonicMean)是各個變量數值倒數的算術平均數的倒數。因此又稱之為“倒數平均數”。1.簡單調和平均數設有個變量值為,則有簡單調和平均數的計算公式為

(4.12)

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.10

設有12批A產品當日在某海關進口時報關的單價分別為每件25,24,25,27,26,25,24,28,26,25,26,28美元。要求試用調和平均數方法計算其平均價格。解由式(4.12)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量2.加權調和平均數(1)單變量值分組的加權調和平均數在單變量值分組場合,加權均值的計算公式為

(4.13)(2)組距分組的加權調和平均數在組距分組場合,仍然根據是否擁有各組組均值數據,加權調和平均數的計算分為兩種不同的方式。擁有各組組均值數據時,采用各組組均值計算加權調和平均數;不具有各組組均值數據時,則需要采用各組組中值來計算加權調和平均數的近似數值。在現實生活中,實際使用到的僅是一種形式上類似調和平均數的“加權調和平均數”,它是均值的一種變形。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量3.均值的變形在擁有各組總值數據和各組變量值水平,缺少各組頻數數據時,往往采用形式上類似加權調和平均數的公式,來計算加權均值。用表示各組總值,用表示這一形式上類似加權調和平均數的集中趨勢測度,有

(4.14)

由式(4.14)可知,這一所謂的形式上類似加權調和平均數的集中趨勢測度實際上就是均值,而不是調和平均數。2024年7月11日/*《統計學》

第4章數據分布特征的度量

例4.12

已知某商店商品按照優惠價、折扣價和原價的單價和銷售總額。要求試求銷售價格的均值。解由式(4.16)表4.8某商店W商品銷售情況

4.1集中趨勢的度量2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量4.1.5幾何平均數幾何平均數(GeometricMean)是指各項數據的連乘積開其項數次方的算術根,一般用G表示。當對象為某種連乘積的關系,例如總比率或總速度時,則需要采用幾何平均數方法,計算其平均比率或平均速度。幾何平均數的計算公式也有簡單幾何平均數加權幾何平均數和兩種形式:1.簡單幾何平均數。計算公式為:

(4.15)2、加權幾何平均數。加權幾何平均數計算公式為:

(4.16)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.13

某廠有四個連續作業車間,其產品的合格率分別為95%、96%、94%和90%。要求試計算該產品的平均合格率。解顯然,本題不能采用算術平均法或調和平均法,因為各車間的合格率之積=全廠的總合格率,應采用幾何平均法來計算其平均合格率。由式(4.15),有2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.14

設某項每年分紅一次的投資項目,10年來各年的實際收益率分別為10%,9%,8%,8%,9%,8%,9%,7%,11%,10%。要求試求該項投資10年來的平均年收益率。解平均年收益率是一項平均增長速度,需要由平均發展速度間接計算。因此需要將例4.14中的各年收益率數據(年增長速度),換算成年本利和(年發展速度),利用式(4.15)計算出該項投資10年來的平均年本利率,最后將平均年本利率扣除本金后,計算出平均年收益率。即也可以根據式(4.16)計算,有2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量3.對數均值將幾何平均數計算公式等號兩端同時取對數,幾何平均數計算公式表現出類似均值計算公式的形式。所以,幾何平均數又被稱為對數均值,或對數平均數。由式(4.15)等號兩端同時取對數,可得對數形式的簡單幾何平均數計算公式。有

(4.17)

由式(4.16)等號兩端同時取對數,可得對數形式的,具有類似加權均值計算公式形式的加權幾何平均數計算公式。有

(4.18)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量4.1.6均值、調和平均數和幾何平均數的比較對于同一組數據,僅從數值比較的角度,有均值大于等于幾何平均數,幾何平均數大于等于調和平均數,即。

例4.16有一組數據為4,5,6,7,8,6,7,8,9,8,請分別計算均值、調和平均數和幾何平均數。解:分別計算如下:

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量4.1.7均值、眾數和中位數的比較在均值、眾數和中位數這三個測度中,均值是唯一的數值型測度。均值一般采用算術平均方法計算的集中趨勢測度,對極端數值的反應比較敏感,在數據的分布出現偏倚時,均值受到的影響最大。眾數和中位數都是位置型的集中趨勢測度,其具體取值不受極端數值的影響。其中眾數是對應于最大頻數的數值,中位數是居于有序數據中間位置上的數值。因此,若數據的分布是對稱的,有均值、眾數和中位數三個集中趨勢測度的取值相等。當數據分布呈左偏態時,一般有均值的取值最小,其次是中位數,眾數的取值最大。在頻數分布圖上,眾數始終對應于峰頂,均值和中位數偏在峰頂的左邊,均值又在中位數左邊;當數據分布呈右偏態時,一般有均值的取值最大,其次是中位數,眾數的取值最小。在頻數分布圖上,眾數還是處在對應于峰頂的位置,均值和中位數偏在峰頂的右邊,并且均值偏在最右邊。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量圖4.1對稱分布圖4.2左偏分布圖4.3右偏分布2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.1集中趨勢的度量

例4.17

根據第三章中例3.1某學期某班35名學生的統計學考試成績的原始數據。要求計算該班35名學生的統計學考試成績的均值、眾數和中位數,簡要分析數據的分布狀況。解由該班35名學生的統計學考試成績均值、眾數和中位數的具體取值,可得出三者之間的數值比較關系,有則認為該班35名學生的統計學考試成績呈左偏態,偏倚的程度不是很大,從均值角度來說,該班高分(超過均值80分)的同學較多,超過了半數。因為按分數排序處在正中間位置上同學的分數為中位數82分,高于均值80分的水平。

第4章數據分布特征的度量

4.2離散程度的度量《統計學教程》2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量4.2.1異眾比率

異眾比率(VariationRatio)是非眾數所在組的頻數之和占總頻數的比率,一般用表示。

(4.19)

異眾比率是用于評價眾數的代表性的測度。異眾比率取值在1到0之間,一般用百分數表示。異眾比率數值越大,越趨近于1,說明眾數所在組的頻數占總頻數的比率越低,眾數的代表性越弱,反映數據的頻數分布不存在顯著集中的態勢,無法借助眾數來反映數據的集中趨勢;異眾比率數值越小,越趨近于0,說明眾數所在組的頻數占總頻數的比率越高,眾數作為集中趨勢測度的代表性越強。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量

例4.18

根據例4.1某品牌運動服裝專賣店一批新品球衣的銷售情況的頻數分布數據。要求試計算眾數“SP09-05”球衣的異眾比率。解由式(4.19),有該新品球衣的前日和當日銷售情況眾數的“SP09-05”球衣的異眾比率分別為

前日銷售情況的異眾比率為45%,當日銷售情況的異眾比率為48.33%,說明這兩天眾數“SP09-05”球衣的銷售量都超過50%,表明在此場合使用眾數“SP09-05”球衣作為該批新款球衣集中趨勢的測度是比較有效的。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量4.2.2四分位差四分位差(QuartileDeviation)為上四分位數與下四分位數的絕對離差,也稱為四分間距(Inter-QuartileRange),用表示。計算公式為

(4.20)

式(4.20)中的和分別為上四分位數與下四分位數。將原始數據按照由小到大,由低到高排序后得到的有序數據中,上四分位數是處在后四分之一位置上數據的數值;下四分位數是處在前四分之一位置上數據的數值。所以,也可以將上四分位數與下四分位數理解為是在計算了中位數的基礎上,將排序后的有序數據分為了大于和小于中位數的兩個部分,然后再在這兩個部分中分別計算出來的中位數。四分位差反映了處在有序數據中間位置上的50%的數據的絕對離差。因此,四分位差是與中位數相聯系的離散程度測度。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量

例4.19

仍采用例4.4中某學期某班35名學生考試成績的原始數據。要求試計算該班35名學生的統計學考試成績的四分位差。解有上四分位數與下四分位數的計算公式為

解得

52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98

即可計算出考試成績的四分位差為該班35名學生的統計學考試成績的四分位差為13分,說明處在中間位置上的一半該班同學的分數最大差距為13分,這一差異數值較小,表明82分的中位數對于集中趨勢的代表性較好。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量4.2.3取值范圍取值范圍(ValueArea)為全體數據中最大數值與最小數值之差,反映了數值變量取值的變動幅度。取值范圍也稱為全距,一般用R表示,有

(4.20)

當使用樣本數據的最大數值與最小數值之差,來計算該組樣本數值變量取值區間,以反映總體變量取值的變動幅度時,一般稱之為極差(Range),用表示。即

(4.21)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量

例4.20

某企業一車間甲乙兩個生產小組的個人日產量件數數據如下甲組:50,55,60,70,80,85,90

乙組:67,68,69,70,71,72,73

要求試計算該車間甲乙兩個生產小組的個人日產量的取值范圍。解甲乙兩個生產小組的均值都為70件,采用式(4.20),有甲組:乙組:甲組的取值范圍為40件,乙組的取值范圍為6件,表明70件的均值對于乙組個人日產量的集中趨勢更具有代表性,或者說乙組個人日產量的離散程度小,集中趨勢更為顯著。取值范圍的計算只使用了數值變量中的最大與最小兩個數值,具有計算簡潔,意義明確,易于理解的特點,但是沒有充分利用數據的全部信息,是一個粗略的,簡單的,尤其是容易受到極端數值影響的測度。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量4.2.4平均差平均差(MeanDeviation)是指全部變量值與其均值的離差的絕對值的均值,也稱為平均離差,用A.D.表示。簡單平均差計算公式為:

(4.22)

加權平均差計算公式為:

(4.23)

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量

例4.21仍然采用例4.20中甲乙兩個生產小組的個人日產量件數數據。要求試計算該該車間甲乙兩個生產小組的個人日產量的平均差。解已知均值為70件,由式(4.22)

表4.10甲乙小組的個人日產量的平均差計算表件甲組:乙組:平均差測度同樣表明乙組個人日產量的離散程度小,70件的個人日產量均值對于乙組的集中趨勢更具有代表性。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量4.2.5方差和標準差方差(Variance)是指全部變量值與其均值的離差的平方的均值。方差以數據的重心——均值作為基準數值來度量數據分布的離散程度,同時用平方的方式消除了變量值與均值離差數值正負相抵的問題,便于數學上的處理,方差是正態分布等概率分布的重要參數,是度量數值變量離散程度的基本測度。方差一般用或表示。根據所擁有的數值變量數據的形式不同,方差的計算可以分為以下幾種方式。

1.簡單方差計算公式當擁有未分組的數據時,采用簡單方差公式計算方差。

(4.24)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量

例4.23

再次仍然采用例4.20中某企業一車間甲乙兩個生產小組的個人日產量件數數據,并已知均值為70件。要求試計算該甲乙兩個生產小組個人日產量的方差。解由式(4.24)有

表4.12甲乙小組的個人日產量的方差計算表件

甲組:乙組:

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量2.加權方差計算公式當只具備已分組數據時,需要采用加權方差公式計算方差。(1)當擁有單變量值分組數據時,加權方差計算公式為:

(4.25)

例4.24

根據例4.7中某機床總裝車間10個裝配小組日完成產品臺數數據,并已知均值為6.8臺。要求計算該機床總裝車間裝配小組日完成產品臺數的方差。解由式(4.25)

2024年7月11日/*《統計學》

第4章數據分布特征的度量

(2)當擁有的數據為具有組均值的組距分組時,加權方差計算公式為:

(4.26)

式(4.26)中是采用各組的組均值與總體均值的離差的加權均值來反映數據分布的離散程度。存在著一個各組的組均值與各組中各個變量的實際取值之間的差異,只有在各個變量的實際取值等于各組的組均值時,式(4.26)才等于式(4.25);當這兩者的差距越大,式(4.26)與式(4.25)之間的差距也就越大,并且有式(4.26)計算的數值小于式(4.25)計算的數值。式(4.25)是與方差的定義一致的測度,而式(4.26)只是式(4.25)近似計算。4.2離散程度的度量2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量(3)當擁有的數據為不具有組均值的組距分組時,需要采用組中值近似地替代組均值計算加權方差,這時計算公式為

(4.27)

式(4.27)不僅存在式(4.26)以各組的組均值近似替代各組中各個變量的實際取值所產生的誤差,而且還存在以各組的組中值近似替代各組的組均值所產生的誤差。所以式(4.27)也只能是對式(4.25)近似計算。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量3.標準差由于方差的量綱是變量原有量綱的平方,在實際使用時有所不便。因此,人們常常采用具有與變量一致的量綱的測度,方差的算術平方根——標準差。標準差(StandardDeviation)為方差的算術平方根,即全部變量值與其均值的離差的平方的均值的算術平方根。有簡單標準差計算公式和加權標準差計算公式。

(4.28)(4.29)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量4.2.6離散系數離散系數(CoefficientofVariation)為同一總體的標準差與均值的比值。通過采用標準差除以同一數據的均值,不僅將分子分母量綱相同相互約去,同時還剔除了均值數值水平,得到了一個沒有量綱的相對數測度,這就是離散系數。計算離散系數的主要目的就是消除標準差的量綱和數值水平上的差異,使其成為一個抽象的,純粹反映數據分布離散程度的測度,一個具有廣泛的直接的可比性的離散程度測度。從形式上看,離散系數是一個相對的比值,一個相對數。離散系數的計算公式為:

(4.30)

離散系數一般用百分數表示。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量

例4.26

已知某公司A、B兩種產品2005年的日產量及其標準差數據。要求試計算A、B兩種產品2005年的日產量的離散系數,對該公司A、B兩種產品生產過程的均衡性進行比較分析。解采用式(4.30),有表4.152005年某公司產品的日產量的離散系數計算表

由此例可以看出,標準差的數值水平是由純粹的數據分布離散程度(可用離散系數表示),和數據分布集中趨勢的中心數值(一般用均值表示),這兩者共同作用的結果。例如,A產品日產量的標準差3噸,等于離散系數60%,乘上均值5噸。

2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量4.2.7標準化值標準化值(StandardScore)是以變量值與其均值的差除以同一數據的標準差的比值,也稱為標準分數,或Z分數。其計算公式為:

(4.31)

標準化值的分子為第i個變量值與其均值的差,一般稱為數據的中心化,表現為變量值與其均值的絕對距離。標準化值的分母為標準差,通過用標準差除以中心化后的數據,來消除標準化值的量綱和絕對水平,剔除不同的數據分布離散程度在量綱和數值水平上的差異,使離散程度不同的數據之間具備了廣泛的可比性。使數據具有了普遍的可加性和直接的可比性。2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.2離散程度的度量

例4.27某中學有A、B兩位同學期末考試5門功課的考試成績如表4.16所示。要求采用標準化值,對某中學A、B兩位同學考試成績進行評價。解根據式(4.31),計算出A、B兩位同學考試成績的標準化值總分。表4.16某中學A、B兩位同學期末考試成績的標準化值總分計算表第4章數據分布特征的度量

4.3偏態和峰度的度量《統計學教程》2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.3偏態和峰度的度量4.3.1偏態系數偏態(Skewness)是指數據分布偏倚的方向和程度。偏態系數是度量數據分布偏離對稱分布的方向和程度的測度。偏態系數一般采用三階中心矩與標準差三次方的比值來度量數據分布的偏倚。有簡單偏態系數計算公式為

(4.32)

加權偏態系數計算公式為

(4.33)2024年7月11日/*《統計學》

第4章數據分布特征的度量

4.3偏態和峰度的度量

偏態系數采用標準差的三次方數值去除三階中心矩,消除三階中心矩在具體量綱和均值水平上的不可比性質,構造出一個具有廣泛可比性質的度量數據分布的偏倚的方向和程度的綜合測度。

圖4.4數據分布偏態的示意圖偏態系數的取值為0時,表示數據為完全的對稱分布;為負數時,表示數據為負偏態,或左偏態;偏態系數的取值為正數數時,表示數據為正偏態,或右偏態。偏態系數的絕對數值越小,表示數據偏倚的程度越小,絕對數值越大,表示數據偏倚的程度越大。2024年7月11日/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論