數據分布特征的測演示文稿_第1頁
數據分布特征的測演示文稿_第2頁
數據分布特征的測演示文稿_第3頁
數據分布特征的測演示文稿_第4頁
數據分布特征的測演示文稿_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據分布特征的測度演示文稿目前一頁\總數六十二頁\編于十四點優選數據分布特征的測度Ppt目前二頁\總數六十二頁\編于十四點數據分布的特征集中趨勢(位置)偏態和峰態(形狀)離中趨勢

(分散程度)目前三頁\總數六十二頁\編于十四點第1節集中趨勢的量度

集中趨勢(Centraltendency)一組數據向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數據水平的代表值或中心值不同類型的數據用不同的集中趨勢測度值低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據分類數據:眾數順序數據:眾數中位數和四分位數數值型數據:眾數中位數和四分位數均值目前四頁\總數六十二頁\編于十四點一、分類數據:眾數(mode-Mo)眾數是位置平均數,不受極端值的影響;一組數據可能沒有眾數或有幾個眾數;(無眾數、復眾數、單眾數)主要用于分類數據,也可用于順序數據和數值型數據;缺乏敏感性。這是由于眾數的計算只利用了眾數組的數據信息,不象數值平均數那樣利用了全部數據信息;目前五頁\總數六十二頁\編于十四點例

根據表中的數據,計算“飲料品牌”的眾數。飲料品牌頻數比例百分比可口可樂150.3030旭日升冰茶110.2222百事可樂90.1818匯源果汁60.1212露露90.1818合計501.00100目前六頁\總數六十二頁\編于十四點例

根據表中的數據,計算“回答類別”的眾數。甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————目前七頁\總數六十二頁\編于十四點例在某城市中隨機抽取9個家庭,調查得到每個家庭的人均月收入數據如下(單位:元),計算人均月收入的眾數。

108075010801080850960200012501630思考:對于組距式分組的數值型數據,如何確定眾數?目前八頁\總數六十二頁\編于十四點眾數(不惟一性)無眾數

原始數據:

10591268一個眾數

原始數據:659855多于一個眾數

原始數據:

252828364242目前九頁\總數六十二頁\編于十四點二、順序數據:中位數和四分位數(一)中位數(median)中位數是位置平均數,不受極端值的影響;主要用于順序數據,也可用數值型數據,但不能用于分類數據;有些離散型變量的單項式數列,當次數分布偏態時,中位數的代表性會受到影響;缺乏敏感性;中位數位置=(n+1)/2目前十頁\總數六十二頁\編于十四點例根據表中的數據,計算住房滿意狀況評價的中位數。甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————目前十一頁\總數六十二頁\編于十四點例計算家庭的人均月收入的中位數。1、75078085096010801250150016302000

2、66075078085096010801250150016302000

思考:對于組距式分組的數值型數據,如何確定

中位數?目前十二頁\總數六十二頁\編于十四點例:數值型數據(組距式)——眾數、中位數年收入(元)農戶數農戶數累計向上累計向下累計500—600600—700700—800800—900900—10001000—11001100—12001200—1300240480105060027021012030240720177023702640285029703000300027602280123063036015030合計3000——目前十三頁\總數六十二頁\編于十四點解:因第3組次數最多,故其為眾數組。

=

=755.9(元)

中位數位置==1500,所以第三組為中位數組。

=

=774.3(元)

目前十四頁\總數六十二頁\編于十四點(二)四分位數一組數據排序后處于25%(下四分位數)和75%(上四分位數)位置上的數,稱為四分位數也稱四分位點;四分位數是位置平均數,不受極端值的影響;主要用于順序數據,也可用于數值型數據,但不能用于分類數據;目前十五頁\總數六十二頁\編于十四點例計算甲城市家庭對住房滿意狀況評價的四分位數。解:QL位置=(300)/4=75

QU位置=(3×300)/4=225

從累計頻數看,QL在“不滿意”這一組別中;

QU在“一般”這一組別中。因此

QL

=不滿意QU

=一般;例家庭的人均月收入數據的四分位數。75078085096010801250150016302000

目前十六頁\總數六十二頁\編于十四點三、數值型數據:均值

(mean)集中趨勢的最常用測度值一組數據的均衡點所在體現了數據的必然性特征易受極端值的影響用于數值型數據,不能用于分類數據和順序數據目前十七頁\總數六十二頁\編于十四點(一)算術平均數(Arithmeticmean)

1、簡單算術平均數例:有5名工人生產的零件數分別為:15、16、17、18、19,平均零件數為多少?解:

(件)

目前十八頁\總數六十二頁\編于十四點2、加權算術平均數基本公式影響加權算術平均數的因素:變量值和權數選擇權數的原則:變量值與其乘積是具有實際經濟意義的標志總量。加權算術平均數與簡單算術平均數的關系:當時,目前十九頁\總數六十二頁\編于十四點

例:計算某車間工人平均支出(單項式)

某班組工人平均支出的計算(單項式數列)

解:

(元)支出(x)工人數(f)支出總額(xf)8002160095043800110088800150057500200012000合計2023700目前二十頁\總數六十二頁\編于十四點按零件數分組(個)組中值(x)人數(f)xf50—6055844060—706520130070—807512900合計—402640例:計算某車間工人加工零件平均數(組距式數列)

解:(件)目前二十一頁\總數六十二頁\編于十四點權數對均值的影響甲乙兩組各有10名學生,他們的考試成績及其分布數據如下

甲組:考試成績(x): 020100

人數分布(f):118

乙組:考試成績(x): 020100

人數分布(f):811目前二十二頁\總數六十二頁\編于十四點均值的基本數學性質1.

各變量值與均值的離差之和等于零

2.各變量值與均值的離差平方和最小目前二十三頁\總數六十二頁\編于十四點

簡單調和平均數加權調和平均數(二)調和平均數(倒數平均數Harmonicmean)目前二十四頁\總數六十二頁\編于十四點某日三種蔬菜的批發成交數據蔬菜名稱批發價格(元)

x成交額(元)M成交量(公斤)f甲乙丙1.200.500.801800012500640015000250008000合計—3690048000【例】某蔬菜批發市場三種蔬菜的日成交數據如表,計算三種蔬菜該日的平均批發價格目前二十五頁\總數六十二頁\編于十四點練習1:某管理局所屬的15個企業,2000年按其生產某產品平

均單位成本的高低分組資料如下,試計算平均單位成本。

按平均單位成本分組(元/件)企業數(個)各組產量在總產量中所占的比重(%)10~1212~1414計15100目前二十六頁\總數六十二頁\編于十四點試指出那個廠的總平均成本高,其原因何在?品種單位成本(元)總成本一廠二廠甲乙丙152030210030001500322515001500練習2:

有兩個工廠生產三種產品的單位成本和總成本資料如下:

目前二十七頁\總數六十二頁\編于十四點練習3:計算某地區工業企業產值平均計劃完成程度計劃完成%企業數(個)計劃產值(萬元)90以下714090——10022310100——110571650110——12026710120以上340合計1152850目前二十八頁\總數六十二頁\編于十四點平均數計算方法的選擇設則(已知m、f)

(已知x、f)

(已知x、m)原來只是計算時使用了不同的數據!xmmxfxfxfmxSS=SS=SS=目前二十九頁\總數六十二頁\編于十四點(三)幾何平均數(Geometricmean)

例1:一位投資者持有一種股票,1997,1998,1999,2000收益率分別為4.5%、2.0%、3.5%、5.4%。計算該投資者在這四年內的平均收益率。例2:某企業四個車間流水作業生產某產品。一車間產品合格率為99%,二車間為95%,三車間為92%,四車間為90%,計算該企業的平均產品合格率。算術平均數、調和平均數、幾何平均數之間的關系算術平均數≥幾何平均數≥調和平均數目前三十頁\總數六十二頁\編于十四點例3:求平均年利率

投資銀行某筆投資是的年利率是按復利計算的,25年利率分配時(按時間數序):有一年是3%,有4年為4%,有8年為8%,有10年為10%,有2年為15%。求平均年利率。目前三十一頁\總數六十二頁\編于十四點中位數、眾數、算術平均數之間的關系

在同一變量數據集合中如果變量值分布呈對稱型,則算術平均數、中位數和眾數三者相等;若不對稱,則中位數必居中,算術平均數和眾數分列兩側。

右偏左偏目前三十二頁\總數六十二頁\編于十四點練習1:某企業工人工資等級的中位數和眾數的計算級別12345678人數223861967020135目前三十三頁\總數六十二頁\編于十四點練習2:計算工人完成生產定額的中位數和眾數完成生產定額(%)工人數(人)90——1005100——11013110——12016120——13026130——14020140——15015合計95目前三十四頁\總數六十二頁\編于十四點第二節離散程度的測度(標志變異指標)

標志變異指標的作用衡量平均數代表性的大小反映社會經活動過程的均衡性和節奏性例:

1、有兩個小組工人工資資料如下:甲:500600700800900

乙:600650700750800

哪一組工人工資平均數的代表性大?目前三十五頁\總數六十二頁\編于十四點2、某企業計劃完成情況如表,哪個車間生產過程均衡?計劃數實際完成上旬中旬下旬全月數量比重%數量比重%數量比重%數量比重%甲車間乙車間120120382031.716.7404033.333.342603550120120100100目前三十六頁\總數六十二頁\編于十四點一、數值型數據的離中趨勢測度

(一)極差(全距Range)

極差(R)=最大標志值-最小標志值(原始數據)如前例中,

R=最高組上限值-最低組下限值(組距數列)如農戶收入例中,R=1300-500=800(元)目前三十七頁\總數六十二頁\編于十四點簡單平均式如兩組工人工資平均差(二)平均差目前三十八頁\總數六十二頁\編于十四點月工資額X工人數f工資總額Xf離差離差絕對值50060070080090030507030201500030000490002400018000合計200136000————18800加權平均式例:目前三十九頁\總數六十二頁\編于十四點例:對成年和幼兒身高進行調查資料如下:成年組(厘米):161163165167169幼兒組(厘米):7374757677哪一組平均身高的代表性更大?目前四十頁\總數六十二頁\編于十四點目前四十一頁\總數六十二頁\編于十四點(三)方差(Variance)及標準差(Standarddeviation)簡單平均式例:目前四十二頁\總數六十二頁\編于十四點加權平均式

總體方差

總體標準差目前四十三頁\總數六十二頁\編于十四點例:某企業工人日加工零件的個數如下表,計算工人日加工

零件的標準差按零件數分組(個)組中值(X)人數(f)105—110110—115115—120120—125125—130130—135135—140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合計—50—3100.5目前四十四頁\總數六十二頁\編于十四點解:目前四十五頁\總數六十二頁\編于十四點樣本方差和標準差

(simplevarianceandstandarddeviation)未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!目前四十六頁\總數六十二頁\編于十四點

(四)離散系數(變異系數或標準差系數)

消除了數據水平高低和計量單位的影響目前四十七頁\總數六十二頁\編于十四點例:甲、乙兩商店營業員及銷售額的分組資料如下:甲商店乙商店組中值x人數fxf組中值x人數fxf253545556531296——75420405330——7684321441176——2535455565——2864——70360330260——51228896784合計3012302520合計2010201680試問兩個商店營業員平均銷售額的代表性哪個大?為什么?目前四十八頁\總數六十二頁\編于十四點解:目前四十九頁\總數六十二頁\編于十四點用“是”、“否”或“有”、“無”來表示的標志——是非標志。總體單位數用N來表示。表示具有所研究標志值的單位數,表示不具有所研究標志的單位數。是非標志(比例)的標準差是非標志的平均數目前五十頁\總數六十二頁\編于十四點(五)標準化數值(Z-Score)標準化數值是一個數據在數據集中相對位置的測度。計算公式為正的z值表示觀察值位于平均數右側,負的z值表示觀察值位于平均數左側。根據經驗法則,對于鐘形分布,幾乎所有的數據都在偏離平均數3個標準差范圍之內。因此,標準化數值低于-3或高于3的數據值就是異常值,也稱為離群點。目前五十一頁\總數六十二頁\編于十四點二、分類數據離中趨勢測度——

異眾比率(variationratio)1. 對分類數據離散程度的測度2. 非眾數組的頻數占總頻數的比率3. 計算公式為

4.用于衡量眾數的代表性目前五十二頁\總數六十二頁\編于十四點例:計算異眾比率解:

在所調查的50人當中,購買其他品牌飲料的人數占70%,異眾比率比較大。因此,用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好不同品牌飲料的頻數分布

飲料品牌頻數比例百分比(%)

可口可樂旭日升冰茶百事可樂匯源果汁露露15119690.300.220.180.120.183022181218合計501100目前五十三頁\總數六十二頁\編于十四點三、順序數據離中趨勢測度——

四分位差(quartiledeviation)

對順序數據離散程度的測度也稱為內距或四分間距上四分位數與下四分位數之差

QD

=QU–QL反映了中間50%數據的離散程度不受極端值的影響用于衡量中位數的代表性目前五十四頁\總數六十二頁\編于十四點例:計算四分位差

解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5.

已知

QL=不滿意=2QU=

一般=

3則四分位差:

QD

=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論