統計學第六版賈俊平第3章課件_第1頁
統計學第六版賈俊平第3章課件_第2頁
統計學第六版賈俊平第3章課件_第3頁
統計學第六版賈俊平第3章課件_第4頁
統計學第六版賈俊平第3章課件_第5頁
已閱讀5頁,還剩159頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學第六版賈俊平第3章統計學第六版賈俊平第3章統計學第六版賈俊平第3章第3章數據的整理與顯示3.1數據的預處理3.2分類和順序數據的整理與顯示3.3數值型數據的整理與顯示3.4統計表統計學第六版賈俊平第3章統計學第六版賈俊平第3章統計學第六版1第3章數據的整理與顯示3.1數據的預處理3.2分類和順序數據的整理與顯示3.3數值型數據的整理與顯示3.4統計表第3章數據的整理與顯示3.1數據的預處理學習目標了解數據預處理的內容和目的掌握分類和順序數據的整理與顯示方法掌握數值型數據的整理與顯示方法用Excel作頻數分布表和形圖合理使用統計表學習目標了解數據預處理的內容和目的3.1數據的預處理一.數據審核二.數據篩選三.數據排序3.1數據的預處理一.數據審核數據的預處理數據的審核檢查數據中的錯誤數據的篩選找出符合條件的數據數據排序升序和降序尋找數據的基本特征數據的預處理數據的審核數據審核數據審核數據審核—原始數據

(rawdata)審核的內容完整性審核檢查應調查的單位或個體是否有遺漏所有的調查項目或指標是否填寫齊全準確性審核檢查數據是否真實反映客觀實際情況,內容是否符合實際檢查數據是否有錯誤,計算是否正確等數據審核—原始數據

(rawdata)審核的內容數據的審核—原始數據

(rawdata)審核數據準確性的方法邏輯檢查從定性角度,審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象主要用于對分類和順序據的審核計算檢查檢查調查表中的各項數據在計算結果和計算方法上有無錯誤主要用于對數值型數據的審核數據的審核—原始數據

(rawdata)審核數據準確性的數據的審核—二手數據

(secondhanddata)適用性審核弄清楚數據的來源、數據的口徑以及有關的背景材料確定數據是否符合自己分析研究的需要時效性審核盡可能使用最新的數據確認是否必要做進一步的加工整理數據的審核—二手數據

(secondhanddata)適數據篩選與排序數據篩選與排序數據篩選

(datafilter)當數據中的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,需要對數據進行篩選數據篩選的內容包括將某些不符合要求的數據或有明顯錯誤的數據予以剔除將符合某種特定條件的數據篩選出來,而不符合特定條件的數據予以剔數據篩選

(datafilter)當數據中的錯誤不能予以糾用Excel進行數據篩選

8名學生的考試成績數據

數據篩選

(datafilter)用Excel進行數據篩選8名學生的考試成績數據數據篩選

數據排序

(datarank)按一定順序將數據排列,以發現一些明顯的特征或趨勢,找到解決問題的線索排序有助于對數據檢查糾錯,以及為重新歸類或分組等提供依據在某些場合,排序本身就是分析的目的之一排序可借助于計算機完成數據排序

(datarank)按一定順序將數據排列,以發數據排序

(方法)分類數據的排序字母型數據,排序有升序降序之分,但習慣上用升序漢字型數據,可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分數值型數據的排序遞增排序:設一組數據為x1,x2,…,xn,遞增排序后可表示為:x(1)<x(2)<…<x(n)遞減排序:可表示為:x(1)>x(2)>…>x(n)數據排序

(方法)分類數據的排序3.2分類和順序數據的整理與顯示一.分類數據的整理與顯示二.順序數據的整理與顯示3.2分類和順序數據的整理與顯示一.分類數據的整理與數據的整理與顯示

(基本問題)要弄清所面對的數據類型,因為不同類型的數據,所采取的處理方式和方法是不同的對分類數據和順序數據主要是做分類整理對數值型數據則主要是做分組整理適合于低層次數據的整理和顯示方法也適合于高層次的數據;但適合于高層次數據的整理和顯示方法并不適合于低層次的數據數據的整理與顯示

(基本問題)要弄清所面對的數據類型,因為不分類數據的整理與圖示分類數據的整理與圖示分類數據的整理

(基本過程)1. 列出各類別2.計算各類別的頻數3.制作頻數分布表4.用圖形顯示數據分類頻數比例百分比比率ABCDE分類數據的整理

(基本過程)1. 列出各類別分類數據的整理

(可計算的指標)頻數(frequency):落在各類別中的數據個數比例(proportion):某一類別數據占全部數據的比值百分比(percentage):將對比的基數作為100而計算的比值比率(ratio):不同類別數值的比值分類數據的整理

(可計算的指標)頻數(frequency)分類數據整理—頻數分布表

(例題分析)【例】一家市場調查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調查。調查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數據用Excel制作頻數分布表綠色健康飲品分類數據整理—頻數分布表

(例題分析)【例】一家市場調查公分類數據的圖示—條形圖

(barChart)用寬度相同的條形的高度或長短來表示各類別數據的圖形有單式條形圖、復式條形圖等形式主要用于反映分類數據的頻數分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖分類數據的圖示—條形圖

(barChart)用寬度相同的條分類數據的圖示—條形圖

(例題分析)分類數據的圖示—條形圖

(例題分析)分類數據的圖示—餅圖

(pieChart)也稱圓形圖,是用圓形及園內扇形的面積來表示數值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結構性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內的各個扇形面積表示,這些扇形的中心角度,是按各部分數據百分比占3600的相應比例確定的分類數據的圖示—餅圖

(pieChart)也稱圓形圖,是用分類數據的圖示—餅圖

(例題分析)分類數據的圖示—餅圖

(例題分析)順序數據的整理與圖示順序數據的整理與圖示順序數據的整理

(可計算的指標)1.累積頻數(cumulativefrequencies):各類別頻數的逐級累加2.累積頻率(cumulativepercentages):各類別頻率(百分比)的逐級累加順序數據的整理

(可計算的指標)1.累積頻數(cumul順序數據的頻數分布表

(例題分析)【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————順序數據的頻數分布表

(例題分析)【例】在一項城市住房問題的順序數據的頻數分布表

(例題分析)乙城市家庭對住房狀況評價的頻數分布回答類別乙城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計300100.0————順序數據的頻數分布表

(例題分析)乙城市家庭對住房狀況評價順序數據的圖示—累計頻數分布圖

(例題分析)243001322252700100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(戶)(a)向下累積27616830300750100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(戶)(b)向上累積甲城市家庭對住房狀況評價的累積頻數分布順序數據的圖示—累計頻數分布圖

(例題分析)2430013環形圖

(annularchart)環形圖中間有一個“空洞”,總體中的每一部分數據用環中的一段表示環形圖與圓形圖類似,但又有區別圓形圖只能顯示一個總體各部分所占的比例環形圖則可以同時繪制多個總體的數據系列,每一個總體的數據系列為一個環環形圖可用于結構比較研究環形圖主要用于展示分類和順序數據環形圖

(annularchart)環形圖中間有一個“空洞環形圖

(例題分析)8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

甲乙兩城市家庭對住房狀況的評價環形圖

(例題分析)8%36%31%15%7%33%26%3.3數值型數據的整理與顯示一.數據分組二.數值型數據的圖示3.3數值型數據的整理與顯示一.數據分組數據分組數據分組分組方法分組方法等距分組異距分組單變量值分組組距分組分組方法分組方法等距分組異距分組單變量值分組組距分組單變量值分組

(要點)1.將一個變量值作為一組2.適合于離散變量3.適合于變量值較少的情況單變量值分組

(要點)1.將一個變量值作為一組組距分組

(要點)將變量值的一個區間作為一組適合于連續變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組~~~~~組距分組

(要點)將變量值的一個區間作為一組~組距分組

(步驟)確定組數:組數的確定應以能夠顯示數據的分布特征和規律為目的。在實際分組時,可以按Sturges提出的經驗公式來確定組數K確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,即

組距=(最大值-最小值)÷組數

統計出各組的頻數并整理成頻數分布表組距分組

(步驟)確定組數:組數的確定應以能夠顯示數據的分布組距分組

(幾個概念)1.下限(lowlimit):一個組的最小值2.上限(upperlimit):一個組的最大值3.組距(classwidth):上限與下限之差4.組中值(classmidpoint):下限與上限之間的中點值下限值+上限值2組中值=組距分組

(幾個概念)1.下限(lowlimit):頻數分布表的編制

(例題分析)【例】某電腦公司2002年前四個月各天的銷售量數據(單位:臺)。試對數據進行分組。頻數分布表的編制

(例題分析)【例】某電腦公司2002年前四頻數分布表的編制

(步驟)確定組數:根據Sturges提出的經驗公式得組數K為:確定各組的組距:

組距=(237-141)÷10=9.610用Excel制作頻數分布表

頻數分布表的編制

(步驟)確定組數:根據Sturges提等距分組表

(上下組限重疊)等距分組表

(上下組限重疊)等距分組表

(上下組限間斷)等距分組表

(上下組限間斷)等距分組表

(使用開口組)等距分組表

(使用開口組)組距分組與不等距分組

(在表現頻數分布上的差異)等距分組各組頻數的分布不受組距大小的影響可直接根據絕對頻數來觀察頻數分布的特征不等距分組各組頻數的分布受組距大小不同的影響各組絕對頻數的多少不能反映頻數分布的實際狀況需要用頻數密度(頻數密度=頻數/組距)反映頻數分布的實際狀況組距分組與不等距分組

(在表現頻數分布上的差異)等距分組數值型數據的圖示Excel分組數據—直方圖和折線圖數值型數據的圖示Excel分組數據—直方圖和折線圖分組數據—直方圖

(histogram)用矩形的寬度和高度來表示頻數分布的圖形,實際上是用矩形的面積來表示各組的頻數分布在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖直方圖下的總面積等于1分組數據—直方圖

(histogram)用矩形的寬度和高度來分組數據的圖示

(直方圖的繪制)140150210直方圖下的面積之和等于1某電腦公司銷售量分布的直方圖我一眼就看出來了,銷售量在170~180之間的天數最多!190200180160170頻數(天)25201510530220230240分組數據的圖示

(直方圖的繪制)140150210直方圖下的分組數據—直方圖

(直方圖與條形圖的區別)條形圖是用條形的長度(橫置時)表示各類別頻數的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續排列,條形圖則是分開排列條形圖主要用于展示分類數據,直方圖則主要用于展示數值型數據分組數據—直方圖

(直方圖與條形圖的區別)條形圖是用條形的長分組數據—折線圖

(frequencypolygon)折線圖也稱頻數多邊形圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數分布是一致的分組數據—折線圖

(frequencypolygon)折線分組數據的圖示

(折線圖的繪制)折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分布的折線圖190200180160170220230240頻數(天)25201510530分組數據的圖示

(折線圖的繪制)折線圖與直方圖1401502數值型數據的圖示STATISTICA未分組數據—莖葉圖和箱線圖數值型數據的圖示STATISTICA未分組數據—莖葉圖和箱未分組數據—莖葉圖

(stem-and-leafdisplay)用于顯示未分組的原始數據的分布由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉樹葉上只保留一位數字對于n(20n300)個數據,莖葉圖最大行數不超過

L=[10×lg(n)]

6.莖葉圖類似于橫置的直方圖,但又有區別直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息未分組數據—莖葉圖

(stem-and-leafdispl未分組數據—莖葉圖

(例題分析)未分組數據—莖葉圖

(例題分析)未分組數據—莖葉圖

(擴展的莖葉圖)未分組數據—莖葉圖

(擴展的莖葉圖)未分組數據—箱線圖

(boxplot)用于顯示未分組的原始數據的分布箱線圖由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數據的5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)連接兩個四分(位)數畫出箱子,再將兩個極值點與箱子相連接未分組數據—箱線圖

(boxplot)用于顯示未分組的原始未分組數據—單批數據箱線圖

(箱線圖的構成)中位數4681012QUQLX最大值X最小值簡單箱線圖未分組數據—單批數據箱線圖

(箱線圖的構成)中位數46810未分組數據—單批數據箱線圖

(例題分析)最小值141最大值237中位數182下四分位數170.25上四分位數197140150160170180190200210220230240某電腦公司銷售量數據的箱線圖未分組數據—單批數據箱線圖

(例題分析)最小值最大值中位數下分布的形狀與箱線圖

對稱分布QL中位數

QU左偏分布QL中位數

QU右偏分布QL

中位數

QU不同分布的箱線圖分布的形狀與箱線圖對稱分布QL中位數QU左偏分布QL未分組數據—多批數據箱線圖

(例題分析)【例】從某大學經濟管理專業二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學生各科的考試成績數據課程名稱學生編號1234567891011英語經濟數學西方經濟學市場營銷學財務管理基礎會計學統計學計算機應用基礎76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分組數據—多批數據箱線圖

(例題分析)【例】從某大學經未分組數據—多批數據箱線圖

(例題分析)8門課程考試成績的箱線圖未分組數據—多批數據箱線圖

(例題分析)8門課程考試成績的箱11名學生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10學生11未分組數據—多批數據箱線圖

(例題分析)11名學生8門課程考試成績的箱線圖Min-Max25%-75數值型數據的圖示時間序列數據—線圖Excel數值型數據的圖示時間序列數據—線圖Excel時間序列數據—線圖

(lineplot)繪制線圖時應注意以下幾點時間一般繪在橫軸,指標數據繪在縱軸圖形的長寬比例要適當,其長寬比例大致為10:7一般情況下,縱軸數據下端應從“0”開始,以便于比較。數據與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷時間序列數據—線圖

(lineplot)繪制線圖時應時間序列數據—線圖

(例題分析)【例】已知1991~2000年我國城鄉居民家庭的人均收入數據如表。試繪制線圖¥

1991~2000年城鄉居民家庭人均收入年份城鎮居民農村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71926.12091.12162.02210.32254.4時間序列數據—線圖

(例題分析)【例】已知1991~200時間序列數據—線圖

(例題分析)時間序列數據—線圖

(例題分析)數值型數據的圖示多變量數據—雷達圖Excel數值型數據的圖示多變量數據—雷達圖Excel顯示多個變量的圖示方法在顯示或對比各變量的數值總和時十分有用假定各變量的取值具有相同的正負號,總的絕對值與圖形所圍成的區域成正比可用于研究多個樣本之間的相似程度多變量數據—雷達圖

(radarchart)顯示多個變量的圖示方法多變量數據—雷達圖

(radarch設有n組樣本S1,S2,…Sn,每個樣本測得P個變量X1,X2,Xp,要繪制這P個變量的雷達圖,其具體做法是多變量數據—雷達圖

(雷達圖的制作)

先做一個圓,然后將圓P等分,得到P個點,令這P個點分別對應P個變量,在將這P個點與圓心連線,得到P個幅射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示再將同一樣本的值在P個坐標上的點連線。這樣,n個樣本形成的n個多邊形就是一個雷達圖設有n組樣本S1,S2,…Sn,每個樣本測得P個變量X1多變量數據—雷達圖

(例題分析)【例】2000年我國城鄉居民家庭平均每人各項生活消費支出構成數據如表。試繪制雷達圖。今天的主食是面包2000年城鄉居民家庭平均每人生活消費支出構成(%)項目城鎮居民農村居民

食品衣著家庭設備用品及服務醫療保健交通通訊娛樂教育文化服務居住雜項商品與服務39.1810.018.796.367.9012.5610.015.1749.305.754.525.245.5811.1815.473.14多變量數據—雷達圖

(例題分析)【例】2000年我國城鄉居多變量數據—雷達圖

(例題分析)多變量數據—雷達圖

(例題分析)數據類型及圖示

(小結)數據類型及圖示

(小結)頻數分布的類型頻數分布的類型頻數分布的類型對稱分布右偏分布左偏分布正J型分布反J型分布U型分布幾種常見的頻數分布頻數分布的類型對稱分布右偏分布左偏分布正J型分布反J型分布U3.4統計表一.統計表的構成二.統計表的設計3.4統計表一.統計表的構成統計表的結構1999~2000年城鎮居民家庭抽樣調查資料項目單位1999年2000年

調查戶數平均每戶家庭人口平均每戶就業人口平均每戶就業面平均一就業者負擔人數平均每人全部年收入#可支配收入平均每人消費性支出戶人人%元元元元400443.141.7756.431.775888.775854.024615.914222.03.131.6853.671.866316.816279.984998.00資料來源:《中國統計年鑒2001》,中國統計出版社,2001,第305頁。注:本表為城市和縣城的城鎮居民家庭抽樣調查材料。行標題列標題數字資料表頭附加統計表的結構1999~2000年城鎮居民家庭抽樣調查資料項目合理安排統計表的結構總標題內容應滿足3W要求數據計量單位相同時,可放在表的右上角標明,不同時應放在每個指標后或單列出一列標明表中的上下兩條橫線一般用粗線,其他線用細線通常情況下,統計表的左右兩邊不封口表中的數據一般是右對齊,有小數點時應以小數點對齊,而且小數點的位數應統一對于沒有數字的表格單元,一般用“—”表示必要時可在表的下方加上注釋統計表的設計合理安排統計表的結構統計表的設計統計表的設計

(比較與選用)統計表的設計

(比較與選用)統計表的設計

(比較與選用)統計表的設計

(比較與選用)統計表的設計

(比較與選用)統計表的設計

(比較與選用)本章小結數據預處理的內容和目的分類和順序數據的整理與顯示方法數值型數據的整理與顯示方法合理使用統計表用Excel作頻數分布表和圖形本章小結數據預處理的內容和目的結束結束匯報結束謝謝大家!請各位批評指正匯報結束謝謝大家!請各位批評指正82統計學第六版賈俊平第3章統計學第六版賈俊平第3章統計學第六版賈俊平第3章第3章數據的整理與顯示3.1數據的預處理3.2分類和順序數據的整理與顯示3.3數值型數據的整理與顯示3.4統計表統計學第六版賈俊平第3章統計學第六版賈俊平第3章統計學第六版83第3章數據的整理與顯示3.1數據的預處理3.2分類和順序數據的整理與顯示3.3數值型數據的整理與顯示3.4統計表第3章數據的整理與顯示3.1數據的預處理學習目標了解數據預處理的內容和目的掌握分類和順序數據的整理與顯示方法掌握數值型數據的整理與顯示方法用Excel作頻數分布表和形圖合理使用統計表學習目標了解數據預處理的內容和目的3.1數據的預處理一.數據審核二.數據篩選三.數據排序3.1數據的預處理一.數據審核數據的預處理數據的審核檢查數據中的錯誤數據的篩選找出符合條件的數據數據排序升序和降序尋找數據的基本特征數據的預處理數據的審核數據審核數據審核數據審核—原始數據

(rawdata)審核的內容完整性審核檢查應調查的單位或個體是否有遺漏所有的調查項目或指標是否填寫齊全準確性審核檢查數據是否真實反映客觀實際情況,內容是否符合實際檢查數據是否有錯誤,計算是否正確等數據審核—原始數據

(rawdata)審核的內容數據的審核—原始數據

(rawdata)審核數據準確性的方法邏輯檢查從定性角度,審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象主要用于對分類和順序據的審核計算檢查檢查調查表中的各項數據在計算結果和計算方法上有無錯誤主要用于對數值型數據的審核數據的審核—原始數據

(rawdata)審核數據準確性的數據的審核—二手數據

(secondhanddata)適用性審核弄清楚數據的來源、數據的口徑以及有關的背景材料確定數據是否符合自己分析研究的需要時效性審核盡可能使用最新的數據確認是否必要做進一步的加工整理數據的審核—二手數據

(secondhanddata)適數據篩選與排序數據篩選與排序數據篩選

(datafilter)當數據中的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,需要對數據進行篩選數據篩選的內容包括將某些不符合要求的數據或有明顯錯誤的數據予以剔除將符合某種特定條件的數據篩選出來,而不符合特定條件的數據予以剔數據篩選

(datafilter)當數據中的錯誤不能予以糾用Excel進行數據篩選

8名學生的考試成績數據

數據篩選

(datafilter)用Excel進行數據篩選8名學生的考試成績數據數據篩選

數據排序

(datarank)按一定順序將數據排列,以發現一些明顯的特征或趨勢,找到解決問題的線索排序有助于對數據檢查糾錯,以及為重新歸類或分組等提供依據在某些場合,排序本身就是分析的目的之一排序可借助于計算機完成數據排序

(datarank)按一定順序將數據排列,以發數據排序

(方法)分類數據的排序字母型數據,排序有升序降序之分,但習慣上用升序漢字型數據,可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分數值型數據的排序遞增排序:設一組數據為x1,x2,…,xn,遞增排序后可表示為:x(1)<x(2)<…<x(n)遞減排序:可表示為:x(1)>x(2)>…>x(n)數據排序

(方法)分類數據的排序3.2分類和順序數據的整理與顯示一.分類數據的整理與顯示二.順序數據的整理與顯示3.2分類和順序數據的整理與顯示一.分類數據的整理與數據的整理與顯示

(基本問題)要弄清所面對的數據類型,因為不同類型的數據,所采取的處理方式和方法是不同的對分類數據和順序數據主要是做分類整理對數值型數據則主要是做分組整理適合于低層次數據的整理和顯示方法也適合于高層次的數據;但適合于高層次數據的整理和顯示方法并不適合于低層次的數據數據的整理與顯示

(基本問題)要弄清所面對的數據類型,因為不分類數據的整理與圖示分類數據的整理與圖示分類數據的整理

(基本過程)1. 列出各類別2.計算各類別的頻數3.制作頻數分布表4.用圖形顯示數據分類頻數比例百分比比率ABCDE分類數據的整理

(基本過程)1. 列出各類別分類數據的整理

(可計算的指標)頻數(frequency):落在各類別中的數據個數比例(proportion):某一類別數據占全部數據的比值百分比(percentage):將對比的基數作為100而計算的比值比率(ratio):不同類別數值的比值分類數據的整理

(可計算的指標)頻數(frequency)分類數據整理—頻數分布表

(例題分析)【例】一家市場調查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調查。調查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數據用Excel制作頻數分布表綠色健康飲品分類數據整理—頻數分布表

(例題分析)【例】一家市場調查公分類數據的圖示—條形圖

(barChart)用寬度相同的條形的高度或長短來表示各類別數據的圖形有單式條形圖、復式條形圖等形式主要用于反映分類數據的頻數分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖分類數據的圖示—條形圖

(barChart)用寬度相同的條分類數據的圖示—條形圖

(例題分析)分類數據的圖示—條形圖

(例題分析)分類數據的圖示—餅圖

(pieChart)也稱圓形圖,是用圓形及園內扇形的面積來表示數值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結構性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內的各個扇形面積表示,這些扇形的中心角度,是按各部分數據百分比占3600的相應比例確定的分類數據的圖示—餅圖

(pieChart)也稱圓形圖,是用分類數據的圖示—餅圖

(例題分析)分類數據的圖示—餅圖

(例題分析)順序數據的整理與圖示順序數據的整理與圖示順序數據的整理

(可計算的指標)1.累積頻數(cumulativefrequencies):各類別頻數的逐級累加2.累積頻率(cumulativepercentages):各類別頻率(百分比)的逐級累加順序數據的整理

(可計算的指標)1.累積頻數(cumul順序數據的頻數分布表

(例題分析)【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。甲城市家庭對住房狀況評價的頻數分布回答類別甲城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————順序數據的頻數分布表

(例題分析)【例】在一項城市住房問題的順序數據的頻數分布表

(例題分析)乙城市家庭對住房狀況評價的頻數分布回答類別乙城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計300100.0————順序數據的頻數分布表

(例題分析)乙城市家庭對住房狀況評價順序數據的圖示—累計頻數分布圖

(例題分析)243001322252700100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(戶)(a)向下累積27616830300750100200300400

非常不滿意

不滿意

一般

滿意

非常滿意累積戶數(戶)(b)向上累積甲城市家庭對住房狀況評價的累積頻數分布順序數據的圖示—累計頻數分布圖

(例題分析)2430013環形圖

(annularchart)環形圖中間有一個“空洞”,總體中的每一部分數據用環中的一段表示環形圖與圓形圖類似,但又有區別圓形圖只能顯示一個總體各部分所占的比例環形圖則可以同時繪制多個總體的數據系列,每一個總體的數據系列為一個環環形圖可用于結構比較研究環形圖主要用于展示分類和順序數據環形圖

(annularchart)環形圖中間有一個“空洞環形圖

(例題分析)8%36%31%15%7%33%26%21%13%10%

非常不滿意

不滿意

一般

滿意

非常滿意

甲乙兩城市家庭對住房狀況的評價環形圖

(例題分析)8%36%31%15%7%33%26%3.3數值型數據的整理與顯示一.數據分組二.數值型數據的圖示3.3數值型數據的整理與顯示一.數據分組數據分組數據分組分組方法分組方法等距分組異距分組單變量值分組組距分組分組方法分組方法等距分組異距分組單變量值分組組距分組單變量值分組

(要點)1.將一個變量值作為一組2.適合于離散變量3.適合于變量值較少的情況單變量值分組

(要點)1.將一個變量值作為一組組距分組

(要點)將變量值的一個區間作為一組適合于連續變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組~~~~~組距分組

(要點)將變量值的一個區間作為一組~組距分組

(步驟)確定組數:組數的確定應以能夠顯示數據的分布特征和規律為目的。在實際分組時,可以按Sturges提出的經驗公式來確定組數K確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,即

組距=(最大值-最小值)÷組數

統計出各組的頻數并整理成頻數分布表組距分組

(步驟)確定組數:組數的確定應以能夠顯示數據的分布組距分組

(幾個概念)1.下限(lowlimit):一個組的最小值2.上限(upperlimit):一個組的最大值3.組距(classwidth):上限與下限之差4.組中值(classmidpoint):下限與上限之間的中點值下限值+上限值2組中值=組距分組

(幾個概念)1.下限(lowlimit):頻數分布表的編制

(例題分析)【例】某電腦公司2002年前四個月各天的銷售量數據(單位:臺)。試對數據進行分組。頻數分布表的編制

(例題分析)【例】某電腦公司2002年前四頻數分布表的編制

(步驟)確定組數:根據Sturges提出的經驗公式得組數K為:確定各組的組距:

組距=(237-141)÷10=9.610用Excel制作頻數分布表

頻數分布表的編制

(步驟)確定組數:根據Sturges提等距分組表

(上下組限重疊)等距分組表

(上下組限重疊)等距分組表

(上下組限間斷)等距分組表

(上下組限間斷)等距分組表

(使用開口組)等距分組表

(使用開口組)組距分組與不等距分組

(在表現頻數分布上的差異)等距分組各組頻數的分布不受組距大小的影響可直接根據絕對頻數來觀察頻數分布的特征不等距分組各組頻數的分布受組距大小不同的影響各組絕對頻數的多少不能反映頻數分布的實際狀況需要用頻數密度(頻數密度=頻數/組距)反映頻數分布的實際狀況組距分組與不等距分組

(在表現頻數分布上的差異)等距分組數值型數據的圖示Excel分組數據—直方圖和折線圖數值型數據的圖示Excel分組數據—直方圖和折線圖分組數據—直方圖

(histogram)用矩形的寬度和高度來表示頻數分布的圖形,實際上是用矩形的面積來表示各組的頻數分布在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖直方圖下的總面積等于1分組數據—直方圖

(histogram)用矩形的寬度和高度來分組數據的圖示

(直方圖的繪制)140150210直方圖下的面積之和等于1某電腦公司銷售量分布的直方圖我一眼就看出來了,銷售量在170~180之間的天數最多!190200180160170頻數(天)25201510530220230240分組數據的圖示

(直方圖的繪制)140150210直方圖下的分組數據—直方圖

(直方圖與條形圖的區別)條形圖是用條形的長度(橫置時)表示各類別頻數的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續排列,條形圖則是分開排列條形圖主要用于展示分類數據,直方圖則主要用于展示數值型數據分組數據—直方圖

(直方圖與條形圖的區別)條形圖是用條形的長分組數據—折線圖

(frequencypolygon)折線圖也稱頻數多邊形圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數分布是一致的分組數據—折線圖

(frequencypolygon)折線分組數據的圖示

(折線圖的繪制)折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分布的折線圖190200180160170220230240頻數(天)25201510530分組數據的圖示

(折線圖的繪制)折線圖與直方圖1401502數值型數據的圖示STATISTICA未分組數據—莖葉圖和箱線圖數值型數據的圖示STATISTICA未分組數據—莖葉圖和箱未分組數據—莖葉圖

(stem-and-leafdisplay)用于顯示未分組的原始數據的分布由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉樹葉上只保留一位數字對于n(20n300)個數據,莖葉圖最大行數不超過

L=[10×lg(n)]

6.莖葉圖類似于橫置的直方圖,但又有區別直方圖可觀察一組數據的分布狀況,但沒有給出具體的數值莖葉圖既能給出數據的分布狀況,又能給出每一個原始數值,保留了原始數據的信息未分組數據—莖葉圖

(stem-and-leafdispl未分組數據—莖葉圖

(例題分析)未分組數據—莖葉圖

(例題分析)未分組數據—莖葉圖

(擴展的莖葉圖)未分組數據—莖葉圖

(擴展的莖葉圖)未分組數據—箱線圖

(boxplot)用于顯示未分組的原始數據的分布箱線圖由一組數據的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數據的5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)連接兩個四分(位)數畫出箱子,再將兩個極值點與箱子相連接未分組數據—箱線圖

(boxplot)用于顯示未分組的原始未分組數據—單批數據箱線圖

(箱線圖的構成)中位數4681012QUQLX最大值X最小值簡單箱線圖未分組數據—單批數據箱線圖

(箱線圖的構成)中位數46810未分組數據—單批數據箱線圖

(例題分析)最小值141最大值237中位數182下四分位數170.25上四分位數197140150160170180190200210220230240某電腦公司銷售量數據的箱線圖未分組數據—單批數據箱線圖

(例題分析)最小值最大值中位數下分布的形狀與箱線圖

對稱分布QL中位數

QU左偏分布QL中位數

QU右偏分布QL

中位數

QU不同分布的箱線圖分布的形狀與箱線圖對稱分布QL中位數QU左偏分布QL未分組數據—多批數據箱線圖

(例題分析)【例】從某大學經濟管理專業二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學生各科的考試成績數據課程名稱學生編號1234567891011英語經濟數學西方經濟學市場營銷學財務管理基礎會計學統計學計算機應用基礎76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分組數據—多批數據箱線圖

(例題分析)【例】從某大學經未分組數據—多批數據箱線圖

(例題分析)8門課程考試成績的箱線圖未分組數據—多批數據箱線圖

(例題分析)8門課程考試成績的箱11名學生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10學生11未分組數據—多批數據箱線圖

(例題分析)11名學生8門課程考試成績的箱線圖Min-Max25%-75數值型數據的圖示時間序列數據—線圖Excel數值型數據的圖示時間序列數據—線圖Excel時間序列數據—線圖

(lineplot)繪制線圖時應注意以下幾點時間一般繪在橫軸,指標數據繪在縱軸圖形的長寬比例要適當,其長寬比例大致為10:7一般情況下,縱軸數據下端應從“0”開始,以便于比較。數據與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷時間序列數據—線圖

(lineplot)繪制線圖時應時間序列數據—線圖

(例題分析)【例】已知1991~2000年我國城鄉居民家庭的人均收入數據如表。試繪制線圖¥

1991~2000年城鄉居民家庭人均收入年份城鎮居民農村居民19911992199319941995199619971998199920001700.62026.6257

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論