第三章統計整理_第1頁
第三章統計整理_第2頁
第三章統計整理_第3頁
第三章統計整理_第4頁
第三章統計整理_第5頁
已閱讀5頁,還剩64頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2013年第二季度全國星級飯店經營情況整理統計全國有星羅棋布的賓館、旅店,各星級飯店的營業收入、房價、出租率等也高低不等。面對海量的數據,科學的歸類整理,不僅國家旅游局能心中有數,每一位游客也會一目了然。例如,2013年第二季度,全國共有12101家星級飯店(其中,一星級156家,二星級3100家,三星級5774家,四星級2355家,五星級716家);全國星級飯店的平均房價為326.45元(其中,一星級127.77元,二星級151.35元,三星級210.64元,四星級355.89元,五星級699.34元)。相信伴隨著中國經濟的發展,一個能滿足和適宜大眾化休閑旅游的時代必將早日到來。資料來源:國家旅游局,2013-8-31引例第三章統計整理第一節統計整理的基本問題第二節統計整理的審核第三節統計分組第四節統計匯總第五節分布數列第六節統計資料的顯示一、學習目的與要求通過對本章的學習,使同學明確統計整理的概念和程序,認識統計分組的意義和作用,掌握統計分組和變量數列的基本理論和方法,了解統計資料匯總的方法和技巧,了解統計表的結構、種類和制表規則。

二、本章重點、難點本章學習重點是統計分組,變量數列的編制方法;難點是掌握并運用統計分組的種類。三、授課學時:4學時變量次數221232243254263271合計1427232424252525242526262226232223232424242525252526262627第一節統計整理的基本問題

一、統計整理的含義與意義(1)含義統計整理:根據統計研究的目的和要求,對調查所得原始材料進行科學分組與匯總和對以往的材料進行再加工,使之系統化、條理化成為能反映事物總體特征的綜合資料的過程。(2)意義統計整理是整個統計工作和研究過程的中間環節,起者承前啟后的作用,是統計調查的繼續也是統計分析的基礎。統計整理最后的結果就是形成各種統計表格和統計圖。二、統計整理的程序

審核;分組;匯總;制圖表第二節統計整理的審核

對調查資料的進行審核是統計整理的第一步,包括以下內容:一、審核資料的完整性和及時性二、審核資料的準確性三、歷史資料的審查四、資料審查后的修正審核很重要,準確的資料是進行正確統計分析的關鍵。

第三節統計分組

一、統計分組的含義二、統計分組的作用三、統計分組的種類四、統計分組的原則和方法五、分組標志的選擇六、組數、組距、組限、組中值全國人口男性人口女性人口全國人口按性別分組全國人口全國人口按文化程度分組大學人口高中人口初中人口小學人口文盲人口全國人口全國人口按城鄉分組城鎮人口鄉村人口一、統計分組的含義統計分組就是根據統計研究的需要,按照一定的標志,將總體中所有單位劃分為若干個組成部分的一種統計方法。二、統計分組的作用(一)劃分不同的社會經濟現象某地區城鎮居民家庭人均消費構成按商品分類分組構成(%)食品類40.6衣著類4.7家庭設備用品類7.5文化娛樂用品類11.6交通通訊類10.8醫療保健類4.7居住類14.4雜項商品類5.7合計100(二)說明現象總體的內部結構及比例關系

2013年我國國內生產總值568845億元。第一產業增加值占國內生產總值的比重為10%;第二產業增加值比重為43.9%;第三產業增加值比重為46.1%。(第三產業增加值占比首次超過第二產業)(三)分析社會現象之間的依存關系例:中國農民家庭按收入分組的恩格爾系數(2009年)按收入分組(元)低收入戶中低收入戶中等收入戶中高收入戶高收入戶恩格爾系數(%)

47.0045.8843.7040.5434.76

小麥播種量與產量關系播種量(公斤/畝)畝產量(公斤/畝)4.57.51014.5225300290275三、統計分組的種類(一)按分組標志的多少,可分為簡單分組和復合分組。簡單分組就是對研究現象按一個指標進行分組。許多簡單分組從不同角度說明同一個總體,就構成一個平行的分組體系。在許多場合,要用兩個或兩個以上標志分組,即先按一個標志分組,在此基礎上再按第二個標志分組,又再層疊地按第三個標志分成更小的組,這稱為復合分組。例如:全社會固定資產投資基本建設農林牧漁業工業、建筑業商業、運輸郵電業其他行業更新改造房地產投資其他投資(二)按分組指標的性質不同,分為品質分組(屬性分組)和數量分組(變量分組)品質分組是按品質標志進行分組。一般地,對于定類尺度和定序尺度計量的,采用品質分組。例如,企業按經濟類型分組、固定資產按行業分組、人口按性別分組、大學按專業分組等。數量分組是按數量標志進行分組。例如,企業按年銷售收入分組、居民按可支配收入水平分組等。品質分組所形成的數列稱為品質數列,變量分組所形成的數列稱為變量數列。四、統計分組的原則和方法1.統計分組的原則:窮盡原則:使總體中的每一個單位都應有組可歸(每個孩子都有家可歸),或者說各分組的空間足以容納總體所有的單位。互斥原則:就是在特定的分組標志下,總體中的任何一個單位的只能歸屬于某一組,而不能同時或可能歸屬于幾個組。2.統計分組的方法(1)品質分組:按品質標志分組事物本身的屬性特征;統計研究的要求(2)數量分組:按數量標志分組。應注意兩個問題:第一,分組時數量界限的確定必須能反映事物的差別;第二,應根據被研究的現象總體的數量特征,采用適當的分組形式,確定相宜的組距、組限。(A)單項式分組與組距式分組單項式分組:用一個變量值作為一組,形成單項式變量數列。一般適用變動范圍不大的離散型變量。組距式分組:將變量依次劃分為幾段區間,一段區間表現為從“……到……”距離,把一段區間內的所有變量值歸為一組,形成組距式變量數列。區間的距離就是組距。適用于連續型變量或者變動范圍較大的離散型變量。(B)間斷組距式分組和連續組距式分組組距式分組中,每組包含許多變量值,每一組變量值中,其最小值為下限,最大值為上限。組距是上下限之間的距離,相鄰的界限,稱為組限。凡是組限不相連的,稱為間斷組距式分組。凡是組限相連的,即以同一數值作為相鄰兩組的共同界限,稱為連續組距式分組。在連續組距式分組中,存在以同一個數值作為相鄰兩組共同的界限,因此,根據統計分組”互斥原則“,我國統計制度規定,凡是總體某一個單位的變量值是相鄰兩組的界限值,這一單位歸入作為下限值的那一組內,亦稱“上限在不內”原則。(C)等距分組與異距分組按數量標志進行組距式分組,還可以分為等距分組與不等距(異距)分組。等距分組就是標志值在各組保持相等的組距,即各組的標志值變動都限于相同的范圍。凡是在標志值變動比較均勻的情況下,都可采用等距分組。異距分組即各組的組距不相等。一般地,異距分組適用于以下幾個場合:一是標志值分布很不均勻;而是標志值相等的量具有不同意義;標志值按一定比例發展變化。五、分組標志的選擇分組標志:是指將總體劃分為性質不同的組的標準或依據。分組標志選擇的要求:1、要符合統計研究的目的和要求2、必須選擇最主要的標志作為分組依據3、要考慮社會經濟現象所處的具體歷史條件

六、組數、組距、組限、組中值組數:即將總體分為幾組。1、全距=最大標志值-最小標志值

2、組距連續型組距式分組的組距=各組最大標志值(上限)-各組最小標志值(下限)=全距÷組數(等距分組)間斷型組距式分組的組距=各組最大標志值(上限)-各組最小標志值(下限)+1注意:(1)組數的多少取決兩個因素:一是總體的標志變異全距;另一個是組距。在等距分組情況下,組數=全距/組距。(2)在組距既定條件下,全距大則組數多,全距小則組數少;在全距既定條件下,組距大則組數少,組距小則組數多。所以確定組數的關鍵是確定組距。確定組距涉及兩個問題:一是組距的大小;二是組距的形式(等距和異距)3、組數、組距確定的斯特杰斯(美國學者)經驗公式式中,n為組數,N為總體單位數,d為組距,R為全距。根據斯特杰斯經驗公式,可以得出以下的組數的參考標準:N15-2425-4445-8990-179180-359n567894組限和組中值組限:指每組兩端數值。分上限和下限。

上限:每組的終點數值(最大值)

下限:每組的起點數值(最小值)組限的形式與變量的特點密切相關。如果分組標志是連續變量,組限一般重合式;如果分組標志是離散變量,組限一般用不重合式。所謂重合式,就是相鄰兩組中,前一組中的上限與后一組的下限數值相重。如人口年齡為0-1歲,1-3歲,3-7歲,7-14歲…。形式上相重,實際上兩組之間是沒有重復的,一般按”含下限不含上限“或”上限不在組內“的原則處理。所謂不重合式就是前一組的上限與后一組的下限,兩值緊密相連又不重復。組中值是各組上下限之間的中點值,代表組內標志值的一般水平,具有平均數的性質(但不是平均數)。當兩組間的相鄰組限重合時:組距=本組上限-本組下限組中值=(上限+下限)/2

或=下限+組距/2

或=上限-組距/2

當兩組間的相鄰組限不重合時:組距=下組下限-本組下限或=本組上限-前組上限=本組上限-本組下限+1組中值=(本組下限+下一組下限)÷2

或=本組下限+組距/2

或=下組下限-組距/2在組距式分組中,常常會遇見首末兩組”開口“的情況,即第一組用”多少以下“(有上限無下限),最后一組用”多少以上“(有下限無上限)來表示。組中值是以相鄰組組距為依據,按下式計算:組中值=上限-鄰組組距/2

或=下限+鄰組組距/2例如,某企業工人生產定額完成情況,按生產定額完成程度分組分為:90%以下,90%-100%,100%-110%,110%以上。當連續型變量按離散型變量表示時,組距數列的編制采取相鄰組限不重疊的形式,組中值的確定應考慮到連續型變量自身的特點。年齡就是比較典型的例子,是連續型變量,習慣上用整數來表示。例如,一群大學生分為17-19歲、20-22歲兩組組距=20-17=3歲組中值為(20+17)/2=18.5歲和(23+20)/2=21.5歲某研究生班學生按年齡分組年齡人數比重%20-25186025-3093030-35310合計30100下限上限組距=上限-下限=25-20=5(歲)組中值=(上限+下限)/2上限不在本組內80名同學統計成績分布表成績(分)人數(人)比重(%)60以下78.860-702126.270-802531.280-901923.890以上810.0合計80100無下限組組中值=本組上限-臨近組組距/2無上限組組中值=本組下限+臨近組組距/2第四節統計資料匯總一、概念和意義1概念:統計匯總:即在統計分組的基礎上,將統計資料歸并到各組中去,并計算各組和總體的合計數(包括單位總數和標志總量)的工作過程。2意義:揭示出總體的數量特征二、統計匯總的組織形式:1、逐級匯總2、集中匯總3、匯審匯編4、綜合匯總手工匯總計算機匯總第五節頻數分布一、頻數分布基本概念1頻數分布和分布數列的定義在統計分組的基礎上,將總體所有的單位按某一標志進行歸類排列,并計算其相應出現的次數。這樣得到的分布稱為頻數分布或次數分布。頻數分布所形成的一系列反映總體各組之間單位分布狀況的數列,即分布數列。分布在各組的單位數叫次數(頻數)。各組單位數占總體單位數的比重叫頻率。次數和頻率從不同的角度反映了各組標志值出現的頻繁程度,說明總體各單位在各組間的分布。2分布數列的兩個要素一個是總體按某標志所分的組,另一個是各組所出現的單位數,即頻數,亦稱次數。就變量數列而言,總體按數量標志分組,分組標志在各組有不同的數量表現,形成標志值數列,一般用x表示;次數(也稱頻數)用f表示。3頻率將個標志出現的頻數與總體單位總和相除可以得到頻率。即頻率具有以下性質:(1)任何頻率都是介于0和1之間的一個分數,即(2)各組頻率之和等于1,即

4頻數密度和頻率密度頻數密度=頻數/組距頻率密度=頻率/組距各組頻數密度與各組組距乘積之和等于總體單位數,各組頻率密度與各組組距乘積之和等于1。34等距分組與不等距分組等距分組各組次數的多少不受組距大小的影響可直接根據次數(頻數或頻率)來觀察變量的分布特征和規律不等距分組各組次數的多少要受組距大小不同的影響各組次數不能直接反映頻數分布的實際狀況用頻數密度才能比較各組次數分布的實際狀況頻數密度=頻數/組距異距分組的應用分布數列的編制步驟

1.將總體各單位變量值由小到大排列,計算全距。(全距等于最大值減去最小值)

2.確定組距數列的類型(等距或異距)

3.根據總體的特征,確定組數與組距。(組距以5或10的倍數為好)

4.確定組限。(有極值,用開口組)

5.從最小組開始排列,分別計算各組頻數和其它相關指標,形成頻數分布統計表。二、分布數列的編制

下面以一個實例說明變量數列的編制例如,根據抽樣調查,50戶居民的月消費支出資料如下(單位:元):83088012301100118015801210146011701080105011001070137012001630125013601270142011801030870115014101170123012601380151010108608101130114011901260135093014201080101010501250116013201380131012701250首先將這些數據從小到大進行排列,使其序列化:81083086087088093010101010103010501050107010801080110011001130114011501160117011701180118011901200121012301230125012501250126012601270127013101320135013601370138013801410142014201460151015801630對上述資料采用等距分組,分為8組,組距為100,以800為第一組下限,得出計算結果如下表:按戶月消費支出額分組(x)頻數頻率800~90050.1900~100010.021000~110080.161100~1200110.221200~1300110.221300~140070.141400~150040.081500以上30.06合計501三、累計頻數與累計頻率累計頻數(頻率)分為向上累計頻數(頻率)和向下累計頻數(頻率)。編制向上累計頻數(頻率)分布的方法是:先列出各組的上限,然后由標志值低的組向標志值高的組依次累計頻數(頻率)。向上累計頻數表明某組上限以下的各組單位數之和是多少,向上累計頻率表明某組上限以下的各組單位數占總體單位數的比重。編制向下累計頻數(頻率)分布的方法是:先列出各組的下限,然后由標志值高的組向標志值低的組依次累計頻數(頻率)。向下累計頻數表明某組下限以上的各組單位數之和是多少,向下累計頻率表明某組下限以上的各組單位數占總體單位數的比重。按戶月消費支出額分組上限向上累計按戶月消費支出額分組下限向下累計頻數累計頻數頻率累計頻率頻數累計頻數頻率累計頻率900550.10.18005500.111000160.020.129001450.020.911008140.160.2810008440.160.88120011250.220.5110011360.220.72130011360.220.72120011250.220.514007430.140.8613007140.140.2815004470.080.941400470.080.1416002490.040.981500230.040.0617001500.0211600110.020.02合計50

1

合計50

1

累計頻數分布具有如下兩個特點(1)第一組的累計頻數等于第一組本身的頻數;(2)最后一組累計頻數等于總體單位數。累計頻率分布同樣具有兩個特點(1)第一組的累計頻率等于第一組本身的頻率;(2)最后一組累計頻數等于1。四、分布數列的種類(1)按分組標志的不同分為品質數列和變量數列變量數列按其分組方式不同又有兩種:單項式數列組距式數列(等距和異距數列)(2)按次數分布特征分為鐘型分布數列、U型分布數列和J型分布數列鐘型分布數列分為正態分布和偏態分布數列(右偏和左偏)鐘型分布數列指數列中愈靠近變量值中點,分布次數愈多,愈離中點,分布次數愈少,形成“中間大,兩頭小”的次數分布。U型分布數列則正好與鐘型分布數列相反,表現出“兩頭大,中間小”的次數分布。J型分布數列:一是次數隨著變量值的增大而增多;二是次數隨著變量值的增大而減少。鐘型分布(Ⅰ)(Ⅱ)(Ⅲ)U型分布

102030405060708050403020100死亡率(‰)年齡J型分布正J型圖反J型圖第六節統計資料的顯示一、統計表(一)統計表的定義和結構1定義:對統計調查所獲得的原始資料進行整理,得到說明社會現象及其發展過程的數據,并把這些數據按一定的順序排列在表格上,就形成了統計表。統計表可以清楚地、有條理地顯示統計資料,直觀地反映統計分布特征,是統計分析的一種重要工具。2統計表結構從表式和內容兩個方面認識:(1)從表式上看,總標題統計表橫行標題縱欄標題指標數值48表2-122011年我國城鄉居民家庭人均收入及恩格爾系數家庭人均可支配收入恩格爾系數(%)絕對額(元)指數(1978=100)農村居民6977.31046.336.3城鎮居民21809.81063.240.4總標題縱列標題數據橫行標題資料來源:《國家統計數據》http:///workspace/index;jsessionid=A1EF35F4E8A8E6955673334D00CCEF9E?m=hgnd表外附加(表腳)總標題是統計表的名稱,扼要地說明該表基本內容,并指明時間和范圍。置于統計表格正上方。橫行標題是橫行的名稱,一般放在表格左方。縱欄標題是縱欄的名稱,一般放在表格的上方。橫行標題和縱欄標題共同說明填入表格中的統計數據內容。指標數值列在橫行和縱欄交叉處說明總體及其組成部分的數量特征,是統計表格的核心部分。(2)從內容來看:由主詞欄和賓詞欄兩個部分組成表12004年我國進出口情況單位:億美元指標數值比上年增長(%)進出口總額1154835.7出口額593435.4進口額561436(二)統計表的分類1按主詞的結構分類,根據主詞是否分組和分組的程度,分為簡單表、分組表和復合表(1)簡單表:主詞未經任何分組的統計表。表22004年固定資產投資新增主要生產能力情況指標單位數值新增發電機組容量萬千瓦5055新建鐵路投產里程公里1433新建公路公里46411(2)簡單分組表:主詞只按一個標志進行分組形成的統計表。表32004年主要國家進出口情況國家出口額(億美元)比上年增長(%)美國124935.1韓國27838.4日本73532.3(3)復合表:主詞按兩個或兩個以上標志進行分組形成的統計表。2按賓詞設計分類,分為賓詞簡單排列、分組平行排列和分組層疊排列三種。(1)賓詞簡單排列:賓詞不進行任何分組,按一定順序排列在統計表上。(2)賓詞分組平行排列:賓詞欄中各分組標志彼此分開,平行排列。(3)賓詞分組層疊排列:統計指標同時有層次地按兩個或兩個以上標志分組。注意:統計表的主詞分組與賓詞分組有區別:主詞分組的結果使總體分成許多組成部分,需要用統計指標來描述。賓詞分組的結果并不增加總體的組成部分,僅僅是比較詳細地描述總體已有的各個組成部分。(三)統計表的設計1原則:科學、實用、簡明、美觀。2要求:標題醒目準確內容簡明扼要項目排列有序字跡清楚規范(數字按個位數上下對齊,無數填—號,缺報填……號)規格合乎要求(上下粗線,左右開口,欄間劃線,行間空白)計量單位注解或資料來源二、統計圖(一)直方圖直方圖是用直方形的寬度和高度來表示次數分布的圖形。注意:對于不等距式變量數列,通常按頻數(頻率)密度繪制直方圖以表示分布。(二)折線圖在直方圖基礎上,用折線將各組次數高度的坐標連接而成,也可以用組中值與次數求坐標點連接而成。(三)曲線圖

(四)累計曲線圖累計頻數(頻率)不僅可以用表格形式表示,還可以用圖形表示。累計頻數(頻率)分布圖分為向上累計頻數(頻率)分布圖和向下累計頻數(頻率)。不論向上或下,均以分組變量為橫軸,以累計頻數(頻率)為縱軸。在直角坐標系上將各組組距的上限與其對應的累計頻數(頻率)構成坐標點,依次用折線(或光滑曲線)相連,即是向上累計分布圖。對于向下累計頻數(頻率)分布圖,在直角坐標系上將各組組距的下限與其對應的累計頻數(頻率)構成坐標點,依次用折線(或光滑曲線)相連。洛倫茨曲線圖:累計頻數(頻率)分布曲線,可以用來研究財富、土地和工資收入的分配是否公平。這種累計分布曲線圖最早是由美國洛倫茨博士(Dr.M.O.lorenz)提出的。基尼系數,用以衡量收入分配的平等與否。591.定類數據的整理制作頻數分布表用圖形顯示數據列出各類別計算各類別的頻數60定類數據可計算的指標頻數:落在各類別中的數據個數比重:某一類別數據占全部數據的比值比率:不同類別數值的比值61定類數據整理—頻數分布表【例】為研究廣告市場的狀況,一家廣告公司在某城市隨機抽取200人就廣告問題做了郵寄問卷調查,其中的一個問題是“您比較關心下列哪一類廣告?”

1.商品廣告;2.服務廣告;3.金融廣告;4.房地產廣告;5.招生招聘廣告;6.其他廣告。廣告類型人數(人)比重(%)

商品廣告服務廣告金融廣告房地產廣告招生招聘廣告其他廣告1121651910256.08.01.0表2-9某城市居民關注廣告類型的頻數分布62定類數據的圖示—條形圖人數(人)5191610211204080120

商品廣告

服務廣告

金融廣告

房地產廣告

招生招聘廣告

其他廣告廣告類型

圖2-7某城市居民關注不同類型廣告的人數分布63

其他廣告1.0%

房地產廣告8.0%

商品廣告56.0%

金融廣告4.5%

服務廣告25.5%

招生招聘廣告5.8%圖2-8某城市居民關注不同類型廣告的人數構成642.定序數據的整理累計頻數:將各類別的頻數逐級累加累計頻率:將各類別的頻率(百分比)逐級累加65定序數據頻數分布表【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?

1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。

表2-10甲城市家庭對住房狀況評

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論