統計學統計數據整理和顯示課件_第1頁
統計學統計數據整理和顯示課件_第2頁
統計學統計數據整理和顯示課件_第3頁
統計學統計數據整理和顯示課件_第4頁
統計學統計數據整理和顯示課件_第5頁
已閱讀5頁,還剩82頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三章 統計數據的整理和顯示第一節 統計數據整理概述第二節 統計數據分組第三節 頻數分布第四節 數據的顯示本章主要內容第一節 統計數據整理概述一、統計整理及其類型 統計整理:就是對搜集得到的初始數據進行審核、分組、匯總,使之條理化、系統化,變成能反映總體特征的綜合數據的工作過程。包括(1)對統計調查所搜集到的各種數據進行分類和匯總;(2)對現成的綜合統計資料的整理。本章指的是第一種整理。 統計整理的意義: 1、統計整理是整個統計工作和研究過程的中間環節,起著承前啟后的作用。統計整理是統計調查的繼續,又是統計分析的基礎。 2、統計整理還是積累歷史資料的必要手段。二、統計整理的內容審核分組匯總編制

2、統計圖表統計資料整理的步驟第一步,設計和制定統計整理方案。它是對資料整理工作的各個方面各步驟做出具體的安排與規定。第二步,對原始資料進行審核。審核被調查單位的資料是否全部收齊,填報是否缺漏與差錯,發現問題,及時解決,以保證資料匯總計算能順利進行。第三步,對經過審核的資料進行分組、并結合匯總,計算出總體總量指標。第四步,將匯總計算的結果,以統計表或統計圖的形式表現出來。第五步,對統計資料妥善保存,系統積累。 三、統計整理的步驟四、數據的預處理(一)數據的審核1.審核資料的完整性和及時性 審核資料的完整性,就是看調查單位或填報單位是否齊全;規定的項目是否都有答案,應報資料的份數是否符合規定。 審核

3、資料的及時性,是看填報單位是否按時報送了有關資料。對不報、漏報或遲報的現象都要及時查清。2.審核資料的正確性: 審核資料的正確性,是檢查所填報的資料是否準確可靠。常用的審核方法有兩種:(1)邏輯檢查 首先,從理論上或常識上檢查資料是否有悖常理、有無不切實際或不符合邏輯的地方。 其次,是檢查各項目之間有無相互矛盾的地方。(2)計算檢查 即檢查各項指標的計算口徑、計量單位是否符合規定,并通過各種計算方法來檢查各指標間的數字是否相互銜接。3.歷史資料的審核:在利用歷史資料(或其他間接資料)時,應審核資料的可靠程度、指標含義、所屬時間與空間范圍、計算方法和分組條件與規定的要求是否一致。一般可以從調查資

4、料的歷史背景、調查者搜集資料的目的以及資料來源等,來判斷資料的可靠程度,也可以從指標間的相互關系以及指標的變動趨勢來檢查它的正確性。(二)資料審核后的訂正通過上述審核,如發現有缺報、缺份和缺項等情況,應及時催報、補報;如有不正確之處,則應分別不同情況作如下處理:(1)對于可以肯定的一般錯誤,應及時代為更正,并通知原報單位。(2)對于可疑之數或無法代為更正的錯誤,應要求原單位復查更正。(3)如果所發現的差錯在其他單位也可能發生時,應將錯誤情況通報所有單位,以免發生類似錯誤。(4)對于嚴重的錯誤,應發還重新填報,并查明發生錯誤的原因,若屬于違法行為,則應依法嚴肅處理。第二節 統計數據的分組一、統計

5、分組的概念 統計分組就是根據統計研究的需要,將統計總體按照一定的標志分為若干個組成部分的一種統計方法。 統計分組具有兩個方面的含義:對總體而言,是“分”,即將同質總體區分為性質有別的不同組成部分;對總體單位而言,它是“組”,即將性質相同或相近的不同總體單位組合在一起,構成一個組。 二、統計分組的原則(1)窮盡性原則(2)互斥性原則。三、統計分組的作用統計分組的主要作用具體表現在以下幾個方面。(一)區分現象的不同類型各種現象千差萬別,多種多樣,并在其發展中表現出不同的性質和特征。通過統計分組,就可以將不同類型現象的性質和特征區分開來,并且經過比較和研究,揭示其發展變化的規律,達到深刻認識總體的目

6、的。 1997年社會固定資產投資分布情況資料來源:1997年國民經濟和社會發展統計公報,國家統計局(二)研究總體的內部結構 按照某種標志將總體劃分為若干個不同的組,可以計算出各組數值在總體中所占的比重,或各組之間的比例關系,從而反映出總體的結構狀況,加深對現象總體的認識。 例如 按照地理位置不同將我國劃分為東部、中部和西部三個地區,可以觀察東、中、西三個不同地區經濟發展水平和經濟資源的差異,以及它們在整個國民經濟中所處的不同地位;對人口按照文化程度分組,計算大學及大學以上、大學肄業及在校、高中、初中、小學、不識字或識字很少各組人口所占的比重,就能反映社會人口的文化素質構成情況。如果將不同時期的

7、同一總體的結構相互比較,還可以揭示出總體現象的發展變化規律。 表32 三次產業增加值結構變化資料來源:中國統計年鑒2003年中國發展報告,國家統計局2003年版,中國統計出版社。從表中可以看出,我國19982002年,年均增長7.7%,其中第一產業增加之年均增加2.9%,第二產業、第三產業增加值分別增長8.9%和8.0%。反映在結構中,第一產業比重下降,二、三產業比重上升。其中第一產業比重從1997年的19.1%下降到2002年的14.5%,下降了4.6個百分點;第二產業從50%提高到51.8%,上升了1.8個百分點;第三產業從30.9%提高到33.7%,上升了2.8個百分點。它反映著我國產業

8、結構的變化發展過程。(三)分析現象間的依存關系 一切事物都是普遍聯系、相互依存的。一種現象的表現,既是它與其他現象相互作用的結果,也會對其他現象的表現產生一定的影響。通過統計分組,可以反映出現象之間的這種依存關系。 例如 將商品流通企業按照流轉額分組,可以觀察商品流通企業的規模與商品流轉費用率之間的關系;將農作物播種面積按施肥量分組,用以觀察農作物單產與施肥量之間的關系;將人口按人均收入分組,以觀察收入與儲蓄之間的關系等等。表33就反映了我國電力增長與國內生產總值()增長之間的依存關系。 表33 我國與部分發達國家高技術產業增加值率的比較四、分組的種類按分組標志的多少簡單分組復合分組簡單分組:

9、對研究現象按一個標志進行分組。復合分組:用兩個或兩個以上標志對研究現象進行分組。進行復合分組時,要先按照最重要的標志進行第一次分組,然后依次按照重要程度進行以下各級的分組。選擇的標志越多,組數就成倍增加,而各組內的單位數則遞減。復合分組時,選擇標志的數目不宜過多。按分組標志的性質劃分品質分組:按照品質標志進行的分組,反映總體內不同性質個體所組成的各部分的分組情況。各分組標志都用文字來表述,而不能數量化。如人口性別,居住區數量分組:按照數量標志進行的分組,反映各單位在某一數量特征上的不同等級,這些數量特征都是可以量化的,都能進行數量的比較或運算,這些特征要用數字來表示。如年齡,銷售額。按分組組距

10、類型劃分等距分組:變量值在各組保持相等的組距。異距分組:變量值在各組采用了不同的組距。前者常用于數值變化比較均勻的情況,后者常用于數量變化比較劇烈的情況。五、統計分組的方法 統計分組的關鍵問題是正確地選擇分組標志與劃分各組界限。前者主要是指品質標志分組,后者主要是指數量標志分組。(一)分組標志選擇的原則要選擇能夠反映事物本質或主要特征的標志 應根據研究的目的與任務選擇分組標志 根據現象所處的歷史條件的變化選擇分組標志(二)統計分組的方法按品質標志分組按數量標志分組 1、品質分組的方法例如,人口按性別分為男女兩組; 高校學生按學科分為文理科兩類。2、數量分組的方法分組需要注意的問題:(1)分組時

11、各組數量界限的確定必須能反映事物質的差別;(2)應根據被研究的現象總體的數量特征,采用適當的分組形式,確定相宜的組距、組限。單項式分組與組距式分組單項式分組就是用一個變量值作為一組,形成單項式變量數列。例如,育齡婦女按其生育子女存活數分組,可分為0個、1個、2個、3個、4個、5個等6組。一般適用于離散型變量且變量變動范圍不大的場合。組距式分組就是將變量依次劃分為幾段區間,一段區間表現為”從 到 “距離,把一段區間內的所有變量值歸為一組,形成組距式變量數列。例如,反映居民居住水平情況按人均居住面積分組分為:4平方米以下,46平方米, 68平方米, 8平方米以上等4組。適用于連續型變量或者變動范圍

12、較大的離散型變量。間斷組距式分組和連續組距式分組凡是組限不相連的分組,稱為間斷組距式分組。例如,兒童按年齡分組分為:未滿1歲,12歲,3 4歲,5 9歲,10 14歲。凡是組限相連(或稱相重疊的),即以同一數值作為相鄰兩組的共同界限,稱為連續組距式分組。例如,工人按工時定額完成程度分組為90 100,100 110,110 120等組。介紹上限、下限、組距、組限。組距式變量數列中,每組區間兩端的極值稱組限。每一組的兩個組限中,較大者叫上限,較小者叫下限。如果各組的組限都齊全,成為閉口組;組限不齊全,即最小組缺下限或最大組缺上限,稱為開口組。“上限不在內”原則變量值只是在整數之間變動的離散型變量

13、,可采用間斷式組距分組,也可采用連續組距式分組。如果變量值在一定范圍內的表現即可以是整數,也可以是小數等連續型變量,只能采用連續組距式分組。等距分組與異距分組等距分組就是標志值在各組保持相等的組距,即各組的標志值變動都限于相同的范圍。凡是標志值變動比較均勻的情況下,都可采用等距分組。例如,工人的年齡,工齡、工資的分組等。凡是標志值在各組的組距不相等的,稱為異距分組。適用范圍:標志值分布很不均勻的場合;標志值相等的量具有不同意義的場合;例如,生命的每一個月對于新生嬰兒和對于成年人是大不一樣的。年齡分組:1歲以下按月分組,110歲按年分組,1120歲按5年分組,21歲以上按10年或20年分組等。標

14、志值按一定比例發展變化的場合。例如,大城市的百貨商店營業額差別:從5萬到5千萬,可采取公比為10的不等距分組:5 50萬,50 500萬,500 5000萬。六、統計分組體系 簡單分組與平行分組體系將社會經濟總體只選擇一個標志分組稱為簡單分組。對同一總體選擇兩個或兩個以上的標志分別進行簡單分組,排列起來,即成為平行分組體系。 復合分組與復合分組體系復合分組是用兩個或兩個以上分組標志重疊起來對總體進行的分組。例如 如果多個復合分組組成的體系就形成了復合分組體系。例如同時選擇學科、本科或專科、性別三個標志進行復合分組 .(一)組距 組距是各組上下限之間的距離,即各組最大標志值與最小標志值之差。在連

15、續組距分組中:組距上限下限在間斷組距式分組中:組距本組上限前組上限(或=本組下限前組下限 或本組上限本組下限1)例如,商店規模按職工人數分組,分為:15人,6 10人,11 15人,等等。七、組距、組數與組中值的計算(二)組數 全距是總體中最大的標志值與最小的標志值之差。 組數的多少直接取決于兩個因素,一個是總體的全距,另一個是組距。在等距分組的條件下,組數等于全距除以組距。在組距既定的條件下,全距大則組數多,全距小則組數少;在全距既定的條件下,組距大則組數少,組距小則組數多。 美國學者斯特杰斯創造了斯特杰斯經驗公式:(三)組中值組中值:各組中點位置所對應的變量值。其計算公式為:組中值= (適

16、用所有閉口組) 或= (適用上開口組) 或= (適用下開口組)第三節 分配數列一、分配數列的概念與種類 二、分配數列的編制方法三、次數分布的類型一、頻數分布(一)頻數分布 在統計分組的基礎上,將總體所有的單位按某一標志進行歸類排列,并計算各組的單位數稱為頻數分布,或次數分布。(二)頻數分布的兩個要素1.組別:總體按某標志所分的組 2.頻數(次數)和頻率:各組的單位數叫頻數,各組的單位數與總體單位總數之比叫頻率。頻率具有如下兩個性質:(1)各組頻率都是界于0和1之間的一個分數。即:(2)各組頻率之和等于1 。即(三)頻數分布的種類頻數分布品質頻數分布變量頻數分布單項數列組距數列1.品質頻數分布:

17、簡稱為品質數列,它是經過屬性分組后形成的頻數分布,其組別表現為一系列的概念或范疇。2.變量頻數分布:簡稱為變量數列,它是經過變量分組后形成的分布數列,其組別表現為不同的數值或數域。單項數列:是以一個變量值為一組編制的變量頻數分布。組距數列:是以表示一定變動范圍的兩個變量值構成的組所編制的變量頻數分布。二、變量數列的編制方法舉例說明:某工廠生產車間人工人日產量原始數據如下:20 21 21 24 23 22 20 21 22 2324 20 24 21 22 22 23 24 22 2122 23 22 21 21 22 22 23 22 23 單項式變量數列,可以直接將每一變量值作為一組,匯總

18、計算各組相應的單位數(次數),并采用表格形式列示即可,例如表36表36 某工廠生產車間工人按日產量分布(各組變量值) (次數) (頻率)組距變量數列的編制例1對某企業30個工人完成勞動定額的情況進行調查,某原始資料如下(%) 98 81 95 84 93 86 91 102 100 103105 100 104 108 107 108 106 109 112 114109 117 125 115 120 119 118 116 129 113 第一步:計算全距。(將各變量值由小到大排序,確定某最大值,最小值,并計算全距。) 81 84 86 91 93 95 98 100 100 102103

19、 104 105 106 107 108 108 109 109 112113 114 115 116 117 118 119 120 125 129變量的最大值是129%最小值是81%全距 = 最大值 - 最小值=129% - 81 48%第二步:確定組數和組距組距和組數的確定沒有順序規定,即可以先根據數據的變化特征確定組數,也可以在事先對研究對象的性質比較了解的情況下,先確定組數,然后確定組距,但組數必須是整數。在等距分組時,組距與組數的關系是: 本例中的數據為勞動定額的完成情況,屬于工作成績的評定。根據一般將成績分成優、良、中、及格和不及格的五檔評分習慣,可以先確定組數為5。在等距分組時

20、,計算組距如下: 為了符合習慣和計算方便,組距近似地取10%。第三步:確定組限第一,最小組的下限(起點值)應低于最小變量值,最大組的上限(終點值)應高于最大變量值。第二,組限的確定應有利于表現出總體分布的特點,應反映出事物質的變化。第三,為了方便計算組限應盡可能取整數,最好是5或10的整倍數。第四,由于變量有連續型變量和離散型變量兩種,其組限的確定方法是不同的。 第四步:編制頻數(頻率)分布表。計算本例中各組的頻數(工人數)和頻率,編制某企業30個工人勞動定額完成情況的分布表37表37 某企業30個工人勞動定額完成情況分布圖表從此表可以看到,30名工人中,勞動定額完成主要集中在100%120%

21、之間,占66.7%,在變量數列中標志值構成的數列表示標志值的變動幅度,而頻數構成的數列則表示相對的作用程度。頻數愈大則組的標志值對于全體標志水平所起的作用也愈大;反之,頻數愈小則各組標志值所起的作用也愈小。因此,在整理和分析的時候,我們不但要注意各組標志值的變動范圍,而且,也要注意各組標志的作用大小,即頻數的大小。將各組單位數和總體單位數相比既可以表明各組標志值對總體的相對作用程度,也可以表明各組標志,也可以表明各組標志值出現的頻率的大小。第五步:計算累計頻數和累計頻率為了更詳細的認識變量的分布特征,還可以計算累計頻數和累計頻率,編制累計頻數和累計頻率數列。累計頻數和累計頻率有向上累計頻數(頻

22、率)和向下累計頻數(頻率)兩種。向上累計數的意義是:小于各組的該組上限的各組的頻數或頻率之和;相反,由變量值大的組向變量值小的組累計各組的頻數或頻率,稱為向下累計頻數或向下累計頻數。向下累計數的意義是:大于及等于該組下限的各組的頻數或頻數或頻率之和。 根據某企業工人完成勞動定額的資料編制的向上累計頻數(頻率)和向下累計頻數(頻率)分布如表38。 分布曲線在平面直角坐標系上,以分組標志為橫軸,次數或者頻率為縱軸,可以畫出次數分配的直方圖。 洛倫茲曲線考察一個社會中不同個體收入水平的差異,將個體按收入水平從低到高進行排列,并計算各收入段的累積頻率,并將這一結果繪在圖上,可以獲得一條嚴格向下凹的曲線

23、此曲線可用于顯示社會的不公平程度,稱為洛倫茲曲線數據示例收入不公平情況洛倫茲曲線基尼系數不公平面積與下三角形面積之商反映不公平程度的大小,取值區間在01之間。其中:PI:各組的人數比重:各組的收入比重Ii:各組的收入累積比重N:組數基尼系數的實踐 按照國際通常標準, 基尼系數在0.3以下為最佳的平均狀態, 在0.30.4之間為正常狀態, 超過0.4為警戒狀態, 達到0.6則屬于危險狀態。 來自國家統計局的數據顯示,從2000年開始,我國的基尼系數已越過0.4的警戒線,2006年升至0.49。改革開放以來我國歷年基尼系數三、次數分布的主要類型圖31圖32次數分布的主要類型鐘形分布 J形分布 U形

24、分布正J形分布 反J形分布 四、頻數分布的類型(一)鐘型分布 鐘型分布的特征是“兩頭小,中間大”,即靠近中間的變量值分布的次數多,靠近兩邊的變量值分布的次數少,其曲線圖宛如一口鐘,如下圖所示。1鐘型分布鐘形分布是社會經濟現象中最常見的分布形式,具體表現為中間隆起,兩側逐漸降低。鐘形分布表明數據具有集中的趨勢,大多數數據集中在中間,越往兩端,數據越少。在遠離中心的位置,只有極少數的數據。鐘形分布的中間隆起部分稱為峰,兩側稱為尾。 (a)正態分布(b)偏態分布正偏(右偏)負偏(左偏) 如圖(a)所示,其分布特征是以標志變量中心為對稱軸,左右兩側對稱,兩側變量值分布的次數隨著與中間變量值距離的增大而

25、漸次減少。在統計學中,稱這種分布為對稱分布。 而圖(b)為非對稱分布,它們各有不同方向的偏態,即左偏態分布和右偏態分布。客觀實際中,許多社會現象統計總體的分布都趨于對稱分布中的正態分布。正態分布是描述統計中的一種主要分布,它在社會經濟統計分析中具有重要的意義。(三)J型分布 J型分布有兩種類型,一種是次數隨著變量的增大而增多,如投資按利潤率大小分布。另一種 呈反J型分布,即次數隨著變量增大而減少,如隨著產品產量的增加,產品單位成本下降。如下圖(c)(二)U型分布 U型分布的形狀與鐘型分布相反,靠近中間的變量值分布次數少,靠近兩端的變量值分布次數多,形成“兩頭大,中間小”的U型分布。如人口死亡率

26、分布,人口總體中,幼兒和老人死亡率高,而中青年死亡率低。如下圖(d)。(c)J形分布正J形反J形(d)U形分布第四節 統計數據的顯示統計表 統計表的概念和結構 統計表是表現統計資料的一種形式。把經過大量調查得來的統計資料,經過匯總整理以后,按照一定的規定和要求填列在相應的表格內,就形成了一定的統計表。統計表的結構,從外表形式上看,是由四部分構成 從統計表的內容來看,由主詞和賓詞兩個部分組成。主詞是統計表所說明的總體,總體的各組或各組的名稱。賓詞是用于說明主詞的各種指標。表39 某地區1999年工業總產值按輕重工業分組表 統計表的編制規則 統計表應遵循科學、實用、簡練、美觀的原則進行設計。 1、

27、統計表通常應設計成由縱橫交叉線組成的長方形表格,長寬之間應保持適當的比例。2、統計表的總標題要用概括、簡練的文字說明表的內容,并在總標題內或在其下注明資料所屬的時間、地點和單位。3、統計表的主詞各行和賓詞各欄,一般應按先局部后整體的原則排列,即先列各項目,再列總計。如果沒有必要列出所有項目時,可以先列總計,而后再列其中一部分重要的項目。 4、統計表的上下兩端用粗線或雙線繪制,在有些需要明顯分隔的部分也應用粗線或雙線,其他則用細線。在橫行和合計欄、橫行與縱欄標題間要劃線。表的左右兩端應是開口的,不得劃線。5、統計表中如果欄目較多,可以加以編號:一般主詞的計量單位欄用(甲)、(乙)、(丙)等次序編號,賓詞各欄用(1)、(2)、(3)等次序編號。若各欄中統計指標有一定的計算關系,還可以用算式表示之。如表419。6、統計表中的數字要注明計量單位。如果表中的數字屬同一計量單位,可將計量單位標在表的右上方,如表313;如果賓詞的計量單位不同,可直接標注在指標名稱的旁邊或下方;如果主詞的計量單位不同,可在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論