




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三章 統計整理,學習要求:明確統計整理在統計研究中承前起后的地位;掌握分組的方法,認識統計分布是統計整理的重要表現形式;學會統計表的編制并能熟練地運用。 3.1 統計整理概述 3.2 統計數據的預處理 3.3 統計分組 3.4 統計表和統計圖 思考和練習,3.1 統計整理概述,3.1.1 統計整理的概念和意義 1、概念:是指根據統計研究任務的要求,對調查所搜索的原始資料進行分組、匯總,使其條理化、系統化的工作過程。 2、意義 (1)對原始資料進行科學分類、加工整理、去粗取精、去偽存真、由表入里、綜合概括,取得綜合反映總體數量特征的數據資料。 (2)統計資料整理的質量直接影響到統計分析的效果。
2、,3.1.2 統計整理的過程 (1)數據的預處理:包括數據審核、篩選和排序; (2)分組和匯總; 分組就是根據整理的目的要求,按照規定的標志進行區分若干組成部分的一種統計方法。(科學的分組是搞好統計整理的前提條件) 匯總是對分組后的各項指標進行匯總,并計算各組的單位數和合計數,計算出說明總體和各組情況的統計指標數值。 (3)編制統計表(頻數分布表)和繪制統計圖(如餅圖、直方圖等)。,3.1.3 統計整理的技術選擇 (1)手工匯總:較原始的匯總方法,以算盤、計算器、卡片等工具為手段,通過手工操作對統計資料進行匯總。主要有劃記法、過錄法、折疊法和卡片法,由于速度較慢逐漸被淘汰。 (2)計算機匯總:
3、采用計算機等信息化技術對統計資料進行匯總。具有速度快、精度高、存儲數據多、強大的邏輯運算能力和便于聯網實現信息共享等優點。,計算機匯總的步驟: (1)選擇匯總工具如SPSS等統計軟件; (2)編碼:根據計算機程序,將漢字信息數字化; (3)錄入數據:將原始數據通過錄入設備錄入到計算機的存儲介質中; (4)數據編輯:對原始數據進行分析、比較和篩選、整理; (5)計算與制表:計算各項綜合指標,將運算結果制表,并打印。,3.2 數據的預處理,數據的預處理包括數據審核、篩選和排序等。 3.2.1 數據審核 1、完整性審核和及時性審核; 完整性審核:檢查應調查的單位或個體是否有遺漏,所有的調查項目或指標
4、是否填寫齊全。 及時性審核:看填報單位是否及時報送了有關資料。 2、準確性審核:檢查數據是否真實反映客觀實際情況,內容是否符合實際,檢查數據是否有錯誤,計算是否正確等。,準確性審核的方法: 邏輯檢查:從定性角度,審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象,P47例子。 計算檢查:檢查調查表中的各項數據在計算結果和計算方法上有無錯誤。如檢查是否等于三大產業產值之和。 3、歷史資料的審核:弄清楚數據的來源、數據的口徑以及有關的背景材料,確定這些數據是否符合自己分析研究的需要。 4、數據審核后的訂正。P47,數據審核,數據篩選的內容包括: (1)將某些不符合要求的數據或有
5、明顯錯誤的數據予以剔除; (2)將符合某種特定條件的數據篩選出來,而不符合特定件的數據予以剔除。P47例子 3.2.3 數據的排序 1、數據的計量尺度和數據類型。 例:某工廠職工幾個變量的調查結果,3.2.2 數據篩選,(1)定類尺度 定類尺度也稱列名尺度,它是最粗略、計量層次最低的計量尺度,它上按照事物的某種屬性對其進行平行的分類或分組。采用這種方法進行觀測得到的結果稱為定類數據。如上例中“性別”是定類尺度變量,“男”為定類數據。 (2)定序尺度 定序尺度也稱順序尺度,它是事物之間等級差別或順序差別的一種測度。與定類尺度相比較,定序尺度能夠比較這些類別的優劣。采用這種方法進行觀測得到的結果稱
6、為定序數據。如上例中“最高學歷”是定序尺度變量,“碩士研究生”為定序數據。,(3)定距尺度 定距尺度也稱間隔尺度,它不僅能將事物分為不同類型并進行排序,而且可以準確地指出類別之間的差距是多少。與定序尺度相比較,定距尺度可以準確的指出類別間的差距是多少。定距尺度沒有絕對的點,“”并不意味著不存在或沒有(如溫度)。采用這種方法進行觀測得到的結果稱為定距數據。如上例中“計算機能力測試成績”是定距尺度變量,“90分”為定距數據。 (4)定比尺度 定比尺度也稱比率尺度,它與定距尺度屬于同一層次,其計量的結果也表示為數值。 與定距尺度相比較,定比尺度有絕對固定的零點。如計量人數時,把“沒有人”規定為0;測
7、量物體的長度時,把測量的起始點規定為0。采用這種方法進行觀測得到的結果稱為定比數據。如上例中“月收入”和“身高”是定比尺度變量,“3000元”和“170cm”為定比數據。,2、數據的排序 (1)定類數據的排序 字母型數據,排序有升序降序之分,但習慣上用升序。 漢字型數據,可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分,如姓名的排序。 (2)定距和定比數據的排序 升序排序:設一組數據為X1,X2,XN,遞增排序后可表示為:X(1)X(2)X(N)。P48例子。,3.3 統計分組,3.3.1 統計分組的概念和作用 1、概念:指根據統計研究的目的,將總體按一定標志區分為不
8、同類型或不同性質的組,使組與組之間有明顯差異性,而在同一組內的單位具有相對的同質性。 (1)對總體而言是“分”,即將總體區分為性質相異的若干組成部分; (2)對個體而言是“合”,即將性質相同的個體組合起來。 (統計分組的關鍵是分組標志的選擇),2、統計分組的意義: (1)劃分現象的不同類型,并反映各類型組的數量特征;P50表3-8 (2)說明現象的內部結構;P50表3-9 (3)揭示現象之間的依存關系。P51表3-10,3.3.2 統計分組標志的選擇和分組類型,1、分組標志的選擇 分組標志:進行統計分組時所依據的標準。 選擇分組標志時要注意三點: (1)要根據研究問題的目的來選擇; 例1:如對
9、同一職工總體,研究任務是分析職工的文化素質,則應選擇職工的文化程度作為分組標志,觀察具有大學、大專、高中、初中、小學等文化程度的有關數據。 例2:若研究的是職工的勞動能力,應選擇年齡作為分組標志,觀察職工的年齡構成情況。 由上例可知:分組標志會隨著統計研究的目的、任務不同而變化。,分組標志的選擇,(2)要選擇能夠反映研究現象本質特征的分組標志; 例3:根據統計調查資料來研究人民生活水平變動情況時,可供選擇的分組標志有家庭人口數、每戶就業人數、每一就業者負擔人數、家庭總收入、平均每人每月生活費收入等,其中最能反映人民生活水平變動的標志是:平均每人每月生活費收入,應選擇這一標志作為分組標志。 (3
10、)要結合現象所處的具體歷史條件或經濟條件來選擇。 例4:同是劃分企業規模,在勞動密集型的行業或地區,可采用職工人數作為分組標志;而在技術密集型的行業或地區,則應選擇固定資產價值或生產能力作為分組標志。,2、分組類型 統計分組有按品質標志分組和按數量標志分組這兩種。 按品質標志分組:即按照事物的品質特征進行分組,如人口按性別、民族、文化程度等進行分組; 按數量標志分組:即按照事物的數量特征進行分組,如人口按年齡、企業按產值分組。 3、簡單分組、復合分組及分組體系 (1)簡單分組:總體只按某一個標志所進行的分組。 (2)復合分組:總體按兩個或兩個以上的標志層疊起來進行的分組。,例如:對全國的工業企
11、業進行 簡單分組: 按所有制類型分:全民所有制企業、集體所有制企業 按輕重工業分:重工業、輕工業 按企業規模大小分:大型企業、中型企業、小型企業 復合分組:,大型企業,統計分組體系:指采用一系列相互聯系、相互補充的標志進行多種分組,構成體系。 有兩種形式: 平行分組體系:對同一總體選擇兩個或兩個以上的標志分別進行簡單分組。P52圖3-3 特點:每個組個總體單位只有一個標志固定相同,其他標志不完全相同。 復合分組體系:對同一總體選擇兩個或兩個以上的標志層疊起來進行分組。P52圖3-4,3.3.3 統計分組的過程,統計分組方法,1、單變量值分組 (1)將一個變量值作為一組; (2)適合于離散變量;
12、 (3)適合于變量值較少的情況。 例:,2、組距分組 (1)要點 將變量值的一個區間作為一組; 適合于連續變量; 適合于變量值較多的情況; 必須遵循“不重不漏”的原則; 可采用等距分組,也可采用不等距分組。,等距分組:各組組距相等,適用于標志變異比較均勻的現象,如學生成績60分以上者,每增加10分就進入一個檔次,身高、體重也可采用等距分組。 異距分組:各組組距不相等,適用于: (1)有許多社會經濟現象的分布存在明顯的偏斜狀況時,如人口總體按年齡分布,80歲以上的高壽者在總人口中所占比重較小,故分組時80歲以下可按10歲組距分組,80歲以上的組距就應擴大。 (2)某些社會經濟現象的標志變異范圍較
13、大,其變量值若按一定比例關系變化的話,可按等比間隔分組編制異距數列。如鋼鐵廠高爐按容積(m3)的異距分組為:100以下,100-200,200-400,400-800,800-1600,1600以上,其組距間隔等比為2。,組距分組還可以分為重合式分組和不重合式分組。 重合式分組:相鄰兩組中,前一組的上限與后一組的下限數值相重,適合于分組標志是連續變量時; 不重合式分組:相鄰兩組中,前一組的上限與后一組的下限,兩值緊密相連而又不相重復。如企業人數可分為99人以下,100-499人,500-999人,1000人及以上各組,這里99與100,499與500,999與1000都是緊密相連的,當中不可能
14、有第三個數存在,所以使用不重合式分組。,(2)組距分組步驟 確定全距R=Xmax Xmin; 確定組數:組數的確定應以能夠顯示數據的分布特征和規律為目的。在實際分組時,可以按 Sturges 提出的經驗公式來確定組數K; 組數一般情況可分為5-15組,盡可能取奇數。,確定各組的組距:組距(Class Width)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,在等距分組情況下,組距R/K; 確定各總體單位的歸屬 遵循“不重不漏”原則和“上限不在內原則”。,“不重”:指一項數據只能分在期中的某一組,不能再其他組中重復出現; “不漏”:指組別能窮盡,即在分組中每一項都能
15、分在某一組,不能遺漏; “上限不在內”:遇到某單位的標志值剛好等于相鄰兩組上下限時,一般把此值歸并到作為下限的那一組。 根據分組整理成頻數分布表。 (4)組距分組幾個概念 組限:組與組之間的數量界限,包括下限和上限; 下限L:一個組的最小值; 上限U:一個組的最大值; 組距d:d=U-L,分組時組距宜取5或10的倍數。,1、分布數列的概念:在統計分組的基礎上,將總體的所有單位按組歸類整理,并按一定順序排列,形成總體中各單位在各組間分布的次數,該數列稱為分布數列。 2、分布數列包括兩個要素:(1)各組別 ;(2)分布在各組的單位數,稱為頻數。 按分組標志不同,分布數列分為品質數列和變量數列兩種。
16、 品質數列:反映總體屬性分布狀況的數列;P54表3-12 變量數列:反映總體某一數量分布狀況。 變量數列按每組變量值是否存在變動范圍可分為單項式(表3-13)和組距式數列(表3-14)。,3.3.4 分布數列,4、分布數列相關概念 (1)頻率=各組次數/總次數100%,頻率大小表明各組標志值對總體的相對重要程度。 (2)組中值: 閉口組:組中值=(上限+下限)/2; 缺下限的開口組:組距數列的首組出現“*以下”,組中值=上限-相鄰組組距/2; 缺上限的開口組:組距數列的末組出現“*以上”,組中值=下限+相鄰組組距/2。,練習:企業按凈產值分組為:單位(萬元) 10以下 10-20 20-30
17、計算首組和末組的組中值。 30-40 40-70 70以上,首組組中值=10-10/2=5(萬元) 末組組中值=70+30/2=85(萬元),(3)累計次數分布:包括向上累計和向上累計。 向上累計:把變量值按照變量數列從小到大順序排列,由變量值低的組向變量值高的組逐組累計的過程; 某組的向上累計頻數(頻率)等于該組和該組之上的所有組別的頻數(頻率)之和。 向下累計:把變量值按照變量數列從小到大順序排列,由變量值高的組向變量值低的組逐組累計的過程; 某組的向下累計頻數(頻率)等于該組和該組之下的所有組別的頻數(頻率)之和。,思考:加工零件在120件以上的工人和120以下的工人各有多少?所占比例各
18、為多少?,5、直方圖的制作方法 用矩形的寬度和高度來表示頻數分布的圖形,實際上是用矩形的面積來表示各組的頻數分布; 在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數或頻率就形成了一個矩形,即直方圖(Histogram); 在等距分組時,若取矩形寬度(各組組距)為1個單位,高度表示頻率,則直方圖下的總面積等于1,即頻率的總和。 練習直方圖的畫法,以前表為例。,我一眼就看出來了,大多數人的日加工零件數在120125之間。,15,12,9,6,3,直方圖下的面積之和等于1,某車間工人日加工零件的直方圖,例:直方圖,6、次數分布曲線(折線圖):在直方圖的基礎上,連接各條形頂邊的中
19、點而形成的一條曲線。,次數分布曲線的兩個終點要與橫軸相交,具體的做法是: 第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸; 折線圖與橫軸圍成的曲邊形面積與直方圖的面積相等,二者所表示的頻數分布是一致的。 練習折線圖的畫法,以前表為例。,次數分布曲線的繪制,15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件數(個),頻 數 (人),折線圖下的面積與直方圖的面積相等。,某車間工人日加工零件的折線圖,7、累計次數分布曲線:P58圖3-6 8、次數分布的主要類型 (1)鐘型分布:兩頭小,中間
20、大,靠近中間的變量值分布的次數多,靠近兩端的變量值分布的次數少。 對稱分布:如正態分布。 偏態分布:分為左偏和右偏。 左偏:變量值存在極端小值時,次數分布曲線向左延伸; 右偏:變量值存在極端大值時,次數分布曲線向右延伸。,(2)U型分布:兩頭大,中間小??拷虚g的變量值分布較少,靠近兩端的變量值分布的次數多。 (3)J型分布:一邊大,一邊小,大部分變量集中在某一端分布。 正J型分布:次數隨變量值的增大而增多; 反J型分布:次數隨變量值的增大而減少。,3.4 統計表和統計圖,1、統計表的形式:包括總標題、橫行標題、縱欄標題、數字資料等。,行標題,數字資料,附加,總標題,列標題,主詞,賓詞,2、統計表的種類 根據統計表中的主次是否分組以及如何分組,可以分為簡單表、簡單分組表和復合分組表。 簡單表是主詞未經任何分組的統計表。 分組表是主詞按某一標志進行分組的統計表,分組表用來揭示現象不同類型的不同特征,研究總體的內部構成,分析現象之間的依存關
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 管理層收購案例分享
- 三方收款合同協議書范本
- 工業機器人技術與應用模擬練習題(含參考答案)
- 大型廣告位租賃合同標準模板
- 物業管理高空作業安全合同協議
- 建筑消防系統施工合同范本
- 網絡平臺廣告位租賃合同25B
- 實習生勞動合同
- 新修訂教育法解讀
- 房地產景觀綠化工程合同
- 2023學年杭州市余杭區七年級語文下學期期中考試卷附答案解析
- 貴州省縣中新學校計劃項目2025屆高三下學期開學聯考語文試題及答案
- 2023-2024年護師類之護師初級基礎試題庫和答案要點
- 加快形成農業新質生產力
- 演員經紀合同法律風險-洞察分析
- 綜合實踐項目 制作細胞模型 教學實錄-2024-2025學年人教版生物七年級上冊
- 對口高考模擬卷(1)-【中職專用】2025年湖南省普通高等學校對口招生高考模擬測試(原卷版)
- 橋隧建筑物安全監控相關知79課件講解
- 小紅書種草營銷師(初級)認證考試真題試題庫(含答案)
- 《醫療廢物的處理》課件
- 繩子莫泊桑課件
評論
0/150
提交評論