統計學第二章統計數據的搜集、整理和顯示_第1頁
統計學第二章統計數據的搜集、整理和顯示_第2頁
統計學第二章統計數據的搜集、整理和顯示_第3頁
統計學第二章統計數據的搜集、整理和顯示_第4頁
統計學第二章統計數據的搜集、整理和顯示_第5頁
已閱讀5頁,還剩134頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一節統計數據的收集第二節統計數據的整理第三節統計數據的顯示

第二章統計數據的收集、整理與顯示

第一節統計數據的收集

一、統計數據收集的含義和要求

二、統計數據收集方案設計三、統計數據收集方式

四、統計數據收集方法五、問卷設計

統計數據收集,就是按照統計研究的目的和任務,運用各種科學有效的方式和方法,有針對地收集反映客觀現實的統計數據的活動過程。統計數據收集是整個統計活動的基礎階段,通常也稱為統計調查階段。統計數據收集的基本要求:準確性、及時性和完整性。準確性是統計數據收集的核心,及時性是統計數據信息價值的體現,完整性則是統計指標計算和統計分析的需要。一、統計數據收集的含義和要求統計數據的收集四環節統計數據收集方案內容

二、統計數據收集方案設計確定數據收集目的

設計數據收集方案

開展數據收集活動

評估數據收集質量

數據收集目的數據及其類型

數據收集對象和觀測單位觀測標志和調查表

數據收集方式與方法

數據所屬時間和數據收集期限

數據收集地點數據收集的組織

統計數據收集方案用來指導整個統計數據收集工作的綱領性文件,是統計設計在統計數據收集階段的具體化統計數據收集方案是為開展統計調查而制定的計劃,是調查工作順利進行的保證。調查方案設計的好壞直接影響到調查數據的質量。不同調查任務的數據收集方案在具體內容和形式上會有一定的差別,但包括的主要內容大體是一致的。

統計數據收集方案一般包括以下八個方面的內容:基本內容:⒈數據收集目的;2.數據及其類型;3.數據收集對象和觀測單位;4.觀測標志和調查表;5.數據收集方式與方法;(為什么調查)(向誰調查)(調查什么)(如何調查)基本內容:6.數據所屬時間和數據收集期限;7.數據收集的地點;8.數據收集的組織。(何時調查)把所要觀測的標志按邏輯順序列在一定形式的表格內,就稱為調查表(登記表、記錄表或問卷)調查表觀測標志是根據數據收集目的所確定的調查項目。

調查項目要明確、易懂,避免引起誤會或出現差錯單一表一覽表是指一張調查表只填寫一個觀測單位的標志表現。是一張調查表可以同時填寫多個觀測調查單位的標志表現。調查表10教師教學科研調查表姓名性別年齡學歷職稱專業所講課程發表論文11教師登記表姓名性別年齡職稱學歷專業單一表、一覽表的應用:①看項目的多少,調查項目多時一般用單一表,反之則用一覽表;②看提供單位與觀測單位是否一致,一致時常用單一表,不一致時用一覽表。課堂討論:中華牙膏用戶市場調查方案設計(一)統計調查方式

所謂統計調查方式,就是運用合適的統計調查手段去收集統計調查對象總體的全部或部分個體的原始數據,也即通過對調查對象總體的全部或部分個體的有關標志特征進行調查或觀測的方式來獲取統計數據。常用的統計調查方式有普查、抽樣調查、重點調查等幾種,其中抽樣調查最為常用。三、統計數據收集方式統計調查方式:

1、普查

普查是根據特定的統計研究目的而專門組織的一次性的全面調查,用以收集所研究現象總體的全面資料(即總體中的所有個體都是觀測單位)。普查的組織方式一般有兩種:一是建立專門的普查機構,配備一定數量的普查人員,對觀測單位直接進行登記。如我國歷次的人口普查等。二是利用觀測單位的原始記錄和核算資料,頒發調查表,由觀測單位按要求填報。如物資庫存普查等。普查特點1.為特定目的專門組織的非經常性全面調查2.通常是一次性或周期性的3.一般需要規定統一的標準調查時間4.數據的規范化程度較高5.應用范圍比較狹窄總體

2、抽樣調查

抽樣調查是一種非全面調查,就是從總體中抽取樣本,以樣本推斷總體。根據抽取樣本的方式不同,抽樣調查可分為概率抽樣和非概率抽樣兩類。

概率抽樣是按照隨機原則抽取樣本,即總體中的每個個體都有已知的、非零的概率被抽取到樣本中來。概率抽樣從抽樣方法上看,可以分為重復抽樣和不重復抽樣的兩種。概率抽樣從抽樣組織形式上看,可分為簡單隨機抽樣,分層抽樣,等距抽樣,整群抽樣和多階段抽樣五種。概率抽樣能夠計算抽樣誤差。

非概率抽樣是憑人們的主觀判斷或根據便利性原則來抽取樣本,這時,總體中每個個體被抽取的可能性是難以用概率來表示和計算的。非隨機抽樣調查又有任意抽樣、典型抽樣、定額抽樣和流動總體抽樣等幾種。非概率抽樣不能計算抽樣誤差。

3、重點調查

重點調查也是一種非全面調查,是對數據收集對象總體中的部分重點個體進行觀測的統計調查方式。所謂重點個體(重點單位),是就調查標志而言,指那些在總體標志總量中占有絕大比重的少數個體(單位)。這些重點個體,雖然只是總體全部個體中的一小部分,但就調查標志而言卻有舉足輕重的作用。

這些重點單位在全部單位中只是一部分,但它們在所研究現象的總量中卻占有絕大比重,因而對它們進行調查就能夠反映全部現象的基本情況。例如,要了解全國鋼鐵生產的增長情況,只要對全國為數不多的大型鋼鐵企業的生產情況進行調查,就可以掌握我國鋼鐵生產的基本情況了。

重點調查的單位可以是一些企業、行業、也可以是一些地區、城市。此種調查方式的優點是,所投入的人力、物力少,而又較快地搜集到統計信息資料。一般來講,在調查任務只要求掌握基本情況,而部分單位又能比較集中反映研究項目和指標時,就可以采用重點調查。

在下列問題中為了得到數據,采用什么調查?為了買校服,了解每個學生衣服的尺寸。商檢人員在某超市檢查出售的飲料的合格率。對占全市工業總產值五分之一的六個大型企業進行調查,以了解全市工業總產值的基本情況。(二)實驗方式

所謂實驗方式,就是運用自然科學的試驗法,通過觀測人為安排條件下試驗產生的各種結果并加以記錄的方式來獲取數據,或通過人為安排條件下的試驗來探求某個或某些因素對所研究事物的數量影響程度和作用方式,憑借實驗結果來揭示所考察因素與所研究事物之間的數量因果關系。

1、實驗的原則

運用實驗方式需要遵循下列兩個原則:均衡分散性原則和整齊可比性原則。

均衡分散性原則:是指所進行的試驗應能把所觀測的因素及其狀態均衡地分散在因素與狀態的所有各種可能的配合之中,以保證試驗結果具有較強的代表性。

整齊可比性原則:是指試驗考察某個因素的各個狀態對所研究事物影響的效應時,其他因素應保持不變的狀態,以便保證在該因素各個狀態的效應之中能最大限度地排除其他因素的干擾,從而能對所考察因素不同狀態的效應進行比較。

2、常用的實驗設計(1)完全隨機試驗。即采用純隨機抽樣方式,將各試驗觀測個體隨機地安排到所要試驗的因素狀態配合之中。(2)隨機區組試驗。即當各試驗觀測個體之間存在較大差異而將影響到試驗結果時,先將試驗觀測個體進行分類,一個類作為一個區組,使類內個體之間的差異充分小,然后將區組中的各試驗觀測個體隨機地分配到各個所要試驗的因素狀態配合之中。

2、常用的實驗設計(3)拉丁方試驗。所謂拉丁方就是將一組元素編排成行與列相等且每個元素在各行各列都出現一次且只出現一次的正方形方格。(4)正交試驗。正交試驗是利用正交表來安排試驗。所謂正交表就是由1、2、3、4等字碼元素構成的、任意兩列的同行元素對都形成出現次數相同的完全對的矩陣表。

(三)數據收集誤差

數據收集誤差觀測性誤差代表性誤差也叫登記性誤差或調查性誤差,它是在調查觀測的各個環節因工作粗心或被觀測者不愿很好配合而造成的所收集數據與實際情況不符的誤差,包括計量錯誤、記錄錯誤、計算錯誤、抄寫錯誤、匯總錯誤、計算機輸入誤差等工作誤差,以及被調查者不愿或難以提供真實情況的誤差,有時還存在調查人員弄虛作假的誤差和各種人為因素干擾的誤差。這部分誤差通常是人為造成的,通過對統計調查資料的嚴密審核,是可以發現并加以更正的。觀測性誤差則可能存在于任何統計調查。因樣本不能完全代表總體而產生的估計結果與總體真實數量特征不符的誤差。根據樣本不能完全代表總體的原因不同,代表性誤差又分為系統性代表性誤差和偶然性代表性誤差兩種。代表性誤差系統性誤差偶然性誤差系統性誤差,是由于抽樣框(用以抽取樣本的名錄)不完善、抽樣時違反隨機原則、被調查者無回答等因素引起的誤差。也叫抽樣誤差或偶然性誤差,是由于抽樣的隨機性引起的樣本結構與總體結構不完全相符而產生的估計結果與總體真值不一致的誤差,這種誤差在隨機抽樣中不可避免,但可以計算和控制。偶然性誤差只存在于抽樣調查。

統計數據收集方法,是指獲取被調查對象數據的渠道或途徑,常用的方法有直接觀察法、通訊法、采訪法、登記法等幾種。

四、統計數據收集方法直接觀察法通訊法是由調查人員到現場對被調查對象進行計量、點數和登記,或對實驗結果進行觀察和記錄,直接取得第一手數據的方法。是調查組織者(例如政府統計部門)把調查表(例如統計報表或調查問卷)郵寄或電子傳送給被調查者,被調查者按要求填寫后返回給調查組織者的一種數據收集方法。采訪法又稱詢問法,是由調查人員對被調查者進行詢問,根據被調查者的答復來收集數據的方法。詢問法可分為:面談調查法是指調查人員同被調查者面對面交談,當面聽取意見,詢問有關問題,搜集數據的方法。電話調查法指調查人員利用電話同受訪者進行語言交流,從而獲得信息的一種調查方式。郵寄調查法是一種標準化調查,指調查者將印制好的調查問卷或調查表格,通過郵政系統寄給選定的被調查者,由被調查者按要求填寫后,按約定的時間寄回的一種調查方法。登記法是指當事人根據有關法制法規規定,在開展某些活動或發生某事時,主動到有關機構進行登記,填寫有關表格,提供有關統計信息。

(一)問卷的概念與結構

問卷是依據統計研究目的和要求,按照一定的理論假設設計出來的、由一系列問題、項目、備選答案及說明所組成的、向被調查者收集資料的一種工具。問卷按是否由被調查者自己填寫可分為自填式問卷和代填式問卷兩種。自填式問卷:由被調查者自己填答。代填式問卷:是由調查人員根據被調查者的口頭回答來填寫。

五、問卷設計問卷的基本結構調查問卷包括以下四個部分:引言問候語問候語常常以短信的方式出現,旨在向被調查者說明調查的目的、意義,放在問卷開頭。填寫說明即填表須知、交表時間、地點及其他事項說明。問卷編號

問卷的基本結構

被調查者基本情況通常放在問卷的最后,主要是有關被調查者的一些背景資料,該部分所包含的各項問題,可使研究者根據背景資料對被調查者進行分類比較分析。問題和答案該部分是調查問卷的核心,包括了所要調查的全部問題,以及這些問題的所有可供選擇的答案。結束語問卷的基本結構

引言

(問候語)村民同志:您好!我們是中國村情調查組成員,今天來調查了解您家2010年的生產和生活情況,目的是研究當前中國農村經濟與社會發展中的成績和問題,為黨和政府制定政策提供依據。調查結果不記名、不涉及單個問卷的內容,只是用于全都資料的綜合統計。因此,不會影響您家的救濟和納稅,也不會給您家帶來任何麻煩。謝謝合作!中國社會科學院社會學研究所

2012年1月問卷的基本結構

引言

(填寫說明)填寫要求:1.請您在所選擇答案的題號上畫圈2.對只許選擇一個答案的問題只能畫一個圈;對可選多個答案的問題,請在你認為合適的答案上畫圈3.需填寫數字的題目在留出的橫線上填寫4.對于表格中選擇答案的題目,在所選的欄目內畫勾5.對注明要求您自己填寫的內容,請在規定的地方填上您的意見問卷的基本結構

引言

(問卷的編號)1.用于識別問卷、調查者、被調查者姓名和地址等2.便于校對檢查、更正錯誤問卷的基本結構(二)問題的設計

1.問題的種類根據調查內容不同,問題可分為事實性問題、意見性問題和解釋性問題。事實性問題:要求被調查者依據現有事實來做出回答,不必提出主觀看法。如“您使用什么品牌的牙膏?意見性問題:用于了解被調查者的意見、看法、評價、態度、要求和打算等。如“你喜歡××牌的牙膏嗎?”解釋性問題:用于了解被調查者行為、意見、看法等產生的原因,了解個人內心深層的動機。如“你為什么要購買××牌的牙膏?”根據回答方式不同,問題可分為開放式問題和封閉問題。開放式問題:也稱為自由回答式問題,是指不提供備選答案而需要被調查者自由做出回答的問題。封閉式問題:是指已列出所有可能答案以供選擇的問題。開放式問題如:你認為中國當前最重要的問題是什么?封閉式問題請問您目前有出國打算嗎?A.是B.否(二)問題設計原則不要直接提社會上禁忌的和敏感性的問題所列問題必須符合客觀實際情況問題要盡量精簡問題必須是被調查者有能力回答的問題設計原則問題的排列要講究邏輯性問題不能帶有誘導性和傾向性問題的內容要單一問題的語言要簡單易懂、標準規范

2.問卷設計原則(1)問題的安排應具有邏輯性

(2)保證答案具有窮盡性和互斥性在實際問卷設計中,設計者常常遇到這樣的情況:有些問題的答案如果要將它們全部列出,即使不是不可能也是十分困難的。可以采取列幾個主要答案,然后加上一項“其他”。

(3)每一項答案都應有明顯的填答標記,答案與答案之間要留下足夠的空格。

(4)被調查者熟悉的、簡單易懂的問題放在前面,比較生疏、較難回答的問題放在后面。

(5)把能引起被調查者興趣的問題放在前面,把容易引起被調查者緊張和顧慮的問題放在后面。

(6)把開放式問題放在問卷的結尾部分。

(7)先問行為方面的問題,再問態度方面的問題,最后問有關個人的背景資料。

總的來說,問卷不宜太長,問題不宜太多,一般以回答者能在20分鐘時間內完成為宜。第二節統計數據的整理

一、統計數據整理的含義與要求

二、統計數據整理的步驟三、統計分組四、分布數列

所謂統計數據整理,簡稱統計整理,是指根據統計研究的目的,對統計收集到的數據進行科學的加工處理,使之系統化、條理化和綜合化,成為能反映研究對象總體數量特征和滿足統計分析需要的統計數據的過程。

一、統計數據整理的含義與要求意義:統計整理是統計工作過程中的中間環節,在整個統計研究過程中,統計數據整理起著承上啟下的作用,既是數據收集的繼續,又是數據分析的前提,因此要十分強調其科學性、條理性和充分性。

科學性:就是數據整理的分組和匯總必須科學合理,注意質的界限,符合客觀事實;

條理性:就是數據整理的過程要層次分明,條理清楚,邏輯關系嚴密;

充分性:就是運用各種數據整理方法和技術,通過多角度、多方位的加工處理,使整理的結果盡量充分地體現出數據中包含的有用信息,最大程度地滿足統計分析的需要。①整理方案設計②數據預處理③統計分組④統計匯總⑤編制統計圖表統計數據整理的步驟:資料的準確性、及時性、完整性、注意分組標志的選擇整理方案的設計主要是以數據收集方案為基礎,圍繞統計分析目的,確定需要的統計分組,需要匯總計算的統計指標,數據處理的方法與工具(例如采用什么數據處理軟件),以及數據顯示的形式等內容。數據預處理是統計整理的先前步驟,是在統計分組、匯總前對原始數據所做的必要工作,包括數據審核、數據篩選和數據排序等。統計分組和匯總是統計整理的關鍵步驟,就是要根據統計研究的目的和研究對象的特點,通過科學選擇分組標志和科學確定分組界限,將觀測的個體及其原始數據進行歸類,借助必要的數據處理方法和工具,匯總計算出有關統計指標。整理數據的顯示是表現統計整理結果的步驟,就是要將統計分組和匯總后的數據,用適當的統計表、統計圖顯示出來,直觀、準確、清楚地表達出研究對象總體的有關數量特征,便于開展統計分析。二、統計數據整理的步驟整理方案的設計數據預處理整理數據的顯示統計分組和匯總

整理數據的保存與公布

整理數據的顯示是表現統計整理結果的步驟,就是要將統計分組和匯總后的數據,用適當的統計表、統計圖顯示出來,直觀、準確、清楚地表達出研究對象總體的有關數量特征,便于開展統計分析。(一)統計分組的含義與性質

統計分組就是根據統計研究的目的和事物本身的特點,選擇一定的標志(一個或多個),將研究現象總體劃分為若干性質不同的組或類的一種統計研究方法。

三、統計分組

統計分組具有以下一些重要的性質:首先,統計分組兼有分與合的雙重功能,是分與合的對立統一;其次,統計分組必須遵循“窮盡原則”和“互斥原則”,即現象總體中的任何一個個體都必須而且只能歸屬于某一個組,不能出現遺漏或重復出現的情況。對總體而言,是“分”,即將總體區分為性質相異的若干部分。

對總體單位而言,是“合”,即將性質相同的個體組合起來,在同一組內則保持著相同的性質。

統計分組的目的是要在同質性的基礎上研究總體的內在差異性,即盡量體現出分組標志的組間差異而縮小其組內差異。分組分組前分組后25%33%42%(二)統計分組的種類

1.統計分組按照分組標志的多少不同,可以分為簡單分組與復合分組。

簡單分組是指對總體只按一個標志進行分組,只反映總體某一方面的分布狀況和內在結構。

復合分組則是指對總體同時按兩個或兩個以上的標志進行層疊式的分組。

某車間50名工人日加工零件數分組表按零件數分組頻數(人)頻率(%)110以下110-114115-119120-124125-129130-134135以上358141064610162820128合計50100簡單分組就是各個組按一個標志分組形成的。復合分組則是各個組按兩個以上的標志分組形成的。按學歷和性別分組人數本科50

男10

女40碩士150

男80

女70

2.統計分組按分組標志的性質不同,可以分為品質分組和數量分組。

品質分組也叫屬性分組,是指總體按某一個或某幾個品質標志進行分組,反映事物屬性差異

如人口按性別分組、人口按職業分組數量分組也叫變量分組,是指總體按某一個或某幾個數量標志進行分組,反映事物數量差異

。如:看管機器臺數分組(0,1,2,3,4,…)又如:按月工資(元)分組(600~650,650~700,700~750,…)對大學生月生活費支出情況進行分組研究:按家庭收入水平分組;按城鄉分組;按性別分組;按年齡分組。人口按出生地進行分組研究北方人;南方人;北京人人口按種族進行分組研究白種人;黑種人;黃種人以上分組是否遵循統計分組原則?(一)分布數列的概念與種類

在統計分組的基礎上,將總體中的所有個體按組歸類排列,并計算出各組的個體數,就形成為頻數分布。四、分布數列(一)分布數列的概念與種類分配在各組的個體數,稱為頻數或次數,各組頻數或次數之和稱為總頻數或總次數,各組頻數與總頻數之比稱為頻率。將各組的頻數或頻率按分組的一定順序加以排列,就形成為分布數列。分布數列按分組標志的性質不同可以分為兩種:即按品質標志分組的品質分布數列和按數量標志分組的變量分布數列。四、分布數列月工資分組(元)工人數(人)占總數比重(%)1000以下21039.61000-200018735.32000以上13325.1合計530100.0

組別(變量)次數(頻數)頻率(比率)四、分布數列統計分組所形成的各個組各組的頻數或頻率構成要素分類變量數列品質數列組距式數列單項式數列異距式數列等距式數列品質數列的編制中國體育代表團在悉尼奧運會上獲金牌的項目射擊射擊體操體操乒乓球舉重乒乓球羽毛球舉重乒乓球羽毛球舉重舉重跳水跳水跳水乒乓球跳水射擊體操羽毛球柔道柔道舉重田徑羽毛球跆拳道獲金牌項目金牌數占總數比例跳水5枚0.1786舉重5枚0.1786乒乓球4枚0.1429羽毛球4枚0.1429體操3枚0.1071射擊3枚0.1071柔道2枚0.0714田徑1枚0.0357跆拳道1枚0.0357(二)變量數列的編制

1.單項式數列的編制

2.組距式數列的編制四、分布數列變量分布數列又有單項式數列和組距式數列之分

家庭按兒童數分組學生按月支出分組0300---4001400---5002500---600變量數列的編制單項式數列以一種變量值表示一個組的變量數列變量是離散型變量變量的不同取值個數較少編制條件:同時具備【例】某車間有20名工人看管機器臺數的資料是:2,3,5,2,4,5,2,5,4,3,5,4,5,2,4,4,3,2,4,3,要求根據以上資料編制變量數列。編制結果如下:按看管機器臺數分組(臺)X工人數(人)f23455465合計20組距式數列是以一個變量區間表示一個組的變量數列,變量值處于一個區間范圍的個體屬于同一個組。

按考試成績分組(分)學生人數(人)60以下60~7070~8080~9090以上3714206合計50組距式分組中的一些概念組限上限下限各組變量區間的最大值各組變量區間的最小值組距上限與下限之差組距=上限-下限

組中值每一組中點位置的數值組中值=(上限+下限)÷2開口組缺少上限數值或下限數值的組注意開口組以相鄰組的組距作為該組的組距,確定其下限或上限,再計算組中值。缺下限開口組的組中值

=上限-鄰組組距值/2缺上限開口組的組中值

=下限+鄰組組距值/2某地區100個百貨商店月銷售額與流通費用情況銷售額(萬元)商店數(個)每百元商品銷售額中支付的流通費(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上組限U下組限L如:組距d=U-L=100-50=50(萬元)如:組中值x=(U+L)/2=(100+200)/2=150(萬元)組距式分組中的一些概念等距分組異距分組例如60分以下60—70分70—80分80—90分90分以上組中值為(60+50)÷2=55組中值為(90+100)÷2=95各組組距相等的分組稱為等距分組。各組組距不全相等的分組稱為異距分組。上限不在內原則

等距分組不等距分組工資收入分組(元)年齡分組(歲)800---10000---141000---120014--601200---140060以上間斷式分組凡是組限不相連,以整數位斷開的分組,稱為間斷組距式分組。連續式分組凡是組限相連,即相鄰組上、下限重疊,稱為連續式分組。60分以下60—70分70—80分80—90分90分以上300以下301—400人401—500人501—600人601人以上間斷式分組連續式分組組距數列指每個組的變量值是用一個區間來表現的變量數列變量是連續變量;或:變量不同取值個數也較多的離散變量。

編制條件:等距數列異距數列變量值變動區間的長度相等變量值變動區間的長度不完全相等等距數列和異距數列的選擇當標志值分布比較均勻時,組距數列的編制應采用等距分組,即各組組距相等。當標志值分布很不均勻時,組距數列的編制應采用異距分組,即各組組距不相等。需要用頻數密度(頻數密度=頻數/組距)反映頻數分布的實際狀況編制等距數列適用于總體單位的標志值變動比較均勻的情況實例己知某班50個學生統計學期末考試成績如下,單位(分)435256606363656868697274757575767676767777787980818182828383848484858686868889898990949599100100,要求編制變量數列。組距數列的編制原始數據計算組中值排序確定組限計算變異全距確定組數、組距匯總各組單位數制作組距數列統計表編制步驟或內容判斷變量并選擇分組標志進行分組編制步驟:⒈求變異全距⒉確定組距及組數確定組距的原則:要能區分各組的性質差異要能反映總體資料的分布特征為方便計算,盡可能為5或10的整數倍R=組距(d)×組數(n)編制等距數列在實際操作中,可以先確定組數,組數的確定參考經驗公式:n=1+3.33lgN(N為單位數)3、確定組限對于離散變量,相鄰組組限可以間斷,也可重疊;對于連續變量,相鄰組組限必須重疊;符合“上組限不計入”原則;首末兩組可使用“××以下”及“××以上”的開口組。組限的表示方法編制等距數列最低組限數據的最小值最大組限數據的最大值4、計算各組次數5、制作組距數列

按考試成績分組(分)學生人數(人)60以下60~7070~8080~9090以上3714206合計50某班統計學考試成績表等距分組表(使用開口組)某車間50名工人日加工零件數分組表按零件數分組頻數(人)頻率(%)110以下110-114115-119120-124125-129130-134135以上358141064610162820128合計50100(三)頻率分布

按順序列出各組的組別及相應的頻率,就構成頻率分布。頻率分布可以比頻數分布更好地體現出總體分布特征。在頻數分布的基礎上,將各組頻數依次累計,就形成累計頻數分布。各組累計頻數與總頻數之比,就形成累計頻率分布。四、分布數列累計頻數(頻率)

從變量值低的組開始,將各組頻數(頻率)逐次向變量值高的組累計,說明某一組上限以下各組的累計頻數(頻率)。向上累計向下累計

從變量值高的組開始,將各組頻數(頻率)逐次向變量值低的組累計,說明某一組下限以上各組的累計頻數(頻率)。累計(頻數)頻率人均月消費性支出(元)家庭數(戶)頻率(﹪)累計頻數累計頻率(﹪)250~300300~350350~400400~500500~600600以上410161343820322686合計50100人均月消費性支出(元)家庭數頻率(﹪)累計頻數累計頻率(﹪)向上累計向上累計250~300300~350350~400400~500500~600600以上41016134382032268641430434750828608694100合計50100——人均月消費性支出(元)家庭數(戶)頻率(﹪)累計次數累計頻率(﹪)向上累計向下累計向上累計向下累計250~300300~350350~400400~500500~600600以上410161343820322686414304347505046362073828608694100100927240146合計50100————第三節統計數據的顯示

一、統計表二、統計圖

(一)統計表的概念

經過匯總整理的統計數據,按一定的順序排列在相應的表格內,就形成為統計表。廣義上看,任何用以反映統計資料的表格都是統計表。統計表是表現統計資料的最常用的形式,也是統計分析的重要工具。一、統計表(二)統計表的結構統計表的結構:可以從表式和內容兩個方面來認識。

從表式上看,統計表是由縱橫交錯的線條所構成的一種表格,包括總標題、橫行標題、縱欄標題和指標數值四個部分。從內容上看,統計表由兩部分組成:主詞和賓詞。此外,有些統計表還有補充資料、資料來源、注釋、填表單位、填表人和填表日期等內容。一、統計表表格包括總標題置于表的正上方

橫行標題置于表的左方

縱欄標題置于表的右上方

指標數值置于橫行與縱欄交叉處從內容上看:統計表由主詞列在橫行標題的位置(表的左側)賓詞列在縱欄標題的位置(表的左側)總標題:即統計表的名稱,它扼要地說明該表的基本內容,并指明時間和范圍。置于統計表格的正上方。橫行標題:即橫行的名稱,一般放在表格的左方。縱欄標題:即縱欄的名稱,一般放在表格的右上方。指標數值:列在橫行和縱欄的交叉處,用來說明總體及其組成部分的數量特征,它是統計表格的核心部分。主詞:是統計表所要說明的總體及其組成部分,一般列在表的左方。賓詞:是統計表用來說明總體數量特征的各個統計指標,一般列在表的右方。貴州省2010年地區生產總值按三次產業分

地區生產總值(億元)比上年增長率(%)

第一產業625.0313.59

第二產業1800.121.90

第三產業2177.077.3

合計4602.1615.45縱欄標題指標數值

主詞

賓詞橫行標題總標題2005~2006年城鎮居民家庭抽樣調查資料項目單位2005年2006年

一、調查戶數二、平均每戶家庭人口數三、平均每戶就業人口數四、平均每人全部收入五、平均每人實際支出#消費性支出非消費性支出六、平均每人居住面積戶人人元元元元平方米378903.191.835188.544945.874185.64755.9411.90390803.161.805458.345322.954331.61987.1712.40資料來源:《中國統計摘要2006》,中國統計出版社,2006,第79頁。注:1.本表為城市和縣城的城鎮居民家庭抽樣調查材料。

2.消費性支出項目包括:食品、衣著、家庭設備用品及服務、醫療保健、交通和通訊、娛樂教育文化服務、居住、雜項商品和服務。橫行標題總標題縱欄標題指標數值附加(三)統計表的種類

統計表按照主詞是否分組,以及分組標志多少,可以分為未分組表、簡單分組表和復合分組表三種。

(3)復合分組表:主詞按兩個或兩個以上標志分組的統計表。

(1)未分組表:主詞未經任何分組的統計表。即主詞只按一定順序羅列總體中每個個體的名稱,或者將主詞按時間順序簡單排列,也稱一覽表。

(2)簡單分組表:主詞只按一個標志分組的統計表。(四)統計表的設計總的要求:簡練、明確、實用、美觀,便于比較。統計表的設計應注意如下事項:1、線條繪制:我國的統計表上、下兩端以粗線繪制,表內縱橫線以細線繪制,表格的左右兩端一般不劃線,采用開口式。2、統計表形狀:應設計成由縱橫交叉組成的長方形表格,長寬之間應保持適當的比例。3、合計欄的設置:縱欄合計應列在最后一行,橫行合計應列在最后一欄。4、標題設計:統計表的總標題,橫行、縱欄標題應用簡練而又準確的文字表述統計資料的內容。5、指標數值:表中數字應該填寫整齊、對準位數。當數字小可忽略不計時,可寫上“0”;當缺某項數字資料時,可用符號“…”;不應有數字時用符號“—”表示。6、計量單位:統計表必須注明數字資料的計量單位。全表只有一種單位,就寫在表的右上角;有多種計量單位,專設計量單位一欄,或在每個指標后用小字加以注明。7、統計表數字上下位置要對齊。相同數字應全部寫上,不能用“同上”等方法表示。8、注解或資料來源:統計表的實際材料,應注明出處。資料不齊或另行推算的,應在表下注明。

統計圖是指利用各種圖形表現統計資料的形式,是以圓點的多少、直線的長短、曲線的起伏、條形長短、柱狀高低、圓餅面積等圖形來表現數據的手法。

二、統計圖如何用圖來表示數據?(一)直方圖:用直方形的寬度和高度來表示頻數分布的圖形,即在直角坐標系上,以橫軸表示變量,以縱軸表示頻數或頻率,以各個寬度為組距、高度為頻數或頻率的直方塊矩形所構成的圖形。(二)折線圖:在直方圖的基礎上,將各組直方形頂邊線的中點(即由組中值與頻數或頻率確定的坐標點)用直線連接起來,就形成為折線圖。二、統計圖直方圖的繪制頻數(人)1512963105110115120125130135140日加工零件數(個)圖3-5某車間工人日加工零件數的直方圖我一眼就看出來了,大多數人的日加工零件數在120~125之間!

折線圖的制作

折線圖也稱頻數多邊形圖,是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉。折線圖的兩個終點要與橫軸相交,具體的做法是:起點通常放在距左邊最低組半個組距的橫軸上,終點通常放在距右邊最高組半個組距的橫軸上。1512963105110115120125130135140日加工零件數(個)頻數(人)折線圖的繪制圖3-6某車間工人日加工零件數的折線圖(三)曲線圖:當變量數列的分組數較多、組距較小時,折線圖就變成了平滑的曲線圖。二、統計圖曲線圖的繪制

當變量數列的組數無限時,折線便表現為一條平滑曲線。曲線圖的繪制方法與折線圖基本相同,只是在連接各組次數坐標點時應當用平滑曲線。1512963105110115120125130135140日加工零件數(個)頻數(人)曲線圖的繪制圖3-6某車間工人日加工零件數的折線圖(四)累計曲線圖:根據累計頻數或累計頻率分布數列,可以繪制累計分布圖。它以分組變量為橫軸,以累計頻數或累計頻率為縱軸,以各組的上限(下限)與累計頻數或累計頻率為坐標點,平滑連接各點即成向上(向下)累計曲線。

累計曲線圖的繪制

累計頻數(頻率)分布圖分為向上累計頻數(頻率)分布圖和向下累計頻數(頻率)分布圖。不論是向上累計還是向下累計均以分組變量為橫軸,以累計頻數(頻率)為縱軸。向上累計曲線是在直角坐標系上將各組組距的上限與其相應的累計頻數(頻率)構成坐標點,依次用折線(或光滑曲線)相連,即是向上累計曲線。

累計曲線圖的繪制

對于向下累計頻數分布圖,在直角坐標系上將各組組距下限與其相應累計頻數(頻率)構成坐標點,依次用折線(或光滑曲線)相連,即是向下累計分布曲線圖。對稱分布右偏分布左偏分布正J型分布反J型分布U型分布幾種常見的曲線圖洛倫茨曲線

統計學家洛倫茨利用累計百分數曲線.作為測度社會收入分配平均程度的方法,這種曲線就稱為洛倫茨曲線。在現代西方經濟著作中,經濟使用這種曲線來描述一國的收入分配平均程度。運用洛倫茨曲線分析收入分配公平程度的方法:是利用兩組對應的累計百分比資料的關系構成一個正方形圖,來觀察分析起分配的公平程度。其中以家庭(或人數)累計百分數為X軸,收入累計百分數為Y軸。當所有家庭具有相同收入時,X的取值

洛倫茨曲線與Y的取值相同,這時X與Y的關系表先為原點(0,0)至點(100,100)的對角線,故這條直線,即正方形的對角線稱為絕對公平分配直線。反之,當社會財富集中在極少數人手中,稱為完全分配不均。事實上,一個國家或地區的收入分配非絕對公平,也非絕對不公平,而是介于兩者之間。實際分配情況由洛倫茨曲線表示,它一般表現為基尼系數

一條下凸的曲線,下凸的程度越大,收入分配就越不平均。為了準確地測定收入分配的平均程度,意大利經濟學家基尼依據洛倫茨曲線,提出了計算收入分配平均程度的指標,即基尼系數G。

洛倫茨曲線

如何定量地反映一國貧富差距的狀況,國際上通用的是用基尼系數來測量和判斷。基尼系數是國際上最常用的分析收入分配格局的方法,它是在對居民按照收入水平高低進行排隊和等分的基礎上,繪制洛倫茲曲線圖,然后根據圖中的有關部分面積進行計算的。

洛倫茨曲線圖基尼系數的計算公式為:

SA代表絕對公平直線與洛倫茨曲線圍成的弓形面積。SA+SB為絕對公平直線的直角三角形面積。當SA=0時,G=0,表示分配絕對公平,當SB=0時,G=1,表示收入分配完全的不平均。實際的基尼系數一般介于二者之間,即G的取值范圍是:0≤G≤1,國際上通常將基尼系數定在0.3~0.4之間,作為個人收入差異程度合理的范圍。

從衡量收入分配的基尼系數來看,我國的收入差距從改革開放初期的0.20,迅速擴大到目前的0.53左右。國際上認為,基尼系數小于0.2為高度平均,0.2—0.3表示比較平均,0.3—0.4表示相對合理,0.4—0.5表示收人差距較大,大于0.6為高度不平均,通常以0.4作為警戒線。

目前我國已經從一個平均主義的國家,轉變為貧富懸殊的國家,已超過了警戒線。與國際比較,已超過了發達國家,接近了中等收入國家。據2004年聯合國人類發展報告中的基尼系數顯示:中國已高達0.45—0.53,高于美、法、日、英、德、韓等國的0.3—0.4,接近俄羅斯、新加坡、伊朗的0.46—0.43,低于巴西、智利、墨西哥的0.55—0.59。課練

某班學生統計學考試成績(分)如下:93507885667163835295787285788290805595677285777090707669588980616799

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論