




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學─從數據到結論第三章數據的描述在對數據進行深入加工之前,總應該對數據有所印象。可以借助于圖形和簡單的運算,來了解數據的一些特征。由于數據是從總體中產生的,其特征也反映了總體的特征。對數據的描述也是對其總體的一個近似的描述。§3.1如何用圖來表示數據?§3.1.1定量變量的圖表示:1.直方圖對于一個定量變量,比如某個地區(地區1)測量了163個高三男生的身高(S3height1.txt)。用圖形來表示這個數據,使人們能夠看出這個數據的大體分布或“形狀”的一個辦法是畫直方圖(histogram)。圖3.1就是利用這個數據由SPSS軟件所畫的直方圖。該圖的橫坐標是身高區間,這里每一格代表5cm的身高范圍(格子寬度因不同的數據性質或要求而定,這里的格子寬度為5cm),而縱坐標為各種身高區間的身高的頻數。
直方圖§3.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖3.2的左邊一個是根據地區1高三男生的身高數據所繪的盒形圖;其右邊的圖代表另一個地區(地區2)的高三學生的身高(height.txt,height.sav,第三章例.xls)。盒型圖盒子的中間橫線是數據的中位數(median),封閉盒子的上下兩橫線(邊)為上下四分位數(點);按照SPSS的默認選項,如果所有樣本中的數目都在離四分位點1.5倍盒子長度之內,則線的端點為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨點出§3.1.1定量變量的圖表示:3.莖葉圖
在直方圖和盒形圖中,很難恢復數據的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復數據以地區1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數據。它象一片帶有莖的葉子。莖為較大位數的數字,葉為較小位數的數字。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個數字001223344代表九個數目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個頻數(比如第一行有9個數目,第二行有17個等等);可以看出最長的一行為從165cm到169cm的一段(有35個數)。§3.1.1定定量量變量量的圖圖表示示:4.散散點圖圖數據會會有兩兩個變變量,,如美美國男男士和和女士士初婚婚年限限數據據(marriage.txt))。該數據據描述述了自自1900年到到1998年男男女第第一次次婚姻姻延續續的時時間。。這里年年份是是一個個變量量,婚婚姻延延續時時間是是第二二個變變量。。由于于不可可能將將所有有人的的婚姻姻年限限都給給出來來,所所以每每年就就取了了一個個中間間的值值(中中位數數)作作為代代表。。散點圖圖§3.1.2定定性性變量量的圖圖表示示:餅餅圖定性變變量((或屬屬性變變量,,分類類變量量)不不能點點出直直方圖圖、散散點圖圖或莖莖葉圖圖,但但可以以描繪繪出它它們各各類的的比例例。下面用用SPSS繪的的圖3.5(餅圖圖,piechart)表示了了說世世界各各種主主要語語言人人數的的比例例(language.txt).餅圖§3.1.2定定性性變量量的圖圖表示示:條條形圖圖而用同同樣數數據畫畫的圖圖3.6稱稱為條形圖圖(barchart)。從每一一條可可以看看出講講各種種語言言的實實際人人數,,而且且分別別給出出了每每個語語種中中母語語和日日常使使用的的人數數(在在圖中中并排排放置置)。。條形形圖顯顯示比比例不不如餅餅圖直直觀。。條形圖圖§3.2如如何何用少少量數數字來來概括括數據據?大量的的數字字既繁繁瑣又又不直直觀;;需要要對數數據做做人們們時間間和耐耐心所所允許許的簡簡化我們可可以用用““平均均”,,“差差距””或百百分比比等來來概括括大量量數字字。由于定定性變變量主主要是是計數數,比比較簡簡單,,常用用的概概括就就是比比例或或百分分比。。下面面主要要介紹紹關于于定量量變量量的數數字描描述。。§3.2如如何何用少少量數數字來來概括括數據據?可用少少量所所謂匯匯總統統計量量或概括統統計量量(summarystatistic)來描述述定量量變量量的數數據。。這些數數字是是從樣樣本數數據得得來的的,因因而也也是樣樣本的的函數數,任何樣樣本的的函數數,只只要不不包含含總體體的未未知參參數,,都稱稱為統計量量(statistic)。樣本的的隨機機性決決定統統計量量的隨隨機性性(統統計量量也是是隨機機變量量)§3.2如如何何用少少量數數字來來概括括數據據?概括統統計量量經常常對應應于總總體的的無法法觀測測到的的某些些參數數。這時,,統計計量可可作為為這些些參數數的估估計。。一些些統計計量還還可以以用來來檢驗驗樣本本和假假設的的總體體是否否一致致。§3.2如如何何用少少量數數字來來概括括數據據?注:一些統統計量量前面面有時時加上上“樣樣本””二字字,以以區別別于總總體的的同名名參數數。如如“樣樣本均均值””和““樣本本標準準差””,以以區別別于總總體均均值和和總體體標準準差;;但在在不會會混淆淆時可可以只只說““均值值”和和“標標準差差”。。§3.2.1數數據據的““位置置”數據有有位置置嗎??這里三三個數數據的的位置置一樣樣嗎??§3.2.1數數據據的““位置置”“位置置”一一般是是關于于數據據中某某變量量觀測測值的的“中中心位位置””或者者數據據分布布的中中心((center或centertendency)。。和這種種“位位置””有關關的統統計量量就稱稱為位置統統計量量(locationstatistic)。位置統統計量量當然然不一一定都都是描描述““中心心”了了,比比如后后面要要講的的k百百分位位數((或k%分分位數數)。。§3.2.1數數據據的““位置置”最常用用的位位置統統計量量就是是小學學時所所學到到的算算術平平均數數,它它在統統計中中叫做做均值值(mean);嚴嚴格地地說叫叫做樣樣本均均值(samplemean),以以區別別于總總體均均值。。如果記記樣本本中的的觀測測值為為x1,…,xn,則樣樣本均均值定定義為為(樣本本)中中位數數(median)是是數據據按照照大小小排列列之后后位于于中間間的那那個數數(如如果樣樣本量量為奇奇數),或或者中中間兩兩個數數目的的平均均(如如果樣樣本量量為偶偶數)。由于中中位數數不易易被極極端值值影響響,所所以中中位數數比均均值穩穩健(robust)。。§3.2.1數數據據的““位置置”上下四四分位位數(或分分別稱稱為第一四四分位位數和和第三三四分分位數數,firstquantile,thirdquantile))則分別別位于于(按按大小小排列列的))數據據的上上下四四分之之一的的地方方。§3.2.1數數據據的““位置置”§3.2.1數數據據的““位置置”一般地地還稱稱上四四分位位數為為75百百分位位數((75pecentile,有75%%的觀觀測值值小于于它)),下下四分分位數數為25百百分位位數(有25%%的觀觀測值值小于于它))。一般地地,k百分分位數數(k-pecentile)意味味著有有k%%的觀觀測值值小于于它。。如果令令a=k%,則k百百分位位數也也稱為為a分位數數(a-quantile)。。樣本中中出現現最多多的數數目,,稱為為眾數(mode)§3.2.2數數據據的““尺度度”這兩個個數據據“胖胖瘦””一樣樣嗎??§3.2.2數數據據的““尺度度”數據中中數目目的分分散程程度由由尺度統統計量量(scalestatistic)來描述述。尺度統統計量量是描描述數數據散散布,,即描描述集集中與與分散散程度度或變變化((spread或variability)的的度量量。§3.2.2數數據據的““尺度度”從前面面兩個個高三三男生生身高高數據據的盒盒形圖圖。左左邊的的數據據平均均要高高些,,但右右邊的的數據據散布布范圍圍要小小得多多。統計中有許許多尺度統統計量。一一般來說,,數據越分分散,尺度度統計量的的值越大。。§3.2.2數據據的“尺度度”極差(range);就是極大大值和極小小值之間的的差。前面兩個高高三男生身身高數據的的極差分別別為50cm和32cm。盒形圖盒子子的長度為為兩個四分分位數之差差,稱為四分位數極極差或四分分位間距(interquantilerange);它描述了了中間半數數觀測值的的散布情況況。極差和和四分位極極差實際上上各自只依依賴于兩個個值,信息息量太少。。§3.2.2數據據的“尺度度”另一個常用用的尺度統統計量為((樣本)標準差(standarddeviation)。度量樣本本中各數值值到均值距距離的一種種平均。標準差實際際上是方差(variance)的平方根。。如果記樣樣本中的觀觀測值為x1,…,xn,則樣本方方差為§3.2.2數據據的“尺度度”兩個均值一一樣,但右右邊的要““胖”些,,方差為左左邊的一倍倍§3.2.3數據據的標準得得分假定兩個水水平類似的的班級(一一班和二班班)上同一一門課,但是由于兩兩個任課老老師的評分分標準不同同,使得兩兩個班成績績的均值和和標準差都都不一樣(數據:grade.txt)。§3.2.3數據據的標準得得分一班分數的的均值和標標準差分別別為78.53和9.43,,而二班的的均值和標標準差分別別為70.19和7.00。。那么得到90分的一一班的張穎穎是不是比比得到82分的二班班的劉疏成成績更好呢呢?怎么比比較才能合合理呢?§3.2.3數據據的標準得得分雖然這種均均值和標準準差不同的的數據不能能夠直接比比較,但是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025國企 面試題庫及答案
- 安全工程師建筑施工現場的安全文化傳播試題及答案
- 綠色環保2025年紙包裝產品行業環保材料研發與創新研究報告
- 注冊土木工程師考試的課程安排與復習科目試題及答案
- 舞蹈基本知識試題及答案
- 家具行業的市場細分策略與消費者心理分析研究試題及答案
- 電商種草經濟崛起下的內容營銷策略創新報告
- 小吃口味測試題及答案
- 金融行業大數據應用中的數據治理與隱私保護挑戰分析
- 冀中職業學院《中國俠客文化》2023-2024學年第一學期期末試卷
- 裝配鉗工(中級)試題庫
- 養老護理員職業技能等級認定三級(高級工)理論知識考核試卷
- 餐飲業消防安全管理制度
- 研發費用加計扣除政策執行指引(1.0版)
- GB/T 20647.9-2006社區服務指南第9部分:物業服務
- 海洋油氣開發生產簡介課件
- 重慶十八梯介紹(改)課件
- 一級病原微生物實驗室危害評估報告
- 設備機房出入登記表
- 起重吊裝作業審批表
- 最新三角形的特性優質課教學設計公開課教案
評論
0/150
提交評論