第一章 數值變量的統計描述課件_第1頁
第一章 數值變量的統計描述課件_第2頁
第一章 數值變量的統計描述課件_第3頁
第一章 數值變量的統計描述課件_第4頁
第一章 數值變量的統計描述課件_第5頁
已閱讀5頁,還剩35頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章數值變量資料的統計描述統計描述(statisticaldescription)即利用原始數據,選擇適宜的統計指標及統計圖表,簡明準確地探察數據的分布類型和數量特征的基本統計方法。目的是根據樣本中所包涵的信息,客觀、正確地推論出其總體規律。

第一章數值變量的統計描述第一節頻數分布頻數(frequency)是相同觀察值或觀察結果出現的次數。分布(distribution)指隨著隨機變量取值的變化,其相應的概率變化的規律性。頻數分布(frequencydistribution)即觀察值(變量值)按大小分組,各個組段內觀察值個數(頻數)的分布,是了解數據分布形態特征與規律的基礎。

第一章數值變量的統計描述一、頻數分布的特征1.集中趨勢(centraltendency):指一組變量值的集中傾向或中心位置。2.離散趨勢(tendencyofdispersion):即一組變量值的離散傾向。

第一章數值變量的統計描述二、頻數分布的類型1.對稱分布:指集中位置居中、左右兩側的頻數分布基本對稱的頻數分布。分為正態分布和非正態分布兩種類型。2.非對稱分布:亦稱偏態分布,是集中位置偏倚、兩側頻數的分布不對稱的頻數分布,可分為正偏態和負偏態分布。第一章數值變量的統計描述三、頻數分布表/圖的作用

1.直觀地揭示數據的分布類型和特征。2.便于發現資料中某些遠離群體的特大或特小的可疑值。3.描述頻數分布的集中趨勢與離散趨勢。4.便于進一步計算統計指標。

第一章數值變量的統計描述四、頻數表頻數表(frequencytable):是頻數分布表的簡稱。指觀察值或某些類別及其相應的頻數按一定順序排列的表格。第一章數值變量的統計描述頻數表的編制方法

例題:隨機抽取某地120例正常人,測得血清銅的含量如下表,試編制頻數表。第一章數值變量的統計描述

某地120名正常人血清銅含量(μmol/L)

13.8412.5313.7014.8917.5313.1918.8214.7317.4413.9914.1012.2912.6114.7814.5914.7118.6219.0410.9513.8110.5313.5611.4813.0716.8817.0417.9812.6711.03

9.2315.0414.0915.9011.4814.6413.6414.3915.7413.9911.3117.6116.2613.5311.6813.2511.8814.2115.2115.2913.7014.4511.2319.84

13.1115.1511.70第一章數值變量的統計描述頻數表的編制方法1.找極值:Xmax

=19.84,Xmin=9.232.求全距:R=Xmax-Xmin,R=19.84-9.23=10.613.定組數:K=8~15,一般取11組。4.求組距:i=R/(K–1)

i=10.61/(11-1)=1.061≈15.確定各組段的上下限:6.歸納計數:第一章數值變量的統計描述某地120名正常成年人血清銅含量頻數表

組段頻數f頻率P(%)fCPC(%)9.00~32.532.510.00~43.375.811.00~1210.01915.812.00~1310.83226.613.00~1714.24940.814.00~2218.37159.115.00~1815.08974.116.00~1310.810284.917.00~119.211394.118.00~54.211898.319.00~21.7120100.0合計120100.0第一章數值變量的統計描述五、頻數圖頻數圖(frequencygraph):亦稱直方圖(histogram),是以直方的寬度代表組距,以直方的面積大小表示頻數的多少、以直方面積在總面積中的比例表示頻率大小的圖形。1.等距分組以橫軸表示變量,以縱軸表示頻數。2.不等距分組以橫軸表示變量,但縱軸是每個橫軸單位的頻數。第一章數值變量的統計描述第一章數值變量的統計描述第二節數值變量資料集中趨勢的描述

集中趨勢(centraltendency)是度量變量值集中位置和平均水平的數量指標,其代表值為平均數。平均數(average)是描述一組觀測值平均水平的指標,是對同質基礎上的樣本或總體一般特征的表達指標。算術平均數(arithmeticmean)幾何平均數(geometricmean)中位數(median)眾數(mode)第一章數值變量的統計描述一、算術平均數1.定義:算術平均數簡稱均數(mean)。是一組觀察值的和與觀察值個數之商。是數量上的平均。用于說明一組觀測值的趨中位置或平均水平。表示樣本均數,

表示總體均數。2.適用條件:正態或近似正態分布的資料。如生理指標。第一章數值變量的統計描述3.計算方法⑴直接法:有n個觀察值,分別為X1,X2,……Xn,

式中Σ是求和的符號。第一章數值變量的統計描述例題10名12歲男孩身高(cm)分別為125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均數。

第一章數值變量的統計描述⑵加權法用于觀察值中相同數據較多或頻數表資料。

=1737.00/120=14.48(μmol/L)

第一章數值變量的統計描述某地120名正常成年人血清銅含量頻數表

組段頻數f組中值xfx9.00~39.5028.5010.00~410.5042.0011.00~1211.50138.0012.00~1312.50162.5013.00~1713.50229.5014.00~2214.50319.0015.00~1815.50279.0016.00~1316.50214.5017.00~1117.50192.5018.00~518.5092.5019.00~219.5039.00合計1201737.00第一章數值變量的統計描述二、幾何均數1.幾何均數(geometricmean)n個數值連乘積的n次方根。是比例或倍數上的平均。統計符號G。2.應用條件:等比數列資料。如抗體滴度。3.計算方法第一章數值變量的統計描述例題

6份血清抗體滴度為1:2,1:4,1:8,1:8,1:16,1:32,求平均數。

平均滴度為1:8。第一章數值變量的統計描述三、中位數

1.中位數(median):將一組觀察值按由小到大的順序排列,位次居中的數值即中位數。是位次上的平均。統計符號M。2.應用條件:不拘分布、分布類型不明或一端無界的資料。如潛伏期、治愈時間和發病年齡。第一章數值變量的統計描述3.計算方法n為奇數時n為偶數時式中、及均為下標,表示有序數列中觀察值的位次。第一章數值變量的統計描述例題

某醫院用大黃粉治療胃熱血瘀型血證病人9例,其大便轉陰天數分別為1,1,2,2,3,4,5,7,10,求其中位數。本例n=9,M=X5=3(天)。如果本例n=10,第10個數值為16天,則M=(3+4)/2=3.5(天)。第一章數值變量的統計描述⑵頻數表法用于觀察值例數較多或頻數表資料。

L為M所在組段的下限;i為該組段的組距;fm為該組段的f;n為總例數;ΣfL為小于L的各組段的fC。第一章數值變量的統計描述905例男性銀屑病病人的發病年齡年齡頻數f累計頻數fC累計頻率pC(%)<105454

5.9710~252306(ΣfL)

33.8120~346(fM)

65272.0430~128780

86.1940~8486495.4750~2989398.6760~589899.23≥707905(n)100.00M=20+(10/346)(905/2-306)=24.23(歲)第一章數值變量的統計描述第三節數值變量資料的離散趨勢描述離散趨勢(dispersion)亦稱變異性,是描述一組同質觀察值的變異程度大小的指標。不但反映研究指標數值的穩定性和均勻性,而且反映集中性指標的代表性。極差(range,R)四分位數間距(quartilerange,QR)方差(variance,s2)標準差(standarddeviation,s)變異系數(coefficientofvariation,CV)。第一章數值變量的統計描述變異指標示意(兩個學生五門成績分布)

學生科目變異指標12345RS2

SCVA78798081828042.51.581.98B60708090100804025015.8119.76A、B兩個學生五門課程成績的均數都是80,但各科成績分布情況卻不相同。A較集中,變異較小;B較分散,變異較大。第一章數值變量的統計描述

一、全距(range)

全距(R)亦稱極差,是一組觀察值中最小值與最大值之差,反映個體差異的范圍。R=xmax-xmin

1.意義明確、計算簡便。

2.穩定性較差。

3.受n大小的影響。第一章數值變量的統計描述

二、百分位數和四分位間距

1.百分位數(percentile):是把一組觀察值從小到大排列,分為100等份,與x%位次所對的數值即為第百分之x位數。以Px表示。一個Px將全部觀察值分為兩部分,理論上有x%的觀察值比它小,有(100-x)%的觀察值比它大。是一種位置指標。M即P50。第一章數值變量的統計描述2.四分位數間距(quartilerange)

四分位數間距(quartilerange):是上四分位數QU(P75)與下四分位數QL(P25)之差,符號為QR。是中間50%觀察值的極差。QR=QU-QL=P75-P25第一章數值變量的統計描述905例男性銀屑病病人的發病年齡年齡頻數f累計頻數fC累計頻率pC(%)

<105454

5.9710~252306(ΣfL)

33.8120~346(fM)

65272.0430~128780

86.1940~8486495.4750~2989398.6760~589899.23≥707905(Σf)100.00第一章數值變量的統計描述計算方法以計算中位數的資料為例,求其P25、P75和QR。P25=10+(10/252)×(905×0.25-54)=16.84(歲)P75=30+(10/128)×(905×0.75-652)=32.09(歲)QR=P75-P25=32.09-16.84=15.25(歲)第一章數值變量的統計描述

三、方差(variance)

方差即離均差平方和的均值。總體方差的符號為σ2,樣本方差符號為s2。由于s2利用了每個觀察值的信息,反映一批數據變異程度的穩定性和精確性好。但在運算時需將各個離均差平方,使原度量單位變成平方單位,不便于進行比較。

第一章數值變量的統計描述四、標準差(standarddeviation)

標準差:方差的平方根。除了具有方差的優點外,還克服了度量單位被平方的不足,運用較方便。總體標準差的符號為σ,樣本標準差的符號為s;英文縮寫為SD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論