評價數(shù)據(jù)離散程度的指標_第1頁
評價數(shù)據(jù)離散程度的指標_第2頁
評價數(shù)據(jù)離散程度的指標_第3頁
評價數(shù)據(jù)離散程度的指標_第4頁
評價數(shù)據(jù)離散程度的指標_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、標準差 標準差(Standard Deviation),也稱均方差(mean square error),是各數(shù)據(jù)偏離平均數(shù)的距離的平均數(shù),它是離均差平方和平均后的方根,用表示。標準差是方差的算術平方根。標準差能反映一個數(shù)據(jù)集的離散程度。平均數(shù)相同的,標準差未必相同。標準差(Standard Deviation),在概率統(tǒng)計中最常使用作為統(tǒng)計分布程度(statistical dispersion)上的測量。標準差定義為方差的算術平方根,反映組內(nèi)個體間的離散程度。測量到分布程度的結果,原則上具有兩種性質(zhì): 為非負數(shù)值, 與測量資料具有相同單位。 一個總量的標準差或一個隨機變量的標準差,及一個子集

2、合樣品數(shù)的標準差之間,有所差別。標準計算公式 假設有一組數(shù)值X1,X2,X3,.Xn(皆為實數(shù)),其平均值為,公式如圖1. 圖1 標準差也被稱為標準偏差,或者實驗標準差,公式如圖2。 圖2 簡單來說,標準差是一組數(shù)據(jù)平均值分散程度的一種度量。一個較大的標準差,代表大部分數(shù)值和其平均值之間差異較大;一個較小的標準差,代表這些數(shù)值較接近平均值。 例如,兩組數(shù)的集合 0, 5, 9, 14 和 5, 6, 8, 9 其平均值都是7,但第二個集合具有較小的標準差。 標準差可以當作不確定性的一種測量。例如在物理科學中,做重復性測量時,測量數(shù)值集合的標準差代表這些測量的精確度。當要決定測量值是否符合預測值

3、,測量值的標準差占有決定性重要角色:如果測量平均值與預測值相差太遠(同時與標準差數(shù)值做比較),則認為測量值與預測值互相矛盾。這很容易理解,因為如果測量值都落在一定數(shù)值范圍之外,可以合理推論預測值是否正確。標準差應用于投資上,可作為量度回報穩(wěn)定性的指標。標準差數(shù)值越大,代表回報遠離過去平均數(shù)值,回報較不穩(wěn)定故風險越高。相反,標準差數(shù)值越細,代表回報較為穩(wěn)定,風險亦較小。 例如,A、B兩組各有6位學生參加同一次語文測驗,A組的分數(shù)為95、85、75、65、55、45,B組的分數(shù)為73、72、71、69、68、67。這兩組的平均數(shù)都是70,但A組的標準差為17.078分,B組的標準差為2.16分(此

4、數(shù)據(jù)是在R統(tǒng)計軟件中運行獲得),說明A組學生之間的差距要比B組學生之間的差距大得多。如是總體,標準差公式根號內(nèi)N=n,如是樣本,標準差公式根號內(nèi)N=(n-1),因為我們大量接觸的是樣本,所以普遍使用根號內(nèi)除以(n-1)。公式意義 所有數(shù)減去其平均值的平方和,所得結果除以該組數(shù)之個數(shù)(或個數(shù)減一,即變異數(shù)),再把所得值開根號,所得之數(shù)就是這組數(shù)據(jù)的標準差。 深藍區(qū)域是距平均值小于一個標準差之內(nèi)的數(shù)值范圍。在正態(tài)分布中,此范圍所占比率為全部數(shù)值之68%。根據(jù)正態(tài)分布,兩個標準差之內(nèi)(深藍,藍)的比率合起來為95%。根據(jù)正態(tài)分布,三個標準差之內(nèi)(深藍,藍,淺藍)的比率合起來為99%。正態(tài)分布標準差的

5、意義標準計算公式 假設有一組數(shù)值(皆為實數(shù)),其平均值為: 此組數(shù)值的標準差為: 樣本標準差 在真實世界中,除非在某些特殊情況下,找到一個總體的真實的標準差是不現(xiàn)實的。大多數(shù)情況下,總體標準差是通過隨機抽取一定量的樣本并計算樣本標準差估計的。 從一大組數(shù)值當中取出一樣本數(shù)值組合 ,常定義其樣本標準差: 樣本方差s是對總體方差的無偏估計。 s中分母為 n- 1 是因為樣本的自由度為n-1 ,這是由于存在約束條件 。 這里示范如何計算一組數(shù)的標準差。例如一群兒童年齡的數(shù)值為 5, 6, 8, 9 : 第一步,計算平均值 第二步,計算標準差 = 此為標準差離散度標準差是反應一組數(shù)據(jù)離散程度最常用的一

6、種量化形式,是表示精確度的重要指標。說起標準差首先得搞清楚它出現(xiàn)的目的。我們使用方法去檢測它,但檢測方法總是有誤差的,所以檢測值并不是其真實值。檢測值與真實值之間的差距就是評價檢測方法最有決定性的指標。但是真實值是多少,不得而知。因此怎樣量化檢測方法的準確性就成了難題。這也是臨床工作質(zhì)控的目的:保證每批實驗結果的準確可靠。 雖然樣本的真實值是不可能知道的,但是每個樣本總是會有一個真實值的,不管它究竟是多少。可以想象,一個好的檢測方法,其檢測值應該很緊密的分散在真實值周圍。如果不緊密,與真實值的距離就會大,準確性當然也就不好了,不可能想象離散度大的方法,會測出準確的結果。因此,離散度是評價方法的

7、好壞的最重要也是最基本的指標。 一組數(shù)據(jù)怎樣去評價和量化它的離散度呢?人們使用了很多種方法: 1. 極差最直接也是最簡單的方法,即最大值最小值(也就是極差)來評價一組數(shù)據(jù)的離散度。這一方法在日常生活中最為常見,比如比賽中去掉最高最低分就是極差的具體應用。 2. 離均差的平方和由于誤差的不可控性,因此只由兩個數(shù)據(jù)來評判一組數(shù)據(jù)是不科學的。所以人們在要求更高的領域不使用極差來評判。其實,離散度就是數(shù)據(jù)偏離平均值的程度。因此將數(shù)據(jù)與均值之差(我們叫它離均差)加起來就能反映出一個準確的離散程度。和越大離散度也就越大。 但是由于偶然誤差是成正態(tài)分布的,離均差有正有負,對于大樣本離均差的代數(shù)和為零的。為了

8、避免正負問題,在數(shù)學有上有兩種方法:一種是取絕對值,也就是常說的離均差絕對值之和。而為了避免符號問題,數(shù)學上最常用的是另一種方法平方,這樣就都成了非負數(shù)。因此,離均差的平方和成了評價離散度 一個指標。 3. 方差(S2)由于離均差的平方和與樣本個數(shù)有關,只能反應相同樣本的離散度,而實際工作中做比較很難做到相同的樣本,因此為了消除樣本個數(shù)的影響,增加可比性,將標準差求平均值,這就是我們所說的方差成了評價離散度的較好指標。 樣本量越大越能反映真實的情況,而算數(shù)均值卻完全忽略了這個問題,對此統(tǒng)計學上早有考慮,在統(tǒng)計學中樣本的均差多是除以自由度(n-1),它的意思是樣本能自由選擇的程度。當選到只剩一個

9、時,它不可能再有自由了,所以自由度是n-1。 4. 標準差(SD)由于方差是數(shù)據(jù)的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標準差。 在統(tǒng)計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。 5. 變異系數(shù)(CV)標準差能很客觀準確的反映一組數(shù)據(jù)的離散程度,但是對于不同的檢目,或同一項目不同的樣本,標準差就缺乏可比性了,因此對于方法學評價來說又引入了變異系數(shù)CV。 一組數(shù)據(jù)的平均值及標準差常常同時做為參考的依據(jù)。在直覺上,如果數(shù)值的中心以平均值來考慮,則標準差為統(tǒng)計分

10、布之一“自然”的測量。 定義公式:其中N應為n-1,即自由度 1. 變異系數(shù)(CV)在描述波動情況的統(tǒng)計量時有一個變異系數(shù)CV=S/(X的平均),是用于不同數(shù)據(jù)的離散程度的比較 變異系數(shù)就是幾個數(shù)據(jù)的標準差與均值的比值。 求標準差的函數(shù)是STDEV 求均值的函數(shù)是AVERAGE 比如你的數(shù)據(jù)分別在A1,A2,A3 選中B1,輸入=STDEV(A1:A3)然后回車 再選中C1,輸入=AVERAGE(A1:A3)回車 再選中D1,輸入=B1/C1回車 這樣D1就是數(shù)據(jù)A1,A2,A3的變異系數(shù)了。 一般變異系數(shù)用百分數(shù)表示異系數(shù)是一組數(shù)據(jù)的變異指標與其平均指標之比,它是一個相對變異指標。 變異系數(shù)

11、有全距系數(shù)、平均差系數(shù)和標準差系數(shù)等。常用的是標準差系數(shù),用CV(Coefficient of Variance)表示。 CV(Coefficient of Variance):標準差與均值的比率。 用公式表示為:CV/ 作用:反映單位均值上的離散程度,常用在兩個總體均值不等的離散程度的比較上。若兩個總體的均值相等,則比較標準差系數(shù)與比較標準差是等價的。 變異系數(shù)又稱離散系數(shù)。標準差與平均值定義公式1、方差s2=(x1-x)2+(x2-x)2+.(xn-x)2/(n) (x為平均數(shù)) 2、標準差=方差的算術平方根 error bar。在實驗中單次測量總是難免會產(chǎn)生誤差,為此我們經(jīng)常測量多次,然

12、后用測量值的平均值表示測量的量,并用誤差條來表征數(shù)據(jù)的分布,其中誤差條的高度為±標準誤。這里即標準差standard deviation和標準誤standard error 的計算公式分別為 標準差標準誤解釋從幾何學的角度出發(fā),標準差可以理解為一個從n維空間的一個點到一條直線的距離的函數(shù)。舉一個簡單的例子,一組數(shù)據(jù)中有3個值,X1,X2,X3。它們可以在3維空間中確定一個點 P = (X1,X2,X3)。想像一條通過原點的直線 。如果這組數(shù)據(jù)中的3個值都相等,則點 P 就是直線 L 上的一個點,P 到 L 的距離為0, 所以標準差也為0。若這3個值不都相等,過點 P 作垂線 PR 垂

13、直于 L,PR 交 L 于點 R,則 R 的坐標為這3個值的平均數(shù): (公式)運用一些代數(shù)知識,不難發(fā)現(xiàn)點P與點R之間的距離(也就是點 P 到直線 L 的距離)是。在 n 維空間中,這個規(guī)律同樣適用,把3換成 n 就可以了。標準差與標準誤的區(qū)別標準差與標準誤都是心理統(tǒng)計學的內(nèi)容,兩者不但在字面上比較相近,而且兩者都是表示距離某一個標準值或中間值的離散程度,即都表示變異程度,但是兩者是有著較大的區(qū)別的。 首先要從統(tǒng)計抽樣的方面說起。現(xiàn)實生活或者調(diào)查研究中,我們常常無法對某類欲進行調(diào)查的目標群體的所有成員都加以施測,而只能夠在所有成員(即樣本)中抽取一些成員出來進行調(diào)查,然后利用統(tǒng)計原理和方法對所

14、得數(shù)據(jù)進行分析,分析出來的數(shù)據(jù)結果就是樣本的結果,然后用樣本結果推斷總體的情況。一個總體可以抽取出多個樣本,所抽取的樣本越多,其樣本均值就越接近總體數(shù)據(jù)的平均值。 表示的就是樣本數(shù)據(jù)的離散程度。標準差就是樣本平均數(shù)方差的開平方,標準差通常是相對于樣本數(shù)據(jù)的平均值而定的,通常用M±SD來表示,表示樣本某個數(shù)據(jù)觀察值相距平均值有多遠。從這里可以看到,標準差受到極值的影響。標準差越小,表明數(shù)據(jù)越聚集;標準差越大,表明數(shù)據(jù)越離散。標準差的大小因測驗而定,如果一個測驗是學術測驗,標準差大,表示學生分數(shù)的離散程度大,更能夠測量出學生的學業(yè)水平;如果一個測驗測量的是某種心理品質(zhì),標準差小,表明所編

15、寫的題目是同質(zhì)的,這時候的標準差小的更好。標準差與正態(tài)分布有密切聯(lián)系:在正態(tài)分布中,1個標準差等于正態(tài)分布下曲線的68.26%的面積,1.96個標準差等于95%的面積。這在測驗分數(shù)等值上有重要作用。 標準誤 表示的是抽樣的誤差。因為從一個總體中可以抽取出無數(shù)多種樣本,每一個樣本的數(shù)據(jù)都是對總體的數(shù)據(jù)的估計。標準誤代表的就是當前的樣本對總體數(shù)據(jù)的估計,標準誤代表的就是樣本均數(shù)與總體均數(shù)的相對誤差。標準誤是由樣本的標準差除以樣本容量的開平方來計算的。從這里可以看到,標準誤更大的是受到樣本容量的影響。樣本容量越大,標準誤越小,那么抽樣誤差就越小,就表明所抽取的樣本能夠較好地代表總體。 Excel函數(shù) Excel中有STDEV、STDEVP、STDEVA、STDEVPA四個函數(shù),分別表示樣本標準差、總體標準差;包含邏輯值運算的樣本標準差、包含邏輯值運算的總體標準差(excel用的是“標準偏差”字樣)。 在計算方法上的差異是:樣本標準差=(樣本方差/(數(shù)據(jù)個數(shù)-1)2;總體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論