




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、sd Std Dev,Standard Deviation 標準偏差(Std Dev,Standard Deviation) 一種量度數據分布的分散程度之標準,用以衡量數據值偏離算術平均值的程度。標準偏差越小,這些值偏離平均值就越少,反之亦然。標準偏差的大小可通過標準偏差與平均值的倍率關系來衡量。標準偏差公式:S = Sqr(xn-x撥)2 /(n-1) 公式中代表總和,x撥代表x的算術平均值,2代表二次方,Sqr代表平方根。例子:有一組數字分別是200、50、100、200,求它們的標準偏差。 Java代碼 1. x撥 = (200+50+100+200)/4
2、= 550/4 = 137.5 2. S2 = (200-137.5)2+(50-137.5)2+(100-137.5)2+(200-137.5)2/(4-1) =62.52+(-87.5)2+(-37.5)2+62.52/3 =3906.25+7656.25+1406.25+3906.25/3 = 16875/3 = 5625 3. 標準偏差 S = Sqr(5625) = 75
3、 x撥 = (200+50+100+200)/4 = 550/4 = 137.5S2 = (200-137.5)2+(50-137.5)2+(100-137.5)2+(200-137.5)2/(4-1) =62.52+(-87.5)2+(-37.5)2+62.52/3 =3906.25+7656.25+1406.25+3906.25/3 = 16875/3 = 5625標準偏差 S = Sqr(5625) = 75cv 變異系數(coefficient of variation),亦稱離散系數(coefficient of dispersion)或相對偏差(rsd),是標準偏差與平均
4、值之比,用百分數表示,計算公式為: cv = sd/mean ×100% 200、50、100、200的cv=55%在我用于本科畢業論文答辯的ppt里的某頁赫然寫著這么一行:“標準誤:標準差除以樣本量的平方根”。這是我對“數據處理”部分特地作出的一條說明。前些天打開看到的時候,我不禁有些囧。當年我們的生物統計學是一門選修課,授課的是生科院生物信息學方向的一個牛人,長得像藏人,不過一聽口音就知道他家和我家肯定離不太遠。 不論生物還是藥學,這門課歷來就是門選修課。而且學的內容很淺,考試是開卷。我學得不咋地,學完的時候感覺,統計學說來就一句話:“有沒有顯著性差異”。你說這話啥意思,我也不太
5、懂,能套公式把結果算出來就成。要說起來,有關統計學的基本知識,早在大一上分析化學的時候就專門講過,很多實驗報告也都要算平均數和標準差。 等到做完畢設寫論文要處理數據的時候,我突然就發現了一個問題,為什么我看的那么多paper里面,在算樣本平均數的時候,有的附的是標準差,有的附的是標準誤呢?而且國外的paper都是用的標準誤。我又不懂,但是搜到有篇專門講兩者區別的文章說要用標準誤,我也就用了。兩者啥區別呢?標準差除以樣本量的平方根就等于標準誤。可這數學關系反映了什么實質?我還是不懂。只是記得上生物統計學的課的時候,老師特別強調說國內生命科學和醫學方面的大部分paper都存在統計學錯誤。我就生怕我
6、這么“正確地”使用標準誤反而顯得“錯誤”了,于是有了ppt上多此一舉的那句話。 其實統計學是很多學科都需要用到的,而且重要性不言而喻。可就我所了解的,如我們這些生、化、醫、藥專業出身的學生有多少真的理解了統計學呢?大部分都是停留在機械用軟件、套公式、填結果的層面吧。當然了,這里存在一個學科差異的問題,也不是誰刻意地不想去理解統計學。比方說,去年國家就三聚氰胺出臺了一個最低檢測限的標準的時候,很多沒有科學素養的記者就開始瘋狂質疑了。其實對“檢測限”這個概念我們就很理解,我想心理學專業的學生倒不見得認同,而“檢測限”的本質同屬統計學中的“概率”和“誤差”的范疇。不過總的說來,我們的統計學訓練比起心
7、理學實在差得太多。 終于進入正題了,因為統計學是心理學的基本功,所以我正兒八經地看起了考綱版的那本國內最經典的現代心理與教育統計學,等把第八章假設檢驗看完之后,我暫停了。我的基本感受是,一路看下來,條理是清晰的,邏輯是明白的,我也是理解的。如果說單純應試的話,看到這樣沒問題。可這門課程當然不止是應試之用的,那么,我在想,我看了這么多,它講的這些東西到底是在干嘛呢?對,我的意思很明白。這本書是在講魚不是在講漁。我縱使把計算標準誤的公式及其意義理解得化成灰也認識,可它到底是干嘛的呢? 我暫停是為了找些paper來自己體會統計學的用處,這時發現了手頭正讀著的行為科學統計,如獲至寶地讀完第一章我就恨不
8、得罵臟話了,差距怎么能這么大?!為什么一本國內最經典的心理統計學教材和美國的一本也許還不是最經典的心理統計學教材差了這么遠?所以等讀完第一部分的時候,我想哭了(呃,當作形容詞看待吧,不是真的要哭)。昨晚讀完第二部分的時候,我又想哭。因為,我終于理解了“標準誤”到底是用來干嘛的!明白了當paper中出現它的時候是說明了什么實質問題! 索性抓幾個點來比較這兩本教材。 1、現代在講中數的時候就講到了內插法,講百分位數的時候又講了。可是它這兩處都沒有提“內插法”仨字兒,到后來好幾個章節計算概率的時候卻冒出來“內插法”仨字兒讓人不知所云。這也就罷了,關鍵是,同樣講內插法,原理和方法都是一樣的,現代用了個
9、形式巨復雜的公式來套用,看著就不敢用了。行為沒用公式,直接畫個小表就可以口算了。 2、類似于上面的情況,在針對很多不同類型的概念和方法時,現代的很多習題我在做的時候都不得不翻到正文中按例題的步驟來套用,行為的習題基本上都是口算,也不用回顧前面的例題。 我忍不住舉一個實例對比: 現代版某例題: 有10道正誤題,問答題者答對幾題才能認為他是真會,或者說答對幾題,才能認為不是出于猜測因素? 行為版某例題: 假設你正在用請人預測從整副牌中抽出的牌的花色來測試人的特異功能。在48次實驗中,一個人能正確預測多于20次的概率是多少? 這兩道題的解法是一致的,考察的點也差不多。可是,前面那題糾結的提問方式我每
10、次讀到都抽搐,恨不得轉換幾次才能理解題意。現代中類似的繞心令比比皆是。難道把話說明白些就這么困難嗎?更不用說現代版在講解題步驟時的死板了,逼得我只能依葫蘆畫瓢呀。 3、現代版太瞧得起我們學生了,很多概念突然就冒出來了,也不告訴你怎么回事,比如“自由度”;有些概念稍微講解了幾句也沒講明白,比如“有偏統計量”它怎么就有偏了呢?再有就是我前面說的,講了那么多講到最后,我也搞不清楚它到底是可以用到心理學什么地方去(書中舉例清一色的是學生測驗之類的)。而行為對于很多概念都是用基本屬于“一加一等于二”的方式一板一眼告訴你它的含義。還真別說它的講法像是對待傻子,在一門新學問面前,我們不就和幼兒園接觸到“一加
11、一等于二”之前一樣無知么?受的教育再高也不保證您就觸類旁通呀。同時,它的舉例涉及心理學各分支,這才是學以致用呀。 4、再從章節設置的順序上,我不否認現代版有它的內在邏輯,但那種邏輯基本上是站在一個已經掌握了統計學的人的角度展開的。對于初學者,越往后越覺得章節之間的關系詭異。而行為則是完全從學習者的視角設置章節,完全讓人能夠體會到循序漸進的快樂。比如,全書四部分,第一部分講描述統計,第二部分講推論統計基礎,而實際上,這部分的三章共就講了三個概念:z分數、概率和標準誤。放到現代里才三節的篇幅。可人家就是咬文嚼字地把這三個對于推論統計超級無敵關鍵的概念給講通透了,我現在一點疑問都沒有了! 5、現代我
12、看完一章腦細胞就基本上耗盡了,因為時不時就要停下來揣摩。而行為一口氣看三章也沒問題,就像在讀小說。掌握同樣多的知識,后者用的時間大概還短一些。畢竟統計學在心理學里是拿來實用的,不是要我費勁去培養數學的邏輯思維能力的吧! 6、另外,我不太清楚原版行為會有多少排版錯誤,但至少,行為譯本的排版錯誤比現代要少得多。另外的另外,行為每章的SPSS講解比現代清楚太多。另外的另外的另外,行為的每節小測驗都附有答案,每章習題的奇數題都附有答案。 說到最后,我想引申一下。 現代代表了國內某類優秀教材的風格,學術至上,用語嚴謹,條理分明,言簡意賅,同時也嚴肅、枯燥和死板; 行為代表了國外某類優秀教材的風格,學生至
13、上,用語親切,行文流暢,點到方止,同時也失去少許嚴密性、簡明性和學術性。 實際上國外還有一類優秀教材,或者我更愿意稱其為優秀讀物。拿統計學來說有大名鼎鼎的統計學的世界,這類教材之所以優秀,是因為能被學院之外的大眾所接受,也正是為了吸引更廣泛的讀者,它放開了學術門檻。我這么說并不是存在某種“歧視”,而是當其學術品質泛化后,對于專業領域的學習者而言就相當程度的失去了教材的功能,看看好玩兒罷了,既對付不了考試,更應付不了研究。 而我無疑是相當認可行為這類既保證了學術水準又滿足“教”“材”功用的教材的。 以上僅代表個人口味,就如同文言文和白話文和網絡語各有所愛。 最后的最后,熱情地向所有需要在今后的學
14、術研究中運用或理解統計學知識的各專業同學推薦此教材。第六章標準誤與可信區間-第一節抽樣誤差與標準誤第六章標準誤與可信區間第一節抽樣誤差與標準誤一、抽樣誤差的意義在第一章第二節曾提到過樣本與總體以及抽樣誤差的概念,那里談到,由于存在人與人之間的個體差異,即使從同一總體用同樣方法隨機抽取例數相同的一些樣本,各樣本算得的某種指標,如平均數(或率),通常也參差不齊存在一定的差異。樣本指標與相應的總體指標之間有或多或少的相差,這一點是不難理解的。如某醫生從某地抽了120名12歲男孩,測量其身高,計算出均數為143.10cm,若再從該地抽120名12歲男孩,其平均身高未必仍等于143.10cm,也不一定恰
15、好等于某市12歲男孩身高的總體均數,這種差異,即由于抽樣而帶來的樣本與總體間的誤差,統計上叫抽樣波動或抽樣誤差。抽樣誤差和系統誤差不一樣,關系系統誤差,當人們一旦發現它之后,是可能找到產生原因而采取一定措施加以糾正的,抽樣誤差則無法避免。因為客觀上既然存在個體差異,那么剛巧這一樣本中多抽到幾例數值大些的,所求樣本均數就會稍大,另一樣本多抽到幾例數值小些,該樣本均數就會稍小,這是不言而喻的。抽樣誤差既是樣本指標與總體指標之間的誤差,那么抽樣誤差小就表示從樣本算得的平均數或率與總體的較接近,有樣本代表總體說明其特征的可靠性亦大。但是,通常總體均數或總體率我們并不知道,所以抽樣誤差的數量大小,不能直
16、觀地加以說明,只能通過抽樣實驗來了解抽樣誤差的規律性。二、標準誤及其計算為了表示個體差異的大小,或者說表示某一變量變異程度的大小,可計算標準差等變異指標來說明,現在我們要表示抽樣誤差的大小,如要問,從同一總體抽取類似的許多樣本,各樣本均數(或各率)之間的變異程度如何?也可用變異指標來說明。這種指標是:(一)均數的標準誤為了表示均數的抽樣誤差大小如何,用的一種指標稱為均數的標準誤。我們以樣本均數為變量,求出它們的標準差即可表示其變異程度,所以將樣本均數這“標準差”定名為均數的標準誤,簡稱標準誤,以區別于通常所說的標準差。標準差表示個體值的散布情形,而標準誤則說明樣本均數的參差情況,兩者不能混淆。
17、下面用抽樣實驗進一步說明之。將100名正常人的紅細胞數(萬/mm3)寫在100顆大小均勻的豌豆上。這些紅細胞數見表6.1,其均數為500,標準差為43。把這些豌豆放在一個口袋里,徹底混勻后取出一顆,記下紅細胞數,放回袋內,混勻后再取出一顆,記下數字后再放回去,如此繼續下去,這是一個取不完的總體,這樣每取10個數字作為一個樣本,共抽取了一百個樣本,并計算每一樣本的均數與標準差,例見表6.2。表6.1 紅細胞數抽樣實驗用的正態總體=500 =43(單位:萬/立方厘米)383410422429430431435442442444445449450452455456459461462463465466
18、468469470471472473476477478479480481482484485486487488489491492493494495496497498499500501502503504505506507508509511512513514515516518519520521522523524527528529530531532534535537538539541544545548550551555556558565569578590599600617表6.2紅細胞數抽樣實驗中的樣本舉例樣本號紅細胞數(萬/立方毫米),XXS13835995344424354864784765095
19、44488.661.652503506520503489410528488509527498.333.973478463617544498485496462482569509.450.964529465535473531532556521459383498.452.635442493462527520519521512482471494.929.51第一號樣本均數與標準差的計算:X4.886/10=488.6將一百個樣本均數加總,得到的數值為50,096.7,又這一百個樣本均數平方之和為25,114,830.91,于是代入標準差的計算公式,求得一百個樣本均數的標準差又稱標準誤為當總體標準差已知
20、時,可計算理論的標準誤,公式是(6.1)表6.1抽樣實驗用的總體標準差是43,每個樣本的例數是10,代入公式得可見由一百個樣本均數求得的標準誤13.50與理論的標準誤13.60比較接近。在實際工作中,總體標準差往往并不知道,也不象抽樣實驗那樣從同一總體隨機抽取n相等的許多樣本,而是只有手頭一個樣本。在此情況下,只能以樣本標準差S作為總體標準差的估計值。這樣,公式6.1中的就要用S代替,改為S,以資區別。(6.2)將第1號樣本的標準差及例數代入式6.2,得再若將第2號樣本的數字代入,S將成為10.74,余類推。由于不同樣本的標準差并不相等,可見S也有抽樣波動,這一點是值得注意的,但它仍不失為的較
21、好估計值。以上介紹了求標準誤的三種方法,其實我們平常用的只是式6.2,而通過前兩種方法的對比則可使我們明瞭標準誤的含義。標準誤是描述樣本均數變異情況的一個指標,它的大小與總體標準差(一般只能用S估計)成正比,而與樣本含量n的平方根成反比,因此若標準差小或樣本含量大時,求出的標準誤就小(標準誤小表示樣本均數與總體均數較接近),X代表較可靠,所以假若手頭資料中觀察值的變異程度較大(S大)時,為了保證樣本代表總體比較可靠,就得適當增大樣本含量(n)。(二)率的標準誤若總體包括某事件的發生數與未發生數兩類,所化成的比例或成數即為總體發生率(符號)與未發生率(-)。從總體中隨機抽取許多樣本(n相等),算
22、出各個樣本率(用P表示),會是或大或小有波動的。為了表示樣本率之間或樣本率與總體率之間的差異程度,當總體率已知時,可計算理論的標誤p,其公式是(6.3)實際工作中往往不知道總體率這時只能以樣本率P作為總體率的估計值,求得率的標準誤,并用SP表示,計算公式為(6.4)現舉例說明其求法。例6.1某醫生檢測了110名成年健康人的尿紫質,發現陽性者11人,陰性者99人,于是算得陽性率P及率的標準誤SP如下:P=11/110×100%=10%(用小數表示為0.10)若要進一步增強樣本率估計總體率的可靠性,可加大樣本含量。三、樣本均數的分布從同一總體里隨機抽取n相同的許多樣本,這些樣本均數吳正態
23、分布。如前面所述正常人紅細胞數的抽樣實驗中已求得100個樣本均數,其中多數與總體均數比較接近而集中分布在其周圍,且左右基本對稱,見表6.3(此表由表6.4中的100個均數劃記歸組而得)。表6.3紅細胞抽樣實驗中100個樣本均數的分布組段460-470-480-490-500-510-520-530-540-合計樣本數1318282813711100表6.4一百個樣本的均數、標準差、95%可信區間樣本號均數標準差95%可信區間樣本號均數標準差95%可信區間1488.661.65444.49532.712498.333.97474.01522.593509.450.96472.96545.8444
24、98.452.63460.76536.045494.929.51473.80516.006°546.743.23515.78577.62*7524.533.60500.45548.55*8488.341.04458.94517.669485.355.14445.85524.7510502.648.55467.88537.3211495.140.63466.03524.1712524.737.81497.65551.7513512.753.18474.65550.7514494.837.24468.15521.4515493.639.94465.03522.1716495.329.47
25、474.22516.3817491.019.32477.18504.8218506.553.83468.00545.0019487.539.39461.32517.6820495.932.70472.51519.2921504.834.76479.94529.6622512.244.76483.17547.2323496.540.65467.41525.5924499.837.04473.31526.2925505.737.21479.08532.3226487.734.50463.02512.3827501.537.35474.79528.2128476.129.64454.91497.29
26、*29523.251.57486.31560.0930509.533.61485.45533.5531494.228.60473.75514.6532506.225.29483.10524.3033501.127.88481.15521.0534520.630.23498.98542.2235492.042.18461.82522.1836509.619.17495.89523.3137488.642.29458.36518.8438510.947.55476.88544.9239516.439.96487.81544.9940518.846.43485.59552.0141495.936.8
27、9469.53522.2742°526.442.78495.80557.0043505.853.84467.30544.3044503.047.33469.14536.8645504.847.77470.62538.9846492.429.20471.52513.2847505.538.32478.08532.9248486.552.98448.59524.4149515.238.69487.51542.8950487.053.75448.55525.4551503.351.54466.43540.1752491.058.47449.18532.8253522.365.01475.7
28、9568.8154490.349.92454.58526.0255516.737.26490.05543.3556489.631.41467.14512.0657490.062.90445.01534.9958489.230.91467.09511.3159509.140.51480.12538.0860513.529.18492.62534.3861476.442.06446.32506.4862511.528.46491.14531.8663480.744.83448.62512.7864501.429.00480.66522.1465481.150.65444.86517.3466496.036.53469.87522.1367489.244.20457.58520.8268494.829.73473.54516.0669497.268.49448.21546.1970504.135.13478.95529.2571507.934.35483.33532.4772°465.325.56447.02483.58*73502.645.54470.03535.17744
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 七年級英語上冊 Unit 3 Is this your pencil第3課時教學設計(新版)人教新目標版
- 防災減災日地震安全培訓
- 三年級上美術教學設計-天外來客-蘇少版
- 對客服務用語規范性培訓
- 二年級語文下冊 第六單元 17 要是你在野外迷了路教學設計 新人教版
- 2024中國鋁業集團有限公司華東區域法律中心法律顧問招聘1人筆試參考題庫附帶答案詳解
- 人教部編版六年級下冊第二單元單元綜合與測試表格教案及反思
- 九年級化學下冊 第8單元 金屬和金屬材料 實驗活動4 金屬的物理性質和某些化學性質教學設計 (新版)新人教版
- 九年級道德與法治上冊 第3單元 推進政治文明 第6課 建設法治中國 第2框 弘揚法治精神教學設計 北師大版
- 七年級地理下冊 第七章 第三節 印度教學設計 新人教版
- 2025銀行協議存款合同
- 2023年高考英語試卷(新課標Ⅰ卷)含答案解析
- DB51T 2679-2020 鋼軌被動式高速打磨技術規范
- DB32T 4878-2024居住區供配電設施建設標準
- 微專題含膜電池-2024高考化學一輪考點擊破
- 《航模基礎知識》課件
- 慢性高血壓并發子癇前期病因介紹
- 存款保險知識培訓
- 2025年中國汽車車燈行業市場現狀、前景分析研究報告(智研咨詢發布)
- 2024年湖北省中考語文真題(學生版+解析版)
- 電力公司電力設備運行維護管理手冊
評論
0/150
提交評論