《統計學基礎知識》PPT課件.ppt_第1頁
《統計學基礎知識》PPT課件.ppt_第2頁
《統計學基礎知識》PPT課件.ppt_第3頁
《統計學基礎知識》PPT課件.ppt_第4頁
《統計學基礎知識》PPT課件.ppt_第5頁
已閱讀5頁,還剩79頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、統計學基礎知識,一.醫學統計學的意義,1.統計學(statistics):應用數學的原理與方法,研究數據的搜集、整理與分析的科學,對不確定性數據作出科學的推斷。 2.醫學統計學(statistics of medicine):應用統計學的原理與方法進行醫學科研與實踐。,3.統計學方法的特點: (1)用數量反映質量 1)體格檢查(量血壓、脈搏)個體健康質量 2)考試分數個體學習質量 3)期望壽命反映人群健康狀況 4)嬰兒死亡率反映衛生服務質量,(2)用群體歸納個體 2011年長沙市7歲男孩有多高? 7歲男孩身高有高有矮,平均身高=119.5cm 95%的長沙市7歲男孩的身高在110.20cm12

2、9.20cm之間,二、基本概念,1、研究單位(觀察單位、unit)、變量(variable)、變量值(value of variable) (1)研究單位(unit):研究中的個體。 如:研究2011年長沙市7歲男孩身高的正常值范圍 1個人 測得的身高值(120.2cm,118.6cm,121.8cm,),2、同質(homogeneity)和變異(variation) 研究長沙市2011年7歲男孩身高的正常值范圍? 同質:同長沙市、7歲、男孩、無影響身高的疾病。 變異:長沙市2011年7歲男孩身高有高有矮,3、總體(population)和樣本(sample) (1)總體:是根據研究目的確定的

3、同質研究單位的全體。更確切地說是同質研究單位某種變量值的集合。 例如:調查某地2011年正常成年男子的紅細胞數的正常值范圍。 總體:1)某地所有的正常成年男子 2)某地所有的正常成年男子的紅細胞數,1)有限總體(finite population):研究單位數是有限的。 例如:調查某地2011年正常成年男子的紅細胞數的正常值范圍。 2)無限總體(infinite population):研究單位數是無限的。 例如:高血壓患者無時間、空間限制。,(2)樣本(sample):是總體中抽取的有代表性的一部分。 注意:隨機抽樣(無主觀性) 樣本含量(sample size):樣本中包含的研究單位數。

4、例如:某藥治療高血壓患者30名 樣本含量(n)為30,4、參數(parameter)和統計量(statistic) (1)參數:根據總體個體值統計計算出來的描述總體的特征量。 一般用希臘字母表示 (2)統計量:根據樣本個體值統計計算出來的描述樣本的特征量。 一般用拉丁字母表示,總體參數一般是不知道的 統計學抽樣研究的目的就是: 樣本統計量總體參數 5、抽樣誤差 由于抽樣原因所造成的樣本統計量與總體參數之間的差別。 特點:1)抽樣誤差是不可避免; 2)有統計規律性。 產生原因:個體差異(生物變異),6、頻率(frequency)、概率(probability)、小概率事件 (1)頻率: 一次隨機

5、試驗出現各種可能結果的比例。 例如,投擲一枚硬幣,結果不外乎出現“正面”與“反面”兩種,在重復多次后,出現“正面” 或“反面”這個結果的比例稱之為頻率。,(2)概率(probability) 概率是度量隨機事件發生可能性大小的一個數值。 頻率是就樣本而言的,而概率從總體的意義上說的。,0 P(A) 1 隨機事件 P(A)=1 必然事件 P(A)=0 不可能事件。,(3)小概率事件:統計分析中的很多結論都基于一定置信程度下的概率推斷,習慣上將 稱為小概率事件。,湖南風采: 中獎概率大約為: 1/671萬 交通事故: 發生概率為:1/20萬,三、統計資料的類型,變量與統計資料的分類方法 概述 數值

6、變量.構成計量資料 分類變量 無序分類變量構成計數資料 有序分類變量構成等級資料,. 數值變量與計量資料 1) 數值變量(numerical variable) :變量值是定量的,表現為數值大小,一般有度量衡單位。如:身高(cm)、體重(kg)。 2) 計量資料(measurement data) :由一群個體的數值變量值構成的資料,即一群變量值。 如:長沙市2011年7歲男孩身高值(118.6cm,121.8cm),3.無序分類變量與計數資料 1)無序分類變量(unordered categories variable):變量值是定性的,有類別。 特點:類別是客觀存在的,各類無秩序,可任意排

7、列;類與類之間界限清楚,(理論上)不會錯判。 如:性別:男、女。 血型:O、A、B、AB。 2)計數資料(enumeration data):一群個體按無序分類變量的類別清點每類有多少個個體,即分類個體數。 如:某人群性別構成:男:, 女:7。 某人群血型構成:O:20, A:35, B:30, AB:15,4.有序分類變量與等級資料 1)有序分類變量(ordinal categories variable) :變量值是定性的、 分等級。 特點:等級是主觀劃分的,各級有秩序,從低到高或由高到低;級和級之間界限模糊,可能錯判。 如:療效:無效、好轉、顯效、治愈。 血清反應:、+、+ 2)等級資料

8、(ranked data):一群個體按有序分類變量的級別清點每級有多少個個體,即分級個體數。 如:某地某人群EB病毒抗體反應: :65, +:5, +:6,1.專業設計:選題、建立假說、確定研究對象和技術方法等2.統計設計:圍繞專業設計確定統計設類型、樣本大小、分組方法、統計分析指標及統計分析方法。,四、醫學統計工作的基本步驟,設計,統計設計的內容包括資料的搜集、整理和分析全過和的設想和安排。 例如:研究目的和假說? 研究對象和研究單位? 研究因素(變量)? 搜集哪些原始資料? 用什么方式和方法取得這些原始資料? 怎樣整理匯總和計算統計指標? 如何控制誤差? 預期會得到什么結果? 需要多少經費

9、?,統,(一)資料來源 第一手資料 經常性:統計報表(死亡登記、疫情報告等),工作記錄(病歷、化驗); 一時性:專題調查、實驗或臨床試驗。 第二手資料:已公布的資料,如數據銀行、全國、全省衛生統計資料。,收集資料,分析資料 1.統計描述:用統計指標、統計圖表對資料的數量特征及分布規律進行測定和描述。 2.統計推斷:用樣本信息推斷總體特征: 參數估計 假設檢驗。 工具:1)foxbase數據庫 2)spss 3)SAS,五、數值變量資料的統計描述,頻數分布表(frequency table) : 例 從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇的測量結果如下,試編制頻

10、數分布表。,頻數表,頻數分布圖,統計圖:指利用點的位置、線段的升降、直條的長短和面積的大小等各種幾何圖形來表達統計資料。 統計圖只能提供概略的情況,而不能獲得確切數值,因此不能完全代替統計表,常需要同時列出統計表作為統計圖的數值依據。,統計圖,統計圖的結構,標題:用于簡明扼要地說明資料的內容,一般位于圖的下方中央位置。 圖域:即制圖空間,是整個統計圖的視覺中心。除圓圖外,一般都是存在于特定的坐標體系下。 標目:分為縱標目和橫標目,表示坐標系下縱軸與橫軸的含義。 圖例:用于識別比較的統計圖中各種圖形所代表的含義。 刻度:即縱軸和橫軸上的坐標。刻度數值按從小到大的順序,縱軸由下向上,橫軸由左向右排

11、列。,常用的統計圖,直條圖 百分條圖 圓圖 線圖 半對數線圖 直方圖 散點圖,直條圖/條圖,圖12-1 某省1979年四個地區脊髓灰質炎發病率,圖12-2 某地1952年與1972年三種疾病死亡率比較,圖12-4 復方豬膽囊治療單純型老年性氣管炎療效,圖12-5 20世紀70年代和80年代某地7常見惡性腫瘤發病構成比較,圖12-6 某地1968-1974年結核病死亡率比較,圖12-7 某地1949-1958年白喉、傷寒、副傷寒 死亡率比較(普通線圖),圖12-8 某地1949-1958年白喉、傷寒、副傷寒 死亡率比較(半對數線圖),請注意:在普通線圖中,白喉死亡率線條的坡度比傷寒、副傷寒死亡率

12、線條下降的陡峭,只能說明兩種疾病的死亡率逐年變化幅度不同,不能錯認為白喉死亡率的下降速度比傷寒、副傷寒死亡率的下降速度快。在半對數線圖中就不會出現這種錯覺。,頻 數,紅細胞數(1012/L),圖12-9 140名正常男子紅細胞計數的直方圖,圖12-10 1997年某地乙型病毒性腦膜炎病例的年齡分布,1 2 3 4 5 6 7 8 9 10 15 2 0 25 30 35,年齡(歲),散點圖(scatter chart),散點圖:使用點的密集程度和趨勢來表示兩種指標或變量間的相關關系。,圖10-12 12名女大學生身高與體重散點圖,(一)平均指標,1.算術均數(mean): 可用于反映一組呈對稱

13、分布的變量值在數量上的平均水平或者說是集中位置的特征。,適用范圍:對稱分布,尤其正態分布,計量資料的描述指標,計算方法,例 :從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇( )的測量結果如下:,2.中位數 中位數(median):是將變量值從小到大按順序排列,位置(位次)居于中間的那個變量值。 1,3,7,5,100 中位數為多少?,n為奇數時 n為偶數時,例 7名病人患某病的潛伏期分別為2,3,4,5,6,9,16天,求其中位數。,本例n=7,為奇數 例8名患者食物中毒的潛伏期分別為1,2,2,3,5,8,15,24小時,求其中位數。 本例n=8,為偶數,應用,適

14、用于:1、各種分布類型的資料 2、特別是偏態分布資料和開口資料(一端或兩端無確切數值的資料)。,3、幾何均數,幾何均數(geometric mean):可用于反映一組經對數轉換后呈對稱分布的變量值在數量上的平均水平。 計算方法,例 某地5例微絲蚴血癥患者治療七年后用間接熒光抗體試驗測得其抗體滴度倒數分別為,10,20,40,40,160,求幾何均數。,適用于成等比級數的資料,特別是對數正態分布資料。,(二)變異指標,例 三組同齡男孩的身高值(cm),1.極差 極差(R):即一組變量值最大值與最小值之差。,2.方差(variance)也稱均方差,即將離均差平方和用樣本含量n 取平均,可反映一組數

15、據的平均離散水平。總體方差- ,樣本方差- 。,樣本標準差用s 表示 公式:,3.標準差,計算三組資料的標準差,甲組:,4、百分位數,百分位數(percentile)是一種位置指標。 一個百分位數 將全部變量值分為兩部分,在不包含的全部變量值中有 的變量值比它小, 變量值比它大。,變異系數(coefficient of variation,CV),多用于觀察指標單位不同時,如身高與體重的變異程度的比較;或均數相差較大時,如兒童身高與成人身高變異程度的比較。,5.變異系數,例:某地7歲男孩身高的均數為123.10cm,標準差為4.71cm;體重均數為22.59kg,標準差為2.26kg, 比較其

16、變異度?,第五章計數資料的統計描述,常用的相對數: 一、率。 二、構成比 三、相對比,第一節 常用相對數,一、率 率:說明某現象發生的頻率或強度。 常以百分率(%)、千分率()、萬分率(1/萬)、十萬分率(1/10萬)等表示,計算公式為:,例5-1 某醫院1998年在某城區隨機調查了8589例60歲及以上老人,體檢發現高血壓患者為2823例。 高血壓患病率為: 2823 / 8589 100% = 32.87% 。,、構成比 構成比:表示事物內部某一部分的個體數與該事物各部分個體數的總和之比,用來說明各構成部分在總體中所占的比重或分布。 通常以100%為比例基數。其計算公式為,例-某正常人的白

17、細胞分類計數,三、相對比 相對比簡稱比(ratio),是兩個有關指標之比,說明兩指標間的比例關系。 兩個指標可以是性質相同,如不同時期發病數之比;也可以性質不同,如醫院的門診人次與病床數之比。通常以倍數或百分數(%)表示。,例5-3 某年某醫院出生嬰兒中,男性嬰兒為370人,女性嬰兒為358人,則出生嬰兒性別比例為370/358100 = 103,說明該醫院該年每出生100名女嬰兒,就有103名男性嬰兒出生,它反映了男性嬰兒與女性嬰兒出生的對比水平。,第二節 應用相對數的注意事項,1、計算相對數應有足夠數量即分母不宜太小。 如果例數較少會使相對數波動較大。如某種療法治療5例病人5例全部治愈,則

18、計算治愈率為55100% =100%,若4例治愈,則治愈率為45100% =80%,由100%至80%波動幅度較大,但實際上只有1例的變化。在臨床試驗或流行病調查中,各種偶然因素都可能導致計算結果的較大變化,因此例數很少的情況下最好用絕對數直接表示。,2、不能以構成比代替率 構成比是用以說明事物內部某種構成所占比重或分布,并不說明某現象發生的頻率或強度,在實際工作中經常會出現將構成比指標按率的概念去解釋的錯誤例如表5-2研究已婚育齡婦女在不同情況下放置避孕環與失敗率的關系。,3.正確計算合計率 對分組資料計算合計率或稱平均率時,不能簡單地由各組率相加或平均而得,而應用合計的有關實際數字進行計算

19、。例如用某療法治療肝炎,甲醫院治療150人,治愈30人,治愈率為20%;乙醫院治療100人,治愈30人,治愈率為30%。兩個醫院合計治愈率應該是(30+30)/(150+100)100%=24%。若算為20%+30%=50%或(20% +30%)/2=25%,則是錯的。,4.注意資料的可比性 在比較相對數時,除了要對比的因素(如不同的藥物),其余的影響因素應盡可能相同或相近。在臨床研究和動物實驗時,應遵循隨機抽樣原則進行分組。,5.對比不同時期資料應注意客觀條件是否相同 例如, 疾病報告制度完善和資料完整的地區或年份,發病率可以“升高”;居民因醫療普及,就診機會增加,或診斷技術提高,也會引起發病率“升高”。因此在分析討論時,應根據各方面情形全面考慮,慎重對待。 6.樣本率(或構成比)的比較應做樣本率(或構成比)假設檢驗。,假設檢驗過去稱顯著性檢驗。它是利用小概率反證法思想,從問題的對立面(H0)出發間接判斷要解決的問題(H1)是否成立。然后在H0成立的條件下計算檢驗統計量,最后獲得P值來判斷。,七、統計推斷,例3-5 某醫生測量了36名從事鉛作業男性工人的血紅蛋白含量,算得其均數為130.83g/L,標準差為25.74g/L。問從事鉛作業工人的血紅蛋白是否不同于正常成年男性平均值140g/L? 130.83g/L 14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論