




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2檢驗、相關與回歸復旦大學公共衛生學院主要內容2檢驗簡單線性相關分析簡單線性回歸分析課后作業1of682檢驗比較兩個或多個樣本其所在總體另一個分類變量的發生率或構是否相同,也可以理解為檢驗分類變量的取值是否相互關聯,或者檢驗一個變量(如(如血型)的取值有影響。統計理論回顧)取值的不同是否對另一個變量完全隨機設計的單樣本計數資料的率/比與已知總體率/比比較完全隨機設計的兩(多)獨立樣本計數資料的率(較比)比配對設計的兩組相關樣本計數資料的率/Kappa一致性檢驗完全隨機設計的分層2檢驗比比較與2of682檢驗統計理論回顧1.變量類型定量變量:離散型變量(變量只能取整數值);連續型變量(實數軸上的
2、任意數值)參數檢驗,e.g.t test定性變量:有序分類變量基于類變量-2檢驗的非參數檢驗;無序分2.應用 (無序分類變量資料的2檢驗)擬合優度檢驗:根據樣本推斷其總體分布與期望分布有無差別;關聯性分析:推斷分類變量是否相關聯或相互獨立;率/比的比較:推斷分類變量間的總體分布是否相同3of682檢驗3. 理論基礎連續型隨量的2分布和離散型資料的擬合優度檢驗2分布:設有k個互相獨立的標準正態分布變量Z1,Z2,Zk,Z 2+Z 2+Z 2的分布稱為度為k的2分布。12k連續型隨量的概率分布特點: 非對稱分布 圖形與度r有關2檢驗4. 基本H0:觀察頻數與期望頻數間無差別2 表示觀察值與期望值之
3、間的偏離程度 2 2k 1E實際數/觀察值(A,actual frequency )理論數/期望值(E, expected frequency):無效假設成立5. 2檢驗對數據的要求(非配對的四格表)n40 & T5:普通的Pearson 2n40 & T1 & 1T5(20%):Yates校正的2n40 OR T1 OR P OR 1T20%):Fisher確切概率5of682檢驗6. 分類變量資料的數據錄入格式枚舉格式頻數格式kAi Ai2Lln)7.其他檢驗方法Ti1i 似然比卡方/Likelihood Ratio Chi-Square:當樣本量較大時, Pearson2統計量和似然比2
4、統計量都接近2分布;樣本量 不夠大時,都偏離2分布,二者的數值不同,但較接近,實際應用時,可以結合兩個統計量的結果下結論。6of682檢驗線性相關的卡方/Linear-by-Linear Assotion-Haenszel檢驗不同于普通卡方或似然比卡方,是檢驗有Man序變量顯著性的方法。當檢驗兩個有序變量之間的線性關系時,首選Man-Haenszel檢驗,它比卡方更有統計學效率(更容易建立線性關聯)。-Haenzel卡方不適于名義變量。如果發現顯著性,一個變Man量的增加與與另一個變量增加(或減少)很可能是由于抽樣誤差引起的。與其他的卡方檢驗一樣,M-H卡方也不適用格子內數量小的表格7of68
5、完全隨機設計的單樣本計數資料的率/比與已知總體率/比比較目的:推斷該樣本所代表的未知總體率與已知總體率0(一般為理論值、標準值或經大量觀察所得的穩定值)是否相等,簡單的講,就是檢驗某個變量的幾個取值所占百分比是否和期望的比例有統計學差異,如新生兒中男女性別比是否為50;SPSS中的數據結構該檢驗/-Chi-Square ;一般卡方/crosstab8of68分析實例(onesample_chisquare.sav)中國的急性、慢性、晚期血吸蟲病的病例數根據以前的理論比為1:7:2,今在血吸蟲病流行區隨機抽樣1000例,得到三者的人數分別為80:750:170,問現在三者的比例是否發生了變化?H
6、0:三種病例數的比例為1:7:2Data-Weight Caseswww osstaosom完全隨機設計的兩(多)獨立樣本計數資料的率(構)比較目的 兩/多獨立樣本計數資料的率或比是否相同 兩個分類變量間是否相關聯或相互獨立相關分析中介紹SPSS中的數據結構Data-Weight Cases;yze-Descriptive Sistics-Crosstabs12of68分析實例 (kindependent_chisquare.sav)用某藥治療不同類型關節炎的療效如下表,問該藥治療不同類型關節炎的療效是否有差別?表2 三種不同類型關節炎的臨床療效H0:三種不同類型關節炎的臨床療效相同13of6
7、8對于多組獨立樣本的2檢驗,H0只能說各組總體概率不全相同,即多組中至少有兩組的有效概率是不同的,但并不是多組有效概率彼此間均不相同。若要明確哪兩組間不同,還需要進一步作多組間的兩兩比較。如4個處理組,兩兩比較有6種對比,如果直接對每種對比分別作四格表的2檢驗,將增大I類錯誤的機會,為此在進行多組頻率間兩兩比較的時候,可以使用Bonferroni法校正檢驗水準:/c (c為兩兩比較的總次數)。使用通常的兩兩組之間的多個比較,然后將P值與校正后的檢驗水準=/c比較,進行統計推斷。16of68配對設計的兩組相關樣本計數資料的率/比較與Kappa一致性檢驗比McNemar檢驗目的:在控制了非處理的基
8、礎上,檢驗兩種方法/處理的差異性問題(2分類) Marginal Homogeneity(多分類:yze-nonparametric tests-2-related samples)H0: 兩種方法/處理的陽性檢出率無差異;2)2(|(b+c0正相關;|r|越接近1,相關性越好,越接近0,相關性越差。( X X )(YY )lXYr 2 (X Y )2XX YY31of68簡單線性相關分析2. 等級變量的秩相關從雙變量正態分布的資料;總體分布未知;等級資料;Spearman秩相關(Crosstabs/Sistics/Correlations)計算方法、統計推斷與Pearson相關系數完全一樣,
9、只需要將x、y用相應的代替即可。Kendall等級相關兩有序分類變量列出交叉表后,當一個變量的等級高時,另一個變量的等級也高,即為一致,反之,不一致,以P代表兩變量的一致對子數,Q代表兩變量不一致的對子數。a ) / 2nn32of68簡單線性相關分析 (P) /(Q)3. 其它有序變量的相關指標Gamma統計量: -1,1dd yxSomers D:xyPPQPyxdyx表示x為自變量,y為應變量時的情況,其中Py表示僅在y方向上的同分對。無序分類變量的相關指標列聯系數/Contingency Coefficient=sqrt(2/(2+n)其它相關指標:Phi&Cramers V; 系數;
10、不確定系數無序分類變量(自)與連續變量間(應)的eta相關表示兩變量間的相關程度,Eta2表示的就是由組間變異所解釋的因變量總變異的比例,即SS組間/SS總。34of68或者簡單線性相關分析統計理論回顧簡單線性相關分析:事物或現象之間是有無線性關系以及線性關系的方向和密切程度的分析方法。散點圖:直觀的看出兩變量間有無關系、何種關系以及是否存在異常值、變量的分布;+雙變量正態分布(穩健)Pearson相關系數:定量的表示兩變量線性相關的密切程度與相關方向的指標;(積差相關系數)總體相關系數的假設檢驗樣本相關系數r是總體相關系數的估計值,需進行=0假設檢驗 r 0 rtnSr1 r 236of68
11、n 2簡單線性相關分析線性相關分析的注意事項1. Pearson相關系數只是較好地度量了兩變量間的線性相關程度,不能描述非線性關系,因此,r=0,并不意味著兩變量間無相關性,可能存在曲線關系-散點圖;2. 一個變量的數值人為選定時,不要作相關,如藥物的劑量-反應關系,非隨量;3. 數據中存在明顯值時,結果有影響,慎用;38of684. 相關未必真有內在聯系,兩個相關的變量可能都與第三個變量有關:某一人在喜得貴子時,饒有興致地記錄了長時間兒子的身高和院子中樹苗的高度,計算發 現,二者具有相關性,難道二者間真有內在聯系?時間變量與二者的潛在聯系,造成了它們間相關的假象;5. 分層資料不能盲目合并;
12、of68SPSS中的數據結構分析實例 (corrreg.sav)隨機抽取15名健康成人,測定血液的凝血酶濃度(及凝血時間,問這兩個指標間是否存在相關?/毫升)40of68簡單線性相關分析分析過程:1. 散點圖(Graphs Legacy DialogsScatter/DotSimpleScatter)+);2. 計算相關系數(Spearman; Kendall);Bivariate過程:兩個/多個變量間的參數/非參數相關分析yze- Correlate Bivariate: Pearson;3. 對相關系數設檢驗41of68og 或分類變量的關聯性分析2.1 分類變量獨立樣本間的關聯性分析(n
13、ominal_assotion.sav)分析實例:某地居要有三種祖籍,均流行甲狀腺腫,為探討甲狀腺腫類型與祖籍是否有關聯,現根據居民甲狀腺腫的結果分析甲狀腺腫類型與祖籍間是否有關聯?Aij為同時具有兩個屬性(Xi,Yj)的頻數,ij為相應的聯合概率,ni為屬性Xi的頻數,ri為相應的邊際概率,mj為屬性Yj的頻數,cj為相應的邊際概率,i,j=1,2, n1+n2=m1+m2=n, r1+r2=c1+c2=1H0:兩種屬性之間不相關 (擬合優度檢驗的2統計量)44of68分類變量的關聯性分析H0:甲狀腺腫類型與祖籍無關46of68分類變量配對樣本間的關聯性分析分析實例:有56份咽喉涂抹標本,把
14、每份標本一分為二,依同樣的條件分別接種于甲、乙兩種白喉桿菌培養基上,觀察白喉桿菌生長的情況,問兩種培養基的結果有無關聯?(nominal_pairedasso分析:兩種培養基的陽性率是否相等的問題Mcnemar檢驗tion.sav)2)2(| 2(b+cLegacy Dialogs-Scatter/Dot-Matrix Scatteryze-Correlate-Partial52of68f68s簡單線性回歸分析回歸的最初含義:生物學含義英國的遺傳學家F.Galton和K.Pearson注意到一個有趣的現象,即父親高,兒子也高,父親矮,兒子也矮,但兒子的身高離平均水平更近些,即子代身高有向人群的
15、平均身高回歸to the mean)的趨勢,這就是“回歸”的生物學(regres內涵,Galton稱該現象為“普遍回歸法則(law of universal)”。這是很自然的,否則,豈不一代比一代無限regres制地遠離平均值,導致身高兩級分化?回歸的現在含義:完全不同了回歸分析是事物或現象間的數量依存關系,控制/56of68簡單線性回歸分析統計理論回顧目的:一個變量(應變量)的平均水平隨著其它變量(自變量)的線性變化的趨勢,并定量的進行表達。應用條件(LINE)線性(Line):Y的總體平均值與X間呈線性關系-散點圖/殘差圖獨立性(Independence):任意兩個觀察值間相互獨立,否則,
16、n個的資料實際上提供的信息要n -專業知識正態性(Normality):給定X,對應的Y應服從正態分布(殘差);直方圖/P-P/plot(殘差圖)方差齊性(Equal Variance):在X的取值范圍內,不論X取什么值,Y都有相同的方差Fit Line at Total66of68簡單線性相關與簡單線性回歸的區別與聯系區別簡單線性相關與回歸分析:都用于表述兩變量間的聯系,但其側重點不同,相關用于說明變量之間的相關關系,側重于聯系的方向與密切程度;回歸則說明因變量隨自變量變化而變化的數量關系。相關的兩個變量地位等同,相互關系;而回歸不同,依存關系;對資料要求不同:相關要求雙變量正態分布:回歸則要求自變量精確測量或嚴格控制的變量(I型)或隨機正態分布的變量(II型),因變量服從正態分布。聯系對同一組數據,r和b的正負號方向一致假設檢驗等價:tr=tb,r和b假設檢驗的結
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川文化產業職業學院《營銷實訓》2023-2024學年第二學期期末試卷
- 天津工程職業技術學院《物聯網導論》2023-2024學年第二學期期末試卷
- 山東中醫藥高等專科學校《教師課堂教學藝術》2023-2024學年第二學期期末試卷
- 無錫市崇安區達標名校2025屆初三下學期期初檢測試題含解析
- 四川省德陽市什邡中學2025年高三模擬試題(三)化學試題試卷含解析
- 沈陽科技學院《西方畫論》2023-2024學年第二學期期末試卷
- 江西理工大學《歐美設計規范釋義一雙語》2023-2024學年第二學期期末試卷
- 模電 9-功率放大電路學習資料
- 西安醫學高等專科學校《醫學科學研究導論》2023-2024學年第二學期期末試卷
- 單位使用個人車輛協議書二零二五年
- 22G101基礎平法識圖與鋼筋計算
- 2024年專升本考試-專升本考試(機械設計基礎)筆試歷年真題薈萃含答案
- 對中標候選人的異議書
- 2024年北京市自來水集團長辛店分公司招聘筆試參考題庫含答案解析
- -醫院感染預防與控制標準操作規程SOP第2版
- 老人疫苗接種健康知識講座
- 慢性阻塞性肺疾病的常見病例分析
- 2024年同等學力申碩-同等學力(政治學)歷年高頻考點試卷專家薈萃含答案
- 文學作品中的意象與象征解讀
- 2021年內痔內鏡下微創診療指南解讀講座課件
- 感染科業務培訓計劃
評論
0/150
提交評論