醫學統計學復習要點_第1頁
醫學統計學復習要點_第2頁
醫學統計學復習要點_第3頁
醫學統計學復習要點_第4頁
醫學統計學復習要點_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1數據/資料的分類: 、計量資料,又稱定量資料或者數值變量;為觀測每個觀察單位某項 治療的大小而獲得的資料。 、計數資料,又稱定性資料或者無序分類變量;為將觀察單位按照某 種屬性或者類別分組計數,分組匯總各組觀察單位數后而得到的資料。 、等級資料,又稱半定量資料或者有序分類變量。為將觀察單位按某 種屬性的不同程度分成等級后分組計數,分類匯總各組觀察單位數后而 得到的資料。2、 統計學常用基本概念: 、統計學(statistics )是關于數據的科學與藝術,包括設計、搜集、 整理、分析和表達等步驟,從數據中提煉新的有科學價值的信息。 、總體(population )指的是根據研究目的而確定的同質

2、觀察單位的 全體。 、醫學統計學(medical statistics ):用統計學的原理和方法處理醫 學資料中的同質性和變異性的科學和藝術,通過一定數量的觀察、對比、 分析,揭示那些困惑費解的醫學問題背后的規律性。 、樣本(sample):指的是從總體中隨機抽取的部分觀察單位。 、變量(variable ):對觀察單位某項特征進行測量或者觀察,這種特 征稱為變量。 、頻率(frequency ):指的是樣本的實際發生率。 、概率(probability ):指的是隨機事件發生的可能性大小。用大寫 的P表示。3、 統計工作的基本步驟: 、統計設計:包括對資料的收集、整理和分析全過程的設想與安排

3、; 、收集資料:采取措施取得準確可靠的原始數據; 、整理資料:將原始數據凈化、系統化和條理化;、分析資料:包括統計描述和統計推斷兩個方面。第二章計量資料的統計描述1.頻數表的編制方法,頻數分布的類型及頻數表的用途 、求極差(range):也稱全距,即最大值和最小值之差,記作 R; 、確定組段數和組距,組段數通常取10-15組; 、根據組距寫出組段,每個組段的下限為 L,上限為U,變量X值得歸 組統一定為LWXVU,最后一組包括下限。 、分組劃記并統計頻數。頻數分布的類型包括對稱分布和偏態分布;偏態分布主要分為右偏態分布(也稱正偏態分布)和左偏態分布(也稱負偏態分布)。頻數表的用途包括以下幾個方

4、面: 、描述頻數分布的類型; 、描述頻數分布的特征; 、便于發現一些特大或特小的離群值; 、便于進一步做統計分析和處理。2.集中趨勢指標的適用條件、計算方法和意義。統計學用平均數(average)這一指標體系來描述一組變量值的幾種位置 或者平均水平。常用的平均數有算術均數、幾何均數和中位數。 、算數均數,簡稱均數(mear),可用于反映一組呈對稱分布的變量值 在數量上的平均水平。計算方法包括直接計算法和頻數表法(公式見2-2 )0 、幾何均數(geometric mean),可用于反映一組經對數轉換后呈對稱 分布的變量值在數量上的平均水平, 在醫學研究中常用于免疫學的指標。(計算公式見于2-3

5、) 、中位數(median),適用于各種分布類型的資料,尤其是偏態分布資 料和一端或者兩端無確切數值的資料。 、百分位數(percentile )是一種位置指標,是一個界值,其重要用途是確定醫學參考值范圍(referenee range )。直接計算法(公式見于2-7、2-8)頻數表法(2-9、2-10)3. 離散趨勢指標的適用條件、計算方法和意義。描述數據變異大小的常用統計指標有 極差、四分位數間距、方差、標準 差和變異系數。 、極差,一組變量值的最大值與最小值之差。 、四分位數間距(quartile range ,QR是把全部變量值分為四部分 的分位數后,由第3四分位數和第1四分位數相減而

6、得。它一般和中位 數一起描述偏態分布資料的分布特征。QR = P-P25。 、方差(varianee)也稱均方差(mean square deviation )離均差平方和與樣本含量的比值。計算公式為 2-11 、標準差(standard deviation )是方差的正平方根,其單位與原變量值得單位相同。計算公式為 2-13、2-14 、變異系數(eoeffieient of variation )記作CV多用于觀察指標 單位不同時,或者均數相差較大時兩者變異程度的比較。 計算公式為2-164.正態分布的圖形,正態分布的特征,正態曲線下面積的分布規律。正態分布的特征: 、在直角坐標的橫軸上方

7、呈鐘形曲線,兩端與X軸永不相交,且以X=卩為對稱軸,左右完全對稱。 、在X=u處,f (X)取最大值,遠離卩,其值越小。 、正態分布有兩個參數,位置參數卩和形態參數(T,卩決定正態分布的曲線在坐標軸上的左右移動,越大越右移;C決定曲線的弓背程度,越小峰值越高。 正態分布曲線下的面積分布有一定的規律。X軸與正態曲線所夾面積恒 等于1或者100%區間卩 c的面積為68.27%;區間卩土 1.96 c的面積為95.00%,區間卩 2.58 c的面積為99.00%。5.醫學參考值范圍的意義和估計方法。醫學參考值(referenee value )是指包括絕大多數正常人的人體形態、 機能和代謝產物等各種

8、生理及生化指標常數,也稱正常值。由于存在個體差異,生物醫學數據并非常數,而是在一定范圍內波動,故 采用醫學參考值范圍(medical referenee range )作為判定正常和異常 的參考標準。通常使用的醫學參考值范圍有 90% 95% 99% 、正態分布法:數據服從或者近似服從正態分布,或者通過適當的變 換轉換為正態分布,采用此方法之前一般要對資料進行正態性檢驗且要 求樣本含量足夠大(如n100)計算公式為2-23、2-24 :雙側:單側: 、百分位數法:適用于偏態分布資料醫學參考值范圍的制定,所要求的樣本含量比正態分布要多(不低于100)。計算公式為2-25、2-26 :雙側:單側:

9、第三章總體均數的估計與假設檢驗1、 基本概念: 抽樣誤差(sampling error ):指的是由于個體變異產生、隨機抽樣造 成的樣本統計量與總體參數的差異。 標準誤(standard error ,SE :指的是樣本統計量的標準差。 均數的標準誤(standard error of mean ,SEM:指的是樣本均數的 標準差。探SEM反映樣本均數之間的離散程度,也反映樣本均數與相應總體均數間的差異。均數的標準誤的計算公式為 3-1、3-2 統計推斷(statistieal inference ):通過抽樣研究的方法從總體中 隨機抽取一個樣本,用樣本的信息來推斷總體的特征的統計學方法,包

10、括參數估計和假設檢驗。2、 標準差的用途: 、反映資料的離散趨勢。標準差越小,說明變異程度越小,均數的代 表性越好; 用于計算變異系數; 用于計算標準誤; 結合均數和正態分布規律估計參考值范圍。3、u分布與t分布:u分布(也稱Z分布):指的是總體均數為0,總體標準差為1的標準正 態分布N(0,12)。t分布:隨機變量X服從總體均數為卩,總體標準差為(T的正態分布(卩, (T 2),則可以通過u變換將一般的正態分布轉化為標準正態分布。但是通常獲得的資料為樣本的均數標準誤,因此經過轉換后并不是完 全意義上的標準正態分布,而是服從 t分布。(計算公式為3-3) t分布主要用于總體均數的區間估計和t檢

11、驗。4、可信區間:從固定樣本含量的已知總體總進行重復隨機抽樣試驗,根據每個樣本可算得一個可信區間,則平均有1-a (如95%的可信區間包含了總體參數,而不是總體參數落在該范圍的可能性為1- a。5、參考值范圍和總體均數可信區間的區別見課本表3-26、標準差與標準誤的區別和聯系:7、總體均數可信區間的計算:根據總體標準差b是否已知以及樣本含量 n的大小而異,通常有t分布和u分布兩類方法。A、單一總體均數的可信區間:a、總體標準差b已未知:按t分布雙側和單側公式見3-5、3-6、3-7b、 b已知或者未知,但n足夠大(如60)時:按u分布雙側和單側公式見3、& 3-9、3-10B兩總體均數之差的可

12、信區間:前提:兩總體方差相等,但均數不等計算公式見于3-12、3-13、3-14& t分布圖的特征: 、單峰分布,以0為中心,左右對稱; 、t分布的曲線形態取決于自由度 v的大小,自由度越小,則t值越分 散,曲線的峰部越矮而尾部翹得越高; 、當自由度逼近無窮的時候,樣本標準誤接近總體標準誤,t分布逼近 標準正態分布。(標準正態分布是t分布的特例)9、t檢驗的適用條件t檢驗(t test/Student t-test)當b未知且樣本含量較小時(如 nv60),理論上要求t檢驗的樣本隨機地取自正態分布的總體 ,兩小樣本均 數比較式還要求兩樣本所對應的兩總體方差相等,即 方差齊性。在實際 應用中,如

13、與上述條件略有偏離,對結果影響也不大。10、假設檢驗A、假設檢驗的基本思想:利用小概率反證法的思想,從問題的對立面(H) 出發簡介判斷要解決的問題(H)是否成立。即在假設 成立的條件下 計算檢驗統計量,然后根據獲得的 P值來判斷。B、 假設檢驗的基本步驟:建立檢驗假設,確定檢驗水準; 計算檢驗統計量; 確定P值,做出推斷結論。C、 假設檢驗的錯誤I型錯誤:拒絕了實際上成立的 H0,這類“棄真”的錯誤;(a )U型錯誤:“接受”了實際上不成立的 H0,這類“取偽”的錯誤。(B ) 注意:a越小,B越大;反之a越大,B越小; 若重點是減少I 型錯誤,一般取a =0.05 ;若重點是減少U型 錯誤,

14、一般取B =0.10或者0.20甚至更高; 若要同時減小I 型和U型錯誤,唯一的方法就是增加樣本含量n ; 拒絕H0,只可能犯I型錯誤;接受H0,只可能犯U型錯誤。單樣本t檢 驗適用于已知樣本均數和已知總 體均數的比較t分布(v=n-1)對方差齊與否無要 求止態分布t值配對樣本t 檢驗適用于配對設計的計量資料t分布(v=n-1)對方差齊與否無要 求止態分布t值萬差齊適用于任意兩計量資 料的比較t分布(v=n1+n2-2)萬差齊 止態分布t值方差不 齊Cochran&Cox 近似 t檢驗t分布方差不齊 止態分布t 值(校正t值)兩樣本t檢 驗/成組t檢 驗Satterthwaite近似t檢驗t分

15、布方差不齊 止態分布t值(校正自由 度)兩樣 本(樣 本含 量較 小,60)兩樣本的方差比較時,可以使用F檢驗,分子為較大的樣本方差(自由度為n1-1 );分母為較小的樣本方差(自由度為n2-1 )。 F值滿足F分布,統計值為F值。完全隨機設 計資料的方 差分析完全隨機化分組方法將試驗對 象分配到g個處理組中去,試驗 后比較各組均數之間的差別F分布萬差齊 止態分布F值與成組t檢驗意義 相同隨機區組設 計資料的方 差分析隨機分配的次數要重復多次,且 各個處理組實驗對象數量相同, 區組內均衡F分布萬差齊 止態分布F值與配對t檢驗意義 相同拉丁方設計 資料的方差 分析可多安排一個已知的對實驗結 果有

16、影響的非處理因素,增加了 均衡性,減少了誤差,提高了效 率F分布萬差齊 止態分布F值資 料 或 數 據計量資 料(已 知均數 和/或 標準 差)多樣 本兩階段交叉 設計資料的 方差分析兩種處理在全部實驗過程中交 叉進行F分布萬差齊 止態分布F值兩個階段之間一定 要經過一段洗脫階 段以消除殘留效應多樣本的多重比較LSD-t檢驗/最小顯著差異t檢驗,適用于一對或者幾對在專業上有特殊意義的樣本均數間的比較,統計量為t值Dunnett-t檢驗適用于g-1個實驗組與一個對照組均數差別的多重比較,統計量為Dunnett-t值SNK-q檢驗適用于多個樣本均數兩兩之間的全面比較,統計量為q值多樣本的方差比較B

17、artlett 檢驗,要求資料具有正態性,統計量為卡方;Levene檢驗,比Bartlett 檢驗要求低,不需要資料具有正態性,統計量為F值四格表資料通過兩個樣本的樣本率來反映 總體率有無差異卡方分布無方差齊性要 求無正態分布要 求卡方值與兩樣本的 u檢 驗等價:u2*方值配對四格表 資料強調配對:即針對同一樣本米 取不同的試驗或者處理方法。卡方分布無方差齊性要 求無正態分布要 求卡方值行X列表資 料用于多個樣本率的比較、兩個 或多個構成比的比較以及雙向 無序分類資料的關聯性檢驗卡方分布無方差齊性要 求無正態分布要 求卡方值可用來分析兩個 分類變量之間有無 關系或者關聯多樣本率的 多重比較適用

18、于多樣本率兩兩之間的多 重比較(基本思想:對卡方值 進行校正)卡方分布無方差齊性要 求無正態分布要 求卡方值H0:H1分類資料頻數分布的 擬合優度推斷頻數分布的擬合優度適用 于正態分布、二項分布、 poisson分布和負二項分布卡方分布無方差齊性要 求無正態分布要 求卡方值推斷某現象的頻數 分布是否符合某一 理論分布配對樣本的 檢驗適用于配對樣本差值的中位數 和0比較;還可用于單個樣本 中位數和總體中位數比較無方差齊性要 求無正態分布要 求秩和(正 秩和或負 秩和)T 值樣本量n 50時可用 正態分布近似法其/、 他 類 型 資 料不滿足上述 統計方法的 資料、等級資 料秩檢驗兩獨立樣本 比較

19、適用于推斷計量資料或等級資 料的兩個獨立樣本所來自的兩 個總體分布是否有差別方差不齊 止態分布秩和(正 秩和或負 秩和)T 值n1 10 或 n 2-n1 10 可用正態分布近似 法作u檢驗無方差齊性要 求無正態分布要完全隨機多 樣本比較用于推斷計量資料或者等級資 料的多個獨立樣本所來自的多 個總體分布是否有差別求H檢驗H 值g=3且最小樣本的例 數大于5或g3,H 近似服從g-1的正態 分布,可用卡方分布 法雙變量直線 回歸用于對兩變量總體間線性關系 的估計線性、獨立、方 差齊性、誤差服 從均數為0的正 態分布回歸方程 (回歸系 數)雙變量直線 相關用于判斷兩個數值變量之間 有 無線性關系,

20、雙變量正態分布 資料正態分布相關系數r相關系數求出后應 做假設檢驗多變量資料 的處理-回歸與相關多元線性回 歸用于分析一個應變量與多個自 變量之間的線性關系正態分布多元回歸 方程回歸方程求出后應 做整體假設檢驗以 及各自變量的假設 檢驗第四章 多樣本均數比較的方差分析方和。并有SS總=SS組間+SS組內由于組間與組內的離均差平方和的自由度不同,因此單純的比較并無實 際意義。MS且間=SS組間/v組間;MS且內=SS且內/v組內5、完全隨機設計資料的方差分析:變異來源自由度MSF總變異N-1組間g-1MS且間MS且間/MS組內組內N-gMS且內完全隨機設計資料:正態分布且方差齊:單因素方差分析成

21、組t檢驗(意義相同t1 2 3 4 =F)1概念:離均差平方和 (sum of squares of deviati on from mean,SS 指的是各個觀測值與總均數差值的平方。均方差,簡稱均方(mean square, MS指的是離均差平方和與自由度 非正態分布或/和方差不齊:變量轉換單因素方差分析秩和檢驗6、隨機區組設計資料的方差分析:之間的比值。2方差分析的基本思想:設處理因素有g( g 2)個不同的水平,實驗對象隨機分為g組,分別接 受不同水平的干預。方差分析的目的就是在H0卩仁卩2=.= I g成立的條件下,通過分析各處理均數之間的差別大小,推斷 g各總體均數間 有無差別。3

22、方差分析的應用條件為:各個樣本是相互獨立的隨機樣本,均來自于 正態分布總體;相互比較的各個樣本的總體方差相等, 即具有方差齊性。4方差分析的變異分析:總變異的大小一一SS總:各個觀測值與總均數差值的平方和; 組間變異的大小一一SS組間:各組均數與總均數的離均差平方和; 組內變異的大小一一SS組內:組內個觀測值與其所在組的均數的差值的平變異來源自由度MSF總變異N-1處理間:g -1MS處理MS處理/ MS誤差區組間n -1MS區且MS區組/ MS誤差誤差(n -1)(g -1)MS吳差隨機區組設計資料:正態分布且方差齊:雙向分類的方差分析配對t檢驗(意義相同t2 =F)非正態分布或/和方差不齊

23、:變量轉換f雙向分類的方差分析Friedman M檢驗初衷:考慮環境因素對實驗結果的影響。7、拉丁方設計資料的方差分析:可多安排一個已知的對實驗結果有影響的非處理因素,增加了均衡性, 減少了誤差,提高了效率。完全隨機設計只涉及一個處理因素;隨機區組設計涉及一個處理因素、一個區組因素;如果實驗研究涉及一個處理因素和兩個控制因素,每個因素的類別數或 水平數相等,此時可采用拉丁方設計。變異來源自由度MSF總變異N-1處理組g -1MS處理MS處理/ MS誤差行區組g -1MS亍MS亍/ MS誤差列區組g -1MS列MS列/ MS誤差誤差(g -1)(g -2)MS吳差8兩階段交叉設計資料的方差分析該

24、設計不僅平衡了處理順序的影響,而且能把處理方法間的差別、時間 先后之間的差別和實驗對象之間的差別分開來分析。9、 多樣本均數間的多重比較方法:LSD-t檢驗、Dunnett-t檢驗、SNK-q 檢驗三種。10、多樣本方差比較:Bartlett 檢驗、Levene檢驗第五章 計數資料的統計描述1、基本概念: 、相對數(Relative number ):是兩個有關聯的數據之比,用以說明 事物的相對關系,便于對比分析。常用的相對數指標很多,按聯系的性質和說明的問題不同,主要分為:率、構成、相對比三類。 、強度相對數-頻率(frequency ):是最常見的一種相對數,頻率在 實踐中又稱為比率(pr

25、oportion )。它表示事物內部某個組成部分所占的 相對多少。 、結構相對數一構成比(constituent ratio) :說明某事物內部各組成部分所占的比重或分布,又稱構成比。構成比可相加,和等于100% 、優勢相對數-比(ratio ):是指兩個有關聯的指標 A和B之比, 簡稱比。A和B可以是性質相同,也可以是性質不相同。通常以倍數或百 分數(表示。 、率的標準化法:指的是消除內部構成差別,使總體率能夠直接進行 比較的方法。采用統一標準調整后的率為標準化率,簡稱為標化率(standardized rate )。標準化的基本思想:采用統一的“標準人口構成”,以消除人口構成不同對各組總率

26、的影響,使算得的標準化率具有可比性。、動態數列(dynamic series):是按時間順序排列的統計指標(可 以為絕對數,相對數或平均數),用以觀察和比較該事物在時間上的變化 和發展趨勢。分析動態數列常用的指標有:絕對增長量、發展速度與增長速度、平均 發展速度與平均增長速度。、發展速度:表示報告期指標的水平相當于基線期(或前一期)指標的百分之多少或若干倍。 、增長速度:表示的是凈增加速度,增長速度=發展速度-1 (100%。2、率的標準化的注意事項:標準化后的標準化率,已經不再反映當時當地的實際水平,它只是表 示相互比較的資料間的相對水平。.兩樣本標準化率是 樣本值,存在抽樣誤差。當樣本含量

27、較小時,比較 兩樣本的標準化率,需要作假設檢驗。(但如果比較的兩者是總體的參數, 則可進行直接比較,無需進行t、F檢驗第六章幾種離散型變量的分布及其應用連續型分布舉例:u分布、t分布和F分布;常用離散型分布:二項分布、Poisson分布、負二項分布。1、基本概念、二項分布(binomial distribution ):是指在只會產生兩種可能結 果之一的n次獨立重復試驗中,當每次實驗的“陽性”的概率 n保持不變時,出現“陽性”次數 X=0,1,2n的一種概率分布。、Poisson分布(Poisson distribution):是二項分布的一種極端形式,指的是每次實驗的“陽性”概率比較低的時候

28、,出現陽性次數的相 應概率滿足以X為參數的XP(入)o2、 二項分布的適用條件: 、每次試驗只會發生兩種隊里的額可能結果之一,即分別發生兩種結 果的概率之和很等于1; 、每次試驗產生某種結果的概率固定不變; 、重復試驗是相互獨立的,不相互影響。3、 二項分布的性質 、樣本率的標準差也稱為率的標準誤,可以用來描述樣本率的抽樣誤差,率的標準誤越小,則率的抽樣誤差就越小。 、當冗=0.5時,二項分布圖形是對稱的,當 冗工0.5時,圖形是偏態 的,隨著n增大,圖形趨于對稱。當n-無窮時,只要冗不太靠近0或1, 二項分布則近似正態分布。 、利用二項分布的性質,可進行總體率的區間估計和差異推斷。(當nw

29、50時可查表得到可信區間, 50是可采用近似正態分布法)4、Poisson分布的適用條件:普通性:才充分小的觀測單位上 X的取值最多為1;獨立增量性:重復實驗室相互獨立的,不相互影響;平穩性:每次試驗陽性時間發生的概率都應相同。5、Poisson分布的性質: 、總體均數入與總體方差c2相等時Poisson分布的重要特征; 、當n很大,而冗很小時,且n冗二入為常數時,二項分布近似Poisson 分布; 、當入增大時,Poisson分布逐漸近似正態分布。一般而言,X 20時,Poisson分布資料可作為正態分布處理。 、Poisson分布具備可加性。6、Poisson分布的圖形特點:當入越小,分布

30、就越偏態;當入越大時,Poisson分布則越漸近正態分布。 當X 1時,隨X 取值的變大,P (X)值先增大后變小。第七章卡方檢驗% 21、 2分布曲線的特點: 2分布曲線的形狀依賴于自由度的大小當 自由度w 2時,曲線呈L形;隨著自由度的增加,曲線逐漸趨于對稱; 當 自由度-無窮時,x2分布趨近正態分布。2、 2分布的基本性質:可加性;3、 2檢驗的原理:通過實際頻數和理論頻數滿足 f( X2),來推斷實際 頻數與理論頻數的差異大小及有無統計學意義。4、幾種常見的資料類型: 、普通四格表:自由度二(行數/)(列數/)% 2可使用四格表專用公式;X : n40且所有的T5 使用基本公式;P 0

31、C時,改用Fisher確切概率法;n40但有1T5 四格表校正公式或者 Fisher確切概率法 nv40或T1 Fisher 確切概率法 配對四格表資料:b+c 40且1T非參數檢驗的適用范圍: 不滿足正態分布和方差齊性條件的計量資料; 對于分布不知道是否正態的小樣本資料; 對于一端或兩端是不確定值得資料; 推斷等級資料的等級強度差別。2、主要數據資料類型:配對樣本比較:(樣本量50時可以采用近似正態法作u檢驗)H0樣本總體中位數二人群總體中位數;H1:樣本總體中位數工人群總體中位數。 兩獨立樣本的比較:(n 1 10或n2-n1 10時,令n1+ n2=N作近似正 態分布檢驗)H0兩樣本總體

32、分布位置相同;H1:兩樣本總體分布位置不同。 完全隨機多個樣本:H0多個樣本總體分布位置相同;H1:多個樣本總體分布位置不全相同。注意:當完全隨機的多個樣本為兩個樣本時,使用完全隨機多個樣本的檢驗方法求得的統計值 H (或HC)與使用兩獨立樣本的u檢驗求得的u 值等價。H=u2第九章:雙變量回歸與相關1、 直線回歸(linear regression ):因變量丫隨著自變量X的變化而變 化呈直線趨勢,但并非所有的對應點恰好全都在一條直線上,稱為直線 回歸或者簡單回歸。注:a為常數項,是回歸直線在丫軸上的截距;b為回歸系數(coefficientof regression ),為直線的斜率;其統

33、計意義是當X變化一個單位時丫的平均改變的估計值。直線回歸方程的求法基本原貝最小二乘(least sum of squares )將實測值與假定回歸線上的估計值的縱向距離稱為殘差(residual )或剩余值。為了使各點殘差盡可能的小,考慮到所有點之殘差有正有負, 所以通常取各點殘差平方和最小的直線即為所求,如此得到的回歸系數 最理想。統計推斷的檢驗:方差分析F檢驗或者t檢驗兩者等價:t=F2b離0越遠,丫受X的影響越大,SS回就越大,回歸效果越好:SS殘越小,估計誤差越小,回歸作用越明顯。2、 直線相關(linear correlation):兩個數值變量進行比較時,一個 變量在增加或者減少時

34、,另一個變量也表現為增加或者減少,這兩個變 量之間的關系即為直線相關。相關系數(correlation coefficient)又稱為pearson積差相關系數,以符號r表示樣本相關系數,符號p表示其總體相關系數。用來說明具有直線關系的兩變量間相關的密切程度與相關方向。相關系數的統計推斷:t檢驗決定系數(coefficient of determination):為回歸平方和與總平方和之比。其數值大小反映了回歸貢獻的相對程度,也就是在 丫的總變異中 回歸關系所能解釋的百分比。3、 殘差圖考察數據是否符合模型假設的基本要求: 、應變量與自變量關系為線性; 、誤差服從均數為0的正態分布; 、方差相

35、等; 、各觀測對象獨立。4、 直線回歸與直線相關的區別和共同點區別:相關系數無單位,回歸系數有單位; 相關表示相互關系,沒有依存關系,回歸有依存關系; 兩者對資料的要求不同:當 X和丫都是隨機的,可以進行相關 和回歸分析;當丫是隨機變量,X是控制變量時,理論上只能做回歸分析。 聯系:均表示線性關系; 符號相同,共變方向一致; 假設檢驗結果相同;(tr=tb 可以互相換算(數值的相同不代表意義的相同)第十二章重復測量設計資料的方差分析1、重復測量設計資料的數據特征:、未設立平行對照的前后測量設計:(重復測量資料最常見的情況是前 后測量設計)前后測量設計與配對設計t檢驗的區別:a、 配對設計中同一

36、對子的兩個實驗單位可以隨機分配處理,兩個實驗單 位同期觀察實驗結果,可以比較處理組間差別;前后測量設計不能同期 觀察實驗結果,雖然可以在前后測量之間安排處理,但本質上比較的是 前后差別,推論處理是否有效是有條件的,即假定測量時間對觀察結果 沒有影響。b、 配對t檢驗要求同一對子的兩個實驗單位的觀察結果分別是差值相互 獨立,差值服從正態分布。而前后測量設計前后兩次觀察結果通常與差 值不獨立,大多數情況第一次觀察結果與差值存在負相關的關系。c、 配對設計用平均差值推論處理的作用,前后測量設計出了分析平均差 值外,還可進行相關分析。 、設立平行對照的前后測量設計:雖然分為處理組和對照組,但是不能進行

37、差值均數t檢驗,因為通常兩組差值的方差不會相等。 、重復測量設計:重復測量數據與隨機區組設計數據相似,兩者的差別是:a、 重復測量設計中處理是在區組間隨機分配,區組內的各時間點是固定 的,不能隨機分配;隨機區組設計則要求每個區組內實驗單位彼此獨立, 處理只能在區組內隨機分配,每個實驗單位接受的處理是不相同的。b、 重復測量設計區組內實驗單位彼此不獨立,而隨機區組內實驗單位彼 此獨立,如果按照隨機區組進行t檢驗則要求進行統計值的校正。第十五章 多元線性回歸資料的分析適用范圍:分析一個應變量與多個自變量之間的線性關系;1多元線性回歸模型的一般形式: 丫二B 0+B 1X1+B 2X2十+ P mX

38、m+ea偏回歸系數Bj的意義:表示在其他自變量保持不變的時候,Xj 增加或減少一個單位時丫的平均變化量。b、偏回歸分布的應用條件: 、丫與各個變量之間有線性關系; 、各例觀測值Yi相互獨立; 、殘差e服從均數為0,方差為3 2的正態分布。(等價于對任意一 組自變量X1 X2Xmfi,應變量丫具有相同方差,并且服從正態分布)c、參數的計算方法:最小二乘法2、多元線性回歸方程的假設檢驗及其評價:(對整體的假設檢驗)A、可以將回歸方程中所有的自變量作為一個 整體來檢驗它們與應變量丫 之間是否具有線性關系。假設檢驗方法:方差分析法:HO: P 1= P 2= .= p m=Q H1:各Bj不全為0.若

39、拒絕H0,接受H1,即可確定所擬合的回歸方程有統計學意義。1)決定系數R2:即為偏回歸平方和與殘差平方和的比值,其值越接近1,說明擬合程度越好。2)復相關系數:決定系數開根號,可用來度量應變量與多個自變量之間 的線性相關程度。B各自變量的假設檢驗:、使用方法為偏回歸平方和(SS回(Xj):表示在個自變量的基 礎上新增加Xj所引起的回歸平方和的增加量。其值越大,說明 Xj越重 要。偏回歸平方和檢驗:H0:Bj=0;H1:門工0注意:單獨分析各個變量的偏回歸平方和,所有值的和小于總的回歸平方和,其原因是忽略了各個變量之間的相互作用成分。 、t檢驗法:對于同一資料,不同自變量的t值間可以相互比較,t

40、的 絕對值越大,說明該自變量對 丫的回歸所起的作用越大。 標準化回歸系數:減少自變量觀測單位不同對結果的影響。在有統計學意義的前提下,標準化回歸系數的絕對值越大說明相應自變 量對丫的作用越大。3、自變量選擇方法:A、 全局擇優法: 、校正決定系數Rc選擇法(當R2相同時,自變量個數越多,Rc越小, 最優為Rc最大) 、Cp選擇法:應選擇Cp最接近p+1的回歸方程為最優方程。B、 逐步選擇法: 、前進法:(只選不剔)在有統計學意義的前提下,選取偏回歸平方和 最大的一個自變量做F檢驗以決定是否選入。 、后退法:(只剔不選)選取回歸平方和最小的一個自變量做F檢驗以決定是否剔除。 、逐步回歸法:先選后

41、剔,雙向篩選。本質上是前進法,但每引入一 個自變量進入方程后,要對方程中的每一個自變量做基于偏回歸平方和 的F檢驗,看是否需要剔除一些退化為不顯著的自變量。注意:為了避免已經剔除的自變量再次入選,選入自變量的檢驗水準要小于或等于剔除自變量的檢驗水準。第十六章logistic 回歸分析logistic 回歸(logistic regression)屬于概率型非線性回歸。適用對象:二分類或多分類影響因素之間的關系。1、 表示方法:陽性概率 P=1/1+exp(-Z) Z= p 0+ p 1X1+p 2X2+ B mXmP的 logit 轉換:logit P=ln(p/1-p)= p 0+ p 1X

42、1 + P2X2+ + B mXm回歸系數Bj表示自變量Xj改變一個單位時logit P 的該變量。2、 模型參數的意義:、確定優勢比(odds ratio , OR 衡量危險因素作用大小的比數 比例ORB用于分類指標而不適用于計量指標;多變量調整后的優勢比(adjust odds ratio ) ORj:表示扣除了其 他自變量影響后危險因素的作用。用來對比某一危險因素兩個不同暴露水平Xj=c1和Xj=cO之間的發病情況。1)P j=0時,ORj=1,說明因素Xj對疾病的發生不起作用;2)Bj 0時,ORj1,說明因素Xj對疾病發生起危險作用;3)Bj V 0時,ORjvl,說明因素Xj時一個

43、保護因子。、確定相對危險度(relative risk , RR對于發病率很低的疾病存在優勢比即等于兩種暴露水平之間的相對危險 度。2 logistic回歸方程的參數估計:主要方法有最大似然估計法( maximum likelihood estimate , MLR和 優勢比估計法。3 logistic回歸的適用對象: 、比較各暴露因素的致病風險的大小; 、多因素的共同作用的評價; 、危險因素的篩選:多經文獻報道選取,但統計學資料不能代替專業 依據4 logistic 回歸模型的假設檢驗:常用的檢驗方法有似然比檢驗(likelihood ratio test )、Wald檢驗和計分檢驗(sco

44、re test )-統計量為卡方值logistic回歸模型變量的篩選與多元線性回歸相同。第十七章生存分析生存分析資料與一般資料比較的不同: 、同時考慮生存時間和生存結局; 、通常含有刪失數據; 、生存時間的分布通常不服從正態分布。2、概念:生存時間(survival time ),從起始事件到終點事之間所經歷的時間跨 度。完全數據(complete data ),在追蹤觀察中,當觀察到了某觀察對象的 明確結局時,該觀察對象所提供的關于生存時間的信息是完整的,這種 生存時間數據稱為完全數據。不完全數據(incomplete data ),在實際追蹤觀察中,由于某種原因無 法知道觀察對象的確切生存時間,這種生存時間數據也稱為截尾數據。 生存率(survival rate )是指病人經歷給定的時間之后仍存活的概率, 若有截尾數據,應用乘積極限法。生存概率(probability of survival )表示某段時段開始時存活的個體, 到該時段

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論