醫學研究中Logistic回歸與其他方法的結合應用_第1頁
醫學研究中Logistic回歸與其他方法的結合應用_第2頁
醫學研究中Logistic回歸與其他方法的結合應用_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、醫學研究中Logistic回歸與其他方法的結合應用 【關鍵詞】 Logistic回歸Logistic回歸(logistic regression)屬于概率型非線性回歸,是分析反應變量為獨立分類資料的常用統計分析方法,由于對資料的正態性和方差齊性不做要求、對自變量類型也不做要求等,使得近年來Logistic回歸模型在醫學研究各個領域被廣泛用,如流行病學、病因學的隊列研究、病例對照研究,臨床診斷的判別模型,治療效果評價等。 同時與其他傳統的統計學方法一樣,Logistic回歸也有許多的應用條件:當自變量為連續型變量時,Logitp與自變量成線性,對多元共線性敏感,以及參數估計條件等17,使Logi

2、stic回歸在單獨面對醫學領域日益龐大和復雜多變的數據信息時,往往受到一定的限制,無法使數據信息得到充分利用,應用不當還會得出錯誤結論。因此隨著統計學方法的不斷發展和新的統計學方法的出現,Logistic回歸在越來越多的醫學研究的文獻資料中常常不再獨自出現,而是與其他方法相互結合取長補短,充分利用資料中的信息,從而得出相對正確的結論。本研究將對近幾年Logistic回歸在醫學研究中與其他方法相互結合及比較應用作簡要介紹。1 主成分Logistic回歸分析 Logistic回歸模型與多元線性回歸一樣,對自變量中存在的多元共線性很敏感。自變量之間的任何相關都表示存在多元共線性。在多元共線性程度較高

3、時, 可能導致模型參數的不精確估計, 使變量的單獨影響不易分解出來, 從而把一些本應對應變量有顯著影響的變量排除在模型之外。解決共線性的方法一般有:刪除冗余的自變量,但在實際中往往會因為無法區別有意義的變量與冗余變量而誤刪,從而造成模型誤設;增加樣本含量,使標準誤減少,抵消多重共線性的影響。但這種方法只有在多重共線性是由測量誤差引起或偶然存在于原始樣本而不存在于總體時才適用;用逐步Logistic回歸,尋求建立一種最佳回歸方程,這種方法容易損失一些信息;用主成分Logistic回歸,通過主成分變換,將高度相關的幾個變量的信息綜合起來參與回歸8,主成分分析能夠用少數變量對相關變量進行綜合,既能降

4、低指標的維數,又能充分反映指標的信息,從而將變量間共線性問題減弱,對結果不產生影響,這是目前我們最常用的解決共線性的方法。但總的來說,主成分Logistic回歸也沒有從根本上克服Logistic回歸的共線性問題,仍然需要我們尋找更為有效的方法9,10。2 Logistic回歸在ROC分析中的應用 ROC是受試者工作特征(Receiver Operating Characteristic)或相對工作特征(Relative Operating Characteristic)的縮寫, 目前已廣泛應用于臨床診斷性能的評價, ROC曲線是以試驗結果的每一個值作為可能的診斷界值,由此計算得到相應的靈敏度和

5、特異度,以假陽性率即特異度為橫坐標,以真陽性率即靈敏度為縱坐標繪制而成的曲線即為ROC曲線,其曲線下面積的大小可作為診斷試驗準確度的衡量指標,其取值范圍為0.51。ROC曲線下面積估計可分為參數和非參數兩種方法,在實際應用中可根據樣本量大小來選擇使用11。ROC曲線下面積指標因其不受患病率和診斷界值的影響,以及可對兩個診斷試驗的準確度進行綜合比較,因而成為目前公認的最佳評價指標12。ROC 分析中結合Logistic回歸模型簡單有效,尤其適用于有協變量或多指標聯合診斷試驗的分析評價。在一項診斷試驗中,由于變異的存在,必然有很多混雜因素(或協變量) 對試驗的評價產生影響,它們可能對疾病的狀態產生

6、影響,也可能對測量結果產生影響。其中可以識別的因素,一般在試驗設計階段應加以控制。但在實際工作中,由于病例來源問題,在設計階段進行控制非常困難,因此在統計分析階段,盡可能地識別、控制混雜因素(或協變量) 顯得尤為重要。Logistic回歸模型能夠納入診斷指標之外的影響因素,有效控制混雜因素,使ROC分析更接近于總體實際情況13。3 Logistic回歸與數據挖掘技術的結合應用 數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程14。數據挖掘技術是近幾年興起來的一個新的研究領域,其與傳統數據分析

7、的本質區別在于:數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。目前與Logistic回歸的結合使用多見于以下形式: 分類樹模型:分類樹模型屬于決策樹(decision tree)15的一種形式。在應用回歸模型分析因變量與自變量之間的回歸關系時,常常需要考慮各自變量之間對因變量可能存在的交互作用。當模型中的自變量數量較多,需要考慮的交互作用就會比較復雜,操作起來有一定的困難。而分類樹模型作為一種人工智能分析方法,能夠快速尋找并發現對因變量的主要影響因素,并在展示自變量間交互作用上有著獨到的優勢,但它無法分析自變量的線性疊加效應,并且往往把一些自變量之間的線性疊加效應的關系錯誤地用分層關系

8、進行表達,而回歸模型不僅可以較方便地表達自變量之間的線性疊加效應,而且在已知樹模型結果的情況下,可以對應構造相應的回歸模型表達分層的情況和實現分層統計分析。將這兩種模型的優勢在分析層次數據時結合起來加以利用,將會大大方便研究工作16,17。 BP (Back propagation)神經網絡18:BP神經網絡是一種非傳統的多元非線性模型,自變量可以是連續的也可以是離散的,對變量不要求滿足正態性和獨立性等條件,可以識別變量間復雜的非線性關系,尤其是用現有統計方法無法達到目的或效果不好時,采用此模型往往收到很好的效果。當然BP神經網絡在使用過程中尚有些問題需要解決,如權重系數的假設檢驗,計算權重系數的可信區間,含隱含層時權重系數的醫學解釋,判斷輸入變量的判別能力,輸入變量的選擇等19,20。因此目前的很多文章中,都是將BP神經網絡與Logistic回歸比較使用,來判斷其判別效果。 目前數據挖掘技術在醫學領域的應用特別是與傳統統計方法的結合應用還處于起步階段,隨著該方法的逐步普及,其與傳統統計方法優勢互補的特點將會不斷顯現,使用前景是十分廣闊的。 綜上幾個方面可以看出,在醫學研究中,無論是做為分析還是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論