多水平模型在艾滋病流行趨勢研究中的應用_第1頁
多水平模型在艾滋病流行趨勢研究中的應用_第2頁
多水平模型在艾滋病流行趨勢研究中的應用_第3頁
多水平模型在艾滋病流行趨勢研究中的應用_第4頁
多水平模型在艾滋病流行趨勢研究中的應用_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多水平模型在艾滋病流行趨勢研究中的應用對多水平負二項分布模型在艾滋病病流行趨勢研究中應用的優勢和不足做探索性研究。 方法利用重慶市 1994-2009 年各區縣年度新發艾滋病頻數數據以及各區縣年度常住人口數, 結合多水平建模方法分別擬合 Poisson 模型和負二項分布模型計算參數并比較。結果 負二項分布的超方差系數k=5.887279 ,較之 Poisson 分布模型中的超方差系數 k=9.008424 有所減小,但仍大于 1 且有統計學意義, 2 種模型擬合結果有差異但不明顯。結論 多水平負二項分布模型在對艾滋病流行趨勢的研究中較之傳統的 Poisson 分布模型無明顯差異, 2 種模型解

2、釋的側重點不同。 負二項分布有兩種定義,其一:只有2 個結果的獨立重復隨機試驗序列,指定結果發生的概率為p,則第 r 次出現的試驗次數X 的分布為其二: Y 表示在第r 次試驗成功前失敗的實驗次數,其分布為可驗證, 2 種定義是等效的,定義一分布的均數為r/p,方差為 rq/p2,定義二分布的均數為r(1-p)/p ,方差不變。泊松分布是由法國數學家S.D.Poisson 作為二項分布的近似引入的,常用于描述稀有事件出現的概率或觀察單位較為抽象的現象分布,其分布為泊松分布有一個最重要的特征:方差等于均數1 。當某種疾病比較罕見或發病水平較低時,可以將其近似地當成是符合泊松分布2 。對于感染率很

3、低的傳染性疾病而言,感染個體先是從境外遷入,在境內傳播, 感染人數不斷增多,是一個感染密度不斷增高的動態過程,空間傳播動態變化常表現為稀疏隨機-聚集 -高度聚集 -致密隨機的過程。在其空間分布呈稀疏隨機的階段,用Poisson 分布去擬合是合理的。隨著傳播的持續,感染人群不斷增多,逐漸形成具有聚集趨勢的空間分布形式,不再符合 Poisson 分布規律。艾滋病由于其疾病自身的特殊性,結合以往經驗一般不會形成高度聚集和致密隨機的過程,所以用負二項分布來擬合模型是比較合理的。負二項分布在醫學中主要用于聚集性疾病及生物、微生物、 寄生蟲分布模型等的研究,當個體間發病概率不相等可以擬合負二項分布3 。與

4、 Poisson 分布不同的是,負二項分布的方差大于其均數,r 越小方差與均數之差越大,r 越大方差與均數之差越小,當r 趨于無窮時,負二項分布就退化為Poisson 分布 4, 5,因此, r 在某種程度上可以度量分布聚集程度的大小。多水平模型 (Multilevel Models, MLM) 是分析具有層次結構特征數據的有效工具。對具有層次結構的數據如采用傳統的統計分析方法,會低估效應的標準誤,增加假陽性的概率6 。在研究中,由于采用的數據為1994-2009 年重慶市各區縣艾滋病數據,不同區縣在自然地理、經濟水平和受教育程度具有一定差異,可將區縣視為資料的二水平單位,將同一區縣內不同年度

5、的艾滋病感染人數作為相同二水平單位下的一水平重復測量單位,擬合多水平Poisson回歸和負二項分布回歸模型。1 對象與方法1.1 資料來源艾滋病數據資料為1994-2009 重慶市每年度各區縣新發HIV/AIDS感染人數,為頻數資料, 由重慶市疾病控制部門提供;重慶市1994-2009 年每年度各區縣常住人口數據來自重慶市統計年鑒,其中 2003-2009年數據可直接從重慶統計信息網(http:/ )上查閱, 1994-2002 年數據由重慶市巫溪縣統計局提供。人口密度數據由當年常住人口數/轄區面積計算,單位為:萬人/m2 。1.2 數據預處理及初步分析重慶市首次發現HIV感染者是在1993

6、年,但該感染者并非重慶市籍戶口,所以本研究以1994 年重慶市首次出現本地區戶籍HIV 感染者為觀察起點。將數據按年度分層,每一層內以區縣為單位,各區縣新發HIV感染者為觀察值,計算均數和方差,結果見表1。由表 1 中可見,重慶市各區縣艾滋病傳播過程可大概分成3 個階段, 1994-1999年為隨機散發的 Poisson 分布,方差均數比接近1;2000-2003年為過渡階段, 此時期方差均數比逐漸增大,說明疾病分布已不符合隨機散發的Poisson 分布,流行趨勢逐漸有聚集性;年為第 3 階段,此時期除2005 年外,方差均數比大都在35 左右波動, 說明流行趨勢聚集性趨于明顯并穩定在一定狀態

7、。經與數據提供方溝通,得知2005 年由于檢測手段的改進可能發現了一些以往感染的潛在HIV感染者,致使當年新發感染者增加異常明顯,其中部分感染者可能并非于當年被感染,方差均數比達到了86,這可能會影響到建模結果,在討論中有論述。1.3 建模思路將區縣作為二水平單位,將區縣內歷年新發HIV 感染人數作為重復測量的一水平單位, 將各區縣各年度常住人口數作為度量單位(即模型中 offset 項),將年度(時間)、人口密度作為協變量,擬合2 水平Poisson回歸和2 水平負二項分布回歸模型,計算分析各系數衛生學意義并對模型做比較分析。1.4 統計軟件所用統計軟件包括SPSS13.0、MLwiN2.2

8、3、 EXCEL 等。2 結果2.1 二水平 Poisson 分布擬合結果將重慶市所轄40 個區縣作為二水平觀察單位,縣 1994-2009 年各年度新發HIV 感染人數作為一水平觀察單位。各模型中有統計學意義(P0.05)的參數都用陰影來表示。模型1 納入了時間(年度)和人口密度機效應分割上,只對常數項設置了二水平方差,即 uo2;模型 2 在模型 1 的基礎上對時間系數設置了二水平方差,即 u12;模型 3 在模型 2 的基礎上增加了時間的二次項;模型4在模型 3 的基礎上將離散模型設置為超Poisson 方差模型。首先考慮隨機效應,從參數的計算結果可以看出常數項的二水平方差在各模型中都是

9、有意義的,說明各區縣HIV 感染水平存在差異;模型2、 3、 4 的時間系數二水平方差也都有統計學意義,說明各區縣HIV 感染率隨時間變化的速度是不同的;模型 2、3、4 二水平上的常數項與時間系數的協方差也都是有統計學意義的, 且方向為負, 說明感染水平較高的區縣年度感染率的增長速度較感染水平低的區縣要慢; 模型 4 的一水平方差項有統計學意義,說明模型 4 估計的方差尚有部分不能用固定效應項來解釋,這可以在下一步建負二項分布模型的時候結合起來分析。固定效應部分,人口密度系數在模型3、4 中是有統計學意義的,說明人口密度的增加也會提高HIV的感染風險;模型3、4 的時間二次項系數有統計學意義

10、且為負,提示HIV 感染率的增速隨時間推移而變,見表2。2.2 二水平負二項分布模型擬合結果初始思路與二水平Poisson 相同。考慮到負二項分布本身可通過 -Poisson 分布推導得出, 負二項分布模型可將不同區縣發病水平上的差異作為不同 Poisson 分布均數上的差異來分解,即模型自身已考慮了區域間差異,此時再對模型的常數項進行二水平方差分解的意義不大。將時間和時間二次項系數方差在二水平模型上分解得到了模型 5-8。模型 5 為單水平負二項分布回歸;模型6 為二水平負二項分布回歸,將時間系數方差在二水平上進行分解;模型 7 為在模型 6 的基礎上增加時間二次項并將時間二次項系數方差在二

11、水平上進行分解;模型 8 與模型 7 的形式相似, 只是分布假定上變成超負二項分布。從模型的系數及意義上來看,較之Poisson 模型而言,固定效應部分差異不大。隨機效應部分, 由于沒有將常數項方差進行二水平分解而代之以時間項和時間二次項,模型 6、7、 8 中的 u12 有統計學意義,說明不同區縣HIV 感染率隨時間變化的速度是不同的;模型 7、 8 的 u13 有統計學意義且值為負,說明HIV 感染率(經連接函數取對數值后)隨時間變化增加速度較快的區縣,其加速度是相對較小的,結合固定效應中時間二次項系數為負,可得出重慶市總體HIV 感染率(經連接函數取對數值后)加速度為負值,即總體HIV感

12、染率隨時間越來越高,但增速逐漸放緩。模型8 的系數 k=5.887279 ,較之超 Poisson 分布模型中的 9.008424(表 2)有較大幅度的減小,但仍大于1 且有統計學意義,說明用負二項分布回歸建模對方差的解釋要優于Poisson 回歸,但水平二上的方差是超負二項離散的,即負二項分布回歸模型仍不能解釋所有變異,見表3。3 討論負二項分布是概率論中常用的離散型隨機分布,它在醫學中主要用于聚集性疾病及生物、生物、寄生蟲分布模型的研究3 。國內學者陳峰、薛付忠等曾對該分布在流行病學中應用的條件和流行病學依據做過論述7-8 。在應用上,張志杰、夏志勇、鄭輝烈等曾在釘螺、絲蟲病、及微核試驗分

13、布的研究中使用負二項分布模型9-11 。仇麗霞等曾對負二項分布方法在乙肝家庭聚集性研究中的應用做過研究12 。一般來說,當個體間發病概率不相等可以擬合負二項分布, 如單位人數內某傳染病的發病人數、地方病、遺傳病的發病人數等。負二項分布來源于 Poisson 分布,它改進了Poisson 的等概條件,對于傳染性疾病而言,負二項分布擬合效果在理論上優于傳統的Poisson 分布。國外有不少學者將HIV 傳播的研究 13-15 ,但負二項分布方法在HIV 流行規律研究中應用的報道罕見。基于以上背景,筆者開展了本研究,并試圖對模型的應用做探索性分析。3.1 模型中各參數的衛生學意義不管是 Poisso

14、n 分布模型還是負二項分布模型,時間和時間二次項系數都是有統計學意義的。這都說明隨著時間的推移HIV年度感染率的對數值(根據模型中的連接函數)越來越高,但其增加速度有所下降(二次項系數為負)。但增加速度下降并不能代表沒有增加,從圖形上看(見下圖)整體趨勢還是上升的。值得注意的是, 在未考慮二水平因素的情況下,筆者曾對發病率對數值擬合包含時間一次項和二次項的回歸方程,結果一次項有意義(P=0.001),而二次項沒有意義( P=0.759)。這說明多水平模型在考慮了水平因素后能提高檢驗效能,發現普通模型中所不能識別的微弱趨勢。Poisson模型中常數項在水平二上的方差都是有意義的,說明在考慮了時間

15、、人口密度等因素的情況下,不同區縣間感染水平是不同的。Poisson 分布模型和負二項分布模型時間項系數的水平二方差都是有意義的,這說明不同區縣HIV 感染率隨時間增加的速度是不同的。Poisson 分布模型中的 u01 和負二項分布模型中的有統計學意義且為負,這可以解釋為:HIV感染率(經連接函數取對數值后)隨時間變化增加速度較快(一次項)的區縣,其加速度(二次項)是相對較小的,即感染水平較高的區縣感染率增速較感染水平低的區縣要緩。3.22 模型的比較雖然在理論上,對于傳染性疾病而言,負二項分布回歸模型要優于Poisson 分布回歸模型。但由于參考了多水平因素,在方差大于均數的情況下,負二項分布可以通過假定 Poisson 分布的均數為可變化的方式來解釋剩余方差,而多水平模型可以通過二水平上的隨機效應來解釋,二者的側重點是不同的。所以,對于多水平模型而言,先驗分布是 Poisson 分布還是負二項分布,建模結果差別不大,當模型中引入時間、人口密度、時間二次項等協變量后,二者差異可能會變小。對本研究而言,在水平一上的變異超Poisson分布(模型 4)為 9.008424,超負二項分布(模型8)為 5.887279,較之模型 4 有明顯減小,這說明用負二項分布在模型方差解釋上要優于Poisson 分布模型,但在本研究中,這種優勢沒有在衛生學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論