疫情數據監控分析元數據說明_第1頁
疫情數據監控分析元數據說明_第2頁
疫情數據監控分析元數據說明_第3頁
疫情數據監控分析元數據說明_第4頁
疫情數據監控分析元數據說明_第5頁
已閱讀5頁,還剩12頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Echarts繪圖疫情數據監控分析元數據說明導語方法元數據關鍵因素選擇預測導語/01導語

疫情數據監控分析研究的創新點在于結合了醫療、社會和氣象學的數據。由于涉及許多的分類變量,一些經典的統計判別方法,如線性判別分析在這里就失效了。數據挖掘技術被用于從大量的數據集中挖掘未知的模式和信息,同時也提供了預測未來的方法,例如預測一名顧客是否會在某家超市里花上100美金。當然,其他的數據挖掘技術,如決策樹,最近鄰分類器,貝葉斯分類器,神經網絡和隨機森林等模型也可用于疾病預測模型。對于貝葉斯分類器,它通常較強地依賴于穩健性測試。最近鄰分類器是一種弱分類器,對于每一次分類都需要模型的重建。例如:對于每個新加人的實例,都得計算其與分類器現有樣本間的距離。通常這種計算是非常耗時的。

/02方法方法

由于各地區的環境不一樣,本研究認為登革熱病毒的爆發是帶有區域性質的那么,在登革熱病毒區域傳播的過程中,不同區域所表現出的發病率趨勢是否有所不同?按照發病時間一新增發病數量繪制每個區域間的爆發曲線,登革熱爆發的區域特征包括以下4種:圖:四種爆發區域方法

在安全區域,由于輸人案例的影響,發病率在初期呈現上升趨勢,過段時間后發病率又平緩的下降接近于0;在爆發區域,自發生首個病例后發病率快速上升且一直保持較高水平;在控制區域,發病率在初期呈上升趨勢,經過控制發病率迅速下降;在復發區,登革熱的發病率在得到一段時間的控制之后,又呈上升趨勢。根據每個區域時間與發病率的曲線圖,不同區域可分為上述4種類型。另外探尋登革熱傳播的潛在因素可通過搜索引擎針對這個區域該段時間內發生的相關事件做相應的搜索,這種尋找爆發因素的途徑類似于文本挖掘里面的情感分析。針對每個關鍵詞,可通過量化作為模型的一個變量。

/03元數據元數據元數據-因變量理想狀態為,繪制每個小區的時間一發病率曲線,根據該曲線圖形判斷該小區屬于4種爆發區域中的哪一類別,并以此作為分類變量。但是,由于本研究所得到的爆發區域顆粒度僅局限在行政區級別,無法下沉到患者的居住小區,因此樣本顆粒度僅能以行政區作為單位。元數據-自變量流行病學變量衛生環境是登革熱爆發的一個主要因素,建筑材料的浪費、垃圾的回收頻率、建筑的使用年限等因素都是衛生環境的一部分。為了消除地理位置對房價的影響,本文將該小區二手房價格除以周圍小區二手房均價作為量化指標。該指標通過網絡爬蟲技術從互聯網中獲得,標的網址為安居客網站廣州區域。由于蚊蟲在較為干凈和安靜的水域中容易滋生,本研究將該行政區域內所含有的河流面積、汽車修理廠數量、批發市場數量作為量化指標。元數據

人口密度是傳染病爆發的一個主要因素。隨著人口密度的增長,所在區域每個人患病的可能性也隨之增加。人口密度=在地區人口數/所在地區區域面積。本研究中該指標的量化是在中國經濟普查網站中得到相應的數據。城市化進程在一定程度上也刺激了所在地區的人口流動,也就增加了登革熱擴散的可能性。本研究利用所在地域的國民生產總值來刻畫城市化進程。這些數據可以在中國經濟普查網站中得到。醫療環境因為流行性疾病更易在貧困人口中傳播,所以所在區域的醫療環境對于登革熱的傳播扮演著至關重要的角色!如果醫療資源足夠覆蓋該地區的所有患者,那么疾病將會被有效的控制。元數據氣候變量溫度由于蚊子在悶熱的夏天繁殖速度較快,溫度理所當然成為登革熱傳播的一個重要因素。登革熱通常爆發于擁有長時間悶熱環境的熱帶地區,例如泰國,印度,越南,南中國等。當然在一些擁有輸人病例的城市里,情況也會有例外。為了量化溫度這個因素,本研究選擇所在區域每天的最高、最低和平均氣溫。濕度一些證據表明濕度對于蚊子的繁殖有重要的影響。在本文中,所在區域的平均濕度、最大濕度和最低濕度被納人回歸模型中。露點指的是空氣中水氣含量達到飽和的氣溫,低于此溫度時水氣從空氣中析出凝成水珠。沒有任何證據表明露點和登革熱的爆發有直接的關系。我們在文中也將它納人模型中。風速是一個基本的大氣比率。它是由于空氣從高壓往低壓移動形成的。風速影響著天氣預報,航空航天和海上作業,建筑項目的施工,動植物的生長等一些無法量化的活動。

/04關鍵因素選擇關鍵因素選擇

建模的第一步就是決定哪些自變量對于登革熱的爆發有決定性的影響,即確定導致登革熱大規模爆發的原因。對此,本文將上述中所有的變量一起進行回歸,欲通過逐步回歸法擬合出具有表達因素的影響因素。相應的回歸模型可以表示為:MRc,t二+TOC+HEC,t+POPD+URd+HENd++SPC,t+Td,t+HUd,t+DPd,t+WSd,t+8其中MRc,t表示每個區域的日患病率,Toc表示所在地區的地形信息,HEC,t表示所在區域的衛生醫療條件,POPd表示所在區域的人口密度,URd表示所在區域。該時間段的GDP,HENd表示所在區域該時間段每千人口醫生數,SPC,t表示所在區域人群的平均特征,Td,tHUd,tDPd,t,WSd,t表示所在區域。該時間段的氣溫,濕度,露點和風速。

/05預測預測

支持向量機作為分類器判別某區域是否為登革熱的爆發區。根據4種登革熱區

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論