臨床科研設計數據挖掘研究設計_第1頁
臨床科研設計數據挖掘研究設計_第2頁
臨床科研設計數據挖掘研究設計_第3頁
臨床科研設計數據挖掘研究設計_第4頁
臨床科研設計數據挖掘研究設計_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

臨床科研設計數據挖掘研究設計數據挖掘研究基于數據分析方法角度的分類本質上屬于觀察性研究研究資料來源于日常診療工作資料應用的技術較傳統研究更先進分析工具、理論模型與傳統研究區別較大數據挖掘研究設計基本概念選擇數據處理數據挖掘分析結果解釋Clementine軟件應用基本操作關聯規則決策樹類神經網絡聚類分析判別分析數據挖掘的概念數據挖掘——從大量數據中尋找其規律的技術,是統計學、數據庫技術和人工智能技術的綜合。數據挖掘——從數據中自動地抽取模式、關聯、變化、異常和有意義的結構。數據挖掘——利用已有的數據,數據收集過程不經過特意的科研設計,目的是發現規律,而不是驗證假設。數據挖掘研究的基本步驟第一步:選擇數據收集獲取原始數據就是根據研究目的,進行需要被挖掘分析的原始數據采集。評估數據的可獲得性。可以采用較小規模的數據對問題的可行性進行初步研究。原始數據可能會分布于不同的信息系統中,需要對信息系統充分理解,并有相應的技術實現數據的導出。原始數據的采集非常費時費力,通常在研究工作中占相當大的比重。第二步:處理數據數據預處理部分,把數據轉換成比較容易被數據挖掘的格式及內容。為什么需要預處理數據不完整含觀測噪聲不一致包含其它不希望的成分數據清理通過填寫空缺值,平滑噪聲數據,識別刪除孤立點,并解決不一致來清理數據。污染數據的普遍存在,使得在大型數據庫中維護數據的正確性和一致性成為一個及其困難的任務。污染數據形成的原因濫用縮寫詞數據輸入錯誤數據中的內嵌控制信息不同的慣用語重復記錄丟失值拼寫變化不同的計量單位過時的編碼數據處理兩種結構化技術前結構化:在數據采集階段即進行結構化設計、錄入,數據分析階段取到的數據都是規范的。事前的工作量很大。后結構化:在數據錄入階段進行自由輸入,分析時按照一定的規則進行語義分析和結構化處理。第三步:挖掘分析運用工具和算法,進行數據挖掘分析,完成分類、關聯、聚類、估計、預測等功能,發現數據中的規律。數據挖掘主要方法決策樹DecisionTrees(傾向性分析)序列分析SequenceAnalysis聚類分析Clustering關聯分析Association神經網絡NeuralNetworks第四步:結果解釋結合專業知識,進行數據挖掘分析結果的解釋,闡明規律,以及規律的臨床價值。結果解釋是數據挖掘研究的關鍵,從發現的規律進一步延伸出其實際意義,是整個研究工作的成果所在數據挖掘分析的一般步驟1、數據整理2、數據格式轉化3、數據文件讀入4、數據類型設置5、模型選擇與參數設置(關聯規則;決策樹;類神經網絡;聚類分析;判別分析)6、結果輸出與解讀關聯規則基本概念是分析兩個或多個變量的取值之間存在某種規律性的方法,包括簡單關聯規則和系列關聯規則。簡單關聯規則有效性的主要測度指標包括兩個:規則置信度和規則支持度。規則置信度是對簡單關聯規則準確度的測量,描述了包含項目X的事務中同時也包含項目Y的概率。規則支持度是對簡單關聯規則普遍性的測量,表示項目X和項目Y同時出現的概率。一個理想的簡單關聯規則應具有較高的置信度和較高的支持度。決策樹基本概念在數據挖掘中,決策樹是分類預測的經典算法。決策樹算法的目的是通過向數據學習,獲得輸入變量和輸出變量不同取值下的數據分類和預測規律,并用于對新數據對象的分類預測。SPSSClementine提供C5.0、CART、CHAID、QUEST在內的決策樹經典算法。類神經網絡基本概念類神經網絡,有時也稱作多層感知器(MLPs),本質上是人腦處理信息方式的簡化模型。它通過模擬大量相互連接的簡單處理單元(即神經元)工作,它在一定程度上模仿了人腦神經系統的信息處理、存儲及檢索功能。聚類分析基本概念聚類分析是根據“物以類聚”的原理,對樣品或指標進行分類的一種多元統計分析方法。通過聚類分析,可以在沒有任何模式可供參考的情況下,將大量數據樣本按各自的特征來進行合理分類。判別分析基本概念判別分析的主要目的是對數據的個體做分類,利用判別變量建立判別規則,再用此判別規則對所有的個體做分類,預測每個個體屬于各群組的可能機率。判別分析是判別所屬類型的一種統計方法,其應用之廣可與回歸分析媲美。回歸分析可建立回歸函數,判別分析則建立判別函數,兩者皆可以用來進行預測。小結(1)數據采集:信息真實性,可靠性,代表性數據預處理:規范整齊的數據是最大的問題,事先確定標準,或者事后按標準進行數據清理。數據挖掘:不只是描述,需要借助數據挖掘工具。也不僅是統計,統計是驗證假設,數據挖掘是發現規律。小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論