數據倉庫和數據挖掘在醫院信息系統中的應用_第1頁
數據倉庫和數據挖掘在醫院信息系統中的應用_第2頁
數據倉庫和數據挖掘在醫院信息系統中的應用_第3頁
數據倉庫和數據挖掘在醫院信息系統中的應用_第4頁
數據倉庫和數據挖掘在醫院信息系統中的應用_第5頁
已閱讀5頁,還剩148頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、摘 要 隨著信息化的迅猛發展,各醫院都在建立自己的信息系統,數據庫規模不斷 擴大,復雜程度度日益增加,從從大量的數據據中提取有用用的信息供醫醫院的決策服服務就 顯得尤為重要。 目前前醫院信息系系統(HISS)的實現,絕絕大部分采用用的是傳統數數據庫技術,數數據 處理以操作型處處理為主,即即聯機事務處處理(OLTTP)。盡管管產生了大量量的業務數據據, 但真正對決策有有用的信息卻卻很少,而且且也造成了歷歷史數據和當當前數據、操操作數據 和分析數據的利利用與管理的的沖突。為了了解決這一問問題,數據倉倉庫技術應運運而生。 北京腫腫瘤醫院有其其自身的特殊殊性,治療上上不同于其它它醫院,因此此對于信息統

2、統 計、分析和管理理決策上有其其特殊要求。本本論文以FF在建設的腫腫瘤醫院數據據倉庫為 例,首先介紹了了數據倉庫(Dw)和數數據挖掘(DDM)在腫瘤瘤醫院應用課課題的來源;其次, 闡述了數據倉庫庫和數據挖掘掘的基本概念念,數據挖掘掘的方法、算算法,還有數數據挖掘、 在線分析(OLLAP)和決決策支持(DDSS)的差差異。最后,介介紹了腫瘤醫醫院數據倉庫庫建 立和應用的全過過程。包括闡闡述了醫院信信息系統(HHIS)的基基本概念、醫醫院分析數據據 的歷史方法及醫醫院信息管理理中存在的問問題。腫瘤醫醫院HIS數數據庫的結構構設計,數 據倉庫建立過程程中的數據準準備,數據倉倉庫的架構、存存儲,維度和

3、和粒度設計,主主題 抽取和確定,建建立多維數據據模型及多維維數據分析,數數據倉庫和數數據挖掘的主主要功 能及醫院實際應應用。 關鍵詞:醫院信信息系統;數數據倉庫;數數據挖掘 Abbstracct Withh the fast devellopmennt of inforrmatioontechhnologgy,hosspitalls havve esttablisshed their own iinformmationn systtemsAAnd thhe scaale oof dattabasee hass beenn conttinuouusly extendiing anndthe co

4、mpllexityy beenn drammaticaally iincreaasing sincee the daythhe sysstem wwas builtUUnder this circuumstannce,too seleect thhe rigght innformaation from a masss of data for thehosppitalS deccisionnmakinng is ofuttter immportaance Theese daays thhe traaditioonal ttechniique,nnamelyy Online Trannsactii

5、on Prrocesssing (OUTP),is tthe prrimaryy waytto reaalize theHoospitaal Infformattion SSystemm(HIS)Althhou曲 a lot ofdatta cann be aacquirred byy thiss way,few oof theem aree usefful foor makking ddecisiions WhatS more,iin terrms off utillizatiion annd mannagemeent,itt causses thhe connfusioon bettwee

6、n historiical ddata aand cuurrentt dataa and the cconfliict beetweennoperaation data and aanalyssis daata To solvve thiis prooblem,tthe teechnollogy oof Datta Warrehousse(DW)emergges ass the timess requiree Commparedd withh otheer hosspitalls,Beiijing Canceer Hosspitall has its oownparrticullarityy,

7、 adoptiing ddifferrent methoods iin trreatmeentsFFor thhis reaason,iit haas soome sspeciffic requireementss on tthe sttatisttic,annalysiis andd manaagemennt of inforrmatioonThiis papper taakes the daata waarehouuse off Beijjing Canceer Hosspitall,whicch is beinng esttablisshed,aas ann examplle to in

8、trroducee:firsstly,tthe orrigin of DData WWarehoouse(DDW)andd Dataa Miniing (DM)inn the appliicatioon suubjectts of the ccancerr hosppital;Seconndly,tthe ffundammentall conceppt of DWandd DM,tthe meethod and aarithmmetic of DMM,and the ddifferrence amongg DM,OLAPP and DSS;llastlyy,the entirre couurs

9、e aabout howthhewareehousee was estabblisheed and ussed,inncludiing thhe bassic coonceptt of HHIS,thhe hisstoriccal meethod of annalyziing daata, the prroblemms invvolvedd in tthe maanagemment oof infformattion,tthe sttructuure deesign of thhe warehouuse,daata prreparaation dudngg the estabblishiing

10、 peeriod,tthe frramewoork annd stoorage of thee DW,ddesignn of ddimenssionallity aand ggranullarityy,absttractiing aand coonfirmming subjeccts,buuildinng mulltidimmensioonal ddata mmodel and aanalyzzing mmultiddimenssionall dataa, themaiin funnctionn ofDWW andDDMand someppractiical uuses iin hosspit

11、alls KeyWorrds:Hoospitaal InfformattionSyystem;Data Warehhouse;Data Mininng 圖21多維立立方體9 圖22企業中中數據倉庫結結構10 圖23大腸癌癌的決策樹示示意圖13 圖31 醫院信息息化的層次20 圖32醫院HHIS中四個個表的關系圖圖25 圖33數據倉倉庫所需要的的4個表的關關系27 圖34費用隨隨時間變化的的過程圖28 圖35醫院數數據倉庫的架架構29 圖36星型模模型30 圖37腫瘤醫醫院多維立方方體的關系圖圖33 圖38 多維數據據分析33 圖39費用分分布圖36 圖310胃癌癌病人外科手手術的術前準準備天數

12、36 圖3,11 200012004病病人數量的分分析圖388 圖312多維維立方體結構構圖38 圖313所有有診斷的費用用分布39 圖314樹形形顯示的效果果39 圖315餅圖圖顯示效果40 圖316病人人職業構成40 圖317 Anaalysiss Servvices中中的聚集441 圖318決策策樹的樹形表表示方法42 圖319決策策樹的公式表表示方法42 圖320大腸腸癌術后決策策樹部分圖45 11引言 本章章主要是文獻獻綜述,并介介紹了數據倉倉庫、數據挖挖掘技術應用用于腫瘤醫院院進 行的研究工作,最最后給出論文文的內容安排排。 111文獻獻綜述 隨著著計算機應用用的網絡計算算的發展,

13、計計算正向兩個個不同的方向向拓展:一個個是 廣度計算,二是是深度計算。廣度計算算是把計算機機的應用范圍圍盡量擴大,同同時實 現廣泛的數據交交流。深度計計算是人們對對以往計算機機的簡單數據據操作。目前前,深度 操作己提出了更更高的要求,希希望計算機能能夠更多的參參與數據分析析與制定決策策的工 作。傳統的數據據庫技術是單單一的數據庫庫資源,它適適合操作型事事務處理,但但分析型 處理(或信息型型處理)能力力較弱【2】。數數據倉庫(DDataWaarehouuse。DWW)的出現,將將 操作型環境和分分析型環境進進行了分離,劃劃清了數據處處理的分析型型環境與操作作型環 境之間的界限,從從而由原來的的以

14、單一數據據庫為中心的的數據環境發發展為一種以以數據 倉庫為中心的新新的體系化環環境【3】。 近十十幾年,隨著著科學技術飛飛速的發展,社社會和經濟都都取得了極大大的進步,與與 此同時,在各個個領域產生了了大量的數據據,如人類對對太空的探索索,銀行每天天的巨額 交易數據。顯然然在這些數據據中的信息非非常的豐富,如如何處理這些些數據得到有有價值 的信息,人們進進行了有益的的探索。44】計算機技技術的迅速發發展使得處理理數據成為可可 能,這就推動了了數據庫技術術的極大發展展,但是面對對不斷增加的的如潮水般的的數據, 人們不再滿足于于數據庫的查查詢功能,提提出了深層次次的問題:能能不能從海量量數據中 提

15、取信息或者知知識為決策服服務。僅就數數據庫技術而而言已經顯得得無能為力了了,同樣, 傳統的統計技術術也面臨著極極大的挑戰【551。這就急急需有新的手手段、新的技技術來處理 這些巨量數據。于于是,人們結結合統計學、數數據庫、機器器學習等技術術,提出數據據挖 掘(Data Mininng,DM)來解決這一一難題【6。 11111國內外現狀狀 在國國外,數據挖挖掘已經有不不少成功案例例。數據挖掘掘首先在金融融、證券、電電信、 零售業等數據密密集型行業實實施,因為這這些行業信息息化程度比較較高,數據庫庫中已經 保留了大量數據據資源。例如如,總部位于于美國阿肯色色州的世界著著名商業零售售連鎖企業 沃爾瑪

16、(Wall Martt)的”尿布與啤酒酒”的故事。沃沃爾瑪擁有世世界上最大的的數據倉庫 系統,通過數據據挖掘工具,得得到了一個意意外發現:跟跟尿布一起購購買最多的商商品竟 然是啤酒。進一一步的分析,揭揭示了隱藏在在”數據關聯”背后的行為為模式,”啤酒與尿 布”的著名故事事,可謂是數數據挖掘產生生巨大價值的的經典案例。當當企業擁有大大量的數 據之后,如何從從這些數據中中”攥出油水”,才是企業業信息化價值值體現的最終終目的。 有數數據表明,進進入二十世紀紀90年代,人人類積累的數數據量以每月月高于15的速 度增加,如果不不借助強有力力的挖掘工具具,僅依靠人人的能力來理理解這些數據據是不可 能的。

17、數據據挖掘的前景景被人們普遍遍看好。國際際知名調查機機構Garttner GGroup在在高級 技術調查報告中中,將數據挖挖掘和人工智智能列為“未來三到五五年內將對工工業產生深 遠影響的五大關關鍵技術”之首,還將將并行處理體體系和數據挖挖掘列為未來來五年內投 資焦點的十大新新興技術前兩兩位【”。Garttner的調調查報告預計計:到20110年,數據據挖 掘在相關市場的的應用將從目目前少于5增加到超過過80。美美國銀行家協協會預測數據據 倉庫和數據挖掘掘技術在美國國商業銀行的的應用增長率率是1499。 與國國外相比,國國內對知識發發現的研究較較晚,而且較較為分散,沒沒有形成整體體力 量。90年

18、代,國國家自然科學學基金曾支持持過對該領域域項目的研究究,但實際應應用不多。 目前,國內的的許多科研單單位和高等院院校競相開展展知識發現的的基礎理論及及其應用研 究,這些單位包包括清華大學學、中科院計計算技術研究究所、空軍第第三研究所、海海軍裝 備論證中心等【881。其中,北北京系統工程程研究所對模模糊方法在知知識發現中的的應用進 行了較深入的研研究,北京大大學也在開展展對數據立方方體代數的研研究,華中理理工大學、 復旦大學、浙江江大學、中國國科技大學、中中科院數學研研究所、吉林林大學、北京京理工 大學等單位開展展了對關聯規規則開采算法法的優化和改改造;南京大大學、四川聯聯合大學 和上海交通大

19、學學等單位探討討、研究了非非結構化數據據的知識發現現以及Webb數據挖掘。 雖然然國內有很多多大學和研究究機構從事數數據倉庫技術術的研究,但但到目前為止止, 國內基本上沒沒有成熟的數數據倉庫解決決方案。在醫醫療行業的應應用更是少之之又少。 目目前提供數據據挖掘產品的的廠商非常多多,如著名的的產品有SAAS Entterpriise Miner、NNCR TTeradaata WWarehoouse Minerr、SPSSS Clemmentinne 70、IBMM DB22 Intellligentt Minee、SQL Serveer 20000數據挖掘掘組件、Orracle99i Datt

20、a Minning、 CA C1evverPatth Preedictiive AnnalysiiS Seerver、DDMinerr等。這些產產品各有特色色: NCR、IBMM、ORACCLE等數據據挖掘工具可可以直接在數數據庫上進行行挖掘;SAAS提供了數數 據獲取、取樣、篩篩選、轉換工工具來構造要要挖掘的數據據集;SPSSS針對具體體應用領域 推出了多個應用用模版,以簡簡化應用開發發過程。 Microosoft將將OLAP功功能集成到 Microsooft SQQL Seerver 70中,提提供可擴充的的基于COMM的OLAPP接口。它通通過一 系列服務程序序支持數據倉倉庫應用。數數據

21、傳輸服務務DTS(DData TTransfformattion Servicees)提供數數據輸入輸輸出和自動調調度功能,在在數據傳輸過過程中可以完完成數據 的驗證、清洗洗和轉換等操操作,Miccrosofft Offfice 22000套件件中的Acccess和EExcel 可以作為數據展展現工具,另另外SOL Serveer還支持第第三方數據展展現工具。 12數據倉倉庫和數據挖挖掘在醫院應應用的課題來來源 隨著著計算機技術術的飛速發展展和企業不斷斷提出新的需需求,傳統的的數據庫技術術以 單一的數據資源源,即數據庫庫為中心,進進行事務管理理、批處理以以及各種類型型的數據 處理工作。不同同類

22、型的數據據處理有著不不同的處理特特點,以單一一的數據組織織方式進 行組織的數據滿滿足不了數據據處理的多樣樣化的要求,因因此數據倉庫庫技術應運而而生。 數據倉庫技術以以傳統的數據據庫作為存儲儲數據和管理理資源的基本本手段,以統統計分析 技術作為分析數數據和提取信信息的有效方方法,它是諸諸多學科相互互結合、綜合合利用的 技術。 北京京腫瘤醫院已已經運行了醫醫院管理系統統將近5年的的時間,積累累了大量的數數據, 還有其他的獨立立的信息系統統的數據,比比如(放射科科、檢驗科、醫醫療保險),而而這些 數據由于彼此獨獨立并且成為為歷史,沒有有得到再利用用。目前,有有極少的醫院院能夠整 合這些數據,充充分利

23、用。在在此基礎上,為為了便于領導導查詢、分析析并支持決策策,本 人在完成碩士論論文期間提出出了“數據倉庫和和數據挖掘在在腫瘤醫院中中的應用”這個 研究題目,并在在醫院中也申申請了“腫瘤醫院數數據倉庫的建建立和應用”研究課題。 本論論文正是圍繞繞著建立腫瘤瘤醫院數據倉倉庫以及在此此基礎上的分分析和數據挖挖掘 來討論數據倉庫庫技術及聯機機分析技術、數數據挖掘技術術的。 13論文的工工作 本文文研究的主要要內容是首先先以一、兩個個病種為例,從從腫瘤醫院現現有的HISS數 據出發,探討建建立管理信息息數據倉庫(Data Warehhouse)的方法;其其次能夠在此此基 礎上,開展單病病種費用研究究,使

24、用新的的費用管理指指標,應用數數據挖掘技術術(Dataa Mining)中的粗糙集集理論對過度度診斷和治療療的識別問題題進行試分析析。本文主要要工 作包括以下幾個個方面: 數據預處理理的研究 由于于數據庫系統統所獲數據量量的迅速膨脹脹(已達G或或T數量級),從而導致致了現 實世界數據庫中中常常包含許許多含有噪聲聲、不完整、甚甚至是不一致致的數據。顯顯然對 數據挖掘所涉及及的數據對象象必須進行預預處理。 數據據預處理主要要包括:數據據清洗(daata clleaninng)、數據據集成(daata interggratiOOn)、數據據轉換(daata trransfoormatiion)、和和

25、數據消減(data reducctiOn) 數據倉庫建建立過程的多多維分析的實實現 本文文介紹了利用用微軟的Annalysiis Serrvicess工具在已經經進行整理的的數據的基 礎上建立一個數數據倉庫的過過程,包括如如何設計主題題、維度、粒粒度,對數據據倉庫進 行鉆取、旋轉等等操作,如何何存儲數據倉倉庫,以及如如何用可視化化工具進行進進一步分 析的全過程。 數據挖掘的幾幾個算法的嘗嘗試 在已已有數據的基基礎上,找出出一些完整的的、有分析價價值的數據,利利用數據挖掘掘 中的一些算法如如(決策樹IID3算法、聚聚集、粗糙集集中RSL語語言)來對數數據進行試 探性的數據挖掘掘。并用微軟軟的An

26、allysis Serviices中的的數據挖掘模模型來實現決決策 樹和聚集方法的的數據挖掘,并并得到有用的的知識。 下一步工作的的展望 由于于時間和人力力的原因,本本文只能做些些探討性的分分析和研究,整整個工作尚不不 能成為成熟的可可應用于實際際的工具。但但本人已在醫醫院中申請了了這個項目的的課題, 并已經被批準,并并得到了院長長、科主任的的高度重視。因因此會在未來來重點地研究究, 并希望能夠得到到理想的效果果。 此項項工作與HIIs的區別 聯機機分析技術(OLAP)就是對大量量信息進行復復雜分析操作作和決策制定定的軟件系 統。為了提高效效率和有效性性,必須把分分析型數據從從事務處理環環境中

27、提取出出來,按 照決策支持系統統處理的需要要進行重新整整合,建立單單獨的分析處處理環境。數數據倉庫 正是為了構建這這種新的分析析處理環境而而出現的一種種數據存儲和和組織技術。與與HIS 不同之處在于,數數據倉庫是對對歷史數據的的批處理操作作、按照主題題進行分解合合并重 新組織,是深層層次分析利用用的基礎。HHIS主要作作用是使讓大大量的日常業業務(如掛號號、 劃價、收費、結結算等等)電電子化,以提提高醫院工作作效率和工作作質量。HIIS的應用是是 面向聯機事務處處理(OLTTP)。 14論文的的組織結構 全文文分為三章各各章組織如下下: 第一一章,為引言言,主要內容容有研究的技技術背景,本本篇

28、論文主要要工作、組織織結 構的介紹。 第二二章,介紹了了數據倉庫的的概念和體系系結構;數據據挖掘的方法法、算法;多多維 數據分析和數據據挖掘與決策策支持的聯系系與區別。 第三三章,是對在在腫瘤醫院建建立數據倉庫庫全過程的詳詳細描述,包包括醫院信息息管 理系統的介紹和和國內外的動動態:醫院分分析數據的歷歷史方法,存存在的問題以以及數據 倉庫架構、數據據存儲、粒度度和維度的設設計、主體的的提取和確定定、數據倉庫庫實現的 功能;數據挖掘掘的應用實例例,有幾種算算法的演示和和說明。 最后后,為結束語語包括了對上上述論文的總總結,和對下下一步工作的的展望。 第2章數數據倉庫與數數據挖掘 21數據倉庫庫的

29、定義 211數據據倉庫的定義義 信息技技術的不斷推推廣應用,將將企業帶入了了一個信息爆爆炸的時代。每每同、每時、 每刻都有潮水般般的信息出現現在管理者的的面前,等待待管理者去處處理、去使用用。這些 管理信息的處理理類型主要是是對管理信息息的處理類型型,主要有事事務型處理和和信息型 處理兩大類。事事務型處理,也也就是通常所所說的業務操操作處理。這這種操作處理理主要 是對管理信息進進行日常的操操作,對信息息進行查詢和和修改,目的的是滿足組織織特定的 日常管理需要要【9。在在信息型處理理中管理者關關心的是信息息能否得到快快速的處理,信信 息的安全性能否否得到保證,對對信息作進一一步的分析,為為管理人

30、員的的決策提供支支持。 例如如,為決策支支持系統、經經理信息系統統、戰略信息息系統等提供供信息分析的的支 持。這種類型的的信息處理在在現代企業中中的應用越來來越廣泛,越越來越引起管管理人員 的重視。管理理信息的信息息型處理,必必須訪問大量量的歷史數據據才能完成;而不像事 務型處理那樣,只只對當前的信信息感興趣1。因此,在在信息型處理理中,產生了了與操 作性處理所采用用的傳統數據據庫有很大差差異的數據環環境要求。 目目前,數據倉倉庫一詞尚沒沒有一個統一一的定義,著著名的數據倉倉庫專家WHInmmon 在其著作Buuildinng theeData Warehhouse)一書中給給予如下描述述:數

31、據倉庫庫(Dataa Warehouuse)是一一個面向主題題的(Subbject Oriennted)、集集成的(Inntegraate)、相相 對穩定的(NoonVolattile)、反反映歷史變化化(Timee Variiant)的的數據集合,用用于支 持管理決策。對于數據據倉庫的概念念我們可以從從兩個層次予予以理解,首首先,數據 倉庫用于支持決決策,面向分分析型數據處處理,它不同同于企業現有有的操作型數數據庫; 其次,數據倉庫庫是對多個異異構的數據源源有效集成,集集成后按照主主題進行了重重組, 并包含歷史數據據,而且存放放在數據倉庫庫中的數據一一般不再修改改。 根據據數據倉庫概概念的含

32、義,數數據倉庫擁有有以下四個特特點: l、面面向主題。操操作型數據庫庫的數據組織織面向事務處處理任務,各各個業務系統統之 間各自分離,而而數據倉庫中中的數據是按按照一定的主主題域進行組組織。主題是是一個抽 象的概念,是指指用戶使用數數據倉庫進行行決策時所關關心的重點方方面,一個主主題通常 與多個操作型信信息系統相關關。 2、集集成的。面向向事務處理的的操作型數據據庫通常與某某些特定的應應用相關,數數據 庫之間相互獨立立,并且往往往是異構的。而而數據倉庫中中的數據是在在對原有分散散的數 據庫數據抽取、清清理的基礎上上經過系統加加工、匯總和和整理得到的的,必須消除除源數 據中的不一致性性,以保證數

33、數據倉庫內的的信息是關于于整個企業的的一致的全局局信息。 3、相相對穩定的。操操作型數據庫庫中的數據通通常實時更新新,數據根據據需要及時發發 生變化。數據倉倉庫的數據主主要供企業決決策分析之用用,所涉及的的數據操作主主要是數 據查詢,一旦某某個數據進入入數據倉庫以以后,一般情情況下將被長長期保留,也也就是數 據倉庫中一般有有大量的查詢詢操作,但修修改和刪除操操作很少,通通常只需要定定期的加 載、刷新。 4、反反映歷史變化化。操作型數數據庫主要關關心當前某一一個時間段內內的數據,而而數 據倉庫中的數據據通常包含歷歷史信息,系系統記錄了企企業從過去某某一時點(如如丌始應用 數據倉庫的時點點)到目前

34、的的各個階段的的信息,通過過這些信息,可可以對企業的的發展歷 程和未來趨勢做做出定量分析析和預測【112】。 212數據據倉庫與數據據庫比較 從“庫”到“倉庫” 數據據倉庫,是在在數據庫已經經大量存在的的情況下,為為了進一步挖挖掘數據資源源、 為了決策需要而而產生的,它它決不是所謂謂的“大型數據庫庫”。那么,數數據倉庫與傳傳 統數據庫比較,有有哪些異同呢呢, 如表211所示: 表221數據庫庫和數據倉庫庫的對比裹【113】 對比內容 數據庫 數據倉庫庫 數據內容 當前值 歷史的、存存檔的、歸納納的、計算的的 數據 數據目標 面向業務務操作程序重重復處理 面向主題題域,分析應應用 數據特性 動態

35、變化化按字段更新新 靜態、不不能直接更新新,只能定時時添 加、刷新新 數據結構 高度結構構化復雜化和和操作計算 簡單適適合分析 使用頻率 高 中到低 數據訪問量 每個事務務之訪問少量量記錄 有的事務務可能需要訪訪問大量記錄錄 對響應時間的要要求 以秒為單單位計算 以秒、分分鐘甚至小時時為計算單位位 數據據倉庫的出現現,并不是要要取代數據庫庫。目前,大大部分數據倉倉庫還是用關關系 數據庫管理系統統來管理的。可可以說,數據據庫、數據倉倉庫相輔相成成、各有千秋秋【l。 213數據據倉庫的體系系結構 數據據倉庫的體系系結構分為數數據獲取層、數數據存儲層、數數據挖掘層等等多個部分。 1數據獲取層層 數據

36、據獲取層把決決策主題所需需要的數據(當前的、歷歷史的),從從各種相關的的業務 數據庫或數據文文件等外部數數據源中抽取取出來,進行行各種必要的的清洗、整合合和轉換 處理,再將這些些數據集成存存儲到倉庫中中”。數據獲獲取層在數據據倉庫的整體體系統應 用中占有非常重重要的地位。 2數數據存儲層 數據存存儲層以一定定的組織結構構存儲各種主主題數據。數數據倉庫包括括多個主題, 一個主題的數據據通常存儲在在一個數據庫庫中,包括該該主題的一些些綜合性表,如如主題 中選擇的事實表表、維表,還還有為數據挖挖掘生成的中中間表等。 3數數據挖掘層 數據據挖掘層集成成各種數據挖挖掘的算法,包包含具有很強強功能的數據據

37、挖掘工具, 可以提供靈活有有效的任務模模型、組織形形式,以支持持各項決策的的數據挖掘任任務。 數據據挖掘與數據據倉庫的概念念是密不可分分的,數據挖挖掘要求有數數據倉庫作為為基 礎,并要求數據據倉庫已經存存有豐富的數數據。數據挖挖掘比本文后后面談到的多多維分析 更進一步。舉例例,假如以某某類產品的銷銷售情況為例例,如果管理理人員要求比比較各個 區域某類產品銷銷量在過去一一年的情況,可可以從多維分分析中找答案案。但是,如如果管 理人員要問為何何一種產品銷銷量在某地區區的情況突然然變得特別好好或不好,或或者問該 產品在另一地區區將會怎樣,這這些是用多維維分析工具難難以簡單解決決的問題,就就需要 利用

38、數據挖掘工工具尋找回答答。 在實實旌智能化決決策時,一般般分為兩個步步驟:第一步步實現數據倉倉庫和多維分分析, 構造智能決策的的基礎,實現現分析應用:第二步實現現數據挖掘,再再發揮智能化化決策 的特色【l”。數數據挖掘是數數據利用價值值的再發現,它它突破了傳統統意義上的數數據查詢, 是在更大的尺度度上、更深的的層次中對數數據提高利用用的價值,是是數據倉庫應應用的關 鍵。 214聯機機分析處理(OLAP) 1聯機分析處處理(OLAAP)的概念念 聯機機分析處理(OLAP)的概念最早早是由關系數數據庫之父EEFCoodd于19993年 提出的,他同時時提出了關于于OLAP的的12條準則則。OLAP

39、P的提出引起起了很大的反反響, OLAP作為一一類產品同聯聯機事務處理理(OLTPP)明顯區分分開來【177。 當今今的數據處理理大致可以分分成兩大類:聯機事務處處理OLTPP(0nLine Transacction Proccessinng)、聯機機分析處理OOLAP(OOnLine Anallyticaal Processsing)。OOLTP是傳傳統的關系型型數據庫的主主要應用,主主要是基本的的、日常的 事務處理,例如如銀行交易【11”。OLAPP是數據倉庫庫系統的主要要應用,支持持復雜的分析析 操作,側重決策策支持,并且且提供直觀易易懂的查詢結結果。表22列出了OOLTP與OOLAP

40、之間的比較。 表表22 OLPP與OLTPP比較【199 OLLTP OLAAP 用用戶 操操作人員低低層管理人員員 決決策人員,高高級管理人員員 功功能 日常操作處處理 分析決策 DBB設計 面向應用用 面向主題 當前的,最最新的細節的的,二維的分分 歷史的,聚聚集的,多維維的集成 數數據 立的的 的的統一的 存存取 讀寫寫數十條記錄錄 讀上百百萬條記錄 工作單單位 簡單的事務務 復復雜的查詢 用戶戶數 上千個個 上百個 DBB大小 100MMB_GB IOOGBBTB OLAAP是使分析析人員、管理理人員或執行行人員能夠從從多角度對信信息進行快速速、一 致、交互地存取取,從而獲得得對數據的

41、更更深入了解的的一類軟件技技術。OLAAP的目標是是 滿足決策支持或或者滿足在多多維環境下特特定的查詢和和報表需求,它它的技術核心心是”維 這個概念【2201。 “維”是人們觀察察客觀世界的的角度,是一一種高層次的的類型劃分。“維”一般包 含著層次關系,這這種層次關系系有時會相當當復雜【2”。通過把一一個實體的多多項重要的 屬性定義為多個個維(dimmensioon),使用用戶能對不同同維上的數據據進行比較。例例如,一 個企業在考慮產產品的銷售情情況時,通常常從時間、地地區和產品的的不同角度來來深入觀 察產品的銷售情情況。這里的的時間、地區區和產品就是是維。而這些些維的不同組組合和所 考察的度

42、量指標標構成的多維維數組則是OOLAP分析析的基礎,可可形式化表示示為(維1, 維2,維維n,度量指指標),如(地區、時間間、產品、銷銷售額)因此此OLAP也也 可以說是多維數數據分析工具具的集合。 20LP的的多維分析操操作 OLLAP的基本本多維分析操操作有鉆取(roll up和drrill ddown)、切切片(sliice) 和切塊(dicce)、以及及旋轉(piivot)等等【2”。 鉆取是改改變維的層次次,變換分析析的粒度。它它包括向上鉆鉆取(rolllup)和和向下鉆 取(drilll downn)。rolll up是是在某一維上上將低層次的的細節數據概概括到高層次次的 匯總數據

43、,或者者減少維數;而drilll dowwn則相反,它它從匯總數據據深入到細節節數據 進行觀察或增加加新維。 切片和切切塊是在一部部分維上選定定值后,關心心度量數據在在剩余維上的的分布。如果果 剩余的維只有兩兩個,則是切切片;如果有有三個,則是是切塊。 旋轉是變變換維的方向向,即在表格格中重新安排排維的放置(例如行列互互換)。 30LP存存儲數據的方方式 OLLAP有多種種實現方法,根根據存儲數據據的方式不同同可以分為RROLAP、MMOLAP、 HOLAP2231。 ROOLAP表示示基于關系數數據庫的OLLAP實現(Relattionall OLAPP)。以關系系數據 庫為核心,以關關系型

44、結構進進行多維數據據的表示和存存儲。ROLLAP將多維維數據庫的多多維 結構劃分為兩類類表:一類是是事實表,用用來存儲數據據和維關鍵字字:另一類是是維表,即對對 每個維至少使用用一個表來存存放維的層次次、成員類別別等維的描述述信息。維表表和事實 表通過主關鍵字字和外關鍵字字聯系在一起起,形成了”星型模式”。對于層次次復雜的維, 為避免冗余數據據占用過大的的存儲空間,可可以使用多個個表來描述,這這種星型模式式的擴 展稱為”雪花模模式”。 MOOLAP表示示基于多維數數據組織的OOLAP實現現(Multtidimeensionnal OOLAP)。以以 多維數據組織織方式為核心心,也就是說說,MO

45、LAAP使用多維維數組存儲數數據。多維數數據在 存儲中將形成“立方塊(CCube)”的結構,在在MOLAPP中對“立方塊”的“旋轉”、 “切塊”、“切片”是產生多維維數據報表的的主要技術【22“。如圖21所示 地 鍋鍋人緋 表中的。條條教州 圖221多維立立方體 HOOLAP表示示基于混合數數據組織的OOLAP實現現(Hybrrid OLLAP)。如如低層是關系系 型的,高層是是多維矩陣型型的。這種方方式具有更好好的靈活性。 還有有其他的一些些實現OLAAP的方法,如如提供一個專專用的SQLL Servver,對某某些 存儲模式(如星星型、雪片型型)提供對SSQL查詢的的特殊支持。 215企企

46、業中建立數數據倉庫的結結構 在企企業中整個數數據倉庫系統統包含四個層層次,具體由由下圖222表示【2”。 0LAPP囂舞盈 韓塌工工鼻 壓:鹽五1調工工星 jiii 巨衰衰工旦 叵叵丑冉忻工旦旦 J 日日曰田 門 四拉拉露毫掘工工具 出jj豈 日 日日 鼓韶 最j童市 OLAAP甩務舀 圖22企企業中數據倉倉庫結構 數據源:數數據源是數據據倉庫系統的的基礎,是整整個系統的數數據源泉。 數據的存儲儲與管理:數數據的存儲與與管理是整個個數據倉庫系系統的核心。數數據 倉庫的真正關鍵鍵是數據的存存儲和管理。數數據倉庫的組組織管理方式式決定了它有有別于 傳統數據庫,同同時也決定了了其對外部數數據的表現形

47、形式。要決定定采用什么產產品和技 術來建立數據倉倉庫的核心,則則需要從數據據倉庫的技術術特點著手分分析。針對現現有各 業務系統的數據據,進行抽取取、清理,并并有效集成,按按照主題進行行組織。數據據按照 數據的覆蓋范圍圍可以分為數數據倉庫和數數據集市。 OLAP服服務器:對分分析需要的數數據進行有效效集成,按多多維模型予以以組織,以 便進行多角度、多多層次的分析析,并發現趨趨勢。 前端工具:主要包括各各種報表工具具、查詢工具具、數據分析析工具、數據據挖掘 工具以及各種基基于數據倉庫庫或數據集市市的應用開發發工具。其中中數據分析工工具主要 針對OLAP服服務器,報表表工具、數據據挖掘工具主主要針對

48、數據據倉庫。 216數據據倉庫的軟件件 在上上述數據倉庫庫的體系機構構中,有各式式各樣的軟件件,可分為數數據倉庫管理理軟 件、數據挖掘軟軟件以及各類類工具軟件。 1數據倉庫管管理軟件 數據據倉庫管理軟軟件提供對數數據的訪問、抽抽取、轉換、分分布、存儲及及管理等功 能。管理軟件靠靠描述性數據據查找、理解解、顯示、分分析和挖掘數數據,實現數數據轉換 過程的自動化及及其管理,縮縮短從復雜的的海量數據(源)到能支支持決策的信信息之間的 差距,有助于進進一步實現智智能化決策【22”。 2數數據挖掘軟件件 數據據挖掘軟件主主要是從統計計學方面提供供相應算法的的軟件,前面面已經有所闡闡述。 值得一提的是,目

49、目前有的數據據挖掘軟件產產品不單單用用統計方法,還還借助智能化化的 電腦學習或神經經網絡等技術術。 3數數據倉庫工具具軟件 數據據倉庫不僅僅僅是個數據的的儲存倉庫,更更重要的是它它要提供豐富富的各種應用用 工具。各種功能能強大的完整整工具體系,是是數據倉庫實實現應用的基基礎。目前一一些商 家推銷的數據倉倉庫軟件都帶帶有各自的工工具軟件,也也具有各自的的特色。 4數據獲取工工具 在數數據獲取層的的一些工具,用用來清洗、轉轉換和從別處處提取數據,“去其糟粕、 取其精華”,將將真實的、對對決策有用的的數據保留下下來,使得放放在數據倉庫庫的數據 有條有理,幫助助決策者再通通過其它分析析工具方便地地使用

50、這些數數據。 5多維分析工工具 通常常,每一個分分析的角度可可以叫作一個個維。因此,多多角度分析方方式稱為多維維 分析。管理人員員往往希望從從不同的角度度來審視業務務數值,例如如銀行往往從從時間、 地域、功能、效效益、利潤來來看同一類儲儲蓄的總額。以以前,針對每每個分析的角角度需 要制作一張報表表。現在,利利用在線多維維分析工具,可可以根據用戶戶常用的多種種分析 角度,事先分析析、考慮構架架好一些輔助助結構,以便便在查詢時能能盡快抽取到到所要的 記錄,并快速地地從一維轉變變到另一維,從從而迅速將不不同角度的信信息展現出來來。 6前臺分析工工具 前臺臺分析工具,包包括聯機分析析處理工具(OLAP

51、),可以提供供各種分析處處理操作 功能以及簡單易易用的圖形化化界面。圖形形化界面可以以將數據倉庫庫的結果以數數字、直 方圖、餅圖、曲曲線等方式,直直觀地提供給給管理決策人人員。管理決決策人員也可可以自 由選擇要分析析的數據、定定義分析角度度、顯示分析析結果。前臺臺分析工具,往往往需要 與多維分析工具具配合,作為為多維分析服服務器的前臺臺界面。 數據據獲取工具、多多維分析及前前臺分析工具具,是數據倉倉庫支持進行行決策處理的的 基礎性工具,它它們完成對用用戶數據的整整理、觀察和和總結,其作作用是“掌握過去”, 知道“是什么”。在此基礎礎上,再利用用前面提到的的數據挖掘,通通過挖掘發現現問題、 找出

52、規律,知道道“為什么”,從而預測測未來,達到到真正智能化化決策的效果果。 22數據挖掘掘的定義、方方法、算法 221數據據挖掘的定義義 數據據挖掘是利用用了分類、關關聯性分析、序序列分析、群群集分析、機機器學習、知知 識發現及其他統統計方法,從從數據庫龐大大的數據中,找找出隱藏的、未未知的、但對對企 業經營十分有用用的信息【22引。這些信信息是可能有有潛在價值的的支持決策,可可以為企業 帶來利益,或者者為科學研究究尋找突破口口。 隨著著信息技術的的迅速發展和和企業信息化化的深入,企企業積累的數數據越來越多多。 數據的背后應隱隱藏著許多重重要信息企企業自然希望望能夠對其進進行更高層次次的分析,

53、以便更好地利用用這些數據【22叭。數據庫庫系統可以高高效地實現數數據的錄入、修修改、統 計、查詢等功能能,但無法發發現數據中存存在的關系和和規則,無法法根據現有的的數據預 測未來的發展趨趨勢,導致了了“數據爆炸但但知識貧乏”的現象。 222數數據挖掘的功功能和方法 1數據挖掘的的主要功能 數據據挖掘過程一一般包括數據據抽樣、數據據描述和預處處理、數據變變換、模型建建立、 模型評估和發布布等步驟。數數據挖掘工具具應該能夠為為每個步驟提提供相應的功功能集。 數據據挖掘綜合了了各個學科技技術,有很多多的功能,當當前的主要功功能如下: (1)分類:按照分析對對象的屬性、特特征,建立不不同的組類來來描述

54、事物。例例 如:銀行部門根根據以前的數數據將客戶分分成了不同的的類別,現在在就可以根據據這些來 區分新申請貸款款的客戶,以以采取相應的的貸款方案。 (2)聚類:識別出分析析對象內在的的規則,按照照這些規則把把對象分成若若干類。 例如:將申請人人分為高度風風險申請者,中中度風險申請請者,低度風風險申請者。 (3)關聯規規則和序列模模式的發現:關聯是某種種事物發生時時其他事物會會發生 的這樣一種聯系系。例如:每每天購買啤酒酒的人也有可可能購買香煙煙,比重有多多大,可 以通過關聯的的支持度和可可信度來描述述。與關聯不不同,序列是是一種縱向的的聯系。例 如:今天銀行調調整利率,明明天股市的變變化。 (

55、4)預測:把握分析對對象發展的規規律,對未來來的趨勢做出出預見。例如如:對 未來經濟發展的的判斷。 (5)偏差的的檢測;對分分析對象少數數的、極端的的特例的描述述,揭示內在在的原 因。例如:在銀銀行的1000萬筆交易中中有500例例的欺詐行為為,銀行為了了穩健經營, 就要發現這5000例的內在在因素,減小小以后經營的的風險p。 2決策樹方法法 決策策樹方法起源源于概念學習習系統(CLLS:Conncept Learnning SSystemm),然后發發 展到ID3方法法并達到高峰峰,最后又演演化為能處理理連續屬性的的C45【33”。有名的決決策 樹方法還有CAART和Asssistaant”

56、1。 利用信信息論中的互互信息(信息息增益)尋找找數據庫中具具有最大信息息量的字段, 建立一個決策樹樹的節點,在在根據字段的的不同取值建建立樹的分支支【3”。在每個分分支子 集中重復建樹的的下層節點和和分支的過程程,即可建立立決策樹。國國際上最有影影響的和 最早的決策樹方方法是Quiiulan研研制的ID33方法,它對對較大的數據據庫效果較好好。 決策策樹提供了一一種展示類似似在什么條件件下會得到什什么值這類規規則的方法【3341。 比如,在大腸癌癌的手術后,要要對大腸癌的的術后情況做做出判斷,圖圖23是為為了解決 這個問題而建立立的一棵決策策樹,從中我我們可以看到到決策樹的基基本組成部分分:

57、決策 節點、分支和葉葉子【3”。 圖233丈腸癌的決決策樹示意圖圖 決策策樹中最上面面的節點稱為為根節點,是是整個決策樹樹的開始。本本例中葉子節節點 是“周徑13、周徑 V (00utioook=RaiinWinnd=Weaak)。 圖3319決策策樹的公式表表示方法 決決策樹的優點點 可以以生成可以理理解的規則;計算量相對對來說不是很很大;可以處處理連續和離離散 字段;決策樹可可以清晰的顯顯示哪些字段段比較重要 決決策樹的常見見問題 1避免過度擬擬合數據 基本本的決策樹構構造算法沒有有考慮噪聲,生生成的決策樹樹完全與訓練練例子擬合。 有噪聲情況下,完完全擬合將導導致過分擬合合(overrfi

58、ttiing),即即對訓練數據據的完全 擬合反而不具有有很好的預測測性能。 解決決方法 剪枝枝是一種克服服噪聲的技術術,同時它也也能使樹得到到簡化而變得得更容易理解解。 向前前剪枝(foorwardd prunning) 向后后剪枝(baackwarrd pruuning) 理論論上講,向后后剪枝好于向向前剪枝,但但計算復雜度度大。剪枝過過程中一般要要涉 及一些統計參數數或閾值,如如停機閾值;有人提出了了一種和統計計參數無關的的基于最 小描述的有效剪剪枝法。 剪枝數據集的選選擇 選擇擇與生成決策策樹數據集不不同的數據進進行剪枝 例如如使用訓練集集23的數數據生成樹,另另外13的的數據用于剪剪枝

59、(代價復復雜性 算法)。但是當當訓練數據集集比較小時,這這樣很容易導導致過學習。當當缺乏獨立剪剪枝數 據集時可以采用用交叉有效性性來判斷決策策樹的有效性性。 交叉叉有效性:將將訓練集T分分成互不相交交且大小相等等的k個子集集T1,T22Tk。 對任意子集Tii,用TTi訓練決決策樹,用TTi測試決策策樹的錯誤率率ei,然后后估計 整個算法的錯誤誤率見式(335): 1士 822i二島 (35) 2合并連續值值屬性 屬性性選擇的其他他度量標準 信息息增益比(ggainraatio)、距距離度量(ddistanncemeaasure)等。不同的的度量 有不同的效果,特特別是對于多多值屬性。 3處理

60、缺少屬屬性值的訓練練樣例 4處理不同代代價的屬性 lDD3算法介紹紹 創建樹的Rooot結點 如果Exampples都為為正,那么返返回labeel=+中的的單結點Rooot 如果Exampples都為為反,那么返返回lablle=一單結結點樹Rooot 如果Attriibutess為空,那么么返回單節點點樹Roott,lablle=Exaampless中最普遍的的目 標屬性值 否則開始 A(-Attriibutess中分類能力力最好的屬性性 Rooot的決策屬屬性(-A 對于每每個可能值 在Rooot下加一個個新的分支對對應測試A=vi 令Exaample-vi為Exxamplees中滿足A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論