第一講數據倉庫概述_第1頁
第一講數據倉庫概述_第2頁
第一講數據倉庫概述_第3頁
第一講數據倉庫概述_第4頁
第一講數據倉庫概述_第5頁
已閱讀5頁,還剩62頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫與數據挖掘(DATAWAREHOUSINGANDDATAMINING)廈門大學軟件學院2教學方式教學方式課堂教學+實驗(15->13=10+3)無指定教材,以電子教案的內容為主線廈門大學軟件學院3主要參考書數據倉庫基礎,[美]PaulrajPonniah著,段云峰等譯,電子工業出版社,2004數據倉庫,[美]WilliamH.Inmon著王志海等譯,機械工業出版社,2006,原書第4版數據挖掘概念與技術,[加]JiaweiHan,MichelineKamber著,范明等譯,機械工業出版社,2007廈門大學軟件學院4課程考核方法課程作業 2-3次作業 比例:20%平時10%期末考試70%廈門大學軟件學院5教學內容——章節安排數據倉庫概述維度分析與維度建模數據抽取、轉換與轉載聯機分析處理數據挖掘概述數據預處理挖掘頻繁模式、關聯與相關分類與預測聚類分析廈門大學軟件學院6第一講數據倉庫概述WhyDataWarehousing?DW’sDefinitionDW’sComponentNowandFuture廈門大學軟件學院7§1.WhyDW對戰略信息的不斷增長的需要

以往的決策支持系統的失敗操作型系統和決策支持系統數據倉庫:唯一可行的解決方案

數據倉庫的功能性定義廈門大學軟件學院81960年開始的TPS,MIS,DSS20世紀90年代復雜的商業活動零售業

制造業客戶忠誠度成本消減市場策劃后勤管理金融行業

公益事業風險管理資產管理欺詐檢測資源管理航空業

政府機關航線收益率人力計劃區域管理成本控制獲得競爭優勢的行業廈門大學軟件學院9一、對戰略信息的不斷增長的需要戰略信息(決策信息,strategicinformation)不為企業日常運作所用商業決策有賴于正確的戰略信息戰略信息的特點綜合性必須有一個獨立的、從企業整體來看的視角數據完整性信息必須是準確的、必須符合商業規則可用性必須通過直觀方法容易獲得的、對于分析是有用的可靠性每個商業因素都必須有且僅有一個值及時性信息必須是在規定時間內準備好的、待用廈門大學軟件學院10二、以往的決策支持系統的失敗IT部門一直努力為公司關鍵人物提供用于戰略決策的信息忙受不到應有的尊重個人價值無法真正的體現IT部門所作的大部分工作以失敗告終從不同的系統查詢數據費了九牛二虎之力得到的報表生命如此短暫數據的不一致性數據完整性差用戶不能明確的告訴我們他們到底想要什么給了第一張報表,他要另外一張報表廈門大學軟件學院11決策支持系統的歷史決策支持系統的歷史即席查詢報表特殊抽取程序小應用程序信息中心決策支持系統主管信息系統廈門大學軟件學院12缺乏提供戰略信息的能力過去,每個試圖提供戰略信息的系統都不能令人滿意IT部門接到了太多的特別查詢要求,負荷過重這些請求不僅量大,而且總在變用戶需要越來越多的補充報表,例如各種可能的組合用戶只能依賴IT部門,不能直接訪問信息IT部門不能提供適合制定戰略決策信息靈活、對分析有指導作用的環境廈門大學軟件學院13三、

操作型系統和決策支持系統IT部門試圖提供決策的戰略信息的嘗試大都以失敗告終!Why???我們一致試圖從操作型系統中提供戰略信息我們必須構建能提供戰略信息的決策支持系統或者信息系統廈門大學軟件學院14操作型系統vs.信息型系統操作型系統,OLTP取訂單處理呼叫裝貨開發貨單收取現金預定座位信息型系統給我銷售量最好的產品名單告訴我出問題的地區告訴我為什么(向下鉆取)讓我看看其他的數據(橫向鉆取)顯示最大利潤當一個地區的銷售低于目標值時,提醒我將數據寫入數據庫從數據庫中讀取戰略信息廈門大學軟件學院15操作型系統vs.信息型系統操作型信息型數據內容當前值存檔的,推導出來的,總結的值數據結構適于事務處理適于復雜查詢訪問頻率高中、低訪問連接類型讀取、更新、刪除讀取使用方法可預知的、反復性的特別查詢、隨機的、啟發式的應用響應時間快一般用戶大量較少數廈門大學軟件學院16四、數據倉庫:唯一可行的解決方案一種新類型的系統環境為分析任務而設計的數據庫從多種應用程序獲取的數據使用方便,有益于用戶的長時間交互式操作大量讀取的數據使用用戶可以與系統直接交互內容可靠,定期更新數據包括當前的和歷史的用戶可以查詢,并在線得到結果用戶可以創建報表廈門大學軟件學院17新環境下的需求處理:分析性的處理需求。分為四個層次對當前和歷史數據簡單查詢和報表處理可以用很多不同的方法進行“WhatIf”分析可以查詢、后退、分析認清過去的發展趨勢,并將其應用于對未來結果的分析廈門大學軟件學院18數據倉庫的商業智能

BI:BusinessIntelligence操作型系統基本商業處理抽取、清洗、聚合數據轉換關鍵度量,商業維度廈門大學軟件學院19五、數據倉庫的功能性定義數據倉庫是提供戰略信息的唯一可行的解決方案數據倉庫功能性的定義數據倉庫是一種信息環境,它能夠:提供對企業綜合、完整的概括使決策者所需要的當前數據和歷史數據都方便易得無需妨礙操作型系統,也能使支持決策的處理成為可能使企業的信息保持一致性提供了一個靈活的、交互的戰略信息來源廈門大學軟件學院20數據倉庫是信息傳遞的一種簡單概念數據倉庫的來源在于對戰略信息的需求和對操作型計算環境的不滿數據倉庫不“創造”新的數據數據倉庫概念簡單使用所有現存的數據通過清洗、轉換提供有用的決策信息廈門大學軟件學院21數據倉庫是一種環境,而不是產品你不可能買到數據倉庫但你可以構建自己的數據倉庫數據倉庫新型計算環境的特點數據分析和決策支持的理想環境不固定,靈活、交互式操作100%用戶驅動適合”提問-回答-再提問”的模式廈門大學軟件學院22數據倉庫是多種技術的混合體數據倉庫的基本概念從操作型系統中提取所有數據在需要的時候可以將外部數據包含其中將多種數據源的所有數據進行整合轉換數據,去掉不一致性用適合決策的易于存取的格式存儲數據數據建模數據管理數據獲取元數據管理分析開發工具應用存儲管理數據質量管理§廈門大學軟件學院23第一講數據倉庫概述WhyDataWarehousing?DW’sDefinitionDWvs.

DataMartDW’sComponentNowandFuture廈門大學軟件學院24數據倉庫的創始者BillInmon

:

“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’sdecisions.”“數據倉庫是為支持管理決策建立的,面向主題的,綜合的,穩定的,隨時間變化的數據集合”數據倉庫的開拓者SeanKelly,認為數據倉庫中的數據是:彼此分離可利用的綜合的§2.數據倉庫定義包含時間標記的面向主題的非易失性的能訪問的能訪問的廈門大學軟件學院25“面向主題”的數據在操作型系統中,各行業的數據集合都是圍繞單獨的應用程序進行組織的在數據倉庫中數據是按主題而不是按照應用程序存儲的。數據是跨應用程序的訂單處理客戶貸款顧客帳單可接收帳款索賠處理儲蓄帳目銷售產品客戶帳戶索賠政策操作型應用程序數據倉庫主題廈門大學軟件學院26主題:宏觀分析領域所涉及的分析對象 面向主題的數據組織方式:在較高的層次上對分析對象的數據的一個完整、一致的描述。采用面向事務進行數據組織,其特點為:充分考慮企業的部門組織結構和業務活動反映企業內部數據流動情況,業務處理的數據流程與業務處理流程中的單據、票證、文檔有良好的對應數據與應用(數據的處理)有一定的對應例:保險公司:面向應用(操作):財產險、壽險、健康險、意外險。面向主題:客戶、保單、保費、理賠(賠款)。廈門大學軟件學院27儲蓄帳戶支票帳戶貸款帳戶主題=帳戶來自應用程序的數據數據倉庫主題“綜合”的數據數據倉庫中的數據來自不同的數據庫、文件、數據段。(內部或者外部,不同的平臺)數據進入數據倉庫前,需要進行的標準化工作:命名規則編碼數據特性度量單位廈門大學軟件學院28數據的“時間特性”數據倉庫中的每一個數據結構都包含了時間要素。數據倉庫中的數據是和時間變化相關的數據可以對過去進行分析與當前的信息相關可以對未來進行預測廈門大學軟件學院29數據的非易變性(相對穩定)操作型系統的數據實時地進行更新,每次交易發生都要更新;數據倉庫中的數據非實時性更新數據倉庫中的數據用來進行查詢和分析的不能在數據倉庫中實時地刪除數據不能在數據倉庫中修改數據決策支持系統操作型系統OLTP數據庫數據倉庫讀取增加修改刪除讀取廈門大學軟件學院30數據粒度(DataGranularity)數據粒度:數據的細節程度在操作型系統中,數據粒度一般都很細。一般不保存加和的數據。在數據倉庫中,保存加和這一個數據項。一般來說,按不同層次組織數據,用戶是從高層次向低層次的細節過渡。根據需求的不同,需要不同層次的數據細節。每日數據帳戶交易日期數額存款取款月匯總帳戶月份交易數取款存款期初結余期末結余季度匯總帳戶月份交易數取款存款期初結余期末結余銀行數據倉庫三個層次的數據粒度廈門大學軟件學院31第一講數據倉庫概述WhyDataWarehousing?DW’sDefinitionDW’sComponentsNowandFuture廈門大學軟件學院32§3.數據倉庫的組成部分數據倉庫:各個功能塊或組件廈門大學軟件學院33一、源數據部分主要類別生產數據:多個系統多種數據的標準化、轉換、整合內部數據:表格、文檔存檔數據:舊的歷史的數據外部數據:社會的企業,社會的人廈門大學軟件學院34二、數據準備部分ETL(ETCL)數據抽取(Extract):多源、異構數據的抽取數據轉換(Transform):清洗(Clean)、標準化等過程數據裝載(Load)這個過程需要很多的時間最初的裝載工作需要載入大量的數據更新周期的決定(年、季、月、日)廈門大學軟件學院35三、數據存儲部分數據倉庫的數據存儲器是一個獨立的部分與操作型的數據庫分開存儲大多數數據倉庫都采用關系數據庫管理系統廈門大學軟件學院36四、信息傳遞部分多種信息傳遞方式特別的報表復雜的查詢多維分析統計分析主管信息系統的需求數據挖掘廈門大學軟件學院37五、元數據MetaData描述數據的數據數據倉庫內容的一本字典元數據是數據倉庫數據本身信息的數據元數據的類型操作型元數據包含了所有操作型數據源的信息抽取和轉換元數據包含了源數據系統的數據抽取信息(抽取方法、抽取商業規則)最終用戶元數據允許最終用戶使用自己的商業術語和自己一般認可的方式來找尋信息元數據對于數據倉庫極其重要廈門大學軟件學院38第一講數據倉庫概述WhyDataWarehousing?DW’sDefinitionDW’sComponentsNowandFuture廈門大學軟件學院39§4.數據倉庫的發展趨勢數據倉庫的持續增長

重要趨勢

標準的出現

支持Web的數據倉庫廈門大學軟件學院40一、數據倉庫正在成為主流最初,有4個主要因素促使大量的公司使用數據倉庫激烈的競爭環境政府減少管制重構內部流程的需要急需為用戶定制的市場銷售策略目前,DW存在于可以想象得出的所有行業公益事業、媒體/出版業、航空業、咨詢業、零售業、高科技產業、金融服務、制藥業、軟硬件業、商業服務、制造業、消費者服務業、電信業、保險業、運輸業、政府部門、醫療衛生、其他、銀行業、法律業、教育、石油化工今天電信和銀行業繼續在DW投入上保持領先的地位,這兩個行業的15%預算都用在了DW的建設上在DW發展初期,建造DW非常昂貴,今天完整的解決方案越來越便宜。廈門大學軟件學院41數據倉庫的擴張各行各業開始有能力獲取、清洗、維護和使用商業交易而產生的大量數據,構建自己的DW電信呼叫交易數量銀行消費數量連鎖零售業etc.廈門大學軟件學院42解決方案和產品最初非常多、而且亂、概念不統一DW供應商>OS、數據庫提供商?市場慢慢的成熟起來了數據倉庫產品數據整合和清洗數據建模抽取轉換數據轉移信息服務器關系數據庫專用索引數據庫多維數據庫決策支持OLAP查詢和報表數據挖掘管理控制數據倉庫支持的應用模塊監管系統廈門大學軟件學院43二、重要趨勢多種數據類型數據可視化并行處理查詢工具瀏覽工具數據融合多維分析代理技術企業組合數據數據倉庫和ERP數據倉庫和知識管理數據倉庫和CRM廈門大學軟件學院44多種數據類型增加非結構化數據查詢非結構化數據空間數據數據倉庫儲存庫非結構化文檔結構化數字數據音頻視頻空間數據圖像結構化文檔廈門大學軟件學院45數據可視化可視化趨勢更多的圖表類型交互可視化龐雜結果的可視化高級可視化技術表格的操作向下鉆取高級互動打印報表在線顯示基本交互下鉆高級交互可視查詢基本視圖演示圖表嵌入報表科學圖標類型多連接圖表企業圖表系統簡單數字序列多維數據序列實時數據提供大量數據集非結構化文本數據神經數據從小數據集到大型、復雜的結構從靜態到動態的可視化廈門大學軟件學院46并行處理并行處理的硬件(共享存儲、非共享存儲)并行處理軟件(數據庫產品供應商通常提供)數據倉庫中實施并行提高查詢處理、數據裝載和索引創建的性能規模可擴展(CPU、內存數)容錯能力廈門大學軟件學院47查詢工具:DW成敗依賴于查詢工具靈活的展現方式跨主題區域整合性:整合不同的查詢工具克服SQL的局限性廈門大學軟件學院48瀏覽工具一個廣泛、普遍的概念,瀏覽工具的趨勢允許定義任何類型的數據或者對象區別不同用戶群體的瀏覽功能能夠瀏覽數據字典或者元數據提供Web瀏覽和查找技術來瀏覽信息目錄廈門大學軟件學院49數據融合合并不同數據源數據的技術DW中數據量巨大,因而就更難在合適的時間找到準確的信息,數據融合技術有望解決這一問題。處于研究階段,我們目前所能做的就是關注與研究廈門大學軟件學院50多維分析每個DW環境都提供的功能是個產品也可稱作聯機分析處理OLAP廈門大學軟件學院51代理技術軟件代理就是能夠代表用戶完成預定義的程序。數據倉庫的規模持續增長,代理技術應用得越來越多。風險識別(規則識別、表示代理程序預警OneORAll)廈門大學軟件學院52企業組合數據DW需要豐富的數據內容DW數據來源操作型數據庫外部數據(更大、更多的周遭環境數據)企業組合數據正在成為一個巨大的商機數據倉庫開發者們正在尋找新的供應商來提供其他類型的企業組合數據廈門大學軟件學院53數據倉庫和ERP(EnterpriseResourcePlanning)ERP(20世紀90年代興起)大量獨立的應用,缺乏整體概覽分析從各種系統獲取信息的不可行性ERP軟件包中的數據:軟件包屬于專賣品,數據格式獨特整合ERP和數據倉庫ERP中大量的數據庫表單并不適合提供戰略信息ERP中缺乏外部數據和公司中其他操作型系統的數據整合選擇ERP供應商將DW思想融入其中建立DW,從ERP中抽取數據廈門大學軟件學院54數據倉庫和知識管理(KnowledgeManagement)KM操作型系統處理數據信息型系統提供戰略決策信息KM讓用戶在正確的時間、地點使用正確的信息。知識存在于公司的各個角落。從知識管理系統中得的知識可以為從數據倉庫中得到的信息提供隱含在數據背后的線索。看見銷售額下降了,Why?問題清楚了:看到了分析人員的文檔資料整合知識庫與數據倉庫廈門大學軟件學院55知識庫和數據倉庫的整合廈門大學軟件學院56數據倉庫和CRM激烈的市場競爭環境使得越來越多的企業關注如何挽留客戶和贏得新的客戶。問題建設DW時,能為CRM做些什么?如果已有DW,如何調整以提高服務客戶水平?能夠進行客戶關系管理的數據倉庫大量的數據為更好的進行CRM提供了數據基礎傳統的數據倉庫工具對于從CRM中ETCL數據到DW支持的不夠廈門大學軟件學院57三、標準的出現數據倉庫環境是多種技術的混合數據建模數據抽取數據轉換數據庫管理系統DW熱門的行業以及支持眾多技術方面,都有大量可供選擇的供應商和產品有多個供應商和產品關注DW是好消息但,當我們試圖使用多個供應商的產品時,結果可能一團糟兩個領域的標準至關重要:元數據OLAP控制模塊報警系統代理查詢工具分析工具報表工具etc廈門大學軟件學院58元數據每個產品都會增加自己的元數據每個產品都會用到別的產品產生的元數據元數據是數據倉庫的信息地圖元數據像膠水一樣將所有的功能模塊連接在一起OLAP每個DW都有OLAP的功能OLAP提供多維分析、多視角的信息和復雜計算廈門大學軟件學院59元數據:有兩個組織致力于該標準的制定元數據聯盟1995年10月成立供應商、團體組成微軟1998年12月加入該組織1999年7月將“開放式信息模型(OIM)”

作為元數據標準對象管理小組(ObjectManagementGroup:OMG)由Oracle、IBM、HP、Sun等公司組成2000年月,OMG將“通用數據倉庫元模型(CWM)”作為數據倉庫元數據交換的標準2000年4月,元數據聯盟和OMG組織都表示他們將會一起合作制定一個統一的標準,但到現在還是一個難以達到的目標。廈門大學軟件學院60OLAPOLAP委員會于1995年1月成立成員主要有OLAP產品供應商興趣小組、個人NCR、IBM、BusinessObjects等致力于多維應用程序接口(MDAPI)的OLAP標準的工作NewVersion:MDAPI2.0各OLAP、平臺供應商、咨詢顧問、系統集成商宣布支持MDAPI2.0廈門大學軟件學院61四、支持Web的數據倉庫Internet的發展、再發展Web已經成為全世界的信息傳遞系統EC的迅猛發展Internet給DW的啟示利用Internet和Web技術的潛力提高DW的價值將DW的信息發布到Web上從Web上汲取信息DW的建設要考慮到對電子商務的支持廈門大學軟件學院62將數據倉庫放入Web中早期的應用中,DW是用來幫助高層員工、管理者進行分析和決

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論