商務智能教學課件:02 Data Warehouse 1_第1頁
商務智能教學課件:02 Data Warehouse 1_第2頁
商務智能教學課件:02 Data Warehouse 1_第3頁
商務智能教學課件:02 Data Warehouse 1_第4頁
商務智能教學課件:02 Data Warehouse 1_第5頁
已閱讀5頁,還剩41頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據倉庫Data Warehouse數據倉庫從數據庫到數據倉庫數據倉庫及其四大特征數據倉庫的基本結構數據集市與數據倉庫數據倉庫的應用2事務處理應用中的數據庫技術數據庫技術的進步關系數據模型的出現極大地促進了數據庫技術的發展和聯機事務處理(OLTP) 技術的發展,數據庫技術被廣泛應用于商業管理、政府辦公、科學研究和工程開發等領域數據量的變化數據庫中的數據量已經從過去的兆(M)/千兆(G)字節過渡到現在的兆兆(T)/千兆兆(P)字節3操作型/分析型隨著市場競爭的加劇、企業需求的發展以及數據量的不斷增大,數據處理被劃分為兩大類:操作型處理分析型處理所面向的數據被劃分為兩大類:操作型數據分析型數據4操

2、作型處理也叫事務處理,是指對數據庫的日常聯機訪問操作,通常是對一個或一組記錄的查詢和修改,主要是為企業特定的應用服務的,所以也叫聯機事務處理。On-Line Transaction Processing,(OLTP)通常僅僅是對一個或一組記錄的查詢或修改;查詢簡單,但執行頻率高;人們關心的是處理的響應時間、數據的安全性和完整性等指標。5分析型處理也叫做信息型處理,主要用于企業管理人員的決策分析,為制訂企業的未來經營管理計劃提供輔助決策信息。需要對大量的事務型數據進行統計、歸納和分析;需要訪問大量的歷史數據;執行頻率和對響應時間的要求都不高。典型的的分析型處理決策支持系統 ( DSS -Deci

3、sion Support System )6操作型/分析型數據(1/2)在現代計算機信息系統中,數據的作用有兩個方面:事務處理和分析處理(數據分析),不同的用戶(處理)需要不同的數據信息。操作型數據事務處理所需要的細節性的數據,是面向企業員工的日常業務處理過程的,通常由數據庫管理系統來負責其存儲與管理。分析型數據分析處理所需的綜合性數據,是面向企業管理人員的決策需要的。7操作型/分析型數據(2/2)8特 性操 作 型 數 據(DB)分 析 型 數 據(DW)定位面向應用的事務處理面向主題的數據分析DB設計E-R模型星型/雪花模型,數據立方體數據當前的、最新的歷史的,具有時間跨度匯總原始的,細節

4、的集成的,一致的視圖詳細的,關系的總體的,多維的操作類型讀/寫(可變的)讀(穩定的)存取請求可預知的事先未知的訪問記錄一次操作少量記錄一次操作大量記錄DB規模100MB GBTB工作單位短的,簡單事務復雜查詢性能要求對性能要求高對性能要求較寬松信息系統的發展歷史(1/2)9事務處理系統(TPS)數 據 庫管理信息系統(MIS)統 計 報 表主管信息系統(EIS)外 部 數 據決策支持系統(DSS)算 法OLAP/DM數據倉庫信息系統的發展歷史(2/2)1090年代之前90年代之后數據庫方式數據倉庫方式數據與應用分離,以實現數據高度共享、支持日常業務處理過程為目的(OLTP)以支持經營管理過程中

5、的決策制定為目的(DSS,OLAP, DM)決策支持系統決策支持系統是上世紀70年代興起的一種計算機應用技術,用于幫助企業領導作輔助性決策。傳統的決策支持系統由三個組成部分數據算法與模型展示11展 示模 型 庫數 據 庫方 法 庫事務處理環境和分析處理(1/2)數據庫技術一直力圖使自己能夠勝任從事務處理、批處理到分析處理的各種類型的處理任務為了進行分析型數據的處理,人們在關系數據庫中放寬了對冗余的限制,引入了統計及綜合數據,在事務處理環境下建立了傳統的DSS12事務處理環境和分析處理(2/2)作為數據管理手段的數據庫技術盡管在事務處理方面取得了巨大的成功,但它對分析處理的支持卻一直不能令人滿意

6、。統計、綜合數據的應用邏輯卻是分散雜亂的、非系統化的,因此分析功能有限,不靈活,響應慢,維護困難。以業務處理為主的OLTP和分析處理為主的DSS應用,在同一個數據庫系統中有明顯沖突。數據只為職員服務,不為老板服務。13事務處理環境不適宜.的原因在傳統的以數據庫為核心的事務處理環境中不適宜建立DSS等分析型應用,其原因主要有以下六條:事務處理和分析處理的性能特性不同數據集成問題數據的動態集成問題歷史數據問題數據的綜合問題數據的訪問問題141. 性能特性不同事務處理用戶每次操作處理的時間短,存取數據量小,但操作頻率高,并發程度大允許多個用戶按分時方式使用資源分析處理每次分析可能需要連續運行很長的時

7、間,存取數據量大,但很少做這樣的分析處理,也沒有并發執行的要求占用大量的資源152.數據集成問題(1/3)分析處理全面而正確的數據是有效的分析和決策的首要前提DSS需要集成的數據,包括整個企業內部各部門的相關數據,以及企業外部、競爭對手等處的相關數據因此,用于分析處理的數據可能來自多種不同的數據源:同構/異構數據庫文件系統Internet外部的用戶數據162.數據集成問題(2/3)事務處理一般只需要與本部門業務有關的當前細節數據,而對整個企業范圍內的集成應用考慮很少,這就造成大部分企業內部的數據是分散而非集成的事務處理應用的分散性“蜘蛛網”問題數據不一致問題數據類型、單位的不一致性同名異義、同

8、義異名現象因數據的重復抽取而帶來的數據不一致性缺少分析所需要的外部、非結構化數據172.數據集成問題(3/3)對于需要集成數據的DSS應用來說,在應用程序中對事務處理環境中的這些紛繁復雜的數據進行集成將帶來下述問題:大大加重程序員的負擔重復計算極低的分析處理效率183. 數據的動態集成問題靜態集成對所需數據進行一次集成,以后就不再發生變化動態集成對集成后的數據進行周期性刷新在采用靜態集成策略時,如果數據源中的數據發生了變化,那么這些變化就不能反映給決策者,導致決策使用的是過時的數據。因此集成數據必須以一定的周期進行刷新(即采用動態集成策略),但傳統的事務處理環境并不具備動態集成的能力194.

9、歷史數據問題(1/2)事務處理一般只需要當前數據,在數據庫中一般也只存儲短期數據 (3-6個月),且不同數據的保存期限也不一樣數據庫中的過時數據(即歷史數據)雖然也能通過數據轉儲等方式保存下來,但往往被束之高閣,未能得到充分利用分析處理更看重歷史數據 (5-10年),可以通過對大量歷史數據的詳細分析來把握企業的發展趨勢歷史數據對于事務處理作用不大,但對于決策分析而言,如果沒有歷史數據的支撐,就變成了“無源之水”、“無本之木”204. 歷史數據問題(2/2)215. 數據的綜合問題事務處理需要的是當前的細節性操作數據,而分析處理需要的往往是大量的總結性分析型數據事務處理系統中積累的是大量的細節數

10、據,而分析處理并不對這些細節數據進行分析,其原因是:細節數據量太大,影響處理效率不利于分析人員將注意力集中于有用的信息上這就是常說的數據庫中“數據豐富、信息貧困”現象因此,在分析前往往需要對細節數據進行不同程度的綜合,傳統的事務處理系統不具備這種綜合能力,而且在數據庫系統中,這種綜合還往往因為是一種數據冗余而被限制226. 數據的訪問問題事務處理需要提供多種不同類型的數據訪問操作對于需要修改的數據必須實時“更新”數據庫分析處理數據的訪問操作以“讀”操作為主不需要實時的“更新”操作,但需要定時“刷新”23綜上所述在事務處理環境中直接構建分析處理應用是不合適的,要提高分析處理和決策支持的效率和有效

11、性,必須將分析型處理及其所需的綜合性分析數據從傳統的事務型處理和細節性操作數據中分離出來按照分析型處理的需要重新進行組織,建立單獨的分析處理環境數據倉庫正是為建立這種新的分析處理環境而出現的一種數據存儲和組織技術24數據倉庫出現的原因將數據倉庫與操作型數據庫分離開來,從而:提高兩個系統的性能提高操作型數據庫的事務吞吐量兩個系統中數據的結構、內容和用法的不同建立數據倉庫的目的并不是要代替傳統的事務處理系統/數據庫,而是為了適應因市場商業經營行為的改變和市場競爭程度的加劇而進行的分析型處理的需要數據倉庫技術正成為企業信息集成和輔助決策應用的關鍵技術之一25數據倉庫從數據庫到數據倉庫數據倉庫及其四大

12、特征數據倉庫的基本結構數據集市與數據倉庫數據倉庫的應用26數據倉庫W.H.Inmon 在建立數據倉庫一書中,對數據倉庫的定義為:數據倉庫就是一個面向主題的、集成的、非易失的(穩定的)、時變的(隨時間不斷變化的)數據集合,用于支持經營管理過程中的決策制定Tim.Shelter(Informix公司負責研究與開發的副總裁)數據倉庫將分布在企業網絡中不同信息島上的商業數據集成到一起,存貯在一個單一的集成關系型數據庫中。利用這種集成信息,可方便用戶對信息的訪問,更可使決策人員對一段時間內的歷史數據進行分析,研究事物發展走勢27數據倉庫的特征面向主題集成非易失(穩定的)時變的(隨時間不斷變化)281.

13、面向主題(1/15)面向應用的數據組織(數據庫)29采購子系統:訂單(訂單號,供應商號,總金額,日期)訂單細則(訂單號,商品號,類別,單價,數量)供應商(供應商號,供應商名,地址,電話)銷售子系統:顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話)銷售(員工號,顧客號,商品號,數量,單價,日期)1. 面向主題(2/15)30庫存管理子系統:領料單(領料單號,領料人,商品號,數量,日期)進料單(進料單號,訂單號,進料人,收料人,日期)庫存(商品號,庫房號,庫存量,日期)庫房(庫房號,倉庫管理員,地點,庫存商品描述)人事管理子系統:員工(員工號,姓名,性別,年齡,文化程度,部門號)部門(部門號

14、,部門名稱,部門主管,電話)面向應用的數據組織(數據庫)1. 面向主題(3/15)面向應用的數據組織特點表達數據流程和業務中的單據或文檔對應邏輯、數據不完全分離和部門、組織相關面向應用的數據組織基本上是按照企業內部的業務活動及其需要的相關數據來組織數據的存儲的,雖然能夠方便高效的支持OLTP,但沒有實現真正的數據與應用分離,其抽象程度也不夠高311. 面向主題(4/15)主題(Subject)主題是較高層次上將企業信息系統中的數據綜合、歸類并進行分析利用的抽象。在邏輯意義上,是對應企業中某一宏觀分析領域涉及的分析對象例如:CRM,客戶關系管理優質客戶的挖掘新客戶的發現ERP,企業資源計劃銷售管

15、理產品質量控制庫存管理321. 面向主題(5/15)面向主題面向主題是指數據倉庫內的信息是按主題進行組織的,為按主題進行決策的過程提供信息傳統數據庫中的數據是原始、基礎數據而特定分析領域數據則是需要對它們作必要的抽取、加工與總結而形成數據倉庫是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個用戶的要求也會隨時間而經常變化,因此,數據倉庫中的主題有時會因用戶主觀要求的變化而變化331. 面向主題(6/15)如果按照面向主題的方式進行數據組織,首先應該抽取主題,即按照管理人員的分析要求來確定主題,而與每個主題相關的數據又與有關的事務處理所需的數據不盡相同。在該例中,我們可以抽取出三個

16、不同的主題(即分析對象)及其相關的數據:商品供應商顧客341. 面向主題(7/15)主題一:商品商品固有信息商品號,商品名,類別,顏色等商品采購信息商品號,供應商號,供應價,供應日期,供應量等商品銷售信息商品號,顧客號,售價,銷售日期,銷售量等商品庫存信息商品號,庫房號,庫存量,日期等351. 面向主題(8/15)主題二:供應商供應商固有信息供應商號,供應商名,地址,電話等供應商品信息供應商號,商品號,供應價,供應日期,供應量等主題三:顧客顧客固有信息顧客號,顧客名,性別,年齡,文化程度,住址,電話等顧客購物信息顧客號,商品號,售價,購買日期,購買量等361. 面向主題(9/15)在每個主題中

17、,都包含了有關該主題的所有信息,同時又拋棄了與分析處理無關或不需要的數據,從而將原本分散在各個操作性處理系統中的有關信息集中在一個主題中,形成有關該主題的一個完整一致的描述面向主題的數據組織方式所強調的就是要形成一個這樣一致的信息集合37商品固有信息庫存信息銷售信息采購信息面向主題的數據組織方法1. 面向主題(10/15)不同的主題之間也有重疊的內容,但這種重疊的特點是:是邏輯上的,而不是物理存儲上的重疊是部分細節的重疊,而不是統計信息的重疊可以反映不同主題之間的直接和間接的聯系38商 品供應商顧 客主題之間的重疊關系示意圖1. 面向主題(11/15)每個主題所需數據的物理存儲:多維數據庫(M

18、DDB,Multi-Dimensional Database)用多維數組形式存儲數據關系數據庫用一組關系來組織數據的存儲,同一主題的一組關系都有一個公共的關鍵字在關系中存放的不是細節性的業務數據,而是經過一定程度的綜合形成的綜合性數據這是目前實現數據倉庫中數據的物理存儲的常用方法391. 面向主題(12/15)以“商品”這個主題為例,其公共碼鍵是“商品號”,其關系存儲如下:商品的固有信息細節數據商品表(商品號,商品名,類型,顏色,)綜合數據商品表1(商品類別,商品顏色)商品表2(價格,商品種類)401. 面向主題(13/15)采購信息細節數據采購表(商品號,供應商號,供應日期,供應價,)綜合數據:根據不同的時間段(月、季度、年)來統計商品的采購總量采購表H1(商品號,時間段1,采購總量,)采購表Hn(商品號,時間段n,采購總量,)411. 面向主題(14/15)銷售信息細節數據銷售表(商品號,顧客號,銷售日期,售價,銷售量,)綜合數據:根據不同的時間段(日、周、月、年)統計得到的銷售總量銷售表1(商品號,時間段1,銷售總量,)銷售表n(商品號,時間段n,銷售總量,)421. 面向主題(15/15)庫存信息細節數據庫存表(商品號,庫房號,庫存量,日期,)綜合數據:根據不同的時間點抽樣得到的商品庫存數量庫存表1(商品號,庫房號,庫存量,星期,)庫存表n(商品號,庫房號

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論