




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據倉庫與數據立方體Contents數據倉庫背景及定義01數據倉庫系統架構02數據立方體03OLAP0405本章小結數據倉庫產生的背景數據的一項重要作用是為管理決策人員提供幫助,通過對數據進行整合、清洗和分析,管理人員能夠得到更準確、更全面的信息支持,從而做出更具前瞻性和決策性的選擇。一種直接的想法是利用數據庫進行統計分析,形成如圖3-1所示的自然演化的體系架構。數據倉庫產生的背景自然演化的體系架構主要存在以下缺陷:缺乏統一的數據來源缺乏統一的時間基準數據口徑差異數據獲取效率低數據集成時間長看懂數據困難以及數據加工速度慢數據倉庫概念的提出為了應對這些問題,提出了數據倉庫的概念。與“分散式管理”的自然演化體系架構不同,數據倉庫是一種“中央集中式管理”的數據架構。這種管理架構會對數據統一進行清洗、整合和建模,使得數據變得更加一致、準確和可信,消除不同數據源之間的口徑差異,提高數據一致性和質量。數據倉庫的定義數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程。
面向主題的(subject-oriented):數據倉庫的構建通常圍繞的是一些比較重要的主題而構建,例如產品、客戶或銷售等。集成的(integrated):數據倉庫中的數據是在對原有分散的數據庫進行數據抽取、清理的基礎上經過系統加工、匯總和整理得到的時變的(time-variant):數據倉庫可以保存過去的數據,并且可以顯示數據隨著時間的推移而發生的變化。非易失的(nonvolatile):數據倉庫的非易失性意味著數據在數據倉庫中是安全的、不容易丟失的。數據倉庫與數據庫之間的區別數據庫與數據倉庫的區別,在本質上就是在線事務處理(OLTP)和在線分析處理(OLAP)的區別Contents數據倉庫背景及定義01數據倉庫系統架構02數據立方體03OLAP0405本章小結基本架構介紹每個數據倉庫系統的核心都有三個主要的組件,分別是:數據來源、提取-加載-轉換(ELT)過程以及數據倉庫本身。大部分數據倉庫系統還有數據應用部分數據倉庫系統分層意義數據倉庫系統的分層模式是一種在數據倉庫設計中常用的組織模式,通過將數據按照不同的層級進行劃分和管理,以實現更高效、更靈活的數據處理和利用。數據倉庫系統的分層模式主要具備以下幾點作用:分層模式使得數據組織結構更清晰提供數據血緣追蹤功能減少重復開發簡化復雜的問題減少業務的影響數據倉庫分層介紹從數據倉庫的基本架構圖中可以看到,數據倉庫包含了多個層級,其中每個層級都有著其特定的功能和處理原則。下面依次介紹數據倉庫各層級的用途和處理原則
原始數據層(OperationalDataStore)是數據倉庫中的一個重要組成部分,它用于存儲從各個業務系統中提取的、經過簡單清洗和整合后的原始數據。原始數據層通常是數據倉庫架構中的第一層,也是與業務系統交互的接口。數據倉庫分層介紹數據明細層(DataWarehouseDetail)中的數據是原始數據層數據經過清洗、轉換后得到的明細數據,保留了數據加載過程中的全部信息。同時包含了各種維度表和事實表,可以支持復雜的查詢和分析需求。此外還保留了歷史數據,能夠支持時間上的溯源和趨勢分析。該層中的數據質量較高,經過清洗、轉換、整合等處理,確保數據準確性和一致性。數據倉庫分層介紹數據匯總層(DataWarehouseSummary)通常用于存儲經過清洗、轉換和集成后的數據。這一層位于數據倉庫的核心位置,主要負責將來自數據源的數據進行整合,并提供給決策支持系統和業務智能應用程序使用。數據倉庫分層介紹數據應用層(ApplicationDataStore)是根據業務需要,由數據明細層、數據匯總層數據統計而出的結果,該層旨在為數據分析和報表生成等工作提供高性能的數據查詢和訪問能力,以支持業務決策和報告需求。該層與數據應用部分結合之后,可以為用戶提供靈活的數據查詢和分析功能,支持用戶通過圖表、報表等形式直觀地分析數據,使用戶能夠根據自身需求快速獲取所需數據,并進行多維分析、數據挖掘等操作。Contents數據倉庫背景及定義01數據倉庫系統架構02數據立方體03OLAP0405本章小結數據立方體的基本概念數據立方體是一種多維數據集合,通常用于存儲和分析數據倉庫中的大量數據。它由一個或多個維度和度量組成,維度表示數據的屬性或者類別,度量則表示要分析的數據指標。通過將數據按照不同維度組織,可以形成一個多維數據集合,這種數據結構就是數據立方體。數據立方體的基本概念需要注意的是,盡管人們經常把數據立方體看作三維幾何結構,但是在數據倉庫中,數據立方體是N維的,而不限于三維。數據立方體主要具備以下特點:1)多維性:數據立方體是一個多維數據集合,可以包含多個維度和度量,從而更全面地描述數據。2)預計算:為了提高查詢效率,數據立方體通常會事先計算并存儲聚合數據,而不是每次查詢時都重新計算。3)快速響應:由于預計算的結果,數據立方體可以快速響應用戶的查詢請求,提高數據分析的效率。4)易于理解:通過數據立方體,用戶可以直觀地理解數據之間的關系,進行交互式分析和探索。數據立方體的基本概念二維數據立方體四維數據立方體三維數據立方體數據立方體的組成元素數據立方體的組成元素主要包括維度、度量、層次、聚集、維度表和事實表等1)維度(Dimensions):維度是數據立方體中用于對數據進行分類和分組的屬性或者特征。2)度量(Measures):度量是數據立方體中需要進行分析和計算的指標或數值,用來衡量業務績效或者其他關鍵性能指標。3)層次(Hierarchies):層次定義了維度之間的父子關系,描述了維度值之間的層級結構。4)聚集(Aggregates):聚集是預先計算并存儲在數據立方體中的匯總數據,例如總銷售額、平均利潤等。5)維度表(DimensionTables):維度表是包含維度屬性信息的表格,用于描述維度的具體內容和特征。6)事實表(FactTable):事實表是包含度量信息的表格,用于存儲需要分析的數值型數據。多維數據模型的模式多維數據模型的模式定義了數據在多個維度上的組織結構和關聯關系。目前最流行的數據倉庫數據模型是多維數據模型,包括星形模式、雪花模式和事實星座模式等星形模式(starschema):星型模式是數據倉庫中最常用的多維數據模型之一,它采用星型結構來組織數據。在星型模式中,中心是一個事實表(FactTable),周圍圍繞著多個維度表(DimensionTables),構成了一個星型的結構。多維數據模型的模式多維數據模型的模式定義了數據在多個維度上的組織結構和關聯關系。目前最流行的數據倉庫數據模型是多維數據模型,包括星形模式、雪花模式和事實星座模式等雪花模式(snowflakeschema):雪花模式是一種數據倉庫多維數據模型設計結構,是在星型模式的基礎上發展而來的設計模式。在雪花模式中,維度表被進一步規范化,因此比星型模式具有更復雜的結構,其組成要素包括事實表、維度表和規范化維度表。多維數據模型的模式多維數據模型的模式定義了數據在多個維度上的組織結構和關聯關系。目前最流行的數據倉庫數據模型是多維數據模型,包括星形模式、雪花模式和事實星座模式等事實星座模式(factconstellation):復雜的應用可能需要多個事實表共享維表。這種模式可以看做星形模式的匯集,因此稱做星系模式(galaxyschema)或事實星座。事實星座模式支持復雜的數據關系和多變的數據分析需求,適用于需要處理多種不同業務過程和度量的場景。事實星座的組成要素包括多個事實表、多個維度表和事實表之間的聯系。Contents數據倉庫背景及定義01數據倉庫系統架構02數據立方體03OLAP0405本章小結OLAP概念在線分析處理OLAP,是一種用于快速分析、探索和匯總多維數據的計算技術。OLAP技術是基于數據倉庫中數據立方體的操作,旨在幫助用戶進行復雜的數據分析和提供決策支持,OLAP的核心特點如下:多維性:OLAP能夠處理多維數據,允許用戶以不同的角度(維度)對數據進行分析,支持多維數據切片和切塊操作。實時分析:OLAP技術支持用戶對數據進行即時的、動態的分析,用戶可以隨時根據需要進行數據探索和交互式查詢。聯機:OLAP能夠直接連接到數據倉庫或數據源,具有快速響應用戶查詢的特點,以便用戶可以實時獲取數據分析結果。分析功能:OLAP提供強大的分析功能,如數據的上卷、下鉆、轉軸、切片和切塊等方法,幫助用戶深入分析數據OLAP的基本操作OLAP依托于多維數據模型,定義了一系列專門針對數據分析的基本操作類型,主要包括:上卷(Roll-up)、下鉆(Drill-down)、切片(Slice)、切塊(Dice)以及轉軸(Pivot)。通過這些基本操作的組合使用,用戶可以很方便的在數據倉庫中完成對數據的處理和分析OLAP的基本操作上卷(roll-up):上卷操作是將數據從較低層次的維度匯總到較高層次的維度,減少數據的細節,以獲得總體性的視圖。下圖顯示了在維location上對中心立方體執行上卷操作的結果。所展示的上卷操作沿location的分層,由city層向上到country層聚集數據。OLAP的基本操作下鉆(drill-down):下鉆操作是在匯總數據的基礎上,查看較低層次的細節數據,以便深入了解具體細節。下圖顯示沿著“day<month<quarter<year”定義的time維的概念分層向下,在中心立方體執行下鉆操作的結果。這里下鉆由time維的分層結構向下,從quarter層到更詳細的month層。OLAP的基本操作切片(slice):切片是選取多維數據集中的一個子集,即在某個固定維度上進行數據的篩選和分析。下圖表示了一個切片操作,它對中心立方體使用條件time=“Q1”對維time選擇銷售數據。OLAP的基本操作切塊(dice):切塊是在多維數據集中選擇兩個或多個維度的交叉區塊(subset),對其進行分析和比較。下圖表示了一個切塊操作,它涉及三個維,根據如下條件對中心立方體切塊:(location=“南京”or“武漢”)and(time=“Q1”or“Q2”)and(item=“日常用品”or“飲料”)。OLAP的基本操作轉軸(pivot):轉軸操作是改變多維數據立方體中的視角,重新排列維度的位置以獲得新的數據觀察角度。下圖顯示了一個轉軸操作,其中item和location軸在一個2-D切片上轉動。OLAP系統的實現分類常見的OLAP系統可以分為以下三類::多維聯機實時分析系統(MOLAP),關系型聯機實時分析系統(ROLAP),混合型聯機實時分析系統(HOLAP)MOLAP通過基于數組的多維存儲引擎,支持數據的多維視圖。它們將多維視圖直接映射到數據立方體數組結構。典型的MOLAP框架如下圖所示。MOLAP中的數據來自數據倉庫或者來自存儲在多維立方體中的操作型數據源。底層數據的復雜性對于MOLAP工具的使用者是隱藏的。OLAP系統的實現分類常見的OLAP系統可以分為以下三類::多維聯機實時分析系統(MOLAP),關系型聯機實時分析系統(ROLAP),混合型聯機實時分析系統(HOLAP)ROLAP介于關系型數據庫(后端)和客戶前端工具之間。它們使用關系的或擴充關系的數據庫管理系統存儲并管理數據倉庫數據,而OLAP中間件支持其余部分。典型的ROLAP框架的高層視圖如圖3-17所示。ROLAP工具也提供本章之前描述的常用OLAP功能。ROLAP服務將查詢轉換成SQL語句,SQL語句被發送到由關系型數據庫支持的數據倉庫中。關系型數據庫執行查詢,并將查詢的結果集合發送到ROLAP服務器上,最終交給OLAP/BI工具終端用戶。OLAP系統的實現分類常見的OLAP系統可以分為以下三類::多維聯機實時分析系統(MOLAP),關系型聯機實時分析系統(ROLAP),混合型聯機實時分析系統(HOLAP)混合OLAP方法結合ROLAP和MOLAP技術,得益于ROLAP較大的可伸縮性和MOLAP的快速計算,使得其既能處理大規模數據,又能提供快速查詢性能。HOLAP在數據存儲和查詢時能夠根據需求自動選擇合適的存儲方式,既可以利用多維數據立方體進行快速查詢,也可以利用關系型數據庫支持復雜查詢。Contents數據倉庫背景及定義01數據倉庫系統架構02數據立方體03OLAP0405本章小結本章小結數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,用于支持管理決策。數據倉庫的產生背景主要是由于企業需要更好地管理和分析海量數據以支持決策,而傳統的數據庫系統無法滿足復雜的分析需求。數據倉庫核心組件包括數據來源、ELT、數據倉庫和數據應用等。數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030鄉村旅游產業規劃專項研究報告
- 2025-2030中國龜糧行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國高端白酒行業市場深度調研及競爭格局與投資前景研究報告
- 2025-2030中國高清錄像機行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國餐飲服務產品行業市場發展趨勢與前景展望戰略研究報告
- 滾動軸承疲勞壽命預測模型-全面剖析
- 2025-2030中國阿爾蘭行業市場發展趨勢與前景展望戰略研究報告
- 客戶旅程全維度管理研究-全面剖析
- 活動布置規劃流程
- 新學期大班個人工作計劃(29篇)
- 2023年鄭州黃河文化旅游發展有限公司招聘考試真題
- 重大火災隱患判定方法
- 中國發作性睡病診斷與治療指南(2022版)
- 2023-2024學年北京市通州區高一下學期期中物理試卷(解析版)
- (完整版)設備吊裝施工方案
- 重慶市高2025屆高三第二次質量檢測 數學試卷(含答案)
- 無人機創客實驗室方案
- 2024年四川省樂山市中考地理·生物合卷試卷真題(含答案)
- JT-T-155-2021汽車舉升機行業標準
- QCT457-2023救護車技術規范
- 2024年河南農業職業學院單招職業適應性測試題庫各版本
評論
0/150
提交評論