《維度建模方法》PPT課件.ppt_第1頁
《維度建模方法》PPT課件.ppt_第2頁
《維度建模方法》PPT課件.ppt_第3頁
《維度建模方法》PPT課件.ppt_第4頁
《維度建模方法》PPT課件.ppt_第5頁
已閱讀5頁,還剩72頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫中的元數據,元數據:關于數據的數據; 描述數據結構、內容、碼、索引等信息。 元數據的重要性 元數據的內容,元數據的重要性,管理人員做分析時,往往先從元數據入手。 例如:從元數據中查廣義索引,再進一步搜索 支持數據轉換:DB環境的數據DW環境的數據元數據描述“轉換”;元數據本身具有良好的靈活性,適應變化。 例如:不同時期,數據結構是變化的 支持對數據倉庫中數據的理解 例如:結構、粒度層次、分片策略、索引等,元數據的分類,技術元數據 是數據倉庫的設計和管理人員用于開發和日常管理數據倉庫是用的數據。包括:數據源信息;數據轉換的描述;數據倉庫內對象和數據結構的定義;數據清理和數據更新時用的規則;源數據到目的數據的映射;用戶訪問權限,數據備份歷史記錄,數據導入歷史記錄,信息發布歷史記錄等。 商業元數據 從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述,包含的數據、查詢、報表;業務的關注點,比如銷售量,客戶購買情況,維度建模方法,維度建模,維度建模的相關概念 維度建模的基本步驟,多維數據模型,直觀的表示現實中的復雜關系 基本組成 維 度量(變量、指標) 立方體,Example:,計算每一個商場,每一產品銷售額,產品、商場交叉表,聯機分析(OLAP)維度模型,多維數據模型的組成,維(Dimension) 維層次路徑、維層次、維成員(維實例)、維層次屬性 事實(Fact) 度量(Measure) 數據立方體(Cube),維,維:對數據進行分類的一種結構,以用于從特定的角度觀察數據。(例如:時間、地區、產品) 維的兩個用途 選擇針對期望詳細程度的層次的數據 分組對細節數據綜合(聚集)到相應的詳細程度的數據層次,維,維的組織方式:維層次路徑(HIERARCHY ) 維層次路徑由代表不同詳細程度的維層次(Level)組成。 維的層次:特定角度的不同細節程度,維層級,層級是維度屬性組內屬性之間的兩級或多級結構。高一級的屬性(組)構成的維度完全包含低一級的一個或多個屬性(組)構成的維度。,事實(度量),度量(指標):數據的實際意義,一般是一個數值度量指標 例如:銷售量、銷售額, 而具體數據(如“10000”)是變量的一個值 事實: 存儲一個多維數據 表達期望分析的主題(目的、感興趣的事情、事件或者指標等) 具有一定的粒度,粒度的大小與維層次相關 一個事實中通常包含一個或者多個度量 一個度量的兩個組件 數字型指標 聚集函數,立方體(CUBE),按照一定維層次結構和度量(事實)的邏輯上的組織 其邏輯上相當于一個多維數組,多維數組,多維數組: 一個多維數組表示為: (維1 ,維2 ,.,維n,變量) 例如: (時間、地區、銷售渠道、銷售額) 可擴展維數:如 (時間、地區、銷售渠道、商品類型、銷售額),數據單元(Cell),數據單元(單元格):多維數組的取值 可表示為: (維1維成員,維2維成員,.,維n維成員,變量的值) 例如: (1997年1月,北京,批發,10000),多維分析,多維的切片(slice) 從多維數組選定一個二維子集,切出一個“平面” 多維的切塊(dice) 從多維數組選定一個三維子集,切出一個“立方體”,切片,切片和切塊,多維分析,旋轉 改變一個報告(或頁面)顯示的維方向,旋轉,鉆取 根據維層次,改變數據的粒度 “上卷” (roll_up)是指沿某一個維的概念分層向上歸約 ; “下鉆” (drill_down)是上卷的逆向操作,它是沿某一個維的概念分層向下或引入新的維來實現;,其它OLAP操作 “鉆過”(Drill Across)是指對多個事實表進行查詢; “鉆透”(Drill Through)是指對立方體操作時,利用數據庫關系,鉆透立方體的底層,進入后端的關系表。 OLAP的其它操作還有統計表中最高值和最低值的項數,計算平均值、增長率、利潤、投資回報率等統計計算。,多維數據模型的實現,Relational OLAP (ROLAP)(關系數據庫) 利用關系數據庫來存儲和管理基本數據和聚合數據,并利用一些中間件來支持缺失數據的處理,具有良好的可擴展性 Multidimensional OLAP (MOLAP) 利用多維數據庫來存放和管理基本數據和聚合數據,其中需要對稀疏矩陣處理技術 對預綜合的數據進行快速索引 Hybrid OLAP (HOLAP) 利用關系數據庫來存儲和管理基本數據,利用多維數據庫來存儲和管理聚合數據。,多維數據的組織存放(細節數據),關系數據庫中的數據組織,多維數據庫中的數據組織,MDB方法的優點(細節數據),清晰簡明,占用存儲少 性能好,尤其像“冰箱銷售總量是多少?”的查詢 RDB方法:找出有關“冰箱”的記錄,再對銷售 MDB方法:找到有關“冰箱”的行,按行求和,多維數據的組織存放(綜合數據),RDB中數據組織,MDB中數據組織,MDB方法的優點(綜合數據),多維概念表達清晰,占用存儲少 對數據進行綜合的速度快(只需按行/列累加) 在RDB中,“總和”作為某個域上的取值(屬性 值)與列定義語義不符,用關系結構表示多維數據,關系數據庫使用廣泛,相當成熟 用二維表表達多維概念 用兩類表來表示多維結構: 事實表,維表 事實(fact)表 用來存儲變量值和各維的碼值 維表 用來存儲維的描述信息(元數據),包括層次和類等,維度模型,一種非規范化的關系模型 由一組屬性構成的表所組成 表與表之間的關系通過關鍵字和外鍵來定義 以良好的可理解性和方便的產生報表來進行組織,很少考慮修改的性能 通過MDX或相關的工具實現數據的查詢和維護,E-R模型和維度模型,星形模型,Fact Table,每一個事實表通常包含了處理所關心的一系列的度量值 每一個事實表的行包括 具有可加性的數值型的度量值 與維表相連接的外鍵,事實表(fact table),事實表討論,假設,以上案例中marketing campaign 維有8個成員,year維度有6個成員,product type維度有4個成員,sales region維有4個成員, buyers age維有6個成員,事實表中的記錄數可達到: 8 6 4 4 6 or 4608 rows in the SalesFact table. 度量組(measure group),事實表的特征 非常大 列數較少 經常發生(數據追加)變化 事實表的使用 各類度量值的聚集計算,Dimension Table,每一張維表對應現實世界中的一個對象或者概念 例如:客戶、產品、日期、地區 維表的特征 包含了眾多描述性的列 通常情況下,跟事實表相比,行數相對較少 內容相對固定,維表的應用 基于維屬性的過濾(切片、切塊等) 基于維屬性的個中聚集操作(上卷、下鉆) 報表中各類標簽的主要來源 事實表通過維表進行應用,Snowflake Schema Model,Time Table Week_id Period_id Year_id,Dept Table Dept_id Dept_desc Mgr_id,Mgr Table Dept_id Mgr_id Mgr_name,Product Table Product_id Product_desc,Item Table Item_id Item_desc Dept_id,Sales Fact Table Item_id Store_id Product_id Week_id Sales_amount Sales_units,Store Table Store_id Store_desc District_id,District Table District_id District_desc,慢變維(SCD),相對與事實表,維表的內容穩定 新的事務或交易不斷產生 新產品的加入卻相對較少 新商場的開張更少 有些維度內容盡管變化相當緩慢,但維度屬性可能隨著時間發生變化 客戶地址發生變化 商場根據地域進行分組,或者由于企業重組,地域的劃分也隨之改變,數據倉庫的生成,(Extract)數據的抽取 (Transform)數據的轉換 (Clean)數據的清洗 (Load)數據的裝載,數據抽取、轉換和加載 (ETL),“Effective data extract, transform and load (ETL) processes represent the number one success factor for your data warehouse project and can absorb up to 70 percent of the time spent on a typical data warehousing project.” DM Review, March 2001,抽取、轉換和加載(ETL)過程,抽取源數據 轉換/清除數據 索引和相加 加載數據到數據倉庫 檢測修改 更新數據,Operational systems,ETL: 任務、重要性和費用,Operational systems,相關性 實用性 可靠性 準確性 操作性,Data Warehouse,ETL,抽取 清洗 整合 重構 裝載 維持 更新,Warehouse database,抽取數據,Source systems Data from various data sources in various formats Extraction Routines Developed to select data fields from sources Consist of business rules, audit trails, error correction facilities,檢查源數據,產生 歸檔的 內部的 外部的,抽取技術,Programs: C, C+, COBOL, PL/SQL, Java Gateways: transparent database access Tools: In-house developed tools Vendors data extraction tools,抽取方法,Logical Extraction methods: Full Extraction Incremental Extraction Physical Extraction methods: Online Extraction Offline Extraction,抽取工具,轉換,Transformation eliminates anomalies from operational data: Cleans and standardizes Presents subject-oriented data,轉換技術,Merging data Adding a Date Stamp Adding Keys to Data,轉換工具,Third-party tools(第三方工具) SQL*Loader(結構化查詢語句) In-house developed programs(高級語言自己寫程序),加載數據到數據倉庫,Loading moves the data into the warehouse Loading can be time-consuming: Consider the load window Schedule and automate the loading Initial load moves large volumes of data Subsequent refresh moves smaller volumes of data,加載技術,Tools(工具) Customized copy programs FTP Manual,數據倉庫的使用和維護,DSS應用開發的步驟,數據倉庫的使用及維護,理解需求、完善系統 增加主題(如:在商場DW中增加“顧客”主題) 調整粒度層次 增加屬性(如對“商品”主題增加“商品檔次”屬性) DW維護 數據裝入(刷新當前詳細數據,將過時數據轉化為歷史數據) 清除不再使用的數據 追加數據(確定刷新頻率) 管理元數據,Inmon提出的設計步驟,Data Marts,數據倉庫(事實和匯總)數據的一個子集。 BI環境中的大部分分析活動均在數據集市中進行。每個數據集市中的數據通常是為特定的功能(或部門)所定制,不必對其他的使用有效。,Data Warehouses Versus Data Marts,Dependent Data Mart,Independent Data Mart,Sales or Marketing,External Data,案例分析,案例背景,經過三年快速的增長,MAXMIN公司的業務增長了300%,基于原有信息系統的報表系統只能提供細節型的信息,并且難以提供多種視角的靈活分析方式。 同時,在同產品領域的競爭非常激烈,公司為了應對競爭需要進行有效的決策,而現有現有系統架構下難以滿足。 基于以上兩點,公司決定開發一種真正的商務智能系統。,當前系統,業務需求,基于每天、每臺機器、每種產品、每一批次的合格品數量 基于每天、每臺機器、每種產品、每一批次的次品數量 基于每天、每臺機器、每種產品、每一批次的注塑和固化時間 基于每天、每臺機器、每種產品、每一批次的處理和噴繪時間 產品能夠按照產品子類別、產品類別進行上卷和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論