數(shù)據(jù)倉庫原理與實(shí)踐 課件 第3章 數(shù)據(jù)倉庫設(shè)計(jì)_第1頁
數(shù)據(jù)倉庫原理與實(shí)踐 課件 第3章 數(shù)據(jù)倉庫設(shè)計(jì)_第2頁
數(shù)據(jù)倉庫原理與實(shí)踐 課件 第3章 數(shù)據(jù)倉庫設(shè)計(jì)_第3頁
數(shù)據(jù)倉庫原理與實(shí)踐 課件 第3章 數(shù)據(jù)倉庫設(shè)計(jì)_第4頁
數(shù)據(jù)倉庫原理與實(shí)踐 課件 第3章 數(shù)據(jù)倉庫設(shè)計(jì)_第5頁
已閱讀5頁,還剩81頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章數(shù)據(jù)倉庫設(shè)計(jì)1數(shù)據(jù)倉庫設(shè)計(jì)概述2數(shù)據(jù)倉庫需求分析3數(shù)據(jù)倉庫主題與主題域分析4數(shù)據(jù)倉庫邏輯模型設(shè)計(jì)5數(shù)據(jù)倉庫物理模型設(shè)計(jì)6數(shù)據(jù)倉庫的部署與維護(hù)7數(shù)據(jù)倉庫建模設(shè)計(jì)項(xiàng)目實(shí)踐3.1數(shù)據(jù)倉庫設(shè)計(jì)概述以業(yè)務(wù)和需求為中心:是指圍繞業(yè)務(wù)方向性需求、業(yè)務(wù)問題等,確定系統(tǒng)范圍和總體框架。以數(shù)據(jù)來驅(qū)動(dòng):是指其所有數(shù)據(jù)均建立在已有數(shù)據(jù)源基礎(chǔ)上,從已存在于操作型環(huán)境中的數(shù)據(jù)出發(fā)進(jìn)行數(shù)據(jù)倉庫設(shè)計(jì)。3.1.1數(shù)據(jù)倉庫設(shè)計(jì)原則1.先整體再局部的構(gòu)建模式:W.H.Inmon模式優(yōu)點(diǎn):

數(shù)據(jù)規(guī)范化程度高,最小化數(shù)據(jù)冗余與不一致性;便于全局?jǐn)?shù)據(jù)的分析和挖掘。缺點(diǎn):

建設(shè)周期長、見效慢;風(fēng)險(xiǎn)程度相對(duì)大。3.1.2數(shù)據(jù)倉庫構(gòu)建模式2.先局部再整體的構(gòu)建模式:RalphKimball模式優(yōu)點(diǎn):

投資少、見效快;在設(shè)計(jì)上相對(duì)靈活;易于實(shí)現(xiàn)。缺點(diǎn):

會(huì)有一定級(jí)別的冗余和不一致性。3DW設(shè)計(jì)與DB設(shè)計(jì)方法比較(1) 明確用戶的戰(zhàn)略遠(yuǎn)景、業(yè)務(wù)目標(biāo)。(2) 確定建設(shè)數(shù)據(jù)倉庫的目的和目標(biāo)。(3) 定義清楚數(shù)據(jù)倉庫的范圍、優(yōu)先順序、主題和針對(duì)的業(yè)務(wù)。(4) 定義衡量數(shù)據(jù)倉庫成功的要素。(5) 定義精簡的體系結(jié)構(gòu)、使用技術(shù)、配置、容量要求等。(6) 定義操作數(shù)據(jù)和外部數(shù)據(jù)源。(7) 確定建設(shè)所需要的工具。(8) 概要性地定義數(shù)據(jù)獲取和質(zhì)量控制的策略。(9) 數(shù)據(jù)倉庫管理及安全。3.1.3數(shù)據(jù)倉庫規(guī)劃3.1.4數(shù)據(jù)倉庫設(shè)計(jì)過程3.2數(shù)據(jù)倉庫需求分析3.2數(shù)據(jù)倉庫需求分析界定系統(tǒng)邊界全方位了解任務(wù)和環(huán)境,充分理解需求,繪制大致的系統(tǒng)邊界,即數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)的需求分析。要做的決策類型有哪些?決策者感興趣的是什么問題?這些問題需要什么樣的信息?要得到這些信息需要包含原有數(shù)據(jù)庫系統(tǒng)的哪些部分的數(shù)據(jù)?2.1數(shù)據(jù)倉庫需求分析數(shù)據(jù)決策需求調(diào)研業(yè)務(wù)系統(tǒng)及業(yè)務(wù)流程調(diào)研數(shù)據(jù)調(diào)研及明確統(tǒng)計(jì)需求3.2.1數(shù)據(jù)決策需求調(diào)研(1)面向公司領(lǐng)導(dǎo)層,調(diào)研內(nèi)容即為公司需求。(2)面向各個(gè)系統(tǒng)的項(xiàng)目經(jīng)理,調(diào)研內(nèi)容即為部門需求。(3)面向業(yè)務(wù)人員,如查詢用戶、報(bào)表用戶、業(yè)務(wù)系統(tǒng)專家或信息系統(tǒng)人員,調(diào)研內(nèi)容即為項(xiàng)目需求。3.2.2業(yè)務(wù)系統(tǒng)及業(yè)務(wù)流程調(diào)研數(shù)據(jù)倉庫需求分析第一步即要迅速、全面的理解用戶的業(yè)務(wù)及工作流程,界定系統(tǒng)邊界。3.2.3數(shù)據(jù)調(diào)研及明確統(tǒng)計(jì)需求對(duì)業(yè)務(wù)系統(tǒng)及業(yè)務(wù)流程有充分的了解并不意味著就可以實(shí)施數(shù)據(jù)倉庫建設(shè),根據(jù)這些業(yè)務(wù)流程,可以確定數(shù)據(jù)倉庫要收集、整合的數(shù)據(jù)對(duì)象和數(shù)據(jù)流程,并根據(jù)業(yè)務(wù)規(guī)則和業(yè)務(wù)流程進(jìn)行建模。【案例3-1】小型超市企業(yè)數(shù)據(jù)倉庫需求調(diào)研一家采用“會(huì)員制”經(jīng)營方式的小型超市,按業(yè)務(wù)已建立起銷售、采購、庫存管理以及人事管理子系統(tǒng),根據(jù)對(duì)齊業(yè)務(wù)系統(tǒng)及業(yè)務(wù)流程調(diào)研,確定其各業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫表及數(shù)據(jù)字段見表3-1所示。表3-1商場各子系統(tǒng)的數(shù)據(jù)信息3.3數(shù)據(jù)倉庫主題與主題域分析確定主要的主題域及其包含的主題,完成對(duì)一些屬性、主題域公共碼以及主題域之間的聯(lián)系的描述工作,其中的屬性能夠清楚、充分地代表主題。

3.3數(shù)據(jù)倉庫主題與主題域分析

主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)領(lǐng)域,也就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。3.3.1主題設(shè)計(jì)以生產(chǎn)系統(tǒng)為例,可以將整個(gè)業(yè)務(wù)流程中涉及到的生產(chǎn)機(jī)器、工人、工廠、倉庫、經(jīng)銷商、顧客等鏈條中的每個(gè)角色分別建立主題,比如機(jī)器設(shè)備主題、工人主題、倉庫主題、經(jīng)銷商主題、顧客主題等。待到需要對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行實(shí)際分析時(shí),分析人員就可以直接在不同主題數(shù)倉中按照需求自行處理數(shù)據(jù),不需要再去尋找不同來源的數(shù)據(jù)并導(dǎo)入到數(shù)據(jù)倉庫中。面向主題的數(shù)據(jù)組織舉例每個(gè)主題都有該主題的固有信息表(基本信息)及相關(guān)的業(yè)務(wù)信息表。基于一個(gè)主題的所有表都含有一個(gè)稱為公共碼鍵的屬性,作為其主鍵的一部分。例如,若以顧客為主題,則設(shè)計(jì)的相關(guān)主題內(nèi)容的描述如下:3.3.2主題域主題域:通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合,可以根據(jù)業(yè)務(wù)的關(guān)注點(diǎn),將這些數(shù)據(jù)主題劃分到不同的主題域。3.3.3如何劃分主題域及主題主題域劃分思路按業(yè)務(wù)系統(tǒng)劃分按部門劃分按功能(業(yè)務(wù)需求)劃分按行業(yè)案例劃分按業(yè)務(wù)系統(tǒng)劃分因?yàn)榇蟛糠制髽I(yè)都已經(jīng)經(jīng)歷過了信息化建設(shè)或者正處于信息化建設(shè)當(dāng)中,企業(yè)各種業(yè)務(wù)系統(tǒng)都已經(jīng)部署完成,財(cái)務(wù)部門有財(cái)務(wù)系統(tǒng)、銷售部門有銷售系統(tǒng)、生產(chǎn)部門有生產(chǎn)系統(tǒng)、供應(yīng)鏈部門有供應(yīng)鏈系統(tǒng)等,這些不同的業(yè)務(wù)系統(tǒng),因?yàn)橹粫?huì)儲(chǔ)存對(duì)應(yīng)業(yè)務(wù)流程中產(chǎn)生的數(shù)據(jù),下級(jí)數(shù)據(jù)主題都互相緊貼,是天然的主題域,業(yè)務(wù)系統(tǒng)有幾種,就可以劃分為幾種主題域。按部門劃分當(dāng)企業(yè)規(guī)模較小,數(shù)倉團(tuán)隊(duì)管轄的是整個(gè)公司的數(shù)據(jù)時(shí),更可能按照部門進(jìn)行劃分一級(jí)主題,比如最常見的銷售/運(yùn)營/人力/財(cái)務(wù)等部門作為一級(jí)主題域;再結(jié)合部門的業(yè)務(wù)運(yùn)作流程劃分二級(jí)主題域,比如人力主題域會(huì)細(xì)分為招聘/培訓(xùn)/績效/薪酬/人事變動(dòng)等業(yè)務(wù)過程作為二級(jí)主題域;按功能(業(yè)務(wù)需求)劃分很多時(shí)候,企業(yè)需要長期對(duì)某個(gè)方向進(jìn)行分析,因?yàn)檫@個(gè)長期分析的過程涉及到各種主題,會(huì)對(duì)數(shù)據(jù)進(jìn)行細(xì)分、歸納,在這個(gè)過程中,就由需求誕生了主題域。以銷售分析為例,銷售分析涉及到的對(duì)象有客戶、產(chǎn)品、促銷等,其中每一個(gè)分析對(duì)象就是一個(gè)數(shù)據(jù)倉庫主題,而包含歸納這些主題的銷售分析就成為了一個(gè)相應(yīng)的主題域。按行業(yè)案例劃分對(duì)于數(shù)倉建設(shè)應(yīng)用較早的行業(yè),比如電信、金融等,在行業(yè)內(nèi)已經(jīng)形成規(guī)范的主題劃分方案(比如Teradata公司的FS-LDM十大金融主題模型等),面對(duì)數(shù)倉主題劃分的場景時(shí),可參考行業(yè)典型案例來劃分主題即可。如下圖即FS-LDM金融主題模型。【案例3-2】小型超市企業(yè)數(shù)據(jù)倉庫主題及主題域劃分基于【案例3-1】需求調(diào)研,教學(xué)案例的業(yè)務(wù)子系統(tǒng)進(jìn)行如下主題域及主題分析,將主題域劃分為銷售主題域、采購主題域以及存儲(chǔ)主題域。各主題域信息類及數(shù)據(jù)字段見表3-2,主題域結(jié)構(gòu)圖如圖3-10所示。表3-2各主題域信息類及數(shù)據(jù)字段教學(xué)案例:主題域設(shè)計(jì)圖3-10案例主題域結(jié)構(gòu)圖教學(xué)案例:主題設(shè)計(jì)圖3-11案例主題與主題域關(guān)系圖圖3-12案例主題設(shè)計(jì)圖面向主題的數(shù)據(jù)組織3.4數(shù)據(jù)倉庫邏輯模型設(shè)計(jì)3.4.1數(shù)據(jù)倉庫維度建模

RalphKimball,數(shù)據(jù)倉庫方面的知名學(xué)者,畢業(yè)于斯坦福大學(xué)。他創(chuàng)立的維度建模方法論(或Kimball方法論)已經(jīng)成為決策支持領(lǐng)域的金科玉律。該方法非常直觀,緊緊圍繞業(yè)務(wù)模型,不需要經(jīng)過特別的抽象處理,即可完成維度建模。從使用的效率角度考慮,設(shè)計(jì)數(shù)據(jù)倉庫時(shí)要考慮以下因素:(1)盡可能使用星形架構(gòu),如果采用雪花結(jié)構(gòu),還需要進(jìn)一步規(guī)范化維表。(2)維表的設(shè)計(jì)應(yīng)該符合通常意義上的范式約束,維表中不要出現(xiàn)無關(guān)的數(shù)據(jù)。(3)事實(shí)表中包含的數(shù)據(jù)應(yīng)該具有必需的粒度。(4)對(duì)事實(shí)表和維表中的關(guān)鍵字必須創(chuàng)建索引。(5)保證數(shù)據(jù)的引用完整性,避免事實(shí)表中的某些數(shù)據(jù)行在聚集運(yùn)算時(shí)沒有參加進(jìn)來。通過對(duì)主題域進(jìn)行分析,設(shè)計(jì)事實(shí)表與維度表事實(shí)表鍵數(shù)值指標(biāo)由事實(shí)表的主鍵和維表的外鍵組成這些指標(biāo)具有數(shù)值化和可加等特性維度表鍵維屬性由維度表的主鍵維屬性需要?jiǎng)澐志S層次事實(shí)表和維度表設(shè)計(jì)一、維表設(shè)計(jì)1.維表的特征維表用于存放維信息,包括維屬性(列)和維成員。一個(gè)維用一個(gè)維表表示。維表通常具有以下數(shù)據(jù)特征:(1)維通常使用解析過的時(shí)間、名字或地址元素,這樣可以使查詢更靈活。(2)維表通常不使用業(yè)務(wù)數(shù)據(jù)庫的關(guān)鍵字作為主鍵,而是對(duì)每個(gè)維表另外增加一個(gè)額外的字段作為主鍵來識(shí)別維表中的對(duì)象。在維表中新設(shè)定的鍵也稱為代理鍵。(3)維表中可以包含隨時(shí)間變化的字段,當(dāng)數(shù)據(jù)集市或數(shù)據(jù)倉庫的數(shù)據(jù)隨時(shí)間變化而有額外增加或改變時(shí),維表的數(shù)據(jù)行應(yīng)有標(biāo)識(shí)此變化的字段。2.維的類型(1)結(jié)構(gòu)維(2)信息維(3)分區(qū)維(4)分類維(5)一致維(6)父子維3.維表中的概念分層維表中的維一般包含層次關(guān)系,也稱為概念分層,即按照數(shù)據(jù)粒度進(jìn)行層次劃分,如在時(shí)間維上,按照“年份-季度-月份”形成了一個(gè)層次,其中年份、季度、月份成為這個(gè)層次的三個(gè)級(jí)別,粒度從高到低逐層遞減。二、事實(shí)表設(shè)計(jì)1.事實(shí)表的特征事實(shí)表是多維模型的核心,是用來記錄業(yè)務(wù)事實(shí)并做相應(yīng)指標(biāo)統(tǒng)計(jì)的表,同維表相比,事實(shí)表具有如下特征:(1)記錄數(shù)量很多,因此事實(shí)表應(yīng)當(dāng)盡量減小一條記錄的長度,避免事實(shí)表過大而難于管理。(2)事實(shí)表中除度量外,其他字段都是維表或中間表(對(duì)于雪花模式)的關(guān)鍵字(外鍵)。(3)如果事實(shí)相關(guān)的維很多,則事實(shí)表的字段個(gè)數(shù)也會(huì)比較多。2.事實(shí)表的類型1)事務(wù)事實(shí)表選擇業(yè)務(wù)過程→聲明粒度→確認(rèn)維度→確認(rèn)事實(shí)。2)周期快照事實(shí)表確定粒度→確認(rèn)事實(shí)。3)累積快照事實(shí)表選擇業(yè)務(wù)過程→聲明粒度→確認(rèn)維度→確認(rèn)事實(shí)。事務(wù)型事實(shí)表用來記錄各業(yè)務(wù)過程,它保存的是各業(yè)務(wù)過程的原子操作事件,即最細(xì)粒度的操作事件。周期快照事實(shí)表以具有規(guī)律性的、可預(yù)見的時(shí)間間隔來記錄事實(shí),主要用于分析一些存量型(例如商品庫存,賬戶余額)或者狀態(tài)型(空氣溫度,行駛速度)指標(biāo)。累計(jì)快照事實(shí)表是基于一個(gè)業(yè)務(wù)流程中的多個(gè)關(guān)鍵業(yè)務(wù)過程聯(lián)合處理而構(gòu)建的事實(shí)表,如交易流程中的下單、支付、發(fā)貨、確認(rèn)收貨業(yè)務(wù)過程。確定數(shù)據(jù)倉庫的粒度是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)最重要方面。典型的粒度聲明如下:

訂單事實(shí)表中一行數(shù)據(jù)表示的是一個(gè)訂單中的一個(gè)商品項(xiàng)。

支付事實(shí)表中一行數(shù)據(jù)表示的是一個(gè)支付記錄。高細(xì)節(jié)級(jí)-低粒度級(jí)例如:顧客每筆銷售記錄低細(xì)節(jié)級(jí)-高粒度級(jí)例如:顧客每月銷售匯總?cè)粲?萬個(gè)顧客,平均一個(gè)顧客一個(gè)月有10個(gè)銷售記錄,每個(gè)記錄10B,總存儲(chǔ)空間約為1MB若有1萬個(gè)顧客,每個(gè)顧客每月只有一個(gè)匯總銷售記錄,每個(gè)記錄1B,總存儲(chǔ)空間約為100KB在查詢事實(shí)表時(shí),通常使用到聚集函數(shù),一個(gè)聚集函數(shù)從多個(gè)事實(shí)表記錄中計(jì)算出一個(gè)結(jié)果。度量可以根據(jù)其所用的聚集函數(shù)分為三類:分布的聚集函數(shù):將這類函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。例如COUNT(求記錄個(gè)數(shù))、SUM(求和)、MIN(求最小值)、MAX(求最大值)等。代數(shù)的聚集函數(shù):函數(shù)可以由一個(gè)帶m個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(m為有界整數(shù)),而每個(gè)參數(shù)值都可以由一個(gè)分布的聚集函數(shù)求得。例如AVG(求平均值)等。整體的聚集函數(shù):描述函數(shù)的子聚集所需的存儲(chǔ)沒有一個(gè)常數(shù)界,即不存在一個(gè)具有m個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算。例如MODE(求最常出現(xiàn)的項(xiàng))。3.聚集函數(shù)邏輯模型設(shè)計(jì)-事實(shí)表設(shè)計(jì)例:與銷售業(yè)務(wù)有關(guān)的主題的數(shù)據(jù)組織如下主題名公共鍵屬性組商品商品代碼固有信息:商品代碼、商品名稱、商品類型、品牌等采購信息:商品代碼、供應(yīng)商代碼、采購日期等庫存信息:商品代碼、庫房號(hào)、庫存量、入庫時(shí)間等銷售信息:銷售單代碼、商品代碼、銷售商代碼、銷

售價(jià)格、銷售量、銷售時(shí)間、銷售地址等銷售商銷售商代碼固有信息:銷售商代碼、銷售商名稱、銷售商地址等銷售信息:銷售單代碼、商品代碼、銷售商代碼、銷

售價(jià)格、銷售量、銷售時(shí)間、銷售地址等表2銷售事實(shí)表屬性事實(shí)表主鍵外鍵(連接維表)事實(shí)表的度量銷售單代碼商品代碼銷售商代碼銷售額銷售量邏輯模型設(shè)計(jì)-維度表設(shè)計(jì)為用戶提供主題的更加詳細(xì)的具體的信息表3商品銷售數(shù)據(jù)倉庫的維度模型維度屬性商品維商品代碼、商品類型、商品商標(biāo)、商品名稱銷售商維銷售商代碼、銷售商類型、銷售商名稱派生的維度設(shè)計(jì)銷售時(shí)間、銷售地點(diǎn)可以派生出地區(qū)維和時(shí)間維表4商品銷售數(shù)據(jù)倉庫的維度模型維度屬性商品維商品代碼、商品類型、商品品牌、商品名稱銷售商維銷售商代碼、銷售商類型、銷售商名稱地區(qū)維地區(qū)鍵、所在省市、所在城市、所在街道時(shí)間維時(shí)間鍵、年、季度、月、日原有的生成的邏輯模型設(shè)計(jì)-事實(shí)表設(shè)計(jì)表5銷售事實(shí)表屬性銷售單代碼商品代碼銷售商代碼地區(qū)鍵時(shí)間鍵銷售額銷售量固有信息外鍵(連接維表)事實(shí)表的度量維度表和事實(shí)表組合后的模型結(jié)構(gòu)圖如下圖2.5【案例3-3】小型超市企業(yè)數(shù)據(jù)倉庫維度建模設(shè)計(jì)基于【案例3-2】的主題及主題域分析,構(gòu)建該小型超市企業(yè)數(shù)據(jù)倉庫的多維數(shù)據(jù)模型如圖3-13所示,其中維度表和事實(shí)表設(shè)計(jì)如下:建立維度表:建立事實(shí)表:屬性轉(zhuǎn)換,度量值計(jì)算說明:商品維表(商品號(hào),商品名,類別,規(guī)格,質(zhì)量,單價(jià))供應(yīng)商維表(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)顧客維表(顧客號(hào),顧客名,性別,年齡,文化程度)倉庫維表(庫房號(hào),倉庫管理員,地點(diǎn))時(shí)間維表(時(shí)間鍵,年,季度,月)采購事實(shí)表(商品號(hào),供應(yīng)商號(hào),時(shí)間鍵,供應(yīng)價(jià),供應(yīng)量,供應(yīng)額)銷售事實(shí)表(商品號(hào),顧客號(hào),時(shí)間鍵,售價(jià),銷售量,銷售額)庫存事實(shí)表(商品號(hào),庫房號(hào),時(shí)間鍵,庫存量)時(shí)間維度表是派生表,將商品銷售信息、采購信息、庫存信息中的日期進(jìn)行分解,以日期去重后做主鍵,提取年、季度、月份。采購事實(shí)表中的供應(yīng)額=供應(yīng)價(jià)*供應(yīng)量。銷售事實(shí)表中的銷售額=售價(jià)*銷售量。圖3-13教學(xué)案例的多維數(shù)據(jù)模型3.4.2數(shù)據(jù)倉庫數(shù)據(jù)分層與粒度設(shè)計(jì)數(shù)據(jù)倉庫分層設(shè)計(jì)的必要性復(fù)雜問題簡單化:將復(fù)雜的任務(wù)分解成多層來完成,每一層只處理簡單任務(wù),方便定位問題。減少重復(fù)開發(fā):規(guī)范數(shù)據(jù)分層,通過中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算,增加一次計(jì)算結(jié)果的復(fù)用性。隔離原始數(shù)據(jù):不論是數(shù)據(jù)的異常還是數(shù)據(jù)的敏感性,使真實(shí)數(shù)據(jù)與統(tǒng)計(jì)數(shù)據(jù)解耦開。一、數(shù)據(jù)倉庫分層設(shè)計(jì)的必要性二、數(shù)據(jù)倉庫數(shù)據(jù)分層架構(gòu)維度建模面向主題面向應(yīng)用ODS層的數(shù)據(jù),大多是按照數(shù)據(jù)源的分類方式而分類的。為了考慮后續(xù)可能需要追溯數(shù)據(jù)問題,一般對(duì)于這一層不建議做過多的數(shù)據(jù)清洗工作,原封不動(dòng)地接入原始數(shù)據(jù)即可,數(shù)據(jù)的去噪、去重、異常值處理等工作可以放在后面的DWD層進(jìn)行處理。(1)保持?jǐn)?shù)據(jù)原貌不做任何修改,起到備份數(shù)據(jù)的作用。(2)數(shù)據(jù)采用壓縮,減少磁盤存儲(chǔ)空間(例如:原始數(shù)據(jù)100G,可以壓縮到10G左右)(3)創(chuàng)建分區(qū)表,防止后續(xù)的全表掃描ODS層(原始數(shù)據(jù)層)數(shù)據(jù)清洗:對(duì)ODS層數(shù)據(jù)進(jìn)行清洗(去除空值、臟數(shù)據(jù)、離群值等);脫敏等。定義粒度:數(shù)據(jù)粒度與ODS基本保持一致。典型的粒度聲明如下:訂單當(dāng)中的每個(gè)商品項(xiàng)作為下單事實(shí)表中的一行,粒度為每次。每周的訂單次數(shù)作為一行,粒度為每周。每月的訂單次數(shù)作為一行,粒度為每月。如果在DWD層粒度就是每周或者每月,那么后續(xù)就沒有辦法統(tǒng)計(jì)細(xì)粒度的指標(biāo)了。所以建議采用最小粒度。維度建模:定義維度表、事實(shí)表;事實(shí)表寬表化,維度退化,以便構(gòu)建星型模型。DWD層(明細(xì)數(shù)據(jù)層)DWS層是以DWD層的數(shù)據(jù)為基礎(chǔ),進(jìn)行輕度匯總,一般聚集各主題對(duì)象每日的行為,如用戶每日、商家每日、商品每日的數(shù)據(jù)粒度級(jí)別匯總。在這一層通常會(huì)以某一個(gè)維度為線索,匯總成跨主題的寬表,比如:由一個(gè)用戶當(dāng)日的簽到數(shù)、收藏?cái)?shù)、評(píng)價(jià)數(shù)、抽獎(jiǎng)數(shù)、訂閱數(shù)、點(diǎn)贊數(shù)、瀏覽商品數(shù)、加購數(shù)、下單數(shù)、支付數(shù)、退款數(shù)及廣告點(diǎn)擊數(shù)組成的寬表。DWS層(服務(wù)數(shù)據(jù)層)DWT層是按主題對(duì)DWS層數(shù)據(jù)進(jìn)行進(jìn)一步聚合,構(gòu)建每個(gè)主題的全量寬表。如“會(huì)員主題寬表”,包括會(huì)員ID,首次下單時(shí)間、末次下單時(shí)間、累計(jì)下單次數(shù)、累計(jì)下單金額、最近30日下單次數(shù)、最近30日下單金額、首次支付時(shí)間、末次支付時(shí)間、累計(jì)支付次數(shù)、累計(jì)支付金額、最近30日支付次數(shù)、最近30日支付金額。DWT層(數(shù)據(jù)主題層)ADS層是面向?qū)嶋H數(shù)據(jù)應(yīng)用開發(fā)及展示需求,以DWD層、DWS層和DWT層的數(shù)據(jù)為基礎(chǔ),面向不同主題,組成各種統(tǒng)計(jì)報(bào)表,或指標(biāo)分析表,將統(tǒng)計(jì)結(jié)果最終同步到關(guān)系型數(shù)據(jù)庫,如MySQL中,以供BI或應(yīng)用系統(tǒng)查詢使用。ADS層(數(shù)據(jù)應(yīng)用層)3.5數(shù)據(jù)倉庫物理模型設(shè)計(jì)

3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)構(gòu)建數(shù)據(jù)倉庫的物理模型與所選擇的數(shù)據(jù)倉庫開發(fā)工具密切相關(guān)。這個(gè)階段所做的工作是確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),確定索引策略和確定存儲(chǔ)分配等。設(shè)計(jì)數(shù)據(jù)倉庫的物理模型時(shí),要求設(shè)計(jì)人員必須做到以下幾方面:要全面了解所選用的數(shù)據(jù)倉庫開發(fā)工具,特別是存儲(chǔ)結(jié)構(gòu)和存取方法。了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時(shí)間要求等,這些是對(duì)時(shí)間和空間效率進(jìn)行平衡和優(yōu)化的重要依據(jù)。了解外部存儲(chǔ)設(shè)備的特性,如分塊原則,塊大小的規(guī)定,設(shè)備的I/O特性等。3.5.1確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)一個(gè)數(shù)據(jù)倉庫開發(fā)工具往往都提供多種存儲(chǔ)結(jié)構(gòu)供設(shè)計(jì)人員選用,不同的存儲(chǔ)結(jié)構(gòu)有不同的實(shí)現(xiàn)方式,各有各的適用范圍和優(yōu)缺點(diǎn)。設(shè)計(jì)人員在選擇合適的存儲(chǔ)結(jié)構(gòu)時(shí)應(yīng)該權(quán)衡三個(gè)方面的主要因素:存取時(shí)間、存儲(chǔ)空間利用率和維護(hù)代價(jià)。同一個(gè)主題的數(shù)據(jù)并不要求存放在相同的介質(zhì)上。在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要程度、使用頻率以及對(duì)響應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。重要程度高、經(jīng)常存取并對(duì)響應(yīng)時(shí)間要求高的數(shù)據(jù)就存放在高速存儲(chǔ)設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以放在低速存儲(chǔ)設(shè)備上,如磁盤或磁帶。常用的策略:

合并表組織引入冗余分割表組織生成導(dǎo)出數(shù)據(jù)3.5.2確定索引策略數(shù)據(jù)倉庫的數(shù)據(jù)量很大,因而需要對(duì)數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)的設(shè)計(jì)和選擇。由于數(shù)據(jù)倉庫的數(shù)據(jù)都是不常更新的,因而可以設(shè)計(jì)多種多樣的索引結(jié)構(gòu)來提高數(shù)據(jù)存取效率。設(shè)計(jì)人員可以考慮對(duì)各個(gè)數(shù)據(jù)存儲(chǔ)建立專用的、復(fù)雜的索引,以獲得最高的存取效率。3.5.3確定存儲(chǔ)分配許多數(shù)據(jù)倉庫開發(fā)工具提供了一些存儲(chǔ)分配的參數(shù)供設(shè)計(jì)者進(jìn)行物理優(yōu)化處理,例如,塊的尺寸、緩沖區(qū)的大小和個(gè)數(shù)等等,它們都要在物理設(shè)計(jì)時(shí)確定。這同創(chuàng)建數(shù)據(jù)庫系統(tǒng)時(shí)的考慮是一樣的。3.6數(shù)據(jù)倉庫的部署與維護(hù)3.6數(shù)據(jù)倉庫的部署和維護(hù)數(shù)據(jù)倉庫的部署完成前面各項(xiàng)工作之后,可以進(jìn)入數(shù)據(jù)倉庫的部署階段,主要包括用戶認(rèn)可、初始裝載、桌面準(zhǔn)備和初始培訓(xùn)。

數(shù)據(jù)倉庫的維護(hù)維護(hù)數(shù)據(jù)倉庫的工作主要是管理日常數(shù)據(jù)裝入的工作,包括刷新數(shù)據(jù)倉庫的當(dāng)前詳細(xì)數(shù)據(jù)、將過時(shí)的數(shù)據(jù)轉(zhuǎn)化成歷史數(shù)據(jù)、清除不再使用的數(shù)據(jù)、管理元數(shù)據(jù)等。3.7數(shù)據(jù)倉庫建模設(shè)計(jì)項(xiàng)目實(shí)踐項(xiàng)目背景電信經(jīng)營分析系統(tǒng)是電信公司以市場經(jīng)營分析和決策支持為目的建設(shè)的、以數(shù)據(jù)倉庫為基礎(chǔ)數(shù)據(jù)平臺(tái)的企業(yè)級(jí)綜合應(yīng)用系統(tǒng)。數(shù)據(jù)倉庫在整合電信公司相關(guān)業(yè)務(wù)系統(tǒng)源數(shù)據(jù)的基礎(chǔ)上,為從屬數(shù)據(jù)集市及分析統(tǒng)計(jì)、數(shù)據(jù)挖掘等應(yīng)用提供基礎(chǔ)數(shù)據(jù)支持,可以說數(shù)據(jù)倉庫是電信公司經(jīng)營分析系統(tǒng)的基礎(chǔ)核心。電信經(jīng)營分析系統(tǒng)的數(shù)據(jù)倉庫基于運(yùn)營商通信業(yè)務(wù)運(yùn)營支撐系統(tǒng)(BOSS)系統(tǒng)及客戶關(guān)系管理系統(tǒng)(CRM)的數(shù)據(jù)源,分析需求及業(yè)務(wù)流程,構(gòu)建數(shù)據(jù)倉庫。實(shí)訓(xùn)目的學(xué)生通過思維導(dǎo)圖的方式梳理數(shù)倉設(shè)計(jì)涉及到的知識(shí)內(nèi)容并可結(jié)合架構(gòu)圖的形式繪制數(shù)倉各層之間的上下游依賴關(guān)系,從而加深對(duì)數(shù)倉理論的理解、數(shù)據(jù)平臺(tái)鏈路的了解程度和提高數(shù)倉設(shè)計(jì)的運(yùn)用能力。學(xué)生通過對(duì)數(shù)據(jù)倉庫設(shè)計(jì),掌握數(shù)據(jù)倉庫包括模型設(shè)計(jì)的幾個(gè)重要階段︰業(yè)務(wù)流程分析、概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)、物理模型設(shè)計(jì);掌握數(shù)據(jù)倉庫模型中數(shù)據(jù)分層設(shè)計(jì)的幾個(gè)重要層次︰ODS層、DWD層、DWB層、DWS層等;掌握數(shù)據(jù)倉庫的數(shù)據(jù)抽取過程;掌握基于數(shù)倉的企業(yè)經(jīng)營分析應(yīng)用。實(shí)訓(xùn)內(nèi)容梳理面向本實(shí)訓(xùn)內(nèi)容的電信運(yùn)營商經(jīng)營分析系統(tǒng)(BASS)的業(yè)務(wù)流程,分析電信套餐資費(fèi)評(píng)估指標(biāo),以及與運(yùn)營商通信業(yè)務(wù)運(yùn)營支撐系統(tǒng)(BOSS)系統(tǒng)的數(shù)據(jù)對(duì)接需求。面向“電信運(yùn)營商經(jīng)營分析系統(tǒng)”的數(shù)據(jù)倉庫概念模型設(shè)計(jì)(主題域劃分、概念模型)、邏輯模型設(shè)計(jì)(數(shù)據(jù)邏輯分層)以及物理模型設(shè)計(jì)。數(shù)倉各層數(shù)據(jù)抽取(數(shù)據(jù)ETL)實(shí)現(xiàn)。基于數(shù)倉的電信資費(fèi)評(píng)估關(guān)鍵指標(biāo)計(jì)算及電信套餐評(píng)分。一、需求分析1.需求實(shí)現(xiàn)?戶通過購買運(yùn)營商提供的套餐,與運(yùn)營商建?聯(lián)系。運(yùn)營商可提供針對(duì)不同的使?者提供不同的套餐。例如圖中的:38元檔套餐、58元檔套餐、88元檔套餐、108元檔套餐等。涉及兩個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)接口,分別是CRM系統(tǒng)和BOSS系統(tǒng),10個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)表。數(shù)據(jù)粒度有細(xì)至粗分別對(duì)應(yīng)每層數(shù)據(jù)分析需求,根據(jù)細(xì)粒度數(shù)據(jù)匯總統(tǒng)計(jì)套餐產(chǎn)品的用戶數(shù)、離網(wǎng)用戶數(shù)、轉(zhuǎn)入數(shù)、轉(zhuǎn)出數(shù)、新增用戶數(shù)、總流量、總金額等統(tǒng)計(jì)量,用以進(jìn)行評(píng)分指標(biāo)計(jì)算。本實(shí)訓(xùn),主要需求為:計(jì)算電信套餐資費(fèi)評(píng)分,具體包括計(jì)算套餐產(chǎn)品的穩(wěn)定性、吸引度、總用戶數(shù)、新增用戶數(shù)、MOU占比(平均每戶每月通話時(shí)間)、ARPU占比(運(yùn)營商獲取每用戶每月平均收入)等。2.業(yè)務(wù)流程圖?戶通過辦理套餐和運(yùn)營商建??戶?為的聯(lián)系,通過電信運(yùn)營商?為記錄?戶的使?情況。用戶用戶購買資費(fèi)產(chǎn)品關(guān)系客戶資費(fèi)產(chǎn)品3.業(yè)務(wù)系統(tǒng)數(shù)據(jù)表結(jié)構(gòu)賬戶語音詳單流量詳單賬戶出賬費(fèi)項(xiàng)實(shí)體賬戶用戶對(duì)應(yīng)關(guān)系二、主題設(shè)計(jì)及主題域劃分1.主題域劃分由于本實(shí)驗(yàn)場景只對(duì)?戶的資費(fèi)套餐進(jìn)?評(píng)估。分析主題包括:客戶、?戶、賬單、資費(fèi)產(chǎn)品、詳單這?個(gè)主題,涉及的主題域參與人主題域,服務(wù)主題域,事件主題域,賬務(wù)主題域。其他域我們此次試驗(yàn)暫不考慮。客戶、?戶、

賬單、資費(fèi)產(chǎn)品、詳單這?個(gè)信息的數(shù)據(jù)源系統(tǒng)僅涉及到電信經(jīng)分上游的CRM和BOSS源系統(tǒng)。2.各主題中實(shí)體的關(guān)系在電信業(yè)務(wù)的三戶(客戶、?戶、賬戶)模型中,很可能存在?個(gè)客戶和多個(gè)?戶賬戶的對(duì)應(yīng)情況。即?個(gè)客戶擁有多個(gè)?機(jī)號(hào)和賬號(hào)。但在此實(shí)驗(yàn)中我們考慮最簡單的情況。簡單的個(gè)?模型:?個(gè)客戶只有?部?機(jī)。

對(duì)應(yīng)業(yè)務(wù)流程中辦理業(yè)務(wù)的?戶,可以設(shè)計(jì)出客戶實(shí)體和?戶實(shí)體這兩個(gè)實(shí)體。

對(duì)應(yīng)業(yè)務(wù)流程中?戶辦理的資費(fèi)產(chǎn)品,可以設(shè)計(jì)出?個(gè)產(chǎn)品實(shí)體。對(duì)應(yīng)業(yè)務(wù)流程中的套餐使?情況,可以設(shè)計(jì)出語?使?詳單實(shí)體和流量使?詳單實(shí)體。對(duì)應(yīng)業(yè)務(wù)流程中的套餐使?計(jì)費(fèi)流程,可以設(shè)計(jì)出賬戶實(shí)體和賬務(wù)信息實(shí)體。該模型下?個(gè)客戶cust只擁有?個(gè)?機(jī)?戶user,有?個(gè)帳戶acct。該模型下客戶定購的產(chǎn)品,是通過?戶的定購關(guān)系體現(xiàn)。帳單按?提供。域域域域域主題域劃分三、數(shù)據(jù)倉庫數(shù)據(jù)分層設(shè)計(jì)電信項(xiàng)目ODS層DWD層維度建模用戶信息維度表用戶出賬事實(shí)表費(fèi)項(xiàng)維度表資費(fèi)產(chǎn)品維度表用戶資費(fèi)產(chǎn)品事實(shí)表流量詳單事實(shí)表語音詳單事實(shí)表本實(shí)訓(xùn)將DWS層也可以細(xì)分為DW(B|S)層,其中:DWB層是在DWD層基礎(chǔ)上對(duì)事實(shí)表進(jìn)行了輕度聚合。包括:1)語音詳單和流量詳單事實(shí)表進(jìn)行了匯總,并按月聚合,生成用戶詳單使用匯總事實(shí)表。2)對(duì)用戶出賬信息在“費(fèi)用類型”上進(jìn)行了匯總,生成用戶出賬匯總事實(shí)表。以上兩個(gè)事實(shí)表為DWS層的寬表數(shù)據(jù)抽取提供數(shù)據(jù)支持,同時(shí)為用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論