第4章數據倉庫的設計Appt課件_第1頁
第4章數據倉庫的設計Appt課件_第2頁
第4章數據倉庫的設計Appt課件_第3頁
第4章數據倉庫的設計Appt課件_第4頁
第4章數據倉庫的設計Appt課件_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、24.1 數據倉庫分析與設計4.2 數據倉庫開發4.3 數據倉庫技術與開發的困難內容安排內容安排需求分析數據裝載信息查詢概念設計邏輯設計物理設計數據抽取數據轉換知識探求數據倉庫增長數據倉庫維護數據倉庫評價數據倉庫開發過程數據倉庫開發過程4工具引見工具引見94.1數據倉庫分析與設計4.1.1 需求分析4.1.2 概念模型設計4.1.3 邏輯模型設計4.1.4 物理模型設計4.1.5 數據倉庫的索引技術104.1.1 需求分析1.確定主題域2.支持決策的數據來源3.數據倉庫的勝利規范和關鍵性能目的4.數據量與更新頻率111.確定主題域確定主題域1明確對于決策分析最有價值的主題領域明確對于決策分析最

2、有價值的主題領域有哪些?有哪些?2每個主題域的商業維度是哪些?每個維每個主題域的商業維度是哪些?每個維度的粒度層次有哪些?度的粒度層次有哪些?3制定決策的商業分區是什么?制定決策的商業分區是什么?4不同地域需求哪些信息來制定決策?不同地域需求哪些信息來制定決策?5對哪個區域提供特定的商品和效力?對哪個區域提供特定的商品和效力?122.支持決策的數據來源支持決策的數據來源1哪些源數據哪些源數據操作型操作型與商品主題有關?與商品主題有關?2在已有報表和在線查詢中得到什么樣的在已有報表和在線查詢中得到什么樣的信息?信息?3提供決策支持的細節程度是怎樣的?提供決策支持的細節程度是怎樣的?133.數據倉

3、庫的勝利規范和關鍵性能目的數據倉庫的勝利規范和關鍵性能目的1衡量數據倉庫勝利的規范是什么?衡量數據倉庫勝利的規范是什么?2哪些關鍵的性能目的?如何監控?哪些關鍵的性能目的?如何監控?3對數據倉庫的期望是什么?對數據倉庫的期望是什么?4對數據倉庫的預期用途有哪些?對數據倉庫的預期用途有哪些?5對方案中的數據倉庫的思索要點是對方案中的數據倉庫的思索要點是什么?什么?144.數據量與更新頻率數據量與更新頻率1數據倉庫的總數據量有多少?數據倉庫的總數據量有多少?2決策支持所需的數據更新頻率是多少?決策支持所需的數據更新頻率是多少?時間間隔是多長時間間隔是多長?3每種決策分析與不同時間的規范對比方每種決

4、策分析與不同時間的規范對比方何?何?4數據倉庫中的信息需求的時間界限是什數據倉庫中的信息需求的時間界限是什么?么?15經過需求分析,需求的數據包括:經過需求分析,需求的數據包括:1.數據源數據源1可用的數據源可用的數據源2數據源的數據構造數據源的數據構造3數據源的位置數據源的位置4數據源的計算機環境數據源的計算機環境5數據抽取過程數據抽取過程6可用的歷史數據可用的歷史數據2.數據轉換數據轉換數據倉庫中的數據是為決策分析效力,而源數據倉庫中的數據是為決策分析效力,而源系統的數據為業務處置效力。系統的數據為業務處置效力。需求決議如何正確地將這些源數據轉換成適需求決議如何正確地將這些源數據轉換成適合

5、數據倉庫存儲的數據。合數據倉庫存儲的數據。 3.數據存儲數據存儲數據倉庫所需求的數據的詳細程度,包括數據倉庫所需求的數據的詳細程度,包括足夠的關于存儲需求的信息,估計數據倉足夠的關于存儲需求的信息,估計數據倉庫需求多少歷史和存檔數據。庫需求多少歷史和存檔數據。4.決策分析決策分析1向下層鉆取分析向下層鉆取分析2向上層鉆取分析向上層鉆取分析3橫向鉆取分析橫向鉆取分析4切片分析切片分析5特別查詢報表特別查詢報表需求分析簡單舉例:需求分析簡單舉例:204.1.2概念模型設計概念模型設計概念模型的特點是:概念模型的特點是:1能真實反映現實世界,能滿足用戶對數據的分能真實反映現實世界,能滿足用戶對數據的

6、分析,到達決策支持的要求,它是現實世界的一個析,到達決策支持的要求,它是現實世界的一個真實模型。真實模型。2易于了解,便利和用戶交換意見,在用戶的參易于了解,便利和用戶交換意見,在用戶的參與下,能有效地完成對數據倉庫的勝利設計。與下,能有效地完成對數據倉庫的勝利設計。3易于更改,當用戶需求發生變化時,容易對概易于更改,當用戶需求發生變化時,容易對概念模型修正和擴展。念模型修正和擴展。4易于向數據倉庫的數據模型易于向數據倉庫的數據模型星型模型星型模型轉換。轉換。概念模型最常用的表示方法是實體關系法概念模型最常用的表示方法是實體關系法E-R法法。E-R圖描畫的是實體以及實體之間的聯絡,圖描畫的是實

7、體以及實體之間的聯絡,用長方形表示實體,在數據倉庫中就表示主題,橢圓用長方形表示實體,在數據倉庫中就表示主題,橢圓形表示主題的屬性,并用無向邊把主題與其屬性銜形表示主題的屬性,并用無向邊把主題與其屬性銜接起來;接起來;用菱形表示主題之間的聯絡,用無向邊把菱形分別與用菱形表示主題之間的聯絡,用無向邊把菱形分別與有關的主題銜接。有關的主題銜接。假設主題之間的聯絡也具有屬性,那么把屬性和菱形假設主題之間的聯絡也具有屬性,那么把屬性和菱形也用無向邊銜接上。也用無向邊銜接上。例子例子有兩個主題:商品和客戶,主題也是實體。有兩個主題:商品和客戶,主題也是實體。商品有如下屬性組:商品有如下屬性組:商品的固有

8、信息商品的固有信息商品號、商品名、類別、價錢等商品號、商品名、類別、價錢等;商品庫存信息商品庫存信息商品號、庫房號、庫存量、日期等商品號、庫房號、庫存量、日期等;商品銷售信息商品銷售信息商品號、客戶號、銷售量等商品號、客戶號、銷售量等;客戶有如下屬性組:客戶有如下屬性組:客戶固有信息客戶固有信息客戶號、客戶名、住址、等客戶號、客戶名、住址、等;客戶購物信息客戶購物信息客戶號、商品號、售價、購買量等客戶號、商品號、售價、購買量等。商品的銷售信息與用戶的購物信息是一致的,它們是兩個主題商品的銷售信息與用戶的購物信息是一致的,它們是兩個主題之間的聯絡。之間的聯絡。商品商品固有信息商品號商品庫存信息銷

9、 售 信息購物信息 客戶客戶固有信息客戶號=244.1.3邏輯模型設計邏輯模型設計n主要任務為:主要任務為:n1主題域進展概念模型主題域進展概念模型ER圖圖到到邏輯模型邏輯模型星型模型星型模型的轉換的轉換n2粒度層次劃分粒度層次劃分n3關系方式定義關系方式定義n4定義記錄系統定義記錄系統251、主題域進展概念模型到邏輯模型的轉換、主題域進展概念模型到邏輯模型的轉換n星型模型的設計步驟如下:星型模型的設計步驟如下:n1確定決策分析需求確定決策分析需求n決策需求是建立多維數據模型的根據。決策需求是建立多維數據模型的根據。n2從需求中識別出現實從需求中識別出現實n選擇或設計反映決策主題業務的表,如在

10、選擇或設計反映決策主題業務的表,如在“商品商品主題中,以主題中,以“銷售業務銷售業務作為現實表。作為現實表。n3確定維確定維n確定影響現實的各種要素,對銷售業務的維包括商確定影響現實的各種要素,對銷售業務的維包括商店,地域,部門,城市,時間,商品等,如圖店,地域,部門,城市,時間,商品等,如圖4.2所示。所示。26銷售數據和維銷售數據商品促銷時間部門城市地域商店圖圖4.2 銷售業務的多維數據銷售業務的多維數據4 4確定數據匯總程度確定數據匯總程度 數據倉庫中對數據不同粒度的集成和數據倉庫中對數據不同粒度的集成和綜合,構成了多層次、多種知識的數據構綜合,構成了多層次、多種知識的數據構造。例如,對

11、于時間維,可以以造。例如,對于時間維,可以以“年年、“月月或者或者“日日等不同程度進展匯總。等不同程度進展匯總。5 5設計現實表和維表設計現實表和維表 設計現實表和維表的詳細屬性。在現設計現實表和維表的詳細屬性。在現實表中應該記錄哪些屬性是由維表的數量實表中應該記錄哪些屬性是由維表的數量決議的。普通來說,與現實表相關的維表決議的。普通來說,與現實表相關的維表的數量應該適中,太少的維表會影響查詢的數量應該適中,太少的維表會影響查詢的質量,用戶得不到需求的數據,太多的的質量,用戶得不到需求的數據,太多的維表又會影響查詢的速度。維表又會影響查詢的速度。 6 6按運用的按運用的DBMSDBMS和分析用

12、戶工具,證明和分析用戶工具,證明設計方案的有效性設計方案的有效性 根據系統運用的根據系統運用的DBMSDBMS,確定現實表和維,確定現實表和維表的詳細實現。由于不同的表的詳細實現。由于不同的DBMSDBMS對數據存對數據存儲有不同的要求,因此設計方案能否有效儲有不同的要求,因此設計方案能否有效還要放在還要放在DBMSDBMS中進展檢驗中進展檢驗 7 7隨著需求變化修正設計方案隨著需求變化修正設計方案 隨著運用需求的變化,整個數據倉庫的隨著運用需求的變化,整個數據倉庫的數據方式也能夠會發生變化。因此在設計數據方式也能夠會發生變化。因此在設計之初,充分思索數據模型的可修正性可以之初,充分思索數據模

13、型的可修正性可以節省系統維護的代價。節省系統維護的代價。從的從的ER圖轉換成星型模型實例闡明圖轉換成星型模型實例闡明 1業務數據的業務數據的E-R圖圖銷售銷售日期商店號商品號銷售數量銷售單位商品商品號商品名商品類號存貨星期商店號商品號數量1m1m商店商店號商店名地址城市省地域號1mm11商品類商品類號商品類名部門號m1m地域地域號地域名2E-R圖向多維表的轉換圖向多維表的轉換該問題的多維表模型中,商品維包括部門、商該問題的多維表模型中,商品維包括部門、商品和商品大類,地點維包括地域和商店,忽品和商品大類,地點維包括地域和商店,忽略存貨,而只留意銷售現實。在略存貨,而只留意銷售現實。在E-R圖中

14、不圖中不出現的時間,在多維模型中添加時間維。出現的時間,在多維模型中添加時間維。在多維模型中,實體與維之間建立映射關系,在多維模型中,實體與維之間建立映射關系,聯絡多個實體的實體就成為現實,此處銷售聯絡多個實體的實體就成為現實,此處銷售實體作為現實,其他實體作為維。然后用維實體作為現實,其他實體作為維。然后用維關鍵字將它轉換為星型模型,如圖關鍵字將它轉換為星型模型,如圖4.5所示。所示。31商品維地域維時間維部門地域年商品大類商店月商品周日銷售現實 E-R圖向多維模型的轉換圖向多維模型的轉換 時間 時間鍵 時間說明 日期 星期 月 年 級別號 銷售事實 時間鍵 地理位置鍵 商品鍵 銷售數量 銷

15、售單位 地區 地理位置鍵 地理位置名 地區號 商店號 級別號 商品 商品鍵 商品名 部門號 商品類號 級別號 利用維關鍵字制定的星型模型利用維關鍵字制定的星型模型n在各維中,只需部門,商品類,地域,商店在各維中,只需部門,商品類,地域,商店的編號沒有詳細的闡明。的編號沒有詳細的闡明。n為了打印報表將添加這些編號的稱號闡明,為了打印報表將添加這些編號的稱號闡明,即部門名、商店名等,在維表中添加這些闡即部門名、商店名等,在維表中添加這些闡明,即修正該星型模型。明,即修正該星型模型。n 時間 時間鍵 時間說明 日期 星期 月 年 級別號 銷售事實 時間鍵 地理位置鍵 商品鍵 銷售數量 銷售單位 地區

16、 地理位置鍵 地理位置名 地區號 地區名 商店號 商店名 級別號 商品 商品鍵 商品名 部門號 部門名 商品類號 商品類名 級別號 修正后的星型模型修正后的星型模型352、粒度層次劃分、粒度層次劃分n所謂粒度是指數據倉庫中數據單元的詳細所謂粒度是指數據倉庫中數據單元的詳細程度和級別。程度和級別。n數據越詳細,粒度越小,層次級別就越低;數據越詳細,粒度越小,層次級別就越低;數據綜合度越高,粒度越大,層次級別就數據綜合度越高,粒度越大,層次級別就越高。越高。 n進展粒度劃分,首先要確定一切在數據倉進展粒度劃分,首先要確定一切在數據倉庫中建立的表,然后估計每個表的大約行庫中建立的表,然后估計每個表的

17、大約行數。數。 363、關系方式定義、關系方式定義n在概念模型設計時,我們就確定了數據倉在概念模型設計時,我們就確定了數據倉庫的根本主題,并對每個主題的公共碼鍵、庫的根本主題,并對每個主題的公共碼鍵、根本內容等做了描畫。根本內容等做了描畫。n在這一步里,我們將要對選定的當前實施在這一步里,我們將要對選定的當前實施的主題進展方式劃分,構成多個表,并確的主題進展方式劃分,構成多個表,并確定各個表的關系方式。定各個表的關系方式。 37“商品商品主題主題公共碼鍵:商品號。公共碼鍵:商品號。商品固有信息:商品固有信息:商品表商品表商品號、商品名、類型、顏色商品號、商品名、類型、顏色細節級細節級商品銷售信

18、息:商品銷售信息:銷售表銷售表1商品號、客戶號、銷售量、商品號、客戶號、銷售量、細節級細節級銷售表銷售表2商品號、時間段商品號、時間段1、銷售量、銷售量、綜合級綜合級 銷售表銷售表n商品號、時間段商品號、時間段n、銷售量、銷售量、綜合級綜合級384、定義記錄系統、定義記錄系統n定義記錄系統是建立數據倉庫中的數據以定義記錄系統是建立數據倉庫中的數據以源系統中的數據的對照記錄。源系統中的數據的對照記錄。n記錄系統的定義要記入數據倉庫的元數據。記錄系統的定義要記入數據倉庫的元數據。n商品主題的記錄系統在元數據中可描畫如商品主題的記錄系統在元數據中可描畫如下表所示。下表所示。39主題名屬性名數據源系統

19、源表名源屬性名商品商品商品商品商品商品商品商品商品商品號商品名類別客戶號銷售日期售價銷售量庫存量庫存號庫存子系統庫存子系統庫存子系統銷售子系統銷售子系統銷售子系統銷售子系統庫存子系統庫存子系統商品商品商品客戶銷售銷售銷售庫存倉庫商品號商品名類別客戶號日期單價數量庫存量倉庫號表:記錄系統的定義表:記錄系統的定義404.1.4 物理模型設計物理模型設計n確定一個最合順運用要求的物理構造確定一個最合順運用要求的物理構造包包括存儲構造和存取方法括存儲構造和存取方法。n1估計存儲容量估計存儲容量n2確定數據的存儲方案確定數據的存儲方案n3確定索引戰略確定索引戰略n4確定數據存放位置確定數據存放位置n5確

20、定存儲分配確定存儲分配411.估計存儲容量估計存儲容量1對每一個數據庫表確定數據量對每一個數據庫表確定數據量2對一切的表確定索引對一切的表確定索引3估計暫時存儲估計暫時存儲422.確定數據的存儲方案確定數據的存儲方案1建立聚集建立聚集匯總匯總方案方案2確定數據分區方案確定數據分區方案3建立聚類選項建立聚類選項433.確定索引戰略確定索引戰略n在數據倉庫中由于數據量很大,需求對數據的存在數據倉庫中由于數據量很大,需求對數據的存取途徑進展仔細設計和選擇,建立公用的復雜的取途徑進展仔細設計和選擇,建立公用的復雜的索引,以獲得最高的存取效率。索引,以獲得最高的存取效率。n采用采用BTree索引,它是一

21、個高效的索引,見圖索引,它是一個高效的索引,見圖4.7所示。所示。B樹是一個平衡樹是一個平衡balance樹,即每樹,即每個葉結點到根節點的途徑長度一樣。個葉結點到根節點的途徑長度一樣。B樹索引是樹索引是一個多級索引。一個多級索引。444.確定數據存放位置確定數據存放位置n在物理設計時,我們經常要按數據的重要程度、在物理設計時,我們經常要按數據的重要程度、運用頻率以及對呼應時間的要求進展分類,并將運用頻率以及對呼應時間的要求進展分類,并將不同類的數據分別存儲在不同的存儲設備中。不同類的數據分別存儲在不同的存儲設備中。n重要程度高、經常存取并對呼應時間要求高的數重要程度高、經常存取并對呼應時間要

22、求高的數據就存放在高速存儲設備上,如硬盤;據就存放在高速存儲設備上,如硬盤;n存取頻率低或對存取呼應時間要求低的數據那么存取頻率低或對存取呼應時間要求低的數據那么可以放在低速存儲設備上,如磁盤或磁帶??梢苑旁诘退俅鎯υO備上,如磁盤或磁帶。 455.確定存儲分配確定存儲分配n物理存儲中以文件、塊和記錄來實現。一個文件物理存儲中以文件、塊和記錄來實現。一個文件包括很多塊,每個塊包括假設干條記錄。包括很多塊,每個塊包括假設干條記錄。n文件中的塊是數據庫的數據和內存之間文件中的塊是數據庫的數據和內存之間I/O傳輸傳輸的根本單位,在那里對數據進展操作。的根本單位,在那里對數據進展操作。n用一個簡例來闡明

23、邏輯模型和物理模型的內容,用一個簡例來闡明邏輯模型和物理模型的內容,見以下圖所示。見以下圖所示。 名稱類型長度注釋產品維表包括公司所有產品的信息Product-Keyinteger10主鍵Product-Namechar25產品名稱Product-SKuchar20庫存單位銷售員維表包括不同地區的所有銷售員信息Salpers-Keyinteger15主鍵Salpers-Namechar30銷售員姓名Territorychar20銷售員所在區域Regionchar20所在地區訂單事實表包括公司收到的所有訂單Order-Keyinteger10訂單鍵Order-Namechar20訂單名稱Prod

24、uct-refinteger10參考產品主鍵Salpers-refinteger15參考銷售員主鍵Order-AmountNum8,2銷售額Order-CostNum8,2訂單成本邏輯模型產品維表產品鍵產品名庫存單位品牌訂單現實表訂單鍵訂單名產品鍵銷售員鍵銷售額訂單本錢銷售員維表銷售員鍵姓名地域地域474.1.5 數據倉庫的索引技術數據倉庫的索引技術1.位索引技術位索引技術2.標識技術標識技術3.廣義索引廣義索引481.位索引技術位索引技術1Bit-Wise索引技術索引技術2B-Tree技術與技術與Bit-Wise索引技術對比索引技術對比n對于每一個記錄的字段滿足查詢條件的真對于每一個記錄的字

25、段滿足查詢條件的真假值用假值用“1或或“0的方式表示,或者用的方式表示,或者用該字段中不同取值該字段中不同取值即多位二進制即多位二進制來表來表示。示。 n例如,檢索例如,檢索“美國加州有多少男性未懇求美國加州有多少男性未懇求保險?保險?n利用利用BitWise技術得到有兩個記錄技術得到有兩個記錄 滿足滿足條件。條件。 性別保險州1MYMA2MNCA3FYIL4MNCA=2男未保險加州100111000111512B-Tree技術與技術與Bit-Wise索引技術對比索引技術對比nBit-Wise索引技術比索引技術比B-Tree技術能提高相應速度技術能提高相應速度10100倍。倍。n對于檢索對于檢

26、索“美國加州有多少男性未懇求保險?美國加州有多少男性未懇求保險?為例,假設數據庫有為例,假設數據庫有10M記錄,每個記錄長記錄,每個記錄長800個字節,每一頁個字節,每一頁16K字節。字節。n按傳統的關系數據庫的檢索:需求經過按傳統的關系數據庫的檢索:需求經過50萬次萬次I/O操作。操作。n按按BitWise檢索:對于檢索:對于10M個記錄建立三列的個記錄建立三列的BitWise索引。存取這些索引只需進展索引。存取這些索引只需進展235次次I/O操作。操作。522.標識技術標識技術 姓名 籍貫 職稱 年齡陳文東 江西 教授 56何玉輝 河北 講師 32李寶 湖南 副教授 37施東 江蘇 講師 2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論