




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第2章數據倉庫開發模型
在創建數據倉庫之時,需要使用各種數據模型對數據倉庫進行描述。數據倉庫的開發人員依據這些數據模型,才能開發出一個滿足用戶需求的數據倉庫。使開發人員能夠將注意力集中在數據倉庫開發的主要部分。模型有更好的適應性,更易于修改。當用戶的需求改變時,僅對模型做出相應的變化就能反映這個改變。數據倉庫開發模型
2.1數據倉庫開發模型
2.2數據倉庫概念模型2.3數據倉庫邏輯模型
2.4數據倉庫的物理模型
2.5數據倉庫的元數據模型
2.6數據倉庫的粒度和聚集模型
練
習
2.1數據倉庫開發模型模型是對現實世界進行抽象的工具。在信息管理中需要將現實世界的事物及其有關特征轉換為信息世界的數據才能對信息進行處理與管理,這就需要依靠數據模型作為這種轉換的橋梁。這種轉換一般需要經歷從現實到概念模型,從概念模型到邏輯模型,從邏輯模型到物理模型的轉換過程。
現實世界概念世界邏輯世界計算機世界信用特性屬性列(字段、數據項)張三個體實體記錄客戶整體同質總體表文件客戶與產品整體間聯系異質總體數據庫數據倉庫的設計就是在概念模型、邏輯模型和物理模型的依次轉換過程中實現的。作為數據倉庫的靈魂——元數據模型則自始至終伴隨著數據倉庫的開發、實施與使用。數據粒度和聚集模型也在數據倉庫的創建中發揮著指導的作用,指導著數據倉庫的具體實現。現實世界概念模型邏輯模型物理模型數據倉庫元數據模型數據粒度和聚集模型2.2數據倉庫概念模型
2.2.1概念數據模型
財務部門銷售收入賬應收賬應付賬成本賬銷售部門銷售計劃銷售合同銷售統計人事部門員工業績記錄員工技能情況員工薪酬表企業數據模型銷售部門人事部門財務部門……………圖2.3企業數據模型數據倉庫的數據模型中不包含操作型的數據,數據倉庫的數據模型只包含用戶所感興趣的分析數據、描述數據和細節數據。數據倉庫的數據模型擴充了關鍵字結構,增加了時間屬性作為關鍵字的一部分數據倉庫的數據模型中還增加了一些由基本數據所導出的衍生數據,這些導出的衍生數據主要用于對企業的管理決策進行分析指標實體(事實實體)指標實體名維度實體名詳細類別實體名維度實體詳細類別實體(引用實體)
2.2.2規范的數據模型第一范式、第二范式、第三范式數據倉庫的反規范化處理數據倉庫的數據普通數據庫系統的數據
長期的框架靜態數據通常是匯總的特殊查詢訪問定期更新數據驅動短期的框架快速變化記錄級的訪問標準查詢訪問實時更新事件驅動2.2.3星型模型
星型模型是最常用的數據倉庫設計結構的實現模式。使數據倉庫形成了一個集成系統,為用戶提供分析服務對象。
事實表維度表維度表維度表維度表維度表核心是事實表,圍繞事實表的是維度表。通過事實表將各種不同的維度表連接起來,各個維度表都連接到中央事實表。2.2.4雪花模型雪花模型是對星型模型的擴展,每一個維度都可以向外連接到多個詳細類別表。
雪花模型對星型模型的維度表進一步標準化,對星型模型中的維度表進行了規范化處理。
事實表維度表維度表維度表維度表維度表詳細類別表詳細類別表2.3數據倉庫邏輯模型
信息反饋貴賓卡賬號姓名客戶類型初次交易時間賬號省市縣街道郵政編碼賬號現金交易額信用交易額賬號商品編號時間交易量賬號最大信用額最近信用發生時間賬號記錄人反饋類型反饋時間賬號服務種類時間服務費用顏色信用交易客戶編號交易記錄信用狀況商品交易服務交易簽字現金交易賬號交易額信用額信用時間2.3.1事實表模型設計1.事實表(1)客戶事實表客戶基本情況表(賬號Integer9,姓名Character12,出生地Character20,初次交易時間Date,……)。2.事實表中的事實特性事實表中一般包含兩部分,一是由主鍵和外鍵所組成的鍵部分,另一是用戶希望在數據倉庫中所了解的數值指標。派生事實主要有兩種,一是可以用同一事實表中其他事實計算得到,還有一類派生事實是非加法性事實。
2.3.2維模型設計客戶主題維度表模型時間維度表(年Date,月Date,日Date)。地點維度表(省Character20,市Character20,縣Character20,街道Character20)。2.4數據倉庫的物理模型2.4.1數據倉庫物理模型的存儲結構確定數據的存儲結構
并行存儲結構——RAID(RedundantArrayofInexpensiveDisk,廉價冗余磁盤陣列)。·RAID·RAID1級。·RAID2級。·RAID3級。·RAID4級。·RAID5級。2.4.2數據倉庫物理模型的索引構建位圖索引
女性索引客戶性別客戶所在地上海市索引北京市索引0男北京市011女江蘇省001女北京市010男山東省001女北京市010男上海市100男江蘇省001女上海市101女北京市010男浙江省001女廣東省002.4.2數據倉庫物理模型的索引構建上海市索引OR北京市索引=地區索引AND女性索引=最后索引01100000100111100000011111010000000101110111100000000102.4.2數據倉庫物理模型的索引構建2.廣義索引的構建3.連接索引連接索引Aagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idagelevel_idtime_idgeo_idprodu_idamou_moneagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idamou_moneagelevel_idtime_idgeo_idprodu_id全連接結果time_idgeo_id連接索引B2.4.3數據倉庫物理模型的優化問題1.合并表:幾個表的記錄分散存放在幾個物理塊中時,多個表的存取和連接操作的代價會很大。
2.建立數據序列:按照某一固定的順序訪問并處理一組數據記錄。將數據按照處理順序存放到連續的物理塊中,形成數據序列。
3.引入冗余:一些表的某些屬性可能在許多地方都要用到,將這些屬性復制到多個主題中,可以減少處理時存取表的個數。
4.表的物理分割:每個主題中的各個屬性存取頻率是不同的。將一張表按各屬性被存取的頻率分成兩個或多個表,將具有相似訪問頻率的數據組織在一起。
5.生成派出數據:在原始數據的基礎上進行總結或計算,生成派出數據,可以在應用中直接使用這些派出數據,減少I/O次數,免去計算或匯總步驟,在更高級別上建立了公用數據源,避免了不同用戶重復計算可能產生的偏差。
2.5數據倉庫的元數據模型元數據靜態元數據名稱描述格式數據類型關系生成時間來源索引類別域業務規則2.5.1元數據的類型與組成元數據動態元數據
入庫時間更新周期數據質量統計信息狀態處理存儲位置存儲大小引用處2.5.2元數據在數據倉庫中的作用元數據描述了數據的結構、內容、鍵、索引等項內容。在數據倉庫中,元數據定義了數據倉庫中的許多對象——表、列、查詢、商業規則或是數據倉庫內部的數據轉移。元數據是數據倉庫的重要構件,是數據倉庫的指示圖(roadmap)。
1.數據倉庫的元數據重要性為數據倉庫服務與DSS分析員及高層決策人員服務提供便利
解決操作型環境和數據倉庫的復雜關系
數據倉庫中數據的管理
2.元數據在數據倉庫開發期間的使用確認數據質量、同步化和刷新、映射3.元數據在數據源抽取中的作用資源領域的確定、跟蹤歷史數據結構變化的過程、屬性到屬性的映射、屬性轉換
4.元數據在數據求精與重構工程上的作用數據的分割、概括與聚集、預算與推導、轉換與再映像
2.5.3元數據的收集1.數據源的元數據2.數據模型的元數據3.數據源與數據倉庫映射的元數據4.數據倉庫應用的元數據2.6數據倉庫的粒度和聚集模型粒度可定義成數據倉庫中數據細節的最低層次,如事務層次。這種數據層次是高度細節化的,這樣就能使用戶按所需的任何層次進行匯總。根據粒度的劃分標準可以將數據劃分為:詳細數據、輕度總結、高度總結三級或更多級粒度。粒度的具體劃分將直接影響到數據倉庫中的數據量以及查詢質量。粒度級別綜合性數據細節低(如事務)高(如匯總)低高非常高中等到低2.6.1數據粒度的劃分第一步,是估算數據倉庫中將來要使用的數據行數和所需的直接存取存儲設備數。每一個表的存儲空間,應該是每一個表的數據存儲空間和索引存儲空間之和。一年數據五年數據數據量(行數)粒度劃分策略數據量(行數)粒度劃分策略10,000,0001,000,000100,00010,000雙重粒度并仔細設計雙重粒度仔細設計不考慮20,000,00010,000,0001,000,000100,000雙重粒度并仔細設計雙重粒度仔細設計不考慮2.6.2確定粒度的級別考慮因素:要接受的分析類型、可接受的數據最低粒度和能存儲的數據量。粒度的層次定義越高,就越不能在該倉庫中進行更細致的分析。在同一模式中使用多重粒度。如果存儲資源有一定的限制,就只能采用較高粒度的數據粒度劃分策略。粒度的確定實質上是業務決策分析、硬件、軟件和數據倉庫使用方法的一個折衷。數據粒度劃分策略一定要保證數據的粒度確實能夠滿足用戶的決策分析需要,這是數據粒度劃分策略中最重要的一個準則。2.6.3數據倉庫的聚集模型確定聚集數據主要是為了使用戶獲得更好的查詢性能聚集模型設計時應該注意將聚集數據存儲在其事實表中,并與其底層數據相區別。設計聚集模型時,首先需要考慮用戶的使用要求。其次要考慮數據倉庫的粒度模型和數據的統計分布情況。數據倉庫的聚集模型的設計與數據倉庫的粒度模型緊密相關建立聚集模型時還需要考慮作為聚集屬性的數量因素2.6.4聚集模型的處理聚集事實表已經獨立存在并且可以與基本事實表一同保存通過將當前加載數據添加到系統中的累積“桶”中將數據的聚集與數據倉庫的加載過程組合為同一處理過程在將數據倉庫數據加載以后,再進行聚集處理每次在加載數據倉庫數據時,都需要對各種聚集進行計算和增加,及時保持聚集與基本數據的同步性2.6.5聚集模型的管理要根據使用情況刪除不經常使用的聚集需要減少層次過于接近的聚集生成注意將聚集獨立存儲在自己的事實表中
練習
1.在一般的信息管理中采用哪些概念模型來描述信息處理的對象,這些概念數據模型是否適合數據倉庫的開發環境?2.航空公司希望能夠分析在其服務旅客中的常客旅行趨勢,這樣可以為公司正確定位航空市場中的常客市場。并且希望能夠跟蹤不同航線上旅客的季節變化情況和增長,并跟蹤在不同航班上所消費的食品和飲料情況,這樣可以幫助
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深圳酒店企業制定與實施新質生產力戰略研究報告
- 2025-2030高空安全設備行業市場發展分析及前景趨勢與投融資戰略研究報告
- 2025-2030露酒行業風險投資態勢及投融資策略指引報告
- 2025-2030鋰電子電池產業發展分析及發展趨勢與投資戰略研究報告
- 2025-2030道路清掃車市場發展分析及行業投資戰略研究報告
- 2025-2030連鎖便利店行業市場發展分析及發展前景與投資機會研究報告
- 小學語文課后輔導計劃與安排
- 四年級音樂教育創新教學計劃
- 六年級下冊心理健康教育教案- 5學會感恩 | 遼大版
- 人教版數學作業布置計劃
- 《互聯網營銷課件:市場拓展的七大技巧》
- Elements幾何原本(中文版)
- 應用數學智慧樹知到課后章節答案2023年下楊凌職業技術學院
- 動火作業許可證
- 區法院權力運行外部流程圖(豎版)
- 風力發電機功率曲線統計MATLAB代碼實現
- 1.潘月杰BEST管理沙盤-四川國企
- 生產設備定期保養記錄
- 《數據排序-冒泡排序法》
- 氣瓶安全管理與使用課件
- 《旅館建筑設計規范 JGJ62-2014》正式版
評論
0/150
提交評論