




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第3章數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
數(shù)據(jù)倉庫的開發(fā)應(yīng)用像生物一樣具有其特有的、完整的生命周期,數(shù)據(jù)倉庫的開發(fā)應(yīng)用周期可以分成:數(shù)據(jù)倉庫規(guī)劃分析階段、數(shù)據(jù)倉庫設(shè)計實施階段以及數(shù)據(jù)倉庫的使用維護三個階段。這三個階段是一個不斷循環(huán)、完善、提高的過程。在一般情況下數(shù)據(jù)倉庫系統(tǒng)不可能在一個循環(huán)過程中完成,而是經(jīng)過多次循環(huán)開發(fā),每次循環(huán)都會為系統(tǒng)增加新的功能,使數(shù)據(jù)倉庫的應(yīng)用得到新的提高。本章學習目標:
(1)了解數(shù)據(jù)倉庫開發(fā)應(yīng)用的特點。
(2)掌握數(shù)據(jù)倉庫的規(guī)劃、數(shù)據(jù)倉庫的概念模型設(shè)計、數(shù)據(jù)倉庫的邏輯模型設(shè)計、數(shù)據(jù)倉庫的物理模型設(shè)計和數(shù)據(jù)倉庫的實施。
(3)了解數(shù)據(jù)倉庫的應(yīng)用、支持和增強。第3章數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
數(shù)據(jù)倉庫的開發(fā)應(yīng)用像生物一樣具1
數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
3.1數(shù)據(jù)倉庫開發(fā)應(yīng)用過程3.2數(shù)據(jù)倉庫的規(guī)劃3.3數(shù)據(jù)倉庫的概念模型設(shè)計3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計3.5數(shù)據(jù)倉庫的物理模型設(shè)計3.6數(shù)據(jù)倉庫的實施3.7數(shù)據(jù)倉庫的應(yīng)用、支持和增強練習
數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
3.1數(shù)據(jù)倉庫開發(fā)應(yīng)用23.1數(shù)據(jù)倉庫開發(fā)應(yīng)用的特點
3.1.1數(shù)據(jù)倉庫開發(fā)應(yīng)用的階段性數(shù)據(jù)倉庫的開發(fā)應(yīng)用過程劃分為:創(chuàng)始階段成長階段控制階段成熟階段
3.1數(shù)據(jù)倉庫開發(fā)應(yīng)用的特點
3.1.1數(shù)據(jù)倉庫開發(fā)應(yīng)33.1.2數(shù)據(jù)倉庫的螺旋式開發(fā)方法
規(guī)劃分析階段
數(shù)據(jù)倉庫開發(fā)過程設(shè)計實施使用維護階段階段
3.1.2數(shù)據(jù)倉庫的螺旋式開發(fā)方法43.2數(shù)據(jù)倉庫的規(guī)劃3.2.1選擇數(shù)據(jù)倉庫實現(xiàn)策略開發(fā)策略主要有:自頂向下:實際應(yīng)用比較困難。自底向上:用于一個數(shù)據(jù)集市或一個部門的數(shù)據(jù)倉庫開發(fā),容易獲得成功。兩種策略的聯(lián)合使用:能夠快速地完成數(shù)據(jù)倉庫的開發(fā)與應(yīng)用,而且還可以建立具有長遠價值的數(shù)據(jù)倉庫方案。在實際使用中難以操作。3.2數(shù)據(jù)倉庫的規(guī)劃3.2.1選擇數(shù)據(jù)倉庫實現(xiàn)策略開53.2.2確定數(shù)據(jù)倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定所需要信息的范圍,確定數(shù)據(jù)倉庫在為用戶提供決策幫助時,在主題和指標領(lǐng)域需要哪些數(shù)據(jù)源。
另一個重要目標是確定利用哪些方法和工具訪問和導(dǎo)航數(shù)據(jù)?其它目標是確定數(shù)據(jù)倉庫內(nèi)部數(shù)據(jù)的規(guī)模從用戶的角度分析從技術(shù)的角度分析3.2.2確定數(shù)據(jù)倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定63.2.3數(shù)據(jù)倉庫的結(jié)構(gòu)1.數(shù)據(jù)倉庫的應(yīng)用結(jié)構(gòu)基于業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)倉庫
單純數(shù)據(jù)倉庫
單純數(shù)據(jù)集市
數(shù)據(jù)倉庫和數(shù)據(jù)集市
2.數(shù)據(jù)倉庫的技術(shù)平臺結(jié)構(gòu)單層結(jié)構(gòu)
客戶/服務(wù)器兩層結(jié)構(gòu)
三層客戶/服務(wù)器
多層式結(jié)構(gòu)
3.2.3數(shù)據(jù)倉庫的結(jié)構(gòu)1.數(shù)據(jù)倉庫的應(yīng)用結(jié)構(gòu)73.2.4數(shù)據(jù)倉庫使用方案和項目規(guī)劃預(yù)算3.2.4數(shù)據(jù)倉庫使用方案和項目規(guī)劃預(yù)算83.3數(shù)據(jù)倉庫的概念模型設(shè)計概念模型的設(shè)計可以分為以下幾個階段:用戶需求調(diào)查、模型定義、模型分析和模型設(shè)計。3.3.1概念模型的需求調(diào)查數(shù)據(jù)倉庫開發(fā)的任務(wù)書首先要明確用戶的信息需求了解管理人員在信息需求方面的內(nèi)容了解關(guān)于信息的來源組織所使用的系統(tǒng)環(huán)境3.3數(shù)據(jù)倉庫的概念模型設(shè)計概念模型的設(shè)計可以分為以下幾93.3.2概念模型的定義1.數(shù)據(jù)倉庫用戶的決策分析2.支持決策的數(shù)據(jù)需求分析3.數(shù)據(jù)需求分析工具3.3.2概念模型的定義1.數(shù)據(jù)倉庫用戶的決策分析103.3.2概念模型的定義4.CRUD矩陣C:Create產(chǎn)生、R:Read引用、U:Update更新D:Delete刪除。3.3.2概念模型的定義4.CRUD矩陣C:Create113.3.2概念模型的定義5.企業(yè)業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)存儲表3.3.2概念模型的定義5.企業(yè)業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)存儲表123.3.3概念模型的分析客戶變動信息商品變動信息客戶號商品固有信息客戶固有信息客戶號供應(yīng)商號開戶日期日期銷售數(shù)量日期商品號商品客戶銷售3.3.3概念模型的分析客戶變動信息商品變動信息客戶133.3.4概念模型的設(shè)計經(jīng)濟(年收入)100萬以上10萬以上1萬以上1萬以下地點國家省市銷售銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品種類ID小類ID商品ID信用10萬元以上1萬元以上1千元以上1千元以下0元3.3.4概念模型的設(shè)計經(jīng)濟地點銷售年齡日期商品信用14經(jīng)濟(年收入)100萬以上10萬以上1萬以上地點國家省市銷售銷售ID銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品ID種類小類商品信用10萬元以上1萬元以上1千元以上1千元以下0元商品ID生產(chǎn)廠家進貨價格進貨日期客戶客戶ID姓名地址電話郵政編碼經(jīng)濟地點銷售年齡日期商品ID信用商品ID客戶153.3.5概念模型文檔與評審1.概念模型設(shè)計文檔數(shù)據(jù)倉庫開發(fā)需求分析報告概念模型分析報告概念模型概念模型的評審報告。
2.概念模型的評審3.概念模型的評審人員4.概念模型的評審內(nèi)容數(shù)據(jù)倉庫開發(fā)任務(wù)書;用戶決策分析信息需求調(diào)查表;數(shù)據(jù)倉庫主題;E-R圖、星型模型和雪花模型。
3.3.5概念模型文檔與評審1.概念模型設(shè)計文檔163.4數(shù)據(jù)倉庫的邏輯模型設(shè)計數(shù)據(jù)倉庫的邏輯模型設(shè)計任務(wù):分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題;確定粒度層次劃分;確定數(shù)據(jù)分割策略;關(guān)系模式的定義和記錄系統(tǒng)定義、確定數(shù)據(jù)抽取模型等。邏輯模型最終設(shè)計成果:每個主題的邏輯定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中粒度劃分數(shù)據(jù)分割策略表劃分和數(shù)據(jù)來源等。
3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計數(shù)據(jù)倉庫的邏輯模型設(shè)計任務(wù):173.4.1分析主題域3.4.1分析主題域183.4.2粒度層次和聚集的確定3.4.3確定數(shù)據(jù)分割策略數(shù)據(jù)分割標準1.數(shù)據(jù)量2.數(shù)據(jù)分析處理的對象3.粒度分割的策略
3.4.4關(guān)系模型定義3.4.2粒度層次和聚集的確定3.4.3確定數(shù)據(jù)分割193.4.5數(shù)據(jù)倉庫的實體定義實體的邏輯分析實體所有列的具體特征
3.4.5數(shù)據(jù)倉庫的實體定義實體的邏輯分析203.4.5數(shù)據(jù)倉庫的實體定義3.4.5數(shù)據(jù)倉庫的實體定義213.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型F1數(shù)據(jù)抽取規(guī)則 P2 清理數(shù)據(jù)記錄 F8數(shù)據(jù)清理規(guī)則 F2 KHCG F5CQLS_KHCGF6CQLS_KHCG F7SJCK_KHCG P4 加載到數(shù)據(jù)倉庫 F3 SPQK F4 ZGYJ P3 數(shù)據(jù)排序聚集 P1 抽取數(shù)據(jù)源記錄 3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型F1數(shù)據(jù)抽取規(guī)則 P223.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型2.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計劃(1)影響數(shù)據(jù)抽取、轉(zhuǎn)換與加載的因素數(shù)據(jù)格式壞數(shù)據(jù)系統(tǒng)的兼容性數(shù)據(jù)源的變化數(shù)據(jù)抽取的時間
(2)數(shù)據(jù)抽取、轉(zhuǎn)換與加載對策
全庫比較利用程序日志利用數(shù)據(jù)庫日志利用時間戳或利用位圖索引3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型2.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、233.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型3.數(shù)據(jù)倉庫的數(shù)據(jù)清理轉(zhuǎn)換方法(1)類型轉(zhuǎn)換(2)串操作(3)數(shù)學函數(shù)(4)參照完整性(5)關(guān)鍵字翻譯(6)聚集運算4.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型3.數(shù)據(jù)倉庫的數(shù)據(jù)清理轉(zhuǎn)243.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取對象表
3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取對象表253.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取規(guī)則表3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取規(guī)則表263.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取的目標列與源列對應(yīng)關(guān)系表3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取的目標列與源列對273.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取過程的排序、概括和導(dǎo)出情況表3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取過程的排序、概括283.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)概括表與事實表對應(yīng)關(guān)系3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)概括表與事實表對應(yīng)關(guān)293.4.7數(shù)據(jù)倉庫的元數(shù)據(jù)模型建立與應(yīng)用數(shù)據(jù)源⑼⑶物理模型查詢統(tǒng)計邏輯模型業(yè)務(wù)分組來源定義加載統(tǒng)計來源-目標映射元數(shù)據(jù)目錄數(shù)據(jù)倉庫前端展示工具⑴⑵⑷⑸a⑹⑺⑻⑽⑿⑸b3.4.7數(shù)據(jù)倉庫的元數(shù)據(jù)模型建立與應(yīng)用⑼⑶物理模型303.4.8邏輯模型的評審邏輯模型的文檔內(nèi)容:主題域分析報告,數(shù)據(jù)粒度劃分模型,數(shù)據(jù)分割策略,指標實體、維實體與詳細類別實體的關(guān)系模式和數(shù)據(jù)抽取模型。對邏輯模型的評審主要集中在主題域是否可以正確地反映用戶的決策分析需求。從用戶對概括數(shù)據(jù)使用的要求,評審數(shù)據(jù)粒度的劃分和數(shù)據(jù)分割策略是否可以滿足用戶決策分析的需要。為提高數(shù)據(jù)倉庫的運行效率是否需要對關(guān)系模式進行反規(guī)范化處理。數(shù)據(jù)的抽取模型是否正確地建立了數(shù)據(jù)源與數(shù)據(jù)倉庫的對應(yīng)關(guān)系。數(shù)據(jù)的約束條件和業(yè)務(wù)規(guī)則是否在這些模型中得到了正確的反映。3.4.8邏輯模型的評審邏輯模型的文檔內(nèi)容:主題域分析報313.5數(shù)據(jù)倉庫的物理模型設(shè)計表的數(shù)據(jù)結(jié)構(gòu)類型、索引策略、數(shù)據(jù)存放位置以及數(shù)據(jù)存儲分配等等。物理模型設(shè)計因素:I/O存取時間、空間利用率和維護的代價。工作:全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法。了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時間要求等。了解外部存儲設(shè)備的特征。3.5數(shù)據(jù)倉庫的物理模型設(shè)計表的數(shù)據(jù)結(jié)構(gòu)類型、索引策略、323.5.1數(shù)據(jù)倉庫設(shè)計的規(guī)范3.5.1數(shù)據(jù)倉庫設(shè)計的規(guī)范333.5.2確定數(shù)據(jù)結(jié)構(gòu)的類型數(shù)據(jù)非規(guī)范化處理的優(yōu)點有:·能減少對表聯(lián)結(jié)的需求,提高數(shù)據(jù)倉庫運行性能?!つ軠p少編寫專門決策支持應(yīng)用程序的工作量,因為運用一些專門的查詢工具,可以更容易訪問數(shù)據(jù)。·可以讓用戶以直觀的易于理解的工具來操作數(shù)據(jù),例如,可以利用電子報表來查看數(shù)據(jù)。3.5.2確定數(shù)據(jù)結(jié)構(gòu)的類型數(shù)據(jù)非規(guī)范化處理的優(yōu)點有:343.5.3數(shù)據(jù)倉庫索引的創(chuàng)建1.索引創(chuàng)建策略建立索引時,按照索引使用的頻率,由高到低逐步添加。按主關(guān)鍵字和大多數(shù)外部關(guān)鍵字建立索引
2.事實表索引的創(chuàng)建事實表中一定要設(shè)置主鍵
3.維表索引的創(chuàng)建4.數(shù)據(jù)加載索引的創(chuàng)建3.5.3數(shù)據(jù)倉庫索引的創(chuàng)建1.索引創(chuàng)建策略353.5.4確定數(shù)據(jù)存放位置數(shù)據(jù)的布局原則:·不要把經(jīng)常需要連接的幾張表放在同一存儲設(shè)備上?!と绻麕着_服務(wù)器之間的連接會造成嚴重的網(wǎng)絡(luò)業(yè)務(wù)量的問題,則要考慮服務(wù)器復(fù)制表格?!た紤]把整個企業(yè)共享的細節(jié)數(shù)據(jù)放在主機或其他集中式服務(wù)器上。·別把表格和它們的索引放在同一設(shè)備上。一般可以將索引存放在高速存儲設(shè)備上,而表格則存放在一般存儲設(shè)備上,以加快數(shù)據(jù)的查詢速度。3.5.4確定數(shù)據(jù)存放位置數(shù)據(jù)的布局原則:363.5.5確定存儲分配3.5.6數(shù)據(jù)倉庫物理模型的評審理設(shè)計評審的目標要確定:物理模型在滿足數(shù)據(jù)倉庫使用的靈活性、性能、數(shù)據(jù)完整性、系統(tǒng)可用性、數(shù)據(jù)的當前性和用戶的滿意度等
具體的評審項目有:表空間、分區(qū)、表格、數(shù)據(jù)壓縮、控制表和引用表、索引、數(shù)據(jù)量、數(shù)據(jù)分布、線路通信量、數(shù)據(jù)倉庫的更新、概況數(shù)據(jù)、預(yù)期變動和數(shù)據(jù)的文檔化。3.5.5確定存儲分配3.5.6數(shù)據(jù)倉庫物理模型的評373.6數(shù)據(jù)倉庫的實施
實施過程中需要完成的工作:建立數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)的接口數(shù)據(jù)倉庫的體系結(jié)構(gòu)建立實現(xiàn)數(shù)據(jù)倉庫物理倉庫與元數(shù)據(jù)庫進行數(shù)據(jù)倉庫的數(shù)據(jù)初次加載完成數(shù)據(jù)倉庫的中間件設(shè)計進行數(shù)據(jù)倉庫的測試。
3.6數(shù)據(jù)倉庫的實施實施過程中需要完成的工作:383.6.1數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)接口的設(shè)計
接口應(yīng)該具有這樣一些功能:從面向應(yīng)用和操作環(huán)境生成完整的數(shù)據(jù);數(shù)據(jù)基于時間的轉(zhuǎn)換;數(shù)據(jù)的聚集;對現(xiàn)有數(shù)據(jù)系統(tǒng)的有效掃描,以便今后數(shù)據(jù)倉庫的數(shù)據(jù)追加。3.6.1數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)接口的設(shè)計接口應(yīng)該具有393.6.2數(shù)據(jù)倉庫的創(chuàng)建關(guān)系型數(shù)據(jù)庫、多維數(shù)據(jù)庫和對象數(shù)據(jù)庫
創(chuàng)建數(shù)據(jù)倉庫的工具:MSSQLServer2000Oracle9iSybaseInformixRedBrickDecisionServer3.6.2數(shù)據(jù)倉庫的創(chuàng)建關(guān)系型數(shù)據(jù)庫、多維數(shù)據(jù)庫和對象數(shù)403.6.3數(shù)據(jù)倉庫的數(shù)據(jù)加載、復(fù)制與發(fā)行3.6.3數(shù)據(jù)倉庫的數(shù)據(jù)加載、復(fù)制與發(fā)行413.6.4數(shù)據(jù)倉庫的中間件設(shè)計1.代碼發(fā)生器2.數(shù)據(jù)復(fù)制工具3.數(shù)據(jù)泵4.廣義數(shù)據(jù)獲取工具和設(shè)備拷貝中間件還應(yīng)該能夠進行數(shù)據(jù)清潔工作可對記錄或列重組、去除業(yè)務(wù)數(shù)據(jù)、供給已丟失的字段值和檢查數(shù)據(jù)的完整性和一致性對列值的解碼和轉(zhuǎn)換增加數(shù)據(jù)的時間戳數(shù)據(jù)的概括或者衍生值的計算3.6.4數(shù)據(jù)倉庫的中間件設(shè)計1.代碼發(fā)生器423.6.5數(shù)據(jù)倉庫的測試1.單元測試單元測試的目的是尋找出存在于單個程序、存儲過程和其它位于一些獨立環(huán)境中模塊的錯誤。
2.系統(tǒng)集成測試測試目的是驗證每個單元與數(shù)據(jù)倉庫系統(tǒng)和子系統(tǒng)之間的接口是否完好,是否能夠正常傳遞數(shù)據(jù)與執(zhí)行系統(tǒng)的整體功能。
3.6.5數(shù)據(jù)倉庫的測試1.單元測試433.7數(shù)據(jù)倉庫的應(yīng)用、支持和增強3.7.1數(shù)據(jù)倉庫的用戶培訓(xùn)及支持1.用戶的培訓(xùn)向用戶解釋清楚數(shù)據(jù)倉庫的作用與原理用各種案例向用戶說明如何使用數(shù)據(jù)倉庫
2.對數(shù)據(jù)倉庫用戶的支持對數(shù)據(jù)倉庫應(yīng)用成功案例的推廣
初始階段的支持技術(shù)人員、商業(yè)分析人員與用戶一起討論3.7數(shù)據(jù)倉庫的應(yīng)用、支持和增強3.7.1數(shù)據(jù)倉庫的443.7.2數(shù)據(jù)倉庫的使用方式1.信息處理2.分析處理3.數(shù)據(jù)挖掘3.7.3數(shù)據(jù)倉庫使用中的數(shù)據(jù)刷新1.從已有數(shù)據(jù)資源中獲取更多數(shù)據(jù)2.從單位內(nèi)部獲取新的數(shù)據(jù)源3.獲取新的或更多的行業(yè)數(shù)據(jù)源3.7.2數(shù)據(jù)倉庫的使用方式1.信息處理3.7.3數(shù)453.7.4數(shù)據(jù)倉庫的增強1.元數(shù)據(jù)庫的局限性2.缺乏外部數(shù)據(jù)源3.數(shù)據(jù)倉庫數(shù)據(jù)加載性能不能滿足要求4.數(shù)據(jù)倉庫應(yīng)用范圍的擴大5.數(shù)據(jù)倉庫整體性能的調(diào)整6.數(shù)據(jù)倉庫重新規(guī)劃3.7.4數(shù)據(jù)倉庫的增強1.元數(shù)據(jù)庫的局限性46練習
練習47練習
6.請為購買商品趨勢分析設(shè)計一個數(shù)據(jù)倉庫的星型模型,并給出維表的層次結(jié)構(gòu)。7.請為航空公司的航班分析數(shù)據(jù)倉庫確定其主題的詳細描述。8.為航空公司的航班分析數(shù)據(jù)倉庫設(shè)計一種數(shù)據(jù)抽取和轉(zhuǎn)換方案,并提出選擇此方案的理由。9.在數(shù)據(jù)倉庫的開發(fā)過程中需要對哪些模型進行評審,不同模型的評審內(nèi)容有哪些?練習6.請為購買商品趨勢分析設(shè)計一個數(shù)據(jù)倉庫的星型模型48第3章數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
數(shù)據(jù)倉庫的開發(fā)應(yīng)用像生物一樣具有其特有的、完整的生命周期,數(shù)據(jù)倉庫的開發(fā)應(yīng)用周期可以分成:數(shù)據(jù)倉庫規(guī)劃分析階段、數(shù)據(jù)倉庫設(shè)計實施階段以及數(shù)據(jù)倉庫的使用維護三個階段。這三個階段是一個不斷循環(huán)、完善、提高的過程。在一般情況下數(shù)據(jù)倉庫系統(tǒng)不可能在一個循環(huán)過程中完成,而是經(jīng)過多次循環(huán)開發(fā),每次循環(huán)都會為系統(tǒng)增加新的功能,使數(shù)據(jù)倉庫的應(yīng)用得到新的提高。本章學習目標:
(1)了解數(shù)據(jù)倉庫開發(fā)應(yīng)用的特點。
(2)掌握數(shù)據(jù)倉庫的規(guī)劃、數(shù)據(jù)倉庫的概念模型設(shè)計、數(shù)據(jù)倉庫的邏輯模型設(shè)計、數(shù)據(jù)倉庫的物理模型設(shè)計和數(shù)據(jù)倉庫的實施。
(3)了解數(shù)據(jù)倉庫的應(yīng)用、支持和增強。第3章數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
數(shù)據(jù)倉庫的開發(fā)應(yīng)用像生物一樣具49
數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
3.1數(shù)據(jù)倉庫開發(fā)應(yīng)用過程3.2數(shù)據(jù)倉庫的規(guī)劃3.3數(shù)據(jù)倉庫的概念模型設(shè)計3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計3.5數(shù)據(jù)倉庫的物理模型設(shè)計3.6數(shù)據(jù)倉庫的實施3.7數(shù)據(jù)倉庫的應(yīng)用、支持和增強練習
數(shù)據(jù)倉庫開發(fā)應(yīng)用過程
3.1數(shù)據(jù)倉庫開發(fā)應(yīng)用503.1數(shù)據(jù)倉庫開發(fā)應(yīng)用的特點
3.1.1數(shù)據(jù)倉庫開發(fā)應(yīng)用的階段性數(shù)據(jù)倉庫的開發(fā)應(yīng)用過程劃分為:創(chuàng)始階段成長階段控制階段成熟階段
3.1數(shù)據(jù)倉庫開發(fā)應(yīng)用的特點
3.1.1數(shù)據(jù)倉庫開發(fā)應(yīng)513.1.2數(shù)據(jù)倉庫的螺旋式開發(fā)方法
規(guī)劃分析階段
數(shù)據(jù)倉庫開發(fā)過程設(shè)計實施使用維護階段階段
3.1.2數(shù)據(jù)倉庫的螺旋式開發(fā)方法523.2數(shù)據(jù)倉庫的規(guī)劃3.2.1選擇數(shù)據(jù)倉庫實現(xiàn)策略開發(fā)策略主要有:自頂向下:實際應(yīng)用比較困難。自底向上:用于一個數(shù)據(jù)集市或一個部門的數(shù)據(jù)倉庫開發(fā),容易獲得成功。兩種策略的聯(lián)合使用:能夠快速地完成數(shù)據(jù)倉庫的開發(fā)與應(yīng)用,而且還可以建立具有長遠價值的數(shù)據(jù)倉庫方案。在實際使用中難以操作。3.2數(shù)據(jù)倉庫的規(guī)劃3.2.1選擇數(shù)據(jù)倉庫實現(xiàn)策略開533.2.2確定數(shù)據(jù)倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定所需要信息的范圍,確定數(shù)據(jù)倉庫在為用戶提供決策幫助時,在主題和指標領(lǐng)域需要哪些數(shù)據(jù)源。
另一個重要目標是確定利用哪些方法和工具訪問和導(dǎo)航數(shù)據(jù)?其它目標是確定數(shù)據(jù)倉庫內(nèi)部數(shù)據(jù)的規(guī)模從用戶的角度分析從技術(shù)的角度分析3.2.2確定數(shù)據(jù)倉庫的開發(fā)目標和實現(xiàn)范圍首要目標是確定543.2.3數(shù)據(jù)倉庫的結(jié)構(gòu)1.數(shù)據(jù)倉庫的應(yīng)用結(jié)構(gòu)基于業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)倉庫
單純數(shù)據(jù)倉庫
單純數(shù)據(jù)集市
數(shù)據(jù)倉庫和數(shù)據(jù)集市
2.數(shù)據(jù)倉庫的技術(shù)平臺結(jié)構(gòu)單層結(jié)構(gòu)
客戶/服務(wù)器兩層結(jié)構(gòu)
三層客戶/服務(wù)器
多層式結(jié)構(gòu)
3.2.3數(shù)據(jù)倉庫的結(jié)構(gòu)1.數(shù)據(jù)倉庫的應(yīng)用結(jié)構(gòu)553.2.4數(shù)據(jù)倉庫使用方案和項目規(guī)劃預(yù)算3.2.4數(shù)據(jù)倉庫使用方案和項目規(guī)劃預(yù)算563.3數(shù)據(jù)倉庫的概念模型設(shè)計概念模型的設(shè)計可以分為以下幾個階段:用戶需求調(diào)查、模型定義、模型分析和模型設(shè)計。3.3.1概念模型的需求調(diào)查數(shù)據(jù)倉庫開發(fā)的任務(wù)書首先要明確用戶的信息需求了解管理人員在信息需求方面的內(nèi)容了解關(guān)于信息的來源組織所使用的系統(tǒng)環(huán)境3.3數(shù)據(jù)倉庫的概念模型設(shè)計概念模型的設(shè)計可以分為以下幾573.3.2概念模型的定義1.數(shù)據(jù)倉庫用戶的決策分析2.支持決策的數(shù)據(jù)需求分析3.數(shù)據(jù)需求分析工具3.3.2概念模型的定義1.數(shù)據(jù)倉庫用戶的決策分析583.3.2概念模型的定義4.CRUD矩陣C:Create產(chǎn)生、R:Read引用、U:Update更新D:Delete刪除。3.3.2概念模型的定義4.CRUD矩陣C:Create593.3.2概念模型的定義5.企業(yè)業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)存儲表3.3.2概念模型的定義5.企業(yè)業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)存儲表603.3.3概念模型的分析客戶變動信息商品變動信息客戶號商品固有信息客戶固有信息客戶號供應(yīng)商號開戶日期日期銷售數(shù)量日期商品號商品客戶銷售3.3.3概念模型的分析客戶變動信息商品變動信息客戶613.3.4概念模型的設(shè)計經(jīng)濟(年收入)100萬以上10萬以上1萬以上1萬以下地點國家省市銷售銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品種類ID小類ID商品ID信用10萬元以上1萬元以上1千元以上1千元以下0元3.3.4概念模型的設(shè)計經(jīng)濟地點銷售年齡日期商品信用62經(jīng)濟(年收入)100萬以上10萬以上1萬以上地點國家省市銷售銷售ID銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品ID種類小類商品信用10萬元以上1萬元以上1千元以上1千元以下0元商品ID生產(chǎn)廠家進貨價格進貨日期客戶客戶ID姓名地址電話郵政編碼經(jīng)濟地點銷售年齡日期商品ID信用商品ID客戶633.3.5概念模型文檔與評審1.概念模型設(shè)計文檔數(shù)據(jù)倉庫開發(fā)需求分析報告概念模型分析報告概念模型概念模型的評審報告。
2.概念模型的評審3.概念模型的評審人員4.概念模型的評審內(nèi)容數(shù)據(jù)倉庫開發(fā)任務(wù)書;用戶決策分析信息需求調(diào)查表;數(shù)據(jù)倉庫主題;E-R圖、星型模型和雪花模型。
3.3.5概念模型文檔與評審1.概念模型設(shè)計文檔643.4數(shù)據(jù)倉庫的邏輯模型設(shè)計數(shù)據(jù)倉庫的邏輯模型設(shè)計任務(wù):分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題;確定粒度層次劃分;確定數(shù)據(jù)分割策略;關(guān)系模式的定義和記錄系統(tǒng)定義、確定數(shù)據(jù)抽取模型等。邏輯模型最終設(shè)計成果:每個主題的邏輯定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中粒度劃分數(shù)據(jù)分割策略表劃分和數(shù)據(jù)來源等。
3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計數(shù)據(jù)倉庫的邏輯模型設(shè)計任務(wù):653.4.1分析主題域3.4.1分析主題域663.4.2粒度層次和聚集的確定3.4.3確定數(shù)據(jù)分割策略數(shù)據(jù)分割標準1.數(shù)據(jù)量2.數(shù)據(jù)分析處理的對象3.粒度分割的策略
3.4.4關(guān)系模型定義3.4.2粒度層次和聚集的確定3.4.3確定數(shù)據(jù)分割673.4.5數(shù)據(jù)倉庫的實體定義實體的邏輯分析實體所有列的具體特征
3.4.5數(shù)據(jù)倉庫的實體定義實體的邏輯分析683.4.5數(shù)據(jù)倉庫的實體定義3.4.5數(shù)據(jù)倉庫的實體定義693.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型F1數(shù)據(jù)抽取規(guī)則 P2 清理數(shù)據(jù)記錄 F8數(shù)據(jù)清理規(guī)則 F2 KHCG F5CQLS_KHCGF6CQLS_KHCG F7SJCK_KHCG P4 加載到數(shù)據(jù)倉庫 F3 SPQK F4 ZGYJ P3 數(shù)據(jù)排序聚集 P1 抽取數(shù)據(jù)源記錄 3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型F1數(shù)據(jù)抽取規(guī)則 P703.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型2.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計劃(1)影響數(shù)據(jù)抽取、轉(zhuǎn)換與加載的因素數(shù)據(jù)格式壞數(shù)據(jù)系統(tǒng)的兼容性數(shù)據(jù)源的變化數(shù)據(jù)抽取的時間
(2)數(shù)據(jù)抽取、轉(zhuǎn)換與加載對策
全庫比較利用程序日志利用數(shù)據(jù)庫日志利用時間戳或利用位圖索引3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型2.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、713.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型3.數(shù)據(jù)倉庫的數(shù)據(jù)清理轉(zhuǎn)換方法(1)類型轉(zhuǎn)換(2)串操作(3)數(shù)學函數(shù)(4)參照完整性(5)關(guān)鍵字翻譯(6)聚集運算4.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型3.數(shù)據(jù)倉庫的數(shù)據(jù)清理轉(zhuǎn)723.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取對象表
3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取對象表733.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取規(guī)則表3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)源抽取規(guī)則表743.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取的目標列與源列對應(yīng)關(guān)系表3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取的目標列與源列對753.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取過程的排序、概括和導(dǎo)出情況表3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)抽取過程的排序、概括763.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)概括表與事實表對應(yīng)關(guān)系3.4.6數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型數(shù)據(jù)概括表與事實表對應(yīng)關(guān)773.4.7數(shù)據(jù)倉庫的元數(shù)據(jù)模型建立與應(yīng)用數(shù)據(jù)源⑼⑶物理模型查詢統(tǒng)計邏輯模型業(yè)務(wù)分組來源定義加載統(tǒng)計來源-目標映射元數(shù)據(jù)目錄數(shù)據(jù)倉庫前端展示工具⑴⑵⑷⑸a⑹⑺⑻⑽⑿⑸b3.4.7數(shù)據(jù)倉庫的元數(shù)據(jù)模型建立與應(yīng)用⑼⑶物理模型783.4.8邏輯模型的評審邏輯模型的文檔內(nèi)容:主題域分析報告,數(shù)據(jù)粒度劃分模型,數(shù)據(jù)分割策略,指標實體、維實體與詳細類別實體的關(guān)系模式和數(shù)據(jù)抽取模型。對邏輯模型的評審主要集中在主題域是否可以正確地反映用戶的決策分析需求。從用戶對概括數(shù)據(jù)使用的要求,評審數(shù)據(jù)粒度的劃分和數(shù)據(jù)分割策略是否可以滿足用戶決策分析的需要。為提高數(shù)據(jù)倉庫的運行效率是否需要對關(guān)系模式進行反規(guī)范化處理。數(shù)據(jù)的抽取模型是否正確地建立了數(shù)據(jù)源與數(shù)據(jù)倉庫的對應(yīng)關(guān)系。數(shù)據(jù)的約束條件和業(yè)務(wù)規(guī)則是否在這些模型中得到了正確的反映。3.4.8邏輯模型的評審邏輯模型的文檔內(nèi)容:主題域分析報793.5數(shù)據(jù)倉庫的物理模型設(shè)計表的數(shù)據(jù)結(jié)構(gòu)類型、索引策略、數(shù)據(jù)存放位置以及數(shù)據(jù)存儲分配等等。物理模型設(shè)計因素:I/O存取時間、空間利用率和維護的代價。工作:全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法。了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時間要求等。了解外部存儲設(shè)備的特征。3.5數(shù)據(jù)倉庫的物理模型設(shè)計表的數(shù)據(jù)結(jié)構(gòu)類型、索引策略、803.5.1數(shù)據(jù)倉庫設(shè)計的規(guī)范3.5.1數(shù)據(jù)倉庫設(shè)計的規(guī)范813.5.2確定數(shù)據(jù)結(jié)構(gòu)的類型數(shù)據(jù)非規(guī)范化處理的優(yōu)點有:·能減少對表聯(lián)結(jié)的需求,提高數(shù)據(jù)倉庫運行性能?!つ軠p少編寫專門決策支持應(yīng)用程序的工作量,因為運用一些專門的查詢工具,可以更容易訪問數(shù)據(jù)?!た梢宰層脩粢灾庇^的易于理解的工具來操作數(shù)據(jù),例如,可以利用電子報表來查看數(shù)據(jù)。3.5.2確定數(shù)據(jù)結(jié)構(gòu)的類型數(shù)據(jù)非規(guī)范化處理的優(yōu)點有:823.5.3數(shù)據(jù)倉庫索引的創(chuàng)建1.索引創(chuàng)建策略建立索引時,按照索引使用的頻率,由高到低逐步添加。按主關(guān)鍵字和大多數(shù)外部關(guān)鍵字建立索引
2.事實表索引的創(chuàng)建事實表中一定要設(shè)置主鍵
3.維表索引的創(chuàng)建4.數(shù)據(jù)加載索引的創(chuàng)建3.5.3數(shù)據(jù)倉庫索引的創(chuàng)建1.索引創(chuàng)建策略833.5.4確定數(shù)據(jù)存放位置數(shù)據(jù)的布局原則:·不要把經(jīng)常需要連接的幾張表放在同一存儲設(shè)備上?!と绻麕着_服務(wù)器之間的連接會造成嚴重的網(wǎng)絡(luò)業(yè)務(wù)量的問題,則要考慮服務(wù)器復(fù)制表格。·考慮把整個企業(yè)共享的細節(jié)數(shù)據(jù)放在主機或其他集中式服務(wù)器上?!e把表格和它們的索引放在同一設(shè)備上。一般可以將索引存放在高速存儲設(shè)備上,而表格則存放在一般存儲設(shè)備上,以加快數(shù)據(jù)的查詢速度。3.5.4確定數(shù)據(jù)存放位置數(shù)據(jù)的布局原則:843.5.5確定存儲分配3.5.6數(shù)據(jù)倉庫物理模型的評審理設(shè)計評審的目標要確定:物理模型在滿足數(shù)據(jù)倉庫使用的靈活性、性能、數(shù)據(jù)完整性、系統(tǒng)可用性、數(shù)據(jù)的當前性和用戶的滿意度等
具體的評審項目有:表空間、分區(qū)、表格、數(shù)據(jù)壓縮、控制表和引用表、索引、數(shù)據(jù)量、數(shù)據(jù)分布、線路通信量、數(shù)據(jù)倉庫的更新、概況數(shù)據(jù)、預(yù)期變動和數(shù)據(jù)的文檔化。3.5.5確定存儲分配3.5.6數(shù)據(jù)倉庫物理模型的評853.6數(shù)據(jù)倉庫的實施
實施過程中需要完成的工作:建立數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)的接口數(shù)據(jù)倉庫的體系結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微生物檢驗技術(shù)核心試題及答案
- 項目創(chuàng)新管理與創(chuàng)造力的關(guān)系試題及答案
- 2024年項目管理考試反饋試題及答案
- 市場營銷戰(zhàn)略規(guī)劃考核試卷
- 2024年項目管理考試動態(tài)試題及答案
- 畜牧養(yǎng)殖廢棄物處理與利用技術(shù)研究與應(yīng)用案例分析報告考核試卷
- 項目團隊沖突解決的有效策略試題及答案
- 氣相色譜分析試劑的選擇與應(yīng)用考核試卷
- 2024年項目管理考試應(yīng)試技巧試題及答案
- 慶陽中式門牌樓施工方案
- 光明乳業(yè)財務(wù)戰(zhàn)略研究
- 水電站斜井工程施工方案
- 第六單元實驗活動3創(chuàng)新實驗:二氧化碳的制取與性質(zhì)一體化實驗說課-2024-2025學年九年級化學人教版上冊
- 工地會議室使用管理制度
- 3000道兩位數(shù)進位退位加減法題1
- 2024年東南亞智能聯(lián)網(wǎng)電視(Connected TV)市場深度研究及預(yù)測報告
- 中西醫(yī)結(jié)合內(nèi)科學-主治復(fù)習
- 2022年版 義務(wù)教育《數(shù)學》課程標準
- 2025深圳市中考英語 語法填空 專項復(fù)習課件
- 《鐵路職業(yè)道德》課件-2.1鐵路職業(yè)道德的內(nèi)涵及規(guī)范
- 機器學習課件周志華Chap08集成學習
評論
0/150
提交評論