數據倉庫設計課件_第1頁
數據倉庫設計課件_第2頁
數據倉庫設計課件_第3頁
數據倉庫設計課件_第4頁
數據倉庫設計課件_第5頁
已閱讀5頁,還剩75頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第3章數據倉庫設計第3章數據倉庫設計13.l數據倉庫中數據模型概述3.1.1數據模型的概念GraceFemaleStudentsStudents&Courses個體特性整體整體間聯系概念世界實體屬性同質總體異質總體計算機世界記錄字段表文件數據庫圖3-1現實世界到計算機世界的演化過程現實世界邏輯世界3.l數據倉庫中數據模型概述3.1.1數據模型的概念Grac2圖3-2數據模型關系現實世界概念模型邏輯模型物理模型數據倉庫粒度模型元數據模型現實世界概念模型邏輯模型物理模型數據倉庫粒度模型元數據模型33.1.2數據倉庫模型構建的原則1.滿足不同用戶的需求2.兼顧效率與數據粒度的需要3.支持需求的變化4.避免對業務運營系統造成影響5.考慮未來的可擴展性3.1.2數據倉庫模型構建的原則1.滿足不同用戶的需求43.1.3企業數據模型圖3-3分層數據模型目標、結構業務數據分類概念數據模型邏輯應用視圖物理數據庫設計抽象具體總體分步3.1.3企業數據模型目標、結構業務數據分類概念數據模型邏輯53.2概念模型設計3.2.l企業模型的建立1.E-R模型的概念模型設計過程圖3-4E-R模型的概念模型設計過程

任務和環境評估需求的收集分析主題選取,確定主題間關系容描述主題內E-R圖對主題的選擇進行調整3.2概念模型設計3.2.l企業模型的建立任務和環境評估需求62.E-R模型設計中的一些說明(1)模糊性:無法表述數據倉庫中各數據間的關系,比如:分析數據,描述數據和細節數據間的關系;(2)靜態性:時間參數的存在及作用無法體現;(3)局限性:無法揭示數據倉庫中數據的導出關系。為了規避這些不足,在E-R圖法中,實體被分為事實實體(FactEntity),維度實體(DimensionEntity),引用實體(QuotationEntity),用圖3-5中的圖形分別表示:事實實體維度實體引用實體圖3-5E-R圖中各實體符號2.E-R模型設計中的一些說明事實實體維度實體引用實體圖3-73.2.2數據模型的規范表3-1數據倉庫數據與普通數據庫系統數據的對比數據倉庫的數據普通數據庫系統的數據長期框架短期框架靜態快速變化(動態)數據一般是匯總的記錄級的訪問特殊查詢訪問標準查詢訪問定期更新實時更新數據驅動時間驅動3.2.2數據模型的規范表3-1數據倉庫數據與普通數據83.2.3常見的概念模型1.星形模型事實表維度表維度表維度表維度表維度表維度表圖3-8星形模型結構示意圖3.2.3常見的概念模型1.星形模型事實表維度表維度表維度表92.雪花模型詳細類別表事實表維度表維度表維度表維度表維度表維度表詳細類別表圖3-10雪花模型示例2.雪花模型詳細類別表事實表維度表維度表維度表維度表維度表維103.事實星座模型這種模型用于更為復雜的情況。它的中心不只一個中心,而是由多個中心組成,即存在多個事實表,而每個事實表擁有自己的一組維度表,這些維度表又有可能共享一個事實表,形成一個交叉,復雜的關系網絡。但是這種模型在實踐中運用較少。3.事實星座模型這種模型用于更為復雜的情況。它的中心不只一113.3邏輯模型設計中間層邏輯模型中間層邏輯模型中間層邏輯模型中間層邏輯模型中間層邏輯模型圖3-11高層概念模型與邏輯模型的關系3.3邏輯模型設計中間層邏輯模型中間層邏輯模型中間層邏輯模12超類型子類型初始數據組連接數據組二次數據組類型數據組圖3-12邏輯模型中四種基本結構超類型子類型初始數據組連接數據組二次數據組類型數據組圖3-1133.3.l概念模型到邏輯數據模型的轉換下面我們以這個例子為基礎來介紹一下概念模型是如何向星形模型轉化的。首先,我們了解一下星形模型的設計步驟:1.確定決策需求分析2.從需求中識別出事實3.確定維4.確定數據匯總的水平5.設計事實表和維度表6.檢驗設計方案的有效性(DBMS和分析用戶工具)7.設計方案隨需求變化而改動3.3.l概念模型到邏輯數據模型的轉換下面我們以這個例子為基143.3.2數據表的規范化與分割前面我們已經介紹過了什么是依賴,下面把數據表規范化過程簡單歸納如下:除去函數依賴的數據表中的無關的列;移動可以由某些函數依賴推導出的函數依賴;按相同的決定因素重排函數依賴;對每個函數依賴組,用決定因素作為主關鍵字造表;合并包含其他表的所有列:選擇其中一個獨立表的主關鍵字作為合并后表的主關鍵字;給不作為新表的主關鍵字的其他主關鍵字定義唯3.3.2數據表的規范化與分割前面我們已經介紹過了153.3.3維度表的設計維度表的設計是對事實表的進一步細化。它也要根據邏輯模型來設計。每個事實表都需要大量的數據來對其屬性和細節進行詳細說明,而維度表就是將這些詳細說明的數據按其邏輯關系存放的工具。一個維度表擁有很多屬性,這些屬性可以是文字,離散值和有規定的限制,在分析過程中可以作為信息的行標題。需要注意的是,在設計事實表和維度表之間的關系時,盡量讓維度表中的數據直接參考事實表中的數據,而不是通過其他維度表間接參考事實表。這樣,可以最小化表之間的連接數量,減少系統CPU和I/O通道及存儲設備的負擔。3.3.3維度表的設計維度表的設計是對事實表的進一步細化。它163.3.4事實表的設計事實表是星形模型的核心。它一般包含兩部分:鍵和詳細指標。其中,鍵又分為主鍵和外鍵,它們將各維表組織起來,共同滿足用戶的查詢需求,而詳細指標則是記錄在事實表中的具體數據,供查詢使用。3.3.4事實表的設計事實表是星形模型的核心。它一般包含兩部173.3.5數據集市設計獨立數據集市用戶圖3-18獨立型數據集市結構3.3.5數據集市設計獨立數據集市用戶圖3-18獨立型數18從屬型數據集市結構如圖3-19所示從屬數據集市圖3-19從屬型數據集市結構從屬型數據集市結構如圖3-19所示從屬數據集市圖3-19193.3物理模型設計定義數據存儲結構RAID0數據帶狀分布在多個磁盤上,無冗余。高性能,低成本,但磁盤損壞導致整個磁盤整列無法使用。RAID1磁盤鏡像,數據寫入成對的冗余驅動器。可讀性能高,可靠性高,昂貴。RAID2數據按位或塊交錯分布,校驗碼由額外驅動器存儲。高性能,糾錯一位,驗錯兩位,昂貴。RAID3數據按位或塊交錯存儲,一個驅動器存儲校驗數據。對大塊數據性能較高,不支持運行恢復。RAID4數據按扇區交錯存儲,校驗數據由專門驅動器存儲。處理多個系統的I/O操作,兩個驅動器。RAID5數據按扇區交錯存儲于多個驅動器。不需專門的校驗驅動器,需要兩個或三個驅動器,寫入能力弱。圖3-20RAID技術3.3物理模型設計定RAID0RAID1RAID2RAID320索引策略20020701001-2002070105020020701051-2002070110020020701001-2002070102520020701026-2002070105020020701051-2002070107020020701071-200207011002002070100120020701002……2002070102620020701027……2002070105120020701070……2002070107120020701072……圖3-21B-TREE索引示例20020701026——地址20020701027——地址……——地址指向數據行的指針索引策略20020701001-2002070105020021數據存儲策略物理模型設計過程中,要注意考慮數據存儲。因為,數據倉庫不要求把同一主題的數據放在同一介質上,所以我們可以根據數據的重要程度,使用頻率和響應時間來存放數據,一般而言,將那些重要程度高,使用頻率高和響應時間要求高的數據存放在高速存儲設備上,比如:硬盤,而其它的數據則可以放在低速存儲設備上,比如磁盤等。數據存儲策略物理模型設計過程中,要注意考慮數據存儲。因為,22存儲分配優化1.設定正確的塊大小2.設置適當的塊使用參數3.數據遷移管理4.塊使用管理5.解決動態擴展6.采用文件分帶技術存儲分配優化1.設定正確的塊大小23數據加載設計數據倉庫要求的一個重要技術就是能高效地載入數據。有兩種方式:通過一個語言接口一次載入一條記錄或使用一種工具全體批量地裝入。注意,在裝載數據時,索引也必須隨之裝入。若數據裝載的容量負荷太大的情況下,可以采用并行裝載。它將數據分為幾個工作流,這樣所需時間就大大降低。此外,還有一種高效裝載方法是在裝載前先對數據進行緩沖處理。這種方法一般在數據量大且復雜程度高的情況下使用。數據加載設計數據倉庫要求的一個重要技術就是能高效地載入數據24物理模型的設計對數據倉庫性能的影響在物理模型的設計階段,同時也要考慮數據倉庫性能。為了兼顧數據倉庫性能,我們在這個階段應從以下幾個方面入手:合理控制數據規范化程度,主要方法有:表的歸并,允許數據冗余;存儲策略,主要有:服務器的數據分散存儲,磁盤級的存儲優化;RAID技術;科學的索引方法,主要有B-TREE索引,位圖索引等;合理控制數據粒度;合理的數據。物理模型的設計對數據倉庫性能的影響在物理模型的設計階段,同253.4元數據模型為了讓讀者能更準確的了解什么是元數據,我們用下例進行說明,它定義了數據倉庫中的一個表,如表3-3所示。表3-3元數據舉例Table邏輯名學生定義學校的主要成員,主要進行學習任務物理存儲Student.table(數據庫表)建立日期2006年9月13日最后更新日期2007年9月13日更新周期每月表邏輯程序名STUDENT(程序名稱)3.4元數據模型為了讓讀者能更準確的了解什么是元數據,我們用263.4.l元數據的類型按照不同的依據對元數據分類各不相同,可有以下的分類依據:元數據描述的內容用戶的角度元數據在數據倉庫中承擔的任務數據倉庫功能區域劃分3.4.l元數據的類型按照不同的依據對元數據分類各不相同,273.4.2元數據的作用1.元數據在數據求精,開發,重構中的作用(1)描述業務規則與數據之間的映射。(2)數據分割。(3)概括與聚集。(4)提高系統靈活性。(5)定義標準處理的規則。(6)預算與推倒。(7)轉換與再映射。3.4.2元數據的作用1.元數據在數據求精,開發,重構中的作282.元數據在數據抽取,轉換中的作用(1)確定數據來源。(3)實現屬性間的映射與轉換。(2)保證數據倉庫中內容的質量。2.元數據在數據抽取,轉換中的作用293.4.3元數據的收集與維護1.元數據的收集(1)來源于源系統元數據操作型系統數據模型系統文檔的數據元素定義COBOL寫字板及控制塊規范物理文件布局及字段定義程序規范外部數據來源的文件布局和字段定義其他來源(如:電子表格)圖3-23源系統中元數據收集3.4.3元數據的收集與維護1.元數據的收集元數據操作型系統30(2)來源于抽取的數據元數據源平臺的數據和連接所選擇的數據源的布局和定義每個平臺上初始抽取文件的合并準則用于抽取的字段定義標準化字段類型與長度的規則數據抽取計劃增量修改的抽取方法數據抽取任務流圖3-24從抽取的數據種收集元數據(2)來源于抽取的數據元數據源平臺的數據和連接所選擇的數據31(3)來源于轉換和清理的數據元數據抽取文件到數據準備文件的映射規范單獨文件的轉換規則字段默認有效性檢查的商業規則分類及重排序安排從數據抽取到數據準備的審查跟蹤圖3-25從轉換和清洗的數據中收集元數據(3)來源于轉換和清理的數據元數據抽取文件到數據準備文件的映32(4)來源于裝載的數據元數據從數據準備文件到裝載映像的映射規則數據準備到裝載映像的審查跟蹤為每個文件分配鍵時的分配規則完全刷新的計劃增量裝載的計劃數據裝載任務流圖3-26從數據裝載中收集元數據(4)來源于裝載的數據元數據從數據準備文件到裝載映像的映射規33(5)來源于存儲的數據元數據集中式數據倉庫和獨立數據集市數據模型統一化數據集市數據模型多個表組成的主題區域物理文件表和列定義有效性檢查的商業規則圖3-27從數據裝載中收集元數據(5)來源于存儲的數據元數據集中式數據倉庫和獨立數據集市數據34(6)來源于信息傳遞元數據預定義查詢和報表的列表特殊OLAP數據庫德數據模型查詢和報表工具列表為OLAP檢索數據的計劃圖3-28從數據裝載中收集元數據(6)來源于信息傳遞元數據預定義查詢和報表的列表特殊OLAP352.元數據的維護(1)元數據的存儲(2)元數據的管理(3)元數據的維護2.元數據的維護363.4.4元數據的使用數據倉庫對元數據的使用主要體現在兩個方面:第一,因為元數據對數據倉庫中數據的內容和出處進行了詳細說明,所以,用戶可以根據主題利用元數據來查看數據倉庫的內容;第二,因為元數據提供了可重復利用的查詢語言信息,所以,如果這些查詢中的一個或幾個能滿足用戶的需求,或與用戶需求相近,用戶就可以直接使用元數據中的查詢,而不用重新編寫程序。3.4.4元數據的使用373.5數據倉庫的粒度模型3.5.l粒度的劃分所謂粒度是指數據倉庫中數據單元的詳細程度和級別。在數據倉庫環境中主要是分析型處理,粒度的劃分將直接影響數據倉庫中的數據量以及所適合的查詢類型。一般需要將數據劃分為:詳細數據、輕度綜合、高度綜合三級或更多級粒度。不同粒度級別的數據用于不同類型的分析處理。粒度的劃分是數據倉庫設計工作的一項重要內容,粒度劃分是否適當是影響數據倉庫性能的一個重要方面。3.5數據倉庫的粒度模型3.5.l粒度的劃分383.5.2粒度級別的確定在數據倉庫中確定粒度的級別時,需要考慮這樣一些因素:要接受的分析類型、可接受的數據最低粒度和能存儲的數據量。粒度級別的確定是需要一點常識和直覺的。因為在很低的細節級上建立數據倉庫沒有意義,在很高的粒度級上建立數據倉庫,會使很多數據溢出存儲器。因此,確定粒度級別要做兩件事。第二,對需要從數據倉庫獲取數據的不同體系結構實體需求進行預測。第一,合理的推測。3.5.2粒度級別的確定在數據倉庫中確定粒度的級別時,需要考39習題1.什么是元數據模型?2.數據倉庫可劃分為哪三個層次的數據模型?3.闡述星形模型、雪花模型、事實星座模型的概念。4.簡述從概念模型到邏輯數據模型的轉換過程。5.什么是數據表的規范化?6.簡述事實表的設計。7.數據加載有哪兩種方式?8.按元數據描述的內容分可以分為哪幾類?9.什么是靜態元數據?什么是動態元數據?10.如何確定粒度級別?習題40第3章數據倉庫設計第3章數據倉庫設計413.l數據倉庫中數據模型概述3.1.1數據模型的概念GraceFemaleStudentsStudents&Courses個體特性整體整體間聯系概念世界實體屬性同質總體異質總體計算機世界記錄字段表文件數據庫圖3-1現實世界到計算機世界的演化過程現實世界邏輯世界3.l數據倉庫中數據模型概述3.1.1數據模型的概念Grac42圖3-2數據模型關系現實世界概念模型邏輯模型物理模型數據倉庫粒度模型元數據模型現實世界概念模型邏輯模型物理模型數據倉庫粒度模型元數據模型433.1.2數據倉庫模型構建的原則1.滿足不同用戶的需求2.兼顧效率與數據粒度的需要3.支持需求的變化4.避免對業務運營系統造成影響5.考慮未來的可擴展性3.1.2數據倉庫模型構建的原則1.滿足不同用戶的需求443.1.3企業數據模型圖3-3分層數據模型目標、結構業務數據分類概念數據模型邏輯應用視圖物理數據庫設計抽象具體總體分步3.1.3企業數據模型目標、結構業務數據分類概念數據模型邏輯453.2概念模型設計3.2.l企業模型的建立1.E-R模型的概念模型設計過程圖3-4E-R模型的概念模型設計過程

任務和環境評估需求的收集分析主題選取,確定主題間關系容描述主題內E-R圖對主題的選擇進行調整3.2概念模型設計3.2.l企業模型的建立任務和環境評估需求462.E-R模型設計中的一些說明(1)模糊性:無法表述數據倉庫中各數據間的關系,比如:分析數據,描述數據和細節數據間的關系;(2)靜態性:時間參數的存在及作用無法體現;(3)局限性:無法揭示數據倉庫中數據的導出關系。為了規避這些不足,在E-R圖法中,實體被分為事實實體(FactEntity),維度實體(DimensionEntity),引用實體(QuotationEntity),用圖3-5中的圖形分別表示:事實實體維度實體引用實體圖3-5E-R圖中各實體符號2.E-R模型設計中的一些說明事實實體維度實體引用實體圖3-473.2.2數據模型的規范表3-1數據倉庫數據與普通數據庫系統數據的對比數據倉庫的數據普通數據庫系統的數據長期框架短期框架靜態快速變化(動態)數據一般是匯總的記錄級的訪問特殊查詢訪問標準查詢訪問定期更新實時更新數據驅動時間驅動3.2.2數據模型的規范表3-1數據倉庫數據與普通數據483.2.3常見的概念模型1.星形模型事實表維度表維度表維度表維度表維度表維度表圖3-8星形模型結構示意圖3.2.3常見的概念模型1.星形模型事實表維度表維度表維度表492.雪花模型詳細類別表事實表維度表維度表維度表維度表維度表維度表詳細類別表圖3-10雪花模型示例2.雪花模型詳細類別表事實表維度表維度表維度表維度表維度表維503.事實星座模型這種模型用于更為復雜的情況。它的中心不只一個中心,而是由多個中心組成,即存在多個事實表,而每個事實表擁有自己的一組維度表,這些維度表又有可能共享一個事實表,形成一個交叉,復雜的關系網絡。但是這種模型在實踐中運用較少。3.事實星座模型這種模型用于更為復雜的情況。它的中心不只一513.3邏輯模型設計中間層邏輯模型中間層邏輯模型中間層邏輯模型中間層邏輯模型中間層邏輯模型圖3-11高層概念模型與邏輯模型的關系3.3邏輯模型設計中間層邏輯模型中間層邏輯模型中間層邏輯模52超類型子類型初始數據組連接數據組二次數據組類型數據組圖3-12邏輯模型中四種基本結構超類型子類型初始數據組連接數據組二次數據組類型數據組圖3-1533.3.l概念模型到邏輯數據模型的轉換下面我們以這個例子為基礎來介紹一下概念模型是如何向星形模型轉化的。首先,我們了解一下星形模型的設計步驟:1.確定決策需求分析2.從需求中識別出事實3.確定維4.確定數據匯總的水平5.設計事實表和維度表6.檢驗設計方案的有效性(DBMS和分析用戶工具)7.設計方案隨需求變化而改動3.3.l概念模型到邏輯數據模型的轉換下面我們以這個例子為基543.3.2數據表的規范化與分割前面我們已經介紹過了什么是依賴,下面把數據表規范化過程簡單歸納如下:除去函數依賴的數據表中的無關的列;移動可以由某些函數依賴推導出的函數依賴;按相同的決定因素重排函數依賴;對每個函數依賴組,用決定因素作為主關鍵字造表;合并包含其他表的所有列:選擇其中一個獨立表的主關鍵字作為合并后表的主關鍵字;給不作為新表的主關鍵字的其他主關鍵字定義唯3.3.2數據表的規范化與分割前面我們已經介紹過了553.3.3維度表的設計維度表的設計是對事實表的進一步細化。它也要根據邏輯模型來設計。每個事實表都需要大量的數據來對其屬性和細節進行詳細說明,而維度表就是將這些詳細說明的數據按其邏輯關系存放的工具。一個維度表擁有很多屬性,這些屬性可以是文字,離散值和有規定的限制,在分析過程中可以作為信息的行標題。需要注意的是,在設計事實表和維度表之間的關系時,盡量讓維度表中的數據直接參考事實表中的數據,而不是通過其他維度表間接參考事實表。這樣,可以最小化表之間的連接數量,減少系統CPU和I/O通道及存儲設備的負擔。3.3.3維度表的設計維度表的設計是對事實表的進一步細化。它563.3.4事實表的設計事實表是星形模型的核心。它一般包含兩部分:鍵和詳細指標。其中,鍵又分為主鍵和外鍵,它們將各維表組織起來,共同滿足用戶的查詢需求,而詳細指標則是記錄在事實表中的具體數據,供查詢使用。3.3.4事實表的設計事實表是星形模型的核心。它一般包含兩部573.3.5數據集市設計獨立數據集市用戶圖3-18獨立型數據集市結構3.3.5數據集市設計獨立數據集市用戶圖3-18獨立型數58從屬型數據集市結構如圖3-19所示從屬數據集市圖3-19從屬型數據集市結構從屬型數據集市結構如圖3-19所示從屬數據集市圖3-19593.3物理模型設計定義數據存儲結構RAID0數據帶狀分布在多個磁盤上,無冗余。高性能,低成本,但磁盤損壞導致整個磁盤整列無法使用。RAID1磁盤鏡像,數據寫入成對的冗余驅動器。可讀性能高,可靠性高,昂貴。RAID2數據按位或塊交錯分布,校驗碼由額外驅動器存儲。高性能,糾錯一位,驗錯兩位,昂貴。RAID3數據按位或塊交錯存儲,一個驅動器存儲校驗數據。對大塊數據性能較高,不支持運行恢復。RAID4數據按扇區交錯存儲,校驗數據由專門驅動器存儲。處理多個系統的I/O操作,兩個驅動器。RAID5數據按扇區交錯存儲于多個驅動器。不需專門的校驗驅動器,需要兩個或三個驅動器,寫入能力弱。圖3-20RAID技術3.3物理模型設計定RAID0RAID1RAID2RAID360索引策略20020701001-2002070105020020701051-2002070110020020701001-2002070102520020701026-2002070105020020701051-2002070107020020701071-200207011002002070100120020701002……2002070102620020701027……2002070105120020701070……2002070107120020701072……圖3-21B-TREE索引示例20020701026——地址20020701027——地址……——地址指向數據行的指針索引策略20020701001-2002070105020061數據存儲策略物理模型設計過程中,要注意考慮數據存儲。因為,數據倉庫不要求把同一主題的數據放在同一介質上,所以我們可以根據數據的重要程度,使用頻率和響應時間來存放數據,一般而言,將那些重要程度高,使用頻率高和響應時間要求高的數據存放在高速存儲設備上,比如:硬盤,而其它的數據則可以放在低速存儲設備上,比如磁盤等。數據存儲策略物理模型設計過程中,要注意考慮數據存儲。因為,62存儲分配優化1.設定正確的塊大小2.設置適當的塊使用參數3.數據遷移管理4.塊使用管理5.解決動態擴展6.采用文件分帶技術存儲分配優化1.設定正確的塊大小63數據加載設計數據倉庫要求的一個重要技術就是能高效地載入數據。有兩種方式:通過一個語言接口一次載入一條記錄或使用一種工具全體批量地裝入。注意,在裝載數據時,索引也必須隨之裝入。若數據裝載的容量負荷太大的情況下,可以采用并行裝載。它將數據分為幾個工作流,這樣所需時間就大大降低。此外,還有一種高效裝載方法是在裝載前先對數據進行緩沖處理。這種方法一般在數據量大且復雜程度高的情況下使用。數據加載設計數據倉庫要求的一個重要技術就是能高效地載入數據64物理模型的設計對數據倉庫性能的影響在物理模型的設計階段,同時也要考慮數據倉庫性能。為了兼顧數據倉庫性能,我們在這個階段應從以下幾個方面入手:合理控制數據規范化程度,主要方法有:表的歸并,允許數據冗余;存儲策略,主要有:服務器的數據分散存儲,磁盤級的存儲優化;RAID技術;科學的索引方法,主要有B-TREE索引,位圖索引等;合理控制數據粒度;合理的數據。物理模型的設計對數據倉庫性能的影響在物理模型的設計階段,同653.4元數據模型為了讓讀者能更準確的了解什么是元數據,我們用下例進行說明,它定義了數據倉庫中的一個表,如表3-3所示。表3-3元數據舉例Table邏輯名學生定義學校的主要成員,主要進行學習任務物理存儲Student.table(數據庫表)建立日期2006年9月13日最后更新日期2007年9月13日更新周期每月表邏輯程序名STUDENT(程序名稱)3.4元數據模型為了讓讀者能更準確的了解什么是元數據,我們用663.4.l元數據的類型按照不同的依據對元數據分類各不相同,可有以下的分類依據:元數據描述的內容用戶的角度元數據在數據倉庫中承擔的任務數據倉庫功能區域劃分3.4.l元數據的類型按照不同的依據對元數據分類各不相同,673.4.2元數據的作用1.元數據在數據求精,開發,重構中的作用(1)描述業務規則與數據之間的映射。(2)數據分割。(3)概括與聚集。(4)提高系統靈活性。(5)定義標準處理的規則。(6)預算與推倒。(7)轉換與再映射。3.4.2元數據的作用1.元數據在數據求精,開發,重構中的作682.元數據在數據抽取,轉換中的作用(1)確定數據來源。(3)實現屬性間的映射與轉換。(2)保證數據倉庫中內容的質量。2.元數據在數據抽取,轉換中的作用693.4.3元數據的收集與維護1.元數據的收集(1)來源于源系統元數據操作型系統數據模型系統文檔的數據元素定義COBOL寫字板及控制塊規范物理文件布局及字段定義程序規范外部數據來源的文件布局和字段定義其他來源(如:電子表格)圖3-23源系統中元數據收集3.4.3元數據的收集與維護1.元數據的收集元數據操作型系統70(2)來源于抽取的數據元數據源平臺的數據和連接所選擇的數據源的布局和定義每個平臺上初始抽取文件的合并準則用于抽取的字段定義標準化字段類型與長度的規則數據抽取計劃增量修改的抽取方法數據抽取任務流圖3-24從抽取的數據種收集元數據(2)來源于抽取的數據元數據源平臺的數據和連接所選擇的數據71(3)來源于轉換和清理的數據元數據抽取文件到數據準備文件的映射規范單獨文件的轉換規則字段默認有效性檢查的商業規則分類及重排序安排從數據抽取到數據準備的審查跟蹤圖3-25從轉換和清洗的數據中收集元數據(3)來源于轉換和清理的數據元數據抽取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論