UIT2數(shù)據(jù)倉庫的環(huán)境_第1頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第2頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第3頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第4頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1unit twounit two數(shù)據(jù)倉庫環(huán)境數(shù)據(jù)倉庫環(huán)境 2學完本講后,你應該能夠了解:1.數(shù)據(jù)倉庫的定義;2.數(shù)據(jù)倉庫的特點是:面向主題的、集成的、非易失的和隨時間變化的;3.數(shù)據(jù)倉庫的多粒度數(shù)據(jù)結構可滿足不同層次的需求,且粒度與分割技術是提高數(shù)據(jù)倉庫性能的兩個關鍵技術;4.建立數(shù)據(jù)倉庫的典型過程是由核心逐步擴展的過程,隨著擴展,數(shù)據(jù)倉庫面臨著性能下降的問題;5.數(shù)據(jù)倉庫中的數(shù)據(jù)不是多數(shù)據(jù)庫數(shù)據(jù)的簡單堆積,而是通過多種主要方式來組織:簡單堆積文件、輪轉綜合文件、簡單直接文件和連續(xù)文件;6.數(shù)據(jù)倉庫中的數(shù)據(jù)是有生命周期的,需要定期做數(shù)據(jù)清理。本 講 主 要 目 標3一數(shù)據(jù)倉庫的定義一數(shù)據(jù)倉庫

2、的定義二數(shù)據(jù)倉庫的特點二數(shù)據(jù)倉庫的特點三數(shù)據(jù)倉庫的數(shù)據(jù)結構三數(shù)據(jù)倉庫的數(shù)據(jù)結構四建立數(shù)據(jù)倉庫的典型過程四建立數(shù)據(jù)倉庫的典型過程五數(shù)據(jù)倉庫的數(shù)據(jù)組織形式五數(shù)據(jù)倉庫的數(shù)據(jù)組織形式六六. . 清理數(shù)據(jù)倉庫清理數(shù)據(jù)倉庫4數(shù)據(jù)倉庫數(shù)據(jù)倉庫的定義的定義5世 界 公 認 的 數(shù) 據(jù) 倉 庫 概 念 創(chuàng) 始 人w.h.inmon在數(shù)據(jù)倉庫(building the data warehouse)一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、非易失的(穩(wěn)定性)、隨時間變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。6數(shù)據(jù)倉庫數(shù)據(jù)倉庫的特點的特點71.數(shù)據(jù)倉庫的特點面向主題的面向主題的集

3、成的集成的隨時間變化的隨時間變化的非易失的非易失的數(shù)據(jù)倉庫數(shù)據(jù)倉庫82.面向主題的什么是主題? 主題是一個抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,它是對應企業(yè)中某一宏觀分析領域所涉及的分析對象。92.面向主題的客戶財務信息客戶財務信息資產資產股票股票保險保險貸款貸款儲蓄儲蓄102.面向主題的傳統(tǒng)的操作型系統(tǒng)是圍繞公司的應用進行組織的.對一個保險公司來說,應用問題可能是汽車保險、人壽保險與意外傷亡保險。公司的主要主題范圍可能是顧客、保險單、保險費與索賠。112.面向主題的122.面向主題的什么是面向主題的數(shù)據(jù)組織方式?就是在較高層次上對分析對

4、象的數(shù)據(jù)的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。 所謂較高層次是相對面向應用的數(shù)據(jù)組織方式而言的,是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。132.面向主題的 主題以一組相關的表來具體實現(xiàn)142.面向主題的 主題的表通過一個公共鍵值聯(lián)系起來152.面向主題的 一個主題的數(shù)據(jù)可存儲在不同介質上162.面向主題的 相同的數(shù)據(jù)既有綜合級,又有細節(jié)級,每個鍵碼都有一個時間元素173.集成的指數(shù)據(jù)由面向應用的操作型環(huán)境向數(shù)據(jù)倉庫傳送時所進行的集成183.集成的savingscurrent accountsloanscustomer19

5、3.集成的應用問題的設計人員歷經(jīng)多年制定出來的不同的設計決策有很多種不同的表示方法,沒有什么應用在編碼、命名習慣、屬性度量等方面是一致的,各個應用問題設計員自由地做出他或她自己的設計決策。203.集成的214.非易失的操作型數(shù)據(jù)u一次訪問和處理一個記錄u可以對操作型環(huán)境中的數(shù)據(jù)進行更新數(shù)據(jù)倉庫u一起載入與訪問大量數(shù)據(jù)u不進行一般意義上的數(shù)據(jù)更新224.非易失的234.非易失的245.隨時間變化的u數(shù)據(jù)倉庫中的數(shù)據(jù)時間期限要遠遠長于操作型系統(tǒng)中的時間期限u操作型數(shù)據(jù)庫含有“當前值”的數(shù)據(jù),這些數(shù)據(jù)的準確性在訪問時是有效的,并且是可更新的;數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時刻生成的復雜的快照u操作

6、型數(shù)據(jù)的鍵結構可能包含也可能不包含時間元素,而數(shù)據(jù)倉庫的鍵結構總是包含某時間元素255.隨時間變化的01/9702/9703/97januaryfebruarymarchtimedata199719971997265.隨時間變化的27數(shù)據(jù)倉庫數(shù)據(jù)倉庫的數(shù)據(jù)結構的數(shù)據(jù)結構281.數(shù)據(jù)倉庫的數(shù)據(jù)結構在數(shù)據(jù)倉庫中,數(shù)據(jù)存在著不同的細節(jié)級:u早期細節(jié)級(通常是備用的、批量的存儲)u當前細節(jié)級u輕度綜合數(shù)據(jù)級(數(shù)據(jù)集市)u高度數(shù)據(jù)綜合級291.數(shù)據(jù)倉庫的數(shù)據(jù)結構高度綜合級輕度綜合級當前細節(jié)級早期細節(jié)級集成轉換dss映射元數(shù)據(jù)db分析工具數(shù)據(jù)倉庫的多粒度數(shù)據(jù)組織301.數(shù)據(jù)倉庫的數(shù)據(jù)結構312.粒度問題u

7、粒度 是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級別越小u粒度問題是設計數(shù)據(jù)倉庫的一個最重要的方面322.粒度問題u粒度的設計問題:粒度的大小影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時,影響數(shù)據(jù)倉庫所能回答的查詢類型332.粒度問題 粒度大小影響數(shù)據(jù)量342.粒度問題 粒度大小影響回答查詢的能力352.粒度問題 粒度的權衡很重要,但很難363.樣本數(shù)據(jù)庫樣本數(shù)據(jù)庫是真實檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的子集373.樣本數(shù)據(jù)庫u樣本數(shù)據(jù)庫是另一種在數(shù)據(jù)倉庫中改變粒度的方法u樣本數(shù)據(jù)庫不是通用的數(shù)據(jù)庫,只適用于作統(tǒng)計分析和觀察發(fā)展趨勢u樣本數(shù)據(jù)庫的最大好處是存取效率非常高384

8、.數(shù)據(jù)分割 u數(shù)據(jù)分割是把結構相同的數(shù)據(jù)劃分成小的、不重疊的物理單元,它們能夠獨立地被處理u在數(shù)據(jù)倉庫中,圍繞分割問題的焦點不是該不該分割,而是如何分割u數(shù)據(jù)分割是數(shù)據(jù)倉庫中數(shù)據(jù)的第二個主要的設計問題394.數(shù)據(jù)分割 - 把結構相同的數(shù)據(jù)劃分成小的、不重疊的物理單元404.數(shù)據(jù)分割 分割標準u時間u商業(yè)u地理位置u組織單位u所有上述標準414.數(shù)據(jù)分割 在應用層對數(shù)據(jù)分割u系統(tǒng)層上分割 - 是某些dbms和操作系統(tǒng)的一種功能;u應用層上分割 - 是由設計的應用程序代碼完成,只由開發(fā)者和程序員嚴格地控制u分割的數(shù)據(jù)可以有不同的定義u能從一個處理集無損地轉移到另一個處理集42建立數(shù)據(jù)倉庫建立數(shù)據(jù)倉

9、庫的典型過程的典型過程43u建立數(shù)據(jù)倉庫只能采用有序地反復和一次一步的方式,進行設計和載入數(shù)據(jù),即它是進化性的,而非革命性的。u突然建立一個數(shù)據(jù)倉庫的費用、需要的資源和對環(huán)境的破壞,都表明數(shù)據(jù)倉庫的建立要采用有序地反復和一次一步的方式44建立數(shù)據(jù)倉庫要采用有序地反復和一次一步的方式45數(shù)據(jù)倉庫的數(shù)據(jù)倉庫的數(shù)據(jù)組織形式數(shù)據(jù)組織形式461.數(shù)據(jù)倉庫的數(shù)據(jù)組織形式u簡單堆積文件u輪轉綜合文件u簡單直接文件u連續(xù)文件472.簡單堆積文件u最簡單、最常用的數(shù)據(jù)組織形式u從操作型環(huán)境中取出每天的事務處理(更新操作),然后綜合成數(shù)據(jù)倉庫記錄,這個綜合可根據(jù)任何組織到數(shù)據(jù)倉庫的主題領域來進行,這里的事務處理是

10、以天來進行綜合u例:對一個顧客的一個帳號的每天的所有活動進行合計,并在一天一天的基礎上輸入數(shù)據(jù)倉庫482.簡單堆積文件493.輪轉綜合文件a.是簡單逐日堆積數(shù)據(jù)的一個變種b.數(shù)據(jù)用與前面相同的處理方法從操作型環(huán)境輸入到數(shù)據(jù)倉庫環(huán)境中,只是輸入到不同的結構形式中。c.第一周的七天中的活動被逐一綜合到七個每日相應的位置,到第八天,將七個每日位置的數(shù)據(jù)加到一起,并放入第一周的數(shù)據(jù)位置中。d.月底將每周位置的數(shù)據(jù)加到一起,并放入當月相應的數(shù)據(jù)位置處503.輪轉綜合文件514.輪轉綜合文件與簡單堆積文件的比較525.簡單直接文件u是間隔一定時間的操作型數(shù)據(jù)的一個快照u不是在每天的基礎上組織數(shù)據(jù),而是以較

11、長時間為單位的,比如,一個星期或者一個月535.簡單直接文件546.連續(xù)文件a.依據(jù)兩個或更多的簡單直接文件能生成一種連續(xù)文件a.將兩個快照合并,創(chuàng)建一個連續(xù)文件b.把一個快照追加到一個以前生成的連續(xù)文件556.連續(xù)文件566.連續(xù)文件57清理數(shù)據(jù)倉庫清理數(shù)據(jù)倉庫581.數(shù)據(jù)是有生命周期的2.休眠數(shù)據(jù)u休眠數(shù)據(jù)休眠數(shù)據(jù)是那些存在于數(shù)據(jù)倉庫中的、當前并不使用、將來也很少使用或者根本就不會使用的數(shù)據(jù)u造成休眠數(shù)據(jù)的原因u由于概括表格的創(chuàng)建u由于錯誤估計實際上所需要的歷史數(shù)據(jù)的年限u由于時間的推移,需求的現(xiàn)實性逐漸明顯u由于堅持讓詳細數(shù)據(jù)駐留在數(shù)據(jù)倉庫中592.休眠數(shù)據(jù)u休眠數(shù)據(jù)的處理1)查找休眠數(shù)據(jù)2)選擇刪除的數(shù)據(jù)數(shù)據(jù)倉庫管理員查看已訪問或不訪問的數(shù)據(jù),確定哪些數(shù)據(jù)應該從數(shù)據(jù)倉庫中刪除。可以使用一個活動監(jiān)視器跟蹤數(shù)據(jù)倉庫用戶過去的活動。3)確定訪問的可能性根據(jù)數(shù)據(jù)的訪問可能性來安全地從數(shù)據(jù)倉庫中刪除數(shù)據(jù)4)刪除休眠數(shù)據(jù)603.清理數(shù)據(jù)的方法u將數(shù)據(jù)加入到一個輪轉綜合文件中u將數(shù)據(jù)從高性能介質轉移到大容量介質上u將數(shù)據(jù)從系統(tǒng)中實際清除u將數(shù)據(jù)從一個體系結構層次轉到另一個層次61學完本講后,你應該能夠了解:1.數(shù)據(jù)倉庫的定義;2.數(shù)據(jù)倉庫的特點是:面向主題的、集成的、非易失的和隨時間變化的;3.數(shù)據(jù)倉庫的多粒度數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論