數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和實(shí)現(xiàn)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和實(shí)現(xiàn)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和實(shí)現(xiàn)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和實(shí)現(xiàn)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和實(shí)現(xiàn)當(dāng)面對(duì)大量的數(shù)據(jù),而且是各種各樣類型的數(shù)據(jù),還可能有的數(shù)據(jù)單元(粒度)很大,單純靠數(shù)據(jù)庫(kù)是不易解決,為了解決這些問(wèn)題,提高系統(tǒng)后臺(tái)的效率,就需要引進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)的幾個(gè)基本問(wèn)題:1.數(shù)據(jù)存儲(chǔ)的方式?數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)由兩種存儲(chǔ)方式:一種是存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,另一種是按多維的方式存儲(chǔ),也就是多維數(shù)組。2.存儲(chǔ)何種數(shù)據(jù)?數(shù)據(jù)倉(cāng)庫(kù)中存在不同的綜合級(jí)別的數(shù)據(jù)。一般把數(shù)據(jù)分成四個(gè)級(jí)別,早期細(xì)節(jié)級(jí)數(shù)據(jù),當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù),輕度綜合級(jí),高度綜合級(jí)。不同的綜合級(jí)別一般稱為粒度。粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高。級(jí)別的劃分是根據(jù)粒度進(jìn)行的。數(shù)據(jù)倉(cāng)庫(kù)中還有一種是元數(shù)據(jù),也就是關(guān)于數(shù)據(jù)的數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)字典或者系統(tǒng)目錄都是元數(shù)據(jù),在數(shù)據(jù)倉(cāng)庫(kù)中元數(shù)據(jù)表現(xiàn)為兩種形式:一種是為了從操作型環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),它包含了數(shù)據(jù)源的各種屬性以及轉(zhuǎn)換時(shí)的各種屬性;另一種元數(shù)據(jù)是用來(lái)與多維模型和前端工具建立映射用的。3.粒度與分割粒度是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的一個(gè)衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多;反之粒度越大,細(xì)節(jié)程度越低,綜合程度越高,回答查詢的種類越少。分割是將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理的效率。數(shù)據(jù)分割后的數(shù)據(jù)單元成為分片。數(shù)據(jù)分割的標(biāo)準(zhǔn)可以根據(jù)實(shí)際情況來(lái)確定,通常可選擇按日期、地域或者業(yè)務(wù)領(lǐng)域等進(jìn)行分割,也可以按照多個(gè)標(biāo)準(zhǔn)組合分割。4.追加時(shí)數(shù)據(jù)的組織方式這里說(shuō)一種比較簡(jiǎn)單的情況,輪轉(zhuǎn)綜合文件。比如:數(shù)據(jù)存儲(chǔ)單位被分為日、周、季度、年等幾個(gè)級(jí)別。每天將數(shù)據(jù)記錄在日記錄集中;然后七天的數(shù)據(jù)被綜合存放在周記錄集中,每隔一季度周記錄集中的數(shù)據(jù)被存放到季度記錄集中,依此類推……這種方法把越早期的記錄存放的綜合程度越高,也就是粒度越大。數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)步驟:一般地,設(shè)計(jì)和創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的步驟是:1.確定用戶需求確定終端用戶的需要,為數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)建立模型。通過(guò)數(shù)據(jù)模型,可以得到企業(yè)完整而清晰的描述信息。數(shù)據(jù)模型是面向主題建立的,同時(shí)又為多個(gè)面向應(yīng)用的數(shù)據(jù)源的集成提供了統(tǒng)一的標(biāo)準(zhǔn)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型一般包括:企業(yè)的各個(gè)主題域、主題域之間的聯(lián)系、描述主題的碼和屬性組。深入地分析企業(yè)的數(shù)據(jù)源,記錄數(shù)據(jù)源系統(tǒng)的功能與處理過(guò)程。一般地,設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)最重要的一步便是要理解商業(yè)動(dòng)作的規(guī)律,只有了解數(shù)據(jù)是如何被處理的,才能分解商業(yè)處理過(guò)程,從中獲取數(shù)據(jù)元素。利用現(xiàn)有系統(tǒng)的信息,確定從源數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型所必須的轉(zhuǎn)化/綜合邏輯。這涉及到應(yīng)該合并轉(zhuǎn)化多少數(shù)據(jù);是綜合所有的數(shù)據(jù)文件還是綜合發(fā)生變化的操作系統(tǒng)文件;轉(zhuǎn)化/綜合過(guò)程應(yīng)該多長(zhǎng)時(shí)間執(zhí)行一次等問(wèn)題。決定數(shù)據(jù)轉(zhuǎn)化與更新頻率是重要的商業(yè)事件。無(wú)論數(shù)據(jù)倉(cāng)庫(kù)的更新是采用事件驅(qū)動(dòng)還是時(shí)間驅(qū)動(dòng),都必須讓數(shù)據(jù)倉(cāng)庫(kù)知道當(dāng)某種事件發(fā)生時(shí)就需要更新數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)建立之前,應(yīng)該寫一個(gè)詳細(xì)的方案和實(shí)現(xiàn)規(guī)劃。這種方案和實(shí)現(xiàn)規(guī)劃包括:建立商業(yè)案例、收集用戶需求、確定技術(shù)需求。建立商業(yè)案例包括由該方案解決的商業(yè)需求、方案的成本和投資的收益。收集用戶需求主要是調(diào)查用戶建立數(shù)據(jù)倉(cāng)庫(kù)的意圖。用戶需求可以確定這些內(nèi)容:數(shù)據(jù)需求(粒度級(jí))、企業(yè)經(jīng)營(yíng)系統(tǒng)包含的數(shù)據(jù)、這些數(shù)據(jù)遵循的商業(yè)規(guī)則、需要提供給用戶的查詢、用戶需要的標(biāo)準(zhǔn)報(bào)告、將要使用的客戶應(yīng)用程序工具。確定技術(shù)要求包括下列內(nèi)容:硬件體系結(jié)構(gòu)和框架(例如,鏈接到數(shù)據(jù)市場(chǎng)所在的地理位置)、備份和恢復(fù)機(jī)制、安全性限制、從經(jīng)營(yíng)系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)加載數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)的方法。2.設(shè)計(jì)和建立數(shù)據(jù)庫(kù)設(shè)計(jì)和建立數(shù)據(jù)庫(kù)是成功地創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)關(guān)鍵步驟。這一步通常由有經(jīng)驗(yàn)的數(shù)據(jù)庫(kù)設(shè)計(jì)人員使用,因?yàn)檫@一步涉及的數(shù)據(jù)來(lái)自多種數(shù)據(jù)源并且要把它們合并成一個(gè)單獨(dú)的邏輯模型。不像OLTP系統(tǒng)那樣以高度的正規(guī)化形式存儲(chǔ)數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)以一種非常非正規(guī)化的形式存儲(chǔ)數(shù)據(jù)以便提高查詢的性能。數(shù)據(jù)倉(cāng)庫(kù)常常使用星型模式和雪花型模式來(lái)存儲(chǔ)數(shù)據(jù),作為OLAP工具管理的合計(jì)基礎(chǔ),以便盡可能快地響應(yīng)復(fù)雜查詢。b.遷移數(shù)據(jù)從經(jīng)營(yíng)系統(tǒng)中遷移數(shù)據(jù)一般是在數(shù)據(jù)拷貝到數(shù)據(jù)倉(cāng)庫(kù)之前,把數(shù)據(jù)拷貝到一個(gè)中間數(shù)據(jù)庫(kù)中。如果數(shù)據(jù)需要凈化,那么把數(shù)據(jù)拷貝到中間數(shù)據(jù)庫(kù)中是必要的。應(yīng)該在OLTP系統(tǒng)中活動(dòng)比較低的時(shí)候拷貝數(shù)據(jù),否則會(huì)降低系統(tǒng)的性能。另外,如果該數(shù)據(jù)倉(cāng)庫(kù)是由來(lái)自多個(gè)相關(guān)經(jīng)營(yíng)系統(tǒng)中的數(shù)據(jù)構(gòu)成,應(yīng)該確保數(shù)據(jù)遷移發(fā)生在系統(tǒng)同步的時(shí)候。如果經(jīng)營(yíng)系統(tǒng)不同步,那么數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)可能會(huì)產(chǎn)生預(yù)想不到的錯(cuò)誤。在MicrosoftSQLServer7中,MicrosoftSQLServerDataTransformationServicesImportandExportwizards可以用來(lái)創(chuàng)建一系列任務(wù),可以把數(shù)據(jù)從異構(gòu)經(jīng)營(yíng)系統(tǒng)中拷貝到一個(gè)運(yùn)行SQLServer的中間數(shù)據(jù)庫(kù)中。c.數(shù)據(jù)凈化數(shù)據(jù)凈化就是使數(shù)據(jù)達(dá)到一致性。在多個(gè)經(jīng)營(yíng)系統(tǒng)中,可能有相同的數(shù)據(jù)。例如,一個(gè)名稱為ABCCooperation的公司可能被寫成ABCCo、ABC、ABCCooperation等。如果這些名稱不一致,那么在查詢的時(shí)候就會(huì)將這個(gè)公司作為兩個(gè)不同的公司處理。如果在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)生成一致的信息,那么該公司的名稱必須完全一致。數(shù)據(jù)凈化可以通過(guò)下面幾種方法得到:在從OLTP系統(tǒng)拷貝到中間數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)時(shí),使用SQLServer的數(shù)據(jù)轉(zhuǎn)換服務(wù)的數(shù)據(jù)引入引出向?qū)薷臄?shù)據(jù)寫一個(gè)連接數(shù)據(jù)源的MicrosoftActiveX腳本或者VisualC++程序,由DTSAPI程序執(zhí)行,來(lái)凈化數(shù)據(jù)例如,在定單系統(tǒng)中,這些數(shù)據(jù)需要凈化:State(必須總是兩個(gè)字符的值)以及ProductName(必須是產(chǎn)品的完整名稱,不能使用縮寫)。那么,在拷貝數(shù)據(jù)的進(jìn)程中,可以使用數(shù)據(jù)轉(zhuǎn)換服務(wù)的引入引出向?qū)z查State的值,使其為兩個(gè)字符的值,通過(guò)寫VisualC++程序可以保證產(chǎn)品的名稱為完整的名稱。一旦數(shù)據(jù)凈化之后,就可以把數(shù)據(jù)移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)中。d.轉(zhuǎn)換數(shù)據(jù)在數(shù)據(jù)的遷移進(jìn)程中,一般地,經(jīng)常需要把經(jīng)營(yíng)數(shù)據(jù)轉(zhuǎn)換成一種單獨(dú)的格式,以便適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)。例如,轉(zhuǎn)換數(shù)據(jù)可以包括下列內(nèi)容:把所有的字母字符轉(zhuǎn)變成大寫字母;重新計(jì)算匯總數(shù)據(jù);把單個(gè)數(shù)據(jù)分解成多個(gè)數(shù)據(jù),例如把格式為nnnn-description的產(chǎn)品代碼分解成單獨(dú)的代碼和描述值;把多個(gè)數(shù)據(jù)合并

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論