【畢業學位論文】(Word原稿)基于CWM的數據倉庫體系結構設計-軟件工程_第1頁
【畢業學位論文】(Word原稿)基于CWM的數據倉庫體系結構設計-軟件工程_第2頁
【畢業學位論文】(Word原稿)基于CWM的數據倉庫體系結構設計-軟件工程_第3頁
【畢業學位論文】(Word原稿)基于CWM的數據倉庫體系結構設計-軟件工程_第4頁
【畢業學位論文】(Word原稿)基于CWM的數據倉庫體系結構設計-軟件工程_第5頁
已閱讀5頁,還剩53頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 1 基于 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 2 目 錄 第一章:緒論 . 1 1 1 課題背景 . 1 1 2 工作內容及研究成果 . 1 1 3 論文結構 . 2 第二章:數據倉庫、元數據、體系結構理論概述 . 3 2 1 數據倉庫理論概述 . 3 2 1 1 引言 . 3 2 1 2 數據倉庫的定義及特點 . 3 2 1 3 數據倉庫的數據模型 . 4 2 1 4 數據倉庫的建設 . 5 2 1 5 數據倉庫的應用 . 5 2 1 6 國內數據倉庫建設過程中的若干問題 . 6 2 2 元數據概述 . 6 2 2 1 引言 . 6 2 2 2 元數據的定義和分類 . 7 2 2 3 元數據的建模 . 8 2 2 4 元數據的標準化 . 9 2 3 體系結構概述 . 9 2 3 1 引言 . 9 2 3 2 軟件體系 結構的概念 . 10 2 3 3 幾種主要的軟件體系結構風格 . 10 第三章: 相關理論概述 . 12 3 1 引言 . 12 3 2 相關理論概述 . 12 3 2 1 引言 . 12 3 2 2 其和 關系 . 14 3 2 3 其和 關系 . 15 3 2 4 其和 關系 . 16 3 3 組成結構 . 17 3 4 特點 . 19 3 5 設計目標 . 20 3 6 應用 . 20 第四章:基于 企業數據倉庫體系結構設計 . 22 4 1 引言 . 22 4 2 數據倉庫體系結構的作用 . 22 4 3 體系結構設計原則 . 24 4 4 基于 體系結構設計 . 25 4 4 1 企業數據倉庫體系結構 . 25 4 4 2 體系結構組件及其接口描述 . 26 4 4 3 基于 數據倉庫體系結構的特點及優點 . 44 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 3 4 4 4 小結 . 45 第五章 電信領域數據倉庫系統設計 . 46 5 1 系統簡介 . 46 5 1 1 項目背景 . 46 5 1 2 系統任務概述 . 47 5 1 3 開發運行環境 . 48 5 2 系統設計 . 49 5 2 1 體系結構設計 . 49 5 2 2 系統部署 . 50 5 2 3 數據模型設計 . 51 5 3 系統特點分析 . 51 5 4 系統結果展示 . 53 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 1 第一章:緒論 1 1 課題背景 90 年代末以來,國內外掀起了一股數據倉庫的熱潮,數據倉庫技術作為一種決策支持的手段為越來越多的企業接受。各大數據庫公司紛紛開發自己的數據倉庫產品,還有很多公司開發了相關的分析工具。這些工具給用戶帶來了很大的方便,但同時,由于它們都采用自己的數據格式和元數據表示方法,互相之間不能兼容,企業的很多應用就要依賴于特定廠商的產品,數據倉庫的設計和實現受到很大的限制。所以,搭建一個統一且易于擴展的數據倉庫平臺,并能實現其中不同工具之間的數據交換,就成為亟需解決的問題。 電信行業是我國引入競爭相對較晚的一個行業,但競爭的激烈程度絲毫不亞于其他行業。各電信企業都積累了龐大的客戶和業務資 料庫,并紛紛開始搭建數據倉庫以增加競爭優勢。但由于電信行業數據龐雜、需求廣泛且多變,單一廠家的數據倉庫工具很難滿足要求。若采用多種工具,系統的體系結構設計以及不同工具之間的數據交換就成為必須解決的關鍵問題。 一種解決方案是利用元數據。元數據是描述數據的數據,是數據倉庫系統不可或缺的重要部分。一般來說,數據倉庫中的元數據有兩個用途,首先,它能提供基于用戶的信息,比如記錄數據項的業務描述元數據能幫助用戶去使用信息;其次,元數據能支持系統對數據的管理和維護,如關于數據項存儲方法的元數據能支持系統以最有效的方式訪問 數據。如果異質平臺上不同的數據倉庫工具之間能夠實現所有這些元數據的交換,實際上也就是實現了它們所描述數據的交換,從而解決異質工具之間的互通問題。 但元數據的交換涉及到很多問題,比如元數據的表示形式以及交換機制等。為了解決這方面的問題, 2000 年提出了一套關于數據倉庫元數據的用倉庫元模型)規范,其主要目的就是為了方便異質分布式系統中的數據倉庫工具、數據倉庫平臺以及元數據庫之間的元數據交換。而研究如何搭建電信領域基于 數據倉庫系統并實現不同工具之間的數據交換正是本論文展開研究的背景。 1 2 工作內容及研究成果 為了使構筑于數據倉庫基礎上的企業應用不再和具體的工具綁定,本文試圖提出一種可行的基于 數據倉庫體系結構設計方案。結合這個目標,本論文主要做了以下幾方面的工作: 調研:包括目前一些企業已經實施的數據倉庫的體系結構、現有工具產品、基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 2 電信企業需求、電信企業業務數據結構等。 理論研究:主要是對 規范以及體系結構理論的研究并提出基于 數據倉庫體系結構。 部分實現體系結構:由于目前尚無工具支持 以只能部分實現本論文提出的體系結構,搭建一個實用的數 據倉庫系統,其中的接口部分作為下一步的工作。 在基本完成上述工作內容的情況下,獲得的主要成果是提出一種基于 1 3 論文結構 本論文的內容基本按照工作內容進行組織: 第二、三章作為核心內容的鋪墊,主要介紹了論文的理論基礎。其中第二章首先介紹了數據倉庫的相關理論(包括數據倉庫的定義、特點、數據模型、建設和應用等)。隨后介紹元數據的定義、分類、建模和標準化。最后是體系結構的概念以及幾種主要的風格。 第三章介紹了 關理論。此章首先簡單描述了 規范之間的關系,然后介紹了 組成結構、特點、設計目標及其適用范圍。 第四章是本論文的核心部分,提出一種基于 企業數據倉庫系統體系結構,并詳細介紹組件的功能、地位和接口,這些組件包括數據源、 據建模、中央元數據庫、本地元數據庫、 央數據倉庫、數據集市、數據倉庫管理以及一些前端分析應用等。 第五章介紹了在電信領域基于上述體系結構設計的一個數據倉庫系統,具體內容包括該系統的任務概述、開發運行環境、體系結構設計、系統部署、數據建模以及系統優缺點分析。 第六章對本文作了簡單總 結,并對進一步的研究工作提出了幾個建議。 論文最后是致謝及參考文獻列表。 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 3 第二章:數據倉庫、體系結構、元數據理論概述 2 1 引言 筆者系統地學習了數據倉庫的基本理論、研究了目前的數據倉庫元數據的內容、特點和交換機制,最后參考目前幾種典型的體系結構風格,并結合企業應用數據倉庫的成功案例,提出一種基于 數據倉庫體系結構。下面,本章將簡單介紹數據倉庫、元數據和體系結構方面的理論知識,至于 范,由于內容比較多,所以單獨作為一章介紹。 2 2 數據倉庫理論概述 2 2 1 引言 隨著市場競爭的日趨激烈 ,人們越來越深刻地認識到信息對于企業的生存和發展所起的重要作用,可以說,誰先掌握了廣泛而可靠的信息,誰就把握了企業發展的先機,但信息來自何方? 近年來,很多企業都建立了較為完善的數據庫系統,用于存儲信息的數據也不斷膨脹,但由于企業管理技術的落后,對這些積累起來的海量數據遠沒有充分利用,在這種背景下,數據倉庫技術應運而生。數據倉庫建立在傳統事務型數據庫的基礎之上,為企業 策支持系統)提供數據源。 2 2 2 數據倉庫的定義及特點 目前,大家公認的數據倉庫創始人 他所著的 建立數據倉庫一書中對數據倉庫所下的定義是:數據倉庫是在企業管理和決策中面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合。由這個定義可以看出數據倉庫主要有以下四個特點: 面向主題:主題是在一個較高層次上將數據進行綜合、歸類并進行分析利用的抽象。面向主題的數據組織方式,就是在較高層次上對分析對象的數據的完整、一致的描述,能統一地刻畫各個分析對象所涉及的企業的各項數據,以及數據之間的關系; 集成的:由于各種原因,數據倉庫的每個主題所對應的的數據源在原有的分散數據庫中通常會有許多重復和不一致的地方,而且 不同聯機系統的數據都和不同的應用邏輯綁定,所以數據在進入數據倉庫之前必須統一和綜合,這一步是數據倉庫建設中最關鍵、最復雜的一步; 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 4 不可更新的:數據倉庫的數據反映的是一段相當長的時間內歷史數據的內容,主要供企業決策分析之用。與面向應用的事務數據庫需要對數據作頻繁的插入、更新操作不同,數據倉庫中的數據所涉及的操作主要是查詢和新數據的導入,一般不進行修改操作; 隨時間不斷變化的:數據倉庫系統必須不斷捕捉 據庫中變化的數據,并在經過統一集成后裝載到數據倉庫中。同時,數據倉庫中的數據也有存儲期限,會隨時間變化 不斷刪去舊的數據,只是其數據時限遠比操作型環境的要長,比如根據需要可保存 10 年內的歷史數據; 2 2 3 數據倉庫的數據模型 數據模型是對現實世界的一種抽象,根據抽象程度的不同,也就形成了不同抽象層次上的數據模型。類似于操作數據庫的數據模型,數據倉庫的數據模型也可分為三個層次:概念模型,邏輯模型和物理模型。 概念模型 是客觀世界到計算機系統的一個中間層次,它最常用的表示方法是E R 法(實體關系)。目前數據倉庫一般是建立在關系型數據庫的基礎之上,所以其概念模型與一般關系型數據庫采用的概念模型相一致。 邏輯模型 指數據的邏輯結構,如多維模型、關系模型、層次模型等。數據倉庫的邏輯模型描述了數據倉庫的主題的邏輯實現,即每個主題對應的模式定義。 物理模型 則是邏輯模型的具體實現,如物理存取方式、數據存儲結構數據存放位置以及存儲分配等。在設計數據倉庫的物理模型時,需要考慮一些提高性能的技術,如表分區,建立索引等。 目前對數據倉庫模型的討論大多集中在邏輯模型,其中最常用的是多維模型。數據倉庫的多維模型主要有如下幾個概念: 維:維是人們觀察數據的特定角度。比如,企業常常關心不同銷售數據隨時間的變化情況,所以時間就是一個維; 維的 層次:人們觀察數據的某個特定角度還可以存在細節程度不同的多個描述方面,這就是維的層次。一個維往往有多個層次,比如描述時間維時,可以從年份、季度、月份、天等不同層次來描述,那么年份、季度、月份和天就是時間維的層次; 維成員:維的一個取值稱為該維的一個成員。如果一個維是多層次的,那么該維的成員就是在不同層次取值的組合。比如時間維有年份、月份和天這三個層次,那么分別在它們之上各取一個值組合起來就得到日期維的一個成員,即“某年某月某日”; 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 5 度量:度量描述了要分析的數值,比如銷售額等; 2 2 4 數據倉庫的建設 企 業級數據倉庫的建設通常有兩種途徑:一種是從建造某個部門特定的數據集市開始,逐步擴充數據倉庫所包含的主題和范圍,最后形成一個能夠完全反映企業全貌的企業級數據倉庫;另外一種則是從一開始就從企業的整體來考慮數據倉庫的主題和實施。 前一種方法類似于軟件工程中的“自底向上”的思想,投資少、周期短且易于見到成果,但由于該設計開始時是以特定的部門級主題為框架的,向其它的部門和主題擴充往往比較困難。而最后一種方法恰恰相反,“自頂向下”,投資大、周期長。在企業的實際應用中往往采用前一種方法。“自底向上”地建設數據倉庫,并不意 味著不需要在設計階段的長遠規劃。采用逐步積累的方式建立數據倉庫,最大的問題就是已有的框架無法把新的業務集成進來。因此在設計階段就必須充分考慮這一點。例如,部門級的主題是否有助于形成企業級的主題,數據抽取模塊是否能重用等。數據倉庫的長遠規劃,并不僅僅是技術部門的事情,應當把數據倉庫的構建作為企業發展戰略的一個組成部分。在設計階段需要不同部門的溝通和協調,技術框架和系統設計必須從整個企業的角度來考慮,即使剛開始實施的時候是面向某個部門的。從這一點來看,建立一個企業級的數據倉庫,主要的障礙不在于技術,而是不同部門 之間的組織、協調問題。 2 2 5 數據倉庫的應用 據倉庫作為決策支持系統的數據源,其構建工作只是基礎,要想得到對決策有用的信息或對數據倉庫中的數據作靈活、多角度的探察,還必須借助一些分析展示工具。 線分析處理)是基于數據倉庫的分析展示方法之一,它建立在多維數據視圖的基礎上。主要有兩個特點,一是在線性,體現為用戶請求的快速響應和交互式操作;二是多維分析,這也是 術的核心所在。 根據數據組織方式的不同, 分為兩種:基于多維數據庫的 者響應速度快,執行效率高,但源于結構的局限,靈活性不高。與之相比,后者由于建立在大量現有數據庫的基礎上,靈活性、可擴展性要高的多,并且支持大數據量和較多維數的能力也要強于前者。因此,雖然在相應速度和執行效率上差一點,但仍然得到更廣泛的應用。 數據倉庫中數據的操作是針對多維數據視圖或稱為立方體進行的。其中比較典型的有:切片、切塊以及旋轉等。 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 6 切片指選定多維數組的一個二維子集; 切塊指選定多維數組的一個三維子集; 旋轉指改變一個立方體顯示的維方向,使人們可以從不同的角度更加清晰直觀地觀察數據; 2 2 6 國內數據倉庫建設過程中的若干問題 數據倉庫的建設工作在我國起步較晚,但是發展卻極為迅速。筆者在做論文之前,參與了多個電信部門數據倉庫項目的設計和開發,學到了很多知識,同時也深深體會到國內的企業在數據倉庫基礎設施以及行政支持方面,與國外相比,仍然存在很多缺陷。首先是基礎設施,國內企業的不足主要表現在數據的積累少而不全,原有數據庫系統設計比較混亂而且用戶資料匱乏。另外,由于數據倉庫項目一般投資巨大,成本回收周期長,中小企業一般無力做這方面的嘗試,即使是大型企業,也往往缺乏有長遠戰略眼光的領導,大部 分企業的決策者,雖然也有建設數據倉庫的實際需求,但卻很難善始善終地堅持下去。 當然,數據倉庫的建設在我國還處于起步和探索階段,難免會出現一些問題。隨著國內外競爭的加劇,企業必然會愈來愈充分地認識到信息以及提高決策水平的重要性,因此,數據倉庫在中國,必然會有很廣闊的應用前景。 2 3 元數據概述 2 3 1 引言 元數據通常的定義是“關于數據的數據”,比如傳統數據庫中的數據字典就是一種元數據。近年來,隨著計算機技術應用的廣泛化,元數據得到人們越來越多的關注,這是由多方面的需求決定的。 首先是管理數據的需求。當 系統數據量越來越大時,檢索、使用這些數據的效率就會降低,通過存儲關于系統和數據的內容、組織、特性等細節可以幫助有效地進行管理,從而提高效率。 第二是系統分布、互通和重用的要求。目前信息系統一個共同的趨勢就是信息共享,要實現異構系統中的信息共享,就需要描述數據語義、軟件開發過程的元數據,而且這些元數據必須標準化,以充分實現分布、互通和重用。 第三是元數據重用、綜合的需求。目前,很少有單一工具能滿足大型商業應用的需求,用戶常常需要使用多種工具的組合,不同工具之間的數據交換的途徑之一就是通過標準的元數據。這一點正 是本論文的設計基礎。 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 7 2 3 2 元數據的定義和分類 元數據,通常定義為描述數據的數據,旨在便利存取、管理、共享和處理大量結構化和 /或非結構化的數據。在過去的幾年里,元數據的概念在現實中大量使用,有時為了支持信息檢索,有時為了軟件配置,有時為了不同系統之間的數據交互。對于不同領域的專家,元數據有著不同的應用,但至少有兩點是共同的:元數據對數據進行描述;元數據的存在是為了更有效地使用數據。 對于元數據,從不同的角度來觀察,可以劃分為不同的類別。 1按照與特定領域是否相關,元數據可以分類為: 與特定領域相關的 元數據:描述特定領域內數據在此特定領域內的公共屬性 與特定領域無關的元數據:描述所有數據的公共屬性 與模型相關的元數據:描述信息和元信息建模過程的數據。此類元數據又可分為兩類: 橫向模型關聯元數據:綜合現有的兩個或多個信息模型,例如兩個不同數據庫之間的交互、從多個數據源中提取數據時,就需要這種橫向模型元數據。當不同的信息模型之間要進行互通時,需要模型各個層的關聯描述,即橫向模型關聯元數據。 縱向模型關聯元數據:模型信息層與元信息層之間的關聯元數據。不同的層可以采用不同的模型,上層是下層的結構描述,上下層之間 的對應關聯,即縱向模型關聯元數據。 其他元數據:例如系統硬件、軟件描述,系統配置描述等。 2按照元數據的應用場合 數據元數據,又叫做信息系統元數據。信息系統使用元數據描述信息源,以按照用戶需求檢索、存取和理解源信息。于是,元數據保證了在新的應用環境中使用信息,支持了整個信息結構的演進。 過程元數據,又叫做軟件結構元數據。是關于應用系統的信息,它幫助用戶查找、評估、存取和管理其數據。大的軟件結構中包括描述各個組件接口、功能和依賴關系的元數據,這些元數據保證了軟件組件的靈活動態配置。 3按照元數據的具體內容 內容( 識別、定義、描述基本數據元素,包括數據單元、基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 8 合法值域等等。 結構( 在相關范圍內定義數據元素的邏輯概念集合。 表示( 描述每一個值域(多為技術相關的)的物理表示,以及數據元素集合的物理存儲結構。 文法( 提供基礎數據的族系和屬性評估,它包括了所有與基礎數據的收集、處理和使用相關的信息。 2 3 3 元數據的建模 在基于元數據的解決方案中,主要有兩大方向,一是提供一個連續的整體框架,為元數據整個系統劃定實現的層次結構, 即元數據參考模型。另一個方向,是進行元數據模型的描述,即元數據參考模型某一層中具體選定的模型。以下是一個可擴展的四層元數據參考模型的例子,如圖 示。 圖 2數據參考模型 其中,數據層與系統中操作的實例對應,即真實數據。數據模型層對數據進行描述。這一層還包括描述結構的元數據。元模型層描述定義模型的形式方法。在多數系統中,這一層就是最高層了。它描述了用于表示低層信息,即數據模型層的概念。這一層還包括描述形式方法及其規范的元數據,這些元數據可用于不同工具、方法、系統之間的互通。最上一層,叫做元元 模型層,是模型的根層,描述定義形式方法的語言。這一層的存在使得其他層表示一致,保證了低層模型之間的輕松互通。 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 9 2 3 4 元數據的標準化 關于元數據的一般標準,從內容上,大致可分為兩類。一是元數據建模,是對將來元數據的組織進行規范定義,使得在元數據建模的標準制定之后產生的元數據都以一致的方式組織,從而保證元數據管理的一致性和簡單性。二是元數據交互,是對已有的元數據組織方式以及相互間交互格式加以規范定義,從而實現不同系統元數據的交互。目前,主要有以下組織定義了元數據相關的規范。 1對象管理組織 1995 年采用了 并不斷完善之。 1997年采用了 2000 年, 采用了 三個標準: 成了 模和元數據管理、交換結構的基礎,推動了元數據標準化的快速發展。 2元數據聯合會 于 1995 年,目的是提供標準化的元數據交互。 1996 年開發了 完成了 技術評審, 于微軟的開放信息模型 一個獨立于技術的、以廠商為核心的信息模型。 微軟的元數據管理產品 一部分。由微軟和其它 20 多家公司共同開發的,作為微軟開放過程的一部分,經過了 300 多個公司的評審。 為了推動元數據標準化的發展, 元數據標準的制定上協同工作。 1999 年 4 月, 為 成員,而 同時成為 成員。 使用了 的數據倉庫部分被用來作為 公共倉庫元數據交互( 設計參考。在兩個組織的技術力量的合作努力下,元數據標準將逐步一致化。 2 4 體系結構概述 2 4 1 引言 軟件體系結構是軟件工程研究中重要的領域之一,在軟件開發過程中具有不可替代的作用。本節將集中介紹軟件體系結構的概念,幾種主要的軟件體系結構風格,為下一章介紹基于 數據倉庫系統體系結構打下基礎。 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 10 2 4 2 軟件體系結構的概念 對于軟件體系結構的研究始于 做的 工作。從 1992 年開始,軟件工程研究者提出了許多種關于軟件體系結構的定義,直到 1995 年 軟件體系結構國際會議上提出的定義方法可以說在某種程度上解決了軟件體系結構命名中的混亂。該會議的論文中主要觀點如下: 所有關于軟件體系結構的結構觀點都認為:軟件體系結構包括軟件部件、部件間的聯系以及系統構造、方式、約束、語義、分析、屬性、基本原理和系統需求; 框架模式觀點與結構觀點有一定的相似之處,但是更強調整個系統的連貫性結構,而不僅僅是系統組成。框架結構經常針對特定領域和問題; 動態模型強調系統的行 為品質。這里的“動態”可以指系統的總體配置的變化、建立或禁止預定義的通信和互聯通道或計算的發展,如數據值的變化; 上述幾種觀點彼此并不相互排斥,也不表示軟件體系結構基本問題之間的沖突。它們只是總結了軟件體系結構研究領域中的不同觀點 軟件體系結構的組成部分、整體、已經形成和正在形成的行為。總的來說,這一總結形成了對軟件體系結構的共同觀點。 2 4 3 幾種主要的軟件體系結構風格 可以從語言的種類、類型系統( of 理論(公理及推論的集合)等三個不同的途徑來理解什么是風格 。在此 只給出體系風格的一般理解:體系結構風格是指在眾多系統中所擁有的共同的結構和語義特性,指導如何將各個模塊和子系統組成一個完整的系統。 目前公認的體系結構風格主要有: 管道 /過濾器( 管道 /過濾器風格中每一個組件有一組輸入和輸出,組件可以通過對輸入數據流進行局部變換,采用漸進式計算方法,在未處理完所有輸入數據以前就可以產生部分計算結果,并將其送到輸出端口; 數據抽象和面向對象的組織( 此風格建立在數據抽 象和面向對象的基礎上,數據的表示方法和它們的相應操作都封裝在一個抽象數據類型或對象中;對象負責保持數據表示的基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 11 完整性,對象的表示對其它對象是隱藏的。這種結構中的部件就是對象,或者說是抽象數據類型的實例。對象之間通過函數和過程調用發生相互作用; 基于事件的隱式調用風格( 組件不直接調用一個過程,而是觸發或廣播一個或多個事件。系統中的其它組件中的過程在一個或多個事件中注冊。當該事件被激發時,系統本身就會調用所有已注冊的、與該事件相關的過程; 分層系 統( 分層的系統組織成一個層次結構,每一層向其上層提供服務,并利用下層的服務。在有的層次結構中,只有最外部的層次和一些經過精心選擇的輸出功能可以為系統外部訪問,其它的內部層次完全被隱藏起來。; 倉庫系統及知識庫( 倉庫體系結構中有兩種組件:表示當前狀態的中心數據結構和一組相互獨立的中心數據處理組件。不同的倉庫系統與外部部件有不同的交互方式,控制方法的選擇決定了倉庫系統的類別。比如執行哪個過程由輸入數據流的事務處理類型決定,則該倉庫系統就是傳統的數據庫 系統; 分布式處理中的多層結構:分布式處理中的多層結構來源于分布式系統的“客戶機 /服務器”模型。實際上,組件模型也是這種方式的一個擴展,比如 ; 此外還有表格驅動的解釋器、過程控制、各種專用領域軟件體系結構等多種不同的結構和模型,在此不一一詳述。 本論文中提出的基于 數據倉庫體系結構主要綜合了面向對象組織、倉庫系統和分布式處理(也就是其中的組件技術)等幾種體系結構風格,并最大程度地滿足數據倉庫技術的特點,具體內容將在以后的章節中作詳細闡述。 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 12 第三章: 3 1 引言 提出主要基于以下背景: 從數據倉庫開發者的角度:單一工具很少能完全滿足用戶不斷變化的需求,但同時又很難對各種產品進行集成; 從數據倉庫用戶的角度:面對的信息量太大,無法輕易找到自己真正需要的,而且把這些信息完整正確地表示出來也是個挑戰; 從數據倉庫供應商的角度:目前信息的共享還沒有標準格式,元數據集成的代價太大; 現在有很多數據倉庫產品,它們對元數據都有自己的定義和格式,因此創建、管理和共享元數據很耗時而且容易出錯。要解決上面這些問題,必須用標準的語言描述數據倉庫元數據的結構和語義 ,并提供標準的元數據交換機制。 是滿足這些條件的一個規范。 2000 年發布了 范,旨在推動數據倉庫、智能商務和知識管理方面元數據的共享和交換。和 作提出 G, 有一些公司明確表示支持 括: 3 2 相關理論概述 3 2 1 引言 要基于以下三個工業標準: 統一建模語言,是 一個建模標準; 元對象工具,是 于元模型和元數據庫的一個標準; 數據交換,是 于元數據交換的標準; 這三個標準是 數據庫體系結構的核心, 義了表示模型和元模型的語法和語義。 構建模型和元模型提供了可擴展的框架,并提供了基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 13 存取元數據的程序接口。而利用 可以將元數據轉換為標準的 據流或文件的格式,以便進行交換,這大大增強了 通用性。 為了說明 這三個標準之間的關系,首先介紹一下元數據的層次。傳統的元數據有四個層次,除了最底層外,每一層都對它的下一層進行描述。最底層是用戶對象層( 包括用戶要描述的信息,這些信息統稱為數據。向上一層是模型層( 由描述信息的元數據組成,在這一層,元數據一般都組合成模型的形式。再向上一層是元模型層 ( 由定義 元數據格式和語義的描述信息組成,也就是元元數據,一般組合成元模型的形式。最高層是元元模型層( 它定義了元模型的結構和語義。下面舉個例子對這種四層結構進行說明。 上圖中四層的內容解釋如下: 數據層是學生記錄( 實例,即具體的某個學生; 模型層描述學生這個記錄類型的內容,它有一個名字(“ 和兩個字段( 每個字段都有一個名字和類型,比如第一個字段的名字是“ 字段類型是 元模型層對 種類型進 行定義,在這一層, 元類一個實例,一個 有兩個元屬性 一個 義它的名字,是 型,第二個 義它包含的字段集,字段集中的成員是 型。類似的,元類 該也包含兩個元屬性:名字 類型 元元模型層的結構是基本固定的,它將所有概念抽象為以下這些組件:張東”,“男”, ) 李芳”,“女”, ) ( ) “ , “, ) 固定的元元模型 圖 3數據層次結構圖 信息,數據( 模型( 元模型( 元元模型 ( 基于 數據倉庫體系結構設計 北京郵電大學碩士學位論文 14 元類 屬性 元關聯 定義了元類之間的關系,主要包 括:包含( 繼承( 類型引用( 依賴( 理論上,還可以再向上抽象,但由于元元模型層是自描述的,所以四層就足夠了。至于為什么要抽象出上面兩層,則是為了支持各種不同的模型和元模型。 綜上所述,可以用下面這張表來描述 上述規范和元數據四層結構的對應關系: 元數據層次 語 示例 元模型 模型,元元數據 型,元數據 象, 數據 數據倉庫數據 3 2 2 一種面向對象的建模語言,它由曾經是面向對象軟件建模三種主流語言的 合而得,然后被 為面向對象建模的標準語言。目前有很多圖形工具支持它,并已得到廣泛的應用。 義了多種模型元素,支持對面向對象系統的靜態建模和行為建模。態模型包含對類及其屬性、操作、接口的定義和類之間關聯(比如繼承、依賴和包含等)的定義。對系統行為語義的建模可以用序列圖和協作圖完成。范主要使用了 靜態圖。 言由一個用 示的元模型(或語義模型)定義,這種循環定義使得整個 以基于非常少的(也就是三個)未定義元素。此外, 義了 元元模型以表示一個遞歸的 模型的語義。 模型直接從 模型繼承而來,也就是說, 的類都直接或間接繼承了 類的語法和語義。比如, 中的關系模型定義了一個叫 類,表示任何關系數據庫中的表,這個類繼承于 ,類似地, 繼承于 ,這就建立了 就是說 一些 集合,這些 有一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論