




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第4章
數據倉庫系統的體系結構與設計方法數據倉庫系統的體系結構分布式對象技術監控器的設計轉換器的設計集成器的設計元數據管理器的設計1數據倉庫系統的結構最終用戶可視化工具數據挖掘工具多維分析工具多維數據數據倉庫工具層數據倉庫層2數據倉庫系統的體系結構數據倉庫可視化用戶接口OLAP工具查詢/報表工具數據挖掘工具前端開發工具集成器集成器轉換器轉換器源數據源數據元數據
及其管理工具
數據倉庫體系結構3數據倉庫系統的體系結構源數據:數據倉庫中的數據來源于多個數據源,它不僅可以是企業內部的關系型數據庫,還包括非傳統數據,如文件、HTML文檔等。數據倉庫管理系統:元數據庫及元數據管理部件:元數據庫用來存儲由定義部件生成的關于源數據、目標數據、提取規則、轉換規則以及源數據與數據倉庫之間的映射信息等。數據轉換部件:該部件把數據從源數據中提取出來,依定義部件的規則將不同數據格式的源數據轉換成數據倉庫的數據格式并裝載進數據倉庫。數據集成部件:該部件根據定義部件的規則、統一各源數據的編碼規則,并凈化數據,根據元數據中定義的數據組織形式對數據進行匯總、聚合計算。數據倉庫管理部件:它主要用于維護數據倉庫中的數據,備份、恢復數據以及管理數據的安全權限問題。 4數據倉庫系統的體系結構數據倉庫前端工具集查詢/報表工具:以圖形化方式和報表方式顯示數據,幫助了解數據的結構、關系以及動態性。OLAP工具:通過對信息的多種可能的觀察形式進行快速、一致和交互性的存取,便于用戶對數據進行深入的分析和觀察。數據挖掘工具:從大量數據中挖掘出具有規律性的知識,以及數據之間的內在聯系。前端開發工具:提供用戶編程接口,便于在現有系統的基礎上進行二次開發,增強系統的伸縮性。數據倉庫:在數據倉庫系統中,數據倉庫是一個數據存儲集合,它的存儲形式通常有多維數據庫,關系型數據庫及其他存儲方式。5分布式對象技術隨著Internet的廣泛應用,將應用擴展到局域網、廣域網甚至Internet上已成為用戶的普遍需求,分布式計算成了新的熱點。分布式計算系統又稱為中間件。從層次上看,它處于系統的中間層;從功能上看,向下它可以傳遞和處理上層用戶的各種請求,向上它可以屏蔽下層的實現細節,提供各種服務。因此,分布式計算系統起到了承上啟下的作用,為用戶構造分布式應用系統提供強有力的支持。6分布式對象概述程序設計方法經歷了多次變革:從最初的功能分解法,到結構化程序設計方法,再到至今仍在廣泛使用的面向對象程序設計方法。在80年代中期,國際標準化組織ISO推出了RPC(RemoteProcessCall,遠程過程調用)標準,極大地推動了分布式處理技術的規范化的標準化。到1992年,開放軟件基金會OSF頒布了DCE(DistributedComputingEnvironment,分布計算環境)標準。在這個標準中,它不僅吸收了RPC作為其遠程調用的方式,而且對分布處理進行了抽象定義,是分布式計算技術發展過程中的一個里程碑。隨著應用系統對可擴展性和可重用性的要求不斷提高,面向對象的分析、設計和編程技術得到了廣泛的應用。將面向對象的思想應用到分布式環境中,提出了分布式對象的概念。
7分布式對象的代表性觀點組件對象是軟件的基本量子。它具有一定的功能,可插用,同時又是要維護的。分布式對象則是分布式環境中的組件對象,它封裝了設計決策,并作為一個獨立的單元處于分布式環境中。分布式對象是具有特定功能的,能夠跨越進程的邊界、實現網絡、語言、應用程序、開發工具和操作系統的”即插即用”的獨立對象。分布式對象是指任何可被分離出來,具有標準化的,可重用的公開接口的軟件。分布式對象通過接口對外提供服務。對象與對象之間,對象與客戶之間同時通過接口進行交互。因此分布式對象一旦發布,它只能通過預定義的接口來提供合理的、一致的服務。這種接口定義的穩定性使客戶應用開發人員能夠構造出穩定的應用。一個分布式對象可以實現多個接口,同時一個特定的接口也可以被多個分布式對象來實現。除此之外,分布式對象還提供了對象位置的透明性,也就是說一臺機器上的應用可以透明地訪問其他機器上的分布式對象。8分布式對象的工業標準分布式對象的兩種工業標準:COM/DCOM/COM+:Microsoft制定的以Windows為中心的開發環境。CORBA(CommonObjectRequestBrokerArchitecture):由700多個廠商共同提倡的,公共對象請求代理體系結構,是平臺中立的分布式技術,CORBA能夠執行于Windows,UNIX以及Linux等操作系統之中,但是目前成熟產品很少,并且支持的廠商不是十分普及。根據這兩種分布式技術演進而產生的分布式對象技術:例如EJB(EnterpriseJavaBean)等。9基于分布式對象的程序設計方法基于分布式對象的程序設計方法繼承并發展了面向對象程序設計方法。它將對象技術應用于系統設計,對向對象程序設計的實現過程作了進一步抽象。分布式對象設計方法強調真正的軟件重用和高度的可操作性。它側重于分布式對象的產生和裝配,這兩方面構成了分布式對象程序設計的核心。分布式對象的裝配使得軟件產品有可能用類似于“搭積木”的方法快速地建立起來,不僅可以縮短軟件產品的開發周期,同時也提高了系統的穩定性和可靠性。可重用的分布式對象庫不同于對象庫,分布式對象庫保存的是一些經過測試的分布式對象。這些分布式對象遵從標準或規范,并且分布式對象庫也包括這些分布式對象的細節功能說明文檔。10基于于可可重重用用的的分分布布式式對對象象庫庫的的軟軟件件開開發發模模式式的的過過程程組合過程定制過程檢索過程標識過程驗證過程分類過程
可重用組件庫
軟件開發環境11基于于可可重重用用的的分分布布式式對對象象庫庫的的軟軟件件開開發發模模式式的的過過程程標識識過過程程::標標識識一一個個可可重重用用的的分分布布式式對對象象。。驗證證過過程程::判判定定可可重重用用分分布布式式對對象象所所聲聲明明的的功功能能特特性性和和性性能能特特性性。。分類類過過程程::對對已已有有分分布布式式對對象象的的功功能能、、使使用用方方法法、、適適用用范范圍圍、、接接口口等等進進行行說說明明性性的的描描述述,,以以便便日日后后可可以以高高效效準準確確地地檢檢索索。。檢索索過過程程::利利用用標標準準的的方方法法根根據據指指定定的的屬屬性性找找到到所所需需的的分分布布式式對對象象。。定制制過過程程::通通過過對對檢檢索索到到的的分分布布式式對對象象進進行行修修改改、、裁裁剪剪和和配配置置使使其其滿滿足足用用戶戶的的需需求求。。組合合過過程程::將將已已定定制制好好的的分分布布式式對對象象集集成成在在一一起起形形成成應應用用系系統統。。12COMCOM::即即組組件件對對象象模模型型,,是是一一種種以以組組件件為為發發布布單單元元的的對對象象模模型型,,這這種種模模型型使使各各軟軟件件可可以以用用一一種種統統一一的的方方式式進進行行交交互互。。COM既既提提供供了了組組件件之之間間進進行行交交互互的的規規范范,,也也提提供供了了實實現現交交互互的的環環境境。。因因為為組組件件對對象象之之間間交交互互的的規規范范不不依依賴賴于于任任何何特特定定的的語語言言,,所所以以COM也也是是不不同同語語言言協協作作開開發發的的一一種種標標準準。。COM的的實質是是這樣一一種協議議,它負負責將一一個軟件件模塊同同另一個個連接起起來,而而不再參參與其余余的事務務。連接接建立后后,兩個個模塊可可以通過過一種稱稱之為““接口””的結構構進行通通信。接接口是一一組邏輯輯上相關關的函數數集合,,其函數數也被稱稱為接口口成員函函數。在在同一個個接口中中的函數數應該提提供類似似或相關關的服務務。13COM應應用的組組成部分分COM接接口:通通過接口口的一個個對象暴暴露它能能提供給給COM客戶的的服務。。每個COM對對象為一一組相關關的屬性性和方法法提供了了一個接接口。在在COM中,每每一個接接口都由由一個128位位的全局局唯一標標識符((GUID,GlobalUniqueIdentifier))來標識識。客戶戶通過GUID獲得接接口的指指針,再再通過接接口指針針,客戶戶就可以以調用其其相應的的成員函函數。接接口是COM對對象提供供服務的的基本單單元,因因此一個個COM對象可可以同時時提供數數個不同同的接口口,并且且在不同同的接口口中提供供不同的的函數。。COM服服務器::它是一一個模塊塊,可以以是EXE、DLL或或是OCX,它它們包含含COM對象的的實現代代碼。一一個COM服務務器由一一個或多多個COM對象象組成,,對象在在服務器器內部實實現。一一個COM服務務器可以以為多個個客戶提提供服務務,客戶戶也可以以連接到到不同的的服務器器。一個個COM服務器器就是一一個向客客戶應用用或庫提提供服務務的應用用或庫((如DLL)。。COM客客戶:通通過接口口向服務務器申請請需要的的服務。。客戶知知道需要要從服務務器獲得得什么,,但是客客戶不知知道服務務器內部部的細節節。14COM的的特性面向對象象的特性性和客戶戶/服務務器的特特性。語言無關關性:COM不不依賴于于特定的的語言,,只要能能夠生成成符合COM規規范的可可執行代代碼即可可,該特特性性為為跨語言言合作開開發提供供了統一一標準。。進程透明明性:在在客戶/服務器器的軟件件結構中中,運行行在客戶戶端的代代碼和運運行在服服務器端端的代碼碼既可以以在同一一個進程程中,也也可以在在不同的的進程中中。COM所提提供的服服務組件件對象在在實現時時有兩種種進程模模型:進進程內對對象和進進程外對對象。根根據進程程模型,,COM服務器器程序可可以分為為:進程程內服務務程序、、本地服服務程序序和遠程程服務程程序。進進程內服服務程序序被加載載到客戶戶的進程程空間,,在Windows環環境下通通常以動動態鏈接接庫(DLL))的形式式實現;;本地服服務程序序是一個個獨立的的應用程程序,它它與客戶戶程序運運行在同同一臺機機器上,,通常它它是一個個EXE文件;;遠程服服務程序序運行在在與客戶戶不同的的機器上上,它既既可以是是一個DLL,,也可以以是一個個EXE文件。。雖然COM對對象有不不同的進進程模型型,但對對于客戶戶程序來來說是透透明的。。可重用性性:由于于COM標準是是建立在在二進制制代碼級級的,因因此COM對象象的可重重用性與與一般的的面向對對象語言言的重用用過程不不同。COM的的重用性性可建立立在組件件對象的的行為方方式上,,而不是是具體的的實現上上,因此此它的可可重用性性不是源源代碼級級的重用用,而是是二進制制級的重重用。15DCOMDCOM(DistributeComponentObjectModel,分分布式組組件對象象模型)):是COM的擴展展,它可可以支持持不同計計算機上上組件對對象與客客戶程序序之間或或者組件件對象之之間的通通信,這這些計算算機可以以在局域域網內,,也可以以在廣域域網上,,甚至通通過Internet進行連連接。對對于客戶戶程序而而言,組組件程序序所處的的位置是是透明的的,不必必編寫任任何處理理遠程調調用的代代碼。DCOM在COM基礎礎上增加加的主要要特征創建遠程程對象的的能力::客戶只只需調用用OLE32.dll提供的的庫函數數CoCreateInstance透明明地創建建組件,,而不關關心組件件的位置置。跨網絡的的數據傳傳送能力力:由于于遠程對對象和客客戶處于于不同的的地址空空間,它它們之間間的數據據傳送不不但可能能要跨網網絡進行行,還要要處理數數據格式式等一系系列調整整。當客客戶和遠遠程對象象進行數數據傳送送時,在在客戶端端需對參參數進行行列集,,位于客客戶端的的代理對對象完成成這一任任務,進進行跨網網絡的數數據傳送送。安全性和和訪問控控制能力力。16COM+COM+:并不不是COM的新新版本,,而是COM的的新發展展,它是是COM更高層層次上的的應用。。COM+的底層層結構仍仍然以COM為為基礎,,它幾乎乎包括了了COM的所有有內容。。COM+倡導了了一種新新概念,,把組件件軟件模模型建立立在應用用層上,,把所有有組件的的底層細細節留給給操作系系統。COM+不再局局限于COM的的組件技技術,它它更加注注重于基基于分布布式網絡絡應用的的設計與與實現。。COM+繼承承了COM幾乎乎全部的的優勢,,同時又又避免了了COM實現方方面的一一些不足足。從COM的發展展角度來來看,COM最最初作為為桌面操操作系統統平臺上上的組件件技術,,主要為為OLE服務。。但是隨隨著WindowsNT與與DCOM的發發布,COM通通過底層層的遠程程支持組組件技術術延伸到到了分布布式應用用領域,,充分體體現了COM的的擴展能能力以及及結構模模型的優優勢。MTS為為COM增添了了許多新新的內容容,彌補補了COM和DCOM的一些些不足,,它注重重于服務務器一端端的組件件管理和和配置環環境。COM+進一步步把COM、DCOM和MTS統一一起來,,形成真真正適合合于企業業應用的的技術。。17分布式組組件對象象的特性性伸縮性::隨著用用戶數目目的增加加、數據據量的不不斷增多多,分布布式應用用系統的的適應能能力反映映了系統統的優劣劣。使用用COM/DCOM/COM+建立立起來的的應用系系統能很很好地適適應這種種規模的的變化,,當用戶戶數比較較少、數數據量不不大時,,系統顯顯得小巧巧而快速速;當應應用規模模增大時時,系統統也能夠夠正常運運行并且且在保證證性能的的情況下下不影響響可靠性性。DCOM的的位置透透明性保保證了這這種變化化可以不不必修改改組件源源程序。。可配置性性:安裝裝和管理理是分布布式軟件件系統的的兩個重重要環節節。使用用COM/DCOM/COM+建立立的分布布式軟件件系統可可以很方方便地對對系統進進行重新新配置,,包括服服務器的的變化、、客戶程程序的自自動安裝裝等特性性。微軟軟為DCOM提提供了一一個圖形形界面的的配置工工具程序序(DCOMCNFG.EXE),,可使客客戶程序序和組件件程序在在不改變變代碼的的情況下下適應不不同的網網絡環境境。18分布式組組件對象象的特性性安全性::DCOM使使用了WindowsNT提供的的可擴展展安全性性框架,,在非NT平臺臺上實現現的DCOM也也包括了了一個與與NT兼兼容的安安全提供供器。DCOM實現的的安全性性分為訪訪問安全全性和激激發安全全性。訪訪問安全全性指定定哪些用用戶可以以調用分分布式組組件對象象,激發發安全性性指定哪哪些用戶戶可以在在一個新新進程中中創建新新的對象象。協議無關關性:在在基于COM/DCOM/COM+的分布布式應用用系統中中,并不不要求專專門的網網絡協議議,所以以這種分分布式應應用系統統對網絡絡有很強強的適應應能力。。在Windows平平臺上,,可以使使用以下下一些協協議:TCP/IP、、UDP、IPX/SPX以以及NetBIOS。。平臺獨獨立性性:COM/DCOM/COM+把把平臺臺二進進制標標準和和平臺臺無關關的標標準隔隔離開開來,,并且且,由由于DCOM建建立在在DCERPC的的基礎礎上,,所以以DCOM能很很好地地適應應不同同的系系統平平臺,,目前前已經經實現現了DCOM的的操作作系統統有::Windows、、AppleMacintosh以以及Unix的的一些些版本本。19使用COM技術術實現現數據據倉庫庫的組組件數據倉倉庫是是針對對支持持整個個企業業范圍圍的主主要業業務來來建立立的。。主要要特點點是,,包含含大量量面向向整個個企業業的綜綜合信信息及及導出出信息息,所所以系系統本本身處處在一一個分分布式式環境境中,,且必必須具具有極極好的的擴展展性和和靈活活性。。COM/DCOM/COM+技術術能適適應數數據倉倉庫應應用的的需要要,能能最大大限度度地提提高靈靈活性性和可可擴展展能力力。數據倉倉庫的的系統統設計計與開開發是是一個個動態態的反反饋和和循環環的過過程。。一方方面數數據倉倉庫的的數據據內容容、結結構、、粒度度、分分割以以及其其他物物理設設計根根據用用戶所所返回回的信信息不不斷地地調整整和完完善,,以提提高系系統的的效率率和性性能;;另一一方面面,通通過不不斷地地理解解用戶戶的分分析需需求,,向用用戶提提供更更準確確、更更有用用的決決策信信息。。將數數據倉倉庫系系統從從功能能上分分為若若干個個獨立立的對對象,,并使使用COM技術術實現現,可可以最最大限限度地地重用用這些些對象象。當當用戶戶的需需求增增加或或發生生變化化時,,只需需要增增加相相應的的COM對對象或或更新新變化化的COM對象象。20使用COM技術術實現現數據據倉庫庫的組組件通過將將用戶戶業務務邏輯輯以DCOM對對象的的形式式集中中到中中間層層,系系統就就獲得得了對對業務務邏輯輯的獨獨立性性。當當用戶戶需求求改變變時,,開發發人員員可以以迅速速地在在應用用服務務器上上更新新業務務邏輯輯,而而無需需將更更新后后的應應用遞遞交到到成千千上萬萬的桌桌面系系統上上去,,從而而使開開發人人員從從維護護眾多多客戶戶端的的繁重重工作作中解解脫出出來。。倉庫是是一個個大規規模的的工程程項目目,它它開發發周期期長,,而數數據倉倉庫的的需求求又是是動態態的,,不確確定的的。如如果數數據倉倉庫的的開發發周期期過長長,可可能當當系統統完成成后,,用戶戶的需需求已已經發發生了了變化化,從從而造造成開開發資資源的的浪費費;而而且在在當今今激烈烈的市市場競競爭中中,誰誰越早早進行行決策策,誰誰就在在競爭爭中占占得先先機,,所以以數據據倉庫庫的開開發周周期越越短,,給企企業帶帶來的的效益益就越越大。。通過過COM技技術將將數據據倉庫庫系統統劃分分為不不同的的功能能對象象,可可以使使開發發團隊隊進行行并行行開發發。開開發人人員只只需要要定義義各個個COM對對象明明確的的接口口,彼彼此之之間不不需要要了解解各自自的工工作。。21使用COM技術實現現數據倉庫庫的組件數據倉庫的的數據是從從企業內部部的各個操操作型環境境中提取出出來的,所所以數據倉倉庫系統本本身就處在在一個分布布式環境中中。由于在在數據倉庫庫中數據的的訪問量非非常大,所所以提高系系統性能的的首要目標標是盡量減減少網絡上上的數據傳傳遞。可以以將數據處處理的各個個組件以DCOM對對象的形式式存放在應應用服務器器上,所以以,盡管可可能存在著著與應用服服務器的多多個甚至數數百個的連連接,但應應用服務器器與數據庫庫服務器之之間的連接接卻只有少少數幾個,,從而達到到減少網絡絡上的數據據傳送量。。數據分析應應用中的計計算、操作作和數據過過濾通常是是很復雜的的。如果在在客戶機上上完成這些些處理工作作,不僅要要求客戶機機必須具有有足夠強大大的配置,,而且對網網絡負載能能力也是一一個考驗。。通過COM技術可可以將執行行此類處理理工作的對對象放在多多個應用服服務器上,,利用COM+提供供的負載平平衡服務來來提高數據據倉庫系統統的可用性性。由于數據分分析時,每每次查詢涉涉及到的數數據量巨大大,所以往往往會需要要較長的響響應時間,,特別在數數據分布時時響應時間間有時會讓讓人難以忍忍受。COM+通過過消息隊列列組件提供供了異步通通信功能,,使得客戶戶不必等待待。22數據倉庫體體系結構的的設計與實實現設計思想::客戶端通過過提交描述述要調用的的方法和要要傳遞的參參數的XML文檔進進行調用。。在應用服服務器端實實現所需服服務的接口口,當通信信組件接收收到XML文檔后,,創建XMLService組件并由由XMLService組件件根據XML文檔調調度服務,,并將返回回結果或錯錯誤信息封封裝成XML文檔傳傳遞給客戶戶端。將數據倉庫庫系統劃分分為若干個個獨立的分分布式對象象,每個對對象都可以以獨立地完完成一項工工作如數據據轉換、數數據集成等等。這些對對象須使用用開放的標標準組件,,它們具有有可重用性性高的特性性。對象與與對象之間間通過XML文檔進進行通信。。由于采用用開放的XML文檔檔集成數據據,所以大大大提高了了系統集成成異構數據據源、半結結構化數據據及非結構構化數據的的能力。對象與對象象之間既可可以互相協協作共同完完成創建數數據倉庫的的任務,又又可以獨立立地完成某某個特定功功能。這些些分布式對對象和用戶戶前端界面面以及后臺臺數據形成成了數據倉倉庫的多層層體系結構構。23數據倉庫系系統體系結結構的設計計客戶端:可視化的用用戶界面客戶端通信信組件應用服務器器端:服務器端通通信組件XMLService調度組組件安全組件元數據管理理器轉換器集成器數據庫服務務器端源數據元數據庫數據準備區區數據倉庫24數據倉庫系系統中的通通信-XML概述述XML(eXtensibleMarkupLanguage,可擴擴展的標記記語言)是是國際組織織W3C制制定的在Web上對對有格式的的數據進行行描述、傳傳輸、操作作的通用語語言。XML是是一套定義義語義標記記的規則,,這些標記記將文檔分分成許多部部件并對這這些部件加加以標識。。它也是元元標記語言言,即定義義了用于定定義其他與與特定領域域有關的、、語義的、、結構化的的標記語言言的句法語語言。XML定義義了一套元元句法,允允許各種不不同的專業業開發與自自己的特定定領域有關關的標記語語言。25基于XML的通信運運行機制應用服務器器端通信組組件接收到到客戶端傳傳遞來的XML字符符串,創建建XMLService對象象。將XML字字符串以參參數形式傳傳遞給XMLService對象的調調度方法Run(),并調用用Run方方法;在Run方方法中,解解析XML字符串,,獲得客戶戶端調用的的方法;檢查用戶的的權限,如如果沒有調調用此方法法的權限,,返回錯誤誤信息;通過權限驗驗證后,打打開存儲在在服務器端端的FunctionMaps.xml文件,,該文件中中記錄了方方法和對象象的映射關關系,根據據文件中記記錄的內容容獲得實現現方法的對對象名;根據獲得的的對象名創創建對象;;每個對象((元數據管管理器、轉轉換器、集集成器)除除了實現了了用戶所需需要的服務務外,還實實現了一個個調度自身身服務的Run方法法,XMLService調調度對象則則通過調用用這個Run方法來來實現對對對象服務的的調度。26XML通信信組件示意意圖27XML通信信組件客客戶端與服服務器端的的通信機制制啟動服務器器端管理程程序,創建建Application調調度對象。。用Application調調度對象的的StartNewService方方法創建ServerDispatcher偵偵聽聽對象,并并對客戶端端進行偵聽聽。啟動客戶端端應用程序序,創建ClientTalker會會話對象。。調用ClientTalker會話對對象的Connect方法,,請求連接接服務器。。ServerDispatcher偵偵聽對象接接收到客戶戶端的連接接請求后,,創建ServerTalker對象象并將它與與ClientTalker會話對象象連接。如如果活動的的通信會話話對象數量量達到了最最大限制,,新的連接接不能建立立,相關消消息將被記記錄到日志志文件中。。調用ServerTalker的Accept方法,然然后等待客客戶端發送送XML消消息;在收收到客戶端端發送的XML消息息后,加載載XMLService對象象處理XML消息,,然后將處處理結果發發回客戶端端;如果過過程中有錯錯誤發生,,錯誤信息息將被記錄錄到日志文文件中,同同時,會話話被認為結結束;如果果在上一次次數據通信信后,在指指定時間范范圍里沒有有通信發生生,系統認認為超時,,會話也將將結束。28元數數據據管管理理器器客戶戶端端登登錄錄::負負責責接接收收客客戶戶端端登登錄錄信信息息并并進進行行用用戶戶權權限限檢檢查查元數數據據管管理理器器的的用用戶戶接接口口::以以接接口口形形式式向向用用戶戶提提供供對對元元數數據據增增、、刪刪、、改改、、查查的的服服務務,,包包括括::源源數數據據信信息息、、數數據據倉倉庫庫信信息息、、星星型型模模型型信信息息、、維維信信息息、、維維表表字字段段信信息息、、事事實實表表字字段段信信息息、、映映射射事事實實表表字字段段信信息息、、映映射射維維表表字字段段信信息息、、鏈鏈接接事事實實表表與與維維表表字字段段的的信信息息;;元數數據據的的存存儲儲::元元數數據據管管理理器器中中的的元元數數據據存存儲儲程程序序負負責責接接收收由由接接口口程程序序傳傳遞遞來來的的關關于于對對元元數數據據進進行行增增加加、、修修改改和和刪刪除除等等信信息息,,并并根根據據所所提提供供的的參參數數執執行行存存儲儲過過程程,,將將元元數數據據的的有有關關信信息息保保存存于于服服務務器器端端的的元元數數據據庫庫中中。。29元數數據據管管理理器器的的設設計計與與實實現現元數數據據的的作作用用:定定義義數數據據倉倉庫庫的的作作用用,指指明明數數據據倉倉庫庫中中信信息息的的內內容容和和位位置置,刻刻畫畫數數據據的的抽抽取取和和轉轉換換規規則則,存存儲儲與與數數據據倉倉庫庫主主題題有有關關的的各各種種商商業業信信息息。。元數數據據基基于于MicrosoftSQLServer2000的的關關系系模模型型并并存存儲儲在在數數據據庫庫服服務務器器上上,,同同時時通通過過MetaManager組組件件提提供供了了一一系系列列接接口口使使用用戶戶可可以以在在所所有有應應用用中中共共享享元元數數據據在客客戶戶端端提提供供圖圖形形化化界界面面工工具具。。例例如如,,用用戶戶想想在在多多維維模模型型中中加加入入一一維維或或者者在在某某一一維維中中加加入入維維元元素素,,不不僅僅可可以以通通過過圖圖形形化化界界面面工工具具完完成成而而且且可可以以在在用用戶戶自自已已編編寫寫的的應應用用程程序序中中調調用用應應用用程程序序接接口口函函數數,,修修改改后后的的結結果果將將記記入入元元數數據據庫庫中中。。然然后后系系統統將將根根據據元元數數據據庫庫中中的的新新內內容容進進行行數數據據的的追追加加。。30元數數據據模模型型關于于源源數數據據的的元元數數據據::它它是是現現有有的的操操作作型型業業務務系系統統的的數數據據源源的的描描述述信信息息,,是是對對不不同同平平臺臺上上的的數數據據源源的的物物理理結結構構和和含含義義的的描描述述。。包包括括::數數據據源源中中所所有有物物理理數數據據結結構構;;所所有有數數據據項項的的業業務務定定義義;;每每個個數數據據項項更更新新的的頻頻率率,,以以及及由由誰誰或或哪哪個個過過程程更更新新的的說說明明;;每每個個數數據據項項的的有有效效值值;;其其它它系系統統中中具具有有相相同同業業務務含含義義的的數數據據項項的的清清單單。。關于于數數據據倉倉庫庫多多維維模模型型的的元元數數據據標準準維維::由由一一張張維維表表構構成成,,標標準準的的星星型型模模型型采采用用這這種種維維和和事事實實表表構構成成的的。。維維表表中中的的一一個個字字段段或或多多個個字字段段構構成成了了維維的的層層次次。。雪花花維維::由由相相互互關關聯聯的的多多個個維維表表構構成成,,每每個個維維表表中中的的字字段段構構成成了了維維的的層層次次。。通通過過多多個個維維表表的的連連接接最最大大限限度度地地減減少少了了數數據據存存儲儲量量,,增增加加了了模模型型的的靈靈活活性性,,但但也也使使得得查查詢詢變變得得復復雜雜化化。。時間間維維::用用來來描描述述事事實實數數據據的的時時間間屬屬性性。。它它通通常常只只與與源源數數據據庫庫中中某某個個表表的的日日期期型型字字段段相相對對應應,,所所以以時時間間維維的的層層次次不不可可以以由由維維表表的的字字段段來來表表示示。。時時間間維維的的層層次次由由高高到到低低分分別別為為Year、、Quarter、、Month、、Day、、Hour、、Minute、、Second,,用用戶戶可可以以任任意意選選擇擇幾幾種種構構成成時時間間維維的的層層次次。。31元數據模型關于數據倉庫庫映射的元數數據:是數據據源中的數據據與數據倉庫庫間數據的映映射。當數據據源中的一個個數據項與數數據倉庫建立立了映射關系系,就應該記記下這些數據據項發生的任任何變換或變變動,即用元元數據反映數數據倉庫中的的數據項是從從哪個特定的的數據源填充充的,經過哪哪些轉換、集集成過程。關于系統安全全的元數據::描述了系統統中用戶、權權限組及用戶戶權限信息。。每個用戶可可以屬于多個個權限組,每每個權限組都都有一定的權權限。這些權權限具體表現現為可以執行行的元數據管管理器、轉換換器和集成器器所提供的方方法。32基于COM的的元數據管理理器MetaManager的運行行機制用戶程序首先先啟動客戶程程序,客戶程程序連接應用用服務器。客戶程序創建建一個128位的SessionID并將它與與登錄帳號、、口令組成XML字符串串傳遞給應用用服務器,XMLService調度對象接接收到XML字符串后解解析XML字字符串,創建建登錄對象并并調用登錄對對象的相關方方法。登錄對象通過過數據庫中的的用戶及口令令確定用戶的的合法身份,,并保存SessionID,返回回登錄成功的的信息。客戶程序收到到登錄成功的的信息后,以以XML字符符串形式向應應用服務器發發送XML命命令數據包,,命令數據包包前加上包括括SessionID的的請求報頭。。應用服務器收收到客戶的請請求數據包后后將其解析,,獲得SessoinID,并根據據SessionID檢檢查用戶的權權限。如用戶具有合合法權限,則則由XMLService調度對對象創建MetaManager對對象并調用MetaManger的的Run方法法。MetaManager的Run方方法根據客戶戶傳遞的XML數據包調調用相關的方方法。返加的的結果打成XML數據包包并通過通信信組件返回給給客戶程序。。33轉換器的設計計與實現轉換器的功能能:數據結構轉換換和數據類型型轉換結構化數據的的轉換:關關系對應于對對象類,元元組對應于對對象實例,關關系屬性對對應于對象的的屬性值非結構化數據據的轉換:利利用對象的的封裝性實現現對非結構化化數據的處理理自動化或半自自動化的轉換換器生成技術術:采用互操作性性標準,定定義數據源與與翻譯器的接接口從數據源中提提取數據并轉轉換格式的過過程:先將各類數據據庫系統中不不同格式的數數據轉換成文文本文件,然然后再利用批批拷貝命令將將數據導入目目標系統中。。以使數據倉倉庫獲得新的的數據提供決決策分析使用用。34轉換器的設計計與實現數據準備區的的使用:首先先從源數據中中提取數據,,轉換成數據據倉庫所要求求的格式后存存儲在數據倉倉庫的一個稱稱為數據準備備區的緩沖區區中。在該區區域中,可以以暫時存儲原原始數據,然然后由集成器器對數據進行行清理、集成成后再裝載到到數據倉庫中中。由于使用用獨立于數據據源的數據準準備區為數據據倉庫準備數數據可提高管管理數據倉庫庫的效率,另另外將數據準準備區與數據據倉庫數據隔隔離開,可以以保護數據倉倉庫的完整性性同時可以提提高數據倉庫庫的性能。在在將數據從源源數據提取到到數據準備區區的過程中,,可借助于Microsoft的數數據轉換服務務(DTS))包來實現。。35源數據庫、數數據準備區和和數據倉庫庫之間的關系系源數據數據準備區數據倉庫DTS三者關系圖36DTS概述DTS:是MicrosoftSQLServer2000中提提供的數據轉轉換服務(DataTransformationServices)。DTS是一個個組件對象,,它提供一個個組件的完整整集。這些組組件可在任何何具有OLEDB、ODBC接口口的數據庫或或規格化的文文本文件間導導入、導出和和轉換數據。。包(Package)::導入、導出出數據的過程程定義并保存存在包中。37轉換器的實現現-轉換器的流程程圖創建數據準備備區N開始讀元數據檢查數據準備備區?執行DTS包包更改元數據((時間,數據據狀態)結束成功連接元數據庫庫創建DTS包包Y38選擇源數據的的窗體39數據轉換在窗體上方的的下拉列表中中選擇了數據據源類型后,,針對不同的的數據源類型型在窗體中會會顯示不同的的界面,讓用用戶輸入連接接各種數據源源的連接字符符串信息(用用戶名、密碼碼、數據庫等等)。由于DTS借助OLEDB來存取不同同數據源的數數據,所以本本系統中可選選擇的數據源源類型包括OLEDB支持的各種種異質數據源源。在窗體中中單擊下一步步按鈕后,將將顯示數據庫庫中各對象信信息讓用戶選選擇需要導入入數據準備區區的數據對象象,然后創建建并調用Microsoft的DTS對象,,完成數據轉轉換工作。40調用DTS的過過程創建DTS包,,并初初始化化參數數。向DTS的的連接接集合合中添添加源源數據據連接接。檢查數數據準準備區區是否否存在在,如如不存存在首首先創創建數數據準準備區區,如如果數數據準準備區區已存存在則則直接接向DTS的連連接集集合中中添加加目標標數據據源連連接。。讀取相相關元元數據據信息息,如如需要要轉換換的表表及字字段的的相關關信息息等。。根據元元數據據信息息,創創建任任務對對象并并加入入任務務集合合。創建步步驟對對象,,并將將任務務對象象加入入步驟驟對象象。如果有有多個個任務務,則則繼續續創建建其他他任務務對象象,并并指定定所屬屬步驟驟對象象。執行DTS包。。41集成器器的設設計與與實現現-集成器器的功功能轉換各各種異異質數數據源源的格格式。。判定一一個記記錄是是否可可進行行抽取取處理理。數據重重新格格式化化。數據清清理。。從多個個輸入入數據據源中中選取取數據據。多個輸輸入文文件重重新排排序。。產生不不同概概括層層次上上的輸輸出結結果。。提供缺缺省值值。區分需需要抽抽取的的和不不需要要抽取取的操操作型型數據據。進行數數據的的匯總總。對數據據元素素的重重命名名進行行跟蹤蹤。不常見見的或或不標標準的的格式式處理理。指定轉轉換邏邏輯和和轉換換機制制。理解并并解開開建立立在舊舊的傳傳統程程序邏邏輯中中的數數據之之間的的關系系。大容量量數據據的輸輸入/輸出出(如如并行行裝載載和并并行讀讀出))。必須符符合企企業數數據模模型。。42集成器器的設設計與與實現現集成模模型::根據據元數數據中中記錄錄的映映射關關系在在星形形模型型的基基礎上上以向向導的的形式式提供供集成成模型型的客客戶端端工具具。創建數數據倉倉庫后后,在在元數數據中中記錄錄數據據倉庫庫的基基本信信息,,同時時創建建一個個同名名的關關系型型數據據庫。。用戶戶可以以在窗窗體中中的數數據類類型下下拉列列表中中選擇擇數據據倉庫庫的數數據類類型,,由于于數據據倉庫庫是一一個海海量數數據的的存儲儲集合合,所所以選選擇的的數據據庫管管理系系統必必須具具有并并行處處理能能力及及可伸伸縮性性。創建了了物理理數據據庫后后,開開始創創建數數據倉倉庫模模型,,并裝裝載數數據。。首先先創建建星型型模型型中的的事實實表。。在樹型型結構構中列列出當當前元元數據據庫中中描述述的源源數據據庫以以及庫庫中的的表對對象,,用戶戶可以以選擇擇其中中一個個表作作為事事實表表;同同時窗窗體的的右邊邊以列列表形形式顯顯示了了所選選擇表表的字字段信信息。。單擊擊下一一步后后,用用戶可可以在在窗體體中選選擇度度量字字段,,并選選擇要要保留留的字字段。。將用用戶的的信息息記錄錄在元元數據據庫中中,并并根據據該信信息創創建事事實表表。43集成器器的設設計與與實現現事實表表創建建后,,則開開始創創建星星型模模型的的維。。在前前面的的章節節中我我們討討論了了星型型模型型的維維分為為:標標準維維、雪雪花維維和時時間維維。完成上上述的的步驟驟后,,已成成功創創建了了一個個星形形模型型,然然后再再調用用元數數據管管理器器的相相關方方法更更新元元數據據庫中中的數數據。。數據凈凈化::當數數據從從源數數據庫庫中提提取到到數據據準備備區后后,必必須先先進行行數據據凈化化才可可以裝裝載到到數據據倉庫庫中去去。數數據凈凈化主主要指指對數數據字字段的的有效效值檢檢驗。。有效效值的的檢驗驗通常常包括括:范范圍檢檢驗、、枚舉舉字段段取值值和相相關檢檢驗。。范圍圍檢驗驗要求求數據據保證證落在在預期期的范范圍之之內,,通常常對數數據范范圍和和日期期范圍圍進行行檢驗驗,如如對任任何在在指定定范圍圍之外外的日日期的的發票票都應應刪除除。枚枚舉字字段取取值指指對一一個記記錄在在該字字段的的取值值,若若不在在指定定的值值中,,則應應該刪刪除。。相關關檢驗驗要求求將一一個字字段中中的值值與另另外一一個字字段中中的值值進行行相關關檢驗驗,即即在數數據庫庫中某某個字字段應應與另另一個個字段段形成成外鍵鍵約束束。44集成器器的設設計與與實現現維表與與事實實表的的引用用完整整性檢檢驗::數據據倉庫庫的星星型模模型中中一般般都有有多個個維,,而在在查詢詢數據據時維維表和和事實實表之之間大大多采采用內內聯接接。當當維表表和事事實數數據表表之間間的引引用完完整性性破壞壞時,,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物質能發電的生物質能發電新技術開發考核試卷
- 一年級口算練習題大全(1000題)
- 靜脈血液標本采集指南 2
- 血液透析患者的護理
- 小學四年級語文詞語搭配練習題
- 江西省南昌二中、九江一中、新余一中、臨川一中八所重點中學2025屆高三下第二次診斷性考試數學試題含解析
- 新疆昌吉市教育共同體2025屆高中畢業班第一次模擬(生物試題理)試卷含解析
- 平頂山文化藝術職業學院《影視平面設計》2023-2024學年第二學期期末試卷
- 山東省泰安市南關中學2024-2025學年中考數學試題考前三個月(江蘇專版)含解析
- 江西省宜春市豐城市豐城九中2025屆高三4月綜合測試生物試題理試題含解析
- 化學性及藥物性頜骨骨髓炎
- 神奇的植物王國課件
- 員工崗位技能考核評定表
- 人工氣道的護理劉亞課件
- 項目部安全生產事故應急預案
- 垂體瘤-PPT課件
- 鉆井井控裝置
- 贛美版(江西)小學四年級美術下全冊教案
- 12隊淘汰賽_對陣表
- 我國城市馬拉松賽事發展現狀分析
- 貧困戶登記表入戶摸底調查表
評論
0/150
提交評論