數據倉庫實踐系列課程(1)-數據倉庫基本概念_第1頁
數據倉庫實踐系列課程(1)-數據倉庫基本概念_第2頁
數據倉庫實踐系列課程(1)-數據倉庫基本概念_第3頁
數據倉庫實踐系列課程(1)-數據倉庫基本概念_第4頁
數據倉庫實踐系列課程(1)-數據倉庫基本概念_第5頁
已閱讀5頁,還剩75頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫實踐系列課程(1)

——數據倉庫基本概念文思海輝?Pactera.Confidential.AllRightsReserved.2數據倉庫概念數據模型介紹數據管理介紹數據倉庫項目實施數據倉庫出現的背景需求的變化業務系統的建設逐漸完善分析類需求不斷增加不斷增加的信息孤島導致數據集成問題不斷增加技術發展狀況關系數據庫技術日趨成熟報表和復雜查詢處理起來非常困難各個系統之間數據不一致數據倉庫與OLTPOLTP系統(生產系統)面向應用事務驅動的實時性高數據檢索量相對少只存當前數據數據倉庫系統(決策系統)面向主題分析和決策實時性要求不是特別高數據檢索量大存儲大量的歷史數據和當前數據分析型系統與操作型系統之間的區別操作型數據分析型數據細節的細節的,綜合的,或提煉的在存取瞬間是準確的代表過去的數據可更新不更新操作需求事先可知道操作需求事先不知道對性能要求高對性能要求相對寬松一個時刻操作一單元一個時刻操作一集合事務驅動分析驅動面向應用面向分析一次操作數據量小一次操作數據量大支持日常操作支持管理需求數據倉庫建設的分歧數據倉庫建設的分歧BillInmonKimball1991年,提出了企業級數據倉庫企業級數據倉庫建設遭受大面積失敗Kimball出版了TheDataWarehouseToolkit數據集市建設在初期取得了成功多個數據集市之間的復雜的ETL/數據不一致爭論與混亂期(1996-1997)EDWODSDataMart走向融合(1998-2001)提出了企業信息工廠(CorporateInformationFactory)的架構,融合了EDW/ODS/DataMartKimball也提出了數據倉庫的擴展架構,把EDW/ODS/DataMart結合在了一起數據倉庫理論的形成數據倉庫的四個特征數據倉庫是面向主題的(Subject-Oriented)集成的(Integrated)隨時間不斷變化(Time-variant)不可更新的(Nonvolatile) 數據倉庫之父:BillInmon數據倉庫面向主題與面向應用OLTP應用是面向應用進行數據組織的分析應用面向主題進行組織主題一個抽象的概念在較高層次上將企業信息系統中的數據綜合、歸類并進行分析利用的抽象。例如:對于一個保險公司來說OLTP數據庫所面向的應用可能是汽車保險、健康保險、人壽保險與意外傷亡保險數據倉庫所面向的主題域可能是顧客、保險單、保險費與索賠。目前主流的數據倉庫大都是采用關系數據庫技術來實現的數據倉庫的數據最終也會用關系模型表現。因此要把握主題和面向主題的概念,需要將它們提高到一個更高的抽象層次上來理解,也就是要特別強調概念的邏輯意義。數據集成數據集成的內務數據清洗按照數據質量管理的要求進行數據的清洗數據轉換按照源系統與數據倉庫中模型之間的差異進行轉換數據整合不同源系統的數據在數據倉庫中可能會進入到相同的模型中為什么要進行數據集成?源系統的多樣性數據質量的要求模型的差異不可更新與不斷變化不可更新不會修改細節數據(源系統傳來的詳細數據)數據轉換:通常需要保留原值不斷變化不斷增加新的數據刪除舊的數據新的匯總周期帶來的新的匯總數據數據集市數據集市(DataMart)是部門級決策支持的數據集合。數據集市數據倉庫數據訪問與分析(企業級)(部門級)數據集市數據集市建設的幾種體系架構數據倉庫邏輯數據集市物理數據集市依賴數據集市獨立數據集市14?Pactera.Confidential.AllRightsReserved.數據集市的缺點多個數據模型多個傳輸轉換程序數據不一致系統復雜,難于維護生產系統獨立數據集市市場部......財務部儲蓄系統信用卡系統MedicaidWelfareMentalHealthChildServices分布式(數據集市)集中式(數據倉庫)MedicaidWelfareMentalHealthChildServicesEmployeesClientServicesProgramEffectivenessDistrictOfficesCostsEligibility“垂直”“水平”數據倉庫與數據集市的業務分析能力DW/DM的流派之爭----BillInmon與RalphKimballADW(ActiveDataWarehouse)n=1,072BI已經深入到企業的各個部門后臺管理人員前臺業務人員問:BI在您的企業中的哪些領域被用來制定關鍵的決策,請選擇所有適用的選項。Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI已經不僅僅是辦公室的管理人員的專利主要發現在美國企業中,監管和審計要求(SarbOx)是驅動BI應用的重要原因–這是與其它地區非常大的區別。IDC觀點財務分析通常是BI應用的主要推動力,但這一應用仍然只有不到50%的企業使用。n=1,072BI在企業內部的用戶群Q:在您的企業中,哪些用戶正在通過BI的解決方案在獲取信息。請選擇所有適用的答案Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI深入企業的各個層面主要發現一線業務人員也急需決策支持。BI從后端角落里轉移到企業的中心。BI解決方案不僅向內部人員提供訪問,而且向外部用戶提供訪問。領導企業中,外部用戶可以訪問BI的比例是平均值的兩倍。IDC觀點業務分析解決方案可以幫助企業中的各類用戶群。BI解決方案不僅幫助業務分析人員和高層管理者。支持外部用戶可以加強外部用戶對企業的依賴,從而增強用戶關系。內部外部什么是并行處理并行處理的概念在某一個數據庫系統中能同時采用多個硬件設備完成某一任務的方法。多個硬件設備可同時工作于該任務的不同方面。并行處理的主要目的是節省大型和復雜問題的解決時間。并行處理與并發處理并發是指在某一個數據庫系統中允許多個任務的同時執行,任務與任務之間沒有聯系。并行是指將一個任務劃分為多個子任務,這些子任務同時執行。在所有子任務處理完成后,將它們的結果進行合并,就得到該任務的最終處理結果OLTP與OLAP對系統的不同要求OLTP操作使用特點請求短小而密集技術要求能夠將用戶的請求進行均衡分擔并發操作。OLAP操作使用特點請求龐大而稀疏每一個查詢和統計都很復雜,但訪問的頻率并不是很高技術要求能夠將所有的硬件資源調動起來為這一個復雜的查詢請求服務并行處理結論并行處理技術在數據倉庫中比OLTP系統更加重要。并行技術的幾種類型SMPSymmetricMulti-Processor對稱多處理器NUMANon-UniformMemoryAccess非一致存儲訪問結構MPPMassiveParallelProcessing海量并行處理結構SMPCPU服務器中多個CPU對稱工作,無主次或從屬關系。CPU共享相同的物理內存,每個CPU訪問內存中的任何地址所需時間是相同的。也被稱為一致存儲器訪問結構(UMA:UniformMemoryAccess)。特征共享:系統中所有資源(CPU、內存、I/O等)都是共享的。沖突:每個CPU必須通過相同的內存總線訪問相同的內存資源,因此隨著CPU數量的增加,內存訪問沖突將迅速增加。SMP的性能擴展實驗證明,SMP服務器CPU利用率最好的情況是2至4個CPU。NUMANUMA的特征CPU具有多個CPU模塊每個CPU模塊由多個CPU(如4個)組成每個CPU模塊具有獨立的本地內存、I/O槽口每個CPU模塊之間可以通過互聯模塊進行連接和信息交互特征可以較好地解決原來SMP系統的擴展問題,在一個物理服務器內可以支持上百個CPU訪問本地內存的速度將遠遠高于訪問遠地內存當CPU數量增加時,系統性能無法線性增加MPP系統架構由多個SMP服務器通過一定的節點互聯網絡進行連接協同工作,完成相同的任務從用戶的角度來看是一個服務器系統基本特征由多個SMP服務器(每個SMP服務器稱節點)通過節點互聯網絡連接而成每個節點只訪問自己的本地資源(內存、存儲等)ShareNothing結構擴展能力最好與NUMA的區別不存在異地內存訪問的問題節點之間的信息交互是通過節點互聯網絡實現的這個過程一般稱為數據重分配(DataRedistribution)數據倉庫應用的特征數據倉庫大量復雜的數據處理要求很高的I/O處理能力存儲系統提供足夠的I/O帶寬與之匹配OLTP每個交易所涉及的數據不多要求系統具有很高的事務處理能力能夠在單位時間里處理盡量多的交易NUMA架構更適用于OLTP事務處理環境大量復雜的數據處理必然導致大量的數據交互,將使CPU的利用率大大降低體系架構決定了可擴展能力LargeSMP/NUMA設計來做OLAP應用對于小數據量的應用效率很高當CPU數量增加以及數據量增加的時候,由于資源競爭導致效率急劇下降。MemoryCacheCacheCPU(s)MemoryCacheCPU(s)CPU(s)MemorySPEEDLIMIT55

Disk

StorageDisk

StorageCPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CacheCacheCacheCacheCacheCacheCacheCacheMemoryMemoryMemoryMemoryMemoryMemoryMemoryMemoryDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorage交換網絡通過互聯網絡訪問共享內存CPU通過互聯網絡訪問共享磁盤Shared-NothingMPP斜率為1的線性擴展被優化用作非常大量的磁盤讀寫對數據倉庫應用來講,效率非常高

線性擴展斜率為1NUMA衰減20%SMP衰減10%

CPU個數系統性能11109876543211 2 3 4 5 6 7 8 9 10

有時候這個也被稱作線性擴展共享資源導致CPU效率降低ScalingResultsofSMP/NUMAandMPP架構選擇示例?Pactera.Confidential.AllRightsReserved.32數據倉庫概念數據模型介紹數據管理介紹數據倉庫項目實施模型和數據模型模型——現實世界特征的模擬和抽象,比如地圖、建筑設計沙盤,模型飛機等。數據模型DataModel——是現實世界數據特征的抽象。數據模型數據模型從計算機實現的觀點來對數據建模是信息世界中的概念和聯系在計算機世界中的表示方法一般有嚴格的形式化定義,以便于在計算機上實現數據模型種類數據模型層次模型網狀模型關系模型多維模型層次模型層次模型用樹結構表示實體之間聯系的模型叫層次模型樹由節點和連線組成節點代表實體型連線表示兩實體型間的一對多聯系樹的特性每棵樹有且僅有一個節點無父節點,稱為樹的根樹中的其它節點都有且僅有一個父節點層次模型地址系名系號教研室名教研室號年級姓名學號職稱姓名職工號系教研室學生教員1:N聯系實體層次模型優點結構簡單,易于實現缺點支持的聯系種類太少只支持二元一對多聯系數據操縱不方便子結點的存取只能通過父結點來進行插入、刪除復雜代表產品:IBM的IMS數據庫,1969年研制成功網狀模型網狀模型是一個滿足下列條件的有向圖可以有一個以上的節點無父節點至少有一個節點有多于一個的父節點(排除樹結構)節點代表實體,有向邊(從箭尾到箭頭)表示兩實體間的一對多聯系學生課程選課網狀模型優點表達的聯系種類豐富缺點結構復雜語言復雜代表產品HP的IMAGE,

CullinetSoftware公司的IDMS等關系模型屬性元組男女男性別192221年齡D01李紅S02D02王偉S03D01張軍S01系號姓名學號Thebasicprincipleoftherelationalmodelisthe

InformationPrinciple:all

information

isrepresentedby

datavalues

inrelations.關系模型簡單,表的概念直觀、單一,用戶易理解非過程化的數據請求,數據請求可以不指明路徑數據獨立性,用戶只需提出“做什么”,無須說明“怎么做”堅實的理論基礎關系數據建模E.F.Codd于70年代初提出關系數據理論,他因此獲得1981年的ACM圖靈獎關系理論,是以“關系”(RELATION)為中心的,指的是具有單值(singlevalued)項的二維表。關系模型為我們提供了數據組織的技術,這種技術考慮到了存儲與檢索數據過程中數據的一致性,并采用了公認的數學運算方法。規范化理論提出了一些規則,這些規則以新的方式來組織數據,從而減少冗余和數據異常。規范化什么是規范化一種對數據元素進行組織的數據建模技術,消除數據冗余,確保數據一致性。Normalizationisasetofrulesandamethodologyformakingsurethattheattributesinadesignarecarriedinthecorrectentitytomapaccuratelytoreality,eliminatedataredundancyandminimizeupdateanomalies.非規范化的數據庫非規范數據庫導致的數據異常現象:更新異常。數據多處存放,更新時可能會導致數據不一致。插入異常。插入數據可能會導致原有的關系被破壞。刪除異常。刪除數據可能會導致其他關系被刪除。Arelationisinfirstnormalformifitcontainsatomicvaluesonlyandnorepeatingvalues.第一范式(1NF)第二范式(2NF)Before- Cust#andCustNamearedependentonlyonPO#,notthewholeprimarykey.Cust#QtyPO#SeqNumPartNamePart#CustNameAfter(2NF)–Part#,PartName,andQtyareeachfullydependentontheprimarykey.Part#QtyPO#SeqNumPartNameCust#PO#CustNameArelationisinsecondnormalformifitisin1NFandeverynon-keyattributeisfullyfunctionallydependentontheprimarykey.第三范式(3NF)After(3NF)–Part#andQtyaremutuallyindependent.PartNamePart#Part#QtyPO#SeqNumArelationisinthirdnormalformifitisin2NFandeverynon-keyattributeismutuallyindependent(non-transitivelydependentontheprimarykey).Before-PartNameisdependentonPart#.Part#QtyPO#SeqNumPartNameCust#PO#CustNameneedtobechanged?多維模型多維模型通常用Cube來表示。多維模型可以更加直觀的表示現實中的復雜關系多維模型的基本組成:維、度量。舉例:計算每一個商場、每個產品的銷售額ProductStore多維模型發展聯機分析處理(OLAP)的提出聯機事務處理OLTP無法適應分析型應用的需求,包括對大量的數據從各個角度進行綜合分析(多維分析),從不同級別(層次)進行綜合分析。聯機分析處理(OLAP)的概念最早是由關系數據庫之父E.F.Codd于1993年提出的,他同時提出了關于OLAP的12條準則。OLAP的提出引起了很大的反響,OLAP作為一類產品同聯機事務處理(OLTP)明顯區分開來。多維數據模型的組成維(Dimension)維層次路徑、維層次、維成員(維實例)、維層次屬性度量(Measure)數據立方體(Cube)維維的組織方式:維層次路徑(HIERARCHY)維層次路徑由代表不同詳細程度的維層次(Level)組成。維的層次:特定角度的不同細節程度維:對數據進行分類的一種結構,用于從特定的角度觀察數據。(例如:時間、地區、產品)維的兩個用途 選擇針對期望詳細程度的層次的數據 分組對細節數據綜合(聚集)到相應的詳細程度的數據層次度量度量(指標):數據的實際意義,一般是一個數值度量指標例如:銷售量、銷售額,……一個度量的兩個組件數字型指標聚集函數Cube一個多維模型構成的多維數據空間我們將其稱做數據立方體(Cube)其邏輯上相當于一個多維數組這個方格代表在某個時間、某個地區通過某個銷售渠道所銷售的產品的銷售額地域時間銷售渠道

多維分析的基本分析動作切片(Slice)切塊(Dice)旋轉(Rotate)鉆取(Rollup/Drilldown)切片切塊timetime=“December2008”旋轉鉆取多維數據模型的實現技術RelationalOLAP(ROLAP)利用關系數據庫來存儲和管理基本數據和聚合數據,并利用一些中間件來支持缺失數據的處理具有良好的可擴展性MultidimensionalOLAP(MOLAP)利用多維數據庫來存放和管理基本數據和聚合數據,其中需要對稀疏矩陣處理技術對預綜合的數據進行快速索引HybridOLAP(HOLAP)利用關系數據庫來存儲和管理基本數據,利用多維數據庫來存儲和管理聚合數據。星型模式(StarSchema)雪花模式(SnowFlakeSchema)數據架構緩沖層結構幾乎和源系統一致保持業務原貌少量數據保持少量歷史整合層面向整合主題設計提供規范和共享應用集市層面向應用按需定制匯總層初級的數據加工明細VS匯總依賴對應用的提煉分析型應用系統靈活查詢數據挖掘其他OLAP固定報表/KPIDashboard數據接口行內系統接口行外系統接口IT人員業務分析人員決策用戶高級分析人員模型描述應用模式應用數據模型Application匯總層指星型固定查詢與報表初級階段的Ad-hoc匯雪花預Fact表偏邏輯化模型的PDM高階Ad-hoc數據挖掘源模型單系統固定報表及審計ETC專項應用?Pactera.Confidential.AllRightsReserved.64數據倉庫概念數據模型介紹數據管理介紹數據倉庫項目實施基本概念元數據是描述數據的數據,其內容主要包括數據的格式、結構、約束、加工過程、部署情況等。元數據管理包括元數據采集與關聯、元數據信息維護、標準代碼及術語信息維護等內容。對元數據的分析包括血緣分析、影響分析等。元數據管理——什么是元數據元數據業務元數據業務屬性業務實體數據質量業務規則技術元數據列/字段表/視圖/文件數據庫/文件服務器數據質量控制規則數據映射邏輯……業務指標企業級數據模型/

數據規范定義數據質量貸款余額的定義貸款合同的定義還款日期>貸款日期CAPMCURBALCAPMdb2、sybase、oracleLen(身份證)=15或18ETL過程……不良貸款率的口徑指標體系、報表體系數據質量包含子項示例關聯工作數據架構業務元數據與技術元數據數據倉庫的例子城市的例子對象T03_Agreement鼓樓技術元數據1:19個字段2:1個索引3:41個源、20個目標、0接口文件4:65個ETL任務5:對應LDM實體—協議6:共修改3次1:8條公交2:一條地鐵3:北向南單行線4:附近的餐館、旅館5:門票20元業務元數據協議是金融機構與團體之間針對某種特定產品或服務而簽立的契約關系如:風險敞口的計算、不同種類協議的評級、資產負債的缺口分析、客戶和銀行的往來情況(客戶貢獻、客戶買的什么產品、何時購買的產品)等。

北京鼓樓在東城區地安門外大街。明永樂十八年(1420年)建,清嘉慶五年(1800年)重修。北京鼓樓下為高約4米的城臺,北京鼓樓臺前后各有券門三道,左右各一道。北京鼓樓面闊5間,重檐三滴水灰瓦歇山頂。北京鼓樓是明清兩代向全城擊鼓報時之處。數據倉庫為什么需要元數據管理普通的應用為什么不需要元數據管理?表的數量少數據加工簡單數據來源單一訪問方式單一交鑰匙的應用數據倉庫為什么必須元數據管理?上下游系統多,變更頻繁加工復雜用戶訪問方式復雜維護周期長某銀行的DW數據舉例:上游系統60個,下游系統20多個,倉庫內部的表12000多個,運行的ETL任務3000多個,每個月都有新版本上線數據質量問題背景數據倉庫建設如火如荼數據質量現狀堪憂ETL源系統數據文件企業級數據倉庫數據集市多維立方體×!?數據質量問題對專業從事數據倉庫的人來說,大都聽說過“garbagein,garbageout”這樣的言論,意思是有問題的數據產生不出有意義的結果。有關“數據質量”的爭執從數據倉庫建設伊始就開始了“我的數據不是這樣的,一定是你的數據加載有問題”,“我們在其它系統中統計的結果與你們的不一樣,一定是你們的統計有問題”

……因此,對數據質量問題的統一認識以及如何“保證”數據倉庫中數據的質量,對數據倉庫的接收認可和推廣應用起著至關重要的作用。數據質量問題概要分析:特點質量問題是非常隱蔽的質量問題是會擴散的質量問題是會遺留的質量問題是長期的工作質量問題是所有人的工作源數據數據倉庫數據集市問題數據正常數據正常數據正常數據正常數據正常數據ETLETL數據質量管理——方法論影響分析&共性分析第三步

預防/修復數據質量問題人員流程信息趨勢監控TimeErrorcount第六步研究趨勢變化ErrorcountTime第一步

Value第二步

追蹤根本原因第四步技術TimeErrorcount第五步TimeErrorcountErrorcountTimeErrorcountTime定義&驗證ValueNo.ofOccurrencesValue當今最具權威人士認可的數據質量管理最佳實踐方式數據質量管理——處理策略產生環節集成環節使用環節業務源系統數據倉庫數據集市分析型應用企業內數據的流向數據質量問題產生的數量數據質量問題發現的數量基于數據倉庫和數據集市構建數據質量管理系統,并將源系統、相關應用以及相關科技和業務用戶都納入到數據質量的發現-修正-跟蹤-評估的閉環流程當中,是實施企業級數據質量管理的最佳選擇。數據安全管理——概述數據安全管理體系可以分為管理控制策略與技術控制策略兩大類。管理控制策略:主要指安全管理制度和流程、組織機構。技術控制策略:使用技術手段監視和控制對于數據的訪問,即數據庫安全、操作系統安全、物理安全和網絡安全等。數據安全管理體系數據安全管理——管理策略管理策略包括數據安全等級分類、組織機構和管理流程安全等級分類機密信息:涉及企業機密的信息,比如HR數據、財務數據敏感信息:涉及客戶隱私的信息,比如證據信息、聯系信息公共信息:代碼信息、產品信息、統計匯總信息組織架構安全管理策略制定數據分類和用戶角色設定審計和監管安全管理措施的執行管理流程數據需求部門向安全主管部門提出數據訪問申請主管部門對該申請進行審核,審核通過后會向申請提出者發訪問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論