




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據倉庫簡介數據倉庫的類型根據數據倉庫所管理的數據類型和它們所解決的企業問題范圍,一般可將數據倉庫分為下列3種類型:企業數據倉庫(EDW)、操作型數據庫(ODS)和數據市集(DataMart)。數據倉庫主要工作的對象為多維數據,因此又稱為多維數據庫。1.
數據倉庫的概念數據倉庫領域的權威W.H.Inmon給出了數據倉庫的一個簡短而全面的定義:數據倉庫是一個面向主題、集成、時變、非易失的數據集合,是支持管理部門的決策過程。根據該定義,數據倉庫具備以下四個關鍵特征:1.1
面向主題(SubjectOriented)的數據集合數據倉庫通常圍繞一些主題,如“產品”、“銷售商”、“消費者”等來進行組織。數據倉庫關注的是決策者的數據建模與分析,而不針對日常操作和事務的處理。因此,數據倉庫提供了特定主題的簡明視圖,排除了對于決策無用的數據。1.2
集成(Integrated)的數據集合數據倉庫通常是結合多個異種數據源構成的,異種數據源可能包括關系數據庫、面向對象數據庫、文本數據庫、Web數據庫、一般文件等。1.3
時變(TimeVariant)的數據集合數據存儲從歷史的角度提供信息,數據倉庫中包含時間元素,它所提供的信息總是與時間相關聯的。數掘倉庫中存儲的是一個時間段的數據,而不僅僅是某一個時刻的數據。1.4
非易失(Nonvolatile)的數據集合數據倉庫總是與操作環境下的實時應用數據物理地分離存放,因此不需要事務處理、恢復和并發控制機制。數據倉庫里的數據通常只需要兩種操作:初始化載入和數據訪問,因此其數據相對穩定,極少或根本不更新。綜上所述,數據倉庫是一種語義上一致的數據存儲,它充當決策支持數據模型的物理實現,并存放企業戰略決策所需信息。數據倉庫也常常被視為一種體系結構,通過將異種數據源中的數據集成在一起而構成,支持結構化和專門的查詢、分析報告和決策制定。2
數據倉庫的類型數據倉庫的類型根據數據倉庫所管理的數據類型和它們所解決的企業問題范圍,一般可將數據倉庫分為下列3種類型:企業數據倉庫(EDW)、操作型數據庫(ODS)和數據市集(DataMart)。①企業數據倉庫為通用數據倉庫,它既含有大量詳細的數據,也含有大量累贅的或聚集的數據,這些數據具有不易改變性和面向歷史性。此種數據倉庫被用來進行涵蓋多種企業領域上的戰略或戰術上的決策。②操作型數據庫既可以被用來針對工作數據做決策支持,又可用做將數據加載到數據倉庫時的過渡區域。與EDW相比較,ODS有下列特點:ODS是面向主題和面向綜合的;ODS是易變的;ODS僅僅含有目前的、詳細的數據,不含有累計的、歷史性的數據。③數據市集是數據倉庫的一種具體化,它可以包含輕度累計、歷史的部門數據,適合特定企業中某個部門的需要。幾組數據市集可以組成一個EDW(在以后部分將會重點提到)。隨著數據倉庫發展的需求,軟件工具升級相當快,新產品也層出不窮。為了便于追蹤其技術發展和更好地選擇相關的工具,數據倉庫的構造者應該廣泛地收集這方面的文件和數據,以便做出最佳的選擇。3
數據倉庫與傳統數據庫的比較傳統的關系型數據庫RDB遵循一致的關系型模型,其中的數據(記錄)以表格的方式存儲,并且能用統一的結構化查詢語言(StructualQueryLanguage,SQL)進行數據查詢,因此它的應用常被稱為聯機交易處理(OLTP),其重點在于完成業務處理,及時給予客戶響應。關系型數據庫能夠處理大型數據庫,但不能將其簡單地堆砌就直接作為數據倉庫來使用。數據倉庫主要工作的對象為多維數據,因此又稱為多維數據庫。多維數據庫的數據以數組方式存儲,既沒有統一的規律可循,也沒有統一的多維模型可循,它只能按其所屬類別進行歸類。以應用而言,多維數據庫應該具備極強的查詢能力,多維數據庫中存儲的信息既多又廣,但由于其完成的是一種聯機事物分析(OLAP),因此并不追求瞬時的響應時間,在有限的時間中給予響應即被認可。實際上,OLAP包含交互式的數據查詢,伴隨著多種分析方法,例如下鉆或成功地鉆入到最底層的細節信息上。因此數據倉庫中的信息,盡管是多維的,仍然可以用具體的表格表示。盡管數據倉庫與傳統數據庫之間存在著如此大的差異,但設計數據倉庫并不是完全另起爐灶,而可利用現有的傳統處理數據,從中進行信息的綜合,從而構造出滿足不同需求的數據倉庫。即數據從動態的、目前事件驅動的傳統工作數據流向靜態的、歷史性質的數據倉庫。從理論上說,從工作數據中戰略性地引入到期的數據可以完成這種轉變,但是由于受到實際存儲容量和技術的限制,這實際上是不可能的。因此必須從工作數據中分離和篩選數據進入到數據倉庫中。鑒于以上各種因素,為保證OLAP的性能,必須將數據倉庫和傳統工作的數據相分離。為什么要建立數據倉庫數據庫和數據倉庫當然都是裝數據的地方,關鍵的區別是裝的什么樣的數據,數據庫裝的原始數據,沒經過任何加工;而數據倉庫是為了滿足分析需要,對源數據進行了Transform過程。這是ITpub上一篇帖子引發出的問題,以前還真沒去仔細思考這個問題:為什么要建立數據倉庫,數據倉庫和數據庫的區別?因為理論上的優點說法都很多,但要真正很好地理解,能簡潔地向客戶闡述明白,讓客戶覺得建立數據倉庫是一件值得做的事情,還是值得討論一下這個問題。有如下一些朋友們說法(自己在批注處談點個人的意見):A數據庫是一個裝數據(信息的原材料)的地方。數據倉庫是一種系統,這種系統也是用數據庫裝東西。(這有點沒說清楚:個人理解數據庫和數據倉庫當然都是裝數據的地方,關鍵的區別是裝的什么樣的數據,數據庫裝的原始數據,沒經過任何加工;而數據倉庫是為了滿足分析需要,對源數據進行了Transform過程,具體是怎樣一個處理過程,可以從BillInmon的倉庫定義四個特性進行理解。)數據倉庫系統(用數據庫裝東西)與其他基礎業務系統(例如財務系統、銷售系統、人力資源系統等,也是用數據庫裝東西)的區別是:基礎業務系統的特點是各管各的,例如財務系統生產了白菜,那么用一個數據庫來裝,人力資源系統生產了豬肉,再用一個數據庫來裝。我要做一道菜,需要分別到各個數據庫去取,比較麻煩(現實的情況是大部分時候讓種菜的農民伯伯送過來,但送過來的東西不一定是我想要的,而且不同的時候我想要不同的東西,經常會被農民伯伯罵,弄得雙方都不開心)。另外一方面,各個數據庫中放的是一些比較原始的東西,我要拿過來做菜,還需要經過很麻煩的清洗過程,一不小心里面可能就藏著一條大青蟲。那么,數據倉庫系統就是建立一個大的超市,將各地農民伯伯出產的東西收集過來,清洗干凈,分門別類地放好。這樣,你要哪種菜的時候,直接從超市里面拿就可以了。B早期一直不理解數據倉庫是什么困惑得很。宏觀一點講,數據倉庫就是堆放公司所有數據的地方,之所以把數據都堆在一起,是為了從中間找到有價值的東西。數據倉庫更多的是一個概念,不要把數據倉庫想成那些號稱是數據倉庫的軟件產品們。(數據倉庫的建立和數據挖掘都是一個過程,可以從數據倉庫生命周期和OLTP系統生命周期的區別進行理解,數據挖掘過程CRISP-DM)數據倉庫的物理上就是數據庫。相對業務系統數據庫叫OLTP數據庫(用于業務處理),這種數據庫叫OLAP數據庫(用于業務分析,不知道有沒有這種說法,個人覺得OLAP和數據庫還是不能簡單地稱為OLAP數據庫的;OLAP是針對特定問題的聯機數據訪問和數據分析而產生的一種技術,它滿足DDS從多種角度對數據進行快速、一致、交互地分析,克服傳統DDS交互能力差的弊病,使決策者能夠對數據進行深入觀察。OLAP服務器使用為用戶預定義的多維數據視圖對數據倉庫的信息進行統計分析處理,為具有明確分析范圍和分析要求的用戶提供高性能的決策支持在線分析處理,只是基于DW上的一種多維分析方式,當然我也可以不用OLAP,直接做基于DW的DM)。數據倉庫的概念是針對以下基本需求產生的:公司的業務系統很多,業務系統的歷史數據不方便查詢。不同的業務系統往往管理部門不同,地域不同。能不能將所有這些數據集中起來,再淘淘有沒有有意義的業務規律。數據倉庫數據庫往往很大,因為公司所有的數據集中得越多,越能淘到有價值的發現。例如隨便就100G以上。數據倉庫的組成十分繁雜,既有業務系統的歷史數據,又有人事、財務數據,還要自己建一些基礎性的數據,例如,公共假期數據、地理信息、國家信息等等。數據倉庫概念包含從業務生產系統采集數據的程序,這個程序還不能影響業務系統的運行。(屬于所謂“ETL”過程)數據倉庫包括業務系統長期的歷史數據,例如5年,用來分析。(所謂“ODS”數據)數據倉庫包括針對某相業務值(例如銷售量)重新打上標簽的業務流水數據。(所謂“事實表”、“維度表”)。數據倉庫概念興許還包含報表生成工具(所謂“BI”工具)。這些工具能夠達到幾年前所謂DSS(決策分析)的效果。數據倉庫的客戶歷史資量的分析,也許又與CRM系統粘點邊。總之,一點,一個公司想針對已有的歷史業務數據,充分的利用它們,那么就上數據倉庫項目。至于哪些嚇唬人的大寫字母的組合,只是達到這個目標的科學技術罷了。牢記住數據倉庫的基本需求,不要被供應商嚇著。C數據倉庫可以說是決策支持系統(個人不同意這個觀點,決策支持系統(DDS)是在管理信息系統的基礎上發展起來的,在數據倉庫、OLAP技術和數據挖掘工具出現以前,就已經有DSS了,但其在實際應用開發過程中暴露出許多問題,DW為克服傳統DDS存在的問題提供了技術上的支持,基于DW上的DSS效果自然有很大提升),能幫助老板了解企業的整體全貌,看到數據倉庫提供的經過整理統計歸納的數據后老板憑自己的管理經驗可以發現企業的問題或困難或成功因素在哪一方面,然后可以不斷的追溯數據,直到確定到最具體的細節上,這樣能夠不斷提升老板或管理層的管理水平,不斷改善企業的管理。我們知道的最好的一個例子就是美國某大型超市啤酒和尿布的故事。沃爾瑪公司在美國的一位店面經理曾發現,每周,啤酒和尿布的銷量都會有一次同比攀升,一時卻搞不清是什么原因。后來,沃爾瑪運用商業智能(BusinessIntelligence,簡稱BI)技術發現,購買這兩種產品的顧客幾乎都是25歲到35歲、家中有嬰兒的男性,每次購買的時間均在周末。沃爾瑪在對相關數據分析后得知,這些人習慣晚上邊看球賽、邊喝啤酒,邊照顧孩子,為了圖省事而使用一次性的尿布。得到這個結果后,沃爾瑪決定把這兩種商品擺放在一起,結果,這兩種商品的銷量都有了顯著增加。數據庫是數據倉庫的基礎。數據倉庫實際上也是由數據庫的很多表組成的(這句話明顯不成立,數據倉庫里表分為事實表和維表,這和數據庫里的表還是有本質區別的,組織方式完全不一樣,一個是面向主題,一個是面向業務的)。需要把存放大量操作性業務數據的數據庫經過篩選、抽取、歸納、統計、轉換到一個新的數據庫中。然后再進行數據展現。老板關注的是數據展現的結果。數據庫和數據倉庫的區別數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的“大型數據庫”。數據倉庫的出現,并不是要取代數據庫。目前,大部分數據倉庫還是用關系數據庫管理系統來管理的。可以說,數據庫、數據倉庫相輔相成、各有千秋簡而言之,數據庫是面向事務的設計,數據倉庫是面向主題設計的。數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。數據庫設計是盡量避免冗余,一般采用符合范式的規則來設計,數據倉庫在設計是有意引入冗余,采用反范式的方式來設計。數據庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表里放著要查詢的數據,同時有維的ID。單從概念上講,有些晦澀。任何技術都是為應用服務的,結合應用可以很容易地理解。以銀行業務為例。數據庫是事務系統的數據平臺,客戶在銀行做的每筆交易都會寫入數據庫,被記錄下來,這里,可以簡單地理解為用數據庫記帳。數據倉庫是分析系統的數據平臺,它從事務系統獲取數據,并做匯總、加工,為決策者提供決策的依據。比如,某銀行某分行一個月發生多少交易,該分行當前存款余額是多少。如果存款又多,消費交易又多,那么該地區就有必要設立ATM了。顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計算。事務系統是實時的,這就要求時效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數據庫只能存儲很短一段時間的數據。而分析系統是事后的,它要提供關注時間段內所有的有效數據。這些數據是海量的,匯總計算起來也要慢一些,但是,只要能夠提供有效的分析數據就達到目的了。數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的“大型數據庫”。那么,數據倉庫與傳統數據庫比較,有哪些不同呢?讓我們先看看W.H.Inmon關于數據倉庫的定義:面向主題的、集成的、與時間相關且不可修改的數據集合。“面向主題的”:傳統數據庫主要是為應用程序進行數據處理,未必按照同一主題存儲數據;數據倉庫側重于數據分析工作,是按照主題存儲的。這一點,類似于傳統農貿市場與超市的區別—市場里面,白菜、蘿卜、香菜會在一個攤位上,如果它們是一個小販賣的;而超市里,白菜、蘿卜、香菜則各自一塊。也就是說,市場里的菜(數據)是按照小販(應用程序)歸堆(存儲)的,超市里面則是按照菜的類型(同主題)歸堆的。“與時間相關”:數據庫保存信息的時候,并不強調一定有時間信息。數據倉庫則不同,出于決策的需要,數據倉庫中的數據都要標明時間屬性。決策中,時間屬性很重要。同樣都是累計購買過九車產品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的。“不可修改”:數據倉庫中的數據并不是最新的,而是來源于其它數據源。數據倉庫反
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國后驅動單頂缸拖拉機數據監測報告
- 2025年中國司達市場調查研究報告
- 2025年齒輪、傳動軸和驅動部件項目合作計劃書
- 2025年中國雙斜邊砂輪市場調查研究報告
- 2025年中國雙八烷基二甲基溴化銨數據監測研究報告
- 2025年中國單輥吸塵彈花機市場調查研究報告
- 2025年中國單層膜溫室數據監測報告
- 2025年中國加速前齒輪數據監測報告
- 2025年中國刺五加提取物數據監測研究報告
- 學校消防安全教育培訓
- 中國肥胖及代謝疾病外科治療指南(2024版)解讀
- 醫院建設項目驗收管理流程
- 工業能源管理的數字化轉型
- 設計院保密管理制度(3篇)
- 2-2生態脆弱區的綜合治理(分層練習)解析版
- 《投資理財課件》課件
- 2024年公務員考試公共基礎知識常識題庫及答案(共五套)
- 2024人工智能大模型技術財務應用藍皮書
- 闊盤吸蟲病病因介紹
- 跨學科實踐活動6+調查家用燃料的變遷與合理使用(教學設計)九年級化學上冊同步高效課堂(人教版2024)
- 《初中語文非連續性文本教學實踐研究》
評論
0/150
提交評論