數據倉庫學習筆記_第1頁
數據倉庫學習筆記_第2頁
數據倉庫學習筆記_第3頁
數據倉庫學習筆記_第4頁
數據倉庫學習筆記_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫學習筆記商業智能的技術體系主要有數據倉庫(DW)、在線分析處理(OLAP)以及數據挖掘(DM)三部分組成。數據倉庫是商業智能的基礎,許多基本報表可以由此生成,但它更大的用處是作為進一步分析的數據源。數據倉庫(DW)就是面向主題的、集成的、穩定的、不同時間的數據集合1996年,Inmon在他的專著《BuildingtheDataWarehouse》中,對數據倉庫做了如下定義,即“面向主題的、完整的、非易失的、不同時間的、用于支持決策的數據集合”。這和傳統的OLTP系統有很大的區別,它屬在線分析(OLAP)系統的范疇。面向主題的,指的是它將依據一定的主題,比如經銷商、產品、定單等匯總各個OLTP系統的數據。完整的,指的是要求對各個系統數據表示進行轉換,用統一編碼表示,比如,A系統用001表示退貨,而B系統用999表示退貨,在數據倉庫中必須統一成一個編碼。非易失的,指的是系統用戶只讀數據,不得修改數據。數據倉庫完整地記錄了各個歷史時期的數據,而OLTP系統不會保留全部的歷史記錄。OLTP系統也難以支持決策查詢,例如從幾千萬筆記錄中獲取不同區域的匯總報表。完整的數據倉庫應包括:1.數據源->2.ETL->3.數據倉庫存儲->4.OLAP->5.BI工具現實中可以實現的方案有:1.數據源->BI工具2.數據源->OLAP->BI工具3.數據源->數據倉庫存儲->BI工具4.數據源->數據倉庫存儲->OLAP->BI工具5.數據源->ETL->數據倉庫存儲->OLAP->BI工具可見其中必需的是數據源和前端,其他的部分都可根據具體情況決定取舍。建立數據倉庫的步驟:1)收集和分析業務需求2)建立數據模型和數據倉庫的物理設計3)定義數據源4)選擇數據倉庫技術和平臺5)從操作型數據庫中抽取、凈化、和轉換數據到數據倉庫6)選擇訪問和報表工具7)選擇數據庫連接軟件8)選擇數據分析和數據展示軟件9)更新數據倉庫數據倉庫設計的主要步驟如下:1.系統主題的確定這要求系統設計人員多與業務人員溝通,詳細了解業務需求、報表需求,再歸納成數據倉庫的主題。例如,經銷商主題,包含經銷商各個歷史時期的級別、銷售額、信貸、活動區域等。產品主題,包含每個產品在各個歷史時期、各個區域的銷售額、促銷力度、銷售件數、產品類別等。2.數據庫的邏輯設計在確定主題后,需要對主題包含的信息進行詳細定義,并對事實表和維表的關系詳細定義。比如,經銷商主題中的銷售額,定義為幾個字段:NetSales(凈銷售額),表示扣除了一切優惠折扣,數據類型為Number(12,3);CusSales,表示產品目錄價的銷售額,數據類型為Number(12,3);TitleCode,表示級別,如101表示全國一級代理,202表示省二級代理,數據類型為VarChar2(3)等。3.數據庫的物理設計物理設計主要考慮數據的存儲方式,使得系統有較好的性能。對于記錄龐大的事實表,可以考慮分區存放。而記錄很少的維表則可以集中存放于某一表空間,甚至可以讓其數據在首次讀取時駐留在系統內存中,以加快數據存取速度。索引的建立也在物理設計中完成,索引是一把雙刃劍,能提高讀取速度,也會使數據更新速度降低,并占用大量磁盤空間。后面的案例分析中將談到這點。獨立磁盤陣列(RAID)方案的設計與數據更新網絡的設計也需在此階段完成。合適的RAID方案對最終系統的性能有很大的影響。4.源數據獲取、清洗、整理及裝載設計數據倉庫的數據總是來自前臺作業系統、業務部門的計劃數據、各類廣告促銷活動及其影響數據,以及購買回來的商業數據庫。這些數據并非照搬過來就行,而是要按照前面提到的步驟,以統一定義的格式從各個系統抽取出來,經過清洗,再經過數據裝載和整理程序進入數據倉庫。5.數據表達及訪問設計數據按統一格式、不同的主題存放到數據倉庫后,下一步要著手數據表達及訪問。這主要考慮用戶對信息的具體需求,對應采用不同的方式。比如,使用Oracle數據庫存放數據,可以用PL/SQL編制報表,也可以用Developer2000或VisualBasic編制報表,當然也可以采用一些業界優秀的OLAP產品,例如Cognos公司的Transformer、PowerPlayEnterprise、Oracle公司的Express等。6.不間斷的維護方案的設計數據倉庫的運作與傳統的作業系統有很大區別,它需要不間斷地維護,否則它的性能將越來越差。例如,數據訪問采用基于代價的優化(CBO),事實表記錄實施時有300萬筆記錄,一個月后記錄數為3000萬,當時的CBO根本無法得到現在的最優化存取路徑。必須設計一個不間斷的維護方案,讓系統保持優良的性能。7.編碼、測試及實施下面的工作就是編碼、測試及實施了。最終的數據倉庫系統結構大致如圖1所示,依據不同的情況,系統結構圖也會有些差別。商業智能是什么?簡而言之,它是能夠幫助用戶對自身業務經營做出正確明智決定的工具。一般現代化的業務操作,通常都會產生大量的數據,如訂單、庫存、交易帳目、通話記錄、及客戶資料等。如何利用這些數據增進對業務情況的了解,幫助我們在業務管理及發展上作出及時、正確的判斷,也就是說,怎樣從業務數據中提取有用的信息,然后根據這些信息來采用明智的行動--這就是商業智能的課題。目前,商業智能產品及解決方案大致可分為數據倉庫產品、數據抽取產品、OLAP產品、展示產品、和集成以上幾種產品的針對某個應用的整體解決方案等。商業智能領域的技術應用:商業智能的技術體系主要有數據倉庫(DW)、在線分析處理(OLAP)以及數據挖掘(DM)三部分組成。數據倉庫是商業智能的基礎,許多基本報表可以由此生成,但它更大的用處是作為進一步分析的數據源。所謂數據倉庫(DW)就是面向主題的、集成的、穩定的、不同時間的數據集合,用以支持經營管理中的決策制定過程。多維分析和數據挖掘是最常聽到的例子,數據倉庫能供給它們所需要的、整齊一致的數據。在線分析處理(OLAP)技術則幫助分析人員、管理人員從多種角度把從原始數據中轉化出來、能夠真正為用戶所理解的、并真實反映數據維特性的信息,進行快速、一致、交互地訪問,從而獲得對數據的更深入了解的一類軟件技術。數據挖掘(DM)是一種決策支持過程,它主要基于AI、機器學習、統計學等技術,高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。DataWarehouse本世紀80年代中期,"數據倉庫之父"WilliamH.Inmon先生在其《建立數據倉庫》一書中定義了數據倉庫的概念,隨后又給出了更為精確的定義:數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。與其他數據庫應用不同的是,數據倉庫更像一種過程,對分布在企業內部各處的業務數據的整合、加工和分析的過程。而不是一種可以購買的產品。Datamart數據集市,或者叫做"小數據倉庫"。如果說數據倉庫是建立在企業級的數據模型之上的話。那么數據集市就是企業級數據倉庫的一個子集,他主要面向部門級業務,并且只是面向某個特定的主題。數據集市可以在一定程度上緩解訪問數據倉庫的瓶頸。OLAP聯機分析處理(OLAP)的概念最早是由關系數據庫之父E.F.Codd于1993年提出的。當時,Codd認為聯機事務處理(OLTP)已不能滿足終端用戶對數據庫查詢分析的需要,SQL對大數據庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系數據庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此Codd提出了多維數據庫和多維分析的概念,即OLAP。Codd提出OLAP的12條準則來描述OLAP系統:準則1OLAP模型必須提供多維概念視圖準則2透明性準則準則3存取能力推測準則4穩定的報表能力準則5客戶/服務器體系結構準則6維的等同性準則準則7動態的稀疏矩陣處理準則準則8多用戶支持能力準則準則9非受限的跨維操作準則10直觀的數據操縱準則11靈活的報表生成準則12不受限的維與聚集層次ROLAP基于Codd的12條準則,各個軟件開發廠家見仁見智,其中一個流派,認為可以沿用關系型數據庫來存儲多維數據,于是,基于稀疏矩陣表示方法的星型結構(starschema)就出現了。后來又演化出雪花結構。為了與多維數據庫相區別,則把基于關系型數據庫的OLAP稱為RelationalOLAP,簡稱ROLAP。代表產品有InformixMetacube、MicrosoftSQLServerOLAPServices。MOLAPArborSoftware嚴格遵照Codd的定義,自行建立了多維數據庫,來存放聯機分析系統數據,開創了多維數據存儲的先河,后來的很多家公司紛紛采用多維數據存儲。被人們稱為MuiltdimensionOLAP,簡稱MOLAP,代表產品有Hyperion(原ArborSoftware)Essbase、ShowcaseStrategy等。ClientOLAP相對于ServerOLAP而言。部分分析工具廠家建議把部分數據下載到本地,為用戶提供本地的多維分析。代表產品有BrioDesigner,BusinessObject。DSS決策支持系統(DecisionSupportSystem),相當于基于數據倉庫的應用。決策支持就是在收集所有有關數據和信息,經過加工整理,來為企業決策管理層提供信息,為決策者的決策提供依據。ETL數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程。構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。Adhocquery即席查詢,數據庫應用最普遍的一種查詢,利用數據倉庫技術,可以讓用戶隨時可以面對數據庫,獲取所希望的數據。EIS領導信息系統(ExecutiveInformationSystem),指為了滿足無法專注于計算機技術的領導人員的信息查詢需求,而特意制定的以簡單的圖形界面訪問數據倉庫的一種應用。BPR業務流程重整(BusinessProcessReengineering),指利用數據倉庫技術,發現并糾正企業業務流程中的弊端的一項工作,數據倉庫的重要作用之一。BI商業智能(BusinessIntelligence),指數據倉庫相關技術與應用的通稱。指利用各種智能技術,來提升企業的商業競爭力。DataMining數據挖掘,DataMining是一種決策支持過程,它主要基于AI、機器學習、統計學等技術,高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策CRM客戶關系管理(CustomerRelationshipManagement),數據倉庫是以數據庫技術為基礎但又與傳統的數據庫應用有著本質區別的新技術,CRM就是基于數據倉庫技術的一種新應用。但是,從商業運作的角度來講,CRM其實應該算是一個古老的"應用"了。比如,酒店對客人信息的管理,如果某個客人是某酒店的老主顧,那么該酒店很自然地會知道這位客人的某些習慣和喜好,如是否喜歡靠路邊,是否吸煙,是否喜歡大床,喜歡什么樣的早餐,等等。當客人再次光臨時,不用客人自己提出來,酒店就會提供客人所喜歡的房間和服務。這就是一種CRM。MetaData元數據,關于數據倉庫的數據,指在數據倉庫建設過程中所產生的有關數據源定義,目標定義,轉換規則等相關的關鍵數據。同時元數據還包含關于數據含義的商業信息,所有這些信息都應當妥善保存,并很好地管理。為數據倉庫的發展和使用提供方便。維度是與業務相關的觀察角度。粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別。對于產品維度來說,粒度就是1,就是產品類型本身。粒度是用來描述維度的,比如,一個時間維的最細粒度是月,就說明這個時間的最低級的level是月,可能是年-季度-月,或者年-月等。什么是粒度,顧名思義,就是取不同大小的對象。也就是說,將原來“粗粒度”的大對象分割為若干“細粒度”的小對象,或者把若干小對象合并成一個大的粗粒度對象,進行研究。粒度(granulation)粒度是數據倉庫的重要概念。粒度可以分為兩種形式,第一種粒度是對數據倉庫中的數據的綜合程度高低的一個度量,它既影響數據倉庫中的數據量的多少,也影響數據倉庫所能回答詢問的種類。在數據倉庫中,多維粒度是必不可少的。由于數據倉庫的主要作用是DSS分析,因而絕大多數查詢都基于一定程度的綜合數據之上的,只有極少數查詢涉及到細節。所以應該將大粒度數據存儲于快速設備如磁盤上,小粒度數據存于低速設備如磁帶上。什么是主題呢?首先,主題是一個抽象的概念,是較高層次上企業信息系統中的數據綜合、歸類并進行分析利用的抽象。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。面向主題的數據組織方式,就是在較高層次上對分析對象的數據的一個完整、一致的描述,能完整、統一地刻劃各個分析對象所涉及的企業的各項數據,以及數據之間的聯系。所謂較高層次是相對面向應用的數據組

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論