




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據庫原理與應用教程(第3版)國家“十一五”規劃教材第16章數據倉庫與數據挖掘
16.1數據倉庫技術16.2聯機分析處理
16.3數據挖掘16.1數據倉庫技術16.1.1數據倉庫的概念及特點
16.1.2數據倉庫體系結構
16.1.3數據倉庫的分類
16.1.4數據倉庫的開發
數據倉庫技術數據倉庫是進行聯機分析處理和數據挖掘的基礎,它從數據分析的角度將聯機事務中的數據經過清理、轉換并加載到數據倉庫中,這些數據在數據倉庫中被合理的組織和維護,以滿足聯機分析處理和數據挖掘的要求。
16.1.1數據倉庫的概念及特點面向主題
集成的數據
數據不可更新
數據隨時間不斷變化
使用數據倉庫是為了更好的支持制定決策
面向主題主題是一種抽象,它是在較高層次上將企業信息系統中的數據綜合、歸類并進行分析利用,是對企業中某一宏觀分析領域所涉及的分析對象,是針對某一決策問題而設置的。面向主題的數據組織方式就是完整、統一地刻畫各個分析對象所涉及的企業的各項數據以及數據之間的聯系。在關系數據庫中,每個主題由一組相關的關系表或邏輯視圖來具體實現。主題中的所有表都通過一個公共鍵聯系起來,數據可以存儲在不同的介質上,而且相同的數據可以既有綜合級又有細節級。
集成的數據數據倉庫中存儲的數據是從原來分散的各個子系統中提取出來的,但并不是原有數據的簡單拷貝,而是經過統一、綜合這樣的過程。原因:源數據不適合分析處理,在進入數據倉庫之前必須經過綜合、清理等過程,拋棄分析處理不需要的數據項,增加一些可能涉及的外部數據。數據倉庫每個主題所對應的源數據在原分散數據庫中有許多重復或不一致的地方,因而必須對數據進行統一,消除不一致和錯誤的地方,以保證數據的質量。數據不可更新從數據的使用方式上看,數據倉庫的數據不可更新是指當數據被存放到數據倉庫之后,最終用戶只能進行查詢、分析操作,而不能修改其中存儲的數據。
數據隨時間不斷變化數據倉庫的數據不可更新,但并不是說,數據從進入數據倉庫以后就永遠不變。從數據的內容上看,數據倉庫存儲的是企業當前的和歷史的數據。因而每隔一段固定的時間間隔后,操作型數據庫系統產生的數據需要經過抽取、轉換過程以后集成到數據倉庫中。數據倉庫中的數據隨時間變化而定期地更新。數據倉庫體系結構
操作型數據與分析型數據的區別
原始數據/操作型數據導出數據/DSS數據面向應用,支持日常操作面向主題,支持管理需求數據詳細,處理細節問題綜合性強,或經過提煉存取的瞬間是準確值代表過去的數據可更新不可更新重復運行啟發式運行事務處理驅動分析處理驅動非冗余性時常有冗余處理需求事先可知,系統可按預計的工作量進行優化處理需求事先不知道對性能要求高對性能要求寬松用戶不必理解數據庫,只是輸入數據即可用戶需要理解數據庫,以從數據中得出有意義的結論數據倉庫的分類按照數據倉庫的規模與應用層面來區分,數據倉庫大致可分為下列幾種:標準數據倉庫。數據集市。多層數據倉庫。聯合式數據倉庫。
標準數據倉庫是企業最常使用的數據倉庫,它依據管理決策的需求而將數據加以整理分析,再將其轉換到數據倉庫之中。這類數據倉庫是以整個企業為著眼點而建構出來的,其數據都與整個企業的數據有關,用戶可以從中得到整個組織運作的統計分析信息。數據集市針對某一主題或是某個部門而構建的數據倉庫,規模會比標準數據倉庫小,且只存儲與部門或主題相關的數據,是數據體系結構中的部門級數據倉庫。通常用于為單位的職能部門提供信息。例如,為是銷售部門、庫存和發貨部門、財務部門、高級管理部門等提供有用信息。還可用于將數據倉庫數據分段以反映按地理劃分的業務,其中每個地區都是相對自治的。
多層數據倉庫是標準數據倉庫與數據集市的組合應用方式在整個架構之中,有一個最上層的數據倉庫提供者,它將數據提供給下層的數據集市。
數據倉庫銷售數據集市市場數據集市商店數據集市用戶用戶用戶數據倉庫的開發
自頂向下,即從全面設計整個企業的數據倉庫模型開始。這是一種系統的解決方法,并能最大限度的減少集成問題,但費用高,開發時間長,且缺乏靈活性,因為使整個企業的數據倉庫模型要達到一致是很困難的。自底向上,從設計和實現各個獨立的數據集市開始。這種方法費用低,靈活性高,并能快速的回報投資。
推薦的數據倉庫開發方法數據倉庫的數據模式
典型的數據倉庫具有為數據分析而設計的模式,供OLAP工具進行聯機分析處理。數據通常是多維的,包括維屬性和度量屬性,維屬性是分析數據的角度,度量屬性是要分析的數據,一般是數值型的。包含統計分析數據的表稱為事實數據表,通常比較大。
數據倉庫的架構星型架構雪花型架構星型架構
維度表只與事實表關聯,維度表彼此之間沒有任何聯系。每個維度表都有一個且只有一個列作為主碼,該主碼連接到事實數據表中的一個列上。雪花型架構將一個維度表分解為多個表,每個表都連接到主維度表。16.2聯機分析處理聯機分析處理(OLAP)是專門為支持復雜的分析操作而設計的,側重于決策人員和高層管理人員的決策支持可以快速、靈活地進行大數據量的復雜查詢以一種直觀易懂的形式將查詢結果提供給決策人員。以數據庫或數據倉庫為基礎,其最終的數據來源來自底層的數據庫系統。OLAP與OLTP的區別OLTP面向的是操作人員和底層管理人員,OLAP面向的是決策人員和高層管理人員;OLTP是對基本數據的查詢和增、刪、改操作處理,它以數據庫為基礎,OLAP更適合以數據倉庫為基礎的數據分析處理。OLAP所依賴的歷史的、導出的及經綜合提煉的數據均來自OLTP所依賴的底層數據庫。OLAP數據較之OLTP數據要多一步數據多維化或綜合處理的操作。OLAP的基本概念度量屬性:是決策者所關心的具有實際意義的數量。例如,銷售量、庫存量等。維度(或簡稱為維):是人們觀察數據的角度。
維的層次:人們觀察數據的角度(即某個維)還可以存在細節程度不同的多個描述方面,稱這多個描述方面為維的層次。維度成員:維度的一個取值稱為該維的一個維度成員
多維數組:一個多維數組可以表示為:(維1,維2,…,維n,變量)。
數據單元(單元格):多維數組的取值稱為數據單元
多維度數據分析示例聯機分析處理的基本分析功能
上卷:在數據立方體中執行聚集操作,通過在維層次中上升或消除某個或某些維來觀察更概況的數據
下鉆:通過在維層次中下降或引入某個或某些維來更細致的觀察數據。
切片:在給定的數據立方體的一個維上進行的選擇操作,結果是得到了一個二維的平面數據。
切塊:在給定的數據立方體的兩個或多個維上進行的選擇操作,結果得到了一個子立方體。轉軸:改變維的方向,將一個三維立方體轉變為一系列二維平面。
上卷操作示意圖城市上升到地區
下鉆操作示意圖季度下降到月
切片操作示意圖時間=1季度切塊操作示意圖(地區=“江蘇”
or“浙江”)And(時間=“第一季度”
or“第二季度”)And(商品類型=“家電”
or“食品”)
轉軸操作示意圖轉軸16.3數據挖掘如何從大量的數據中及時有效地提取有用的信息,是所有經營管理者所面臨的一個共同的難題。為了解決這一難題,有關人員逐步研究開發了一系列的技術和方法,即數據庫知識發現和數據庫挖掘技術,其目標就是要智能化和自動化地把數據轉換為有用的信息和知識。數據庫中的知識發現是識別數據庫中以前未知的、新穎的、潛在有用的和最終可被理解的模式的非平凡過程,而數據挖掘是數據庫知識發現過程的一個步驟。
數據挖掘過程1.數據準備數據選擇:搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。
數據預處理:研究數據的質量,為進一步的數據分析作準備,并確定將要進行的挖掘操作的類型。
數據轉換:將數據轉換成一個分析模型,這個分析模型是針對數據挖掘算法建立的。其他過程2.數據挖掘
對所得到的經過轉換的數據進行挖掘,除了選擇合適的挖掘算法外,其余一切工作都能自動地完成。3.結果分析
解釋并評估結果。其使用的分析方法一般應視數據挖掘操作而定,通常會用到可視化技術。4.知識的同化
將分析所得到的知識集成到業務信息系統的組織結構中去。16.3.2數據挖掘知識發現數據挖掘和知識發現的研究的三根技術支柱:數據庫人工智能數理統計目前DMKD(數據挖掘與知識發現)的主要研究內容包括基礎理論、發現算法、數據倉庫、可視化技術、定性定量互換模型、知識表示方法、發現知識的維護和再利用、半結構化和非結構化數據中的知識發現以及網上數據挖掘等。數據挖掘知識的分類廣義知識關聯知識分類知識預測型知識偏差型知識廣義知識廣義知識(Generalization)是指類別特征的概括性描述知識。根據數據的微觀特性發現其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數據的概括、精煉和抽象。關聯知識關聯知識(Association)是反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那么其中一項的屬性值就可以依據其他屬性值進行預測。關聯規則的發現可分為兩步。第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低于用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現算法的核心,也是計算量最大的部分。分類知識分類知識(Classification&Clustering)是反映同類事物共同性質的特征型知識和不同事物之間的差異型特征知識。最為典型的分類方法是基于決策樹的分類方法。它是從實例集中構造決策樹,是一種有指導的學習方法。預測型知識預測型知識(Prediction)是根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認為是以時間為關鍵屬性的關聯知識。
目前,時間序列預測方法有經典的統計方法、神經網絡和機器學習等。偏差型知識偏差型知識(Deviation)是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標準類外的特例,數據聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發現,并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。16.3.3數據挖掘的常用技術和目標1.常用技術
人工神經網絡:仿照生理神經網絡結構的非線形預測模型,通過學習進行模式識別。
決策樹:代表決策集的樹形結構。
遺傳算法:基于進化理論,并采用遺傳結合、遺傳變異以及自然選擇等設計方法的優化技術。
近鄰算法:將數據集合中每一個記錄進行分類的方法。
規則推導:從統計意義上對數據中的“IF-Then”規則進行尋找和推導。目標數據挖掘用于實現特定的目標,這些目標可以分為以下幾個主要類別:預測:數據挖掘預測數據特定屬性的未來行為。如基于對顧客購買行為的分析,什么市場和銷售策略能產生更多利潤等。識別:數據挖掘可以基于數據模型識別一個事件、項目或活動的存在。如識別一個人或一組人訪問數據庫某一部分的權限,基于DNA序列中的某個特征序列識別基因的存在,等等。目標(續)分類:數據挖掘可以劃分數據,從而根據參數組合識別不同的分類和類別。如超級市場的顧客可以被分類為:尋找折扣的顧客,忠誠并且常來的顧客,只買特定品牌商品的顧客,不經常來的顧客,等等。優化:數據挖掘可以優化對有限資源的使用,如時間、空間、資金或材料,在給定的約束條件內最大化產出值,如銷售量或利潤。16.3.4數據挖掘工具有各種不同類型的數據挖掘工具和方法來實現知識提取。多數數據挖掘工具使用ODBC。多數工具可在Microsoft的Windows環境中運行,一些工具還可在UNIX操作系統下運行。工具(續)挖掘工具可以基于一些標準劃分為不同類型,下列是其中的一些標準:產品類型。產品特征。目的或目標。基于產品類型的挖掘的工具查詢管理者和報表作者。電子表格。多維數據庫。統計分析工具。人工智能工具。高級分析工具。圖像顯示工具。基于產品特征的挖掘工具數據識別能力。多種形式的輸出,如打印輸出、屏幕輸出、標準圖形輸出、增強的圖形輸出等等。格式化能力,如行數據格式、列表、電子表格形式、多維數據庫、可視化等等。計算工具,如柱狀操作、交叉表能力、電子表格、多維電子表格等等。規范管理,允許最終用戶編寫并管理他們自己的規范。施行管理。基于目標的挖掘工具所有應用開發程序和數據挖掘工具都可以歸入以下三個操作類別:數據收集和檢索。操作監測。探測和發現。16.3.5數據挖掘應用數據挖掘技術可以應
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電氣工程實習報告范文及格式
- 吉林四平市消防救援支隊招聘筆試真題2024
- 混凝土工技能提升培訓大綱
- 戰略聯盟與資本運作在酒店并購中的應用-洞察闡釋
- 固體飲料質量檢測技術-洞察闡釋
- 湖北孝感澴川國投集團人才引進招聘考試真題2024
- 金融行業職工年度考核總結范文
- 系統級Activity啟動優化-洞察闡釋
- 第17周周末作業(周測)北師大版一年級上冊數學
- 增強現實技術在零售行業的創新應用-洞察闡釋
- 校園突發事件與應急管理課件
- CJJ-181-2012(精華部分)城鎮排水管道檢測與評估技術規程
- 醫藥企業管理練習測試卷
- 基于單片機的微波爐控制器
- 安全生產隱患識別圖集 問題圖片和整改圖片對比 危險源識別(中)
- 醫藥企業管理練習試題附答案(一)
- 中醫技能考核評分表
- 《義務教育數學課程標準(2022年版)》解讀
- 【課程思政案例】《國際物流》:立德樹人深挖教學內容,信義忠誠彰顯思政元素
- 貴州省畢節市威寧民族中學高一下學期4月第一次月考語文試卷(PDF版含答案)
- 齒輪箱說明書
評論
0/150
提交評論