




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1/1012023/1/19第六章數據倉庫與數據挖掘2/1012023/1/19數據挖掘的發展動力
---需要是發明之母數據爆炸問題自動數據收集工具和成熟的數據庫技術使得大量的數據被收集,存儲在數據庫、數據倉庫或其他信息庫中以待分析。我們擁有豐富的數據,但卻缺乏有用的信息
解決方法:數據倉庫技術和數據挖掘技術數據倉庫(DataWarehouse)和在線分析處理(OLAP)數據挖掘:在大量的數據中挖掘感興趣的知識(規則,規律,模式,約束)3/1012023/1/19什么是數據挖掘?數據挖掘(從數據中發現知識)
從大量的數據中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識
挖掘的不僅僅是數據(所以“數據挖掘”并非一個精確的用詞)數據挖掘的替換詞數據庫中的知識挖掘(KDD)知識提煉數據/模式分析數據考古數據捕撈、信息收獲等等。4/1012023/1/19數據挖掘:數據庫中的知識挖掘(KDD)數據挖掘——知識挖掘的核心數據清理數據集成數據庫數據倉庫Knowledge任務相關數據選擇數據挖掘模式評估5/1012023/1/19KDD的步驟從KDD對數據挖掘的定義中可以看到當前研究領域對數據挖掘的狹義和廣義認識數據清理:(這個可能要占全過程60%的工作量)數據集成數據選擇數據變換數據挖掘(選擇適當的算法來找到感興趣的模式
—狹義)6.模式評估7.知識表示(如圖形等表示方法)6/1012023/1/19典型數據挖掘系統的體系結構數據倉庫數據清洗過濾數據庫數據庫或數據倉庫服務器數據挖掘引擎模式評估圖形用戶界面知識庫數據集成7/1012023/1/19并非所有的東西都是數據挖掘基于數據倉庫的OLAP系統OLAP系統專注于數據的匯總,而數據挖掘系統可以對數據進行多種復雜的處理。機器學習系統,數據統計分析系統這些系統所處理的數據容量往往很有限。信息系統專注于數據的查詢處理。相比于上述系統,數據挖掘系統關注更廣的范圍,是一個多學科的融合8/1012023/1/19在何種數據上進行數據挖掘9/1012023/1/19數據挖掘的主要功能
——可以挖掘哪些模式?一般功能描述性的數據挖掘預測性的數據挖掘通常,用戶并不知道在數據中能挖掘出什么東西,對此我們會在數據挖掘中應用一些常用的數據挖掘功能,挖掘出一些常用的模式,包括:概念/類描述:特性化和區分關聯分析分類和預測聚類分析孤立點分析趨勢和演變分析10/1012023/1/19概念/類描述:特性化和區分概念描述:為數據的特征化和比較產生描述(當所描述的概念所指的是一類對象時,也稱為類描述)特征化:提供給定數據集的簡潔匯總。例:對AllElectronic公司的“大客戶”(年消費額$1000以上)的特征化描述:40-50歲,有固定職業,信譽良好,等等區分:提供兩個或多個數據集的比較描述。例:11/1012023/1/1關聯分析關聯規則挖掘掘:從事務數據庫庫,關系數據據庫和其他信信息存儲中的的大量數據的的項集之間發發現有趣的、、頻繁出現的的模式、關聯聯和相關性。。廣泛的用于購購物籃或事務務數據分析。。例:12/1012023/1/1分類和預測測1、分類在商商業上應用用最多,其目的是找找出一組能能夠描述數據集集合典型特特征的模型型和函數。。2、數據分類類實際上就就是從數據據庫對象中中發現共性性,并將數據對對象分成不不同類別的的過程。3、分類的目目標首先是對訓訓練數據進進行分析,,使用數據的某些特特征屬性,,給出每個個類的準確確描述,然然后使用這些描描述,對數數據庫中的的其他數據據進行分類類。4、分類通常常和預測聯聯系起來,,這是因為為分類可以以用來預測數據據對象的類類標記,也也可以用來來預測不知知道的數據值,,當被預測測的值是數數值數據時時,通常稱稱之為預測。13/1012023/1/1分類和預測測例:通過訓練數數據獲得了了如下規則則:IF年齡=“31..40”AND收入=“較高”THEN信用程程度=“優秀”規則的的含義義:年年齡在在31到40之間,,收入入較高高的情情況下下,這這類顧顧客群的信信用程程度被被認為為是“優秀”IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”14/1012023/1/1聚類分分析聚類分分析::將物理理或抽抽象對對象的的集合合分組組成為為由類類似的的對象象組成成的多多個類類的過過程。。最大化類內的相相似性和最小化化類間的相相似性例:對WEB日志的數數據進行行聚類,,以發現現相同的的用戶訪訪問模式式聚類分析析與分類類分析相相反,首先輸入入的是一一組沒有有被標記記的記錄錄,系統統按照一一定的規規則合理理地劃分分記錄集集合(相當于于給記錄錄打標記記,只不不過分類類標準不不是用戶戶指定的的),然后可以以采用分分類分析析法進行行數據分分析,并并根據分分析的結結果重新新對原來來的記錄錄集合((沒有被被標記的的記錄集集合)進進行劃分分,進而再一一次進行行分類分分析,如如此循環環往復,,直到獲獲得滿意意的分析析結果為為止。15/1012023/1/1孤立點分分析孤立點分分析孤立點:一些與數數據的一一般行為為或模型型不一致致的孤立立數據通常孤立立點被作作為“噪音”或異常被被丟棄,,但在欺欺騙檢測測中卻可可以通過過對罕見見事件進進行孤立立點分析析而得到到結論。。應用信用卡欺欺詐檢測測移動電話話欺詐檢檢測客戶劃分分醫療分析析(異常常)16/1012023/1/1趨勢和演演變分析析是針對事事件或對對象行為為隨時間間變化的的規律或或趨勢,,并以此此來建立立模型。。例如:對對股票市市場交易易數據進進行時序序演變分分析,則則可能得得到這樣樣的規則則:AT&T股票連續續上漲兩兩天且DEC股票不下下跌,那那么第三三天IBM股票上漲漲的可能能性為75%。趨勢和偏偏差:回歸分析析序列模式式匹配::周期性性分析基于類似似性的分分析17/1012023/1/1所有模式式都是有有趣的嗎嗎?數據挖掘掘可能產產生數以以千計的的模式或或規則,,但并不不是所有有的模式式或規則則都是令令人感興興趣的。。模式興趣趣度的度度量一個模式式是有趣趣的,如如果(1)它易于被被人理解解;((2)在某種種程度上上,對于于新的或或測試數數據是有有效的;;(3)具有潛潛在效用用;(4)新穎的的;(5)符合用用戶確信信的某種種假設模式興趣趣度的客客觀和主主觀度量量客觀度量量:基于所發發現模式式的結構構和關于于它們的的統計,,比如如:支支持度、、置信度度等等主觀度量量:基于用戶戶對數據據的判斷斷。比如如:出乎乎意料的的、新穎穎的、可可行動的的等等18/1012023/1/1能夠產生生所有有有趣模式式并且僅僅產生有有趣模式式嗎?找出所有有有趣的的模式:數據挖掘掘算法的的完全性性問題數據挖掘掘系統能能夠產生生所有有有趣的模模式嗎?試探搜索索vs.窮舉搜索索關聯vs.分類vs.聚類只搜索有有趣的模模式:數據挖掘掘算法的的最優化化問題數據挖掘掘系統可可以僅僅僅發現有有趣的模模式嗎??方法首先生成成所有模模式然后后過濾那那些無趣趣的.僅僅生成成有趣的的模式—挖掘查詢詢優化19/1012023/1/1數據挖掘:多個學科的的融合數據挖掘數據庫系統統統計學其他學科算法機器學習可視化20/1012023/1/1數據據挖挖掘掘系系統統的的分分類類(1)數據據挖挖掘掘的的多多學學科科融融合合的的特特性性,,決決定定了了數數據據挖挖掘掘的的研研究究將將產產生生種種類類繁繁多多的的數數據據挖挖掘掘系系統統。。根據據所所挖挖掘掘的的數數據據庫庫分分類類關系系數數據據庫庫,,事事務務數數據據庫庫,,流流式式數數據據,,面面向向對對象象數數據據庫庫,,對對象象關關系系數數據據庫庫,,數數據據倉倉庫庫,,空空間間數數據據庫庫,,時時序序數數據據庫庫,,文文本本數數據據庫庫,,多多媒媒體體數數據據庫庫,,異異構構數數據據庫庫,,歷歷史史數數據據庫庫21/1012023/1/1數據挖挖掘系系統的的分類類(2)根據挖挖掘的的知識識類型型特征分分析,區分,關聯分分析,分類聚聚類,孤立點點分析析/演變分分析,偏差分分析等等等.多種方方法的的集成成和多多層機機挖掘掘根據挖挖掘所所用的的技術術面向數數據庫庫的挖挖掘、、數據據倉庫庫、、OLAP、機器器學習習、統統計學學、可可視化化等等等.根據挖挖掘所所用的的應用用金融,電信,銀行,欺詐分分析,DNA分析,股票市市場,Web挖掘等等等.第二節節:數數據倉倉庫和和數據據挖掘掘的OLAP技術23/1012023/1/1數據據倉倉庫庫--數數據據挖挖掘掘的的有有效效平平臺臺數據據倉倉庫庫中中的的數數據據清清理理和和數數據據集集成成,,是是數數據據挖挖掘掘的的重重要要數數據據預預處處理理步步驟驟數據據倉倉庫庫提提供供OLAP工具具,,可可用用于于不不同同粒粒度度的的數數據據分分析析很多多數數據據挖挖掘掘功功能能都都可可以以和和OLAP操作作集集成成,,以以提提供供不不同同概概念念層層上上的的知知識識發發現現分類類預測測關聯聯聚集集24/1012023/1/1數據據倉倉庫庫的的定定義義與與基基本本特特性性1.數據據倉倉庫庫的的定定義義WilliamH.Inmon在1993年所所寫寫的的論論著著《BuildingtheDataWarehouse》》首先先系系統統地地闡闡述述了了關關于于數數據據倉倉庫庫的的思思想想、、理理論論,,為為數數據據倉倉庫庫的的發發展展奠奠定定了了歷歷史史基基石石。。文文中中他他將將數數據據倉倉庫庫定定義義為為:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.一個面向主主題的、集集成的、非非易失性的的、隨時間間變化的數數據的集合合,以用于于支持管理理層決策過過程。25/1012023/1/1數據倉庫關關鍵特征一一——面向主題面向主題表表示了數據據倉庫中數數據組織的的基本原則則,數據倉倉庫中的數數由數據都都是圍繞著著某一主題題組織展開開的。由于于數據倉庫庫的用戶大大多是企業業的管理決決策者,這這些人所面面對的往往往是一些比比較抽象的的、層次較較高的管理理分析對象象。例如,企業業中的客戶戶、產品、、供應商等等都可以作作為主題看看待。從信息管理理的角度看看,主題就是在在一個較高高的管理層層次上對信信息系統的的數據按照照某一具體體的管理對對象進行綜綜合、歸類類所形成的的分析對象象。從數據組織織的角度看看,主題是是一些數據據集合,這這些數據集集合對分析析對象作了了比較完整整的、一致致的描述,,這種描述述不僅涉及及到數據自自身,而且且涉及到數數據之間的的關系。26/1012023/1/1數據倉庫庫關鍵特特征二——數據集成成一個數據據倉庫是是通過集集成多個個異種數數據源來來構造的的。關系數據據庫,一一般文件件,聯機事務務處理記記錄(OLTP)使用數據據清理和和數據集集成技術術。確保命名名約定、、編碼結結構、屬屬性度量量等的一一致性。。當數據被被移到數數據倉庫庫時,它它們要經經過轉化化。27/1012023/1/1數據倉庫庫關鍵特特征三——隨時間而而變化數據倉庫庫是從歷歷史的角角度提供供信息數據倉庫庫的時間間范圍比比操作數數據庫系系統要長長的多。。操作數據據庫系統統:主要保存存當前數數據。數據倉庫庫:從歷史的的角度提提供信息息(比如如過去5-10年)數據倉庫庫中的每每一個關關鍵結構構都隱式式或顯式式地包含含時間元元素,而而操作數數據庫中中的關鍵鍵結構可可能就不不包括時時間元素素盡管數數據倉倉庫中中的數數據并并不像像業務務數據據庫那那樣反反映業業務處理理的實實際狀狀況,,但是是數據據也不不能長長期不不變,,如果果依據10年前的的數據據進行行決策策分析析,那那決策策所帶帶來的的后果果將是十分分可怕怕的。。28/1012023/1/1因此,,數據倉倉庫必必須能能夠不不斷捕捕捉主主題的的變化化數據據,將將那些些變化化的數數據追追加到到數據據倉庫庫中去去,也就是是說在在數據據倉庫庫中必必須不不斷的的生成成主題題的新新快照照,以以滿足足決策策分析析的需需要。。數據據新快快照生生成的的間隔隔,可可以根根據快快照的的生成成速度度和決決策分分析的的需要要而定定。例如,,如果果分析析企業業近幾幾年的的銷售售情況況,那那快照照可可以以每隔隔一個個月生生成一一次;;如果果分析析一個個月的的暢銷銷產品品,那那快照照生成成間隔隔就需需要每每天一一次。。29/1012023/1/1數據倉庫庫的非易易失性是是指數據據倉庫的的數據不不進行更更新處理理,而是一旦旦數據進進入數據據倉庫以以后,就就會保持持一個相相當長的的時間。。因為數據據倉庫中中數據大大多表示示過去某某一時刻刻的數據據,主要用于于查詢、、分析,,不像業業務系統統中的數數據庫那那樣,要要經常進進行修改改、添加加,除非非數據倉倉庫中的的數據是是錯誤的的。數據倉庫庫關鍵特特征四——數據不易易丟失30/1012023/1/1數據倉庫庫關鍵特特征四——數據不易易丟失盡管數據據倉庫中中的數據據來自于于操作數數據庫,,但他們卻卻是在物物理上分分離保存存的。操作數據據庫的更更新操作作不會出出現在數數據倉庫庫環境下下。不需要事事務處理理,恢復復,和并并發控制制等機制制(大大大提高了了處理速速度)只需要兩兩種數據據訪問:數據的初初始轉載載和數據據訪問((讀操作作)31/1012023/1/1數據據倉倉庫庫的的構構建建與與使使用用數據據倉倉庫庫的的構構建建包包括括一一系系列列的的數數據據預預處處理理過過程程數據據清清理理數據據集集成成數據據變變換換數據據倉倉庫庫的的使使用用熱熱點點是是商商業業決決策策行行為為,,例例如如::增加加客客戶戶聚聚焦焦產品品重重定定位位尋找找獲獲利利點點客戶戶關關系系管管理理32/1012023/1/1數據據倉倉庫庫與與操操作作數數據據庫庫系系統統操作作數數據據庫庫系系統統的的主主要要任任務務是是聯機機事事務務處處理理OLTP日常常操操作作:購買買,,庫庫存存,,銀銀行行,,制制造造,,工工資資,,注注冊冊,,記記帳帳等等數據據倉倉庫庫的的主主要要任任務務是是聯機機分分析析處處理理OLAP數據據分分析析和和決決策策支支持持,,支支持持以以不不同同的的形形式式顯顯示示數數據據以以滿滿足足不不同同的的用用戶戶需需要要33/1012023/1/1OLAPVS.OLTP(1)用戶戶和和系系統統的的面面向向性性面向向顧顧客客((事事務務))VS.面向向市市場場((分分析析))數據據內內容容當前前的的、、詳詳細細的的數數據據((如如超超市市一一個個月月的的數數據據))VS.歷史史的的、、匯匯總總的的數數據據數據據庫庫設設計計實體體--聯聯系系模模型型(ER)和面面向向應應用用的的數數據據庫庫設設計計VS.星型型/雪花花模模型型和和面面向向主主題題的的數數據據庫庫設設計計34/1012023/1/1OLAPVS.OLTP(2)數據視圖當前的、企企業內部的的數據VS.經過演化的的、集成的的數據訪問模式事務操作((如查詢、、寫入、修修改)VS.只讀查詢((但很多是是復雜的查查詢)任務單位簡短的事務務VS.復雜的查詢詢訪問數據量量數十個VS.數百萬個35/1012023/1/1OLAPVS.OLTP(3)用戶數數千個VS.數百個(復雜查詢詢,消耗資資源)數據庫規模模100M-數GB(因此一般般關注近期期數據)VS.100GB-數TB設計優先性性高性能、高高可用性VS.高靈活性、、端點用戶戶自治度量事務吞吐量量VS.查詢吞吐量量、響應時時間36/1012023/1/1為什么需要一一個分離的數數據倉庫?“既然操作數據據庫存放了大大量數據”,,“為什么不直直接在這種數數據庫上進行行聯機分析處處理,而是另另外花費時間間和資源去構構造一個分離離的數據倉庫庫?”分離的主要原原因是提高兩兩個系統的性性能DBMS是為OLTP而設計的:存儲方式,索引,并發控制,恢復(OLAP不需要)數據倉庫是為為OLAP而設計:復雜的OLAP查詢,多維視圖,匯匯總為什么需要一一個分離的數數據倉庫?兩個系統提供供不同的功能能和處理不同同的數據:歷史數據:決策支持需要要歷史數據,,而這些數據據在操作數據據庫中一般不不會去維護數據匯總:決策支持需要要將來自異種種源的數據統統一(如聚集集和匯總)數據質量:不同的源使用用不一致的數數據表示、編編碼和格式,,對這些數據據進行有效的的分析需要將將他們轉化后后進行集成由于兩個系統統提供很不相相同的功能,,需要不同類類型的數據,,因此需要維維護分離的數數據庫。然而,許多關關系數據庫管管理系統賣主主正開始優化化這種系統,,使之支持OLAP查詢。隨著這這一趨勢的繼繼續,OLTP和OLAP系統之間的分分離可望消失失。OLAP與OLTP對比總結39/1012023/1/1OLAP的幾個個基本本概念念1、維::維是關關于一一個組組織想想要記記錄的的視角角或觀觀點。。每個維都都有一一個表表與之之相關關聯,,稱為為維表表。同一個個問題題可以以從不不同維維度進進行觀觀察分分析。。如::超市分析析某一一個時時期內內營業業額的的變化化,是是從時時間維維角度分析析。按按所處處地區區對連連鎖店店的營營業額額分析析,是是從地理維維角度度分析析。2、維的的層次次:在在同一一維度度上存存在多多個程程度不不同的的細節。3、維的的成員員:是是指某某個維維的某某個具具體取取值。。4、多維維數組組:如如果一一個數數據集集合可可以從從多個個角度度進行行觀察,,則根根據這這些維維度將將數據據組織織所構構成的的數組組,就就是多維數數組.多維數數組可可以用用圖形形化來來表示示,也也可以以用表表格表示示OLAP的幾個個基本本概念念當維度度的數數量不不超過過3時,采采用圖圖形的的方法法可以以很直直觀的的表達達出該該數組組的內內涵,,但超超三維維的結結構,,圖形形方式式無能能為力力。如如增加加客戶戶類別別維。。OLAP的幾個個基本本概念念超三維維數據據的表表格表表示42/1012023/1/1多維數數據模模型(1)數據倉倉庫和和OLAP工具基基于多多維數數據模模型(OLTP基于什什么??)在多維維數據據模型型中,,數據據以數數據立立方體體(datacube)的形式存在在數據立方體體允許以多多維數據建建模和觀察察。它由維維和事實定定義維是關于一一個組織想想要記錄的的視角或觀觀點。每個個維都有一一個表與之之相關聯,,稱為維表表。多維數據模模型圍繞中中心主題組組織,該主題用事事實表表示示事實表包括括事實的名名稱或度量量以及每個個相關維表表的關鍵字字事實指的是是一些數字字度量43/1012023/1/1多維數據模模型(2)———示例time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表數據倉庫的的概念模型型最流行的數數據倉庫概概念模型是是多維數據據模型。這這種模型可可以以星型模式、、雪花模式式、或事實實星座模式式的形式存存在。星型模式((Starschema):事實表在中中心,周圍圍圍繞地連連接著維表表(每維一一個),事事實表含有有大量數據據,沒有冗冗余。雪花模式((Snowflakeschema):是星型模式式的變種,,其中某些維表是是規范化的的,因而把數據據進一步分分解到附加加表中。結結果,模式式圖形成類類似于雪花花的形狀。。事實星座((Factconstellations):多個事實表表共享維表表,這種模式可可以看作星星型模式集集,因此稱稱為星系模模式(galaxyschema),或者事事實星座((factconstellation)45/1012023/1/1time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表星型模式實例例46/1012023/1/1雪花花模模式式實實例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity47/1012023/1/1雪花花模模型型是是在在星星形形模模型型的的基基礎礎上上發發展展起起來來的的,,它在在事事實實表表和和維維度度表表的的基基礎礎上上,,增增加加了了一一類類新新的的表表———詳細細類類別別表表。。在星星形形表表中中事事實實表表的的規規范范化化程程度度較較高高,,但但是是對對于于維維度度表表的的冗冗余余度度未未加加限限制制,,雪花花模模型型引引入入詳詳細細類類別別表表就就是是為為了了將將維維度度表表的的數數據據進進一一步步分分解解,,以以提提高高數數據據模模型型的的規規范范化化程程度度,,具具有有較較低低的的粒粒度度。。在實實際際運運用用中中使使用用星星形形模模型型較較多多雪花花模模式式實實例例48/1012023/1/1事實星座模模式實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper49/1012023/1/1概念分分層(1)一個概概念分分層((concepthierarchy)定義義一個個映射射序列列,將將低層層概念念映射射到更更一般般的高高層概概念E.g.表示location的概念念:杭杭州浙江江中中國亞洲洲概念分分層允允許我我們在在各種種抽象象級審審查和和處理理數據據概念分分層可可以由由系統用用戶、、領域域專家家、知知識工工程師師人工工的提提供,,也可可以根根據數數據分分布的的統計計分析析自動動的產產生50/1012023/1/1概念念分分層層(2):location維的的一一個個概概念念分分層層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念念分層的的定義隱隱含在數數據庫的的模式中中。比如如:location維的定義義,office<city<country<region;這些屬屬性按按一個全全序相關關,形成成一個層層次結構構:yeardayquartermonthweekTime維的屬性性也可以以組成一一個偏序序,形成成一個格格。例如如,維time基于屬性性day,week,month,quarter和year就是一個個偏序“day<{month<quarter;week}<year”51/1012023/1/1概念分層(3)———使用概念分層為為不同級別別上的數據據匯總提供供了一個良良好的基礎礎綜合概念分分層和多維維數據模型型的潛力,,可以對數數據獲得更更深入的洞洞察力通過在多維維數據模型型中,在不不同的維上上定義概念念分層,使得用戶在在不同的維維上從不同同的層次對對數據進行行觀察成為為可能。多維數據模模型(數據據立方體))使得從不不同的角度度對數據進進行觀察成成為可能,,而概念分層層則提供了了從不同層層次對數據據進行觀察察的能力;;結合這兩者者的特征,,我們可以以在多維數數據模型上上定義各種種OLAP操作,為用用戶從不同同角度不同同層次觀察察數據提供供了靈活性性:52/1012023/1/1多維數據模模型上的OLAP操作(1)上卷(roll-up):匯總數據((實例圖))通過一個維維的概念分分層向上攀攀升或者通通過維規約約當用維歸約約進行上卷卷時,一個個或多個維維由給定的的數據立方方體刪除下鉆(drill-down):上卷的逆逆操作由不太詳細細的數據到到更詳細的的數據,可以通過沿沿維的概念念分層向下下或引入新新的維來實實現(為給定數據據添加更多多細節)切片和切塊塊(sliceanddice)切片操作在在給定的數數據立方體體的一個維維上進行選選擇,導致致一個子方方切塊塊操操作作通通過過對對兩兩個個或或多多個個維維進進行行選選擇擇,,定定義義子子方方53/1012023/1/1多維數據模型型上的OLAP操作(2)轉軸(pivot)立方體的重定定位,可視化化,或將一個個3維立方體轉化化為一個2維平面序列轉軸是一種可視化操作,通過轉轉動當前數據據的視圖來提提供一個數據據的替代表示示54/1012023/1/1知識點回顧顧1、試比較較OLAP與OLTP的區別別。2、數據倉倉庫的概念念模型有哪哪些?各有有什么特點點?3、多維數數據模型上上的OLAP操作有有哪些?55/1012023/1/1數據倉庫的結結構數據倉庫的數數據級別(粒粒度)早期細節數據據存儲過去的詳詳細數據,反反映真實的歷歷史情況,這類數據隨著著時間增加,,數據量很大大,使用頻率率低,一般存存儲在轉換介介質中。(例例如磁帶中))當前細節數據據存儲儲最最近近時時期期的的業業務務數數據據,,反反映映當當前前業業務務的的情情況況,,數數據據量量大大,,是是數數據據倉倉庫庫用用戶戶最最感感興興趣趣的的部部分分。。隨著著時時間間的的推推移移,,當當前前細細節節數數據據由由數數據據倉倉庫庫的的時時間間控控制制機機制制轉轉為為早早期期細細節節數數據據。。輕度度綜綜合合數數據據從當當前前基基本本數數據據中中提提取取出出來來,,通通常常以以較較小小的的時時間間段段((粒粒度度))統統計計而而成成的的數數據據,其其數數據據量量較較細細節節及及數數據據少少得得多多。。高度度綜綜合合數數據據這這一一層層的的數數據據十十分分精精煉煉,,是是一一種種準準決決策策數數據據。。57/1012023/1/1數據倉庫設設計:一個個商務分析析框架(1)數據倉庫給給商業分析析專家提供供了什么??通過提供相相關數據與與信息,獲得競爭優優勢通過有效的的收集精確確的描述組組織的數據據,獲得生產力的提提高通過提供不不同級別((部門、市市場、商業業)的客戶戶視圖,協助客戶關關系管理通過追蹤長長期趨勢、、異常等,,降低成本本有效構建數數據倉庫的的關鍵:理理解和分析析商業需求求通過提供一一個商業分分析框架,,綜合各種種不同的數數據使用者者的視圖58/1012023/1/1數據倉庫設計計:一個商務務分析框架(2)數據倉庫設計計的四種視圖圖自頂向下視圖圖使得我們可以以選擇數據倉倉庫所需的相相關信息。數據源視圖圖揭示被操作作數據庫系系統所捕獲獲、存儲和和管理的信信息數據倉庫視視圖由事實表和和維表所組組成商務查詢視視圖從最終用戶戶的角度透透視數據倉倉庫中的數數據59/1012023/1/1數據倉庫設設計:一個個商務分析析框架(3)數據倉庫的的構建與使使用涉及多多種技能商業技能理解系統如如何存儲和和管理數據據數據如何提提取數據如何刷刷新技術術方方面面的的技技能能如何何通通過過使使用用各各種種數數據據或或量量化化的的信信息息,,導導出出可可以以提提供供決決策策支支持持的的模模式式、、趨趨勢勢、、判判斷斷等等如何何通通過過審審查查歷歷史史數數據據,,分分析析發發展展趨趨勢勢等等計劃劃管管理理技技能能如何何通通過過與與不不同同的的技技術術、、廠廠商商、、用用戶戶交交互互,,來來及及時時、、有有效效、、經經濟濟的的提提交交結結果果數據據倉倉庫庫的的設設計計過過程程(1)自頂頂向向下下法法、、自自底底向向上上法法或或者者兩兩者者的的混混合合方方法法自頂向向下法法:由由總體體設計計和規規劃開開始當技術術成熟熟并已已掌握握,對對必須須解決決的商商務問問題清清楚并并已很很好理理解時時,這這種方方法是是有用用的。。自底向向上法法:以以實驗驗和原原型開開始在商務務建模模和技技術開開發的的早期期階段段,這這種方方法是是有用用的。。這樣樣可以以以相相當低低的代代價前前進,,在作作出重重要承承諾之之前評評估技技術的的利益益。混合方方法::上述述兩者者的結結合從軟件件過程程的觀觀點瀑布式式方法法:在在進行行下一一步前前,每每一步步都進進行結結構化化和系系統的的分析析螺旋式式方法法:功功能漸漸增的的系統統的快快速產產生,,相繼繼版本本之間間間隔隔很短短。對對于數數據集集市的的開發發,這這是一一個好好的選選擇。。61/1012023/1/1數據倉倉庫的的設計計過程程(2)典型的的數據據倉庫庫設計計過程程選取待待建模模的商商務過過程找到所構建的的數據倉庫的的主題,比如:銷售、、貨運、訂單單等等選取商務處理理的粒度。對于處理,該該粒度是基本本的、在事實實表中是數據據的原子級。。例如,單個個事務、一天天的快照等。。選取用于每個個事實表記錄錄的維。典型的維是時時間、商品、、顧客、供應應商、倉庫、、事務類型和和狀態。選取將安放在在事實表中的的度量常用的數字度度量包括:售售價、貨物數數量等62/1012023/1/1三層層數數據據倉倉庫庫架架構構(1)數據據倉倉庫庫提取清理轉換裝入刷新OLAP服務務器器查詢詢報報告告分析析數據據挖挖掘掘監控控、、整合合元數數據據存儲儲數據據源源前端端工工具具輸出出數據據集集市市操作數據庫其他外部信息源數據據倉倉庫庫服服務務器器OLAP服務務器器63/1012023/1/1三層數據據倉庫架架構(2)底層:數數據倉庫庫的數據據庫服務務器關注的問問題:如如何從這這一層提提取數據據來構建建數據倉倉庫(通通過Gateway(ODBC,JDBC,OLE/DB等)來提提取)中間層::OLAP服務器關注的問問題:OLAP服務器如如何實施施(關系系型OLAP(ROLAP),多維維MOLAP(MOLAP)等))前端客客戶工工具層層關注的的問題題:查查詢工工具、、報表表工具具、分分析工工具、、挖掘掘工具具等三種數數據倉倉庫模模型從體系系結構構的角角度去去看,,數據據倉庫庫模型型可以以有以以下兩兩種::企業倉倉庫搜集了了關于于主題題的所所有信信息,,跨越越整個個組織織數據集集市企業范范圍數數據的的一個個子集集,對對于特特定的的客戶戶是有有用的的。其范圍圍限于于選定定的主主題,,比如如一個個商場場的數數據集集市獨立的的數據據集市市VS.非獨立立的數數據集集市((數據據來自自于企企業數數據倉倉庫))與企業業倉庫庫的差差異在在于數數據集集市應應采用用星形形模式式,而而企業業倉庫庫應采采用事事實星星座模模式65/1012023/1/1數據倉倉庫開開發::困難難與方方法數據倉倉庫開開發上上的困困難自頂向向下開開發企企業倉倉庫是是一種種系統統的解解決方方法,,并能能最大大限度度地減減少集集成問問題。。但它費費用高高,需需要長長時間間開發發,并并且缺缺乏靈靈活性性,因因為整整個組組織的的共同同數據據模型型達到到一致致是困困難的的。自底向向上設設計、、開發發、配配置獨獨立的的數據據集市市方法法提供供了靈靈活性性、低低花費費,并并能快快速回回報投投資。。然而,,將分分散的的數據據集市市集成成,形形成一一個一一致的的企業業數據據倉庫庫時,,可能能導致致問題題。解決方法::使用遞增性性、演化性性的開發方方法(見后后圖)高層數據模模型企業倉庫和和數據集市市并行開發發通過分布式式模型集成成各數據集集市多層數據倉倉庫66/1012023/1/1數據據倉倉庫庫開開發發———一個個推推薦薦的的方方法法定義義高高層層數數據據模模型型數據集集市數據集集市分布式式數據據集市市多層數數據倉倉庫企業數數據倉倉庫模型提提煉模型提提煉67/1012023/1/1OLAP服務器器類型型(1)OLAP服務器器為商商務用用戶提提供來來自數數據倉倉庫或或數據集市市的多多維數數據,,而不不必關關心數數據如如何存存放和和存放放在何何處。。然而,,OLAP服務器器的物物理結結構和和實現現必須須考慮慮數據據存放放問題題。關系OLAP服務器器(ROLAP)使用關系數數據庫庫或擴擴展的的關系系數據據庫存放并并管理理數據據倉庫庫的數數據,,而用用OLAP中間件件支持持其余余部分分。數據和和聚合合表都都存在在關系系數據據庫。。包括每每個DBMS后端優優化,,聚集集導航航邏輯輯的實實現,,附加加的工工具和和服務務Microstrategy的DSS和Informix的Metacube都采用用ROLAP方法68/1012023/1/1OLAP服務器類類型(2)多維OLAP服務器(MOLAP)通過基于于數組的多多維存儲儲引擎,支持數數據的多多維視圖圖。Arbor的Essbase是一個MOLAP服務器。。數據和聚聚合表都都存在多多維數據據結構中中。混合OLAP服務器(HOLAP)結合ROLAP和MOLAP技術,得益于ROLAP較大的規規模性和和MOLAP的快速計計算。例如,HOLAP服務器允允許將大大量詳細細數據存存放在關關系數據據庫中,,而聚集保持持在分離離的MOLAP存儲中。。微軟的SQLServer7.0OLAP服務支持持混合OLAP服務器。。數據保存存在關系系數據庫庫,聚合合存在多多維結構構中。特殊的SQL服務器在星型和和雪花模模型上支支持SQL查詢69/1012023/1/1元數據存儲儲在數據倉庫庫中,元數據就是是定義數據據倉庫對象象的數據。。有以下幾種種:數據倉庫結結構的描述述倉庫模式、、視圖、維維、層次結結構、導出出數據的定定義,以及及數據集市市的位置和和內容操作元數據據包括數據血統統(datalineage)、數據類別(currencyofdata),以及監視信信息匯總用的算法法由操作環境到到數據倉庫的的映射關于系統性能能的數據索引,profiles,數據刷新、、更新或復制制事件的調度度和定時商務元數據商務術語和定定義、數據擁擁有者信息、、收費政策等等70/1012023/1/1元數據據的使使用元數據據與數數據一一起,,構成成了數數據倉倉庫中中的數數據模模型,,元數數據所所描述述的更更多的的是這這個模模型的的結構構方面面的信信息。。在數據據倉庫庫中,,元數數據的的主要要用途途包括括:用作目目錄,,幫助助決策策支持持系統統分析析者對對數據據倉庫庫的內內容定定義作為數數據倉倉庫和和操作作性數數據庫庫之間間進行行數據據轉換換時的的映射射標準準用于指導當前前細節數據和和稍加綜合的的數據之間的的匯總算法,,指導稍加綜綜合的數據和和高度綜合的的數據之間的的匯總算法。。71/1012023/1/1數據倉庫后后端工具和和程序數據倉庫后后端工具主主要指的是是用來裝入和刷新新數據的工具具,包括::數據提取::通常,由多多個、異種種、外部數數據源收集集數據。數據清理檢測數據種種的錯誤并并作可能的的訂正數據變換將數據由歷歷史或主機機的格式轉轉化為數據據倉庫的格格式裝載排序、匯總總、合并、、計算視圖圖,檢查完完整性,并并建立索引引和分區刷新將數據源的的更新傳播播到數據倉倉庫中72/1012023/1/1數據據倉倉庫庫的的應應用用數據據倉倉庫庫的的三三種種應應用用信息息處處理理支持持查查詢詢和和基基本本的的統統計計分分析析,,并并使使用用交交叉叉表表、、表表、、圖圖標標和和圖圖進進行行報報表表處處理理聯機機分分析析處處理理對數數據據倉倉庫庫中中的的數數據據進進行行多多維維數數據據分分析析支持持基基本本的的OLAP操作作,,切切塊塊、、切切片片、、上上卷卷、、下下鉆鉆、、轉轉軸軸等等數據據挖挖掘掘從隱隱藏藏模模式式中中發發現現知知識識支持持關關聯聯分分析析,,構構建建分分析析性性模模型型,,分分類類和和預預測測,,并并用用可可視視化化工工具具呈呈現現挖挖掘掘的的結結果果73/1012023/1/1數據據倉倉庫庫的的應應用用三種種應應用用間間的的差差別別::1、信息息處處理理基基于于查查詢詢,,可以以發發現現有有用用的的信信息息。。它它不不反反映映復復雜雜的的模模式式,,或或隱隱藏藏在在數數據據庫庫中中的的規規律律。。因此此,,信信息息處處理理不不是是數數據據挖挖掘掘。。2、聯機機分分析析處處理理向向數數據據挖挖掘掘走走近近了了一一步步,,OLAP和數數據據挖挖掘掘的的功功能能可可以以視視為為不不交交的的::OLAP是數數據據匯匯總總/聚集集工工具具,,它它幫幫助助簡簡化化數數據據分分析析;;而而數數據據挖挖掘掘自自動動地地發發現現隱隱藏藏在在大大量量數數據據中中的的隱隱含含模模式式和和有有趣趣知知識識。。OLAP工具的的目標標是簡簡化和和支持持交互互數據據分析析;而而數據據挖掘掘的目目標是是盡可可能自自動處處理。。74/1012023/1/1數據倉庫的的應用3、數據挖掘的的涵蓋面要要比簡單的的OLAP操作寬得多多,因為它不僅僅執行數據據匯總和比比較,而且且執行關聯聯、分類、、預測、、聚類、時時間序列分分析和其它它數據分析析任務。4、數據挖掘不不限于分析析數據倉庫庫中的數據據。它可以以分析現存存的、比數數據倉庫提提供的匯總總數據粒度度更細的數數據。它也可以分分析事務的的、文本的的、空間的的和多媒體體數據,這這些數據很很難用現有有的多維數數據庫技術術建模。在這種意義義下,數據據挖掘涵蓋蓋的數據挖挖掘功能和和處理的數數據復雜性性要比OLAP大得多。從聯機分析析處理到聯聯機分析挖挖掘OLAM聯機分析挖挖掘(OLAM,也稱OLAP挖掘)將聯機分析處處理與數據據挖掘以及及在多維數數據庫中發發現知識集集成在一起起,為什么要聯聯機分析挖挖掘數據倉庫中中有高質量量的數據數據倉庫中中存放著整整合的、一一致的、清清理過的數數據圍繞數據倉倉庫的信息息處理結構構存取、集成成、合并多多個異種數數據庫的轉轉換,ODBC/OLEDB連接,Web訪問和訪問問工具等基于OLAP的探測式數數據分析使用上卷、、下鉆、切切片、轉軸軸等技術進進行數據挖挖掘數據挖掘功功能的聯機機選擇多種數據挖挖掘功能、、算法和任任務的整合合聯機分析挖挖掘的體系系結構數據倉庫元數據多維數據庫庫OLAM引擎OLAP引擎用戶圖形界界面API數據方體API數據庫API數據清理數據集成第三層OLAP/OLAM第二層多維數據庫庫第一層數據存儲第四層用戶界面數據的過濾濾、集成過濾數據庫基于約束的的數據挖掘掘挖掘結果77/1012023/1/1第三節::大型數數據庫中中的關聯聯規則挖挖掘78/1012023/1/1什么是關關聯規則則挖掘??關聯規則則挖掘::從事務數數據庫,,關系數數據庫和和其他信信息存儲儲中的大大量數據據的項集集之間發發現有趣趣的、頻頻繁出現現的模式式、關聯聯和相關關性。應用:購物籃分分析、分分類設計計、捆綁綁銷售等等79/1012023/1/1“尿布與啤酒””——典型關聯分析析案例采用關聯模型型比較典型的的案例是“尿布與啤酒”的故事。在美美國,一些年年輕的父親下下班后經常要要到超市去買買嬰兒尿布,,超市也因此此發現了一個個規律,在購購買嬰兒尿布布的年輕父親親們中,有30%~40%的人同時要買買一些啤酒。。超市隨后調調整了貨架的的擺放,把尿尿布和啤酒放放在一起,明明顯增加了銷銷售額。同樣樣的,我們還還可以根據關關聯規則在商商品銷售方面面做各種促銷銷活動。80/1012023/1/1購物籃籃分析析如果問問題的的全域域是商商店中中所有有商品品的集集合,,則對每種種商品品都可可以用用一個個布爾爾量來來表示示該商商品是是否被被顧客客購買買,則每個個購物物籃都都可以以用一一個布布爾向向量表表示;;而通通過分分析布布爾向向量則則可以以得到到商品品被頻頻繁關關聯或或被同同時購購買的的模式式,這這些模模式就就可以以用關關聯規規則表表示。。關聯規規則的的兩個個興趣趣度度度量支持度度置信度度81/1012023/1/1購物籃籃分析析以上關關聯規規則的的支持持度2%,意味味分析析事務務的2%同時購購買計計算機機和財財務管管理軟軟件。。置信度度60%意味購購買計計算機機的顧顧客60%也購買買財務務管理理軟件件。82/1012023/1/1關聯規規則::基本本概念念關聯規規則挖挖掘對對象主主要是是事務務型數數據庫庫,也也可以以是其其它領領域內內的關關系型型數據據庫。。關聯規規則挖挖掘涉涉及到到以下下幾個個基本本概念念。1、項。。對于一一個數數據表表而言言,表表的每每個字字段都都具有有一個個或多多個不不同的的值,,字段段的每每種取取值都都是一一個項項。2、項集集。項項的集集合稱稱為項項集。。包含含K個項的的項集集被稱稱為K項集,,K表示項項集中中項的的數目目。由所有有的項項所構構成的的集合合是最最大的的項集集,一一般用用符號號I表示示。。I={i1,i2,...,in}83/1012023/1/1關聯聯規規則則::基基本本概概念念3、事事務務。。事事務務是是項項的的集集合合。。一一個個事事務務就就是是事事實實表表中中的的一一條條記記錄錄。。事務務的的集集合合稱稱為為事事務務集集,,也也就就是是事事務務數數據據庫庫,,一一般般用用D表示示。。對對銷銷售售數數據據而而言言,,事事務務數數據據庫庫的的記記錄錄一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CSMT-YB 005-2023燃氣腰輪流量計維護和維修技術規范
- T/CSBME 046-2022全膝關節假體股骨部件閉合疲勞測試方法
- T/CQAGS 3202-2023重慶好糧油富硒大米
- T/CNAEC 0501-2023下穿既有鐵路工程安全性評估技術規范
- T/CIQA 27-2021檢驗檢測公共技術服務平臺服務質量評價指南
- T/CIE 151-2022現場可編程門陣列(FPGA)芯片動態老化試驗方法
- T/CHES 41-2020寒冷地區渠道凍害評價導則
- T/CGCC 96-2024影視作品區塊鏈存證應用指南
- T/CFDCC 0217-2023家居用陶瓷巖板
- T/CEPPEA 5004.8-2020核電廠常規島施工圖設計文件內容深度規定第8部分:供暖通風與空氣調節
- DB11T 745-2010 住宅采暖室內空氣溫度測量方法
- 國開(浙江)2024年《個人理財》形考作業1-4答案
- 小班班本課程《吃飯這件小事》
- 文學大數據中心建設項目需求
- 寵物樂園規劃方案
- 2024年四川省成都市中考道德與法治試卷真題(含答案解析)
- 個體戶食品安全管理制度打印
- 字母左鄰右舍一百題
- 專題03 平面向量(含解析)- 十年(2015-2024)高考真題數學分項匯編(全國用)
- 交通事故全權代辦委托書
- 2024年廣東省中考生物+地理試卷(含答案)
評論
0/150
提交評論