數據倉庫與數據挖掘期末復習_第1頁
數據倉庫與數據挖掘期末復習_第2頁
數據倉庫與數據挖掘期末復習_第3頁
數據倉庫與數據挖掘期末復習_第4頁
數據倉庫與數據挖掘期末復習_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

.數據倉庫的概念和特點p11定義:一個面向主題的、集成的、非易失的且隨時間變化的數據集合,用來支持管理人員作出決策。特性:面向主題的、集成的、非易失的、隨時間不斷變化的。1、面向主題的:數據倉庫以一個奇特或組織機構中固有的業務主題作為處理的主體,是從整體的、全局的角度來衡量這些主題在企業中的作用。2、集成的(最重要):數據倉庫必須將不一致的數據進行有效的集成,使之在數據倉庫中有一致性的表示形式。一致性問題只是集成所包含的一部分工作,另外還需要根據主題進行有效的數據組織。3、非易失性:一旦操作型數據進入數據倉庫,只要數據未超過數據倉庫的數據存儲期限,通常不對數據進行更新操作,而只進行查詢操作。即不進行一般意義上的更新,而且與操作型數據相比,更新頻率要低得多,對時間的要求更為寬松。4、隨時間不斷變化的(數據因時而變的特點)《與操作型數據比較的,書上14頁》:(1)數據倉庫中的數據的時間期限要遠遠長于操作型環境中的數據的時間期限。操作型環境一般60-90天,數據倉庫5-10年。=2\*GB2⑵操作型環境中的數據庫含有數據的“當前值”,其準確性訪問是有效的,其當前值能被更新,數據倉庫中的數據只是一系列某一時刻所生成的數據的復雜快照。=3\*GB2⑶操作型環境中的數據鍵碼結構可能含有也可能不含有;數據倉庫的鍵碼結構總是包含某時間元素。2.數據倉庫中的關鍵概念14外部數據源:就是從系統外部獲取的同分析主題相關的數據。數據抽取:是數據倉庫按分析的主題從業務數據庫抽取相關數據的過程。數據清洗:所謂“清洗”是指在放入數據倉庫之前將錯誤的、不一致的數據予以更正或刪除,以免影響DSS決策的正確性。數據轉換:各種數據庫產品所提供的數據類型可能不同,需要將不同格式的數據轉換成統一的數據格式,稱為數據轉換。數據加載:是指把清洗后的數據裝入數據倉庫的過程。數據加載策略包括數據加載周期和數據追加策略。數據加載周期要綜合考慮經營分析需求和系統加載代價,對不同業務的數據采用不同的加載周期,但必須保持同一時刻業務數據的完整性和一致性。元數據:元數據是關于數據的數據。元數據位于數據倉庫的上層,而且能夠記錄數據倉庫中對象的位置。數據集市:面向企業中的某個部門(主題)而在邏輯上或物理上劃分出來的數據倉庫中的數據子集成為數據集市。數據粒度:粒度是數據倉庫的數據單位中保存數據的細化程度或綜合成都的級別。細化程度越高,粒度級別就越低。相反,細化程度越低,粒度級別就越高。數據倉庫的數據組織結構:早期細節級(通常用于備用的、批量化的存儲)、當前細節級、輕度綜合數據級(數據集市)以及高度綜合數據級。一旦數據過期,就由當前細節級進入早期細節級。經綜合后的數據由當前細節級進入輕度綜合數據級,然后由輕度綜合數據級進入高度綜合數據級。數據粒度的兩種形式:第一種形式的粒度是對數據倉庫中的數據的綜合程度高低的一種度量,另一種形式即樣本數據庫,是針對數據挖掘的,樣本數據庫是以一定的采樣率(或按數據的重要程度的不同)從細節檔案數據或輕度綜合數據中抽取的一個子集。數據分割:分割是指將數據分割到各自的物理單元中以便能分別進行處理,提高數據處理效率,數據分割后形成的數據單元稱為分片。數據庫數據倉庫面向應用數據是詳細保持當前數據數據是可更新對數據的操作是重復的操作需求是事先可知的一個操作只存取一條記錄數據非冗余操作較頻繁所查詢的是原始數據事務處理需要當前數據鮮有復雜的計算支持事務處理面向主題數據是綜合的或提煉的保存過去的和現在的數據數據是不可更新對數據的操作是啟發式的操作需求是臨時決定的一個操作存取一個數據集合數據常冗余操作相對不頻繁所查詢的是經過加工的數據決策分析需要過去的和現在的數據需做復雜的計算支持決策分析操作型數據分析型數據細節的在存取瞬間,數據是準確的可更新的事先可知操作需求生命周期符合SDLC(軟件開發生命周期)對性能的要求較高某一時刻操作一個單元事務驅動面向應用一次操作的數據量較小支持日常操作綜合的或提煉的歷史數據不可更新操作需求事先不可知完全不同的生命周期對性能的要求較為寬松某一時刻操作一個集合分析驅動面向分析一次操作的數據量較大支持管理需求4.數據倉庫的數據追加與方法數據追加:數據倉庫中的數據初裝完成后,再向數據倉庫輸入數據的過程。數據倉庫的內容僅限于上一次向數據倉庫輸入數據后在OLTP數據庫中發生變化的數據。捕捉變化數據的常用途徑如下:(1)時標方法:如果數據含有時標,對于插入或更新的數據記錄,在記錄中設置相應的時標,那么只需根據時標判斷哪些數據是上次追加后變化的即可。但并非所有數據庫中的數據都含有時標。(2)DELTA文件1.DELTA文件是由應用生成的,記錄應用所改變的所有內容。2.利用DELTA文件效率很高,它避免掃描整個數據庫。但因應用系統常由不同的軟件開發商開發,生成DELTA文件的應用并不普遍,還有更改應用代碼的方法,可在生成新數據時將其自動記錄下來,但應用數目龐大,修改的代碼十分繁瑣。(3)前后映像文件的方法:1.在抽取數據前后對數據庫各做一次快照,然后比較兩幅快照從而確定新數據。2.它占用大量資源,對性能影響極大,因此無實際意義。(4)日志文件(最切實有效)日志是DMBS的固有機制系統日志能把數據庫服務器所執行的所有操作詳細記錄下來,通過分析日志獲取數據變化情況。它還具有DELTA文件的優越性質,提取數據只要局限日志文件即可,不用掃描整個數據庫。固有機制,不影響OLTP性能。5..數據倉庫的數據清理1.數據加入失去原有細節的一個定期綜合文件2.數據從高性能介質轉移到大容量介質上3.數據從系統中實質性的清除4.數據從體系結構的某一個層次轉至另一個層次,必須從操作型層次轉至數據倉庫層次6.數據集市的類型概念,在企業中很重要的作用數據集市(DataMart),也叫數據市場,是一個從操作的數據和其他的為某個特殊的專業人員團體服務的數據源中收集數據的倉庫。數據倉庫在整個組織范圍內為各個部門提供管理與決策支持,而數據集市通常處于部門級,只能為某個局部范圍內的管理人員提供服務,因此也稱為部門級數據倉庫。因此可以說數據集市是針對特定應用的數據倉庫,即針對某個具有戰略意義的應用或部門級應用,支持用戶利用已有的數據做出管理決策。數據集市(DataMarts)是一種更小、更集中的數據倉庫,為公司提供分析商業數據的一條廉價途徑。1.獨立型數據集市(獨立數據集市)其數據直接來自各個生產系統,許多企業考慮投資問題,最終建成獨立數據集市,用來解決個別部門較為迫切的決策問題。從這種意義上講,它和企業數據倉庫除了在數據量和服務對象上存在差別外,邏輯結構并無多大區別,也許就是把數據集市成為部門級數據倉庫的主要原因。2.從屬性數據集市(從屬集市):數據直接來自中央數據倉庫訪問數據倉庫頻繁的關鍵業務部門建立從屬數據集市,可以提供查詢操作的反應速度。7.數據倉庫VS數據集市項目數據倉庫數據集市數據來源范圍主題數據粒度數據結構歷史數據優化索引遺留系統、OLTP系統、外部數據企業級企業主題最細的粒度規范化結構(第三范式)大量的歷史數據處理海量數據/數據索引高度索引數據倉庫部門級或工作級部門級或特殊的分析主題較粗的粒度星型模式、雪花模式、兩者混合適量的歷史數據便于訪問、分析、快速查詢高度索引8.數據倉庫的體系結構數據倉庫系統的層次結構數據倉庫在邏輯上可以分為:數據獲取/管理層、數據存儲層、數據分析/應用層1.數據獲取/管理層:(1).數據倉庫的定義與修改、(2).數據的獲取、(3.)數據倉庫系統的管理2.數據存儲層:是數據倉庫的主體,包括(1).從外部數據源抽取數據,經清洗、轉換處理,并按主題進行組織和存放稱其為業務數據倉庫(2).數據倉庫的元數據(3.)針對不同的數據挖掘和分析主題而生成的數據集市3.數據分析/應用層:(1)查詢/統計功能(2)OLAP服務(3)數據挖掘服務9.數據倉庫的構造模式(加上有反饋的~~~六種)自頂向下模式自底向上模式、平行開發模式1.自定向下模式特點:在這種模式下,數據集市是數據倉庫的真子集,數據由數據倉庫流向數據集市。數據倉庫的設計過程直觀,概念清晰,易于只要對外部數據源所支持的決策有較深入的額理解,保證各數據集市都是數據倉庫的真子集,就可以完全消除信息之間的“蜘蛛網”現象。這種模式不足之處在于要求設計者對具體業務有較深入的理解,系統設計規模較大,實施周期過長,項目見效緩慢,尤其是在項目實施初期,成效并不明顯構造方向:從左到右決策分析主題<數據集市數據倉庫外部數據源2.自底向上模式自底向上模式設計思路是先具體,后綜合構造方向:從右到左決策分析主題<數據倉庫數據集市外部數據源特點:投資少,見效快,由于數據集市缺少元數據,因而最終構造數據倉庫的過程具有一定的難度,并有可能影響數據倉庫整體構造的合理性以及系統的運行效率3.平行開發模式(又稱企業級數據集市模式)平行模式是在自頂向下模式的基礎上,吸收了自底向上的優點發展而成的,是他們的有機結合。4.改進的開發模式均在上面介紹的基礎上經改進發展而來,共同特點是:按照軟件工程學的觀點,接收用戶對所構建的數據倉庫系統的反饋信息,加以分析和整理,并以此為依據,對數據倉庫進行修改,以不斷提高數據系統對決策的支持能力。12.聯機分析處理p40聯機分析處理OLAP定義:OLAP是一種軟件技術,它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的。目標是滿足決策支持或多維環境下特定的查詢和報表需求,因此OLAP可以說是多維數據分析工具的集合。OLAP是針對特定問題的聯機數據訪問和分析處理OLAP功能:數據分析、報表(p67)13.OLAP相關的基本概念p41變量:是數據的實際意義,用來描述數據”是什么”維:是人們觀察數據的特定角度維的層次:人們觀察數據的某個特定角度還可以存在細節程度不同的多個描述,這就是維的層次維的成員:維的一個取值稱為該維的的一個成員多維數組:是維和變量的組合表示數據單元:是多維數據的取值14.OLAP準則(12條,選擇題)p441.OLAP模型必須提供多維概念2.透明性3.存取能力準則4.穩定的報表能力5.客戶—服務器體系結構6.維的等同性準則7.動態的稀疏矩陣處理準則8.多用戶支持能力9.非受限的夸維操作10.直觀的數據操作11.靈活的報表的生成12.非受限維語聚集層次簡化的5條原則:1.快速性、2.可分析性、3.共享性、4.多維性、5.信息性15.OLAP基本分析動作,每個動作是什么意思p49數據切片:多維數據的子集是多維數據的維i上切片數據切片是一種優化功能,可以幫助將查詢指向相應的數據。數據切片無法為分區指定數據源。也就是說,數據切片不能用于限制從分區事實數據表中選擇的數據和包含在分區中的數據。數據切片僅適用于使用ROLAP存儲模式的對象。使用分區向導創建分區時,可以指定一個數據切片。數據切塊:是將完整的數據立方體切取一部分數據而得到得心的數據立方體數據鉆取:就是從較高的維度層次下降到較低的維度層次上來觀察多維數組數據聚合:是鉆取得逆向操作,是對數據進行高層次綜合的操作數據旋轉:16.OLAP數據組織1、多維數據組織MOLAPp57多維數據庫基于多維數據庫的MOLAP(多維聯機分析處理)是以多維數據庫(MDDB)為核心的。簡言之,多維數據庫是以多維方式來組織和存儲數據。2、關系數據組織ROLAPp60ROLAP(關系聯機分析處理)將多維結構進行分解,利用兩種表來表達多維信息。17.星形結構的存儲實現p61-62、雪花結構星型模型由事實表和多個維度表組成。事實表中存放大量關于企業的事實數據,對象個數通常都很大,而且非規范化程度很高。為度表中存放描述性數據,維度表是圍繞事實表建立的較小的表。事實表是星型模型的核心,數據量大,冗余小維度表是事實表的附屬表優點:星形模型是非規范化的,以增加存儲空間的代價,提高了多維數據的查詢速度。而規范化的關系數據庫設計是使數據的冗余保持在最少,并減少了當數據改變時系統必須執行的動作。容易從維度表中的數據分析開始,獲得維度關鍵字,以便連接到事實表進行查詢,減少事實表中掃描數據量,從而提高查詢性能缺點:當事務問題發生變化,原來的維度不能滿足要求時,需要增加新的維。由于事實表的主鍵由所有的圍標的主鍵組成,這種維度的變化帶來數據變化將是非常復雜非常耗時的。星形模型的數據冗余量很大。2.雪花模型雪花模型由一個事實表和多個維度表組成雪花模型增加了用戶必須處理的表的數量,增加了某些查詢的復雜性。但這種方式可以是系統進一步專業化和實用化,同時降低了系統的通用程度。優點:雪花模型在星型模型基礎上,引入一個新表詳細類別表,借助這個表對維度表進行描述,提高了數據模型的規范化程度,并使之具有較低的粒度。雪花模型減少冗余,將表細化,具有較高的靈活性;是最大限度的減少數據存儲量,以及把較小的維度表聯合在一起來改善查詢性能。缺點:隨著表的數量的增多,表之間的關聯會增加,存在著降低系統性能的可能。雪花模型是對星形模型的擴展,雪花模型對星形模型的維度表進一步層次化,原來的各維度可能被擴展為小的事實表,形成一些局部的“層次”區域。18.星形模型和雪花模型的差異(p63,好像是選擇?)星型模式VS雪花模式1.雪花模式的維表可能是規范化的,以便減少冗余。這種表易于維護,并節省存儲空間。2.實際上,與巨大的事實表相比,這種空間的節省可以忽略。3.由于執行查詢需要更多的連接操作,雪花結構可能降低瀏覽的性能。4.在數據倉庫設計中,雪花模式不如星型模式流行。相同點:進行OLAP處理,是以外鍵為基礎進行維表與事實表、維表與維表之間的關聯操作不同點:雪花模型雖然具有較小的事實表,但在執行某些查詢時,需要做表間的二次鏈接運算,占用CPU資源較多,因而其與運行效率可能低于星型結構模型19.兩種數據組織的比較(MOLAP、ROLAP)P66表格1.結構分析:兩種組織都滿足OLAP數據處理流程,即數據裝入、匯總、建立索引和提高使用方法。MOLAP較之ROLAP要簡明一些。MOLAP的索引及數據綜合可以自動完成,根據元數據。自動管理所有的索引及模式,靈活性弱;ROLAP的實現較為復雜,但靈活性強2.數據存取速度:MOLAP相應速度快,ROLAP相應速度慢3.數據存儲容量:ROLAP對于存儲容量沒有限制,MOLAP有限制4.維度變化的適應性:MOLAP支持高性能的決策型計算,包括跨維計算、行級計算;ROLAP無法完成多行的計算和維之間的計算5.多維計算機能力:ROLAP適應性更好6.數據變化的適應性:ROLAP對于數據變化的適應性高7.軟硬臺平臺的適應性:ROLAP對軟硬件平臺的適應性很好,MOLAP則相對性差8.元數據管理:元數據是OLAP和數據倉庫的核心數據,OLAP的元數據包括層次關系、計算轉化信息、報表中的數據項描述、安全存取控制等MOLAP以多維數據庫為核心,在數據的存儲和綜合上有明顯的優勢,但它不適應太大的數據存儲,特別對于汗大量稀疏數據的存儲將浪費大量的存儲空間;ROLAP以RDBMS為基礎,利用成熟的技術為用戶的使用和數據管理帶來方便9.系統培訓和維護工作項目數據存儲技術特征MOLAP詳細數據通過關系表存儲在數據倉庫中;各種匯總數據保存在多維數據庫中;從數據倉庫中詢問詳細數據,從多維數據庫中詢問匯總數據有MOLAP引擎創建;預先建立多維數據立方體;多維視圖存儲在陣列而非表格中;可以高速檢索矩陣數據;利用稀疏矩陣技術來管理匯總的稀疏數據詢問的相應速度快;能輕松的適應多維分析;有廣泛的鉆取和多層次/多視角查詢能力ROLAP全部數據以關系表形式存儲在數據倉庫中,可獲得細節的綜合匯總的數據;有非常大的數據容量;從數據倉庫中詢問所有數據使用復雜SQL從數據庫中獲取數據;ROLAP引擎在數據分析中創建多維數據立方體;表示層能夠表示多維視圖在復雜的數據分析功能上具有局限性,需要采用優化的OLAP;向下鉆取數據較容易,但死跨維向下鉆取數據較困難24.概念模型設計p83很多,自己看特點:1.反映現實世界,滿足用戶對數據的需求,能幫助用戶做出決策,是現實世界的真實模型2.易于用戶理解和參與,便于與用戶交流3.易于修改,能夠隨時根據用戶需求的變化對模型進行修正與擴充4.易于向數據倉庫的數據模型(星型模型、雪花模型、事實星座模型)進行轉換24.1邏輯模型設計邏輯模型包括:1.初始數據組、2.二次數據組、3.連接數據組、4.類型數據組維度表的設計:維度表示事實表的進一步細化,它也要基于邏輯模型來設計;維度表就是將這些詳細說明的額數據按邏輯關系進行存放工具。一個維度表擁有很多屬性,參考事實表的數據。事實表的設計:事實表是星型模型的核心,通常包括:鍵(主鍵、外鍵)和詳細指標,事實表需要大量的數據來對其屬性和細節加以詳細說明索引策略:了解B樹P9925.元數據的類型p1021、按元數據描述的內容分基于基本數據的元數據、關于數據處理的元數據、關于企業組織的元數據2、按用戶的角度分技術元數據、業務元數據3、按元數據在數據倉庫中承擔的任務分靜態元數據動態元數據4、按數據倉庫的功能區域分類:1.數據獲取、2.數據存儲、3.信息傳遞螺旋式開發方式:26.元數據的作用:P1041、元數據在數據求精、開發、重構中的作用(1)描述業務規則與數據之間的映射(2)數據分割(3)概括與聚集(4)提高系統靈活性(5)定義標準處理規則(6)預算與推導(7)轉換與再映射2.元數據在數據抽取與轉換中作用(1)確定數據源(2)保證數據倉庫內容的質量(3)實現屬性間的映射與轉換元數據的收集:1.來源于源系統、2.來源于抽取的數據、3.來源于轉換與抽取和清洗的數據、4.來源于存儲的數據、5.來源于裝載的數據、6.來源于信息傳遞26.粒度的劃分:粒度數據倉庫數據單元的詳細程度和級別每個表的存儲空間應是其數據存儲空間和索引空間之和(1)數據存儲空間的估算數據存儲空間=表的行數X每行占用的空間(2)索引存儲空間估算索引存儲空間=表的行數X碼占用的客戶一年數據5年數據10000000雙重粒度,仔細設計20000000雙重粒度,仔細設計1000000雙重粒度10000000雙重粒度100000單粒度,仔細設計1000000單粒度,仔細設計10000不考慮100000不考慮28.建立數據倉庫的的步驟:(1)收集并分析業務需求(2)建立數據模型和數據倉庫的物理設計(3)定義數據源(4)選擇數據倉庫技術和平臺(5)從操作型數據庫提取、轉換和凈化數據并將其加載至數據倉庫(6)選擇訪問和報表工具(7)選擇數據庫連接軟件(8)選擇數據分析和數據展示軟件(9)更新數據倉庫30.SQLServer2005是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論