




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、11 八月 2022Data Mining: Concepts and Techniques1Lecture 3: 數(shù)據(jù)倉庫、 OLAP及數(shù)據(jù)立方體計算什么是數(shù)據(jù)倉庫(data warehouse)? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實施11 八月 2022Data Mining: Concepts and Techniques2什么是數(shù)據(jù)倉庫?有多種但并不嚴格的定義與操作數(shù)據(jù)庫相隔離并單獨維護的一個用來支持決策過程的數(shù)據(jù)庫一個用來對整理過的歷史數(shù)據(jù)進行分析以便支持信息處理的固定平臺.“數(shù)據(jù)倉庫是面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,它用來支持管理部門的決策過程”W. H. Inm
2、on11 八月 2022Data Mining: Concepts and Techniques3數(shù)據(jù)倉庫面向主題的圍繞主題組織, 如消費者(customer)、產(chǎn)品( product), 銷售量(sales)等。主要目的是對數(shù)據(jù)建模與分析,以便于決策者的決策過程,而不是日常操作與事物處理。排出那些對決策過程沒有用的數(shù)據(jù),為決策者提供一個簡明的有關(guān)特定主題的視圖。11 八月 2022Data Mining: Concepts and Techniques4數(shù)據(jù)倉庫集成的集成多個、異構(gòu)數(shù)據(jù)源關(guān)系數(shù)據(jù)庫,普通文件,聯(lián)機事物記錄。應(yīng)用了數(shù)據(jù)清洗與數(shù)據(jù)集成技術(shù)確保多個數(shù)據(jù)源命名慣例、編碼結(jié)構(gòu)、屬性度量
3、等的一致性。在數(shù)據(jù)移入數(shù)據(jù)倉庫之前,對它進行轉(zhuǎn)換。 11 八月 2022Data Mining: Concepts and Techniques5數(shù)據(jù)倉庫時變的數(shù)據(jù)倉庫跨越的時間比操作數(shù)據(jù)庫要長的多.操作數(shù)據(jù)庫: 當前值數(shù)據(jù)。數(shù)據(jù)倉庫: 從歷史的視角提供信息(如過去5-10的數(shù)據(jù))數(shù)據(jù)倉庫的健值屬性隱式或顯式地包含一個時間鍵。操作數(shù)據(jù)庫可以也可以不包含時間鍵。11 八月 2022Data Mining: Concepts and Techniques6數(shù)據(jù)倉庫非易失的與操作數(shù)據(jù)庫分隔存儲。操作數(shù)據(jù)庫的數(shù)據(jù)更新不在數(shù)據(jù)倉庫環(huán)境出現(xiàn)。不需要事務(wù)處理,數(shù)據(jù)恢復以及并發(fā)控制機制。僅僅需要以下2種操作:
4、 數(shù)據(jù)的初始裝載與數(shù)據(jù)訪問。11 八月 2022Data Mining: Concepts and Techniques7數(shù)據(jù)倉庫 vs. 數(shù)據(jù)庫管理系統(tǒng)聯(lián)機事物處理 (OLTP ,on-line transaction processing)傳統(tǒng)關(guān)系數(shù)據(jù)庫的主要任務(wù)日常操作 : 購買, 存貨, 財務(wù)等.聯(lián)機分析處理 (OLAP,on-line analytical processing)數(shù)據(jù)倉庫的主要任務(wù)數(shù)據(jù)分析與決策支持11 八月 2022Data Mining: Concepts and Techniques8OLTPOLAP用戶員工, IT專業(yè)人員知識工作者功能每天的日常操作決策支持D
5、B設(shè)計面向應(yīng)用+ER面向主題+Star數(shù)據(jù)當前的,詳細的數(shù)據(jù)歷史的, 匯總的, 多維的集成的, 整理過的使用重復的特定的訪問讀/寫、索引多次掃描工作單元短的, 簡單的事務(wù)處理復雜查詢記錄數(shù)/查詢幾十百萬用戶數(shù)上千百DB規(guī)模100MB-GB100GB-TBmetrictransaction throughputquery throughput, response11 八月 2022Data Mining: Concepts and Techniques9為什么要建立隔離的數(shù)據(jù)倉庫?使得操作數(shù)據(jù)庫與數(shù)據(jù)倉庫都獲得高性能DBMSOLTP: 訪問方法, 索引, 并發(fā)控制, 數(shù)據(jù)恢復。Warehouse
6、OLAP: 復雜OLAP查詢, 多維視圖, 整理。對數(shù)據(jù)與功能的要求不同:丟失的數(shù)據(jù): 決策支持需要歷史數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫并不一定維護歷史數(shù)據(jù)。數(shù)據(jù)整理: 決策支持需要對異構(gòu)數(shù)據(jù)源進行數(shù)據(jù)整理 。數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源常常具有不一致的數(shù)據(jù)表示,編碼結(jié)構(gòu)與格式。11 八月 2022Data Mining: Concepts and Techniques10數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實施11 八月 2022Data Mining: Concepts and Techniques11由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 I數(shù)據(jù)倉庫基于多維數(shù)據(jù)模
7、型,以數(shù)據(jù)立方體的形式對數(shù)據(jù)進行觀察。數(shù)據(jù)立方體,如銷售,允許以多維來對數(shù)據(jù)進行建模與觀察。維表:如維item (item_name, brand, type),或維time(day, week, month, quarter, year) 。事實表包含度量(measures):如銷售額以及每個相關(guān)維表的關(guān)鍵字。11 八月 2022Data Mining: Concepts and Techniques12由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體 II在數(shù)據(jù)倉庫的研究文獻中,一個n維立方體(n-D)稱為基本方體(base cuboid); 0-D方體存放最高層的匯總 ,稱為頂點方體(apex cuboid
8、),方體的格稱作數(shù)據(jù)立方體(data cube)。11 八月 2022Data Mining: Concepts and Techniques13立方體: 方體格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime, item, location, supplier0-D(
9、apex) cuboid1-D cuboids2-D cuboids3-D cuboids4-D(base) cuboid11 八月 2022Data Mining: Concepts and Techniques14數(shù)據(jù)倉庫概念模型建模數(shù)據(jù)倉庫: 維 & 度量星型模式(Star schema): 一個事實表以及一組與事實表連結(jié)的維表。雪花模式(Snowflake schema): 雪花模式是星型模式的變種,其中某些維表是規(guī)范化的。(normalized),因而把數(shù)據(jù)進一步分解到附加的表中。事實星座(Fact constellations): 多個事實表分享共同的維表,這種模式可以看作星型模式
10、的集合,因此稱為星系模式(galaxy schema)或事實星座。11 八月 2022Data Mining: Concepts and Techniques15星型模式 time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_n
11、amebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch11 八月 2022Data Mining: Concepts and Techniques16雪花模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresi
12、tem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity11 八月 2022Data Mining: Concepts and Techniques17事實星座time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountryloca
13、tionSales Fact Tabletime_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyship
14、per_namelocation_keyshipper_typeshipper11 八月 2022Data Mining: Concepts and Techniques18度量的分類 I分布式的(distributive): 一個聚集函數(shù)是分布的,如果它能以以下分布式進行計算:如果將函數(shù)用于n個聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布式計算。如, count(), sum(), min(), max().代數(shù)的(algebraic): 一個函數(shù)是代數(shù)的,如果它能夠由一個具有M個參數(shù)的代數(shù)函數(shù)計算(其中M是一個有界整數(shù)),而每個參數(shù)都可以用一個分布聚集函數(shù)得到。
15、如, avg(), standard_deviation().11 八月 2022Data Mining: Concepts and Techniques19度量的分類 II整體的(holistic): 如果描述它的子聚集所需的存儲沒有一個常數(shù)界,即不存在一個具有M個參數(shù)的代數(shù)函數(shù)進行這一計算(其中M是常數(shù))。如, median()(中位數(shù)), mode()(出現(xiàn)次數(shù)最多的數(shù),眾數(shù))等。11 八月 2022Data Mining: Concepts and Techniques20一個概念層次: 維 (location)allEuropeNorth_AmericaMexicoCanadaSpa
16、inGermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtcity11 八月 2022Data Mining: Concepts and Techniques21多維數(shù)據(jù)銷售立方體ProductRegionMonth維: Product, Location, Time概念層次圖:Industry Region YearCategory Country QuarterProduct City Month Week Office Day11 八月 2022Data Mining: Concepts and Tech
17、niques22示例:數(shù)據(jù)立方體TV在美國的年銷售額DateProductCountryAll, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum11 八月 2022Data Mining: Concepts and Techniques23對應(yīng)立方的立方體allproductdatecountryproduct,dateproduct,countrydate, countryproduct, date, country0-D(apex) cuboid1-D cuboids2-D cuboids3-D(base) cuboid
18、11 八月 2022Data Mining: Concepts and Techniques24典型的OLAP操作 I上卷Roll up (上鉆drill-up):通過一個維的概念分層向上攀升或通過維規(guī)約,在數(shù)據(jù)立方體上進行聚集。下鉆Drill down (roll down): 上卷的逆操作,它由不太詳細的數(shù)據(jù)得到更詳細的數(shù)據(jù)??梢酝ㄟ^沿維的概念分層向下或引入新的維實現(xiàn)。11 八月 2022Data Mining: Concepts and Techniques25典型的OLAP操作 II切片Slice與切塊dice 投影與選擇。轉(zhuǎn)軸Pivot (rotate)是一種目視操作,它轉(zhuǎn)動數(shù)據(jù)的視
19、角,提供數(shù)據(jù)的替代表示其它操作鉆過drill across:執(zhí)行涉及多個事實表的查詢。鉆透drill through:使用SQL的機制,鉆到數(shù)據(jù)立方的底層,到后端關(guān)系表。11 八月 2022Data Mining: Concepts and Techniques26數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實施11 八月 2022Data Mining: Concepts and Techniques27多層體系結(jié)構(gòu)DataWarehouseExtractTransformLoadRefreshOLAP EngineAnalysisQueryRep
20、ortsData miningMonitor&IntegratorMetadataData SourcesFront-End ToolsServeData MartsOperational DBsothersourcesData StorageOLAP Server11 八月 2022Data Mining: Concepts and Techniques28三個數(shù)據(jù)倉庫模型企業(yè)倉庫(Enterprise warehouse)搜集了關(guān)于主題的所有信息,跨越整個組織。數(shù)據(jù)集市(Data Mart)包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶是有用的,其范圍限于選定的主題。虛擬倉庫(Virtual
21、warehouse)操作數(shù)據(jù)庫上視圖的一組集合。為了有效處理查詢,只有一些可能的匯總視圖被物化。11 八月 2022Data Mining: Concepts and Techniques29數(shù)據(jù)挖掘中的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實施11 八月 2022Data Mining: Concepts and Techniques30數(shù)據(jù)立方的有效計算數(shù)據(jù)立方可以看作是由立方體形成的格結(jié)構(gòu)最底層的立方體稱為基本方體(base cuboid)最上層的方體稱為頂點方體 (apex cuboid)一個L層的n維立方有多少立方體呢?11 八月 2022Data Mining: Concepts and Techniques31數(shù)據(jù)立方的物化物化每一個立方體, 不物化, 或者部分物化物化每一個立方體?不物化?部分物化!選擇將要物化的立方體基于尺寸大小, 共享, 訪問頻率等。11 八月 2022Data Mining: Concepts and Techniques32立方計算的多路數(shù)組聚集方法 I把數(shù)組劃分成塊(chunks,一個子方,其大小能夠放入立方體計算時可用的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年03月湖州德清事業(yè)單位統(tǒng)考公開招聘50人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 出售轉(zhuǎn)讓切粒機合同樣本
- 書刊供貨合同樣本
- 債務(wù)承擔合同樣本
- 企業(yè)會議合同樣本
- 冷凍倉儲租賃合同范例
- 出售高欄貨車合同樣本
- 刀具供銷合同標準文本
- 免租期增加合同樣本
- 保密協(xié)議終止合同樣本
- 泵車作業(yè)安全協(xié)議書
- 高中美術(shù)-《“木字旁”及帶“木字旁”字的寫法》教學課件設(shè)計
- Unity3D游戲開發(fā)PPT完整全套教學課件
- 廠房、倉庫自然排煙開窗面積計算-
- 太平洋保險招聘試題
- 美能在兒科的應(yīng)用消化科演示文稿
- 26個英文字母專項練習題94548
- 標準 12千伏氣體絕緣環(huán)網(wǎng)柜技術(shù)符合性評估實施細則
- 漁家傲(天接云濤連曉霧)說課稿
- 2023年3月PETS2真題卷及答案
- GB/T 28461-2012碳纖維預(yù)浸料
評論
0/150
提交評論