




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、一、多維數據模型二、數據倉庫的系統結構三、數據倉庫的實現(shxin)四、基于數據倉庫的數據挖掘第二章 數據倉庫的OLAP技術(jsh)共五十六頁第一節 多維數據模型1. 數據立方體數據倉庫和OLAP工具基于多維數據模型,多維數據模型將數據看作數據立方體(data cube)形式。數據立方體允許以多維對數據建模和觀察,由維和事實(shsh)定義共五十六頁第一節 多維數據模型1. 數據立方體維是關于一個組織想要記錄的透視或實體每一個維都有一個表與之相關聯,該表稱為維表,它進一步描述維多維數據模型圍繞中心(zhngxn)主題組織,主題用事實表表示事實是數值的度量,事實表包括事實的名稱或度量,以及每
2、個相關維表的關鍵字共五十六頁第一節 多維數據模型1. 數據立方體設某BSEK北星易家連鎖公司(n s)由下列關系表描述:Customer(cust_id,name,address,age,)Item(item_id, name,type,price,)Employee (empl_id, name,salary,)purchases(trans_id, cust_id , empl_id ,date,time, method_paid,amount,)Branch(branch_id, name,address)共五十六頁第一節 多維數據模型1. 數據立方體例如,BSEK可能創建一個數據倉庫s
3、ales,記錄商店的銷售情況(qngkung),涉及time,item和location。典型3-D立方體如圖:timelocationitem共五十六頁第一節 多維數據模型2. 多維數據庫模式E-R數據模型適用于OLTP,而數據倉庫需要(xyo)簡明的、面向主題的模式,便于聯機數據分析。數據倉庫的數據模型采用多維數據模型 星型模式 雪花模式 事實星座模式 共五十六頁第一節 多維數據模型2. 多維數據庫模式星型模式:是最常見(chn jin)的模型范式。這種模式的數據倉庫包含:一個大的事實表和一組小的維表 事實表 包含大批數據和不含冗余的中心表 維表 附屬表,每維一個表共五十六頁第一節 多維數
4、據模型2. 多維數據庫模式(msh)星型模式time_keyitem_keybranch_keylocation_keymoney _soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcitycountryitem_keyitem_namebranchtypetime_keydayWeekmonthSales事實表time維表branch維表location維表item維表共五十六頁第一節 多維數據模型2. 多維數據庫模式(msh)雪花模式:是星型模式的變種,其中某些維表是規范化的,因而數據被進一步分解到附加的表中
5、雪花模式的規范化維表,可以減少冗余,便于維護,并且節省存儲空間;同巨大的事實表相比,空間節省有限 執行查詢需要更多連接操作,雪花模型可能降低瀏覽的性能共五十六頁第一節 多維數據模型2. 多維數據庫模式(msh)雪花模式time_keyitem_keybranch_keylocation_keymoney _soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonthtype_keytype_namecity_k
6、eycitycountrySales事實表timebranchlocation維表item維表type維表city維表共五十六頁第一節 多維數據模型2. 多維數據庫模式事實星座模式復雜的應用可能需要多個事實表共享維表,這種模式可以視為星型模式集,因此稱為(chn wi)星系模式,或事實星座模式 共五十六頁第一節 多維數據模型2. 多維數據庫模式(msh)事實星座模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_key
7、item_keyitem_namebranchtype_keytime_keydayWeekmonthitem_keytime_keyfrom_locationshipper_keymoney_costunits_shippedshipper_keyshipper_namelocation_keySales事實表timebranchlocation維表item維表shipping事實表shipper維表共五十六頁第一節 多維數據模型3. 度量的分類與計算數據立方體度量是一個數值函數,該函數可以對數據立方體的每一個點求值。通過對給定點的各維-值對聚集數據,計算該點的度量值度量根據所用(su yn
8、)的聚集函數分成三類:分布的度量、代數的度量、整體的度量 共五十六頁第一節 多維數據模型3. 度量的分類與計算分布的:一個聚集(jj)函數是分布的,如果它能以如下分布方式進行計算設數據被劃分為n個集合,函數在每一部分上的計算得到一個聚集值。如果將函數用于n個聚集值得到的結果,與將函數用于所有數據得到的結果一樣,則該函數可以用分布方式計算。一個度量是分布的,如果它可以用分布聚集函數得到共五十六頁第一節 多維數據模型3. 度量的分類與計算代數的:一個聚集函數是代數的,如果(rgu)它能由一個具有M個參數的代數計算(M是一個有界整數),而每個參數都可以用一個分布聚集函數求得一個度量是代數的,如果它可
9、以用代數聚集函數得到共五十六頁第一節 多維數據模型3. 度量的分類(fn li)與計算整體的:一個聚集函數是整體的,如果描述它的子聚集所需的存儲沒有一個常數界,即不存在一個具有M個參數的代數函數進行這一計算(M是常數),而每個參數都可以用一個分布聚集函數求得一個度量是整體的,如果它可以用整體聚集函數得到共五十六頁第一節 多維數據模型3. 度量的分類與計算多數數據立方體的應用需要(xyo)有效地計算分布的和代數的度量,存在許多有效的技術;而有效計算整體的度量是很困難的,往往采取計算以滿意的結果估計大數據集的中值,不進行精確計算。 例如,median()和mode()共五十六頁第一節 多維數據模型
10、4. 多維數據模型上的OLAP操作 上卷(shn jun)(roll-up) 下鉆(drill-down) 切片(slice)、切塊(dice) 轉軸 (pivot) 鉆過( drill-across) 鉆透( drill-through) 共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作概念分層將屬性或維組織成漸進的抽象層,它將低層概念映射(yngsh)到更一般的高層概念。概念分層對于多抽象層上的挖掘有用共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作上卷:通過一個維的概念分層向上(xingshng)攀升或通過維歸約,在數據立方體上進行聚集共五十六頁第一節 多
11、維數據模型4 . 多維數據模型上的OLAP操作(cozu) 上卷LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全TimeItem美國加拿大一季度二季度三季度四季度家庭娛樂計算機電話安全Location分層定義(dngy)為全序:“street city province_or_state county ”共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作下鉆:通過沿維的概念分層向下或引入新的維來實現,它是上卷的逆操作,由不太詳細(xingx)的數據到更詳細(xingx)的數據共五十六頁第一節 多維數據模型4. 多維數據模型上的O
12、LAP操作(cozu) 下鉆分層定義(dngy)全序為:“day month quarter year”Location芝加哥紐約芝加哥溫哥華Time一季度二季度三季度四季度Item家庭娛樂計算機電話安全Item家庭娛樂計算機電話安全Time1月2月3月4月5月6月7月8月9月10月11月12月Location芝加哥紐約芝加哥溫哥華共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作(cozu) 切片:切片操作在給定的數據(shj)立方體的一個維上進行選擇,導致一個子方共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作(cozu) 切片LocationTimeItem
13、芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全Item芝加哥溫哥華家庭娛樂計算機電話安全Location紐約多倫多Time =“Q1”共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作(cozu) 切塊:切塊操作通過對兩個或多個(du )維執行選擇,定義子方共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作(cozu) 切塊(location=“Toronto”or“Vancouver”)and (Time=“Q1”or “Q2”) and (item=“home entertainment”or“computer”)LocationTimeI
14、tem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全TimeItem多倫多溫哥華一季度二季度家庭娛樂計算機Location共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作:轉軸:是一種目視操作,它轉動數據(shj)的視角,提供數據(shj)的替代表示共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作(cozu) 轉軸Item芝加哥溫哥華家庭娛樂計算機電話安全Location紐約多倫多Item家庭娛樂安全芝加哥紐約多倫多溫哥華Location計算機電話共五十六頁第一節 多維數據模型4. 多維數據模型上的OLAP操作鉆過:執行涉及多個事實表的查詢
15、鉆透:操作使用關系SQL機制,鉆到數據立方體的底層,到后端關系表OLAP的許多特征體現在統計數據庫(SDB)的早期工作中,而SDB 關注(gunzh)社會經濟應用,OLAP旨在商務應用以及有效處理海量數據 共五十六頁第二節 數據倉庫的系統結構1. 數據倉庫的設計步驟數據倉庫設計需要考慮的四種視圖:自頂向下視圖:可以幫助選擇數據倉庫所需的相關息,這些信息能夠滿足當前和未來商務的需求數據源視圖:揭示(jish)被操作數據庫系統捕獲、存儲和管理的信息數據倉庫視圖:包括事實表和維表商務查詢視圖:從最終用戶的角度透視數據倉庫中的數據共五十六頁第二節 數據倉庫的系統結構1. 數據倉庫的設計步驟數據倉庫的設
16、計包括如下步驟:選取待建模的商務(shngw)處理。如果商務(shngw)過程針對整個組織,并涉及多個復雜對象,選用數據倉庫模型;如果是某一部門的、或某一類商務(shngw)處理,應選擇數據集市。選取商務處理的粒度選取用于每個事實表記錄的維選取安放在事實表中的度量共五十六頁第二節 數據倉庫的系統結構2. 數據倉庫的結構數據倉庫通常采用三層結構: 底層(d cn):數據倉庫服務器 中間層:OLAP服務器 頂層:前端工具共五十六頁第二節 數據倉庫的系統結構清理(qngl) 轉換 集成輸出(shch)業務數據庫外部信息源數據倉庫數據集市OLAP服務器底層:數據倉庫服務器頂層:前端工具中間層:OLAP
17、服務器元數據存貯共五十六頁第二節 數據倉庫的系統結構2. 數據倉庫的結構從結構的角度,有三種(sn zhn)數據倉庫模型: 企業倉庫 數據集市 虛擬倉庫共五十六頁第二節 數據倉庫的系統結構2. 數據倉庫的結構 企業倉庫企業倉庫(Enterprise warehouse)收集跨越(kuyu)整個企業的各個主題的所有信息。它提供全企業的數據集成,數據通常來自多個操作型數據庫和外部信息提供者,并且是跨越(kuyu)多個功能范圍的。它通常包含詳細數據和匯總數據企業數據倉庫可以在傳統的大型機上實現,例如UNIX超級服務器或并行結構平臺。它需要廣泛的業務建模,可能需要多年的時間來設計和建造共五十六頁第二節
18、 數據倉庫的系統結構2. 數據倉庫的結構 數據集市數據集市(data mart )包含對特定用戶有用的,企業范圍數據的一個子集。它的范圍限于選定的主題,例如(lr)一個商場的數據集市可能限定它的主題為顧客、商品和銷售。數據集市中的數據通常為匯總數據共五十六頁第二節 數據倉庫的系統結構2. 數據倉庫的結構 數據集市實現數據集市的周期一般是數周,而不是數月或數年,然而,如果它的規劃不是企業范圍的,從長遠講,可能會涉及很復雜的集成根據數據的來源不同,數據集市分為獨立的依賴的二類。在獨立的數據集市中,數據來自一個或多個操作型數據庫或外部信息提供者,或者是一個特定(tdng)的部門或地區本地產生的數據。
19、在依賴的數據集市中,數據直接來自企業數據倉庫共五十六頁第二節 數據倉庫的系統結構2. 數據倉庫的結構 虛擬(xn)倉庫虛擬倉庫(virtual warehouse)是操作型數據庫上視圖的集合。為了有效地處理查詢,只做了一些可能的匯總視圖。虛擬倉庫易于創建,但需要操作型數據庫服務器具有剩余能力共五十六頁第二節 數據倉庫的系統結構3. OLAP服務器的類型 關系OLAP(ROLAP)服務器 多維OLAP(MOLAP)服務器 混合(hnh)OLAP(HOLAP)服務器 特殊的SQL服務器共五十六頁第二節 數據倉庫的系統結構4. 關系OLAP(Relational OLAP)ROLAP將分析用的多維數
20、據 存儲在關系數據庫中,并根據應用需求有選擇的定義一批視圖作為表存儲在關系數據庫中。不必要將每一個SQL查詢都作為實視圖保存,只定義那些應用頻率比較(bjio)高、計算工作量比較(bjio)大的查詢作為實視圖共五十六頁4. 關系OLAP(Relational OLAP)對每個針對OLAP服務器的查詢,優先利用已經計算(j sun)好的實視圖來生成查詢結果以提高查詢效率。同時用作ROLAP存儲器的RDBMS也針對OLAP作相應的優化,比如并行存儲、并行查詢、并行數據管理、基于成本的查詢優化、位圖索引、SQL的OLAP擴展(cube、rollup)等等第二節 數據倉庫的系統結構共五十六頁第二節 數
21、據倉庫的系統結構5. 多維OLAP(Multidimensional OLAP)MOLAP將OLAP分析所用到的多維數據物理上存儲(cn ch)為多維數組的形式,形成“立方體”的結構。維的屬性值被映射成多維數組的下標值或下標的范圍,而總結數據作為多維數組的值存儲在數組的單元中共五十六頁第二節 數據倉庫的系統結構5. 多維OLAP(Multidimensional OLAP)由于MOLAP采用新的存儲結構,從物理層實現起,因此又稱為(chn wi)物理OLAP(Physical OLAP)而ROLAP主要通過一些軟件工具或中間軟件實現,物理層仍采用關系數據庫的存儲結構,因此稱為虛擬OLAP(Vi
22、rtual OLAP)共五十六頁第二節 數據倉庫的系統結構6. ROLAP與MOLAP比對ROLAPMOLAP沿用現有的關系數據庫的技術專為OLAP所設計響應速度比MOLAP慢;現有關系型數據庫已經對OLAP做了很多優化,包括并行存儲、并行查詢、并行數據管理、基于成本的查詢優化、位圖索引、SQL的OLAP擴展(cube、rollup)等,性能有所提高性能好、響應速度快數據裝載速度快數據裝載速度慢存儲空間耗費小,維數沒有限制需進行預計算,可能導致數據爆炸,無法支持維的公臺變化可以通過SQL實現詳細數據與概要數據的存儲缺乏數據模型和數據訪問的標準不支持有關預計算讀寫操作;SQL無法完成有些計算;無
23、法完成多行計算;無法完成維之間計算支持高性能決策支持計算;扶著跨維計算;多用戶讀寫操作借用RDBMS存儲數據,沒有文件大小限制受操作系統平臺文件大小限制,難達到TB級維護困難管理簡便共五十六頁第二節 數據倉庫的系統結構6. ROLAP與MOLAP比對左邊為ROLAP方式(fngsh),右邊為MOLAP方式,對應的是同一個三維模型共五十六頁第二節 數據倉庫的系統結構6. 混合OLAP(Hybird OLAP)混合型OLAP(HOLAP)把MOLAP和ROLAP兩種結構的優點結合起來迄今為止,對HOLAP還沒有(mi yu)一個正式的定義。但很明顯,HOLAP結構不應該是MOLAP與ROLAP結構
24、的簡單組合,而是這兩種結構技術優點的有機結合,能滿足用戶各種復雜的分析請求共五十六頁第三節 數據倉庫的實現(shxin)1. 數據立方體的有效計算多維數據分析的核心是有效地計算多個維集合上的聚集(jj),類似于SQL中的分組 基本立方操作及實現 部分物化 數據立方體計算中多路數組聚集 共五十六頁第三節 數據倉庫的實現(shxin)2. 索引OLAP數據(shj) 位圖索引 連接索引 復合連接索引 共五十六頁第四節 基于(jy)數據倉庫的數據挖掘1. 數據倉庫的使用(shyng)數據倉庫的三種應用: 信息處理 分析處理 數據挖掘共五十六頁第四節 基于(jy)數據倉庫的數據挖掘1. 數據倉庫的使用信息處理:支持查詢和基本的統計分析,并使用交叉表、表、圖表或圖進行報告。數據倉庫信息處理的當前趨勢是構造低成本的基于Web的存取工具,然后與Web瀏覽器集成(j chn)在一起共五十六頁第四節 基于(jy)數據倉庫的數據挖掘1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025簽訂租房合同時相關要點
- 2025個人房產抵押擔保借款合同書
- 2025上海市實習勞動合同
- 標準員專業技能練習題(帶答案)
- 2025年瀘州道路貨運從業資格證模擬考試
- 含磷酯成膜劑
- 2025年杭州貨運資格證試題答案解析
- 氮氣缸串聯使用要求
- 2025年株洲貨運從業資格證好考嗎
- 2025年漳州貨運車從業考試題
- 鋼筋籠(螺旋箍筋)工程量自動計算表
- 標準入庫授權委托書
- 雅駿新能源汽車廢舊動力蓄電池梯次應用項目環境影響報告
- 克雅氏病課件
- 馬原第四章資本主義的本質及規律
- 做自己:大學生職業生涯發展智慧樹知到答案章節測試2023年哈爾濱工程大學
- 中國核工業集團794礦4.6有害氣體中毒事故分析
- 新音樂初放 學堂樂歌說課課件
- 對外漢語教學法智慧樹知到答案章節測試2023年西北師范大學
- 樂泰膠用戶手冊
- 社會工作行政教案
評論
0/150
提交評論