




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能
——數據挖掘之數據倉庫目錄一、什么是數據挖掘?二、什么是數據倉庫?數據倉庫的特征。三、數據倉庫設計四、從數據倉庫到數據挖掘02二月2023數據挖掘:概念與技術3什么是數據挖掘數據挖掘(數據庫中知識發現):
從大型數據庫中提取有趣的(非平凡的,蘊涵的,先前未知的并且是潛在有用的)信息或模式數據挖掘:用詞不當?其它名稱:數據庫中知識發現(Knowledgediscoveryindatabases,KDD)知識提取(knowledgeextraction)數據/模式分析(data/patternanalysis)數據考古(dataarcheology)數據捕撈(datadredging)信息收獲(informationharvesting)商務智能(businessintelligence),等.什么不是數據挖掘?(演繹)查詢處理.專家系統或小型機器學習(ML)/統計程序02二月2023數據挖掘:概念與技術4數據挖掘:在數據中發現知識/模式02二月2023數據挖掘:概念與技術5數據挖掘過程數據庫文件數據倉庫清理與集成選擇與變換數據挖掘模式評估知識什么是數據倉庫用不同的方法定義,但不是嚴格的是一個決策支持數據庫,它與組織的操作數據庫分離地維護數據倉庫系統允許將各種應用系統集成在一起,通過為統一的歷史數據分析提供堅實的平臺,支持信息處理.數據倉庫是一種信息環境,它將各種應用系統集成在一起,提供了企業信息的完整概括,為靈活的、交互的數據分析提供堅實的平臺,為決策提供支持.W.H.Inmon的定義:數據倉庫是面向主題的(subject-oriented),集成的,時變的,和非易失的數據集合,支持管理決策過程建立數據倉庫(Datawarehousing):構造和使用數據倉庫的過程2023/2/2數據倉庫與OLAP技術6數據倉庫的特征面向主題的(subject-oriented)數據倉庫圍繞一些主題,如顧客、供應商、產品和銷售組織數據倉庫關注決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理.
數據倉庫排除對于決策無用的數據,提供特定主題的簡明視圖集成的(integrated)通常,構造數據倉庫是將多個異種數據源,如關系數據庫、一般文件和聯機事務處理記錄,集成在一起使用數據清理和數據集成技術,確保命名約定、編關鍵字結構、屬性度量等的一致性當數據裝入數據倉庫時,數據將被轉換2023/2/2數據倉庫與OLAP技術7數據倉庫的特征(續)時變的(time-variant)數據存儲從歷史的角度(例如過去5-10年)提供信息.操作數據庫數據:當前值數據數據倉庫中的關鍵結構,隱式或顯式地包含時間元素非易失的(nonvolatile)數據倉庫總是物理地分離存放數據;這些數據源于操作環境下的應用數據由于這種分離,數據倉庫不需要事務處理、恢復和并發控制機制.通常,它只需要兩種數據訪問操作:數據的初始化裝入和數據訪問2023/2/2數據倉庫與OLAP技術8如何使用數據倉庫中的信息數據倉庫用于商務決策活動,包括增加顧客關注包括分析顧客購買模式,如喜愛買什么、購買時間、預算周期、消費習慣根據季度、年和地區的營銷情況比較,重新配置產品和管理產品的投資,調整生產策略分析運營情況和查找利潤源管理顧客關系、進行環境調整、管理公司資產開銷2023/2/2數據倉庫與OLAP技術9數據倉庫vs.操作數據庫OLTP(on-linetransactionprocessing,聯機事務處理)傳統關系DBMS的主要任務日常事務處理:購買,庫存,銀行,制造,工資單,注冊,記帳等.OLAP(on-lineanalyticalprocessing,聯機分析處理)數據倉庫系統的主要任務數據分析和決策制定2023/2/2數據倉庫與OLAP技術10數據倉庫vs.操作數據庫(續)不同的特點(OLTPvs.OLAP):用戶和系統的面向性:顧客vs.市場OLTP是面向顧客的,用于辦事員、客戶、和信息技術專業人員的事務和查詢處理OLAP是面向市場的,用于知識工人(包括經理、主管、和分析人員)的數據分析數據內容:當前的,細節的vs.歷史的,合并的OLTP系統管理當前數據這種數據太瑣碎,很難用于決策OLAP系統管理大量歷史數據,提供匯總和聚集機制,并在不同的粒度級別上存儲和管理信息這些特點使得數據更容易用于決策2023/2/2數據倉庫與OLAP技術11數據倉庫vs.操作數據庫(續)2023/2/2數據倉庫與OLAP技術12數據倉庫設計
數據倉庫為商務分析提供了什么
擁有數據倉庫可以提供競爭優勢通過提供相關信息,據此測量性能并作出重要調整,以幫助戰勝其它競爭對手數據倉庫可以提高企業生產力因為它能夠快速有效地搜集準確描述組織機構的信息數據倉庫有利于顧客的聯系管理因為它跨越所有商務、所有部門和所有市場,提供了顧客和商品的一致視圖數據倉庫可以帶來費用的降低通過以一致和可靠的方式長期跟蹤趨勢、模式和異常2023/2/2數據倉庫與OLAP技術13數據倉庫設計(續)四種視圖自頂向下視圖使得我們可以選擇數據倉庫所需的相關信息.這些信息能夠滿足當前和未來商務的需求數據源視圖揭示被操作數據庫系統捕獲、存儲和管理的信息通常,數據源用傳統的數據建模技術,如實體-聯系模型或CASE工具建模數據倉庫視圖包括事實表和維表.它們提供存放在數據倉庫內部的信息,包括預計算的總和與計數,以及增加的提供歷史背景的關于源、原來的日期和時間等信息商務查詢視圖從最終用戶的角度透視數據倉庫中的數據2023/2/2數據倉庫與OLAP技術14數據倉庫設計(續)建立和使用數據倉庫是一項復雜的任務,需要商務技巧、技術技巧和程序管理技巧商務技巧建立數據倉庫涉及理解系統如何存儲和管理數據;如何構造一個提取程序,將數據由操作數據庫轉換到數據倉庫;如何構造一個倉庫刷新軟件,合理地保持數據倉庫中的數據相對于操作數據庫中數據的當前性使用數據倉庫涉及理解它所包含的數據的含義理解商務需求并將它轉換成數據倉庫查詢2023/2/2數據倉庫與OLAP技術15數據倉庫設計(續)技術技巧數據分析需要理解如何由定量信息作出估價如何根據數據倉庫中的歷史信息得到的結論推導事實這些技巧包括發現模式和趨勢,根據歷史推斷趨勢和發現異?;蚰J狡?并根據這種分析提出相應的管理建議的能力程序管理技巧涉及與許多技術人員、經銷商和最終用戶交往,以便以及時和合算的方式提交結果2023/2/2數據倉庫與OLAP技術16數據倉庫設計(續)數據倉庫可以使用自頂向下方法、自底向上方法,或二者結合的混合方法設計自頂向下方法由總體設計和規劃開始當技術成熟并且已經掌握,對必須解決的商務問題清楚并且已經很好理解時,這種方法是有用的自底向上方法以實驗和原型開始在商務建模和技術開發的早期階段,這種方法是有用的混合方法既能利用自頂向下方法的規劃和戰略特點,又能保持象自底向上方法一樣快速實現和立即應用2023/2/2數據倉庫與OLAP技術17數據倉庫設計(續)典型的數據倉庫設計過程選取待建模的商務處理例如,訂單、發票、出貨、庫存、記帳管理、銷售或一般分類帳選用數據倉庫模型vs.選擇數據集市選取商務處理的粒度該粒度是基本的,在事實表中是數據的原子級例如,單個事務、一天的快照等選取用于每個事實表記錄的維典型的維是時間、商品、顧客、供應商、倉庫、事務類型和狀態選取將安放在事實表中的度量典型的度量是可加的數值量,如dollars_sold和units_sold
2023/2/2數據倉庫與OLAP技術18三層數據倉庫結構2023/2/2數據倉庫與OLAP技術19三層數據倉庫結構(續)底層是倉庫數據服務器一般是關系數據庫系統使用后端工具和實用程序,由操作數據庫或其他外部數據源(如由外部咨詢者提供的顧客側面信息)提取數據,放入底層這一層還包括元數據庫,存放關于數據倉庫和它的內容的信息中間層是OLAP服務器關系OLAP(ROLAP)模型即擴充的關系DBMS,它將多維數據上的操作映射為標準的關系操作多維OLAP(MOLAP)模型即專門的服務器,它直接實現多維數據和操作頂層是前端客戶層包括查詢和報告工具、分析工具和/或數據挖掘工具
2023/2/2數據倉庫與OLAP技術20三種數據倉庫
企業倉庫(enterprisewarehouse)搜集了跨越整個組織的關于主題的所有信息提供企業范圍內的數據集成數據集市(datamart)包含企業范圍數據的一個子集,對于特定的用戶是有用的根據數據的來源不同,數據集市分為獨立的和依賴的兩類獨立的數據集市:數據來自一個或多個操作的系統或外部信息提供者,或者來自在一個特定的部門或地域局部產生的數據依賴的數據集市中的數據直接來自企業數據倉庫虛擬倉庫(virtualwarehouse)是操作數據庫上視圖的集合.為了有效地處理查詢,只有一些可能的匯總視圖被物化虛擬倉庫易于建立,但需要操作數據庫服務器具有剩余能力2023/2/2數據倉庫與OLAP技術21數據倉庫開發:一種推薦的方法以遞增、進化的方式實現數據倉庫
定義一個高層企業數據模型數據集市分布式數據集市多層數據倉庫企業數據倉庫模型提煉數據集市模型提煉2023/2/2數據倉庫與OLAP技術22數據倉庫的使用通常,數據倉庫使用時間越長,它進化得越好數據倉庫應用的三種類型信息處理支持查詢,基本統計分析,使用交叉表,表,圖表和圖進行報告分析處理數據倉庫數據的多維分析支持基本的OLAP操作,切片-切塊,上下鉆,轉軸數據挖掘隱藏模式的知識發現支持關聯,構造分析模型,進行分類和預測,并使用可視化工具提供挖掘結果.2023/2/2數據倉庫與OLAP技術23OLAP與數據挖掘OLAP向數據挖掘走近了一步它可以由用戶選定的數據倉庫子集,在多粒度上導出匯總的信息。這種描述等價于類/概念描述數據挖掘系統能挖掘更一般的類/概念描述數據挖掘比傳統的OLAP前進了一步OLAP是數據匯總/聚集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子導航設備與通信技術考核試卷
- 皮革制品生產過程中的質量管理方法考核試卷
- 印刷設備操作培訓體系的科技創新與應用案例考核試卷
- 森林公園生態旅游市場風險分析與應對策略考核試卷
- 機器人多自由度運動控制與協調考核試卷
- 煤化工生產調度與優化控制考核試卷
- 電子專業錄音設備考核試卷
- 核果類果樹種植園品種優化配置考核試卷
- 寵物口腔保健考核試卷
- 《享受生活》課件-1
- 2025年山東省淄博市張店區中考一模歷史試題(含答案)
- 2025年內蒙古中考一模英語試題(原卷版+解析版)
- 銀行案件防控課件
- 2025年江蘇省安全員B證考試題庫附答案
- 科級試用期滿工作總結(4篇)
- 歷史-安徽省蚌埠市2025屆高三年級第二次教學質量檢查考試(蚌埠二模)試題和答案
- 2025年浙江省金華市中考一模數學模擬試題(含答案)
- 2024年國家發展和改革委員會直屬單位招聘考試真題
- 2025年河南省商丘市柘城縣中考一?;瘜W試題(原卷版+解析版)
- 《中國古代神話》課件
評論
0/150
提交評論