




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 數據挖掘數據挖掘數據庫技術數據庫技術統計分析統計分析機器學習機器學習模式識別模式識別算法算法其它。其它。可視化技術可視化技術數據挖掘數據挖掘數據庫技術數據庫技術統計分析統計分析機器學習機器學習模式識別模式識別算法算法其它。其它。可視化技術可視化技術數據挖掘數據挖掘數據庫技術數據庫技術統計分析統計分析機器學習機器學習模式識別模式識別算法算法其它。其它。可視化技術可視化技術考考填空選擇考填空選擇 教學綱要教學綱要n商務智能概述(商務智能概述(三個技術填空選擇三個技術填空選擇)n在線分析在線分析處理處理OLAPOLAP技術(技術(1 1)n數據挖掘技術和方法數據挖掘技術和方法* *n數據挖掘數據挖
2、掘過程過程n數據倉庫(大題考的多,數據倉庫(大題考的多,6 6選選1 1實驗指導實驗指導書有書有1818分)分)n商務智能應用商務智能應用* * 知識知識n知識是對信息內容進行提煉、比較、挖掘、分析、概括、判斷知識是對信息內容進行提煉、比較、挖掘、分析、概括、判斷和推論。和推論。n事實性知識和經驗知識(事實性知識和經驗知識(考什么是考什么是隱性隱性和顯性知識和顯性知識)。)。n洞察力(洞察力(insightinsight) IBM商務智能定義 知識就是力量。BI 系統收集您客戶的相關信息并加以分析,以幫助您確定商機和創建可以滿足客戶需求的戰略。數據倉庫、數據挖掘和決策支持中的先進技術創建大量的
3、 BI 工具。http:/ 微軟商務智能定義微軟商務智能定義 Watch this interactive video and learn how Microsoft business intelligence solutions can help your IT, Finance, Operations and Sales departments access the right information, faster: http:/ SAP商務智能定義商務智能定義 SAP BusinessObjects BI 解決方案提供全解決方案提供全面的商務智能功能,用戶可根據可靠的數面的商務智能功能
4、,用戶可根據可靠的數據和分析,作出有效而明智的決策。據和分析,作出有效而明智的決策。 借助這些強大的解決方案,企業中的所有借助這些強大的解決方案,企業中的所有用戶均可訪問、分析和共享組織中的各種用戶均可訪問、分析和共享組織中的各種信息,并可以設置信息格式及在信息中進信息,并可以設置信息格式及在信息中進行導航。行導航。http:/ 設計數據匯總視圖工作單位存取關注操作訪問記錄數用戶數DB規模優先度量操作處理事務辦事員、DBA、數據庫專業人員日常操作基于E-R,面向應用當前的;確保最新原始的,高度詳細詳細,一般關系短的、簡單事務讀/寫數據進入主關鍵字上索引/散列數十個數千100MB到GB高性能,高
5、可用性事務吞吐量信息處理分析知識工人(如經理、主管、分析員)長期信息需求,決策支持星形/雪花,面向主題歷史的;跨時間維護匯總的,統一的匯總的,多維的復雜查詢大多為讀信息輸出大量掃描數百萬數百100GB到TB高靈活性,端點用戶自治查詢吞吐量,響應時間8數據倉庫數據倉庫(Data Warehouse)(Data Warehouse)定義定義n數據倉庫用來保存從多個數據庫或其它信息源選取的數據數據倉庫用來保存從多個數據庫或其它信息源選取的數據, 并為并為上層應用提供統一上層應用提供統一 用戶接口,完成數據查詢和分析。支持整個用戶接口,完成數據查詢和分析。支持整個企業范圍的主要業務來建立的,主要特點是
6、,包含大量面向整個企業范圍的主要業務來建立的,主要特點是,包含大量面向整個企業的綜合信息及導出信息。企業的綜合信息及導出信息。n數據倉庫是作為數據倉庫是作為DSS服務基礎的分析型服務基礎的分析型DB,用來存放大容量的,用來存放大容量的只讀數據,為制定決策提供所需要的信息。只讀數據,為制定決策提供所需要的信息。n數據倉庫是與操作型系統相分離的、基于標準企業模型集成的、數據倉庫是與操作型系統相分離的、基于標準企業模型集成的、帶有時間屬性的、面向主題及不可更新的數據集合。帶有時間屬性的、面向主題及不可更新的數據集合。n以以1992年年W H Inmon出版出版Building the Data Wa
7、rehouse為標志,數據倉庫發展速度很快。為標志,數據倉庫發展速度很快。 W H Inmon被譽為數據倉庫被譽為數據倉庫之父。之父。nW H Inmon對數據倉庫所下的定義:數據倉庫是面向主題的、對數據倉庫所下的定義:數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合,用以支持管理決策的集成的、穩定的、隨時間變化的數據集合,用以支持管理決策的過程。過程。9面向主題面向主題(特點、什(特點、什么意思)么意思)n數據倉庫中的數據是按照各種主題來組織的。主題在數據倉數據倉庫中的數據是按照各種主題來組織的。主題在數據倉庫中的物理實現是一系列的相關表,這不同于面向應用環境。庫中的物理實現是一系
8、列的相關表,這不同于面向應用環境。如保險公司按照應用組織可能是汽車保險、生命保險、傷亡如保險公司按照應用組織可能是汽車保險、生命保險、傷亡保險,而數據倉庫是按照客戶、政策、保險金和索賠來組織保險,而數據倉庫是按照客戶、政策、保險金和索賠來組織數據。數據。n面向主題的數據組織方式可在較高層次上對分析對象的數據面向主題的數據組織方式可在較高層次上對分析對象的數據給出完整、一致的描述,能完整、統一的刻畫各個分析對象給出完整、一致的描述,能完整、統一的刻畫各個分析對象所涉及的企業的各項數據以及數據之間的聯系,從而適應企所涉及的企業的各項數據以及數據之間的聯系,從而適應企業各個部門的業務活動特點和企業數
9、據的動態特征,從根本業各個部門的業務活動特點和企業數據的動態特征,從根本上實現數據與應用的分離。上實現數據與應用的分離。101集成性集成性n數據倉庫中的數據是從原數據倉庫中的數據是從原有分散的源數據庫中提取有分散的源數據庫中提取出來的,其每一個主題所出來的,其每一個主題所對應的源數據在原有的數對應的源數據在原有的數據庫中有許多冗余和不一據庫中有許多冗余和不一致,且與不同的應用邏輯致,且與不同的應用邏輯相關。為了創建一個有效相關。為了創建一個有效的主題域,必須將這些來的主題域,必須將這些來自不同數據源的數據集成自不同數據源的數據集成起來,使之遵循統一的編起來,使之遵循統一的編碼規則。碼規則。11
10、2穩定性穩定性n數據倉庫內的數據有很長的時間跨度,數據倉庫內的數據有很長的時間跨度,通常是通常是5-10年年。n數據倉庫中的數據反映的是一段時間內歷史數據的內容,是不同數據倉庫中的數據反映的是一段時間內歷史數據的內容,是不同時點的數據庫快照的集合,以及基于撰寫快照進行統計、綜合和時點的數據庫快照的集合,以及基于撰寫快照進行統計、綜合和重組的導出數據。主要供企業高層決策分析之用,所涉及的數據重組的導出數據。主要供企業高層決策分析之用,所涉及的數據操作主要是查詢,操作主要是查詢,一般情況下并不進行修改操作一般情況下并不進行修改操作.n數據倉庫中的數據是不可實時更新的,僅當超過規定的存儲期限,數據倉
11、庫中的數據是不可實時更新的,僅當超過規定的存儲期限,才將其從數據倉庫中刪除,提取新的數據經集成后輸入數據倉庫。才將其從數據倉庫中刪除,提取新的數據經集成后輸入數據倉庫。123時變性時變性n時變性:許多商業分析要求對發展趨勢做出預測,對發展趨時變性:許多商業分析要求對發展趨勢做出預測,對發展趨勢的分析需要訪問歷史數據。因此數據倉庫必須不斷捕捉勢的分析需要訪問歷史數據。因此數據倉庫必須不斷捕捉OLTPOLTP數據庫中變化數據庫中變化的數據,生成數據庫的快照,經的數據,生成數據庫的快照,經集成后增集成后增加到數據倉庫中去;另外數據倉庫還需要隨時間的變化刪去加到數據倉庫中去;另外數據倉庫還需要隨時間的
12、變化刪去過期的、對分析沒有幫助的數據,并且還需要按規定的時間過期的、對分析沒有幫助的數據,并且還需要按規定的時間段增加綜合數據。段增加綜合數據。134支持管理決策支持管理決策n數據倉庫支持數據倉庫支持OLAPOLAP(聯機分析處理)、數據挖掘和決策(聯機分析處理)、數據挖掘和決策分析。分析。OLAPOLAP從數據倉庫中的綜合數據出發,提供面向分從數據倉庫中的綜合數據出發,提供面向分析的多維模型,并使用多維分析的方法從多個角度、多析的多維模型,并使用多維分析的方法從多個角度、多個層次對多維數據進行分析,使決策者能夠以更加自然個層次對多維數據進行分析,使決策者能夠以更加自然的方式來分析數據。數據挖
13、掘則以數據倉庫和多維數據的方式來分析數據。數據挖掘則以數據倉庫和多維數據庫中的數據為基礎,發現數據中的潛在模式和進行預測。庫中的數據為基礎,發現數據中的潛在模式和進行預測。因此,數據倉庫的功能是支持管理層進行科學決策,而因此,數據倉庫的功能是支持管理層進行科學決策,而不是事務處理。不是事務處理。14數據倉庫系統的結構(四步數據倉庫系統的結構(四步曲曲 畫圖)畫圖)數據質量控制數據重新組織E II解 決 方 案數據質量控制數據重新組織E II解 決 方 案數據質量控制數據重新組織E II解 決 方 案企 業 信 息 集成 ( E II)數 據 展 現數 據 管 理數 據 獲 取數 據 遷 移數
14、據 清 洗數 據 倉 庫元 數 據 管 理數 據 集 市 管 理安 全 性 、分 析 管 理最 終 用 戶數據質量控制數據重新組織E T L解 決 方 案數據抽取 、遷移 、加載周數 據 加 載日 常數 據 增 加日周 期E T L周日周 期數 據 源E T L數 據 存 儲 管 理業 務 模 型數 據 展 現利 潤 成 本 分析資 產 分 析營 銷 分 析投 資 組 合 分析平 衡 記 分 卡/K P I解 決 的 業 務 問 題利 潤 成 本 分 析資 產 分 析營 銷 分 析投 資 組 合 分 析平 衡 計 分 卡數 據 分 析采 購 系 統生 產 系 統銷 售 系 統財 務 系 統采
15、購 系 統生 產 系 統銷 售 系 統財 務 系 統數 據 倉 庫 企業數模 型R DM D D BD W即 席 查 詢In tra n e t/In te rn e t產 品 報 告數 據 挖 掘O L A P 分 析隨 即 查 詢報 表例 外 分 析數 據 挖 掘決 策 人 員管 理 人 員分 析 人 員業 務 人 員實 時增 量虛 擬數 據 倉 庫實 時增 量虛 擬數 據 倉 庫實 時增 量實 時增 量虛 擬數 據 倉 庫訪 問 工 具 O D S元 數 據 管 理 ( 業 務 元 數 據 、 技 術 元 數 據 等 )15元數據n數據倉庫的所有數據都要通過元數據來管理和控制。元數據倉庫
16、的所有數據都要通過元數據來管理和控制。元數據描述關于源數據的說明,包括源數據的來源、源數數據描述關于源數據的說明,包括源數據的來源、源數據的名稱、源數據的定義、源數據的創建時間等對源數據的名稱、源數據的定義、源數據的創建時間等對源數據進行管理所需要的信息。據進行管理所需要的信息。n源數據的來源說明源數據是從哪個系統、哪個歷史數據、源數據的來源說明源數據是從哪個系統、哪個歷史數據、哪個辦公數據、哪個哪個辦公數據、哪個WebWeb頁、哪個外部系統抽取而來。頁、哪個外部系統抽取而來。源數據說明源數據在數據倉庫的作用、用途、數據類型源數據說明源數據在數據倉庫的作用、用途、數據類型和長度等。和長度等。1
17、6元數據元數據(2)n元數據:是用來描述數據的數據。它描述和定位數據組件、元數據:是用來描述數據的數據。它描述和定位數據組件、它們的起源及它們在數據倉庫進程中的活動;關于數據和它們的起源及它們在數據倉庫進程中的活動;關于數據和操作的相關描述操作的相關描述( (輸入、計算和輸出輸入、計算和輸出) )。元數據可用文件存。元數據可用文件存在元數據庫中。元數據反映數據倉庫中的數據項是從哪個在元數據庫中。元數據反映數據倉庫中的數據項是從哪個特定的數據源填充的,經過哪些轉換、集成過程。特定的數據源填充的,經過哪些轉換、集成過程。n要有效的管理數據倉庫,必須設計一個描述能力強、內容要有效的管理數據倉庫,必須
18、設計一個描述能力強、內容完善的元數據。完善的元數據。17數據倉庫的數據模型數據倉庫的數據模型最后大題要有模型(最后大題要有模型(重點前兩個模型)重點前兩個模型)星型圖模型星型圖模型 物理數據模型物理數據模型概念模型概念模型邏輯模型邏輯模型物理模型物理模型面向用戶的需求面向用戶的需求細細 化層化層次次更詳細的更詳細的技術細節技術細節信息包圖信息包圖18概念模型概念模型n由于大多數商務數據是多維的,由于大多數商務數據是多維的,但傳統的數據模型表示三維以但傳統的數據模型表示三維以上的數據有一定困難。概念模上的數據有一定困難。概念模型簡化了這個過程并且允許用型簡化了這個過程并且允許用戶與開發者和其他用
19、戶建立聯戶與開發者和其他用戶建立聯系:系:n確定系統邊界:決策類型、需確定系統邊界:決策類型、需要的信息、原始信息要的信息、原始信息n確定主題域及其內容:主題域確定主題域及其內容:主題域的公共鍵碼、聯系、屬性組的公共鍵碼、聯系、屬性組n確定維度:如時間維、銷售位確定維度:如時間維、銷售位置維、產品維、組別維等置維、產品維、組別維等n確定類別:相應維的詳細類別確定類別:相應維的詳細類別n確定指標和事實:用于進行分確定指標和事實:用于進行分析的數值化信息析的數值化信息19實例實例例例試畫出銷售分析的概念模型。試畫出銷售分析的概念模型。解:首先根據銷售分析的實際需求,確定信息包的維度、類別和解:首先
20、根據銷售分析的實際需求,確定信息包的維度、類別和指標與事實:指標與事實:(1)維度:包括日期維、銷售地點維、銷售產品維、年齡組別維、)維度:包括日期維、銷售地點維、銷售產品維、年齡組別維、性別維等。性別維等。(2)類別:確定各維的詳細類別,如:日期維包括年()類別:確定各維的詳細類別,如:日期維包括年(10)、)、季度(季度(40)、月()、月(120)等類別,括號中的數字分別指出各類)等類別,括號中的數字分別指出各類別的數量;銷售地點維包括國家(別的數量;銷售地點維包括國家(15)、區域()、區域(45)、城市)、城市(280)、區()、區(880)、商店()、商店(2000)等類別,括號中
21、的數字)等類別,括號中的數字同樣分別指出各類別的數量;類似地,可以確定銷售產品、年同樣分別指出各類別的數量;類似地,可以確定銷售產品、年齡組別維、性別維等的詳細類別。齡組別維、性別維等的詳細類別。(3)度量和事實:確定用于進行分析的數值化信息,包括預測銷)度量和事實:確定用于進行分析的數值化信息,包括預測銷售量、實際銷售量和預測偏差等。售量、實際銷售量和預測偏差等。 20銷售分析的概念模型銷售分析的概念模型日期日期銷售地點銷售地點銷售產品銷售產品年齡組別年齡組別性別性別年(10)國家(15)產品類(6)年齡組(8) 性別組(2)季度(40)區域(45)產品組(48)月(120)城市(280)
22、產品(240)區(880)商店(2000)度量和事實度量和事實:預測銷售量、實際銷售量、預測偏差預測銷售量、實際銷售量、預測偏差信息包:信息包: 銷售分析銷售分析維度維度類別類別21概念模型圖實例概念模型圖實例 組合組合ID 寫清楚寫清楚22邏輯模型邏輯模型n星型圖:數據倉庫的數據模型星型圖:數據倉庫的數據模型的第二層是向最終的數據結構的第二層是向最終的數據結構添加某些細節的星型圖模型。添加某些細節的星型圖模型。與傳統的關系模型相比,星型與傳統的關系模型相比,星型圖模型簡化了用戶分析所需的圖模型簡化了用戶分析所需的關系,從支持決策的角度去定關系,從支持決策的角度去定義數據實體,更適合大量復雜義
23、數據實體,更適合大量復雜查詢。查詢。n星形圖包括了三種邏輯實體:星形圖包括了三種邏輯實體:指標、維度和詳細類別指標、維度和詳細類別n維表的本質是多維分析空間在維表的本質是多維分析空間在某個角度上的投影,多個維表某個角度上的投影,多個維表共同建立一個多維分析空間。共同建立一個多維分析空間。23sales數據倉庫的雪花模式數據倉庫的雪花模式 24Information Modelling of Sales Information Demand Unique IdentifierAttribute Strong Entity Type 1-n Relationship 0-n Relationshi
24、p Derived AttributeWeak Entity Type25DW Layer and the Mapping to Information Model Data Warehouse Layer(logical layer)Information Model(conceptual layer)MapInformation Objects To Database fields- Rename Objects to User friendly names- Calculate fields- Define object display attributes- Convert curre
25、ncies etc.26星型模型例子星型模型例子27粒度粒度(選擇(選擇填空)填空)n粒度:對數據倉庫中的數據綜合程度高低的一個度粒度:對數據倉庫中的數據綜合程度高低的一個度量,它既影響數據倉庫中的數據量的多少,也影響量,它既影響數據倉庫中的數據量的多少,也影響數據倉庫所能回答詢問的種類。數據倉庫所能回答詢問的種類。n粒度越小,綜合程度越低,回答查詢的種類越多;粒度越小,綜合程度越低,回答查詢的種類越多; 粒度越高,綜合程度越高,查詢的效率也越高。粒度越高,綜合程度越高,查詢的效率也越高。n在數據倉庫中可將小粒度的數據存儲在低速存儲器在數據倉庫中可將小粒度的數據存儲在低速存儲器上;大粒度的數據
26、存儲在高速存儲器上。上;大粒度的數據存儲在高速存儲器上。2.1 數據倉庫的開發模型數據倉庫的開發模型 填空題填空題張三客戶客戶與產品特性個體整體整體間聯系屬性實體同質實體異質實體列(字段、數據項)記錄表文件數據庫信用現實世界現實世界是存在于現實之中的各種客觀事物。是存在于現實之中的各種客觀事物。概念世界概念世界是現實情況在人們頭腦中的反應。是現實情況在人們頭腦中的反應。邏輯世界邏輯世界是人們為為將存在于自己頭腦中的概念模型轉換到計算機中的是人們為為將存在于自己頭腦中的概念模型轉換到計算機中的實際的物理存儲過程中的一個計算機邏輯表示模式。實際的物理存儲過程中的一個計算機邏輯表示模式。計算機世界計
27、算機世界則是指現實世界中的事物在計算機系統中的實際存儲模式。則是指現實世界中的事物在計算機系統中的實際存儲模式。 圖圖2.1 現實與不同模型的變化聯系現實與不同模型的變化聯系 元數據模型元數據模型數據粒度模型和聚集模型數據粒度模型和聚集模型 圖圖2.2 數據模型關系圖數據模型關系圖 數據倉庫的設計是在概念模型、邏輯模型和物理模型的依次轉換過程中數據倉庫的設計是在概念模型、邏輯模型和物理模型的依次轉換過程中實現的。實現的。元數據模型作為數據倉庫的靈魂自始自終伴隨著數據倉庫的開發、實施元數據模型作為數據倉庫的靈魂自始自終伴隨著數據倉庫的開發、實施與使用。與使用。數據粒度模型和聚集模型也在數據倉庫的
28、創建中發揮著指導的作用,指數據粒度模型和聚集模型也在數據倉庫的創建中發揮著指導的作用,指導著數據倉庫的具體實現。導著數據倉庫的具體實現。大大題題可可用用由于傳統的實體關系圖無法表述數據倉庫中所需要的由于傳統的實體關系圖無法表述數據倉庫中所需要的用戶所感興趣的分析數據、描述數據和細節數據的關用戶所感興趣的分析數據、描述數據和細節數據的關系,因此將系,因此將ERD中的實體分成指標實體(事實實體)、中的實體分成指標實體(事實實體)、維實體和詳細類別實體(引用實體)。維實體和詳細類別實體(引用實體)。 指標實體處于概念模型的中心,是數據倉庫活指標實體處于概念模型的中心,是數據倉庫活動的中心。往往最后形
29、成數據倉庫中的實體動的中心。往往最后形成數據倉庫中的實體-事實表。在現實世界中則是業務處理或者某事實表。在現實世界中則是業務處理或者某一事件(例如,銷售、服務等)。一事件(例如,銷售、服務等)。指標實體指標實體維度表 維實體在數據倉庫中主要用于對實體指標的過維實體在數據倉庫中主要用于對實體指標的過濾和重新組織提供指導。濾和重新組織提供指導。詳細類別表 詳細類別實體在數據倉庫中也用物理數據庫表詳細類別實體在數據倉庫中也用物理數據庫表示,通常與現實世界中的某一個實體相對應。示,通常與現實世界中的某一個實體相對應。 實例:實例:P95、P962.2.2 規范的數據模型規范的數據模型數據倉庫的數據數據
30、倉庫的數據普通數據庫系統的數據普通數據庫系統的數據長期的框架長期的框架短期的框架短期的框架靜態靜態快速變化快速變化數據通常是匯總的數據通常是匯總的記錄級的訪問記錄級的訪問特殊查詢訪問特殊查詢訪問標準查詢訪問標準查詢訪問定期更新定期更新實時更新實時更新數據驅動數據驅動事件驅動事件驅動表表2-1 數據倉庫的數據與普通的數據庫系統的數據之間的對比數據倉庫的數據與普通的數據庫系統的數據之間的對比寫三點與前面一樣任選寫三點與前面一樣任選2.2.4 雪花模型雪花模型維度表維度表維度表維度表維度表事實表詳細類別表詳細類別表圖圖2.7 雪花模型的結構示意圖雪花模型的結構示意圖1. 單元測試單元測試 當數據倉庫
31、的每個單獨組件完成后,就需要對它當數據倉庫的每個單獨組件完成后,就需要對它們進行單元測試,單元測試的目的是尋找存于單們進行單元測試,單元測試的目的是尋找存于單個程序、存儲過程和其他位于一些獨立環境中的個程序、存儲過程和其他位于一些獨立環境中的模塊的錯誤。在測試過程中不僅要求單元能對各模塊的錯誤。在測試過程中不僅要求單元能對各種正常情況進行正確處理,也要求對各種錯誤情種正常情況進行正確處理,也要求對各種錯誤情況具有防御能力,不至由于某個用戶的誤操作導況具有防御能力,不至由于某個用戶的誤操作導致系統的崩潰。致系統的崩潰。3.6.4 數據倉庫的測試數據倉庫的測試2. 系統集成測試系統集成測試 在完成
32、數據倉庫單元測試以后,還需要進行數據倉庫的在完成數據倉庫單元測試以后,還需要進行數據倉庫的集成測試,測試是驗證每個單元與數據倉庫系統和子系統集成測試,測試是驗證每個單元與數據倉庫系統和子系統之間的接口完好,能夠正常傳遞數據,執行系統的整體功之間的接口完好,能夠正常傳遞數據,執行系統的整體功能能。 在測試之前必須依據數據倉庫的所有組件功能、數據倉在測試之前必須依據數據倉庫的所有組件功能、數據倉庫應用方法和數據倉庫開發計劃,制定詳細的測試計劃。庫應用方法和數據倉庫開發計劃,制定詳細的測試計劃。 在完成數據倉庫的系統集成測試以后,就可以進行數據在完成數據倉庫的系統集成測試以后,就可以進行數據倉庫數據
33、的首次加載。倉庫數據的首次加載。 在數據倉庫交付用戶使用之前,需要對數據倉庫進行交在數據倉庫交付用戶使用之前,需要對數據倉庫進行交付測試。付測試。什么是什么是OLAPOLAP?n定義定義1 :OLAP(聯機分析處理聯機分析處理)是針對特定問題的聯機數據訪是針對特定問題的聯機數據訪問和分析。通過對信息問和分析。通過對信息(維數據維數據)的多種可能的觀察形式進行快的多種可能的觀察形式進行快速、穩定一致和交互性的存取,允許管理決策人員對數據進行速、穩定一致和交互性的存取,允許管理決策人員對數據進行深入觀察。深入觀察。n定義定義2 :OLAP(聯機分析處理聯機分析處理) 是使分析人員、管理人員或執是使
34、分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業維特性的信息進行快速、一為用戶所理解的、并真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。術。(OLAP委員會的定義委員會的定義)nOLAP的目標的目標是滿足決策支持或多維環境特定的查詢和報表需是滿足決策支持或多維環境特定的查詢和報表需求,它的技術核心是求,它的技術核心是“維維”這個概念,因此這個概念,因此OLAP也可以說是也可以說是多維
35、數據分析工具的集合。多維數據分析工具的集合。OLAPOLAP決策分析決策分析nOLAPOLAP分析屬于驗證驅動型發現:用戶首先提出分析屬于驗證驅動型發現:用戶首先提出自己的假設,然后利用自己的假設,然后利用OLAPOLAP工具檢索查詢以驗工具檢索查詢以驗證或否定假設。證或否定假設。OLAPOLAP基本概念基本概念n維:維:是人們觀察數據的特定角度,是是人們觀察數據的特定角度,是考慮問題時的一類屬性考慮問題時的一類屬性 ( (時間維、地時間維、地理維等理維等) )。n維的層次:維的層次:人們觀察數據的某個特定人們觀察數據的某個特定角度角度( (即某個維即某個維) )還可以存在細節程度還可以存在細
36、節程度不同的各個描述方面不同的各個描述方面( (時間維:日期、時間維:日期、月份、季度、年月份、季度、年) )。n維的成員:維的成員:維的一個取值。是數據項維的一個取值。是數據項在某維中位置的描述。在某維中位置的描述。( (“某年某月某某年某月某日日”是在時間維上位置的描述是在時間維上位置的描述) )n多維數組:多維數組:維和變量的組合表示。一維和變量的組合表示。一個多維數組可以表示為:個多維數組可以表示為:( (維維1 1,維,維2 2,維,維n n,變量,變量) )。( (時間,地區,時間,地區,產品,銷售額產品,銷售額) )n數據單元數據單元( (單元格單元格) ):多維數組的取值。多維
37、數組的取值。(2000(2000年年1 1月,上海,筆記本電腦,月,上海,筆記本電腦,$100000)$100000)產 品時 間財 務 指 標進 口 煙國 產 煙收 入開 銷Q1 Q 2 Q 3 Q4卷 煙 銷 售 分 析OLAPOLAP特性特性n快速性:用戶對OLAP的快速反應能力有很高的要求。系統應能在5秒內對用戶的大部分分析要求做出反應。客戶/服務器體系結構兩層或三層C/S結構。n可分析性:OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。n多維性(最關鍵屬性):多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持。n信息性:不論數據
38、量有多大,也不管數據存儲在何處,OLAP系統應能及時獲得信息,并且管理大容量信息。OLAPOLAP特性特性n快速性:用戶對OLAP的快速反應能力有很高的要求。系統應能在5秒內對用戶的大部分分析要求做出反應。客戶/服務器體系結構兩層或三層C/S結構。n可分析性:OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。n多維性(最關鍵屬性):多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持。n信息性:不論數據量有多大,也不管數據存儲在何處,OLAP系統應能及時獲得信息,并且管理大容量信息。OLAP操作(填空操作(填空or選選擇)擇)nCoddCod
39、d從可視化角度提出,主要基于統計的方法:從可視化角度提出,主要基于統計的方法:n切片和切塊切片和切塊( (Slice and DiceSlice and Dice) )n在多維數據結構中,按二維進行切片,按三維進行切塊,可得到所需要的數據。如在“城市、產品、時間”三維立方體中進行切塊和切片,可得到各城市、各產品的銷售情況。n鉆取鉆取(Drill) (Drill) n鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,鉆取的深度與維所劃分的層次相對應。 n旋轉旋轉(Rotate)/(Rotate)/旋轉旋轉(Pivot)(Pivot)n通過旋轉可以
40、得到不同視角的數據。n輔之于各種圖形展示分析結果輔之于各種圖形展示分析結果 n鉆過、鉆透鉆過、鉆透OLAPOLAP分類分類按照存儲方式按照存儲方式OLAPMOLAPHOLAPROLAP按照處理地點按照處理地點Client OLAPServer OLAPRelational databaseCubeMicrosoft SQL Server OLAP ServiceROLAPMOLAPHOLAPMOLAPMOLAP(性能更好的性能更好的)的多維立方體)的多維立方體(Multicube)(Multicube)DBDW多維視圖多維視圖 基礎數據基礎數據 計算結果計算結果多維數據多維數據庫引擎庫引擎客戶
41、客戶多維多維存取存取基于多維數據庫基于多維數據庫(MDDB)的的OLAPMOLAPOLAP服務器:存儲服務器:存儲OLAP服務軟件和多維數據庫服務軟件和多維數據庫MDDB存儲:采用存儲:采用“超立方體超立方體”形式形式MDDB存取:多維操作存取:多維操作ROLAP與與MOLAP比較(簡答、比較(簡答、填空)要求填空)要求3-4點即可點即可n在MOLAP中,不但把多維實視圖在概念上看成一個超立方體,而且在物理上把多維實視圖組成一個多維數組,而不象ROLAP以表的形式存儲實視圖。n在MOLAP中,維的屬性值被映射成多維數組的下標值或下標的范圍,而總數據作為多維數組的值存儲在數據的單元中。nROLA
42、P在節省存儲空間、靈活性、與關系數據庫保持一致性等方面有明顯的優勢; MOLAP則在性能和管理的簡便性方面有其優點。nMOLAP的查詢速度比較快,但有下面限制:n用多維數組實現多維實視圖,需要很大的存儲空間。在實際的數據倉庫中,每維的屬性值個數可能數萬。例如幾萬種產品、幾萬個連鎖店等。而實際的維數可能多達幾十乃至幾百。耗費的存儲空間相當可觀,由此帶來加載、維護等問題。n在多維數組中,很可能有些單元是空白的,如節假日商店不營業;某些產品在某些地區不銷售等。nMOLAP與關系數據庫系統從存儲結構到查詢語言都有相當大的差別,不可能在RDBMS的基礎上實現。ROLAP與與MOLAP比較(續)比較(續)
43、數據挖掘受多學科的影響數據挖掘受多學科的影響 重點n數據挖掘是一個交叉科學領域,受多個學科影響,包括數據庫系統、統計、機器學習、可視化和信息科學。 一個比較正式的數據挖掘的定義一個比較正式的數據挖掘的定義n高層次上的主動式自動發現方法,被稱為發現驅動型知識發現。高層次上的主動式自動發現方法,被稱為發現驅動型知識發現。n從數據中提取正確的、有用的、未知的和綜合的信息正確的、有用的、未知的和綜合的信息并用它進行決策的過程。n數據挖掘的相關學科是統計理論、數據庫技術和人工智能。n前BusinessObjects的ToddRowe曾表示:“從技術上講,甚至只要有完備的Excel數據就能用上BI。” 過
44、程過程n數據挖掘并不是一個裝在軟件包裝盒中的工具可以簡單的買到并運行在商業智能環境中,也不會自動開始產生值得注意的商業規律。正確的正確的 簡簡答答oror填空填空n提取的信息應該是正確的,并且在統計上是重要的以支持有依據的決定。正確意味著確證性和完整性。不但需要從數據庫中得到正確的客戶,還希望得到所有正確的客戶。這就需要原始數據和數據挖掘過程都具有正確性。有用的有用的n數據挖掘過程可能會傳遞正確的和重要的結果,但是這些知識必須是對商業有用的。如結果告訴你要在一個大量的渠道上多樣化市場運作,這可能會無法辦到。同樣結果必須使你能搶在競爭對手之前行動。未知的未知的n數據挖掘要產生新的信息。如果過程只
45、是傳遞一些無關緊要的結果,那么數據挖掘的商業動力就會消失。這就是區分驗證和探索的性質。最小要求最小要求 同同上上n以上顯示了數據挖掘最小要求,可以用它來評價數據挖掘是否對業務環境增加了附加的價值n其他要求 重點簡答數據挖掘流程國際標準數據挖掘流程國際標準CRISP-DMCRISP-DM(1 1)簡答題)簡答題l 商業理解。這可能是數據挖掘最重要的階段。商業理解包括確定業務對象、評估情 況、確定數據挖掘目標以及制訂工程計劃。l 數據理解。數據提供了數據挖掘的“原材料”。此階段用于了解您的數據源以及這些l 數據的特征。此階段包括收集初始數據、描述數據、探索數據和驗證數據質量。“輸出節點”選項板上提
46、供的數據審核節點是一個用于數據理解的、不可或缺的工具。、l 數據準備。對數據源進行分類之后,您需要準備數據,以便進行挖掘。準備包括選 擇、清理、構建、集成數據以及格式化數據。l 建模。此階段毫無疑問是數據挖掘的核心部分,在此階段將使用精巧復雜的分析 方法從數據中提取信息。此階段包括選擇建模技術、生成測試設計,以及構建 和評估模型。l 評估。選定模型之后,就可以評估數據挖掘結果在多大程度上能夠幫助您實現業務 目標了。此階段的要素包括評估結果、查看數據挖掘過程,以及確定后續步驟。l 部署。既然您已經付出了上述所有努力,現在就應該有所獲益了。此階段主要是將 您的新知識結合到日常的業務流程中,來解決最
47、初的業務問題。此階段包括計劃部 署、監視和維護、生成最終報告,以及復查該工程。數據挖掘流程國際標準數據挖掘流程國際標準CRISP-DMCRISP-DM(3 3)簡答結合上面的圖理解簡答結合上面的圖理解 55使用決策樹進行分類使用決策樹進行分類n決策樹 n一個樹形的結構n內部節點上選用一個屬性進行分割n每個分叉都是分割的一個部分n葉子節點表示一個分類n決策樹生成算法分成兩個步驟n樹的生成n開始,數據都在根節點n遞歸的進行數據分片n樹的修剪:去掉一些可能是噪音或者異常的數據n決策樹使用: 對未知數據進行分割n按照決策樹上采用的分割屬性逐層往下,直到葉子節點56決策樹算法決策樹算法n基本算法(貪心算
48、法)n自上而下分而治之的方法n開始時所有的實例都在根節點n屬性都是分類型 (如果是連續的,將其離散化)n所有記錄用所選屬性遞歸的進行分割n屬性的選擇是基于一個啟發式規則或者一個統計的度量 (如信息增益)n停止分割的條件n一個節點上的實例都屬于同一個類別;n沒有屬性可以再用于對數據進行分割57屬性選擇的統計度量屬性選擇的統計度量n信息增益Information gain (ID3/C5.0)n所有屬性假設都是分類型字段n經過修改之后可以適用于數值型字段n信息增益率(C4.5)n基尼指數Gini index (IBM Intelligent Miner)n能夠適用于分類和數值字段n2檢驗(CHAI
49、D)n其他58BP神經網絡的訓練(神經網絡的訓練(1) 簡答題簡答題n分析業務問題。 n選擇訓練樣本集,對其輸入值和輸出值進行預處理。 n依靠經驗確定網絡的拓撲結構,并對神經元的權值和偏置進行初始化。 n利用反向傳播等算法訓練網絡,不斷調整網絡權值減少預測誤差,獲得網絡的最佳權。n用測試集檢驗網絡的分類或預測質量。n預測未知樣本的分類。BP神經網絡是一種監督學習方法,使用反向傳播的學習算法:通過迭代處理一組訓練樣本,把每個樣本的網絡輸出值Tk與實際值Ok比較,然后按一定的方式調整網絡權和神經元的偏置,使得實際值和網絡輸出值之間的誤差平方和最小:2()kksamplekERROT 式中sampl
50、e為樣本集。這種網絡權的調整“后向”進行,即由輸出層,經由隱層,多次重復訓練,直到滿足誤差要求。59BP神經網絡的訓練(神經網絡的訓練(2)ijijijERRwwwjkjkjkERRwww01為使ERR最小,可以利用最優化理論的梯度下降法更新網絡權值。通常有兩種方法更新權和偏置:一種是每訓練一個樣本就更新權和偏置,另一種是在處理訓練集中的所有樣本之后再更新權和偏置。這實際上是以wij和wjk為變量的多元函數ERR的最小化問題。利用梯度下降法,權的更新方式如下:式中是學習率,這個參數可避免陷入局部最小。學習率太小,會使網絡學習速度慢,而太大的學習率可能使學習過程振蕩。通常在網絡訓練的初期學習率設
51、置大一些,隨著訓練誤差的減少,學習率可逐漸變小。60二元變量的相異度計算二元變量的相異度計算 原題計算原題計算ngender 是一個對稱的二元變量n其它的都是非對稱的二元變量n將值 Y和 P 編碼為1, 值 N 編碼為 0,根據Jaccard系數計算得:Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4JackMYNPNNNMaryFYNPNPNJimMYPNNNN75.021121),(67.011111),(33.010210),( maryjimdjimjackdmaryjackd61支持度和置信度支持度和置信度 n定義6:關聯規則是形
52、如X-Y的規則,其中X,Y為項目集且XY=。n定義7:在數據庫D中,若s%的事務包含XY,則關聯規則X-Y的支持度為s%;在數據庫D中,若c%的包含項目集X的事務也包含項目集Y,則關聯規則X-Y的置信度為c%:np(YX)p(XY)/p(X)。n置信度反應了關聯規則的可信度購買了項目集X中的商品的顧客同時也購買了Y中商品的可能性可能性有多大。62回歸分析的步驟回歸分析的步驟 簡答題、填空n確定因變量和影響因素(自變量)。n繪制散點圖,觀察變量的大致關系。n求回歸系數,并建立回歸模型。n檢驗回歸模型。n進行預測。 Web挖掘是從大量挖掘是從大量Web文檔的集合文檔的集合C中發現隱含的、有用的中發現隱含的、有用的模式模式P的過程:的過程:CP 。Web挖掘主要處理文本、圖形和圖像等挖掘主要處理文本、圖形和圖像等半結構、非結構化的半結構、非結構化的數據數據,這些數據分布在,這些數據分布在Web文檔、文檔、Web服務器的日志、用戶服務器的日志、用戶cookies等等 。Web挖掘Web結構挖掘Web使用挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高教版中職英語基礎模塊第一單元復習測試卷含答案詳解
- 武則天課件視頻
- 古詩詞鑒賞之思想情感(學生版)-2024小升初語文專項復習講義
- 高中物理專項復習:機械振動
- 《電力行業數據開放共享風險防護指南》編制說明
- 安裝施工安全培訓
- 專題09活動報道通知應用文-2025年高考英語二輪復習話題寫作高頻熱點通關原卷版
- 呼吸系統護理課件
- 藥物中毒搶救案例分享
- 腫瘤化療治療
- 2型糖尿病分級診療
- 工程力學基礎知識單選題100道及答案解析
- 《貧民窟的百萬富翁》電影賞析
- 新手主播直播帶貨策劃案-新手主播直播帶貨培訓教程
- 廣告設計師三級理論知識鑒定要素細目表
- 企業員工心理健康輔導服務預案
- 二年級道法《我能行》
- 遺傳學智慧樹知到答案2024年吉林師范大學
- 8.1 文化的民族性與多樣性 課件-2022-2023學年高中政治統編版必修四哲學與文化
- 2022版義務教育藝術課程標準美術新課標學習解讀課件
- 全冠修復的護理技術
評論
0/150
提交評論