數據挖掘技術2015B_第1頁
數據挖掘技術2015B_第2頁
數據挖掘技術2015B_第3頁
數據挖掘技術2015B_第4頁
數據挖掘技術2015B_第5頁
已閱讀5頁,還剩47頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘技術

王志海zhhwang@辦公室:北502電話:51683859計算機與信息技術學院DataMiningTechniquesDr.ZhihaiWang(Prof.)BeijingJiaotongUniversityOffice:North502Tel.:51683859zhhwang@DataMiningTechniques研究背景基本定義

DM過程

DM任務與方法與DM相關的理論重要的學術會議與期刊澳大利亞大學簡介?ZhihaiWANG,20153DataMining的研究背景數據庫的規模(大數據)

摩爾定律(Moore’sLaw)可知,計算機的性能每18個月就會提高1倍。而且,在數據存儲領域中,在價格固定的前提下,數據存儲能力每9個月就會提高1倍分析能力潛在價值

?ZhihaiWANG,20154DataMining的研究背景分析能力潛在價值

驅動數據庫發現知識研究的基本動機主要是在許多機構中數據庫是非常龐大的信息寶庫,可從中發現具有潛在價值的概念、模式和聯系。這些知識可以有效地應用在許多方面,如商業決策、數據庫模式精化、完整性實施、語義查詢優化以及智能查詢處理等。?ZhihaiWANG,20155大數據的潛在價值潛在價值超市的商品擺放智能搜索引擎網上購物向導銀行用戶信用等級評估數據庫逆向工程………?ZhihaiWANG,20156DataMiningTechniques

研究背景

數據挖掘的基本定義

DM過程

DM任務與方法與DM相關的理論重要的學術會議與期刊澳大利亞大學簡介?ZhihaiWANG,20157DataMining(KDD)的基本定義

W.J.Frawley,GPiatetsky-Shapiro,C.J.Matheus(1991)

KDDisthenontrivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstand-ablepatternsindata.

KDD是從大量數據中提取出1)有效的、2)新穎的、3)有潛在作用的、并4)能最終理解的模式的非平凡的處理過程。?ZhihaiWANG,20158DataMiningTechniques

研究背景

數據挖掘的基本定義

數據挖掘的基本過程

DM任務與方法與DM相關的理論重要的學術會議與期刊澳大利亞大學簡介?ZhihaiWANG,20159DataMining過程概述UsamaM.Fayyadet.al.(1996)1)數據準備6)挖掘算法確定2)數據選擇7)數據挖掘3)數據預處理8)模式解釋4)數據縮減9)知識評價5)DM目標確定?ZhihaiWANG,201510數據挖掘的基本過程(1)數據準備了解DM相關領域的有關情況,包括應用中的預先知識和目標,熟悉有關的背景知識,并弄清楚用戶的要求。?ZhihaiWANG,201511DataMining過程(2)數據選擇

根據用戶要求從數據庫中提取與DM相關的數據,在此過程中,會利用一些數據庫操作對數據進行處理,建立一個目標數據集,選擇一個數據集或在多數據集的子集上聚焦。?ZhihaiWANG,201512DataMining過程(3)數據預處理

對所選擇的數據進行再加工,主要檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對缺損的數據(Missing,丟失的?不合理的?不知道的?)可以利用統計方法進行填補,去除噪聲或無關數據,去除空白數據域,考慮時間順序和數據變化等。?ZhihaiWANG,201513DataMining過程(4)數據轉換

對經過預處理的數據,根據知識發現的任務對數據進行再處理,主要通過投影或數據庫中的其他操作減少數據量或找到數據的不變式。?ZhihaiWANG,201514DataMining過程(5)確定DM的目標

根據用戶的要求,確定DM是發現何種類型的知識,因為對DM的不同要求會在具體的知識發現過程中采用不同的知識發現算法。?ZhihaiWANG,201515DataMining過程(6)確定知識發現算法

根據所確定的任務,選擇合適的知識發現算法(如匯總、分類、聚類等),這包括選取合適的模型和參數,并使得知識發現算法與整個DM&KD的評判標準相一致。?ZhihaiWANG,201516DataMining過程(7)實施數據挖掘(DataMining)

運用選定的知識發現算法,搜索或產生一個特定的感興趣的模式或數據集,從數據中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示,如產生式規則等。?ZhihaiWANG,201517DataMining過程(8)模式解釋

對發現的模式進行解釋,去掉多余的不切題意的模式,轉換成某個有用的模式,以使用戶明白。在此過程中,為了取得更為有效的知識,可能會返回前面處理步驟中的某些步以反復提取,從而提取出更有效的知識。?ZhihaiWANG,201518DataMining過程(9)知識評價

將發現的知識以用戶能了解的方式呈現給用戶。這期間也包含對知識的一致性的檢查,以確信本次發現的知識與以前發現的知識不相抵觸。?ZhihaiWANG,201519DataMining過程圖示?ZhihaiWANG,201520DataMiningTechniques

研究背景

數據挖掘的基本定義

數據挖掘的基本過程

數據挖掘的任務與方法與DM相關的理論重要的學術會議與期刊澳大利亞大學簡介?ZhihaiWANG,201521兩種主要的數據庫處理技術數據庫技術關系型數據庫DatabasesDataBaseManagementSystem(商品?)數據庫應用系統在線事務處理(OLTP)SQL選擇、聯接、投影數據倉庫技術在線分析處理(

OLAP)商業化:SAS、SPSS?ZhihaiWANG,201522數據挖掘的基本任務兩種基本任務:預測(未來):運用數據描述(數據庫的關系模式)的一些變量和字段去預測未知的感興趣的變量的值。描述(過去):尋找可以理解的描述數據的適當模式。?ZhihaiWANG,201523DataMining的任務與方法(1)分類(Classification):

將數據歸于一系列已知類中的某一分類的過程。分類的目的是學會一個分類函數(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個。

分類模型?ZhihaiWANG,201524ClassificationinDataMiningMethodandTheory

lDatabaseTheorylStatisticslMachineLearninglComputationalIntelligence?ZhihaiWANG,201525ClassificationinDataMiningDatabase/DataWarehouse

lRelationalDatabaselTextlWeb-BasedDatalMulti-Media?ZhihaiWANG,201526ClassificationinDataMiningInstances:X={x1,x2,…,xm}Attributes:A={A1,A2,…,An}ClassLabel:CC=ci,W=(a1,a2,…,an)ClassificationAlgorithmClusteringAlgorithm?ZhihaiWANG,201527ClassificationinDataMiningClassificationAlgorithmlDecisionTreelNeuralNetworklGeneticAlgorithmlBayesianLearninglSupportedVectorMachine?ZhihaiWANG,201528DataMining的任務與方法(2)

聚類(Clustering):

根據客體屬性對一系列未分類客體進行類別的識別,把一組個體按照相似性歸成若干類別,即“物以類聚”。有監督的學習無監督的學習?ZhihaiWANG,201529TwoLearningStrategiesEagerLearningLazyLearningTrainingTimeClassificationTime?ZhihaiWANG,201530DataMining的任務與方法(3)特征提取(Characterization):

將與任務相關的數據集概括或抽象為某種泛化關系(generalized

relation)或特征規則(characterization

rule)。

概念層次結構(概念格ConceptLattice)區分提取(Discrimination):

發現分辨目標類(targetclass)與對照類(contrastingclasses)的特征與性質。區分規則(discriminationrule)?ZhihaiWANG,201531DataMining的任務與方法(4)

關聯規則發現(AssociationRulesMining):

發現客體的任意屬性子集合之間的相互關系。關聯規則的形式:

A1A2...Ai

B1B2...Bj注意:關聯規則和分類規則的區別?ZhihaiWANG,201532DataMining的任務與方法(5)

序貫模式發現(SequentialPatternsMining):

在多個數據序列中發現尋找所有的頻繁序列或所有的最長頻繁序列。情節發現(Episodesmining):

在事件序列中發現頻繁情節(frequentepisodes)。情節是指在給定長度的時間區間內出現的事件的有序集合。偏離發現(Deviationmining):

在與時間相關數據庫中某客體的偏離模式的發現與評估。?ZhihaiWANG,201533DataMiningTechniques

研究背景

數據挖掘的基本定義

數據挖掘的基本過程數據挖掘的任務與方法

數據挖掘的相關理論重要的學術會議與期刊澳大利亞大學簡介?ZhihaiWANG,201534與DataMining的相關的理論

統計學數據庫理論機器學習理論

神經網絡計算智能FuzzySetandRoughSetTheory支持向量機理論(SVM)?ZhihaiWANG,201535DataMiningTechniques

研究背景

數據挖掘的基本定義

數據挖掘的基本過程數據挖掘的任務與方法數據挖掘的相關理論

重要的學術會議與期刊澳大利亞大學簡介?ZhihaiWANG,201536

DataMining&KnowledgeDiscovery

研究背景基本定義DM過程DM任務與方法與DM相關的理論

重要的學術會議與期刊?ZhihaiWANG,201537重要的學術會議與期刊(1)1989年8月在美國底特律召開的第11屆國際人工智能聯合學術會議(IJCAI)上首次舉辦了以KDD為主題的研討會(WorkshoponKnowledgeDiscoveryinDatabases)AAAI-91(WorkshoponKnowledgeDiscoveryinDatabases)Piatetsky-ShapiroG,FrawleyWJeds.

KnowledgeDiscoveryinDatabasesMenloPark,California:AAAIPress/TheMITPress,1991?ZhihaiWANG,201538重要的學術會議與期刊(2)WorkshoponKnowledgeDiscoveryinDatabases1993Piatetsky-ShapiroG(Ed.).

ProceedingsofAAAI-93WorkshoponKnowledgeDiscoveryinDatabases.Washington:AAAIPress,1993?ZhihaiWANG,201539重要的學術會議與期刊(3)FirstInternationalConferenceonKnowledgeDiscoveryandDataMining,Montreal,Canada,1995FayyadUM,Piatetsky-ShapiroG,SmythP,UthurusamyR.

AdvancesinKnowledgeDiscoveryandDataMiningMenloPark,California:AAAIPress/TheMITPress,1996?ZhihaiWANG,201540重要的學術會議與期刊(4)亞太地區(PAKDD):1997Singapore首屆研討會1998Melbourne,Australia

第2屆1999Beijing 2000Kuwait2001Japan 2002Taiwan2003Korea 2004Sydney,Australia2005Vietnam第9屆?ZhihaiWANG,201541重要的學術會議與期刊(5)RoughSetTheoryZiarkoWPed.

RoughSets,andFuzzySetsandKnowledgeDiscovery(RSKD’93)London:Springer-Verlag,1994第2屆?ZhihaiWANG,201542重要的學術會議與期刊(6)IJCAIACM&AAAI-KDDIEEEICDM(2000)IEEEICDEPAKDD&EKDDICML&ECMLVLDBACM-SIGMOD?ZhihaiWANG,201543重要的學術會議與期刊(7)JournalIEEETransactionsonKnowledgeandDataEngineeringMachineLearningArtificialIntelligenceData&KnowledgeEngineeringDM&KD第一本專門的國際學術雜志《DataMiningandKnowledgeDiscovery》于1997年創刊。?ZhihaiWANG,201544DataMiningTechniques

研究背景

數據挖掘的基本定義

數據挖掘的基本過程數據挖掘的任務與方法數據挖掘的相關理論重要的學術會議與期刊

澳大利亞大學簡介?ZhihaiWANG,201545AustralianUniversities40UniversitiesSydney:UniversityofNewSouthWalesSydneyUniversityCanberra:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論