




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘概述第1頁,課件共100頁,創作于2023年2月內容提綱數據挖掘介紹數據挖掘系統數據挖掘算法第2頁,課件共100頁,創作于2023年2月數據挖掘介紹數據挖掘的由來數據挖掘的應用基本概念區分數據挖掘基本內容數據挖掘基本特征數據挖掘的其他主題第3頁,課件共100頁,創作于2023年2月數據挖掘的由來
背景網絡之后的下一個技術熱點數據爆炸但知識貧乏從商業數據到商業信息的進化第4頁,課件共100頁,創作于2023年2月背景人類已進入一個嶄新的信息時代數據庫中存儲的數據量急劇膨脹需要從海量數據庫和大量繁雜信息中提取有價值的知識,進一步提高信息的利用率產生了一個新的研究方向:基于數據庫的知識發現(KnowledgeDiscoveryinDatabase),以及相應的數據挖掘(DataMining)理論和技術的研究第5頁,課件共100頁,創作于2023年2月隨著大數據庫的建立和海量數據的不斷涌現,必然提出對強有力的數據分析工具的迫切需求。但現實情況往往是“數據十分豐富,而信息相當貧乏?!笨焖僭鲩L的海量數據收集、存放在大型數據庫中,沒有強有力的工具,理解它們已經遠遠超出人的能力。因此,有人稱之為:“數據墳墓”。由于專家系統工具過分依賴用戶或專家人工地將知識輸入知識庫中,而且分析結果往往帶有偏差和錯誤,再加上耗時、費用高,故不可行。數據礦山信息金塊數據挖掘工具第6頁,課件共100頁,創作于2023年2月網絡之后的下一個技術熱點大量信息在給人們帶來方便的同時也帶來了一大堆問題:信息過量,難以消化信息真假難以辨識信息安全難以保證信息形式不一致,難以統一處理第7頁,課件共100頁,創作于2023年2月數據爆炸但知識貧乏
隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。第8頁,課件共100頁,創作于2023年2月從商業數據到商業信息的進化
進化階段商業問題支持技術產品廠家產品特點數據搜集
(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBMCDC提供歷史性的、靜態的數據信息數據訪問
(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關系數據庫(RDBMS)結構化查詢語言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級提供歷史性的、動態數據信息數據倉庫決策支持
(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什么結論?”聯機分析處理(OLAP)多維數據庫數據倉庫PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動態的數據信息數據挖掘
(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法多處理器計算機海量數據庫PilotLockheedIBMSGI其他初創公司提供預測性的信息第9頁,課件共100頁,創作于2023年2月數據挖掘數據庫技術統計學高性能計算人工智能機器學習可視化數據挖掘是多學科的產物第10頁,課件共100頁,創作于2023年2月數據挖掘的應用電信
:流失銀行:聚類(細分),交叉銷售百貨公司/超市:購物籃分析
(關聯規則)保險:細分,交叉銷售,流失(原因分析)信用卡:
欺詐探測,細分電子商務:
網站日志分析稅務部門:偷漏稅行為探測警察機關:犯罪行為分析醫學:
醫療保健第11頁,課件共100頁,創作于2023年2月英國電信需要發布一種新的產品,需要通過直郵的方式向客戶推薦這種產品。。。。。。使直郵的回應率提高了100%電信第12頁,課件共100頁,創作于2023年2月GUS日用品零售商店需要準確的預測未來的商品銷售量,降低庫存成本。。。。。。通過數據挖掘的方法使庫存成本比原來減少了3.8%零售商店第13頁,課件共100頁,創作于2023年2月美國國內稅務局需要提高對納稅人的服務水平。。。。。。合理安排稅務官的工作,為納稅人提供更迅捷、更準確的服務稅務局第14頁,課件共100頁,創作于2023年2月銀行金融事務需要搜集和處理大量的數據,由于銀行在金融領域的地位、工作性質、業務特點以及激烈的市場競爭決定了它對信息化、電子化比其它領域有更迫切的要求。利用數據挖掘技術可以幫助銀行產品開發部門描述客戶以往的需求趨勢,并預測未來。美國商業銀行是發達國家商業銀行的典范,許多地方值得我國學習和借鑒。第15頁,課件共100頁,創作于2023年2月數據挖掘在銀行領域的應用美國銀行家協會(ABA)預測數據倉庫和數據挖掘技術在美國商業銀行的應用增長率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關系優化;風險控制等第16頁,課件共100頁,創作于2023年2月Mellon銀行使用數據挖掘軟件提高銷售和定價金融產品的精確度,如家庭普通貸款。美國Firstar銀行使用數據挖掘工具,根據客戶的消費模式預測何時為客戶提供何種產品。第17頁,課件共100頁,創作于2023年2月匯豐銀行需要對不斷增長的客戶群進行分類,對每種產品找出最有價值的客戶。。。。。。營銷費用減少了30%銀行第18頁,課件共100頁,創作于2023年2月基本概念區分數據挖掘與知識發現數據挖掘和數據倉庫數據挖掘與信息處理數據挖掘與聯機分析數據挖掘與人工智能、統計學第19頁,課件共100頁,創作于2023年2月數據挖掘和知識發現
數據挖掘(DataMining)從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與之相似的概念稱為知識發現。
知識發現(KnowledgeDiscoveryinDatabases)是用數據庫管理系統來存儲數據,用機器學習的方法來分析數據,挖掘大量數據背后隱藏的知識,稱為數據庫中的知識發現。第20頁,課件共100頁,創作于2023年2月數據挖掘和數據倉庫大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中。從數據倉庫中直接得到進行數據挖掘的數據有許多好處。數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉庫時已經清理過,那很可能在做數據挖掘時就沒必要再清理一次了,而且所有的數據不一致的問題都已經解決了。第21頁,課件共100頁,創作于2023年2月數據源數據倉庫各分公司數據集市分析數據集市數據挖掘數據集市第22頁,課件共100頁,創作于2023年2月
數據挖掘庫可能是數據倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數據庫。但如果數據倉庫的計算資源已經很緊張,那么最好還是建立一個單獨的數據挖掘庫。
當然為了數據挖掘也不必非得建立一個數據倉庫,數據倉庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然后把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數據挖掘,你可以把一個或幾個事務數據庫導到一個只讀的數據庫中,就把它當作數據集市,然后在它上面進行數據挖掘。
數據源數據挖掘庫第23頁,課件共100頁,創作于2023年2月數據挖掘與信息處理信息處理 信息處理基于查詢,可以發現有用的信息。但是這種查詢的回答反映的是直接存放在數據庫中的信息。它們不反映復雜的模式,或隱藏在數據庫中的規律。第24頁,課件共100頁,創作于2023年2月數據挖掘與聯機分析OLAP分析過程在本質上是一個演繹推理的過程,是決策支持領域的一部分。傳統的查詢和報表工具是告訴你數據庫中都有什么(whathappened),OLAP則更進一步告訴你下一步會怎么樣(Whatnext)和如果采取這樣的措施又會怎么樣(Whatif)。用戶首先建立一個假設,然后用OLAP檢索數據庫來驗證這個假設是否正確。數據挖掘在本質上是一個歸納推理的過程,與OLAP不同的地方是,數據挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型。數據挖掘和OLAP具有一定的互補性。在利用數據挖掘出來的結論采取行動之前,OLAP工具能起輔助決策作用。而且在知識發現的早期階段,OLAP工具用來探索數據,找到哪些是對一個問題比較重要的變量,發現異常數據和互相影響的變量。這都有助于更好地理解數據,加快知識發現的過程。第25頁,課件共100頁,創作于2023年2月數據挖掘與人工智能、統計學數據挖掘利用了人工智能和統計分析的進步所帶來的好處。這兩門學科都致力于模式發現和預測。數據挖掘不是為了替代傳統的統計分析技術。相反,它是統計分析方法學的延伸和擴展。大多數的統計分析技術都基于完善的數學理論和高超的技巧,預測的準確度還是令人滿意的,但對使用者的要求很高。而隨著計算機計算能力的不斷增強,我們有可能利用計算機強大的計算能力只通過相對簡單和固定的方法完成同樣的功能。一些新興的技術同樣在知識發現領域取得了很好的效果,如神經元網絡和決策樹,在足夠多的數據和計算能力下,它們幾乎不需人工干預就能自動完成許多有價值的功能。數據挖掘就是充分利用了統計學和人工智能技術的應用程序,并把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。第26頁,課件共100頁,創作于2023年2月數據挖掘與統計學數據挖掘分析海量數據許多數據庫都不適合統計學分析需要第27頁,課件共100頁,創作于2023年2月數據挖掘基本內容數據挖掘的定義數據挖掘的數據來源數據挖掘的過程數據挖掘的功能數據挖掘的過程模型數據挖掘的分類數據挖掘的主要問題第28頁,課件共100頁,創作于2023年2月數據挖掘的定義數據挖掘是從大量數據中提取或“挖掘”知識。與數據挖掘類似但稍有不同含義的術語有:從數據庫中發現知識(KnowledgeDiscoveryfrom/inDatabase,KDD)知識提取(Knowledgeextract)數據/模式分析(Data/Modelanalysis)。數據考古數據捕撈技術上的定義商業角度的定義
第29頁,課件共100頁,創作于2023年2月技術上的定義數據挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。第30頁,課件共100頁,創作于2023年2月商業角度的定義數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。
第31頁,課件共100頁,創作于2023年2月數據挖掘的定義(續)人們給數據挖掘下過很多定義,內涵也各不相同,目前公認的定義是由Fayyad等人提出的。所謂基于數據庫的知識發現(KDD)是指從大量數據中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。第32頁,課件共100頁,創作于2023年2月數據挖掘的數據來源關系數據庫數據倉庫事務數據庫第33頁,課件共100頁,創作于2023年2月高級數據庫系統和高級數據庫應用面向對象數據庫空間數據庫時間數據庫和時間序列數據庫文本數據庫和多媒體數據庫異種數據庫WWW第34頁,課件共100頁,創作于2023年2月數據挖掘過程數據挖掘是一個反復迭代的人機交互處理過程。該過程需要經歷多個步驟,并且很多決策需要由用戶提供。
從宏觀上看,數據挖掘過程主要由三個部分組成,即數據整理、數據挖掘和結果的解釋評估。
第35頁,課件共100頁,創作于2023年2月(1)定義商業問題要想充分發揮數據挖掘的價值,必須要對目標有一個清晰明確的定義,即決定到底想干什么。否則,很難得到正確的結果。(2)建立數據挖掘庫
數據準備工作大概要花去整個數據挖掘項目的50%-90%的時間和精力。一般來說,直接在公司的數據倉庫上進行數據挖掘是不合適的,最好建立一個獨立的數據集。
建立數據挖掘庫可分成如下幾個部分:a)數據收集b)數據描述c)選擇第36頁,課件共100頁,創作于2023年2月d)數據質量評估和數據清理e)合并與整合f)構建元數據g)加載數據挖掘庫h)維護數據挖掘庫(3)分析數據數據分析的目的:是找到對預測輸出影響最大的數據字段,并決定是否需要定義導出字段。(4)準備數據這是建立模型之前的最后一步數據準備工作??煞殖?個部分:a)選擇變量;b)選擇記錄;c)創建新變量;d)轉換變量。第37頁,課件共100頁,創作于2023年2月(5)建立模型對建立模型來說要記住的最重要的事是它是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對你的商業問題最有用。為了保證得到的模型具有較好的精確度和健壯性,需要一個定義完善的“訓練—驗證”協議。有時也稱此協議為帶指導的學習。驗證方法主要分為:a)簡單驗證法b)交叉驗證法:首先把原始數據隨機平分成兩份,然后用一部分做訓練集另一部分做測試集計算錯誤率,做完之后把兩部分數據交換再計算一次,得到另一個錯誤率,最后再用所有的數據建立一個模型,把上面得到的兩個錯誤率進行平均作為最后用所有數據建立的模型的錯誤率。c)自舉法:是另一種評估模型錯誤率的技術。在數據量很小時尤其適用。與交叉驗證一樣模型是用所有的數據建立。第38頁,課件共100頁,創作于2023年2月(6)評價和解釋
a)模型驗證。模型建立好之后,必須評價其結果、解釋其價值。從測試集中得到的準確率只對用于建立模型的數據有意義。在實際應用中,隨著應用數據的不同,模型的準確率肯定會變化。更重要的是,準確度自身并不一定是選擇最好模型的正確評價方法。需要進一步了解錯誤的類型和由此帶來的相關費用的多少。
b)外部驗證。無論我們用模擬的方法計算出來的模型的準確率有多高,都不能保證此模型在面對現實世界中真實的數據時能取得好的效果。經驗證有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定。例如,在建立用戶購買模式的模型時,可能沒有考慮通貨膨脹的影響,但實施模型時通貨膨脹率突然由3%增加為17%,這顯然會對人們的購買意向產生重大影響,因此再用原來的模型來預測客戶購買情況必然會出現重大失誤。第39頁,課件共100頁,創作于2023年2月(7)實施
模型建立并經驗證之后,可以有兩種主要的使用方法:第一種方法,是提供給分析人員做參考,由他通過察看和分析這個模型之后提出行動方案建議。比如可以把模型檢測到的聚集、模型中蘊含的規則、或表明模型效果的圖表拿給分析人員看。另一種方法:是把此模型應用到不同的數據集上。模型可以用來標示一個事例的類別,給一項申請打分等。還可以用模型在數據庫中選擇符合特定要求的記錄,以用OLAP工具做進一步的分析。當提交一個復雜的應用時,數據挖掘可能只是整個產品的一小部分,雖然可能是最關鍵的一部分。例如,常常把數據挖掘得到的知識與領域專家的知識結合起來,然后應用到數據庫中的數據。在欺詐檢測系統中可能既包含了數據挖掘發現的規律,也有人們在實踐中早已總結出的規律。第40頁,課件共100頁,創作于2023年2月數據挖掘功能
數據挖掘任務有兩類:第一類是描述性挖掘任務:刻劃數據庫中數據的一般特性;第二類是預測性挖掘任務:在當前數據上進行推斷,以進行預測。第41頁,課件共100頁,創作于2023年2月概念/類描述:特征化和區分概念/類描述(class/conceptdescription):用匯總的、簡潔的、精確的方式描述每個類和概念。數據特征化(datacharacterization):是目標類數據的一般特征或特性的匯總。其中數據特征的輸出形式有:餅圖、條圖、曲線、多維數據立方體、多維表等。數據區分
(Datadiscrimination):是將目標類對象的一般特性與一個或多個對比類對象的一般特性比較。第42頁,課件共100頁,創作于2023年2月關聯分析(1)定義:關聯分析(associationanalysis):發現關聯規則,這些規則展示“屬性—值”頻繁地在給定數據集中一起出現的條件。關聯規則(associationrule):“XY”,即A1A2
AmB1B2
Bn關聯規則分為兩類:一類是“多維關聯規則”(multi-dimensionalassociationrule);另一類是“單維關聯規則”(single-dimensionalassociationrule)。(2)實例age(x,“20..29”)income(X,“20K..29K”)buys(X,“CD_player”)[support=2%,confidence=60%]第43頁,課件共100頁,創作于2023年2月(1)定義分類(classification):是找出描述并區分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象的過程。注:導出模型(或函數)是基于對訓練數據集(即其類標記已知的數據對象)的分析。(2)分類模型的導出方式分類規則(IF-THEN)、決策樹、數學公式、神經網絡等。(3)相關分析(relevanceanalysis)一般情況下,相關分析需要在分類和預測之前進行,它試圖識別對于分類和預測無用的屬性,且這些屬性應被排除。分類和預測第44頁,課件共100頁,創作于2023年2月(1)定義聚類(clustering):與分類和預測不同,它主要分析數據對象,而不考慮已知的類標記。一般情況下,訓練數據中不提供類標記,因為不知道從何開始。聚類可以用于產生這種標記。(2)聚類或分組的原則“最大化類內的相似性、最小化類間的相似性”對象的簇(聚類)的形成辦法為:使得在一個簇中的對象具有很高的相似性,而與其它簇中的對象很不相似。所形成的每個簇可以看作一個對象類,由它可以導出規則。聚類分析第45頁,課件共100頁,創作于2023年2月(1)定義孤立點(outlier):數據庫中的那些與數據的一般行為或模型不一致的數據對象。大部分數據挖掘方法將孤立點視為噪聲或異常而將其丟棄,然而,在一些實際應用中(如欺騙檢測、軍事情報分析等),罕見點事件可能比正常出現的那些更有趣。孤立點數據分析稱為孤立點挖掘(outliermining)。(2)孤立點的檢測方法第一種方法:統計試驗檢測方法。假定一個數據分布或概率模型,并使用距離度量,到其它聚類的距離很大的對象被視為孤立點。第二種方法:基于偏差點方法。通過考察一群對象主要特征上的差別識別孤立點。孤立點分析第46頁,課件共100頁,創作于2023年2月(1)定義數據演變分析(evolutionanalysis):描述行為隨時間變化的對象的規律或趨勢,并對其建模。演變分析包括時間相關數據的特征化、區分、關聯、分類或聚類,最主要有三種演化分析方法: a)時間序列數據分析 b)序列或周期模式匹配 c)基于類似性的數據分析演變分析第47頁,課件共100頁,創作于2023年2月數據挖掘過程模型是確保數據挖掘工作順利進行的關鍵。典型的過程模型有:(1)SPSS的5A模型——評估(Assess)、訪問(Access)、分析(Analyze)、行動(Act)、自動化(Automate)。(2)SAS的SEMMA模型——采樣(Sample)、探索(Explore)、修正(Modify)、建模(Model)、評估(Assess)。(3)跨行業數據挖掘過程標準CRISP-DM——目前CRISP-DM仍在建立之中。(4)此外,TwoCrows公司的數據挖掘過程模型,它與正在建立的CRISP-DM有許多相似之處。數據挖掘過程模型第48頁,課件共100頁,創作于2023年2月數據挖掘基本特征KDD和數據挖掘可以應用在很多領域中,它們具有如下一些公共特征:
海量數據集數據利用非常不足在開發知識發現系統時,領域專家對該領域的熟悉程度至關重要最終用戶專門知識缺乏
第49頁,課件共100頁,創作于2023年2月有效的知識發現系統為使知識發現系統更加有效,有幾個軟、硬件問題需要強調:
為使數據服務更加詳盡,必須研究基礎的體系結構、算法和數據結構。
解決存儲管理中的新問題,開發有效的存儲機制。高層次的查詢語言成為重要的研究課題。描述多維對象的可視化工具在知識表示中將起重要作用。第50頁,課件共100頁,創作于2023年2月數據挖掘的發展趨勢視頻和音頻數據挖掘科學和統計數據挖掘數據挖掘的應用探索可伸縮的數據挖掘方法數據挖掘與數據庫系統、數據倉庫和Web數據庫系統的集成數據挖掘語言的標準化可視化數據挖掘復雜數據類型挖掘的方法Web挖掘數據挖掘中的隱私保護與信息安全第51頁,課件共100頁,創作于2023年2月可視化數據挖掘數據可視化數據挖掘結果可視化數據挖掘處理過程可視化交互式的可視化挖掘第52頁,課件共100頁,創作于2023年2月數據可視化第53頁,課件共100頁,創作于2023年2月數據挖掘結果可視化第54頁,課件共100頁,創作于2023年2月數據挖掘過程可視化第55頁,課件共100頁,創作于2023年2月數據挖掘系統數據挖掘工具數據挖掘過程數據挖掘系統如何選擇數據挖掘系統數據挖掘系統發展趨勢第56頁,課件共100頁,創作于2023年2月數據挖掘工具目前,世界上比較有影響的典型數據挖掘系統有:SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的WarehouseStudioRuleQuestResearch公司的See5還有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。
第57頁,課件共100頁,創作于2023年2月數據挖掘過程步驟步驟名稱
描述
1數據倉庫DataWarehouse數據倉庫管理用于決策支持的數據。在該步驟內,數據從操作型系統以及第三方的數據源聚集、清洗、以及轉換到數據倉庫中,供決策分析使用。
2數據挖掘DataMining在這個步驟中,數據從數據倉庫抽取出來,用來產生預測模型或者規則集。該步驟可以自動化。
3預測模型PredictiveModeling在該步驟內,為了產生一個優化的模型,一個或多個預測模型被選擇或者聯合。這些預測模型可能從數據挖掘系統產生,也可能從統計模型中產生,或者通過第三方購買。4預測記分PredictiveScoring在這個步驟中,選擇的預測模型對操作型數據或者交易數據進行記分(score)
。
第58頁,課件共100頁,創作于2023年2月數據挖掘系統數據挖掘系統介紹數據挖掘系統實施策略數據挖掘系統接口第59頁,課件共100頁,創作于2023年2月數據挖掘系統介紹數據挖掘系統結構數據挖掘系統進展第60頁,課件共100頁,創作于2023年2月數據挖掘系統結構數據倉庫數據清洗和集成過濾數據庫數據庫或數據倉庫服務器數據挖掘引擎模式評價圖形用戶接口知識庫第61頁,課件共100頁,創作于2023年2月數據庫、數據倉庫或其他信息庫:這是一個或一組數據庫、數據倉庫、電子表格或其他類型的信息庫。可以在數據上進行數據清理和集成。數據庫或數據倉庫服務器:根據用戶的數據挖掘請求,數據庫或數據倉庫服務器負責提取相關數據。知識庫:這是領域知識,用于指導搜索,或評估結果模式的興趣度。第62頁,課件共100頁,創作于2023年2月數據挖掘引擎:這是數據挖掘系統基本的部分,由一組功能模塊組成,用于特征化、關聯、分類、聚類分析以及演變和偏差分析。模式評估模塊:使用興趣度度量,并與數據挖掘模塊交互,以便將搜索聚焦在有趣的模式上。圖形用戶界面:在用戶和數據挖掘系統之間通信,允許用戶與系統交互,指定數據挖掘具體任務。第63頁,課件共100頁,創作于2023年2月數據挖掘系統實施策略第一代數據挖掘系統,直接將需要挖掘的數據一次性調入內存,這些系統的成功依賴于團隊和數據的質量如果數據足夠大,并且頻繁的變化,這就需要利用數據庫或者數據倉庫技術進行管理,因此第二代數據挖掘系統是必須的。不幸的是,目前的數據倉庫設計是方便OLAP操作的,而不是數據挖掘應用。這意味著真正的第二代數據挖掘系統必須使用自己專門的數據管理系統,作為彌補目前數據庫及數據倉庫管理系統的缺陷,直到數據庫和數據倉庫廠商對合適的數據挖掘原語提供充分的支持。第二代數據挖掘系統應該能夠產生PMML或者類似PMML的開放格式,使得挖掘結果能夠與操作型系統集成。第64頁,課件共100頁,創作于2023年2月實施策略(續)如果使用多個預測模型,或者預測模型需要經常修改,那么應該選擇正在出現的第三代數據挖掘系統,以支持這些功能,當然第三代系統也能與數據庫或者數據倉庫集成。第三代數據挖掘系統和預測模型系統的一個重要的優點是由數據挖掘系統產生的預測模型能夠自動地被操作型系統吸收,從而與操作型系統中的預測模塊相聯合提供決策支持的功能。
目前在公司的日常營運中,移動計算越發顯得重要,第四代數據挖掘系統能夠在這兒起關鍵的作用。將數據挖掘和移動計算相結合是當前的一個研究領域。
第一代數據挖掘系統仍然未發展完全,第二代、第三代數據挖掘系統已經出現。目前未見到任何第四代數據挖掘系統的報導。第65頁,課件共100頁,創作于2023年2月數據挖掘系統接口第二代數據挖掘系統提供數據倉庫和數據挖掘系統之間的有效的接口
第三代系統另外還提供數據挖掘系統和預測模型系統之間的有效的接口
數據管理系統和數據挖掘之間的接口,可以作為如何標記合適的數據挖掘原語的一個研究問題。數據挖掘原語能夠在數據倉庫或者數據庫內部執行以改善數據挖掘系統的性能。PMML是數據挖掘系統與預測模型系統之間的一個標準接口。
第66頁,課件共100頁,創作于2023年2月如何選擇數據挖掘系統不同的數據挖掘系統相似性較小不同的功能模塊和方法處理的數據集不同第67頁,課件共100頁,創作于2023年2月如何選擇數據挖掘系統(續)數據類型(關系、文本、事務、時間序列、空間)系統問題(運行的操作系統)數據源(ODBC、多關系數據源)數據挖掘的功能和方法數據挖掘系統和數據庫或數據倉庫系統的結合可伸縮性(數據庫的大小和維度)可視化工具數據挖掘查詢語言和圖形用戶接口第68頁,課件共100頁,創作于2023年2月數據挖掘系統發展趨勢集成第二代、第三代、以及第四代數據挖掘和預測模型系統將與數據倉庫合并,以提供一個集成的系統來管理日常的商業過程。
嵌入另一方面,二、三、四代數據挖掘技術將不斷發展和成熟,能夠和各種應用集成,成為一種嵌入式的技術(embeddedtechnology)。
第69頁,課件共100頁,創作于2023年2月數據挖掘算法粗糙集聚類關聯規則決策樹模糊集神經網絡和支持向量機回歸分析第70頁,課件共100頁,創作于2023年2月聚類(Clustering)
聚類(Clustering)是將物理或抽象的對象集合分成多個組的過程,聚類生成的組稱為簇(Cluster),即簇是數據對象的集合。聚類就是要讓生成的簇內部的任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象間具有較高的相異度。
第71頁,課件共100頁,創作于2023年2月聚類分析從統計學的觀點看,聚類分析是對數據建模,從而簡化數據的一種方法,作為多元統計分析的主要分支之一,聚類分析已被研究了很多年,主要集中在基于距離和基于相似度的聚類方法。
從機器學習的觀點看,簇相當于隱藏模式,聚類是搜索簇的無監督學習過程。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。數據挖掘領域主要研究面向大型數據庫、數據倉庫的高效和實用的聚類分析算法。
第72頁,課件共100頁,創作于2023年2月聚類分析第73頁,課件共100頁,創作于2023年2月數據挖掘中的聚類分析數據挖掘關心聚類算法的如下特性:處理不同類型屬性的能力、對大型數據集的可擴展性、處理高維數據的能力、發現任意形狀簇的能力、處理孤立點或“噪聲”數據的能力、對數據順序的不敏感性、對先驗知識和用戶自定義參數的依賴性、聚類結果的可解釋性和實用性、基于約束的聚類等。
主要的數據挖掘聚類方法有:劃分的方法、層次的方法、基于密度的方法、基于網格的方法、基于模型的方法等。
第74頁,課件共100頁,創作于2023年2月1
SQLServer2005中的數據挖掘功能
1創建商業智能應用程序2SQLServer2005數據挖掘功能的優勢3SQLServer2005數據挖掘算法4可擴展性5SQLServer2005數據挖掘功能與商業智能集成6使用數據挖掘可以解決的問題第75頁,課件共100頁,創作于2023年2月21創建商業智能應用程序創建商業智能應用程序實際是利用數據挖掘的各種優勢,將其應用到整個數據輸入、集成、分析和報表過程中。數據挖掘并非是最終結果,它是整個過程的一部分,在集成、分析和報表的每個階段都起到一定的作用。商業智能應用程序的一個主要目標是讓每個人都可以使用數據挖掘模型。第76頁,課件共100頁,創作于2023年2月31創建商業智能應用程序SQLServer2005平臺采用集中的服務器存儲數據挖掘模型和結果,該平臺有利于創建智能應用程序。這些模型通常具有高度的專用性,且非常機密。SQLServer2005中數據挖掘功能的目標是構建具備以下特征的工具:簡單易用可提供一整套的功能可輕松嵌入到產品應用程序中緊密集成其他的SQLServerBI技術能夠擴展數據挖掘應用程序的市場第77頁,課件共100頁,創作于2023年2月41創建商業智能應用程序數據挖掘的模式:開發模型發現模型預測第78頁,課件共100頁,創作于2023年2月5
7.2SQLServer2005數據挖掘功能的優勢SQLServer2005挖掘功能與所有SQLServer產品實現了集成SQLServer2005數據挖掘工具將數據挖掘功能嵌入到整個過程中,可以實時運行,且結果可以發送到整合過程、分析過程或報表過程。第79頁,課件共100頁,創作于2023年2月6
2SQLServer2005數據挖掘功能的優勢
—易用性通過SQLServer2005,Microsoft努力將數據挖掘從博士們的實驗室中搬出來,使得負責設置和運行數據模型的開發人員和DBA、所有分析人員、決策者或者其他使用模型輸出的用戶都可以使用數據挖掘,而不需要具有任何專業知識。第80頁,課件共100頁,創作于2023年2月7
2SQLServer2005數據挖掘功能的優勢
—APISQLServer2005的數據挖掘功能具有一個API,使得應用程序非常簡單。利用API,無需了解每個模型的內部細節和工作原理,可從客戶端應用程序調用預測模型。訪問數據挖掘結果非常簡單,通過使用一種與SQL相似的語言即可(稱為DataMiningExtensionstoSQL或DMX)第81頁,課件共100頁,創作于2023年2月8
2SQLServer2005數據挖掘功能的優勢—可伸縮性SQLServer2005中最重要的數據挖掘功能是處理大型數據集的能力。SQLServer2005允許模型對整個數據集運行,從而消除了采樣方面的挑戰。第82頁,課件共100頁,創作于2023年2月9
2SQLServer2005數據挖掘功能的優勢—數據挖掘算法所有數據挖掘工具(包括MicrosoftSQLServer2005AnalysisServices)都采用了多種算法.AnalysisServices是可擴展的;第三方ISV(獨立軟件供應商)可以開發算法,并將所開發算法無縫地融入到AnalysisServices數據挖掘框架中。第83頁,課件共100頁,創作于2023年2月10
3SQLServer2005數據挖掘算法SQLServer2005中可以使用很多算法:決策樹關聯規則貝葉斯分類時序聚類時間序列神經網絡文本挖掘第84頁,課件共100頁,創作于2023年2月11
4可擴展性SQLServer2005包含了大量可以立即使用的算法SQLServer2005所使用的模型允許其他供貨商向數據挖掘引擎添加新模型。這些模型將與SQLServer2005提供的模型處于同等位置。第85頁,課件共100頁,創作于2023年2月12
5SQLServer2005數據挖掘功能與商業智能集成集成階段包括從異構數據源收集數據、傳輸數據并加載到一個或多個數據源中。數據挖掘工具與SQLServerIntegrationServices實現了集成。在數據移動和轉換階段,可以根據數據挖掘模型的預測結果來分析和修改數據。第86頁,課件共100頁,創作于2023年2月13
5SQLServer2005數據挖掘功能與商業智能集成---數據分析典型的數據挖掘工具將在構建數據倉庫后生成結果,這些結果獨立于在數據倉庫上完成的其他分析,可單獨進行分析并生成預測或標識關系。Microsoft工具與整個過程實現了集成。第87頁,課件共100頁,創作于2023年2月14
5SQLServer2005數據挖掘功能與商業智能集成---報表SQLServer2005實現了數據挖掘和報表的集成,可以通過簡單靈活并且可伸縮的方式向組織中的任何人提供預測結果。通過充分利用SQLServer2005ReportingServices,預測模型的結果通過將報表嵌入MicrosoftSharePointServices,可以輕松地部署到打印報表、MicrisoftOffice文檔或局域網中。第88頁,課件共100頁,創作于2023年2月15
6使用數據挖掘可以解決的問題
---構建挖掘模型創建應用程序過程中最為困難的一部分:模型的創建模型的訓練測試過程開發數據挖掘模型的最佳人選是同時具備業務和技術技能的人員。作為數據挖掘的初學者,應在構建原型模型的同時,計劃花費數周時間來研究數據、工具以及可供選擇的算法。第89頁,課件共100頁,創作于2023年2月16
6使用數據挖掘可以解決的問題---構建挖掘模型開發數據挖掘模型的過程包括以下內容:輸入數據集輸入字段數據挖掘算法算法在計算過程中所用到的參數第90頁,課件共100頁,創作于2023年2月17
6使用數據挖掘可以解決的問題---構建數據挖掘應用程序構建數據挖掘應用程序包括兩個步驟:開發數據挖掘預測查詢在數據挖掘應用程序中使用預測查詢第91頁,課件共100頁,創作于2023年2月18
6使用數據挖掘可以解決的問題
---DMX范例(3個)數據挖掘過程包括三個步驟,分別:創建數據挖掘模型訓練模型根據模型預測行為第92頁,課件共100頁,創作于2023年2月19
星型模式的例子圖2.4:Sales數據倉庫的星形模式在星形模式中,每維只用一個表表示,每個表包含一組屬性。第93頁,課件共100頁,創作于2023年2月20
雪花模式的例子圖2.5sales數據倉庫的雪花模式第94頁,課件共100頁,創作于2023年2月21
星座模式圖2.6sales和shipping數據倉庫的星座模式第95頁,課件共100頁,創作于2023年2月22
定義星型、雪花和星座的實例數據挖掘查詢語言(DMQL)可以用于說明數據挖掘任務。DMQL包括定義數據倉庫和數據集市的語言原語。說明其它數據挖掘任務的原語,如挖掘概念/類描述、關聯、分類等挖掘任務。數據倉庫和數據集市可以使用兩種原語定義:一種是方定義,一種是維定義。第96頁,課件共100頁,創作于2023年2月23
數據挖掘查詢語言DMQL:
語言原語方定義(事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)
definedimension<dimension_name>as
(<attribute_or_subdimension_list>)特殊情況(共享維表)
首先進行“立方體定義”
definedimension<dimension_name>as
<dimension_name_first_time>incube
<cube_name_first_time>第97頁,課件共100頁,創作于2023年2月24
用DMQL定義星型模式definecubesales_star[time,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 資金籌措策略試題及答案
- 門脈性肝硬化試題及答案
- 西醫臨床考試2024年熱點試題及答案
- 2024年江蘇徐州經濟技術開發區管理委員會招聘編制教師筆試真題
- 2024年安徽安慶職業技術學院招聘筆試真題
- 解析信息系統項目管理中的需求變更試題及答案
- 貨車司機接單測試題及答案
- 藥物監測系統的有效性分析試題及答案
- 規劃師應具備的基本能力分析試題及答案
- 舞蹈程度測試題及答案
- 《遙感導論》全套課件
- 希爾國際商務第11版英文教材課件完整版電子教案
- 《學弈》優質課一等獎課件
- 2023年6月大學英語四級考試真題(第1套)(含答案)
- 飛行器總體設計(二)
- 奧迪A7L汽車說明書
- 棲居之橋的現象學沉思-海德格爾的棲居之思(續)
- 鋼結構焊接施工方案最終版
- 圍絕經期婦女保健指導
- 談判藥品審核備案表
- 果蔬采摘機器人
評論
0/150
提交評論