工智能及專家系統敖志剛第6章數據挖掘與知識發現課件_第1頁
工智能及專家系統敖志剛第6章數據挖掘與知識發現課件_第2頁
工智能及專家系統敖志剛第6章數據挖掘與知識發現課件_第3頁
工智能及專家系統敖志剛第6章數據挖掘與知識發現課件_第4頁
工智能及專家系統敖志剛第6章數據挖掘與知識發現課件_第5頁
已閱讀5頁,還剩58頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、敖志剛 編制第6章 數據挖掘與知識發現 敖志剛 編制第6章 數據挖掘與知識發現 第6章 數據挖掘與知識發現61 數據挖掘的技術基礎611 數據挖掘的概念612 數據挖掘的功能和存在的主要問題613 數據挖掘成功案例62 數據挖掘的方法步驟和語言工具621 數據挖掘的方法622 數據挖掘語言623 數據挖掘的工具624 數據挖掘的流程 第6章 數據挖掘與知識發現63 數據挖掘系統的組構及管理策略631 數據挖掘系統的組成632 數據挖掘系統的架構633 數據挖掘管理系統64 數據挖掘的研究與發展641 數據挖掘系統的開發進展642 數據挖掘未來研究方向 61 數據挖掘的技術基礎 611 數據挖掘

2、的概念1. 技術的產生面對信息社會,人們積累的數據越來越多。激增的數據背后隱藏著許多重要信息,人們希望能對其進行更高層次的分析。目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。 2. 當前數據特點 數據規模巨大; 數據分布存儲; 數據來源廣; 數據特性未知; 數據包含不確定信息; 數據包含不安全信息; 數據日益增長。 3. 數據挖掘的定義數據挖掘DM(Data Mining)也稱為數據庫中的知識發現KDD(Knowledge Discover

3、y in Database) 。數據挖掘就是通過采用自動或半自動的手段,對數據進行一定的處理,從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,發現和提取有意義的、隱含在其中的、人們事先不知道的、但又是有效的、新穎的、潛在有用的、最終可被理解的信息和知識的過程。從另外一個方面來說,數據挖掘是從數據中自動地抽取模式、關聯、變化、異常和有意義的結構。與數據挖掘相近的同義詞有知識提取、數據融合、數據/模式分析、數據考古學、數據捕撈和信息收獲等等。此定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準

4、的知識,僅支持特定的發現問題。4. 數據挖掘基本概念的區分 數據挖掘與傳統分析方法傳統的數據分析如查詢、報表、聯機應用分析等數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識,所得到的信息應具有先未知,有效和可實用三個特征。即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。 數據挖掘和知識發現 知識發現被認為是從數據中發現有用知識的整個過程,是用數據庫管理系統來存儲數據,用機器學習的方法來分析數據,挖掘大量數據背后隱藏的知識。知識發現研究的問題有:定性知識和定量知識的發現;知識發現方法;知識發現的應用等。 數據挖掘和數據倉

5、庫 數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中(見圖6-1)。數據挖掘庫是數據倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數據庫。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然后把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。數據源數據挖掘庫數據源數據倉庫各分公司數據集市分 析數據集市數據挖掘數據集市圖6-1 數據挖掘庫從數據倉庫中得出圖6-2 數據挖掘庫從事務數據庫中得出 數據挖掘與信息處理 信息處理基于查詢,可以發現有用的信息。但是這種查詢的回答反映的是直接存放在數據庫中的信息。它們不反映復雜

6、的模式,或隱藏在數據庫中的規律。 數據挖掘與聯機分析(OLAP) OLAP分析過程在本質上是一個演繹推理的過程,是決策支持領域的一部分。傳統的查詢和報表工具是告訴你數據庫中都有什么,OLAP則更進一步告訴你下一步會怎么樣和如果采取這樣的措施又會怎么樣。用戶首先建立一個假設,然后用OLAP檢索數據庫來驗證這個假設是否正確。數據挖掘在本質上是一個歸納推理的過程,與OLAP不同的地方是,數據挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型。數據挖掘和OLAP具有一定的互補性。在利用數據挖掘出來的結論采取行動之前,OLAP工具能起輔助決策作用。而且在知識發現的早期階段,OLA

7、P工具用來探索數據,找到哪些是對一個問題比較重要的變量,發現異常數據和互相影響的變量。 數據挖掘與人工智能、統計學 數據挖掘是統計分析方法學的延伸和擴展。大多數的統計分析技術都基于完善的數學理論和高超的技巧,預測的準確度還是令人滿意的,但對使用者的要求很高。數據挖掘就是充分利用了統計學和人工智能技術的應用程序,并把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。數據挖掘分析海量數據。許多數據庫都不適合統計學分析需要。 5. 數據挖掘系統的分類 根據數據模型分類,可以分為有關系的、事務的、面向對象的、對象-關系的、或數據倉庫的數據挖掘系統

8、。 根據所處理的數據的特定類型分類,可以分為有空間的、時間序列的、文本的、或多媒體的數據挖掘系統,或WWW 數據挖掘系統。 根據數據挖掘的功能,可以分為特征、區分、關聯、聚類、局外者、趨勢和演化分析、偏差分析、類似性分析等數據挖掘系統。 根據所挖掘的知識的粒度或抽象層進行區分,包括泛化知識(在高抽象層)、原始層知識(在原始數據層)或多層知識(考慮若干抽象層)。一個先進的數據挖掘系統應當支持多抽象層的知識發現。 5. 數據挖掘系統的分類 根據所用的技術分類:這些技術可以根據用戶交互程度(例如,自動系統、交互探查系統、查詢驅動系統),或所用的數據分析方法(例如,面向數據庫或數據倉庫的技術,機器學習

9、、統計、可視化、模式識別、神經網絡等等)描述。 根據挖掘任務可以分為:分類或預測模型發現、數據總結與聚類發現、關聯規則發現、序列模式發現、相似模式發現、混沌模式發現、依賴關系或依賴模型發現、異常和趨勢發現等。 根據挖掘對象可以分為:關系型數據庫挖掘、面向對象數據庫挖掘、空間數據庫挖掘、時態數據庫挖掘、文本數據源挖掘、多媒體數據庫挖掘、異質數據庫挖掘、遺產數據庫挖掘、Web數據庫挖掘。6. 數據挖掘的來源一般情況下,數據挖掘在關系數據庫、數據倉庫、事務數據庫、高級數據庫系統和信息庫四種數據庫上進行。 關系數據庫關系數據庫是表的集合,每個表都賦予一個唯一的名字。每個表包含一組屬性(列或字段),并通

10、常存放大量元組(記錄或行)。語義數據模型,如實體-聯系(ER)數據模型,將數據庫作為一組實體和它們之間的聯系進行建模。通常為關系數據庫構造ER模型。 數據倉庫數據倉庫是一個集成的、面向主題的、設計用于決策支持功能的數據庫的集合,數據中的每一個數據單元在時間上都是和某個時刻相關的。 一般來講,數據倉庫都很巨大,它存儲了幾百萬條記錄。在很多情況下,一個組織可能有幾個局部或部門的數據倉庫,這常常叫做數據集市。 數據倉庫包括以下的數據類別:過去細節數據;當前(新)細節數據;輕度綜合數據;高度綜合數據;元數據(數據目錄或向導)。 事務數據庫 事務數據庫由一個文件組成,其中每個記錄代表一個事務。通常,一個

11、事務包含一個唯一的事務標識號(trans_ID),和一個組成事務的項的列表(如,在商店購買的商品)。事務數據庫可能有一些與之相關聯的附加表,包含關于銷售的其它信息,如事務的日期、顧客的ID號、銷售者的ID號、銷售分店等等。 高級數據庫系統和信息庫 高級數據庫系統和信息庫包含以下6個方面: 空間數據庫; 時間數據庫和時間序列數據庫; 流數據; 多媒體數據庫; 面向對象數據庫和對象-關系數據庫; 異種數據庫和歷史(legacy)數據庫; 文本數據庫和萬維網(WWW)。7. 數據挖掘研究內容和知識類型主要研究內容基礎理論、各種挖掘算法和挖掘語言、數據倉庫、可視化技術、定性定量互換模型、智能計算和軟計

12、算在數據挖掘中的應用、知識表示方法、發現知識的維護和再利用、半結構化和非結構化數據中的知識發現、網絡數據挖掘以及對已有知識的維護和再利用等。所發現的類型:即廣義知識、概括性描述知識、關聯知識、分類知識、預測型知識、偏差型知識。 8. 數據挖掘的應用 電信 :客戶群體劃分、客戶流失性分析、客戶信用記分、篩選因特網上的新聞; 銀行:聚類(細分)、交叉銷售、數據庫營銷、背景分析; 百貨公司/超市:購物籃分析 (關聯規則)、預測準客戶的需要; 保險:細分,交叉銷售,流失(原因分析)、欺詐發現; 信用卡: 欺詐探測,細分; 電子商務:網站日志分析; 稅務部門:偷漏稅行為探測; 警察機關:犯罪行為分析;

13、醫學: 醫療保健。 6.1.2 數據挖掘的功能和主要問題1. 數據挖掘的功能 自動預測趨勢和行為。如市場預測、預報破產等。 關聯分析。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。 聚類。數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術主要包括傳統的模式識別方法和數學分類學。 概念描述。就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。 偏差檢

14、測。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。2. 實施數據挖掘項目要考慮的問題 超大規模數據庫和高維數據問題; 數據丟失問題; 變化的數據和知識問題; 模式的易懂性問題; 非標準格式的數據、多媒體數據、面向對象數據處理問題; 與其他系統的集成問題; 網絡與分布式環境下的KDD問題; 個人隱私問題。 3. 數據挖掘存在的主要問題 數據挖掘技術和用戶界面問題。 在數據庫中挖掘不同類型的知識。 多個抽象層的交互知識挖掘。 結合背景知識。 數據挖掘查詢語言和特定的數據挖掘。

15、 數據挖掘結果的表示和顯示。 處理噪音和不完全數據。 模式評估興趣度問題。 3. 數據挖掘存在的主要問題 性能問題。 數據挖掘算法的有效性和可規模性。即對于大型數據庫,數據挖掘算法的運行時間必須是可預計的和可接受的。 并行、分布和增量挖掘算法:許多數據庫的大容量、數據的廣泛分布和一些數據挖掘算法的計算復雜性是促使開發并行和分布式數據挖掘算法的因素。這些算法將數據劃分成部分,這些部分可以并行處理,然后合并每部分的結果。此外,有些數據挖掘過程的高花費導致了對增量數據挖掘算法的需要。增量算法與數據庫更新結合在一起,而不必重新挖掘全部數據。3. 數據挖掘存在的主要問題 關于數據庫類型的多樣性問題: 關

16、系的和復雜的數據類型的處理:數據庫可能包含復雜的數據對象、超文本和多媒體數據、空間數據、時間數據、或事務數據。對于不同類型的數據,應該有不同的數據挖掘系統。 由異種數據庫和全球信息系統挖掘信息:從具有不同數據語義的結構的、半結構的、和無結構的不同數據源發現知識,對數據挖掘提出了巨大挑戰。Web 挖掘發現關于Web 連接、Web 使用和Web 動態情況的有趣知識,已經成為數據挖掘的一個非常具有挑戰性的領域。此外,超大規模數據庫和高維數據問題;數據丟失問題;變化的數據和知識問題;模式的易懂性問題;非標準格式的數據、多媒體數據、面向對象數據處理問題;與其他系統的集成問題;網絡與分布式環境下的KDD問

17、題;個人隱私問題也是數據挖掘項目應該考慮的問題。 613 數據挖掘成功案例1. 雅虎數據挖掘成功案例 閱讀郵件和閱讀新聞的相關性一個例子雅虎電子郵箱。通過對用戶使用行為的意外模式分析,發現在每次會話中,人們閱讀郵件和閱讀新聞的行為之間存在很強的相關關系。研究人員把這個發現傳達給雅虎電子郵箱產品小組,他們首先想到的就是驗證這種關系的影響。 即時通信對雅虎通的使用情況進行了分析,結果發現,最重要的因素是讓用戶擴大他們的“好友列表”,至少增加5個新的好友。據此雅虎精心設計了相應的營銷活動,鼓勵用戶增加好友列表中的好友數。 雅虎首頁的搜索框一個簡單的例子就是發現,在雅虎的首頁上,把搜索框放在居中的位置

18、(而不是以前的左側)將提高用戶的用量。這個結果是首先發現Netscape瀏覽器的用戶比IE的用戶更多地使用了搜索功能。2. NBA數據挖掘成功案例今天,NBA的教練有了他們的新式武器:數據挖掘。大約20個NBA球隊使用了IBM公司開發的數據挖掘應用軟件Advanced Scout系統來優化他們的戰術組合。例如Scout就因為研究了魔術隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機會。Advanced Scout是一個數據分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲在NBA中心的服務器上的數據。每一場比賽的事件都被統計分類,按得分、助攻、失誤等等。時間標記讓教練非常容易地通過

19、搜索NBA比賽的錄像來理解統計發現的含義。例如:教練通過Advanced Scout發現本隊的球員在與對方一個球星對抗時有犯規紀錄,他可以在對方球星與這個隊員“頭碰頭”的瞬間分解雙方接觸的動作,進而設計合理的防守策略。3. 商業銀行數據挖掘成功案例例如,美國Firstar銀行等使用的Marksman數據挖掘工具,能讀取800到1000個變量并且給它們賦值,可以根據消費者的家庭貸款、賒帳卡、儲蓄、投資產品等,將客戶分類,進而預測何時向哪類客戶提供哪種產品 。Mellon銀行使用智能代理數據挖掘軟件提高銷售和定價金融產品的精確度,如家庭普通貸款。Mellon銀行銷售部在先期數據挖掘項目上使用智能代

20、理尋找信息,主要目的是確定現有Mellon用戶購買特定附加產品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測的模型。智能代理可幫助用戶增強其商業智能,如交往、分類或回歸分析,依賴這些能力,可對那些有較高傾向購買銀行產品、服務產品和服務的客戶進行有目的的推銷。4. 沃爾瑪的經典案例 一般看來,啤酒和尿布是顧客群完全不同的商品。但是沃爾瑪一年內數據挖掘的結果顯示,在居民區中尿布賣得好的店面啤酒也賣得很好。原因其實很簡單,一般太太讓先生下樓買尿布的時候,先生們一般都會犒勞自己兩瓶啤酒。因此啤酒和尿布一起購買的機會是最多的。這是一個現代商場智能化信息分析系統發現的秘密。這個故事被公認是商業領域數據

21、挖掘的誕生。 62 數據挖掘的方法步驟和語言工具 621 數據挖掘的方法 分析和預測方法。數據挖掘中大量采用統計分析方法,如描述統計、概率論、回歸分析(線性回歸、非線性回歸、多元回歸、泊松回歸、對數回歸)、時間序列分析、多元分析等。 粗糙集。把那些無法確認的個體都歸屬于邊界線區域,而這種邊界線區域被定義為上近似集和下近似集之差集。粗糙集理論主要特點在于它恰好反映了人們用粗糙集方法處理不分明問題的常規性,即以不完全信息或知識去處理一些不分明現象的能力,或依據觀察、度量到的某些不精確的結果而進行分類數據的能力。 621 數據挖掘的方法 模糊集。模糊集合論用隸屬程度來描述差異的中間過渡,是一種用精確

22、的數學語言對模糊性進行描述的方法。定義:論域X=x上的模糊集合A由隸屬函數A(x)來表征。其中A(x)在實軸的閉區間0,1中取值,A(x)的大小反映x對于模糊集合A的隸屬程度。 A(x)的值接近1,表示x隸屬于A的程度很高。 A(x)的值接近0,表示x隸屬于A的程度很低。特例,當A的值域取0,1閉區間的兩個端點,亦即0和1兩個值時,A便退化為一個普通的邏輯子集。隸屬函數也就退化為普通邏輯值。 621 數據挖掘的方法 聚類分析。聚類是對物理的或抽象的對象集合分組的過程。聚類生成的組為簇,簇是數據對象的集合。簇內部任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象間具有較高的相異度。 主要方

23、法有:劃分的方法、層次的方法、基于密度的方法、基于網格的方法、基于模型的方法。 關聯規則。它反映一個事物與其它事物之間的相互依存性和關聯性,如果兩個事物或者多個事物之間存在一定的關聯關系,那么其中一個事物就能夠通過其他事物預測到。 發現關聯規則需經如下兩步: 找出所有頻繁項; 由頻繁項集生成滿足最小信任度閾值的規則。 621 數據挖掘的方法 決策樹。它首先通過一批已知的訓練數據建立一棵決策樹,然后采用建好的決策樹對數據進行預測。常用的方法有分類及回歸樹法、卡方自動交互探測法等。 人工神經網絡。一種模仿人腦思考結構的數據分析模式,由輸入變量或數值中自我學習并根據學習經驗所得的知識不斷調整參數,以

24、期得到資料的模式。它可以對大量復雜的數據進行分析,并能完成對人腦或計算機來說極為復雜的模式抽取及趨勢分析。比較典型的學習方法是回溯法。通過將輸出結果同一些已知值進行一系列比較,加權值不斷調整,得到一個新的輸出值,再經過不斷的學習過程,最后該神經網絡得到一個穩定的結果。 多媒體數據挖掘。就是通過綜合分析多媒體數據的內容和語義,從大量多媒體數據中發現隱含的、有效的、有價值的、可理解的模式,得出事件的發展趨向和關聯關系。 621 數據挖掘的方法 數據可視化。可視化工具可以通過適當的圖形來表示數據,并支持多維數據的可視化,為數據分析人員提供很好的幫助。有些工具甚至提供動畫功能。 遺傳算法。它應用算法的

25、適應函數來決定搜索的方向,運用一些擬生物化的人工運算過程進行一代一代的周而復始的演化,求得一個最佳結果。 近鄰算法。依據“Do as your neighbors do”的原則,相鄰數據必然有相同的屬性或行為。Knearest鄰居方法的含義為:K表示某個特定數據的K個鄰居,可以通過K個鄰居的平均數據來預測該特定數據的某個屬性或行為。621 數據挖掘的方法 連機分析處理。簡稱OLAP,是基于大型數據庫或數據倉庫的信息分析過程和用戶接口部分,其目的是滿足決策支持或多維環境特定的查詢和報表要求。OLAP主要是對用戶當前及歷史數據進行分析,輔助決策。其典型的應用有對銀行信用卡風險的分析與預測等,主要是

26、進行大量的查詢操作,對時間的要求不太嚴格。 多層次數據概化歸納:數據庫中的數據和對象經常包含原始概念層上的詳細信息,將一個數據集合歸納成高概念層次信息的數據挖掘技術被稱為數據概化。概念匯總將數據庫中的相關數據由低概念層抽象到高概念層,主要有數據立方體和面向屬性兩種方法。622 數據挖掘語言 數據挖掘語言的研究經歷了兩個階段,第一個階段成果包括DMQL、MSQL和MINE RULE操作器等。第二階段主要包括數據挖掘組織協會(DMG)提出的預言模型標記語言PMML,以及微軟公司提出的OLE DB for Data Mining規范。 根據功能和側重點不同,可將數據挖掘分為三種類型:數據挖掘查詢語言

27、、數據挖掘建模語言、通用數據挖掘語言。第一階段的數據挖掘語言一般屬于查詢語言;PMML屬于建模語言;OLE DB for DM屬于通用數據挖掘語言。下面我們分別介紹其特點和功能。 1. 數據挖掘查詢語言 數據挖掘查詢語言DMQL(Data Mining Query Language)由數據挖掘原語組成,該原語用來定義一個數據挖掘任務。這些原語有以下幾個種類:數據庫一部分的規范以及用戶感興趣的數據集(包括感興趣的數據庫屬性或數據倉庫的維度);挖掘知識的種類;在指導挖掘過程中有用的背景知識;模式估值的興趣度測量;以及挖掘出的知識如何可視化表示。數據挖掘原語允許用戶在挖掘過程中從不同的角度或深度與數

28、據挖掘系統進行交互式地通信。1. 數據挖掘查詢語言 五種基本的數據挖掘原語定義: 任務相關數據原語。用戶感興趣的數據集,及表中感興趣的屬性。包括:數據庫或數據倉庫的名稱;數據庫表或數據倉庫的立方體;數據選擇的條件;相關屬性或維;數據分組定義。 被挖掘知識的種類原語。該原語指定被執行的數據挖掘的功能,分為五類:特征規則、辨別規則、關聯規則、分類/預言、聚集。 背景知識原語。用戶能夠指定的背景知識。包括:概念層次、對數據關系的用戶信任度。 興趣度測量原語。這個功能是將不感興趣的模式從知識中排除出去。低于用戶指定的支持度和可信度閾值的規則被認為是不感興趣的。興趣度測量原語包括:簡單性、確定性(比如:

29、可信度)、效用、新穎性等。 被發現模式的表示和可視化原語。這個原語定義被發現的模式顯示的方式,用戶能夠選擇不同的知識表示形式。包括:規則、表格、報告、圖表、圖形、決策樹和立方體、向下鉆入和向上累積。 1. 數據挖掘查詢語言 除了DMQL以外,還有一些其它數據挖掘查詢語言。比如基于SQL的多媒體查詢語言(MSQL)使用了類似SQL的語法和SQL原語(包括排序、分組、和其它原語),能在數據挖掘中可能產生大量的規則。 MSQL提供了一個稱作GetRule和SelectRule的原語,用于規則產生和規則選擇。它統一地對待數據和規則,因此,能夠在執行數據選擇,以及基于查詢的規則產生時進行優化工作,同時也

30、能在操縱或者查詢產生規則的集合時進行優化。其它在數據挖掘語言設計方面的研究工作包括MINE RULE操作器。它同樣遵循類似SQL的語法,是為挖掘關聯規則設計的規則產生查詢語言。 2. 數據挖掘建模語言 預言模型標記語言PMML(Predictive Model Markup Language)PMML主要目的是允許應用程序和聯機分析處理(OLAP)工具能從數據挖掘系統獲得模型,而不用獨自開發數據挖掘模塊。另一個目的是能夠收集使用大量潛在的模型,并且統一管理各種模型的集合。PMML是一種基于擴展性標識語言(XML)的語言,用來定義預言模型。通過使用XML解析器,應用程序能夠決定模型輸入和輸出的數

31、據類型、模型詳細的格式,并且按照標準的數據挖掘術語來解釋模型的結果。 PMML對于那些需要全部學習、部分學習和分布式學習的應用程序,這種語言被證明是非常有用的。特別地,PMML非常適合部分學習、元學習、分布式學習、以及相關領域。使用PMML進行模型定義由以下幾部分組成: 頭文件;數據模式;數據挖掘模式;預言模型模式;預言模型定義;全體模型定義;選擇和聯合模型和全體模型的規則;異常處理的規則。3. 通用數據挖掘語言 通用數據挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數據挖掘系統通信,進行交互和特殊的挖掘。 OLE DB for DM歸類成通用數據挖掘語言。 OLE

32、 DB for DM的規范包括創建原語以及許多重要數據挖掘模型的定義和使用。它是一個基于SQL預言的協議,為軟件商和應用開發人員提供了一個開放的接口。OLE DB for DM擴充了SQL語言語法,使得商業分析和開發人員只是調用單一確定的API(應用程序接口)函數即可實現數據挖掘功能,而不需要特殊的數據挖掘技能。 OLE DB for DM定義了重要的新的概念和特點,包括如下幾點: 數據挖掘模型DMM(Data Mining Model)。 預言聯接操作。 OLE DB for DM模式行集合。 623 數據挖掘的工具 1. 數據挖掘工具分類數據挖掘工具根據其適用的范圍分為兩類:專用數據挖掘工

33、具和通用數據挖掘工具。專用數據挖掘工具是針對某個特定領域的問題提供解決方案,采用的是特殊的算法,可以處理特殊的數據,實現特殊的目的,并作了優化;而通用數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見的數據類型,可以做多種模式的挖掘,挖掘什么和用什么來挖掘都由用戶根據自己的應用來選擇。 2. 數據挖掘工具的選擇根據以下幾點選擇數據挖掘工具: 數據挖掘的功能性。 數據挖掘工具的可伸縮性。 操作的簡易性。 數據挖掘工具的可視化。 數據挖掘工具的開放性。另外對數據挖掘工具還應考慮是否有多種模式、多種算法、多種校驗方法,是否有較好的數據選擇和轉換、較好的操作性能和數據存取能力、接口功能的好

34、壞等。 3. 數據挖掘工具介紹 QUESTQUEST是IBM公司Almaden研究中心開發的一個多任務數據挖掘系統,系統具有如下特點: 提供了專門在大型數據庫上進行各種開采的功能:關聯規則發現、序列模式發現、時間序列聚類、決策樹分類、遞增式主動開采等。 各種開采算法具有近似線性計算復雜度,可適用于任意大小的數據庫。 算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。 為各種發現功能設計了相應的并行算法。3. 數據挖掘工具介紹 MineSetMineSet是由SGI公司和美國Standford大學聯合開發的多任務數據挖掘系統。MineSet集成多種數據挖掘算法和可視化工具,幫助用戶直觀地

35、、實時地發掘、理解大量數據背后的知識。MineSet有如下特點: MineSet以先進的可視化顯示方法聞名于世。 支持多種關系數據庫。可以直接從Oracle、Informix、Sybase的表讀取數據,也可以通過SQL命令執行查詢。 多種數據轉換功能。 操作簡單、支持國際字符、可以直接發布到Web。3. 數據挖掘工具介紹 DBMinerDBMiner是加拿大SimonFraser大學開發的一個多任務數據挖掘系統。設計目的是把關系數據庫和數據開采集成在一起,以面向屬性的多級概念為基礎發現各種知識。DBMiner系統具有如下特色: 能完成多種知識的發現:泛化規則、特性規則、關聯規則、分類規則、演化

36、知識、偏離知識等。 綜合了多種數據開采技術:面向屬性的歸納、統計分析、逐級深化發現多級規則、元規則引導發現等方法。 提出了一種交互式的類SQL語言數據開采查詢語言DMQL。 能與關系數據庫平滑集成。 實現了基于客戶/服務器體系結構的Unix和PC(Windows/NT)版本的系統。 3. 數據挖掘工具介紹 Intelligent Miner由美國IBM公司開發的數據挖掘軟件Intelligent Miner是一種分別面向數據庫和文本信息進行數據挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。前者可以挖掘包含在數據

37、庫、數據倉庫和數據中心中的隱含信息,幫助用戶利用傳統數據庫或普通文件中的結構化數據進行數據挖掘。它已經成功應用于市場分析、詐騙行為監測及客戶聯系管理等;后者允許企業從文本信息進行數據挖掘,文本數據源可以是文本文件、Web頁面、電子郵件、Lotus Notes數據庫等等。3. 數據挖掘工具介紹 SAS Enterprise Miner這是一種在我國的企業中得到采用的數據挖掘工具,比較典型的包括上海寶鋼配礦系統應用和鐵路部門在春運客運研究中的應用。SAS Enterprise Miner是一種通用的數據挖掘工具,按照抽樣-探索-轉換-建模-評估的方法進行數據挖掘。可以與SAS數據倉庫和OLAP集成

38、,實現從提出數據、抓住數據到得到解答的端到端知識發現。3. 數據挖掘工具介紹 SPSS ClementineSPSS Clementine是一個開放式數據挖掘工具,不但支持整個數據挖掘流程,從數據獲取、轉化、建模、評估到最終部署的全部過程,還支持數據挖掘的行業標準-CRISP-DM。Clementine提供了多種圖形化技術,有助理解數據間的關鍵性聯系,指導用戶以最便捷的途徑找到問題的最終解決辦法。其它常用的數據挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的數據挖掘軟件Snob、Ashraf Azmy 的SuperQuery

39、 、WINROSA 、XmdvTool 等。624 數據挖掘的流程1. 數據挖掘環境人們可以對大型數據庫中先前未知的數據進行分析、研究、變換、篩選、過濾、綜合和預處理。可以通過可視化的工具對挖掘出的規律和模式進行解釋、評價和驗證,用戶可能要使用各類可視化工具來顯示有關數據 。數據庫數據挖掘工具可視化工具圖6-3 數據挖掘環境示意圖2. 數據挖掘的過程圖6-4 數據挖掘的基本過程和主要步驟3. 數據挖掘需要的人員 數據挖掘在不同的階段需要有不同專長的人員,他們大體可以分為以下三類: 業務分析人員:要求精通業務,能夠解釋業務對象,并根據各業務對象確定出用于數據定義和挖掘算法的業務需求。 數據分析人

40、員:精通數據分析技術,并對統計學有較熟練的掌握,有能力把業務需求轉化為數據挖掘的各步操作,并為每步操作選擇合適的技術。 數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據。 63 數據挖掘系統的組構及管理策略 數據挖掘系統的組成 數據清理 數據集成數據倉庫數據 庫數據庫或數據倉庫服務器數據挖掘引擎模式評估圖形用戶界面知識庫過濾圖6-5 數據挖掘的系統組成數據挖掘邏輯模型 挖掘系統管理器DB接口數據選擇挖掘引擎抽取算法評價發現描述知 識 庫數據庫分析員輸入領域知識發現圖6-6 數據挖掘邏輯模型數據挖掘系統的架構 用戶接口挖掘管理器用戶轉換器挖掘向導模式篩選各種形式的知識挖掘內核分類方法聚類方法關聯分析可視化方法其他數據挖掘方法模式表達與解釋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論