數據挖掘(第2版)PPT全套完整教學課件_第1頁
數據挖掘(第2版)PPT全套完整教學課件_第2頁
數據挖掘(第2版)PPT全套完整教學課件_第3頁
數據挖掘(第2版)PPT全套完整教學課件_第4頁
數據挖掘(第2版)PPT全套完整教學課件_第5頁
已閱讀5頁,還剩545頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘第1章緒論.pptx第2章數據處理基礎.pptx第3章分類與回歸.ppt第4章聚類分析.ppt第5章關聯規則.ppt第6章離群點挖掘.ppt全套PPT課件1第1章緒論

引例數據挖掘技術使用背景

數據挖掘任務及過程

數據挖掘應用數據挖掘與隱私保護2引例

超市貨架的組織廣告精準投放客戶流失分析智能搜索入侵檢測3超市貨架的組織——“啤酒與尿布”

貨架的組織會影響商品的銷售!超市商品按什么原則擺放?尿布與啤酒被擺在一起。為什么?原來,美國的婦女通常在家照顧孩子,所以她們經常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這種現象就是賣場中商品之間的關聯性,研究“啤酒與尿布”關聯的方法就是購物籃分析,購物籃分析是沃爾瑪秘而不宣的獨門武器,購物籃分析可以幫助超市在銷售過程中找到具有關聯關系的商品,并以此獲得銷售收益的增長!關聯銷售!4網上購物——“定向營銷”(廣告投放)

隨著Web2.0應用的推廣,網絡社區服務SNS(SocialNetworkService)已成為互聯網關注的熱點。通過挖掘網絡中潛在的社區人群,企業可以更好地搜索潛在消費者和傳播對象,將分散的目標顧客和受眾精準地聚集在一起,精確地把廣告投放給目標客戶,這不但有效降低單人營銷費用,而且可以減少對非目標客戶的干擾,提高廣告的滿意度,最終實現網絡廣告投放策略的真正價值。5客戶流失分析

在激烈競爭的市場,往往采取名目繁多的促銷活動和層出不窮的廣告宣傳來吸引新客戶、留住老客戶;研究發現:發展一個新客戶比保持一個老客戶的費用要高出5倍以上。客戶流失分析是以客戶的歷史消費行為數據、客戶的基礎信息、客戶擁有的產品信息為基礎,通過研究綜合考慮流失的特點和與之相關的多種因素,以此建立可以在一定時間范圍內預測客戶流失傾向的預測模型,以便對流失進行預測、并對流失的后果進行評估

6信息檢索——“智能搜索”

Web信息檢索,即搜索引擎,是能有效解決通過網絡來快速發現有用信息的重要工具。傳統的搜索引擎(百度、Google、Bing、搜搜等),在用戶輸入關鍵詞進行查詢后,返回的是成千上萬的相關結果,往往需要用戶花費大量時間瀏覽與選擇,不能滿足用戶快速獲取信息的愿望。因此大量學者以及研究人員開始研究行業化、個性化、智能化的第三代搜索引擎。

7入侵檢測隨著互聯網的發展,各種網絡入侵和攻擊工具、手段也隨著出現,使得入侵檢測成為網絡管理的重要組成部分。入侵可以定義為任何威脅網絡資源(如用戶賬號、文件系統、系統內核等)的完整性、機密性和可用性的行為。目前,大多數商業入侵檢測系統主要使用誤用檢測策略,這種策略對已知類型的攻擊通過規則可以較好地檢測,但對新的未知攻擊或已知攻擊的變種則難以檢測。新的網絡攻擊或已知攻擊的變種可以通過異常檢測方法來發現,異常檢測通過構建正常網絡行為模型(稱為特征描述),來檢測與特征描述嚴重偏離的新的模式。這種偏離可能代表真正的入侵,或者僅是需要加入特征描述的新行為。異常檢測主要的優勢是可以檢測到以前未觀測到的新入侵。與傳統的入侵檢測系統相比,基于數據挖掘的入侵檢測系統通常更精確,需要更少的專家的手工處理。81.1數據挖掘技術使用背景9時代的挑戰、市場的需求

隨著通信、計算機、網絡、傳感器技術、數字化技術的快速發展,以及日常生活自動化技術的普遍使用,人們獲取數據、存儲數據變得越來越容易。我們正處在“大數據時代”,數以億計的人們,無時無刻、不知不覺地在各種場合生產大量數據,如超市POS機、自動售貨機、信用卡和借記卡、在線購物、自動訂單處理、電子售票、RFID(RadioFrequencyIdentification射頻識別)、客服中心、各種監控設備、社交媒體等。現象:“數據過剩”、“信息爆炸”與“知識貧乏”

苦惱:淹沒在數據中,難以制定合適的決策!

如何將海量的數據以極快的速度加以歸納、計算與分析,找到暗藏于這些數據中的規律也就是挖掘人們工作、生活和社會發展中的規律,挖掘人與自然界的規律,這就是數據資源的開發利用,是非常有價值的工作。

10

數據挖掘——商業的驅動

在強大的商業需求驅動下,商家們開始注意到有效地解決大容量數據的利用問題具有巨大的商機;學者們開始思考如何從大容量數據集中獲取有用信息和知識的方法。然而,面對高維、復雜、異構的海量數據,提取潛在的有用信息已經成為巨大的挑戰。面對這一挑戰,數據挖掘和知識發現(DMKD)技術應運而生,并顯示出強大的生命力。11

數據挖掘——科學計算、人工智能的驅動

外太空探索、氣象預報、基因數據分析、智慧城市、無人駕駛,......。12數據挖掘技術正在變成信息技術的核心之一;特別是大數據時代的來臨沖擊著傳統行業,包括社交媒體、零售業、電子商務、交通、教育、金融、醫療、工業制造、旅游、生物醫藥等行業,同時大數據也正在徹底改變人們的生活、學習和工作方式。131.2數據挖掘任務及過程1.2.1數據挖掘定義1.2.2數據挖掘任務1.2.3數據挖掘過程1.2.4數據挖掘對象1.2.5數據挖掘工具及其選擇14技術層面:數據挖掘就是從大量數據中,提取潛在有用的信息和知識的過程。商業層面:數據挖掘就是一種商業信息處理技術,其主要特點是對大量業務數據進行抽取、轉換、分析和建模處理,從中提取輔助商業決策的關鍵性數據。1.2.1數據挖掘定義15本質區別:數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先前未知、有效和實用三個特征。其主要目標就是提高決策能力,能在過去的經驗基礎上預言未來趨勢等。數據挖掘傳統數據分析方法(如查詢、報表、聯機應用分析等)?16數據挖掘與相關學科之間的關系數據挖掘是統計學、人工智能、機器學習、模式識別、數據庫等學科的交叉。MachineLearning/PatternRecognitionStatistics/

AIDataMiningDatabasesystems171.2.2數據挖掘任務預測任務根據其它屬性的值預測特定屬性的值,如分類、回歸、離群點檢測。描述任務尋找概括數據中潛在聯系的模式,如聚類分析、關聯分析、演化分析、序列模式挖掘。18

(1)分類(Classification)分析

分類分析,通過分析示例數據庫中的數據為每個類別做出準確的描述或建立分析模型或挖掘出分類規則,然后用此分類規則對其它數據庫中的記錄進行分類。

分類分析廣泛應用于用戶行為分析(受眾分析)、風險分析、生物科學等。垃圾郵件識別19

(2)聚類(Clustering)分析

“物以類聚,人以群分”。聚類分析技術試圖找出數據集中的共性和差異,并將具有共性的對象聚合在相應的類中。聚類可以幫助決定哪些組合更有意義,廣泛應用于客戶細分、定向營銷、信息檢索等等。通信行業的套餐設計20聚類與分類的主要區別

聚類與分類是容易混淆的兩個概念,聚類是一種無指導的觀察式學習,沒有預先定義的類。而分類問題是有指導的示例式學習,預先定義有類。分類是訓練樣本包含有分類屬性值,而聚類則是在訓練樣本中找到這些分類屬性值。聚類分類監督(指導)與否無指導學習(沒有預先定義的類)有指導學習(有預先定義的類)是否建立模型或訓練否,旨在發現空間實體的屬性間的函數關系。是,具有預測功能21(b)(a)(c)(d)例:撲克牌的劃分與垃圾郵件的識別之間的差異。撲克牌的劃分屬于聚類問題。在不同的撲克游戲中采用不同的劃分方式,圖1-2為十六張牌基于不同相似性度量(花色、點數或顏色)的劃分結果。圖1-2十六張牌基于不同相似性度量的劃分結果垃圾郵件的識別屬于分類問題,所有訓練用郵件預先被定義好類標號信息,即訓練集中的每封郵件預先被標記為垃圾郵件或合法郵件信息,需要利用已有的訓練郵件建立預測模型,然后利用預測模型來對未來未知郵件進行預測。22例:識別不同類型的植物VS給植物命名識別不同類型的植物屬于聚類問題。給植物命名屬于分類問題。23 (3)回歸(Regression)分析

回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種分析方法。其可應用于風險分析、作文自動評分等領域。分類與回歸的區別分類和回歸都有預測的功能,但是:分類預測的輸出為離散或標稱的屬性;回歸預測的輸出為連續屬性值;分類與回歸的例子:預測未來某銀行客戶會流失或不流失,這是分類任務;預測某商場未來一年的總營業額,這是回歸任務。24(4)關聯(Association)分析

關聯分析,發現特征之間的相互依賴關系,通常是從給定的數據集中發現頻繁出現的模式知識(又稱為關聯規則)。關聯分析廣泛用于市場營銷、事務分析等領域。(5)離群點(Outlier)檢測

離群點檢測就是發現與眾不同的數據。可應用于商業欺詐行為的自動檢測,網絡入侵檢測,金融欺詐檢測,反洗錢,犯罪嫌疑人調查,海關、稅務稽查等。25(6)演化(Evolving)分析

演化分析就是對隨時間變化的數據對象的變化規律和趨勢進行建模描述。如商品銷售的周期(季節)性分析。(7)序列模式(SequentialPattern)挖掘

序列模式挖掘是指分析數據間的前后序列關系,包括相似模式發現、周期模式發現等。其應用領域包括客戶購買行為模式預測、Web訪問模式預測、疾病診斷、網絡入侵檢測等。26(8)描述和可視化(DescriptionandVisualization)描述和可視化是對數據挖掘結果的表示方式。一般通過可視化工具進行數據的展現、分析、鉆取,將數據挖掘的分析結果更形象,深刻地展現出來。271.2.3數據挖掘過程數據挖掘和知識發現緊密相連,在認識數據挖掘過程前,先來了解知識發現這個概念。知識發現(KnowledgeDiscoveryinDatabase,KDD)是從數據中發現有用知識的整個過程,這個過程定義為:從數據中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。

28知識發現(KnowledgeDiscoveryinDatabase,KDD)從技術的角度看知識發現過程29知識發現的主要步驟:

數據清洗(datacleaning)。其作用是清除數據噪聲和與挖掘主題明顯無關的數據。數據集成(dataintegration)。其作用是將來自多數據源中的相關數據組合到一起。數據轉換(datatransformation)。其作用是將數據轉換為易于進行數據挖掘的數據存儲形式。數據挖掘(datamining)。其作用是利用智能方法挖掘數據模式或規律知識。模式評估(patternevaluation)。其作用是根據一定評估標準從挖掘結果篩選出有意義的相關知識。知識表示(knowledgepresentation)。其作用是利用可視化和知識表達技術,向用戶展示所挖掘的相關知識。301.2.4數據挖掘對象(1)車載信息服務數據(2)文本數據(3)時間數據和位置數據(4)RFID數據(5)智能電網數據(6)傳感器數據(7)遙測數據(8)社交網絡數據(9)時態數據和時間序列數據(10)流數據(11)多媒體數據311.2.5數據挖掘工具及其選擇挖掘軟件比較著名的商用數據挖掘軟件有IBMSPSSModeler、MicrosoftSQLServerAnalysisServices、OracleDM等,它們都能夠提供常規的挖掘過程和挖掘模式。Matlab,Excel(DatamininginExcel:XLMiner)等提供了數據挖掘模塊。開源數據挖掘工具有Weka,RapidMiner(YALE),OrangeJHepWork,KNIME,ARMiner等。Python!R!321.3數據挖掘應用數據挖掘的應用無處不在,有大量數據的地方就有數據挖掘的用武之地。數據挖掘技術應用很廣,應用較好的領域、行業有:金融保險業電信市場營銷分析醫學體育生物信息學智能交通等這里主要介紹在商業領域和計算機領域的應用。331.3數據挖掘應用1.3.1數據挖掘在計算機領域中的應用1.3.2數據挖掘在商業領域中的應用1.3.3數據挖掘在其它領域中的應用1.3.4數據挖掘技術的前景341.3.1數據挖掘在計算機領域中的應用(1)信息安全:入侵檢測,垃圾郵件的過濾

傳統的信息安全系統概括性差,只能發現模式規定的、已知的入侵行為,難以發現新的入侵行為。數據挖掘能夠對審計數據進行自動的、更高抽象層次的分析,從中提取出具有代表性、概括性的系統特征模式,以便減輕人們的工作量,且能自動發現新的入侵行為。同樣地,利用數據挖掘技術也可分析比較垃圾郵件與正常郵件的異同,建立垃圾郵件過濾模型,過濾無聊電郵和商業推銷等方面的垃圾郵件。35(2)互聯網信息挖掘

利用數據挖掘技術從與WWW相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。

互聯網信息挖掘可分為Web內容挖掘、Web使用挖掘、Web結構挖掘。36Web結構挖掘:挖掘Web上的鏈接結構,即對Web文檔的結構進行挖掘。通過Web頁面間的鏈接信息可以識別出權威頁面、安全隱患(非法鏈接)等。Web使用挖掘:通過對用戶訪問行為或Web日志的分析,獲得用戶的有用模式,建立用戶興趣模型。分析和發現Log日志中蘊藏的規律可以識別潛在客戶、跟蹤Web服務的質量以及偵探非法訪問的隱患等。Web內容挖掘:對Web頁面內容及后臺交易數據庫進行挖掘,Web內容挖掘與文本挖掘(TextMining)和Web搜索引擎(SearchEngine)等領域密切相關。37(3)自動問答系統

自動問答系統Q/A(automaticQuestionAnswering)采用自然語言處理技術,一方面完成對用戶疑問的理解;另一方面完成正確答案的生成。這些研究涉及到計算語言學、信息科學和人工智能學,是計算機應用研究的熱點之一,其核心是自然語言理解技術。

如:Lexxe

wolfrram

Baidu知道,維基百科(Wikipedia)等利用群體智慧來部分實現自動問答的功能。注:在2011年2月14日至16日舉行的有史以來首次廣義性人機智力大賽中,IBM超級電腦“沃森”(Watson)擊敗美國頗受歡迎的智力競賽節目Jeopardy中的兩位最成功的參賽者肯-詹寧斯(KenJennings)和布拉德-魯特(BradRutter)。智能客服

38(4)網絡游戲:網絡游戲外掛檢測、免費用戶到付費用戶的轉化在網絡游戲中,游戲外掛是對游戲運營商最嚴重的危害之一。所謂網絡游戲的外掛是指玩家利用游戲本身玩法的漏洞或通過作弊程序改變網絡游戲軟件。網絡游戲正式運營前會存在大量的注冊用戶,這些注冊用戶會在網絡游戲運行后存在很長一段時間。如何把這些注冊用戶轉化成付費客戶,真正為游戲運營商帶來收益呢?數據挖掘技術的應用使網絡游戲運營商能夠對注冊用戶采取差別化營銷,對正確的注冊用戶采用合適的營銷手段,從而提高市場營銷活動效果,使企業利潤得到最大化。391.3.2數據挖掘在商業領域中的應用數據挖掘技術可以應用到公司運營的方方面面,包括對公司部門經營情況的評估、內部員工的管理、生產流程的監管、產品結構優化與新產品開發、財務成本優化、市場結構分析、精準營銷和客戶關系的管理等。數據挖掘商業應用的目標是:公司通過大量的客戶行為數據的精準分析,更加高效地為用戶服務,來改善其市場、銷售和客戶支持運作。在商業領域中,典型的應用是商業智能。所謂商業智能(BusinessIntelligence,BI),是指能夠幫助企業確定客戶的特點,從而使企業能夠為客戶提供有針對性的服務,并對自身業務經營做出正確明智決定的工具。商業智能是目前企業界和軟件開發行業廣泛關注的一個研究方向。IBM建立了專門從事BI方案設計的研究中心,ORACLE、Microsoft等公司紛紛推出了支持BI開發和應用的軟件系統。商業智能技術的核心是數據挖掘,所能解決的典型商業問題包括:數據庫營銷(DatabaseMarketing)、客戶細分(CustomerSegmentation&Classification)、客戶背景分析(ProfileAnalysis)、交叉銷售(Cross-selling)、客戶流失分析(ChurnAnalysis)、客戶信用記分(CreditScoring)、欺詐檢測(FraudDetection)等。401.3.3其它領域中的應用在競技體育中的應用數據挖掘在生活中的應用生物信息或基因數據挖掘醫療保健行業的數據挖掘情報分析挖掘天文學工業過程控制、智能電網農業在社會治理中的應用……41數據挖掘技術的價值和前景。在對產業界具有深遠影響的大型IT公司里,數據挖掘技術發揮著重要作用,如Microsoft、Google、Yahoo、Baidu、Tencent等國內外著名IT公司包括IBM在內的世界上主要數據庫廠商,紛紛在數據挖掘領域加大投入,把數據挖掘功能集成到其產品中,以提高產品的競爭力。2009年10月2日,IBM成功收購了SPSSInc。1.3.4數據挖掘技術的前景42數據挖掘技術具有巨大價值和光明前景。有關學者撰文指出:門戶解決了Web0.5時代的信息匱乏;Google解決了Web1.0時代的信息泛濫;Fackbook解決了Web2.0時代的社交需求;未來是誰的十年?展望Web3.0時代,當高效的社交網絡趨于信息量爆炸,我們龐大的社交關系也需要一個“Google”來處理,那就是下一個十年,數據挖掘的十年,網絡智能的十年。2012年10月,《哈佛商業評論》公開報道“數據科學家是21世紀最性感的職業”。截止2021年6月,全國有674所高校開設有“數據科學與大數據技術”類似專業。海量數據的積累,數據在商業方面的價值成為企業未來發展的核心資源和重要支撐,如何去挖掘數據這座巨大而未知的礦藏,將是影響企業核心競爭力的關鍵因素。1.3.4數據挖掘技術的前景43機器學習與數據挖掘就業前景分析44數據挖掘不能干什么雖然數據挖掘具有廣泛應用,但它絕不是無所不能,首先數據挖掘僅僅是一個工具,而不是有魔力的權杖;其次數據挖掘得到的預言模型可以告訴你會如何(whatwillhappen),但不能說明為什么會(why);再者數據挖掘不能在缺乏指導的情況下自動地發現模型。451.4數據挖掘與隱私保護(1)數據挖掘技術的應用能夠為人們的生活提供便利、為政府的社會管理提供有效的支持、通過幫助公司更好地迎合顧客的需求來提高顧客的滿意度為企業增加收益,然而數據挖掘可能被濫用而涉及隱私問題。特別是在大數據的環境下,數據安全和隱私保護就成為重要的問題。隱私保護的主體是用戶個人的隱私信息。如果用戶的隱私信息無法得到有效保護,則可能給客戶的生活或者工作造成重大的影響。保障數據在采集、傳輸、利用和共享等各個環節安全的重要性不言而喻,個人隱私保護的安全合規性不容忽視。保護隱私的數據挖掘是數據挖掘的重要研究領域,對數據挖掘中的隱私保護做出反應,其目的是獲得有效的數據挖掘結果而不泄露底層的敏感數據。大部分保護隱私的數據挖掘都是用某種數據變換來保護隱私。461.4數據挖掘與隱私保護(2)2019年7月份,廣東省公安機關共監測發現490余款App存在超范圍收集用戶信息行為,存在超范圍讀取用戶通話記錄、短信內容,收集用戶通訊錄、位置信息,超權限使用用戶設備麥克風、攝像頭等突出安全問題。據安全情報供應商RiskBasedSecurity(RBS)的2019年Q3季度的報告,2019年1月1日至2019年9月30日,全球披露的數據泄露事件有5183起,泄露的數據量達到了79.95億條記錄!包括:智能家居公司歐瑞博數據庫泄露涉及超過20億條IoT日志,深網視界泄露250萬人的人臉數據,PACS服務器泄露中國近28萬條患者記錄,印度某公司泄露了約2.75億條詳細個人信息,美國金融公司Evite泄露1億客戶的信息,優衣庫泄露超過46萬名客戶的數據。471.4數據挖掘與隱私保護(3)在大數據環境下,可能會為個人隱私信息帶來以下問題:個人隱私信息泄露風險增加。無法做到真正的個人隱私保護。無法實現用戶匿名化。數據被攻擊的可能性增加。當前,互聯網行業對個人隱私的侵犯及對個人隱私數據的使用較為普遍。在利用大數據提高社會整體運行效率的同時,要防止數據濫用或非法使用。《民法典》與《個人信息保護法》等法律的實施將更好地保護個人隱私,在數據采集、處理過程中,我們也應遵守法律法規,合規使用數據。48小結

在信息爆炸的時代,我們將隨時隨地成為信息的接受者,散布在報紙、雜志、電視、廣播、網絡中的信息,良莠并存、真偽同在,有價值的信息淹沒在大量數據之中,我們該如何“借來一雙慧眼”,透過現象看本質,看個清楚明白呢?本章從實際應用場景引入了數據挖掘主題,對數據挖掘的理論及應用的概貌進行了介紹,從數據挖掘產生的背景、數據挖掘的任務和過程、數據挖掘的對象、數據挖掘的應用領域、數據挖掘技術的前景和隱私保護等方面展開了討論。49數據陷阱之“平均值”對于服從正態分布、均勻分布的變量來說,平均值和中位數幾乎相同。換句話說,在高斯法則生效的領域,平均值可以代表整體。但對于服從冪律分布的變量來說,平均值會偏向取值大的一端,明顯大于中位數。對于服從冪律分布的變量,若使用平均值來代表總體水平,會嚴重誤導讀者。當一個人希望影響公眾觀念時,或者是向其他人推銷廣告版面時,平均值便是一個經常被使用的詭計,有時出于無心,但更多的時候是明知故犯。數據是真實的,然而不妥的是遇到平均值時,并沒有先思考它是什么的平均,它包含了哪些對象,僅依據這些數據和事實就推斷出一個未經證實或錯誤的結論,進而影響了自身的判斷。50閱讀資料10CHALLENGINGPROBLEMSINDATAMININGRESEARCH.pdfTop10algorithmsindatamining.pdfTop10DataMiningMistakes.pdf51作業1.2,1.4,1.6,1.752第2章

數據處理基礎本章主要介紹對數據的探索分析、數據挖掘質量保障方法,包括數據特性分析與總體分布形態的了解、缺失數據的處理、數據變換、數據歸約、數據離散化及特征構造與特征選擇等,預先進行數據探索和適當的數據預處理是數據挖掘任務成功的必要條件。53第2章

數據處理基礎2.1數據2.2數據探索2.3數據預處理2.4相似性度量542.1數據

2.1.1數據及數據類型相關概念數據狹義:數字。廣義:數據對象及其屬性的集合,其表現形式可以是數字、符號、文字、圖像抑或是計算機代碼等等。屬性(也稱為特征、維或字段),是指一個對象的某方面性質或特性。一個對象通過若干屬性來刻畫。數據集數據對象的集合(同分布、同特征)55屬性包含電信客戶信息的樣本數據集案例客戶編號客戶類別行業大類通話級別通話總費用…N22011002518大客戶采礦業和一般制造業市話16352…業客戶批發和零售業市話+國內長途(含國內IP)27891…N22004895555商業客戶批發和零售業市話+國際長途(含國際IP)63124…3221026196大客戶科學教育和文化衛生市話+國際長途(含國際IP)53057…客戶房地產和建筑業市話+國際長途(含國際IP)80827…︰︰︰︰︰…對象56屬性類型描述例子操作分類的(定性的)標稱其屬性值只提供足夠的信息以區分對象。這種屬性值沒有實際意義。顏色、性別、產品編號眾數、熵、列聯相關。序數其屬性值提供足夠的信息以區分對象的序。成績等級(優、良、中、及格、不及格)、年級(一年級、二年級、三年級、四年級)中值、百分位、秩相關、符號檢驗。數值的(定量的)區間其屬性值之間的差是有意義的。日歷日期、攝氏溫度均值、標準差、皮爾遜相關比率其屬性值之間的差和比率都是有意義的。長度、時間和速度幾何平均、調和平均、百分比變差不同的屬性類型57數據集的特性維度(Dimensionality)指數據集中的對象具有的屬性個數總和。維歸約稀疏性(Sparsity)指在某些數據集中,有意義的數據非常少,對象在大部分屬性上的取值為0;非零項不到1%。文本數據集分辨率(Resolution)不同分辨率下數據的性質不同58數據集的類型數據集的類別記錄數據事務數據或購物籃數據數據矩陣基于圖形的數據帶有對象之間聯系的數據:萬維網具有圖形對象的數據:化合物結構有序數據時序數據或時態數據序列數據時間序列數據空間數據流數據59記錄數據事務數據(TransactionData)是一種特殊類型的記錄數據,其中每個記錄涉及一個項的集合。事務ID商品的ID列表T100Bread,Milk,BeerT200Soda,cup,Diaper……事務數據事例典型的事務數據如超市零售數據,顧客一次購物所購買的商品的集合就構成一個事務,而購買的商品就是項。這種類型的數據也稱作購物籃數據(MarketBasketData),因為記錄中的每一項都是一位顧客“購物籃”中購買的商品。60數據矩陣如果一個數據集簇中的所有數據對象都具有相同的數值屬性集,則數據對象可以看作多維空間中的點,其中每個維代表描述對象的一個不同屬性。數據集可以用一個m×n的矩陣表示,其中m行,一個對象一行;n列,一個屬性一列。61文本數據文檔用詞向量表示每個詞是向量的一個分量(屬性)每個分量的值是對應詞在文檔中出現的次數62圖形數據網頁鏈接化合物結構63有序數據時序數據或時態數據項/事件時序元素64有序數據基因組序列數據65有序數據空間溫度數據662.2數據探索對數據進行探查,以發現其主要特點,對其形成直觀認識,理解數據的結構和各變量的意義,包括數據質量檢查、描述性數據統計、探索各變量間的關系,在探索過程中可以應用可視化技術從中看出某些規律。672.2.1描述性統計分析數據統計又稱為匯總統計,用單個數或數的小集合來捕獲大的數據集的各種屬性特征。通常需要數據的中心趨勢和離散程度特征。中心趨勢度量包括均值(mean)、中位數(median)、眾數(mode)和中列數(midrange),而數據離散程度度量包括四分位數(quartiles)、四分位數極差(InterQuartilesRange,IQR)和方差(variance)等。68(1)數據的中心度量-1

數據集“中心”的最常用、最有效的數值度量是(算術)均值(mean)。設

x1,x2,…,

xN是N個值的集合,則該值集的均值定義為:69(1)數據的中心度量-2集合中每個值

與一個權值

相關聯。權值反映對應值的顯著性、重要性或出現頻率。在這種情況下,使用加權算術均值(weightedarithmeticmean):70(1)數據的中心度量-3截斷均值:指定0和100間的百分位數p,丟棄高端和低端(p/2)%的數據,然后用常規方法計算均值,所得的結果即是截斷均值。中位數是p=100%時的截斷均值,而標準均值是對應于p=0%的截斷均值。例:計算{1,2,3,4,5,90}值集的均值,中位數,中列數和p=40%的截斷均值.解:均值是17.5,中位數是3.5,中列數是45.5,p=40%時的截斷均值也是3.571(1)數據的中心度量-4中列數、中位數分別定義為:

如果有奇數個值,則中位數為中間值;如果有偶數個值,則中位數為中間兩個數的平均值。72(2)數據散布程度度量-1極差和方差是值集的散布度量,表明屬性值是否散布很寬,或者是否相對集中在單個點(如均值)附近。最簡單的散布度量是極差,即最大值和最小值之差假設屬性x具有m個值,其極差定義為:

range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定義如下:73(2)數據散布程度度量-2因為方差用到了均值,而均值容易被離群值扭曲,所以方差對離群值很敏感。更加穩健的值集散布估計方法:絕對平均偏差(absoluteaveragedeviation,AAD)中位數絕對偏差(medianabsolutedeviation,MAD)四分位數極差(interquartilerange,IQR)

74

(3)數據分布形態度量

數據分布形態度量指標包括偏度、峰度。偏度(skewness),是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征。定義上偏度是樣本的三階標準化矩。

圖2-2(1)正偏斜分布(2)負偏斜分布75

(3)數據分布形態度量

峰度(peakedness;kurtosis)又稱峰態系數。峰度表示分布的尾部與正態分布的區別,反應的是圖像的尖銳程度:峰度越大,表現在圖像上面是中心點越尖銳。在相同方差的情況下,中間一大部分的值方差都很小,為了達到和正太分布方差相同的目的,必須有一些值離中心點越遠,所以這就是所說的“厚尾”,反應的是異常點增多這一現象。峰度計算方法為:

圖2-3(1)峰度值為0(2)正峰度(3)負峰度762.2.2數據可視化

數據可視化分析是數據發現和探索過程中最重要的手段之一。數據可視化的主要方法是關于如何把數據從視覺上概括在一張圖內。從視覺角度把數據呈現出來,有助于輕松理解復雜數據的各個變量以及變量之間的相互關系。借助可視化手段,可以對數據有一個宏觀認識,同時能看清數據長遠的發展趨勢,可視化有助于探索變量之間的關系。數據可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。數據可視化與信息圖形、信息可視化、科學可視化以及統計圖形密切相關。當前,在研究、教學和開發領域,數據可視化乃是一個極為活躍而又關鍵的方面。“數據可視化”這條術語實現了成熟的科學可視化領域與較年輕的信息可視化領域的統一。

常見的數據可視化方式有:餅圖、散點圖、折線圖、柱形圖、雷達圖、地理圖、箱線圖。77772.2.3

辛普森悖論(1)辛普森悖論(Simpson'sParadox)由英國統計學家辛普森(E.H.Simpson)于1951年提出。當人們嘗試探究兩種變量是否具有相關性時,比如新生錄取率與性別,報酬與性別等,會對之進行分組研究。辛普森悖論就是在這種研究中,在某些前提下有時會產生的一種詭異現象,即在分組比較中都占優勢的一方,在總評中反而處于劣勢。782.2.3

辛普森悖論(2)案例1:關于兩種腎結石治療效果的數據比較單獨看治療效果方面的數據,A療法對治療兩種大小的腎結石的效果都更好,但是將數據合并后發現,B療法針對所有情況的療效更優。這個悖論可以用涉及相關專業知識的數據生成過程,或者說因果模型來解決。TreatmentStonesizeTreatmentATreatmentBSmallstonesGroup193%(81/87)Group287%(234/270)LargestonesGroup373%(192/263)Group469%(55/80)Both78%(273/350)83%(289/350)792.2.3

辛普森悖論(3)案例2:數據能證明一個觀點,又能證明其相反的觀點。這個例證展示了,辛普森悖論是如何證明兩個相反的政治觀點的。辛普森悖論也是政客們的常用伎倆。表2-4表明,美國在福特總統的1974~1978年的任期中,他對每個收入人群都進行了減稅,但此期間全國性的稅收額有明顯上漲。

19741978AdjustedGrossIncomeIncomeTaxTaxRateIncomeTaxTaxRateUnder$5,00041,651,6432,244,467.05419,879,622689,318.035$5,000to$9,999146,400,74013,646,348.093122,853,3158,819,461.072$10,000to$14,999192,688,92221,449,597.111171,858,02417,155,758.100$15,000to$99,999470,010,79075,038,230.160865,037,814137,860,951.159$100,000ormore29,427,15211,311,672.38462,806,15924,051,698.383Total880,179,427123,690,314

1,242,434,934188,577,186

OverallTaxRate

.141

.152802.2.3

辛普森悖論(4)案例3:高校錄取數據的理解一所美國高校的法學院和商學院,人們懷疑這兩個學院在招生時有性別歧視。下表給出了不同性別考生錄取情況統計數據。從表中來看,女生在兩個學院的錄取比率都較男生高。而將兩學院的數據匯總后,在總評中,女生的錄取比率反而比男生低,這就是辛普森悖論。我們應該采信哪個結論呢?學院性別錄取拒收總數錄取比例法學院男生8455315.10%女生5110115233.60%總數5914620528.78%商學院男生2015025180.10%女生92910191.10%總數2935935283.24%匯總男生2099530468.80%女50%總數35220555763.20%812.2.3

辛普森悖論(5)辛普森悖論的重要性在于它揭示了我們看到的數據并非全貌。我們不能滿足于展示的數字或圖表,我們需要考慮整個數據生成過程,考慮因果模型。

簡單地將分組數據相加匯總,是不能反映真實情況的。為了避免辛普森悖論的出現,就需要斟酌各分組的權重,并乘以一定的系數以消除因分組數據基數差異而造成的影響。當有多個差異大的類別的數據混合在一起時,對數據挖掘的結論可能需要多角度評估,需要從分組數據中深度分析。822.3數據預處理數據挖掘方法的效果受到源數據質量的直接影響。高質量的數據是進行有效挖掘的前提,高質量的決定必須建立在高質量的數據上。數據預處理的目的是提供干凈、簡潔、準確的數據,以達到簡化模型和提高算法泛化能力的目的,使挖掘過程更有效、更容易,提高挖掘效率和準確性。數據質量的檢測和糾正是數據挖掘前期非常重要的環節。83數據預處理的主要任務數據清理填寫空缺數據,平滑噪聲數據,識別、刪除孤立點,解決不一致性數據集成集成多個數據庫,數據立方體或文件數據變換規范化和特征構造數據歸約得到數據集的壓縮表示及特征選擇數據離散化通過概念分層和數據離散化來規約數據,對數值數據特別重要84數據預處理數據清理數據集成數據變換數據歸約臟數據“干凈”數據-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2…T2000A1A2A3…A126T1T3…T1456A1A3…A11585數據清理——為什么要清理數據?現實世界的數據是“臟的”不完整的:有感興趣的屬性缺少屬性值含噪聲的:包含錯誤的或是“孤立點”不一致的:在命名或是編碼上存在差異意義:數據清理的目的就是試圖填充缺失值、去除噪聲并識別離群點、糾正數據中的不一致值。86數據清理——缺失值數據并不總是完整的引起空缺值的原因設備異常與其它已有數據不一致而被刪除因為誤解而沒有被輸入的數據在輸入數據時,有些數據認為得不到重視而沒有被輸入對數據的改變沒有進行日志記載87數據清理——缺失值的處理方法忽略元組:當缺少類標號時通常這樣處理(在分類任務中)。除非同一記錄中有多個屬性缺失值,否則該方法不是很有效。忽略屬性列:如果該屬性的缺失值太多,如超過80%,則在整個數據集中忽略該屬性。人工填寫缺失值:通常情況下,該方法費時費力,并且當數據集很大或缺少很多值時,該方法可能行不通。自動填充缺失值:有三種不同的策略。策略一:使用一個全局常量填充缺失值,將缺失的屬性值用同一個常數替換。策略二:使用與給定記錄屬同一類的所有樣本的均值或眾數填充缺省值。策略三:用可能值來代替缺失值:可以用回歸、基于推理的工具或決策樹歸納確定。將模型集拆分成幾個部分。88數據清理——噪聲數據的平滑方法噪聲是測量變量的隨機錯誤或偏差。噪聲是測量誤差的隨機部分,包含錯誤或孤立點值。導致噪聲產生的原因有:數據收集的設備故障數據錄入過程中人的疏忽數據傳輸過程中的錯誤目前噪聲數據的平滑方法包括:分箱:分箱方法通過考察“鄰居”(即周圍的值)來平滑有序數據的值。聚類:聚類將類似的值組織成群或“簇”。回歸:讓數據適合一個函數來平滑數據。89數據平滑實例一組排序后的數據(單位:元):4,8,15,21,21,24,25,28,34劃分為等深的箱箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值進行平滑箱1:9,9,9(下同)用箱的邊界進行平滑箱1:4,4,15箱2:21,21,24箱3:25,25,3490特殊字段的處理有兩種極端的字段需要特殊處理:取值幾乎相同和幾乎都不同的字段。只有一個取值或幾乎只有一個取值的字段,包含的信息非常少量,對于數據挖掘目的而言,應該忽略這些字段。但在忽略這些字段之前,應該了解為什么會出現如此傾斜的分布、該例反映了關于商業的什么事情。每一行或幾乎每一行取不同值的分類屬性字段,這些字段可唯一(或非常接近)識別每一行(每位客戶),例如:客戶名字、地址、電話號碼、身份證號碼、學號、車牌號。這些字段不會在數據挖掘中被直接使用,但可能包含豐富的信息,如學號包含了入學年份和專業信息,這時需要從這些字段中提取重要特征作為衍生變量,數據挖掘者需借助領域知識發現這類信息并進行提取。91數據集成將兩個或多個數據源中的數據,存放在一個一致的數據存儲設備中。在數據集成時,有許多問題需要考慮,數據一致性和冗余是兩個重要問題。不同表中可能使用不同名稱來指示同一屬性,正如一個人有多個不同的別名或不同的人擁有相同的名字,這樣將導致數據的不一致或沖突。一個屬性是冗余的,如果它能由另一個表“導出”;屬性或維命名的不一致也可能導致數據集中的冗余。思考題:利用網上信息如何自動生成個人簡歷?92數據變換平滑:去除數據中的噪聲數據聚集:匯總,數據立方體的構建數據泛化:沿概念分層高上匯總規范化:將數據按比例縮放,使之落入一個小的特定區間(消除量綱的影響)最小-最大規范化Z-score規范化小數定標規范化屬性構造通過現有屬性構造新的屬性,并添加到數據集中數據離散化93數據變換——規范化最小-最大規范化Z-score規范化小數定標規范化94數據變換——特征構造特征提取(FeatureExtraction)由原始數據創建新的特征集映射數據到新的空間從不同視角提示重要和有趣的特征傅里葉變換(FourierTransform)小波變換(WaveletTransform)特征構造由一個或多個原始特征共同構造新的特征95數據變換——離散化與概念分層離散化通過將屬性域劃分為區間,減少給定連續屬性值的個數。區間標號可以代替實際的數據值。概念分層通過使用高層的概念(比如:老年,中年,青年)來替代底層的屬性值(比如:實際的年齡數據值)來規約數據概念分層可以用樹來表示,樹的每一個節點代表一個概念(比如:按地區劃分世界)96數據歸約從記錄和維度兩個方面減少數據量維歸約維度(數據特征的數目)歸約是指通過使用數據編碼或變換,得到原始數據的歸約或“壓縮”表示。如果原始數據可以由壓縮數據重新構造而不丟失任何信息,則該數據歸約是無損的。如果只能重新構造原始數據的近似表示,則該數據歸約是有損的。維規約的好處如果維度較低,許多數據挖掘算法效果會更好。維歸約使模型涉及更少的特征,因而可以產生更容易理解的模型。使用維歸約可以降低數據挖掘算法的時間和空間復雜度。97數據歸約——數據立方體聚集對數據進行匯總或聚集。例如,可以聚集電信客戶的日消費數據,計算月和年消費數據。通常,這一步用來為多粒度數據分析構建數據立方體。98數據歸約——抽樣抽樣是一種選擇數據對象子集進行分析的常用方法事先調查和最終的數據分析統計學使用抽樣是因為得到感興趣的整個數據集的費用太高、太費時間

數據挖掘使用抽樣是因處理所有的數據的費用太高、太費時間

99有效抽樣原理如果樣本是有代表性的,則使用樣本與使用整個數據集的效果幾乎一樣如果數據對象的均值是感興趣的性質,而樣本具有近似于原數據集的均值,則樣本是有代表性的

100數據歸約——抽樣用數據較小的隨機樣本表示大的數據集簡單隨機抽樣無放回抽樣隨著每個項被抽出,它被從構成總體的所有對象集中刪除有放回的抽樣對象被選中時不從總體中刪除分層抽樣特點總體由不同類別的對象組成每種類型的對象數量差別很大先對數據集進行分組:數據集D被劃分為互不相交的“層”,則可通過對每一層按一定比例簡單隨機選樣得到D的分層選樣利用聚類實現分層抽樣:將數據集D劃分成m個不相交的簇,再在聚類結果的簇上進行簡單隨機抽樣101案例8000個點 2000個點 500個點102聚類抽樣同分層抽樣的原理一樣103數據歸約——特征選擇特征選擇概念:從一組已知特征集合中選擇最具代表性的特征子集,使其保留原有數據的大部分信息,即所選特征子集可以像原來的特征全集一樣用來正確區分數據集的每個數據對象。通過特征選擇,一些和任務無關或是冗余的特征被刪除,從而提高數據處理的效率。目的:去除不相關和冗余的特征,降低時間空間復雜度,提高數據質量及數據泛化能力。理想的特征子集:每個有價值的非目標特征與目標特征強相關,而非目標特征之間不相關或是弱相關基本步驟:去掉與目標特征不相關的特征刪除冗余特征104特征選擇過程流程選擇的屬性停止標準評估驗證過程搜索策略特征子集屬性不滿足105特征選擇通過刪除不相干的屬性或維減少數據量屬性子集選擇找出最小屬性集,使得數據類的概率分布盡可能的接近使用所有屬性的原分布減少出現在發現模式上的屬性的數目,使得模式更易于理解啟發式(探索式)搜索方法逐步向前選擇逐步向后刪除向前選擇和向后刪除相結合判定歸納樹106探索性選擇方法d個屬性有2d個可能的子集逐步向前選擇由空屬性集開始,選擇原屬性集中最好的屬性,并將其添加入該集合,重復該步驟直到無法選擇出最優屬性或滿足一定閾值約束為止。逐步向后刪除由整個屬性集開始,每一步都刪除掉尚在屬性集中的最壞屬性。直到無法選擇出最差屬性為止或滿足一定閾值約束為止。向前選擇和向后刪除相結合每一步選擇一個最好屬性,并刪除一個最壞屬性可以使用一個臨界值來判定上述三種方法的結束條件判定歸納樹利用決策樹的歸納方法對初始數據進行分類歸納學習,獲得一個初始決策樹,所有沒有出現這個決策樹上的屬性均認為是無關屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個較優的屬性子集。107屬性子集選擇的貪心方法向前選擇向后刪除決策樹歸納初始屬性集:(A1,A2,A3,A4,A5,A6)初始歸約集:{}=>{A1}=>{A1,A4}=>歸約后的屬性子集:{A1,A4,A6}初始屬性集:(A1,A2,A3,A4,A5,A6)=>{A1,A3,A4,A5,A6}=>{A1,A4,A5,A6}=>歸約后的屬性子集:{A1,A4,A6}初始屬性集:(A1,A2,A3,A4,A5,A6)與決策樹建模相似108數據歸約——數據壓縮數據壓縮——用數據編碼或者變換,得到原始數據的壓縮表示。有損壓縮VS.無損壓縮無損(loseless)壓縮:可以不丟失任何信息地還原壓縮數據例如:字符串壓縮有廣泛的理論基礎和精妙的算法在解壓縮前對字符串的操作非常有限有損(lossy)壓縮:只能重新構造原數據的近似表示例如:音頻/視頻壓縮有時可以在不解壓整體數據的情況下,重構某個片斷兩種有損數據壓縮的方法:小波變換和主成分分析109主成分分析(PCA)找出新的屬性(主成分),這些屬性是原屬性的線性組合屬性之間相互正交的用于連續屬性的線性代數技術捕獲數據的最大變差

x2x1e1102.4相似性度量2.4.1屬性之間的相似性度量2.4.2對象之間的相似性度量111簡單數據對象之間的相似度和相異度屬性類別相異度相似度標稱的序數的S=1-d區間的或比率的相似度兩個對象相似程度的數值度量,兩對象越相似,它們的相似度就越高。相異度與相似度相反。

112連續屬性之間的相關度線性相關系數對于兩個連續特征(x,y),其相關度的計算公式:r的取值范圍在[-1,1],r的值越接近1或-1,表示兩特征的相關性越強,越接近于0,相關性越弱。不足:對于非線性的數據的相關性計算會存在偏差。113余弦相似度如果(文檔)d1

和d2

是兩(文檔)向量,則cos(d1,d2)=(d1

d2)/||d1||||d2||,

其中,表示向量點積,

||d||是向量d的長度.

例:

d1

=3205000200 d2=1000000102

d1

d2=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2=5||d1||=(3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5=6.481||d2||=(1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)

0.5

=(6)0.5=2.245

cos(d1,d2)=0.3150114離散屬性間的相關性計算對稱的不確定性離散型數據間相關性計算(互信息)特征x的信息熵已知變量y后x的條件信息熵信息增益互信息115數據對象之間的相異度——距離距離的性質非負性對稱性(有些距離定義不滿足這一條!)三角不等式(有些距離定義不滿足這一條!)相似度的性質:僅當x=y時,s(x,y)=1.0<=s<=1對稱性116閔可夫斯基(Minkowski)距離閔可夫斯基(Minkowski)距離x=1,城市塊(曼哈頓)距離x=2,歐幾里得距離x=∞,切比雪夫(Chebyshev)距離117Canberra/BrayCurtis距離

Canberra距離BrayCurtis距離118馬氏距離由印度統計學家Mahalanobis于1936年引入的考慮了屬性之間的相關性可以更準確地衡量多維數據之間的距離計算公式如下(為m×m的協方差矩陣)不足協方差矩陣難以確定計算量大不適合大規模數據集119Mahalanobis距離CovarianceMatrix:BACA:(0.5,0.5)B:(0,1)C:(1.5,1.5)Mahal(A,B)=5Mahal(A,C)=4120二值屬性二元數據相似性度量

M01=x取0并且y取1的屬性的個數 M10=x取1并且y取0的屬性的個數 M00=x取0并且y取0的屬性的個數 M11=x取1并且y取1的屬性的個數簡單匹配系數(SimpleMatchingCoefficient,SMC):SMC=值匹配的屬性個數/屬性個數 =(M11+M00)/(M01+M10+M11+M00)Jaccard系數 J=匹配的個數/不涉及0-0匹配的屬性個數

=(M11)/(M01+M10+M11)

121例子X=(1000000000)

Y=(0000001001)

M01=2(x取0并且y取1的屬性的個數)M10=1(x取1并且y取0的屬性的個數)M00=7(x取0并且y取0的屬性的個數)M11=0(x取1并且y取1的屬性的個數)SMC=(M11+M00)/(M01+M10+M11+M00)=(0+7)/(2+1+0+7)=0.7J=M11/(M01+M10+M11)=0/(2+1+0)=0

122符號、順序和比例數值屬性符號屬性變量對于符號變量,最常用的計算對象p和對象q之間差異程度的方法是簡單匹配方法,其定義如下:其中s表示對象p和對象q取值相同狀態的符號變量個數,M為符號變量總的狀態個數,M-s表示對象p和對象q取不同狀態的符號變量個數。123符號、順序和比例數值屬性順序變量在計算對象間的差異程度時,順序變量的處理方法與間隔數值變量的處理方法類似。涉及變量f的差異程度計算方法如下:第i個對象的f變量值記為Xif,變量f有個Mf有序狀態,利用等級1,2,…,Mf分別替換相應的Xif,得到相應的rif,。將順序變量做變換映射到區間[0,1]上。利用有關間隔數值變量的任一種距離計算公式來計算差異程度。124符號、順序和比例數值屬性比例數值變量在計算比例數值變量所描述對象間的距離時,有三種處理方法,它們是:將比例數值變量當做區間間隔數值變量來進行計算處理,這種方法不太好,因為非線性的比例尺度可能會被扭曲。將比例數值變量看成是連續的順序變量進行處理。利用變換(如對數轉換)來處理第i個對象中屬性f的值xif得到yif,將yif當作間隔數值變量進行處理。這里的變換需要根據具體定義或應用要求而選擇log或log-log或其它變換。相對來說這一方法效果最好。125符號、順序和比例數值屬性混合類型的變量計算具有混合類型變量對象之間差異程度的一種方法是將變量按類型分組,對每種類型的變量單獨進行聚類分析。另一種方法是將不同類型的變量組合在一個差異度矩陣中,把所有變量轉換到統一的區間[0,1]中.假設數據集包含m種不同類型的變量,對象p和q之間的差異度d(p,q)定義為:126對象之間的相似系數

可以通過一個單調遞減函數,將距離轉換成相似性度量,相似性度量的取值一般在區間[0,1]之間,值越大,說明兩個對象越相似。采用負指數函數將Euclidean距離轉換為相似性度量s,即采用取Euclidean距離的倒數,為了避免分母為0的情況,在分母上加1,即若距離在0~1之間,可采用與1的差作為相似系數,即:127小結在進行數據挖掘之前,需要了解、分析挖掘對象的特性,并進行相應的預處理,使之達到挖掘算法進行知識獲取所要求的最低標準。本章介紹了數據挖掘領域中的數據類型,以及每種數據類型的特點、數據的統計特征、數據可視化;重點介紹了數據預處理中的數據清理(缺失值和噪聲數據處理)、數據集成、數據變換(特征構造、數據泛化、離散化、規范化、數據平滑)、數據歸約(特征變換、特征選擇、抽樣)的主要方法及各種方法使用的前提;針對不同類型的數據對象,介紹了度量數據相似性和距離的方法。128數據陷阱之“幸存者偏差”幸存者偏差又叫“幸存者謬誤”,反駁的是一種常見邏輯謬誤,即只看到經過某種篩選之后的結果,卻沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息。“幸存者偏差”的統計概念來自于二戰期間英美軍方調查了作戰后幸存飛機上彈痕的分布,決定哪里彈痕多就加強哪里。“越是認真觀察眼前的真相,你離真相越遠。”耳聽不一定是真,眼見也不一定為實。我們需要打破慣性思維,躲開顯性證據,看到背后的隱性證據。129作業:2.5,2.6,2.11,2.13,2.15130第3章分類與回歸3.1分類概述3.2決策樹分類方法3.3貝葉斯分類方法3.4K-最近鄰分類方法3.5神經網絡分類方法3.6支持向量機3.7集成分類3.8分類問題拓展3.9分類模型的評價3.10回歸分析3.11綜合案例131分類與回歸是數據挖掘中應用極其廣泛的重要技術。分類的目的是利用已有觀測數據建立一個分類器來預測未知對象屬于哪個預定義的目標類,或者說分類就是利用訓練數據中學習到的規律來確定未知樣本的類別。回歸分析可以對預測變量和響應變量之間的聯系建模。在數據挖掘環境下,預測變量是描述樣本的感興趣的屬性,一般預測變量的值是已知的,響應變量的值是我們要預測的。當響應變量和所有預測變量都是連續值時,回歸分析是一個好的選擇。132分類與回歸的區別分類和回歸都有預測的功能,但是:分類預測的輸出為離散或標稱的屬性;回歸預測的輸出為連續屬性值;分類與回歸的例子:預測未來某銀行客戶會流失或不流失,這是分類任務;預測某商場未來一年的總營業額,這是回歸任務。1333.1分類概述134分類的步驟分類的任務是對數據集進行學習并構造一個擁有預測功能的分類模型,用于預測未知樣本的類標號。分類的過程描述如下:1)首先將數據集劃分為2部分:訓練集和測試集。2)第一步:對訓練集學習,構建分類模型。模型可以是決策樹或分類規則等形式。3)第二步:用建好的分類模型對測試集分類評估該分類模型的分類準確度及其它性能。4)最后,使用分類準確度高的分類模型對類標號未知的樣本數據進行分類。135分類的應用目前分類方法廣泛應用于各行各業,如:股票預測信用評估:劃分出交易是合法或欺詐醫療診斷:根據核磁共振的結果區分腫瘤是惡性還是良性的市場營銷圖像分類:根據星系的形狀對它們進行分類文本分類:根據電子郵件的標題和內容檢查出垃圾郵件,將新聞分類為金融、天氣、娛樂體育等……136數據挖掘中分類算法歸類分類模型的學習方法大體上主要有以下幾類基于決策樹的分類方法貝葉斯分類方法K-最近鄰分類方法神經網絡方法支持向量機方法集成學習方法……1373.2決策樹分類方法1383.2.1決策樹的基本概念決策樹(DecisionTree)是一種樹型結構,包括:決策節點(內部節點)、分支和葉節點三個部分。其中:決策節點代表某個測試,通常對應于待分類對象的某個屬性,在該屬性上的不同測試結果對應一個分支。葉節點存放某個類標號值,表示一種可能的分類結果。分支表示某個決策節點的不同取值。決策樹可以用來對未知樣本進行分類,分類過程如下:從決策樹的根節點開始,從上往下沿著某個分支往下搜索,直到葉結點,以葉結點的類標號作為該未知樣本的類標號。139決策樹分類例題演示訓練數據集決策樹模型outlooktemperaturehumiditywindyplaysunny8585nonosunny8090yesnoovercast8378noyesrain7096noyesrain6880noyesrain6570yesnoovercast6465yesyessunny7295nonosunny6970noyesrain7580noyessunny7570yesyesovercast7290yesyesovercast8175noyesrain7180yesno140應用模型測試數據Startfromtherootoftree.測試數據141測試數據應用模型測試數據142測試數據應用模型測試數據143測試數據應用模型測試數據144測試數據應用模型測試數據分配play屬性為:“yes”145決策樹的應用非常簡單。如何從訓練數據集構造決策樹,是3.2小節要討論的主要內容。圖3-1的構造過程將在3.2.4小節介紹。1463.2.2構建決策樹的要素決策樹在構建過程中需重點解決2個問題:(1)如何選擇合適的屬性作為決策樹的節點去劃分訓練樣本;(2)如何在適當位置停止劃分過程,從而得到大小合適的決策樹。1471.屬性“純度”度量方法決策樹根據數據“純度”來構建,如何量化屬性純度呢?純度有基于信息熵和基于Gini系數兩類度量方法。

假定S為訓練集,S的目標屬性C具有m個可能的類標號值,C={C1,C2,…,Cm},假定訓練集S中,Ci在所有樣本中出現的頻率為pi(i=1,2,3,…,m)。1481.屬性“純度”度量方法(續)

1491.屬性“純度”度量方法(續)

1501.屬性“純度”度量方法(續)

例:考慮下圖所示性別變量。一個班有40人,男女生各20人。現將其劃分為兩組,第一組:18個男生,4個女生;第二組2個男生,16個女生。按照性別計算分組前后:(1)單個節點熵和總的熵;(2)單個節點Gini系數和總的Gini系數。全班男生20人,女生20人第一組18個男生,4個女生第二組2個男生,16個女生151解:(1)對于信息熵對于劃分前單個節點的熵,計算如下:在這個例子中,男生和女生都是20個,各占一半,即p(男生)=p(女生)=0.5,將其代入上述公式中得:152劃分成兩組后,對于第一組有:對于第二組有:用劃分后兩個節點信息熵的平均表示劃分后總的熵,每個節點的權重為節點記錄的比例。因此劃分后總的熵為:153(2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論