




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘概論參考書1.數據挖掘導論,Pang-NingTan,MichaelSteinbach等著,人民郵電出版社.20212.數據挖掘:概念與技術(原書第2版),韓加煒等著,機械工業出版社.20073.數據挖掘原理與應用(第2版)--SQLServer2021數據庫,(美)JamieMacLennan,ZhaoHuiTang等著,清華大學出版社.20211.1數據挖掘開展簡述1.2對何種數據進行數據挖掘1.3數據挖掘的功能1.4數據挖掘結果的評估1.5數據挖掘系統分類1.6數據挖掘的研究重點1.1.1數據挖掘的開展動力
---需要是創造之母數據爆炸問題自動數據收集工具和成熟的數據庫技術使得大量的數據被收集,存儲在數據庫或其他信息庫中以待分析。數據豐富,而知識匱乏解決方法:數據倉庫技術和數據挖掘技術〔1〕數據倉庫(DataWarehouse)和在線分析處理(OLAP)〔2〕數據挖掘:在大量的數據中挖掘感興趣的知識〔規那么,規律,模式,約束〕1.1.3KDD階梯處理過程模型數據挖掘——知識挖掘的核心數據清洗與集成數據庫數據倉庫Knowledge任務相關數據選擇與轉換數據挖掘模式評估與表示KDD的主要步驟從KDD對數據挖掘的定義中可以看到當前研究領域對數據挖掘的狹義和廣義認識數據清理:去除數據噪聲和與挖掘主題明顯無關的數據數據集成:將來自多數據源中的相關數據組合在一起數據選擇:從DB中提取與分析任務相關的數據數據變換:將數據轉換為易于進行挖掘的存儲形式數據挖掘:選擇適當的算法來找到感興趣的模式或規律知識模式評估:根據一定的評估標準從挖掘結果篩選出有意義的模式知識表示:利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識典型數據挖掘系統的體系結構其它信息庫數據庫或數據倉庫效勞器數據挖掘引擎模式評估圖形用戶界面知識庫數據清理、集成和選擇萬維網數據倉庫數據庫一個典型的數據挖掘系統主要包含以下部件:數據庫、數據倉庫或其它信息庫數據庫或數據倉庫效勞器:根據用戶的相關請求讀取相關數據;知識庫:存放數據挖掘所需的領域知識,用于指導數據挖掘的搜索過程或用于幫助對挖掘結果的評估;數據挖掘引擎:完成特征化、關聯和相關分析、分類、預測、聚類分析、離群點分析等任務模式評估模塊:根據興趣度度量,協助數據挖掘模塊聚集挖掘更有意義的模式知識;可視化用戶界面:幫助用戶與數據挖掘系統本身進行溝通交流。并非所有的東西都是數據挖掘基于數據倉庫的OLAP系統
OLAP系統專注于數據的匯總,而數據挖掘系統可以對數據進行多種復雜的處理。機器學習系統,數據統計分析系統這些系統所處理的數據容量往往很有限。信息系統專注于數據的查詢處理。相比于上述系統,數據挖掘系統關注更廣的范圍,是一個多學科的融合1.2在何種數據上進行數據挖掘關系數據庫數據倉庫事務數據庫高級數據庫系統和信息庫空間數據庫時間數據庫和時間序列數據庫流數據多媒體數據庫面向對象數據庫和對象-關系數據庫異種數據庫和歷史(legacy)數據庫文本數據庫和萬維網(WWW)空間數據庫空間數據庫是指在關系型數據庫〔DBMS〕內部對地理信息進行物理存儲。空間數據庫中存儲的海量數據包括對象的空間拓撲特征、非空間屬性特征以及對象在時間上的狀態變化。常見的空間數據庫數據類型地理信息系統(GIS)遙感圖像數據醫學圖像數據數據挖掘技術的應用:通過空間分類和空間趨勢分析,引入機器學習算法,對有用模式進行智能檢索時間數據庫和時序數據庫時間數據庫和時序數據庫都存放與時間有關的數據。時間數據庫通常存放包含時間相關屬性的數據。時序數據庫存放隨時間變化的值序列。對時間數據庫和時序數據庫的數據挖掘,可以通過研究事物發生開展的過程,有助于揭示事物開展的本質規律,可以發現數據對象的演變特征或對象變化趨勢。流數據與傳統的數據庫技術中的靜態數據不同,流數據是連續的、有序的、變化的、快速的、大量的數據輸入的數據。主要應用場合網絡監控網頁點擊流股票市場流媒體…等等與傳統數據庫技術相比,流數據在存儲、查詢、訪問、實時性的要求等方面都有很大區別。多媒體數據庫多媒體數據庫實現用計算機管理龐大復雜的多媒體數據,主要包括包括圖形、圖象、聲音、視頻等等,現代數據庫技術一般將這些多媒體數據以二進制大對象的形式進行存儲。對于多媒體數據庫的數據挖掘,需要將存儲和檢索技術相結合。目前的主要方法包括構造多媒體數據立方體、多媒體數據庫的多特征提取和基于相似性的模式匹配。面向對象數據庫和對象-關系數據庫面向對象數據庫是面向對象技術和數據庫技術結合的產物,該技術對數據以對象的形式進行存儲,并在這個根底上實現了傳統數據庫的功能,包括持久性、并發控制、可恢復性、一致性和查詢數據庫的能力等。對象-關系數據庫基于對象-關系模型構造,該模型通過處理復雜對象的豐富數據類型和對象定位等功能,擴充關系模型。面向對象數據庫和對象-關系數據庫中的數據挖掘會涉及一些新的技術,比方處理復雜對象結構、復雜數據類型、類和子類層次結構、構造繼承以及方法和過程等等。異構數據庫和歷史(legacy)數據庫歷史數據庫是一系列的異構數據庫系統的集合,包括不同種類的數據庫系統,像關系數據庫、網絡數據庫、文件系統等等。有效利用歷史數據庫的關鍵在于實現不同數據庫之間的數據信息資源、硬件設備資源和人力資源的合并和共享。對于異構數據庫系統,實現數據共享應當到達兩點:一是實現數據庫轉換;二是實現數據的透明訪問。WEBSERVICE技術的出現有利于歷史數據庫數據的重新利用。文本數據庫和萬維網(WWW)文本數據庫存儲的是對對象的文字性描述。文本數據庫的分類無結構類型〔大局部的文本資料和網頁〕半結構類型〔XML數據〕結構類型〔圖書館的目錄數據庫〕萬維網(WWW)可以被看成最大的文本數據庫數據挖掘內容內容檢索WEB訪問模式檢索1.3數據挖掘任務通常,數據挖掘任務分為下面兩大類:預測任務。這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性一般稱目標變量或因變量,而用來預測的屬性稱呼明變量或自變量。描述任務。目標是導出概括數據中潛在聯系的模式〔相關、趨勢、聚類、軌跡和異常〕。我們將論述以下四種主要數據挖掘任務:預測建模〔predictivemodeling〕涉及以說明變量函數的方式為目標變量建立模型。有兩類預測建模任務:分類:用于預測離散的目標變量。例:預測某一個web用戶是否會在網上購書是分類任務,因為該目標變量是二值的。回歸:用于預測連續的目標變量。例:預測某股票的未來價格是回歸任務。兩項任務目標都是訓練一個模型,使目標變量預測值與實際值之間的誤差到達最小。例:預測花的類型考慮如下任務:根據是否屬于Setosa、Versicolour、Virginica這三類之一對鳶尾花〔Iris〕進行分類。給出150種花的花瓣寬度與花瓣長度的比照圖。花瓣寬度分成low、medium、high三類,分別對應于區間[0,0.75)、[0.75,1.75〕、[1.75,∞〕。花瓣的長度分成low、medium、high三類,分別對應于區間[0,2.5)、[2.5,5)、[5,∞〕。例:預測花的類型花瓣長度〔cm〕花瓣寬度(cm)花瓣寬度和花瓣長度為low蘊涵Setosa;花瓣寬度和花瓣長度為medium蘊涵Versicolour;花瓣寬度和花瓣長度為high蘊涵Virginica.盡管這些規那么不能對所有的花進行分類,但是它們對大多數花都能很好地進行分類。注意:根據花瓣寬度和花瓣長度,Setosa種類的花完全可以與Versicolour和Virginica種類的花分開;但是后兩類花在這些屬性上有一些重疊。關聯分析〔associationanalysis〕用來發現描述數據中強關聯特征的模式。所發現的模式通常用蘊涵規那么或特征子集的形式表示。由于搜索空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別一起訪問的Web頁面、市場營銷、理解地球氣候系統不用元素之間的聯系等。例:購物籃分析以下給出的事務是一家超市的銷售數據。事務ID商品12345678910{面包,黃油,尿布,啤酒}{咖啡,糖,小甜餅,鮭魚}{面包,黃油,咖啡,尿布,啤酒,雞蛋}{面包,黃油,鮭魚,雞}{雞蛋,面包,黃油}{鮭魚,尿布,啤酒}{面包,茶,糖,雞蛋}{咖啡,糖,雞,雞蛋}{面包,尿布,啤酒,鹽}{茶,雞蛋,小甜餅,尿布,啤酒}關聯分析可以用來發現大量顧客頻繁地同時購置的商品。例如,我們可能發現規那么{尿布}->{啤酒}。該規那么暗示購置尿布的顧客多半會購置啤酒。這種類型的規那么可以用來發現相關商品中可能的交叉銷售的時機。聚類分析〔clusteranalysis〕聚類分析旨在發現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類可用來對相關顧客分組、找出顯著影響地球氣候的海洋區域以及壓縮數據等。例:文檔聚類以下給出的新聞文章可以根據它們各自的主題分組。文章詞12345678Dollar:1,industry:4,country:2,loan:3,deal:2,government:2Machinery:2,labor:3,market:4,industry:2,work:3,country:1Job:5,inflation:3,rise:2,jobless:2,market:3,country:2,index:3Domestic:3,forecast:2,gain:1,market:2,sale:3,price2Patient:4,symptom:2,drug:3,health:2,clinic:2,doctor:2Pharmaceutical:2,company:3,drug:2,vaccine:1,flu:3Death:2,cancer:4,drug:3,public:4,health:3,director:2Medical:2,cost:3,increase:2,patient:2,health:3,care:1每篇文章表示為詞-頻率對(w,c)的集合,其中w是詞,而c是該詞在文章中出現的次數。在該數據集中,有兩個自然簇。第一個簇由前四篇文章組成,對應于經濟新聞,而第二個簇包含后面四篇文章,對應于衛生保健新聞。一個好的聚類算法應當能夠根據文章中出現的詞的相似性,識別這兩個簇。異常檢測〔anomalydetection〕異常檢測的目標是發現與大局部其他對象不同的對象。通常,異常對象被稱作離群點〔outlier〕,因為在數據的散布圖中,它們遠離其他數據點。異常檢測也稱偏差檢測,因為異常對象的屬性值顯著地偏離期望的或常見的屬性值。異常檢測也稱為例外挖掘,因為異常對象在某種意義上是例外的。異常檢測的應用包括檢測欺詐、網絡攻擊、疾病的不尋常模式、生態系統擾動等。1.4數據挖掘結果的評估一個數據挖掘系統在完成一個〔組〕挖掘算法之后,常常會獲得成千上萬的模式或規那么,其中只會有一小局部是有實際應用價值的。如何對挖掘結果進行有效地評估以便最終能夠獲得有價值的模式〔或規那么〕知識?這就給數據挖掘提出了許多需要解決的問題:問題1:使一個模式有價值的因素是什么?問題2:一個數據挖掘算法能否產生所有有價值的模式?問題3:一個數據挖掘算法能否只產生有價值的模式?問題1:興趣測度〔InterestingnessMeasures〕評估一個模式興趣度的標準它易于被人理解;對于新數據或測試數據能夠確定有效程度;具有潛在價值;新穎的模式興趣度的客觀和主觀度量客觀度量:基于所發現模式的結構和關于它們的統計,比方:支持度、置信度等等。主觀度量:基于用戶對數據的判斷。比方:出乎意料的、新穎的、可行的等等。問題2:數據挖掘算法的完全性期望數據挖掘算法能夠產生所有有價值的模式〔知識〕是不現實的。實際上一個搜索方法可以利用興趣測度來幫助縮小模式的探索范圍。因此通常只需要保證挖掘算法的完全性就可以了。關聯規那么的挖掘算法就是這樣的一個例子。問題3:數據挖掘算法的優化問題問題3涉及數據挖掘算法的最優化問題。一般當然希望數據挖掘算法僅挖掘有價值的模式〔知識〕,但這題一個較為棘手的最優化高效搜索問題,至今尚沒有好的解決方法。例:支持度-置信度客觀度量的局限性假定希望分析愛喝咖啡的愛喝茶的人之間的關系。收集一組人關于飲料偏愛的信息,并匯總在下表中:可以使用表中給出的信息來評估關聯規那么{茶}->{咖啡}。猛一看,似乎喜歡喝茶的人也喜歡喝咖啡,因為該規那么的支持度〔15%〕和置信度〔75%〕都相當的高。這個推論也許是可以接受的,但是所有的人中,不管他是否喝茶,喝咖啡的人的比例80%,而喝咖啡的飲茶都卻只占75%。這意味著,一個人如果喝茶,那么他喝咖啡的可能性由80%減至75%。因此,盡管規那么{茶}->{咖啡}有很高的置信度,但是它卻是一個誤導。1.5數據挖掘系統的分類
數據挖掘技術的多樣性,導致數據挖掘系統的多樣性。根據所挖掘的對象進行分類:
關系型數據庫挖掘;面向對象數據庫挖掘;空間數據庫挖掘;時態數據庫挖掘;文本數據庫挖掘;多媒體數據庫挖掘;異質數據庫挖掘;web數據挖掘等根據所挖掘的知識類型分類:挖掘關聯型知識;挖掘預測型知識;挖掘偏離型知識;挖掘廣義型知識;挖掘差異型知識;挖掘不確定性知識等根據所用的技術類型分類:機器學習方法;統計方法;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 推動雙減政策與教育質量雙提升方案
- 推動農業農村現代化的實施路徑
- 肉制品行業發展趨勢與市場前景解析
- 農機更新升級行動計劃
- 果蔬消毒柜市場發展動態與未來前景分析
- 物料需求計劃實現
- 銀行投資理財產品試題及答案2025年詳解
- 理財軟件的使用技巧試題及答案
- 2025年CFA考試新經濟環境試題及答案
- 數據驅動的生產決策計劃
- 油庫設計的畢設論文
- [水穩層]旁站監理記錄表(范本)√
- 小學四年級上冊數學課后訓練題:《數字編碼》
- 長城牌通用潤滑油、脂替代其他品牌產品清單
- API-682密封系統-中英文對照版
- 電動葫蘆出廠檢驗報告
- 挖機大中斗油封資料,液壓泵資料
- 技術開發部個人技能矩陣圖
- Hillstone設備密碼與配置恢復方法
- 二年級下冊語文教案第六單元部編版
- 廢氣處理工程施工方案模板
評論
0/150
提交評論