




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院胡建軍數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院1CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘2CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖2CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘3CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖3數(shù)據(jù)挖掘的對象簡單數(shù)據(jù)關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫復(fù)雜類型數(shù)據(jù)復(fù)雜對象、空間數(shù)據(jù)、多媒體數(shù)據(jù)、時間序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)等
挖掘技術(shù):基本挖掘技術(shù)的擴展 針對復(fù)雜數(shù)據(jù)類型的新技術(shù) 實施知識挖掘的方法4數(shù)據(jù)挖掘的對象簡單數(shù)據(jù)44復(fù)雜數(shù)據(jù)對象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉庫和OLAP工具用于多維分析的局限: 維———非數(shù)字數(shù)據(jù) 度量———聚集值復(fù)雜數(shù)據(jù)對象的概化及其概化數(shù)據(jù)的應(yīng)用復(fù)雜數(shù)據(jù)的組織及存儲方法類、類/子類對象:對象標識、屬性、方法5復(fù)雜數(shù)據(jù)對象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉庫和OLA5復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):集合、元組、列表、樹、記錄等及其組合;概化方法:保持原結(jié)構(gòu)不變,概化其屬性把原結(jié)構(gòu)扁平化,概化扁平化的結(jié)構(gòu)用高層概念或聚集匯總低沉結(jié)構(gòu)返回原結(jié)構(gòu)的類型或概貌6復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):66集合值集合值一般概化方法:將集合中的每個值概化為其對應(yīng)的更高級別的概念導(dǎo)出集合的一般特征(元素個數(shù)、區(qū)間、平均值、最大值等)示例:業(yè)余愛好{網(wǎng)球,曲棍球,國際象棋,小提琴,任天堂游戲
}概化:{體育,音樂,電子游戲}{體育(3),音樂(1),電子游戲(1)}7集合值集合值77列表值/序列值列表值/序列值類似于集合值屬性的概化,要求保持元素的次序。一般概化方法:將列表中的每個值概化為對應(yīng)的高層概念導(dǎo)出列表的一般特征(長度、元素類型、平均值、最大值等)8列表值/序列值列表值/序列值88空間和多媒體數(shù)據(jù)的概化聚集和近似計算空間數(shù)據(jù) 例:土地規(guī)劃多媒體數(shù)據(jù)圖像:尺寸、顏色、形狀、紋理、方位等音樂:音調(diào)、節(jié)拍、樂器等文本:摘要、關(guān)鍵詞等9空間和多媒體數(shù)據(jù)的概化聚集和近似計算99對象的概化對象標識符 沿類/子類層次結(jié)構(gòu)概化繼承特性 數(shù)據(jù)概化對直接數(shù)據(jù)與繼承數(shù)據(jù)同等對待方法方法本身不能概化,但是可以對方法導(dǎo)出的數(shù)據(jù)進行概化10對象的概化對象標識符1010CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘11CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖11空間數(shù)據(jù)庫挖掘空間數(shù)據(jù)庫及其一般特點存儲了大量與空間有關(guān)的數(shù)據(jù)包含拓撲/距離信息復(fù)雜的、多維的索引結(jié)構(gòu)訪問通過空間數(shù)據(jù)的方法,通常需要空間推理、地理計算、空間知識表示技術(shù)空間數(shù)據(jù)挖掘:要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫技術(shù)12空間數(shù)據(jù)庫挖掘空間數(shù)據(jù)庫及其一般特點1212空間數(shù)據(jù)庫挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計方法)的不足統(tǒng)計方法通常假設(shè)空間分布的數(shù)據(jù)間是統(tǒng)計上獨立的,但現(xiàn)實是空間對象間是相互關(guān)聯(lián)的;大部分統(tǒng)計模型只有具有相當(dāng)豐富領(lǐng)域知識和統(tǒng)計方面經(jīng)驗的統(tǒng)計專家才用得起來;統(tǒng)計方法不適用符號值,或不完整或非確定的數(shù)據(jù),對大規(guī)模數(shù)據(jù)庫其計算代價也十分昂貴。空間數(shù)據(jù)挖掘?qū)鹘y(tǒng)的空間分析方法加以擴展,重點解決其高效性,可伸縮性,與數(shù)據(jù)庫系統(tǒng)的緊密結(jié)合,改進與用戶的交互,以及新的知識的發(fā)現(xiàn)。
13空間數(shù)據(jù)庫挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計方法)的不足1313空間關(guān)聯(lián)分析
空間關(guān)聯(lián)規(guī)則形如:AB[s%,c%]其中A和B空間和非空間謂詞的集合,s%表示規(guī)則的支持度,c%表示規(guī)則的的可信度。例:Is_a(X,”school”)∧close_to(X,“sports_center”)?close_to(X,“park”)[0.5%,80%]此規(guī)則表明80%靠近體育中心的學(xué)校同時也靠近公園,并且有0。5%的數(shù)據(jù)符合這一規(guī)則。
14空間關(guān)聯(lián)分析空間關(guān)聯(lián)規(guī)則形如:AB14空間聚類方法
空間數(shù)據(jù)聚類是要在一個較大的多維數(shù)據(jù)集中根據(jù)距離的計算找出簇,或稠密區(qū)域。
15空間聚類方法空間數(shù)據(jù)聚類是要在一個較大的多維15空間分類和空間趨勢分析空間分類指分析空間對象導(dǎo)出與一定空間特征有關(guān)的分類模式,如郊區(qū),高速公路,河流的鄰接。空間趨勢分析處理的是另一類問題:根據(jù)某空間維找出變化趨勢。
例如,當(dāng)離城市中心越來越遠時,我們要分析經(jīng)濟形勢的變化趨勢,或離海洋越來越遠時,氣候與植物的變化趨勢。
16空間分類和空間趨勢分析空間分類指分析空間對象導(dǎo)出與一定空間特16CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘17CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖17多媒體數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫是指存儲和管理大量多媒體對象的數(shù)據(jù)庫,如音頻數(shù)據(jù),圖象數(shù)據(jù),視頻數(shù)據(jù),序列數(shù)據(jù),以及超文本數(shù)據(jù),包含文本,文本標記(textmarkup),和鏈接(linkage)。多媒體數(shù)據(jù)的相似搜索
主要考慮兩種多媒體標引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),主要是在圖象描述之上建立標引和執(zhí)行對象檢索,如關(guān)鍵字,標題,尺寸,創(chuàng)建時間等;(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖象內(nèi)容的檢索,如顏色構(gòu)成,質(zhì)地,形狀,對象,和小波變換等。多媒體數(shù)據(jù)的分類和預(yù)測分析
多媒體數(shù)據(jù)中的關(guān)聯(lián)規(guī)則挖掘
18多媒體數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫是指存儲和管理大量多媒體對象的數(shù)18CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘19CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖19時序數(shù)據(jù)庫和序列數(shù)據(jù)庫時序數(shù)據(jù)庫:由隨時間變化的序列或事件組成的數(shù)據(jù)庫等時間間隔測得的數(shù)據(jù)(regularintervals)時序數(shù)據(jù)庫是一種序列數(shù)據(jù)庫序列數(shù)據(jù)庫:由有序事件序列組成的數(shù)據(jù)庫可有時間標記,也可以沒有時間標記可以是時序數(shù)據(jù)庫,也可以不是。如WEB遍歷。20時序數(shù)據(jù)庫和序列數(shù)據(jù)庫時序數(shù)據(jù)庫:由隨時間變化的序列或事件組20時序數(shù)據(jù)例子Time-seriesplot21時序數(shù)據(jù)例子Time-seriesplot2121時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢分析
通過對趨勢,循環(huán),季節(jié)和非規(guī)則成分的運動的系統(tǒng)分析,使人們可以在較合理的情況下,制定出長期或短期的預(yù)測(即預(yù)報時序)
相似搜索
找出與給定查詢序列最接近的數(shù)據(jù)序列。子序列匹配(subsequencematching)是找出與給定序列相似的所有數(shù)據(jù)序列,整體序列匹配(wholesequencematching)是找出彼此間相似的序列。
例 如:對金融市場的分析(如股票數(shù)據(jù)分析),醫(yī)療診斷(如心電圖分析),和科學(xué)與工程數(shù)據(jù)庫(如能量消耗分析)等
22時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢分析2222時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequencepatternmining)是指挖掘相對時間或其它模式出現(xiàn)頻率高的模式。
周期分析(periodicityanalysis)
對周期模式的挖掘,即在時序數(shù)據(jù)庫中找出重復(fù)出現(xiàn)的模式。
例如:
季節(jié),潮汐,行星軌道,每日能源消耗,每日交通模式
23時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequence23CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘24CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖24文本數(shù)據(jù)庫和信息檢索(IR)文本數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù):它既不是完全無結(jié)構(gòu)的也不是完全結(jié)構(gòu)的。例如,一個文檔可能包含結(jié)構(gòu)字段,如標題,作者,出版日期,長度,分類,等等,也可能包含大量的非結(jié)果化的文本成分,如摘要和內(nèi)容。典型的信息檢索問題是基于用戶的輸入(如關(guān)鍵字或樣例文檔)定位相關(guān)的文檔。典型的信息檢索系統(tǒng)聯(lián)機圖書館目錄聯(lián)機文檔管理系統(tǒng)信息檢索與數(shù)據(jù)庫系統(tǒng)DB:并發(fā)控制、恢復(fù)、事務(wù)管理、更新IR:非結(jié)構(gòu)化文檔、基于關(guān)鍵字的近似搜索25文本數(shù)據(jù)庫和信息檢索(IR)文本數(shù)據(jù)庫2525文本檢索的基本度量查準率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments應(yīng)該被檢索到的26文本檢索的基本度量查準率:反映正確性RelevantRele26文本檢索的基本度量查準率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments實際被檢索到的27文本檢索的基本度量查準率:反映正確性RelevantRele27文本檢索的基本度量查準率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments28文本檢索的基本度量查準率:反映正確性RelevantRele28基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)鍵字識別查詢由關(guān)鍵字表達式構(gòu)成例子,汽車and
修理店查詢應(yīng)考慮同義詞問題,如:修理和維修困難同義詞問題(Synonymy):文檔與Key相關(guān),但Key在文檔中不出現(xiàn)多義詞問題(Polysemy):同一Key在不同的上下文有不同的含義,如Mine。29基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)29基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相似的文檔檢索結(jié)果基于相關(guān)度,即:與關(guān)鍵詞的近似性,關(guān)鍵詞的出現(xiàn)頻率等。非用詞表(Stoplist)無關(guān)的高頻詞,如:a,the,of,for,etc.文檔不同時,非用詞表也不同30基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相30基于相似性的檢索(2)
由于相似文檔具有相似的相對詞頻,因此我們可以基于頻率表中的相對詞頻,計算一組文檔的相似性。
詞頻矩陣相似度:基于一組關(guān)鍵詞的文檔相似性相關(guān)詞的出現(xiàn)次數(shù)余弦距離:缺點:當(dāng)詞數(shù)T和文檔數(shù)目D很大時,高的維數(shù)導(dǎo)致低的計算效率,且出現(xiàn)大的稀疏向量。用奇異值分解(SVD)技術(shù)減小詞頻矩陣大小保留詞頻矩陣中最有意義的K行和K列,K值為幾百。詞/文檔d1d2d3d4d5d6d7t13218431687215430t2354917156826392t32232167462892251731基于相似性的檢索(2)由于相似文檔具有相似的相對詞頻,因此31文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析2.文檔分類分析32文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析3232基于關(guān)鍵字的關(guān)聯(lián)分析動機收集經(jīng)常一起出現(xiàn)的關(guān)鍵字或詞匯,然后找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)分析過程文檔預(yù)處理:文本數(shù)據(jù)分解,詞根處理,過濾非用詞等調(diào)用關(guān)聯(lián)挖掘算法將每一文檔看作一個事務(wù)將文檔中的關(guān)鍵詞組看作事務(wù)中的一組事務(wù)項33基于關(guān)鍵字的關(guān)聯(lián)分析動機3333文檔分類動機自動對大量聯(lián)機文檔(web頁面,e-mail等)進行分類組織,以便于對文檔進行檢索和分析。分類過程數(shù)據(jù)預(yù)處理:提出關(guān)鍵字和詞匯定義訓(xùn)練集和測試集調(diào)用分類算法創(chuàng)建分類模式測試分類模式應(yīng)用導(dǎo)出的分類模式對其他新的、未知的聯(lián)機文檔分類文檔分類與關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)分類之間的區(qū)別文檔數(shù)據(jù)庫是非結(jié)構(gòu)化的,沒有“屬性-值”對34文檔分類動機3434CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘35CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖35Web挖掘挑戰(zhàn)對數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言,Web太龐大了Web頁面數(shù)據(jù)太復(fù)雜:沒有結(jié)構(gòu),不標準不斷增長,不斷變化廣泛的用戶群體僅有很小部分的Web數(shù)據(jù)是有用的或相關(guān)的99%的Web信息對99%的Web用戶是無用的36Web挖掘挑戰(zhàn)3636Web搜索引擎基于索引:搜索Web頁面,對Web頁面作索引,建立和存儲大量的基于關(guān)鍵字的索引,定位包含關(guān)鍵字的Web頁面不足之處:對任一范圍的話題,返回的文檔數(shù)太龐大很多與話題相關(guān)的文檔并不包含相應(yīng)的關(guān)鍵字(多義問題)37Web搜索引擎基于索引:3737如何高效地發(fā)現(xiàn)和利用因特網(wǎng)上的資源?Web挖掘38如何高效地發(fā)現(xiàn)和3838Web挖掘
Web挖掘可分為三類:Web內(nèi)容挖掘(Webcontentmining),Web結(jié)構(gòu)挖掘(Webstructuremining),Web使用記錄的挖掘(Webusagemining)。39Web挖掘Web挖掘可分為三類:3939挖掘Web鏈接結(jié)構(gòu)權(quán)威Web頁面:不僅相關(guān),而且高質(zhì)量,或針對該話題具有權(quán)威性超鏈能夠推斷權(quán)威頁面Web頁面包含指向其他頁面的超鏈超鏈包含了大量人類潛在的注釋超鏈可以看作是作者對鏈接頁面的認可Web超鏈結(jié)構(gòu)存在的問題并不是每一個超鏈都代表對尋找內(nèi)容的認可導(dǎo)航、廣告因競爭、商業(yè)等原因而不鏈接權(quán)威廣告權(quán)威頁面很少具有特別的描述40挖掘Web鏈接結(jié)構(gòu)權(quán)威Web頁面:不僅相關(guān),而且高質(zhì)量,或針40Web使用記錄的挖掘Web日志記錄提供了有關(guān)Web動態(tài)的豐富信息典型的Web日志記錄條目包含了所請求的URL,發(fā)出請求的IP地址,時間戳等在Weblog記錄上可以進行數(shù)據(jù)挖掘,用于找出關(guān)聯(lián)模式,序列模式,和Web訪問趨勢等。
41Web使用記錄的挖掘Web日志記錄提供了有關(guān)Web動態(tài)的豐41EndQuestions?Let’sdiscussit!Thankyou!!!ProfessorJiaweiHan42EndQuestions?Thankyou!!!Prof42Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院胡建軍數(shù)據(jù)倉庫與數(shù)據(jù)挖掘43Chapter10:
復(fù)雜數(shù)據(jù)類型的挖掘廣東商學(xué)院信息學(xué)院43CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘44CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖44CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘45CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖45數(shù)據(jù)挖掘的對象簡單數(shù)據(jù)關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫復(fù)雜類型數(shù)據(jù)復(fù)雜對象、空間數(shù)據(jù)、多媒體數(shù)據(jù)、時間序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)等
挖掘技術(shù):基本挖掘技術(shù)的擴展 針對復(fù)雜數(shù)據(jù)類型的新技術(shù) 實施知識挖掘的方法46數(shù)據(jù)挖掘的對象簡單數(shù)據(jù)446復(fù)雜數(shù)據(jù)對象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉庫和OLAP工具用于多維分析的局限: 維———非數(shù)字數(shù)據(jù) 度量———聚集值復(fù)雜數(shù)據(jù)對象的概化及其概化數(shù)據(jù)的應(yīng)用復(fù)雜數(shù)據(jù)的組織及存儲方法類、類/子類對象:對象標識、屬性、方法47復(fù)雜數(shù)據(jù)對象的多維分析 和描述性挖掘商品化數(shù)據(jù)倉庫和OLA47復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):集合、元組、列表、樹、記錄等及其組合;概化方法:保持原結(jié)構(gòu)不變,概化其屬性把原結(jié)構(gòu)扁平化,概化扁平化的結(jié)構(gòu)用高層概念或聚集匯總低沉結(jié)構(gòu)返回原結(jié)構(gòu)的類型或概貌48復(fù)雜結(jié)構(gòu)數(shù)據(jù)的概化復(fù)雜結(jié)構(gòu)數(shù)據(jù):648集合值集合值一般概化方法:將集合中的每個值概化為其對應(yīng)的更高級別的概念導(dǎo)出集合的一般特征(元素個數(shù)、區(qū)間、平均值、最大值等)示例:業(yè)余愛好{網(wǎng)球,曲棍球,國際象棋,小提琴,任天堂游戲
}概化:{體育,音樂,電子游戲}{體育(3),音樂(1),電子游戲(1)}49集合值集合值749列表值/序列值列表值/序列值類似于集合值屬性的概化,要求保持元素的次序。一般概化方法:將列表中的每個值概化為對應(yīng)的高層概念導(dǎo)出列表的一般特征(長度、元素類型、平均值、最大值等)50列表值/序列值列表值/序列值850空間和多媒體數(shù)據(jù)的概化聚集和近似計算空間數(shù)據(jù) 例:土地規(guī)劃多媒體數(shù)據(jù)圖像:尺寸、顏色、形狀、紋理、方位等音樂:音調(diào)、節(jié)拍、樂器等文本:摘要、關(guān)鍵詞等51空間和多媒體數(shù)據(jù)的概化聚集和近似計算951對象的概化對象標識符 沿類/子類層次結(jié)構(gòu)概化繼承特性 數(shù)據(jù)概化對直接數(shù)據(jù)與繼承數(shù)據(jù)同等對待方法方法本身不能概化,但是可以對方法導(dǎo)出的數(shù)據(jù)進行概化52對象的概化對象標識符1052CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘53CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖53空間數(shù)據(jù)庫挖掘空間數(shù)據(jù)庫及其一般特點存儲了大量與空間有關(guān)的數(shù)據(jù)包含拓撲/距離信息復(fù)雜的、多維的索引結(jié)構(gòu)訪問通過空間數(shù)據(jù)的方法,通常需要空間推理、地理計算、空間知識表示技術(shù)空間數(shù)據(jù)挖掘:要綜合數(shù)據(jù)挖掘與空間數(shù)據(jù)庫技術(shù)54空間數(shù)據(jù)庫挖掘空間數(shù)據(jù)庫及其一般特點1254空間數(shù)據(jù)庫挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計方法)的不足統(tǒng)計方法通常假設(shè)空間分布的數(shù)據(jù)間是統(tǒng)計上獨立的,但現(xiàn)實是空間對象間是相互關(guān)聯(lián)的;大部分統(tǒng)計模型只有具有相當(dāng)豐富領(lǐng)域知識和統(tǒng)計方面經(jīng)驗的統(tǒng)計專家才用得起來;統(tǒng)計方法不適用符號值,或不完整或非確定的數(shù)據(jù),對大規(guī)模數(shù)據(jù)庫其計算代價也十分昂貴。空間數(shù)據(jù)挖掘?qū)鹘y(tǒng)的空間分析方法加以擴展,重點解決其高效性,可伸縮性,與數(shù)據(jù)庫系統(tǒng)的緊密結(jié)合,改進與用戶的交互,以及新的知識的發(fā)現(xiàn)。
55空間數(shù)據(jù)庫挖掘傳統(tǒng)空間數(shù)據(jù)分析(統(tǒng)計方法)的不足1355空間關(guān)聯(lián)分析
空間關(guān)聯(lián)規(guī)則形如:AB[s%,c%]其中A和B空間和非空間謂詞的集合,s%表示規(guī)則的支持度,c%表示規(guī)則的的可信度。例:Is_a(X,”school”)∧close_to(X,“sports_center”)?close_to(X,“park”)[0.5%,80%]此規(guī)則表明80%靠近體育中心的學(xué)校同時也靠近公園,并且有0。5%的數(shù)據(jù)符合這一規(guī)則。
56空間關(guān)聯(lián)分析空間關(guān)聯(lián)規(guī)則形如:AB56空間聚類方法
空間數(shù)據(jù)聚類是要在一個較大的多維數(shù)據(jù)集中根據(jù)距離的計算找出簇,或稠密區(qū)域。
57空間聚類方法空間數(shù)據(jù)聚類是要在一個較大的多維57空間分類和空間趨勢分析空間分類指分析空間對象導(dǎo)出與一定空間特征有關(guān)的分類模式,如郊區(qū),高速公路,河流的鄰接。空間趨勢分析處理的是另一類問題:根據(jù)某空間維找出變化趨勢。
例如,當(dāng)離城市中心越來越遠時,我們要分析經(jīng)濟形勢的變化趨勢,或離海洋越來越遠時,氣候與植物的變化趨勢。
58空間分類和空間趨勢分析空間分類指分析空間對象導(dǎo)出與一定空間特58CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘59CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖59多媒體數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫是指存儲和管理大量多媒體對象的數(shù)據(jù)庫,如音頻數(shù)據(jù),圖象數(shù)據(jù),視頻數(shù)據(jù),序列數(shù)據(jù),以及超文本數(shù)據(jù),包含文本,文本標記(textmarkup),和鏈接(linkage)。多媒體數(shù)據(jù)的相似搜索
主要考慮兩種多媒體標引和檢索系統(tǒng):(1)基于描述的檢索系統(tǒng),主要是在圖象描述之上建立標引和執(zhí)行對象檢索,如關(guān)鍵字,標題,尺寸,創(chuàng)建時間等;(2)基于內(nèi)容的檢索系統(tǒng),它支持基于圖象內(nèi)容的檢索,如顏色構(gòu)成,質(zhì)地,形狀,對象,和小波變換等。多媒體數(shù)據(jù)的分類和預(yù)測分析
多媒體數(shù)據(jù)中的關(guān)聯(lián)規(guī)則挖掘
60多媒體數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫是指存儲和管理大量多媒體對象的數(shù)60CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘61CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖61時序數(shù)據(jù)庫和序列數(shù)據(jù)庫時序數(shù)據(jù)庫:由隨時間變化的序列或事件組成的數(shù)據(jù)庫等時間間隔測得的數(shù)據(jù)(regularintervals)時序數(shù)據(jù)庫是一種序列數(shù)據(jù)庫序列數(shù)據(jù)庫:由有序事件序列組成的數(shù)據(jù)庫可有時間標記,也可以沒有時間標記可以是時序數(shù)據(jù)庫,也可以不是。如WEB遍歷。62時序數(shù)據(jù)庫和序列數(shù)據(jù)庫時序數(shù)據(jù)庫:由隨時間變化的序列或事件組62時序數(shù)據(jù)例子Time-seriesplot63時序數(shù)據(jù)例子Time-seriesplot2163時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢分析
通過對趨勢,循環(huán),季節(jié)和非規(guī)則成分的運動的系統(tǒng)分析,使人們可以在較合理的情況下,制定出長期或短期的預(yù)測(即預(yù)報時序)
相似搜索
找出與給定查詢序列最接近的數(shù)據(jù)序列。子序列匹配(subsequencematching)是找出與給定序列相似的所有數(shù)據(jù)序列,整體序列匹配(wholesequencematching)是找出彼此間相似的序列。
例 如:對金融市場的分析(如股票數(shù)據(jù)分析),醫(yī)療診斷(如心電圖分析),和科學(xué)與工程數(shù)據(jù)庫(如能量消耗分析)等
64時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)趨勢分析2264時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequencepatternmining)是指挖掘相對時間或其它模式出現(xiàn)頻率高的模式。
周期分析(periodicityanalysis)
對周期模式的挖掘,即在時序數(shù)據(jù)庫中找出重復(fù)出現(xiàn)的模式。
例如:
季節(jié),潮汐,行星軌道,每日能源消耗,每日交通模式
65時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘(一)序列模式挖掘(sequence65CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖掘空間數(shù)據(jù)庫挖掘多媒體數(shù)據(jù)庫挖掘時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘文本數(shù)據(jù)庫挖掘Web挖掘66CourseOutline復(fù)雜數(shù)據(jù)對象的多維分析和描述性挖66文本數(shù)據(jù)庫和信息檢索(IR)文本數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù):它既不是完全無結(jié)構(gòu)的也不是完全結(jié)構(gòu)的。例如,一個文檔可能包含結(jié)構(gòu)字段,如標題,作者,出版日期,長度,分類,等等,也可能包含大量的非結(jié)果化的文本成分,如摘要和內(nèi)容。典型的信息檢索問題是基于用戶的輸入(如關(guān)鍵字或樣例文檔)定位相關(guān)的文檔。典型的信息檢索系統(tǒng)聯(lián)機圖書館目錄聯(lián)機文檔管理系統(tǒng)信息檢索與數(shù)據(jù)庫系統(tǒng)DB:并發(fā)控制、恢復(fù)、事務(wù)管理、更新IR:非結(jié)構(gòu)化文檔、基于關(guān)鍵字的近似搜索67文本數(shù)據(jù)庫和信息檢索(IR)文本數(shù)據(jù)庫2567文本檢索的基本度量查準率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments應(yīng)該被檢索到的68文本檢索的基本度量查準率:反映正確性RelevantRele68文本檢索的基本度量查準率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments實際被檢索到的69文本檢索的基本度量查準率:反映正確性RelevantRele69文本檢索的基本度量查準率:反映正確性查全率:反映全面性RelevantRelevant&RetrievedRetrievedAllDocuments70文本檢索的基本度量查準率:反映正確性RelevantRele70基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)鍵字識別查詢由關(guān)鍵字表達式構(gòu)成例子,汽車and
修理店查詢應(yīng)考慮同義詞問題,如:修理和維修困難同義詞問題(Synonymy):文檔與Key相關(guān),但Key在文檔中不出現(xiàn)多義詞問題(Polysemy):同一Key在不同的上下文有不同的含義,如Mine。71基于關(guān)鍵字的檢索在關(guān)鍵字檢索中,文檔被看作字符串,可用一組關(guān)71基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相似的文檔檢索結(jié)果基于相關(guān)度,即:與關(guān)鍵詞的近似性,關(guān)鍵詞的出現(xiàn)頻率等。非用詞表(Stoplist)無關(guān)的高頻詞,如:a,the,of,for,etc.文檔不同時,非用詞表也不同72基于相似性的檢索(1)相似檢索是指基于一組共同的關(guān)鍵字找出相72基于相似性的檢索(2)
由于相似文檔具有相似的相對詞頻,因此我們可以基于頻率表中的相對詞頻,計算一組文檔的相似性。
詞頻矩陣相似度:基于一組關(guān)鍵詞的文檔相似性相關(guān)詞的出現(xiàn)次數(shù)余弦距離:缺點:當(dāng)詞數(shù)T和文檔數(shù)目D很大時,高的維數(shù)導(dǎo)致低的計算效率,且出現(xiàn)大的稀疏向量。用奇異值分解(SVD)技術(shù)減小詞頻矩陣大小保留詞頻矩陣中最有意義的K行和K列,K值為幾百。詞/文檔d1d2d3d4d5d6d7t13218431687215430t2354917156826392t32232167462892251773基于相似性的檢索(2)由于相似文檔具有相似的相對詞頻,因此73文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析2.文檔分類分析74文本數(shù)據(jù)挖掘的類型1.基于關(guān)鍵字的關(guān)聯(lián)分析3274基于關(guān)鍵字的關(guān)聯(lián)分析動機收集經(jīng)常一起出現(xiàn)的關(guān)鍵字或詞匯,然后找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)分析過程文檔預(yù)處理:文本數(shù)據(jù)分解,詞根處理,過濾非用詞等調(diào)用關(guān)聯(lián)挖掘算法將每一文檔看作一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商品代理采購合同范本
- 河北省保定市2025屆高三下學(xué)期一模試題 地理 含解析
- 創(chuàng)新創(chuàng)業(yè)基礎(chǔ)教程 課件 模塊三 創(chuàng)業(yè)團隊組建
- 不跪的中國人課件
- 西藏昌都地區(qū)昌都縣2025年數(shù)學(xué)三下期末質(zhì)量跟蹤監(jiān)視模擬試題含解析
- 云南農(nóng)業(yè)職業(yè)技術(shù)學(xué)院《中國現(xiàn)代文學(xué)Ⅱ》2023-2024學(xué)年第一學(xué)期期末試卷
- 濟源職業(yè)技術(shù)學(xué)院《農(nóng)業(yè)機械與信息技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 長沙理工大學(xué)城南學(xué)院《復(fù)合材料力學(xué)與結(jié)構(gòu)設(shè)計基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧省大連市高新區(qū)2025年小升初數(shù)學(xué)綜合練習(xí)卷含解析
- 沈陽航空航天大學(xué)《鋼琴(3)》2023-2024學(xué)年第二學(xué)期期末試卷
- 《尋找消失的分數(shù)》期中考試分析班會課件
- 統(tǒng)編版2024-2025學(xué)年語文六年級下冊期中核心素養(yǎng)評估卷有答案
- 2025-2030中國浮吊行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析研究報告
- 918勿忘國恥銘記歷史課件-高一上學(xué)期主題班會
- 船舶英語考試練習(xí)題及答案1-2023-練習(xí)版
- 2025年中國景泰藍擺件盒市場調(diào)查研究報告
- 公共關(guān)系學(xué)電子教案
- 王者榮耀考試試題及答案
- 杭州市市級機關(guān)事業(yè)單位招聘真題2024
- 高速公路消防知識
- 地下混凝土水池蓄水試驗方案20240401
評論
0/150
提交評論