數據倉庫與數據挖掘技術教案(6-10章)課件_第1頁
數據倉庫與數據挖掘技術教案(6-10章)課件_第2頁
數據倉庫與數據挖掘技術教案(6-10章)課件_第3頁
數據倉庫與數據挖掘技術教案(6-10章)課件_第4頁
數據倉庫與數據挖掘技術教案(6-10章)課件_第5頁
已閱讀5頁,還剩155頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫與數據挖掘技術

ElectronicCommerce夏火松E-MAIL:BXXHS@SINA.COM數據倉庫與數據挖掘技術

ElectronicCommer1

數據倉庫與數據挖掘技術教案

2第6章數據挖掘基本算法本章內容:6.1分類規則挖掘6.2預測分析與趨勢分析規則6.3數據挖掘的關聯算法6.4數據挖掘的聚類算法6.5數據挖掘的統計分析算法6.6數據挖掘的品種優化算法6.7數據挖掘的進化算法第6章數據挖掘基本算法本章內容:36.1分類規則挖掘6.1.1分類與估值1分類為了理解事物特征并做出預測使用歷史數據建立一個分類模型(即分類器)的過程。應用于信用卡系統中的信用分級、市場調查、療效診斷、尋找店址等實踐應用參照課本6.1分類規則挖掘6.1.1分類與估值46.1分類規則挖掘

6.1.1分類與估值2估值估值(estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類的類別是確定的數目,估值的量是不確定的。

3分類方法與步驟

方法:決策樹歸納、貝葉斯分類、貝葉斯網絡、神經網絡。還有K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟:模型創建、模型使用6.1分類規則挖掘6.1.1分類與估值56.1分類規則挖掘6.1.1分類與估值4評估分類方法要考慮的指標:預測準確率、速度、創建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數據的處理能力、可解釋性、對模型的可理解程度、規則好壞的評價、決策樹的大小和分類規則的簡明性。6.1分類規則挖掘6.1.1分類與估值66.1分類規則挖掘6.1.2決策樹父節點子節點子節點葉節點子節點子節點子節點根節點圖6.1一般決策樹結構葉節點父節點6.1分類規則挖掘6.1.2決策樹父節點子節點子節點葉節76.1分類規則挖掘6.1.2決策樹1.決策樹的構造過程ID3算法應用如下:信息量計算公式:I(s1,s2,…sm)=-(6.1)其中,pi為si占整個類別的概率利用屬性A劃分當前樣本集合所需要的信息(熵)的計算公式為:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一個銷售的顧客數據庫(訓練樣本集合),對購買計算機的人員進行分類:字段為:(年齡(取值:<30,30~40,>40>);收入(高,中,低);學生否(Y,N);信用(一般,很好);購買計算機否(Y,N))記錄為14個,具體數據如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)6.1分類規則挖掘6.1.2決策樹信息量計算公式:I(s86.1分類規則挖掘

6.1.2決策樹1.決策樹的構造過程決策樹的構造算法:

決策樹的構造算法可通過訓練集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)為一個訓練實例,它有n個屬性,分別列于屬性表(A1,A2,…,An)中,其中ai表示屬性Ai的取值。Cj∈C={C1,C2,…,Cm}為x的分類結果。從屬性表中選擇屬性Ai作為分類屬性;若屬性Ai的取值有ki個,則將T劃分為ki個子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的屬性取值A為第i個值;接下來從屬性表中刪除屬性Ai;對于每一個Tij(1≤j≤K1),令T=Tij;如果屬性表非空,返回第1步,否則輸出。6.1分類規則挖掘 6.1.2決策樹96.1分類規則挖掘

6.1.2決策樹2.分類器定義:輸入的數據含有千萬個記錄,每個記錄又有很多個屬性,其中有一個特別的屬性叫做類(例如信用程度的高,中,低)。具體步驟:1)樹的建立。2)樹的修剪,SLIQ采用了MDL(最小敘述長度)的方法來修剪樹。

6.1分類規則挖掘 6.1.2決策樹106.1分類規則挖掘

6.1.2決策樹3.決策樹的可擴展性4.基于決策樹方法的數據挖掘工具

KnowledgSEEKER

6.1分類規則挖掘 6.1.2決策樹116.1分類規則挖掘

6.1.3貝葉斯分類1.貝葉斯信任網絡如何工作邊緣主區域手機呼叫服務區域noyes外界圖6.3簡單的貝葉斯網圖6.1分類規則挖掘 6.1.3貝葉斯分類邊緣主區域手機126.1分類規則挖掘6.1.3貝葉斯分類2.貝葉斯定理與樸素貝葉斯分類貝葉斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示條件X下H的概率,也稱為條件概率或稱為后驗概率(posterioriprobabilities)。樸素貝葉斯分類:假定有m個類C1,…Cm,對于數據樣本X,分類法將預測X屬于類Ci,當且僅當P(Ci|X)>P(Cj|X),6.1分類規則挖掘6.1.3貝葉斯分類136.2預測分析與趨勢分析規則6.2.1預言的基本方法預言(prediction)是一門掌握對象變化動態的科學,它是對對象變動趨勢的預見、分析和判斷,也是一種動態分析方法。預測的基本步驟:確定預測目標,包括預測對象、目的、對象范圍;收集分析內部和外部資料;數據的處理及模型的選擇;預測模型的分析、修正;確定預測值。6.2預測分析與趨勢分析規則6.2.1預言的基本方法146.2預測分析與趨勢分析規則6.2.2定量分析預測時間序列法回歸預測非線性模型灰色預測模型GM(1,1)組合預測6.2預測分析與趨勢分析規則6.2.2定量分析預測156.2預測分析與趨勢分析規則6.2.3預測的結果分析預測的結果分析要考慮到的因素:相反的預測結果勝出裕度成本收益分析6.2預測分析與趨勢分析規則6.2.3預測的結果分析166.2預測分析與趨勢分析規則6.2.4趨勢分析挖掘分析時間序列數據需要注意以下方面:長時間的走向周期的走向與周期的變化季節性的走向與變化不規則的隨機走向6.2預測分析與趨勢分析規則6.2.4趨勢分析挖掘176.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類1.關聯規則的概念定義1設I={i1、i2、i3,…,im}是由m個不同的數據項目組成的集合,其中的元素稱為項(item),項的集合稱為項集,包含k個項的項集稱為k項集,給定一個事務(交易)D,即交易數據庫,其中的每一個事務(交易)T是數據項I的一個子集,即,T有一個惟一的標積符TID;當且僅當時,稱交易T包含項集X;那么關聯規則就形如“X=>Y”的蘊涵式;其中,,,Ф,即表示滿足X中條件的記錄也一定滿足Y。關聯規則X=>Y在交易數據庫中成立,具有支持度s和具有置信度c。這也就是交易數據集D中具有支持度s,即D中至少有s%的事務包含,描述為:support(X=>Y)=比如Support(X=>Y)=同時購買商品X和Y的交易數總交易數同時交易數據集D中具有置信度c,即D中包含X的事務至少有c%同時也包含Y,描述為:confidence(X=>Y)=比如購買了商品X,同時購買商品Y可信度,confidence(X=>Y)=同時購買商品X和Y的交易數購買了商品X的交易數一般稱滿足一定要求的規則為強規則。通常稱滿足最小支持度和最小置信度的關聯規則為強關聯規則(strong)。一般將最小支持度簡記為minsup和最小置信度簡記為minconf。6.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類186.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類2關聯規則的分類分類標準類別規則中所處理的值布爾關聯規則,量化關聯規則規則中所涉及的數據維單維關聯規則和多維關聯規則規則中所涉及的抽象層單層關聯規則和多層關聯規則規則中的擴充最大的模式和頻繁閉項集關聯特性分類分析與相關分析6.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類196.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法(單維、單層和布爾關聯規則)1.簡單形式的關聯規則的核心算法找到所有支持度大于最小支持度的項集,即頻集,有k個數據頻集稱為k項頻集.找出所有的頻集由apriori算法實現。Apriori性質具有一個頻集的任一非空子集都是頻集。使用第1步找到的頻集產生期望的規則

apriori算法的詳細介紹見課本。6.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法206.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法(單維、單層和布爾關聯規則)2頻集算法的幾種優化方法基于劃分的方法基于hash的方法基于采樣的方法減少交易的個數6.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法216.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法(單維、單層和布爾關聯規則)3其他的頻集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)6.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法226.3數據挖掘的關聯算法6.3.3多層和多維關聯規則的挖掘多層關聯規則多維關聯規則關聯規則價值衡量的方法6.3.4貨籃子分析存在的問題詳見課本6.3數據挖掘的關聯算法6.3.3多層和多維關聯規則的挖236.3數據挖掘的關聯算法6.3.5關聯分析的其他算法發現關聯的更好方法統計相關以外的理解關聯有效可行的市場籃子分析6.3.6挖掘序列模式序列模式的概念及定義

序列模式挖掘的主要算法

GSP算法描述PrefixSpan算法6.3數據挖掘的關聯算法6.3.5關聯分析的其他算法24關聯規則挖掘—一個例子最小值尺度50%最小可信度50%對于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:頻繁項集的任何子集也一定是頻繁的關聯規則挖掘—一個例子最小值尺度50%對于AC:25關鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關聯規則關鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合26Apriori算法連接:用Lk-1自連接得到Ck修剪:一個k-項集,如果他的一個k-1項集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for

(k=1;Lk!=;k++)dobegin

Ck+1=candidatesgeneratedfromLk;

foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint

Lk+1=candidatesinCk+1withmin_support

endreturn

k

Lk;Apriori算法連接:用Lk-1自連接得到Ck27Apriori算法—例子數據庫D掃描DC1L1L2C2C2掃描DC3L3掃描DApriori算法—例子數據庫D掃描DC1L1L2C28如何生成候選集假定Lk-1中的項按順序排列第一步:自連接Lk-1

insertinto

Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk

doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk如何生成候選集假定Lk-1中的項按順序排列29如何計算候選集的支持度計算支持度為什么會成為一個問題?候選集的個數非常巨大一筆交易可能包含多個候選集方法:用hash-tree存放候選集樹的葉子節點

of存放項集的列表和支持度內部節點是一個hash表Subset函數:找到包含在一筆交易中的所有候選集如何計算候選集的支持度計算支持度為什么會成為一個問題?30生成候選集的例子L3={abc,abd,acd,ace,bcd}自連接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,刪除acdeC4={abcd}生成候選集的例子L3={abc,abd,acd,ace31提高Apriori效率的方法基于Hash的項集計數:如果一個k-項集在hash-tree的路徑上的一個計數值低于閾值,那他本身也不可能是頻繁的。減少交易記錄:不包含任何頻繁k-項集的交易也不可能包含任何大于k的頻繁集分割:一個項集要想在整個數據庫中是頻繁的,那么他至少在數據庫的一個分割上是頻繁的。采樣:在給定數據的子集上挖掘,使用小的支持度+完整性驗證方法動態項集計數:在添加一個新的候選集之前,先估計一下是不是他的所有子集都是頻繁的。提高Apriori效率的方法基于Hash的項集計數:如果一32Apriori夠快了嗎?—性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數據庫掃描和模式匹配計算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個頻繁1-項集要生成107個候選2-項集要找尺寸為100的頻繁模式,如{a1,a2,…,a100},你必須先產生21001030個候選集多次掃描數據庫:如果最長的模式是n的話,則需要(n+1)次數據庫掃描Apriori夠快了嗎?—性能瓶頸Apriori算法的336.4數據挖掘的聚類算法6.4.1聚類分析的概念與分類聚類分析概念聚類分析方法的分類類別算法分裂(劃分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANS算法(給予選擇的方法)層次法BIRCH算法(平衡迭代歸約和聚類)、CURE算法(代表聚類)、CHAMELEON算法(動態模型)基于密度的方法DBSCAN算法(基于高密度連接區域)、OPTICS算法(對象排序識別)、DENCLUE算法(密度分布函數)基于網格的方法STING算法(統計信息網格)、CLIQUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統計學方法、神經網絡方法6.4數據挖掘的聚類算法6.4.1聚類分析的概念與分類類別346.4數據挖掘的聚類算法6.4.2聚類分析中兩個對象之間的相異度計算方法區間標度變量計算方法

二元變量計算方法標稱型、序數型和比例標度型變量計算方法混合類型的變量計算方法6.4數據挖掘的聚類算法6.4.2聚類分析中兩個對象之間的356.4數據挖掘的聚類算法6.4.3劃分方法典型的劃分方法:k-平均和k-中心點

基于簇的重心技術:k-平均方法基于有代表性的對象的技術:k-中心點方法大型數據庫中的劃分方法:基于選擇的K-中心點CLARANS方法6.4數據挖掘的聚類算法6.4.3劃分方法366.4數據挖掘的聚類算法6.4.4層次方法凝聚的和分裂的層次聚類

凝聚層次聚類方法AGNES分裂層次聚類方法DIANA利用層次方法的平衡迭代歸約和聚類綜合的層次聚類方法BIRCH利用代表點聚類一種新穎的層次聚類算法CURE一個利用動態模型的層次聚類算法動態模型的聚類法chameleon(變色龍)6.4數據挖掘的聚類算法6.4.4層次方法376.4數據挖掘的聚類算法6.4.5基于密度的方法一個基于高密度連接區域的聚類方法DBSCAN聚類方法通過對象排序識別聚類結構OPTICS聚類分析方法基于密度分布函數的聚類基于一組密度分布函數的聚類算法DENCLUE6.4數據挖掘的聚類算法6.4.5基于密度的方法386.4數據挖掘的聚類算法6.4.6基于網格的方法統計信息網絡STING是一種基于網格的多分辨率聚類技術聚類高維空間CLIQUE(clusteringinquest,CLIQUE)聚類算法6.4.7基于模型的聚類方法增量概念聚類算法COBWEB6.4.8模糊聚類算法6.4數據挖掘的聚類算法6.4.6基于網格的方法396.5數據挖掘的統計分析算法6.5.1辨別方法6.5.2回歸模型6.5.3優點與缺點6.5數據挖掘的統計分析算法6.5.1辨別方法406.6數據挖掘的品種優化算法6.6.1品種優化6.6.2品種優化算法6.6數據挖掘的品種優化算法6.6.1品種優化416.7數據挖掘的進化算法6.7.1遺傳算法如何工作優缺點6.7.2神經網絡算法如何工作無指導的學習競爭學習自組織特征映射模型優缺點6.7數據挖掘的進化算法6.7.1遺傳算法426.7數據挖掘的進化算法神經網絡模型性別區域職位B類客戶年齡交易額受教育的年限圖6.10神經網絡模型C類客戶跳槽客戶隱節點隱節點A類客戶隱節點隱節點6.7數據挖掘的進化算法神經網絡模型性別區域職位B類客戶年齡43第7章非結構化數據挖掘本章內容:7.1Web數據挖掘7.2空間群數據挖掘7.3多媒體數據挖掘第7章非結構化數據挖掘本章內容:447.1Web數據挖掘7.1.1非結構化數據源Web數據挖掘的難點對數據來源分析異構數據環境半結構化的數據結構解決半結構化的數據源問題文本總結XML與Web數據挖掘技術XML的產生與發展XML的主要特點7.1Web數據挖掘7.1.1非結構化數據源457.1Web數據挖掘7.1.1非結構化數據源XML在Web數據挖掘中的應用兩個或更多異質數據庫之間進行通信的應用大部分處理負載從Web服務器轉到Web客戶端的應用Web客戶端將同樣的數據以不同的瀏覽形式提供給不同的用戶的應用需要智能Web代理根據用戶個人的需要裁減信息內容的應用7.1Web數據挖掘7.1.1非結構化數據源467.1Web數據挖掘7.1.2Web挖掘分類Web挖掘Webcontentmining(Web內容挖掘)Webstructuremining(Web結構挖掘)Webusagemining(Web訪問挖掘)Searchresultmining(搜索結果再挖掘)Generalaccesspatterntracking(一般訪問模式跟蹤)Customizedusagetracking(定制的使用跟蹤)Webpagecontentmining(Web頁面內容挖掘)圖7.1Web挖掘分類7.1Web數據挖掘7.1.2Web挖掘分類Web挖掘W47Web挖掘三種方法比較Web內容挖掘Web結構挖掘Web訪問挖掘處理數據類型IR方法數據庫方法Web結構挖掘用戶訪問挖掘無結構和半結構化數據半結構化數據主要數據自由文本、HTML標記的超文本HTML標記的超文本文檔內及文檔間的超鏈接Serverlog,proxyserverlog,clientlog表示方法詞集、段落、概念、IR的三種經典模型OEM關系圖關系表、圖處理方法TFIDF、統計、機器學習、自然語言理解數據庫技術機器學習、專有算法(如HITSpagerank)統計、機器學習、關聯規則主要應用分類、聚類、模式發現模式發現、數據向導、多維數據庫、站點創建與維護頁面權重分類聚類、模式發現用戶個性化、自適應Web站點、商業決策Web挖掘三種方法比較Web內容挖掘Web結構挖掘Web訪487.1Web數據挖掘Web挖掘的基本構架訪問者注冊用戶網站交易信息瀏覽信息數據庫、數據倉庫Web日志文件WebSerer中其他信息數據預處理模塊結構數據挖掘模塊Web挖掘的基本構架頁面訪問情況Web結構模式Web內容模式知識非結構數據挖掘模塊7.1Web數據挖掘Web挖掘的基本構架訪問者注冊用戶網497.1Web數據挖掘7.1.3Web內容挖掘信息檢索(informationretrieve,IR)方法數據庫方法7.1.4Web結構挖掘Rank方法7.1.5Web訪問挖掘對Web日志進行清洗、過濾和轉換以及剔除無關記錄

采用統計學、模式識別、人工智能、數據庫數據挖掘等領域的成熟技術在Web的使用記錄中挖掘知識

Web使用挖掘中的模式分析

7.1Web數據挖掘7.1.3Web內容挖掘507.1Web數據挖掘7.1.6利用Web日志的聚類算法客戶群體的模糊聚類算法

用戶訪問興趣的算法

客戶群體聚類的Hamming距離算法

基于模糊理論的Web頁面聚類算法

Web頁面聚類的Hamming距離算法

7.1Web數據挖掘7.1.6利用Web日志的聚類算法517.1Web數據挖掘電子商務中的Web挖掘電子商務中Web挖掘的作用電子商務中Web挖掘的基本問題電子商務中的數據挖掘工具文本信息挖掘工具用戶訪問模式挖掘工具用戶導航行為挖掘工具綜合性的Web分析工具7.1Web數據挖掘電子商務中的Web挖掘527.2空間群數據挖掘7.2.1空間群數據挖掘概念從空間數據中抽取隱含的知識、空間關系、空間及與非空間之間的有意義的特征或模式。

7.2.2空間群數據挖掘分類

空間檢索空間拓撲疊加分析空間模擬分析7.2空間群數據挖掘7.2.1空間群數據挖掘概念537.2空間群數據挖掘7.2.3空間數據挖掘的體系結構空間數據結構查詢與優化原則的分析信息集成模式知識級處理語義級檢索與索引領域知識模式知識對象和屬性抽取物理級底層特性處理設計圖7.4空間數據挖掘的體系結構對象級特征處理語義概念級處理用戶空間數據處理7.2空間群數據挖掘7.2.3空間數據挖掘的體系結構空間547.3多媒體數據挖掘7.3.1多媒體數據挖掘的概念7.3.2多媒體數據挖掘的分類圖像數據挖掘視頻數據挖掘音頻數據挖掘7.3多媒體數據挖掘7.3.1多媒體數據挖掘的概念557.3多媒體數據挖掘7.3.3多媒體數據挖掘的體系結構原始數據媒體數據攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學習索引的生成用戶圖7.5功能驅動的多媒體挖掘體系結構基于底層特性的索引與檢索元數據與數據抽取原則的分析信息集成模式知識級處理語義級檢索與索引領域知識模式知識對象級的索引與檢索物理級底層特性處理設計圖7.6信息驅動的多媒體挖掘的結構對象級特征處理語義概念級處理用戶多媒體處理7.3多媒體數據挖掘7.3.3多媒體數據挖掘的體系結構原始56第8章離群數據挖掘本章內容離群數據挖掘概念離群數據挖掘分類離群數據挖掘算法市場營銷離群數據的特點第8章離群數據挖掘本章內容57第8章離群數據挖掘8.1離群數據挖掘的概念8.2離群數據挖掘的分類基于統計學基于距離的方法基于偏移高維數據的離群數據探測基于規則的分類離群數據挖掘方法基于密度(density-based)的離群挖掘方法第8章離群數據挖掘8.1離群數據挖掘的概念588.3離群數據挖掘的算法8.3.1基于統計的方法8.3.2基于距離的離群數據方法基于距離的離群數據定義基于距離的離群數據挖掘的算法分類及算法描述基于距離的算法的改進8.3.3基于偏離的離群數據挖掘序列離群數據技術

OLAP數據立方體技術8.3離群數據挖掘的算法8.3.1基于統計的方法598.3離群數據挖掘的算法8.3.4高維數據的離群數據挖掘8.3.5基于小波的離群數據挖掘

時序數據的離群數據挖掘基于聚類的離群數據CL(δ)8.3離群數據挖掘的算法8.3.4高維數據的離群數據挖掘608.4市場營銷離群數據挖掘8.4.1市場營銷離群數據挖掘特點8.4.2基于分形的市場營銷離群數據挖掘模型幾個定義8.4市場營銷離群數據挖掘8.4.1市場營銷離群數據挖掘特點61第9章數據挖掘語言與工具選擇本章內容9.1數據挖掘語言及其標準化9.2數據挖掘研究熱點9.3數據挖掘工具的選擇第9章數據挖掘語言與工具選擇本章內容629.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類類別特點功能代表數據挖掘查詢語言數據挖掘原語五種原語DMQL數據挖掘建模語言基于XML的語言文檔類型定義、通用模式PMML通用數據挖掘語言集成全面OLEDBforDM9.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類類639.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類數據挖掘查詢語言(5種數據挖掘原語定義)。任務相關數據原語被挖掘的知識的種類原語背景知識原語興趣度測量原語被發現模式的表示和可視化原語9.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類649.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類數據挖掘建模語言頭文件(aheader)數據模式(adataschema)數據挖掘模式(adataminingschema)預言模型模式(apredictivemodelschema)預言模型定義(definitionsforpredictivemodels)全體模型定義(definitionsforensemblesofmodels)選擇和聯合模型、全體模型的規則(rulesforselectingandcombiningmodelsandensemblesofmodels)異常處理的規則(rulesforexceptionhandling)9.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類659.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類通用數據挖掘語言數據挖掘模型(DataMiningModel,DMM)預言聯接操作(PredicationJoinOperation)OLEDBforDM模式行集合(SchemaRowsets)9.1.2分析與評價9.1數據挖掘語言及其標準化9.1.1數據挖掘語言分類669.2數據挖掘的研究熱點網站的數據挖掘生物信息或基因的數據挖掘文本的數據挖掘9.2數據挖掘的研究熱點網站的數據挖掘679.3數據挖掘工具的選擇9.3.1評價數據挖掘工具的優劣指標數據準備數據訪問算法與建模模型的評價和解釋用戶界面9.3數據挖掘工具的選擇9.3.1評價數據挖掘工具的優劣689.3數據挖掘工具的選擇9.3.2通用數據挖掘產品與工具POLYANALYSTIBMDB2lntelligentMiner和并行可視化探索者PVEDBMinerBO的BusinessMinerSPSS股份公司(SPPSCHAID)SAS研究所股份公司(SAS,JMP)NeuralWare股份公司信息發現股份公司(IDIS)RightPoint公司的數據挖掘工具DataCruncherDataMind公司(DataMind專業版,DataMindCruncher)Pilot軟件股份公司(Pilot發現服務器)Angoss國際有限公司(KnowledgeSEEKER)SiliconGraphics計算機系統公司(MineSet)商務項目公司(商務挖掘器)Cognos軟件公司(Scenario)思維機器公司(Darwin)………..9.3數據挖掘工具的選擇9.3.2通用數據挖掘產品與工具699.3數據挖掘工具的選擇9.3.3國內的數據挖掘產品與工具菲奈特一融通公司廣州華工明天科技有限公司

復旦大學數據采掘工具ARMiner9.3.4數據可視化工具的選擇高級可視化系統公司(AVS/Express)

Alta分析股份藹公司(NetMap)Belmont研究股份公司(Cross Graphs)

環境系統研究所(ESRI)股份公司

MapInfo公司(MapInfo,SpatialWare)

SiliconGraphics計算機系統公司(MineSet)

9.3數據挖掘工具的選擇9.3.3國內的數據挖掘產品與工709.3數據挖掘工具的選擇9.3數據挖掘工具的選擇719.3數據挖掘工具的選擇9.3數據挖掘工具的選擇72第10章知識管理和知識管理系統本章內容10.1知識管理知識知識管理定義有效知識管理10.2知識管理系統知識管理共享條件知識管理共享困難知識管理激勵機制知識管理體系結構第10章知識管理和知識管理系統本章內容7310.1知識管理10.1.1知識know-whatknow-whyknow-howknow-who10.1知識管理10.1.1知識7410.1知識管理10.1.2知識管理定義KM是在適當的時候向合適的人取得正確的信息,以便更有效、更順利地進行管理的能力10.1.3有效的知識管理10.1知識管理10.1.2知識管理定義7510.2知識管理系統知識管理共享的條件軟件硬件知識管理共享的困難10.2知識管理系統知識管理共享的條件7610.2知識管理系統知識貢獻的激勵機制企業需要的知識k(a1,a2,a3…an)企業有人知a1=1企業無人知a1=0企業有人知且企業以外的有人知a2=1企業有人知且企業以外的不知a2=0企業無人知且企業以外的有人知a2=1企業無人知且企業以外的無人知a2=0企業有人知且企業以外的競爭對手有人知a3=1企業有人知且企業以外的有人知但競爭對手不知a3=0企業無人知且企業以外的競爭對手知a3=1企業無人知且企業以外的競爭對手不知a3=0圖10.1企業知識樹模型10.2知識管理系統知識貢獻的激勵機制企業需要的知識k(a7710.2知識管理系統知識管理的體系結構互動高低高特定客戶知識數據庫營銷數據挖掘互動營銷知識協同客戶關系管理(KCCRM)籃子分析忠誠/獎勵程序圖10.2基于知識的協同客戶關系管理KCCRM10.2知識管理系統知識管理的體系結構互動高低高特定客戶知78知識管理的體系結構知識獲取(DM)知識描述知識共享環境管理知識存儲知識評價知識源數據庫Web其他知識發布知識檢索知識貢獻激勵規則知識管理工具知識傳遞的方式知識推薦圖10.3知識管理系統的體系結構知識管理的體系結構知識獲取(DM)知識描述知識共享環79謝謝大家謝謝大家80數據倉庫與數據挖掘技術

ElectronicCommerce夏火松E-MAIL:BXXHS@SINA.COM數據倉庫與數據挖掘技術

ElectronicCommer81

數據倉庫與數據挖掘技術教案

82第6章數據挖掘基本算法本章內容:6.1分類規則挖掘6.2預測分析與趨勢分析規則6.3數據挖掘的關聯算法6.4數據挖掘的聚類算法6.5數據挖掘的統計分析算法6.6數據挖掘的品種優化算法6.7數據挖掘的進化算法第6章數據挖掘基本算法本章內容:836.1分類規則挖掘6.1.1分類與估值1分類為了理解事物特征并做出預測使用歷史數據建立一個分類模型(即分類器)的過程。應用于信用卡系統中的信用分級、市場調查、療效診斷、尋找店址等實踐應用參照課本6.1分類規則挖掘6.1.1分類與估值846.1分類規則挖掘

6.1.1分類與估值2估值估值(estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類的類別是確定的數目,估值的量是不確定的。

3分類方法與步驟

方法:決策樹歸納、貝葉斯分類、貝葉斯網絡、神經網絡。還有K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟:模型創建、模型使用6.1分類規則挖掘6.1.1分類與估值856.1分類規則挖掘6.1.1分類與估值4評估分類方法要考慮的指標:預測準確率、速度、創建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數據的處理能力、可解釋性、對模型的可理解程度、規則好壞的評價、決策樹的大小和分類規則的簡明性。6.1分類規則挖掘6.1.1分類與估值866.1分類規則挖掘6.1.2決策樹父節點子節點子節點葉節點子節點子節點子節點根節點圖6.1一般決策樹結構葉節點父節點6.1分類規則挖掘6.1.2決策樹父節點子節點子節點葉節876.1分類規則挖掘6.1.2決策樹1.決策樹的構造過程ID3算法應用如下:信息量計算公式:I(s1,s2,…sm)=-(6.1)其中,pi為si占整個類別的概率利用屬性A劃分當前樣本集合所需要的信息(熵)的計算公式為:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一個銷售的顧客數據庫(訓練樣本集合),對購買計算機的人員進行分類:字段為:(年齡(取值:<30,30~40,>40>);收入(高,中,低);學生否(Y,N);信用(一般,很好);購買計算機否(Y,N))記錄為14個,具體數據如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)6.1分類規則挖掘6.1.2決策樹信息量計算公式:I(s886.1分類規則挖掘

6.1.2決策樹1.決策樹的構造過程決策樹的構造算法:

決策樹的構造算法可通過訓練集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)為一個訓練實例,它有n個屬性,分別列于屬性表(A1,A2,…,An)中,其中ai表示屬性Ai的取值。Cj∈C={C1,C2,…,Cm}為x的分類結果。從屬性表中選擇屬性Ai作為分類屬性;若屬性Ai的取值有ki個,則將T劃分為ki個子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的屬性取值A為第i個值;接下來從屬性表中刪除屬性Ai;對于每一個Tij(1≤j≤K1),令T=Tij;如果屬性表非空,返回第1步,否則輸出。6.1分類規則挖掘 6.1.2決策樹896.1分類規則挖掘

6.1.2決策樹2.分類器定義:輸入的數據含有千萬個記錄,每個記錄又有很多個屬性,其中有一個特別的屬性叫做類(例如信用程度的高,中,低)。具體步驟:1)樹的建立。2)樹的修剪,SLIQ采用了MDL(最小敘述長度)的方法來修剪樹。

6.1分類規則挖掘 6.1.2決策樹906.1分類規則挖掘

6.1.2決策樹3.決策樹的可擴展性4.基于決策樹方法的數據挖掘工具

KnowledgSEEKER

6.1分類規則挖掘 6.1.2決策樹916.1分類規則挖掘

6.1.3貝葉斯分類1.貝葉斯信任網絡如何工作邊緣主區域手機呼叫服務區域noyes外界圖6.3簡單的貝葉斯網圖6.1分類規則挖掘 6.1.3貝葉斯分類邊緣主區域手機926.1分類規則挖掘6.1.3貝葉斯分類2.貝葉斯定理與樸素貝葉斯分類貝葉斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示條件X下H的概率,也稱為條件概率或稱為后驗概率(posterioriprobabilities)。樸素貝葉斯分類:假定有m個類C1,…Cm,對于數據樣本X,分類法將預測X屬于類Ci,當且僅當P(Ci|X)>P(Cj|X),6.1分類規則挖掘6.1.3貝葉斯分類936.2預測分析與趨勢分析規則6.2.1預言的基本方法預言(prediction)是一門掌握對象變化動態的科學,它是對對象變動趨勢的預見、分析和判斷,也是一種動態分析方法。預測的基本步驟:確定預測目標,包括預測對象、目的、對象范圍;收集分析內部和外部資料;數據的處理及模型的選擇;預測模型的分析、修正;確定預測值。6.2預測分析與趨勢分析規則6.2.1預言的基本方法946.2預測分析與趨勢分析規則6.2.2定量分析預測時間序列法回歸預測非線性模型灰色預測模型GM(1,1)組合預測6.2預測分析與趨勢分析規則6.2.2定量分析預測956.2預測分析與趨勢分析規則6.2.3預測的結果分析預測的結果分析要考慮到的因素:相反的預測結果勝出裕度成本收益分析6.2預測分析與趨勢分析規則6.2.3預測的結果分析966.2預測分析與趨勢分析規則6.2.4趨勢分析挖掘分析時間序列數據需要注意以下方面:長時間的走向周期的走向與周期的變化季節性的走向與變化不規則的隨機走向6.2預測分析與趨勢分析規則6.2.4趨勢分析挖掘976.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類1.關聯規則的概念定義1設I={i1、i2、i3,…,im}是由m個不同的數據項目組成的集合,其中的元素稱為項(item),項的集合稱為項集,包含k個項的項集稱為k項集,給定一個事務(交易)D,即交易數據庫,其中的每一個事務(交易)T是數據項I的一個子集,即,T有一個惟一的標積符TID;當且僅當時,稱交易T包含項集X;那么關聯規則就形如“X=>Y”的蘊涵式;其中,,,Ф,即表示滿足X中條件的記錄也一定滿足Y。關聯規則X=>Y在交易數據庫中成立,具有支持度s和具有置信度c。這也就是交易數據集D中具有支持度s,即D中至少有s%的事務包含,描述為:support(X=>Y)=比如Support(X=>Y)=同時購買商品X和Y的交易數總交易數同時交易數據集D中具有置信度c,即D中包含X的事務至少有c%同時也包含Y,描述為:confidence(X=>Y)=比如購買了商品X,同時購買商品Y可信度,confidence(X=>Y)=同時購買商品X和Y的交易數購買了商品X的交易數一般稱滿足一定要求的規則為強規則。通常稱滿足最小支持度和最小置信度的關聯規則為強關聯規則(strong)。一般將最小支持度簡記為minsup和最小置信度簡記為minconf。6.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類986.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類2關聯規則的分類分類標準類別規則中所處理的值布爾關聯規則,量化關聯規則規則中所涉及的數據維單維關聯規則和多維關聯規則規則中所涉及的抽象層單層關聯規則和多層關聯規則規則中的擴充最大的模式和頻繁閉項集關聯特性分類分析與相關分析6.3數據挖掘的關聯算法6.3.1關聯規則的概念及分類996.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法(單維、單層和布爾關聯規則)1.簡單形式的關聯規則的核心算法找到所有支持度大于最小支持度的項集,即頻集,有k個數據頻集稱為k項頻集.找出所有的頻集由apriori算法實現。Apriori性質具有一個頻集的任一非空子集都是頻集。使用第1步找到的頻集產生期望的規則

apriori算法的詳細介紹見課本。6.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法1006.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法(單維、單層和布爾關聯規則)2頻集算法的幾種優化方法基于劃分的方法基于hash的方法基于采樣的方法減少交易的個數6.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法1016.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法(單維、單層和布爾關聯規則)3其他的頻集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)6.3數據挖掘的關聯算法6.3.2簡單形式的關聯規則算法1026.3數據挖掘的關聯算法6.3.3多層和多維關聯規則的挖掘多層關聯規則多維關聯規則關聯規則價值衡量的方法6.3.4貨籃子分析存在的問題詳見課本6.3數據挖掘的關聯算法6.3.3多層和多維關聯規則的挖1036.3數據挖掘的關聯算法6.3.5關聯分析的其他算法發現關聯的更好方法統計相關以外的理解關聯有效可行的市場籃子分析6.3.6挖掘序列模式序列模式的概念及定義

序列模式挖掘的主要算法

GSP算法描述PrefixSpan算法6.3數據挖掘的關聯算法6.3.5關聯分析的其他算法104關聯規則挖掘—一個例子最小值尺度50%最小可信度50%對于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:頻繁項集的任何子集也一定是頻繁的關聯規則挖掘—一個例子最小值尺度50%對于AC:105關鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關聯規則關鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合106Apriori算法連接:用Lk-1自連接得到Ck修剪:一個k-項集,如果他的一個k-1項集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for

(k=1;Lk!=;k++)dobegin

Ck+1=candidatesgeneratedfromLk;

foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint

Lk+1=candidatesinCk+1withmin_support

endreturn

k

Lk;Apriori算法連接:用Lk-1自連接得到Ck107Apriori算法—例子數據庫D掃描DC1L1L2C2C2掃描DC3L3掃描DApriori算法—例子數據庫D掃描DC1L1L2C108如何生成候選集假定Lk-1中的項按順序排列第一步:自連接Lk-1

insertinto

Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk

doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk如何生成候選集假定Lk-1中的項按順序排列109如何計算候選集的支持度計算支持度為什么會成為一個問題?候選集的個數非常巨大一筆交易可能包含多個候選集方法:用hash-tree存放候選集樹的葉子節點

of存放項集的列表和支持度內部節點是一個hash表Subset函數:找到包含在一筆交易中的所有候選集如何計算候選集的支持度計算支持度為什么會成為一個問題?110生成候選集的例子L3={abc,abd,acd,ace,bcd}自連接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,刪除acdeC4={abcd}生成候選集的例子L3={abc,abd,acd,ace111提高Apriori效率的方法基于Hash的項集計數:如果一個k-項集在hash-tree的路徑上的一個計數值低于閾值,那他本身也不可能是頻繁的。減少交易記錄:不包含任何頻繁k-項集的交易也不可能包含任何大于k的頻繁集分割:一個項集要想在整個數據庫中是頻繁的,那么他至少在數據庫的一個分割上是頻繁的。采樣:在給定數據的子集上挖掘,使用小的支持度+完整性驗證方法動態項集計數:在添加一個新的候選集之前,先估計一下是不是他的所有子集都是頻繁的。提高Apriori效率的方法基于Hash的項集計數:如果一112Apriori夠快了嗎?—性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數據庫掃描和模式匹配計算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個頻繁1-項集要生成107個候選2-項集要找尺寸為100的頻繁模式,如{a1,a2,…,a100},你必須先產生21001030個候選集多次掃描數據庫:如果最長的模式是n的話,則需要(n+1)次數據庫掃描Apriori夠快了嗎?—性能瓶頸Apriori算法的1136.4數據挖掘的聚類算法6.4.1聚類分析的概念與分類聚類分析概念聚類分析方法的分類類別算法分裂(劃分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANS算法(給予選擇的方法)層次法BIRCH算法(平衡迭代歸約和聚類)、CURE算法(代表聚類)、CHAMELEON算法(動態模型)基于密度的方法DBSCAN算法(基于高密度連接區域)、OPTICS算法(對象排序識別)、DENCLUE算法(密度分布函數)基于網格的方法STING算法(統計信息網格)、CLIQUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統計學方法、神經網絡方法6.4數據挖掘的聚類算法6.4.1聚類分析的概念與分類類別1146.4數據挖掘的聚類算法6.4.2聚類分析中兩個對象之間的相異度計算方法區間標度變量計算方法

二元變量計算方法標稱型、序數型和比例標度型變量計算方法混合類型的變量計算方法6.4數據挖掘的聚類算法6.4.2聚類分析中兩個對象之間的1156.4數據挖掘的聚類算法6.4.3劃分方法典型的劃分方法:k-平均和k-中心點

基于簇的重心技術:k-平均方法基于有代表性的對象的技術:k-中心點方法大型數據庫中的劃分方法:基于選擇的K-中心點CLARANS方法6.4數據挖掘的聚類算法6.4.3劃分方法1166.4數據挖掘的聚類算法6.4.4層次方法凝聚的和分裂的層次聚類

凝聚層次聚類方法AGNES分裂層次聚類方法DIANA利用層次方法的平衡迭代歸約和聚類綜合的層次聚類方法BIRCH利用代表點聚類一種新穎的層次聚類算法CURE一個利用動態模型的層次聚類算法動態模型的聚類法chameleon(變色龍)6.4數據挖掘的聚類算法6.4.4層次方法1176.4數據挖掘的聚類算法6.4.5基于密度的方法一個基于高密度連接區域的聚類方法DBSCAN聚類方法通過對象排序識別聚類結構OPTICS聚類分析方法基于密度分布函數的聚類基于一組密度分布函數的聚類算法DENCLUE6.4數據挖掘的聚類算法6.4.5基于密度的方法1186.4數據挖掘的聚類算法6.4.6基于網格的方法統計信息網絡STING是一種基于網格的多分辨率聚類技術聚類高維空間CLIQUE(clusteringinquest,CLIQUE)聚類算法6.4.7基于模型的聚類方法增量概念聚類算法COBWEB6.4.8模糊聚類算法6.4數據挖掘的聚類算法6.4.6基于網格的方法1196.5數據挖掘的統計分析算法6.5.1辨別方法6.5.2回歸模型6.5.3優點與缺點6.5數據挖掘的統計分析算法6.5.1辨別方法1206.6數據挖掘的品種優化算法6.6.1品種優化6.6.2品種優化算法6.6數據挖掘的品種優化算法6.6.1品種優化1216.7數據挖掘的進化算法6.7.1遺傳算法如何工作優缺點6.7.2神經網絡算法如何工作無指導的學習競爭學習自組織特征映射模型優缺點6.7數據挖掘的進化算法6.7.1遺傳算法1226.7數據挖掘的進化算法神經網絡模型性別區域職位B類客戶年齡交易額受教育的年限圖6.10神經網絡模型C類客戶跳槽客戶隱節點隱節點A類客戶隱節點隱節點6.7數據挖掘的進化算法神經網絡模型性別區域職位B類客戶年齡123第7章非結構化數據挖掘本章內容:7.1Web數據挖掘7.2空間群數據挖掘7.3多媒體數據挖掘第7章非結構化數據挖掘本章內容:1247.1Web數據挖掘7.1.1非結構化數據源Web數據挖掘的難點對數據來源分析異構數據環境半結構化的數據結構解決半結構化的數據源問題文本總結XML與Web數據挖掘技術XML的產生與發展XML的主要特點7.1Web數據挖掘7.1.1非結構化數據源1257.1Web數據挖掘7.1.1非結構化數據源XML在Web數據挖掘中的應用兩個或更多異質數據庫之間進行通信的應用大部分處理負載從Web服務器轉到Web客戶端的應用Web客戶端將同樣的數據以不同的瀏覽形式提供給不同的用戶的應用需要智能Web代理根據用戶個人的需要裁減信息內容的應用7.1Web數據挖掘7.1.1非結構化數據源1267.1Web數據挖掘7.1.2Web挖掘分類Web挖掘Webcontentmining(Web內容挖掘)Webstructuremining(Web結構挖掘)Webusagemining(Web訪問挖掘)Searchresultmining(搜索結果再挖掘)Generalaccesspatterntracking(一般訪問模式跟蹤)Customizedusagetracking(定制的使用跟蹤)Webpagecontentmining(Web頁面內容挖掘)圖7.1Web挖掘分類7.1Web數據挖掘7.1.2Web挖掘分類Web挖掘W127Web挖掘三種方法比較Web內容挖掘Web結構挖掘Web訪問挖掘處理數據類型IR方法數據庫方法Web結構挖掘用戶訪問挖掘無結構和半結構化數據半結構化數據主要數據自由文本、HTML標記的超文本HTML標記的超文本文檔內及文檔間的超鏈接Serverlog,proxyserverlog,clientlog表示方法詞集、段落、概念、IR的三種經典模型OEM關系圖關系表、圖處理方法TFIDF、統計、機器學習、自然語言理解數據庫技術機器學習、專有算法(如HITSpagerank)統計、機器學習、關聯規則主要應用分類、聚類、模式發現模式發現、數據向導、多維數據庫、站點創建與維護頁面權重分類聚類、模式發現用戶個性化、自適應Web站點、商業決策Web挖掘三種方法比較Web內容挖掘Web結構挖掘Web訪1287.1Web數據挖掘Web挖掘的基本構架訪問者注冊用戶網站交易信息瀏覽信息數據庫、數據倉庫Web日志文件WebSerer中其他信息數據預處理模塊結構數據挖掘模塊Web挖掘的基本構架頁面訪問情況Web結構模式Web內容模式知識非結構數據挖掘模塊7.1Web數據挖掘Web挖掘的基本構架訪問者注冊用戶網1297.1Web數據挖掘7.1.3Web內容挖掘信息檢索(informationretrieve,IR)方法數據庫方法7.1.4Web結構挖掘Rank方法7.1.5Web訪問挖掘對Web日志進行清洗、過濾和轉換以及剔除無關記錄

采用統計學、模式識別、人工智能、數據庫數據挖掘等領域的成熟技術在Web的使用記錄中挖掘知識

Web使用挖掘中的模式分析

7.1Web數據挖掘7.1.3Web內容挖掘1307.1Web數據挖掘7.1.6利用Web日志的聚類算法客戶群體的模糊聚類算法

用戶訪問興趣的算法

客戶群體聚類的Hamming距離算法

基于模糊理論的Web頁面聚類算法

Web頁面聚類的Hamming距離算法

7.1Web數據挖掘7.1.6利用Web日志的聚類算法1317.1Web數據挖掘電子商務中的Web挖掘電子商務中Web挖掘的作用電子商務中Web挖掘的基本問題電子商務中的數據挖掘工具文本信息挖掘工具用戶訪問模式挖掘工具用戶導航行為挖掘工具綜合性的Web分析工具7.1Web數據挖掘電子商務中的Web挖掘1327.2空間群數據挖掘7.2.1空間群數據挖掘概念從空間數據中抽取隱含的知識、空間關系、空間及與非空間之間的有意義的特征或模式。

7.2.2空間群數據挖掘分類

空間檢索空間拓撲疊加分析空間模擬分析7.2空間群數據挖掘7.2.1空間群數據挖掘概念1337.2空間群數據挖掘7.2.3空間數據挖掘的體系結構空間數據結構查詢與優化原則的分析信息集成模式知識級處理語義級檢索與索引領域知識模式知識對象和屬性抽取物理級底層特性處理設計圖7.4空間數據挖掘的體系結構對象級特征處理語義概念級處理用戶空間數據處理7.2空間群數據挖掘7.2.3空間數據挖掘的體系結構空間1347.3多媒體數據挖掘7.3.1多媒體數據挖掘的概念7.3.2多媒體數據挖掘的分類圖像數據挖掘視頻數據挖掘音頻數據挖掘7.3多媒體數據挖掘7.3.1多媒體數據挖掘的概念1357.3多媒體數據挖掘7.3.3多媒體數據挖掘的體系結構原始數據媒體數據攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學習索引的生成用戶圖7.5功能驅動的多媒體挖掘體系結構基于底層特性的索引與檢索元數據與數據抽取原則的分析信息集成模式知識級處理語義級檢索與索引領域知識模式知識對象級的索引與檢索物理級底層特性處理設計圖7.6信息驅動的多媒體挖掘的結構對象級特征處理語義概念級處理用戶多媒體處理7.3多媒體數據挖掘7.3.3多媒體數據挖掘的體系結構原始136第8章離群數據挖掘本章內容離群數據挖掘概念離群數據挖掘分類離群數據挖掘算法市場營銷離群數據的特點第8章離群數據挖掘本章內容137第8章離群數據挖掘8.1離群數據挖掘的概念8.2離群數據挖掘的分類基于統計學基于距離的方法基于偏移高維數據的離群數據探測基于規則的分類離群數據挖掘方法基于密度(density-based)的離群挖掘方法第8章離群數據挖掘8.1離群數據挖掘的概念1388.3離群數據挖掘的算法8.3.1基于統計的方法8.3.2基于距離的離群數據方法基于距離的離群數據定義基于距離的離群數據挖掘的算法分類及算法描述基于距離的算法的改進8.3.3基于偏離的離群數據挖掘序列離群數據技術

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論