決策支持系統(tǒng)的核心數(shù)據(jù)挖_第1頁(yè)
決策支持系統(tǒng)的核心數(shù)據(jù)挖_第2頁(yè)
決策支持系統(tǒng)的核心數(shù)據(jù)挖_第3頁(yè)
決策支持系統(tǒng)的核心數(shù)據(jù)挖_第4頁(yè)
決策支持系統(tǒng)的核心數(shù)據(jù)挖_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

決策支持系統(tǒng)的核心數(shù)據(jù)挖第一頁(yè),共七十九頁(yè),編輯于2023年,星期日0決策支持系統(tǒng)(DSS)數(shù)據(jù)模型推理知識(shí)決策人機(jī)交互第二頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘(DM)的產(chǎn)生背景隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,企業(yè)和組織積累的數(shù)據(jù)越來(lái)越多第三頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘(DM)的產(chǎn)生背景數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),從而出現(xiàn)“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象第四頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘(DM)的產(chǎn)生背景大量數(shù)據(jù)背后隱藏著許多重要的信息,企業(yè)和組織的管理決策者希望能夠?qū)ζ溥M(jìn)行更高層次的分析。第五頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘(DM)的產(chǎn)生背景GartnerGroup的一次高級(jí)技術(shù)調(diào)查結(jié)果將數(shù)據(jù)挖掘和人工智能列為“將對(duì)未來(lái)三到五年內(nèi)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)”之首;世界500強(qiáng)企業(yè)中80%都涉足數(shù)據(jù)挖掘的前瞻性研究。第六頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryfromDatabase,KDD),它是一個(gè)從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中抽取挖掘出隱含其中的、事先未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)雜過(guò)程,該過(guò)程如下圖所示。第七頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)清洗與集成任務(wù)相關(guān)數(shù)據(jù)集選擇與轉(zhuǎn)換數(shù)據(jù)挖掘評(píng)估與表示數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)知識(shí)第八頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成:數(shù)據(jù)庫(kù)技術(shù),統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),高性能計(jì)算,模式識(shí)別,神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)可視化,信息檢索,圖象與信號(hào)處理和空間數(shù)據(jù)分析。第九頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘任務(wù)一般分兩類:描述式數(shù)據(jù)挖掘:刻畫(huà)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的一般特性。預(yù)測(cè)式數(shù)據(jù)挖掘:在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。第十頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的功能概念描述(Conceptdescription):利用數(shù)據(jù)屬性中更廣義的(屬性)內(nèi)容對(duì)其進(jìn)行歸納和總結(jié)第十一頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的功能關(guān)聯(lián)分析(AssociationAnalysis):從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)第十二頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的功能分類(Classification):找出一組能夠描述數(shù)據(jù)集合典型特征的函數(shù),以便能夠識(shí)別未知數(shù)據(jù)的歸屬或類別,即將未知事例映射到某個(gè)離散類別第十三頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的功能聚類分析(ClusteringAnalysis):根據(jù)“各聚集(cluster)之內(nèi)數(shù)據(jù)對(duì)象的相似度最大化和各聚集之間數(shù)據(jù)對(duì)象相似度最小化”這一原則將數(shù)據(jù)對(duì)象劃分為若干組第十四頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的功能孤立點(diǎn)分析(OutlierAnalysis):尋找不符合大多數(shù)數(shù)據(jù)對(duì)象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對(duì)象第十五頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的功能演化分析(EvolutionAnalysis):對(duì)隨時(shí)間變化的數(shù)據(jù)對(duì)象的變化規(guī)律和趨勢(shì)進(jìn)行建模描述第十六頁(yè),共七十九頁(yè),編輯于2023年,星期日1數(shù)據(jù)挖掘的基本概念工具特點(diǎn)分析重點(diǎn)分析目的數(shù)據(jù)大小控制方式發(fā)展?fàn)顩r傳統(tǒng)數(shù)據(jù)分析工具回顧型、驗(yàn)證型已經(jīng)發(fā)生了什么從最近的銷售文件中列出最大客戶數(shù)據(jù)量和數(shù)據(jù)維度均是少量的企業(yè)管理人員、系統(tǒng)分析員、管理顧問(wèn)啟動(dòng)與控制成熟數(shù)據(jù)挖掘工具發(fā)現(xiàn)型、預(yù)測(cè)型解釋發(fā)生的原因、預(yù)測(cè)未來(lái)的情況鎖定未來(lái)的可能客戶,以減少未來(lái)的銷售成本數(shù)據(jù)量和數(shù)據(jù)維度均是龐大的數(shù)據(jù)與系統(tǒng)啟動(dòng),少量的控制人員發(fā)展中數(shù)據(jù)挖掘工具與傳統(tǒng)數(shù)據(jù)分析工具的比較第十七頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的基本概念關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。從大量商業(yè)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定,如分類設(shè)計(jì)、交叉購(gòu)物和促銷分析等。第十八頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則購(gòu)物籃分析購(gòu)物籃分析是關(guān)聯(lián)規(guī)則挖掘的最初形式假定作為某商店經(jīng)理,你想更加了解你的顧客的購(gòu)物習(xí)慣。例如:“什么商品組或集合顧客多半會(huì)在一次購(gòu)物時(shí)同時(shí)購(gòu)買?”。為解答這個(gè)問(wèn)題,可以在商店顧客事務(wù)零售數(shù)據(jù)上運(yùn)行購(gòu)物籃分析。分析的結(jié)果可用于市場(chǎng)規(guī)劃、廣告策劃和分類設(shè)計(jì)。第十九頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則購(gòu)物籃分析若設(shè)商店中所有銷售商品為一個(gè)集合,則每個(gè)商品均為一個(gè)布爾變量,表示該商品是否被(一個(gè))顧客購(gòu)買。因此每個(gè)購(gòu)物籃就可以用一個(gè)布爾向量表示。第二十頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則購(gòu)物籃分析分析相應(yīng)布爾向量,得到反映商品頻繁關(guān)聯(lián)或同時(shí)購(gòu)買的購(gòu)買模式,并可用關(guān)聯(lián)規(guī)則的形式表示模式。例如,購(gòu)買計(jì)算機(jī)也趨向于同時(shí)購(gòu)買財(cái)務(wù)管理軟件可用以下關(guān)聯(lián)規(guī)則表示:第二十一頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則購(gòu)物籃分析關(guān)聯(lián)規(guī)則的支持度(support)2%表示分析中的全部事務(wù)的2%同時(shí)購(gòu)買計(jì)算機(jī)和財(cái)務(wù)管理軟件。關(guān)聯(lián)規(guī)則的置信度(confidence)60%表示:購(gòu)買計(jì)算機(jī)的顧客60%也購(gòu)買財(cái)務(wù)管理軟件。第二十二頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法Apriori算法是根據(jù)有關(guān)頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)而命名。該算法使用一種逐層搜索的迭代方法,利用k-項(xiàng)集探索(k+1)-項(xiàng)集。具體做法:首先找出頻繁1-項(xiàng)集的集合,記為L(zhǎng)1;再用L1找頻繁2-項(xiàng)集的集合L2;再用L2找L3…如此下去,直到不能找到頻繁k-項(xiàng)集為止。找每個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描。第二十三頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法Apriori算法的有效性,在于它利用了一個(gè)非常重要的原理,即Apriori性質(zhì):如果一個(gè)項(xiàng)集是頻繁的,則這個(gè)項(xiàng)集的任意一個(gè)非空子集都是頻繁的。Apriori性質(zhì)基于如下觀察:如果項(xiàng)集I不滿足最小支持度閾值min_sup,則I不是頻繁的。如果增加項(xiàng)A到I,則結(jié)果項(xiàng)集不可能比I更頻繁出現(xiàn)。因此,也不是頻繁的。第二十四頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法該性質(zhì)屬于一種特殊的分類,也稱作反單調(diào)性。意指如果一個(gè)集合不能通過(guò)測(cè)試,則它的所有超集也都不能通過(guò)相同的測(cè)試。反單調(diào)性能迅速減值,提高搜索頻繁項(xiàng)集的處理效率。第二十五頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法整個(gè)過(guò)程由連接和剪枝兩步組成,即連接步:為找Lk,可通過(guò)Lk-1與自己連接,產(chǎn)生一個(gè)候選k-項(xiàng)集的集合,該候選項(xiàng)集的集合記作Ck

。剪枝步確定頻繁項(xiàng)集連接步產(chǎn)生候選項(xiàng)集第二十六頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法設(shè)l1和l2是Lk-1中的項(xiàng)集,記號(hào)li[j]表示li的第j項(xiàng)。為方便計(jì),假定事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序。執(zhí)行連接,其中Lk-1的元素是可連接的,如果它們前(k-2)個(gè)項(xiàng)相同。Lk-1Lk-1第二十七頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法即Lk-1的元素l1和l2是可連接的,如果(l1[1]=l2[1]∧l1[2]=l2[2]∧…∧l1[k-2]=l2[k-2]∧l1[k-1]<l2[k-1])。條件(l1[k-1]<l2[k-1])可確保不產(chǎn)生重復(fù)的項(xiàng)集。第二十八頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法剪枝步Ck是Lk的超集,即它的成員不一定都是頻繁項(xiàng)集,但所有的頻繁k-項(xiàng)集都包含在Ck中掃描數(shù)據(jù)庫(kù),確定Ck中每個(gè)候選項(xiàng)集的計(jì)數(shù),從而確定Lk。然而,Ck可能很大,這樣所涉及的計(jì)算量就很大。第二十九頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法剪枝步為了壓縮Ck

,可利用Apriori性質(zhì):任何非頻繁的(k-1)-項(xiàng)集都不可能是頻繁k-項(xiàng)集的子集。因此,若一個(gè)候選k-項(xiàng)集的(k-1)-項(xiàng)子集不在Lk-1中,則該候選也不可能是頻繁的,從而可以從Ck

中刪除。第三十頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則【例】一個(gè)Apriori的具體例子,該例基于右圖某商店的事務(wù)DB。DB中有9個(gè)事務(wù),Apriori假定事務(wù)中的項(xiàng)按字典次序存放。TID項(xiàng)ID的列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3第三十一頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(1)在算法的第一次迭代,每個(gè)項(xiàng)都是候選1-項(xiàng)集的集合C1的成員。算法簡(jiǎn)單地掃描所有的事務(wù),對(duì)每個(gè)項(xiàng)的出現(xiàn)次數(shù)計(jì)數(shù)。掃描D,對(duì)每個(gè)候選計(jì)數(shù)項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2C1第三十二頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(2)設(shè)最小支持計(jì)數(shù)為2,可以確定頻繁1-項(xiàng)集的集合Lk-1。它由具有最小支持度的候選1-項(xiàng)集組成。項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)L1第三十三頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(3)為發(fā)現(xiàn)頻繁2-項(xiàng)集的集合L2,算法使用產(chǎn)生候選2-項(xiàng)集集合C2。L1L1項(xiàng)集{I1,I2}{I1,I3}{I1,I4}{I1,I5}{I2,I3}{I2,I4}{I2,I5}{I3,I4}{I3,I5}{I4,I5}C2由L1產(chǎn)生候選C2第三十四頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(4)掃描D中事務(wù),計(jì)算C2中每個(gè)候選項(xiàng)集的支持計(jì)數(shù)。項(xiàng)集支持度計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I4}0{I3,I5}1{I4,I5}0掃描D,對(duì)每個(gè)候選計(jì)數(shù)C2第三十五頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(5)確定頻繁2-項(xiàng)集的集合L2,它由具有最小支持度的C2中的候選2-項(xiàng)集組成。項(xiàng)集支持度計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)L2第三十六頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(6)候選3-項(xiàng)集的集合C3的產(chǎn)生如下:

①連接:

C3=

=

{{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}}{{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},I2,I5}}=

{{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}L2L2第三十七頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(6)候選3-項(xiàng)集的集合C3的產(chǎn)生如下:

②利用Apriori性質(zhì)剪枝:頻繁項(xiàng)集的所有子集必須是頻繁的。存在候選項(xiàng)集,判斷其子集是否頻繁。

{I1,I2,I3}的2-項(xiàng)子集是{I1,I2},{I1,I3}和{I2,I3},它們都是L2的元素。因此保留{I1,I2,I3}在C3中。{I1,I2,I5}的2-項(xiàng)子集是{I1,I2},{I1,I5}和{I2,I5},它們都是L2的元素。因此保留{I1,I2,I5}在C3中。第三十八頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(6)候選3-項(xiàng)集的集合C3的產(chǎn)生如下:

{I1,I3,I5}的2-項(xiàng)子集是{I1,I3},{I1,I5}和{I3,I5},{I3,I5}不是L2的元素,因而不是頻繁的,由C3中刪除{I1,I3,I5}。

{I2,I3,I4}的2-項(xiàng)子集是{I2,I3},{I2,I4}和{I3,I4},其中{I3,I4}不是L2的元素,因而不是頻繁的,由C3中刪除{I2,I3,I4}。第三十九頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(6)候選3-項(xiàng)集的集合C3的產(chǎn)生如下:

{I2,I3,I5}的2-項(xiàng)子集是{I2,I3},{I2,I5}和{I3,I5},其中{I3,I5}不是L2的元素,因而不是頻繁的,由C3中刪除{I2,I3,I5}。{I2,I4,I5}的2-項(xiàng)子集是{I2,I4},{I2,I5}和{I4,I5},其中{I4,I5}不是L2的元素,因而不是頻繁的,由C3中刪除{I2,I4,I5}。③這樣,剪枝后C3

=

{{I1,I2,I3},{I1,I2,I5}}。第四十頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(7)掃描D中事務(wù),以確定L3,它由具有最小支持度的C3中的候選3-項(xiàng)集組成。項(xiàng)集{I1,I2,I3}{I1,I2,I5}由L2產(chǎn)生候選C3C3掃描D,對(duì)每個(gè)候選計(jì)數(shù)項(xiàng)集支持度計(jì)數(shù){I1,I2,I3}2{I1,I2,I5}2C3第四十一頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則(8)算法使用產(chǎn)生候選4-項(xiàng)集的集合C4。盡管連接產(chǎn)生結(jié)果{{I1,I2,I3,I5}},這個(gè)項(xiàng)集將被剪去,因?yàn)樗淖蛹瘂I2,I3,I5}不是頻繁的。則C4

=,因此算法終止,找出了所有的頻繁項(xiàng)集。項(xiàng)集支持度計(jì)數(shù){I1,I2,I3}2{I1,I2,I5}2比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)L3L3L3ψ第四十二頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法基于上例結(jié)果,假定數(shù)據(jù)包含頻繁項(xiàng)集l={I1,I2,I5}。可以由l產(chǎn)生哪些關(guān)聯(lián)規(guī)則?l的非空子集有{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}和{I5},則結(jié)果關(guān)聯(lián)規(guī)則如下(每個(gè)都列出置信度)。第四十三頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法%%%%%第四十四頁(yè),共七十九頁(yè),編輯于2023年,星期日2數(shù)據(jù)挖掘功能——關(guān)聯(lián)規(guī)則Apriori算法如果最小置信度閾值為70%,那么只有第2、3、6個(gè)規(guī)則可以作為最終的輸出,因?yàn)橹挥羞@些是產(chǎn)生的強(qiáng)規(guī)則。第四十五頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)分類與預(yù)測(cè)的基本知識(shí)基于判定樹(shù)的分類簡(jiǎn)單貝葉斯分類第四十六頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)分類與預(yù)測(cè)的基本知識(shí)分類和預(yù)測(cè)是數(shù)據(jù)分析的兩種形式,可以用來(lái)提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)分類:預(yù)測(cè)離散或分類屬性預(yù)測(cè):預(yù)測(cè)連續(xù)或有序值第四十七頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)分類與預(yù)測(cè)的基本知識(shí)數(shù)據(jù)分類(1)學(xué)習(xí):建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型。該模型是通過(guò)對(duì)DB中元組屬性的分析而構(gòu)造的。假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由類標(biāo)號(hào)屬性確定。為建立模型所使用的元組形成訓(xùn)練數(shù)據(jù)集。其中的單個(gè)元組稱作訓(xùn)練樣本,并隨機(jī)地從樣本群體中選取。由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),該步也稱作有指導(dǎo)的學(xué)習(xí)第四十八頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)分類與預(yù)測(cè)的基本知識(shí)數(shù)據(jù)分類通常學(xué)習(xí)模型用分類規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供例如:給定一個(gè)顧客信用信息DB,通過(guò)學(xué)習(xí)獲得的分類規(guī)則,可用于識(shí)別顧客是否具有良好的信用等級(jí)或一般的信用等級(jí)第四十九頁(yè),共七十九頁(yè),編輯于2023年,星期日姓名年齡收入信用等級(jí)王明<=30低良張小麗<=30低優(yōu)許永新31-40高優(yōu)陳進(jìn)>40中良方菲>40中良劉力音31-40高優(yōu)…………訓(xùn)練數(shù)據(jù)分類算法分類規(guī)則if年齡=“31-40”

and

收入=“高”

then信用等級(jí)=“優(yōu)”(1)學(xué)習(xí):用分類算法分析訓(xùn)練數(shù)據(jù)類標(biāo)號(hào)屬性是信用等級(jí),學(xué)習(xí)模型以分類規(guī)則形式提供第五十頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)分類與預(yù)測(cè)的基本知識(shí)數(shù)據(jù)分類(2)分類:使用學(xué)習(xí)得到的模型進(jìn)行分類。首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率。有多種方法可以用來(lái)評(píng)估分類的準(zhǔn)確率,保持(holdout)方法是一種利用類標(biāo)號(hào)樣本測(cè)試集的簡(jiǎn)單方法。這些樣本隨機(jī)選取,并獨(dú)立于訓(xùn)練樣本。對(duì)于每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)與學(xué)習(xí)所獲模型的預(yù)測(cè)類別進(jìn)行比較。模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比第五十一頁(yè),共七十九頁(yè),編輯于2023年,星期日姓名年齡收入信用等級(jí)蘇寺華>40高良汪洋<=30低良劉賓31-40高優(yōu)…………(2)分類:測(cè)試數(shù)據(jù)用于評(píng)估分類規(guī)則的準(zhǔn)確率(若準(zhǔn)確率可以接受,則規(guī)則可用于新的數(shù)據(jù)元組分類)測(cè)試數(shù)據(jù)分類規(guī)則新數(shù)據(jù)(劉賓,31-40,高)信用等級(jí)??jī)?yōu)第五十二頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)分類與預(yù)測(cè)的基本知識(shí)數(shù)據(jù)預(yù)測(cè)預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)標(biāo)號(hào)樣本類,或評(píng)估給定樣本可能具有的屬性值或值區(qū)間為了提高分類與預(yù)測(cè)過(guò)程的準(zhǔn)確性、有效性和可伸縮性,可對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。一般使用:數(shù)據(jù)清理,相關(guān)性分析,數(shù)據(jù)變換(概念分層或規(guī)范化)第五十三頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類判定樹(shù)判定樹(shù)是一個(gè)類似流程圖的樹(shù)型結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹(shù)葉節(jié)點(diǎn)代表類或類分布判定樹(shù)歸納是構(gòu)造判定樹(shù)的基本算法。在判定樹(shù)構(gòu)造時(shí),許多分枝可能反映的是訓(xùn)練數(shù)據(jù)中的噪聲或孤立點(diǎn)。可用樹(shù)剪枝方法檢測(cè)和剪去這類分枝,以提高在未知數(shù)據(jù)上分類的準(zhǔn)確性第五十四頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類(1)判定樹(shù)歸納:以自頂向下遞歸的分而治之方式構(gòu)造判定樹(shù)。算法的基本策略如下:判定樹(shù)以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開(kāi)始若一個(gè)節(jié)點(diǎn)的樣本均為同一類別,則該節(jié)點(diǎn)成為樹(shù)葉,并用該類進(jìn)行標(biāo)記第五十五頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類(1)判定樹(shù)歸納:否則,算法使用信息增益度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性,作為該節(jié)點(diǎn)的“測(cè)試”屬性。在此算法中,所有的屬性都是分類的,即取離散值。對(duì)連續(xù)值的屬性必須離散化對(duì)測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分枝,并具此劃分樣本第五十六頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類(1)判定樹(shù)歸納:算法使用同樣的過(guò)程,遞歸地形成每個(gè)劃分上的樣本判定樹(shù)。一個(gè)屬性一旦出現(xiàn)在某個(gè)節(jié)點(diǎn)上,就不再考慮該節(jié)點(diǎn)的任何后代遞歸劃分操作僅當(dāng)下列條件之一成立時(shí)停止:a)給定節(jié)點(diǎn)的所有樣本屬于同一類b)沒(méi)有剩余屬性可用來(lái)進(jìn)一步劃分樣本c)測(cè)試屬性的一個(gè)分枝沒(méi)有樣本第五十七頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類(2)屬性選擇方法:在判定樹(shù)的每個(gè)節(jié)點(diǎn)上使用信息增益度量選擇測(cè)試屬性。選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性,可以使結(jié)果劃分中的樣本分類需要的信息量最小,并反映劃分的最小隨機(jī)性。這種信息論方法使得對(duì)一個(gè)對(duì)象分類所需的期望測(cè)試數(shù)目達(dá)到最小,并確保找到一棵簡(jiǎn)單的樹(shù)。第五十八頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類信息增益度量設(shè)S是訓(xùn)練樣本的集合,其中每個(gè)樣本的類標(biāo)號(hào)已知假定有m個(gè)類,設(shè)S包含si個(gè)Ci類樣本,i=1,2,…,m任意一個(gè)樣本屬于類Ci的可能性為si/s,其中s是集合S中樣本的總數(shù)。第五十九頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類信息增益度量一個(gè)決策樹(shù)可用于對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類,因此決策樹(shù)可以看成是Ci的一個(gè)信息源,為產(chǎn)生相應(yīng)信息需要的信息熵(entropy)為:第六十頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類信息增益度量若屬性A的取值為{a1,a2,…,an},且該屬性用作決策樹(shù)的一個(gè)結(jié)點(diǎn)時(shí),則可將S劃分為子集{S1,S2,…,Sn}。其中Sj包含屬性A取同一值aj的數(shù)據(jù)行。記sij為Sj包含類Ci的樣本個(gè)數(shù)。第六十一頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類信息增益度量根據(jù)屬性A的取值對(duì)當(dāng)前數(shù)據(jù)集劃分所獲得的信息就稱為屬性A的熵。它的計(jì)算公式如下:第六十二頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類信息增益度量A上該劃分得到的信息增益定義為::第六十三頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類(2)屬性選擇方法:判定樹(shù)歸納算法計(jì)算每個(gè)屬性的信息增益,并挑選具有最高信息增益的屬性作為給定集合的測(cè)試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記。對(duì)屬性的每個(gè)值創(chuàng)建分枝,并據(jù)此劃分樣本。第六十四頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類【例】下表給出一個(gè)商場(chǎng)顧客DB數(shù)據(jù)元組訓(xùn)練集,類標(biāo)號(hào)屬性buys_compute有兩個(gè)不同值,即{yes,no},因此訓(xùn)練集中有兩個(gè)不同的類(m=2)。設(shè)類C1對(duì)應(yīng)于yes,而類C2對(duì)應(yīng)no。類C1有9個(gè)樣本,類C2有5個(gè)樣本。我們用前面的一組公式計(jì)算每個(gè)屬性的信息增益。第六十五頁(yè),共七十九頁(yè),編輯于2023年,星期日RID年齡收入學(xué)生信用級(jí)購(gòu)買電腦1<=30高No良No2<=30高No優(yōu)No331–40高No良Yes4>40中No良Yes5>40低Yes良Yes6>40低Yes優(yōu)No731–40低Yes優(yōu)Yes8<=30中No良No9<=30低Yes良Yes10>40中Yes良Yes11<=30中Yes優(yōu)Yes1231–40中No優(yōu)Yes1331–40高Yes良Yes14>40中No優(yōu)No第六十六頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類首先計(jì)算給定樣本分類所需的信息增益:接著計(jì)算每個(gè)屬性的熵,從屬性age開(kāi)始:第六十七頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類若樣本按age劃分,對(duì)一個(gè)給定的樣本分類所需的期望信息為:這種劃分的信息增益是:第六十八頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類類似地,可計(jì)算:由于age在屬性中具有最高信息增益,它被選作測(cè)試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),用age標(biāo)記,并對(duì)每個(gè)屬性值引出一個(gè)分枝。樣本據(jù)此劃分,見(jiàn)下圖:第六十九頁(yè),共七十九頁(yè),編輯于2023年,星期日收入學(xué)生?信用級(jí)購(gòu)買?高No良No高No優(yōu)No中No良No低Yes良Yes中Yes優(yōu)Yes收入學(xué)生?信用級(jí)購(gòu)買?中No良Yes低Yes良Yes低Yes優(yōu)No中Yes良Yes中No優(yōu)No收入學(xué)生?信用級(jí)購(gòu)買?高No良Yes低Yes優(yōu)Yes中No優(yōu)Yes高Yes良Yes年齡?<=30>3031-40第七十頁(yè),共七十九頁(yè),編輯于2023年,星期日年齡?學(xué)生?信用級(jí)?yesyesyesnono<=3031…40>40noyes良優(yōu)算法返回的最終判定樹(shù)如下:第七十一頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類判定樹(shù)歸納算法被廣泛應(yīng)用到許多進(jìn)行分類識(shí)別的應(yīng)用領(lǐng)域,這類算法無(wú)需相關(guān)領(lǐng)域知識(shí)。歸納的學(xué)習(xí)與分類識(shí)別的操作處理速度較快,相應(yīng)的分類準(zhǔn)確率較高。第七十二頁(yè),共七十九頁(yè),編輯于2023年,星期日3數(shù)據(jù)挖掘功能——分類與預(yù)測(cè)基于判定樹(shù)的分類(3)樹(shù)剪枝:在判定樹(shù)構(gòu)造時(shí),許多分枝可能反映的是訓(xùn)練數(shù)據(jù)中的噪聲或孤立點(diǎn)。可用樹(shù)剪枝

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論