




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘與決策支持
課程目標數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘與企業(yè)決策支持的關(guān)系數(shù)據(jù)挖掘的一些基本工具與算法數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘軟件1.數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展數(shù)據(jù)?數(shù)據(jù)挖掘技術(shù)的由來從技術(shù)的角度來看:數(shù)據(jù)挖掘被稱為繼網(wǎng)絡之后的下一個技術(shù)熱點;從生產(chǎn)的角度來看:由于人工費用提升,產(chǎn)品和服務成本降低,管理和服務過程的信息化是必然的。從數(shù)據(jù)的管理和利用來看:單純的存取功能不再適應,待管理的數(shù)據(jù)量正在以指數(shù)增長。
《紐約時報》由60年代的10~20版擴張至現(xiàn)在的100~200版,最高曾達1572版;《北京青年報》也已是16~48版;國家圖書館有1000萬冊圖書,一個公司就可能擁有這些數(shù)據(jù);統(tǒng)計流程控制通過成千上萬個傳感器不斷讀取和記錄數(shù)據(jù);電話系統(tǒng),網(wǎng)絡系統(tǒng)一個月的記錄可能需要1012條記錄超過1000gigabyte。數(shù)據(jù)的突出特點產(chǎn)生的問題信息過量;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理。
進化階段商業(yè)問題
支持技術(shù)
產(chǎn)品廠家產(chǎn)品特點
數(shù)據(jù)搜集
(60年代)
“過去十年中企業(yè)的總收入是多少?”
計算機、磁帶和磁盤
IBM,CDC
提供歷史性的、靜態(tài)的數(shù)據(jù)信息
數(shù)據(jù)訪問
(80年代)
“廣州分公司去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫RDBMS,結(jié)構(gòu)化查詢語言SQL)ODBCOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息
數(shù)據(jù)倉庫;決策支持
(90年代)
“去年三月深圳的銷售是多少?廣州據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理OLAP多維數(shù)據(jù)庫、數(shù)據(jù)倉庫
Pilot、Comshare、Arbor、Cognos、Microstrategy
在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息
數(shù)據(jù)挖掘
正在流行…
“下個月廣州的銷售會怎么樣?為什么?”高級算法、多處理器計算機、海量數(shù)據(jù)庫
Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司
預測模式
數(shù)據(jù)挖掘的演變過程機器學習類神經(jīng)網(wǎng)絡知識發(fā)現(xiàn)數(shù)據(jù)挖掘60年代70年代80年代90年代數(shù)據(jù)可以產(chǎn)生商業(yè)價值可以想象在老年雜志上登載怎樣的廣告?如何防止信用卡盜用?地質(zhì)采礦嬰兒紙尿布和啤酒的故事數(shù)據(jù)據(jù)挖挖掘掘的的定定義義.Dataminingisthenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata.—Fayyad.Dataminingistheprocessofextractingpreviouslyunknown,comprehensible,andactionableinformationformlargedatabasesandusingittomakecrucialbusinessdecisions.—Zekulin遠古古至至今今即即存存在在數(shù)據(jù)據(jù)挖挖掘掘月暈暈知風風晚上上起起霧霧第二二天天晴晴天天看到到媽媽媽媽拿拿鞭鞭子子逃跑這些些在在我我們們的的傳傳統(tǒng)統(tǒng)用用法法稱稱之之為為::經(jīng)驗驗法法則則數(shù)據(jù)據(jù)挖挖掘掘--從大大量量數(shù)數(shù)據(jù)據(jù)中中尋尋找找規(guī)規(guī)律律技技術(shù)術(shù),,是是統(tǒng)統(tǒng)計計學學、、數(shù)數(shù)據(jù)據(jù)庫庫技技術(shù)術(shù)和和人人工工智智能能技技術(shù)術(shù)等等的的綜綜合合。。數(shù)據(jù)據(jù)挖挖掘掘的功功能能分類類:DecisionTree,NeuralNetworketc.推估估:Regression&NeuralNetworketc.預測測:DecisionTree,NeuralNetworketc.關(guān)聯(lián)聯(lián)分分組組:GRI,Apriorietc.聚類類:K-means&KohonenNetwork需要要數(shù)數(shù)據(jù)據(jù)挖挖掘掘的的5條條理理由由Largenumberofrecords(cases)(108-1012bytes)Highdimensionaldata(variables)(10-104attributes)Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed.Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthefuturemaybemissing.Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).數(shù)據(jù)據(jù)挖挖掘掘的的重重要要性性TechnologyReview雜志志2002年年公公布布改改變變未未來來的的十十項項新新興興趨趨勢勢::–機機器器與與人人腦腦的的接接口口–塑塑料料晶晶體體管管–數(shù)據(jù)據(jù)挖挖掘掘(Datamining)–數(shù)字字權(quán)權(quán)利利管管理理–生生物物測測量量學學(Biometrics)–語音音識識別別處處理理–微微光光學學技技術(shù)術(shù)(Microphotonics)–破解解程程序序代代碼碼(Untanglingcode)–機器器人人設設計計–微微應應用用流流體體學學(Microfluidics)數(shù)據(jù)據(jù)挖挖掘掘與與數(shù)數(shù)據(jù)據(jù)查查詢詢表面面知知識識((ShallowKnowledge))::可以以利利用用數(shù)數(shù)據(jù)據(jù)庫庫查查詢詢語語言言找找到到所有有使使用用信信用用卡卡購購買買烤烤箱箱的的某某大大型型商商場場的的客客戶戶列列表表。。多維維的的知知識識((Multidimensionalknowledge))::多表表的的連連接接操操作作跨國國電電信信公公司司的的客客戶戶呼呼叫叫模模式式分分析析::話話費費清清單單,,客客戶戶帳帳戶戶數(shù)數(shù)據(jù)據(jù)等等。。隱藏藏的的知知識識((Hiddenknowledge))將不不良良風風險險的的人人和和能能按按時時還還貸貸的的人人區(qū)區(qū)分分開開來來。。地下下知知識識((Deepknowledge))電信信公公司司的的長長話話業(yè)業(yè)務務數(shù)數(shù)據(jù)據(jù)分分布布數(shù)據(jù)據(jù)挖挖掘掘與與專專家家系系統(tǒng)統(tǒng)數(shù)據(jù)據(jù)挖挖掘掘并并不不總總是是有有效效,,特特別別沒沒有有優(yōu)優(yōu)質(zhì)質(zhì)的的數(shù)數(shù)據(jù)據(jù)來來源源,,數(shù)數(shù)據(jù)據(jù)挖挖掘掘可可以以被被由由一一個個或或多多個個模模仿仿專專家家解解決決問問題題的的程程序序部部分分代代替替。。專家系統(tǒng)統(tǒng)數(shù)據(jù)數(shù)據(jù)挖掘掘工具知識,規(guī)規(guī)則2.數(shù)據(jù)據(jù)挖掘的的應用數(shù)據(jù)挖掘掘客戶分析析基分因其他保險客戶戶證券客戶戶銀行客戶戶電信客戶戶零售客戶戶信用卡儲蓄卡存折按揭借貸人類基因因植物基因因動物基因因特殊群體體基因基因序列列基因表達達譜基因功能能基因制藥藥………...數(shù)據(jù)挖掘掘在中國國內(nèi)地市市場規(guī)模模未來五五年內(nèi)將將達百億億科學研究究天文學::SKICAT基因工程程:GRAIL,GeneID,Geneparser人類基因因植物基因因動物基因因特殊群體體基因基因序列列基因表達達譜基因功能能基因制藥藥………...商業(yè)領(lǐng)域域的數(shù)據(jù)據(jù)挖掘作為研發(fā)發(fā)工具:制藥業(yè)業(yè)predicttheeffectivenessofsurgicalproceduremedicaltestmedication改進生產(chǎn)產(chǎn)過程:6市場營銷銷.客戶關(guān)系系管理.金融投資資欺詐甄別別EstablishedLoyalsShareofcustomersShareofprofits3%8%DevelopingLoyalsIDevelopingLoyalsIIBorrowingPotentialsCardbillMultipleaccountholdingiscommonLongrelationshiptimeHightransactionactivitiesHighphonebankingusageShareofcustomersShareofprofits9%44%Highestassetbalanceacrosssegments25%ofsegmenthashighbankassetsLiabilitieslowShareofcustomersShareofprofits12%13%HighestlevelofmultipledepositaccountholdingAverageaccountbalanceveryhighMeanageis45ShareofcustomersShareofprofits10%12%AllholdcreditcardsMosthaveloansinsmallamountsDepositbalancelow客戶細分分Web挖掘文檔的自自動分類類幫助尋找找用戶感感興趣的的新聞設計電子子新聞和和垃圾郵郵件過濾濾系統(tǒng)市場營銷銷Marketing-who’slikelytobuy?Forecasts-whatdemandwillwehave?Loyalty-who’slikelytodefect?Credit-whichloanswereprofitable?Fraud-whendiditoccur?數(shù)據(jù)挖掘掘與決策策支持業(yè)務數(shù)據(jù)據(jù)交易數(shù)據(jù)據(jù)外部數(shù)據(jù)據(jù)數(shù)據(jù)倉庫庫決策支持持系統(tǒng)MarketingPhoneCentersalesIVR(MDBMS)數(shù)據(jù)分析顧客分析析行銷管理理挑選客戶戶名冊產(chǎn)品分析析應用系統(tǒng)統(tǒng)客服行銷銷3.數(shù)據(jù)據(jù)挖掘的的流程((6步法法)如何定義義有興趣趣的模式式從人口數(shù)數(shù)據(jù)庫中中很容易易得到如如下的知知識或規(guī)規(guī)則:如果“某某人的家家庭角色色是丈夫夫”=>“此人人的性別別是男性性”;Datamining=““garbagein,garbageout”?數(shù)據(jù)挖掘掘流程與與美食制制作蘆筍百合合六步之一一:商業(yè)業(yè)理解商業(yè)目標標問題范圍圍可能的解解決方案案以及各各自的優(yōu)優(yōu)缺點花費時間間:20%~30%重要性:電信行業(yè)業(yè)幾個重重要的營營銷問題題:個別消費費者通話模式式高利潤的的服務六步之二二:數(shù)據(jù)據(jù)理解數(shù)據(jù)概念念描述((格式等等);收集數(shù)據(jù)據(jù);數(shù)據(jù)探索索性研究究;花費時間間:20%~30%重要性:通話明細細數(shù)據(jù)可可以從以以下幾個個渠道獲獲得:直接交換換機記錄錄(directswitchrecording)計費系統(tǒng)統(tǒng)的輸入入數(shù)據(jù)(inputsintothebillingsystem)。數(shù)據(jù)倉儲儲提供的的基礎數(shù)數(shù)據(jù)(Datawarehousefeeds)。。其他有關(guān)關(guān)客戶的的數(shù)據(jù)六步之三三:數(shù)據(jù)據(jù)準備花費時間間:50%~70%重要性:數(shù)據(jù)清理理;數(shù)據(jù)轉(zhuǎn)換換;數(shù)據(jù)整合合;格式化數(shù)數(shù)據(jù)六步之四四:建立立模型與與模式數(shù)據(jù)的描描述與匯匯總細分分類預測關(guān)聯(lián)更深層次次的問題題是:哪哪些客戶戶對價格格比價敏敏感有監(jiān)督的的數(shù)據(jù)挖挖掘(學學習)用歸納形形成概念念模型,,使用模模型幫助助區(qū)分結(jié)結(jié)構(gòu)相似似的對象象。這類類學習稱稱為基于于歸納的的有指導導的概念念學習(supervisedlearning)有監(jiān)督的的數(shù)據(jù)挖挖掘模型型例根據(jù)歷史史行銷記記錄,推推測誰最最有可能能對我們們下一次次推薦產(chǎn)產(chǎn)品做出出響應。根據(jù)經(jīng)驗驗,最合合適的醫(yī)醫(yī)療處方方是什么么?下一個最最有可能能被淘汰的機器是是哪一種種型號??在未來的的六個月月里,哪哪些客戶戶最有可可能離開?根據(jù)歷史史欺詐,,哪些交交易行為為最有可可能發(fā)生生欺詐?某人申請請信用卡卡或某項項保險的的資格是是否可以以獲批?Diagonosis=咽炎NoYesYesNo淋巴腫發(fā)燒感冒敏感癥無監(jiān)督的的數(shù)據(jù)挖挖掘無監(jiān)督的的數(shù)據(jù)挖挖掘是在在數(shù)據(jù)中中尋找新新的模式式。這些些模式使使我們更更深入地地了解數(shù)數(shù)據(jù),了了解數(shù)據(jù)據(jù)本身就就有可能能生成有有用的信信息。無監(jiān)督數(shù)數(shù)據(jù)挖掘掘和有監(jiān)監(jiān)督的數(shù)數(shù)據(jù)挖掘掘在數(shù)據(jù)據(jù)挖掘中中是同等等的重要要。無監(jiān)監(jiān)督的數(shù)數(shù)據(jù)挖掘掘經(jīng)常用用于數(shù)據(jù)據(jù)探索階階段。比比如,數(shù)數(shù)據(jù)中有有什么??它描述述了怎樣樣的信息息?數(shù)據(jù)據(jù)中是否否存在不不尋常的的模式??數(shù)據(jù)對對客戶細細分有怎怎樣的建建議?哪些產(chǎn)品品應根據(jù)據(jù)指定目目錄放在在一起??找到對書書籍和音音樂方面面,有相相同品位位的讀者者和聽眾眾。為市場行行銷人員員找到真真正的客客戶群體體。35.00<=Age<=43.00andLifeInsPromo=Yes:ruleaccuracy100.00%:rulecoverage100.00%35.00<=Age<=43.00andMagazinePromo=Yes:ruleaccuracy85.71%:rulecoverage85.71%六步之五五:模型型評價累計增益益圖ROC曲線錯誤不對對稱六步之六六:結(jié)果果發(fā)布發(fā)布結(jié)果果計劃監(jiān)測和維維護模型型計劃報表發(fā)布布4.一一個目錄錄直銷的的例子目錄直銷銷業(yè)常見見的幾個個目標增加顧客客響應度度;增加總收收入;降低郵寄寄費用;;增加利潤潤;激發(fā)潛在在顧客的的活力;;較高的訂訂單金額額和較低低的退貨貨率;案例背景景SAM是一家從從事禮品品、花卉卉以及提提供園藝藝工具的的目錄服服務公司司。這家家企業(yè)在在美國有有10年年以上的的成功經(jīng)經(jīng)營歷史史,積攢攢了35610個客戶戶,SAM發(fā)現(xiàn)最近近目錄響響應率在在不斷下下降,公公司希望望能找到到影響客客戶響應應的關(guān)鍵鍵因素,,同時希希望擴展展其客戶戶群體。。RFM分分析R:RecencyF:FrequencyM:Monetary第一步::定義變變量:R:Lstpurch:自最后一一次購買買以來的的月數(shù)F:Nunpurch:最近36個月內(nèi)內(nèi)購買的的次數(shù)M:Totpurch:最近36個月內(nèi)內(nèi)消費總總量第二步::客戶行行為模式式分布60%以以上的客客戶很長長時間沒沒有購買買產(chǎn)品很大比例例的客戶戶過去一一年里購購買次數(shù)數(shù)在2到到4之間間大約85%的客客戶少于于5次80%的的年度總總消費金金額在$100以下,,幾乎85%的的客戶低低于$300。。SAM客戶的購購買習慣慣分析第三步::將響應應率與這這些因素素進行比比較:比較的方方法:一一比較較交叉列聯(lián)聯(lián)最近購買買行為是是一個影影響響應應率最為為出色的的變量??!第四步::滲透分分析要點:外部數(shù)據(jù)據(jù)(人口口數(shù)據(jù))):年齡居住時間間等客戶百分比市場百分比X100滲透指數(shù)=最后一步步:制訂決策策:目標標市場定定位于年年齡在35-44歲的的客戶。。AnyProblem??5.數(shù)據(jù)據(jù)挖掘的的基本算算法Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡絡NeuralNetworks聚類分析析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分分析SequenceAnalysis決策樹樹DecisionTrees傾向性性分析析客戶保保留客戶生生命周周期管管理目標市市場價格彈彈性分分析客戶細細分市場細細分傾向性性分析析客戶保保留目標市市場欺詐檢檢測關(guān)聯(lián)分分析Association市場組組合分分析套裝產(chǎn)產(chǎn)品分分析目錄設設計交叉銷銷售1)決決策樹樹模型型實例用用“屬屬性-值””對表表示的的;目標函函數(shù)有有離散散的輸輸出值值:分分類問問題;;有完整整的規(guī)規(guī)則表表達式式,解解釋性性強;;訓練數(shù)數(shù)據(jù)可可以允允許有有錯誤誤或缺缺失存存在;;例:垃垃圾郵郵件的的識別別問題題YYYYYYYYYNNNNNNNNNNNNYYYYYNN¥%#^*~等字符符出現(xiàn)現(xiàn)的頻頻數(shù)?!+&等等字符符出現(xiàn)現(xiàn)的頻頻數(shù)2)關(guān)聯(lián)規(guī)規(guī)則(AssociationRule)同一個個交易易中,,一個個item出現(xiàn)也會引引起另另一個個item的出現(xiàn)Associationrule例子若顧客客購買買面包包,則則他很很可能能也會會購買買牛奶奶Associationrule:面包=>牛牛奶P(牛奶|面包包)的的概概率值值高關(guān)聯(lián)規(guī)規(guī)則的可信度度(Confidence)可信度度為:在A出現(xiàn)的條件下出現(xiàn)B的概率可信度度=P(B|A)=P(A,B)/P(A)例如::數(shù)據(jù)庫庫中的的交易易紀錄錄t1:(…,面包,…,牛奶奶,……)t2:(…,面包,………………..)t3:(…,面包,…,牛奶奶,……)t4:(………………………………)P(牛奶|面包包)=P(面包,牛牛奶)P(面包)N(面包,牛牛奶)N(面包)=關(guān)聯(lián)規(guī)規(guī)則的支持度度(Support)關(guān)聯(lián)規(guī)規(guī)則A=>B支持度度為:A與B同時出出現(xiàn)的概率P(A,B)例子:數(shù)數(shù)據(jù)庫庫中的的交易易紀錄錄如下下:t1:(…,面包,…,牛奶奶,……)t2:(…,面包,………………..)t3:(…,面包,…,牛奶奶,……)t4:(………………………………)請問:面包=>牛牛奶的支持度度為多多少?3)序列列模式式顧客通通常在在購買買某類類商品品后,,經(jīng)過一一段時時間,會再再購買買另一一類商商品例如:買買過““棉被、、枕頭頭、床床單””之后,,經(jīng)過過一段段時間間,,通常常會再再購買買“紙尿褲、、奶粉粉”序列模模式例例顧客代號交易時間購買物品代號1190/7/2590/7/303060,9022290/7/1090/7/1590/7/2010,203040,60,70390/7/2530,50,7044490/7/2590/7/3090/8/25203060,70590/7/1290例如:先買20再買30再買60,70203060,704).聚類類5).類神神經(jīng)網(wǎng)網(wǎng)絡好處對問題題的假假定、、要求求較少少??梢詫崒崿F(xiàn)特特征空空間較較為復復雜的的劃分分缺點訓練速速度慢慢需要更更多的的訓練練數(shù)據(jù)據(jù)無法對對結(jié)果果進行行透徹徹的理理解6.數(shù)數(shù)據(jù)挖挖掘軟軟件發(fā)發(fā)展現(xiàn)現(xiàn)狀二、數(shù)數(shù)據(jù)挖挖掘軟軟件的的發(fā)展展第一代代系統(tǒng)統(tǒng)與第第二代代相比比因為為不具具有和和數(shù)據(jù)據(jù)管理理系統(tǒng)統(tǒng)之間間有效效的接接口,,所以以在數(shù)數(shù)據(jù)預預處理理方面面有一一定缺缺陷第三、、四代代系統(tǒng)統(tǒng)強調(diào)調(diào)預言言模型型的使使用和和在操操作型型環(huán)境境的部部署第二代代系統(tǒng)統(tǒng)提供供數(shù)據(jù)據(jù)管理理系統(tǒng)統(tǒng)和數(shù)數(shù)據(jù)挖挖掘系系統(tǒng)之之間的的有效效接口口第三代代系統(tǒng)統(tǒng)另外外還提提供數(shù)數(shù)據(jù)挖挖掘系系統(tǒng)和和預言言模型型系統(tǒng)統(tǒng)之間間的有有效的的接口口目前,,隨著著新的的挖掘掘算法法的研研究和和開發(fā)發(fā),第第一代代數(shù)據(jù)據(jù)挖掘掘系統(tǒng)統(tǒng)仍然然會出出現(xiàn),,第二二代系系統(tǒng)是是商業(yè)業(yè)軟件件的主主流,,部分分第二二代系系統(tǒng)開開發(fā)商商開始始研制制相應應的第第三代代數(shù)據(jù)據(jù)挖掘掘系統(tǒng)統(tǒng),比比如IBMIntelligentScoreService。第四代代數(shù)據(jù)據(jù)挖掘掘原型型或商商業(yè)系系統(tǒng)尚尚未見見報導導第二代代數(shù)據(jù)據(jù)挖掘掘軟件件特點與數(shù)據(jù)據(jù)庫管管理系系統(tǒng)((DBMS))集成支持數(shù)數(shù)據(jù)庫庫和數(shù)數(shù)據(jù)倉倉庫,,和它它們具具有高高性能能的接接口,,具有有高的的可擴擴展性性能夠挖挖掘大大數(shù)據(jù)據(jù)集、、以及及更復復雜的的數(shù)據(jù)據(jù)集通過支支持數(shù)數(shù)據(jù)挖挖掘模模式((dataminingschema))和數(shù)據(jù)據(jù)挖掘掘查詢詢語言言增加加系統(tǒng)統(tǒng)的靈靈活性性典型的的系統(tǒng)統(tǒng)如DBMiner,能通過過DMQL挖掘語語言進進行挖挖掘操操作缺陷只注重重模型型的生生成,,如何何和預預言模模型系系統(tǒng)集集成導導致了了第三三代數(shù)數(shù)據(jù)挖挖掘系系統(tǒng)的的開發(fā)發(fā)數(shù)據(jù)挖挖掘軟軟件的的發(fā)展展數(shù)據(jù)據(jù)挖挖掘掘軟軟件件發(fā)發(fā)展展經(jīng)經(jīng)歷歷了了三三個個階階段段獨立立的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件橫向向的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘工工具具集集縱向向的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘解解決決方方案案GregoryPiatetsky-Shapiro的觀觀點點獨立立的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件((95年年以以前前))特點點獨立立的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件對對應應第第一一代代系系統(tǒng)統(tǒng),,出出現(xiàn)現(xiàn)在在數(shù)數(shù)據(jù)據(jù)挖挖掘掘技技術(shù)術(shù)發(fā)發(fā)展展早早期期,,研研究究人人員員開開發(fā)發(fā)出出一一種種新新型型的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘算算法法,,就就形形成成一一個個軟軟件件。。這類類軟軟件件要要求求用用戶戶對對具具體體的的算算法法和和數(shù)數(shù)據(jù)據(jù)挖挖掘掘技技術(shù)術(shù)有有相相當當?shù)牡牧肆私饨猓?,還還要要負負責責大大量量的的數(shù)數(shù)據(jù)據(jù)預預處處理理工工作作。。比比如如C4.5決策策樹樹,平行行坐坐標標可可視視化化((parallel-coordinatevisualization))。。通用用數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件的的盛盛行行(95年年開開始始))發(fā)展展原原因因隨著著數(shù)數(shù)據(jù)據(jù)挖挖掘掘應應用用的的發(fā)發(fā)展展,,人人們們逐逐漸漸認認識識到到數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件需需要要和和以以下下三三個個方方面面緊緊密密結(jié)結(jié)合合::1))數(shù)數(shù)據(jù)據(jù)庫庫和和數(shù)數(shù)據(jù)據(jù)倉倉庫庫;;2))多多種種類類型型的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘算算法法;;3))數(shù)數(shù)據(jù)據(jù)清清洗洗、、轉(zhuǎn)轉(zhuǎn)換換等等預預處處理理工工作作。。隨著著數(shù)數(shù)據(jù)據(jù)量量的的增增加加,,需需要要利利用用數(shù)數(shù)據(jù)據(jù)庫庫或或者者數(shù)數(shù)據(jù)據(jù)倉倉庫庫技技術(shù)術(shù)進進行行管管理理,,所所以以數(shù)數(shù)據(jù)據(jù)挖挖掘掘系系統(tǒng)統(tǒng)與與數(shù)數(shù)據(jù)據(jù)庫庫和和數(shù)數(shù)據(jù)據(jù)倉倉庫庫結(jié)結(jié)合合是是自自然然的的發(fā)發(fā)展展?!,F(xiàn)實實領(lǐng)領(lǐng)域域的的問問題題是是多多種種多多樣樣的的,,一一種種或或少少數(shù)數(shù)數(shù)數(shù)據(jù)據(jù)挖挖掘掘算算法法難難以以解解決決挖掘掘的的數(shù)數(shù)據(jù)據(jù)通通常常不不符符合合算算法法的的要要求求,,需需要要有有數(shù)數(shù)據(jù)據(jù)清清洗洗、、轉(zhuǎn)轉(zhuǎn)換換等等數(shù)數(shù)據(jù)據(jù)預預處處理理的的配配合合,,才才能能得得出出有有價價值值的的模模型型通用用數(shù)數(shù)據(jù)據(jù)挖挖掘掘工工具具集集(95年年開開始始)特點點提供供多多種種數(shù)數(shù)據(jù)據(jù)挖挖掘掘算算法法包括括數(shù)數(shù)據(jù)據(jù)的的轉(zhuǎn)轉(zhuǎn)換換和和可可視視化化典型型的的橫橫向向工工具具有有IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin等第二二代代數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件DBMiner第二二代代軟軟件件SASEnterpriseMiner第三三代代軟軟件件SPSSClementine以PMML的格格式式提提供供與與預預言言模模型型系系統(tǒng)統(tǒng)的的接接口口發(fā)展展原原因因隨著著橫橫向向的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘工工具具的的使使用用日日漸漸廣廣泛泛,,人人們們也也發(fā)發(fā)現(xiàn)現(xiàn)這這類類工工具具只只有有精精通通數(shù)數(shù)數(shù)數(shù)據(jù)據(jù)挖挖掘掘算算法法的的專專家家才才能能熟熟練練使使用用,,如如果果對對算算法法不不了了解解,,難難以以得得出出好好的的模模型型從1999年年開始,大量量的數(shù)據(jù)挖掘掘工具研制者者開始提供縱縱向的數(shù)據(jù)挖挖掘解決方案案(Verti
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 耐火土石礦山開采對礦區(qū)生態(tài)環(huán)境的監(jiān)測與預警考核試卷
- 木片在船舶建造中的應用考核試卷
- 探秘生態(tài)學實踐
- 山西林業(yè)職業(yè)技術(shù)學院《紅色經(jīng)典音樂作品賞析》2023-2024學年第一學期期末試卷
- 江蘇省揚州市江都區(qū)實驗重點中學2024-2025學年初三下學期期末考質(zhì)量調(diào)研(一模)生物試題含解析
- 山東省東平縣重點名校2025年初三下學期第二次段考生物試題試卷含解析
- 山東省青島市城陽九中學2024-2025學年初三下學期第四次月考生物試題含解析
- 遼寧省遼陽市2025年初三年級教學質(zhì)量檢測試題考試(二)生物試題試卷含解析
- 鐵嶺衛(wèi)生職業(yè)學院《唐詩宋詞鑒賞》2023-2024學年第二學期期末試卷
- 四川工商職業(yè)技術(shù)學院《休閑體育活動策劃與案例分析》2023-2024學年第一學期期末試卷
- 頸椎病(混合型)病例匯報
- 微生物在果蔬保鮮中應用
- 院前急救技術(shù)培訓課件
- 標書制作培訓課件
- 化工靜設備基礎知識共課件
- 新概念英語青少版入門級Starter A 結(jié)業(yè)測試 含答案
- 煙草原料學-煙草的品質(zhì)課件
- 非法行醫(yī)和非法采供血信息報告課件
- DG-TJ 08-2362-2021 綜合桿設施技術(shù)標準
- 計算機集成制造技術(shù)(CIMT)(PPT 53)第三講柔性制造系統(tǒng)(FMS)
- 天津科技大學工程碩士學位論文答辯評議書及表決票
評論
0/150
提交評論