




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1章數據挖掘概述第1章數據挖掘概述21.1數據挖掘定義1.2數據挖掘的重要性及意義1.3數據挖掘功能1.4數據挖掘步驟和標準1.5數據挖掘常用方法1.5.1數據挖掘的對象1.5.2數據挖掘的常用方法1.1數據挖掘定義31.1.1數據挖掘的技術定義1.1.2數據挖掘的商業定義1.2數據挖掘的重要性及意義41.3數據挖掘功能51.4數據挖掘步驟和標準61.4.1數據挖掘步驟1.4.2數據挖掘需要的人員1.5數據挖掘常用方法71.5.1數據挖掘的對象1.5.2數據挖掘的常用方法第1章數據挖掘概述81.1數據挖掘定義1.1.1數據挖掘的技術定義1.1.2數據挖掘的商業定義1.2數據挖掘的重要性及意義1.3數據挖掘功能91.4數據挖掘步驟和標準
1.4.1數據挖掘步驟
1.4.2數據挖掘需要的人員1.5數據挖掘常用方法
1.5.1數據挖掘的對象
1.5.2數據挖掘的常用方法§1.1前言10DataMining的漢語名稱有:數據挖掘、數據淘金和數據采礦,還沒有一個一致公認的譯法,一般還是喜歡用英文"DataMining"這個詞,今后我們常用DM這樣的簡寫來表示,因為很難找到一個確切的漢語詞匯與之對應。數據挖掘11
直觀上說,數據挖掘就是要采掘出隱藏在原始數據中對決策有用的信息,為管理和研究服務。難怪很多人稱之為數據淘金。12
數據挖掘的歷史雖然較短,但從20世紀90年代以來,它的發展速度很快,加之它是多學科綜合的產物,目前還沒有一個完整的定義,人們提出了多種數據挖掘的定義。《商業周刊》中文版1997年第7期發表的《在原始數據中尋找關系》一文13
關于數據搜索技術、數據倉庫技術,但講的內容確是數據挖掘在銀行、保險、電信及超市等方面的具體應用問題,并給出了由于進行了數據挖掘而獲得了巨大回報的具體案例,如MCI通訊公司,Wal-Mart百貨公司等。這說明一開始數據挖掘就是作為一個新興的現代技術出現的。數據挖掘14
信息技術的發展,企業、政府機構可以很方便地收集到大量的資料。海量數據中確實隱含著各種各樣的信息,這些信息往往人們憑直覺與經驗是難于發現的,而電腦的特點是不怕多、不怕煩,總是可以耐心地仔細處理,數據越多,對研究目標越了解,也就越容易發現有用的規律。數據挖掘正是在這種情況下,從一些個案的處理,克服了許多困難,利用了并行算法、人工智能、統計分析的技術,綜合成一種新的、能快速處理大量、海量數據的技術。數據挖掘15
信息技術的發展,企業、政府機構可以很方便地收集到大量的資料。海量數據中確實隱含著各種各樣的信息,這些信息往往人們憑直覺與經驗是難于發現的,而用電腦的就容易發現有用的規律。數據挖掘正是在這種情況下,從一些個案的處理,克服了許多困難,利用了并行算法、人工智能、統計分析的技術,綜合成一種新的、能快速處理大量、海量數據的技術。§1.2什么是數據挖掘16
數據挖掘是目前IT行業發展最快的產業,并且許多不同領域的專家,如統計學家,金融學家等,對數據挖掘也產生了極大的興趣。計算機技術,統計分析方法、各類算法及行業知識的結合推動了數據挖掘技術的快速發展。
Handetal(2000)的定義17DataMiningistheprocessofseekinginterestingofvaluableinformationinlargedatabases(數據挖掘是在龐大的數據庫中找出有意義或有價值信息的方法)Handetal(2000),eds.Proc.ofthe8thACMSIGKDDInternationalWorkshoponDataMiningandKnowledgeDiscovery.Dallas:ACMPress.Bhavani(1999)的定義18DataMiningistheprocessofposingvariousqueriesandextractionsusefulinformation,patterns,andtrendsoftenpreviouslyunknownfromlargequantitiesofdatapossiblystoredindatabases.數據挖掘是從儲存在數據庫的大量數據資料中,設置盤問,提取以前未知的信息、模式和趨勢的方法。Bhavani(1999)的定義19Theprocessofdiscoveringmeaningfulnewcorrelation,patterns,andtrendsbysiftingthroughlargeamountofstoreddata,usingpatternrecognitiontechnologiesandstatisticalandmathematicaltechniques
數據挖掘是從大量儲存的數據中,利用模式識別、統計和數學的技術、篩選發現新的有意義的關系、模式和趨勢的方法。Kovalerchuk&EvgeniiVityaev的定義20Thesetechniquesarenowappliedtodiscoverhiddentrendsandpatternsinfinancialdatabases
這些技術現在用于發現潛藏在金融數據庫中的趨勢與模式BerryandLinoff(1997)21分析報告給你的是后見之明(hindsight);統計分析給你的是先機(foresight);數據挖掘給你識見(insight)。數據挖掘所要處理的問題22
在龐大的數據庫中尋找出有價值的隱藏事件,加以分析,并將這些有意義的信息歸納成結構模式,作為企業在進行決策時之參考。數據挖掘看重的是數據庫的再分析,包括模式的建構或是資料特征的判定,其主要目的就是要從數據庫中發現先前關心卻未曾獲悉的有價值信息(Hand,1998)。事實上,數據挖掘并不只是一種技術或是一套軟件,而是數種專業技術的綜合應用。數據挖掘
找尋隱藏在資料中的信息23趨勢(Trend)特征(Pattern)關系(Relationship)的過程,從資料中發掘信息或知識
(有人稱為KnowledgeDiscoveryinDatabases,KDD)24“資料考古學”(DataArchaeology)“資料模式分析”(DataPatternAnalysis)“功能相依分析”(FunctionalDependencyAnalysis),數據挖掘25
目前已被許多研究人員視為結合數據庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項能增加企業潛能的重要途徑。這一領域蓬勃發展的原因是因為現代的企業已搜集了大量資料,包括市場、客戶、供貨商、競爭對手以及未來趨勢等重要信息,但是數據的超載與無結構化,使得企業決策單位無法有效利用現存的資料,甚至會使決策行為產生混亂與誤用。如果能通過數據挖掘技術,從巨量的數據庫中,采掘出不同的信息與知識出來,作為決策支持之用,就一定能成為企業競爭的優勢。數據挖掘的軟件工具26
有些銷售得還相當火爆,但是,對于這種數據挖掘的產品應該有一個正確的認識,就是它不是一個無所不能的魔法。它不是在那邊監視你的資料的狀況,然后告訴你說你的數據庫里發生了某種特別的現象。也不是說有了數據挖掘的工具,就連不了解業務、不了解資料所代表的意義、或是不了解統計原理的人也可以做數據挖掘。數據挖掘所采掘出來的信息,也不是你可以不經確認,就可以照單全收應用到業務上的。事實上,數據挖掘工具是用來幫助業務分析策畫人員從資料中發掘出各種假設(Hypothesis),但是它并不幫你確認(Verify)這些假設,也不幫你判斷這些假設對你是否真有價值。數據挖掘使用的分析方法27預測模型(回歸、時間序列)數據庫分割(DatabaseSegmentation)連接分析(LinkAnalysis)偏差偵測(DeviationDetection)28
美國政府從第二次世界大戰以前,就在人口普查以及軍事方面使用過。近幾年來,隨著信息科技超乎想象的發展,新工具的出現。
新工具29關系式數據庫對象導向數據庫柔性計算理論(包括Neuralnetwork、Fuzzytheory、GeneticAlgorithms、RoughSet等)人工智能的應用(如知識工程、專家系統)網絡通訊技術的發展30
使從資料堆中采掘寶藏,常常能超越歸納的關系,使數據挖掘成為企業智能的一部份。31
數據挖掘和統計分析是有不同的。其實數據挖掘技術中的CART、CHAD或模糊計算等等理論方法,也都是由統計學者根據統計理論所發展衍生,數據挖掘有相當大的比重是由高等統計學中的多變量分析所支撐。數據挖掘有下列幾項特性32?目標是海量數據的處理,不是一般意義上的統計分析;
?分析的任務是找出特征、規律、聯系,而不是驗證;
?必須多種技術結合,而不只是統計分析。§1.3數據挖掘綜合的技術領域33Databasesystems,DataWarehouses,OLAPParallelProcessingMachinelearningVisualizationStatisticalanddataanalysismethodsMathematicalprogrammingHighperformancecomputingDecisionsupport
34
統計分析研究35
除了將許多的統計及數據分析方法用于數據挖掘以外還將統計方法和機器學習方法結合在一起,為數據挖掘發展更復雜的統計分析工具(現在,許多的統計分析軟件都有市場化的數據挖掘工具產品)。機器學習的概念是讓機器從已觀測到的模式中學習各種各樣的規則,然后再用這些規則來解決問題。數據挖掘通常面臨的是海量的數據,所以,進行數據挖掘工作時,必須將數據庫管理與機器學習技術結合起來應用。計算機可視化技術36
利用計算機可視化技術,可以進行交互式數據挖掘工作。決策支持系統37
決策支持系統是一系列工具和過程,用來幫助管理者進行決策并指導他們進行管理。數學規劃和高性能計算方法38
利用數學規劃和高性能計算方法發展的技術能使得數據挖掘算法順利實現。當然,有了高性能的硬件會更好。數據挖掘的發展39
數據挖掘正在不斷發展,別的技術也不時地對數據挖掘產生影響。新技術40協作代理分布式目標管理技術等。§1.4數據挖掘的功能41
?分類(classification)?估計與預測(EstimationandPrediction)?聚類(Clustering)?關聯(Association)和序列發現
(SequenceDiscovery)?描述(Description),數據挖掘的功能42
這些功能大都可以用成熟的計量及統計分析方法來實現,1.分類(Classification)43
所謂分類,就是按照分析對象的屬性,建立類組(class)。它根據一些變量的數值做計算,再依照結果作分類。(計算的結果最后會是幾個少數離散值,然后按不同值分類,例如將一組資料分為“可能會響應”或是“可能不會響應”兩類)。分類44
分類常常被用來處理郵寄對象篩選的問題。我們會用一些已經分好類的資料來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。這些我們用來尋找特征的已分類資料可能是來自我們的現有的歷史性資料,或是將一個完整數據庫做部份取樣,再經由實際的運作來測試分類例子45
譬如利用一個大的郵寄對象數據庫的部份取樣來建立一個分類模型(ClassificationModel),以后再利用這個模型來對數據庫的其它資料或是新的資料作預測。例如,將信用申請者的風險屬性,區分為高度風險申請者,中度風險申請者及低度風險申請者。使用的技術有決策樹(decisiontree),記憶基礎推理(memory-basedreasoning)等。2.聚類(clustering)46面對海量的資料首要的任務是將它合理地歸類。如果已知要求,于是對資料可以設問,按回答的不同給予分類,這就是上面所說的分類。如果事先沒有任何要求,象全國各地環境監測的資料,就只能按資料反映的情況,比較接近的劃歸一類,這種歸類的方法稱之為聚類(clustering)。聚類47
聚類分析的算法往往按距離的遠近來歸類,也可以按相似程度的大小來歸類。只有合理地聚類后,每一類內就可以找出有關的特征,否則是難于發現真正有用的信息。聚類48
很自然,不同類型的問題可以給出不同的聚類原則,從而找到不同的特征。例如世界上的居民可以按民族歸類,可以按膚色歸類,可以按國家歸類,也可以按宗教信仰歸類,……這些不同的聚類原則自然會找出不同的特征。3.估計與預測(EstimationandPrediction)49
估計(estimation)是根據已有的長期累積的資料來推測某一屬性未知的真值。例如按照信用卡申請者的教育程度、行為和性別來推估其信用卡的消費量。使用的技巧包括統計方法中的相關分析、回歸分析及人工神經網絡方法。估計與預測50
預測(prediction)是根據對象屬性之過去觀察值來估計該屬性未來之值。例如,由顧客過去的刷卡消費量來預測其未來刷卡消費量。使用的技巧包括回歸分析、時間序列分析及人工神經網絡方法等。回歸51
回歸是使用一系列的現有數值來預測一個定量指標的可能值。若將范圍擴大亦可利用邏輯斯蒂回歸(LogisticRegression)來預測定性變量,特別在廣泛運用現代分析技術如人工神經網絡或決策樹理論等工具,預測的模式已不受傳統線性的局限,在預測的功能上大大增加了選擇工具的彈性與應用范圍的廣度。時間序列預測52
時間序列預測是用指標本身現有的歷史數值來預測未來的數值。
Time-SeriesForecasting的特點在于它所分析的數值都與時間有關,可以處理有關時間的一些特性,譬如時間的階段性(例如每個禮拜五個或六個工作天)、季節性、節日、以及其它的一些特別因素如過去與未來的關連性有多少等等。4.關聯(Association)和序列發現(SequenceDiscovery)53
關聯是要找出在某一事件或是資料中會同時出現的東西。關聯(Association)主要是要找出下面這樣的信息:如果A是某一事件的一部份,則B也出現在該事件中的機率有X%。關聯和序列發現54例如:如果一個顧客買了低脂乳酪,那么這個顧客同時也買低脂牛奶的機率是85%。確定那些相關對象應該放在一起。例如超市中相關之盥洗用品(牙刷、牙膏和牙線),放在同一間貨架上。在客戶行銷系統上,此種功能可以用來確認交叉銷售(cross-selling)的機會,以設計出吸引人的產品群組。
序列發現(SequenceDiscovery)與關聯(Association)關系55
序列發現(SequenceDiscovery)與關聯(Association)關系很密切,所不同的是序列發現(SequenceDiscovery)中相關的對象是以時間區分開來例如:如果做了X手術,則Y病菌在手術后感染的機率是45%。例如:如果A股票在某一天上漲12%,而且當天股市加權指數下降,則B股票在兩天之內上漲的機率是68%)。
5.描述(Description)56
描述的功能是對復雜的數據庫提供簡要的描述。最簡單的例子就是變量的均值和方差。這個功能的主要目的是為了在使用別的功能時對數據先有較好的了解。在建立任何模型之前先做數據描述的工作是十分重要的,因為這會告訴我們怎樣去建模。描述57
許多的商業數據挖掘軟件包也提供有用的畫圖軟件來幫你對數據作可視化處理。另外,經理們經常使用更加復雜的采掘工具(比如marketbasketanalysis,tree-basedmodels)來更好地理解數據和開發模型。實現數據挖掘的方法
一些統計分析方法58回歸分析時間序列判別分析因子分析聚類分析實現數據挖掘的方法59粗集(roughset)模糊邏輯(fuzzylogic)人工神經網絡(NeuralNetwork)決策樹理論(DecisionTrees)規則歸納法(RulesInduction)為基礎的方法等表1.4.1數據挖掘功能及常用的工具舉例功能采掘工具舉例應用舉例ClassificationNeuralnetworks,logisticregression,tree-basedmodels,decisiontree,memory-basedreasoningMailingdecisions,targetmarketing,creditdecisionsClusteringNeuralnetworks,multivariatestatistics,SegmentationEstimationandPredictionLinearandnonlinearregression,neuralnetworks,hazardmodels,collaborativefilteringCustomerscorning,salesforecasting,customerservice,variousmarketingdecisionmodels,AssociationMarketbasketanalysis,settheory,linkanalysisPromotiondesign,shelfspaceallocation,DescriptionTraditionalstatistics,marketbasketanalysis,tree-basedmodelsExploratorydataanalysis60§1.5數據挖掘的應用
國際上數據挖掘應用的行業包括61金融業電信業網絡相關行業零售商制造業醫療保健制藥業數據挖掘行業應用分類62
綜合General
銀行業保險與保健行業電信行業零售/行銷行業ManufacturingandUtilities(制造業和公用事業)
綜合General63
客戶分類(CustomerSegmentation)Retention/AcquisitionDatabasemarketingLifetimevalueofacustomerCrossselling
銀行業64BankingCreditscoringCreditCardFraudDetectionPortfolioAnalysisCashPlanning保險與保健行業65
Insurance&HealthCareClaimAnalysisFraudulentBehavior電信行業66TelecommunicationsCallBehaviourAnalysisChurnManagementFraudDetection零售/行銷行業67Retail/MarketingMarketBasketAnalysisCategoryManagementCreditScoringManufacturingandUtilities(制造業和公用事業)68ProcessManagementDemandPatternsCapacityPlanningInventoryPlanning表1.5.1數據挖掘應用領域分類表Applicationsof數據挖掘Customer-focusedOperations-focusedCustomer-focusedLife-timeValueMarket-BasketAnalysisProfiling&SegmentationRetentionTargetMarketAcquisitionKnowledgePortalCross-SellingCampaignManagementE-CommerceProfitabilityAnalysisPricingFraudDetectionRiskAssessmentPortfolioManagementEmployeeTurnoverCashManagementProductionEfficiencyNetworkPerformanceNetworkPerformanceManufacturingProcessesCombinatorialChemistryGeneticResearchEpidemiology69數據挖掘應用
目前國外企業界把數據挖掘應用在許多領域70行銷財務銀行制造廠通訊數據挖掘應用71
在產學合作下,發展出許多實用的系統,例如MDT、CoverstoryandSpotlight、NichWorkvisualizationsystem、LBS、FALCON、FAIS、NYNEX、TASA等等。應用在行銷領域的例子72
經由記錄客戶的消費記錄與采購路線,超級市場可以設計出更吸引顧客購買的環境。根據數據挖掘出來的信息,現在超級市場的廚房用品,是按照女性的視線高度來擺放。根據研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。73
在商業上,有許多特征是很難理解的,但若了解到這些信息,就會增加企業的競爭能力。一般行銷部門較典型的問題74
除了已經購買的產品外,我的客戶還可能購買哪些產品?我的最有價值客戶中,他們的共通特征為何?當我的客戶有可能轉向其它競爭同業時,哪些變量能測量出這樣的信息?國外企業界實際發展數據挖掘時,效能并不能預期,因為有許多因素影響著75不充足的教育訓練不適當的支持工具資料的無效性過于豐富的模式(patterns)易變與具有時間性資料空間導向資料(spatiallyorienteddata)復雜的資料結構資料的可度量性(scalability)等。復雜性76這說明資料與知識的發掘是一項信息技術程度很高的工作,面對易變的環境,沒有現成的模型馬上可用,也不要期望按一定的計算程序即能成功。潛在的因素77
我們要認識到一些潛在的因素資料取舍實體關系性數量多寡復雜性數據質量變遷專家意見數據挖掘應用廣泛78
數據挖掘在各領域的應用非常廣泛,只要該產業擁有具分析價值的數據倉庫或數據庫,就可利用挖掘工具進行有目的的分析。數據挖掘應用廣泛
國外一般較常見的應用案例79零售業直銷界制造業財務金融保險通訊業以及醫療服務數據挖掘的三個應用方式80CustomerProfilingTargetedMarketingMarket-BasketAnalysis。CustomerProfiling81即如何獲得新顧客?我們希望找出客戶的一些共同的特征,希望能藉此預測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對象。數據挖掘可以從現有客戶資料中找出他們的特征,再利用這些特征到潛在客戶數據庫里去篩選出可能成為我們客戶的名單,作為行銷人員推銷的對象。行銷人員就可以針對這些名單寄發廣告資料,既可以降低成本,又提高了行銷的成功率。Market-BasketAnalysis82主要是用來幫助零售業者了解客戶的消費行為,即如何增加顧客的消費額?譬如哪些產品客戶會一起購買,或是客戶在買了某一樣產品之后,在多長時間之內可能購買另一產品等等,利用關聯性產品銷售(cross-selling)和連貫性銷售(Continuity-Selling)方法,來提高客戶的終生價值(LiveTimeValue)。利用數據挖掘,零售業者可以更有效的決定進貨量、庫存量,以及在店里要如何擺設貨品,同時也可以用來評估店里促銷活動的成效。客戶關系管理83客戶關系管理是數據挖掘的另一個常見的應用方式,即如何留住他們?我們可以由一些原本是我們的客戶,后來卻轉向成為我們競爭對手的客戶,分析他們的特征,再根據這些特征到現有客戶資料中找出有可能轉向的客戶,然后公司必須設計一些方法將他們留住,因為畢竟找一個新客戶的成本要比留住一個原有客戶的成本要高出許多。銷售資料中挖掘顧客的消費習性84
在銷售資料中挖掘顧客的消費習性,很容易由交易紀錄找出顧客偏好的產品組合,還可找出流失顧客的特征,確定推出新產品的時機點,還可結合基本資料,并依品牌價值等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年金融風險與投資管理考試試卷及答案
- 2025年金融風險管理師資格考試試卷及答案
- 商場布景租賃合同協議
- 商品房購房合同定購協議
- 民宿入股協議合同模板
- 微信平臺維修合同協議
- 模具刀具采購合同協議
- 商業樓整體轉讓合同協議
- 民宿入股合同協議書模板
- 櫥柜工廠轉讓合同協議
- 中國人民財產保險股份有限公司招聘筆試真題2022
- (高清版)JTGT 3360-01-2018 公路橋梁抗風設計規范
- 走進民航智慧樹知到期末考試答案章節答案2024年中國民航大學
- 湖北省石首楚源“源網荷儲”一體化項目可研報告
- 《社區康復》課件-第三章 社區康復的實施
- 2021深圳中考數學真題及答案
- 畜牧產業知識講座
- 大學生如何應對擔心和焦慮的情緒
- API 682 機械密封分類編碼
- 領導力21法則課件
- 北京2022年冬奧會和冬殘奧會十大綠色低碳最佳實踐
評論
0/150
提交評論