客戶數據挖掘_第1頁
客戶數據挖掘_第2頁
客戶數據挖掘_第3頁
客戶數據挖掘_第4頁
客戶數據挖掘_第5頁
已閱讀5頁,還剩60頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目四

客戶信息的數據挖掘案例卓越亞馬遜的推薦系統學習目標通過本章的學習,將能夠:理解數據挖掘的含義熟悉數據挖掘的功能熟悉數據挖掘的主要技術掌握數據挖掘的業務流程了解客戶關系管理對數據挖掘的需求理解數據挖掘在客戶關系管理中的作用4數據挖掘數據庫越來越大有價值的知識可怕的數據數據挖掘背景5數據爆炸,知識貧乏苦惱:淹沒在數據中;不能制定合適的決策!數據知識決策模式趨勢事實關系模型關聯規則序列目標市場資金分配貿易選擇在哪兒做廣告銷售的地理位置金融經濟政府POS人口統計生命周期——數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程,這些模型和關系可以用來做出預測。●數據挖掘(DataMining)——數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。——數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。數據挖掘數據挖掘的特點——數據挖掘與傳統分析方法的區別數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先未知,有效和可實用三個特征:先前未知的信息是指該信息是預先未曾預料到的,既數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識有效信息是指符合實際情況且具有一定的代表性可實用是指可以指導企業的營銷決策數據挖掘的特點數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識數據挖掘所得到的信息應具有先未知、有效和可實用三個特征數據源必須是大量的、真實的、有噪聲的發現的是用戶感興趣的知識發現的知識要可接受、可理解、可運用并不要求發現放之四海皆準的知識,僅支持特定的發現問題數據挖掘任務:描述和預測描述可以通過下述方法得到:1、數據特征化2、數據區分3、數據特征化和比較客戶接觸

客戶信息客戶數據庫統計分析與數據挖掘客戶知識發現客戶管理知識發現:從數據中深入抽取隱含的、未知的和有潛在用途的信息從商業數據到商業智能各行業電子商務網站算法層商業邏輯層行業應用層商業應用商業模型挖掘算法CRM產品推薦客戶細分客戶流失客戶利潤客戶響應關聯規則、序列模式、分類、聚集、神經元網絡、偏差分析…WEB挖掘網站結構優化網頁推薦商品推薦。。。基因挖掘基因表達路徑分析基因表達相似性分析基因表達共發生分析。。。銀行電信零售保險制藥生物信息科學研究。。。相關行業數據挖掘的應用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經網絡NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees傾向性分析客戶保留客戶生命周期管理目標市場價格彈性分析客戶細分市場細分傾向性分析客戶保留目標市場欺詐檢測關聯分析Association市場組合分析套裝產品分析目錄設計交叉銷售數據挖掘的應用●數據挖掘技術的分類——回顧分析:注重解決過去和現在的問題如:兩年來不同地區、人口和產品情況下的各銷售部門銷售業績分析——預測分析:在歷史信息的基礎上預測某些事件和行為如:建立預測模型來描述客戶的流失率——分類:根據某種標準將數據庫記錄分類到許多預先定義好的類別如:信用卡公司將客戶記錄分為好、中、差三類分類可以產生規則:如果一個客戶收入超過5000萬元,年齡在45-55歲之間,居住在某地區,那么他的信用等級為好。數據挖掘技術●數據挖掘技術的分類——聚類:根據某些屬性將數據庫分割為一些子集和簇

如:在了解客戶的過程中,嘗試使用從未使用過的屬性分割人群以發現潛在客戶的簇——關聯:通過考察記錄來識別數據間的密切關系關聯關系常常表現為規則,常用于超市購物籃分析如:所有包含A和B的記錄中有60%同時包含C。——演變分析:描述行為隨時間變化的對象的規律或趨勢

如:通過對客戶多次購物行為的分析可以發現購物行為在時間上的關系常用于產品目錄營銷的分析數據挖掘的一般目的就是檢測、解釋和預測數據中定性的和/或定量的模式數據挖掘技術(四)孤立點分析數據庫中包含一些數據對象,他們與數據的一般行為或模型不一致。(五)分類和預測找出描述并區分數據類或概念的模型,以便能夠使用模型預測和分類標志未知的對象類。●現代方法——關聯規則(AssociationRules)關聯規則的表現形式

關聯規則是一種無指導學習的數據挖掘中最普遍的知識發現,是指在行為上具有某種關聯的多個事物在一次事件中可能同時出現,從而在多個事物中建立聯系規則的方法。

“如果怎么樣、怎么樣、怎么樣,那么就會怎么樣”

關聯規則的構成前件——“如果怎么樣、怎么樣、怎么樣”

后件——“那么就怎么樣”

——如果買了西裝,就會買領帶

——如果買精顯彩電,就會買家庭影院系統規則的構成如果怎么樣、怎么樣、怎么樣,就會怎么樣前件,激發條件后件,結果規則表現為在前件所有條件成立的前提下,后件結果會以某一正確概率出現關聯規則(AssociationRules)規則的置信度和支持度關聯規則(AssociationRules)規則的置信度又稱為規則的正確率,是指在前提出現的情況下,后件出現的概率規則的支持度又稱為規則的覆蓋率,是指包含規則出現的屬性值的交易占所有交易的百分比例:如果客戶買牛奶,那么他們也會買面包置信度:在10000次交易中客戶購買了牛奶,而且其中的5000個交易也同時購買了面包,則上述規則的置信度為5000/10000=50%支持度:在超市一個月的客戶交易中,共有600000次交易,其中購買牛奶的交易為60000次,支持度為60000/600000=10%規則的生成●現代方法——關聯規則(AssociationRules)最近鄰方法規則:如果一個客戶處于●的狀況,那么他可能是一個逃款者關聯規則可以使用傳統的方法生成,但適當提供的屬性很多時,因為每條規則的結果可能包含大量的前提條件,使用傳統方法會變得不切實際。規則的生成——關聯規則(AssociationRules)市場籃子分析就是一種關聯規則的表現時間序列分析是一種反映客戶行為在時間上的關聯性的關聯規則商業銀行的客戶細分

規則的應用——關聯規則(AssociationRules)——以前件為目標——歸納所有前件一樣的規則——分析后件的營銷效果——設計促銷方案(完善前件)——例——收集所有前件為文具、復讀機的規則,分析這些商品打折是否促進其他高利潤商品的銷售,從而調整商品結構、設計促銷方案規則的應用——關聯規則(AssociationRules)——以后件為目標——歸納所有后件一樣的規則——分析什么因素與后件有關或對后件有影響——設計前件促成后件——例——收集到所有后件為西裝的規則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關,從而可以考慮將這些因素集合在一起而產生促銷效果。規則的應用——關聯規則(AssociationRules)置信度低置信度高支持度高支持度低規則的置信度和支持度規則很少是正確的,但可以經常使用規則很少是正確的,而且很少被使用規則多數情況下是正確,但很少被使用規則多數情況下是正確的,而且可以經常使用——以置信度或支持度為目標案例:BellAtlantic公司BellAtlantic的數據挖掘系統非常成功,不僅為他們的業務開展帶來很大的方便,而且節省了許多開支。BellAtlantic的電話服務目前已經覆蓋了美國14個州,擁有商業電話、住家電話帳戶近億個。BellAtlantic數據挖掘系統的首要任務就是盡快地追收拖欠的電話費,同時盡量減少收債部門的成本。案例:BellAtlantic公司軟件系統的選擇非常重要。經過反復挑選后,BellAtlantic采用了SAS統計軟件系統建立數據挖掘系統,然后在SAS環境中利用SAS宏程序建立挖掘系統。然后是建立SAS格式庫。許多數據需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來進行數據轉換。有的數據不是連續變量,比如婚姻狀況(單身/已婚),也需要進行一些變換才可以進行計算。日期也是需要模式化的,不同計算機系統記錄日期方法不同,需要把日期轉換成一致的方法。在金融保險行業日期這個變量非常重要,因為很多客戶的行為都記錄在日期里面了。電話公司里記帳、付款的日期也非常重要。●數據挖掘方法學——模式

數據庫中一個事件或事件的結合,這些事件比預期的要經常發生,其實際發生率明顯不同于隨機情況下的可期望發生率。

模式是數據驅動的,一般只反映數據本身——模型

對構建事件的源時的歷史數據庫的描述,并且能夠成功地應用于新的數據,以便對缺少的數據作出預測或對期望的數據作出說明。模型的一般表現形式數學方程式描述各客戶段的規則集計算機表示方式

模式可視化數據挖掘技術●數據挖掘方法學——取樣

根據問題的需要采用隨機取樣的方法從數據庫中抽取數據進行挖掘,有助于迅速發現模式、創建模型

數據本身的處理過程需要驗證——驗證模型

模型創建過程需要保證正確

模型應用的驗證

在依據一些歷史數據建造模型后,將模型應用于未參與建造模型的其他類似的歷史數據,比較其模型輸出結果與實際結果。數據挖掘技術●經典方法——統計

統計可以通過對類似下列問題的回答獲得模式○在我的數據庫中存在什么模式○某個事件發生的可能性是什么○那些模式是重要的模式

統計的一個重要價值就是它提供了對數據庫的高層視圖,這種視圖提供了有用的信息,但不要求在細節上理解數據庫的每一條記錄。數據挖掘方法●經典方法——最近鄰

通過檢測與預測對象最接近的對象的狀況對預測對象進行預測

原理:

某一特定對象可能與其他某一或某些對象比其它一些第三對象更接近;

相互之間“接近”的對象會有相似的取值

根據其中一個對象的取值,預測其最近鄰對象的預測值

商業應用:文獻檢索市場籃子分析

應用評價:

最近鄰的數量最近鄰的距離決定最近鄰預測的可信度數據挖掘方法●現代方法——基礎理論有指導的學習(SupervisedLearning)歸納概念分類標準與模型分類有指導的學習的目的:建立分類模型用模型確定新數據實例的類別訓練數據(TrainingData)與檢驗集(TestSet)用于創建模型的數據實例稱為訓練數據用于檢驗模型的準確度的數據實例稱為檢驗集數據挖掘方法

有指導的學習(SupervisedLearning)患者代碼嗓子痛發燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫數據挖掘方法患者代碼嗓子痛發燒淋巴腫充血頭痛診斷結果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指導的學習(SupervisedLearning)患者代碼嗓子痛發燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫發燒NoNoYesYes咽炎敏感癥感冒淋巴腫、發燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數據挖掘方法

有指導的學習(SupervisedLearning)淋巴腫發燒NoNoYesYes咽炎敏感癥感冒患者代碼嗓子痛發燒淋巴腫充血頭痛診斷結果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數據實例(檢驗集)數據挖掘方法無指導的學習(UnsupervisedLearning)為沒有預先定義分類標準的數據建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數/月性別年齡嗜好年收入1005聯合NoOnline12.5F30-39網球4-5.9萬1013委托保管NoBroke0.5F50-59滑雪8-9.9萬1245聯合NoOnline3.6M20-29高爾夫2-3.9萬2110個人YesBroke22.3M30-39釣魚4-5.9萬1001個人YesOnline5.0M40-49高爾夫6-7.9萬ABC投資公司客戶表數據挖掘方法無指導的學習(UnsupervisedLearning)區分在線投資者和經紀人投資者的特征是什么一個新客戶未開設交易保證金帳戶,如何確定其將來是否會開設這種帳戶能建立一個預測新投資者月均交易數的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數性別數據挖掘問題屬性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數據庫有指導的學習無指導的學習數據挖掘方法●現代方法——決策樹(DecisionTree)決策樹是一種有指導學習的數據挖掘方法決策樹的組成決策節點、分支、葉子———根節點分支———葉子Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K節點

決策樹的分支過程就是對數據進行分類的過程,利用幾個變量(每個變量對應一個問題)來判斷數據所屬的類別。在分支后,要使不同分支之間數據的差異盡可能大、同一分支內的數據盡量相同。這一分割過程也就是數據的“純化”過程。數據挖掘方法決策樹的算法步驟○假設T為訓練實例集○選擇一個最能區別T中實例的屬性○創建一個決策節點,它的值為所選擇的屬性○創建該節點的分支,每個分支代表所選屬性的一個唯一值○使用分支的值,將數據實例分割為子類○對于步驟5所創建的各個子類:★如果子類中的數據實例滿足以下條件,可按此決策樹對新數據實例指定類別☆分割中只包含一條數據實例☆分割中所有數據實例的屬性都相同☆繼續分割得到的改進不明顯★如果子類不滿足上述條件,則設T’為當前子類數據實例集合,返回步驟2數據挖掘方法決策樹的屬性選取屬性選取標準:最大化反映數據差異,使樹的層次和節點數最小患者代碼嗓子痛發燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發燒NoNoYesYes咽炎敏感癥感冒數據挖掘方法患者代碼嗓子痛發燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發燒NoNoYesYes敏感癥敏感癥咽炎NoYes頭痛淋巴腫感冒發燒淋巴腫NoYes咽炎NoYes數據挖掘方法決策樹的屬性選取屬性選取標準:最大化反映數據差異,使樹的層次和節點數最小信用卡促銷數據庫收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19○選取收入段為根節點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現的類收入段2Yes2No4Yes1No3No1Yes2Yes2—3萬3—4萬4—5萬5—6萬○訓練集分類的正確性為11/15=73%數據挖掘方法——決策樹(DecisionTree):例信用卡促銷數據庫○選取信用卡保險為根節點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現的類信用卡保險6Yes6No3Yes0NoNoYes○訓練集分類的正確性為9/15=60%數據挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數據庫○選取數值型屬性年齡為根節點○選取壽險促銷為輸出屬性○依照年齡排序,對照輸出屬性進行數據分割,選擇數據分割點年齡9Yes3No0Yes3No≤43>43○以年齡≤43結合壽險促銷=Yes,訓練集分類的正確性為12/15=80%172729353839404142434343455555YNYYYYYYNYYNNNN數據挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數據庫年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險Yes(2/0)No(3/0)NoYes信用卡數據庫的三節點決策樹○訓練集分類的正確性為13/15=87%數據挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19——決策樹(DecisionTree):例信用卡促銷數據庫收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19信用卡保險Yes(5/2)No(4/1)NoYes性別FMYes(3/0)信用卡數據庫的兩節點決策樹○訓練集分類的正確性為12/15=80%數據挖掘方法——決策樹(DecisionTree):例信用卡促銷數據庫檢驗集收入段壽險促銷信用卡保險性別年齡檢驗結果4-5萬NoNoM42正確2-3萬NoNoM27正確3-4萬NoNoM43正確2-3萬YesNoM29錯誤年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險Yes(2/0)No(3/0)NoYes信用卡數據庫的三節點決策樹數據挖掘方法●現代方法——K-平均值算法

K-平均值算法是一種簡單而有效的無指導學習的統計聚類方法,將一組數據劃分為不相關的簇算法步驟○選擇一個K值,用以確定簇的總數○在數據集中任意選擇K個數據實例,作為初始的簇中心○試用簡單的歐氏距離將其它數據實例賦予距離它們最近的簇中心○試用每個簇中的數據實例,計算每個簇的新的平均值○如果新的平均值等于次迭代的平均值,終止該過程。否則,用新平均值作為簇中心并重復步驟3-5。點A(x1,y1)與點B(x2,y2)之間的歐氏距離計算式為數據挖掘方法K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數據實例分為兩個簇2.選擇實例1作為第1個簇的中心,實例3作為第2個簇的中心3.計算各數據實例與C1、C2之間的歐氏距離Dist(C1-1)=0.00Dist(C2-1)=1.00C1Dist(C1-2)=3.00Dist(C2-2)=3.16C1Dist(C1-3)=1.00Dist(C2-3)=0.00C2Dist(C1-4)=2.24Dist(C2-4)=2.00C2Dist(C1-5)=2.24Dist(C2-5)=1.41C2Dist(C1-6)=6.02Dist(C2-6)=5.41C24.迭代結果得到以下兩個簇簇C1包含實例1、2,簇C2包含實例3、4、5、6Y數據挖掘方法——K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計算每個簇的中心對于C1:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論