騰訊公司培訓-關于數據挖掘數據分析的課件_第1頁
騰訊公司培訓-關于數據挖掘數據分析的課件_第2頁
騰訊公司培訓-關于數據挖掘數據分析的課件_第3頁
騰訊公司培訓-關于數據挖掘數據分析的課件_第4頁
騰訊公司培訓-關于數據挖掘數據分析的課件_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、騰 訊 大 講 堂研發管理部數據蘊含商機,挖掘決勝千里Agenda數據挖掘是什么?1模型+算法2數據挖掘實踐分享3心得與總結4從運籌帷幄到決勝千里舌戰群儒草船借箭巧借東風火燒赤壁赤壁懷古 蘇軾羽扇綸巾談笑間檣櫓灰飛煙滅.觀日月之行,察天地之變風雷電雨云云多會下雨刮風會下雨下雨會閃電閃電會打雷換成它呢?數據爆炸的時代Data Mining, circa 1963 IBM 7090 600 cases“Machine storage limitationsrestricted the total number ofvariables which could beconsidered at one

2、time to 25.”多學科的融合DatabasesStatisticsPatternRecognitionKDDMachineLearningAINeurocomputingData MiningAgenda數據挖掘是什么?1模型+算法2數據挖掘實踐分享3心得與總結4數據挖掘是一個過程 “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)數據挖掘方法論CRISP_DM (Cross Industry Standard Process for DM)19

3、98年,由NCR、Clementine、OHRA和Daimler-Benz的聯合項目組提出SEMMASAS公司提出的方法Sample, Explore, Modify, Model, Assess在戰略上使用Crisp_DM方法論,在戰術上應用SEMMA方法論工欲善其事必先利其器數據清洗填充缺失值, 修均噪聲數據, 識別或刪除孤立點, 并解決數據不一致問題主要分析方法:分箱(Binning)、聚類、回歸數據集成多個數據庫、數據方或文件的集成數據變換規范化與匯總數據簡化減少數據量的同時, 還可以得到相同或相近的分析結果主要分析方法:抽樣、主成分分析數據離散化數據簡化的一部分, 但非常重要 (尤其

4、對于數值型數據來說)數據挖掘 = 模型 + 算法分類預測關聯規則孤立點探測聚類Logistic Regression決策樹神經網絡K-MeansK-ModeSOM(自組織圖)AprioriFP-Growth基于統計基于距離基于偏差你使用過信用卡嗎? 卡應該發給誰? 哪些持卡人會拖欠? 哪些拖欠的客戶會還款?影響 資產組合(Portfolio)1、根據歷史,預測將來2、目標是一個分類變量3、預測結果是一個統計意義下的概率1、哪些人可以發卡,額度是多少。2、持卡人拖欠的概率是多少3、該對誰催收物以類聚,人以群分人為地選取細分維度客戶價值地域活躍程度維度災難的發生維度增長細分數目指數增長人腦僅能處理

5、有限的維度市場聚類示意基于歐氏距離的三維空間中的聚類基于質心的聚類算法(K-Means)A1A2B1xyz發現商品間的關聯規則buy(x,”diapers”) buy(x,”beers”)關聯規則的量度支持度:Support(A=B)=#AB/#N,表示A和B同時出現的概率期望可信度:Support(A)=#A/#N,表示A出現的概率置信度:Confidence(A=B)=Support(A=B)/Support(B)改善度:Lift(A=B)=Confidence(A=B)/Support(B)名稱描述公式支持度X、Y同時出現的頻率 P(XY) 期望可信度 Y出現的頻率 P(Y) 置信度X出

6、現的前提下,Y出現的頻率P(Y|X) 改善度 置信度對期望可信度的比值 P(Y|X)/P(Y) 關聯規則的度量發現具有最小置信度和支持度的全部規則 X Y Z 支持度(support), s, 事務中包含X & Y & Z的概率置信度(confidence), c, 事務中包含X & Y的條件下, 包含Z的條件概率令最小支持度為50%, 最小置信度為50%, 則有A C (50%, 66.6%)C A (50%, 100%)顧客購買尿布顧客購買兩者顧客購買啤酒從算法到應用Agenda數據挖掘是什么?1模型+算法2數據挖掘實踐分享3心得與總結4看看QQ的流失數據流失率2007年3月2007年4月

7、2007年5月2007年6月當月活躍總帳戶數253,668,411255,749,736264,006,894269,060,000當月流失老帳戶數6,572,0876,006,5825,466,8078,217,569當月老帳戶流失率2.59%2.35%2.07%3.05%每個月5001000萬的老用戶流失,一年老用戶流失接近1億,實際自然人流失狀況雖然沒有這么嚴重,但是仍然是一個驚人的數據。客戶流失是每個行業每天都在面對的問題1、建立流失預測模型,回答客戶是否要流失,何時流失的問題2、通過預測模型建立客戶流失管理機制,更為有效地管理流失,而不是去防止流失打開觀測用戶的窗口訓練樣本 測試樣本

8、觀察窗口: 2007年1月2007年3月表現窗口: 2007年5月2007年6月Time Lag: 2007年4月交叉校驗樣本觀察窗口: 2007年2月2007年4月表現窗口: 2007年6月2007年7月Time Lag: 2007年5月觀察窗口表現窗口Time LagMM-1M-2M-3M-4M-5M+1M+2M+31觀察窗口:形成自變量的時間段。表現窗口:形成因變量的時間段。23Time Lag:預留給業務部門進行相應操作的時間段。123變化幅度特征變量 描述用戶使用量上的變化幅度勾勒出用戶行為的特征基本屬性變量 描述用戶的基本屬性產品使用行為特征 描述用戶使用產品的情況消息業務使用行為

9、特征 描述用戶使用消息業務的情況音頻業務使用行為特征 描述用戶使用音頻業務的情況視頻業務使用行為特征 描述用戶使用視頻業務的情況客戶在線的行為特征 從在線時長,登陸次數,登陸頻率等角度研究用戶的使用行為歸屬地變化的行為特征 描述用戶在某一時間周期內登陸所在地的變化情況中間變量比例特征變量 描述用戶業務使用占比基礎變量變量描述行為趨勢特征變量 描述用戶的使用行為變化趨勢變量描述黃沙吹盡始到金基礎變量和中間變量數目約為224個經過變量變換后的變量數目約為1700個變量篩選使用Logistic回歸的Stepwise方法進行下一步擬合卡方統計量 Chi Square信息價值 Information V

10、alue信息增益 Gain Index單變量回歸偏相關分析 Partial CorrelationLift曲線十分位樣本數量Lift0226,7295.171226,7292.272226,7281.033226,7300.554226,7290.355226,7290.256226,7300.157226,7290.118226,7290.079226,7300.05Total2,267,2931ROC曲線50%75%建立閉環的業務流程流失客戶分析數據挖掘數據分析數據采集/ETL現有流程評估計劃和設計挽留行動執行挽留行動評估挽留結果調整應用流程Agenda數據挖掘是什么?1模型+算法2數據挖掘實踐分享3心得與總結4幾點心得實施數據挖掘是一個戰略性舉措Business First, Technique Second數據挖掘不是萬能的,沒有它也不是萬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論