




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
據挖掘實踐應用(93,
標用戶特征分析的不同思路分享”
及“2011個人年度總結"
本日志的緣起:本文是我年后在數據分析團隊內部分享的一個專題項目的思路匯總,條條大路通羅馬,任何一個數據分析課題也一定是可以有不同的思路不同的算法不同的技術殊途同歸的,我的分享的目的在于通過真實的業務需求和業務數據,引導分析團隊內部集體討論,發動大家參與,相互切磋,從而提升數據分析團隊整體的分析能力和水平。
項目背景:P4P(在線廣告競價排名,paymentforperformance)產品是互聯網行業平臺型企業的一個重要收入來源,由于組織架構的因素,以前我們的P4P產品的相關數據挖掘模型(比如付費用戶預測打分模型)是由數據倉庫團隊、算法團隊開發、嵌入、固化業務流程,人工的銷售服務還沒有類似的分析模型可以支持。最近,隨著新的組織架構調整,電話銷售團隊承擔了P4P產品售賣的部分KPI,業務方因此提出了新的需求,“找出P4P消費用戶的典型特征,由此可以讓電話銷售團隊因地制宜圈定不同的目標群體,并同時制定相應的不同運營賣點,即運營抓手,。(提請注意的是,這里的典型特征不是指單一維度的分布特征,而是要找出多維度并存組合時的特征)
很明顯,這里的業務需求就不是前期的“P4P目標付費用戶預測打分模型”可以滿足的;兩者有什么區別呢?從數據挖掘理論上看似乎可以沒有區別,但是在業務實踐場景下,差別太大了。“打分模型”的產出物是一批潛在用戶的member_id以及相應的付費概率數值,業務方不需要在乎模型里面的具體的預測變量有哪些,變量之間的線性或非線性關系,也不需要知道各個預測變量的閥值;打分模型的優點是精確,效率高,缺點是每個周期都要打分,而且比較死板,缺乏靈活性;而“付費用戶典型特征模型,的產出物是不僅要找出付費用戶典型特征的字段(這里的特征是不僅在統計上有意義,更要求在業務應用中有意義,有實用性。很多時候,統計上的顯著性到了業務實踐中其實并沒有應用價值的,最典型的一個例子就是,付費用戶中男女比例52:48,相對潛在目標群體來說,這個比例從統計學上看是顯著的,但是在實踐應用中,單純看這個性別的顯著性特征其實是沒有什么運營價值的,沒有誰會因此聚焦在男性群體里進行營銷)更要找出這些典型特征字段組合在一起的數值區間閥僮比如近30天的登錄天次大于25天,并且近30天交易訂單數量大于15,等等);“付費用戶典型特征模型”優點是靈活,可以由業務人員(電話銷售)靈活組合不同的目標群體,但是其應用的(預測)準確度通常來說是沒有'打分模型”高的;
“付費用戶典型特征模型'以及類似的此類'典型特征”模型,有個核心的終極評價標準:優良的模型(準確的字段以及合理的相應閥值)能最大限度包含付費用戶的數量,同時按照這些閥值圈定的運營受眾的數量范圍能滿足運營資源的負荷(比方說,如果分析用的原始數據里有1000個付費用戶,而這些付費用戶是從10萬個俱樂部會員中產生的話,那么一個比較滿意的“付費用戶典型特征模型’(即典型字段以及相應的閥值)能覆蓋80%(左右)以上的付費用戶(也即800個左右的上述分析數據中的付費用戶包含在這些典型閥值的區間里)并且在10萬個全體的俱樂部會員中,滿足這些條件的用戶在2-3萬左右(這里的數據、比例只是為了舉例方便,實際應用中的原則是閥值覆蓋的付費用戶數量盡可能多,滿足這些閥值條件的潛在目標受眾盡可能精簡,如果上述例子中,分析的結果閥值是有8-9萬人滿足這些條件,那從全體10萬人的基數看,這個8-9萬的篩選其實并沒有多大的效率的提升);
這樣看來,“付費用戶典型特征模型'從思路和分析技術上看可以分成兩步:
第一步,確定有明顯特征差異的字段,
第二步,確定這些顯著差異性字段的各自的閥值。
如何有效鎖定“有明顯差異的字段'?有三種不同的思路以及更多的具體的算法:
我們可以按照預測模型的思路,通過邏輯回歸、決策樹、(RSquare\Chi_Square等不同的算法);
我們還可以另起爐灶,按照假設檢驗的思路,從付費用戶和非付費用戶中抽取等量的樣本進行T檢驗和(或)者非參數檢驗,嘗試這個假設檢驗的思路時,要注意,樣本的抽取數量不能太少,也不能太多(樣本太少,比如20-30個,很多顯著性的差異也變得似乎不顯著;樣本太多,比如幾萬,很細微可以忽略不計的差異也變得顯著,這樣在實踐應用中沒有意義,這是大數定理)
第三種方法就是利用聚類技術,嘗試不同字段組合進行聚類劃分,這種方法的優點是快速,缺點是聚類技術很多時候的結果不可控不可預見,常常不能令業務方滿意,而且參與聚類的字段如何挑選,還是有賴于前面兩種思路的探索和實現的(關于聚類技術的判斷,詳見我之前的博客(數據挖掘交流討論之23,與“汪生”分享我對于聚類實踐應用的個人體會)
/blog/static/8167057720102118262485
4/
如何確定顯著差異性字段的各自的閥值?至少有三種方法:
第一是聚類技術,不過這里稍微要延展一下,我自己的體會,在互聯網的實踐中,有不少項目的直接的聚類結果并不能令人滿意,主要原因在于單純聚類評價的指標(RSquare,RMSSTDroot_mean_square_standard_deviation等等)關注的是總體上的宏觀上的結果評價,而如果這些字段的各自的標準差比均值大很多的時候,這些總體的宏觀的判斷指標會明顯無法勝任合格的效果評判,結果是這些總體指標看上去可能比較滿意,但是具體到各個細分出來的群體里,這些關鍵字段的分布過于分散,由此可以想見其均值是沒有實際參考價值的;但是,就算如此,聚類技術至少可以給我們一些思路和啟示,告訴我們哪些字段可以組合進行閥值權衡,這后一種方法我最近多次采用,效果比單純聚類結果要好些,已經在業務項目中得到了驗證。
第二種方法,就是分析師人工嘗試,比如利用excel的透視表,按照前面的“典型特征模型的核心終極評價標準,來做判斷和決定。
第三種方法,決策樹的結果,如果決策樹模型效果不錯的話,從樹根到樹葉的幾條顯著的組合就是很好的答案了,不過在實踐中,決策樹模型是否能如我們所愿有好結果,要看具體項目數據是否有這種邏輯關系存在的!!!
“說的再多,也是說食不飽,哪有這多啰嗦,各位還是參,參,參”我喜歡虛云老和尚的單刀直入,各位,業務分析需求在這里,數據在這里,對數據挖掘應用感興趣的同事,按照上面的框架嘗試把!!
7. 獨立承擔(或牽頭、負責、指導)PM,XPWP,FTP,
SDRZ,HKT等七大產品線的全部的運營數據分析挖掘支持,包括新簽、續簽預測模型、客戶分層模型、優質定義分析建議書、活躍度定義劃分建議書、用戶行為軌跡分析報告以及在各業務領域(PD,UED,運營、客服)的應用建議書,交叉銷售模型、運營效果評估模板、運營效果提升的應用模型、客戶流失預警模型、服務細分模型;所有分析模型、分析報告、建議全部在實踐落地應用中得到檢驗,模型應用準確率基本上都保持了相當的穩定度和準確度除了SDRZ這個新產品剛剛上線正在進行中外);一分耕耘一分收獲,當你對一份工作,一分職業、一分愛好,充滿了愛,充滿了興趣,在這個領域你想不做好都很難?。?!
據挖掘交流討論(33,再完美的數據挖掘模型也只是業務應用萬
里長征第一步)
背景:2011年11月30日,汪生在本博客留言(“今年做了差不多一年的互聯網方面的挖掘課題,現在我面臨著你前面提及的瓶頸和困局。本來期望年底的注冊響應模型能有起色,但不幸的是,互聯網的確有特殊之處。能注冊的自然注冊了,不愿注冊的即使給了OFFER還是不夠大。不僅如此,營銷配合的業務部門也不給力。對我而言,這是一個艱難時期。不知老兄可有良策。”
回復:汪生你好,我們不約而同想到了同樣的話題。我在最近2個月做了一個挖掘應用課題(某核心產品高活躍免費用戶防止流失的預警模型應用),建模階段在業務部門的支持配合下進展順利,實際數據驗證模型也非常穩定可靠滿意。一個優秀的完美的挖掘模型并不是必然帶來運營落地應用效果的完美,落地應用相比建立模型來說更加復雜,更加挑戰,涉及到更多的不可確定的因素。也正因為落地應用更復雜更挑戰,所以數據分析師應該有勇氣有熱情突破自己的數據分析挖掘的領域,向業務應用延伸,這個要求短期看是對企業有功,長期看是對分析師個人的跨越式成長所必須的,只有不斷突破自己,才可能真正成為實戰型的數據分析專家。作為數據分析師來說,個人的含金量或者說個人的專業價值一定是要在實戰中體現或者發揮的,僅僅能熟練搭建一些準確的完美的模型離市場所需的實戰型優秀分析師的能力之間的距離有天壤之別。
項目建模階段概述:免費客戶運營部提出一個分析需求,鑒于免費客戶中的高活躍用戶群體(該群體是最有可能轉化成付費用戶的)流失率比較高(涉及東家商業隱私,本博客所有商業數據做了屏蔽或修改),業務方希望通過數據分析挖掘提前預警發現最有可能在近期流失的用戶,并提交運營部門做精細化分層運營,力圖有效挽回高流失風險的用戶,降低該用戶群體的流失率。通過與運營方前期溝通,首先明確定義了本分析課題中'什么是流失用戶的定義',根據運營方的運營節奏和經驗,“H層流失用戶是指在A時間點屬于H層用戶,在A加7天的時間點已經跌落離開H層,并且在A加14天的時間點仍然沒有回到H層的用戶”。接下來,與運營方一起討論潛在的分析變量字段,結果運營方為了省事,把寬表里所有70個字段全部作為潛在分析字段讓我選,呵呵(“悟空,你又在調皮!”)。第一次提數據,
30萬行70個字段,通過基礎原始數據摸底和數據清洗,排除了空缺嚴重的或者分布過度集中的或者高度相關的字段共36個,同時,發現了兩個字段數據矛盾(過去30天某某操作天數為零,但是過去30天某某操作次數不為零),這個相互矛盾的兩個字段我們覺得不能忽視或者簡單刪除,要找原因,經過與數據倉庫方面溝通,發現是數據倉庫數據回滾錯誤造成的,這樣必須重新提取數據。第二次重新提取數據后,按部就班邊分析邊分享,進展順利,當模型搭建完成,驗證比較滿意,準備提交業務應用時,我突然想到一個關鍵問題,“這樣大動十戈挖掘建模出來的結果,有沒有更加簡單直觀的分析方法代替呢?”,換言之,如果我們直觀猜想,在起初的A時間點,在H層定義的值域附近的人群是否可以直觀判斷在7天14天時間點最有可能跌落離開H層?”,無論這個直觀猜想是否正確,我們最起碼要驗證一下吧。結果,我回頭驗證的時候,猛然發現,我們當初全部囊括的寬表里的70個字段,盡然沒有包括H層定義的那幾個字段(行業的登錄標準天次,行業的關鍵A頁面的pv,等),如果沒有這些字段數據,那么上述的直觀假設就無法驗證,我們也就不能理直氣壯證明挖掘模型的價值了。所以,盡管模型單方面看可以滿足業務需要在這種情況下,我主持召開了課題階段分享會,向業務方通報進展和無法對比直觀假設的尷尬,面對當前的模型結論和發現的一些明顯證明是與流失有密切關系的一些字段,業務方非常感興趣,也支持我重新提取新數據,包括上面假設里的一些關鍵字段(在該分享會上,我首先承認遺漏上述關鍵字段是我的責任,但同時我也指出在前期的字段討論中,業務方將近20人參加討論也沒有人想到跟H層定義有關的那幾個關鍵字段),同時,在這次會上,業務方根據自己的經驗提出的另外一個關鍵字段在后來的模型中證明是最重要的一個預測字段第三次重新提取經過增添的新的原始字段,按部就班,最后跟上面的直觀猜想進行驗證,發現這個直觀猜想不成立(放心了)并且(由于增添了幾個關鍵字段)新的預測模型比第二次數據建模的效果要提高6個百分點,最后,經過最刺激的開門見山的跟當時最新的實際數據驗證,模型實際精度與建模時的測試精度完全吻合(說明很穩定可以投入業務試用);前期建模完成,數據分析挖掘告一段落,接下來是提交運營方開始試運營,每周一按照該預警模型,跑數據,預測4天后最有肯能流失的所有用戶的流失概率分數,由運營部門按照流失概率分數從高到低,排名最前的30%的目標群體進行進一步的分層的精細化運營。我在模型投放業務應用的分享會上,重點提醒大家再好的模型也只是業務應用萬里長征第一步,接下來的落地應用任務更加挑戰,更加復雜,也更加有意義。下面節選的三個PPT是我當時在模型交付應用之前業務分享的幾個主要分享點:
-對干褂期的“晅失群悻尾丈〃璉片界胡?岫文廛苦ft:
含毒是否荷合業著巨昔的打析樣拿】
*時對疆夫隊險?大的^易鼻晃景「透T曾帝乂曜1運用的主要抻點.特此過面分,累芟,分布罪)I
■U里碧城應舞瓦鈉致芽任tf
§?'"!??,riH^irjjii測效火?
—4
,蔑圣的ft此募我皆斑增用的應岸?……
?耗經條洋最“鎮裂*員Bf慘”的定義的度化r
?y「<sw足皓臺用牲也帳聃*?素的代:
?福丹建候晶提外疝海澎效果的。效手皮,
c?mi mm*v4M*-AftfiivI
也■/膏
?安為0J&L的!|議和直■有時搟可以一字千金卜搟值涯」
?醐博慢里與牌站分忻-Mb
止地; I
最Jkiji勺檢驗
落地應用環節的重點分享:
感謝上述流失預警模型的落地應用的運營部的同學們,尤其感謝牽頭的資深運營專家MS。跟蹤、關注、參與你們的運營過程實在是在下的好享受。從11月13日開始,第一次打分后,提取最可能流失的
30%的H層用戶中,隨機抽出其中10%的用戶作為觀察組(不做運營碰觸),其余90%的目標用戶由運營方根據他們經驗中提取的幾個核心指標進行人群細分和相應的運營方案細分(這個動作是我之前的很多模型落地應用中不同的地方,因為本模型的關鍵預測變量在業務方看來都沒有運營應用“噱頭,話題'的價值,所以他們提出了另外的幾個字段來提煉細分方案,目前看來他們的方案起碼還沒有明顯錯誤的)。首先應用的運營通道是電子郵件運營:EDM),包括觀察組在內一共7個細分群體(其中6個群體進行不同內容和宣傳的細分運營)持續兩周時間,現在到了揭開神秘面紗的時候了,呵呵!!
第一次模型投放試運營為期兩周,隨后運營方做了詳細的階段性
(2周)運營總結分析報告,先摘錄如下:
模型預挪膻確率。
根據模型評分選擇流失預測評分最高的馳%作為運營目標,
最終流失的標準是11月20日流失至W房,并旦在”日之前沒有同到H層的客戶.
最終預測目標客戶流失數量竟人.
同期,H屋忌痛流失客戶為人,預測人群在總體實際流失客戶中占比763%,與模型測試時的莪果相符,
從上面的運營效果報告里,可以看出,首先,預測模型到目前為止預測的準確率和穩定性還是很好的;其次,在第一輪電子郵件運營的六個不同細分群體的效果看,有的效果好,有的效果不好,具體原因有詳細歸納;第三,綜合對比運營群體和(沒有運營的)對照組群體的14天后的流失率,兩周沒有明顯差異。
對于上面的第三點,運營方主要歸咎目前郵件運營通道阻礙、效果不好;其實,在我看來,既然第二點明確總結了有的運營細分群體效果比較好,有的不好,那么總的運營群體從邏輯推理上講其運營效果一定會或多或少比(沒有運營的)對照組的對應效果要好的吧。如何解釋第三與第二點之間的貌似的'矛盾”呢?原來,這里出問題的就是來自運營方的KPI考量。從科學的合理指標看,上面總結的第二點,已經給出了合理評價現階段運營效果的方法。但是,作為一個專門的運營部門,它希望本次活動的評估的指標能跟自己的部門KPI掛鉤,而這里的KPI就是H層流失率的降低,從上面第二點里的合理評價效果的指標到這里的KPI,中間有個過程的,實際上是個從量變到質變的過程,如果強行忽視這個從量變到質變的過程,強行按部門KPI考核這個為期2周的階段性運營活動,當然很難滿足這個KPI的要求了。
上述情況,應該跟你在留言里提到的情況非常類似了吧,這里的關鍵是業務部門的認識問題,有急功近利,有大躍進思潮,這其實就是對“數據化運營”的一種誤解,是蠻十,是霸王硬上弓。打個比方,婚戀網站百合網如果做一個營銷活動,那么這個小活動的評估指標應該是本次活動帶來的牽手數量或者報名數量的,但是如果你一定要把本次活動帶來的“領證結婚的數量”作為活動評估指標,你說是不是要求有點急功近利???
當然,運營方式的變通也是一個探索的方向,比如本項目的落地應用,在上面的郵件運營之后,目前正在運營的方式是在線即時通訊IM的運營,根據我以往的項目經驗,在線運營的通道和方式中,IM的效果總體來說是高于EDM的,目前運營正在進行中,運營方隨后會有階段性的效果報告和總結歸納。
綜合我曾經碰到的類似你在留言里提到的落地應用不好的原因,除了上面提到的這個普遍性的原因外,還有:
落地應用的資源是否有保障,比如營銷資源,促銷預算,這些都是打仗的槍炮子彈,有還是沒有,多還是少,對于運營效果有顯著影響;
運營團隊的數據化運營的能力,能有效細分受眾,高效設計運營方案,有效執行在線運營方案,全程跟蹤記錄過程數據,能及時總結歸納提煉運營效果報告。我很慶幸在本項目中合作的資深運營專家MS在這方面非常專業,我從中也學到了不少新的經驗和體會;
數據化運營是企業全方位競爭的綜合較量,不是單單一個好的或者精準的挖掘模型就可以一了百了的,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《廣告創意與設計》 課件 王樹良 項目1-6 理解廣告創意- 廣告設計基礎
- 電子政務模擬實驗指導手冊
- 政治社會學 03政治社會學的理論范式學習資料
- 浙江溫州龍灣區農村商業銀行專項考試模擬預測試卷(八) (42)學習資料
- 財務人員崗位合同
- 個人工作述職
- 電算化理論部分練習題
- 第十三屆全國交通運輸行業公路收費及監控員職業技能競賽考試題庫
- 園藝植物病蟲害防治74
- 2025銷售人員勞動合同范本參考
- 《鐵道概論鐵路車站》PPT課件
- T∕CNTAC 22-2018 絨毛織物掉毛性的試驗方法
- TI-BQ40Z50-軟件(課堂PPT)
- 建設項目3000萬元以下估算投資額分檔收費標準
- 《禮儀培訓》PPT課件
- 能源計量網絡圖范例二
- 歷代皇帝年號表
- 超星爾雅學習通《時間管理》章節測試含答案
- 110ZM241塔型圖
- 二至六年級24點試題與部分答案
- 2016年江蘇開放大學-實踐性考核作業-建設工程施工管理1課件
評論
0/150
提交評論