SDCC機器學習在美團用戶畫像中的應用付晴川V_第1頁
SDCC機器學習在美團用戶畫像中的應用付晴川V_第2頁
SDCC機器學習在美團用戶畫像中的應用付晴川V_第3頁
SDCC機器學習在美團用戶畫像中的應用付晴川V_第4頁
SDCC機器學習在美團用戶畫像中的應用付晴川V_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器學習在美團用戶畫像中的應用付晴川fuqingchuan@2015-11-213W什么是用戶畫像?為什么要做用戶畫像?如何做用戶畫像?什么是用戶畫像?什墻么籌是騰用末戶膽畫或像爬?什扎么由是壁用命戶出畫趨像僵?數劇據撲簽萌化為春什臉么忌需將要用毀戶冰畫僑像棒?為蒜什禮么暈需曠要用棒戶繡畫貪像底?用戶用戶體驗商戶營收提升工程師自動化美團運營效率在飯對氣的拿時請間鄭獲群取籠對惡的泛服崇務麗!獲禽取挺更熄多擊的李潛援在歪優貸質熟客嶼戶汁!更至精非準烘高下效帝的普活灰動骨策用略幫制號定價!數團據晉應姓用換接蒙口說標跟準贏化/通資用狹化蹈!如攝何刃來拐做盼用醋戶顏畫愈像堆?架構算法特征模型實踐問題架釘構–系抹統伐概私覽架潔構—感—細乖節港解盤讀MT

dmspa項目統一特征提取框架動機1.多工程師/多個模型“自給自足”,特征分散。2.存在人力/計算資源冗余。實現1.特征統一提取/集中存儲——大一統特征庫。2.支持no-coding/配置化提特征。效果1.建模周期:

3~4周下降到1~2周。2.人力/計算冗余減少2倍(估算值)架騾構—黃—細戚節剪解小讀MT

utvs系列項目用戶畫像統一接口多系統項目動機

1.數據挖掘成果需要友好統一的輸出接口:

可視化+API實現

1.用戶標簽體系WEB可視化

2.用戶標簽索引/實時查詢3.報表自動化效果1.成果推廣加速/溝通成本降低

2.傳統用戶問卷調查報報告周期1個月,utvs系統10分鐘!算宜法–用摸戶貪特偶征需也要君做慰橫研跨患多縣個闊產近品叛線瀉的歷特抄征桿提充取猴!算胞法–用忘戶萍特鳳征抗體掏系用戶特征體系一級/業務基本團購外賣酒店電影上門……

二級/行為注冊登陸瀏覽下單搜索收藏評論消費分享LBS……三級/時間年月日周早中晚周末工作日節假日……+每+最近自由級/可選品類品牌詞條…MxNxKxL=?特答征膨脹算撫法–用互戶肢特些征算書法–用亮戶狼特考征算慨法–特粘征蝴與趁效椅果蹈實旋例用盤戶急職貝業擇標皆簽:學儀生資身挽份悅識敲別算呼法-問異題述及膝常求用拉模鍵型實如踐-問渠題檢及弦常換用廉模類型我-紹-打-么實萌例模型實例一項目有車一族標簽挖掘需求

1.汽車服務推廣活動需要精準圈定有車人群降低營銷成本。實現

1.樣本:問卷調查正樣本+隨機負樣本

2.特征:信息增益特征離散化+卡方/信息增益/互信息等特征選擇

3.模型:

try

SVM/MaxEnt/LR

=>

SVM效果1.離線評測:P93%,R85%

2.線上對比:推送打開率提升3倍,下單率提升5倍!實沸踐-問棟題套及牛常炎用峽模抹型扶-禍-順-援實說例模型實例一項目常住地標簽挖掘需求

1.決策支持:酒店需要分析用戶下單與地域關系,決定是否上異地推薦模塊。實現

1.樣本:問卷調查

2.模型:

try

LR/SVM/RF/GBDT=>

LR3.多個LR模型組合效果1.離線評測:P96%,R73%

2.線上對比:新上異地模塊點擊率超越歷史最佳“名店搶購”1個百分點!實搞踐-關謠于榨算及法等工叢程津師晶的夢段仍子…革…理想中的算法工程師提出假設->收集數據->訓練模型->解釋結果實際中的算法工程師提出假設->收集數據->預處理->預處理->訓練模型->調試->調試->重新收集數據->預處理->收集更多數據->調試->調試->調試->…>放棄實堪踐-分攀享頌:鐵那協些青年阻踩柏過競的怠坑…廳…目標效果現實效果分享一數據挖掘的天花板實數據本身!ToDo:努力逼近這個效果而不是較勁!實棕踐-分端享慎:臟那針些層年衣踩高過勵的擴坑…瀉…分享二實際應用中特征作用遠大于模型!ToDo:在深度優化模型之前,先榨干數據特征的增益吧!特征至少帶來80%+的收益。模型LR

SVM特征瀏覽次數消費頻次下單品類搜索分詞實遺踐-分切享社:李那亂些彼年銳踩辦過冒的悅坑…疤…分享三關于樣本:樣本少/不均衡!ToDo:1)

SVM或TSVM,

2)

under

sampling/over

sampling/SMOTE。不均衡?實在無樣本:可以考慮隨機+規則過濾方法挑樣本!Smote要用到KNN,高維不靠譜!收集樣本才是王道!實乘踐-分憤享止:非那室些串年燒踩途過錄的值坑…頑…分享四訓練集特征分布和自然待測數據不一致。ToDo:特征如果跟Label有直接關聯就不要用了。建模訓/測效果好的離譜自然結果一塌糊涂實振踐-分奧享牌:躁那被些口年覺踩蠻過醬的防坑…舊…分享五不要有把錘子,就把所有的問題當釘子。ToDo:多了解模型的優缺點,選擇合適的模型!考察點分類/回歸/…樣本大小異常點敏感度效果/性能tradeoff容易過擬合?線性/非線性Q樂&懼AT歸h秧e元m踏e膚r縱e搏f蟻o孤r宅m榨u日l歪a篩t語i拌o姿n旅o翼f裙a煎p火r蹲o繼b住l規e臣m值i醬s率f雹a面r菜m項o足r博e蔥e去s張s犯e酒n閱t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論