唯品會(huì)大數(shù)據(jù)實(shí)踐方案_第1頁(yè)
唯品會(huì)大數(shù)據(jù)實(shí)踐方案_第2頁(yè)
唯品會(huì)大數(shù)據(jù)實(shí)踐方案_第3頁(yè)
唯品會(huì)大數(shù)據(jù)實(shí)踐方案_第4頁(yè)
唯品會(huì)大數(shù)據(jù)實(shí)踐方案_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、唯品會(huì)大數(shù)據(jù)實(shí)踐方案第1頁(yè)CONTENT 目錄關(guān)于唯品會(huì)01數(shù)據(jù)平臺(tái)建設(shè)02大數(shù)據(jù)應(yīng)用建設(shè)03一些想法04第2頁(yè)數(shù)據(jù)平臺(tái)實(shí)踐離線計(jì)算分析平臺(tái)演化實(shí)時(shí)計(jì)算平臺(tái)演化一些技術(shù)選型和經(jīng)驗(yàn)數(shù)據(jù)應(yīng)用實(shí)踐系統(tǒng)開(kāi)發(fā)和運(yùn)行業(yè)務(wù)和產(chǎn)品運(yùn)行惡意用戶識(shí)別/風(fēng)控系統(tǒng)商品品牌推薦個(gè)性化排序第3頁(yè)| 產(chǎn)品| 系統(tǒng)| 算法數(shù)據(jù)儀表盤 、數(shù)據(jù)魔方、比價(jià)系統(tǒng)、地圖服務(wù)等精準(zhǔn)推薦基礎(chǔ)算法庫(kù)選品、分倉(cāng)與預(yù)調(diào)撥數(shù)據(jù)實(shí)時(shí)接入離線計(jì)算平臺(tái)實(shí)時(shí)計(jì)算平臺(tái)VRC資源管理平臺(tái)運(yùn)維監(jiān)控測(cè)試| 數(shù)據(jù)細(xì)分人群用戶Lookalike唯品會(huì)用戶畫像唯品會(huì)大數(shù)據(jù)VIP Big Data整體規(guī)劃第4頁(yè)平臺(tái)服務(wù)數(shù)據(jù)服務(wù)數(shù)坊分析師平臺(tái)對(duì)外服務(wù)VRC開(kāi)發(fā)者平臺(tái)畫像計(jì)

2、算VRESqoop/VDP/Flume/KafkaJob調(diào)度/Yarn調(diào)度運(yùn)維監(jiān)控測(cè)試數(shù)據(jù)產(chǎn)品HIVEPrestoSPARKRHbaseDruidHDFSRedis ClusterVRE實(shí)時(shí)算法預(yù)測(cè)MLLib實(shí)時(shí)訓(xùn)練分析統(tǒng)計(jì)任務(wù)GPStorm自助報(bào)表平臺(tái)應(yīng)用產(chǎn)品服務(wù)接入計(jì)算存放調(diào)度 系統(tǒng)-大數(shù)據(jù)基礎(chǔ)平臺(tái)規(guī)劃自助取數(shù)平臺(tái)第5頁(yè)數(shù)據(jù)平臺(tái)建設(shè)離線計(jì)算分析平臺(tái)選建設(shè)混合平臺(tái):Hadoop+Greenplum遷移策略和計(jì)劃daily job, hourly job, min job 擴(kuò)容,擴(kuò)容,擴(kuò)容離線和實(shí)時(shí)混合開(kāi)放平臺(tái)實(shí)時(shí)計(jì)算平臺(tái)建設(shè)Binlog2Kafka VDPMySQL2Kafka Spark

3、vs Storm Redis Challenge 穩(wěn)定性挑戰(zhàn)開(kāi)放平臺(tái)碰到問(wèn)題第6頁(yè)離線平臺(tái)演化-12012 年底:CDC調(diào)度+GP10節(jié)點(diǎn) 系統(tǒng)穩(wěn)定2013 Q1:CDC調(diào)度+ETL Gp + Query Gp, Tuning2013 Q2:自有調(diào)度平臺(tái)開(kāi)發(fā) + 自有抽取系統(tǒng)+ Hadoop 流量開(kāi)始遷移 +GP交易數(shù)據(jù) + Query GP2013 Q3:自有調(diào)度平臺(tái)+抽取遷移Hadoop流量遷移結(jié)束(70), 交易數(shù)據(jù)遷移開(kāi)始GP交易數(shù)據(jù)+Query GP關(guān)鍵數(shù)據(jù)小時(shí)級(jí)ETL2013 Q4元數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)質(zhì)量工具ETL Gp完整遷移開(kāi)始Query GP擴(kuò)容40節(jié)點(diǎn) Q1全部ETLHad

4、oop 200 nodes cluster + 40 Ad-Hoc EDW Hybrid node configuration 第7頁(yè)離線混合平臺(tái)-2Referene:Netflex, LinkedIn, eBayGreenPlum + Hadoop保護(hù)現(xiàn)有投資Hadoop 海量數(shù)據(jù)分析ETL復(fù)雜計(jì)算權(quán)限打通Greenplum:GP擅長(zhǎng)adhoc query速度快,分析師適應(yīng)不足夠scalable長(zhǎng)久成本Hadoop Massive scalable,不過(guò)單個(gè)查詢慢海量ETL計(jì)算Web查詢第8頁(yè)離線開(kāi)放平臺(tái)-3開(kāi)放平臺(tái)自助ETL開(kāi)發(fā)自助報(bào)表開(kāi)發(fā)和展現(xiàn)自助取數(shù)分析成本breakdown, cha

5、nge back性能,實(shí)時(shí),擴(kuò)展性,成本PrestoDruid第9頁(yè)實(shí)時(shí)計(jì)算系統(tǒng)架構(gòu)采集推薦建模 打點(diǎn)日志binlog消息數(shù)據(jù)實(shí)時(shí)增量抽取計(jì)算模型訓(xùn)練效果反饋Render & Router LayerCandidate Scan LayerCalculate LayerVRC模型訓(xùn)練平臺(tái)Flume/VDP/VMSVRE應(yīng)用開(kāi)發(fā): 任務(wù)配置 可視化編程 Esper EPL平臺(tái)組件: 輸入組件 輸出組件 UDFVRC Portal: 任務(wù)公布 日志查看 監(jiān)控告警Rule Layer第10頁(yè)Hbase vs Redis背景:個(gè)性化user profile, high QPS, very time s

6、ensitive 用戶信用體系user profile ,low QPS, non-critical 用戶實(shí)時(shí)瀏覽,訂單歷史,high tps, high qps 都是海量數(shù)據(jù)看上去Hbase愈加適當(dāng), 不過(guò)不放心選擇:Critical RedisNon-critical Hbase積累經(jīng)驗(yàn),逐步往Hbase dual write 其實(shí)Hbase也不廉價(jià),就是scale不動(dòng)系統(tǒng)Redis某種程度上也能夠?qū)崿F(xiàn)16:16:1311第11頁(yè)RedisStorm計(jì)算用redis保留中間和結(jié)果數(shù)據(jù)流量一直增加大促流量狂漲計(jì)算復(fù)雜度一直增加不停拆分。每次改代碼怎么辦?逐一模塊拆分一開(kāi)始就按模塊寫不一樣in

7、stance一開(kāi)始就Shard Twemproxy優(yōu)化數(shù)據(jù)結(jié)構(gòu)Pipeline/Batch不求100%準(zhǔn)確hll logRedis Cluster16:16:1312第12頁(yè)Challange實(shí)時(shí)計(jì)算作為平臺(tái)離線和實(shí)時(shí)融合離線向?qū)崟r(shí)遷移成本第13頁(yè)應(yīng)用實(shí)踐業(yè)務(wù)應(yīng)用運(yùn)行分析幫助企業(yè)買幫助企業(yè)賣技術(shù)開(kāi)發(fā)和運(yùn)行Telescope 業(yè)務(wù)監(jiān)控(storm)Logview/Titan 服務(wù)監(jiān)控(spark)Application logging(Spark)CDN日志分析 (Hive)Site speed分析(storm)安全審計(jì)分析(impala/storm)第14頁(yè)大數(shù)據(jù)對(duì)于技術(shù)運(yùn)行16:16:131

8、5第15頁(yè)實(shí)時(shí)業(yè)務(wù)監(jiān)控7現(xiàn)有平臺(tái)訪問(wèn)地址:商品展示登錄注冊(cè)訂單信息代金券信息支付模塊商品展示購(gòu)物車登錄注冊(cè)訂單信息代金券信息支付模塊FDS探索號(hào)CDNNginx域B2C移動(dòng)端用戶增加數(shù)移動(dòng)端下單數(shù)整體下單數(shù)訂單總金額購(gòu)物車增加數(shù)購(gòu)物車內(nèi)貨物數(shù)量業(yè)務(wù)集合域流量集合登錄熱力地圖注冊(cè)熱力地圖訂單熱力地圖購(gòu)物車訪問(wèn)熱力地圖日志數(shù)據(jù)WTWHeatMap大屏幕16:16:1316第16頁(yè)實(shí)時(shí)頁(yè)面加載時(shí)間監(jiān)控第17頁(yè)實(shí)時(shí)PV分布監(jiān)控第18頁(yè)商業(yè)CDN質(zhì)量分析第19頁(yè)App Service QualitySpark Streaming, 30 sec mini-batch進(jìn)去能夠看到每個(gè)pool,每個(gè)服務(wù)器,

9、每個(gè)url請(qǐng)求次數(shù),響應(yīng)時(shí)間,錯(cuò)誤率,在過(guò)去兩周各個(gè)維度統(tǒng)計(jì)數(shù)據(jù)和曲線;能夠看到pool之間相互調(diào)用關(guān)系, 調(diào)用量 全無(wú)入侵,應(yīng)用上線即插即用;第20頁(yè)Data Service Quality第21頁(yè)大數(shù)據(jù)在唯品會(huì)特賣模式業(yè)務(wù)價(jià)值第22頁(yè)大數(shù)據(jù)對(duì)于數(shù)據(jù)化運(yùn)行第23頁(yè)16:16:1324應(yīng)用于唯品會(huì)全方面客戶關(guān)系管理第24頁(yè)數(shù)據(jù)化運(yùn)行-數(shù)據(jù)產(chǎn)品對(duì)外:供給商:數(shù)據(jù)魔方對(duì)內(nèi):高管:手機(jī)數(shù)據(jù)儀表盤,經(jīng)營(yíng)分析商務(wù):選品,比價(jià)物流:分倉(cāng),預(yù)調(diào)撥產(chǎn)品/運(yùn)行:指導(dǎo)產(chǎn)品分析和決議,經(jīng)營(yíng)分析,效果評(píng)定,產(chǎn)品優(yōu)化金融:供給商貸款,消費(fèi)者:個(gè)性化推薦,唯品白條營(yíng)銷:個(gè)性化EDM,個(gè)性化Push,CRM業(yè)務(wù)安全:風(fēng)控第

10、25頁(yè)用戶管理及運(yùn)營(yíng) 供應(yīng)商打法一:數(shù)據(jù)從按天更新向?qū)崟r(shí)化轉(zhuǎn)變豐富數(shù)據(jù)可視化交互方式數(shù)據(jù)儀表盤打法二:合規(guī)前提下,開(kāi)放更多數(shù)據(jù)給供給商豐富數(shù)據(jù)接口格式及實(shí)時(shí)性數(shù)據(jù)魔方打法三:實(shí)時(shí)比價(jià)與價(jià)高告警比價(jià)數(shù)據(jù)與銷售轉(zhuǎn)化率數(shù)據(jù)關(guān)聯(lián)分析比價(jià)系統(tǒng)數(shù)據(jù)儀表盤數(shù)據(jù)魔方比價(jià)系統(tǒng) 產(chǎn)品-數(shù)據(jù)產(chǎn)品及服務(wù)第26頁(yè)P(yáng)C用戶移動(dòng)用戶AdapterAdapter算法模型1算法模型2算法模型3算法模型4stockdbmsdFlume-kafkaBinlog-kafkaStorm/C+Profile redisItem redisTraining DataBusiness RuleEPDebug Platformhadoop16

11、:16:1327系統(tǒng)架構(gòu)第27頁(yè)挑戰(zhàn)用戶數(shù)據(jù)稀疏,有效反饋少長(zhǎng)尾嚴(yán)重用戶體驗(yàn),50ms返回ITEM冷開(kāi)啟特征難抽取,比如圖片素材場(chǎng)景缺乏上下文沒(méi)有顯著意圖,不一樣于“搜索”28第28頁(yè)底層數(shù)據(jù)品牌歷史和實(shí)時(shí)銷售數(shù)據(jù)價(jià)格,品類,顏色尺碼格調(diào),季節(jié)品牌相同性商品商品profile長(zhǎng)久開(kāi)發(fā)歷史和實(shí)時(shí)商品信息(庫(kù)存,銷售,轉(zhuǎn)化)用戶用戶點(diǎn)擊瀏覽,購(gòu)物車,購(gòu)置,收藏行為按品類,格調(diào),價(jià)位,性別,尺碼用戶實(shí)時(shí)行為路徑16:16:1329第29頁(yè)我們走過(guò)路16:16:1330Q4-Q1:基于人群分組和人工排序個(gè)性化運(yùn)行嘗試人群劃分首頁(yè)人工排序列表頁(yè)人工規(guī)則自動(dòng)排序無(wú)效果。Q2:開(kāi)始有機(jī)會(huì)在小流量新版首頁(yè)嘗試

12、技術(shù)主導(dǎo)機(jī)器學(xué)習(xí)+業(yè)務(wù)規(guī)則首頁(yè)動(dòng)態(tài)生成個(gè)性化推薦模塊首頁(yè)動(dòng)態(tài)生成個(gè)性化排序頁(yè)面提升了首頁(yè)到列表頁(yè)轉(zhuǎn)化率,降低了跳出率,提升了銷售第30頁(yè)我們走過(guò)路 Q3-Now: 首頁(yè)和列表頁(yè)個(gè)性化排序機(jī)器學(xué)習(xí)train model Hadoop 生成 user profile/brand profileStorm 計(jì)算實(shí)時(shí)轉(zhuǎn)化銷售數(shù)據(jù),用戶實(shí)時(shí)行為和意圖實(shí)時(shí)排序首頁(yè)和列表頁(yè)下一步更多引入個(gè)性化因子(feature)細(xì)化user/brand profile ,更多數(shù)據(jù)引入更多其它算法,做到算法能夠靈活替換不但個(gè)性化排序和推薦,還能夠有更多16:16:1331第31頁(yè)個(gè)性化推薦下一個(gè)階段實(shí)時(shí),實(shí)時(shí),再實(shí)時(shí)實(shí)時(shí)計(jì)算商品品牌信息,用戶profile實(shí)時(shí)推薦實(shí)時(shí)算法迭代更新實(shí)時(shí)Abtest verify個(gè)性化,個(gè)性化,個(gè)性化移動(dòng)天然是個(gè)個(gè)性化好場(chǎng)所更多個(gè)性化因子愈加全方面數(shù)據(jù):用戶畫像建設(shè),曝光數(shù)據(jù)搜集第32頁(yè)個(gè)性化階段性結(jié)果PC端推薦:10%12% PC銷售占比首頁(yè)個(gè)性化排序4%銷售金額提升移動(dòng)端(/12)首頁(yè)個(gè)性化排序4%銷售金額提升列表頁(yè)排序優(yōu)化15%銷售金額提升Overall: 17%16:16:1333第33頁(yè)推薦關(guān)鍵點(diǎn)34推薦用戶場(chǎng)景ITEM第34頁(yè)處理之道35推薦數(shù)據(jù)算法系統(tǒng)第35頁(yè)一些小結(jié)技術(shù)選型:業(yè)界標(biāo)準(zhǔn)best pract

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論