




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、電商行業數據運營建設實踐提綱一、對BI的思考二、蘭亭數據平臺建設三、大數據的高性能實現四、高效的數據挖掘五、BI的發展趨勢一、對BI的思考_定義BI組成 DW OLAP DM 查詢報表 數據挖掘BI功能 信息搜集 管理 分析 處理BI目的 知識(Knowledge) 洞察力(Insight) 輔助做出決策一、對BI的思考_數據采購倉儲訂單物流銷退客服系統數據渠道注冊瀏覽溝通下單回訪用戶數據BI一、對BI的思考_協作管理者銷售財務運營/設計/推廣客服物流/倉儲一、對BI的思考_問題響應較慢 開發速率跟不上互聯網變化的節奏; 需求變化,又得根據流程重新開發;靈活度不夠 不能進行數據交互、自由組合;
2、 不能二次分析;無法支持大數據量 TB,PB級數據無法響應一、對BI的思考_解決思路快速響應 快速響應:實時數據倉庫和準實時數據倉庫; 需求變化:最快響應;靈活多變 人與系統交互、維度自由組合; 多樣的展現方式基于云計算的大數據響應 海量數據處理:海量業務數據在線分析、云端部署二、蘭亭數據平臺建設_架構數據計算層數據服務層源數據層MysqlOracle文件數據日志海量數據/離線計算:EMR/Hive/Spark數據挖掘實時計算:Kafka分布式消息系統/Streaming流式計算線上服務:Mysql/Redis 集群/HBase報表系統:Oracle主從/Redshift查詢分析:Hive /
3、數據倉庫/KibanaAPI/JDBCWebRPC數據產品應用層統一調度、監控、權限控制二、蘭亭數據平臺建設1、數據模型分層:ODS, DW, DM, RPT范圍:流量、銷售、運營三大數據模型及數據集市推薦:個性化推薦數據、商品推薦數據排序:根據能效值排序的數據2、架構 調度:基于Quartz開發的調度系統; 監控:判斷程序執行返回狀態,記錄到日志表中,發送短信和郵件報警; 權限控制:數據倉庫訪問權限,申請、審批和授權; 線上支持:MySQL,HBase通過API接口支持線上服務二、蘭亭數據平臺建設2、架構 數據收集:DataExp ,shell 腳本,Kafka分布式消息系統,快速低成本收集
4、日志等; 抽取與轉換:存儲和計算基于EMR/Hive/Spark/Oracle 存儲:Oracle數據倉庫存儲量級較小的數據,Redshift存儲量級大的數據 云存儲:Amazon S3 Redis集群:支持實時推薦等3、應用 日常查詢:臨時查詢; 報表服務:報表以web展示,或者郵件形式發送給用戶; 自助服務:支持用戶自定義查詢,并保存為報表; 網站運營效果評估:響應時間、各指標用戶數等; 流量分析:流量、點擊率、轉化率、跳出率等 推薦系統 搜索引擎二、蘭亭數據平臺建設 統一調度系統:架構ServerMysqlClient AgentClient AgentClient AgentAWS E
5、C2OracleHadoopClient Agent其它二、蘭亭數據平臺建設 調度系統:運維、管理、監控、依賴二、蘭亭數據平臺建設 報表系統:維度分析、動態展現、權限元數據RDS MySQLAmazonS3二、蘭亭數據平臺建設計算與存儲:EMR + HiveEMR + HiveOracleRedshiftMysqlDataExp二、蘭亭數據平臺建設 應用推薦服務商品排序運營數據RESTful API前端系統搜索引擎CRM、其它系統Web Service三、大數據的高性能實現 1、Oracle讀寫分離 一拖二 主庫寫,從庫實時復制 多從庫用于查詢、統計 硬件加速:SSD盤加速三、大數據的高性能實
6、現 2、Redshift Amazon Redshift 是一種快速、完全托管的 PB級數據倉庫解決方案; 列式存儲; 數據壓縮; 區域映射; MPP并行處理框架:在不停機的情況下實現擴展或收縮;三、大數據的高性能實現 3、Logstash、 ElasticSearch、 Kibana Logstash:日志進行收集、分析、過濾,并將其存儲供以后使用; ElasticSearch:全文搜索服務 Kibana:自定義搜索接口,頁面展示四、高效的數據挖掘1、 Hadoop在數據挖掘中的問題 MP模式 vs復雜的機器學習算法 多次迭代問題 中間數據的處理 開發周期長四、高效的數據挖掘2、SparkRDD(Resilient Distributed Dataset)內存計算:計算的中間結果保存在內存中,不需要讀寫HDFS;快速迭代;DAGScala函數式編程(FP);Actor模型:基于線程和基于事件的Actor;并發能力;四、高效的數據挖掘 3、Spark架構HDFSAmazon S3HBase本地模式獨立模式EC2MesosYarnMRSparkRDDFPSharkStreamingMllibGraphx原始日志SparkRedis/HBase模型結果Hive混合計算Hive表四、高效的數據挖掘4、蘭亭推薦系統架構推薦結果用戶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電氣工程師資格考試標準流程試題及答案
- 商務禮儀與個人形象塑造的關系試題及答案
- 2024年CAD工程師現狀試題及答案
- 解鎖電氣工程師資格證書考試技巧試題及答案
- 質量工程師資格考試全面提升方案試題及答案
- 紡織機械操作中的穩定性分析試題及答案
- 酒店經營管理師實習經驗貼士試題及答案
- 探討CAD工程師認證考試中團隊合作與溝通能力的要求試題及答案
- 抓住重點應對2024年CAD 工程師認證考試的考前準備試題及答案
- 2024年焊接工程師復習高效策略試題及答案
- 2025-2030串番茄行業市場發展分析及前景趨勢與投資研究報告
- 安徽省滁州市皖南八校2024-2025學年高一下學期4月期中化學試題(含答案)
- 遼寧沈陽國有資產托管中心有限公司招聘筆試題庫2025
- 哮病中醫特色護理查房
- 2025-2030中國浮吊行業市場發展趨勢與前景展望戰略分析研究報告
- 北京市公園管理中心所屬事業單位招聘筆試真題2024
- 2025年廣東省深圳市31校聯考中考二模歷史試題(原卷版+解析版)
- 浙江省紹興市2025屆高三下學期二模試題 數學 含解析
- 高二期末家長會-家校攜手凝共識齊心協力創輝煌
- 地球物理反演方法-全面剖析
- 職場人士健身與鍛煉技巧
評論
0/150
提交評論