




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、企業大數據平臺解決方案產業趨勢邁入大數據時代大數據應用場景IT產業快速發展移動互聯70+億 用戶 接近全球人口總數 78% CAGR 數據增長大數據數據即資產未來5年,企業間的競爭在數據層面云計算云成為新一代IT基礎設施 56%中小型企業購買云服務社交社交即業務86% 企業在社交媒體上開展業務 邁入大數據時代1000+PB24億網民1天產生的數據63% GAGR非結構化數據增長率數據摩爾定律:Y=C2XX代表時間,Y代表用戶的信息分享量,C代表現在時刻的分享信息量30+TB交易量3000+萬筆/天1PB/SCERN:核爆產生數據的速度對大數據的理解大數據是指通過對海量數據的智能存儲、智能挖掘和
2、智能分析,面向具體的行業應用,把巨量離散的、碎片化的數據加工形成具有商業價值的數據處理技術,以幫助企業/機構更準確地做出趨勢判斷、進行精準營銷和實現精細化運營等。大數據的數據量應足夠大,一般是P級,數據的時間跨度應足夠長,以真正實現從微觀數據到宏觀規律的躍遷。企業提高競爭力,應該掌握和分析更多的數據大數據可以幫助企業更準確預判客戶需求,洞察市場,產品創新。金融:實時征信,精準小微貸,防欺詐電信:流量經營、客戶維挽、套餐包精準營銷公安:同行車輛、碰撞分析、電商:亞馬遜推出“預判發貨”媒資:Netflix推出紙牌屋電視劇傳統媒體互聯網1.0互聯網2.0/3.0顧客的力量和選擇公司的力量和聲音客戶占
3、據主動金融:大數據讓銀行更了解客戶與識別潛在風險王五作為某銀行客戶,需要申請一張新的信用卡實時征信、精準營銷、在線明細、精準小微貸、24周大數據平臺客戶信息系統交易系統信用系統電信:大數據支撐運營商向Digital Telco轉型管道運營能力運營跨界運營. 2G 2.5G 3G B3G/4GSPCPCPSP語音封閉、壟斷窄帶數據有限程度開放寬帶數據防御與競合超寬帶數字經濟使能數字經濟驅動運營商徹底進行數字化重構商業架構企業架構網絡架構網絡資源為中心客戶體驗及生態圈為中心封閉開放、用戶驅動、實時知識Silo云化, 業務感知, 自編排數據源精準營銷大數據平臺M域O域B域輔助決策數據開放 一份數據,
4、一次采集個人客戶家庭客戶政企客戶互聯網客戶一份存儲,全局共享,全量分析公安:大數據實現在海量數據中快速檢索出價值信息3000+萬條記錄, 1+億張照片,約100TB國內某大城市1天的卡口數據:檢索信息耗時:12天大數據平臺傳統數據庫平臺模糊檢索耗時:2分鐘電商:亞馬遜“預判發貨”,顧客未動包裹先行大數據分析:“預判發貨”顧客此前訂單顧客搜索記錄顧客心愿單顧客購物車顧客瀏覽行為大數據平臺媒資:大數據讓Netflix在紙牌屋開播前就知道會火400萬影視評分3300萬訂閱用戶行為300萬搜索請求上線20天,點播400+萬次大數據平臺主流數據處理技術及數據處理技術趨勢大數據處理技術數據處理技術與架構發
5、展趨勢傳統數據倉庫SQL、UPFSQL執行引擎行存、磁盤、單機/SE集群I/O存在瓶頸擴展能力差實時性差非結構化數據存儲無法支持復雜計算數據處理能力弱UPF: User-defined Process FunctionSE: Share EverythingSN:Share Nothing并行批處理/HadoopSQL、Java、Python多種計算模型(MR、圖計算、)HDFS、SN分布式解決“大、雜”多類型數據復雜計算模型靈活編程接口MPP數據倉庫SQL、UPF向量迭代、并行列存、SN分布式內存分析數據庫SQL、UPFMicroEngine、并行列存、內存流處理引擎CQL、規則網狀算子執行
6、內存解決“大、快”結構化數據快速查詢、交互式實時查詢One sizes fit all單一架構One sizes fit domain分離架構(四套系統)One stack rules them all融合架構(四套變一套)統一持久層,數據減少移動統一管理,實現資源共享和管理自動化同一數據可同時進行批處理、流處理以及查詢多種計算模型解決“快、雜”異構流數據實時處理MPP DB高級編程接口批計算流計算分布式文件系統資源管理開發IDE系統管理數據挖掘算法/建模/其他工具 Hadoop已成為大數據事實標準第一階段(20052009年):模仿Google的“三駕馬車”,主導者是Yahoo!,Faceb
7、ook等互聯網廠商,相關項目第二階段(2009年):模仿Google的“新三駕馬車”,主導者是Cloudera、Hortonworks等Hadoop發行版廠商,IBM、EMC、Intel、Huawei等傳統IT廠商開始集成Hadoop,Haoop進入企業市場,相關項目第三階段(2012年):博采眾長,吸納AMP Lab、流計算等成果,通過配套工具構筑大數據領域生態系統,形成事實標準;相關項目。6大Hadoop 發行版廠商Cloudera、Hortonworks、MapR、 IBM 、EMC、Huawei揭開Hadoop神秘的面紗Hadoop是Apache基金會的一個項目總稱,主要由HDFS和M
8、apReduce組成。 HDFS是對Google GFS的開源實現,MapReduce是對Google MapReduce的開源實現。 Hadoop 來源于其創始人Doug Cutting的兒子給一頭黃色大象取的名字。Hadoop最初只與網頁索引有關,迅速發展成為分析大數據的領先平臺。Hadoop 框架與實例HDFS 分布式文件系統Hadoop 框架HCatalog元數據管理HBase分布式列數據庫HiveSQL查詢語言Pig流數據處理語言MapReduce分布式數據處理框架&集群資源管理協調服務,分布式鎖ZooKeepereHadoop Common分布式文件系統和通用I/O的組件與接口數據
9、源數據倉庫日志文件媒體文件RSS分布式數據存儲HDFS, 分布式數據處理數據應用QueriesAnalyticsSearchDatameerSqoop、Flume、Hadoop 實例HBase MapReduceHadoop 核心組件: HDFS 和 MapReduce海量數據的分布式存儲海量數據的分布式處理大數據處理技術日新月異,更高效的計算框架不斷涌現HDFSHadoop 1.0MapReduce集群資源管理 & 分布式數據處理HDFSHadoop 2.0YARN 集群資源管理批處理Off-line computation交互計算Tez (Hive/Pig)批處理M-R流處理Storm,S
10、4,迭代計算Spark其它Graph Spark :迭代計算模型Spark是UC Berkeley AMP 實驗室基于map reduce算法實現的分布式計算框架,輸出和結果保存在內存中,不需要頻繁讀寫HDFS,數據處理效率更高Spark適用于近線或準實時、數據挖掘與機器學習應用場景Hadoop:兩步計算,磁盤存儲Spark:多步計算,內存存儲VSSpark:大數據技術新方向Spark SQLSpark vs HadoopHadoop /Spark /是否開源成熟的開源項目開源,2013年8月申請成為Apache孵化項目文件系統HDFS支持HDFS、MESOS、S3等文件系統,可以直接將spa
11、rk集成到hadoop上,可以從hdfs讀取和寫入文件中間結果存儲存儲到磁盤內存存儲Job定義Map-Reduce 兩步計算DAG的Job定義,支持多步計算開發語言JavaScala、Java 、Python易用性Java API,無交互式界面提供豐富的Scala, Java,Python API及交互式Shell來提高可用性容錯性數據冗余,任務失敗重計算Checkpoint機制,RDD支持重計算性能頻繁讀寫磁盤,低數據緩存內存,高應用場景適用于大數據量,迭代次數少,無時延要求的業務適用于中等數據量(TB級),需要多次操作特定數據集,且頻繁迭代計算的數據業務場合未來發展第2代hadoop,融合
12、的分布式計算框架可插拔的job調度器/緩存管理策略Spark大數據棧-構建MLbase、Tachyon、GraphXStrom:流式數據處理引擎Hadoop:分批處理Storm:實時處理Storm 廣泛應用于實時分析,在線機器學習,持續計算等領域。VSStorm 框架及實例Storm框架Storm實例大數據方案與實踐方案介紹實踐經驗應對大數據的舉措FusionInsight 大數據處理平臺:解決“多”、“快”、“準”挑戰運營商:用戶維挽,精準營銷金融:精準小微貸,實時征信,FusionInsight大數據處理平臺(數據分析:預測分析,數據關聯,語義分析,主題提取,特征管理,自動特征,IDE)(
13、數據管理:結構化,非結構化,半結構化,流)HadoopSparkStorm電信應用金融應用公安應用數據洞察 : 海量特征工程與建模FusionInsight Hadoop由來200720112013持 續 優 化 并 回 饋 社 區性 能 導 向 配 套 電 信可 靠 安 全 自 管 理,企業 發 行 版開源跟蹤研究類組件配套GalaX HD獨立發布FusionInsight HD大數據方案:提供大數據存儲、處理、分析和消費平臺 海量數據存儲,批處理,迭代處理、實時流處理Manager統一管理RH2288通用X86服務器OceanStor 9000大數據存儲數據洞察平臺數據處理平臺大數據基礎設
14、施FusionInsight數據集成平臺收集清洗轉換特征/模型/挖掘/可視/服務業務相關的應用套件(業務邏輯/決策/安全/數據開放/可視)應用套件層電信詳單查詢、經分分析、精準營銷銀行全生命周期分析、歷史明細、精準營銷、在線征信與風控等行業應用公安卡口 數據分析情報分析人口管理FusionInsight:讓數據“慧”說話全組件HA1000+KM容災業內唯一 首家通過嚴 格的金融等保 HBase二級索引 HDFS、MR性能提升5倍以上1st可靠1st安全1st性能內核級團隊社區持續貢獻亞洲第一FusionInsight已成為金融和電信建設第二數據平面的首選平臺1st服務征信:25秒或有資產精準推
15、薦金融脈絡Storm企業版的關鍵在于工程團隊的能力會使用Hadoop會定位周邊問題會定位內核級問題(拔尖的個人)定位內核級問題的團隊(依賴團隊而不是精英個人)能夠獨立完成支撐關鍵業務特性的內核級開發能夠帶領社區,引領社區完成面向未來的內核級特性開發能夠創建新的社區頂級項目,并且得到生態系統認可某大銀行CIO:“我們把大數據應用視作是生命線,肯定是采用企業版,因為搞開源軟件不是我們的主業。在選合作伙伴的時候,我們一定考慮門當戶對,因為強有力的合作伙伴才能保證35年的供應、合作安全”強大的掌握代碼的團隊,才能造就成功的企業級數據平臺軟件Hadoop社區貢獻全球第四,開源到企業級的蛻變安全版本配合配
16、置HadoopHBase日志性能調優基線選擇補丁選擇采納社區精華,去除開源Bug:謹慎選擇穩定基線版本認真評估高版本補丁影響范圍評估和回合策略采用數萬個測試用例,確保企業版本穩定性團隊社區問題/補丁貢獻2013年社區貢獻最新統計,全球第四,亞洲第一No.4 & No.1ApacheHbase Contributors8Hbase Committer1HDFS Committer1HDFS PMC1年份提交解決20111109820121891552013207178數據分析和挖掘領域頂尖人才,多項創新研究成果傾向預測人物刻畫主題提取關系估計特征管理分析自動特征構建戴文淵 中央研究院諾亞方舟實驗
17、室主任,2012實驗室首席科學家。引領國際“數據”科學的研究,特別是在數據挖掘、機器學習和人工智能等領域享有盛譽全面覆蓋大數據領域關鍵技術南京研究所:ETL/實時決策(電軟研發中心)深圳研發基地/香港:大數據分析平臺(IT研發中心)大數據管理平臺(IT研發中心)數據挖掘算法(諾亞實驗室)印度研究所:Hadoop(中央軟件院)數據可視化(中央軟件院)MOLAP(中央軟件院)美研所:MPP DB、TP DB(高斯實驗室)MOLAP(中央軟件院)Spark (中央軟件院)歐研所:分布式內存 DB(中央軟件院)分布式計算算法(法國、中央軟件院)杭州研究所:Spark(中央軟件院)流計算(中央軟件院)招
18、商銀行:構筑大數據平臺向互聯網金融轉型銀行業務競爭激烈,急需以金融數據分析、挖掘為基礎的產品預測、創新和風險評估,提升自身競爭力面對金融數據量和種類不斷增加,傳統數據倉庫僅適合結構化數據處理,擴展性差、擴容成本高,無法滿足大數據時代要求客戶挑戰解決方案企業級大數據平臺:高可靠、高安全、易管理、易開發第一家支持金融等保、第一家支持1000公里以上異地容災 的海量數據分析和挖掘平臺,無縫銜接企業應用擁有內核級開發的工程團隊和咨詢、定制化的服務能力客戶價值統一的全量數據分析和挖掘平臺豐富的創新業務:在線明細,精準營銷,實時征信 小微貸獲客預測,比傳統方式提升40倍的轉化率;或有金融資產預測誤差率降低
19、一倍;信用卡征信由原來的15天提升到30分鐘支持線性擴容,擴容成本低我們把大數據應用視作是生命線,一定是采用大數據平臺企業版,搞開源軟件不是我們的主業。在選合作伙伴的時候,我們一定考慮門當戶對,因為強有力的合作伙伴才能保證35年的供應、合作安全” 招商銀行CIO應用1:在線歷史明細查詢X86服務器X86服務器X86服務器X86服務器HDFSZooKeeperHBase/CTBaseProfile HadoopUPS 數據服務業務請求接入和分發分布式應用容器歷史明細查詢業務邏輯電話銀行95555系統網點柜員系統在線歷史明細查詢解決方案:提供:FusionInsight UPS數據服務平臺 + F
20、usionInsight Profile Hadoop基礎數據平臺解決方案,客戶只需專注歷史明細查詢業務的編寫FusionInsight UPS數據服務平臺支持多業務系統并發訪問,實現實時歷史明細查詢能力FusionInsight UPS數據服務平臺同時支持Socket、Web業務請求接入和分發,與招行業務系統無縫銜接創新的CTBase方案,獨有的表聚簇和多級索引支持HBase多表關聯查詢的能力HBase同時支持SQL、Java API編程接口,適應客戶的編程習慣Manager統一管理Integration數據集成FusionInsight歷史明細查詢業務邏輯歷史明細查詢業務邏輯應用2:全量多
21、維度客戶行為分析X86服務器X86服務器X86服務器X86服務器HDFSZooKeeperHBase/CTBaseMiner 數據洞察特征管理銀行零售客戶分析MRYARNHiveMahout算法庫建模分析數據可視化用戶特征刻畫小微貸傾向分析銀行對公客戶分析企業輿情分析金融關系發現或有資產預測企業特征刻畫企業結算關系Manager統一管理Profile HadoopIntegration數據集成全量多維客戶行為分析解決方案:提供:FusionInsight Miner數據洞察平臺 + FusionInsight Profile Hadoop基礎數據平臺的解決方案,客戶只需專注客戶行為分析業務的編
22、寫FusionInsight Miner數據洞察平臺基于大數據全量建模分析,可以挖掘出14000維客戶特征,實現多維客戶行為并發分析FusionInsight Miner數據洞察平臺采用機器自動學習機制,大大提高分析準確度客戶行為分析結果存儲在HBase,供業務查詢FusionInsight應用3:小微貸傾向分析 & 或有金融資產預測900萬客戶14000維客戶特征小微貸傾向分析模型Top20000潛在小微貸客戶,業務部進行針對性營銷或有金融資產預測模型客戶潛在或有金融資產明細客戶項目收益客戶行為分析歷史明細查詢統一集中存儲5年20TB交易歷史明細數據,便于管理和擴展多業務系統并發實時查詢5年
23、交易歷史明細數據,提升客戶體驗成就客戶 實現共贏小微貸傾向分析采用機器學習機制+全量多維分析,替代傳統專家經驗機制+傳統數據倉庫模式轉化量TOP864TOP8653TOP581071332974469662200機器學習專家規則客戶或有金融資產預測誤差率由60%降低到30%誤差率60%30%TOP10000客戶推薦成功轉化率提高6倍或有金融資產預測大數據構建工商銀行分布式日志收集+分析平臺應對互聯網金融的競爭,需要掌握網銀用戶的行為軌跡,精準營銷,擴大銷售;優化網銀服務模塊的質量,提升客戶體驗安全、運維操作日志的關聯分析,提高故障發生時故障點定位的準確率,提升故障響應速度客戶挑戰解決方案企業級大數據平臺
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《營銷策略揭秘》課件
- 先鋒組織六項紀律剖析報告
- 《世博盛宴:上海世博會主題深度解讀》課件
- 5《我的家在這里》第一課時教學設計-2023-2024學年道德與法治三年級下冊統編版
- 2025年黔西南道路貨運輸從業資格證模擬考試題庫
- 荊門職業學院《海洋數學物理方程》2023-2024學年第一學期期末試卷
- 武漢城市學院《中國古典文學》2023-2024學年第二學期期末試卷
- 2025年呼和浩特貨運從業資格證模擬考試題庫及答案大全
- 昆明冶金高等專科學校《文化原典研讀(Ⅱ)》2023-2024學年第二學期期末試卷
- 四川省德陽市綿竹市2024-2025學年數學五下期末學業水平測試模擬試題含答案
- 統信服務器UOS操作系統-產品白皮書
- 糧庫火災的防控措施與技術
- 5G-Advanced通感融合仿真評估方法研究報告
- DB33 860-2012 危險化學品重大危險源安全監控管理規范
- 隱蔽工程影像資料采集要求和拍攝方法(網絡版)
- DB37T 1913-2011 金屬非金屬地下礦山特種作業人員配置
- 2025年日歷(日程安排-可直接打印)
- 大單元教學學歷案4 《現代詩二首》(略讀實踐課) 統編版語文四年級上冊
- 3.1 農業區位因素及其變化-看《種地吧》思考 課件 高一下學期 地理 人教版(2019)必修二
- 《保護板培訓教材》課件
- 綠色醫療器械設計
評論
0/150
提交評論