




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
英特爾大數據平臺最佳實踐提綱大數據帶來的挑戰大數據案例介紹Intel大數據平臺2BigBigData云計算技術是處理大數據的有效手段大數據和云是兩個不同的概念,但兩者之間有很多交集。支撐大數據以及云計算的底層原則是一樣的,即規模化、自動化、資源配置、自愈性,因此實際上大數據和云之間存在很多合力的地方。大數據應用是在云上跑的、非常典型的應用。——大數據處理離不開云大數據時代-數據爆發性增長IDC預測全球的數據使用量到2020年會增長44倍,達到35.2ZB(1ZB=10億TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC寬帶、移動網絡普及和提速移動網絡和各種智能終端視頻(醫療影像、地理信息、監控錄像等)統計、分析、預測、實時處理傳感器、RFID閱讀器、導航終端等非傳統IT設備社交網絡(Facebook,Twitter,微博等)4大數據處理速度要求越來越高Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010大數據與海量數據的一個重要區別,在于不但數據尺寸大,而且對數據處理的響應速度有有著更高的要求傳統的以周,天,小時為單位的運算處理周期,下降到以分鐘,秒為單位大數據高價值的重要體現-處理速度ValueHighutilityDiminishingutilityArchivalvalueTimeHighLowNegative數據的多樣性Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010數據形式的多樣:結構化數據,數據間有很強的因果關系半結構化數據,數據間因果關系較弱非結構化數據,數據間無因果關系數據來源的多樣性:不同的應用系統各種設備互聯網其它Flatfile創造顯著業務價值(VALUE)?Copyright2011EMCCorporation.Allrightsreserved.大數據分析顯著的業務價值
3V特性驅動下創建
挖掘數據資產價值,通過數據驅動業務,變成本中心為利潤中心智慧城市-典型的大數據應用集合2023/10/58大數據處理導致的平臺瓶頸RequiredScalabilityRapidAdoptionBigMathBigData“Moore’sLaw”Scalability數據處理需求與傳統平臺硬件擴展的差距不斷擴大IndustryProgress大數據處理需要的擴展能力大數據分析不同于傳統BI分析
結構化數據數據規模一般為TB規模集中式,為了分析進行大量數據移動,數據向計算靠近批處理為主結構化/非結構化混合分析的能力數據規模從數十TB到PB級別分布式,計算向數據靠近支持流式分析事務關系型數據庫批處理數據倉庫分析集群化非結構化流式多種數據源分析(MapReduce)組織傳統BI分析大數據分析Examples:TelcoGovtFinanceWeb分布式數據平臺與傳統數據平臺融合RawDataHadoopCluster(HundredsofTB’stoPB’s)StructuredDataSemi-StructuredDataHistorical/Archival/EventLevelAggregated/EnrichedSummary/InteractiveETLDataEnrichmentDirectQueryDirectqueryDirectModeling提綱大數據帶來的挑戰大數據案例介紹Intel大數據平臺12聯通3G詳單查詢-問題來源(1/2)隨著移動互聯網業務的發展,上網記錄查詢成為用戶投訴的焦點問題來源目前,中國聯通省分公司3G客戶數據流量問題爭議占3G業務投訴達7-10%,且近幾個月呈上升趨勢,個別省分比例高達20%一些用戶對3G業務流量產生及計費方式不了解,主觀認為自己未使用或使用較少數據流量,要求運營商提供上網記錄,而現有系統不具備此功能,從而導致投訴升級。3G流量費爭議占總咨詢投訴量比率上網記錄查詢對中國聯通的業務發展產生了較大的影響影響對用戶而言:“…要是能查到流量是和誰發生的就好了,如果是手機的問題,我也才知道今后怎么防范,現在連防范誰都不知道,誰知道下次還會不會發生類似問題?”對運營商而言:根據中國聯通客戶服務部門提供的數據,目前移動業務每萬元收入,因無法提供上網詳單造成的退費和賠付約60.1元;如果問題得不到根本解決,將會影響運營商按流量計費的資費模式,對運營商3G業務的開展將產生較大影響用戶上網記錄數是個海量數據,不僅投資巨大,傳統的電信業解決方案根本無法提供該服務案例某iPhone合約計劃用戶,在凌晨零點到4點之間手機產生巨額流量費在其得知因受計量設備限制無法向其提供數據流量去向后,竟上升到司法訴訟層面聯通3G詳單查詢-問題來源(2/2)移動用戶上網記錄集中查詢與分析支撐系統建設上網記錄集中查詢與分析支撐系統意義重大查詢為客戶服務人員提供客戶上網記錄快速查詢服務,解決流量投訴問題為用戶提供準實時的異常大流量上網記錄自助查詢服務分析對數據流量進行統計終端分析:iPhone、iPad、其他智能手機分布,新終端推廣效果分析熱門流量、熱門網站(業務)網絡分析:2G/3G基站流量分析,網絡優化數據挖掘根據流量分布,分析用戶群特征提供套餐設計參考,優化用戶體驗通過感知業務態勢,制定市場策略,指導業務產品開發,為市場營銷提供豐富的數據支持移動互聯網處于快速發展期:每6個月,流量翻一番移動互聯網用戶快速增加,智能終端迅速普及、戶均流量顯著增長,上網記錄數據將進一步猛增難點分析上網記錄是海量數據用戶每月的上網記錄約幾萬至數十萬在Gn(SGSN與GGSN之間)接口上部署采集設備來生成用戶上網記錄用戶手機訪問一次網頁,約會產生數十條,甚至數百條請求,意味著產生數十條和數百條上網記錄訪問手機新浪網首頁,約產生20條記錄訪問新浪iPad首頁,約產生40條記錄在iPad中看一條新浪新聞,產生超過180條記錄訪問淘寶觸摸屏版,約產生60條記錄大量的DNS查詢、推送服務記錄(如蘋果通知服務)等以中國聯通某省分公司為例,日均上網記錄數近10億條,每月數據量近9TB,31個省份數據量12T/day難點分析采用關系型數據庫進行上網記錄的存儲已不可行采用何種方式進行存儲和檢索是一個問題存儲:如此大的數據量已經超越了當前關系型數據庫可管理的容量上限查詢:關系型數據庫上對大規模數據進行操作會造成系統性能嚴重下降當數據集和索引變大時,傳統關系型數據庫如Oracle、Sybase,在對大規模數據進行操作會造成系統性能嚴重下降,因為在處理數據時SQL請求會占用大量的CPU周期,并且會導致大量的磁盤讀寫,性能會變得讓人無法忍受成本小型機+高端存儲+關系數據庫成本導致擴展困難移動用戶上網記錄集中查詢與分析支撐系統系統構成系統采用全國集中的一級架構方案進行建設,主要包含數據采集子系統、數據入庫子系統、數據存儲子系統、數據查詢與分析子系統基本技術采用Hadoop/HBase作為上網記錄存儲方案采用MapReduce/Hive作用統計分析和數據挖掘工具關鍵性能指標解決方案數據查詢上網記錄查詢速度:不高于1秒(不含用戶訪問查詢頁面的時間)支持并發查詢數目:1000請求/秒數據存儲上網記錄入庫時間:一般小于30分鐘,實際約10分鐘具備存儲全國移動用戶不小于6個月的原始上網記錄能力歷史5個月+當前月統計分析的中間報表數據保存不小于5年全國集中的一級架構,電信行業首次將Hadoop/HBase引入到商用電信服務系統建設中系統部署系統部署兩路x86服務器(基于Intel?XeonE5600系列處理器)NameNode節點:3臺DataNode(數據存儲節點):178臺Zookeeper節點:7臺集群監控節點:1臺入庫服務節點:24臺Web查詢應用服務節點:20臺網絡交換設備機框間通過萬兆交換機連接,以完成快速的數據交換Intel?Hadoop發行版滿足高性能的數據導入和快速查詢。穩定、易于部署和管理的企業級方案。19移動用戶上網記錄集中查詢與分析支撐系統20某市智能交通應用舉例視頻云計算/云服務視頻云服務中心可以實時掌控任一車輛的行駛,運行軌跡、分析車輛是否違章視頻云服務中心對海量的交通信息進行比對、分析和預測,為車輛布控、分析擁堵狀態,出行最優路徑規劃、交通管理服務智能交通系統實時監控城市的交通狀態,將各個路口的車輛實時抓拍、傳輸到視頻云服務中心面臨的挑戰年過車信息數據量達數百億級記錄規模市局和區縣的數據中心兩級架構,分布式存儲,集中管理。支持多條件組合快速查詢:卡口名稱、車道名稱、車輛類型、車牌類型、車牌號碼、車身顏色、車牌顏色、車速范圍、車長范圍、號牌段范圍、時間范圍。支持海量過車信息的模糊匹配檢索。支持各種統計分析、數據挖掘:車輛違章率統計、過車識別率統計、套牌分析、關聯性分析、黑名單等過車記錄單個區數據中心全市數據總和每秒鐘~6MB/s1200條記錄/s120MB/s24000條記錄/秒每小時~20GB/hour432萬條/小時~400GB/hour8640萬條/小時每天~480GB/day1億條/天~9.6TB/day20億條/天每月~14.4TB/month30億條/月~288TB/month600億條/月三個月~43.2TB/3months90億條/三個月~0.8PB/3months1800億條/三個月違章車輛圖片數據單個區數據中心全市數據總和每小時~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三個月~3.6TB/3months~72TB/3months基于英特爾Hadoop技術方案解決了海量過車信息(結構文本+圖片)存儲問題。解決了分布式數據查詢問題。系統提供了易于使用的API,方便進行二次開發。系統做了較多優化,性能很好的滿足了項目的實時性要求。系統的穩定性好。智能交通應用技術架構圖某市智慧交通信息系統架構基于海量數據進行車輛軌跡分析實時路況信息區域號牌管理碰撞分析。。。。。。。。。。某市智慧醫療提綱大數據帶來的挑戰大數據案例介紹Intel大數據平臺27提供高效的計算芯片、存儲、I/O、網絡技術,加速大數據價值挖掘與提高決策反應基于x86平臺,提供最優的軟件和工具,推動大數據應用的部署和創新促進大數據生態系統的建設,與廣泛的合作伙伴合作,與中國共成長
企業大數據平臺構建中英特爾的角色投資大數據解決方案的研究和服務什么是Hadoop?開源Apache項目,靈感來源于Google的MapReduce白皮書和Google文件系(GFS),Yahoo完成了絕大部分初始設計和開發Hadoop核心組件包括:-分布式文件系統-Map/Reduce–分布式計算用Java編寫運行平臺:Linux,MacOS/X,Solaris普通的X86硬件平臺ShuffleMapReduceHadoop與“大數據”Hadoop是致力于“大數據”處理的最重要平臺之一能夠輕松擴展到PB級別的數據存儲,處理規模帶有容錯功能的并行處理架構基于普通的X86平臺硬件架構,硬件成本低廉用內置格式存儲/處理數據基于開源項目,擁有當量的代碼來源,并且傳統廠商也日益重視對其的支持,它已經成為重要的并行處理架構標準之一越來越多的企業接納Hadoop2007200820092010TheDatagraphBlogSource:HadoopSummitPresentationsIntel提供企業級的Hadoop產品IntelHadoop經過測試和驗證的穩定版本,在生產環境成功部署運營包括了Intel針對現有客戶在實際使用中出現問題的解決方法以及改進和優化基于Intel在云計算研發上的經驗積累,提供專業的咨詢服務,幫助構建高可擴展高性能的分布式系統結合Intel的硬件部門,提供全面的軟硬件解決方案為Intel硬件平臺進行優化,提供更高性能。ComplexMPPSystems(<50TB,real-timeanalytics)ApacheHadoop(Petabytes,batchanalytics)優化的大數據處理軟件棧穩定的企業級hadoop發行版利用硬件新技術進行優化HBase改進和創新,為Hadoop提供實時數據處理能力針對行業的功能增強,應對不同行業的大數據挑戰Hive0.9.0數據倉庫Sqoop1.4.1關系數據ETL工具Flume1.1.0日志收集工具IntelHadoopManager2.0安裝、部署、配置、監控、告警和訪問控制Zookeeper3.3.5分布式協作服務Pig0.9.2數據流處理語言Mahout0.6數據挖掘HBase0.90.6實時、分布式、高維數據庫Map/Reduce1.0.3分布式計算框架HDFS1.0.3分布式文件系統英特爾企業級Hadoop堆棧33英特爾企業級Hadoop數據平臺特點更高性能基于Hadoop底層的大量優化算法,使應用效率更高、計算存儲分布更均衡系統安裝程序計算得出的參數配置,適合大多數應用情況與硬件技術相結合,提高平臺性能穩定運行全面測試的企業級發行版,保證長期穩定運行集成最新開源的和自行開發的補丁,用戶可以及時修正漏洞保證各個部件之間的一致性,使應用順滑運行易于管理提供獨有的基于瀏覽器的集群安裝和管理界面,解決開源版本管理困難的問題提供網頁、郵件和短信方式的系統異常報警功能增強提供跨數據中心的HBase數據庫虛擬大表功能實現HBase數據庫復制和備份功能其他針對企業用戶需要的增強功能2023/10/534英特爾Hadoop與開源Hadoop比較英特爾產品增強開源系統原始實現針對HDFS數據節點的讀寫選取提供高級均衡算法,提高系統擴展性,適合不同配置服務器組成的集群簡單均衡算法,容易在慢速服務器或熱點服務器上產生讀寫瓶頸,最慢服務器成為系統性能瓶頸根據讀請求并發程度動態增加熱點數據的復制倍數,提高Map/Reduce任務擴展性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程臨時工合同協議書
- 地板打蠟合同協議書樣本
- 買賣居間協議合同
- 業務合同協議照片
- 欠款委托協議合同
- 協議合同解除的時效性
- 協議書是勞動合同
- 協議離婚合同注意
- 拉丁舞學員合同協議書
- 承攬合同轉包協議
- 《荷馬史詩》伊利亞特-浙江大學西方文學經典課件
- 建筑信息模型BIM概論第2章-BIM標準、參數化建模與支持平臺
- 畸胎瘤的超聲診斷課件
- 物業管理服務擬投入設備一覽
- 周口市醫療保障門診特定藥品保險申請表
- 簡約喜慶元宵節介紹模板 教學課件
- TCCIAT 0043-2022 建筑工程滲漏治理技術規程
- 西藏林芝嘉園小區項目可研(可研發)
- 航運系統組成和航運企業組織結構及特點
- 喪假證明模板
- 按期取得畢業證和學位證承諾書
評論
0/150
提交評論