




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據處理與分析相關平臺簡介中國人民大學信息學院董兆安內容來自CSDN等互聯網資源大數據及其主要特征2規模(Volume)、種類(Variety)、速度(Velocity)2001年,道格.萊尼(DougLaney)VolumeVolumeVarietyVolume模態多樣VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數據總量達40ZB,人均5.2TB分享的內容條目超過25億個/天,增加數據超過500TB/天關于大數據定義的誤解/doug-laney/Other“V”slikeveracity,validity,value,etc.areaspirationalqualitiesofalldata,notdefinitionalqualitiesofbigdata.3硬件、技術、數據不斷進化4傳統的數據處理ExternalDataSourcesExtractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL數據分析的需求也逐漸提高從海量數據中快速獲取有價值信息低延遲、高性能、分布式、可擴展、容錯。6RTAPOLAPOLTP需求變化7Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterized
ReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+場景不同-工具不同-視角不同Hortonworks將應用需求進行了如下劃分:實時應用場景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式場景(5s~1m):最好支持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式場景(1m~1h):MapReduce、Hive、Pig、Stinger等;批處理場景(1h+)運行時間較長,處理數據量較大,對容錯性和擴展性要求較高MapReduce、Hive、Pig、Stinger等。8大數據分析與處理架構——一個案例9IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZone9Connectors大數據處理與分析技術數據采集數據處理數據存儲統計分析數據挖掘模型預測數據可視化元數據管理10數據處理的幾種模式轉換TransformerConvertpayloadormodifyheaders過濾FilterDiscardmessagesbasedonbooleanevaluation路由RouterDeterminenextchannelbasedoncontent分割SplitterGeneratemultiplemessagesfromone聚集AggregatorAssembleasinglemessagefrommultiple11幾種平臺介紹MPPHadoopstormspark12開源的大數據處理平臺SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle發布了Dremel和PowerDrillEMC推出Pivotal+HAWQ開源數據倉庫brighthouse基于MySQL的數據倉庫存儲引擎13開源的大數據處理平臺NO-MapReduce系統微軟的DAG任務計算模型Dryad
Google的圖批量同步處理系統Pregel和增量式計算框架PercolatorYahoo!的數據流計算系統S4、NYU的共享內存處理系統PiccoloBerkeley的交互式實時處理系統Spark等等。NEWSQL系統VoltDBmySQL集群14Hadoop的版本1516IntelHadoop*17Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorMorevarieddatasourceswithmanymoreaccess/retentionrequirementsUsersHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorDataaccessedthroughmultipleentrypointsUsersHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersLotsofnewconsumersofthedataHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersOneaccesscontrolmechanism:filesHadoop1.0——HDFS存儲模型23Hadoop1.0——計算模型MapReduce24節點功能與角色25集群部署示意26YARN和Hadoop2.027comprisesthelatestreleaseacrossHadoopandthekeyrelatedprojectsintoasingleintegratedandtestedplatformCoreservicesDataservicesOperationalservices28Hadoop2.0Hadoop2.0YARN的基本思想是將JobTracker的兩個主要功能資源管理和作業調度/監控分離主要方法是創建一個全局的ResourceManager(RM)和若干個針對應用程序的ApplicationMaster(AM)29對比:Hadoop1.0JobTracker和TaskTracker30對比:Hadoop2.031運行在YARN上的計算框架YARN=YetAnotherResourceNeogitator.32內存計算——SparkandShark33High-SpeedIn-MemoryAnalytics
overHadoopandHiveDataUCBERKELEY34MapReduce——數據共享于HDFSiter.1iter.2...InputHDFS
readHDFS
writeHDFS
readHDFS
writeInputquery1query2query3result1result2result3...HDFS
readSlowduetoreplication,serialization,anddiskIO35iter.1iter.2...InputSpark——數據共享于內存Distributed
memoryInputquery1query2query3...one-time
processing10-100×
fasterthannetworkanddiskSpark之RDD——彈性分布式數據集37伯克利架構38分布式實時計算系統
Storm流數據處理Storm可以用來處理源源不斷流進來的消息,處理之后將結果寫入到某個存儲中去。S4(SimpleScalableStreamingSystem)是一個分布式流處理引擎,開發者可以在這個引擎基礎上開發面向無界的,不間斷的流數據處理應用。分布式rpc由于storm的處理組件是分布式的,而且處理延遲極低,所以可以作為一個通用的分布式rpc框架來使用。搜索引擎本身也是一個分布式rpc系統。39STORM角色Nimbus:負責資源分配和任務調度。Supervisor:負責接受nimbus分配的任務,啟動和停止屬于自己管理的worker進程。Worker:運行具體處理組件邏輯的進程。Task:worker中每一個spout/bolt的線程稱為一個task.40基本邏輯——概念Spout:在一個topology中產生源數據流的組件。Spout是一個主動的角色,其接口中有個nextTuple()函數,storm框架會不停地調用此函數,用戶只要在其中生成源數據即可。Bolt:在一個topology中接受數據然后執行處理的組件。Bolt可以執行過濾、函數操作、合并、寫數據庫等任何操作。Bolt是一個被動的角色,Tuple:一次消息傳遞的基本單元。Stream:源源不斷傳遞的tuple就組成了stream。Topology:storm中運行的一個實時應用程序,因為各個組件間的消息流動形成邏輯上的一個拓撲結構。41大數據處理平臺——MPP42
應用程序通過Master主機訪問數據
在存儲節點和Master主機之間交換數據
每一個存儲節點都是獨立的PgSQL數據庫(無共享)QueryPlanMPP=MassiveParallelProcessing海量并行處理結構數據分發43Share-Nothing的完全并行架構
44共享磁盤例如:OracleRACDBSAN/共享磁盤DBDBDB網絡SAN/FC完全共享例如:SMP服務器DB磁盤完全不共享例如:GreenplumDBDBDBDB網絡磁盤磁盤磁盤磁盤Master注:所有的共享資源都用藍灰色表示基于外部表的高速數據加載利用并行數據流引擎,Greenplum可以直接用SQL操作外部表數據加載完全并行,加載速度可達4.5TB/小時45Master主機Segment主機內部互聯網—千兆以太網交換機gdfdistgdfdistSegment主機Segment主機Segment主機外部表文件外部表文件ETL服務器內部網絡MapReduce&SQL一體環境46傳統RDBMS系統ACID交易管理器ACID交易管理器查詢優化器ACID交易管理器關系型表關系型表SQL關系型表數據庫日志數據流引擎reduce{……}map{……}化簡映射reduce{……}map{……}數據流引擎數據流引擎map{……}ACID交易管理器ACID交易管理器查詢優化器ACID交易管理器關系型表關系型表SQL關系型表數據庫日志數據流引擎查詢優化器關系型表查詢優化器數據庫日志化簡映射化簡map{……}reduce{……}ACID交易管理器ACID交易管理器ACID交易管理器關系型表關系型表關系型表數據庫日志數據流引擎關系型表數據庫日志傳統的編程環境Greenplum機
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論