MPP分布式數據庫及應用場景分析課件_第1頁
MPP分布式數據庫及應用場景分析課件_第2頁
MPP分布式數據庫及應用場景分析課件_第3頁
MPP分布式數據庫及應用場景分析課件_第4頁
MPP分布式數據庫及應用場景分析課件_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、LOGOMPP數據庫及應用場景分析第1頁,共24頁。目錄MPP數據庫解決方案及應用場景分析03.MPP數據庫架構02.MPP數據庫概念01.第2頁,共24頁。01MPP數據庫概念第3頁,共24頁。MPP數據庫概念Interconnection Network傳統關系型數據庫MPP分布式數據庫問題一:傳統數據庫無法處理不斷增長的海量數據,5-10T基本是其能處理的最大量;問題二:傳統數據庫為事務處理而設計,記錄數據的增刪改查,無法應對不斷增長的分析型應用需求;集中式架構分布式架構MPP數據庫:MPP即大規模并行處理,將數據和任務并行的分散到多個獨立的服務器節點上,在每個節點上計算完成后,將各自部

2、分的結果匯總在一起得到最終的結果,采用MPP架構的數據庫稱為MPP數據庫。MPP核心思路:螞蟻搬家,群策群力;分而治之處理海量數據,并行處理提高處理效率。數 據MPP數據庫特點:易用,完美支持標準SQL和傳統數據庫用法一致;快,對結構化數據做查詢與分析非常快。第4頁,共24頁。為大數據分析而生的關系型數據庫傳統關系型數據庫MPP分布式分析型數據庫CPUMemoryDisk縱向擴展挑戰可擴展能力差,無法應對海量數據;分析能力偏弱;處理數據類型單一;MPP解決方案利用分布式技術支持橫向擴展,對海量數據進行分而治之;專注分析業務,并行處理,提升性能;支持豐富的數據類型,結構化、半結構化、文本數據、G

3、IS數據;MPP的特點低硬件成本普通工業服務器(X86)即可,無需昂貴的專用設備;橫向擴展能力可擴展到上千個節點,處理PB級海量數據;易用性好完美支持SQL,繼承了關系型數據庫的開發和運維使用習慣;高性能查詢分析并行處理,列式存儲提供高性能的查詢分析能力;支持ACID特性第5頁,共24頁。MPP數據庫定位分析數據類型:結構化和半結構化針對場景:OLAP實時性:要求高數據大小:TB到10PB之間ACID &實時性擴展能力結構化半結構化非結構化OldSQL(oracle/DB2/SQL Server)HadoopNoSQLNewSQL/MPP(MPP/Greenplum/Teradata)第6頁,

4、共24頁。02MPP數據庫架構第7頁,共24頁。關系型數據庫架構演變歷程Share Everthing 架構Share Disk 架構Share Nothing 架構CPUMemoryDisk縱向擴展CPUMemoryDiskCPUMemoryCPUMemorySAN/共享存儲概念:單機關系型數據庫,CPU、內存、磁盤是完全共享的;優點:技術成熟、架構簡單、部署運維便捷;缺點:可擴展性差,并行處理能力弱,高可用性不佳,處理數據量小;場景:適用于OLTP,小規模關系型數據OLAP;典型代表:Oracle、MySQL;概念:每臺Server都有自己的CPU和內存,但共享磁盤系統;優點:高可用(負載

5、均衡、秒級故障切換、集群自動監控);缺點:可擴展性較差,通常不超過10節點,處理數據量較小;場景:適用于OLTP,小規模關系型數據OLAP;典型代表:Oracle RAC、DB2 PureScale;概念:各個處理單元都有自己私有的CPU/內存/硬盤等,不共享任何資源;優點:大規模橫向擴展,并行處理能力強,高可用,處理大量數據;缺點:管理運維相對較復雜,對網絡帶寬要求高;場景:適用于高并發的OLTP業務,大數據的OLAP業務;典型代表:MPP,GreenPlum;第8頁,共24頁。MPP分布式數據庫架構MPP架構橫向擴展Interconnection Networkmemorymemoryme

6、mory數 據低硬件成本普通工業服務器(主要是X86)即可,無需昂貴的專用設備良好的橫向擴展能力可以通過橫向擴展服務器節點數,線性的提升處理能力易用性好完美支持標準SQL,大幅度降低大數據分析門檻高效的數據加載能力多節點并行加載數據,顯著提升數據加載能力海量數據處理提供PB級大數據處理能力高性能查詢分析并行處理,列式存儲提供高性能的查詢分析能力第9頁,共24頁。MPP 分布式數據庫架構MPP分布式數據庫采用Shared-Nothing架構,Master節點接收用戶下發的命令生成執行計劃后下發給存儲Segment節點執行,節點間通過內部網絡進行通信可擴展至數百節點,從而實現海量數據的高性能SQL

7、分析功能。物理拓撲邏輯架構第10頁,共24頁。MPP 分布式數據庫橫向擴展Shared Nothing + MPP集群性能隨節點數增加呈近似線性關系,可輕松擴展到上千節點,處理PB級海量數據Scale out (MPP)Scale up (SMP)扁平,對等高擴展能力MPP集群更高性能節點高性能+高擴展能力第11頁,共24頁。列式存儲和計算可節省近2個量級CPU和I/O資源消耗,分析查詢性能比傳統行式數據庫快50到1000倍。同時,CPU和I/O資源的大幅節約,也大幅提升了數據裝載、數據導出、數據處理和備份恢復等操作的性能。用戶ID0000000100000002000000030000000

8、40000000500000006日期2019/04/022019/04/032019/04/042019/04/042019/04/052019/04/06價格120.34234.50345.21100.0099.99129.99編碼信息323432453456643275443748746352584485933494532745第12頁,共24頁。主動壓縮00000010224101019254950515267687012.3433.011.2777.223.4931.253444956.5024.5152.9274.26152.4989.232019/06/0

9、12019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/012019/06/0112.3433.011.2777.223.4931.253444956.5024.5152.9274.26152.4989.23日期用戶ID價格Run-lengthEncodingDeltaEncodingFloatCompression101062060203080% 10% 20% 30% 40% 50% 60% 70% 80%

10、 90% 100%ClickstreamAudiiTradingSNMPNetwork LogsMarketingConsumerCDR根據數據類型、基數、排序自動進行數據壓縮第13頁,共24頁。多種排序和分布方式存儲、實時和批量數據加載、實時聚合、自動寬表實時分析架構ABCDEFGHProjections排序、編碼壓縮(和分布)批量處理和快速分析批量數據實時流ABDCEABDDim1Dim2Dim3Dim4FactFlattened(自動寬表)實時分析高并發高性能實時聚合高并發高性能實時關聯實時聚合Asumcnt第14頁,共24頁。分級存儲為不同的Schema、表等對象、以及表分區指定不同的

11、存儲策略,指定不同的存儲位置。不同的存儲位置的可以采用不同性能、成本和容量的存儲介質,例如SSD、SAS、SATA磁盤或NAS、HDFS等分布式存儲,從而優化存儲成本。支持把部分表和表分區備份到離線存儲,以及從離線存儲中恢復,這大大加快了數據在在線存儲與離線存儲間的交換速度,提升了在線設備的利用率和業務價值第15頁,共24頁。大規模并行數據處理計算高速數據導入與導出主節點不是瓶頸線性擴展低延遲加載后立刻可以使用不需要中間存儲不需要額外數據處理導入/導出 到&從:文件系統任意ETL產品Hadoop發行版ETLInformaticaKettleKafkaFile Systemsmemorymemo

12、rymemorymemory.Interconnection NetworkSQL 請求外部數據源數據節點存儲數據&查詢處理Interconnect主節點查詢優化和調度第16頁,共24頁。MPP分布式數據庫部署方式memorymemorymemorymemoryinterconnectMasterMaster Standby第17頁,共24頁。03MPP數據庫解決方案及應用場景分析第18頁,共24頁。MPP分布式數據庫解決方案本地文件系統Spark內存存儲自定義存儲HDFS其他關系型數據庫ETLKafka結構化數據JSON、Apache AVRO、Apache Parquet、XML等 MPP

13、 +Share Nothing架構PB級大數據處理能力完美的SQL標準支持行列混存查詢優化器工作負載管理庫內機器學習GIS數據處理ADO.NET/VSQL/ODBC/JDBC/OLEDBANSI SQL編程語言Python/R/Java/Perl/CSQL用戶程序商業智能報表工具機器學習人工智能IT人員數據科學家開發人員業務分析師數據源和數據通道數據類型SeaSQL MPP分布式數據庫原生應用接口數據分析應用用戶第19頁,共24頁。MPP分布式數據典型方案主題庫數據集市數據集市數據集市主題庫主題庫主題庫交互式查詢多維分析統計分析預測分析時序分析地理分析MPP數據倉庫決策支撐趨勢把握未來預測關鍵

14、信息,快速查詢BI報表、用戶畫像、自助分析等未來預測、風險規避數據存儲&分析數據展示&價值互聯網傳感器日志流數據DataEngine DI數據集成RDB互聯網文本日志批數據RDB數據源第20頁,共24頁。Hadoop+MPP分布式數據典型方案業務應用故障預警日志分析設備預測性維護精準查詢安全生產大屏報表KafkaFlumeSqoop數據采集HDFSHBaseYARNStormSparkFlinkHiveHadoop平臺MPPRDB互聯網傳感器日志第21頁,共24頁。MPP分布式數據庫 VS Hadoop平臺對比項MPP分布式數據庫Hadoop平臺數據量級TB到10PB級TB到數百PB級數據類型

15、結構化為主,半結構化數據結構化、半結構化、非結構化可擴展性較高,達上千個節點高,可達上萬個節點實時性亞秒、秒、分鐘級分鐘、小時級易用性易用性好,簡單友好的SQL接口和簡單可解釋的數據庫內函數門檻相對較高,系統維護、優化和開發相對較復雜,函數通常需要用Java編寫,編譯并放在集群中事務支持完整有限技術體系一項單獨的技術Hadoop 是一個生態系統,集成了眾多的組件,如HDFS、Spark、Hive、Kafka、HBase等,且不斷有組件新增進來應用場景離線批處理,復雜邏輯的實時查詢,實時分析,交互式查詢與分析,常用于需要快速查詢分析的業務,業務報表,數據倉庫建設等;離線計算:常用于海量結構化數據的批量計算、指標匯總計算、數據挖掘等場景;實時&流計算:實時數據、流數據的實時計算;全文檢索:常用于海量非結構化文件、日志等數據的實時檢索場景;MPP和Hadoop不是替代關系,而是相互補充的關系第22頁,共24頁。MP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論