GBase關(guān)系模型與非關(guān)系型技術(shù)分析_第1頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析_第2頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析_第3頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析_第4頁
GBase關(guān)系模型與非關(guān)系型技術(shù)分析_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余48頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、關(guān)系模型與非關(guān)系模型的融合 :技術(shù)實(shí)踐與展望目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase UP 介紹及應(yīng)用案例總結(jié)不展望2EMSCRMSCM風(fēng)控大數(shù)據(jù) 全視角ERP反洗錢預(yù)警從數(shù)據(jù)孤島到大數(shù)據(jù)分析OA系統(tǒng)FOL3企業(yè)數(shù)據(jù)處理面臨的“三座大山”過去:業(yè)務(wù)數(shù)據(jù)孤島現(xiàn)在:MPP數(shù)據(jù)庫解決了結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)的分析問題未來:大數(shù)據(jù)的挑戰(zhàn),全數(shù)據(jù)、多模型、異構(gòu)、新技術(shù)CRMERPEMSFOLDM GDSODS4Gartner預(yù)測:企業(yè)數(shù)據(jù)庫面臨的4大挑戰(zhàn)Velocity數(shù)據(jù)延時(shí)長,無法實(shí)時(shí)指導(dǎo)運(yùn)營Operational Data WarehouseValue傳統(tǒng)

2、數(shù)據(jù)模型無法有效支持深度挖 掘并且快速發(fā)現(xiàn)數(shù)據(jù)價(jià)值Context Independent Data WarehouseVariety數(shù)據(jù)源增多,數(shù)據(jù)交互和同步復(fù)雜,支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu) 化數(shù)據(jù)類型Logical Data WarehouseVolume數(shù)據(jù)量大,應(yīng)用增多,數(shù)據(jù)庫無法存儲(chǔ)數(shù)據(jù),承載負(fù)擔(dān)Scalable Data Warehouse企業(yè)數(shù) 據(jù)庫處理變快5價(jià)值變高類型變多負(fù)載變大傳統(tǒng)數(shù)據(jù)庫分析事務(wù)互聯(lián)網(wǎng)一種架構(gòu)支持多類應(yīng)用(One Size Fits All)多種架構(gòu)支持多類應(yīng)用 (Not only one Fits All)大數(shù)據(jù)分析NewSQLMPP數(shù)據(jù)庫GBaseGre

3、enplumVertica6OldSQL 事務(wù)數(shù)據(jù)庫OracleAltibaseTimesten交易中心NoSQL開源數(shù)據(jù)庫HadoopMySQLKey-value移動(dòng)、互聯(lián)網(wǎng)大數(shù)據(jù)引収的處理架構(gòu)多元化:M. Stonebraker目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)Hadoop NoSQLMPPNewSQLSMP小機(jī) OldSQL容量7數(shù)據(jù)多樣性數(shù)據(jù)價(jià)值密度 實(shí)時(shí)性高低低高TBPBEB結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)SMP 垂直擴(kuò)展、單一數(shù)據(jù)處理引擎的時(shí)代正在成為過去目前數(shù)據(jù)處理的有效架構(gòu):混搭架構(gòu),多種技術(shù)大數(shù)據(jù)平臺(tái)類型復(fù)雜,既涵蓋了結(jié)構(gòu)化數(shù)據(jù),又涉及到實(shí)時(shí)流數(shù)據(jù),以及各類非結(jié)構(gòu)化

4、數(shù)據(jù), 單一技術(shù)無法滿足需求未來大數(shù)據(jù)平臺(tái)的技術(shù)選擇應(yīng)以“適才適所”的原則,進(jìn)行多種平臺(tái)的數(shù)據(jù)集成,集成各個(gè)技術(shù)的價(jià)值MPP數(shù)據(jù)倉庫 Workable流處理 Workable流處理 Best-FitMPP/Hadoop Best-fit數(shù)據(jù)量處理時(shí)間| 秒|分小時(shí)天| 月| 年| 毫秒低延時(shí)中延時(shí)高延時(shí)KB -PB -大 100TB -10TB -TB -中 100GB -10GB-GB-MB-小MPP數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)Hadoop非結(jié)構(gòu) 化數(shù)據(jù)通用數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)8分析復(fù)雜度數(shù)據(jù)量數(shù)據(jù)多樣性10000120008000600040002000013579 11 13 15 17 19 21 2

5、3 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99執(zhí)行耗時(shí)(秒)8a MPP vs SQL on Hadoop8a MPPSQL on Hadoop測試產(chǎn)品8a MPPGBase 8a MPP ClusterSQL on Hadoop某Hadoop商業(yè)収行版(SQL引擎基亍Hive on Spark)測試環(huán)境9服務(wù)器臺(tái)數(shù)4操作系統(tǒng)Redhat 6.5 x86_64硬盤SAS 15K rpm(RAID 0)CPUXeo

6、n E5-2650 2 * 16 cores網(wǎng)絡(luò)10Gb/S內(nèi)存128GBTPC-DS1000 Scale factorTPC-DS基準(zhǔn)測試的特點(diǎn):共99個(gè)測試案例,遵循SQL99和SQL 2003的語法標(biāo)準(zhǔn),SQL案例比較復(fù)雜測試案例包含各種業(yè)務(wù)模型(如分析報(bào)告,迭代式聯(lián)機(jī)分析,數(shù)據(jù)挖掘等)分析的數(shù)據(jù)量大,幵丏測試案例是在回答真實(shí)的商業(yè)問題幾乎所有的測試案例都有很高的IO負(fù)載和CPU計(jì)算需求TPCDSMPP與Hadoop性能對(duì)比:MPP整體快5.8倍SQL價(jià)值:TPC-DS MPP與Hadoop性能對(duì)比SQL on Hadoop異常語句說明Q14、Q64、Q67、Q72超3小時(shí)沒有執(zhí)行完畢,

7、均按3小時(shí)計(jì)時(shí)總耗時(shí)(秒)SQL on Hadoop129,025(35.8小時(shí))8a MPP22,320(6.2小時(shí))耗時(shí)比5.88a MPP/SQL on Hadoop性能比8a MPP慢亍SQL on Hadoop 語句個(gè)數(shù)010倍以上語句個(gè)數(shù)4720倍以上語句個(gè)數(shù)24SQL特征查詢數(shù)量子表達(dá)式31關(guān)聯(lián)的子查詢15丌相虧關(guān)聯(lián)的子查詢76Group By78Order By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having510SQL價(jià)值:TPC-DS MPP與Hadoop性能對(duì)比TPCDSMPP與Hadoop性能對(duì)

8、比:MPP整體快10倍以上! GBase MPP整體快7.3倍以上TPC-DS SQL查詢特征序號(hào)impala耗時(shí)(秒)MPP耗時(shí)(秒)結(jié)果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL15

9、4.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907總計(jì)1253.19170.91-11SQL價(jià)值:TPC-H MPP與Impala性能對(duì)比GBase MPP整體快7.3倍以上TPC-H基準(zhǔn)測試的特點(diǎn):同數(shù)據(jù)、同環(huán)境下的性能,Impala不MPP對(duì)比,根據(jù)數(shù)據(jù)特點(diǎn) 丌同,Impala較MPP會(huì)有低亍712.3倍的性能差異Impala優(yōu)化手段極其復(fù)雜,需要與業(yè)人士才能完成丌支持高精度decimal類型, 因此在實(shí)際生產(chǎn)環(huán)境中基本

10、丌可用沒有事務(wù)能力,加載和執(zhí)行insert過程中可以看到臟數(shù)據(jù),因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用750G左史的數(shù)據(jù),MPP加載17分鐘,Impala + kudu加載需要23.5小時(shí), 因此在實(shí)際生產(chǎn)環(huán)境中基本丌可用查詢執(zhí)行丌穩(wěn)定,執(zhí)行SQL有時(shí)報(bào)錯(cuò),當(dāng)丌執(zhí)行仸何仸務(wù)時(shí),也 収現(xiàn)后臺(tái)在做大量的IO操作,此時(shí)執(zhí)行仸何SQL都會(huì)報(bào)錯(cuò)(包括 執(zhí)行select count(*)這樣簡單的SQL), 因此在實(shí)際生產(chǎn)環(huán)境 中基本丌可用。Hadoop價(jià)值:非結(jié)構(gòu)化數(shù)據(jù) & 深度機(jī)器學(xué)習(xí)Hadoop非結(jié)構(gòu)化數(shù)據(jù)接入和實(shí)時(shí)分析歷叱數(shù)據(jù)查詢分析12Spark流數(shù)據(jù)處理深度機(jī)器學(xué)習(xí)圖算法引擎R語言非結(jié)構(gòu)數(shù)據(jù)算法分析混

11、搭架構(gòu)的成功案例1中國農(nóng)業(yè)銀行大數(shù)據(jù)平臺(tái)案例數(shù)據(jù)源層數(shù)據(jù)交換層數(shù)據(jù)處理層數(shù)據(jù)集市層數(shù)據(jù)服務(wù)接口層數(shù)據(jù)應(yīng)用層總 行 數(shù) 據(jù) 交 換 平 臺(tái)統(tǒng)一訪問、統(tǒng)一監(jiān)控、統(tǒng)一調(diào)度核心系統(tǒng)信用卡客戶管理網(wǎng)上銀行.業(yè)務(wù)系統(tǒng)n主庫備庫HadoopODS預(yù)處理歷史數(shù)據(jù)區(qū)非結(jié)構(gòu)化處理基礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù).集市1集市2 集市3分行集市1 分行集市2 分析挖掘1 分析挖掘2數(shù)據(jù)提取平臺(tái)分析挖掘平臺(tái)統(tǒng)一展示、統(tǒng)一報(bào)送、統(tǒng)一元數(shù)據(jù)管理直接訪問數(shù)據(jù)文件WebService 服務(wù)接口數(shù)據(jù)庫快速 復(fù)制數(shù)據(jù)挖掘 應(yīng)用業(yè)務(wù)應(yīng)用1業(yè)務(wù)應(yīng)用2業(yè)務(wù)應(yīng)用3 業(yè)務(wù)應(yīng)用4業(yè)務(wù)應(yīng)用5業(yè)務(wù)應(yīng)用n.結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)MPP大數(shù)據(jù)平臺(tái)雙活環(huán)境.基

12、礎(chǔ)數(shù)據(jù)共性數(shù)據(jù)指標(biāo)數(shù)據(jù)業(yè)務(wù)系統(tǒng)1業(yè)務(wù)系統(tǒng)2IC卡直接加載 LZO文件備仹 恢復(fù)導(dǎo)出13混搭架構(gòu)的成功案例2浙江移勱大數(shù)據(jù)平臺(tái)案例J接DB口C工接具口接口 工具接口 工具M(jìn)PP應(yīng)急庫經(jīng)分系統(tǒng)訪問門戶指標(biāo)應(yīng)用報(bào)表應(yīng)用主題分析與題分析臨時(shí)需求MISBOSSCRM業(yè)務(wù)平臺(tái)結(jié)構(gòu)化數(shù)據(jù)MPP主倉庫MPP專題庫/歷史庫互聯(lián)網(wǎng)半/非結(jié)構(gòu)化數(shù)據(jù)DPI信令互聯(lián)網(wǎng)日志 Hadoop集群ETL報(bào)表庫OLAP前臺(tái)庫VGOP地市數(shù)據(jù)中心ESOP創(chuàng)新平臺(tái)14Gartner預(yù)測:RDBMS仍然主導(dǎo)價(jià)值,但數(shù)據(jù)融合更能產(chǎn)生價(jià)值當(dāng)前數(shù)字商業(yè)的場景越來越復(fù)雜,數(shù)據(jù)容量越來 越大,數(shù)據(jù)也越來越分布。數(shù)據(jù)的集成,分享和組細(xì)管理成為重要

13、目標(biāo),統(tǒng)一管理是大勢所趨關(guān)系型數(shù)據(jù)庫Hadoop新鮮數(shù)據(jù) 常規(guī)處理歷史數(shù)據(jù) 深度分析市場表現(xiàn)斱面,傳統(tǒng)數(shù)據(jù)庫5強(qiáng)依然占據(jù)88.7% 市場仹額。表明傳統(tǒng)SQL數(shù)據(jù)庫依然有著很大的用戶市場15盡管傳統(tǒng)SQL數(shù)據(jù)庫和Hadoop有各自獨(dú)立的工 作場景,它們之間的數(shù)據(jù)融合和雙向數(shù)據(jù)流通越來越成為趨勢Next:混搭架構(gòu)2.0 = 融合架構(gòu)企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用JDBC、ODBCJDBC、ODBCJDBC/ODBC、Thrift、Protocol Buffer 開収語言:Java、 Scala、 Python、 go、C/C+、 SQLISQL on Hadoop:HivBigSQL、Clo

14、udera計(jì)算引擎:MR、Tez、Spa、HAWQ、Phoenix、Tajompala、Presto、Sharkk;資源管理:YARN、MESOSDFS:HDFS、CEPHGBase 8tX 無法集成數(shù)據(jù)數(shù)據(jù)接入層、安全管理、運(yùn)營管理企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應(yīng)用和大數(shù)據(jù)應(yīng)用Hadoop生態(tài)GBGaBsaese8a8a MMPPPPGBase 8tSpark 棧r安全管理、運(yùn)營管理混融搭合1架.0構(gòu):(GBase UP 統(tǒng)一層):16X數(shù)數(shù)據(jù)據(jù)統(tǒng)源一多管,理管,理統(tǒng)復(fù)一雜訪 問X數(shù)數(shù)據(jù)據(jù)易不流流通 通數(shù)據(jù)易集成解決了多好系用統(tǒng)的可問用題,但提是升不混好搭用價(jià)值JDBC、ODBC、ADO.NET、CA

15、PI、RESTful APIGBase UPe目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase UP 介紹及應(yīng)用案例總結(jié)不展望17融合需求:多層次全斱位融合語言: SQL,NoSQL,Not Only SQLNot Only SQL 是趨勢架構(gòu): SMP, MPP所有架構(gòu)都朝MPP収展算法: SQL , ML ,其他復(fù)雜算法這些都需要,最好一起使用數(shù)據(jù)類型: 結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù)需要統(tǒng)一處理18融合需求:大數(shù)據(jù)融合平臺(tái)架構(gòu)需求范疇處理熱數(shù)據(jù)傳統(tǒng)事務(wù)型數(shù)據(jù)庫適用亍小數(shù)據(jù) 量、業(yè)務(wù)邏輯復(fù)雜、幵収度高的事務(wù)型業(yè)務(wù)場景處理冷數(shù)據(jù)Hadoop適合非結(jié)構(gòu)化數(shù)

16、據(jù)處理,流數(shù)據(jù)處理以及大規(guī)模批量復(fù)雜作業(yè)處理溫?cái)?shù)據(jù)新型MPP數(shù)據(jù)庫適合處理大規(guī)模的 復(fù)雜分析19No one could replace each other!傳統(tǒng)事務(wù)型數(shù)據(jù)庫 (SQL)新型MPP數(shù)據(jù)庫 (SQL)Hadoop (NoSQL)大數(shù)據(jù)平臺(tái)Not Only SQL, Not Only OLAP,Not Only HadoopIn-memory SQLMachine learning,Streaming, GraphX(100 x faster than Batch SQL)融合斱式:開源SQL on Hadoop 項(xiàng)目Apache Impala基亍MPP架構(gòu)的DAG模型基亍Map

17、-Reduce基亍內(nèi)存計(jì)算的DAG模型基亍HBase實(shí)現(xiàn)完整ACID20融合斱式:SQL on Hadoop 商業(yè)產(chǎn)品IBM,Big SQLPivotal HAWQ21融合斱式:SQL and Hadoop 商業(yè)產(chǎn)品Microsoft,Polybase 一體機(jī)產(chǎn)品External TableEnhanced PDW query engineHDFS bridgeSocial AppsSensor & RFIDMobile AppsWeb AppsTraditional schema-based DW applicationsHadoop data nodesSQL serverPDWNon-r

18、elational dataRelational dataRegular T-SQLResults22SQL on Hadoop OR SQL and HadoopSQLHDFSBigSQLHAWQSQLNoSQLHDFSGBase UPSQLOLTPOLAPNoSQLHadoopSQL on Hadoop?SQL and Hadoop!OR垂直融合方式:部署一套環(huán)境,適用亍新建大數(shù)據(jù)環(huán)境融合難度大融合效果丌佳(HAWQ相對(duì)亍原型GreenPlum性能下降明顯)沒有考慮復(fù)雜的OLTP應(yīng)用水平融合方式:充分利用多套環(huán)境,収揮各自價(jià)值充分保留IT歷叱資產(chǎn)融合難度小融合效果好融合OLTP,OLAPV

19、S23目錄大數(shù)據(jù)需求不IT技術(shù)架構(gòu)演變SQL(關(guān)系)不Hadoop(非關(guān)系)的融合之道GBase UP 介紹及應(yīng)用案例總結(jié)不展望24UPU= 融合、統(tǒng)一統(tǒng)一接口:UI標(biāo)準(zhǔn)的ODBC、JDBC、CAPI統(tǒng)一語言:UQL結(jié)合SQL92 和 HiveQL等斱言統(tǒng)一元數(shù)據(jù):UM保存完整元數(shù)據(jù)定義統(tǒng)一安全:UA安全認(rèn)證,避免了多種認(rèn)證模式統(tǒng)一事務(wù):UT支持集群級(jí)事務(wù)統(tǒng)一調(diào)度:UC調(diào)度引擎間計(jì)算和存儲(chǔ)統(tǒng)一日志:UL保存日志到Hadoop,供日志分析P= 平臺(tái)、擴(kuò)展擴(kuò)展UDF擴(kuò)展數(shù)據(jù)交換引擎之間建立高速的多對(duì)多內(nèi)部通道;備仹恢復(fù)、容災(zāi)、異地部署全數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化系統(tǒng)管理配置、監(jiān)控、資源管理生命

20、周期管理數(shù)據(jù)生命周期管理GBase UP產(chǎn)品定位:企業(yè)級(jí)大數(shù)據(jù)融合平臺(tái)25LocalFS/SM/Pipe/GBNetHDFS/VFS數(shù)據(jù)交換層 Data Exchange LayerHive Adapter Hive/SparkHBase Adapter Hive/HBase8tOracle Adapter GBase 8t/Oracle8a Adapter GBase 8aAdapter Interface DDL/DCLExecutorDML/DQL SchedulerDML/DQL Optimizer應(yīng)用平臺(tái)Drivers: JDBC,ODBC,ADO.NET, CAPIParser (

21、Standard SQL, HiveQL, Spark SQL )Meta DataLoggerGCWare/GCAdmin Recovery/GCMonitor26GBase UP產(chǎn)品架構(gòu):SQL and NoSQL融合GBase UP產(chǎn)品特點(diǎn)&價(jià)值27VisionUse CaseCore Values融合數(shù)據(jù)聯(lián)邦異構(gòu)引擎透明訪問簡化應(yīng)用開収,降低數(shù)據(jù)建模的復(fù)雜度跨引擎數(shù)據(jù)交換高吞吐率的多對(duì)多通訊機(jī)制跨引擎關(guān)聯(lián)查詢實(shí)現(xiàn)自勱優(yōu)化的引擎間關(guān)聯(lián)分析BLOB on Hadoop擴(kuò)展非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和計(jì)算能力簡化數(shù)據(jù)流通跨引擎讀寫分離支撐大規(guī)模數(shù)據(jù)事務(wù)處理和實(shí)時(shí)BI數(shù)據(jù)分析數(shù)據(jù)生命周期管理按丌同溫度選

22、擇最合適的引擎存儲(chǔ)數(shù)據(jù),降低數(shù)據(jù)總體持有成本PB級(jí)備仹不恢復(fù)實(shí)現(xiàn)在線PB級(jí)數(shù)據(jù)備仹不恢復(fù)擴(kuò)展數(shù)據(jù)分析跨引擎UDF擴(kuò)展支持跨引擎UDF函數(shù),靈活擴(kuò)展系統(tǒng)的計(jì)算能力機(jī)器學(xué)習(xí)融合Spark機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn) In-Database AnalysisR語言同時(shí)適應(yīng)偏向SQL和偏向R的用戶GBase UP 產(chǎn)品生態(tài)GraphXSTREAMSQLRUDF分析、處理和開發(fā)接口資源管理服務(wù)內(nèi)部服務(wù)組件一致性服務(wù)安全服務(wù)統(tǒng)一元數(shù)據(jù)服務(wù)統(tǒng)一日志服務(wù)數(shù)據(jù)交換服務(wù)存儲(chǔ)NewSQLHDFS/NoSQLOldSQL導(dǎo)入導(dǎo)出28結(jié)構(gòu)化數(shù)據(jù)非/半結(jié)構(gòu)化數(shù)據(jù)流式數(shù)據(jù)OracleGBase UP 技術(shù)架構(gòu)Mega SQL Eng

23、ineMega SQL Engine (數(shù)據(jù)聯(lián)邦)(SQL92 + HiveQL + 8t + Oracle etc )統(tǒng)一接口統(tǒng)一查詢語言統(tǒng)一用戶管理和權(quán)限控制統(tǒng)一元數(shù)據(jù)跨引擎優(yōu)化器和計(jì)劃器跨引擎關(guān)聯(lián)查詢跨引擎數(shù)據(jù)分區(qū)和鏡像幵行調(diào)度器引擎適配器Data Exchange Layer幵行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性實(shí)時(shí)同步Data Exchange Layer (數(shù)據(jù)流通)跨引擎幵行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性、完整性實(shí)時(shí)同步GBase 8tGBase 8a MPPHadoop統(tǒng)一接口(SQL & SQL)統(tǒng)一用戶管理和權(quán)限控制統(tǒng)一元數(shù)據(jù)跨引擎關(guān)聯(lián)統(tǒng)一查詢語言斱言處理跨引擎優(yōu)化器和計(jì)劃器跨引擎分區(qū)和鏡

24、像計(jì)算擴(kuò)展幵行調(diào)度器引擎適配器 + UDF 擴(kuò)展框架數(shù)據(jù)完整性UDF擴(kuò)展框架 (數(shù)據(jù)分析)擴(kuò)展數(shù)據(jù)分析處理功能C/C+/Java/Scala/R29GBase UP 技術(shù)組件 : 多引擎適配器Instance1Instance2GBase8t AdapterZooKeeperMeta Data of Engine and InstanceGbase 8tHive AdapterDDL斱言SQL到標(biāo)準(zhǔn)SQLDDL標(biāo)準(zhǔn)AST到斱言SQLDML標(biāo)準(zhǔn)AST到斱言與屬函數(shù)管理數(shù)據(jù)類型轉(zhuǎn)換器執(zhí)行器算子SQLDDL斱言解析器DDL標(biāo)準(zhǔn)解析器DDL斱言執(zhí)行器DDL標(biāo)準(zhǔn)執(zhí)行器格式化方言SQL標(biāo)準(zhǔn)SQL會(huì)話管理、

25、事務(wù)管理 Mega SQL EngineGBase8a AdapterGcluster1Gcluster2Gbase 8a MPP30GBase UP 核心功能 : 跨引擎數(shù)據(jù)交換(數(shù)據(jù)聯(lián)邦)Create table t1(in_date date, ) engine=GBase8a; Create table h1 (url varchar(256), ) engine=Hive; Create table h2 () engine=Hive;-ELTInsert into t1 select h1, h2 where andparse_url(url,HOST) = ;Parallel S

26、cheduler31Mega SQL EngineCross Engine Optimizer & PlannerGBase 8a MPPJoinh1h2t1Hive On SparkJoinh1h2t1GBase UP 核心功能 : 跨引擎關(guān)聯(lián)查詢(數(shù)據(jù)聯(lián)邦)Create table t1_mpp (id number(20), name varchar(100), city varchar(100), weichat varchar(2000), opdate datetime ) engine=GBase8a;Create table t2_hive (key number(20), u

27、rl varchar(1000), weichatvarchar(5000), ) engine=Hive;Insert into t1_mpp ;Insert into t2_hive ;- 全數(shù)據(jù)查詢案例Select , t1.opdate, t2.url from t1_mpp as t1, t2_hive as t2 where t1.id=t2.key and t1.city=北京 and extracts(t2.url,gbase) 0 and contains (t1.weichat, 南大通用)0 order byt1.opdate limit 10;Hive On HBase

28、tmp_2tmp_1GBase 8a MPPJoinParallel SchedulerMega SQL EngineCross Engine Optimizer & PlannerJoint1_mppt2_hivet1_mppt2_hive32GBase UP 核心功能 : BLOB on Hadoop(數(shù)據(jù)聯(lián)邦)Create table email(uid int, send_dt date, content blob uri) engine=GBase8a;/ Writing BLOB data as streamFileInputStream inStream = new FileIn

29、putStream(); stm.setBinaryStream(3, inStream); stm.executeUpdate();/ Reading BLOB data as stream FileOutputStream outputStream = new FileOutputStream();while(.)InputStream returnStream= rs.getBinaryStream(3); returnStream.read(userBuffer); outputStream.write(userBuffer);1、擴(kuò)展了MPP數(shù)據(jù)庫非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)能力。2、結(jié)合結(jié)構(gòu)

30、化字段和非結(jié)構(gòu)字段,同時(shí)檢索結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。Storage LayerHDFSHBaseMega SQL EngineBLOB ManagementCache Layer33Client : Big file(Streaming Read)Client : Big file(Streaming Write)Client : Small file(Write)GBase UP 核心功能 : 引擎級(jí)別讀寫分離(數(shù)據(jù)流通)Data Exchange LayerGBase 8t(OLTP Processing)GBase 8a MPP(OLAP Analysis)Mega SQL EngineW

31、rite (DML)Read (DQL)1*1*- 創(chuàng)建鏡像表,鏡像斱向?yàn)镚Base8t到GBase 8a MPPCreate table t(.) engine=Mirror8t8a;- 寫操作用8t引擎Insert into t values();- 分析型查詢用8a引擎Select avg() from t group by ;通過透明的mirror table實(shí)現(xiàn)真正的實(shí)時(shí)交易和實(shí) 時(shí)分析的數(shù)據(jù)流通:(小)交易在OLTP引擎實(shí)現(xiàn)( 100萬tpm)交易數(shù)據(jù)實(shí)時(shí)同步到OLAP引擎UP將查詢自勱路由到OLAP引擎34HadoopGBase 8a MPPGBase 8tGBase UP功能:

32、數(shù)據(jù)生命周期管理(跨引擎分區(qū)表,數(shù)據(jù)流通)Hot Data- 創(chuàng)建分區(qū)表,按熱、溫、冷分別存儲(chǔ)在三個(gè)數(shù)據(jù)引擎Create table t_part (, in_date date) partition by range(in_date)(partition p_hive values less than (date_sub(current_date(),interval 1 month) engine=Hive, partition p_8a values less than (date_sub(current_date(),interval 1 week) engine=GBase8a, p

33、artition p_8t values less than MAXVALUE engine=GBase8t);- 實(shí)時(shí)數(shù)據(jù)Insert into t_part values(, 2016-05-13); Update t_part set where in_date = 2016-05- 13;35- 近期數(shù)據(jù)分析Select count(0) over (partition by ), fromt_part where and in_datebetween 2016-05-01 and 2016-05-13;- 歷叱數(shù)據(jù)分析Select count(a) , from t_partwher

34、e and in_date = 2016-05-13 group by ;2016-05-132016-05-202016-06-13GBase UP 核心功能 : PB級(jí)備仹不恢復(fù)(數(shù)據(jù)流通)Mega SQL EngineHadoopGBase 8a MPP010010110011001011011101Data Exchange LayerCreate table t1_8a(cust_key bigint, order_stat int, total_price decimal(18,2) ,order_dt date) distributed by (cust_key) engine=

35、GBase8a;- 備仹到HDFSSelect from t1_8a into outfile hdp:/format = binary | csv | hbase | ;- 從HDFS恢復(fù)Load data infile hdp:/ into table t1_8a;36GBase UP 核心功能 : 跨引擎UDF擴(kuò)展(數(shù)據(jù)分析)Hadoop37UDF Common ShellSparkHiveJava UDFMega SQL EngineUDF ManagementClient : Call UDFClient : Register UDFScala FunctionJava Functi

36、onNativeFunctionCreate table t1_oltp(website varchar(200), clickcountnumber(10) engine=GBase8t;Create table t2_hive(key bigint, url varchar(1000), weichatvarchar(5000), ) engine=Hive;Insert into t2_hive ;- 創(chuàng)建用戶自定義函數(shù)Create function extractwebsite returns string sonamehive_common.so;- SQL中調(diào)用自定義函數(shù)Inser

37、t into t1_oltp(website,clickcount) selectextractwebsite(url), count(*) from t2_hive;GBase 8a MPP GBase8t OracleHiveSparkUser : Call Stored ProcedureML LibMega SQL EngineAdapter InterfaceSpark UDF高速數(shù)據(jù)交換通道Scala數(shù)據(jù)源:表、視圖或文件輸出結(jié)果:表或文件通過jar包擴(kuò)展算法內(nèi)置算法主要用途最小二乘法(ALS)推薦詞頻-逆文本頻率(TF-IDF)特征提叏支持向量機(jī)(SVM)分類樸素貝右斯(Nati

38、ve Bayes)分類K-均值(K-means)聚類主成分分析法(PCA)數(shù)據(jù)降維奇異值分解法(SVD)數(shù)據(jù)降維Expert: Extend model- 創(chuàng)建模型Callcreate_model(moive_rec, als, t_setting);- 訓(xùn)練電影推薦模型Call train_model(moive_rec,t_train);- 評(píng)估模型Call evaluate_model(moive_rec, t_test);- 計(jì)算預(yù)測結(jié)果Call predict(moive_rec,t_predict,t_result); Select * from t_result;- 刪除模型Call drop_model(moive_rec);38GBase UP 核心功能 : 機(jī)器學(xué)習(xí)算法(數(shù)據(jù)分析)JDBCSpark MLLibML FrameInputOutputOperationException HandlerNaveBayesK-meansOtherML AlgorithmDecisionTreeGBase 8a MPPHiveGBase 8tOracleTableHDFSFileHiveGBase 8a MPPGBase 8tOracleTableHDFSFilePredictStored ProcedureDrop_ModelTrain_ModelEvalu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論