集團大數據平臺系統功能設計整體方案_第1頁
集團大數據平臺系統功能設計整體方案_第2頁
集團大數據平臺系統功能設計整體方案_第3頁
集團大數據平臺系統功能設計整體方案_第4頁
集團大數據平臺系統功能設計整體方案_第5頁
已閱讀5頁,還剩152頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

集團大數據平臺系統功能設計整體方案

1.1概述

平臺管理

多胡霞II多百日II作業調章或1I統—黜說

;|數據ETL析與[數據展現I

數據管理

結構化數據^||半/非結構化數據管理

~||朝封奐|]

數據加工清m1數據計算]|數據查詢

圖5」系統功能設計內容

參見上圖,系統功能設計主要包括:平臺管理(多租戶管

理、多應用管理、作業調度管理、統一運維監控)、數據管

理(結構化數據管理、半/非結構化結構數據管理、數據采集、

數據交換、數據存儲管理、數據加工清洗、數據計算、數據

查詢I數據管控(元數據、主數據管理、數據質量管理\

數據ETL、數據分析與挖掘、數據展現等。

1.2平臺管理功能

121多應用管理

星環TranswarpDataHub大數據平臺對企業級用戶提

供多應用場景的支持,例如:通過TranswarpStream提供

實時數據計算場景支持,通過TranswarpInceptor提供批

處理場景支持,通過TranswarpHyperbase提供在線數據

服務場景支持,通過TranswarpDiscover提供數據分析、

挖掘場景支持。

星環大數據平臺通過TranswarpOperatingSystem云

平臺系統(以下簡稱TOS)實現大數據平臺多應用管理,支

持對應用的服務級別管理(SLA),實現應用的訪問資源控制,

支持資源隔離。

TOS基于Docker容器技術,支持一鍵部署TDH各個

組件,支持優先級的搶占式資源調度和細粒度資源分配,讓

大數據應用輕松擁抱云服務,滿足企業對于構建統一的企業

大數據平臺來驅動各種業務的強烈需求。

TOS主要由4部分組成,底層由基于Docker的容器技

術作為所有應用服務的承載,通過將應用服務裝載在

Docker容器中,能夠實現應用環境和底層環境的解耦合;

通過優化過的Kurbernetes對整個集群的資源進行管理與

調度;在此之上,內置了豐富的系統級服務應用,如完整

Docker化的TranswarpDataHub集群各個組件等;對于

其他應用服務的接入,提供了完整的DockerImages

Repository集中服務管理庫,用戶可以通過TOS提供的接

口,將應用服務制作為DockerImage,加載入TOS

Repository,通過定義調度規則,在TOS統一管理與調度。

TranswarpOperatingSystem組成部分

TranswarpOperabnqSystem由以下四劄分組成

?Rlnq0:Docker/G)ntainef

?Rlnq1:Resourcescheduler

?Ring2:Built-insystemservices

?Rina3:Centralservicerepository(dockerImaoes)

圖5-2大數據云平臺架構圖

便捷部署:基于TOS,用戶可以通過WebUI、RESTAPI

或者命令行一鍵瞬間安裝和部署TDH集群,能自動根據服

務的依賴性安裝所需的其他服務組件。在虛擬技術之前,部

署硬件資源滿足新的應用需求需要幾天時間,通過虛擬化技

術把這個時間降到了分鐘級別,而目前基于Docker的TOS

云平臺把時間降到了秒級別。Docker作為裝載進程的容器,

不必重新啟動操作系統,幾秒內能關閉,可以在數據中心創

建或銷毀,沒有額外消耗。典型的數據中心利用率是30%,

通過更積極的資源分配,以低成本方式對新的實例實現更合

理的資源分配,從而提高數據中心的利用效率。

完整的資源隔離:TOS通過優化Kubernetes資源管理

框架實現了基于Docker容器對CPU,內存,硬盤和網絡更

好的隔離。TOS中Docker容器的隔離目前是由Linux內核

提供的六項隔離,包括主機名與域名的隔離,信號量、消息

隊列和共享內存的隔離,進程編號的隔離,網絡設備、網絡

棧、端口的隔離,掛載點(文件系統)的隔離,用戶和用戶

組的隔離。這些隔離保證了不同容器的運行環境是基本不受

影響的,比如掛載點的隔離,就保證了一個容器中的進程不

能隨意訪問另外一個容器中的文件。

TOS平臺相比于傳統的ApacheYarn管理框架和開源

Kubernetes的資源管理框架而言,在資源粒度方面可以管

控磁盤和網絡,而傳統資源調度框架只能管理到CPU和內

存;在隔離性方面,容器技術有天然的優勢;在依賴性和通

用性方面,不依賴于Hadoop組件以及技術,這意味著可以

實現所有上層應用的云化開發、測試、升級以及管理調度。

容器的隔離目前是由Linux內核提供的六項隔離,包括主機

名與域名的隔離,信號量、消息隊列和共享內存的隔離,進

程編號的隔離,網絡設備、網絡棧、端口的隔離,掛載點(文

件系統)的隔離,用戶和用戶組的隔離。這些隔離保證了不

同容器的運行環境是基本不受影響的,比如掛載點的隔離,

就保證了一個容器中的進程不能隨意訪問另外一個容器中

的文件。

表5-1Yarn管理

資源粒度隔離程度依賴性通用性

CPU/ME進程級別、依賴某個支持少量計算

YARN

M不精確HDFS引擎

KuberCPU/ME不依賴支持通用

Container

netesMHadoopLinux負載

CPU/ME

Container

M,DISK,不依賴支持大數據及

TOS+Quota+V

NETWORHadoop通用應用

LAN

K

靈活資源調度:TOS支持對TDH組件自動擴容或者縮

容,同時也允許其他應用服務和大數據服務共享集群,從而

提高資源的使用率。TOS創新的支持搶占式資源調度模型,

能在保障實時業務的同時,提高集群空閑時的資源占用,讓

批量作業和實時業務在互不干擾的情況下分時共享計算資

源。通過支持動態擴容和收縮集群,從何實現了資源的動態

分配與調度,整個過程熱插拔業務、服務無需重啟。

自動修復:TOS的Replicator模塊負責檢測集群規模,

當集群中服務發生問題時可以另起一個服務實例實現集群

的自我修復功能。舉例而言,某個HyperbaseRegion

Server由于硬件原因服務停止,TOS平臺能夠實時感知,

并在管理的資源范圍內另起一個RegionServer?的Docker

容器接替因故停止的容器,動態的保證了服務集群的整體穩

定性。

應用隔離:在TOS上運行的TDH以及應用服務還引入

微服務的架構,顯著降低用戶部署環境對TDH以及應用服

務穩定性的影響,提高了部署的可用性,并且能讓用戶在不

停業務以及服務的前提下,享受到快捷的TDH以及應用服

務更新版本滾動升級。

122多租戶管理

對于各個部門以及下級單位的不同應用需求,通過統一

的集群管理,結合星環的YARN資源調度框架,可以動態創

建和銷毀集群,靈活部署業務,適合對非7x24不間斷業務

(例如周期性統計業務)動態部署。

此外,在資源隔離方面,TranswarpYARN支持對計算

資源和內存資源的管理能力,避免占用內存資源多的Spark

或M叩/Reduce集群之間爭搶內存資源。缺省模式下集群

就是創建在YARN上,可以非常方便的動態創建和銷毀

Spark或者Map/Reduce集群。同時,通過YARN的資源

隔離和配額管理,可以避免使用同一個Map/Reduce集群

時出現的計算資源爭搶現象,保證每項業務都能順利完成。

與此同時,為了更好的利用平臺計算資源,在申請資源

配額后,如果當前用戶的資源緊張或受限,可以動態調配其

他用戶的閑置資源加入,當其他用戶使用時再歸還。

同時,結合Kerberos實現TranswarpYARN的資源申

請,作業提交以及隊列使用的權限管控,管理員通過管控界

面,定義YARN中用戶能夠在哪些隊列中提交作業,能申請

資源的額度以及能提交作業的最大個數等,實現計算資源的

用戶權限管控。

因此,對于分析類應用,可以充分使用星環YARN的特

性,實現分析集群的按需創建與銷毀,從而實現數據、資源、

計算能力的統一調度和規劃。

對不同的租戶的操作員進行分組分類分級管理,利用

Kerberos以及LDAP對租戶應用授權,支持對計算資源和

內存資源的管理能力,避免占用內存資源多的Spark或

M叩/Reduce集群之間爭搶內存資源,對租戶的數據訪問能

力進行設置,實現數據隔離。

123統一運維監控

本方案提供統一的運維監控服務,主要通過TOS實現,

的核心是和本方案涉及到的所

TOSDockerKuberneteso

有軟件的部署都通過Docker打包成鏡像文件,以便非常快

捷的部署實施。內部系統通過鏡像數據接口交互層進行交

互。通過外部接口層納入集團運維平臺進行統一監控。

等盅段嬲統一監控平臺

HA-

控外部接口層(API,URL嵌入,底層數據,XML等)

性能監控資源/微務調度

鏡像數據接11交互層

fy,大數據平臺入

TDHTrinityiRechartsiNLPElasticsearch

鏡Hadoop平臺數據管理平臺報表平臺自然語言搜索引擎管理框架

j>>1j

DTranswarpTOS

co

ekContainerSchedulerSystemService

r5coordinatioorchestratiautch

"CPU/MEMDiskNetworkndiscovery

Containerpriority-basedstorageVLANloadname

etcdreplicator

Pluginsschedulermanagermanagerbalancerservice

圖5-3統一監控平臺

本方案提供統一的運維監控服務,主要通過TOS實現,

的核心是和本方案涉及到的所

TOSDockerKuberneteso

有軟件的部署都通過Docker打包成鏡像文件,以便非常快

部署。

整個架構通過Docker打包,并提供服務接口,這種服務

接口分為兩層:

1)鏡像層

a)提供接口文件

b)提供數據接口

2)外部接口層

a)提供API

b)提供URL嵌入

c)提供數據接口

d)提供XML接口(包括定制XML,JSON等)

e)ESB接口

整個接口層的設計便于產品之間,系統之間的交換,也

便于整個架構對接IBMTivoli,BMCControlM等監控平

臺,引入監控或者外推監控,更好的融入到整個集團集團的

監控體系,便于統一監控。

12.3.1Hadoop集群自動化部署

一站式大數據平臺提供集群自動化部署服務。用戶只需

要安裝TranswarpManager管理平臺軟件,就可以在友好

的圖形化界面上安裝、部署、配置所需要的服務。整個安裝

過程不需要用戶使用任何終端命令或者代碼。

1

IZMKM9arMOF*YARN

°ZMKmparJW+9務>03ahMoo(>B*n?*4Hi?aVARN■■????*

Hyp?r*M?incM?M-9QLGc?pWL

TEaoarVfpartiM■觸?*維??:?TEnnoavEcoiar■內*”介"BEWW*EcafBor是存099崇?

圖5-4TDH節點管理界面1

平臺提供了強大的在線擴容功能,不需要宕機停庫,不

需要停止業務,就可以添加新的節點,實現擴容。節點添加

完成之后可以立即對新添加的節點進行角色的分配,一旦配

置成功,則新加的節點就會馬上投入運算。擴容之后的數據

節點也不需要停機進行數據重分布,系統自動選擇空閑的時

間進行數據的重新分布。同時,擴容的操作可以方便的在界

面進行操作。

①admin

OAddNodM

PrwtouB

圖5-5TDH節點管理界面2

1.23.2Hadoop集群性能監控

平臺通過專門的監控服務對集群的狀態進行監控,包括

服務器CPU、內存、網絡和磁盤的利用率和健康狀態,以及

分布式應用系統的狀態,并在故障發生或者某項指標超過預

設閥值時時提供告警功能。管理員可通過瀏覽器訪問集群的

監控和管理界面進行日常的監控和維護,系統提供圖標信息

展示。管理員可以便捷了解到集群的計算資源是否處于空閑

狀態、哪些服務器的負載過高,甚至判斷集群的組網及機架

安排是否合理等。管理員也可通過對各個節點的各個角色的

日志信息進行檢索,獲得更加精確的信息。

Web界面

Gmetad

Gmond

Gmond

Gmond

圖5-6TDH監控模塊

平臺集成Ganglia集群監控系統,能夠從上千臺服務器

上收集系統信息,能夠保障當集群規模擴展至上百臺上千臺

服務器時,監控程序都能夠高效的獲取每臺服務器的狀態信

息。Ganglia由Gmetad與Gmond組成,其中集群中每一

臺機器上都有一個Gmond服務進程,Gmetad收集所有節

點metrics信息并在Web前端界面上展現出來。集群中的

每臺服務器上都運行監控守護進程,守護進程能夠將這些數

據的精簡傳遞,這使得Ganglia的運行對集群的資源消耗極

少。所有的指標數據都存儲在一個RRD(RoundRobin

Database)數據庫中,為了防止Gmetad頻繁寫磁盤造成

I/O瓶頸,通過rrdcache緩存指標數據,定量寫入RRD。

存儲資源監控,包括獲取存儲量、剩余存儲量以及存儲

系統整體情況信息。

通過Ganglia集群監控系統向集團運維監控平臺發送監

控消息,提供對接接口,實現大數據平臺與集團運維監控平

臺的互通,實現統一監控。

圖5-7TDH性能監控界面

運算資源監控,包括監控工作負載、CPU、內存資源、

性能、組件性能(Kafka處理性能)等情況

;EAZ?#A"

YARN?

0YARN微要

S*■粵CWUq

王”士YARNttit

G?tNet*AM*Tiana

圖5-8TDH性能監控管理界面

提供全局日志和任務級日志。

日志

ars*re,?1227-20tsMrts?r4i?

-Al?K?AI

nwr.

4*m?rS9iiSrn>33-3?w?0rKetoMCMcka

4?rKM1SSH57PM

"rt<aOQ£tt夕I

yta.xn6A,3r

**r5B.2Cl5S1t5TH4

SM3O:S6A1:ST0?BCte.ioe<KSaart£arC9S

ta.ai5511STPV

SMkQ55lFr

Bl-go*?r

?oxen9tt)7i

圖5-9TDH全局日志查看界面

(LoiK>0KaiKlogirAMW))■RanirvMUadwrarHrtf

imMfHorHIE|?Uil4uO1)hMCtarttt*20

AJ?,OUmjr_TlW:KEA

(1000*0iGMKioginMM))?Rane-ctwrarferan

incepur(tvifcuOHMMCtOfKL'?TO

WFIM_8UXX..MAM"MM

inMptorMn>ar<l.nggM*gyiKtogt**HSD-OoppeqDmtaoMtaDC

kuniiinrttuw147V3Ja20MMI

01W10?MUA:iogfr?>(M))Ranir-cMararHer?1

IncoptcrMOW

0ADCAST.VAR8

(Lisgorg?m*ioainto(B0})-RanIT■小?daarwterMT

Inoopicrwvor(iMtajOl)mctf(or?QL,IWO

TUfmocAtn

(lowm?c?KlogMo(M))?2nEMK>dMf?rttr8P

inoepccrww(HuiNwOI)mcwitfSQi*mro

AKK.COMMXI

(1000f9MMMingm網卜Au*iofCMM

inc?c?orM<MV|u.H*oOl|nawtorSOl,WK)

BMlhJMCvlnrtHI70Q1

(HimMu?*(Na)nv?rwoKmtaimi(3im))t>

wMotowffihiplanwnaaon5MOQapatM

?nMWiunr*(nj*asio??

圖5-10TDK任務曰志直看界面

在故障發生時提供告警功能。

BfMWU分?上下文

201MMH817:V;02ERRORLOGACTIVELogo(.acnodul*RecewlrackarTain*warpJo

baarv?r(suz

houO3)

201MJ4H817:12:02ERRORLOGACTIVELogof.Wdular.RMa>v?rTnbCMwTratwMMvpJo

DM?v?r(?ut

hou03)

201SAMH817:12:02ERRORLOGACTIVELog“.Kn?tliJl?r.R?o?v?rTfacMrTr?n?w?pJo

t>Mrv?r(?ut

houO3)

201MMH714:20,40ERRORLOOACTIVELogotemoteEndfxxntWnMrInooptwMTV

?r(?urhouOt)

201&IQ4H7U:29:49ERRORLOCACTIVELogofremoteEndpctrtWnlwInoKMorwfv

?r(?uzhou01)

201S/04/I714:24:48ERRORLOGACTIVELogotremoteEndpcinfWrMrInoapKXMrv

?r(?utnou01)

201sl04/17M:24.4BERRORLOOACTIVELogatmmoteEndpotfKWmrinoapkxMrv

圖5-11TDK告警監控界面

1.2.33Hadoop集群資源管理

TDH提供計算任務管理和作業管理,包括作業的上傳、

配置、啟動、停止、刪除和狀態查看等功能。

eiHAR!A竹爬oYMMWO

select?frontwmplc.o?brutI

1222

rnr衣崗分桁

ABSTRACTSYNTAXnt?:

(ifX_Qunnr(TOK.woM(TOKjAaat>"or_rAa“5,;:(x.iiftfRTio<_DesT?uim<IOK_MRTOK_IMP_FU£?(n)K..SHFC"roK_saFXPR

roic_ALiooi?ff])))

SUGEC€HND£NaES

StAye-0k>>rootttage

S1AGUPtAM$;

Stage:Sto^e-o

r?cnOMKMCT

NmM'1

f*(x?vwfXrtc

MMican

MM,

圖5-12TDK作業管理界面

tl后。用用阿

queTSawefoopy)Iweek.Sdaysago

0II111w?ek,3d?j^ago

QuefySa?npieiwees,3daysago

quewSamteRopy)1week,30<>/5ago

01111

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論