


版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、典型云計(jì)算平臺(tái)架構(gòu)E策中由噁4由pc«»ei m««Urtjxsws生態(tài)體系開(kāi)源成熟的hadoop 能滿足大數(shù)據(jù)場(chǎng)景下絕打多數(shù)需求,同時(shí)在技術(shù)可行性 hadoop 從企業(yè)的技術(shù)選型角度,與成本上,具有無(wú)可比擬額優(yōu)勢(shì)。開(kāi)源的產(chǎn)品,、Hadoop是架構(gòu)在廉價(jià)的硬件服務(wù)器上,不需要非常昂貴的硬件做支撐。2、 1 、因?yàn)閷儆诙伍_(kāi)發(fā),同時(shí)因?yàn)橛蟹浅?3免費(fèi)的,基于開(kāi)源協(xié)議,可以自由修改,可控性更大。、當(dāng)集群規(guī)4活躍的社區(qū)討論,對(duì)開(kāi)發(fā)人員的能力要求相對(duì)不高, 工程師的學(xué)習(xí)成本也并不高。 但是相對(duì)于自研系統(tǒng)來(lái)說(shuō) 的話,開(kāi)發(fā)成本和維護(hù)成本會(huì)凸顯岀來(lái)。還是便宜的很多。模
2、非常大時(shí),的整個(gè)生態(tài)體系,涵蓋了系統(tǒng)數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)收集、數(shù)據(jù)導(dǎo)入導(dǎo)岀到關(guān)系數(shù)據(jù)hadoop 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)、列式存儲(chǔ)在線數(shù)據(jù)數(shù)據(jù)序列化處理與任務(wù)調(diào)度、庫(kù)、并行計(jì)算框架、庫(kù)、元數(shù)據(jù)中心、工作流控制、系統(tǒng)部署配置監(jiān)控、可視化處理等等方方面面。資料wordHadoop Ecosystem MapaaI-t& sj/s'en14*HUH;-SfTjcrunfd 氐扭皿OLTPJ*Mndffi urIfc陽(yáng)Tg舟“揃w&Q阪展附冷咿r(nóng) knee t<ns 將l>n大數(shù)據(jù)分析平臺(tái)一、海量數(shù)據(jù)存儲(chǔ)及擴(kuò)展能力數(shù)據(jù)多副本,異地備份容災(zāi)能力,高可用配置,HA基于分布式HDF
3、S文件系統(tǒng)存儲(chǔ),以最經(jīng)濟(jì)的硬件成本支持海量數(shù)據(jù)存儲(chǔ)和擴(kuò)容。二、高負(fù)載和海量數(shù)據(jù)處理能力之上的資源管控與調(diào)度模型,支持資源的動(dòng)態(tài)配置與熱啟動(dòng),公平科學(xué)的任yarn基于盡可能降低網(wǎng)絡(luò)務(wù)調(diào)度算法,達(dá)到資源利用的最大化、合理化。優(yōu)先分配就近的運(yùn)算節(jié)點(diǎn),支持任務(wù)重試和資源預(yù)估,不受個(gè)別越算節(jié)點(diǎn)故障影響。 支持動(dòng)態(tài)擴(kuò)充高容錯(cuò)能力,帶寬。運(yùn)算資源。能在海量的服務(wù)器集群中執(zhí)行高復(fù)雜度、高資源需求、高運(yùn)算密集型的任務(wù)。三、靈活快速的平臺(tái)搭建及全面運(yùn)營(yíng)監(jiān)控指標(biāo)體系一鍵式的平臺(tái)搭建,支持快速搭建集群環(huán)境。靈活方便的配置界面,可針對(duì)集群、單提供自定義的服務(wù)模塊安裝、資源分配、權(quán)限管理。指標(biāo)體系全機(jī)進(jìn)行系統(tǒng)配置及調(diào)優(yōu)。
4、面的監(jiān)控管理、良好的可視化界面,提供自定義腳本的預(yù)警與處理。資料wordFU UMf*他3,2 diSiica-rLeaddEkM«-Llipklhi"# Mnalift kflipsifiFnir"MHrMfl lHr«-liljlijnhk x RF-2Q.03 msHn_ *LHdharwNMH 5J AQ(LittIO«w Vh!Ytvr MpfM3.2 dm# d i >riiE g f也口祕(mì)US*8/8rAMv1Ut«K| «4ir* 5.0/8四、多平臺(tái)、多結(jié)構(gòu)的數(shù)據(jù)接入與處理支持各種格式、多數(shù)據(jù)源的數(shù)據(jù)
5、導(dǎo)入。從系統(tǒng)日志、數(shù) 據(jù)庫(kù)、第三方數(shù)據(jù)源等導(dǎo)入數(shù)據(jù)到集群環(huán)境,進(jìn)行快速地?cái)?shù)據(jù)清洗、轉(zhuǎn)化、建模、固化,提供各業(yè)務(wù)模塊進(jìn)行運(yùn)算處理。良ETL任務(wù)自動(dòng)生成、運(yùn)行。代碼規(guī)范統(tǒng)一。好的模板配置,支持多五、體驗(yàn)良好的交互式展示界面及報(bào)表工具除了展示各個(gè)常規(guī)指標(biāo)及運(yùn)算記過(guò)。通過(guò)專業(yè)的統(tǒng) 計(jì)數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)方法,理清海量將多個(gè)視圖整合,展示同一數(shù);數(shù)據(jù)指標(biāo)與維度,按主題、成體系呈現(xiàn)復(fù)雜數(shù)據(jù)背后的聯(lián)系據(jù)在不同維度下呈現(xiàn)的數(shù)據(jù)背后的規(guī)律, 幫助用戶從不同角度分析數(shù)據(jù)、 縮小答案的范圍、 便于用戶 及時(shí)捕捉其關(guān)展示數(shù)據(jù)的不同影響。具備顯示結(jié)果的形象化和使用過(guò)程的互動(dòng)性,注的數(shù)據(jù)信息。資料wordHadoop大數(shù)據(jù)分
6、析平臺(tái)解決方案說(shuō)明簡(jiǎn)介本文檔描述本公司Hadoop大數(shù)據(jù)分析平臺(tái)解決方案的具體實(shí)現(xiàn)細(xì)節(jié)。本平臺(tái)采用開(kāi)源組件搭建為一個(gè)通用目的的大數(shù)據(jù)分析平臺(tái),可用于各領(lǐng)域,包括:教育、醫(yī)療、電信、銀行等 大數(shù)據(jù)應(yīng)用客戶。平臺(tái)具備如下特點(diǎn):1. 一鍵安裝2. 可視化運(yùn)行維護(hù)3. 自由的擴(kuò)展性4. 完全開(kāi)源,并于最新的穩(wěn)定版本同步5. 無(wú)縫集成Hadoop生態(tài)領(lǐng)域的各個(gè)數(shù)據(jù)分析組件6. 可視化大數(shù)據(jù)實(shí)驗(yàn)環(huán)境方案采用的Hadoop模塊列表? HDFS用于大規(guī)模數(shù)據(jù)存儲(chǔ)Yarn,系統(tǒng)資源管理 ?Hive,基于 Mapreduce的SQL數(shù)據(jù)訪問(wèn)?Pig,腳本式數(shù)據(jù)處理?Storm,流式數(shù)據(jù)處理 ?Spark/Spar
7、k Streami ng ,內(nèi)存計(jì)算框架?HBase, Key-Value 數(shù)據(jù)存儲(chǔ)?MapReduce,離線批處理計(jì)算框架?Kafka ?,消息隊(duì)列式流失數(shù)據(jù)接入HCatlog ?,元數(shù)據(jù)管理Ambari ?, Hadoop平臺(tái)監(jiān)控、管理界面ZooKeeper ?,保證系統(tǒng)無(wú)單點(diǎn)運(yùn)行Oozie,工作流式任務(wù)調(diào)度?方案的硬件方案本方案對(duì)于硬件沒(méi)用特別要求,平臺(tái)可以部署在Amazon等云服務(wù)上,可以部署在實(shí)體物理服務(wù)器構(gòu)成的集群上,也可以部署在基于OpenStack等其他虛擬節(jié)點(diǎn)上。大數(shù)據(jù)平臺(tái)功能列表在開(kāi)源Hadoop模塊的基礎(chǔ)上,本公司的hadoop大數(shù)據(jù)平臺(tái)對(duì)各模塊做了整合,從而形成一料 w
8、ordHadoopPC個(gè)通用的、企業(yè)級(jí)的數(shù)據(jù)平臺(tái)系統(tǒng)結(jié)構(gòu)圖Oith infitfri-urUfll* Ikwinor說(shuō)靳井Hi甜雀可民1匕Maria平臺(tái)功能模塊系統(tǒng)管理 系統(tǒng)管理模塊提供如下功能:節(jié)點(diǎn)管理,負(fù)責(zé)集群節(jié)點(diǎn)控制,可以增加、停用、啟用或者移除節(jié)點(diǎn)。1.等,包括停止,啟動(dòng),HBase服務(wù)管理,對(duì)節(jié)點(diǎn)上每個(gè)服務(wù)進(jìn)行管理,如HDFS Yarn 2.重啟。HDFS數(shù)據(jù)對(duì)象的增刪改查。、對(duì)象管理,3. Hive、HBase發(fā)現(xiàn)不當(dāng)通過(guò)日志的查詢審計(jì),日志審計(jì),操作日志記錄了所有改變系統(tǒng)配置的操作,4.操作,保證系統(tǒng)安全穩(wěn)定運(yùn)行。資料word多租戶管理多租戶管理模塊提供如下功能:1. 用戶管理,
9、負(fù)責(zé)用戶的增刪改查。2. 角色管理,負(fù)責(zé)角色的增刪改查。3. 權(quán)限管理,負(fù)責(zé)授權(quán)和取消授權(quán)。4. 隊(duì)列管理,負(fù)責(zé) Yarn隊(duì)列管理。5. 資源使用規(guī)則管理,負(fù)責(zé)資源使用規(guī)則的增刪改查。系統(tǒng)監(jiān)控系統(tǒng)監(jiān)控提供如下功能:1. 集群監(jiān)控,顯示集群 cpu、內(nèi)存、網(wǎng)絡(luò)、10使用情況。cpu、內(nèi)存、網(wǎng)絡(luò)、IO使2. 節(jié)點(diǎn)監(jiān)控,顯示節(jié)點(diǎn)上每個(gè)組件服務(wù)的狀態(tài)及運(yùn)行情況;顯示節(jié)點(diǎn) 用情況。3. 任務(wù)監(jiān)控,監(jiān)控節(jié)點(diǎn)上每個(gè)作業(yè)的完成情況。調(diào)度管理Prospector大數(shù)據(jù)平臺(tái)提供所有類型的任務(wù)調(diào)度管理。Prospector大數(shù)據(jù)平臺(tái)的任務(wù)類型包括:數(shù)據(jù)集成任務(wù)、數(shù)據(jù)預(yù)處理任務(wù)和數(shù)據(jù)分析任務(wù)三類。Prospector
10、大數(shù)據(jù)平臺(tái)可以對(duì)所有類型任務(wù)實(shí)線以下類型調(diào)度:? 一次性執(zhí)行?定期執(zhí)行?條件執(zhí)行數(shù)據(jù)集成(Data In tegrator)數(shù)據(jù)集成理模塊負(fù)責(zé)將外部數(shù)據(jù)源導(dǎo)入到Prospector大數(shù)據(jù)平臺(tái),同時(shí)也負(fù)責(zé)將數(shù)據(jù)分享到其他的外部數(shù)據(jù)存儲(chǔ)。睿帆Data Integrator用于將外部數(shù)據(jù)源的數(shù)據(jù)集成到Hadoop大數(shù)據(jù)平臺(tái)。Data Integrator支持三大類數(shù)據(jù)源:1. 數(shù)據(jù)庫(kù)、NoSQL系統(tǒng)2. 文件系統(tǒng)(FTP、HDFS3. 消息隊(duì)列(Kafka、ActiveMQ )資料word數(shù)據(jù)庫(kù)、NoSQl系統(tǒng)數(shù)據(jù)源? DB2Oracle ?Teradata ?MySQL ? Netezza ?Po
11、stgreSQL ?Sybase IQ ?Vertica ?Greenplum ?Hive ?HBase?文件系統(tǒng)與文件格式? Apache LogCSV/TSV ?HTML/XML ?JSON ?AVRO?Parquet ?Bi nary ?Key, Value ?ORC?消息隊(duì)列數(shù)據(jù)源 ? Kafka? ActiveMQ 數(shù)據(jù)治理(Data Governor )對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、過(guò)濾、聚合、數(shù)據(jù)治理模塊負(fù)責(zé)對(duì)導(dǎo)入到大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)進(jìn)行處理, 脫敏等,將數(shù)據(jù)轉(zhuǎn)化成有意義的數(shù)據(jù)供分析人員使用。 數(shù)據(jù)治理模塊同時(shí)負(fù)責(zé)數(shù)據(jù)質(zhì)量管理。資料word數(shù)據(jù)質(zhì)量1. 數(shù)據(jù)質(zhì)量評(píng)估。提供全方位數(shù)據(jù)質(zhì)量評(píng)
12、估能力,如數(shù)據(jù)的重復(fù)性、關(guān)聯(lián)性、正確性、完全性、 一致性、合規(guī)性等,對(duì)數(shù)據(jù)進(jìn)行全面體檢。2. 數(shù)據(jù)質(zhì)量檢核和執(zhí)行。提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時(shí)調(diào)度執(zhí)行和第三方調(diào)度工具的調(diào)度執(zhí)行功能。3. 數(shù)據(jù)質(zhì)量監(jiān)控。系統(tǒng)提供報(bào)警機(jī)制,對(duì)檢核規(guī)則或方法進(jìn)行閥值設(shè)置,對(duì)超出閥值的規(guī)則進(jìn) 行不同級(jí)別的告警和通知。4. 定制化數(shù)據(jù)質(zhì)量報(bào)告。系統(tǒng)提供了豐富的 API可進(jìn)行定制化數(shù)據(jù)質(zhì)量包括開(kāi)發(fā),另外系統(tǒng)內(nèi) 置了常用質(zhì)量報(bào)告。5. 強(qiáng)大的數(shù)據(jù)質(zhì)量問(wèn)題分析能力。提供多種問(wèn)題分析能力,包括血統(tǒng)分析,影響分析,全鏈 分析,定位問(wèn)題產(chǎn)生的根源。數(shù)據(jù)整理與轉(zhuǎn)換1. 數(shù)據(jù)整理。包括數(shù)據(jù)過(guò)濾、數(shù)據(jù)合并、
13、數(shù)據(jù)拆分、數(shù)據(jù)復(fù)制、數(shù)據(jù)排序等數(shù)據(jù)預(yù)處理功能。2. 數(shù)據(jù)轉(zhuǎn)換。計(jì)算產(chǎn)生新變量、重新賦值、統(tǒng)計(jì)匯總、Rank、生成隨機(jī)數(shù)、替換缺失值、空值 處理、Lookup等數(shù)據(jù)轉(zhuǎn)換功能。數(shù)據(jù)分析(Data Analyzer )數(shù)據(jù)分析模塊提供應(yīng)用開(kāi)發(fā)環(huán)境、集成簡(jiǎn)化機(jī)器學(xué)習(xí)算法、提供圖形化的拖拽界面供數(shù)據(jù)分析使用。應(yīng)用開(kāi)發(fā)用戶通過(guò)可視化方式定義工作流完成下數(shù)據(jù)分析:統(tǒng)計(jì)報(bào)表、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、文本挖掘。資料word拖拽式可視化開(kāi)發(fā)環(huán)境k-口將其轉(zhuǎn)化成對(duì)Data An alyzer企業(yè)數(shù)據(jù)分析用戶通過(guò)可視化開(kāi)發(fā)環(huán)境定義數(shù)據(jù)分析的邏輯,底層數(shù)據(jù)分析算法的調(diào)用,并提供任務(wù)執(zhí)行、任務(wù)調(diào)度和任務(wù)管理功能。樣例 Dat
14、aAnalyzer Data Analyzer企業(yè)數(shù)據(jù)分析師可以同過(guò)完成一系列數(shù)據(jù)分析。聚類可以把企業(yè)客戶分成相似但不相同的、又無(wú)直接關(guān)聯(lián)關(guān)系的Analyzer通過(guò)聚類算法,Data客戶群體,顯而易見(jiàn)是聚類結(jié)果可以幫企業(yè)客戶分群。資料word決策樹(shù)通過(guò)決策樹(shù)算法,Data Analyzer可以把客戶根據(jù)不同屬性的取值劃分到固定的類別,例如高收 入、高潛力、高風(fēng)險(xiǎn)等。而這些通過(guò)屬性的分類規(guī)律很可能隱藏在數(shù)據(jù)中而從未被發(fā)現(xiàn)。屬性關(guān)聯(lián)可以發(fā)現(xiàn)客戶年齡、學(xué)歷等屬性與收入、信用記錄之間Analyzer通過(guò)屬性關(guān)聯(lián)算法,Data的潛在關(guān)聯(lián)關(guān)系,從而幫助企業(yè)制定有針對(duì)性的客戶發(fā)展計(jì)劃。IMimy0214/1
15、L«l£*vMVQW00100?in(J.CJBiO.TUlig006OlH1 W血科31Q>1604»0.C7OlUB預(yù)測(cè)推薦她在某方面(音樂(lè)、電影)的興可以根據(jù)客戶信息預(yù)測(cè)他/Data An alyzer通過(guò)關(guān)聯(lián)算法, 趣度,從而協(xié)助企業(yè)的精準(zhǔn)營(yíng)銷。資料word、WTO JinnAMFy !?)數(shù)據(jù)可視化(Data Viewer的技術(shù)框架實(shí)現(xiàn)如下數(shù)據(jù)Google Charts , D3平臺(tái)升級(jí) 平臺(tái)升級(jí)服務(wù)主要包括(但不限于)安裝新組件 1. 更新組件版本 2.卸載組件 3. 集群擴(kuò)容 4.技術(shù)支持 :本公司提供如下技術(shù)支持(但不限于)批處理任務(wù)性能調(diào)優(yōu) 1.Javascripts
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中籃球教學(xué)課件
- 超輕粘土貼畫(huà)課件
- 上海音樂(lè)學(xué)院《公共空間室內(nèi)設(shè)計(jì)專題二》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南信息學(xué)院《奧爾夫音樂(lè)活動(dòng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 平頂山文化藝術(shù)職業(yè)學(xué)院《電子線路CAD技術(shù)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林工程技術(shù)師范學(xué)院《中國(guó)現(xiàn)代文學(xué)理論教學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025至2031年中國(guó)無(wú)硫月桂酸錫穩(wěn)定劑行業(yè)投資前景及策略咨詢研究報(bào)告
- 湖南冶金職業(yè)技術(shù)學(xué)院《足球Ⅱ》2023-2024學(xué)年第二學(xué)期期末試卷
- 《中學(xué)心理描寫(xiě)作》課件
- 《高中課件特賣》課件
- 2025年吉林交通職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)新版
- GB/T 44569.1-2024土工合成材料內(nèi)部節(jié)點(diǎn)強(qiáng)度的測(cè)定第1部分:土工格室
- 提高感染性休克集束化治療完成率工作方案
- 茶藝-認(rèn)識(shí)茶具(課堂PPT)
- 生物藥物監(jiān)測(cè)檢測(cè)報(bào)告.docx
- 鋼絲繩理論重量計(jì)算方式
- 第一節(jié)二重積分的概念和性質(zhì)ppt課件
- 國(guó)家開(kāi)放大學(xué)《計(jì)算機(jī)應(yīng)用基礎(chǔ)》終結(jié)性考試操作題
- 滸墅關(guān)鎮(zhèn)社區(qū)家長(zhǎng)學(xué)校工作臺(tái)帳(模板)
- 電子科技大學(xué)自主招生軟件工程碩士招生簡(jiǎn)章 —校外培養(yǎng)點(diǎn)
- 安全生產(chǎn)標(biāo)準(zhǔn)化創(chuàng)建工作啟動(dòng)會(huì)(PPT 87頁(yè))
評(píng)論
0/150
提交評(píng)論