金融大數(shù)據(jù)平臺演進方案_第1頁
金融大數(shù)據(jù)平臺演進方案_第2頁
金融大數(shù)據(jù)平臺演進方案_第3頁
金融大數(shù)據(jù)平臺演進方案_第4頁
金融大數(shù)據(jù)平臺演進方案_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、金融大數(shù)據(jù)平臺演進方案技術(shù)創(chuàng)新,變革未來大數(shù)據(jù)分析平臺演進路線以基礎(chǔ)平臺搭建為主,配合金融集團初期業(yè)務(wù)開展,應(yīng)用建設(shè)從客戶信息管理、風險管理和運營管理三方面開展搭建大數(shù)據(jù)處理平臺和實時分析平臺,應(yīng)用方面開展實時分析和數(shù)據(jù)產(chǎn)品封裝開展客戶信息管理、信用風險評級和業(yè)務(wù)統(tǒng)計分析三類應(yīng)用建設(shè)開展貼源數(shù)據(jù)整合,初步建立企業(yè)級數(shù)據(jù)視圖,實現(xiàn)對管理分析類應(yīng)用和實時分析類應(yīng)用的支撐規(guī)劃數(shù)據(jù)管控藍圖,初步實施數(shù)據(jù)質(zhì)量和技術(shù)元數(shù)據(jù)管理2013年2014年2015年2015年以后對企業(yè)價值的創(chuàng)造應(yīng)管技業(yè)務(wù)分析框架基礎(chǔ)數(shù)據(jù)平臺數(shù)據(jù)管控體系應(yīng)技管全面開展內(nèi)部管理分析、實時分析和沙盤演練應(yīng)用建設(shè),初步展開增值數(shù)據(jù)產(chǎn)品開發(fā)

2、工作全面開展大數(shù)據(jù)分析平臺建設(shè),引入更多數(shù)據(jù)源,豐富并完善平臺數(shù)據(jù)區(qū)建設(shè)隨著應(yīng)用體系的搭建,完善數(shù)據(jù)質(zhì)量和元數(shù)據(jù)建設(shè),開展數(shù)據(jù)標準化工作應(yīng)技管深化分析體系,形成深度智能化業(yè)務(wù)分析性能持續(xù)優(yōu)化、數(shù)據(jù)平臺持續(xù)完善、持續(xù)深化數(shù)據(jù)管控體系,形成金融集團企業(yè)級的數(shù)據(jù)管控體系應(yīng)技管一期2013.10當前位置未來持續(xù)優(yōu)化提升階段第一階段第二階段第三階段大數(shù)據(jù)分析平臺演進說明基礎(chǔ)數(shù)據(jù)平臺階段劃分建設(shè)內(nèi)容預期效果第一階段搭建數(shù)據(jù)交換平臺,部署NAS存儲集群,設(shè)計并實施數(shù)據(jù)庫交換組件和數(shù)據(jù)區(qū)交換組件搭建基礎(chǔ)計算平臺,設(shè)計并實施貼源數(shù)據(jù)區(qū),以T+1頻率整合商城和金融業(yè)務(wù)數(shù)據(jù)搭建歷史歸檔查詢平臺,歸檔商城和金融業(yè)務(wù)數(shù)

3、據(jù)文件搭建內(nèi)部管理分析應(yīng)用平臺,部署MPP集群和BI分析應(yīng)用環(huán)境搭建實時分析平臺,部署內(nèi)存數(shù)據(jù)庫和實時BI分析環(huán)境實現(xiàn)了數(shù)據(jù)平臺內(nèi)部個數(shù)據(jù)區(qū)之間、數(shù)據(jù)平臺與外部系統(tǒng)間的雙向數(shù)據(jù)傳輸實現(xiàn)了業(yè)務(wù)數(shù)據(jù)按照貼源數(shù)據(jù)模整合實現(xiàn)了數(shù)據(jù)按照生命周期的歸檔管理實現(xiàn)了內(nèi)部管理分析環(huán)境搭建實現(xiàn)實時分析環(huán)境搭建第二階段數(shù)據(jù)交換平臺增強和優(yōu)化,包括:大數(shù)據(jù)交換組件設(shè)計實施基礎(chǔ)計算平臺增強,包括:引入更多的數(shù)據(jù)源,增強貼源數(shù)據(jù)區(qū);設(shè)計并實施主題數(shù)據(jù)區(qū),打破業(yè)務(wù)條線整合數(shù)據(jù);設(shè)計并實施大數(shù)據(jù)區(qū),實現(xiàn)企業(yè)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)加工、處理搭建沙盤演練平臺實時分析平臺增強和優(yōu)化,包括:引入更多應(yīng)用及相關(guān)數(shù)據(jù)源實現(xiàn)了基礎(chǔ)數(shù)

4、據(jù)一次存儲、一次計算、多次使用建立了數(shù)據(jù)分析人員的實驗環(huán)境,實現(xiàn)了用戶自主用數(shù)為實時、準實時類分析用提供平臺為封裝、銷售數(shù)據(jù)類產(chǎn)品提供了平臺第三階段基礎(chǔ)計算平臺持續(xù)增強和優(yōu)化,引入更多的數(shù)據(jù)源、優(yōu)化模型和ETL處理搭建增值產(chǎn)品平臺,設(shè)計并實施增值產(chǎn)品數(shù)據(jù)區(qū)數(shù)據(jù)交換平臺、沙盤演練平臺、實時分析平臺進一步增強和優(yōu)化數(shù)據(jù)平臺納入盡可能多的企業(yè)內(nèi)外部數(shù)據(jù)數(shù)據(jù)平臺以最優(yōu)的性能支持各類數(shù)據(jù)應(yīng)用大數(shù)據(jù)分析平臺演進說明數(shù)據(jù)管控階段劃分建設(shè)內(nèi)容預期效果第一階段分析和梳理當前數(shù)據(jù)管理方面的成果和現(xiàn)狀,數(shù)據(jù)管控藍圖和路線圖設(shè)計,數(shù)據(jù)管控工作的組織、技術(shù)和流程高階設(shè)計梳理金融集團大數(shù)據(jù)平臺ETL流程各環(huán)節(jié)的數(shù)據(jù)質(zhì)量要

5、求,指定數(shù)據(jù)質(zhì)量檢查規(guī)則、評價指標、管控流程,并落地實施數(shù)據(jù)質(zhì)量管理系統(tǒng)梳理金融集團大數(shù)據(jù)平臺包含的技術(shù)元數(shù)據(jù),如:數(shù)據(jù)字典、ETL任務(wù)、ETL流程、BI語義層等,制定相應(yīng)的管控流程并落地實施元數(shù)據(jù)管理系統(tǒng)同步大數(shù)據(jù)分析平臺ETL建設(shè),實現(xiàn)了數(shù)據(jù)質(zhì)量管理系統(tǒng)收集并整合了金融集團所有技術(shù)元數(shù)據(jù),實現(xiàn)了數(shù)據(jù)生命周管理、血緣分析和影響分析等功能第二階段隨著更多數(shù)據(jù)源的引入,進一步增強數(shù)據(jù)質(zhì)量管理系統(tǒng)隨著更多數(shù)據(jù)源的引入、更多平臺的建立,梳理并整合更多技術(shù)元數(shù)據(jù)梳理金融集團大數(shù)據(jù)平臺包含的業(yè)務(wù)和管理類元數(shù)據(jù),如業(yè)務(wù)術(shù)語、業(yè)務(wù)指標、業(yè)務(wù)定義等,制定相應(yīng)的管控流程并落地實施元數(shù)據(jù)管理系統(tǒng)開展基礎(chǔ)類數(shù)據(jù)標準

6、建設(shè),基礎(chǔ)數(shù)據(jù)標準、管控流程、評價指標、落地策略完善了數(shù)據(jù)質(zhì)量管理體系,實現(xiàn)了問題及時發(fā)現(xiàn)、及時解決實現(xiàn)了金融集團全方位的元數(shù)據(jù)管理,打通了業(yè)務(wù)和技術(shù)元數(shù)據(jù)關(guān)聯(lián)關(guān)系為金融集團數(shù)據(jù)平臺建設(shè)提供了基礎(chǔ)類數(shù)據(jù)標準第三階段數(shù)據(jù)質(zhì)量管理持續(xù)優(yōu)化并增強元數(shù)據(jù)管理持續(xù)優(yōu)化并增強基礎(chǔ)類數(shù)據(jù)標準逐步落地實施開展指標類數(shù)據(jù)標準建設(shè)基礎(chǔ)數(shù)據(jù)標準、管控流程、評價指標、落地策略通過完善的數(shù)據(jù)管控體系,提升數(shù)據(jù)質(zhì)量、避免數(shù)據(jù)二義性、建立數(shù)據(jù)間的血緣關(guān)系,使得業(yè)務(wù)人員可以方便、有效的使用數(shù)據(jù),提高數(shù)據(jù)實用性大數(shù)據(jù)分析平臺演進說明應(yīng)用體系階段劃分建設(shè)內(nèi)容預期效果第一階段開展客戶信息管理建設(shè),設(shè)計并實施個人客戶和供應(yīng)商360視

7、圖、客戶目標搜索、客戶細分等功能開展風險管理建設(shè),設(shè)計并實施供應(yīng)商和個人客戶風險評級模型開展運營管理建設(shè),設(shè)計并實施供應(yīng)鏈金融、人人貸等業(yè)務(wù)條線業(yè)務(wù)量統(tǒng)計分析初步梳理實時、準實時分析需求,進行高時效分析應(yīng)用試點可以方便的對個人客戶和供應(yīng)商進行分群,以及全方位信息查詢和展示供應(yīng)商和個人客戶風險等級評定針對目前開展的業(yè)務(wù)進行經(jīng)營情況統(tǒng)計分析搭建并驗證高時效應(yīng)用體系第二階段隨著金融集團業(yè)務(wù)的展開,逐步開展內(nèi)部管理分析體系的建設(shè),本階段重點為客戶關(guān)系管理、運營管理等高級業(yè)務(wù)人員利用沙盤演練平臺進行數(shù)據(jù)挖掘、預測和科學試驗進一步樹立實時、準實時分析需求,深化開展高時效分析應(yīng)用開始梳理市場上的數(shù)據(jù)應(yīng)用需求

8、,嘗試封裝增值數(shù)據(jù)產(chǎn)品通過內(nèi)部管理分析體系的建設(shè)、滿足了金融集團日常經(jīng)營管理、決策分析和進一步提高價值創(chuàng)造力的需要實現(xiàn)了業(yè)務(wù)人員自主用數(shù)實現(xiàn)了高時效分析,與業(yè)務(wù)流程的整合實現(xiàn)了數(shù)據(jù)產(chǎn)品的封裝,提升了數(shù)據(jù)價值第三階段隨著金融集團業(yè)務(wù)的展開,進一步完善內(nèi)部管理分析體系的建設(shè),包括:市場風險管理、操作風險管理、財務(wù)管理等收集實時分析需求,進一步增強并優(yōu)化實時分析應(yīng)用體系增值數(shù)據(jù)產(chǎn)品設(shè)計逐漸成為重點,數(shù)據(jù)分析師收集企業(yè)內(nèi)外部數(shù)據(jù)需求,設(shè)計更完善的增值數(shù)據(jù)產(chǎn)品通過內(nèi)部管理分析應(yīng)用體系建設(shè)進一步實現(xiàn)數(shù)據(jù)共享、業(yè)務(wù)協(xié)作與創(chuàng)新通過實時分析應(yīng)用體系建設(shè),實現(xiàn)大數(shù)據(jù)平臺業(yè)務(wù)系統(tǒng)的交互,與業(yè)務(wù)流程的融合增值數(shù)據(jù)產(chǎn)品

9、的開發(fā)進一步發(fā)揮的數(shù)據(jù)平臺的數(shù)據(jù)價值金融大數(shù)據(jù)分析平臺一期架構(gòu)基礎(chǔ)計算平臺:基于Hadoop集群構(gòu)建,按照業(yè)務(wù)條線、以貼源數(shù)據(jù)模型存儲了業(yè)務(wù)系統(tǒng)明細數(shù)據(jù)數(shù)據(jù)交換平臺:NAS集群實現(xiàn)了進出數(shù)據(jù)平臺數(shù)據(jù)的暫存,業(yè)務(wù)數(shù)據(jù)交換組件實現(xiàn)了業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)加載,數(shù)據(jù)區(qū)數(shù)據(jù)交換組件實現(xiàn)了基礎(chǔ)計算平臺與管理分析平臺間的數(shù)據(jù)交換流程調(diào)度平臺:自主開發(fā)的流程調(diào)度引擎實現(xiàn)整個數(shù)據(jù)平臺的數(shù)據(jù)處理任務(wù)調(diào)度和運行管理分析平臺:由X86 分析型數(shù)據(jù)庫集群、BI軟件1J2EE應(yīng)用構(gòu)成,實現(xiàn)了面向應(yīng)用的數(shù)據(jù)加工、管理、分析服務(wù)實時分析平臺:由高檔X86服務(wù)器組成的集群,實現(xiàn)高時效、高并發(fā)的實時、準實時類管理分析需求數(shù)據(jù)交換

10、平臺 平臺邏輯架構(gòu)POP金融大數(shù)據(jù)分析平臺NAS 集群物流財務(wù)供應(yīng)鏈人人貸云數(shù)據(jù)推送平臺云數(shù)據(jù)推送平臺實現(xiàn)源系統(tǒng)數(shù)據(jù)一次獲取獲、按需分發(fā)。平臺采用GoldenGate、JBUS、Flume等技術(shù)獲取增量數(shù)據(jù),存儲在MySQL集群平臺按照接口規(guī)范生成文件,LZO壓縮后,通過FTP傳輸?shù)絅AS指定目錄數(shù)據(jù)交換平臺由FTP服務(wù)器、加載服務(wù)器和NAS存儲組成,完成業(yè)務(wù)系統(tǒng)數(shù)據(jù)的獲取、加載和歸檔FTP服務(wù)器:利用LVS構(gòu)成的FTP集群,接收云數(shù)據(jù)推送平臺處理后的數(shù)據(jù),存儲在NAS集群的指定目錄加載服務(wù)器:部署ETL任務(wù),實現(xiàn)指定目錄的文件到達監(jiān)控、文件級檢核、數(shù)據(jù)加載(Hive Load)到臨時數(shù)據(jù)區(qū),

11、同時歸檔(copyfromlocal)歷史數(shù)據(jù)區(qū)NAS集群:按照日期和源系統(tǒng)劃分目錄,緩存數(shù)據(jù),支持日常數(shù)據(jù)交換和ETLLVS 集群: FTP 服務(wù)器#3加載服務(wù)器 #1文件加載文件歸檔文件到達事件監(jiān)控文件級檢核加載服務(wù)器 #4文件加載文件歸檔文件到達事件監(jiān)控文件級檢核LVS 集群: FTP 服務(wù)器#1LVS 集群:負載均衡服務(wù)器數(shù)據(jù)交換平臺 參與方責任劃分設(shè)計并實施云數(shù)據(jù)推送平臺;按照金融集團接口定義,抽取業(yè)務(wù)系統(tǒng)數(shù)據(jù);按照金融集團接口規(guī)范要求,按時生成數(shù)據(jù)文件、控制文件和DDL文件,并通過FTP傳輸?shù)絅AS指定目錄;若源系統(tǒng)有變更,則要求在變更前提供變更內(nèi)容說明,升級平臺版本,根據(jù)金融集團

12、更新接口規(guī)范提供數(shù)據(jù);應(yīng)及時解決接口數(shù)據(jù)提供過程中出現(xiàn)的問題;對于未盡事宜,應(yīng)同金融集團協(xié)商解決。云計算安裝部署金融集團大數(shù)據(jù)分析平臺物理環(huán)境、應(yīng)用軟件,并進行基礎(chǔ)設(shè)施運維;在業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫服務(wù)器安裝并部署云數(shù)據(jù)推送平臺客戶端,并提供數(shù)據(jù)庫訪問。運維部門制定接口規(guī)范,并提交給云數(shù)據(jù)推送項目組;梳理業(yè)務(wù)系統(tǒng)數(shù)據(jù)字典,制定接口定義,并提交給云數(shù)據(jù)推送項目組;開發(fā)數(shù)據(jù)交換組件,從NAS獲取數(shù)據(jù)并處理;對接收的數(shù)據(jù)提供驗證功能,并返回驗證結(jié)果到云數(shù)據(jù)推送平臺;根據(jù)云數(shù)據(jù)推送平臺提交的變更通知修改接口定義和數(shù)據(jù)交換組件;對于未盡事宜,應(yīng)同云計算方協(xié)商解決。金融集團針對金融集團需求,指定接口人、提供文檔;

13、業(yè)務(wù)系統(tǒng)因版本升級等原因?qū)е聰?shù)據(jù)模型發(fā)生變化,及時通知云數(shù)據(jù)推送平臺接口責任人。研發(fā)部門數(shù)據(jù)交換平臺 業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取實現(xiàn)方式每張源系統(tǒng)表都對應(yīng)一個獨立的數(shù)據(jù)接口數(shù)據(jù)接口由數(shù)據(jù)文件和控制文件構(gòu)成(文件命名和具體內(nèi)容參見接口規(guī)范)文件統(tǒng)一采用UTF-8編碼,統(tǒng)一存在在JSS指定目錄(參見接口規(guī)范)如果在抽取周期內(nèi)沒有數(shù)據(jù)變更,云數(shù)據(jù)推送平臺應(yīng)該生成空的數(shù)據(jù)接口傳輸方式FTP傳輸,利用LVS技術(shù)構(gòu)建FTP集群,接收數(shù)據(jù)傳輸頻率云數(shù)據(jù)推送平臺通常按照T+1頻率為金融集團提供數(shù)據(jù),具體頻率要求參見接口定義接口處理模式云數(shù)據(jù)推送平臺根據(jù)不同接口單元定義,準備數(shù)據(jù)、生成接口數(shù)據(jù)文件;云數(shù)據(jù)推送平臺根據(jù)接口

14、規(guī)范生成相應(yīng)的接口控制文件;云數(shù)據(jù)推送平臺壓縮數(shù)據(jù)(LZO),并通過FTP將數(shù)據(jù)接口存入NAS指定目錄;金融大數(shù)據(jù)分析平臺部署在不同加載服務(wù)器上的數(shù)據(jù)交換組件完成:定時輪詢NAS指定目錄,獲取接口(包括數(shù)據(jù)文件、控制文件和DDL文件);執(zhí)行文件級檢核;通過檢核后, 將數(shù)據(jù)文件和控制文件移動到NAS集群指定目錄,觸發(fā)后續(xù)ETL處理;在Task Automation調(diào)度下執(zhí)行數(shù)據(jù)加載和數(shù)據(jù)歸檔任務(wù)。數(shù)據(jù)交換平臺 平臺部署架構(gòu)數(shù)據(jù)交換平臺由8臺X86服務(wù)器和一個NAS集群構(gòu)成X86 服務(wù)器按照功能分為2組,一組實現(xiàn)數(shù)據(jù)獲取,一組實現(xiàn)數(shù)據(jù)加載和歸檔NAS集群作為公共數(shù)據(jù)區(qū),由8臺服務(wù)器共享訪問(讀寫)

15、Python runtimePython JSS ModuleFTPRedhat LinuxLVS服務(wù)器4HDFS ClientHive加載任務(wù)歸檔任務(wù)Redhat Linux加載服務(wù)器1HDFS ClientHive加載任務(wù)歸檔任務(wù)Redhat Linux加載服務(wù)器4LANPython runtimePython JSS ModuleLVSRedhat LinuxLVS服務(wù)器1NAS 集群負責源系統(tǒng)數(shù)據(jù)文件加載和歸檔每臺服務(wù)器負責多個源系統(tǒng)支持按需擴展/減少服務(wù)器LVS1負載均衡其它LVS服務(wù)器負責接收接口文件,寫入NAS集群目錄支持按需擴展/減少服務(wù)器部署數(shù)據(jù)交換平臺和流程調(diào)度平臺程序,各

16、服務(wù)器通過文件鏈接使用按日期和源系統(tǒng)建立數(shù)據(jù)目錄,緩存每日接口文件,供交換平臺訪問流程調(diào)度平臺 平臺邏輯架構(gòu)Task Automation驅(qū)動各個平臺、實現(xiàn)從數(shù)據(jù)存入NAS平臺到數(shù)據(jù)集市生成整個處理過程的工作流管理數(shù)據(jù)交換平臺負責數(shù)據(jù)抽取、文件級質(zhì)量檢核、調(diào)用Hive Load加載數(shù)據(jù)基礎(chǔ)計算平臺使用Hive SQL實現(xiàn)貼源數(shù)據(jù)整合、公共匯總數(shù)據(jù)處理管理分析平臺使用關(guān)系型數(shù)據(jù)庫的SQL實現(xiàn)集市數(shù)據(jù)的處理歷史歸檔查詢平臺負責數(shù)據(jù)文件和Hadoop集群數(shù)據(jù)歸檔流程調(diào)度平臺 流程調(diào)度元數(shù)據(jù)Task Automation的元數(shù)據(jù)統(tǒng)一存儲在MySQL數(shù)據(jù)庫中任務(wù)定義,包括任務(wù)名稱、描述、運行服務(wù)器、運行

17、狀態(tài)、運行時間、相關(guān)數(shù)據(jù)源等屬性任務(wù)依賴,任務(wù)的執(zhí)行依賴與其他上游任務(wù)任務(wù)觸發(fā),任務(wù)成功執(zhí)行后觸發(fā)的下游任務(wù)任務(wù)組,一組有相互關(guān)系的任務(wù),全部完成后會觸發(fā)頭任務(wù)運行元數(shù)據(jù)由所有流程調(diào)度服務(wù)器共享流程調(diào)度平臺 任務(wù)調(diào)度引擎通過偵測器偵測事件,按照任務(wù)定義和任務(wù)依賴關(guān)系觸發(fā)任務(wù)運行,觸發(fā)方式把主要包括自動觸發(fā)定時觸發(fā),按照預先定義的時間周期,如每日、每周、每月,或任何有規(guī)律的時間間隔執(zhí)行任務(wù)。目前可明確的任務(wù)主要是每月執(zhí)行的基礎(chǔ)計算平臺、管理分析平臺數(shù)據(jù)歸檔。事件觸發(fā),按照特定的事件觸發(fā)、執(zhí)行任務(wù)。如:數(shù)據(jù)文件到達指定目錄,會觸發(fā)數(shù)據(jù)加載任務(wù)。同樣,流程失敗也會觸發(fā)新的job,如錯誤處理、例外處理

18、等。手動觸發(fā)系統(tǒng)管理員可以使用Task Automation提供的界面或命令接口執(zhí)行一些job。這些job的功能通常包括對特定范圍的數(shù)據(jù)進行審計與驗證、對特定范圍的數(shù)據(jù)進行針對性很強的數(shù)據(jù)清洗、或者是對某流程失敗后的修復。每個要執(zhí)行的任務(wù)均由任務(wù)執(zhí)行代理啟動運行流程調(diào)度平臺 集群可靠性和可擴展性高可用性 流程調(diào)度所需的元數(shù)據(jù)信息統(tǒng)一保存在MySQL數(shù)據(jù)庫中,集群中任何服務(wù)器發(fā)生故障不會破壞元數(shù)據(jù)完整性。服務(wù)器故障時,只需要修改ETL任務(wù)屬性,指定其他服務(wù)器執(zhí)行任務(wù)即可,故障不會影響任務(wù)依賴關(guān)系、任務(wù)組關(guān)系。擴展能力流程調(diào)度集群由多臺服務(wù)器構(gòu)成,按工作負載劃分不同角色,分別實現(xiàn)ETL處理過程中不

19、同類型任務(wù)的調(diào)度。當某類調(diào)度工作負載較大時,可通過增加服務(wù)器的方式,實現(xiàn)集群的橫向擴展流程調(diào)度平臺 平臺部署架構(gòu)流程調(diào)度平臺由八臺X86 服務(wù)器構(gòu)成,服務(wù)器按照功能分為兩類兩臺X86 服務(wù)器部署MySQL數(shù)據(jù)庫集群,存儲流程調(diào)度元數(shù)據(jù)六臺X86 服務(wù)器部署流程調(diào)度引擎,負責各數(shù)據(jù)區(qū)數(shù)據(jù)處理流程調(diào)度與運行Task AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client臨時/歸檔區(qū)調(diào)度服務(wù)器1Task AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client貼源區(qū)調(diào)度服務(wù)器Task

20、 AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client匯總區(qū)調(diào)度服務(wù)器Task AutomationPerl RuntimeHadoop HiveRedhat LinuxMySQL Client臨時/歸檔區(qū)調(diào)度服務(wù)器4Master NodeMySQL 主服務(wù)器Master NodeMySQL 從服務(wù)器LANMySQL主-從集群,存儲臨時區(qū)、歸檔區(qū)、貼源區(qū)和匯總區(qū)數(shù)據(jù)處理任務(wù)定義,任務(wù)依賴關(guān)系按數(shù)據(jù)區(qū)劃分工作流,工作流不跨數(shù)據(jù)區(qū)臨時區(qū)數(shù)據(jù)處理的工作流部署在數(shù)據(jù)交換換平臺的加載服務(wù)器貼園區(qū)和匯總區(qū)工作流分別部署獨立的服務(wù)器基礎(chǔ)計算平臺

21、平臺邏輯架構(gòu)VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM節(jié)點VMVMVMVMVM節(jié)點VMVMVMVMVM節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點Hadoop臨時數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)匯總數(shù)據(jù)區(qū)基礎(chǔ)計算平臺基于Hadoop 集群搭建集群采用標準的X86 服務(wù)器集群彈性架構(gòu),按需分配計算資源,支持添加X86服務(wù)器的方式實現(xiàn)橫向擴展集群中的數(shù)據(jù)保留三份,保證任何節(jié)點故障,不影響集群對外提供服務(wù)基礎(chǔ)計算平臺有三個數(shù)據(jù)區(qū)構(gòu)成臨時數(shù)據(jù)區(qū),緩存當日源系統(tǒng)變化(新增、修改、刪除)數(shù)據(jù),支持后續(xù)ELT數(shù)據(jù)處理貼源數(shù)據(jù)區(qū),按照源系統(tǒng)數(shù)據(jù)模型整合的明細歷史數(shù)據(jù),作為基礎(chǔ)數(shù)據(jù)層實現(xiàn)數(shù)據(jù)一次整合、多次使用匯總數(shù)據(jù)區(qū),根據(jù)應(yīng)用

22、需求,對貼源數(shù)據(jù)區(qū)明細數(shù)據(jù)進行預連接、預聚合、預匯總處理的數(shù)據(jù),實現(xiàn)了數(shù)據(jù)的一次計算、多次使用基礎(chǔ)計算平臺 臨時數(shù)據(jù)區(qū)包含內(nèi)容主要用途大數(shù)據(jù)分析平臺要整合的源系統(tǒng),包括:POP、財務(wù)審計、財務(wù)研發(fā)、大物流、供應(yīng)鏈、金融、網(wǎng)站交易、數(shù)據(jù)部和移動客戶端等研發(fā)體系的各業(yè)務(wù)系統(tǒng)。建立數(shù)據(jù)緩沖區(qū),臨時存放從源系統(tǒng)抽取過來的增量/全量數(shù)據(jù),支撐后續(xù)ELT處理。設(shè)計原則數(shù)據(jù)庫設(shè)計原則臨時數(shù)據(jù)區(qū)對應(yīng)獨立的Hive數(shù)據(jù)庫不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限模型設(shè)計原則邏輯模型參考源系統(tǒng)和接口規(guī)范定義,為每個接口單元設(shè)計實體、屬性物理模型與邏輯模型保持一致,每個實體對應(yīng)一張Hive表,表采用LZ

23、O壓縮存儲物理模型設(shè)計不建議考慮索引、物化視圖等技術(shù)特性以天為單位,按業(yè)務(wù)日期建立分區(qū)歷史保留原則緩存當日業(yè)務(wù)數(shù)據(jù)、為數(shù)據(jù)重跑方便可保留7天歷史過期數(shù)據(jù)直接刪除對應(yīng)分區(qū),不需要歸檔基礎(chǔ)計算平臺 貼源數(shù)據(jù)區(qū)包含內(nèi)容主要用途與緩沖層相對應(yīng),貼源整合層主要包括:POP、財務(wù)審計、財務(wù)研發(fā)、大物流、供應(yīng)鏈、金融、網(wǎng)站交易、數(shù)據(jù)部和移動客戶端等研發(fā)體系的各業(yè)務(wù)系統(tǒng),所有數(shù)據(jù)保留歷史。作為整個數(shù)據(jù)平臺的基礎(chǔ)數(shù)據(jù)層,累計歷史,為主題層、集市層等數(shù)據(jù)區(qū)提供數(shù)據(jù)支撐。設(shè)計原則數(shù)據(jù)庫設(shè)計原則貼源數(shù)據(jù)區(qū)對應(yīng)獨立的Hive數(shù)據(jù)庫不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限模型設(shè)計原則針對不需要記錄變化的實體

24、,其邏輯模型參考緩沖層,按照貼源設(shè)計針對需要記錄變化的數(shù)據(jù),需要增加時間字段,設(shè)計拉鏈數(shù)據(jù)模型,記錄歷史物理模型考慮分區(qū),流水表按業(yè)務(wù)日期建立分區(qū),拉鏈表按終止日期建立分區(qū)歷史保留原則拉鏈表數(shù)據(jù)保留最近37個月的歷史快照表數(shù)據(jù)永久保留交易流水表數(shù)據(jù)保留最近25個月的歷史過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時回遷基礎(chǔ)計算平臺 匯總數(shù)據(jù)區(qū)包含內(nèi)容主要用途針對客戶管理、風險評級和業(yè)務(wù)量統(tǒng)計設(shè)計明細數(shù)據(jù)進行預匯總、預連接和預加工后的結(jié)果數(shù)據(jù)。對明細數(shù)據(jù)進行預匯總、預連接和預加工,為應(yīng)用數(shù)據(jù)集市準備數(shù)據(jù)。設(shè)計原則數(shù)據(jù)庫設(shè)計原則匯總數(shù)據(jù)區(qū)對應(yīng)獨立的Hive數(shù)據(jù)庫不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改

25、權(quán)限模型設(shè)計原則匯總層采用了逆范式寬表設(shè)計,某種程度上采用維度建模的方法模型設(shè)計首先需要根據(jù)業(yè)務(wù)和應(yīng)用的需要盡量包含更多的屬性和指標,同時兼顧空間匯總層需要針對維度數(shù)據(jù)執(zhí)行標準化處理匯總層模型增加數(shù)據(jù)日期記錄歷史,建議根據(jù)數(shù)據(jù)日期建立分區(qū)歷史保留原則不同實體采取不同的歷史保留策略建議以支持應(yīng)用為輸入,避免永久保留過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時回遷基礎(chǔ)計算平臺 平臺部署架構(gòu)基礎(chǔ)計算平臺由73臺X86服務(wù)器構(gòu)成,3臺服務(wù)器作為Name Node和JobTracker Node,70臺服務(wù)器作為Data Node和TaskTracker NodeData NodeTaskTracker Node服

26、務(wù)器1Data NodeTaskTracker Node服務(wù)器70Name & JobTracker Node (Secondary )Name NodeJobTracker Node內(nèi)部互聯(lián)70臺服務(wù)器是HDFS數(shù)據(jù)節(jié)點,臨時數(shù)據(jù)區(qū)和貼源整合區(qū)作為獨立的數(shù)據(jù)庫部署在此服務(wù)器上,并按照3份冗余存儲NN負責HDFS元數(shù)據(jù)管理,元數(shù)據(jù)信息存儲在NAS集群指定目錄通過硬件冗余、RAID0+1、Slave NN等技術(shù)實現(xiàn)高可用性70臺服務(wù)器是MR計算節(jié)點,Hive提交的SQL語句,轉(zhuǎn)化成MR任務(wù),由JobTracker分配到每臺服務(wù)器上執(zhí)行Secondary NN負責HDFS元數(shù)據(jù)備份管理,Secon

27、dary JobTracker 負責MR計算集群JobTracker高可用性JobTracker Node負責MR任務(wù)分配通過心跳信號檢測TaskTracker活動狀態(tài),排除失效節(jié)點基礎(chǔ)計算平臺 平臺網(wǎng)絡(luò)拓撲NodeNodeNodeNodeNode20 Nodes RACK 1NodeNodeNodeNodeNode20 Nodes RACK 2NodeNodeNodeNodeNode20 Nodes RACK 3NodeNodeNodeNodeNode20 Nodes RACK 3管理分析平臺 平臺邏輯架構(gòu)客戶信息管理,采用J2EE框架自主開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫集群運營績效管理,采

28、用MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫集群零售業(yè)務(wù)靈活分析,采用MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于內(nèi)存數(shù)據(jù)庫集群HANA管理分析平臺 安全管理個人客戶信息管理企業(yè)客戶信息管理金融業(yè)務(wù)經(jīng)營分析金融業(yè)務(wù)規(guī)模預測認證管理用戶BI 應(yīng)用門戶審計管理授權(quán)管理身份管理授權(quán)管理認證管理審計管理安全管理員安全管理員安全管理員賬戶管理平臺安全管理信息庫LDAP賬戶信息權(quán)限信息日志信息大數(shù)據(jù)分析平臺物理架構(gòu)說明平臺所有服務(wù)器均采用標準X86 PC 服務(wù)器系統(tǒng)劃分為三個子網(wǎng)WEB 服務(wù)子網(wǎng),兩臺服務(wù)器構(gòu)成的Tomcat集群應(yīng)用服務(wù)子網(wǎng),兩臺服務(wù)器構(gòu)成的MicroStrategy集群

29、數(shù)據(jù)服務(wù)子網(wǎng)基礎(chǔ)計算平臺,73臺服務(wù)器構(gòu)成的Hadoop集群數(shù)據(jù)集市平臺,30臺服務(wù)器構(gòu)成的?集群流程調(diào)度平臺,7臺服務(wù)器構(gòu)成的Task Automation集群數(shù)據(jù)交換平臺,5臺服務(wù)器與云數(shù)據(jù)推送平臺接口,分別實現(xiàn)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)獲取大數(shù)據(jù)分析平臺一期硬件配置所有服務(wù)器均采用開放的X86 架構(gòu),單臺服務(wù)器建議配置如下:服務(wù)器類型服務(wù)器功能數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤基礎(chǔ)計算平臺(Hadoop 集群)Data Node & TaskTracker 服務(wù)器7032128G2*1GbCentos 6.312*2TB 7200 RPM SATA disksName Node & JobTrac

30、ker 服務(wù)器332128G2*1GbCentos 6.34*600GB 15K SAS disks RAID 0+1 歷史歸檔查詢平臺(Hadoop 集群)Data Node & TaskTracker 服務(wù)器301224G2*1GbCentos 6.316*3TB 7200 RPM SATA disksName Node & JobTracker 服務(wù)器31224G2*1GbCentos 6.34*600GB 15K SAS disks RAID 0+1 沙盤演練平臺(Hadoop 集群)Data Node & TaskTracker 服務(wù)器3032128G2*1GbCentos 6.312*2TB 7200 RPM SATA disksName Node & JobTracker 服務(wù)器332128G2*1GbCentos 6.34*600GB 15K SAS disks RAID 0+1 大數(shù)據(jù)分析平臺一期硬件配置(續(xù))所有服務(wù)器均采用開放的X86 架構(gòu),單臺服務(wù)器建議配置如下:服務(wù)器類型服務(wù)器功能數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤數(shù)據(jù)交換平臺數(shù)據(jù)接口服務(wù)器51664G2*10GbCentos 6.32*600GB 15K SA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論