大公司(大企業)大數據建設方案(企業大數據、公司大數據、集團大數據)-簡化版_第1頁
大公司(大企業)大數據建設方案(企業大數據、公司大數據、集團大數據)-簡化版_第2頁
大公司(大企業)大數據建設方案(企業大數據、公司大數據、集團大數據)-簡化版_第3頁
大公司(大企業)大數據建設方案(企業大數據、公司大數據、集團大數據)-簡化版_第4頁
大公司(大企業)大數據建設方案(企業大數據、公司大數據、集團大數據)-簡化版_第5頁
已閱讀5頁,還剩168頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

XX公司大數據平臺大公司(大企業)大數

據建設方案(企業大數據、公司大數據)

目錄

1項目概述....................................................................7

1.1建設背景................................................................7

1.1.1XX公司已有基礎...................................................................................................7

1.1.2痛點及需提升的能力..............................................................................................7

1.1.3大數據趨勢............................................................................................................8

1.2建設目標................................................................8

1.2.1總體目標................................................................................................................8

1.2.2分階段建設目標.....................................................................................................9

1.3與相關系統的關系.......................................................10

1.3.1數據分析綜合服務平臺........................................................................................10

1.3.2量收系統..............................................................................................................10

1.3.3金融大數據平臺...................................................................................................11

1.3.4各生統...........................................................................................................11

1.3.5CRM.....................................................................................................................11

2業務需求分析...............................................................12

2.1總體需求...............................................................12

2.2數據富里...............................................................13

2.2.1數據采集..............................................................................................................14

2.2.2數據交換..............................................................................................................14

2.2.3數據存儲與管理...................................................................................................14

2.2.4數據加工清洗......................................................................................................15

2.2.5數據查詢計算...........................................................15

2.3數據管控...............................................................16

2.4數據分析與挖掘.........................................................17

2.5數據展現...............................................................17

2.6量收系統功能遷移.......................................................18

3系統架構設計...............................................................19

3.1總體削目標...........................................................19

3.2總體削原則...........................................................19

3.3系統總體架構設計.......................................................21

3.3.1總體技術框架...........................................................21

3.3.2系統總體邏輯結構.......................................................24

3.3.3平臺組件關系.................................................................................................................26

3.3.4系統接口設計...........................................................31

3.3.5系統網絡結構.................................................................................................................35

4系統功能設計...............................................................37

4.1概述...................................................................37

4.2平臺管理功能...........................................................37

4.2.1多應用管理.............................................................37

4.2.2多租戶管理..............................................................41

4.2.3統一運維監控.................................................................................................................42

4.2.4作業調度管理............................................................61

4.3數據WS..............................................................................................................................63

4.3.1數據管理框架...........................................................63

4.3.2數據采集..............................................................................................................65

4.3.3數據交換...............................................................68

4.3.4數據存儲與管理...................................................................................................69

4.3.5數據加工清洗...........................................................87

4.3.6數據計算................................................................88

4.3.7數據查詢...............................................................103

4.4數據管控..............................................................122

4.4.1主數據管理............................................................122

4.4.2元數據管理技術........................................................124

4.4.3數據質量..............................................................127

6)數據清理....................................................................129

4.5數據ETL.................................................................................................................134

4.6數據分析與挖掘........................................................136

4.6.1數據分析;篇呈..........................................................138

4.6.2R語言開發環境與接口...................................................139

4.6.3并行化R算法支持......................................................140

4.6.4可視化R軟件包.........................................................143

4.6.5編程語言支持..........................................................145

4.6.6自然語言處理和文本挖掘...............................................145

4.6.7實時分析...............................................................146

4.6.8分析管理..............................................................146

4.6.9分析支持..............................................................150

4.6.10指標維護.............................................................150

4.6.11分析流程固化.........................................................151

4.6.12分析結果發布.........................................................151

4.6.13環境支持..............................................................151

4.7數據展現.............................................................152

4.7.1交互式報表.............................................................154

4.7.2儀表盤.................................................................159

4.7.3即席查詢..............................................................160

4.7.4內存分析...............................................................161

4.7.5移動分析...............................................................162

4.7.6電子地圖支持..........................................................162

5系統配置方案..............................................................164

5.1硬件系統配置建議......................................................164

5.1.1基礎Hadoop平臺集群配置規劃.........................................164

5.1.2數據倉庫集群配置規劃.................................................166

5.1.3集群規模綜述..........................................................168

5.1.4開發集群配置建議......................................................169

5.1.5測試集群配置建議......................................................169

5.2軟件配置建議..........................................................170

5.3軟硬件配置總表........................................................171

5.4網絡拓撲173

1項目概述

1.1建設背景

1.1.1XX公司已有基礎

經過十幾年的信息化建設,XX公司已經積累了覆蓋郵務、速遞物流、金融三大板

塊的海量生產和經營數據,這些數據分布在XX公司各類應用系統和數據庫中,支撐著

XX公司業務的發展。

XX公司初步搭建了由名址系統、量收系統、速遞平臺系統、數據分析平臺組成的

初步的數據倉庫,為數據分析挖掘工作打下了一定的技術基礎。

組建了專業的組織架構促進企業數據管理與應用的規范化與制度化。

XX公司已成立數據中心,xx公司數據中心和各省的數據分析團隊已經進行了多個

專題的數據分析與成果應用的嘗試。

1.1.2痛點及需提升的能力

XX公司擁有豐富的客戶資源,海量的數據積累。在大數據時代,要充分挖掘數據

價值,跟上時代的步伐。

板塊間數據存在壁壘,共享不足,無法實現XX公司企業數據的充分有效利用。

數據存在冗余、分散、安全性差、一致性差等問題,應建立有效的數據管控體系,

打破信息孤島、實現企業信息數據共享、提升數據價值。

非/半結構化數據利用不足,需利用大數據技術加強應用。

1.1.3大數據趨勢

隨著移動互聯網、云計算、物聯網和大數據技術的廣泛應用,現代社會已經邁入全

新的大數據時代。掌握大數據資產,進行智能化決策,已成為企業勝出的關鍵。

越來越多的企業開始重視大數據戰略布局,重新定義自己的核心競爭力,從數據中

揭示規律,了解過去、知悉現在、洞察未來,數據驅動企業運行與決策的科學性,構建

智慧企業,打造核心競爭力。

數據的爆炸式增長以及價值的擴大化,將對企業未來的發展產生深遠的影響,數據

將成為企業的核心資產。如何應對大數據,挖掘大數據的價值,讓大數據為企業的發展

保駕護航,將是未來信息技術發展道路上關注的重點。

1.2建設目標

1.2.1總體目標

根據XX公司信息化規劃,遵循“互聯網+”的理念,建設XX公司大數據平臺,

實現XX公司數據資源的集中及整合,構建XX公司統一的數據模型,提高企業數據的

處理效率與共享程度。實現對XX公司企業內部數據和外部數據的分析挖掘,對內對外

提供數據服務。為全網提供決策支持、產品創新、交叉營銷、服務支撐、風險管控以及

流程優化等支撐服務。

XX公司大數據平臺將在Hadoop和云計算等技術的基礎上,對現有量收系統、數

據分析綜合服務平臺的歷史數據、數據模型、報表應用等進行移植,全面整合XX公司

業務數據。數據來源涵蓋XX公司所有的生產和管理系統,并可接入同業及相關市場甚

至互聯網信息,建立從業務層到管理層到決策層的智能分析體系,模擬量化風險和收益,

實現對XX公司各種業務數據進行分類、管理、統計和分析等功能,給各級管理人員提

供各類準確的統計分析預測數據,使其能夠及時掌握全面的經營狀況,為宏觀決策提供

支持;為基層業務人員提供詳盡的數據,供其對各自的工作目標、當前和歷史狀況進行

準確的把握,對業務活動進行有效支撐;滿足XX公司經營管理及決策支持,建設國內

一流,世界領先的大數據平臺。

1.2.2分階段建設目標

?第一階段目標

利用大數據技術,搭建大數據平臺,實現統一數據交換、數據管控、企業級數據分

析、數據可視化展現服務等功能。完成郵務和速遞數據資源的歸集、加工和整理,取代

現有的量收系統,集成現有的數據分析綜合服務平臺,搭建高性能、擴展性強的數據計

算和數據分析環境。建立XX公司統一的數據模型,實現數據的標準化和規范化。對XX

公司各板塊及外部的結構化數據、半/非結構化數據進行采集和存儲,圍繞"服務支撐、

風險管控、流程優化、交叉營銷、產品創新、決策支持"六個重點應用方向進行大數據

成果應用。

?第二階段目標

全方位整合XX公司數據資源,利用專業的數據分析工具,提升數據分析質量與效

率,完善數據分析應用模型及相關指標,深入推廣六個重點應用方向,逐步提供面向移

動互聯網的快速服務,不斷優化生產工作流程,實現降本增效,為科學運營和決策提供

支撐。

1.3與相關系統的關系

1.3.1數據分析綜合服務平臺

數據分析綜合服務平臺是依托XX公司綜合網,實現郵務數據集中及整合,為XX

公司公司和各省分公司提供企業數據分析挖掘服務,對內對外提供數據服務的信息系統。

該系統使用Oracle數據庫,目前數據量已達到9TB,平均日增長量約22GB。目

前該系統已經對接了13個業務系統(集郵系統、報刊系統、電商平臺-機票、網運系統、

郵資封片卡系統、短信平臺、農資分銷系統、賀卡兌獎平臺、營業系統、投遞系統、客

管系統、訂單系統、國際業務平臺),實現了31個省的郵務類數據的上傳及下載。系統

實現將數據由全國中心推送至省中心;實現已有專題分析的固化,包括報刊、約投掛號、

國內國際小包專題分析結果的固化展現;實現將接入系統的數據按照業務規則進行后臺

加載、評估、清洗、重構,并按照客戶維度進行數據整合;提供對內對外數據服務,支

持客戶數據的上傳和結果下載、郵編匹配、地址清洗匹配等功能。

數據分析綜合服務平臺是大數據平臺的子集,數據分析綜合服務平臺的數據是大數

據平臺的數據集市之一。

1.3.2量收系統

量收系統是通過從XX公司生產經營業務系統及其他相關系統中自動采集、匯總、

上傳業務量、業務收入信息(簡稱量收信息),進行稽核、查詢、分析、預警等應用的

信息簿里系統。

該系統使用Teradata的數據倉庫和Oracle的數據庫數據使用空間已接近15TB。

目前該系統已經對接了8個業務系統(速遞平臺、集郵系統、營業系統、訂單系統、報

刊系統、農資分銷系統、郵資機管理系統、電商平臺),止匕外,通過營業系統還接入商

函、國際普郵、電子商務、短信等業務數據。現有使用用戶2.9萬個,提供近500張報

表的查詢,實現XX公司業務量收入的統計分析,為企業的經營管理起到了很重要的作

用,但隨著管理要求的不斷提高,量收系統的能力已捉襟見肘。XX公司大數據平臺建

成后,將替代量收系統。

1.3.3金融大數據平臺

大數據平臺從金融大數據平臺獲取金融客戶、市場營銷等數據分析結果以及相關數

據,與金融大數據平臺互為數據源,用于支撐XX公司郵務、速遞物流和金融板塊對數

據分析的需求。

1.3.4各生產系統

大數據平臺從各生產系統獲取交易數據、基礎數據等,對數據進行分析挖掘,將分

析成果反饋回各生產系統用于支撐生產運營。

1.3.5CRM

CRM系統實現以客戶為中心的XX公司與板塊間的協同管控,以及XX公司各環節

間客戶營銷及服務的協同管理。大數據平臺將實現CRM系統的部分數據分析功能。

2業務需求分析

2.1總體需求

大數據平臺應支持XX公司總部、省和地市三級使用方式。使用單位還包括下屬單

位和控股公司等。大數據平臺要求使用Hadoop系統應實現主流數據倉庫的功能,同

時支持與現有系統Oracle數據庫及Teradata數據倉庫的無縫連接。

大數據平臺需支持多應用管理,即支持對應用的服務級別管理(SLA)<,能夠實現

應用的訪問資源控制,支持資源隔離。同時支持多租戶功能,例如多租戶管理、租戶的

操作員管理、租戶的分等分級分組管理、租戶的度量管理、租戶的角色管理、租戶應用

授權、租戶數據隔離、租戶的資源隔離等功能。

大數據平臺應具有統一運維監控方面,可以圖形化的實現安全管理、用戶管理、監

控運維、服務調度、應用部署、資源管理、作業編排、服務接口等。

大數據平臺應同時支持作業調度管理,即實現統一的作業調度與編排管理功能,支

持使用工作流的可視化的方式對工作任務進行統一編排和調度。同時支持作業的資源管

理、流程管理、任務管理、數據管理、應用管理、租戶管理、多ETL調度任務的部署和

并行處理等功能。

XX公司大數據平臺的建設內容包含:

圖3-1大數據平臺建設內容

重點建設內容包括:

1)基礎平臺建設

2)量收遷移

3)六大重點應用

4)與CRM、綜分、MDM等系統的融合

5)基于大數據平臺的數據應用。

2.2數據管理

XX公司大數據平臺的數據管理,包含數據采集、數據交換、數據存儲與管理(包

含結構化數據管理、半/非結構化數據管理、數據存儲等1數據清洗加工、數據計算和

查詢等方面的內容。

2.2.1數據采集

大數據平臺需要采集各類內外部數據,形式多樣,需支持不同頻度、不同形態的數

據采集。采集方式包含網上數據填報、流方式、批量導入方式、外部數據文件導入、異

構數據庫導入、主動數據抽取、增量追加方式、網上爬蟲方式等,數據形態包括結構化

數據、半結構化數據、非結構化數據。

2.2.2數據交換

與大數據平臺對接的系統很多,這些系統數據庫結構各異。因此,數據交換方面,

需要考慮各類數據格式、各類傳輸頻次的數據導入導出。數據源包括各業務系統數據接

入、互聯網數據采集、合作伙伴系統數據接入、外部臨時數據導入支持等。數據格式主

要包含文本文件,XML等多種方式,傳輸頻次包含非實時、準實時、實時形式。

同時支持數據源管理功能,實現大數據平臺內各存儲區之間的數據交換功能,提供

可自定義的對外數據服務接口能力,同時支持數據接口熱擴展能力。

2.2.3數據存儲與管理

結構化數據管理包括對結構化數據的采集管理、數據加工管理、數據存儲管理、對

外接口、實時監控、安全管理、數據重構等功能。

半/非結構化數據管理包括半/非結構化數據的采集管理、數據內容搜索、數據生命

周期管理、數據加工管理、數據存儲管理、對外接口、混合查詢、實時監控、自然語言

查詢、智能化知識檢索功能。

數據存儲管理功能包括數據分區劃分方式、適用場景、對應計算處理框架、硬件配

置推薦等。同時需要支持多存儲層級,實現數據的多溫度管理,能夠將數據存儲在不同

10讀寫速度的不同介質上。支持對數據生命周期進行管理。支持多種索引模式,具有

索引分析與選擇功能和工具。支持多數據副本管理功能,能夠進行數據平衡、索引平衡

的檢測。支持自動平衡功能和數據自動重分布功能,提供數據平衡和索引平衡的工具。

支持在線變動節點管理功能,支持在線增加、刪除節點時,數據和索引的傾斜探測和自

動平衡功能,保證平滑擴展和性能的線性增長。支持多種數據分區管理、多數據類型管

理、多文件格式管理、數據自定義標簽管理、數據塊讀寫鎖處理、數據文件元數據備份

和恢復,支持數據壓縮、表壓縮功能,節省數據空間。

2.2.4數據加工清洗

支持數據從來源端經過抽取、轉換、加載至目標端的過程。支持多數據源,包括

Teradata、Vertica、DB2、Oracle.Sybase.文本、Excel、Hadoop等數據源。實現

傳統數據庫、數據倉庫與Hadoop以及Hadoop集群之間的數據抽取、轉換、加載等

功能。

支持數據加工功能,提供數據加工規則管理,支持不同形態數據加工管理;

支持數據清洗功能,包括數據清洗環節管理、數據清洗規則管理、數據清洗監控、

數據清洗預覽、應用主數據進行清洗管理等功能。

2.2.5數據查詢計算

支持對多計算框架管理,計算框架包括批處理計算框架、內存計算框架、流計算框

架等。

支持并行計算及并發處理功能,支持多服務器、多CPU、多進程并行及并發處理數

據的機制。

支持PL/SQL存儲過程、分布式事務及ACID屬性及自定義函數功能。

能夠實現OLAP查詢功能,需要內置OLAP函數,支持超大數據立方,支持雪花、

星型等復雜模型。支持CUBE,支持國際SQL92、SQL2003標準,能夠實現數據字典、

動態SQL執行、視圖、子查詢、JOIN查詢功能。

支持全文檢索。支持中文字符集,實現中文分詞功能,支持結構化數據和半/非結

構化數據聯合查詢,支持預定義維度數據查詢,支持簡單查詢、組合直詢、模糊查詢等。

2.3數據管控

數據管控主要是對主數據、元數據、數據標準和數據質量的管控。

XX公司大數據平臺的數據管控組件對XX公司XX公司現有的產品能夠完善集成,

使XX公司元數據能夠整體管理。

郵政元數據

管理系統

CRM

ERP

業務系統

圖3-2大數據平臺數據管控

2.4數據分析與挖掘

本方案對R語言提供支持。支持ANSISQL、Python.R、Java、C/C++等語言的

使用。應提供圖形化界面操作支持,操作界面要求簡體中文。

支持對TB以上級別的數據進行分析挖掘的功能,應對分析挖掘中的中間數據和結

果數據的靈活存儲提供支持,應對多數據來源輸入輸出提供支持。

支持處理過程的數據預覽功能。

支持數據分析挖掘算法管理,每個算法能夠靈活選擇數據源。

支持對分析挖掘的腳本和模型的共享,可實現用戶分析挖掘腳本和模型的發布與管

理。

支持數據的探索和發現,實現通過作圖、制表、方程擬合、計算特征量等手段探索

數據結構和規律。

對統計分析方法、數據挖掘、模型預測提供支持,并實現其分布式并行計算。

對常用場景實現提供支持。場景包括客戶畫像、產品推薦、自然語言處理、語義分

析、輿情分析、文本挖掘、客戶行為預測等。

對分析挖掘的腳本和模型的快速應用、服務提供支持,能夠快速生成分析報告和圖

表、發布實時/非實時的分析應用、使用Web方式訪問分析應用成果。

實現對分析指標管理、分析過程的管理以及對挖掘模型固化的支持。

2.5數據展現

支持多數據來源輸入輸出;

支持表格、圖形、地圖等可視化元素展示,對電子地圖、GPS定位的應用、服務提

供支持。

支持數據互動、過濾、鉆取、刷取、關聯、變換等功能。

支持多維度多種類的自定義。

支持數據脫敏的展示。

支持多種展示端的展示,包括PC端、移動端、大屏等。其中移動端應基于XX公

司移動應用平臺架構建設。

2.6量收系統功能遷移

量收系統主要功能有基本業務分析、渠道分析、產品分析、大客戶分析、欠費分析、

流量流向分析、進銷存分析、預警稽核、系統優化功能等,需要對原量收系統全部功能

進行遷移。

3系統架構設計

3.1總體設計目標

建立XX公司的企業級數據中心,實現XX公司數據資源(結構化、半結構化和非

結構化數據)的歸集、整理、加工和分析,并利用大數據相關技術及數據分析挖掘工具,

建立數據應用模型,為全網提供決策支持、產品創新、交叉營銷、流程優化、服務支撐

以及風險管控等服務,有效地挖掘數據的價值,實現XX公司數據資源的"共享、共用、

共贏“O

3.2總體設計原則

(-)標準化:本系統采用的技術架構均遵循網絡協議和傳輸標準的要求,

相關開源及原創技術均符合國際技術組織條款規范。提供文檔標準化,滿足

GB8567-1988.GB/T11457-89的行業標準;

(二)可擴展性:由于用戶以后的需求會不斷發展,使用人數將隨之擴大,

業務壓力不斷上升,只要橫向擴展增加服務器臺數,不用添加其它附加設備,以保

證用戶的原投資被利用。

(=)可用性和可靠性:我們的方案在充分考慮用戶實際情況的基礎上,選

用F5作為負載均衡器,采用了Weblogic作為Web應用容器,操作系統采用紅旗

版Linux,從而減少了其它因素造成的故障。

(四)易用性:該系統使用界面良好,用戶無需安裝客戶端軟件,只需通過

IE瀏覽器就可進行實時操作,同時系統架構設計優良,可以很方便進行系統升級。

(五)開發式結構:該系統內置"數據交換適配平臺"可以與第三方系統相

融合,可以讀取第三方系統的相關數據,可以為第三方系統提供其需要的相關數據,

提供標準的WebService接口,具有開放式結構。

(六)完善和可靠性:具有設計獨到的功能使用及數據訪問權限控制,保證

統一、規范管理,支持3DES和RSA加密技術,使數據存儲和傳輸安全牢不可破。

系統具有錯誤故障日志記錄功能,便于快速診斷定位問題。

(七)實時性:該系統支持負載均衡技術,及時響應多人實時并發操作。

(A)先進性:基于統一的整體架構,采用先進的、成熟的、可靠的技術與

軟硬件平臺,保證數據倉庫系統易擴展、易升級、易操作、易維護等特性。

(九)高效性:線性擴展的TDH的數據倉庫平臺,保證了ETL時間的窗口

以及查詢效率,數據抽取的特殊性,通常在夜間業務稀少的情況下進行數據抽取,

減少了對其他系統的影響。

(十)正確性:數據質量貫穿數據倉庫系統建設的每個環節,數據倉庫系統

通過合理的數據質量管理方法論保證數據質量。

3.3系統總體架構設計

3.3.1總體技術框架

大數據平臺是一個可擴展的數據平臺,全面整合XX公司業務數據,建立從業務層

到管理層再到決策層的XX公司數據智能分析體系,使經營者能夠及時掌握全面的經營

狀況,迅速做出科學決策。

4-12總體總體結構圖

參見上圖,XX公司大數據平臺主要分成六大部分:

I、用新技術建設XX公司大數據平臺,在平臺上構建XX公司企業級的數據倉庫;

2、建立統一的數據采集加工平臺,供大數據平臺從各業務系統及外部環境采集、

加工、清洗、爬取數據;

3、數據管控平臺,為大數據平臺提供主數據管理、元數據管理、數據質量管理、

數據標準管理、數據安全管理等服務;

4、企業級數據分析平臺,主要用于經營分析和決策支持;

5、數據可視化展現平臺,包括:可視化交互查詢、圖表展示、移動展示、地圖展

示、管理駕駛艙等;

6、數據分析與挖掘平臺,包括:并行化算法模型庫、數據分析挖掘工具等。

用戶終端接入

Web瀏覽器移/端APP郵件席信/曲信

通信網絡

郵合網Internet寬帚接入移動互聯網WiFi無線局域網

數基礎功能服務&應用擴展服務

運營意亶廠數盤巍、應用管直一系

管決策3潸、風險雌、流程優化

內容管理、析、元旌霞服務支建、交叉產品創新統

準應用支撐平臺&大數據分布式計算和存儲服務

范報表&分忻工具加停法|大數據分布式計算&存儲服務

體ESB&ETL平臺]|認證&鑒權

J2EE平臺&Spring框架

關系數據庫星慈薪■分布式文件系統

分布式容器集群管理系統-輕量級的服務器慮擬化資源池

容器資源調度應用部署運行||服務注冊/發現||徹T?縮||均衡容災

中國郵政數據中心-硬件設備

服務器設備網絡設備I負載均衡器I

4-13總體技術框架圖

參見上圖,XX公司大數據平臺系統總體技術框架,自下而上主要包含六層:

1、硬件設備層

部署于XX公司數據中心機房的服務器設備、網絡設備、存儲設備、負載均衡

器、VPN/防火墻等硬件設備;

2、虛擬化資源層

基于分布式容器集群管理系統構建的服務器虛擬化資源池,可為各類應用、分

布式計算和存儲服務組件提供多租戶的容器資源分配及調度管理、應用打包部署及

運行、服務注冊和發現、動態擴縮、均衡容災等資源管理服務。

3、應用平臺層

為大數據分析應用的開發、測試和運行提供平臺支撐,主要包括:J2EE應用服

務平臺和Spring框架、報表和分析展現平臺、并行化算法模型庫、ESB服務總線

和ETL數據集成平臺、身份認證和訪問控制組件、全文檢索組件等。

大數據分布式計算和存儲平臺組件,主要包括:分布式列存儲數據庫、分布式

文件系統、SQL引擎、實時流處理引擎、聯合查詢引擎、并行化R算法執行引擎、

全文檢索引擎、分布式批處理計算引擎(Hadoop/Spark/MapReduce)以及任務

調度與監控等組件。

4、應用服務層

基于應用支撐平臺及大數據分布式計算和存儲服務平臺,定制開發各類應用服

務,主要包括:經營分析和決策支持、數據管理、內容管理等應用。

5、通信網絡層

外部用戶可通過Internet互聯網(含移動互聯網)接入訪問已授權的相關應用

服務;XX公司內部人員可通過XX公司綜合網接入訪問內網應用服務。

6、終端接入層

系統用戶可通過PCWeb瀏覽器、移動終端(智能手機、平板電腦等)訪問相

關的應用服務。平臺支持電子郵件、手機APP、微信和短信等交互。

系統總體技術框架還包含:大數據管理標準規范制訂、統一安全運維管理系統集成

及相關管理規范制訂等。

3.3.2系統總體邏輯結構

,企業■日移動終端

大屏

卡門戶5.APP曲信..

經營分析和決策支持應用服務&可視化展曬件

即挹豆報朝作溫OLAP純查取iGISit蛔現

tWebServices

JSON|JDBC/ODBC

現有業ESB服務.,聯合查詢SQL引擎分布式內存數倉建模

*■■>

務系統總線平臺StargateInceptorSQLOLAPCube管理工具

*

運維管-iicr:

流處理引擎分析挖

理系統全文檢索引擎

Spark-ElasticSearch堀工具

Streaming/

并行化R算法I:________

/任務調

>分布式消息

度引擎

隊列kafka批星處理引擎

MR&PI/SQL

網絡爬蟲數據管控平告ESB

iRIS元代數據管理一S&

「二

/-------

各業務CRM金融大數其他業元數據主數據

據平臺務系統管理系統管理系統

4-14系統總體邏輯結構圖

參見上圖,基于Hadoop構建的企業級數據倉庫,包含:分布式列式存儲數據庫

Hyperbase和分布式文件系統HDFS。通過數據集成及ETL平臺,采集XX公司現有業

務系統(CRM、ERP、寄遞平臺、金融大數據平臺等)數據,經清洗、轉換、加工后將

數據批量加載到數據倉庫。通過分布式消息隊列(Kafka)和流處理引擎(Spark

Streaming),可實時采集處理流數據(如:網站點擊流數據、實時事件流數據等);流

處理引擎可通過SQL接口將流數據實時加載至分布式內存或分布式數據庫中。通過互

聯網數據采集軟件(iRIS)可采集互聯網數據(網站、SNS等),并經加工處理后導入

數據倉庫。本系統還支持在線填報、報表文件上傳等數據采集方式。

結構化數據導入數據倉庫后,可通過PL/SQL腳本和Hadoop/Spark批處理引擎

進行數據關聯操作和匯總加工處理;半/非結構化數據導入數據倉庫后,可通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論