




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據技術體系建設一、編制說明內容。數據匯聚是組織內的各類數據進行采集并處理的過程。主要目標要實現對結構化業務數據和非結構化數據的抽取、清洗、轉換和存儲。主要關鍵技ETLAPI等。大數據框架負責對數據系統中的數據進行計算,很多大數據框架已經通過Storm實時大數據計算,Hadoop離線大數據計算,Spark并行大數據計算,阿里云數據倉庫解決方案等。大數據存儲是將數量巨大、難于收集處理分析的數據持久化到計算機中。括傳統數據倉庫,MPPHadoop的技術擴展和封裝,大數據一體機等。大數據分析是指對數據量大、速度快、類型多、價值低的數據進行分析。主要目標是實現對數據資源的分析和利用。主要關鍵技術包括傳統BI、OLAP產品,可視化報表,數據挖掘,大數據畫像,大數據模型構建和預測等。其他相關內容,請補充。二、編制內容建設現狀現狀總體架構環評應用 監測應用 監察應用 應急應用 網站應用環評應用 監測應用 監察應用 應急應用 網站應用部領導 局機關與直屬單位 地方環保部門其他大數據管理平臺大數據綜合展示大數據資源目錄大數據智能檢索 大數據空間專題展示 大數據專題展示管控數據操作臺數據并行分析計算大數據分析支撐系統作業調度與集群管理模型算法數據大數據建設 監控臺安全與保密業務主題庫污染源主數據元數據庫文件其他關系型數據庫NOSQL時序數據庫分布式文件系統數據服務臺標準規范數據集成與整合系統環保內部數據數據源環保外部數據其他數據環保云平臺圖錯誤!文檔中沒有指定樣式的文字。總體架構行業云平臺大數據管理平臺建設完成后將按照生態環境大數據建設項目總體要求,部署在行業云平臺上。數據集成和整合系統數據源包括行業內部數據、外部委數據以及其他互聯網數據,統一規范各業務數據接入,實現數據抽取、數據校驗及錯誤處理、數據清洗轉換及加載、空間及業務對象關聯等數據集成工作,為各業務應用提供高質量的數據應用。數據庫建設NOSQL數據庫、量數據存儲管理。大數據分析支撐系統BI,利用現有的報表工具實現。大數據資源管控接口,能夠提供內、外部的數據共享服務。大數據綜合展示務。標準規范建設存在問題物理架構物理架構問題描述存儲問題存儲問題存儲設備空間不足,日常備份完成后,需要將數據備份文件剪切到移動存儲上,保證資源中心存儲量的正常使用。硬件設備不穩定例如:資源中心從監測總站抽取數據時,總站的服務數據存儲層器經常出現硬件故障,有時一個月5次損壞,造成數據交換不穩定。故障恢復時間長例如:監測總站服務器出現故障后,因資源中心沒有權限運維該部分服務器,我們只能及時聯系對方,對方排查問題,修復,這一過程時間較長。資源中心目前為目前資源中心應用是單節點部署,架構未采用集群方應用層單節點應用式。規劃對標重點任方案 任務點 說務
任務完成情況生態合共享環境大數據建設總體方案統籌建設大數
能力。
式,提高對大氣、水、土壤、生種污染源全面感知和實時監控能保數據及時上報和信息安全。大數據管理平臺是數據資源傳輸交換、存儲管理和分析處理的平臺,為大數據應用提供統一的數據支撐服務。主要實現數據傳輸交換、管理監控、共享開放、分析挖掘等基
建設大數據管理平儲能力。據平臺 臺。
本功能,支撐分布式計算、流式數據處理、大數據關聯分析、趨勢分析、空間分析,支撐大數據產品研發和應用。
上持續建設。未來規劃建設目標型支持能力,為各類大數據應用建設政府科學決策提供支撐持依據。建設內容1、服務節點和基礎存儲能力升級:升級現有平臺,擴展相應管理節點、存儲節點、接入節點、應用節點,實現2PB的存儲量。2、升級大數據管理平臺:提升大數據存儲管理能力,擴展大數據彈性分析引擎、大數據彈性流處理引擎、大數據彈性計算引擎、大數據統計查詢引擎、大數據檢索引擎,為大數據匯集、分析做好支撐。3、開發大數據支撐服務平臺:增加大數據分析支撐服務能力,包括基礎組織支持、大數據分析支持、大數據可視化支持、大數據運維模型支撐等內容,為業務應用分析做好支撐。4、平臺非功能性建設:從高可用、安全、可擴展行、性能上進行整體設計及升級。建設方案總體架構如圖總體架構總體架構主要包括以下幾部分,其中標識紫色的部分是現在已搭建部分功能,紅色部分是現在已初步建成,其余為后續陸續建立。大數據平臺大數據平臺包括生態大數據湖、一體化分析引擎、一體化查詢引擎、一體化檢索引擎、自動化運維五部分,平臺基于大數據技術搭建,實現環境信息資源中心基礎支撐能力。現已初步建立一體化查詢引擎、一體化檢索引擎。數據采集接入數據源包括行業內部數據、外部委數據以及其他互聯網數據,統一規范各業務數據接入,實現數據抽取、數據校驗及錯誤處理、數據清洗轉換及加載、空間及業務對象關聯等數據集成工作,為各業務應用提供高質量的數據應用。數據治理與深度融合數據治理與深度融合包括大數據治理、大數據融合、數據資源綜合監控、數據資產評估。現在已初步形成數據資源綜合監控,正在進行可視化升級。訪問服務、分析服務、功能服務平臺支持三種數據服務,現階段只初步實現了業務數據訪問、目錄數據訪問及部分專題數據訪問功能。生態環境大數據資產服務目錄現已建立基于環境業務、組織機構、環境要素、業務系統四大目錄分類,初步形成大數據資產服務目錄。后續需要在目錄分發、目錄審核等方面持續升級。技術架構web層。其中采集層、存儲計算層主要是基于hadoop和docker的技術體系,webj2ee技術體系實現。接口層技術協議(REST,JavaSDK,JDBC)接口層技術協議(REST,JavaSDK,JDBC)數據協議(XML,JSON,Binary)JqueryJspNodeJsReactHtml其他web應用層應用支撐(報表工具,在線查看工具)應用服務器(Tomcat)分布式計算引擎(R,MR)時序數據查詢引擎SQLonHadoop引擎IMPALA/HIVE環保快搜Solr元數據存儲資源調度框架(YARN)存儲計算層(mysql)序列化(Avro)時序數據 NoSQL數據 并行計算框架倉庫 庫(hbase) (MapReduce)列式存儲(Parquet)關系數據庫DB2分布式文件系統(HDFS)實時流計算(Storm)分布式程序協調(zookeeper)采集層分布式消息隊列(Kafka)ETL工具(關系型數據、文件)中間庫層關系數據庫(DB2)文件系統ETL推送中間庫層關系數據庫(DB2)文件系統ETL推送數據源層關系型數據文件數據流數據權限管理集群管理元數據管理任務管理模型庫管理平臺管理數據監控hadoop的大數據存儲和分析大數據的存儲與計算采用基于或圍繞hadoop衍生擴展而出的相關大數據hadoophadoop來實現對結構化、半結構化、非結構化大數據存儲、分析的支撐。docker技術的系統部署dockerdocker是一個開源的應用容器linux相互之間不會有任何接口。j2eeweb應用j2ee技術體系具有跨平臺的特性,j2eeB/S架構,利用成熟的開發平臺,進行功能層面的開發。重點系統層介紹:采集層etlkafkastorm這些數據具有數據量大、實時性高等特點,比如:環境質量監測數據;etl工具將db2etl工具處理。存儲計算層dockerhadoophadoop的各docker容器安裝的,這樣有利于資源的隔離和維護。stormozookeepehdfshadoop體系hbasehadoopyarnhadoop中mapReduceR語言,sqlonhadoopimpala、hive開源框架。web應用層webj2eeB/Stomcat,j2ee開發;文檔在線查看工具是通過開源工具aspose轉換為pdf或者html,然后瀏覽器通過pdf瀏覽插件或瀏覽器自身進行查看。最上層采用jsp,html,jquery等進行實現頁面展現與交互。物理架構DMZDMZ政務網業務應用數據庫故障轉移集群關系型數據庫集大數據集群OracleRACU3管理節點流處理節點 搜索節點應用節點業務1業務2U3負載均衡業務3業務4Node1 Node2數據節點N…核心交換機 核心交換機業務...業務nNode... NodeN文件服務器故障轉移集群數據交換集群JobTracker防火墻文件服務器故障轉移集群數據交換集群JobTracker負載均衡業務應用緩存服務集群業務1業務2TaskTrackerSlaveTaskTrackerWEB服務器業務3業務4MasterU3U3業務...業務nSlave政務網區:物理機(見上圖淺綠色部分,其余節點均可為云虛機。OracleRAC設備上。大數據平臺采用分布式集群部署,在其基礎之上提供的WEB應用采用Nginx(單活)做負載均衡。Nginx(單活Tomcat群。數據交換采用分布式集群部署。文件服務器采用兩臺云虛機,采用故障轉移集群(單活專用存儲設備上。緩存服務器提供數據緩存和緩沖的功能,采用集群部署。DMZ區DMZ區全部由云平臺提供云虛機。本區域的業務應用多為第三方廠商提供,不做具體規劃。本區域的文件服務器、數據交換集群架構同專網區域。數據存儲在專用存儲設備上。大數據管理平臺配置需求角色大數據管理平臺配置需求角色類型型號個數備注整機需求數量cpumasterIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10104GB緩存10Gb光口雙端口IntelE5-2697V4或2個內存系統盤數據磁盤16個24raid1),雙電2raid網卡2個cpu2個批處理/存儲節點(系統盤做數據盤做單盤 20raid0或無raid),雙電內存金牌614032GDDR48個batch 系統盤SASSSD480GB2個數據磁盤SASSSD1.92TB4個數據磁盤SAS/SATA720012TB8個raidraidRaid10104GB緩存網卡10Gb光口 雙端口2個cpustreamIntelE5-2697V4或金牌614032GDDR4SASSSD480GBSASSSD1.92TB支持Raid10106GB緩存2個內存系統盤數據磁盤828流處理節點(系統raid1,數據raid0無raid),雙電4raid網卡10Gb光口 雙端口2個cpuIn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 特殊教育支持系統行業跨境出海項目商業計劃書
- 民間知識保護AI應用行業跨境出海項目商業計劃書
- 小學道德與法制教育評價體系計劃
- 基于深度學習的分數規劃算法研究-洞察闡釋
- 智能風能發電系統設計與優化-洞察闡釋
- 2025年電力行業安全生產培訓計劃
- 部編版一年級下冊語文教學評價計劃
- 礦業廢棄物資源化-第2篇-洞察闡釋
- 車庫租賃與停車場綜合管理合同
- 倉儲物流倉房買賣及增值服務合同
- 河道景觀設計合同范本
- 海外倉合同范本
- 2024婦科惡性腫瘤抗體偶聯藥物臨床應用指南(完整版)
- 2024-2029全球及中國電氣電子中的CFD行業市場發展分析及前景趨勢與投資發展研究報告
- 中國法律史-第三次平時作業-國開-參考資料
- 懸挑腳手架及卸料平臺監理旁站記錄表
- 神志病中西醫結合臨床診療指南-精神分裂癥
- 人教部編版六年級語文下冊第五單元(教案)
- 國有企業經濟責任審計工作方案-全套
- 馬拉松安保方案
- MOOC 電工學-西北工業大學 中國大學慕課答案
評論
0/150
提交評論