




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
信息資源服務(金融云)大數據平臺建設方案第34頁共68頁大數據平臺建設方案2015年4月目錄1 項目概述 41.1 項目背景 41.2 建設目標 41.3 建設原則 51.4 建設思路 51.5 建設內容 62 需求分析 72.1 現狀分析 72.2 數據分析 82.3 需求總結 103 技術方案 113.1 設計原則 113.2 設計思路 123.3 架構體系 143.3.1 整體架構設計 143.3.2 技術架構設計 153.3.3 網絡拓撲架構 173.4 數據流向 193.5 建設內容 203.5.1 前置系統 203.5.2 ETL平臺 203.5.3 數據倉庫 213.5.4 統一數據服務接口 243.6 技術選型 263.6.1 MPP數據庫 263.6.2 Hadoop平臺 283.6.3 傳統數據庫 313.6.4 傳統ETL 313.6.5 云化ETL 313.6.6 混搭架構融合管理 323.6.7 數據集成 373.7 產品選型 403.8 配置清單 423.8.1 軟件配置清單 423.8.2 硬件配置清單 423.8.3 MPP數據庫配置部署 433.8.4 Hadoop集群配置部署 444 方案優勢特點 464.1 混搭架構的大數據平臺 464.2 數據資源統一管理、高度共享 464.3 海量數據低成本存儲管理 464.4 高可用、動態擴展 474.5 深度精細化的業務數據支撐 475 大數據區金融應用推薦建設 475.1 金融云大布控及大搜索建設 475.2 視偵系統 475.3 經偵實戰化情報分析 476 附錄一:H3CDataEngineMPPCluster產品簡介 486.1 系統技術架構 496.2 系統技術特點 516.3 系統功能簡介 526.4 H3CDataEngineMPPCluster工具 536.4.1 圖形化企業管理工具 536.4.2 圖形化監控工具 536.4.3 數據備份/恢復 556.4.4 gcadmin工具 566.4.5 數據重分布工具 566.5 系統核心技術 566.5.1 MPP+SharedNothing架構 566.5.2 列存儲 576.5.3 高效的透明壓縮 586.5.4 高可用 596.5.5 高并發 596.5.6 高性能在線擴展 626.5.7 高性能數據加載 636.5.8 OLAP函數 656.5.9 行列混合存儲 656.5.10 智能索引 656.5.11 全文檢索 666.6 系統運行環境 666.6.1 網絡環境 666.6.2 硬件環境 666.6.3 操作平臺 666.7 系統開發接口 676.7.1 H3CDataEngineMPPClusterODBC 676.7.2 H3CDataEngineMPPClusterJDBC 676.7.3 H3CDataEngineMPPClusterADO.NET 686.7.4 H3CDataEngineMPPClusterCAPI 687 附錄二:H3CDataEngineHDP產品簡介 69項目概述項目背景XX“XXX”經過多年建設,取得了較大成績,有力支撐了業務工作開展,促進了工作體制機制變革。XX信息化的高速發展積累了豐富的業務數據,種類不斷豐富、結構不斷異化、總量急速增長,行業的大數據體系已初見雛形。目前,省內各級機關快速積累并不斷增長的信息數據已成為繼警力資源、裝備資源之后的新一類核心資源。如何快速挖掘其內在價值,轉化為現實戰斗力,在更高更深層次服務保障工作開展,已成為XX信息化迫切需要解決的關鍵問題。當前,伴隨著XX信息資源的快速增長,數據質量不高、處理能力不強、標準規范不足、專業應用不深等問題開始全面顯現,迫切需要以新的思路、新的方法、新的技術,逐步解決數據資源海量化、異構化,應用需求多樣化、復雜化等現實問題。為強力推動“大情報”工作建設,打牢“大情報”系統根基,做強情報信息數據支撐,強化實戰應用效能,按照部、省廳“大情報”體系建設的要求,XX著力建設信息資源服務平臺。該平臺以解決當前面臨的具體問題為出發點,以云計算、大數據等新技術為關鍵支撐,以服務實戰應用為根本目標,逐步建立信息化新的技術架構、開發模式,強化信息資源梳理整合,建設便捷高效的應用功能,有效構建信息資源應用服務新體系。建設目標基于云計算、列存儲、大規模并行處理(MassivelyParallelProcessing,簡稱MPP)、Hadoop等先進技術與理念,構建XX信息資源服務平臺的數據資源服務支撐體系。開發結構化、半結構化和非結構化三類信息資源,建立具有海量數據處理能力的大數據平臺,健全數據采集渠道,增加信息總量,加強統籌規劃,改善內容結構,加大整合力度,統一標準規范,初步形成大數據統一存、管、用系統框架。有效匯總整合內外部數據資源,實現對數據資源的統一管理、高度共享和高效利用,解決數據資源海量化、異構化,應用需求多樣化、復雜化等現實問題,進一步提升信息資源開發利用水平,提升信息資源服務的能力和服務品質,深層次滿足上層業務應用、管理決策支持和信息再生應用的需要,達到強化情報信息數據支撐,服務實戰應用的目的。同時,在平臺不斷成熟發展的過程中,形成配套的管理機制,平臺也將進一步向下開放,從而實現合理調整警力、科學配置資源、改進金融模式的目的,進而逐步建立一套與形勢發展相適應的現代金融新機制,使機關指揮體系、情報研判及工作機制更加適應未來信息化建設的要求。建設原則本項目要從項目建設所采用的技術、建成后系統的特性等幾個方面充分考慮項目建設原則,具體如下:先進性與前瞻性原則——項目需采用先進、成熟的技術,并兼顧數據分析系統未來的發展要求。實用性和擴展性原則——系統功能實用,操作簡便,運行快捷,并具備良好的可擴展性。可靠性和穩定性原則——系統設計要保證軟硬件及網絡系統等均符合系統可用性使用要求,保障系統可靠、穩定運行。統一性和標準化原則——系統開發各項功能必須遵循國家信息化建設標準,實現系統的統一性和標準化。建設思路項目在建設中將遵循如下設計原則:1、以數據為核心XX信息資源服務大數據平臺的建設核心是對來源廣泛、海量化、異構化的數據進行全面的匯集整合,并在此基礎上實現數據的關聯挖掘。能否最終建設形成一個信息量豐富、實時性強、來源可靠的信息庫,決定了系統最終上層應用的功能,也決定了系統能否持續發展、能否對周邊系統提供有力的支撐。2、以平臺為基礎基于平臺面向各警種部門的上層應用建立數據統一存、管、用的生態環境,一方面實現數據資源的統一存儲、統一管理和高度共享,另外一方面提供統一的數據資源服務接口,實現數據和服務的高效利用,基于平臺形成一個生態體系,繁榮信息化。3、注重持續發展項目的建設不是要完全替換現有的數據和系統,而是在現有基礎上,充分利用已有的成果,經過對現有數據的再分析和深度挖掘,產生新的有價值信息,滿足應用需求多樣化、復雜化的需求。項目不但要利用現有項目的成果,而且還要將自身的成果提供給其它系統使用。4、側重創新XX信息資源服務大數據平臺是一個具有創新性的平臺,其以云計算、MPP、Hadoop等新技術為關鍵支撐,以服務實戰應用為根本目標,逐步建立信息化新的技術架構、開發模式,強化信息資源梳理整合,建設便捷高效的應用功能,有效構建信息資源應用服務新體系。建設內容根據項目需求,本期項目需要建設能夠支撐信息資源服務平臺,對數據、社會數據和互聯網數據進行整合和統一管理的的大數據平臺,并通過對大數據的分析,成功有效地完成決策支持,推動各業務的有序運行。整個信息資源服務大數據平臺的建設內容主要分為四部分:前置系統、ETL平臺、數據倉庫和統一數據服務接口。需求分析根據當地時間遇到問題、數據內容、新需求來進行分析。需本地修改。根據當地時間遇到問題、數據內容、新需求來進行分析。需本地修改。按照橫向物理整合、縱向邏輯集成的總體思路,基于XX各類業務應用系統生產的業務數據、社會面采集的各類人、財、物的流動及管理數據、互聯網應用產生的各類實名數據,通過整合匯聚和服務集成,建設形成信息服務綜合資源庫,通過對該庫中各類數據的關聯分析和深度挖潛,為各類業務應用提供諸如同案分析、串并比對、研判布控等復雜分析功能,為一線實戰提供更為豐富的信息資源應用服務。現狀分析經過長期的實際應用,XX信息資源庫無論是在數據資源利用以及對外提供數據服務,還是在管理運維中的問題,也逐漸的顯現出來。隨著信息化建設工作的不斷推進,越發成為制約整個工作發展的瓶頸,也漸漸暴露出數據資源、手段建設等沒有充分利用等問題,導致在實際工作中實戰效能不高,一定程度上影響了手段作用的發揮,具體問題如下:1、信息資源的開發和整合力度不夠,共享程度低從總體看,目前已有的采集渠道基本沿襲傳統模式,信息源少、覆蓋面小、代表性不強;統計周期長,信息時效性差;大量的信息處于部門所有、相對封閉的分散狀態,缺乏有效整合,共享程度低。這種狀況在宏觀上難以為決策層提供有力的支撐,微觀上難以為各警種業務提供有效的信息引導。2、無法實現跨域數據的融合匯總和管理XX信息資源服務平臺涉及面廣,信息源寬泛,不僅涉及八大基礎庫等結構化業務數據,還包括從民政、工商等部門交換來的社會數據,以及微博、微信、網頁、論壇等互聯網數據。大數據時代,XX急需構建信息資源服務大數據平臺,實現對各類業務多樣性的海量信息進行一致性管理,為上層業務應用和數據挖掘提供基礎支撐。3、資源服務能力差,海量數據的管理和服務存在瓶頸基于各警種部門業務對數據資源的需求,這要求一方面要提供高效的數據資源服務,另外一方面要提供靈活多變的業務資源服務。而目前現有系統面向業務操作OLTP場景,面對來源廣泛、類型各異的海量數據,現有系統無法有效的存儲和管理,特別是面對大數據對象的深度解析和關聯處理,以及海量的半結構化數據和非結構化數據處理,無法實時高效的檢索出關鍵信息,現有系統的數據資源服務能力已經阻礙了基層民警業務實戰應用。4、決策、管理和服務職能缺乏有力支撐隨著大數據時代的到來以及XX信息化的發展,對于海量業務數據的處理需求驟然增加,但沒有建立起完善的以大數據平臺為核心的決策支持系統和管理服務系統等系統,各業務的決策、管理和信息服務缺乏現代信息技術支持手段,無法滿足各業務的實際需要。數據分析數據的屬性或特征從不同角度看有不同的特點,可以按照如下不同的分類方法進行歸類:按數據類型分類中既包含結構化數據,又包含半結構化數據和非結構化數據。結構化數據:系統中包含八大基礎庫等業務數據,以及從民政、工商等部門交換來的社會數據。半結構化數據:業務系統等產生的大量的網頁、word、pdf、xml、報表等數據。非結構化數據:業務系統中存在大量的監測音視頻、圖片、文檔、文本等數據。按數據應用類型分類數據應用類型分為:事務型操作、分析型操作。事務型操作:指主要進行增加、刪除或修改操作,這類的應用主要是業務系統中的操作。分析型操作:業務中還有一部分操作室進行大量的查詢、統計,即為分析型操作,分析類操作又分為關系型操作和非關系型操作。關系型操作對關系型數據進行復雜的關聯查詢、統計;非關系型操作基于非關系型數據按照關鍵字進行內容分類檢索。按數據價值密度分類數據按照其價值密度分為:高價值密度數據和低價值密度數據。高價值密度數據:在的警員、刑偵等業務系統中產生了大量的具備高使用價值的結構化數據,在各業務系統中被精確頻繁的使用,這些數據位高價值密度數據。低價值密度數據:業務系統中會產生大量的監控音視頻、抓取圖片等非結構化數據和網頁等半結構化數據,以及在監測、登記等業務中大量的日志類結構化數據,但是價值松散,這類數據是低價值密度數據。按數據職能分類數據按數據職能分為:基礎數據、統計數據、交換數據、共享數據和管理數據等。基礎數據:指業務采集或產生的的基礎信息,包括警員、在逃人員、出入境等基礎業務數據。統計數據:為了實現數據統計、快速查詢、綜合分析,將基礎數據按照數據倉庫模型進行組織而產生的數據,主要指針對專題產生的統計結果信息及匯總信息等。交換數據:指從民政、社保等外部單位交換采集的社會數據。共享數據:根據必要的訪問權限和數據密級,供內部或外部人員或單位訪問的數據。管理數據:主要包括運維管理數據、交換管理數據、工作流配置數據、規則數據以及系統運行監控數據等,在系統運行過程中產生的,用于維持系統正常運行而產生的數據。需求總結XX金融工作需要逐步建立一套與形勢發展相適應、面向各業務、具有海量數據處理能力的大數據平臺,深層次滿足上層業務應用、管理決策支持和信息再生應用的需要,使機關指揮體系、情報研判及工作機制更加適應未來信息化建設的要求。具體需求如下:1、數據整合共享需求:面向多信息資源源頭以及多種數據,需要合理布局資源結構,并按照統一的標準體系,匯總整合內外部結構化數據、半結構化數據以及圖像、視頻等多種類數據信息,對各類業務多樣性的海量信息進行一致性管理,形成統一、高性能、高可擴展、高可靠的綜合大數據平臺,為上層業務應用和數據挖掘提供基礎支撐。2、海量數據存儲管理需求:信息資源服務平臺的數據主要包括八大基礎庫等業務數據,從民政、工商等部門交換來的社會數據,以及微博、微信、網頁、論壇等互聯網數據,現有的傳統的數據存儲系統不能解決數據規模日益增長的問題,因此對海量數據存儲管理有迫切需求。3、高效即席查詢需求:采用新型數據庫對海量數據進行存儲,并提供SQL查詢語言對各類業務統計信息進行快速查詢,從而提升業務處理效率。4、數據分析性能需求:隨著數據量的不斷增加,需要數據平臺具備線性擴展能力和強大的分析能力,支撐不斷增長的數據量,滿足未來性各類業務工作的發展需要,確保業務系統的不間斷且有效地工作。5、大數據分析挖掘需求:目前的管理方式正在從“業務驅動”向“數據驅動”轉變,各管理部門迫切需要掌握業務基礎概況、發展狀況、發展歷史和發展趨勢等,從而更好的引導各項業務合理發展。目前,這些數據的獲取沒有完整的解決方案,現有系統只能統計分析出部分數據報告,并且在運用數據發現網絡活動內在規律的時候,往往力不從心,迫切需要運用大數據技術,分析挖掘“潛在”價值,幫助政府相關部門準確決策、合理調配資源。6、海量數據快速全文檢索需求:為提高用戶查詢、檢索信息的速度與靈活性,實現人、案、物全息搜索以及關聯搜索,需要大數據平臺提供海量數據快速全文檢索服務,滿足各警種情報分析與案件辦理等的需要。技術方案設計原則項目在開發的過程中應注重實用性、易用性和安全性的要求。切實把握各類業務工作的特點和未來發展的方向,使平臺能夠充分發揮效用,為相關業務人員和管理人員提供準確的指導和有價值的決策參考依據。XX廳信息資源服務平臺中的數據和信息屬于涉密范疇,系統應注重安全性要求,充分考慮信息防泄漏、防盜取的問題。先進性和實用性信息資源服務大數據平臺所采用的技術具有先進性和實用性。即采用的存儲設備平臺、服務器主機平臺、系統軟件平臺及相關應用系統平臺所采用的技術應符合當前技術發展的方向。與此同時,為了保證系統的穩定性,在采用先進的技術的同時考慮到成熟技術的性能,以保證在系統建設過程中采用的能跟蹤先進的技術的同時兼顧項目的可實施性。可靠性信息資源服務大數據平臺穩定、可靠,具備高可用性,能夠滿足“數據集中”系統業務的要求。大數據平臺的可靠性同時也包括系統所具有的具體功能、系統所能支持的大數據容量和在復雜的運行環境里穩定、可靠地運行,在出現異常的情況下,系統具有相應的規避措施等,保證系統服務的不間斷運行。可擴展性隨著信息資源服務平臺的實施,各類信息數據不斷地增多和業務應用系統的覆蓋面的不斷擴大,大數據平臺將承擔更大的數據管理和數據支撐任務,為此,系統平臺必須提供足夠的擴展能力以滿足將來業務增長的需要。其主要表現在在業務和數據系統需要擴展空間時,只增加相應的硬件,不用改動整體的架構,實現容量和性能的線性提升,同時,新增的硬件可平滑地接入正在運行的系統。易管理性由于信息資源服務平臺所服務的對象的廣泛性,以及應用系統的復雜性,因此,為保證信息資源服務平臺工程的順利實施,在大數據平臺建設時充分考慮這些特點。大數據平臺用戶界面友好,各項功能使用簡單、方便、快捷。系統配置和管理體現圖形化、直觀化,盡量避免復雜的系統配置文件。可管理性充分體現在系統軟、硬件平臺的管理工具應提供豐富的、圖形化的管理工具,以便于管理及系統問題的判斷。安全性考慮到各類業務工作會涉及到諸多敏感及涉密信息,系統需要具備信息安全防護機制,防止信息泄漏和惡意入侵,保障信息數據的私密性和安全性。信息資源服務大數據平臺運行系統的安全性包括硬件平臺的安全、系統安全、業務應用系統的安全和網絡通訊的安全。大數據平臺建設首先遵循安全可靠的原則,最大可能減少因信息基礎設施故障而造成的業務無法正常進行的現象的發生;同時,建設中注重信息安全體系的建設,提高數據的整體安全性,進一步保證數據安全。設計思路當前,XX積累了豐富的業務數據,數據種類不斷豐富,數據總量急速增長,數據資源呈現海量化、異構化等特點,行業的大數據體系已初見雛形,迫切需要以新的思路、新的方法、新的技術,逐步解決。XX信息資源服務大數據平臺整合優化內外各類信息資源,形成基礎資源庫,并在基礎數據資源庫建設的基礎上,通過二次抽取、索引化整合、邏輯關聯等方式,建設形成應用服務資源庫。一是實現基礎數據資源的關聯融合,對不同來源、不同類型的基礎數據,按要素提取關鍵字段,建立要素內的關聯關系;二是實現專題應用數據的整合建庫,按照業務應用具體需要,基于專業應用業務模型,通過二次抽取整合的方法,建立專題應用資源庫,滿足專業應用需要。應用服務資源庫要求庫內要進行大量的統計分析和多表關聯運算,這就對大數據處理的性能提出了更高的要求。按照數據特征和數據處理要求,XX信息資源服務大數據平臺的實現需要以混搭模式構建,最優的解決方案應包括:用MPP架構的新型數據庫集群處理PB級別的、高質量的結構化數據,同時為應用提供豐富的SQL和事務支持能力;用Hadoop實現半結構化、非結構化數據處理。這樣可同時滿足結構化、半結構化和非結構化數據的處理需求。1、采用MPP架構的新型數據庫集群建設應用服務資源庫,同時能夠承擔基礎數據資源庫中關系型數據的存儲、整合和統計分析任務。MPP架構的新型數據庫集群重點面向行業大數據,采用SharedNothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本X86商用服務器,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統數據庫技術無法勝任的。對于企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP數據庫。MPP架構的新型數據庫集群的技術實現特點使得其特別適用于應用服務資源庫的建設,在強調關聯分析的背景下,同時面向眾多的業務場景和分析任務,基于MapReduce的Hadoop架構有著二次開發的技術和成本劣勢。2、采用Hadoop實現半結構化、非結構化數據處理。圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型數據庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝Hadoop來實現對互聯網大數據存儲、分析的支撐。這里面有幾十種NoSQL技術,也在進一步的細分。對于非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平臺更擅長。綜上所述,XX信息資源服務大數據平臺采用MPP架構的新型數據庫集群+Hadoop的混合架構,按照橫向物理整合、縱向邏輯集成的總體思路,基于各類GA業務應用系統生產的業務數據、社會面采集的各類人、財、物的流動及管理數據、互聯網應用產生的各類實名數據,通過整合匯聚和服務集成,建設形成信息服務綜合資源庫,通過對該庫中各類數據的關聯分析和深度挖潛,為一線實戰提供更為豐富的信息資源應用服務。架構體系整體架構設計XX信息資源服務大數據平臺重點完成海量數據的統一存儲、管理、信息共享和數據資源服務提供,并作為應用系統的支撐,針對不同的業務建立不同的專題,建立完善的數據采集、加載、存儲、分析和應用展示的架構體系。XX信息資源服務大數據平臺采用混搭架構,其核心主要包含四個部分,分別是:前置系統、ETL數據平臺、數據倉庫和統一數據服務接口。其中:前置系統這部分在前期交流的時候,一定要對用戶的數據格式、數據量有調研;:將采集的全部數據按源系統的數據格式臨時存儲,屏蔽對源系統的干擾,為數據檢查和ETL數據處理做好準備。這部分在前期交流的時候,一定要對用戶的數據格式、數據量有調研;ETL平臺:通過進行高效數據抽取、數據清洗、數據轉換、數據校驗、數據加載等,完成對數據、社會數據和互聯網數據從數據源向目標數據倉庫轉化的過程。數據倉庫:通過數據倉庫存儲管理XX大數據平臺中所涉及的所有數據進行存儲、分析,并能夠支撐應用層的業務需要,進行查詢、統計和展現的實現。統一數據服務接口:統一數據服務接口是高性能服務接口,為上層應用提供統一的數據服務,滿足數據查詢、數據互操作、數據交換、數據分析、目錄服務、綜合查詢、信息比對等業務應用的需要。整體系統架構如下圖所示:圖片針對性修改圖片針對性修改技術架構設計整個XX信息資源服務大數據平臺從數據和功能的角度可以分為數據源層、數據準備層、數據接入管理層、數據存儲共享層、數據服務接口層和數據應用層六個部分,其技術架構如下圖所示。圖片針對性修改圖片針對性修改數據源層:數據來源層為整個系統提供數據,包括內部的綜合應用系統、各警種業務系統,以及外部的社會資源數據和互聯網數據等。系統不直接從數據來源系統抽取數據,而是通過數據準備層,以保證數據源業務系統的安全。數據準備層:從源系統通過橋接、導入/導出、ETL等方式,采集的全部數據,并按源系統的數據格式臨時存儲,為數據檢查和ETL數據處理做好準備。數據接入管理層:高效進行數據的抽取、清洗、轉換、校驗、加載等處理,完成對數據、社會數據和互聯網數據從數據源向目標數據倉庫轉化的過程。對于少量或適量的結構化數據可利用傳統ETL進行處理,海量的結構化、半結構化、非結構化數據可利用云化ETL(Hadoop)進行處理。數據存儲管理層:大數據平臺的數據存儲層。數據存儲管理層實現平臺采集和產生的大數據存儲,包括結構化數據存儲、半結構化數據和非結構化數據存儲。其中具有高價值密度的結構化數據使用MPP數據庫集群以數據倉庫的方式來負責存儲管理,低價值密度的音視頻、互聯網等半結構化和非結構化大數據以Hadoop的HBase、HDFS分布式存儲系統負責存儲管理。大數據存儲管理層對MPP數據庫集群和Hadoop平臺實現了融合,整合了列存儲、智能索引、多副本、Mapreduce、Hive等大數據處理技術對信息資源服務的大數據進行統一的存儲管理。數據服務接口層:提供高性能服務接口,為上層應用提供統一的數據服務。數據應用層:面向XX信息資源服務平臺的各類業務應用。通過對各業務系統所產生的各類結構化、非結構化大數據進行統一整理、分類、存儲、專題分類等處理操作,從而達到將原始的無法使用的大數據化零為整,使之成為有序、專題化、可統一查詢分析的價值數據目標。以大數據平臺為基礎,用戶的信息資源服務平臺應用可以更快更方便的開發建設,應用的種類可以更加多樣化,特別是對結構化和非結構化數據的綜合價值挖掘更加有效和深入。網絡拓撲架構大數據平臺采用雙鏈路接入,保證鏈路接入的可靠性。平臺網絡拓撲架構主要包括五部分:網絡接入區、安全管理區、核心交換區、云計算服務區和云存儲服務區。平臺網絡拓撲架構如下圖所示:網絡接入區:大數據平臺通過雙鏈路連接到廣域網網,在邊界出口路由器上架設Ddos流量清洗設備,實現流量檢測和抵抗拒絕服務攻擊。雙鏈路連接通過鏈路負載均衡器實現鏈路訪問的負載均衡。安全管理區:安全管理區部署大數據平臺安全設備和軟件,保證整個平臺部署的系統及數據的安全性,主要包括防病毒、IPS、漏洞掃描、堡壘機、IT綜合管理系統以及統一的安全管理系統、安全設計系統和安全監控系統等。核心交換區:實現大數據平臺的核心交換功能,及在核心鏈路上部署入侵防御系統、防火墻和防病毒設備,保證云平臺的安全高效的接入功能。云計算服務區:在云計算服務器部署基礎環境和及應用系統。應用系統通過WEB應用防火墻WAF設備以保證應用系統面臨的網頁篡改、敏感信息泄露、拒絕服務、蠕蟲等網絡安全危害。云存儲服務區:部署云存儲平臺服務器,并在服務器上部署安全數據庫集群保證大數據的存儲、管理和訪問等的安全性。安全數據庫集群通過存儲加密、三權分立、強制訪問控制等技術保護大數據的安全性。數據流向XX信息資源服務大數據平臺的數據流向如上圖所示,其中:前置系統從源系統采集、匯總數據、社會數據和互聯網數據等全部數據,為數據檢查和ETL數據處理做好準備。ETL平臺從前置系統抽取數據,進行數據清洗、轉換、校驗等處理,并將處理后的高價值密度的海量結構化數據,直接加載到MPP數據庫集群中,對于低價值密度的海量半結構化數據數據和非結構化數據,將其元數據或索引放入數據倉庫中,將非結構化數據放入Hadoop系統中。MPP數據庫完成數據倉庫的搭建,存儲管理結構化數據,以及半結構化和非結構化數據的元數據或索引,并對所有數據進行復雜關聯查詢分析。MPP數據庫集群進行統計分析及復雜查詢的結果數據,將數據同步到Hadoop系統進行備份和非關系型處理。Hadoop系統承擔海量半結構化數據和非結構化數據分布式計算、非關系型處理,存儲管理各種非結構化、半結構化的數據,并保存MPP數據庫集群的備份數據等。統一數據服務接口是高性能服務接口,為上層應用提供統一的數據服務。建設內容根據項目需求,本期項目需要建設能夠支撐信息資源服務平臺,對數據、社會數據和互聯網數據進行整合和統一管理的的大數據平臺,并通過對大數據的分析,成功有效地完成決策支持,推動各業務的有序運行。整個信息資源服務大數據平臺的建設內容主要分為四部分:前置系統、ETL平臺、數據倉庫和統一數據服務接口。依據XX的實際需求情況,設計一個以大數據平臺為核心,抽取包括數據、社會數據和互聯網數據等在內的全部數據進行整合和統一管理的大數據平臺,整個系統全面支持業各業務實際應用,從數據端到最終的信息資源服務業務支撐。前置系統從源數據系統采集、匯總數據、社會數據和互聯網數據。所采集的數據類型分為三類,結構化數據、半結構化數據和非結構化數據。前置系統將采集的全部數據按源系統的數據格式臨時存儲,屏蔽對源系統的干擾,為數據檢查和ETL數據處理做好準備。另外,前置系統備份存儲了一定量的源系統的歷史數據,可實現數據的版本控制和管理,在源系統數據已經刷新的情況下,即時二次抽取過程運算出錯,也可以進行回溯。ETL平臺ETL平臺通過進行高效數據抽取、數據清洗、數據轉換、數據加載等,完成對數據、社會數據和互聯網數據從數據源向目標數據倉庫轉化的過程。ETL平臺處理的源數據分為三類,結構化數據、半結構化數據和非結構化數據。為了高效的處理不同類型的海量數據,ETL平臺可劃分為傳統ETL和云化ETL兩部分。所有數據均可通過ETL平臺處理后加載到數據倉庫中。數據清洗數據清洗實現對業務數據的標準化統一,去除重復記錄、替換處理和去除無效數據等功能。對不同來源的業務數據進行清洗和轉換,將不同標準規范下的數據統一轉換成符合信息資源服務平臺的數據標準與數據定義,提供多種數據清洗的方式,利用條件過濾、去除重復記錄、空值處理和去除無效數據等方式對業務數據進行清洗。數據轉換非結構化數據結構化轉換通過對信息系統中日志類文件的解析,實現非結構化數據向結構化數據的轉換,最終保存到數據倉庫中。日志解析方式根據用戶對日志信息的獲取需求及解析原則設計定制,憑借數據倉庫帶來的高性能優勢,對解析轉化后的日志文件能夠實現高效的查詢分析。低價值密度數據向高價值密度數據轉換對于音視頻、圖片這種低價值密度的非結構化數據,通過元數據提取特征,將特征數據保存到數據庫中,從而實現向高價值密度的結構化數據的轉換。元數據支持定義、查詢、編輯、發布四項功能,在元數據的作用下,提取出來的特征信息通過加載,最終保存到數據倉庫中,為實現高性能的查詢分析提供基礎。數據倉庫在前置系統與ETL平臺對采集到的大量數據進行簡單的梳理與過濾后,將所有數據導入數據倉庫中進行存儲和分析,通過二次抽取、索引化整合、邏輯關聯等方式,實現基礎數據資源的關聯融合,對不同來源、不同類型的基礎數據,按要素提取關鍵字段,建立要素內的關聯關系;同時,實現專題應用數據的整合建庫,按照業務應用具體需要,基于專業應用業務模型,通過二次抽取整合的方法,建立專題應用資源庫,滿足專業應用需要。整個數據倉庫是面向專題的、穩定的和隨時間變化的,分為情報庫、信息應用庫、全文索引庫、配置庫等幾個部分,其中在情報庫的基礎上構建重點人專題、關聯專題及其他專題等,在信息應用庫的基礎上構建業務查詢、統計專題和其他專題等。作為整個大數據平臺最核心的存儲分析部分,為上層應用提供有力支撐。數據倉庫由基礎數據層、中心數據層、數據集市層和數據管理平臺四個部分構成。基礎數據層基礎數據層是一個輕度匯總的數據庫,既能夠支撐事務型操作,又能支持簡單的統計分析操作,并提供統一完整的數據視圖和提高系統綜合性能,簡化了數據倉庫的數據傳輸接口和數據倉庫管理數據的復雜度。基礎數據層的數據粒度為細節級數據,存儲從源系統抽取的業務基礎數據,包括數據、社會數據和互聯網數據。這些數據經過清洗、標準化,主要是操作型數據和參數數據,基礎數據層按業務主題進行歸類、整合等。基礎數據層面向業務層面,對于不同數據類型的數據進行事務性的操作。中心數據層中心數據層在基礎數據的基礎上進行加工匯總,形成的指標數據,存儲分析型和加工匯總型數據。中心數據層的數據需求來源于應用的一些共同性指標,可以是一些中間數據,這些指標的存在,可以大大提高應用系統的處理效率。中心數據層的數據模型按照主題組織,可以采用星型模型或雪花型模型進行組織,是一個面向主題、集成、穩定、隨時間變化的數據集合,用于支持管理決策。數據集市層數據集市層根據應用需求進行建設,包括固定報表、即席查詢、OLAP、數據挖掘等,存放的數據主要為分析型數據。數據集市層數據可從中心數據層來,也可以直接由基礎數據層來。數據集市層數據直接對外,可直接取用,一般均為滿足需求。當然也可以從中心數據層或基礎數據層取數據,比如取明細數據。數據集市層是以數據倉庫數據為唯一數據源、面向特定分析應用、按一定方式重新組織的數據集合,是數據倉庫的子集。數據集市基于數據倉庫創建,用于不同業務部門的需求和不同分析應用的分析數據的存儲,數據集市模型也按主題組織,可以采用星型模型或雪花型模型進行組織,是基于企業的不同部門、不同人員的分析需求而組織的。數據管理平臺元數據管理元數據管理實現對數據描述的標準化,解決系統不同部門之間對相同數據的定義差別造成的指標描述不同的問題,使元數據成為數據整合的基礎和依據。元數據管理主要實現定義、查詢、編輯、發布元數據四個功能。主數據管理主數據管理實現對系統主數據的管理維護。主要包括對主數據的增加、刪除、編輯和查詢等主要功能。增刪改功能都同時支持對主數據的批量操作和逐條操作。查詢支持關鍵詞檢索、即席查詢等多種查詢方式。數據標準管理數據標準管理定義全面、合理、準確的數據標準,提供高效的數據服務。數據定義標準基于全部業務的特點及所涉及的數據,定義數據項的命名規則、數據類型、數據長度、數據值域、數據涵義等數據定義標準,作為數據庫設計的參考依據,制定數據表規范、索引規范、視圖規范、序列規范、觸發器規范等。數據質量管理監控數據質量管理監控包括數據質量管理和數據質量監控功能。數據質量管理實現對數據標準化、統一化管理。數據質量監控功能實現對數據運行情況的監控,保證數據的真實性、完備性和自治性,出現異常情況時報警。數據生命周期管理數據生命周期管理提供對管理信息系統的數據在整個生命周期內的管理:從創建和初始存儲,到它過時被刪除。根據數據價值隨時間推移的演化關系,提供高效、低成本、訪問安全便捷的管理架構。在效率最高的系統中保存最有價值的數據,實現高效;低價值的數據保留在低成本的系統中,保證數據管理的低成本。數據服務監控數據服務監控管理實現負載監控、Qos控制、授權管理和計費管理。負載監控實現對本地資源的運行狀態監控。包括服務器負載監控、數據庫負載監控、數據資源負載監控等。可根據用戶需求,定制負載異常時的自動告警功能。Qos控制實現對數據訪問能力的限制,當網絡過載或擁塞時,QoS能確保重要業務量不受延遲或丟棄,同時保證網絡的高效運行。QoS控制包括分類、標注和優先級功能。授權管理實現對APP用戶使用權限的管理。計費管理實現對APP用戶使用數據資源所產生費用的計量管理。數據服務安全審計提供數據服務安全審計功能,幫助管理員對系統安全進行實時監控,及時發現數據資源申請和使用的動態,發現應用系統入侵和違規行為,忠實記錄系統在使用過程中發生的一切,提供取證手段。系統安全審計包括識別、記錄、存儲、分析與安全相關行為有關的信息。數據服務安全審計與安全審計平臺對接,將審計日志保送至安全審計平臺。統一數據服務接口統一數據服務接口是高性能服務接口,為上層應用提供統一的數據服務,主要包括SQL接口、MapReduce接口、業務定向接口、關聯查詢接口、資源目錄服務接口,滿足數據查詢、數據互操作、數據交換、數據分析、目錄服務、綜合查詢、信息比對等業務應用的需要。各類服務接口實現模版化封裝配置,支持數據規約的制定、維護和管理,支持服務接口授權的動態化、粒度化管理;支持多種形態的Web服務接口;支持數字證書為憑據,實現服務接口調用人、調用時間、發起IP和操作類型、操作字段、具體條件、返回結果等日志信息的自動采集。基本接口SQL接口平臺集成的傳統關系型數據庫和分析型數據庫集群集群符合SQL92標準,實現完備的數據存儲和數據管理功能,符合并支持CAPI、ODBC、JDBC、ADO.NET等國際接口規范,直接執行SQL語句,獲取執行SQL的結果集。HQL接口平臺集成Hadoop生態組件Hive來管理非結構數據的部分,用戶可用HQL語句來處理相關數據。方便用戶更簡便的管理數據倉庫中的數據。MapReduce/Spark接口平臺集成Hadoop生態組件來管理非結構數據的部分,實現Mapper和Reducer接口來提供Map和Reduce方法,這是MRJob的核心部分。封裝接口業務定向接口平臺支持針對特定業務對數據的需求封裝專門的服務接口,上層應用開發可以調用專門的業務數據接口,無須重新組織構建接口,從而加速開發進程。關聯查詢接口通過UDF(UserDefinedFunction,用戶自定義函數)擴展機制,分析型數據庫集群可以與Hadoop生態組件的數據接口對接,分析型數據庫集群內部通過定義若干個函數來調用驅動MapReduce函數,將查詢命令取得的結構化數據結果集和非結構化數據結果集統一輸出,關聯查詢接口實現了多樣性數據關聯查詢對上層應用的透明。資源目錄服務接口對有效的數據資源進行編碼并通過資源目錄服務接口的形式,發布資源信息,系統的訪問人員根據不同的權限通過目錄服務接口訪問所需的數據資源信息。技術選型MPP數據庫按照XX的數據特征和數據處理要求,對于高價值密度的海量結構化數據,直接加載到數據倉庫中;對于低價值密度的海量半結構化數據和非結構化數據,將其元數據或索引放入MPP集群中,將非結構化數據放入Hadoop系統中。數據倉庫要求能夠進行海量數據的存儲和管理,庫內要進行大量的統計分析和多表關聯運算,能夠支撐各警種人員的高并發訪問和即席查詢,并提供可靠的服務,這就對大數據處理的性能提出了更高的要求。數據倉庫由MPP數據庫來承擔,將所有數據導入數據倉庫中進行存儲和分析,實現海量結構化數據復雜關聯查詢分析,并提供應用支撐層的接口。MPP數據庫集群采用SharedNothing(無共享)+MPP(大規模并行處理)架構以及列存儲、智能索引、自適應壓縮、雙向并行、安全組等關鍵技術,能夠有效提升海量結構化數據復雜關聯查詢分析應用的性能,提供高可靠的服務。MPP數據庫重點面向海量數據分析型應用,采用SharedNothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對OLAP分析類應用的支撐,運行環境多為低成本X86商用服務器,具有高性能、高壓縮、高并發、高可靠和高可擴展等特點,在企業分析類應用領域獲得極其廣泛的應用。這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統數據庫技術無法勝任的。對于企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP數據庫。1、高性能。MPP數據庫集群基于MPP大規模并行處理技術和列存儲技術,實現對海量結構化數據的分布式計算和高效列式存儲。列存儲架構保證了分析型數據庫集群在進行復雜關聯查詢分析時,只需要將查詢分析所涉及到的數據列加載到內存中進行運算處理,從而有效降低I/O,提升數據處理性能。智能索引技術實現海量數據在加載入庫的同時建立粗粒度索引,在處理上層應用的復雜關聯分析和查詢請求時,可以有效提升查詢和分析性能。雙向并行技術實現了自動高效的并行SQL執行方法,充分利用現代的SMP多核CPU資源并行處理海量數據。2、高壓縮。自適應壓縮技術使MPP數據庫集群可以基于不同數據列的數據類型選擇不同的壓縮算法,從而提升數據整體壓縮比,實現海量結構化數據的存儲。3、高并發。讀寫沒有互斥,支持簡化模式的MVCC,支持數據的邊加載邊查詢,單個節點并發能力大于300用戶。4、高可靠。MPP數據庫集群通過SafeGroup安全組技術實現安全組內數據冗余機制來保證集群的高可用特性,從而能夠為復雜查詢分析業務提供持續穩定的數據支撐。5、高可擴展。MPP數據庫集群的SharedNothing架構,保證了集群能夠實現隨著數據規模而靈活擴展,并且集群性能隨節點數增加呈線性增長,從而保證在數據量快速增長的情況下,查詢分析性能不會下降。MPP架構的新型數據庫集群的技術實現特點使得其特別適用于本期項目數據倉庫的建設,在強調關聯分析的背景下,同時面向眾多的業務場景和分析任務,以及日益增大的數據分析、數據挖掘、數據備份和即席查詢等應用需求。與傳統數據庫相比,MPP數據庫集群在海量數據分析處理方面性能提升10-100倍。Hadoop平臺Hadoop基本介紹采用Hadoop平臺承擔海量半結構化數據和非結構化數據分布式計算、非關系型處理,并利用Hadoop分布式HDFS、HBase列數據庫來存放各種非結構化、半結構化的數據。Hadoop平臺采用開源的技術框架實現,是以分散存儲和并行計算為基礎的半結構化和非結構化大數據處理平臺,利用低成本的通用計算設備(PC)組成大型集群,構建具備高性能的海量數據分布式計算服務平臺。Hadoop符合GNU相關規范,屬于完全開放源代碼的體系架構,不僅屬于完全免費模式,而且更是便于二次開發和平臺定制。半結構化和非結構化數據處理的所有工作都在Hadoop集群中完成。使用分布式列數據庫HBase,用來快速存取訪問海量數據,通過MapReduce計算框架,實現把海量計算任務分解到各個計算節點的目標,從而能夠在較短時間內完成海量數據處理、分析任務。同時充分整合利用Hadoop平臺本身的分類、聚類算法組件、分析挖掘組件,結合各種數據開發封裝滿足各種業務需求的通用、專用服務組件,如行為分析組件、興趣分析組件、關鍵詞分析組件等。HBase組件HBase是一個分布式的、面向列的開源數據庫,它不同于一般的關系數據庫,是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。HBase使用和BigTable非常相同的數據模型。用戶存儲數據行在一個表里。一個數據行擁有一個可選擇的鍵和任意數量的列,一個或多個列組成一個ColumnFamily,一個Fmaily下的列位于一個HFile中,易于緩存數據。表是疏松的存儲的,因此用戶可以給行定義各種不同的列。在HBase中數據按主鍵排序,同時表按主鍵劃分為多個HRegion,如下圖所示(HBase數據表結構圖):海量數據的存儲架構一系列機架通過大量的機架轉換與機架式服務器連接起來,通常會用1GB或者2GB的寬帶(通過雙鏈路聚合上聯到接入交換機組)來支撐連接。如果使用10GB的帶寬將能顯著的提高CPU核心和磁盤驅動器的密集性。上一層的機架轉換會10GB*2或10GB*4的更高帶寬連接著許多機架,形成集群。大量擁有自身磁盤儲存器、CPU及DRAM的服務器將成為從節點。同樣有些機器將成為主節點,這些擁有少量磁盤儲存器的機器卻有著更快的CPU及更大的DRAM。在擴展集群時主要有兩個方向,一個是廣度即增加計算節點,另一個是深度方向,即擴展更多個磁盤驅動器和更多的CPU核心,深度上增加后需要考慮將網絡I/O增加,即萬兆網絡甚至更高網絡則是一個重要的考慮因素。傳統數據庫前置系統按源系統的數據格式臨時存儲采集的全部數據,不對數據進行任何的處理,因此,本方案建議前置系統由價格低廉的傳統數據庫(OLTP數據庫)來承擔。前置系統從源系統采集數據的方式,可以采用橋接、導入/導出、ETL工具等。傳統ETL前置系統中少量或適量的結構化數據可利用技術成熟的傳統ETL進行處理,然后加載到數據倉庫中。傳統ETL專門對多種操作數據源的數據抽取、轉換和維護過程進行簡化和自動化,并將其輸入數據集市或數據倉庫目標數據庫,技術成熟、穩定可靠。借助傳統ETL工具可以快速的建立起ETL工程,屏蔽復雜的編碼任務,提高速度,降低難度。云化ETLXX積累了豐富的業務數據,信息源寬泛,數據種類不斷豐富,數據總量急速增長,數據資源呈現海量化、異構化等特點,這些數據要求快速完成抽取轉換和裝載工作,傳統ETL工具已經無法應對這種挑戰,因此需要利用面向大數據的云化ETL進行處理,然后加載到數據倉庫中。云化ETL系統由Hadoop構建,即使用Hadoop構建信息資源服務大數據平臺的云化ETL系統,處理海量的結構化、半結構化、非結構化數據。Hadoop對數據進行簡單查詢效率很高,適合過濾錯誤數據、殘缺數據和重復數據,可以很好地承擔數據清洗任務。另外,Hadoop存儲容量大,價格便宜。Hadoop可以使用簡單、廉價的硬件構筑存儲容量大的集群,具有存儲容量大、低成本等優勢。利用這一優勢,可以方便的存儲海量的ETL原始數據。混搭架構融合管理XX大數據平臺對存儲結構化大數據的MPP數據庫集群和存儲半結構化和非結構化大數據的Hadoop系統無縫融合,對數據資源建立統一視圖,提供統一接口,統一調度關系型和非關系型運算,實現了非關系型數據和關系型數據統一查詢,實現深度的數據價值挖掘。兩種系統聯合部署大數據平臺管理系統支持在同一個節點上部署兩種系統。這種部署方式使得聯合查詢無需進行數據在節點間的傳輸,提升查詢效率。如下圖所示:對數據資源建立統一視圖擴展MPP數據庫的外部表機制來建立數據資源統一視圖。提供統一接口,統一調度關系型和非關系型運算,簡化用戶編程維護擴展MPP數據庫的解析和執行層,實現對Hadoop云計算平臺的訪問。執行流程如下:主要有以下三種執行流程:MPP數據庫集群直接訪問Hadoop云計算平臺MPP數據庫直接進行計算MPP數據庫集群通過組合執行器同時處理兩種數據。目前對Hadoop平臺的部分操作是用復雜的編程方式利用的MapReduce實現的,難度大,可維護性差,通用性和效率都很低。在無縫對接后,MapReduce操作大部分轉化為通過MPP數據庫集群提供的自定義函數功能來實現。由MPP數據庫來完成對云計算平臺中的數據訪問和處理。實現方式:在MPP數據庫上編寫自定義函數,這種方式滿足絕大部分需求;利用C或JAVA等高級語言編寫自定義函數,這種方式面向特殊需求。用戶自定義行業特征函數可以在MPP數據庫集群上以UDF形式嵌入用戶的行業特征函數,或直接調用Hadoop上的特征函數。統一數據操作接口在大數據存儲平臺內部集成了MPP數據庫集群與Hadoop平臺,對于不同類型的數據文件存儲方式與位置不同。MPP數據庫集群存儲高價值結構化數據,Hadoop存儲低價值結構化數據、半結構化和非結構化數據,以滿足XX多源、異構海量數據的存儲需求。但是對于上層的用戶來說并不需要區分不同的數據類型。大數據存儲平臺對上提供統一的數據操作接口,包括數據加載接口、數據訪問接口和數據服務封裝接口。數據加載接口數據加載接口實現對MPP數據庫集群和Hadoop平臺統一的數據加載功能。對于高價值結構化數據直接加載到MPP數據庫中即可。對于低價值結構化數據、半結構化數據與非結構化數據加載,將原始數據加載到Hadoop系統,同時將該數據的結構化元數據信息和索引信息存儲到MPP數據庫中,將MPP數據庫中存儲的數據和Hadoop中存儲的數據建立關聯關系,以實現綜合查詢和分析。數據訪問接口數據訪問接口實現對MPP數據庫集群和Hadoop平臺統一的數據訪問功能。大數據存儲平臺統一數據訪問接口的標準化,對大數據存儲平臺的使用的易用性有著重要的意義。統一的標準化訪問接口,可以更好的實現訪問的透明化,使數據實現異地存儲與訪問,優化網絡資源,提高大數據存儲平臺的處理能力。大數據存儲平臺對上層應用提供統一的數據訪問接口,即大數據管理接口(BDMI),該接口通過面向分布式存儲系統的擴展API(分布式文件系統用戶接口)、JDBC、ODBC、ADO.NETC-API、RESTFulAPI、MapReduce等接口形式,對結構化數據,半結構化數據和非結構化存儲資源進行統一的管理,大數據管理接口把三者有機的融合在一起,屏蔽了由于數據形式的多樣性造成的上層應用開發的復雜性,實現了數據訪問與存儲位置對上層應用的透明性。數據服務封裝接口大數據存儲平臺存儲海量、多源、異構的業務數據,為了給平臺應用提供好方便快捷的數據服務,根據本項目中信息資源服務應用的業務需求,在大數據存儲平臺對存儲在MPP數據庫中的高價值結構化數據和存儲在Hadoop中低價值結構化數據、半結構化數據和非結構化數據進行了數據服務的封裝,能夠以更簡單、更直接、更迅捷的提供定向數據服務封裝接口,主要包括關聯視圖服務接口、數據服務封裝接口等。關聯視圖服務關聯視圖服務為上層的信息資源服務大數據業務應用提供關聯視圖數據服務,為應用層建設提供關聯數據查詢視圖,并通過視圖的物化等技術實現數據關聯查詢的預處理,以提升信息資源服務業務應用的數據復雜查詢、綜合關聯查詢及周期性固定查詢的處理效率。關聯視圖服務主要包括MPP關聯視圖服務、Hadoop關聯視圖服務和綜合數據視圖服務。MPP關聯視圖服務實現基于MPP數據庫的高價值結構化數據關聯查詢視圖,為智慧吳忠高價值數據應用,如大數據分析等提供復雜查詢和關聯查詢視圖;Hadoop關聯視圖服務實現基于Hadoop的低價值結構化數據、半結構化數據和非結構化數據簡單查詢視圖,為信息資源服務大數據應用提供簡單的業務查詢視圖;綜合數據視圖服務實現基于MPP數據庫和Hadoop的綜合數據查詢視圖服務,能夠基于各種類型的業務數據,包括結構化數據、半結構化數據和非結構化數據進行綜合的關聯查詢并提供視圖服務,為信息資源服務的大數據應用提供用戶行為分析、業務分析等綜合分析數據視圖。數據服務封裝數據服務封裝基于信息資源服務大數據特征和分布以及業務系統大數據應用的業務需求對數據操作進行了服務封裝,可按照兩種方式對數據服務封裝接口進行分類,即面向數據的類型和來源以及操作類型。從面相數據的類型和來源主要分為三類:MPP數據服務封裝、Hadoop數據服務封裝和綜合數據服務封裝。MPP數據服務封裝主要針對MPP數據庫的數據操作進行的服務封裝,根據信息資源服務大數據應用的需求對常用的數據操作進行封裝,以方便上層應用的數據操作需求,簡化上層應用建設;Hadoop數據服務封裝通過類SQL語言對Hadoop的MapReduce操作進行封裝,使基于Hadoop應用的開發更符合程序員的經驗和使用習慣,簡化業務系統大數據應用開發難度;綜合服務封裝實現對常用的基于MPP數據庫系統和Hadoop系統中的結構化數據、半結構化數據和非結構化數據的綜合分析和復雜查詢的封裝,通過簡單的參數設置實現全數據的復雜查詢服務。從操作類型主要分為數據增加服務封裝、數據修改服務封裝、數據查詢服務封裝和數據刪除服務封裝,分別實現對MPP數據庫系統和Hadoop系統的數據加載、修改、查詢和刪除服務。云存儲設計本項目所設計的數據倉庫主要技術包括:云存儲體系結構,集群分布式事務,集群高可用復制技術,結構化數據、非結構化數據的集中管理與分布式存儲,統一加載和查詢接口,支持虛擬化環境,通用緩存技術,統一用戶視圖、備份和恢復技術等,這些技術有效地保障了集群的高性能、高可用性等。針對整個XX海量數據的特點,選取的云存儲架構,具有構建成本低、性能高效可靠、使用簡單方便的特點。是未來的發展趨勢。支持云計算的數據倉庫管理系統由MPP數據庫集群系統和分布式文件系統構成。設計采用無共享(SharedNothing)架構和大規模并行處理技術(MPP)的數據庫集群管理系統。系統可支持TB到PB級別結構化數據存儲查詢,對于大數據量的處理具有高安全、高性能、高可用的特點。設計使用的分布式文件系統FDFS(DataEngineDistributedFileSystem)由本地分布式文件系統與云存儲管理層組成,提供對業務透明的分布式文件存儲功能。云存儲體系通過集成所涉及數據庫集群和分布式文件系統各自的優勢,實現海量多源異構數據的存儲,并有效保障數據的安全與高性能檢索。結構化數據存儲在安全數據庫集群系統中;非結構化數據存儲在分布式文件系統中,提取的元數據信息存儲在數據庫集群系統,并與存儲的數據關聯。從而實現結構化數據與非結構化數據的統一管理、高效檢索。云存儲體系為上層應用提供統一安全加載訪問接口,包括統一安全加載接口、面向分布式存儲的擴展API、安全標準接口、RESTFulAPI。云存儲體系通過有機融合結構化和非結構化數據,實現了數據訪問與存儲位置的透明,支撐上層大規模數據分析應用的并發復雜查詢,對海量網絡信息安全數據應用提供高速、穩定、可靠的支撐。設計中數據倉庫管理系統內部集成了數據庫集群管理模塊與分布式文件管理模塊,對于不同類型的數據文件提供統一的存儲管理。數據庫集群存儲結構化數據,非結構化數據存儲在分布式文件系統上。以滿足海量數據的存儲需求。但是對于上層的用戶來說并不需要區分不同的數據類型。數據集成信息資源服務大數據平臺對業務系統、其他部門的數據進行整合主要采用數據抽取和數據交換兩種形式。對于內部其他相關信息化系統的數據整合,通過數據抽取工具從其他相關信息化系統抽取數據,加載到數據平臺不同的數據存儲管理系統中。對于來自社保、民政、工商、衛計及其他部門的社會數據,數據平臺通過數據交換共享系統實現對這些外部數據的獲取,然后加載到數據平臺不同的數據存儲管理系統中。信息資源服務大數據平臺庫間數據交換涉及到MPP數據庫集群與傳統數據庫之間的數據交換、MPP數據庫集群與Hadoop系統之間的數據交換、傳統數據庫與Hadoop系統之間的數據交換。MPP數據庫集群與傳統數據庫數據交換信息資源服務大數據平臺依靠MPP數據庫集群構建數據倉庫系統支撐復雜查詢、統計和分析等OLAP分析應用,通過傳統ETL/云化ETL從傳統數據庫抽取基礎數據,加載到MPP數據庫集群中。另一方面,數據平臺統計分析應用產生的統計分析和查詢結果數據存儲在MPP數據庫集群中,可通過數據導出將這些結果數據反饋傳送給傳統數據庫。MPP數據庫集群與Hadoop系統數據交換信息資源服務平臺通過Hadoop系統對海量低價值密度的結構化、半結構化、非結構化數據進行計算處理提取特征數據,MPP數據庫集群采集和存儲其特征數據,用于統計分析處理。另一方面,MPP數據庫集群進行統計分析及復雜查詢的結果數據,將數據同步到Hadoop系統進行備份和非關系型處理。圖MPP數據庫與Hadoop分工數據流向圖上圖是MPP數據庫與Hadoop分工數據流向圖,Hadoop承擔數據清洗,轉換以及保存MPP數據庫集群的備份數據等功能。Hadoop對數據進行簡單查詢效率很高,適合過濾錯誤數據、殘缺數據和重復數據,可以很好地承擔數據清洗任務。而MPP數據庫集群使Hadoop具有優秀的擴展能力,為元數據、清洗后數據、備份數據以及元數據等類型的海量數據存儲提供了保障。MPP數據庫集群與Hadoop系統分工合作,Hadoop用于ETL系統,MPP數據庫集群負責數據倉庫的匯總、建模以及各種運算,其分工如下:1、Hadoop負責底層的ETL系統,即使用Hadoop構建信息資源服務數據平臺的云ETL系統。整個Hadoop平臺,負責將接口文件從遠程主機進行讀取,并放到Hadoop集群中,利用hive進行建表,將接口文件形成hive原始表。這一步就是ETL的清洗過程。第二步對這些原始表進行簡單關聯,如進行編碼的轉換,以及關聯用戶資料后獲取某些字段,以完成ETL系統的轉換步驟。通過這兩個步驟,形成存放在hive中的ETL結果表。2、MPP數據庫使用加載機,將Hadoop中的HDFS文件系統,掛載到加載機上,以達到直接對hive的表文件直接讀取的目的。通過MPP數據庫的加載服務,直接讀取HDFS上存儲的ETL結果表,將這些結果表以文件的形式加載到MPP數據庫集群中。3、MPP數據庫集群,承擔整個核心數據倉庫的角色。MPP數據庫采用完全并行的MPP+SharedNothing的分布式扁平架構,沒有Master節點,不會產生數據訪問熱點和性能瓶頸;數據存儲采用先進的列存儲架構,能夠實現最高1:20的數據壓縮,幫助用戶最大程度的節省硬件存儲投資和后續的電能消耗;可支撐100多個集群節點,采用了安全組技術保障了整個集群的高可用(HA)部署,實現PB級海量數據存儲和管理。MPP數據庫還實現了高性能的分布式數據處理,實現了大并發和大規模數據復雜統計和即席查詢的秒級響應,具有在線擴展功能,能夠在不停服務情況下,系統進行動態擴展,為上層多維分析、復雜統計分析等分析應用提供完善可靠的數據支撐。MPP數據庫與Hadoop分工的原因:1、Hadoop存儲容量大,價格便宜。Hadoop可以使用簡單、廉價的硬件構筑存儲容量大的集群,具有存儲容量大、價格便宜等優勢。利用這一優勢,可以方便的存儲海量的ETL原始數據。2、Hadoop對簡單的關聯操作具有性能優勢。Hadoop在單表操作或者是簡單關聯時,可以利用其分布式文件操作的優勢,高效的發揮其性能優勢。3、Hadoop在處理復雜SQL運算時不具有性能優勢,且語句的編寫和優化較為復雜。Hadoop在處理復雜的SQL語句時,在編寫起來較為復雜。因為hive語句并非是標準的SQL語句,有眾多的語法不支持,有時一個SQL語句簡單的關聯甚至需要改寫為笛卡爾積才可以正確實現其邏輯。而且在復雜語句運算時,已經不能夠僅轉換為文件操作,性能不具有優勢。并且對于hive的語句進行優化,需要非常資深的經驗才可以完成,一般技術人員難以編碼。5、MPP數據庫語句編寫簡單MPP數據庫的語法符合SQL92標準,有非常良好的使用基礎,且對Oracle、DB2等數據庫的語句兼容非常好,差異率不超過10%。在開發應用時,可以快速的部署和實施。6、MPP數據庫集群并行性好、產品成熟MPP數據庫集群的資源管理非常優秀,并行處理的時候可以動態的分配資源。而且幾乎不需要開發人員過多的參與數據庫的運行,完全可以當做一個成熟的產品使用。MPP數據庫集群可以完整的支持數據倉庫的應用,適合高復雜度、大規模數據量的運算。且基于其列存、分布式等先天優勢,具有很高的執行效率。傳統數據庫與Hadoop系統數據交換大數據平臺的Hadoop系統用于存儲海量的低價值密度的結構化數據,大數據平臺將根據上層業務應用的需要,通過數據抽取工具將存儲在Hadoop系統中的部分結構化數據抽取到傳統數據庫中,用于滿足上層業務系統對原始數據進行處理的需要。另一方面,大數據平臺通過數據抽取工具將傳統數據庫中的歷史數據抽取到Hadoop系統中進行備份。產品選型1、MPP數據庫——H3CDataEngineMPPCluster華三通信大規模分布式并行處理分析型數據庫集群系統,簡稱:H3CDataEngineMPPCluster,它是華三通信公司面向海量數據分析型應用領域,以獨特的列存儲,壓縮和智能索引技術為基礎,自主研發的一款極高性能的數據庫產品。H3CDataEngineMPPCluster具備高性能、高可用、高擴展特性,可以為超大規模數據管理提供高性價比的數據庫平臺,符合本項目建設需求。H3CDataEngineMPPCluster采用完全并行的MPP+SharedNothing架構,具有低成本、海量存儲、高效加載、高擴展、高可用、高并發等優勢。H3CDataEngineMPPCluster按照列的方式進行物理存儲,信息查詢時不讀取無效列數據,降低I/O開銷,提升系統查詢統計性能。H3CDataEngineMPPCluster擁有SQL接內部集成了各種核心模塊,支撐著對海量數據信息的高效加載和查詢。有SQL接口、SQL分析優化器/執行器、粗粒度多維智能索引、緩存管理和壓縮/解壓縮技術。其中自適應壓縮,能夠按照數據類型和數據分布規律自動選擇最優壓縮算法,壓縮比可達到1:5至1:20,節省存儲空間,降低I/O,提升產品性能;粗粒度多維智能索引,在數據加載時自動建立,索引信息中包含統計信息,實現數據查詢時不解包直接獲得統計值,進一步降低I/O,實現復雜查詢的快速響應。H3CDataEngineMPPCluster通過標準的CAPI、JDBC、ODBC、ADO.NET接口為上層應用提供服務。產品包含多種圖形化管理工具,提供對集群環境的可視化監控和管理。數據加載工具能夠實現2TB/小時的加載速度。2、Hadoop系統及云化ETL——H3CDataEngineHDPDataEngineHDP:DataEngine大數據計算平臺,建立在開源的Hadoop之上的大數據處理平臺。統一管理平臺、海量數據處理、流程標準化、管理集中化。DataEngineHDP-NoSql:DataEngine大數據存儲平臺,分布式Key/Value數據庫,基于Hbase技術,具有高性能、高壓縮比的數據存儲與查詢能力。3、傳統數據庫——Oracle、Mysql、GBase8tGBase8t是國內首款事務型通用數據庫,有南大通用研發完成。GBase8t體現出的優勢:(1)穩定高效:成熟、穩定、高性能;(2)自主可控:知識產權自主可控、能力自主可控、發展自主可控、滿足國產資質;(3)國產高端:高端產品、高端應用、國產化替代。Mysql為開源數據庫,使用簡便,成本較低。4、傳統ETL目前主流的ETL工具有:Informatica、Datastage、flume、微軟DTS、Beeload、Kettle等等。可根據實際源數據來合理選擇ETL工具。云化ETL工具已經集成在H3CDataEngineHDP平臺之中。配置清單軟件配置清單本期平臺建設所需的全部軟件配置清單如下:序號名稱推薦規格型號數量單位備注1MPP數據庫華三通信H3CDataEngineMPPCluster1套2前置系統待定1套3Hadoop系統華三通信H3CDataEngineHDP1套4傳統ETL待定1套5云化ETL華三通信H3CDataEngineHDP-ETL1套6主機防病毒-1套可選7安全審計系統-1套可選8安全管理平臺-1套可選9IT綜合管理系統-1套可選硬件配置清單本期平臺建設所需的全部硬件配置清單如下:序號名稱數量單位備注1服務器臺2交換機臺3核心路由器臺4核心交換機臺5Ddos設備臺套6負載均衡設備臺套7入侵防御系統臺套8防火墻臺套9防病毒網關臺套10WAF臺套11IPS臺套12漏洞掃描系統臺套13前置機可選臺套根據用戶實際隔離需求可以根據預算和客戶需求來引導是否要建一個大的數據交換平臺。主要用戶各委辦局之間可以根據預算和客戶需求來引導是否要建一個大的數據交換平臺。主要用戶各委辦局之間MPP數據庫配置部署配置需求數據量:XXTB(根據經驗數據量業務需求)節點磁盤容量:10*2TB系統配置推薦H3CDataEngineMPPCluster計算節點共XX臺,詳細配置如下:節點配置詳細信息計算節點數量XXCPU4*4core(Intel(R)Xeon(R)2.0GHz)內存64GB硬盤10*2TBSAS盤,7200轉網絡萬兆加載機數量2(可以選擇計算節點作為加載機)CPU4*4core(Intel(R)Xeon(R)2.0GHz)內存64GB硬盤10*2TBSAS盤,7200轉網絡萬兆系統部署Hadoop集群配置部署配置需求數據量:XXTB(根據經驗數據量業務需求)節點磁盤容量:10*2TB系統配置推薦H3CDataEngineHDP計算節點共XX臺,詳細配置如下:節點配置詳細信息計算節點數量XXCPU4*4core(Intel(R)Xeon(R)2.0GHz)內存128GB硬盤10*2TBSAS盤,10000轉網絡萬兆系統部署遺留遺留方案優勢特點混搭架構的大數據平臺在大數據存儲平臺內部集成了MPP數據庫集群與Hadoop平臺,MPP數據庫集群存儲高價值結構化數據,Hadoop存儲低價值結構化數據、半結構化和非結構化數據,優勢互補,使業務得到最優的支撐。MPP數據庫集群憑借高性能的分布式計算,更適合結構化數據分析類應用場景的列存儲、智能索引、自適應壓縮、并行計算等技術特性,能夠充分滿足基于結構化數據的復雜的關聯分析查詢需求,基于MPP數據庫集群可以建設高性能的數據倉庫系統,實現不同專題的數據庫建設。Hadoop系統憑借大規模分布式存儲、計算能力和高彈性擴展能力,能夠存儲海量低價值密度數據,并進行高效的內容分類檢索,以滿足偵查、案件分析等業務中大量的分類檢索需求。數據資源統一管理、高度共享通過云計算、大數據技術,實現對各類數據源各種類型的結構化、半結構化和非結構化跨域數據的統一管理和高度共享,面對不斷增長的數據規模和不斷深化的工作,大數據平臺幫助XX實現一套平臺應對各類數據,系統采用模塊化分層設計,幫助XX以最低的工作復雜度實現最高性能的大數據處理效能。海量數據低成本存儲管理通過分布式計算和存儲以及Hadoop+MPP的混搭結構,有效支撐海量數據。基于MPP數據庫集群的大數據綜合應用平臺,數據存儲采用先進的列存儲架構,能夠實現最高1:20的數據壓縮,幫助用戶最大程度的節省硬件存儲投資和后續的電能消耗。MPP數據庫集群基于低成本高性能的X86商用服務器構建,運行于開源Linux操作系統。相比基于小型機+磁陣的解決方案,大數據存儲管理硬件成本大幅降低。智能索引自動建立,數據庫維護簡單,降低后期DBA數據庫維護的難度和成本。高可用、動態擴展通過合理配置能夠有效實現均衡負載,充分發揮每一個節點的計算能力,提升整個系統的協同效率;基于安全組的備份策略,能夠保證節點在發生故障時,不影響系統對外提供服務的連續性。MPP數據庫集群支持上百個計算節點,能夠有效處理PB級數據。基于MPP+SharedNothing的分布式數據處理架構,面對數據規模不斷擴增時可通過平滑擴容實現容量和性能的提升。整個過程高度自動化,無須停止集群服務,保證服務連貫性。深度精細化的業務數據支撐有效管理和整合海量數據,實現對各類數據的多維深入分析;高效的數據分析能力,幫助客戶應對復雜性強、效率及實時性要求高的場景;高效的運算性能和海量數據的快速查詢響應能力,以及100%的查詢召回率的全文索引支持,為上層多維分析、即席查詢、復雜統計分析等分析應用提供完善可靠的數據支撐,幫助用戶挖掘數據潛在價值,輔助科學決策。附錄一:H3CDataEngineMPPCluster產品簡介華三通信大規模分布式并行處理數據庫集群系統,簡稱:H3CDataEngineMPPCluster,它是華三通信公司面向海量數據分析型應用領域,以獨特的列存
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 培訓總結與計劃指南
- 棗強中學高一上學期第一次月考物理試題
- 家裝公司活動流程
- 消防法律法規培訓
- 2025電競館合作合同標準模板
- 民政局安全培訓大綱
- 2025小型工程合同樣本范本
- 2025年上海市的簡易勞動合同范本
- 監獄警察一日行為規范
- 2025年高考歷史總復習高中歷史必修二全冊復習匯編
- 2025南水北調東線山東干線限責任公司人才招聘30人管理單位筆試遴選500模擬題附帶答案詳解
- 2024年中考英語真題-帶答案
- 歐洲文明與世界遺產智慧樹知到期末考試答案章節答案2024年廣東工業大學
- 國土調查調查項目招投標書范本
- 中國古代都城空間布局演變特征
- 砂石料加工場施工方案兩篇
- TROXLER3440核子密度儀
- 前處理、電泳涂裝常用四種輸送方式的工藝特性和設備結構對比
- 污水處理廠安全生產費用提取使用管理制度
- 化學專業英語課文翻譯
- 《大型群眾性活動安全許可申請表》
評論
0/150
提交評論