市大數據云平臺實施方案_第1頁
市大數據云平臺實施方案_第2頁
市大數據云平臺實施方案_第3頁
市大數據云平臺實施方案_第4頁
市大數據云平臺實施方案_第5頁
已閱讀5頁,還剩149頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據云平臺實施方案項目編號:某大數據云平臺項目建設實施方案目錄1.1 建設目標、規模、內容、建設期 11.1.1 建設目標 11.1.2 建設內容 11.1.3 建設周期 4第二章 需求分析 62.1 政務業務目標需求分析結論 62.2 系統功能指標 82.2.1 基礎設施服務層(Iaas) 82.2.2 平臺服務層(Paas) 82.2.3 應用服務層(Saas) 102.3 信息量指標 112.4 系統性能指標 122.4.1 總體性能指標 122.4.2 網絡平臺性能 132.4.3 系統平臺性能 132.4.4 應用系統性能 13第三章 總體建設方案 153.1 總體設計原則 153.1.1 分期目標 173.2 總體建設任務與分期建設內容 183.2.1 總體建設任務 183.3 系統總體結構和邏輯結構 193.3.1 總體架構 193.3.2 技術架構 243.4 信息資源規劃和數據庫設計 253.4.1 數據模型規劃 253.4.2 數據整合原則 273.4.3 技術緩沖層設計 283.4.4 整合模型層設計 293.4.5 共性加工層設計 433.4.6 數據應用層設計 473.4.7 數據庫服務架構 483.5 應用支撐系統設計 503.5.1 大數據基礎平臺設計 503.5.2 ETL設計 623.5.3 調度架構設計 753.5.4 數據管控設計 813.6 應用系統設計 1063.6.1 分析決策支持系統 1063.7 數據處理和存儲系統設計 147建設目標、規模、內容、建設期建設目標以“海信息、網關聯、云計算、塊數據、條運用、促和諧”為建設方針,建設以基礎設施層、系統平臺層、應用平臺層為框架結構,多個系統應用為支撐的社會治理大數據云平臺,實現社會治理從條塊分制向整體聯動轉變,從被動應付向主動服務轉變,從傳統管理方式向信息化支撐轉變,從分級管理向扁平化管理轉變,從單打獨斗向協作共治轉變,不斷推動社會治理體系和社會治理能力現代化。項目建成后,將覆蓋全市十個區市縣,使用對象包括社區服務中心(鄉鎮)工作人員、居委會(行政村)工作人員、社區網格員,也包括市、區縣兩級相關部門工作人員。建設內容市大數據云平臺工程分為兩期建設,從建設內容上來說,兩期的建設內容是逐步完善、優化、擴展的關系。大數據云平臺工程的總體建設任務為:1、系統運行環境基于市統一的基礎設施層技術體系,搭建大數據云平臺工程,主要是指支撐系統運行的軟硬件基礎環境。其中硬件基礎環境包括:計算資源、存儲資源、安全防護、網絡資源等等;軟件基礎環境包括:數據庫、中間件、數據備份等等。2、共享數據建設共享數據建設主要是指大數據云平臺工程運行的數據基礎。在大數據云平臺工程的建設過程中主要包括了結構化數據和非結構化數據。結構化數據包括:基礎空間數據和網格塊數據關系數據庫;非結構化數據主要包括海量行為數據、網頁、各類報表、圖像和音頻/視頻信息等等;基礎空間數據利用現有的基礎數據成果,進行修補測或數據時相、內容的更新,形成大數據云平臺工程的基礎空間數據庫。網格塊數據關系數據庫以網格化管理數據、政府各專業職能部門數據為基礎,以網格化管理為中心建設“網格塊數據關系數據庫”,其核心是要建立社區網格內“人與人”、“人與物”、“人與組織”、“物與物”、“組織與物”、“組織與組織”等的關聯關系。海量行為數據依托開放式社會共享數據平臺,建立大數據云平臺工程所需的海量社會數據。各類報表針對目前尚未進行結構化數據梳理的業務數據,如Word、Excel等形式存儲的業務數據;圖像和音頻/視頻信息針對視頻監控、人口信息的照片等信息的數據處理。3、支撐能力建設支撐內容的建設為應用系統建設提供組件式服務,主要建設:地理信息平臺、數據分析平臺、流程管理平臺、安全平臺等。地理信息平臺立足市現有城市地理空間信息建設應用基礎,從大數據云平臺工程的應用實際需求出發,遵循“資源重用、節約投資”的原則,采用基于面向服務架構(SOA)的ServiceGIS等技術,實現對市分散的空間信息資源整合、共享和充分利用,為大數據云平臺工程提供地理信息與業務數據的在線共享與交換支撐。數據分析平臺數據分析平臺是集數據的目錄管理、數據交換、數據處理的分析與挖掘、數據的可視化展現為一體的綜合支撐平臺。流程管理平臺通過對網格化服務管理的梳理,再造社會治理工作流程,將信任服務、授權服務和工作流等業務流程有機融合緊密結合在一起,構成安全的工作流業務系統,為不同業務流程提供實現的技術手段。安全平臺基于云計算安全架構,同時根據大數據云平臺工程的系統安全需求特點和風險狀況,從物理安全、網絡安全、云平臺安全、系統安全、應用安全,數據安全六個層面,進行安全體系架構設計。4、應用系統建設應用系統建設著眼大數據未來發展趨勢,以網格化服務管理系統為基礎,提供涵蓋政府、企業、社會組織、軍民等內容的社會治理綜合業務系統,既實現市統籌、創新、推動社會治理的需求,又滿足部門、社區和社會組織對大數據云平臺工程的應用需求。應用系統建設包括“網格化管理系統”、“社會動員管理系統”、“社區綜合服務系統”、“社會分析決策支持系統”。5、接入系統建設接入系統包括PC系統、移動應用系統和微信應用系統。建設周期大數據云平臺工程涵蓋業務內容多、涉及范圍廣、建設周期長,為了完成工程的總體建設目標,需要一個逐步推進和逐漸完善的過程,必須依據循序漸進、分階段、有步驟、重點突破的建設原則。一期工程計劃于2019年底建成。其中,一期建設階段5個月,運維應用(試運行)階段為6個月,系統計劃于2019年底完成終驗。需求分析政務業務目標需求分析結論大數據云平臺工程是一個基于大數據的概念,利用大數據技術,以構建大數據云平臺工程數據平臺為基礎,以提供標準化的數據服務、網格化服務、流程服務為中心,支撐和協同市各部門和社會公眾的社會治理工作。大數據云平臺工程貫穿于市規劃、發展、建設、運行、服務、管理的全過程,是一個復雜而龐大的系統工程,在描述與其他業務系統關聯的同時,我們對大數據云平臺工程有了一個清晰的定位:1、大數據云平臺工程建設是打造社會治理升級版的重要內容。隨著大數據時代的到來,社會治理面臨著新機遇和新挑戰。市委九屆四次全會提出,要實施社會治理工程,打造法治升級版,積極探索以網格為基礎的大數據建設。大數據云平臺工程以塊數據為基礎,運用大數據技術,創新社會治理方式方法,提高社會治理能力,為打造法治“升級版”提供了有力的工作抓手,具有重大的實踐意義和社會價值。2、大數據云平臺工程建設是推進治理能力現代化的支撐平臺。我市大力發展大數據產業,為社會治理工作帶來了前所未有的契機。2015年全市加強群眾工作創新社會治理大會提出,要狠抓平臺建設,在以‘大數據’手段提升社會治理水平上實現新突破。通過實施大數據云平臺工程建設,能夠強化“條專塊統”,倒逼體制改革,打破數據“壁壘”,鏈接數據“孤島”,激發社會活力,發揮黨政部門、社會組織、企事業單位、居民群眾等多元主體的作用,構建眾聯、眾包、眾創、眾籌的社會治理新局面。3、大數據云平臺工程建設是完善民生服務體系的惠民工程。創新社會治理,要以最廣大人民根本利益為根本坐標,從人民群眾最關心最直接最現實的利益問題入手。大數據云平臺工程建設能夠通過大數據運用,統計分析與民生相關的海量數據,準確把握不同社會成員和不同地區的社會需求,實施精細化的服務管理,推動建立多層次的服務體系,營造和諧穩定的社會環境。大數據云平臺工程覆蓋至最基層的網格信息員,由網格信息員采集的民生需求,拓寬社情民意的采集渠道,打通居民與政府之間的溝通橋梁。同時,將民生數據匯總至“數據民生”的民生資源池,依托大數據手段,整合線下群眾的社情民意信息,為下一步政策的制定和實施,提供決策依據。是政府由被動服務向主動服務、由基本服務向更好服務、由普惠服務向個性化服務轉變的重要手段。4、大數據云平臺工程建設是數據民生考核的組成部分。大數據云平臺工程具有完整的考核體系,通過對案件處置的情況進行統計分析,對各級聯動單位進行科學的評價。在大數據云平臺工程的設計過程中,同樣考慮了與“數據民生”考核的對接,其數據是“數據民生”面向社會考核的重要組成部分。系統功能指標基礎設施服務層(Iaas)結合大數據云平臺工程前端應用,依托市政務數據中心,基于市統一的基礎設施層技術體系,結合市統一的云服務平臺相關技術規范和參數,選擇配置完善主機、存儲、網絡、操作系統等基礎設施標準,考慮采用虛擬化硬件技術、分布式存儲技術、并行編程模式、分布式資源管理、云計算平臺管理、認證服務、證書服務、加密服務等技術功能,實現數據容災、快速回復、快速部署、客戶服務、業務與運營支撐系統,具備大數據計算能力、存儲能力、安全防護能力,打造集數據存儲、管理、統計、分析等功能為一體的“數據中樞”,構建大數據云平臺工程建設基礎設施層。平臺服務層(Paas)在基礎設施服務層基礎上構建大數據云平臺工程建設和升級所必需基礎服務平臺,主要包括地理信息服務、流程服務、建設數據分析服務、系統和權限管理等。升級完善地理信息服務升級改造流程服務建設數據分析服務大數據云平臺工程要依托自身建立的“塊數據關系庫”進行社會治理數據的分析和挖掘。大數據云平臺工程進行數據分析和挖掘的目的可以分為決策支持、精準推送和態勢感知三個方面。大數據云平臺工程的決策支持有別于傳統專業化系統通過數據分析生成的支持數據報表?;凇皦K數據”的大數據云平臺工程,其數據分析重點在于“關系”。它通過分析人與人、人與物、人與事、事與事之間的關系。例如留守兒童與當地學校類型和數量的關系、低保人員的低保金額與地區平均消費水平的關系、空巢老人與當地就業崗位之間的關系等等。通過這些關系的分析讓政府管理者能夠找到社會問題的根源,避免了傳統管理方式中出現的“頭疼醫頭、腳疼醫腳”現象,使政府的資源能夠發揮出最大效果。政府對老百姓的精準推送也是需要大數據云平臺工程中對“塊數據”進行分析和挖掘作為基礎的。通過大數據云平臺工程對社區百姓生活狀態分析,結合醫療、教育、房屋、車輛等相關信息進行挖掘,可以找到社區百姓近期所需要的政府服務項目。例如大數據云平臺工程通過數據的分析,得知某一居民處于適婚年齡,并在醫院建立孕婦檔案。大數據云平臺工程通過這些數據的分析可以判斷出此居民在未來幾個月中辦理準生證、新生兒戶口的可能性較大。此時大數據云平臺工程可以通過社區、APP等應用向社區工作人員推送提醒信息。對“塊數據”的分析和挖掘將為大數據云平臺工程賦予態勢感知的能力。所謂態勢感知在大規模系統環境和數據中,對能夠引起系統態勢發生變化的安全要素進行獲取、理解、顯示以及預測未來的發展趨勢。立足于政府的社會治理,大數據云平臺工程對“塊數據”進行分析和挖掘所產生的態勢感知的能力將有助于政府部門感知和預測社會風險,做到提前部署、防患于未然。例如對于社會敏感人員,通過大數據云平臺工程的數據分析發現其在某一特殊時期的交通行動軌跡、通信聯絡范圍存在異常,則相關部門管理人員可以提前部署,將社會風險扼殺在搖籃中。系統和權限管理系統和權限管理模塊是對應用系統用戶按照權限進行訪問控制的管理,負責整個大數據云平臺工程的配置、維護和管理工作,該系統采用工具化思想,實現不同功能的參數配置,實現不同的業務使用單位和不同級別的用戶分別賦予其業務系統的使用權限。應用服務層(Saas)應用層系統功能指標包括:1、實現社區“一次錄入、多部門共用”的功能,網格員采集數據、共享數據通過大數據云平臺工程平臺分發至其他部門業務系統;2、實現問題的受理、立案、派遣、處置、復核、結案的閉環工作處理路程;3、搭建社會組織、社工機構、志愿者與居民群眾的溝通橋梁,實現公益活動供需管理;4、PC端采用瀏覽器方式訪問,支持IE7.0、IE8.0、Chrome16.0、Firefox6.0等以上版本的主流瀏覽器;5、網格員上報和處置應用、各級管理者應用、公眾訪問應用等支持手機APP方式訪問;支持iOS和android系統;6、公眾訪問支持微信和APP訪問。信息量指標針對調研的結果,大數據云平臺工程設計為主要存儲關系信息、事件信息、以及相關的照片等信息資源。其中關系型數據估算前期數據如下表:表SEQ表\*ARABIC1信息量指標表描述信息數據量(單位:條)信息量(單位:MB)評估存儲(單位:GB)人口信息50000000.1500.0企業信息800000.18.0社會組織信息50000.10.5設施信息15000000.1150.0房屋信息1000000.110.0城區地理信息3001500450.0農村地理信息7734100773.4呼叫中心信息20000000.1200.0公益信息100000.11.0社區服務信息1000000.110.0合計2102.9再加上其他信息(包括主鍵、外鍵、索引、冗余的存儲,按信息總量的40%計算),建議需要數據庫存儲空間3T(前期可以先租用較小的空間,根據實際需要再擴大容量)。針對所有的證照資料(包括照片、身份證掃描信息、證明材料圖片、事件上報圖片等),初步預計存放5000萬張照片,平均每張大小0.2M,需要10T磁盤存儲空間。針對12345熱線本身的事件數據(按照目前每月5萬條,每條0.2M計算),每年的數據增量為120G,按照系統10年的設計壽命計算,即需要1.2T磁盤存儲空間。針對門戶網站、APP、微信的訪問來看,每年的業務數據增量為100G足有,10年需要1T磁盤存儲空間。綜上所述,大數據云平臺工程所需的信息量指標為15T左右。系統性能指標總體性能指標互聯網應用支持并發終端數≥500;政務網應用支持并發終端數≥500;系統控制操作響應時間≤2s;數據瀏覽響應時間≤2s;一般數據查詢響應時間≤4s;大數據分析處理時間≤1min;統計輸出時間≤5s;雙機負載均衡/熱備用切換時間≤25s;平均年故障時間<24小時;平均故障修復時間<30分鐘當系統處理能力不足時,可通過增加相應的節點和處理能力來實現系統處理能力的動態增長。網絡平臺性能要求數據傳輸網絡暢通、快捷、可擴展。核心網絡要求設備、線路均具有冗余,設備處理能力滿足業務高峰期需要。整網帶寬滿足業務高峰期需要。系統平臺性能要求采用通用性好、安全可靠的操作系統以及大型數據庫系統,以保證系統良好的性能。應用系統性能應用系統性能應滿足用戶的要求,穩定、可靠、實用。人機界面友好,輸出、輸入方便,圖表生成美觀,檢索、查詢簡單快捷。系統采用便于升級的模塊化設計,包括采用軟件升級來簡化系統擴展和修改,模塊組合可以根據需要來選擇。提供標準的網絡通信應用層協議和應用基本函數及調用接口。總體建設方案總體設計原則總體規劃、分步實施大數據云平臺工程建設涉及到各地區和多個部門,要進行統籌規劃、總體設計和分級實施。為了避免各業務系統獨立建設而導致的無法共享和數據交互的問題,在建設之處需要按照國家制定的相關標準規范進行建設,實現社會治理業務系統和技術支撐系統的有機結合。先易后難、循序漸進大數據云平臺工程的建設從建設規模、建設思路、建設內容和建設所用的技術都是一種全新嘗試和摸索,是對建設單位能力的考驗。在大數據云平臺工程建設過程中要將遇到的問題和困難進行排序,優先解決簡單問題,穩扎穩打,分階段出成果,逐步見效、逐步優化。利用現有、整合資源本著節約的原則,突出建設重點,注重高效實用,充分利用已有基礎,防止推倒重來、重復建設。整合各級、各部門社會治理所需資源,尤其在數據層面,針對已經建成的平臺要采用多種技術手段進行整合和共享。在應用層面,大數據云平臺工程處理利用好政府資源以外,還要整合社會服務資源,為群眾提供更好、更全面的服務。數據集中、標準統一大數據云平臺工程的建設,需要將各級政府部門開始將數據相對集中起來,保證資源的高度利用以及通過相關的技術保證數據和應用的絕對安全和穩定。同時,統一各業務系統的數據字典,減少數據定義的二義性。對數據實行單點維護,明確數據責任部門和使用部門,確?;A信息的可靠性和一致性。建立統一的存儲資源標準、性能標準、安全標準,提高數據訪問控制能力,降低關鍵業務數據的安全隱患。模式創新、不走老路大數據云平臺工程建設以“大數據”為創新模式,以“網格化管理”數據為基礎,融合政府各專業職能數據和社會數據,以數據驅動業務應用,從而避免傳統信息化建設中出現的“信息孤島”、“信息壁壘”的問題。定位準確、邊界清晰大數據云平臺工程的建設是要搭建一個政府與社區群眾暢通的溝通橋梁,要通過大數據的分析挖掘社會群眾的服務需求、識別社會風險,并將社會需求和風險傳遞和提示給政府相關部門進行處理。大數據云平臺工程的建設要避免與其他政府專業部門的應用交叉,避免重復建設和職責不清。功能齊全、先進適用在系統的總體設計上,借鑒各類系統的成功經驗,同時注重吸取同類系統的建設教訓。在技術上,充分考慮大數據云平臺工程的現狀和特點,在注重系統的實用性的前提下,應著重考慮云計算、大數據等先進的技術理念。在軟件的開發思想上,加強核心技術的自主研發和應用,嚴格按照軟件工程的標準和面向對象的理論來設計,保證系統的先進性。安全穩定、保護資源由于整個系統所涉及的很多數據不宜對外開放,這些數據的安全性至關重要。因此,系統應遵循安全性的原則。大數據云平臺工程設計時將安全性問題分為以下三種情況:一是防止外部非法用戶訪問網絡;二是防止內部合法用戶的越權訪問;三是意外的數據損害。為了提高系統的安全性,在設計時就需要考慮整個系統安全性。立足當前、著眼長遠大數據云平臺工程建設工作要以需求為向導,以應用促發展,把當前和長遠結合起來,既要滿足當前工作需要,又要適應未來技術的應用和發展,不斷提升應急平臺技術應用水平分期目標本著“總體規劃、分步實施”和“先易后難、循序漸進”的建設原則,大數據云平臺工程建設將分兩期完成。一期建設目標1、搭建政府與社會群眾之間的溝通渠道,政府能夠第一時間通過各個渠道了解社會群眾的需求。2、建立全市各級社工委事件處置平臺,跟蹤社會群眾問題事件的處置過程,對各級部門問題事件的處置數量和質量進行考核。3、打造數據平臺數據管控體系,定義數據管控組織和職能;定義數據管控工作辦法和管理流程;搭建數據管控平臺,包括數據標準、元數據和數據質量管理平臺,重點是元數據管理平臺;制定數據標準;4、建立社區網格化“塊數據關系庫”,以社區網格為中心管理網格內人、地、物、事、組織、情的關聯關系。5、強化社會公益和社區服務支撐能力,為社會團體、志愿者、社區服務人員精準推送需求信息。6、整合數據資源,通過大數據分析,挖掘社會群眾需求,識別社會風險,為領導決策提供支持??傮w建設任務與分期建設內容總體建設任務市大數據云平臺工程分為兩期建設,從建設內容上來說,兩期的建設內容是逐步完善、優化、擴展的關系。大數據云平臺工程的總體任務包括:建立政府和社會、和民眾暢通的溝通渠道,從多個渠道收集、分析、挖掘居民群眾的迫切需求;強化黨委統籌,加快向社會組織、居委會等方面的延伸,引導社會組織入駐,強化社區黨委的統籌功能,形成了社會共治的良好局面。依托市數據交換平臺,建設網格化社會治理的塊數據,并優化升級網格化管理系統,夯實基層社會治理工作;采用租用的統一云平臺的方式搭建系統運行環境,促進市云平臺產業的應用落地;系統總體結構和邏輯結構總體架構大數據云平臺工程的總體架構分為應用層、支撐層、數據層和基礎設施層,系統載體包括PC端系統、移動應用系統和微信應用系統三部分,總體架構圖如下所示:圖SEQ圖\*ARABIC1總體架構應用層大數據云平臺工程是一個數據驅動應用的“大數據”系統,其應用的深度、數量、功能會根據系統所融合的數據量和數據范圍有所變化和調整。目前已確定的應用包括“網格化管理系統”、“社會動員管理系統”、“社區綜合服務系統”和“社會分析決策支持系統”四大系統,以及相應的移動化應用。應用系統的詳細介紹將在第五章進行闡述。支撐層支撐層保證應用系統正常運行的核心。大數據云平臺工程的支撐層包括“地理信息平臺”、“流程引擎”、“ETL”、“數據調度”、“數據管控”等。各個支撐平臺的應用是將成熟的技術進行封裝,便于系統開發人員調用,使開發人員可以將主要精力放在業務應用系統的開發中,從復雜的底層技術中脫離出來,從而提高系統的建設效率。源系統數據抽取為保證業務數據的安全性,一般數據采用源系統主動落地的方案。源系統將導出的數據以文本文件的形式存儲在統一數據交換共享平臺中,供數據平臺獲取使用。技術緩沖層技術緩沖層直接對統一數據交換共享平臺的文本文件進行加載,采用hdfs并行加載的方案,將數據存儲到hadoop平臺中。為保證數據的上傳效率,可采用壓縮算法對數據文件進行壓縮,提供數據傳輸的效率。并且由于hadoop平臺在數據處理時,可以對壓縮文件進行自動解壓,因此可以提供數據處理的效率,減少IO傳輸時間。整合層整合層對于業務數據的存儲,采用第三范式關系表的形式,這樣可以方便后續數據分析時直接采用SQL方式進行表的關聯處理。因此在整合層,歷史數據存儲一般采用HIVE存儲方式,并結合分區方案進行處理。在數據從技術緩沖層到整合層過程中,可以采用PIG對抽取的增量數據進行過濾、轉換、格式控制等。在進行元數據管理方面,各層數據統一采用Hcatalog進行管理,保證pig、hive能同時進行相同數據的訪問,保存處理的數據格式統一。由于采用統一的hcatalog管理,因此在pig進行數據清洗后,可以直接將數據存儲到整合層的hive表中。匯總層匯總層又叫共性加工層,主要特點是針對特定應用邏輯,對數據平臺中存儲的業務歷史數據進行加工匯總和分析,供后續的業務應用和集市使用。例如客戶數統計、客戶交易筆記統計等。匯總層的作用即時提取常用的共性分析結果進行存儲,為后續應用提供系統的數據支撐。數據層數據層作為大數據云平臺工程的核心建設內容,采用目前最先進的Hadoop大數據技術,存儲來自于網格化管理、社區、各專業部門、社會組織、互聯網等若干渠道的數據。在大數據云平臺工程工程的數據層,將為這些數據建立各自的主題域,更重的是建立各類實體數據的關聯關系。數據層的建設情況主要涉及以下幾個方面:源系統指數據層上游的業務數據產生系統。是數據平臺的主要數據來源。主要包括:公安系統的人口基本信息數據、房管系統的房屋信息數據、交通系統的交管信息等。這些數據可能包含結構化數據、非結構化數據、多媒體數據等。數據層需要統一處理和存儲,為后續的數據消費系統的使用提供數據支撐基礎。統一數據交換共享平臺基于市政府數據交換共享平臺進行,是源系統與大數據云平臺工程數據層之間數據傳輸與交換的主要通道。統一數據管控平臺主要是對元數據、數據質量、數據標準進行統一的管理。元數據管理主要包括元數據抽取、元數據分析、元數據導出等功能;數據質量管理主要包括制定數據質量規則、分析數據質量問題、跟蹤數據問題和生產報告;數據標準管理主要包含制定數據標準、數據標準導入、數據標準分析等功能。統一調度平臺用于管理數據層批處理任務的依賴關系配置、系統資源配置、任務并發與互斥、系統跑批進度監控、作業跑批狀態監控、數據抽取與下發監控等。數據整合平臺數據整合平臺是數據層的建設核心。會對上游數據生成系統的結構化與非結構化數據進行統一的抽取、清洗、處理、加工、匯總、下發等。為下游的業務系統運行、業務系統分析、決策支持等提供強大的數據服務支持。基礎設施層本次建設的大數據云平臺工程將利用成熟的云架構Issa服務平臺作為基礎設施層。在Issa平臺中要為大數據云平臺工程提供基礎的網絡設備、服務器設備、存儲設備等基礎設施,并且通過防火墻等網絡安全設備和機制保證大數據云平臺工程的網絡和設備級的安全保障。安全防護體系大數據云平臺工程建設將從應用級、數據級、網絡級、設備級多層次考慮和建設系統的安全防護體系,同時應用先進的安全技術配合相應的安全管理機制來保證大數據云平臺工程工程的整體安全。標準規范體系大數據云平臺工程的建設將遵循國家、省、市及行業相關的各項標準和規范進行設計和建設。技術架構本系統技術架構采用現階段比較流行的Web應用程序開源框架,即struts+spring+hibernate的一個集成框架。具體架構圖如下:圖SEQ圖\*ARABIC2技術架構圖本系統框架從職責上分為四層:表示層、業務邏輯層、數據訪問層和數據持久層,以幫助開發人員在短期內搭建結構清晰、可復用性好、維護方便的Web應用程序。其中使用Struts作為系統的整體基礎架構,負責MVC的分離,在Struts框架的模型部分,控制業務跳轉,利用Hibernate框架對持久層提供支持,Spring做管理,管理struts和hibernate。具體做法是:用面向對象的分析方法根據需求提出一些模型,將這些模型實現為基本的Java對象,然后編寫基本的DAO(DataAccessObjects)接口,并給出Hibernate的DAO實現,采用Hibernate架構實現的DAO類來實現Java類與數據庫之間的轉換和訪問,最后由Spring做管理,管理struts和hibernate。信息資源規劃和數據庫設計數據模型規劃大數據平臺主要實現對明細數據的存儲、整合和加工處理,以及涉及歷史數據的深度復雜處理,大數據平臺是管理分析型系統的主要數據來源。從數據架構的角度大數據平臺劃分為四大數據層次,分別是數據緩沖層、整合模型層、共性加工層和應用層。這四層的劃分并不是簡單的遞進關系,而是相互補充相互完善的關系。具體數據架構見下圖:圖3數據架構數據緩沖層數據緩沖層與源系統的數據結構一一對應,它是數據存儲的臨時存儲區域。方便數據處理重跑及應用系統數據過渡至大數據平臺。整合模型層面向分析型業務主題建立三范式模型,構建全系統級的單一數據視圖,模型擴展性強且具有業務中立性,用于支持各類整合型的分析型應用。共性加工層依賴于對應用共性需求的的分析,提煉出對數據集成平臺具有共性的數據訪問、統計需求,從而構建出的一個面向應用的、提供共享的數據訪問服務的公共數據。共性加工層主要基于整合模型層實現。數據應用層各應用系統存放的用于前端應用訪問數據,方便用戶靈活、動態、快速、多角度、多層次的業務數據。數據整合原則數據來源數據包含的是社會和云系統內部和社會和云系統外的業務系統數據。外部系統包括公安、民政、計生、稅務、國土等系統的數據,數據來自于數據交換共享平臺。表SEQ表\*ARABIC2大數據平臺數據來源標準表系統歸屬數據來源數據內容外部系統公安系統人口戶籍信息,人口的親屬關系人社部門城市人口社保信息,人口與公司關系衛計部門農村人口社保信息工商部門公司基礎信息民政部門社會組織信息編辦組織機構單位信息住建部門房屋基礎信息禁毒辦吸毒信息教育局教育信息內部系統網格化管理系統投訴、建議、咨詢事件信息、事件處置信息、社情民意信息、重點特殊人群信息社會動員管理系統公益活動信息、社會求助信息、公眾服務信息和志愿者信息社區綜合服務系統社會綜合服務信息數據整合概述數據整合的將多個數據來源系統的數據按照大數據云平臺工程的要求,將數據抽取、清洗、轉換、加載并將數據重新組織,形成有利于業務人員理解和分析使用的正確數據存儲形式。從一個人口信息查看整個大數據平臺信息。技術緩沖層設計設計原則技術緩沖層需要保持源系統的原貌,不對數據進行大量的改造和調整,只進行一些常用的標準化處理。數據特點1、數據結構和源系統保持一致。2、數據按照抽取的頻率和增全量進行存儲,每個頻率單獨保存一個表文件,而且存儲周期不需太長,能滿足后續其他層次的需求即可。3、技術緩沖層是為ETL服務的純技術層,不對外提供數據服務。數據來源技術緩沖層的數據包含的是社會和云系統外的業務系統數據,例如:公安、民政、計生、稅務、國土等系統的數據。數據來自于數據交換共享平臺,包含增量和全量的數據。整合模型層設計模型設計思路借鑒數據模型的建設思路、利用在政府數據模型領域的實踐經驗、結合市網格中心的需求進行整合層模型層的設計。整合層模型采用面向主題的設計方法,有效組織來源多樣的業務數據,使用統一的邏輯語言描述相關業務,保證了數據的一致性。在此基礎上可以進行多種不同應用的開發設計,滿足不同部門的業務需求和不同的數據訪問方式,真正實現數據一次導入,多次使用。它所遵循的設計原則主要包括:中性整合模型層具有應用中性的特征。整合層模型從業務邏輯角度以關系模型方法進行建模,涵蓋了所有的業務范圍,并可以滿足不斷產生的業務發展需求。整合模型層采用的這種語義關系建模的設計方式,保存了各種分析性應用需要的所有業務數據以及這些數據之間重要的業務規則,體現了其作為大數據云平臺工程基礎數據層滿足不同應用對數據的使用需求的功能。整合層模型不為任何特定的應用進行針對性的設計,模型不會由于現有應用的變動或者對新應用的支持而在結構上重構,這體現了模型對應用支持的中立性。一致性作為基礎數據平臺設計基礎的邏輯數據模型必須在設計過程中保持一個統一的業務定義,比如人口的分類等應該在整個系統內部保持一致,將來各種分析應用都使用同樣的數據,這些數據應按照預先約定的規則進行刷新,保證同步和一致。如外部系統和社會和云內部系統數據必須依照一套相同的存放規則進行處理,它們和其他數據的關聯以及刷新的頻率等都應該保持同步。靈活性整合層模型是一個基本上滿足第三范式要求的語義關系模型,這種設計方法能夠最大程度上減少冗余。第三范式的設計同時保證了整合層模型的靈活性和擴展性。面對新的需求,整合層模型的這種結構能夠進行簡單、自然的擴展。這種特性使得整合層模型在設計過程可以“想大做小”——在有一個全局規劃的同時,選定某些部分入手,然后再逐步進行完善。比如可以從通過一個居民的基本信息資料、房產信息入手進行簡單的分析,然后補充居民的公安、民政、稅務等信息,延伸至全面的人口統一視圖。滿足詳細粒度要求為了滿足將來不同的應用分析需要,整合層模型能夠提供最小粒度的詳細數據以支持各種可能的分析查詢。以這些最小粒度的詳細數據為基礎,可以根據不同的統計分析口徑匯總生成所需的各種結果。在整合層模型中,不對詳細數據按特定需求進行篩選或者加工。滿足歷史數據存儲要求為了滿足存儲歷史數據,又盡量考慮減少數據存儲空間。對于非事件的數據,采用歷史拉鏈表的存儲方式;對于事件數據,采用只保留最新數據的存儲方式。主題劃分此數據區按主題存放數據,主題劃分如下:表SEQ表\*ARABIC3整合模型的十大主題主題中文名稱主題英文名稱模型英文簡稱人口PopulationPOP組織OrganizationORG事件EventEVT服務ServiceSRV民情ConditionCON房屋房產EstateEST公共設施CommunalFacilitiesCMF空間地理GeographyGGP參考項ReferenceREF代碼表CodeCD每個主題不是孤立存在的,相互之間是有關系的。例如:人口主題與組織、空間地理、房屋、事件、民情和服務六個主題有關系。這些關系數據會存放在相應的關系表中。圖SEQ圖\*ARABIC4主題關系圖以一個居民的視角,查看到與其相關的所有信息。包括:其基本的屬性信息、其居住的房屋的信息、其投訴的事件、其工作的單位、其居住地區的周圍設施等信息。圖SEQ圖\*ARABIC5主題關系示例圖數據使用主題劃分的方式存放后,數據與數據之間的關系更為清晰,對進一步的分析決策提供了數據基礎。由上面的例子數據,我們可以進一步進行數據分析。通過對居住房屋的數據和戶籍數據的分析,得出張老伯是獨自居住,若該社區開展老人服務活動時,應該是重點關注對象。其反映了希望建設社區醫院的民情需求,對該網格數據的分析我們得出該網格周邊沒有醫院,同時該網格人口分布情況為65歲的老人占其比例的45%,因此,我們可以得出張三老人反映的民情是應該采信,并相應提出解決方案。主題說明如下:POPULATION(人口)人口(Population):是指全市的全部人口,包括常住人口和流動人口。數據項包括人口基本信息、公安數據、社保數據、計生數據、民政數據、稅務數據、教育數據等,使用證件類型、證件號碼、姓名作為人口的唯一識別信息,將網格員補錄的人口數據與外圍系統(公安、社保、計生、民政、稅務)數據進行整合,形成完整、全面的人口數據。借助人口主題的建立可以實現基于人口信息的分析,是實現以人口為中心的各種分析應用的重要基礎。POPULATION主題的數據是社會和云系統的關鍵數據要素,也是構建基于大數據平臺的各類應用的不可或缺的數據基礎,在以人口為中心的數據分析決策過程中,這些信息顯得尤其重要。圖SEQ圖\*ARABIC6人口主題模型以一個人口信息為例,看數據是如何存放的。圖SEQ圖\*ARABIC7人口主題關系數據示例人口與其他主題的關系模型示例如下:圖SEQ圖\*ARABIC8人口與其他主題的關系模型關系表將人之間的關系和人與房屋、組織的關系統一存放,當新增關系種類時,不需要修改模型,只需要增加關系種類代碼,模型擴展性強。例如:人口關系歷史將存放人與人之間的關系,包括從戶籍信息取得的親屬關系、從教育信息得到的同學關系、從工作信息得到的同事關系等各種關系。通過該表可以展示出人與人之間的結構圖,如下圖所示:圖SEQ圖\*ARABIC9人與人關系圖圖SEQ圖\*ARABIC10親屬關系圖ORGANIZATION(組織)組織(ORGANIZATION)是指人們為實現一定的目標,互相協作結合而成的集體或團體,如法人單位,非營利性社會組織、個體戶、政府機關、事業單位。組織主題分為機關事業單位、社會組織和經濟組織三類等。數據包括組織登記數據、組織資質數據和組織監管數據,數據來源于編辦、稅務局、工商局、質量技監局、社團局及其他相關委辦單位。圖SEQ圖\*ARABIC11組織主題模型EVENT(事件)事件(EVENT):包括群眾來訪、群眾來信、群眾來電、領導批辦、上級交辦、其他部門轉來、排查發現、新聞媒體曝光和其他方式收集的咨詢、建議和投訴。事件分為社會糾紛、安全生產、環境秩序、社會治安、出租房屋。事件主題所包含的信息是進行決策統計分析所需的核心數據。圖SEQ圖\*ARABIC12事件主題數據存儲關系示例圖SERVICE(服務)服務(SERVICE):包括是政府機關、社會群體、企事業單位提供的各類服務于廣大居民的服務,包括公益活動、證件辦理等的相關數據。公益活動的數據主要來源于社工委社會組織工作處、各類樞紐型社會組織等,其他部門的服務數據來源于相應的部門的業務系統。圖SEQ圖\*ARABIC13服務信息關系示例圖CONDITION(民情)民情(CONDITION):包括是以社區為單位,形成居民反映的基本民情信息。ESTATE(房屋房產)房屋房產(ESTATE):是指房屋的物理數據(丘、幢、戶)和權屬數據,包括公用建筑、民用建筑、工業廠房、商業建筑。數據來源于房管局和網格員采集的數據。圖SEQ圖\*ARABIC14房屋主題模型COMMUNALFACILITIES(公共設施)公共設施(COMMUNALFACILITIES):通過城市公共設施的普查,構建全市公共設施的基礎信息。圖SEQ圖\*ARABIC15公共設施主題模型GEOGRAPHY(空間地理)空間地理(GEOGRAPHY):從國土、測繪等部門獲取基礎地形圖,經過地理信息的補測、修正形成大數據云平臺工程系統的空間地理信息,同時包含網格數據。REFERENCE(參考項)參考項(REFERENCE):包含宏觀經濟、政策指引等決策支持信息。CODE(代碼表)代碼表(CODE):包含所有的代碼表信息。數據整合數據整合的輸入是從數據交換共享平臺取得的各個部門系統的數據文件。系統先要對文件進行預處理,然后再加載源系統表,最后根據數據整合規則將源系統數據加載到整合層數據模型。1、文件預處理系統需要在收取數據文件之后自動開始文件預處理(文件解壓,去文件尾),并將處理完的文件放到特定的服務器目錄下。文件預處理需要充分考慮效率和資源占用情況,保證處理過程正確完整。由于源系統文件有些按日下傳,注意解壓文件最好按照數據日期的目錄存儲。同時需要有文件清理的機制,保證系統不會過量的占用存儲資源。2、數據加載預處理完的文本文件需要按照源系統數據字典的定義加載到數據庫中。加載方式可以采用LOAD方式或者外表方式。注意制定源數據表的命名規范,避免重名的數據表定義出現。3、數據整合數據整合主要是將源數據表里的數據加載到整合層數據模型,將從十幾個部門系統的數據在整合層中按照主題存放。對于代碼字段要按照市統一的數據標準進行標準化處理,例如:婚姻狀況屬性在公安、民政、計生的編碼不一致,在整合層存儲時要將其進行標準化,將其代碼統一。4、整合數據的范圍包括網格化管理系統、12345公共服務熱線、社會動員管理系統、社區綜合服務系統、公安局、社保局、計生委、民政局、稅務局、教委、工商局、質量技監局、社團局、房管局等系統數據。屬性覆蓋因從多個部門取數,會出現屬性不一致的現象,原則上以數據產生系統的數據為準。對于有明確來源系統的屬性項,在數據整合時會以該系統為準,例如:房屋信息以房管局的信息為準,不再取其他系統的數據。對于沒有明確來源系統的屬性項,在整合層會將多個數據源的信息都保存。當出現多個數據源數據不一致時,將向網格人員生成信息核對任務,由網格人員進戶核對信息維護到網格化管理系統中,同時將確定本系統最終認定的屬性項。以婚姻狀況為例,公安、民政、計生都有婚姻狀況,但不能認定其以哪個部門為準,因此在其數據存放如下:圖SEQ圖\*ARABIC16數據屬性覆蓋存放模型共性加工層設計設計原則需求驅動共性加工層是因為需求而產生的,所以一定要基于需求。提煉共性共性加工層是提煉不同應用公共指標,提煉的程度太高會失去共性加工層的意義。架構分明在共性加工層再分明細層和共性加工層,明細層是主要是人口主題的擴展。共性加工層是除人口外的其他主題業務呈現。為了便于使用和管理,可根據數據匯總加工的粒度不同,明確其分層分類方法,使其層次清晰。迭代開發共性加工層的建設是一個循環往復的過程,不可能一步到位。隨著應用的增加,共性加工層會不斷的豐富,提升其業務價值。設計思路共性加工層的設計思路通常有視圖和物理表兩種方式:1、視圖視圖的加工邏輯寫在視圖定義中,由數據集市開發人員建立。當業務應用人員需要訪問這些加工數據時,直接通過視圖進行檢索。當然數據庫實際執行時還是要按視圖定義,到基礎層進行查詢。視圖的優勢在于:視圖本身并不存儲數據,不需要額外的空間開銷;視圖的邏輯是寫在視圖定義中,不會提前按此邏輯預加工生成數據,修改邏輯時就很容易;視圖本身不存儲數據,對于稍有不同的需求就可以建多個視圖來實現,不會形成任何額外存儲開銷。視圖的劣勢在于:在視圖的實際操作訪問時,是按視圖定義中的邏輯展開,在基礎層中進行查詢。視圖邏輯很復雜時,實際的數據庫資源開銷還是很大的,查詢速度也會比較慢;當多個人在同一天要多次訪問同一個視圖時,就會重復消耗數據庫資源,同時每個人都會面對較長的查詢等待時間。2、預加工物理表預加工物理表將加工邏輯寫在ETL程序中,由開發人員開發,定期運行這些程序將最終所需的數據加工好放在物理表中。當業務應用人員需要訪問這些數據時,直接訪問這些已經預加工好的物理表即可。預加工物理表的優勢在于:復雜的加工邏輯已經在ETL程序運行時一次性的處理完畢,訪問效率會比視圖要好;基于物理表上有很多提高查詢效率的技術可用,而視圖可能就無法使用這些技術,預加工物理表可以適當采用這樣的技術以進一步提高查詢效率;基于基礎層表的復雜的加工邏輯已經在ETL程序運行時一次性的處理完畢,當需要多次訪問時節約開銷和提高效率的優勢就會體現的更充分。預加工物理表的劣勢在于:預加工物理表本身需要存儲數據,需要額外的空間開銷,特別是當目標數據集較大時,這些開銷還是非常可觀的,還會引出一個數據保留周期的問題;預加工物理表的邏輯是寫在ETL程序定義中,會提前按此邏輯預加工生成數據,因此修改邏輯時就很復雜,而且還涉及歷史數據的問題;預加工物理表管理相對復雜,成本較高,增加刪除需謹慎,且數量亦不適合太多。在共性加工層設計時視圖和物理表的選擇是一個比較復雜的問題,不可一概而論。最重要的決定因素是系統的配置情況,其次還有用戶對于查詢的效率期望值,中間表數據被重用的可能性,表數據量的大小等。實現方式共性加工層的實現方式主要有三種,分別為預鏈接、預計算和預聚合。1、預連接預連接指的是原來分散在整合模型層中的很多信息根據應用的需要進行預連接,這種預連接可以有不同的實現方式,比如可以采用物理表,也可以采用視圖。2、預計算預計算在整合模型層中難于計算,通常是規則比較復雜,或者計算一次所需的時間比較長的數據預先計算出來,但粒度不變,仍為最細的人口粒度;對于需要預計算的數據,因為業務邏輯比較復雜,建議采用物理表的方式。3、預聚合預聚合維度建模方式對整合模型層和共性加工明細層進行匯總和聚合,不再是最細粒度了。對于預聚合,也將采用物理表與視圖結合的方式,但因為預聚合的粒度已經比較粗了,所以數據量上也會減少很多,所以可以適當的多采用物理表的方式,以節約系統資源,提高查詢效率。數據應用層設計數據應用層定位四大應用系統做為社會和云系統的一個子集,他主要面向某個特定的應用。其定位包括:1、大數據平臺有大量的數據;應用系統中的數據更多的是大數據平臺的子集,主要是基于大數據平臺之上來建立的。2、大數據平臺只適于少量的靈活訪問;而應用系統適合大量的非預知的數據的訪問和分析。3、應用層主要是面向應用而設計的,可以面向特定應用需求而設計數據結構;4、應用層的建設可以以3NF方式進行設計,也可以采用星型模型或多維模型的方式進行設計;5、大數據平臺內存儲了很長時間范圍內的數據—從5年到10年,而應用集市數據則可根據應用的需要靈活掌握;6、大數據平臺允許分析人員以受限的形式訪問數據,而應用集市允許自由的訪問。設計原則應用數據與系統數據字典的數據分開存儲于不同的表空間。按應用劃分數據,不同應用的數據應存儲于不同的表空間,便以數據處理及前端查詢。按業務管理需要獨立處理或維護的數據,例如獨立進行數據備份或清理,應考慮存儲在獨立的表空間。表和索引分開存儲于不同的表空間,以便分布到不同的數據文件、硬盤上,并分別進行不同的物理存儲參數優化。并行存取的多個分區,應考慮存放在不同的表空間,以控制分區分布到不同的數據文件、硬盤上。相對靜態的表和頻繁變動的表分開存放在不同的表空間,以便分別進行不同的物理參數優化。數據庫服務架構基于云計算平臺,將關系型數據庫的能力以服務的形式提供給用戶,同時具有傳統關系型數據庫軟件系統常見的功能,又具備更多優勢。目前需要支持MySQL數據庫,后期會擴展到Oracle、MSSQLServer和PostgreSQL等。數據庫服務能夠實現對Oracle、MSSQLServer等資源的應用,可以采用物理機和虛機的方式整機部署分發的方式,也可以采用高性能物理機部署后采用數據庫自身的管理系統進行實例的分發。圖SEQ圖\*ARABIC17數據庫整體架構其主要功能包括:實例管理,包括創建實例、增刪改實例、重啟實例、讀寫分離主從設置等;數據遷移,將數據導入導出實例;數據備份與恢復,可設置自動備份策略或者隨時手動備份,支持物理備份和邏輯備份,支持全量備份和增量備份,支持刪除備份,支持從備份點文件恢復;數據庫與帳號管理,對數據庫及數據庫帳號進行增刪改查等操作;數據庫參數配置,用戶可靈活自定義數據庫參數,使數據庫性能最優化;運行監控,直觀呈現實例的資源使用情況,以及數據庫引擎的各項參數指標運行狀況;日志管理,對錯誤日志和慢日志進行統計分析,為用戶優化數據庫性能提供參考信息。應用支撐系統設計大數據基礎平臺設計概述大數據數據應用平臺以Hadoop及其相關技術為核心,提供海量數據存儲和數據查詢、挖掘分析能力。通過集成系統中各來源的結構化數據和半結構化數據,一方面將各級職能部門結構化信息進行統一管理,另一方面將內網上相關信息加以融合。大數據平臺將結合其他各個業務系統,集成各種數據源后,搭建統一集中大數據處理和分析平臺,從全方位,多角度為運營決策提供強有力的幫助。Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺,可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:高可靠性Hadoop在文件存儲和處理數據的能力值得信賴。高擴展性Hadoop是在可用的計算機集群間分配數據并完成計算任務的,這些集群可以方便地擴展到數以千計的節點中。高效性Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非???。高容錯性Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。技術方案物理架構設計方案大數據平臺的物理架構實現是十分復雜且技術難度較大的過程。參考目前流行的大數據設計理念和先進技術,設計大數據平臺集群物理架構圖如下:圖SEQ圖\*ARABIC18大數據平臺集群示意圖其中主要包括的機器節點描述如下:ResourceManage此節點用于運行計算框架YARN的主服務節點,控制整個集群的計算資源的分配和調度。需要有兩個節點。NameNode此節點用于Hadoop集群中的HDFS文件系統的存儲主節點服務,控制所有集群中的文件存儲相關分析和管理。需要兩個節點。HMaster此為Hbase的數據庫相關服務的主節點,需要部署兩份。DataNode此節點主要用于分布式的存儲、計算應用。會部署Hbase、HFDS、YARN等相應的從節點服務。OtherComponents機器用于規劃安裝一個額外的計算組件、數據庫、監控工具等。WebService用于集群的對應服務應用的安裝,如歷史數據查詢的接口服務。關鍵點設計及推薦架構1、Hadoop集群高可用設計方案Hadoop采用zookeeper集群實現HDFS、YARN、HBASE、HIVE等集群組件的高可用。所有的重要服務都是雙份,通過Zookeeper實現實時的監控。若出現活動狀態的主節點故障時,Zookeeper監測到故障,立即將另一個備用狀態的主節點激活為活動狀態,保證了集群不會出現運行中斷。同時,在Hadoop集群中,最重要的是保證HDFS數據不會丟失,實現的方式就是通過JournalNode集群,實現兩個NameNode節點間的元數據實時同步,保證元數據不會丟失,也保障也集群的數據安全性。圖SEQ圖\*ARABIC19Hadoop集群高可用性架構圖2、Hadoop集群中各節點的功能及安裝的組件規劃以下列表為Hadoop集群中的核心組件、客戶端、應用程序的安裝規劃列表。描述了各主節點、監控節點、數據節點等需要安裝的核心組件。另外需要說明的是,一些核心組件由于只需要安裝客戶端,因此沒有詳細體現在列表中(見表格最后一列),這些組件包括:Spark、Flume、Kafka、Pig、solr、nutch等,可根據實現應用需要進行安裝。表SEQ表\*ARABIC4Hadoop集群核心組件安裝規劃機器序號分類HDFSYARNHbaseJournalNodezookeeperHive應用程序及客戶端組件1主節點namenode2主節點namenode3主節點ResourceManagerHmaster4主節點ResourceManagerHmaster5監控節點、客戶端節點JournalNodezookeeperHiveServerMYSQL各Hadoop客戶端組件6監控節點、客戶端節點JournalNodezookeeperHiveServerMYSQL各Hadoop客戶端組件7監控節點、客戶端節點JournalNodezookeeper各Hadoop客戶端組件8應用程序節點HiveClientWebService、調度服務9應用程序節點HiveClientWebService調度服務10數據節點datanodeNodeManagerHRegionServer11數據節點datanodeNodeManagerHRegionServer12數據節點datanodeNodeManagerHRegionServer17數據節點datanodeNodeManagerHRegionServer18數據節點datanodeNodeManagerHRegionServer3、集群的物理部署架構推薦Hadoop集群中推薦的節點部署架構如下圖所示,以機架為單位,每個機器上存放若干個機器節點。所有的主節點分別分一個機器(實現部署在兩套機架上,因為所有主節點都是雙份的);從節點按實際的機架容量分別放到多臺機架上,需要注意的是在Hadoop中可以通過配置機器對應的機架來提高訪問的效率,hdfs會優先訪問本機架所對應的節點上的數據,以提高訪問的效率。機架內部的節點之前以千兆網絡進行聯結,機架之前通過萬兆交換機進行聯結。圖SEQ圖\*ARABIC20集群部署物理架構推薦系統資源及配置規劃表SEQ表\*ARABIC5系統資源配置規劃表MachineTypeWorkloadPattern/ClusterTypeStorageProcessor(#ofCores)Memory(GB)NetworkSlavesBalancedworkloadTwelve2-3TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalCompute-intensiveworkloadTwelve1-2TBdisks10128-2561GBonboard,2*10GBEmezzanine/externalStorage-heavyworkloadTwelve4+TBdisks8128-2561GBonboard,2*10GBEmezzanine/externalNameNodeBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/externalResourceManagerBalancedworkloadFourormore2-3TBRAID10withspares8128-2561GBonboard,2*10GBEmezzanine/external網絡資源規劃網絡資源規劃如下圖所示。機架內部的節點機器之前最少采用千兆網連接,并且采用雙網卡,各機架與主節點的聯結采用萬兆網連接,保證集群的網絡高可用性和傳輸速度。圖SEQ圖\*ARABIC21大數據平臺網絡資源規劃圖計算架構實現整合層計算方案大數據平臺歷史數據存儲在整合模型層,建議以整合數據模型進行存儲,保持數據格式的一致性。業務系統在將每日增量數據加載到hadoop平臺之后,通過hdfs文件進行存儲;為方便后續數據分析和應用,數據在進行歷史存儲時,一般采用二維表的形式,也就是采用hive進行保存。針對每日的增量數據,可以采用按日分區的方式,將數據加載到hive表中,區分數據的歷史。具體的計算架構如下圖所示:圖SEQ圖\*ARABIC22緩沖層到整合層計算框架數據清洗在從源系統抽取的數據存儲到hdfs平臺后,數據以文件的形式進行存儲,各字段間和字段內容可以存在不規范的情況,或數據存在錯誤的情況。這時若直接將數據存儲到歷史表中,將引發后續數據計算的錯誤,或者解析的失敗。例如,字段包括特殊字符、代碼類型錯誤等。這時就需要在數據入庫前,先進行數據的清洗和轉換。對于非結構化的數據,需要自定義mapreduce程序來處理;而對于大多數的業務數據表,我們可以采用pig流式處理直接對數據進行解析,然后存儲hive表中。數據存儲在hadoop平臺中,存在有統一的元數據管理工具HCatalog。HCatalog可以對各組件進行統一的數據格式管理,保證各種工具可以該問相同的一份數據。例如,注冊了Hive表之后,我們可以利用Pig對數據進行清洗轉換,然后直接訪問Hive表,將數據存儲進入。在進行數據存儲的同時,我們通過hive的分區技術,按日將數據進行分區,采用覆蓋存儲的方式,保證每日的數據不會出現重復的情況。共性加工層計算方案共性加工層用于將源數據按業務需求,將數據進行加工統計、匯總等,供各業務系統使用。此處數據存儲需要根據實際應用方式來確定。針對實時查詢和統計的數據,可以采用hbase進行數據存儲,保證查詢的高效性。針對集市應用等需求,可以將加工統計的數據采用hive表進行存儲,方便數據的導出和批量處理。在進行數據處理時,采用Hcatalog統一進行元數據的管理,保證近源層和共性加工層的數據處理統一性。也就是在通過hbase進行存儲時,同樣可以采用hive、pig進行數據的訪問。所有的數據在加工到共性加工層時,都可以通過Hive的查詢語言進行處理,通過python腳本進行處理邏輯的包裝。圖SEQ圖\*ARABIC23共性加工層計算框架圖數據應用于查詢方案Hadoop中可以提供兩種數據查詢的方案,可針對報表應用、數據挖掘工具的接入進行直接的訪問,同時也可以進行自定義數據查詢的開發。查詢服務邏輯功能如下圖:圖SEQ圖\*ARABIC24應用集市層應用框架圖1、Hive數據查詢Hadoop大數據平臺可提供全面的數據查詢服務,具有如下特點:適用于大規模的數據導出;利用Mapreduce/Tez引擎,適合復雜的SQL邏輯分析;較適合結構化數據存儲;可應用于歷史數據的統計分析,負責的數據查詢運算等,非常適合為下游系統提供數據導出服務。2、Hbase數據查詢適用于實時響應的查詢Phoenix提供SQL查詢接口,同時提供表索引功能Solr提供快速的全文檢索,適合模糊匹配的索引功能HBASE更適合結構化或非結構化數據存儲由于HBaze數據查詢具備的以上特點,可用于支持下游應用系統的數據服務、全文檢索查詢服務、模糊匹配查詢服務等??芍С秩缇W格化管理系統的數據支持服務、數據導出服務、決策系統的數據分析與挖掘服務等。并且支持ETL設計ETL是指數據的抽?。‥xtract),轉換(Transform)和加載(Load),是大數據平臺實施的一個非常重要的環節,在項目實施的第一階段中是項目實施的工作重點,建立一套完整、正確、高效的數據抽取、轉換和加載機制,是大數據平臺的基礎性目標。需要指出的是,由于并行數據庫的發展,目前更主流的大數據平臺ETL模式是“E”“L”“T”的模式,即數據抽取、加載、轉換。轉換操作一般是庫內進行。因此在項目實施過程中,Extract部分既可以采用已有ETL工具如InformaticPowerCenter,亦可以采自行開發的腳本,Load部分采用已有ETL工具或者數據庫客戶端加載工具,最后在進行轉換(Transform)時采用腳本開發語言+SQL腳本實現。該ETL架構充分考慮在大數據查詢、大批量大數據文件加載、卸載處理情況下,系統仍能保證高效、穩定的運行。大數據平臺的ETL過程是數據處理的核心過程。通過使用ETL的相關技術,對從源系統輸入的數據進行清洗、比對、處理、加工等處理步驟,完成數據集中、數據整合、數據標準化等過程。為下游業務系統提供數據支持。圖SEQ圖\*ARABIC25ETL架構設計圖數據抽取對源系統的數據進行抽取,只有在源系統不具備自行導出文件的前提下,才需要大數據平臺主動抽取數據。雖然可以做到直連源系統將數據抽取到緩沖層,但在時間充裕的情況下不建議這樣做。將數據抽取成文件可以保證系統的一致性,并在文件層對源系統的數據進行管理和歸檔。本模塊還需要包含檢查源系統是否就緒和對源系統進行抽取通知等功能。可以使用公共的數據庫表和源系統交換信息,源系統具備開發條件的,也可以使用socket開發通信接口。抽取過程的提取增量問題,優先使用時間戳提取增量。在沒有時間戳的情況下,如果源表很大,可以申請源系統建立觸發器或者建立輔助表記錄源表每行的哈希值來輔助提取增量,但不建議這種辦法,會對源系統造成較大影響。通過數據庫日志提取增量只能通過IBM或Oracle的工具實現,需要額外購買。如今的硬件吞吐能力很強,在不具備增量抽取條件時建議直接抽取全量,在大數據平臺的近源層可以為下游提供增量。數據加載數據由文件加載至數據緩沖層,該層的數據特點:短期的,細節地反應業務原貌的數據存儲,直接提供基于源系統結構的簡單原貌訪問,為BI環境中適合的業務需求提供支持。在此層只對數據進行簡單處理,不考慮整合。考慮到數據量,對于非關鍵字段不保留歷史,加載前需要對文件進行校驗。滿足特定的需求:有些就需要原始數據,滿足業務人員使用;可考慮對此層數據會做一些數據類型的規范化,減少錯誤發生的可能性;上游數據標準發生變化,整合層將標準化為整合層提供數據源,以便及時修正整合層數據對于源系統刪除的,建議打上刪除標簽與整合層類似,采用集中標準的算法。近源層加工緩沖層的數據通過不同算法進入近源層。本層的模型基本和源系統相同,所以這層主要做如下工作:標準化本層并不做代碼轉換,但是會對日期,金額,等字段類型進行標準化處理,以不影響數據原貌為前提。全量覆蓋代碼表等不需要保留歷史的表進行全量覆蓋操作。增量對比對緩沖層的數據進行增量對比,加載入歷史表中。歷史拉鏈可以用最經濟的方式保存相當長期的數據。整合層加工近源層的數據經過轉換整合進入主題模型層,該層的數據特點:長期的,細節的,整合的數據存儲,為大數據平臺環境中適合的各類業務需求提供支持,此層的數據處理主要是面向全局的數據整合,中性設計,靈活擴展,提供規范和共享。面向主題設計,采用主題設計;主要存放細節的和歷史的數據。共性加工層主題模型層數據經過一定的轉換加工進入共性加工層,該層的數據特點:共性加工層是從業務的視角出發,提煉出對大數據平臺具有共性的數據訪問、統計需求,從而構建出的一個面向支持應用的、提供共享的數據訪問服務的公共數據。共性加工層通常是提煉一些應用的共性加工,并在此層一次加工后供下游應用多次使用。其作用是:同時服務于多個不同應用,實現數據加工結果的共享,減少系統重復加工的開銷;提高使用時的查詢效率;降低應用開發和數據查詢的復雜程度;實現對常用業務統計口徑統一的定義和維護,而不致于不同的應用加工出不同口徑的數據;加快新應用的實施進度;便于業務分析人員直接使用數據服務子系統的數據進行查詢分析;應用集市層應用集市層的數據來源于主題模型層和共性加工層,應用集市層完全針對具體應用需求而建,按照標準的建模規范,應用集市層的實施要點為:采用遵從業務應用需求的建模方式,以方便使用為主要目的;注意數據保留周期不宜過長;在性能允許的情況,本層部分表也可以以視圖實現;ETL異常處理策略ETL異常處理策略主要對本項目的ETL的校驗點重啟機制進行詳細描述。如果由于各種異常情況的發生而導致數據ETL過程出錯時,通過回溯操作可使數據庫中的數據恢復到數據正確最近的時點,從而進行恢復性加載。保證數據集成平臺數據的可恢復性和數據處理的靈活性。出錯處理首先要制定標準而規范的出錯處理流程,在流程內部要針對各種不同出錯的原因進行針對性處理,出錯的原因和處理的方法需要在ETL運行的過程中不斷的總結和整理,形成一份《ETL故障錯誤恢復說明書》。在出錯的情況中,比較嚴重的是當數據庫中的數據出現較多錯誤時,需要對數據庫中的數據進行回溯到前一天或數據正確最近的時點。ETL處理的異常主要包括:硬件、操作系統、網絡導致異常;數據源數據傳輸、質量導致異常;ETL過程處理導致異常;目標數據模型導致異常;人工干預導致異常等;處理的方法包括:手工干預,重新調整ETL過程;終止流程,通知管理員;拒絕數據,記錄原因;清洗數據,部分入庫;監控資源,反復嘗試;ETL恢復策略包括有:除了應用集市層,其他層幾乎所有任務都可以在故障修復后直接重跑每條記錄中有數據ETL的時間戳,對小數據量的數據表,可以通過該時間戳清除掉本次加載的數據對于大數據量的表,可以利用時間窗口功能,如果大表某一天的數據出現錯誤后,可以直接進行一天數據的recover;數據接口目標及內容大數據云平臺工程數據接口標準定義目的是規范社會和云源系統或數據交換共享平臺通過FTP/DB直連獲取相關數據源提供的數據文件標準和大數據平臺為下游數據集市提供的數據文件標準。標準包含但不限于以下內容:文件傳送方式文件命名規則輸出頻度文件格式文件就緒標識字段填寫規則定義原則及策略1、文件目錄定義原則文件目錄涉及業務源系統為大數據平臺供數的文件目錄和大數據平臺為下游數據消費系統供數的文件目錄。目錄定義原則如下:能夠快速定位文件的存放目錄能夠有效區分文件的用途能夠有效區分不同時間點的文件目錄結構用英文簡稱或者數字串(例如時間)同一系統拋出的、同一目標系統接入的,必須存放在同一目錄下文件目錄結構建議:~/源系統英文簡稱或者目標系統英文簡稱/日期(YYYYMMDD/大數據平臺接入數據源文件:/BDF_IN/源系統英文簡稱/日期(YYYYMMDD)/2、文件命名原則文件涉及大數據平臺系統加載文件和大數據平臺卸出文件,命名原則如下:英文文件名,且文件名長度現在系統規定的長度內統一文件后綴統一的文件命名格式:增量/全量標識_三位源系統英文簡稱/三位目標系統英文簡稱_原系統表名_8位日期.后綴3、文件格式定制原則命名原則如下:定義字段間分割符,充分考慮市網格中心業務系統的實際情況,定義通用的分隔符定義每條完整數據的區分方式對于異常字段,例如空字段,如何在正確的識別信息等嚴格的要求卸出字段的內容,比如:是否含有異常字符,是否有空格等,以及對異常字段的處理方式或者建議4、文件就緒標識原則就緒文件用于記錄數據文件來自系統、數據日期、文件大小、記錄數、生成時間等屬性信息,標識數據文件導出結束,與數據文件為一一對應關系,命名為數據文件命名.ctl。如果數據文件名為CBS_GLMAST_20120101.dat,則其對應就緒文件命名為CBS_GLMAST_20120101.ctl就緒文件以逗號分隔,填寫示例:系統簡稱,數據日期,文件名,記錄數,大小,生成時間戳名詞定義如下:表SEQ表\*ARABIC6名詞定義表名詞定義系統簡稱數據源系統簡稱,如核心為CBS數據日期數據日期,格式YYYYMMDD文件名對應數據文件名稱記錄數文件記錄數大小數據文件物理大小生成時間戳文件生成時間,格式為YYYY-MM-DDTHH:MM:SS,其中T為大寫字母,如2012-01-01T12:00:00就緒文件示例:CB,20120101,CB_ADPXX_20120101.dat,2512335,1232345454,2012-01-02T12:00:005、字段填寫規則充分考慮不同字段的格式要求,對于特殊要求的字段,提供樣例說明。例如:時間傳輸格式為:YYYYMMDD,2011年1月1日為:20110101;金額:默認單位都是“元”,保存小數點后兩位等ETL作業設計作業設計原則:作業設計以目標表為導向,一般情況下,目標表與作業一一對應存在多個作業處理一個目標表:目標表字段來自多個源表,可通過多個作業處理;目標表記錄來自單一源表,可通過單一作業處理目標表中既有直接映射字段,也有源表計算字段、自身衍生字段,可以拆分為多個JOB,目標表在一定場景下可以當做源表使用如從源表到目標表,需要建立中間臨時表,可將每個臨時表當作一個目標表處理,可通過多個JOB完成從源表到目標表如出現同字段多源表優先順序更新規則,只設計獲取優先級最高的源表屬性字段JOB原則上不允許一個作業處理多個目標ETL作業流設計1、作業組流是階段內的相關作業組的集合。提供數據塊的流向控制。劃分作業組流原則:ETL分為兩個階段:基礎數據加工、應用數據加工。每個階段內的時間獨立按照作業組翻牌;作業組流在階段內劃分,不允許跨階段劃分;以源系統+主題(或子主題)為作業組流劃分依據,不同源系統或不同主題作業組不放同一作業組流中2、作業組是相關作業流的集合。劃分作業組原則:在作業組流中劃分作業組;作業組可滿足獨立翻牌;作業組界定:一個JOB是多個JOB的前置JOB,該JOB可界定為作業組的起點;一個JOB是多個JOB的后續JOB,該JOB可界定為作業組的終點;作業組內的作業流可并行或串行執行;作業組在過程內劃分,不允許跨過程劃分作業組;作業流不能跨作業組依賴;占用資源大的多個作業組之間串行;作業組內并行的作業流之間執行時間應相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論