




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、技術建議書企業數據中心系統平臺技術方案建議書第1頁 共52頁i第1章 總體建設方案1.1 總體建設思路圖、數據中心構建思路圖按照對數據中心的理解,完整的數據中心應該具備IT基礎設施(主機、存儲、網絡)、企業級ETL平臺、數據存儲中心、數據共享服務、應用層、統一門戶、數據管控平臺。1.2 功能框架圖、功能框架系統功能框架分為企業級ETL平臺、存儲與計算中心、服務層、應用層、統一門戶、統一平臺管控。企業級ETL平臺:負責企業數據中心數據采集、加工、匯總、分發的過程,完成企業級數據標準化、集中化,實現數據脈絡化、關系化,實現統一的數據處理加工,包括:非實時數據處理和實時數據處理,提供數據抽取、數據轉
2、換、數據加載、數據匯總、數據分發、數據挖掘等能力。存儲與計算中心:建立統一的數據中心數據模型,以及統一的數據存儲與計算,具體提供關系數據庫、分布式非關系數據庫、分布式文件、分布式計算,實現統一的數據存儲與計算。數據共享服務:通過數據服務標準化開放訪問,幫助企業IT建設中,應用和數據分離,引入更多的應用開發商,促進應用的百花齊放和應用的專業性;基于標準化接口,實現對標簽、客戶視圖、指標等數據查詢API封裝,實現與周邊系統實時互動,體現數據價值,減少數據冗余,保證數據安全,保證數據的一致性。應用層:應用層的應用使用服務層提供的各種數據服務。本期應用層包括:經分應用、流量運營、ESOP應用、VGOP
3、應用、指標庫、流量運營戰略地圖、掌上分析、自助業務分析、區域洞察、渠道運營、自助分析、客戶標簽庫、實時營銷、LTE互聯網管控策略。統一門戶:提供統一域名分配、負載均衡、鑒權管理、統一管控平臺接入、應用注冊、應用發布、應用訪問數據信息等功能,同時提供數據中心被應用訪問的頻次,被應用訪問的數據范圍,提供數據資產的評估,為應用上下線和數據開放提供依據。統一平臺管控:面向開發人員、運維人員實現數據、應用、資源的統一管控,包括:數據資產管控、開發管理、監控管理、調度管理、系統管理、安全管理。1.3 技術架構圖、技術架構系統技術架構分為數據采集、計算存儲服務、數據共享服務、平臺管控。采用Hadoop云技術
4、,可以滿足計算能力線性擴展、多租戶能力、數據匯總能力;批處理場景采取Hadoop的Map/Reduce、Hive或者Spark來完成;流式數據處理,采用Esper計算引擎實現。數據采集:采用Flume計算框架,實現文件和消息采集與解析;采用流式爬蟲、中文分詞、圖片識別技術,實現互聯網網頁信息實時采集;采用FTP文件方式實現對數據文件的采集;采用Socket消息方式實現對消息數據的采集;采用sqoop方式實現將數據庫數據裝載到HDFS文件系統。計算存儲服務:采用Hadoop中HDFS文件系統提供統一的大數據數據存儲,滿足全量數據留存;基于Yarn提供跨平臺的資源管理,滿足資源的統一調度與管理;采
5、用Hadoop實現非實時ETL,實現海量數據的批處理,主要處理ODS層->DWD層->DW層->ST層的數據處理;視業務數據情況部分DW層->ST層的數據處理采用Spark計算框架實現;采用Esper和rabbitmq支撐流數據處理與復雜事件處理;利舊DB2提供ST層數據的存儲與計算,支持高并發的指標級數據共享。數據共享:數據開放共享采用基于HTTP協議REST風格的OpenAPI完成同步處理與基于消息隊列(MQ)完成異步處理,實現類SOA面向服務的架構體系。支持OAuth提供一個安全的、開放而又簡易的授權協議。數據共享服務部署在集群環境中以應對高并發的訪問請求,并實現
6、集群的負載均衡。統一平臺管控:采用Java EE技術,通過MVC模式(Model View Controller,是模型視圖控制器)把業務邏輯、數據、界面顯示分離的方法組織代碼,將業務邏輯聚集到一個部件里面,在改進和個性化定制界面及用戶交互的同時,不需要重新編寫業務邏輯。1.4 數據流圖Mc信令(實時)數據通過Socket消息適配模塊接入至Esper計算引擎進行實時處理,向應用提供事件API服務,支撐實時營銷應用;后期如Gn信令、LTE信令也提供實時數據,可滿足基于Gn信令、LTE信令的實時處理。除Mc信令(實時)數據外,Gn信令、Mc信令、自有業務訂購與使用行為等數據通過非實時ETL方式裝載
7、到Hadoop的HDFS文件系統,實現全量數據留存;由Hive承擔主庫的職能,實現海量數據的批處理,承載ODS->DWD->DW->ST各層數據處理,其中DW層部分數據提供給Spark,由Spark完成數據處理工作。對外數據服務可以由不同種類的API來完成:1、 針對諸如客戶統一視圖、客戶標簽庫的數據探索查詢服務:將數據加載到Spark的RDD中,通過API將數據共享出去;2、 針對諸如客戶標簽信息查詢、客戶詳單查詢類的數據查詢服務(特點是通過一個Key來查詢數據):將數據加載到Hbase中,通過API將數據共享出去;3、 針對諸如指標數據查詢、KPI數據查詢服務(特點是高并
8、發、多維度的數據查詢):將數據加載到DB2數據庫(利舊)中,通過API將數據共享出去;4、 針對多租戶的數據共享服務,詳見5.3章節;第2章 企業ETL數據處理平臺2.1 功能框架 根據數據中心的建設需求,企業級的ETL平臺實現統一的數據采集、轉換、加載、處理以及統一調度、管控等功能。這里的ETL指的是廣義的ETL,具備以下的特點:Ø 統一數據獲取接入,支持B域數據、M域數據、O域數據或其他外部數據統一接入數據中心平臺。Ø 支持結構化和非結構化數據采集、加工;對非結構化數據要實現從非結構化到結構化的處理過程。Ø 支持數據采集、轉換、加載等關鍵 ,.數據處理過程,實
9、現企業數據的標準。Ø 從周期上,支持批量的數據采集,實時的數據采集 Ø 滿足數據中心數據加工,處理以及對外提供數據分發、同步Ø 支持全過程的數據稽核。包括事前、事中、事后的稽核方式。以及靈活的稽核規則管理,算法管理Ø 全過程的可視化開發配置管理。通過可視化的開發配置,測試和部署上線。Ø 全過程元數據管理。重點要實現事前的元數據管理。管理的內容包括:支持數據模型、數據流程、轉換規則、數據關系和轉換映射規則。企業級的ETL平臺產品DACP可以很好支持上述的關鍵功能特點。第3章 數據存儲層3.1 總體概述 Mc信令(實時)數據通過Socket消息適配
10、模塊接入至Esper計算引擎進行實時處理,向應用提供事件API服務,支撐實時營銷應用;后期如Gn信令、LTE信令也提供實時數據,可滿足基于Gn信令、LTE信令的實時處理。除Mc信令(實時)數據外,Gn信令、Mc信令、自有業務訂購與使用行為等數據通過非實時ETL方式裝載到Hadoop的HDFS文件系統,實現全量數據留存;由Hive承擔主庫的職能,實現海量數據的批處理,承載ODS->DWD->DW->ST各層數據處理,其中DW層部分數據提供給Spark,由Spark完成數據處理工作。3.2 存儲規劃HiveHbasedb2ODS層3+1月3+1月-DWD層6+1月-DW層12+1
11、月-ST層36月-36月客戶標簽/視圖3月12+1月-指標3+1月-永久3.3 模型設計數據模型設計按照層次,主題的數據模型設計的思路。系統根據模型設計會自動轉成hadoop上存儲。層次、主題映射到相應的目錄。3.4 模型規范化管理3.4.1 分層規范依據數據倉庫建模理論,結合實際經驗,數據計算平臺承載數據模型分為四層:ODS、DWD、DW和ST,即接口層、存儲層、匯總層、應用層。模型分層說明:接口層:ODS模型的數據結構與業務系統接口文件結構保持一致,接口層的數據在數據計算平臺進行暫存。存儲層:即明細數據層,是數據計算核心層數據模型之一,用于存放由清洗、轉換層來的數據或者接口層直接來的數據,
12、其設計目標是為后續的匯總數據層和信息子層提供數據基礎。匯總層:即輕度匯總數據層,也是數據計算核心層數據模型之一,該層實現對主題內的數據做輕量匯總。設計目標是為應用層提供足夠靈活、方便的基礎數據,并保證從該層獲取數據是性能最優。應用層:在匯總數據層之上,數據按照應用需求做數據聚合,生成相關應用所需數據的數據層。應用數據層是面向應用的,但是也不是每個應用都在應用數據層對應一個表,對應用要在數據應用層中進行整合。3.4.2 表命名規范OMG標準化組織建議,采用5分段的命名規范:如下3.4.3 字段命名規范建立字段的命名規范,并固化為domain類型,指導模型設計字段命名。當有變更,可以做到跨平臺的統
13、一建模。3.4.4 模型版本管理第4章 數據開放服務層4.1 建設目標l 通過數據服務標準化開放訪問,幫助企業IT建設中,應用和數據分離,引入更多的應用開發商,促進應用的百花齊放和應用的專業性。l 基于標準化接口,實現對標簽、客戶視圖、指標等數據查詢API封裝,實現與周邊系統實時互動,體現數據價值,減少數據冗余,保證數據安全,保證數據的一致性。l 對于詳單級數據,支持通過文件或授權的方式共享給周邊系統。l 通過統一的技術平臺框架,制定企業數據標準體系規范,基礎數據采集處理,加工匯總,可以引入多家廠商或多租戶進行標準化開發。要實現上述目標,需要解決的關鍵問題:1) 需要什么樣平臺功能?2) 開放
14、的對象。給誰開放?3) 開放什么內容。包含兩部分,基礎數據的集成開發的開放和應用訪問層數據開放。4) 開放的安全保障機制5) 如何保證開放對象開發提交的結果的規范化、質量。6) 開放平臺運營的組織結構和流程制度。4.2 概述要滿足建設目標的要求,數據服務開放的整個功能框架如下:4.2.1 開放對象示例說明如下開放對象說明使用形式相關數據多租戶通過授權的機制,給租戶開放通過sql查詢數據能力,租戶可以在此基礎上匯總加工自己私有的數據SQL,進行數據處理在保障數據安全性、數據可控性的前提下,將Hive倉庫的ODS、DWD、DW各層的開放授權給數據處理開放給租戶。 ESOP,VGOP通過文件接口將數
15、據分發給對端系統,滿足其數據分析需求文件客戶視圖,匯總模型等手機經分通過在線同步API調用的方式獲取數據開放API指標類數據實時營銷客戶端通過事件注冊的方式監聽服務接口,當服務滿足觸發條件是主動通知監聽客戶端消息服務信令位置信息等4.2.2 開放共享方式共享方式說明應用場景示例文件接口數據中心將數據主動導出文件,發送給數據需求方1、boss的互動接口2、即席查詢臨時周期性生成數據開放API通過API查詢獲取結果數據,即查即用,不落地。按查詢數據對象粒度分為三類:1)ST表查詢1、通過對發布的數據模型發起LSQL進行查詢獲取數據2)指標類查詢2、如手機經分查詢指標,原來是通過接口表導入數據,可以
16、通過API來查詢數據3)單用戶清單信息查詢API數據分發將數據中心的數據分發到目標數據庫。需求方提出申請審批通過后,系統通過分發平臺定期將數據分發到目標庫定期數據同步。如將用戶行為匯總數據定期同步到經營分析系統即席查詢業務分析人員通過封裝好的數據模型和提供在線即席查詢分析工具,進行查詢分析獲取數據臨時統計,臨時取數消息服務通過消息傳遞數據。適合于系統之間的實時協助,如用戶事件信息。需求方作為消息的消費者,同時傳遞消息事件和內容4.3 多租戶管理4.3.1 概述采用多租戶的思路,將數據能力和數據平臺數據處理能力按需、可控的進行開放,在保障數據安全性、數據可控性的前提下,通過標準化封裝的數據操作,
17、可視化開發工具開放給業務運營部門,由其自行進行數據操作開發。 使用企業級數據中心提供統一開發平臺來實現多租戶數據開發,其功能結構如下圖: 系統包括兩部分:開發管控和技術平臺。通過這兩部分互相配合實現系統開發能力的開放。這種模式下需要解決的關鍵問題包括如下:如何進行資源控制,數據權限管理,跨系統之間的數據交互,自動調度運行,元數據管理。4.3.2 角色功能系統管理員:對開發團隊進行管理,數據權限和系統資源的分配、審批。1、設置開發團隊使用資源和賬號2、對開發團隊提出的數據權限申請進行審批授權3、表的敏感級別和敏感字段。不同團隊對同一數據安全級別可以不一樣4、對開發團隊上線進行審批。檢查性能,開發
18、規范的滿足情況,調度申請周期是否合理5、對開發團隊數據導出安全進行審計租戶開發:使用統一的技術架構和開發工具,在可以使用的數據的基礎,加工出私有數據1、查看詳細的數據結構2、新申請數據權限,如果需要新的數據,可以進行申請,由管理員審批后就可以使用3、數據加工開發,進行數據匯總、關聯查詢,數據導出等類型數據數據加工開發4、臨時上線、正式上線。5、對其所開發的程序數據運行情況監控。4.3.3 統一開發平臺技術詳解 租戶用戶管理n 租戶與系統用戶映射通過映射開發管理平臺帳號及執行平臺帳號,以租戶的方式實現用戶及用戶組管理,以達到資源管控及數據權限控制的目的。如下圖,在管控平臺進行開發團
19、隊的管理和對應賬號的設置,在數據平臺完成對租戶的資源、權限進行控制。每個開發團隊根據需要指定其在hadoop或關系數據庫上的執行賬號。在數據平臺上實現賬號的權限、資源的控制。在查詢或運行某個數據處理任務時,用其對應的賬號進行執行。從而實現對開發團隊開發運行的任務資源、權限的控制。在管理平臺新建租戶的賬號或數據權限變更時,管理平臺根據配置參數,實時調用OCDC的相關API自動進行授權、修改、創建賬號。 系統計算資源分配控制在管控平臺統一對租戶進行計算資源的分配,分配完的參數部署到hadoop或關系數據庫,實現控制。實現資源控制,包括兩部分: hadoop上的資源分配和關系數據庫的資
20、源分配(DB2)。n Hadoop計算資源控制要實現計算資源的控制,hadoop需要OCHadoop3.2以上,安裝安全組件(sentry) 計算資源控制原理資源池跟系統的賬號相關。一個系統賬號只能屬于一個資源池,YARN支持采用資源池方式對系統用戶進行CPU,內存的運行控制。資源池控制參數:獨占資源:最小分配的資源。系統確保此用戶有最小的資源。共享資源:系統空閑時可以使用的最大資源其中單位:虛擬的cpu核和內存單位。如何設置租戶的資源參數,是一個需要不斷根據運行情況進行優化的過程。注:Spark同hadoop的資源管理n DB2資源控制要實現DB2的資源控制,要求:DB2 9.5 版本。目前
21、db2的版本已經滿足,需要開通WLM的生效參數。在DB2 9.5版本推出了工作負載管理WLM(參考附錄,不用額外收費),但只能限制CPU數量。控制參數如下:參數名說明min分配給某個服務類的最小資源百分比。缺省值為 0。softmax在有沖突的情況下(這里可以理解為資源緊張時),服務類可獲得的最少資源比例。在沒有沖突的情況下,服務類可獲得的資源可以超過該值設定的比例。缺省值 100hardmax在沒有沖突的情況下,服務類可獲得的最大資源比例。缺省值為 100 系統存儲資源分配Hadoop存儲資源控制,每個租戶獨立一個文件跟目錄,設置文件目錄大小;db2的存儲資源控制,對每個租戶獨
22、立一個表空間,設置表空間大小;說明:hadoop存儲控制采用的是操作系統的目錄大小的控制。缺陷是無法高度自動共享可用空間。即一個目錄大小分配出去之后,意味其就占有了這個空間。因此一般做法是由小到大慢慢分配空間。 數據權限分配與控制在開發管理平臺進行對數據權限的分配。根據分配的結果在數據平臺進行授權、回收等操作。數據權限的控制包括:表級權限控制和字段級的權限控制:l 表級權限分配:系統根據分配的結果,產生授權或權限回收的腳本到db2,hadoop進行執行完成權限控制。注:在管理平臺分配的是邏輯模板表,數據平臺控制的是實際的表。因此有一個模塊專門按模板表的權限規則轉換為物理表的授權腳
23、本執行。l 字段級權限分配:在表級授權的基礎上,對表的字段的權限進行授權分配。由于目前db2,hadoop不能直接實現對字段級的權限控制。所以我們采用兩種方式實現這個功能:方式1:建立視圖,過濾掉沒有權限的字段,然后將視圖授權給相關賬號。實現字段級的權限控制。方式2:通過應用級的控制。通過開發人員編寫的sql語句解析,分析其查詢中所用到的字段,如果字段超出權限范圍,則給出提示,不允許執行。資源控制手段列表:控制項目db2hadoop表級權限通過db2的權限管理,通過腳本實現數據權限的分配通過kerbors的權限管理,通過腳本實現數據權限的分配字段級權限通過視圖通過視圖資源-CPU通過wlm進行
24、設置通過YARN資源池進行控制資源-內存無法實現通過YARN資源池進行控制資源-存儲每個租戶獨立一個表空間,設置表空間大小每個租戶獨立一個文件跟目錄,設置文件目錄大小系統文件目錄每個租戶在數據主機上建立文件目錄,存放源代碼,可執行程序每個租戶在數據主機上建立文件目錄,存放源代碼,可執行程序 租戶的數據開發過程1. 查看數據字典開發人員可以查看到所有的數據字典。查看內容包括數據表名,中文名稱,描述信息,存儲位置、數據結構。通過調用基礎平臺的元數據實現數據字典查看。2. 開發界面通過開發平臺配置數據處理流程,可支持庫內與庫外、云平臺與關系數據庫的混搭數據處理,示例如下:上述的處理流程
25、實現:在hadoop上對ods_cdr通過sql腳本匯總dw_cdr,再通過數據分發到db2上的dw_cdr_yyyymmdd表上。開發人員需要對輸出表dw_cdr設置表結構,sql處理匯總處編寫sql腳本。在一個處理的任務流程中,節點包括數據節點,數據函數節點拼接起來的一個處理流程。其中數據處理函數節點包括:Sql,tcl,java,shell,數據分發,數據加載,數據導出,ftp、創建表,刪除表等。3. 測試在界面上可以立即執行某個節點或整個處理流程,執行過程和日志信息會實時輸出到前臺界面進行查看。如下示意圖:4. 上線開發人員在界面上直接提交上線。包括臨時上線和正式上線兩種。臨時上線需要
26、開發人員填寫生效的開始日期,結束日期,調度周期。正式上線,系統管理管理員會進行審批。審批的項目包括:程序名稱,表名是否規范,字段名稱和中文信息是否完整。在上線時,系統會自動將程序代碼、數據結構從開發環境的配置信息部署到生產環境下。5. 運行程序上線后,調度平臺就會根據程序數據依賴關系自動進行調度。如果是臨時上線的只有調度運行在有效期內的程序才會被調度執行。程序開發人員可以申請延長有效期或申請固定上線。 調度執行多租戶調度使用平臺提供的統一調度功能,實現過程如下:1. 調度運行依據輸入表關系,根據數據關系實現正確調度依賴運行。對租戶的臨時程序調度時,只會調度在有效期的程序才會調度。
27、2. SQL腳本執行開發人員開發好的SQL腳本,可以到多個數據平臺上運行,系統需要進行正確選擇投入到相應的數據平臺運行。a) 開發人員可以指定節點運行的數據庫,如下圖b) 系統會對開發人員的編寫的sql進行解析,獲取其依賴的輸入表和輸出表。再跟元數據進行對比自動選擇相應數據庫。選擇策略如下:所有輸入表都在同一個庫則選擇那個庫輸入表分布在兩個庫系統給出錯誤提示。建議其采用數據同步再進行開發。如果涉及到的表涉及到兩個庫都存在如果有關聯表,則跟著關聯表同個庫,否則優先選擇大數據平臺。3. 跨數據平臺命令的運行比如:如何實現在hadoop平臺執行匯總數據,導入到db2,在進行匯總。Server端在讀取
28、這個一個處理任務時,將命令發送匯總命令給hadoop Agent執行,然后在發送命令給hadoop Agent進行分發到db2,然后在發送命令給db2 agent進行數據處理。第5章 應用開發與部署5.1 應用開發流程應用層的所有業務應用具備與底層數據松耦合特性,通過接口層提供的各種數據接口,向業務人員或第三方廠商提供開放API服務。根據不同的應用場景,通過對相應的API進行選擇和組合,從而快速生成所需要的業務應用,以滿足對應用的快速開發、部署、上線的能力。對于應用的開發可通過兩種方式進行實現:1、 數據中心平臺內應用開發:通過數據中心提供的應用開發平臺直接進行應用開發,開發平臺提供高效的可視
29、化開發界面,包括對各類API可以追根溯源,展現詳細API元數據信息等。同時對應用設計、應用開發、應用測試、應用上線、應用下線進行全流程、全生命周期的開發管控。此類開發場景主要適用于不具備硬件資源的用戶(如業務部門開發人員)進行應用開發。2、 數據中心平臺外應用開發:通過Http協議數據服務接口,直接調用數據中心服務層中的各類API服務,通過開發編寫相應的計算過程形成對應的業務應用。此類開發場景主要適用于具備硬件資源(如第三方廠商)的用戶進行應用開發。5.2 應用部署建議本期從外部系統接入8類數據源,所有清單數據在企業數據中心進行基礎匯總,提供數據、存儲和API接口服務能力,供14類應用調用。標
30、簽庫應用:所有標簽數據計算、存儲在數據中心,標簽結果數據在HIVE和HBASE分別存儲一份數據,HIVE上存儲的數據通過Spark的RDD對外提供“根據標簽查用戶群”API,HBASE上存儲的數據對外提供“根據號碼查標簽信息”API。指標庫:所有指標計算、存儲在數據中心,結果數據存儲在RDB,通過“KPI查詢”API對外提供服務。掌上經分應用支撐:掌上經分需要的KPI由經分提供,改為由數據中心“KPI查詢”API提供。實時營銷支撐:將MC位置信令事件集成到數據中心,由數據中心提供消息事件給實時營銷平臺。LTE互聯網管控策略(PCC)、自有業務分析平臺、區域價值洞察:對于這些規劃中的系統,建議采
31、用多租戶的方式,在企業數據中心完成數據處理和存儲都在數據中心,應用通過調用API獲取數據。經分系統一經接口、MIS接口、財務報表、ESOP、VGOP、戰略地圖、渠道運營平臺、所需的數據源,統一由數據中心將DWD、DW層數據分發文件給各系統,由應用系統自行進行數據加工及展現。經分其他應用(除去一經接口、MIS接口、財務報表):數據處理和存儲都在數據中心,ST層數據保存在db2。第6章 統一門戶6.1 概述企業數據中心統一門戶的建設是為了降低系統使用人員訪問數據中心的難度,提高系統的易用性,并且實現數據中心的資源有機整合和統籌管理。1. 數據開放服務門戶:對于數據開放服務提供開發者門戶,含有數據服
32、務授權申請、開發者幫助文檔、服務注冊、創建、注銷等。2. 管控平臺門戶:對整個數據中心管控平臺使用者門戶,系統管理、運維調度、質量監控等。3. 應用使用門戶:對于應用使用者的門戶,支持多租戶應用、第三方應用的集成統一呈現。6.2 門戶功能框架統一門戶功能框架如下圖所示門戶功能框架包括門戶接入、門戶功能兩部分;通過功能適配到角色工作臺形成不同的角色視圖。Ø 門戶接入:主要負責企業數據中心用戶訪問渠道的接入管理;接入應用的日志管理、負載均衡與訪問授權。Ø 門戶功能:包括角色工作臺、認證管理、權限管理、用戶管理、流程審批、數據開發、應用開發、數據授權、運維監控、多租戶管理等界面。
33、第7章 管控平臺7.1 概述7.2 元數據管理7.2.1 功能框架元數據管理是需要將各系統的信息、設計工具信息、生產平臺信息,進行收集管理,統一管理。提供一個視圖,以幫助使用人員了解系統的數據分布、數據關系、業務規則、指標口徑等。元數據包括:系統類元數據、技術類元數、管理類元數據。總體功能框架圖針對數據中心的要求,元數據管理需要具備的關鍵的特性如下:1) 要求提供標準化的應用開發工具,滿足在不同平臺上的開發需求2) 100%的ETL開發、數據模型開發、應用開發能基于開發工具實現3) 95%以上的元數據能自動采集、解析與管理,元數據的范圍包括但不局限于數據結構、數據詞典、字段維度、程序映射邏輯、
34、數據生命周期等4) 多租戶的統一元數據管理7.2.2 基于元數據的應用開發工具提供統一的應用開發工具,完成高效應用的開發,并可以自動完成應用元數據的采集。提供諸如數據展示包括報表工具,儀表盤分析等工具如1、 支持常見的各種報表樣式2、 支持常見各種分析圖,同時支持圖表組合分析3、 支持各種數據源方式支持oracle,db2,mysql等常見的關系型數據庫支持gp,gbase等mpp數據庫支持hdfs,hbase等大數據平臺提供數據支持webservice獲取數據7.2.3 基于元數據的數據開發工具采用元數據驅動(MDA)設計理念,去規劃元數據對象的創建、運行、評估、維護各環節節。屏蔽大數據平臺
35、差異性,統一模型設計、統一程序開發,將元數據融入到開發各個環節,利于管理。Ø 數據模型設計支持IDE數據模型設計,同時支持模型設計工具power design、Erwin批量導入功能。提供數據周期、數據表級字段級銘感設置、字段口徑定義。Ø 數據流程設計設計程序輸入表和輸出表的元數據信息。Ø 程序開發根據設計的內容轉換成開發內容。開發人員就可以在此基礎上進行開發。提供各個接入平臺統一封裝函數,降低開發難度Ø 數據質量控制1.常規檢查。包括及時性,運行狀態,運行時長,處理記錄數等進行常規檢查。2.對程序日志進行稽核。包括單步的處理時長,記錄數的波動等3.對程
36、序的目標表啟動檢查。檢查目標的統計指標值,關鍵字段維度、層次間數據的一致性進行檢查Ø 提供程序界面測試功能對開發內容進行測試和調優,檢查質量規范,性能,質量是否滿足期望發布應用到正式運行環境元數據收集存儲:Ø 程序的基本信息。包括程序的名稱,中文名稱,備注,周期,層次,主題,創建人,開發人員Ø 程序的處理步驟信息。包括程序步驟編號,調用函數,執行腳本Ø 程序輸入輸出關系。輸入模型,輸出模型程序的字段映射規則。輸入模型到輸出模型的轉換規則 數據流設計設計數據模型,設置數據存儲周期,敏感級別,數據模型數據流設計,支持模型字段映射關系設計1. 數
37、據流程設計設計程序輸入表和輸出表.輸入表可以是文件,也可以是遠程數據庫上的某個表。目標表可以是文件也可以是遠程目標數據庫上的表。2. 數據模型設計對輸入表和輸出表,進行表結構的設計。包括表的基本信息,存儲信息和表的關系。根據不同的存儲類別,會有設計參數上的差異。3. 轉換映射規則設計根據表的關系和表模型信息,進行轉換映射。映射規則包括合并,拆分,規則轉換,函數轉換等常見的操作 可視化程序開發Ø 統一封裝的函數庫,屏蔽底層差異性,通過類sql編寫,或函數調度,實現跨平臺統一開發。根據數據倉庫處理過程抽象出5大類通用函數庫,統一調用參數接口,開發人員針對不同不平臺實現無差異
38、的開發。如將某類數據文件加載到數據庫中,開發人員只要指定數據文件路徑和目標表。系統執行時如果是要入庫到DB2調用DB2的命令,如果是Hadoop平臺,調用Hadoop的命令。Ø 通過可視化的流程界面,拖拽方式實現對函數的編排,對每個節點函數編寫參數,實現數據加工功能。降低開發難度。開發時候,對函數進行編排,填寫節點函數參數。實現一個具體的數據處理過程Ø 支持多種腳本開發,提供基于web腳本開發工具編寫如tcl、python開發程序;能夠從開發的腳本中自動解析建立元數據:輸入表和輸出表的關系;腳本類的開發工具,集成了開發,測試,上線集成操作。同時將函數庫,數據模型統一進行集成
39、;7.2.4 關鍵技術說明 前向元數據管理1、在開發過程中通過IDE工具產生結構化的元數據信息。2、在上線時,對元數據內容進行稽核檢查,保證元數據信息的完整性,合理性。通過統一的上線作為管理的控制點。每個團隊提交要上線的內容,存到統一元數據庫進行標準化檢查稽核。上線時檢查的內容:程序需要提交的內容:程序本身的信息和程序輸出表的信息。 多租戶的元數據管理Ø 每個開發團隊輸出到不同的開發目錄。內容包括現有的數據字典、業務口徑、程序代碼等。這些輸出到同一的元數據中心,進行統一的標準化和規范化檢查Ø 統一的標準與規范,統制定基本的規范和標準,不管哪個開發
40、小組開發的內容必須滿足這些基本的標準。7.3 流程管理通過流程管理實現對數據處理過程的統一管控,并提供一系列工具實現數據處理過程可視化、可管控,它包括對系統資源、軟件資源、業務應用、參與人員等各種資源統一管理,綜合監控平臺,隨時重現大數據環境中各個組成部分相互依賴,為各級IT管理人員提供從資源規劃、資源收集、性能分析、故障定位與處理、統計分析、知識沉淀與管理過程的支持7.3.1 流程引擎流程管理集成自有輕量型流程引擎來完成各類流程快速配置開發。功能如下:1、流程的建模和實現在流程定義、執行、管理控制等階段,業務和IT人員的高度一致流程運行,以及整體性能查看和監控可視化提供靈活的手段實現流程的修
41、改和演進支持流程模式以及部門協同,支持流程中的附件添加和查看自帶的業務規則和決策表支持分支選擇,路由到特定用戶、用戶組、角色、投票規則、例外和事件處理、服務水平監控規則等2、流程仿真、優化和分析3、 開發管控、版本控制4、 流程評估和監控分析7.4 作業任務管理通過元數據獲取作業輸入表作為作業啟動的前置條件1、通過數據流程設計來確定數據關系2、人工進行修改作業輸入、輸出3、支持手工設置前置作業作業任務資源占用類型評估采集程序的歷史運行時長,處理記錄數等關鍵指標,支持系統自動測算和人工指定,對程序的資源占用類型分為三類:1、高:運行時長特別長,處理記錄數比較多2、中:處理記錄數相對較小,處理步驟
42、多,時間較長。3、低:運行時間很短的程序作業任務靜態優先級按照應用的重要性,根據血緣分析,尋找路徑上的所有處理任務。1、重要越高的應用,其路徑上的節點的任務優先級越高。2、人工進行修改維護7.5 數據管理7.5.1 數據生命周期管理 上線不管通過什么方式完成開發,上線必須保證數據的相關的信息完整性,合理性。由數據管理員負責對上線要素信息的檢查。保證在上線時信息要素被正確保存,以作為后續使用。Ø 上線檢查基本信息要素權限信息要素:存儲信息要素:數據關系要素:Ø 表的基本信息檢查Ø 表結構Ø 表存儲信息設置Ø 系統規范性自動檢測7.5
43、.1.2 數據監控.1 存儲策略情況檢查表的實際存儲情況和規劃存儲周期情況進行對比,發現規劃與實際的差距,查找原因。為下期擴容做準備。.2 安全漏洞檢測安全策略管理:對數據加密的密鑰管理,敏感數據定義,賬號權限,離線數據終端的注冊等。安全策略檢測:對安全策略是否實施到位進行自動檢測。如敏感信息是否有加密,賬號的權限是否超出范圍。安全審計監控:對數據所有的使用日志進行審計,是否涉及到敏感數據非法使用。.3 存儲空間監控檢查文件空間,表空間等信息是否滿足生產的要求。 數據評估.1 數據價值評估功能說明:對數據價值成本進行評估,對
44、數據存儲、處理、應用進行優化。評估算法:科目分攤方法價值前臺應用使用次數應用的點擊次數平均分攤給應用鏈路上的所有表支持kpi,指標統計的個數KPI應用次數平均分攤給KPI的統計表鏈路上的所有表分發給外部系統接口可數據(分發給外部表,平均分攤給分發接口表鏈路上的所有表)*加權系數外部應用調用次數(外部應用調用表次數平均分攤給應用表鏈路上的所有表)*加權系數成本項目存儲成本表的大小*(存儲擴容的投資總額/總空間大小)計算成本處理表數據總時長*(主機擴容的投資總額/所有程序的運行總時長)開發成本表的字段數*(每年新業務開發費用/表的總字段數據)運維成本維護費用/表的總數管理成本分攤管理總成本/表的總
45、數應用場景:.2 數據重要性評估從表的在數據使用過程中和數據應用中對表的重要性進行評估,輸出表重要性級別。.3 存儲周期評估包括存儲規則的配置示例如下:數據內容集團建議數據保存周期用戶資料及接觸記錄在線存儲:三年近線存儲:永久保存(Hadoop Erasure Code)各類話單在線存儲:一年近線存儲:三年(Hadoop Erasure Code)信令和日志在線存儲:一個月近線存儲:六個月(Hadoop Erasure Code)各類匯總數據在線存儲:永久保存存儲周期的計算,計算表到期時間。如果到期了,則這個表可以進行刪除或轉儲。.4 時效性評估通過對
46、數據關系的分析,發現孤立表或無效表。根據表名判斷此表大約含義,建表日期、狀態日期,表內數據時間等判斷此表最后更新時間。通過數據的使用日志,對孤立表和無效表進行判斷是否有使用如果滿足以上3點,就可以判斷此表無使用和處理.就可以進行下線處理。.5 冗余數據評估系統中存在著大量的冗余的數據。比如從清單上的進行匯總的表就非常多,這些匯總表中有些存在相識性,這就造成了大量的冗余數據,這些大量的冗余數據,一方面給數據的精確性和可靠性將帶來影響,同時也影響著數據庫的性能。要解決這個問題有兩個環節:發現冗余數據和冗余進行消除合并。.6 數據關系評估數據關系的類別可以分為以下幾種:l
47、 主外鍵關系。由上線時進行登記。l 參考關系。主要描述實體表與維度表的關系。在上線時登記。l 輸入與輸出。通過元數據解析建立。l 歷史拍照。通過處理程序解析發現建立。l 冗余備份。從目的可以劃分為:分工提速、轉儲優化、應用分流、數據統計臨時備份。系統根據以上的關系類別,通過相識表的發現分析,自動建立數據之間的關系。 數據優化.1 優化策略類別條件優化策略執行策略下線清理1、表滿足存儲評估的到期條件2、同時滿足數據在各個已經同步到位清理或轉儲自動執行下線清理1、滿足時效性分析發現的無效表清理人工確認性能優化1、發現高查詢使用的表轉存高端設備或內存數據人工確認冗余消除1
48、、發現相似表或冗余表數據合并人工確認冗余字段1、發現抽取過多的字段但沒有使用到優化抽取策略人工確認.2 優化執行多系統協同生命周期管理:可以制定在不同的庫不同存儲策略,如最近數據和歷史數據分布策略;自動管理與手工管理:支持系統自動管理,自動清理,同時對一些重點的表進行手工審批管理; 數據下線對滿足下線的表的進行數據下線。.1 預下線為了安全起見,對重要的表、不確定的冗余表等,可以先預下線,再下線。將表的權限都收回,確保所有的使用者都無法使用此表。標識此表狀態為:預下線狀態。過了預下線期限后,就可以執行下線的操作了。如果此期間,有人提出需要此表,就可以進
49、行回退,恢復權限配置、狀態。.2 下線分析對下線的表,刪除表,同時需要清理數據、程序。系統根據元數據信息自動分析給出,此表的獨有程序和輸入表。這些表和程序就是要下線的內容。.3 下線根據這些表獨有的程序和輸入表,從后臺調度系統停止移除相關的程序,清理的獨有表的數據。完成下線工作。7.5.2 數據質量管理數據質量管理的總體目標:常態化、體系化、標準化、自動化的全面數據質量管理,以達到數據質量控制的全面性、可控性、可度量性、可迅速定位和有效解決。通過流程制度建設、質量評估體系建設、質量檢測IT平臺建設實現TDQM(Total Data Quality Manage),即
50、企業級全面數據質量管理。提供數據質量稽核規則統一配置,并支持對質量規則的定義和任意節點的附加。根據時間發生的順序,可分為事前質量檢查、事中運行監控、事后歸納總結,并能對各過程中所產生事件及信息形成告警信息,通過短信、彩信、郵件的形式進行發送。從上表格中可以看出在經分的日常生產中產生的問題大部分都可以上線前的嚴格控制來避免,這說明了數據質量的重要性。 質量規則定義支持質量規則的增、刪、改、查操作。支持定義元數據對象的質量規則,如接口質量規則,程序質量規則,數據模型質量規則,指標質量規則,報表質量規則。稽核對象模板配置是會對需要稽核對象的基本信息,包括稽核對象的基礎實體配置,稽核所需
51、要的數據實體,對象的稽核結果匯總及詳細信息。 質量規則附加支持將質量規則根據相關性附加到各個節點,分別進行不同類別的質量規則檢查。在點擊編輯后編輯規則的詳細配置,平臺提供十多種的檢查函數函數名稱函數說明變量定義增加變量定義,如增加sql變量,在引用是$tabinfo.dataname數組比較比較單列數組是否一樣腳本規則如:1000<=新增用戶數<100000;如果指標計算結果為0,則告警。字符串比較如:是否通過SQL解析建立映射關系;檢查是否存在沒有與任何數據處理過程建立數據處理關系的數據實體跨庫字符串比較滿足約定條件,得到預訂的結果,注意:else沒有條件時 寫成非
52、空檢查選擇某個參數,此參數不能為空數值比較選擇數值進行比較,比較參數可以是sql語句,也可以是常量或變量跨庫數值比較進行多庫之間的數值比較值域檢查判斷某個值是否在指定范圍之內時間比較判斷某個時間是否在指定時間之前,每日7:30,每月3日5:00之前,5:00,M3數組屬性對比取數組中某個時間的所有屬性值跟指定時間的所有屬性值進行對比,先要確保數組定義中包含時間字段和對比時間的數據數組維度波動對比取數組中某個時間的所有屬性值跟指定時間的所有屬性值進行對比,先要確保數組定義中包含時間字段和對比時間的數據數組分量與總量波動對比總體波動與成員波動的允許范圍相關性比較相關性對比,取相關對象的指標值范圍波
53、動檢查靜態表屬性變動檢查檢查新增或減少的成員或當新增或減少的成員占比大于指定范圍時告警靜態表屬性波動檢查檢查成員自身的波動率范圍SQL腳本按SQL語句返回檢查結果,如果結果集為空則檢查通過,否則不通過 事前質量檢查上線前檢查在開發階段定義好各元數據對象的質量規則,在上線時,調用檢查規則對上線的指標進行檢查是否滿足質量的規則,在一開始規避一些常見的錯誤。源系統變更檢查A、 表結構變更監控:對表中字段的變更、增加、刪除時產生的變化進行監控(如BOSS上線對表進行了修改)。能夠跟接口程序結合起來,當字段變更時,能夠判斷出對應接口的對應接口號和對應接口文件哪個字段發生了變更。B、 字段維
54、值監控:字段維值主要將一個表的某個字段的不同值的數量和值的大小與之前的快照進行對比,可發現值的數目或者值的大小的變化情況。C、 業務規則監控:檢查邏輯上的合理性,如成為大客戶時間必須晚于開戶時間,狀態在用的號碼必須是唯一的。 事中運行監控運行過程監控:對運行過程的對象設置質量規則,在運行過程中及時調用這些規則對運行結果第一時間進行稽核,以及時發現問題。發現問題后,及時展示監控到的當前告警信息,并將錯誤信息發送至告警集中管理。可以對告警進行定位分析、相似問題分析、轉問題單或解除(誤報的告警信息)。業務指標監控將指標的管理進行集中化、標準化、管理體系化和檢查自動化。1)指標界面監控框架分級:支持將指標的監控展示框架分為四級框架L0:總體狀況L1:詳細列表 L2:告警點明細 L3:告警
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論