




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)治理平臺建設(shè)方案
目錄
1.大數(shù)據(jù)治理平臺的現(xiàn)狀...........................................................3
2.大數(shù)據(jù)治理的概述................................................................5
2.1大數(shù)據(jù)治理概念.............................................................6
2.2大數(shù)據(jù)治理目標(biāo)..............................................................7
2.3大數(shù)據(jù)治理模型..............................................................7
3.大數(shù)據(jù)治理體系.................................................................23
3.1數(shù)據(jù)連接...................................................................24
3.2數(shù)據(jù)建模...................................................................24
3.3統(tǒng)計報表...................................................................25
3.4決策儀表板.................................................................25
3.5數(shù)據(jù)大屏...................................................................25
4.大數(shù)據(jù)治理核心領(lǐng)域.............................................................26
4.1大數(shù)據(jù)模型.................................................................26
4.2大數(shù)據(jù)生命周期.............................................................27
4.3大數(shù)據(jù)標(biāo)準(zhǔn).................................................................28
4.4主大數(shù)據(jù)...................................................................30
4.5大數(shù)據(jù)質(zhì)量.................................................................31
4.6大數(shù)據(jù)服務(wù).................................................................33
4.7大數(shù)據(jù)安全.................................................................34
5.大數(shù)據(jù)治理保障機制............................................................35
5.1制度章程...................................................................35
5.1.1規(guī)章制度............................................................35
5.1.2管控辦法............................................................35
5.1.3考核機制............................................................35
5.2大數(shù)據(jù)治理組織............................................................37
5.2.1組織架構(gòu)............................................................37
5.2.2組織層次............................................................38
5.2.3組織職責(zé)............................................................39
5.3流程管理...................................................................41
5.4IT技術(shù)應(yīng)用................................................................42
5.4.1支撐平臺............................................................42
5.4.2技術(shù)規(guī)范............................................................44
附件A大數(shù)據(jù)治理平臺規(guī)范...........................................................46
附件B大數(shù)據(jù)質(zhì)量評估辦法............................................................65
附件C大數(shù)據(jù)質(zhì)量管理流程............................................................69
關(guān)于大數(shù)據(jù)治理的理解
面對我們身邊每時每刻迅速增長的龐大數(shù)據(jù),因為其數(shù)量大、
速度快、種類多和準(zhǔn)確性的特征,如何更好地利用大數(shù)據(jù)創(chuàng)造出有
意義的價值,一直是我們探索的重要話題。而在這之前,就需要用
科學(xué)正確的方法策略對大數(shù)據(jù)進行治理。大數(shù)據(jù)治理是指制定與大
數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護與數(shù)據(jù)變現(xiàn)的政策,是傳統(tǒng)信息治
理的延續(xù)和擴展,也是大數(shù)據(jù)分析的基礎(chǔ),還是連接大數(shù)據(jù)科學(xué)和
應(yīng)用的橋梁,因此大數(shù)據(jù)治理是大數(shù)據(jù)再創(chuàng)高峰的“必修課”。
(狹義)大數(shù)據(jù)是指無法使用傳統(tǒng)流程或工具在合理的時間和
成本內(nèi)處理或分析的信息,這些信息將用來幫助企業(yè)更智慧地經(jīng)營
和決策。而廣義的大數(shù)據(jù)更是指企業(yè)需要處理的海量數(shù)據(jù),包括傳
統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)。(廣義)大數(shù)據(jù)可以分為五個類型:Web
和社交媒體數(shù)據(jù)、機器對機器(M2M)數(shù)據(jù)、海量交易數(shù)據(jù)、生物計
量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。
Web和社交媒體數(shù)據(jù):比如各種微博、博客、社交網(wǎng)站、購物網(wǎng)
站中的數(shù)據(jù)和內(nèi)容。
M2M數(shù)據(jù):也就是機器對機器的數(shù)據(jù),比如RFID數(shù)據(jù)、GPS數(shù)
據(jù)、智能儀表、監(jiān)控記錄數(shù)據(jù)以及其他各種傳感器、監(jiān)控器的數(shù)據(jù)。
海量交易數(shù)據(jù):是各種海量的交易記錄以及交易相關(guān)的半結(jié)構(gòu)
化和非結(jié)構(gòu)化數(shù)據(jù),比如電信行業(yè)的CDR、3G上網(wǎng)記錄等,金融行
第1頁
業(yè)的網(wǎng)上交易記錄、corebanking記錄、理財記錄等,保險行業(yè)的各
種理賠等。
生物計量學(xué)數(shù)據(jù):是指和人體識別相關(guān)的生物識別信息,如指
紋、DNA、虹膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。
人工生成的數(shù)據(jù):比如各種調(diào)查問卷、電子郵件、紙質(zhì)文件、
掃描件、錄音和電子病歷等。
在各行各業(yè)中,隨處可見因數(shù)量、速度、種類和準(zhǔn)確性結(jié)合帶
來的大數(shù)據(jù)問題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理逐漸提上日
程。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)需要先存儲到關(guān)系型數(shù)據(jù)庫/數(shù)據(jù)倉庫后再
進行各種查詢和分析,這些數(shù)據(jù)我們稱之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)
時代,除了靜態(tài)數(shù)據(jù)以外,還有很多數(shù)據(jù)對實時性要求非常高,需
要在采集數(shù)據(jù)時就進行相應(yīng)的處理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫
/數(shù)據(jù)倉庫、MPP數(shù)據(jù)庫、Hadoop平臺、各種NoSQL數(shù)據(jù)庫等,這些
數(shù)據(jù)我們稱之為動態(tài)數(shù)據(jù)。比如高鐵機車的關(guān)鍵零部件上裝有成百
上千的傳感器,每時每刻都在生成設(shè)備狀態(tài)信息,企業(yè)需要實時收
集這些數(shù)據(jù)并進行分析,當(dāng)發(fā)現(xiàn)設(shè)備可能出現(xiàn)問題時及時告警。再
比如在電信行業(yè),基于用戶通信行為的精準(zhǔn)營銷、位置營銷等,都
會實時的采集用戶數(shù)據(jù)并根據(jù)業(yè)務(wù)模型進行相應(yīng)的營銷活動。
大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價值。大數(shù)
據(jù)治理人員需要定期與企業(yè)高層管理人員進行溝通,保證大數(shù)據(jù)治
第2頁
理計劃可以持續(xù)獲得支持和幫助。相信隨著時間的推移,大數(shù)據(jù)將
成為主流,企業(yè)可以從海量的數(shù)據(jù)中獲得更多的價值,而大數(shù)據(jù)治
理的范圍和嚴(yán)格程度也將逐步上升。為了更好地幫助企業(yè)進行大數(shù)
據(jù)治理,在IBM數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金融、
政府等行業(yè)進行大數(shù)據(jù)治理的經(jīng)驗,整理了大數(shù)據(jù)治理統(tǒng)一流程參
考模型,整個參考模型分為必選步驟和可選步驟兩部分。
1.大數(shù)據(jù)治理平臺的現(xiàn)狀
根據(jù)行業(yè)信息化發(fā)展的現(xiàn)狀,結(jié)合當(dāng)今行業(yè)大數(shù)據(jù)治理的要求,
大型集團或政務(wù)管理部門現(xiàn)階段大數(shù)據(jù)治理平臺方面存在以下的不
足:
(1)大數(shù)據(jù)多頭管理,缺少專門對大數(shù)據(jù)治理平臺進行監(jiān)督
和控制的組織。信息系統(tǒng)的建設(shè)和管理職能分散在各部門,致使大
數(shù)據(jù)治理平臺的職責(zé)分散,權(quán)責(zé)不明確。組織機構(gòu)各部門關(guān)注大數(shù)
據(jù)的角度不一樣,缺少一個組織從全局的視角對大數(shù)據(jù)進行管理,
導(dǎo)致無法建立統(tǒng)一的大數(shù)據(jù)治理平臺規(guī)程、標(biāo)準(zhǔn)等,相應(yīng)的大數(shù)據(jù)
治理平臺監(jiān)督措施無法得到落實。組織機構(gòu)的大數(shù)據(jù)考核體系也尚
未建立,無法保障大數(shù)據(jù)治理平臺標(biāo)準(zhǔn)和規(guī)程的有效執(zhí)行。
(2)多系統(tǒng)分散建設(shè),沒有規(guī)范統(tǒng)一的省級大數(shù)據(jù)標(biāo)準(zhǔn)和大
數(shù)據(jù)模型。組織機構(gòu)為應(yīng)對迅速變化的市場和社會需求,逐步建立
了各自的信息系統(tǒng),各部門站在各自的立場生產(chǎn)、使用和管理大數(shù)
第3頁
據(jù),使得大數(shù)據(jù)分散在不同的部門和信息系統(tǒng)中,缺乏統(tǒng)一的大數(shù)
據(jù)規(guī)劃、可信的大數(shù)據(jù)來源和大數(shù)據(jù)標(biāo)準(zhǔn),導(dǎo)致大數(shù)據(jù)不規(guī)范、不
一致、冗余、無法共享等問題出現(xiàn),組織機構(gòu)各部門對大數(shù)據(jù)的理
解難以應(yīng)用一致的語言來描述,導(dǎo)致理解不一致。
(3)缺少統(tǒng)一的主大數(shù)據(jù),組織機構(gòu)核心系統(tǒng)間的人員等主
要信息并不是存儲在一個獨立的系統(tǒng)中,或者不是通過統(tǒng)一的業(yè)務(wù)
管理流程在系統(tǒng)間維護。缺乏對集團公司或政務(wù)單位主大數(shù)據(jù)的管
理,就無法保障主大數(shù)據(jù)在整個業(yè)務(wù)范圍內(nèi)保持一致、完整和可控,
導(dǎo)致業(yè)務(wù)大數(shù)據(jù)正確性無法得到保障。
(4)缺乏統(tǒng)一的集團型大數(shù)據(jù)質(zhì)量管理流程體系。當(dāng)前現(xiàn)狀
中大數(shù)據(jù)質(zhì)量管理主要由各組織部門分頭進行;跨局跨部門的大數(shù)
據(jù)質(zhì)量溝通機制不完善;缺乏清晰的跨局跨部門的大數(shù)據(jù)質(zhì)量管控
規(guī)范與標(biāo)準(zhǔn),大數(shù)據(jù)分析隨機性強,存在業(yè)務(wù)需求不清的現(xiàn)象,影
響大數(shù)據(jù)質(zhì)量;大數(shù)據(jù)的自動采集尚未全面實現(xiàn),處理過程存在人
為干預(yù)問題,很多部門存在大數(shù)據(jù)質(zhì)量管理人員不足、知識與經(jīng)驗
不夠、監(jiān)管方式不全面等問題;缺乏完善的大數(shù)據(jù)質(zhì)量管控流程和
系統(tǒng)支撐能力。
(5)大數(shù)據(jù)全生命周期管理不完整。目前,大型集團或政務(wù)
單位,大數(shù)據(jù)的產(chǎn)生、使用、維護、備份到過時被銷毀的大數(shù)據(jù)生
命周期管理規(guī)范和流程還不完善,不能確定過期和無效大數(shù)據(jù)的識
第4頁
別條件,且非結(jié)構(gòu)化大數(shù)據(jù)未納入大數(shù)據(jù)生命周期的管理范疇;無
信息化工具支撐大數(shù)據(jù)生命周期狀態(tài)的查詢,未有效利用元大數(shù)據(jù)
治理平臺。
2.大數(shù)據(jù)治理的概述
通過靈活的數(shù)據(jù)交互和探索分析能力,以及OEM白標(biāo)集成的
方式,全面滿足行業(yè)應(yīng)用軟件的數(shù)據(jù)分析需求。它提供多源數(shù)據(jù)整
合、報表統(tǒng)計、數(shù)據(jù)可視化、自助式BI分析、以及數(shù)據(jù)填報等功能,
幫助用戶挖掘數(shù)據(jù)的潛在價值,為管理者制定決策提供數(shù)據(jù)支撐。
多數(shù)據(jù)源整合,為決策分析提供完整數(shù)據(jù)支持
通過數(shù)據(jù)查詢設(shè)計器,有效整合您分散在企業(yè)內(nèi)外的各種數(shù)據(jù)。
包括數(shù)據(jù)庫、云端數(shù)據(jù)、本地存放的文件數(shù)據(jù)以及JSON/OData等
程序數(shù)據(jù)。既能通過拖拽操作完成跨源的數(shù)據(jù)建模,也支持直接編
寫查詢語句。最終,通過數(shù)據(jù)模型訪問控制和行級數(shù)據(jù)安全管理,
分享給BI分析或報表統(tǒng)計者使用。
自助式BI,強大的交互分析和自由數(shù)據(jù)探索能力
自助式BI,讓最終用戶毫無約束的與數(shù)據(jù)交互,任意探索數(shù)
據(jù)背后的真正原因,發(fā)覺價值,為決策制定找到有效的數(shù)據(jù)支撐。
在Dashboard的設(shè)計和分析階段,均提供圖表聯(lián)動、數(shù)據(jù)鉆取、數(shù)
據(jù)切片器、OLAP等交互式分析功能,僅需通過極少的操作便能找到
最有價值的數(shù)據(jù),并能與企業(yè)成員進行協(xié)同討論分析。
第5頁
數(shù)據(jù)可視化,讓數(shù)據(jù)之間的關(guān)系更加清晰明了、便于理解
具有多屏自適應(yīng)能力的儀表板,內(nèi)置豐富的數(shù)據(jù)可視化類型,
而且開放的數(shù)據(jù)可視化插件功能,幾乎可以將任意的可視化組件庫
集成到產(chǎn)品中,比如:Echarts,D3,ChartJS,三維模型等,充分
滿足數(shù)據(jù)可視化大屏等場景的需要。
在線報表,最終用戶和實施人員都能設(shè)計報表
創(chuàng)新的在線報表設(shè)計功能,類似微軟Office產(chǎn)品的使用體驗,
功能豐富卻極易上手。從此,對軟件公司而言,客戶定制化報表需
求再也不用修改軟件源代碼;對企業(yè)IT部門而言,讓業(yè)務(wù)部門自
主設(shè)計所需報表的暢想變得可能。
嵌入式分析,滿足軟件項目的深度集成和OEM合作需要
幾乎可以將WynEnterprise的全部功能集成到您自己的軟件
產(chǎn)品中。對您的用戶而言,他們完全感覺不到我們的存在;對您的
技術(shù)人員而言,我們提供靜默安裝、軟件界面定制、單點登錄、報
表/儀表板的設(shè)計器和查看器的集成等開箱即用的功能,大大節(jié)省系
統(tǒng)集成所花的時間。
2.1大數(shù)據(jù)治理概念
大數(shù)據(jù)治理是指將大數(shù)據(jù)作為組織資產(chǎn)而展開的一系列的具體
化工作,是對大數(shù)據(jù)的全生命周期管理。
大數(shù)據(jù)治理體系是指從組織架構(gòu)、管理制度、操作規(guī)范、IT應(yīng)
第6頁
用技術(shù)、績效考核支持等多個維度對組織的大數(shù)據(jù)模型、大數(shù)據(jù)架
構(gòu)、大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)安全、大數(shù)據(jù)生命周期等各方面進行全面
的梳理、建設(shè)以及持續(xù)改進的體系。
2.2大數(shù)據(jù)治理目標(biāo)
大數(shù)據(jù)治理的目標(biāo)是提高大數(shù)據(jù)的質(zhì)量(準(zhǔn)確性和完整性),保
證大數(shù)據(jù)的安全性(保密性、完整性及可用性),實現(xiàn)大數(shù)據(jù)資源在
各組織機構(gòu)部門的共享;推進信息資源的整合、對接和共享,從而
提升集團公司或政務(wù)單位信息化水平,充分發(fā)揮信息化作用。
2.3大數(shù)據(jù)治理模型
如圖1所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個
方向:一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上
實施全面的元數(shù)據(jù)管理,另一條子線是在定義業(yè)務(wù)問題、執(zhí)行成熟
度評估的基礎(chǔ)上定義數(shù)據(jù)治理路線圖以及定義數(shù)值治理相關(guān)的度量
值。在11個必要步驟的基礎(chǔ)上,企業(yè)可以在7個可選步驟中選擇一
個或多個途徑進行特定領(lǐng)域的數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、
(狹義)大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運營分析監(jiān)管、預(yù)測分
析監(jiān)管、管理安全與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對
大數(shù)據(jù)治理統(tǒng)一流程進行度量并將結(jié)果發(fā)送給主管級發(fā)起人。
第7頁
12.1)委海12.
國
義
大
12.2)大敷冬
成.曾理數(shù)
據(jù)
監(jiān)
實■
12.3)首
大K據(jù)管理
圖1大數(shù)據(jù)治理統(tǒng)一流程參考模型
第一步:明確元數(shù)據(jù)管理策略
在最開始的時候,元數(shù)據(jù)(MetaData)是指描述數(shù)據(jù)的數(shù)據(jù),
通常由信息結(jié)構(gòu)的描述組成,隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了非常
大的擴展,比如UML模型、數(shù)據(jù)交易規(guī)則、用Java,.NET,C++等編
寫的APIs、業(yè)務(wù)流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以及
各種業(yè)務(wù)規(guī)則、術(shù)語和定義等[1]。在大數(shù)據(jù)時代,元數(shù)據(jù)還應(yīng)該包
括對各種新數(shù)據(jù)類型的描述,如對位置、名字、用戶點擊次數(shù)、音
頻、視頻、圖片、各種無線感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的
描述等。元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。
第8頁
業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)則、定義、術(shù)語、術(shù)語表、運算法則和
系統(tǒng)使用業(yè)務(wù)語言等,主要使用者是業(yè)務(wù)用戶。技術(shù)元數(shù)據(jù)主要用
來定義信息供應(yīng)鏈(InformationSupplyChain,ISC)各類組成部
分元數(shù)據(jù)結(jié)構(gòu),具體包括各個系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依
賴性等,以及存儲過程、函數(shù)、序列等各種對象。操作元數(shù)據(jù)是指
應(yīng)用程序運行信息,比如其頻率、記錄數(shù)以及各個組件的分析和其
它統(tǒng)計信息等。
從整個企業(yè)層面來說,各種工具軟件和應(yīng)用程序越來越復(fù)雜,
相互依存度逐年增加,相應(yīng)的追蹤整個信息供應(yīng)鏈各組件之間數(shù)據(jù)
流動、了解數(shù)據(jù)元素含義和上下文的需求越來越強烈。在從應(yīng)用議
程往信息議程的轉(zhuǎn)變過程中,元數(shù)據(jù)管理也逐漸從局部存儲和管理
轉(zhuǎn)向共享。從總量上來看,整個企業(yè)的元數(shù)據(jù)越來越多,光現(xiàn)有的
數(shù)據(jù)模型中就包含了成千上萬的表,同時還有更多的模型等著上線,
同時隨著大數(shù)據(jù)時代的來臨,企業(yè)需要處理的數(shù)據(jù)類型越來越多。
為了企業(yè)更高效地運轉(zhuǎn),企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集
成體系結(jié)構(gòu),依托成熟的方法論和工具實現(xiàn)元數(shù)據(jù)管理,并有步驟
的提升其元數(shù)據(jù)管理成熟度。
為了實現(xiàn)大數(shù)據(jù)治理,構(gòu)建智慧的分析洞察,企業(yè)需要實現(xiàn)貫
穿整個企業(yè)的元數(shù)據(jù)集成,建立完整且一致的元數(shù)據(jù)管理策略,該
策略不僅僅針對某個數(shù)據(jù)倉庫項目、業(yè)務(wù)分析項目、某個大數(shù)據(jù)項
第9頁
目或某個應(yīng)用單獨制定一個管理策略,而是針對整個企業(yè)構(gòu)建完整
的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標(biāo)準(zhǔn)或某個軟件工具可以
取代的,無論軟件工具功能多強大都不能完全替代一個完整一致的
元數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購元數(shù)據(jù)
管理工具之前需要定義元數(shù)據(jù)管理策略。
元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、
約束和策略等,依據(jù)企業(yè)自身當(dāng)前以及未來的需要確定要實現(xiàn)的元
數(shù)據(jù)管理成熟度以及實現(xiàn)目標(biāo)成熟度的路線圖,完成基礎(chǔ)本體、領(lǐng)
域本體、任務(wù)本體和應(yīng)用本體的構(gòu)建,確定元數(shù)據(jù)管理的安全策略、
版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對業(yè)務(wù)術(shù)語、技術(shù)術(shù)語中
的敏感數(shù)據(jù)進行標(biāo)記和分類,制定相應(yīng)的數(shù)據(jù)隱私保護政策,確保
企業(yè)在隱私保護方面符合當(dāng)?shù)仉[私方面的法律法規(guī),如果企業(yè)有跨
國數(shù)據(jù)交換、元數(shù)據(jù)交換的需求,也要遵循涉及國家的法律法規(guī)要
求。企業(yè)需要保證每個元數(shù)據(jù)元素在信息供應(yīng)鏈中每個組件中語義
上保持一致,也就是語義等效(semanticequivalence)。語義等效
可以強也可以弱,在一個元數(shù)據(jù)集成方案中,語義等效(平均)越
強則整個方案的效率越高。語義等效的強弱程度直接影響元數(shù)據(jù)的
共享和重用。
本體(人工智能和計算機科學(xué))
本體(Ontology)源自哲學(xué)本體論,而哲學(xué)本體論則是源自哲
第10頁
學(xué)中“形而上學(xué)”分支。本體有時也被翻譯成本體論,在人工智能
和計算機科學(xué)領(lǐng)域本體最早源于上世紀(jì)70年代中期,隨著人工智能
的發(fā)展人們發(fā)現(xiàn)知識的獲取是構(gòu)建強大人工智能系統(tǒng)的關(guān)鍵,于是
開始將新的本體創(chuàng)建為計算機模型從而實現(xiàn)特定類型的自動化推理。
之后到了上世紀(jì)80年代,人工智能領(lǐng)域開始使用本體表示模型化時
間的一種理論以及知識系統(tǒng)的一種組件,認(rèn)為本體(人工智能)是
一種應(yīng)用哲學(xué)。
最早的本體(人工智能和計算機科學(xué))定義是Neches等人在
1991給出的:“一個本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語和
關(guān)系,以及用于組合術(shù)語和關(guān)系以及定義詞匯外延的規(guī)則”。而第
一次被業(yè)界廣泛接受的本體定義出自TomGruber,其在1993年提
出:“本體是概念化的顯式的表示(規(guī)格說明)"。Borst在1997
年對TomGruber的本體定義做了進一步的擴展,認(rèn)為:“本體是共
享的、概念化的一個形式的規(guī)范說明”。在前人的基礎(chǔ)上,Stude在
1998年進一步擴展了本體的定義,這也是今天被廣泛接受的一個定
義:“本體是共享概念模型的明確形式化規(guī)范說明”。本體提供一
個共享詞匯表,可以用來對一個領(lǐng)域建模,具體包括那些存在的對
象或概念的類型、以及他們的屬性和關(guān)系[2]。一個簡單的本體示例
發(fā)票概念及其相互關(guān)系所構(gòu)成的語義網(wǎng)絡(luò)如圖2所示:
第11頁
郵電通訊業(yè)定額發(fā)票
(卷式)/
、濟在城市所住城市
濟南市/
圖2簡單本體(發(fā)票)示例
隨著時間的推移和技術(shù)的發(fā)展,本體從最開始的人工智能領(lǐng)域
逐漸擴展到圖書館學(xué)、情報學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和
信息學(xué)等越來越多的學(xué)科。與哲學(xué)本體論類似,本體(人工智能和
計算機科學(xué))依賴某種類別體系來表達(dá)實體、概念、事件及其屬性
和關(guān)系。本體的核心是知識共享和重用,通過減少特定領(lǐng)域內(nèi)概念
或術(shù)語上的分歧,使不同的用戶之間可以順暢的溝通和交流并保持
語義等效性,同時讓不同的工具軟件和應(yīng)用系統(tǒng)之間實現(xiàn)互操作。
根據(jù)研究層次可以將本體的種類劃分為“頂級本體”(top-
levelontology應(yīng)用本體(applicationontology),領(lǐng)域本體
(domainontology)和任務(wù)本體(taskontology),各個種類之間
第12頁
的層次關(guān)系如圖3所示。
圖3本體層次關(guān)系
頂級本體,也被稱為上層本體(upperontology)或基礎(chǔ)本體
(foundationontology),是指獨立于具體的問題或領(lǐng)域,在所有
領(lǐng)域都適用的共同對象或概念所構(gòu)成的模型,主要用來描述高級別
且通用的概念以及概念之間的關(guān)系。
領(lǐng)域本體是指對某個特定的領(lǐng)域建模,顯式的實現(xiàn)對領(lǐng)域的定
義,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對應(yīng)的信息資
產(chǎn)等,提供對該領(lǐng)域知識的共同理解。領(lǐng)域本體所表達(dá)的是適合自
己領(lǐng)域的術(shù)語的特定含義,缺乏兼容性,因而在其他領(lǐng)域往往不適
用。在同一領(lǐng)域內(nèi),由于文化背景、語言差異、受教育程度或意識
形態(tài)的差異,也可能會出現(xiàn)不同的本體。很多時候,隨著依賴領(lǐng)域
本體系統(tǒng)的擴展,需要將不同的領(lǐng)域本體合并為更通用的規(guī)范說明,
對并非基于同一頂級本體所構(gòu)建的本體進行合并是一項非常具有挑
戰(zhàn)的任務(wù),很多時候需要靠手工來完成,相反,對那些基于同一頂
第13頁
級本體構(gòu)建的領(lǐng)域本體可以實現(xiàn)自動化的合并。
任務(wù)本體是針對任務(wù)元素及其之間關(guān)系的規(guī)范說明或詳細(xì)說明,
用來解釋任務(wù)存在的條件以及可以被用在哪些領(lǐng)域或環(huán)境中。是一
個通用術(shù)語的集合用來描述關(guān)于任務(wù)的定義和概念等。
應(yīng)用本體:描述依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)
系,是用于特定應(yīng)用或用途的本體,其范疇可以通過可測試的用例
來指定。
從詳細(xì)程度上來分,本體又可以分為參考本體(reference
ontologies)和共享本體(shareontologies),參考本體的詳細(xì)程
度高,而共享本體的詳細(xì)程度低。
本體(哲學(xué))
哲學(xué)中的本體(ontology)也被稱為存在論,源自哲學(xué)中“形
而上學(xué)”分支,主要探討存在的本質(zhì),也就是存在的存在。英文
ontology實際上就是來源于希臘文“。v”(存在)和“入6Y。q”
(學(xué)科)的組合。本體是由早期希臘哲學(xué)在公元前6世紀(jì)到公元前
4世紀(jì)提出的“始基”延伸出來的。始基(Principle,又稱本原)
最早由泰勒斯(米利都學(xué)派)最早提出來,認(rèn)為萬物由水而生,其
學(xué)生阿那克西曼德認(rèn)為萬物由一種簡單的原質(zhì)組成,該原質(zhì)不是水
:3]o而畢達(dá)哥拉斯(學(xué)派)認(rèn)為“萬物都是數(shù)”,數(shù)不僅被看作萬
物的本原,而且被看作萬物的原型、世界的本體。后來巴門尼德(愛
第14頁
利亞學(xué)派)提出了“存在”的概念,認(rèn)為存在才是唯一真正存在的
真理,其創(chuàng)造了一種形而上學(xué)論證方式,之后的哲學(xué)一直到近時期
為止,都從巴門尼德處接受了其“實體的不可毀滅性”。蘇格拉底
繼承了巴門尼德的存在概念,主張“真正的善”并完善了巴門尼德
弟子芝諾的辯證法,其學(xué)生柏拉圖提出了“理念論”,認(rèn)為只要若
干個個體擁有一個共同的名字,它們就有一個共同的理念或形式。
亞里士多德(柏拉圖學(xué)生)總結(jié)了先哲們的思想,完成了《形而上
學(xué)》,并將本體總結(jié)為:對世界上客觀存在事物的系統(tǒng)的描述,即存
在論,也就是最形而上學(xué)的知識。形而上學(xué)不是指孤立、靜止之類
的意思,而是指超越具體形態(tài)的抽象意思,是關(guān)于物質(zhì)世界最普遍
的、最一般的、最不具體的規(guī)律的學(xué)問。
第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)
在明確了元數(shù)據(jù)管理策略后需要確定實現(xiàn)該管理策略所需的技
術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個企業(yè)的元數(shù)據(jù)管理策略
和元數(shù)據(jù)管理成熟度差別較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多
樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點對點的元數(shù)據(jù)集成體系
結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM(CommonWarehouse
MetaModel,公共倉庫元模型)模型驅(qū)動的點對點元數(shù)據(jù)集成體系
結(jié)構(gòu)、基于CWM模型驅(qū)動的中央存儲庫元數(shù)據(jù)集成體系結(jié)構(gòu)、分布
式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)
第15頁
等。
針對信息供應(yīng)鏈中不同的組件,為了實現(xiàn)跨組件的元數(shù)據(jù)交換
和集成,最開始人們采用點對點的方式進行,也就是每一對組件之
間通過一個獨立的元數(shù)據(jù)橋(metadatabridge)進行元數(shù)據(jù)交換,
橋一般是雙向的能夠理解兩個方向的元數(shù)據(jù)映射[4]。點對點的元數(shù)
據(jù)集成體系結(jié)構(gòu)幫助用戶實現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換,
對提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應(yīng)用過程中,
也暴露了很多問題,比如元數(shù)據(jù)橋的構(gòu)建工作量和耗時都非常大,
對中間件廠商、應(yīng)用廠商、集成商和用戶來說都是一個巨大的挑戰(zhàn),
而且構(gòu)建元數(shù)據(jù)橋還必須具有所有者的元數(shù)據(jù)模型和接口的詳細(xì)信
息。構(gòu)建完成的橋很多時候無法在構(gòu)建其他元數(shù)據(jù)橋時進行重用,
因此開發(fā)和維護費用大幅度增加,用戶投資回報率(ROD不高。以
動態(tài)數(shù)據(jù)倉庫為例,其點對點的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖4所
示,信息供應(yīng)鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實心箭
頭表示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。
第16頁
<5=4><?e>o=^>0mme>
Bridges
圖4點對點的元數(shù)據(jù)集成體系結(jié)構(gòu)
通過使用中央元數(shù)據(jù)存儲庫(centralmetadatarepository)
取代各個工具軟件和應(yīng)用程序之間的點對點連接方式,改成中央元
數(shù)據(jù)存儲庫與各個工具軟件和應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問層
(也是一種橋),可以有效降低總成本,減少建立點對點元數(shù)據(jù)橋的
工作,提高投資回報率。信息供應(yīng)鏈各組件可以從存儲庫訪問元數(shù)
據(jù),不必與其他產(chǎn)品進行點對點交互。這種使用中央元數(shù)據(jù)存儲庫
方式進行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)(hub-
and-spokemetadataarchitecture),具體如圖5所示。由于特定
的元數(shù)據(jù)存儲庫是圍繞其自身的元模型、接口和交付服務(wù)建立的,
所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與ISC各組件的互相訪問。
第17頁
采用模型驅(qū)動的元數(shù)據(jù)集成方法(比如使用CWM)可以有效降
低元數(shù)據(jù)集成的成本和復(fù)雜度,無論點對點元數(shù)據(jù)集成體系結(jié)構(gòu)還
是中央輻射式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點對點體系
結(jié)構(gòu)中,通過使用基于模型的方法可以不必在每一對需要集成的產(chǎn)
品之間構(gòu)建元數(shù)據(jù)橋,每個產(chǎn)品只需要提供一個適配器(adapter)
即可實現(xiàn)各個產(chǎn)品之間的元數(shù)據(jù)交換,適配器既了解公共的元模型
也了解本產(chǎn)品元模型的內(nèi)部實現(xiàn)。如圖6所示,基于CWM模型驅(qū)動
點對點元數(shù)據(jù)集成體系結(jié)構(gòu)使用通用元模型,不再需要在各個產(chǎn)品
間建立元數(shù)據(jù)橋,在各個產(chǎn)品之間通過適配器實現(xiàn)了語義等價性。
第18頁
圖6基于CWM模型驅(qū)動的點對點元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖7所示,在基于模型驅(qū)動(比如CWM)的中央輻射式元數(shù)
據(jù)體系結(jié)構(gòu)中,中央存儲庫包含公共元模型和整個領(lǐng)域(domain)
用到的該元模型的各個實例(模型)、存儲庫自身元模型及其實例、
理解元模型(公共元模型和自身元模型)的適配器層,當(dāng)然存儲庫
也可以直接實現(xiàn)公共元模型的某些內(nèi)部表示。
第19頁
圖7基于CWM模型驅(qū)動的中央存儲庫元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖8所示,這種體系架構(gòu)是基于CWM模型驅(qū)動的中央存儲庫
元數(shù)據(jù)集成體系結(jié)構(gòu)的一個變種,兩個中央輻射式的拓?fù)浣Y(jié)構(gòu)通過
各自的元數(shù)據(jù)存儲庫連接起來,也被稱為分布式(Distributed)或
聯(lián)邦(Federated)體系結(jié)構(gòu)。兩個元數(shù)據(jù)存儲庫之間通過元數(shù)據(jù)橋
連接,兩個存儲庫使用相同的元模型和接口,也可以使用不同的元
模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種,比
如企業(yè)基于多個區(qū)域單獨部署自己的應(yīng)用,每個區(qū)域有自己的數(shù)據(jù)
中心。
第20頁
<
CWM兀數(shù)據(jù)交換(基于
XYL或標(biāo)準(zhǔn)APIUI用)
圖8分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖9所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲
庫實現(xiàn)了元模型的公共部分(橫跨整個企業(yè)),葉子存儲庫實現(xiàn)了一
個或多個特定的公共元模型子集,并只保存這些自己所對應(yīng)的元數(shù)
第21頁
據(jù)實例。特定客戶可以主要訪問其感興趣的元數(shù)據(jù)所在的葉子存儲
庫,也可以訪問其它葉子存儲庫和根存儲庫。這種體系結(jié)構(gòu)被稱為
結(jié)束語
本文詳細(xì)介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,
并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和第二步“元數(shù)
據(jù)集成體系結(jié)構(gòu)”等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略”中講
述了元數(shù)據(jù)的基本概念以及本體在人工智能/計算機科學(xué)和哲學(xué)中
的含義。在第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”講述了元數(shù)據(jù)集成體系
結(jié)構(gòu)的六種示例,分別為:點對點的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻
射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM模型驅(qū)動的點對點元數(shù)據(jù)集成體系
結(jié)構(gòu)、基于C恤模型驅(qū)動的中央存儲庫元數(shù)據(jù)集成體系結(jié)構(gòu)、分布
式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。
第22頁
在本系列文章的下一部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型
第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模型、公
共倉庫元模型(CWM)、CWM發(fā)展史、OMG的模型驅(qū)動體系結(jié)構(gòu)
(ModelDrivenArchitecture,MDA)O
3.大數(shù)據(jù)治理體系
大數(shù)據(jù)治理體系包含兩個方面,一是大數(shù)據(jù)質(zhì)量核心領(lǐng)域,二
是大數(shù)據(jù)質(zhì)量保障機制。
制度章程組織
?規(guī)章制度?組織架構(gòu)
?管控辦法?組織層次
?考核機制?組織職責(zé)
數(shù)
據(jù)
主數(shù)
據(jù)
數(shù)
安
據(jù)
全
標(biāo)
數(shù)據(jù)
準(zhǔn)
元
通過靈活的數(shù)據(jù)交互和探索分析能力,以及OEM白標(biāo)集成
第23頁
的方式,全面滿足行業(yè)應(yīng)用軟件的數(shù)據(jù)分析需求。它提供多源數(shù)
據(jù)整合、報表統(tǒng)計、數(shù)據(jù)可視化、自助式BI分析、以及數(shù)據(jù)填
報等功能,幫助用戶挖掘數(shù)據(jù)的潛在價值,為管理者制定決策提
供數(shù)據(jù)支撐。
整體應(yīng)用流程:
3.1數(shù)據(jù)連接
通過數(shù)據(jù)連接引擎建立與Oracle、Mysql.SqlServer等各
種關(guān)系型數(shù)據(jù)庫、API、ODBC或者Excel、JSON、XML等數(shù)據(jù)文件
等不同來源的數(shù)據(jù)連接,支持跨源,用于數(shù)據(jù)建模。
3.2數(shù)據(jù)建模
將填報采集的數(shù)據(jù)和已有業(yè)務(wù)系統(tǒng)如OA、ERP、CRM數(shù)據(jù)庫
的數(shù)據(jù),通過可視化數(shù)據(jù)模型設(shè)計器或者自定義SQL數(shù)據(jù)集,建
立多表關(guān)聯(lián)模型,并對模型進行字段重命名、二次計算、分組計
第24頁
算等操作,添加參數(shù)及篩選過濾,形成最終用于設(shè)計報表和儀表
板的數(shù)據(jù)集。
3.3統(tǒng)計報表
為業(yè)務(wù)層的日常運營提供必備的明細(xì)報表,以滿足數(shù)據(jù)查詢、
報表打印等需要。包括典型的Excel類中國式復(fù)雜報表、合同文
檔類報表、分組報表、明細(xì)報表、圖表、分欄報表等各種報表類
型。
3.4決策儀表板
以高度交互與自由數(shù)據(jù)探索的管理看板為基礎(chǔ),輔助決策的
制定。通過靈活自由的布局頁面,拖拽可視化組件,綁定數(shù)據(jù),
生成儀表板。瀏覽者在查看時,可以通過條件過濾、條件格式化、
排序、圖表切換、調(diào)整數(shù)據(jù)綁定等組件,多維自由的從不同視角
進行數(shù)據(jù)分析。儀表板自帶的聯(lián)動和鉆取分析,深入探查數(shù)據(jù)背
后的原因。指導(dǎo)管理層科學(xué)決策。
3.5數(shù)據(jù)大屏
通過可視化大屏,對企業(yè)綜合信息進行展示,滿足企業(yè)內(nèi)、
外部信息共享與交流的需要。通過各種酷炫的可視化組件,將企
業(yè)核心經(jīng)營指標(biāo)、KPI指標(biāo)、綜合管控指標(biāo)等直觀的展示到總經(jīng)
第25頁
理辦公室、會議室或者會客大廳等,方便管理層掌握企業(yè)經(jīng)營情
況。
4.大數(shù)據(jù)治理核心領(lǐng)域
為了有效管理信息資源,必須構(gòu)集團級大數(shù)據(jù)治理體系。大數(shù)
據(jù)治理體系包含大數(shù)據(jù)治理組織、大數(shù)據(jù)構(gòu)架管理、主大數(shù)據(jù)治理
平臺、大數(shù)據(jù)質(zhì)量管理、大數(shù)據(jù)服務(wù)管理及大數(shù)據(jù)安全管理內(nèi)容,
這些內(nèi)容既有機結(jié)合,又相互支撐。
4.1大數(shù)據(jù)模型
大數(shù)據(jù)模型是大數(shù)據(jù)構(gòu)架中重要一部分,包括概念大數(shù)據(jù)模型
和邏輯大數(shù)據(jù)模型,是大數(shù)據(jù)治理的關(guān)鍵、重點。理想的大數(shù)據(jù)模
型應(yīng)該具有非冗余、穩(wěn)定、一致、易用等特征。邏輯大數(shù)據(jù)模型能
涵蓋整個集團的業(yè)務(wù)范圍,以一種清晰的表達(dá)方式記錄跟蹤集團單
位的重要大數(shù)據(jù)元素及其變動,并利用它們之間各種可能的限制條
件和關(guān)系來表達(dá)重要的業(yè)務(wù)規(guī)則。大數(shù)據(jù)模型必須在設(shè)計過程中保
持統(tǒng)一的業(yè)務(wù)定義。為了滿足將來不同的應(yīng)用分析需要,邏輯大數(shù)
據(jù)模型的設(shè)計應(yīng)該能夠支持最小粒度的詳細(xì)大數(shù)據(jù)的存儲,以支持
各種可能的分析查詢。同時保障邏輯大數(shù)據(jù)模型能夠最大程度上減
少冗余,并保障結(jié)構(gòu)具有足夠的靈活性和擴展性
第26頁
4.2大數(shù)據(jù)生命周期
一般包括大數(shù)據(jù)生成及傳輸、大數(shù)據(jù)存儲、大數(shù)據(jù)處理及應(yīng)用、
大數(shù)據(jù)銷毀四個方面。
(1)大數(shù)據(jù)生成及傳輸
大數(shù)據(jù)應(yīng)該能夠按照大數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和發(fā)展需要產(chǎn)生,應(yīng)采取
措施保證大數(shù)據(jù)的準(zhǔn)確性和完整性,業(yè)務(wù)系統(tǒng)上線前應(yīng)該進行必要
的安全測試,以保證上述措施的有效性。對于手工流程中產(chǎn)生的大
數(shù)據(jù)在相關(guān)制度中明確要求,并通過事中復(fù)核、事后檢查等手段保
證其準(zhǔn)確性和完整性。大數(shù)據(jù)傳輸過程中需要考慮保密性和完整性
的問題,對不同種類的大數(shù)據(jù)分別采取不同的措施防止大數(shù)據(jù)泄漏
或大數(shù)據(jù)被篡改。
(2)大數(shù)據(jù)存儲
這個階段除了關(guān)注保密性、完整性之外,更要關(guān)心大數(shù)據(jù)的可
用性,對于大部分大數(shù)據(jù)應(yīng)采取分級存儲的方式,不僅存儲在本地
磁盤上,還應(yīng)該在磁帶上,甚至遠(yuǎn)程復(fù)制到磁盤陣列中,或者采用
光盤庫進行存儲。對于存儲備份的大數(shù)據(jù)要定期進行測試,確保其
可訪問其大數(shù)據(jù)完整。大數(shù)據(jù)的備份恢復(fù)策略應(yīng)該由大數(shù)據(jù)的責(zé)任
部門或責(zé)任人負(fù)責(zé)制定,信息化管理部門可以給予相應(yīng)的支持。同
時還需要注意因為部門需要或故障處理的需要,可能對大數(shù)據(jù)進行
修改,必須在大數(shù)據(jù)治理平臺辦法中明確大數(shù)據(jù)修改的申請審批流
第27頁
程,審慎對待后臺大數(shù)據(jù)修改。
(3)大數(shù)據(jù)處理和應(yīng)用
信息化相關(guān)部門需要對大數(shù)據(jù)進行分析處理,以挖掘出對于管
理及業(yè)務(wù)開展有價值的信息,為保證過程中大數(shù)據(jù)的安全性,一般
應(yīng)采用聯(lián)機處理,系統(tǒng)只輸出分析處理的結(jié)果。但是實際中,因為
相關(guān)大數(shù)據(jù)分析系統(tǒng)建設(shè)不到位,需要從大數(shù)據(jù)庫中提取大數(shù)據(jù)后
再對大數(shù)據(jù)進行必要的分析處理,在這個過程中就需要關(guān)注大數(shù)據(jù)
提取操作是否可能對大數(shù)據(jù)庫造成破壞、提取出的大數(shù)據(jù)在交付給
分析處理人員的過程中其安全性是否會降低、大數(shù)據(jù)分析處理的環(huán)
境安全性等等。
(4)大數(shù)據(jù)銷毀
這個階段主要涉及大數(shù)據(jù)的保密性。應(yīng)明確大數(shù)據(jù)銷毀的流程,
采用必要的工具,大數(shù)據(jù)的銷毀應(yīng)該有完整的記錄。尤其是對于需
要送出外部修理的存儲設(shè)備,送修之前應(yīng)該對大數(shù)據(jù)進行可靠的銷
毀。
4.3大數(shù)據(jù)標(biāo)準(zhǔn)
大數(shù)據(jù)標(biāo)準(zhǔn)是集團單位建立的一套符合自身實際,涵蓋定義、
操作、應(yīng)用多層次大數(shù)據(jù)的標(biāo)準(zhǔn)化體系。
大數(shù)據(jù)標(biāo)準(zhǔn)的建立是集團單位信息化、數(shù)字化建設(shè)的一項重要
工作,行業(yè)的各類大數(shù)據(jù)必須遵循一個統(tǒng)一的標(biāo)準(zhǔn)進行組織,才能
第28頁
構(gòu)成一個可流通、可共享的信息平臺。
大數(shù)據(jù)治理對標(biāo)準(zhǔn)的需求可以劃分為兩類,即基礎(chǔ)性標(biāo)準(zhǔn)和應(yīng)
用性標(biāo)準(zhǔn)。前者主要用于在不同系統(tǒng)間,形成信息的一致理解和統(tǒng)
一的坐標(biāo)參照系統(tǒng),是信息匯集、交換以及應(yīng)用的基礎(chǔ),包括大數(shù)
據(jù)分類與編碼、大數(shù)據(jù)字典、數(shù)字地圖標(biāo)準(zhǔn);后者是為平臺功能發(fā)
揮所涉及的各個環(huán)節(jié),提供一定的標(biāo)準(zhǔn)規(guī)范,以保證信息的高效匯
集和交換,包括元大數(shù)據(jù)標(biāo)準(zhǔn)、大數(shù)據(jù)交換技術(shù)規(guī)范、大數(shù)據(jù)傳輸
協(xié)議、大數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)等。
(1)大數(shù)據(jù)分類與編碼
大數(shù)據(jù)分類與編碼標(biāo)準(zhǔn)是信息化建設(shè)中標(biāo)準(zhǔn)化的一項基礎(chǔ)工作,
該類標(biāo)準(zhǔn)規(guī)定平臺匯集、交換相關(guān)信息統(tǒng)一的分類系統(tǒng)和排列順序
以及編碼規(guī)則,目的是在不同系統(tǒng)和用戶之間建立交通大數(shù)據(jù)的一
致參照,對提高大數(shù)據(jù)采集、處理和大數(shù)據(jù)交換效率具有重要作用。
大數(shù)據(jù)分類與編碼標(biāo)準(zhǔn)的制定將有力推進平臺標(biāo)準(zhǔn)化及交通信息化
建設(shè)標(biāo)準(zhǔn)化的進程。
(2)大數(shù)據(jù)字典
針對實際需求,定義大數(shù)據(jù)集,建立各個領(lǐng)域的大數(shù)據(jù)字典,
規(guī)范大數(shù)據(jù)概念和大數(shù)據(jù)定義。在此基礎(chǔ)上,形成完備的集團單位
大數(shù)據(jù)集和大數(shù)據(jù)字典。
(3)元大數(shù)據(jù)標(biāo)準(zhǔn)
第29頁
元大數(shù)據(jù)標(biāo)準(zhǔn)是描述大數(shù)據(jù)資源的具體對象時所有規(guī)則的集合,
它包括了完整描述一個具體大數(shù)據(jù)對象時所需要的大數(shù)據(jù)項集合。
針對各種信息資源分別制定適當(dāng)?shù)脑髷?shù)據(jù)標(biāo)準(zhǔn),可為信息的管理、
發(fā)現(xiàn)和獲取提供一種實際而簡便的方法,從而提高大數(shù)據(jù)交換效率。
(4)大數(shù)據(jù)交換標(biāo)準(zhǔn)
為了保證大數(shù)據(jù)共享和交換的順利實現(xiàn),必須明確定義和規(guī)范
大數(shù)據(jù)交換的相關(guān)標(biāo)準(zhǔn)。大數(shù)據(jù)交換的標(biāo)準(zhǔn)規(guī)范是集團單位綜合信
息平臺的核心標(biāo)準(zhǔn)。其中應(yīng)當(dāng)包括大數(shù)據(jù)交換內(nèi)容、大數(shù)據(jù)交換格
式、大數(shù)據(jù)傳輸方式、各類中心間大數(shù)據(jù)接口的標(biāo)準(zhǔn)化等方面。
(5)大數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)
由于大數(shù)據(jù)采集任務(wù)通常由其他二級平臺完成,大數(shù)據(jù)治理平
臺的標(biāo)準(zhǔn)方法主要集中在大數(shù)據(jù)的加工和管理上。應(yīng)該重點開發(fā)的
一個領(lǐng)域是大數(shù)據(jù)質(zhì)量控制方法。應(yīng)當(dāng)從三個方面對大數(shù)據(jù)質(zhì)量方
法進行研究:“壞大數(shù)據(jù)”或“不可靠大數(shù)據(jù)”的識別,錯誤大數(shù)
據(jù)的編輯方法,以及缺少值的處理。
4.4主大數(shù)據(jù)
主大數(shù)據(jù)治理平臺要做的就是從各部門的多個業(yè)務(wù)系統(tǒng)中整合
最核心的、最需要共享的大數(shù)據(jù)(主大數(shù)據(jù)),集中進行大數(shù)據(jù)的清
洗和豐富,并且以服務(wù)的方式把統(tǒng)一的、完整的、準(zhǔn)確的、具有權(quán)
威性的主大數(shù)據(jù)傳送給集團單位范圍內(nèi)需要使用這些大數(shù)據(jù)的操作
第30頁
型應(yīng)用系統(tǒng)和分析型應(yīng)用系統(tǒng)。
主大數(shù)據(jù)治理平臺的信息流應(yīng)為:
1)某個業(yè)務(wù)系統(tǒng)觸發(fā)對主大數(shù)據(jù)的改動;
2)主大數(shù)據(jù)治理平臺系統(tǒng)將整合之后完整、準(zhǔn)確的主大數(shù)據(jù)傳
送給所有有關(guān)的應(yīng)用系統(tǒng)
3)主大數(shù)據(jù)治理平臺系統(tǒng)為決策支持和大數(shù)據(jù)倉庫系統(tǒng)提供
準(zhǔn)確的大數(shù)據(jù)源。
因此對于主大數(shù)據(jù)治理平臺要考慮運用主大數(shù)據(jù)治理平臺系統(tǒng)
實現(xiàn),主大數(shù)據(jù)治理平臺系統(tǒng)的建設(shè),要從建設(shè)初期就考慮整體的
平臺框架和技術(shù)實現(xiàn)。
4.5大數(shù)據(jù)質(zhì)量
大數(shù)據(jù)質(zhì)量不高將影響大數(shù)據(jù)倉庫應(yīng)用程度不高。低下的大數(shù)
據(jù)質(zhì)量往往造成開發(fā)出來的系統(tǒng)與用戶的預(yù)期大相徑庭,大數(shù)據(jù)質(zhì)
量關(guān)系建設(shè)有關(guān)分析型信息系統(tǒng)成敗,同時大數(shù)據(jù)資源是集團單位
的戰(zhàn)略資源,合理有效的使用正確的大數(shù)據(jù)能指導(dǎo)集團單位做出正
確的決策,提高省綜合競爭力。不合理的使用不正確的大數(shù)據(jù)(即
差的大數(shù)據(jù)質(zhì)量)可導(dǎo)致決策的失敗,正可謂差之毫厘、謬以千里。
大數(shù)據(jù)質(zhì)量管理包含對大數(shù)據(jù)的絕對質(zhì)量管理、過程質(zhì)量管理。
絕對質(zhì)量即大數(shù)據(jù)的真實性、完備性、自治性是大數(shù)據(jù)本身應(yīng)具有
的屬性。過程質(zhì)量即使用質(zhì)量、存儲質(zhì)量和傳輸質(zhì)量,大數(shù)據(jù)的使
第31頁
用質(zhì)量是指大數(shù)據(jù)被正確的使用。再正確的大數(shù)據(jù),如果被錯誤的
使用,就不可能得出正確的結(jié)論。大數(shù)據(jù)的存貯質(zhì)量指大數(shù)據(jù)被安
全的存貯在適當(dāng)?shù)慕橘|(zhì)上。所謂存貯在適當(dāng)?shù)慕橘|(zhì)上是指當(dāng)需要大
數(shù)據(jù)的時候能及時方便的取出。大數(shù)據(jù)的傳輸質(zhì)量是指大數(shù)據(jù)在傳
輸過程中的效率和正確性。
高質(zhì)量的交通運輸行業(yè)大數(shù)據(jù)至少有如下幾項要求:
一是正確性,在轉(zhuǎn)換、分析、存儲、傳輸、應(yīng)用流程中不存在
錯誤;
二是完整性,大數(shù)據(jù)庫應(yīng)用或要求的所有記錄、字段都存在;
三是一致性,體現(xiàn)在整個大數(shù)據(jù)庫的定義和維護方面,確保大
數(shù)據(jù)在使用的整個過程中是一致的;
四是時效性,衡量指標(biāo)是在指定的大數(shù)據(jù)與真實的業(yè)務(wù)情況同
步的時間容忍度內(nèi),即指定的更新頻度內(nèi),及時被刷新的大數(shù)據(jù)的
百分比;
五是可靠性,提供大數(shù)據(jù)的大數(shù)據(jù)源必須能夠可靠穩(wěn)定地提供
大數(shù)據(jù)。
大數(shù)據(jù)質(zhì)量管理的規(guī)劃和實施包括以下內(nèi)容:
一是大數(shù)據(jù)質(zhì)量管控體系的建立,包括大數(shù)據(jù)質(zhì)量的評估體系,
定期評估大數(shù)據(jù)質(zhì)量狀況;
二是在部門各個應(yīng)用系統(tǒng)中的落實,包括每個應(yīng)用系統(tǒng)中的大
第32頁
數(shù)據(jù)質(zhì)量檢查等;
三是在最開始建立大數(shù)據(jù)質(zhì)量管理系統(tǒng)的時候,借助大數(shù)據(jù)治
理平臺上,通過建立大數(shù)據(jù)質(zhì)量管理的規(guī)則來集中化地建立大數(shù)據(jù)
質(zhì)量管理系統(tǒng),發(fā)現(xiàn)問題并持續(xù)改進;
四是大數(shù)據(jù)質(zhì)量管理與業(yè)務(wù)稽核的結(jié)合,通過業(yè)務(wù)規(guī)則的稽核
來發(fā)現(xiàn)大數(shù)據(jù)質(zhì)量深層次的問題,將大數(shù)據(jù)質(zhì)量與業(yè)務(wù)一線結(jié)合起
來,使業(yè)務(wù)人員對大數(shù)據(jù)質(zhì)量問題有更加清晰和明確的認(rèn)識。
完善的大數(shù)據(jù)質(zhì)量管理是保障各項大數(shù)據(jù)治理工作能夠得到有
效落實,達(dá)到大數(shù)據(jù)準(zhǔn)確、完整的目標(biāo),并能夠提供有效的增值服
務(wù)的重要基礎(chǔ)。
4.6大數(shù)據(jù)服務(wù)
大數(shù)據(jù)整理最終目的就是要服務(wù)于各部門單位、人員等,能更
準(zhǔn)確更快更方便的服務(wù)是大數(shù)據(jù)服務(wù)管理的目標(biāo)。
大數(shù)據(jù)服務(wù)管理是指針對內(nèi)部積累多年的大數(shù)據(jù),研究如何能
夠充分利用這些大數(shù)據(jù),分析行業(yè)業(yè)務(wù)流程優(yōu)化業(yè)務(wù)流程。大數(shù)據(jù)
使用的方式通常包括對大數(shù)據(jù)的深度加工和分析,包括通過各種報
表、工具來分析運營層面的問題,還包括通過大數(shù)據(jù)挖掘等工具對
大數(shù)據(jù)進行深度加工,從而更好的管理者服務(wù)。通過建立統(tǒng)一的大
數(shù)據(jù)服務(wù)平臺來滿足針對跨部門、跨系統(tǒng)的大數(shù)據(jù)應(yīng)用。通過統(tǒng)一
的大數(shù)據(jù)服務(wù)平臺來統(tǒng)一大數(shù)據(jù)源,變多源為單源,加快大數(shù)據(jù)流
第33頁
轉(zhuǎn)速度,提升大數(shù)據(jù)服務(wù)的效率。
4.7大數(shù)據(jù)安全
由于集團單位的重要且敏感信息大部分集中在應(yīng)用系統(tǒng)中,大
數(shù)據(jù)安全更是至關(guān)重要。如何保障大數(shù)據(jù)不被泄露和非法訪問,是
非常關(guān)鍵的問題。大數(shù)據(jù)安全管理主要解決的就是大數(shù)據(jù)在保存、
使用和交換過程中的安全問題。
大數(shù)據(jù)安全管理主要體現(xiàn)在以下六個方面:
一是大數(shù)據(jù)使用的安全性,包括基礎(chǔ)大數(shù)據(jù)的保存、訪問和權(quán)
限管理;
二是大數(shù)據(jù)隱私問題,系統(tǒng)中采集的證件號碼、銀行賬號等信
息在下游分析系統(tǒng)和內(nèi)部管理系統(tǒng)中,是否要進行加密,以避免大
數(shù)據(jù)被非法訪問;
三是訪問權(quán)限統(tǒng)一管理,包括單點登錄問題及用戶名、大數(shù)據(jù)
和應(yīng)用的訪問授權(quán)統(tǒng)一管理;
四是大數(shù)據(jù)安全審計,為大數(shù)據(jù)修改、使用等環(huán)節(jié)設(shè)置審計方
法,事后進行審計和責(zé)任追究;
五是制度及流程建立,逐步建立大數(shù)據(jù)安全性的管理辦法、系
統(tǒng)開發(fā)規(guī)范、大數(shù)據(jù)隱私管理辦法及相應(yīng)的應(yīng)用系統(tǒng)規(guī)范、在管理
決策和分析類系統(tǒng)中的審計管理辦法等;
六是應(yīng)用系統(tǒng)權(quán)限的訪問控制,建立集團級權(quán)限管理系統(tǒng),增
第34頁
加數(shù)字水印等技術(shù)在應(yīng)用系統(tǒng)中的使用。
5.大數(shù)據(jù)治理保障機制
5.1制度章程
5.1.1規(guī)章制度
大數(shù)據(jù)治理章程類似于企業(yè)的公司條例。該章程闡明大數(shù)據(jù)治
理的主要目標(biāo)、相關(guān)工作人員、職責(zé)、決策權(quán)利和度量標(biāo)準(zhǔn)。
具體可參見附件大數(shù)據(jù)治理平臺規(guī)范
5.1.2管控辦法
管控辦法是基于規(guī)章制度與工具的結(jié)合,可落地的操作的辦法。
具體可參見附件大數(shù)據(jù)質(zhì)量評估辦法
5.1.3考核機制
考核是是保障制度落實的根本,建立明確的考核制度,實際操
作中可根據(jù)集團單位情況,建立相應(yīng)的針對大數(shù)據(jù)治理方面的考核
辦法,并與個人績效相關(guān)聯(lián)。可參考管理學(xué)中相關(guān)考核、績效管理
相關(guān)部分。
對于大數(shù)據(jù)治理的考核,可見下圖進行理解:
第35頁
執(zhí)行是管控體系落地的關(guān)鍵
業(yè)務(wù)梳理
以績效的手段促i
管理,栩噓生產(chǎn)者、使用者.管
理者及擁有者關(guān)聯(lián)起來,形成T
可持續(xù)有好執(zhí)行的執(zhí)行體系,保障
持續(xù)的高數(shù)據(jù)質(zhì)量
0楣理核心業(yè)務(wù)源.數(shù)據(jù)流
0制定數(shù)姻管控指標(biāo)(數(shù)據(jù)標(biāo)準(zhǔn))
o以標(biāo)準(zhǔn)對數(shù)堀進行質(zhì)量探套.處理.
分析
o則則對數(shù)據(jù)流進行監(jiān)控.預(yù).
o集成高質(zhì)fll班
J心,蹲哄事、
o以績效手段促茲保障數(shù)搪管
iswma有蛇行
-a^MKN
考核51掩數(shù)據(jù)負(fù)責(zé)人
發(fā)生數(shù)據(jù)質(zhì)俄考核標(biāo)準(zhǔn):
月35扣分項
1.發(fā)現(xiàn)f數(shù)據(jù)質(zhì)量問圖01分;
2.越物,as本完為止;
考德對象:數(shù)據(jù)負(fù)責(zé)人
考核標(biāo)準(zhǔn):
1.數(shù)據(jù)質(zhì)量問題能響30%以下(含30%)
僖息系統(tǒng),扣5分;
數(shù)據(jù)質(zhì)量何)胭2.■確影響30%~70%(含70%)
月25扣分項
信息系統(tǒng),捫15分;
3.數(shù)據(jù)質(zhì)量問題影峋70%1壯信息系蜿,
扣25分;
4.按月統(tǒng)計,以單次數(shù)據(jù)質(zhì)蛔題影響范
圍最大的數(shù)據(jù)為準(zhǔn);
考叨掩數(shù)據(jù)負(fù)責(zé)人
嚴(yán)重程度考咳板也以造成的峻濟損失為考核依據(jù),年扣分項
依企業(yè)情況自定義;人工考修
考倭對象:數(shù)據(jù)負(fù)責(zé)人
考核標(biāo)準(zhǔn):,c
i.在規(guī)定時間內(nèi)處理完成ftoas*問月B”加分項
國,加1分;5W不力吩;
第36頁
考段對象數(shù)據(jù)管理員
問題預(yù)警、分L備g現(xiàn)數(shù)據(jù)質(zhì)量I礴時,在規(guī)定時間段
發(fā)
內(nèi),及時預(yù)警并通知相關(guān)人員處理,不扣分;
5W,扣3分;
5.2大數(shù)據(jù)治理組織
5.2.1組織架構(gòu)
有效的組織機構(gòu)是項目成功的有力保證,為了達(dá)到項目預(yù)期目
標(biāo),在項目開始之前對于組織機構(gòu)及其責(zé)任分工做出規(guī)劃是非常必
要的,大數(shù)據(jù)治理項目管理組織建議宜采用如圖所示的組織結(jié)構(gòu):
第37頁
5.2.2組織層次
大數(shù)據(jù)治理委員會由集團公司的高層領(lǐng)導(dǎo)者組成。委員會定義
大數(shù)據(jù)治理愿景和目標(biāo);組織內(nèi)跨業(yè)務(wù)部門和IT部門進行協(xié)調(diào);
設(shè)置大數(shù)據(jù)治理計劃的總體方向;在發(fā)生策略分歧時進行協(xié)調(diào)。此
委員會也將包含來自部門或子公司的領(lǐng)導(dǎo)代表,以及來自各單位視
大數(shù)據(jù)為機構(gòu)資產(chǎn)的信息科技部門的代表。這些高層管理人員是大
數(shù)據(jù)治理計劃的所有擁護者,確保在整個組織內(nèi)獲得支持。
大數(shù)據(jù)治理工作組是組織內(nèi)委員會下面的下一個級別。工作組
第38頁
執(zhí)行大數(shù)據(jù)治理計劃。工作組負(fù)責(zé)監(jiān)督大數(shù)據(jù)治理平臺員工作。大
數(shù)據(jù)治理工作組由大數(shù)據(jù)治理委員會中各局領(lǐng)導(dǎo)主持。
每各業(yè)務(wù)部門有至少一位業(yè)務(wù)分析員,信息科技部門設(shè)置大數(shù)
據(jù)質(zhì)量分析員、大數(shù)據(jù)治理平臺員、集成開發(fā)人員。各工作人員負(fù)
責(zé)本部門大數(shù)據(jù)的質(zhì)量,履行職責(zé),解決具體的問題。
5.2.3組織職責(zé)
根據(jù)大數(shù)據(jù)治理平臺工作的實際需要,在業(yè)務(wù)管理部門、技術(shù)
管理部門和業(yè)務(wù)應(yīng)用部門確定各工作人員的職責(zé)。
大數(shù)據(jù)治理委員會的職責(zé)范圍:
1)從戰(zhàn)略角度來統(tǒng)籌和規(guī)劃,對大數(shù)據(jù)資產(chǎn)和系統(tǒng)進行清理,
確定大數(shù)據(jù)治理的范圍;明確大數(shù)據(jù)源的出處、使用和管理的流程
及職責(zé);
2)明確大數(shù)據(jù)治理的組織、功能、角色和職責(zé);
3)負(fù)責(zé)各工作組成員的培訓(xùn)工作;
4)負(fù)責(zé)審查各工作小組的目標(biāo)、原則,批準(zhǔn)大數(shù)據(jù)治理平臺的
相關(guān)制度、標(biāo)準(zhǔn)及流程;
5)負(fù)責(zé)確定大數(shù)據(jù)治理的工具、技術(shù)和平臺;
6)負(fù)責(zé)制定大數(shù)據(jù)治理的評估指標(biāo)、方法。
大數(shù)據(jù)治理工作小組,其主要工作職責(zé)是:
負(fù)責(zé)大數(shù)據(jù)治理的牽頭,組織、指導(dǎo)和協(xié)調(diào)本單位的大數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 賒銷額度協(xié)議書
- 樓棟長志愿服務(wù)協(xié)議書
- 背書轉(zhuǎn)讓協(xié)議書
- 變更孩子撫養(yǎng)權(quán)協(xié)議書
- 綜合還款協(xié)議書
- 考研錄取協(xié)議書
- 房屋代買賣合同協(xié)議書
- 酒場休戰(zhàn)協(xié)議書
- 道路綠化協(xié)議書
- 米油回收協(xié)議書
- 細(xì)致解讀wps考試內(nèi)容的試題及答案
- 2025屆高考語文寫作押題范文8篇及分析
- 紙張印刷與印后加工考核試卷
- 2025年汽車維修工職業(yè)資格考試重點試題及答案
- 2024年四川西華師范大學(xué)招聘輔導(dǎo)員真題
- 2025年安全生產(chǎn)考試題庫:安全生產(chǎn)隱患排查治理安全生產(chǎn)責(zé)任制試題
- 2025年高考英語語法填空熱點語法填空熱點話題06(學(xué)生版+解析)
- 湛江漓源農(nóng)牧科技有限公司年產(chǎn)36萬噸飼料項目環(huán)境影響報告表
- 隨班就讀試題及答案
- 1.1細(xì)胞是生命活動的基本單位課件高一上學(xué)期生物人教版(2019)必修1
- 2024年福建省長樂市事業(yè)單位公開招聘醫(yī)療衛(wèi)生崗筆試題帶答案
評論
0/150
提交評論