數據治理系統實施方案_第1頁
數據治理系統實施方案_第2頁
數據治理系統實施方案_第3頁
數據治理系統實施方案_第4頁
數據治理系統實施方案_第5頁
已閱讀5頁,還剩65頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據治理系統實施方案目錄1、數據治理行業背景2、數據治理頂層設計3、數據治理實施流程4、數據治理模型設計5、數據治理未來展望前言隨著信息技術的普及,人類產生的數據量正在以指數級的速度增長,如此海量的數據就要求利用新的方法來管理.數據治理是將一個機構(企業或政府部門)的數據作為戰略資產來管理,需要從數據收集到處理應用的一套管理機制,以期提高數據質量,實現廣泛的數據共享,最終實現數據價值最大化.目前,各行各業對大數據的研究比較火熱,但對于大數據治理的研究還處于起步階段,一個組織的正確決策離不開良好的數據治理.首先介紹數據治理和大數據治理的概念、發展以及應用的必要性;其次,對已有的數據治理技術數據規

2、范、數據清洗、數據交換和數據集成進行具體的分析,并介紹了數據治理成熟度和數據治理框架設計;在此基礎上,提出了大數據HAO治理模型.該模型以支持人類智能(HI)、人工智能(AI)和組織智能(OI)的三者協同為目標。前言大多數組織不考慮數據質量對大數據平臺建設、分析應用等方面的重要影響而盲目投入, 缺乏對大數據資源的整體規劃和綜合治理, 最終導致一些項目實施的終止和失敗.項目的失敗和數據量的激增, 使得數據治理的重要性逐步得到工業界和學術界的共識.隨著國家政策支持以及產業實際需求的增長, 如何通過數據治理提升組織數據管理能力、消除數據孤島、挖掘數據潛在的價值, 將成為重點發展領域.前言數據治理的重

3、要前提是建設統一共享的數據平臺, 信息系統的建設發展到一定階段, 數據資源將成為戰略資產, 而有效的數據治理才是數據資產形成的必要條件.同時, 在數據共享的時代, 享受大數據帶來便利的同時, 也帶來如個人隱私泄露的問題.個人隱私信息泄露事件頻繁發生, 使得人們更加注重保護個人的隱私信息, 通常采取一些措施, 如在進行網站注冊時故意填寫虛假信息, 這將會嚴重的影響數據的質量和完整性, 低質量的數據將導致低質量的挖掘結果.數據治理不僅要規范數據, 實現數據的價值和管控風險, 還要做到隱私保護.數據治理的定義至今為止, 數據治理還沒有統一標準的定義.IBM對于數據治理的定義是, 數據治理是一種質量控

4、制規程, 用于在管理、使用、改進和保護組織信息的過程中添加新的嚴謹性和紀律性.DGI則認為, 數據治理是指在企業數據管理中分配決策權和相關職責.數據治理的目標, 總體來說就是提高數據質量, 在降低企業風險的同時, 實現數據資產價值的最大化, 包括: 構筑適配靈活、標準化、模塊化的多源異構數據資源接入體系; 建設規范化、流程化、智能化的數據處理體系; 打造數據精細化治理體系、組織的數據資源融合分類體系; 構建統一調度、精準服務、安全可用的信息共享服務體系.數據治理的職責數據治理提供了將數據作為資產進行管理所需的指導.最后, 我們要把握數據治理的核心數據資產管理的決策權分配和指責分工。由此, 數據

5、治理從本質上看就是對一個機構(企業或政府部門)的數據從收集融合到分析管理和利用進行評估、指導和監督(EDM)的過程, 通過提供不斷創新的數據服務, 為企業創造價值。管理是按照治理機構設定的方向開展計劃、建設、運營和監控活動來實現企業目標.所以, 治理過程是對管理活動的評估、指導和監督, 而管理過程是對治理決策的計劃、建設和運營.具體分析:首先, 數據治理與數據管理包含不同的活動即職能, 數據治理包括評估指導和監督, 數據管理包括計劃建設和運營; 其次, 數據治理是回答企業決策的相關問題并制定數據規范, 而數據管理是實現數據治理提出的決策并給予反饋; 最后, 數據治理和數據管理的責任主體也是不同

6、的, 前者是董事會, 后者是管理層。數據治理新趨勢目前基本上采用IBM的5V模型描述大數據的特征:第1個V(volume)是數據量大, 包括采集、存儲和計算的量都非常大; 第2個V(velocity)是數據增長速度快, 處理速度也快, 時效性要求高; 第3個V(variety)是種類和來源多樣化, 包括結構化、半結構化和非結構化數據; 第4個V(value)是數據價值密度相對較低, 可以說是浪里淘沙卻又彌足珍貴; 第五個V(veracity)是各個數據源的質量良莠不齊, 需要精心甄別.隨著數據量的激增, 可以“5V+I/O”體量、速度、多樣性、數據價值和質量以及數據在線來概括其特征.這里的“I

7、/O”是指數據永遠在線, 可以隨時調用和計算, 這個特征是大數據與傳統數據最大的區別.數據治理新趨勢面對大數據興起帶來的挑戰, 為了促進大數據治理的發展和變革, 目前業界比較權威的大數據治理定義是:大數據治理是廣義信息治理計劃的一部分, 它通過協調多個職能部門的目標, 來制定與大數據優化、隱私與貨幣化相關的策略.此定義指出:大數據的優化、隱私保護以及商業價值是大數據治理的重點關注領域, 大數據治理是數據治理發展的一個新階段, 與數據治理相比, 各種需求的解決在大數據治理中變得更加重要和富有挑戰性。數據治理新趨勢海量數據存儲:根據本地實際數據量級和存儲處理能力, 結合集中式或分布式等數據資源的存

8、儲方式進行構建, 為大數據平臺提供PB級數據的存儲及備份能力支撐.云計算作為一種新型的商業模式, 它所提供的存儲服務具有專業、經濟和按需分配的特點, 可以滿足大數據的存儲需求;處理效率:大數據治理提供多樣化的海量數據接入及處理能力, 包括對各類批量、實時、準實時及流式的結構化、非結構化數據提供快速的計算能力和搜索能力, 比如數據加載能力130MB/s、億級數據秒級檢索、百億數據實時分析10s、千億數據離線分析30m等等.對于大數據的搜索能力方面, 為了保證數據安全, 大數據在云計算平臺上的存儲方式一般為密文存儲,。數據治理新趨勢數據可靠性:圍繞行業數據元相關標準規定, 基于行業元數據體系打造大

9、數據平臺采集匯聚、加工整合、共享服務等全過程的、端到端的數據質量稽核管控體系, 確保數據準確可靠;數據安全性:數據價值是大數據平臺的核心價值, 所以數據的安全是保證平臺運行的基礎.數據安全包括數據存儲的安全、數據傳輸過程中的安全, 數據的一致性、數據訪問安全等.數據安全的總體目標是保證數據的存儲、傳輸、訪問、展示和導出安全.數據安全措施主要有數據脫敏控制、數據加密控制、防拷貝管理、防泄漏管理、數據權限管理、數據安全等級管理等.目錄1、數據治理行業背景2、數據治理頂層設計3、數據治理實施流程4、數據治理模型設計5、數據治理未來展望數據治理成熟度模型一個機構的數據治理能力越高, 所享受到數據治理帶

10、來的價值也會越多, 如增加收入、減少成本、降低風險等.于是, 很多機構想要準確地評估本公司的數據治理能力, 可以利用數據治理成熟度模型方法, 包括DQM, Dataflux和IBM在內的一些組織都開發了相類似的數據治理成熟度模型.DQM數據治理成熟度模型(1) 意識階段:當公司數據不統一的情況隨處可見, 數據質量很差卻難以提高, 數據模型的梳理難以進行時, 公司會意識到數據治理對于數據平臺的建設發揮著至關重要的作用, 但并沒有定義數據規則和策略, 基本不采取行動;(2) 被動的反應階段:公司在出現數據上的問題時, 會去采取措施解決問題, 但并不會尋其根源解決根本問題, 也就是說, 公司的行動通

11、常是由危機驅動的.該類反應性組織的數據仍然是“孤立”存在的, 很少進行數據共享, 只是努力達到監管的要求;(3) 主動的應對階段:處在這個階段的組織最終可以識別和解決根本原因, 并可以在問題出現之前將其化解.這個階段的組織將數據視為整個企業的戰略資產, 而不是像第1階段將數據作為一種成本開銷;(4) 成熟的管理階段:這個階段的組織擁有一組成熟的數據流程, 可以識別出現的問題, 并以專注于數據開發的方式定義策略;(5) 最佳階段:一個組織把數據和數據開發作為人員、流程和技術的核心競爭力.IBM的數據治理成熟度模型1) IBM的初始階段是指企業缺乏數據治理流程, 沒有跟蹤管理, 也沒有一個穩定的數

12、據治理的環境, 僅僅只能體現個人的努力和成果, 工作尚未開展;(2) 基本管理階段是指該階段有了初始的流程定義, 開展了基本的數據治理工作, 但仍然存在很多問題;(3) 定義階段是指企業在相關成功案例的基礎上積累了相關的經驗, 形成了部分標準但仍不完善的流程;(4) 量化管理階段的企業能夠運用先進的工具對數據治理的效果進行量化, 數據治理已經能取得持續的效果, 并且能根據既定的目標進行一致的績效評估;(5) 最佳階段是持續地關注流程的優化, 達到了此階段的企業已經具有創新能力, 成為行業的領導者.數據治理框架IBM的數據治理委員會以支撐域、核心域、促成因素和成果這4個層次來構建數據治理框架。數

13、據治理框架所包含的11個域并不是相互獨立運行的而是相關聯的, 例如, 數據的質量和安全/隱私要求需要在整個信息生命周期中進行評估和管理.IBM的數據治理框架注重數據治理的方法以及過程, IBM數據治理委員會最關鍵的命題是數據治理的成果, 在下面3層的支撐作用下, 組織最終實現數據治理的目標提升數據價值.數據治理框架從原則、核心域、實施與評估這3個方面來對大數據治理全面地進行描述, 企業數據治理應該遵循戰略一致、風險管理、運營合規以及價值創造這4個基本的指導性原則, 治理的核心域或者說叫決策域包括戰略、組織、數據生命周期管理、數據質量管理、大數據服務創新、大數據安全以及大數據架構這7個部分, 實

14、施與評估維度指出大數據治理在實施評估時重點需要關注促成因素、實施過程、成熟度評估以及審計這4個方面.一個大數據治理組織要在4個基本原則下對7個核心域進行數據治理, 不斷地推進大數據治理的工作.數據治理成熟度模型數據治理框架框架頂部的4個原則是數據治理自上而下的頂層設計, 對大數據治理的實施具有指導作用, 它為所有其他的管理決策確定方向.戰略一致是指數據治理的戰略要和企業的整體戰略保持一致, 在制定數據治理戰略時要融合企業的整體戰略、企業的文化制度以及業務需要, 來繪制數據治理實現藍圖; 大數據的到來不僅伴隨著價值同時也會帶來風險, 企業要保持風險可控有計劃地對風險進行不定期的評估工作; 運營合

15、規是指企業在數據治理過程中要遵守法律法規和行業規范; 企業的數據治理要不斷地為企業提供創新服務創造價值.數據治理框架框架的核心域也可以叫做決策域, 指出數據治理需要治理的核心對象, 下面對數據治理的7個核心域進行一一介紹, 其中:戰略制定要根據大數據治理目標來制定, 根據戰略的制定, 企業應該設置對應的組織架構把戰略實施落到實處, 明確各個部門相關職責; 數據生命周期管理是從數據的采集、存儲、集成、分析、歸檔、銷毀的全過程進行監督和管理, 根據出現的問題及時優化的過程; 數據質量管理不僅要保障數據的完整性、準確性、及時性以及一致性, 而且還包括問題追蹤和合規性監控.大數據安全防護 大數據加密技

16、術:對平臺中的核心敏感數據進行加密保護, 結合訪問控制技術, 利用用戶權限和數據權限的比較來防止非授權用戶訪問數據; 大數據安全漏洞檢測:該技術可以采用白/黑/灰盒測試或者動態跟蹤分析等方法, 對大數據平臺和程序進行安全漏洞檢測, 減少由于設計缺陷或人為因素留下的問題; 威脅預測技術:利用大數據分析技術, 對平臺的各類信息資產進行安全威脅檢測, 在攻擊發生前進行識別預測并實施預防措施; 大數據認證技術:利用大數據技術收集用戶行為和設備行為數據, 根據這些數據的特征對使用者進行身份判斷;數據治理隱私保護 匿名保護技術:針對結構化數據, 一般采用數據發布匿名保護技術; 而對于類似圖的非結構化數據,

17、 則一般采用社交網絡匿名保護技術; 數據水印技術:水印技術一般用于多媒體數據的版權保護, 但多用于靜態數據的保護, 在大數據動態性的特點下需要改進; 數據溯源技術:由于數據的來源不同, 對數據的來源和傳播進行標記, 為使用者判斷信息真偽提供便利; 數據審計技術:對數據存儲前后的完整性和系統日志信息進行審計.數據治理成熟度大數據架構是從系統架構層面進行描述, 不僅關心大數據的存儲, 還關心大數據的管理和分析.我們首先要明確元數據和主數據的含義:元數據是對數據的描述信息, 而主數據就是業務的實體信息.所以對于元數據和主數據的管理是對基礎數據的管理.數據治理不僅要降低企業成本, 還要應用數據創新服務

18、為企業增加價值, 大數據服務創新也是大數據治理的核心價值.大數據治理的實施與評估主要包括促成因素、實施過程、成熟度評估和審計:促成因素包括企業的內外部環境和數據治理過程中采用的技術工具; 大數據治理是一個長期的、閉環的、循序漸進的過程, 在每一個階段需要解決不同的問題, 有不同的側重點, 所以應該對數據生命周期的每個階段有一個很好的規劃, 這就是實施過程的內涵所在; 成熟度評估主要是對數據的安全性、一致性、準確性、可獲取性、可共享性以及大數據的存儲和監管進行評估; 審計是第三方對企業數據治理進行評價和給出審計意見, 促進有關數據治理工作內容的改進, 對于企業的持續發展意義重大.在企業的數據治理

19、過程中, 治理主體對數據治理的需求進行評估來設定數據治理的目標和發展方向, 為數據治理戰略準備與實施提供指導, 并全程監督數據治理的實施過程.通過對實施成果的評估, 全面了解本公司數據治理的水平和狀態, 更好地改進和優化數據治理過程, 以致達到組織的預期目標.目錄1、數據治理行業背景2、數據治理頂層設計3、數據治理實施流程4、數據治理模型設計5、數據治理未來展望數據規范數據治理的處理對象是海量分布在各個系統中的數據, 這些不同系統的數據往往存在一定的差異:數據代碼標準、數據格式、數據標識都不一樣, 甚至可能存在錯誤的數據.這就需要建立一套標準化的體系, 對這些存在差異的數據統一標準, 符合行業

20、的規范, 使得在同樣的指標下進行分析, 保證數據分析結果的可靠性.例如, 對于數據庫的屬性值而言, 可以建立唯一性規則、連續性規則以及空值規則等來對數據進行檢驗和約束:唯一性規則一般是指為主鍵或其他屬性填寫unique約束, 使得給定屬性的每個值與該屬性的其他值不同; 連續性規則是指屬性的最大值和最小值之間沒有缺失值并且每個值也是唯一的, 一般用于檢驗數; 空值規則是指使用其他特殊符號來代替空值, 以及對于這樣的值應該如何處理.數據的規范化能夠提高數據的通用性、共享性、可移植性及數據分析的可靠性.所以, 在建立數據規范時要具有通用性, 遵循行業的或者國家的標準.數據規范方法數據治理過程中可使用

21、的數據規范方法有:規則處理引擎、標準代碼庫映射.(1) 規則處理引擎數據治理為每個數據項制定相關聯的數據元標準, 并為每個標準數據元定義一定的處理規則, 這些處理邏輯包括數據轉換、數據校驗、數據拼接賦值等.基于機器學習等技術, 對數據字段進行認知和識別, 通過數據自動對標技術, 解決在數據處理過程中遇到的數據不規范的問題. 根據數據項標準定義規則模板, 圖中“出生日期”的規則如下所示。 值域稽核規則:YYYY:MM:DD或YYYY-MM-DD;取值范圍規則:1900 YYYY =2018, 1 =MM =12, 1 =DD “男”,“男性” = “男”,“male” = “男”,“man” =

22、 “男”,“1” = ”男”使用數據轉換規則時查找數據字典, 將所有不同的表示方式統一成一種表示方式.數據清洗基本方法從微觀層面來看, 數據清洗的對象分為模式層數據清洗和實例層數據清洗.數據清洗識別并修復的“臟數據”主要有錯誤數據、不完整的數據以及相似重復的數據, 根據“臟數據”分類, 數據清洗也可以分為3類:屬性錯誤清洗、不完整數據清洗以及相似重復記錄的清洗, 下面分別對每種情況進行具體分析.屬性錯誤檢測數據庫中很多數據違反最初定義的完整性約束, 存在大量不一致的、有沖突的數據和噪聲數據, 我們應該識別出這些錯誤數據, 然后進行錯誤清洗.(1) 屬性錯誤檢測屬性錯誤檢測有基于定量的方法和基于

23、定性的方法. 定量的誤差檢測一般在離群點檢測的基礎上采用統計方法來識別異常行為和誤差, 離群點檢測是找出與其他觀察結果偏離太多的點, Aggarwal將關于離群點檢測方法又分為6種類型:極值分析、聚類模型、基于距離的模型、基于密度的模型、概率模型、信息理論模型44, 并對這幾種模型進行了詳盡的介紹; 定性的誤差檢測一般依賴于描述性方法指定一個合法的數據實例的模式或約束, 因此確定違反這些模式或者約束的就是錯誤數據.描述了定性誤差檢測技術在3個不同方面的不同分類, 下面我們對圖中提出的3個問題進行分析.屬性錯誤檢測首先, 錯誤類型是指要檢測什么.定性誤差檢測技術可以根據捕捉到的錯誤類型來進行分類

24、, 目前, 大量的工作都是使用完整性約束來捕獲數據庫應該遵守的數據質量規則, 雖然重復值也違反了完整性約束, 但是重復值的識別與清洗是數據清洗的一個核心。 其次, 自動化檢測.根據人類的參與與否以及參與步驟來對定性誤差檢測技術進行分類, 大部分的檢測過程都是全自動化的, 個別技術涉及到人類參與; 最后, 商業智能層是指在哪里檢測.錯誤可以發生在數據治理的任何階段, 大部分的檢測都是針對原始數據庫的, 但是有些錯誤只能在數據治理后獲得更多的語義和業務邏輯才能檢測出來.不僅可以使用統計方法來對屬性錯誤進行檢測, 使用一些商業工具也可以進行異常檢測, 如數據清洗工具以及數據審計工具等.Potters

25、 Wheel是一種公開的數據清洗工具, 不僅支持異常檢測, 還支持后面數據不一致清洗所用到的數據變換功能.屬性錯誤清洗屬性錯誤清洗包括噪聲數據以及不一致的數據清洗. 噪聲數據的清洗也叫光滑噪聲技術, 主要方法有分箱以及回歸等方法:分箱方法是通過周圍鄰近的值來光滑有序的數據值但是只是局部光滑, 回歸方法是使用回歸函數擬合數據來光滑噪聲; 不一致數據的清洗在某些情況下可以參照其他材料使用人工進行修改, 可以借助知識工程工具來找到違反限制的數據, 例如:如果知道數據的函數依賴關系, 通過函數關系修改屬性值.但是大部分的不一致情況都需要進行數據變換, 即定義一系列的變換糾正數據, 也有很多商業工具提供

26、數據變換的功能, 例如數據遷移工具和ETL工具等, 但是這些功能都是有限的.不完整數據清洗有很多情況下會造成數據值的缺失, 例如填寫某些表格時需要填寫配偶信息, 那沒有結婚的人就無法填寫此字段, 或者在業務處理的稍后步驟提供值, 字段也可能缺失.處理缺失值目前有以下幾種方法. 忽略元組:一般情況下, 當此元組缺少多個屬性值時常采用此方法, 否則該方法不是很有效.當忽略了此條元組之后, 元組內剩下的有值的屬性也不能被采用, 這些數據可能是有用的; 人工填寫缺失值:這種方法最大的缺點就是需要大量的時間和人力, 數據清理技術需要做到最少的人工干預, 并且在數據集很大、缺失很多屬性值時, 這種方法行不

27、通; 全局變量填充缺失值:使用同一個常量來填充屬性的缺失值.這種方法雖然使用起來較為簡單, 但是有時不可靠.例如, 用統一的常量“NULL”來填寫缺失值, 在后續的數據挖掘中, 可能會認為它們形成了一個有趣的概念; 中心度量填充缺失值:使用屬性的中心度量來填充缺失值.中心度量是指數據分布的“中間”值, 例如均值或者中位數, 數據對稱分布使用均值、傾斜分布使用中位數; 使用最可能的值填充:相當于數值預測的概念.回歸分析是數值預測最常用的統計學方法, 此外也可以使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定缺失值.相似重復記錄清洗相似重復記錄識別消除相似重復記錄, 首先應該識別出相同或不同數

28、據集中的兩個實體是否指向同一實體, 這個過程也叫實體對齊或實體匹配.文本相似度度量是實體對齊的最基礎方法, 大致分為4種:基于字符的(例如編輯距離、仿射間隙距離、Smith-Waterman距離、Jaro距離度量、Q-gram距離)、基于單詞的(例如Jaccard系數)、混合型(例如softTF-IDF)和基于語義的(例如WordNet).隨著知識表示學習在各個領域的發展, 一些研究人員提出了基于表示學習的實體匹配算法, 但均是以TransE系列模型為基礎構建的.TransE首次提出基于翻譯的方法, 將關系解釋為實體的低維向量之間的翻譯操作, 隨之涌現出一些擴展的典型算法, 下面對這些算法進行

29、簡單介紹.a) MTransE算法:基于轉移的方法解決多語言知識圖譜中的實體對齊.首先, 使用TransE對單個的知識圖譜進行表示學習; 接著, 學習不同空間的線性變換來進行實體對齊.轉移方法有基于距離的軸校準、翻譯向量、線性變換這3種.該知識模型簡單復用TransE, 對于提高實體對齊的精度仍存在很大局限;相似重復記錄清洗b) JAPE算法是針對跨語言實體對齊的聯合屬性保護模型, 利用屬性及文字描述信息來增強實體表示學習, 分為結構表示、屬性表示.IPTransE算法使用聯合表示的迭代對齊, 即使用迭代的方式不斷更新實體匹配.該方法分為3部分:知識表示、聯合表示、迭代對齊.但這兩種算法都是基

30、于先驗實體匹配, 將不同知識圖譜中的實體和關系嵌入到統一的向量空間, 然后將匹配過程轉換成向量表示間距離的過程;c) SEEA算法分為兩部分:屬性三元組學習、關系三元組學習.該模型能夠自學習, 不需要對齊種子的輸入.每次迭代, 根據前面迭代過程所得到的表示模型, 計算實體向量間的余弦相似度.并選取前對添加到關系三元組中更新本次表示模型, 直到收斂.收斂條件:無法選取前對實體對.實體對齊方法不僅應用于數據清洗過程中, 對后續的數據集成以及數據挖掘也起到重要的作用.除此之外, 也有很多重復檢測的工具可以使用, 如Febrl系統、TAILOR工具、WHIRL系統、BigMatch等, 但是很多匹配算

31、法只適用于英文不適合中文, 所以中文數據清洗工具的開發還需要進一步的研究.相似重復記錄清洗 相似重復記錄的清洗一般都采用先排序再合并的思想, 代表算法有優先隊列算法、近鄰排序算法、多趟近鄰排序算法.優先隊列算法比較復雜, 先將表中所有記錄進行排序后, 排好的記錄被優先隊列進行順序掃描并動態地將它們聚類, 減少記錄比較的次數, 匹配效率得以提高, 該算法還可以很好地適應數據規模的變化.近鄰排序算法是相似重復記錄清洗的經典算法, 近鄰排序算法是采用滑動窗口機制進行相似重復記錄的匹配, 每次只對進入窗口的w條記錄進行比較, 只需要比較wN次, 提高了匹配的效率.但是它有兩個很大的缺點:首先是該算法的

32、優劣對排序關鍵字的依賴性很大, 如果排序關鍵字選擇得不好, 相似的兩條記錄一直沒有出現在滑動窗口上就無法識別相似重復記錄, 導致很多條相似重復記錄得不到清洗; 其次是滑動窗口的值w也很難把控,w值太大可能會產生沒必要的比較次數,w值太小又可能會遺漏重復記錄的匹配.多趟近鄰排序算法是針對近鄰排序算法進行改進的算法, 它是進行多次近鄰排序算法每次選取的滑動窗口值可以不同, 且每次匹配的相似記錄采用傳遞閉包, 雖然可以減少很多遺漏記錄, 但也會產生誤識別的情況.這兩個算法的滑動窗口值和屬性值的權重都是固定的, 所以也有一些學者提出基于可變的滑動窗口值和不同權重的屬性值來進行相似重復記錄的清洗.以上算

33、法都有一些缺陷, 如都要進行排序, 多次的外部排序會引起輸入/輸出代價過大; 其次, 由于字符位置敏感性, 排序時相似重復的記錄不一定排在鄰近的位置, 對算法的準確性有影響.數據交換數據交換是將符合一個源模式的數據轉換為符合目標模式數據的問題, 該目標模式盡可能準確并且以與各種依賴性一致的方式反映源數據。早期數據交換的一個主要方向是在關系模式之間從數據交換的上下文中尋求一階查詢的語義和復雜性. 2008年, Afrati等人開始系統地研究數據交換中聚合查詢的語義和復雜性, 給出一些概念并做出了技術貢獻.在一篇具有里程碑意義的論文中, Fagin等人提出了一種純粹邏輯的方法來完成這項任務.從這時

34、起, 在數據庫研究界已經對數據交換進行了深入研究.近年, Xiao等人指出, 跨越不同實體的數據交換是實現智能城市的重要手段, 設計了一種新穎的后端計算架構數據隱私保護自動化架構(DPA), 促進在線隱私保護處理自動化, 以無中斷的方式與公司的主要應用系統無縫集成, 允許適應靈活的模型和交叉的服務質量保證實體數據交換.隨著云計算和Web服務的快速發展, Wu等人將基于特征的數據交換應用于基于云的設計與制造的協作產品開發上, 并提出了一種面向服務的基于云的設計和制造數據交換架構.完善合理的數據交換服務建設, 關系到大數據平臺是否具有高效、穩定的處理數據能力.數據交換的實現模式數據整合是平臺建設的

35、基礎, 涉及到多種數據的整合手段, 其中, 數據交換、消息推送、通過服務總線實現應用對接等都需要定義一套通用的數據交換標準, 基于此標準實現各個系統間數據的共享和交換, 并支持未來更多系統與平臺的對接.平臺數據交換標準的設計, 充分借鑒國內外現有的各類共享交換系統的建設經驗, 采用基于可擴展標記語言(XML)的信息交換框架.XML定義了一組規則, 用于以人類可讀和機器可讀的格式編碼文檔, 它由國際萬維網聯盟設計.XML文檔格式良好且結構化, 因此它們更易于解析和編寫.由于它具有簡化、跨平臺、可擴展性和自我描述等特征, XML成為通過Internet進行數據傳輸的通用語言.XML關心的重點是數據

36、, 而其他的因素如數據結構和數據類型、表現以及操作, 都是有其他的以XML為核心的相關技術完成.基于基本的XML語言, 通過定義一套數據元模型(語義字典)和一套基于XML Schema的描述規范來實現對信息的共同理解, 基于此套交換標準完成數據的交換.數據交換概括地說有以下兩種實現模式. 協議式交換協議式數據交換是源系統和目標系統之間定義一個數據交換交互協議, 遵循制定的協議, 通過將一個系統數據庫的數據移植到另一個系統的數據庫來完成數據交換.Tyagi等人于2017年提出一種通用的交互式通信協議, 稱為遞歸數據交換協議(RDE), 它可以獲得各方觀察到的任何數據序列, 并提供單獨的性能序列保

37、證; 并于2018年提出了一種新的數據交換交互協議, 它可以逐步增加通信大小, 直到任務完成, 還導出了基于將數據交換問題與秘密密鑰協議問題相關聯的最小位數的下限.這種交換模式的優點在于:它無需對底層數據庫的應用邏輯和數據結構做任何改變, 可以直接用于開發在數據訪問層.但是編程人員基于底層數據庫進行直接修改也是這種模式的缺點之一, 編程人員首先要對雙方數據庫的底層設計有清楚的了解, 需要承擔較高的安全風險; 其次, 編程人員在修改原有的數據訪問層時需要保證數據的完整性和一致性.此外, 這種模式的另一個缺點在于系統的可重用性很低, 每次對于不同應用的數據交換都需要做不同的設計.標準化交換標準化數

38、據交換是指在網絡環境中建立一個可供多方共享的方法作為統一的標準, 使得跨平臺應用程序之間實現數據共享和交換. 為了解決雙方無法溝通的困境, 雙方約定每次見面交易都使用普通話這種標準來交流, 當下次即使遇到全國各地的人, 也可以使用普通話來交流, 而且大家只需要熟悉普通話的語法規則即可, 不需要精通各地的語言.這種交換模式的優點顯而易見, 系統對于不同的應用只需要提供一個多方共享的標準即可, 具有很高的可重用性.實現基于XML的數據交換平臺確實需要一系列的努力和資源來創建/管理交換, 但它不是對現有系統的大規模改變而是有限的改變, 所以使用基于XML數據交換的關鍵優勢是信息共享的組織不需要更改其

39、現有的數據存儲或標準, 使得異構系統之間可以實現最大限度的協同, 并能在現有數據交換應用的基礎上擴展更多新的應用, 從而對不同企業間發展應用集成起到促進作用.數據集成信息化建設初期, 由于缺乏有效合理的規劃和協作, 信息孤島的現象普遍存在, 大量的冗余數據和垃圾數據存在于信息系統中, 數據質量得不到保證, 信息的利用效率明顯低下.為了解決這個問題, 數據集成技術應運而生.數據集成技術是協調數據源之間不匹配問題, 將異構、分布、自治的數據集成在一起, 為用戶提供單一視圖, 使得可以透明地訪問數據源.系統數據集成主要指異構數據集成, 重點是數據標準化和元數據中心的建立. 數據標準化:數據標準化的作

40、用在于提高系統的可移植性、互操作性、可伸縮性、通用性和共享性.數據集成依據的數據標準包括屬性數據標準、網絡應用標準和系統元數據標準.名詞術語詞典、數據文件屬性字典、菜單詞典及各類代碼表等為系統公共數據, 在此基礎上促成系統間的術語、名稱、代碼的統一, 促成屬性數據統一的維護管理;數據集成元數據中心的建立:在建立元數據標準的基礎上, 統一進行數據抽取、格式轉換、重組、儲存, 實現對各業務系統數據的整合.經處理的數據保存在工作數據庫中, 庫中所有屬性數據文件代碼及各數據文件中的屬性項代碼均按標準化要求編制, 在整個系統中保持唯一性, 可以迅速、準確定位.各屬性項的文字值及代碼, 也都通過詞庫建設進

41、行標準化處理, 實現一詞一義.建立元數據中心的基本流程如圖:數據集成方法數據規范和數據交換的完成, 對數據集成的有效進行提供了很大的幫助, 但在數據集成時仍然需要解決以下難題.首先是異構性.數據異構分為兩個方面:其一, 不同數據源數據的結構不同, 此為結構性異構; 其二, 不同數據源的數據項在含義上有差別, 此為語義性異構; 其次是數據源的異地分布性; 最后是數據源的自治性.數據源可以改變自身的結構和數據, 這就要求數據集成系統應具有魯棒性.為了解決這些難題, 現在有模式集成方法、數據復制方法和基于本體的方法這幾種典型的數據集成方法:(1) 模式集成方法模式集成方法為用戶提供統一的查詢接口,

42、通過中介模式訪問實時數據, 該模式直接從原始數據庫檢索信息該方法的實現共分為4個主要步驟:源數據庫的發現、查詢接口模式的抽取、領域源數據庫的分類和全局查詢接口集成。數據集成方法模式集成方法依賴于中介模式與原始源模式之間的映射, 并將查詢轉換為專用查詢, 以匹配原始數據庫的模式.這種映射可以用兩種方式指定:作為從中介模式中的實體到原始數據源中的實體的映射全局視圖(GAV)方法, 或者作為從原始源中的實體到中介模式本地視圖(LAV)方法的映射.后一種方法需要更復雜的推理來解析對中介模式的查詢, 但是可以更容易地將新數據源添加到穩定中介模式中.模式集成方法的優點是為用戶提供了統一的訪問接口和全局數據

43、視圖; 缺點是用戶使用該方法時經常需要訪問多個數據源, 存在很大的網絡延遲, 數據源之間沒有進行交互.如果被集成的數據源規模比較大且數據實時性比較高更新頻繁, 則一般采用模式集成方法.數據復制方法數據復制方法是將用戶可能用到的其他數據源的數據預先復制到統一的數據源中, 用戶使用時, 僅需訪問單一的數據源或少量的數據源.數據復制方法提供了緊密耦合的體系結構, 數據已經在單個可查詢的存儲庫中進行物理協調, 因此解析查詢通常需要很少的時間, 系統處理用戶請求的效率顯著提升; 但在使用該方法時, 數據復制需要一定的時間, 所以數據的實時一致性不好保證.數據倉庫方法是數據復制方法的一種常見方式, 該方法

44、的過程是:先提取各個異構數據源中的數據, 然后轉換、加載到數據倉庫中, 用戶在訪問數據倉庫查找數據時, 類似訪問普通數據庫.對于經常更新的數據集, 數據倉庫方法不太可行, 需要連續重新執行提取、轉換、加載(ETL)過程以進行同步.根據數據復制方法的優缺點可以看出:數據源相對穩定或者用戶查詢模式已知或有限的時候, 適合采用數據復制方法.數據倉庫方法示意圖如圖所示.數據復制方法目前我們想要設計一個應用程序, 該應用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息, 包括天氣信息、人口統計信息等.傳統的思想是, 把所有這些信息保存在一個后臺數據庫中, 但是這種廣度的信息收集起來難度大且成本

45、高, 即使收集到這些資源, 它們也可能會復制已有數據庫中的數據, 不具備實時性.此時, 我們選擇模式集成方法解決該應用程序面臨的問題, 讓開發人員構建虛擬模式全局模式, 然后對各個單獨的數據源進行“包裝”, 這些“包裝”只是將本地查詢結果(實際上是由相對應的網站或數據庫返回的結果)轉換為易于處理的表單, 當使用該應用程序的用戶查詢數據時, 看似是本地查詢, 實則數據集成系統會將此查詢轉換為相應數據源上的相應查詢.最后, 虛擬數據庫將這些查詢的結果反饋給用戶.如果我們選擇使用數據復制方法來解決此問題的話, 首先, 我們需要把所有的數據信息復制到數據倉庫中, 每當數據(如天氣情況)有所更新時, 我

46、們也要手動集成到系統中.所以, 兩種數據集成方法的使用需根據具體的情形來選擇. 基于本體的數據集成根據上述介紹, 數據異構有兩個方面:前兩種方法都是針對解決結構異構而提出的解決方案; 而本體技術致力于解決語義性異構問題.語義集成過程中, 一般通過沖突檢測、真值發現等技術來解決沖突, 常見的沖突解決策略有如下3類:沖突忽略、沖突避免和沖突消解.沖突忽略是人工干預把沖突留給用戶解決; 沖突避免是對所有的情形使用統一的約束規則; 沖突消解又分為3類:一是基于投票的方法采用簡單的少數服從多數策略; 二是基于質量的方法, 此方法在第1種方法的基礎上考慮數據來源的可信度; 三是基于關系的方法, 此方法在第

47、2種方法的基礎上考慮不同數據來源之間的關系. 基于本體的數據集成本體是對某一領域中的概念及其之間關系的顯式描述, 基于本體的數據集成系統允許用戶通過對本體描述的全局模式的查詢來有效地訪問位于多個數據源中的數據.陶春等人針對基于本體的XML數據集成的查詢處理提出了優化算法.目前, 基于本體技術的數據集成方法有3種, 分別為:單本體方法、多本體方法和混合本體方法.由于單本體方法所有的數據源都要與共享詞匯庫全局本體關聯, 應用范圍很小, 且數據源的改變會影響全局本體的改變.為了解決單本體方法的缺陷, 多本體方法應運而生.多本體方法的每個數據源都由各自的本體進行描述, 它的優點是數據源的改變對本體的影

48、響小, 但是由于缺少共享的詞匯庫, 不同的數據源之間難以比較, 數據源之間的共享性和交互性相對較差.混合本體方法的提出, 解決了單本體和多本體方法的不足:混合本體的每個數據源的語義都由它們各自的本體進行描述, 解決了單本體方法的缺點.混合本體還建立了一個全局共享詞匯庫以解決多本體方法的缺點, 如圖所示.混合本體方法有效地解決了數據源間的語義異構問題.數據復制方法目前我們想要設計一個應用程序, 該應用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息, 包括天氣信息、人口統計信息等.傳統的思想是, 把所有這些信息保存在一個后臺數據庫中, 但是這種廣度的信息收集起來難度大且成本高, 即使收

49、集到這些資源, 它們也可能會復制已有數據庫中的數據, 不具備實時性.此時, 我們選擇模式集成方法解決該應用程序面臨的問題, 讓開發人員構建虛擬模式全局模式, 然后對各個單獨的數據源進行“包裝”, 這些“包裝”只是將本地查詢結果(實際上是由相對應的網站或數據庫返回的結果)轉換為易于處理的表單, 當使用該應用程序的用戶查詢數據時, 看似是本地查詢, 實則數據集成系統會將此查詢轉換為相應數據源上的相應查詢.最后, 虛擬數據庫將這些查詢的結果反饋給用戶.如果我們選擇使用數據復制方法來解決此問題的話, 首先, 我們需要把所有的數據信息復制到數據倉庫中, 每當數據(如天氣情況)有所更新時, 我們也要手動集

50、成到系統中.所以, 兩種數據集成方法的使用需根據具體的情形來選擇.數據復制方法目前我們想要設計一個應用程序, 該應用程序的功能為用戶可以利用該程序查詢到自己所在城市的任何信息, 包括天氣信息、人口統計信息等.傳統的思想是, 把所有這些信息保存在一個后臺數據庫中, 但是這種廣度的信息收集起來難度大且成本高, 即使收集到這些資源, 它們也可能會復制已有數據庫中的數據, 不具備實時性.此時, 我們選擇模式集成方法解決該應用程序面臨的問題, 讓開發人員構建虛擬模式全局模式, 然后對各個單獨的數據源進行“包裝”, 這些“包裝”只是將本地查詢結果(實際上是由相對應的網站或數據庫返回的結果)轉換為易于處理的

51、表單, 當使用該應用程序的用戶查詢數據時, 看似是本地查詢, 實則數據集成系統會將此查詢轉換為相應數據源上的相應查詢.最后, 虛擬數據庫將這些查詢的結果反饋給用戶.如果我們選擇使用數據復制方法來解決此問題的話, 首先, 我們需要把所有的數據信息復制到數據倉庫中, 每當數據(如天氣情況)有所更新時, 我們也要手動集成到系統中.所以, 兩種數據集成方法的使用需根據具體的情形來選擇.目錄1、數據治理行業背景2、數據治理頂層設計3、數據治理實施流程4、數據治理模型設計5、數據治理未來展望數據治理模型設計(1) 建立全面、動態、可配置的數據接入機制, 滿足數據采集、數據匯聚、任務配置、任務調度、數據加密

52、、斷點續傳等需求;(2) 建立標準化的數據處理流程, 形成面向數據內容的數據規范、清洗、關聯、比對、標識等轉換處理規范模式, 為一個組織的數據融合建庫提供支撐;(3) 統籌建設多元集成、融合建庫的數據組織模式, 按照業務類型、敏感程度、隱私內容等關鍵要素分級分類推進云建庫和存儲管理, 采用特征標簽、歸一集成等多種手段實現不同來源的數據資源關聯融合;(4) 構建知識圖譜分類, 建設多渠道、多維度的數據服務模式, 面向使用者提供查詢檢索、比對排序等基礎數據服務, 面向專業人員提供挖掘分析、專家建模等智能數據服務;(5)HI和AI通過知識圖譜和OI實現交互和協同, 存取和共享治理過的集成數據, 并利

53、用大數據處理模型(以HACE定理開始的三級結構, 如圖所示)、云計算和霧計算機制來實現數據服務和隱私保護.數據治理模型設計(1) 建立全面、動態、可配置的數據接入機制, 滿足數據采集、數據匯聚、任務配置、任務調度、數據加密、斷點續傳等需求;(2) 建立標準化的數據處理流程, 形成面向數據內容的數據規范、清洗、關聯、比對、標識等轉換處理規范模式, 為一個組織的數據融合建庫提供支撐;(3) 統籌建設多元集成、融合建庫的數據組織模式, 按照業務類型、敏感程度、隱私內容等關鍵要素分級分類推進云建庫和存儲管理, 采用特征標簽、歸一集成等多種手段實現不同來源的數據資源關聯融合;(4) 構建知識圖譜分類,

54、建設多渠道、多維度的數據服務模式, 面向使用者提供查詢檢索、比對排序等基礎數據服務, 面向專業人員提供挖掘分析、專家建模等智能數據服務;(5)HI和AI通過知識圖譜和OI實現交互和協同, 存取和共享治理過的集成數據, 并利用大數據處理模型(以HACE定理開始的三級結構, 如圖所示)、云計算和霧計算機制來實現數據服務和隱私保護.數據治理模型設計數據治理模型設計該模型具備以下功能.支持不同種類、不同數據源、不同目標庫的數據抽取傳輸.常用數據源、目標庫類型包括Oracle, SqlServer, MySql, Hbase, Hive, GreenPlum, Gbase, PostgreSQL, SO

55、LR, Redis, ODPS, OTS, GDS等主流數據庫, 常用文件類型包括FTP, XML, CSV, JSON, EXCEL等, 常見消息處理類型包括Kafka和Webservice;支持不同類型的抽取匯聚任務配置, 主要包括異構數據庫之間數據傳輸匯聚, 不同類型、跨服務器的文件型數據傳輸, 數據庫和文件類、服務接口間相互傳輸等;支持數據清洗和數據規范的規則自定義, 主要包括NULL值替換、字符串操作、數據類型轉換、函數依賴、正則處理、組合字段、數據比對、自定義SQL腳本執行、JSON輸出等數據轉換規則, 以及對相似重復記錄和屬性值異常等問題數據清洗規則, 以及MD5加密規則;實現基

56、于數據元的異構數據自動解析, 并能按照業務場景進行自定義配置, 實現智能化、可視化、組件式數據匯聚整合任務構建;通過構建知識圖譜實現作業流程的可視化設計, 各組件、連接線等以圖形控件形式提供, 并按不同功能分組, 支持復制、粘貼、剪切、撤銷等功能, 數據整合任務在流程設計器中可直觀顯示;支持插件二次開發:提供第三方開發平臺, 方便根據現場實際業務需求, 定制項目插件.HAO治理模型的設計準則包括:(1)數據源和治理功能的模塊化; (2)模型的可分解性; (3)快速原型系統構建; (4)數據更新和融合能力; (5)交互的靈活性和(6)實時反應.數據接入模塊數據接入模塊大數據工程的數據來源包含企業

57、內部數據和企業外部數據, 其中:企業內部數據由資源服務平臺、綜合資源庫、各業務系統生產庫中的結構化數據和文件服務器上的文本、圖片等非結構化數據組成, 其中包括人財物記錄、財物報表、原材料、顧客信息、氣測數據以及企業的文化和規章制度等; 企業外部數據由社會數據、互聯網數據和設備采集數據組成, 外部數據一般包括地理環境、人口數據、經濟市場、金融數據、社會關系、社交數據等等.在數據接入之前, 首先需要進行數據采集, 如圖 所示.數據采集基于云計算和分布存儲之上的采集工具, 采用標準化、規范化的抽取模式, 實現結構化、半結構化、非結構化資源的統一抽取、整合、加工、轉換和裝載.數據采集工具主要包括了數據

58、層、接入層、交互層和監控層.其中, 工具的數據層即涉及整個采集平臺中總體架構的數據層即數據支撐層, 工具背后的接入層是采集邏輯處理部分, 交互層即對應總體架構的采集門戶.數據接入模塊數據層指出企業內部和企業外部數據的主要數據來源方式, 數據庫可以是指業務系統的Oracle; 文件方式是各種文件或FTP接入的文件包; 接口主要是用來企業對接外部系統使用的; 數據流是指可以使用Kafka平臺處理的實時數據流式方式這種來源.接入層主要提供豐富的工具集, 針對不同的數據接入方式提供相應的工具組件, 依賴作業配置引擎和作業調度引擎實現數據抽取.監控層可監控作業執行情況, 采集作業日志, 對問題作業及時告

59、警, 方便后期用戶排除故障、維護作業.交互層提供可視化頁面便捷地實現數據接入與作業管理.對采集后各種類型的源數據進行數據抽取, 該模型的數據抽取支持3種方式:全量抽取、增量抽取、實時抽取, 將經過數據抽取后的數據匯入到匯聚庫中; 對于其他的數據庫系統, 可以直接通過數據交換平臺, 把數據匯入到匯聚庫中.數據治理模塊數據治理模塊主要包括對匯聚庫中的數據進行數據清洗和數據規范, 必要時進行主題劃分和數據關聯, 然后進行數據集成, 治理完成后的數據匯聚到數據共享中心中.數據清洗是對數據進行審查和校驗, 過濾不合規數據、刪除重復數據、糾正錯誤數據、完成格式轉換, 并進行清洗前后的數據一致性檢查, 保證

60、清洗結果集的質量.數據清洗的方法除了以上介紹的幾種基本方法以外, 該模型還支持自定義清洗規則, 數據清洗規則是由業務需求人員與開發人員配合制定數據處理邏輯, 經過這些規則進行數據清洗后, 保證數據的一致性、準確性和規范性更能滿足業務上的需求.數據服務模塊數據服務模塊以數據共享中心構建知識圖譜為起點, 早在2006年, Web創始人Berners-Lee就提出數據鏈接的思想, 隨后掀起了語義網絡的狂潮, 知識圖譜在此基礎上形成.但是直到2012年, 知識圖譜的概念才被谷歌正式提出.知識圖譜是由節點和邊組成的巨型知識網絡, 節點代表實體, 邊代表實體之間的關系, 每個實體還由(key-value)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論