電子政務基礎教程 第九章 數據質量管理_第1頁
電子政務基礎教程 第九章 數據質量管理_第2頁
電子政務基礎教程 第九章 數據質量管理_第3頁
電子政務基礎教程 第九章 數據質量管理_第4頁
電子政務基礎教程 第九章 數據質量管理_第5頁
已閱讀5頁,還剩47頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九章數據質量管理9.1政務數據質量管理概述數據質量對于政務服務至關重要,在跨系統整合共享需求下,它是不同機構能否成功構建應用的前提。它由政府系統內部與外部數據質量需求、質量控制、質量驗證與質量改進等內容組成,涵蓋政務數據的創建、采集、加工、轉換、傳輸與發布等整個生命周期。劣質數據會給電子政務造成諸多不良影響,如:①系統資源無法共享交換;(二)系統數據維護、特別是跨系統數據追溯與維護困難;(三)政務服務差錯;(四)公眾服務體驗不佳,滿意度下降;(五)用戶投訴增加,出現較多負面評論;(六)政務業務與管理數據失真;(七)機構間資源共享與交互出現問題;(八)高層決策依據的數據錯誤或缺失;(九)政務系統運行效率下降,等等。政務數據質量管理是系統性問題,它在“人類-網絡-社會”環境中,包括:確立與各項政務活動的數據質量需求、構建數據監測流程、定義數據質量指標及反映其變化與波動的監控措施。可再將其轉換5種控制需求:①針對政務業務構建數據質量指標體系;(二)依據指標體系建立相應的單項與關聯控制規則;(三)確立各指標可接受的閾值;(四)動態記錄業務運行中的數據質量情況;(五)針對記錄中檢測到的各種沖突、不一致與錯誤等報警,供管理人員處理,并將其加入控制規則等。9.2政務數據質量管理概念9.2.1政務數據質量管理定義與內涵1)政務數據質量管理的定義政務數據質量管理的定義是:通過計劃、實施、控制與改進活動,運用系統化、網絡化質量管理技術來測量、評估、改進以保證政務系統中各類數據的正確使用。2)定義的內涵---政務數據質量管理的內涵是,根據政務業務需求定義合適的數據質量水平與管理體系,包括:(1)制定數據質量現狀的評估計劃與衡量指標。(2)實施數據質量測量與改進的流程。(3)動態測量與監控按業務需求規定的數據質量水平。(4)執行解決數據質量問題的方案,達到改進與提升質量的效果等。9.2.2政務數據質量管理方法傳統產業的質量管理有許多成功經驗與方法,可用于電子政務領域,其中最具代表性的是數據質量管理PDMA循環。數據質量管理PDMA循環源于傳統產業質量管理的PDCA(計劃-Plan,執行-Do,檢驗-Check,調整-Action)循環,如圖9-1左側;改進后為數據領域的PDMA(計劃-Plan,實施-Deploy,監控-Monitor,行動-Act)循環,如圖9-1右側。兩者皆通過循環比對質量目標與現況來改進質量,差異是數據質量強調在計算機與網絡環境下開展實時性系統監控。圖9-1傳統質量管理的PDCA循環(左)與數據質量管理的PDMA循環(右)示意9.2.3政務數據質量意識與質量管理目標1)建立政務數據質量意識數據質量不僅涉及技術、體制與管理,更多的是質量意識問題。政務數據質量意識包括能將數據質量問題與其實質影響聯系起來,向監管者保證系統化的數據質量管理方法對機構內外的數據質量進行全面考察,還應向所有人員傳遞“政務數據質量問題不能僅靠技術手段解決”、“政務數據質量貫穿政務系統生命周期全過程,直接影響社會服務、公眾體驗”等理念。電子政務是人-機系統,數據質量的主導因素在人,關鍵是建立人的數據質量意識,核心是建立相應的考核與獎懲機制。2)政務數據質量管理的一般目標

數據質量針對系統各級管理階層有不同的要求,一般目標如下:在機構內與參與機構間建立質量意識,讓業務合作者、用戶與上下游關聯機構參與,同時,系統開發與運行者等都應強化數據質量意識。針對業務需求,建立具體的、針對各作業環節的數據質量評估標準與保證措施。根據業務流程,建立跨系統的數據質量意識與管理體系傳導模式,構成政務數據質量保證鏈。改進政務數據質量,在滿足政務系統內外業務的質量水平上,隨用戶檢驗的提升要求改進數據質量與管理模式。為動態測量、監控和交流政務數據質量水平,提供一致性的監測衡量與管理程序。3)政務數據質量管理的具體目標

政務應用中,數據質量有一些技術性目標,具體如下:數據丟失:應包含數據卻未填寫,或填寫字段不完整。數據錯誤或不準確:信息未被正確輸入或未得到正常維護。數據不對應:數據被錯誤地輸入到了其他欄目。格式不符:數據未依照記錄系統需要進行標準化處理。數據重復:同一賬戶、聯系人、業務線索等在數據庫中記錄了不止一次,但可能其形式與稱謂不同。數據輸入失誤:字詞、名稱或格式方面的錯誤、打字錯誤、順序錯誤和歧義。9.3政務數據質量管理內容9.3.1數據質量管理活動框架政務數據質量管理一般涉及4類活動:計劃(P),控制(C),開發(D)和操作(O),對應的管理活動與內容如下。建立和提升機構內部與機構間相關人員的數據質量意識(O)。圍繞政務業務定義數據質量需求(D)。跟蹤分析和評估各項業務進程中的數據質量(D)。定義政務數據質量的測評指標(P)。依據政務業務項與流程定義數據質量管理的業務規則(P)。在關鍵業務節點測試和驗證數據質量需求滿足程度(D)。確定與評估總體數據質量服務水平(P)。跨機構持續測量并監控數據質量(C)。管理數據質量、特別是跨機構、跨系統間的數據質量與接口(C)。清洗并糾正數據質量缺陷(O)。設計并實施數據質量管理作業程序(D)。監測政務數據質量管理的操作程序與績效(C)。這些內容構成了政務數據質量管理的一般活動框架。9.3.2政務數據質量管理的對象、參與者、工具與測量體系1)管理對象

數據質量管理的對象包括數據元素、元數據、主數據、參考數據、各類業務與管理數據等,以及與數據相關的各級工作者。2)參與者

數據質量管理涉及所有業務干系機構的以下人員:(1)數據質量分析師。(2)數據分析師。(3)數據與數據庫管理員。(4)數據資源管理員。(5)數據管理體系委員會成員。3)管理工具

數據質量管理主要采用以下工具:(1)數據分析工具。(2)統計分析工具。(3)數據清洗工具。(4)數據整合工具。(5)事件和問題管理工具。(6)大數分析工具與知識圖譜等。4)測量體系

數據質量測量體系包括以下內容:(1)數據內容比對。(2)數據值分析。(3)錯誤/不合規對象的檢出。(4)質量查驗與校正。(5)質量水平的達成。(6)跨機構間數據質量管理的接口契合度。9.3.3數據質量的供給、輸入與成果數據質量管理的主要目標,是保證各項服務業務的正確運行,不斷提升數據質量以支持新服務項。故數據質量的供給包括質量標準、管理技術、測評方法、控制機制、體制銜接等方面的輸入,其成果也包括了能在機構內部與機構間切實實施的多種規章制度、關鍵點檢測、系統日志、作業臺賬、異常報告、處理紀錄等。9.4政務數據質量體系9.4.1質量體系概述質量體系的定義是指為保證產品、過程或服務滿足規定(或潛在)的質量要求,由機構、職責、程序、活動、能力和資源等構成的有機整體,即為實現質量目標而建立的綜合體。傳統企業為實施質量管理,生產出滿足規定和潛在要求的產品和提供滿意的服務,達到既定的質量目標,必須通過建立和健全質量體系來實現。質量體系分為質量管理體系和質量保證體系,在非合同環境下,企業只建立內部質量管理體系;在合同環境下,企業還須建立質量保證體系,以保證上下游質量控制鏈的完善。顯然,這些針對傳統產業的質量體系概念,對于電子政務數據質量領域,其基本理念與方法也適用。但電子政務屬虛擬產業,數字領域中的質量體系、質量管理與控制理論等仍在完善中,各領域的實踐也在數據治理的框架下進行中。9.4.2政務數據質量指標9.4.2.1政務數據質量指標體系要求

政務數據質量具有系統化特征,涉及多維度的綜合數據質量指標,具體要求如下。1)規范性2)完整性3)準確性4)一致性5)及時性與可用性6)有效性7)易用性和可維護性8)全面性9)表達性10)可理解性11)效用性12)唯一性13)參照完整性14)合理性15)時效性

以上指標構成了數據質量管理維度,可據此對質量規則分類。根據實施之需,對度量的顆粒度進行細化,如數據值、數據元、數據記錄和數據表等。9.4.2.2數據質量指標的選擇與定義9.4.2.1給出了常規數據質量要求,具體政務系統中,指標選擇有兩個要點。一是指標定義的過程不能在數據質量管理的最后階段才進行,而要在數據質量戰略制定、設計和規劃階段開始,其后在實施中不斷增減與改進指標;二是指標選擇、構建數據質量管理維度時,要考慮以下一些指標特性。

1)可度量性2)業務相關性3)可接受度4)可控性5)可跟蹤性9.4.2.3定義數據質量業務規則應動態檢查政務數據質量是否滿足業務規則,并監控質量對業務規則的符合度,為此需要以下措施。(1)將不滿足業務需求的數據值、記錄和記錄集與有效的數據值、記錄與記錄集作比對。(2)生成通知事件,向數據管理員提示出現的質量問題。(3)建立自動或事件驅動的缺陷數據糾正機制,使其能滿足業務要求。

流程(1)使用數據期望值,判斷運行中的數據集是否在允許特性與值域范圍內。復雜規則可將其與(2)及(3)流程結合運用,包括當實際數值不符合質量時的報警與對數值的糾正提示。

這些業務規則可用模板定義,具體如:1)值域模板說明數據項的指定值是從某個定義域中選用的數據值,如我國行政區劃代碼中的前2位代表省(直轄市、自治區);2)一致性模板以跨機構間一致理解與認可的數據內容與表示為前提,建立質量控制模板,控制以下4種一致性:(1)內容一致性

包括概念定義、要計算字段的算法、相應時間或本地的限制條件,精度規則等。(2)值域一致性

數據項的取值必須滿足事先約定的數值、字典或時域范圍,例如:大于0且小于100的數值范圍等。(3)格式一致性

特定數據項的一種或多種格式數據項,如用4數字段+間隔格式來顯示銀行賬號、電話號碼等。(4)映射一致性

將一數據項的值映射到相應的其他等值域的不同表達,如IP地址通過DNS映射為相應域名。3)記錄完整性模板通常在系統界面上,依據相應規則給出哪些輸入數據項可省略、哪些不可缺失,以保證關鍵字段的完整性。4)正確性模板

模板將數據值與系統后臺的相應標準值進行比對,以驗證其正確性。5)唯一性模板此規則要求實體具有唯一性,要求僅有一條記錄與對象相對應。6)關聯性模板當輸入某項數據時,與其關聯的一條或多條數據項也顯示并參與檢驗。

還有其他類型的規則模板等。規則模板的優點是將質量控制規則設計到業務進程中,通過內嵌規則引擎、數據分析組件、數據描述工具、標識代碼比對庫等來輔助數據質量管理。9.4.2.4數據質量監控模式對于政務數據質量是否符合業務規則,有針對數據流與數據批的2種測量監控模式;相應對象也有3種顆粒度:數據值、數據實例或記錄及數據集;這就組成了6種可能的質量監測方案。如對數據創建時進行數據流測量,對長期存儲的數據記錄集進行數據批測量。將數據質量控制和測量流程嵌入政務業務處理流中,可實現持續性監控。但因此要測量整個數據集,故在數據量較大的情況下,測量不太可能以數據流方式實現,較為可行的是在不同處理階段間隙進行數據集交互測量。表9-1給出了適合的監測技術用于相應的數據質量業務規則。9.4.2.5確定政務數據質量控制水平數據質量控制水平用于定義政務系統、特別是跨機構業務整合系統中,數據質量的標準符合程度。由于數據質量控制的水平、規模、范圍與業務性質等均與成本相關,故確定合適的控制水平對系統的建設與運行頗為重要。雖然數據質量檢查有助于隔離缺陷數據、分析其根源,提供在預定時間與范圍內糾正錯誤根源的機制,但從表9-1也能看出,過深的控制水平需要系統在檢索、運算、檢測、比對、統計與校驗等方面較大的開銷與負擔,導致成本增加和服務效能下降。因此,系統的數據質量控制水平應與相應的業務相適合即可。確定的常規數據質量控制包括以下內容:(1)控制涉及的政務數據項的范圍。(2)數據缺陷形態及其對業務的影響。(3)與各數據項對應的適用數據質量維度,即指標體系的選擇。(4)業務進程中各應用、源系統對數據項的質量需求,整合與共享時的需求。(5)針對數據質量需求采用的相應度量方法。(6)各項測量的可接受閾值范圍。(7)當檢測值超出可接受閾值時應通知的相關人員,期望解決問題的時間與限制。(8)建立質量問題的發現、報告、解決與學習機制等。9.4.2.6處理數據質量問題數據質量控制的設定與實施,需要建立質量事件/問題的發現、報告、解決與跟蹤機制。數據質量事件報告是政務系統應當具備的能力,它能記錄數據質量事件的評估、初步診斷和后續行動等信息,對問題糾正的跟蹤還可提供結果報告,包括問題解決的平均時間、問題發生頻率、問題類型、問題來源、糾正與消除問題的措施等。跟蹤系統應支持查看當前與歷史數據質量問題、問題狀態和相關人員參與解決問題的條件等。許多政務系統已建立了跟蹤軟件、硬件及網絡等問題的事件報告,應擴展到數據質量事件報告領域。為此,要將數據質量問題歸類、納入到事件目錄中。還應能培訓相關人員識別出現的問題,如何分類、記錄并依據數據質量控制水平進行跟蹤。這些步驟涉及以下環節:1)將質量事件標準化

各政務系統中描述數據問題的術語可能隨本地業務、跨機構業務與整合業務的不同而有差異,將相關概念標準化,可使各機構對數據質量問題與現象取得一致的理解,簡化對質量問題的認知、事件模式的統計、參與方之間的識別、質量改進措施的效果報告等。對問題的分類會隨著事件跟蹤和溯源而深入。2)指定質量問題的處理過程

操作程序應引導分析人員進行數據質量事件的診斷,制定解決方案等。該流程應在質量事件跟蹤系統中驅動,并能向分析人員進行提示與建議等。3)管理問題報告程序數據質量問題處理取決于事件的影響、持續時間、問題緊迫性,以及問題上報體制。上報順序應在數據質量控制水平中定義,由事件跟蹤系統執行,以助于數據問題的判定與處理。4)管理數據質量解決流程

數據質量控制水平確定了監測、控制和解決問題的目標,定義了業務流程。事件跟蹤系統支持工作流管理,跟蹤質量問題的診斷和解決的進展情況。

質量問題跟蹤管理系統,可訓練作業與管理人員及早在業務流中發現問題,原始數據有助于生成質量控制水平與問題指標,可供數據治理進行統計分析與構建事件發現與解決模型。對一些普遍性問題,可通過跨機構的人員建立共識,開發出針對性程序與解決方案。9.4.2.7清洗與糾正數據質量缺陷數據質量控制有2項活動:一是確定并消除質量問題發生的原因,二是分離不正確的數據,采用適當糾正措施。錯誤發現后通常采用3種方法進行數據校正。自動校正參照數據質量要求,運用基于規則的標準化、范式化的糾正措施,對數據進行處理。可無須人工干預進行修正,如地址數據的自動補全與校正,這要事先將標準地址與代碼放入庫中,使用規則、解析、參照表、范式化等處理方式對輸入的地址進行比對與補全。在良好定義的標準資源庫、普遍接受的規則和已知的錯誤模式環境中,最適于進行自動清洗與校正。人工指導校正在1)的基礎上,在將校正結果提交前先經人工審核。這需要設置一定的置信水平來判定。對超過特定置信度的自動校正結果可不作評審,但對低于置信度水平的校正,就需提交數據管理員審核和批準。結果可能是認可校正,或對未認可的校正進行調整,再決定是否將其納入糾正規則中。敏感數據則需人工指導校正。人工校正數據管理員檢查各種的無效記錄,確定正確取值,校正后更新記錄。9.4.2.8數據質量的持續性要求

數據質量管理是持續過程,為滿足政務業務需求,應采用相關標準,制訂內部規范,以保證數據質量能滿足業務之需。它包括數據質量分析、數據異常識別、合規的業務需求與質量規則定義,根據已定義的數據質量規則進行檢查和監控,相關的作業流程,以及數據解析、查驗、清洗和整合等。數據質量管理還包括對問題的持續跟蹤,對已定義的數據質量服務水平協議的合規性持續監控。

政務數據質量管理的持續性還體現在PDMA質量環上,凡控制規則、質量缺陷糾正等后均進入下一階段循環中,周而復始運行。9.4.3元數據質量管理元數據是構建、定義與描述其他數據的數據,同時也是數據;故它們除應遵守9.3.1節的數據質量指標體系要求外,還因低質量元數據會影響其描述數據的質量與功能,故應對其質量要求予以特別關注。

9.4.3.1元數據的完整性與一致性

元數據也是數據,故上述數據質量控制要求與管理原則對元數據也基本適用。在電子政務大數據與云計算環境中,采用集中式或混合式元數據系統架構可建立覆蓋全局、符合一致性、完整性與參照約束性等的元數據資源系統。在單一系統或多系統整合環境中,查詢各元數據的來源,對其所含數據元的內容與格式的完整性與一致性進行比對,對梳理出的不合規對象進行處理。所以,對于元數據,完整性與一致性是其核心質量指標,能通過管理軟件進行質量檢驗與控制。9.4.3.2元數據質量管理內容

在政務系統整合共享環境中,元數據作業涉及抽取、遷移、暫存、清洗、更新、發布、使用與維護等,故其質量管理就有多種內容與細致的過程。除應遵守數據質量管理的PDMA環外,還涉及以下技術、工具、制度與人員等:(1)元數據和存儲庫與備份、恢復、歸檔與清洗。(2)業務調試、監視、變更數據配置等。(3)元數據的抽取與裝載統計分析。(4)元數據源的映射與遷移。(5)元數據變換與跟蹤,其中又涉及:1、元數據管理指標的生成與分析,相關性能的調優。2、元數據查詢結果的生成與呈現。3、用戶界面管理。4、響應報告、沖突告警。5、版本記錄與任務日志。6、對用戶和數據管理員的培訓等。9.4.3.3元數據質量管理體系

與傳統的全面質量管理(TQC)體系類似,元數據質量也需要一套管理體系來維護,通過人工與系統比對方法來維護與控制。元數據質量管理體系可參照GB/T18391(ISO11179)系列,結合具體業務數據需求,對元數據在語義、語境、語用、語域等方面的描述,分類與標識代碼,元數據注冊的完整性,格式符合性和可靠性,及時性等方面建立完整的質量管理體系,并覆蓋元數據的生成、結構、注冊、存儲、發布、使用與完善等環節。質量體系始終應關注人的因素。在政務系統、尤其是面向整合與共享的跨機構政務應用中,就應通過任命數據管理負責人,同時負責元數據管理,通過他們建立跨機構管理協調機制,針對業務需求設立元數據管理崗位、賦予相應職責等。還應注意,在多機構信息資源整合的環境中,因不同機構分屬不同領域,各自的行政文化與管理理念等都存在差異,皆可能影響元數據管理。9.5政務數據質量治理9.5.1數據質量治理概述質量管理源于傳統產業,主要針對擁有實體邊界的實體對象、實體流程與服務等。盡管其主要理念、方法和工具等也適用于數字領域,但畢竟數字領域具有對象的虛擬性、邊界的無形性、業務的流變性和環境的智能性等特點,導致傳統質量管理理論與方法在一些方面力有不及,因此數字領域更提出數據治理的概念,將其應用于數據質量,就成為數據質量治理理念。數據治理是對數據資產管理行使權力和控制的活動集合(規劃、監控、執行和提升),重點是指導機構從使用局部數據變為跨系統使用統一的數據資源,從具有較少或沒有組織的流程治理到全局范圍的綜合數據治理,從處理分散數據資源到將其打造成一個全局整合的數據資產的過程。數據質量治理就是將上述理念具體應用于數據質量管理的過程,由國際數據管理協會(DAMAInternational)編寫權威著作的《DAMA數據管理知識體系指南》中,就將數據質量管理視為與數據治理職能交互并受其影響的數據管理職能。因此,政務數據質量治理就是從政務系統應用全局的數據質量需求出發,在前述各節的內容基礎上,開展跨機構、跨領域和跨邊界的治理活動。DAMAInternational著《DAMA數據管理知識體系指南》馬歡劉晨等譯清華大學出版社2017年7月第1版P2139.5.2政務數據質量治理的流程

政務數據質量治理流程框架如圖9-2所示,它需要針對具體政務應用,構建跨機構的治理流程。

圖9-2流程框架有10個步驟,是圍繞政務數據質量改進與提升的5個階段,具體如下:(1)從全局定義電子政務業務數據的質量需求,分析與描述其運行環境與作業模式,將質量需求具體分解到不同機構的不同作業崗位,提出明確的要求。(2)評估各階段的數據質量,特別是當有外部源數據進入、參與整合共享時的質量,質量波動對政務業務的影響,及其穿過邊界對各機構作業與資源的影響等。(3)確定不合格數據的狀態,特別是那些局部作業合格但不滿足總體業務質量的狀態,了解具體數據缺陷的起源及其對全局業務的影響。(4)從數據管理規程、整合共享、監測控制等方面提出數據質量比對、缺陷發現、問題判定、提示、多源協商、處理與糾正機制、機構邊界內外轉換等一系列的質量改進流程。(5)通過對政務流程、跨機構人員和整合預處等的前置控制,以及程序的必要的修正,將糾正質量問題的措施規程化,使系統能自動識別同類數據缺陷,開展預防性處理。而這些行之有效的前置處理、事中處理與事后糾正措施等將分發到各數據源機構,植入其數據質量體系中。在數據整合共享中各相關機構共同對數據質量的改進效果進行交流溝通與驗核。9.5.3政務系統內外部的數據質量治理9.5.3.1系統內部數據質量治理數據質量管理向來是一項艱苦細致的工作。無論單一機構的政務系統,還是跨機構整合的政務系統,都應開展內部數據質量管理與體系驗證。既保證合規數據在內部運行,又能將其貢獻給關聯業務機構。而低質數據將在系統整合時傳輸到關聯系統中,會引起更大范圍的低質數據。同時,即便適于單一機構質量標準的數據與管理體系,對于多機構整合系統未必是充分與完善的,于是,就有了跨系統的政務數據治理要求。各機構內的數據質量保證體系與全局性數據治理結合,是多機構業務整合的基礎。單一機構內部的數據質量治理與前述質量管理的內容基本相同,主要為:①定義機構內部數據質量標準,(二)開展內部數據質量管理,(三)定義不合格數據,(四)數據質量分析,(五)數據質量測試,(六)缺陷數據根源分析,(七)制定數據質量檢測方案,(八)開展內部數據質量管控,(九)機構內部質量意識的建立與強化,(十)機構內部的數據質量風險評估,(十一)機構內部數據質量提升方案,(十二)改進數據質量測試方案,(十三)實施數據質量改進方案,等等。9.5.3.2機構內部數據質量體系驗證同樣,為確保各機構向全局提供的數據是優質合格的,還需要一套質量體系來保證上述管理項的落實,并能向伙伴機構提供驗證。相關工作具體如下:①建立數據質量驗證目標;(二)提升本機構對參與共享/交換的數據規范化水平、質量可測性與可控性的貢獻;(三)建立糾正機制,改進共享數據的質量測評能力,促進機構間數據質量管理方法和體系化的提升;(四)增進共享與交換型業務對數據質量需求、質量模型的理解,認識到本系統、本資源在共享前的局限性、質量完善與提升的必要性;(五)確定質量驗證范圍和方法,相關階段與驗證體統與支持體系;(六)明確本機構的數據主管部門中,數據管理人員、系統運管團隊、數據主管、高層管理等對數據質量的職責;(七)明確數據審計部門、各驗證職能部門與人員等在數據標準化與質量管理工作的職責;(八)明確數據標準化與質量管理的方法與驗證范圍、方法和階段;(九)明確數據標準化與質量驗證的結果與動態報告模式。9.5.3.3跨機構數據質量控制跨系統數據質量主要是其整合、共享與交換中的數據質量,它不是各來源機構的資源簡單匯集,而往往是在第三方跨系統數據整合平臺中再度加工處理,產生資源價值轉移與提升中的質量。故其數據質量也不是各來源機構數據質量要求的重疊累加,還要針對資源再加工與裝配后的質量。這些新增的數據質量要求主要如下。1)不合格數據定義

(1)確定資源加工與再加工中不合格數據的標準。(2)確定整合共享/交換前的數據抽樣檢測方案。

2)定義數據采集模型(1)定義待整合的數據模型。(2)定義跨系統元數據采集與比對模型。(3)定義跨系統數據元的收集與比對模板。3)數據標準化處理(1)分析共享系統中的元數據采集程序。(2)梳理待整合系統的數據標準,考察各機構的內部標準是否滿足全局整合的需求。(3)對非標準元數據、數據進行比對、補充、轉換等。

4)數據清洗(1)定義面向整合共享與交換的全局數據質量標準。(2)對非標準數據實施結構與格式轉換。(3)按質量標準、各機構業務需求整合而成的新業務標準進行清洗、重構、增補,糾正可能的數據表達,內容、格式與編碼錯誤等。5)數據質量分析

(1)查詢并解決數據重復、不一致、元數據項缺失、不符合業務邏輯、異常數據、極端數據、孤立數據等問題。

(2)對參與整合共享的數據多機構分布情況、各家的數據貢獻度、共享度、集成度、加工度、標準化程度、質量控制水平等進行定量與定性分析。

6)建立針對數據共享與交換的質量驗證

(1)將整合共享數據(包含元數據、數據元素、代碼、標識等等)劃分為子樣本集,建立提取、測試、驗證的三套機制。

(2)檢查抽取數據樣本質量的代表性、充分性等。

(3)針對數據準確性、完整性、規范性等質量指標進行單因子或多因子分析評估,決定數據是否達到整合共享、交換與互操作的水平。9.5.3.4.6跨機構共享交換的數據質量驗證

如前所述,參與跨機構數據整合各機構中任何一方的數據如有質量缺陷的話,這些缺陷不可能隨共享與交換而消失,反而會隨共享將缺陷傳導到整合后的系統以及關聯業務中。因此,建立數據共享與交換后的跨系統質量驗證就顯十分必要,它們涉及如下內容。

(1)跨系統間數據質量需求確認與管理體制與過程驗證。(2)共享/交換中質量模型驗證。

(3)參與各方的數據質量特性、測量參數與管理架構驗證。

(4)交換建模中質量水平驗證。

(5)跨機構數據質量交互驗證,核心內容為:數據準確性驗證;數據一致性驗證;數據完整性驗證;數據格式驗證;數據缺陷處理驗證等。

(6)驗證與交叉驗證間的相互確認與處理。9.6政務大數據質量管理簡述人類已進入大數據時代,率先涉及該領域是電子政務。眾所周知,政府均擁有全社會數量最大、門類最多且權威可信的信息資源,這也使政務數據質量管理面臨大數據的挑戰。它將對數據質量管理理念、方法和手段等都產生一系列影響。9.6.1傳統環境與大數據環境的需求差異傳統環境中,數據質量管理的模式與環境特點主要為:(1)絕大多數數據資源均來自各機構內部。(2)管理者重點關注結構化數據。(3)用戶訪問與處理的數據多形成于過去。(4)數據質量管理的目標是尋求每條數據記錄的正確無誤。(5)良好的數據資源需要長年積累建設。(6)各機構主要關注其現存數據資源。(7)業務用戶需要借助信息技術來分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論