




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS35.020CCSL80DB37044IDB3704/T0041-2024 一體化大數據平臺數據匯聚治理規范 1 12規范性引用文件 13術語和定義 14總體要求 25總體架構 26匯聚治理流程 37數據匯聚要求 48數據治理要求 69數據安全保護要求 8附錄A(資料性) 9DB3704/T0041-2024本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。1DB3704/T0041-2024一體化大數據平臺數據匯聚治理規范本文件規定了一體化大數據平臺數據匯聚和治理的總體架構、總體要求、匯聚治理流程、數據匯聚要求、數據治理要求和數據安全保護要求。本文件適用政務數據、公共數據以及社會數據通過棗莊市一體化大數據平臺進行數據匯聚治理的實施和管理。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T18391.1-2009信息技術元數據注冊系統(MDR)第1部分:框架GB/T22239-2019信息安全技術網絡安全等級保護基本要求GB/T34960.5-2018信息技術服務治理第5部分:數據治理規范GB/T35273-2020信息安全技術個人信息安全規范GB/T35295-2017信息技術大數據術語GB/T36344信息技術數據質量評價指標GB/T38664.1-2020信息技術大數據政務數據開放共享第1部分:總則GB/T38664.2-2020信息技術大數據政務數據開放共享第2部分:基本要求GB/T39477-2020信息安全技術政務信息共享數據安全技術要求DB37/T4646.1-2023公共數據數據治理規范第1部分:數據歸集3術語和定義GB/T35295-2017界定的以及下列術語和定義適用于本文件。3.1政務數據各級政務部門及其技術支撐單位在履行職責過程中依法采集、生成、存儲、管理的各類數據資源。注:根據可傳播范圍,政務數據一般包括可共享政務數據、可開放公共數據及不宜開放共享政務數據。[來源:GB/T38664.1-2020,3.1]3.2數據匯聚大數據業務主管部門根據數據管理和共享服務需求采集各類數據資源的活動。3.3數據治理數據資源及其應用過程中相關管控活動、績效和風險管理的集合。2DB3704/T0041-2024[來源:GB/T34960.5-2018,3.1]3.4數據管理數據資源獲取、控制、價值提升等活動的集合。[來源:GB/T34960.5-2018,3.2]3.5元數據定義和描述其他數據的數據。[來源:GB/T18391.1-2009,3.2.16]3.6數據生命周期數據獲取、存儲、治理、整合、分析、應用、歸檔和銷毀等各種生存形態變化的過程。3.7數據提供方在數據資源匯聚、治理、應用過程中,提供數據資源的數據權屬單位。3.8數據需求方在數據資源共享開放和應用過程中,提出使用需求或者申請使用數據的單位。4總體要求本標準針對一體化大數據平臺數據匯聚治理提出要求,總體上應滿足以下要求:a)數據匯聚治理安全應符合GB/T38664.2-2020的要求。b)應根據數據不同的業務更新周期建立高速及時的匯聚通道,確保數據的及時性。c)應記錄并保留匯聚治理過程中歷史數據的變化和移動情況,確保數據生命周期的可追溯性。d)數據匯聚治理過程中不應造成數據的缺失和遺漏,確保數據的完整性。e)應如實準確的處理數據,不應虛構或篡改數據,應準確記錄數據不應存在異?;蝈e誤數據,確保數據的準確性。f)應依據國家、行業或地方數據標準對數據進行治理,確保數據治理的規范性。5總體架構棗莊市數據匯聚治理的總體架構分為三層,分為數源層、市級平臺層和省級樞紐層,數源層由各區縣節點和市直各部門提供政務數據資源,同時接入公共數據和社會數據,市級平臺依托棗莊市一體化大數據平臺實現各類數據資源的匯聚、通過數據治理實現數據清洗和數據質量檢測形成數據資源庫,省級樞紐為上級平臺,市級平臺按照省級要求實現數據業務的互聯互通。(總體框架見圖1)3DB3704/T0041-2024圖1數據匯聚治理總體構圖6匯聚治理流程數據匯聚治理總體流程見圖2,流程包含以下內容:a)將原始數據進行數據匯聚并存放在一體化大數據平臺原始庫中;b)對原始庫數據進行數據治理包括數據清洗、數據質量檢測等,使其統一標準規范并且能夠滿足數據共享應用的質量要求,治理后的數據存放在一體化大數據平臺標準庫中,對于數據治理過程中發現的問題數據存放在一體化大數據平臺問題庫中,其中明確數據來源單位的問題數據反饋回數據源端,無法反饋的問題數據根據業務要求進行存儲或者銷毀;c)基于數據資源庫建設和數據創新應用需求,從業務維度對標準數據進行數據融合,融合后的數據存放在一體化大數據平臺主題庫中;d)當原始數據發生更新時,應依照數據匯聚、數據治理、數據融合的步驟進行數據處理;e)數據流轉各個環節能夠對數據進行溯源。4DB3704/T0041-2024圖2數據匯聚治理流程7數據匯聚要求7.1數據匯聚范圍大數據業務主管部門應基于數據資源管理和共享開放的需求,按照“按需歸集,應歸盡歸”的原則將各類數據資源匯聚至市一體化大數據平臺。a)棗莊市一體化大數據平臺數據匯聚范圍應包括政務數據、公共數據以及社會數據。b)公共數據匯聚應符合DB37/T4646.1-2023的要求。7.2匯聚數據類型a)采集數據包括結構化數據、半結構化數據、非結構化數據;b)接入形式包括數據庫表、文件、服務接口。7.2.1數據庫表匯聚a)為保證數據匯聚的準確和及時,應優先采用庫表方式進行匯聚。b)應采用前置庫方式進行數據匯聚,前置庫應支持國產數據庫。c)前置數據庫字符編碼應為UTF-8。d)數據提供方提供的業務數據表除業務字段外應包含記錄ID、批次號、業務操作標識、更新時間字段等擴展信息,業務數據表的示例見A1.1。e)數據庫表名稱應規范統一,一般為“機構簡稱首字母縮寫+數據資源名稱首字母縮寫”,數據資源名稱應和數據資源目錄的數據資源名稱保持一致。f)數據庫表字段應與數據目錄的數據項保持一致,且必須設有主鍵字段,并在數據表庫中創建主鍵約束。5DB3704/T0041-2024g)數據庫表結構應保持穩定,不應隨意更改。h)數據提供方應提供必要的字段說明文檔和對應的全部代碼表,確保所有數據內容可被正確理解。i)數據提供方應提供數據對賬表,包含數據條數等信息,一體化大數據平臺數據匯聚通過數據對賬保證數據無缺失和遺漏。7.2.2文件匯聚a)結構化文件格式包括CSV、TXT、XLS、XLSX等,非結構化文件格式包括PDF、DOC、DOCX、WPS、ZIP以及圖片、音頻、視頻等資源的常用格式。CSV、XLS、XLSX的首行數據應為列名,字符編碼應為UTF-8且不應存在特殊字符。b)文件傳輸方式可采用FTP、SFTP等。c)應設置文件大小閾值,文件超出閾值應拆分為多個小文件。d)文件名稱應規范統一,應與數據目錄的數據資源名稱保持一致。e)文件的存儲路徑應規范統一,可根據更新的頻度和檢索效率建立子文件夾,不應隨意更改路徑。f)特殊類文件應提供必要的說明文檔,確保所有文件內容可被正確理解。g)結構化文件中除業務字段外,應包含記錄ID、批次號、業務操作標識和更新時間等字段。h)數據提供方應提供文件對賬表,明確所匯聚電子文件包含的內容和數量等信息。7.2.3服務接口匯聚a)服務接口資源采用Schema架構說明的標準XML文件方式進行描述,其中編碼方式為UTF-8,服務接口示例見A.1.1。b)服務接口主要分為增刪改類數據服務接口和只增類數據服務接口。c)通過服務接口匯聚,數據提供方應提供詳細的數據接口服務說明文檔。d)一個數據接口服務一般應且只對應一項數據資源。e)服務應是無狀態的,兩次請求之間無須狀態和會話的保持。f)服務地址和參數不應隨意變更。7.3數據對賬要求a)數據資源提供方應對各類數據資源匯聚時提供對賬表,明確所匯聚資源的數量和內容等信息,數據對賬表示例見A1.1.3.b)一體化大數據平臺匯聚任務完成后應根據對賬表對已匯聚數據進行核對,確保數據提供方提供的數據與已匯聚的數據保持一致。c)數據對賬出現異常,應及時進行數據匯聚任務核查并進行糾正,保證數據無重復無遺漏。7.4數據更新要求7.4.1更新方法a)對存在更新標識的數據應支持增量更新。b)對不存在更新標識的數據應支持全量更新。7.4.2更新策略a)對產生呈現周期性規律的數據應支持定時更新策略。6DB3704/T0041-2024b)對產生由特定事件觸發的數據應支持事件觸發更新策略。c)對產生無特定規律的數據應支持手動更新策略。7.4.3更新頻率a)根據數據變化情況,數據應進行及時和持續更新。b)實時產生且實時性要求高的數據應進行實時更新。c)實時產生且實時性要求低的數據應采用定時更新。8數據治理要求8.1數據治理規劃數據治理規劃的基本內容包括但不限于:a)建立一體化大數據平臺數據治理規劃組織架構,明確數據治理管理制度和職責。b)開展需求調研,調研一體化大數據平臺數據治理現狀、治理環境,明確數據治理需求和目標,形成數據治理需求調研報告。c)進行需求分析,對數據治理調研結果進行分析,梳理數據治理需求,包括數據模型、數據標準、數據關系、業務視圖、技術視圖、數據分類分級等,確認影響業務的關鍵數據指標,分析關鍵業務的數據質量,形成數據治理需求分析報告。d)設計治理規劃,根據數據治理需求開展數據治理規劃,包括數據治理戰略、制度、組織、標準、流程和技術架構等,形成數據治理規劃方案。8.2數據治理實施數據治理的實施包括但不限于數據標準管理、元數據管理、數據清洗、數據質量檢測、問題數據處理。8.2.1數據標準管理a)大數據業務主管部門結合棗莊市實際,統籌管理棗莊市數據相關標準規范。b)一體化大數據平臺應能與省級樞紐對接獲取省級管理的標準規范。c)應根據相關國家標準、行業標準、地方標準,按照“一數一標準”原則規范數據資源管理工作。d)應基于標準規范中對數據元的規范要求建立數據治理規則,對數據資源進行治理實施和處8.2.2元數據管理a)應根據元數據的管理范圍構建元數據庫。b)應建立元數據管理體系,保障采集數據的質量。c)建立元數據創建、維護、整合、存儲、分發、查詢、報告和分析機制。d)應根據法律和政策要求,負責觸發數據或數據集的可訪問更新。e)應提供元數據的生存周期管理能力。8.2.3數據清洗a)制定數據過濾策略,應對確定的無效數據、干擾數據進行數據過濾操作。7DB3704/T0041-2024b)根據數據相關業務的合理性,應設置重復數據判定規則,基于唯一標識符或者關鍵字段進行判斷,去除數據集中重復記錄。c)對于來源于不同層級、不同業務系統的數據存在數據格式和數據內容不符合數據標準時,應對數據資源進行數據關系梳理,確定數據資源整體的統一數據視圖;根據數據標準進行數據轉換與加載,包括但不限于代碼轉換、從前往后截斷、從后往前截斷、日期格式轉換、時間格式轉換、IP地址轉換、身份證號碼歸一化、手機號碼歸一化、MAC地址轉換、全角數據轉換為半角數據、繁體字符轉換為簡體字符等。d)對于數據資源目錄要求必填項目進行檢驗,對于關鍵字段缺失的情況,查找源頭數據填充缺失值,將數據對已有權威信息的值進行識別,與數源部門確認數據補全的規則后進行補全。8.2.4數據質量檢測a)數據提供方應規范數據生產,在數據匯聚前依據相關標準規范完成數據質量自查。b)對于匯聚到市一體化大數據平臺的數據應建立數據質量檢測機制,依據標準規范進行全量數據質量檢測。c)市一體化大數據平臺應具備質量檢測的相關功能,確保質量規則的應用。d)對于多來源的相同業務數據,應進行多源數據校核。e)數據質量檢測的結果應按照總體情況、數據提供方、數據資源等各維度形成質量分析報告,并根據數據匯聚更新情況定期生成。f)數據質量檢測應根據數據不斷匯聚定期探查數據資源變化及時更新和優化檢測規則。8.2.5問題數據處理問題數據處理流程見圖3,流程包含以下內容:a)數據治理過程中會產生按照規則不能處理的、不符合條件的各種數據,應將問題數據進行存儲并根據治理的實施不斷更新。b)應按照問題數據的來源單位及時將數據推送至數據提供方,并督促其核查完善。c)數據提供方接收到問題數據后,應及時進行修正并作為更新數據再次匯聚,形成閉環處置流程。d)通過數據質量問題及其相關處理經驗的匯總、分析,逐步積累形成包含數據質量檢測規則、質量問題描述、針對性解決方案的數據質量知識庫。圖3問題數據處理流程8DB3704/T0041-20248.2.6數據治理結果評價a)應建立評價指標體系,明確評價范圍、依據標準,根據不同周期、數據管理目標對評價指標進行適當調整,對數據治理結果進行綜合評價;b)數據治理結果評價應圍繞數據質量和數據安全兩部分進行;數據質量評價維度包含完整性、準確性、規范性、一致性、時效性與可訪問性六個維度,六個維度應符合GB/T36344的規定,數據安全評價維度應包含數據采集安全、數據傳輸安全、數據存儲安全、數據處理安全、數據交換安全、數據銷毀安全六個維度。c)數據資源在提供數據服務和應用中,應根據服務的內容、應用的方向等不同場景,對所需的治理結果評價體系進行適當調整。9數據安全保護要求a)數據安全要求應符合GB/T39477-2020的要求。b)數據匯聚治理安全應符合GB/T22239-2019中等級保護三級的要求。c)個人信息安全應符合GB/T35273-2020要求。d)對數據匯聚治理過程進行有針對性的保護,個人信息、敏感數據和重要數據應加強安全管控措施。9數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 園藝師團隊合作與管理能力試題及答案
- 企業財務分析實務應用試題及答案
- 篷布抗風性能優化考核試卷
- 銀行從業資格證考試職業生涯規劃試題及答案
- 證券從業資格證考試的歷史與未來試題及答案
- 2025年【機械式停車設備司機】模擬考試題及答案
- 農旅規劃方案范本
- 2024年項目管理認證實踐試題及答案
- 受污染耕地治理施工方案
- 2023年中國電子集團總部16個崗位公開招聘16名筆試參考題庫附帶答案詳解
- 第2單元 社會服務(整單元教學設計)-2023-2024學年四年級下冊綜合實踐活動蘇教版
- 漢中漢源電力招聘試題及答案
- 《半導體集成電路》課件-半導體集成電路的制造工藝
- 石料場開采施工方案
- 探月精神隊課件
- 2025-2030中國設施農業行業市場發展分析及競爭格局與投資前景研究報告
- 人教版(PEP)2024-2025六年級下冊英語期中測試卷(含答案含聽力原文無聽力音頻)
- 宿舍教育班會
- 超聲支氣管鏡相關知識
- 2025年管理學原理試題及答案
- 2025年信陽職業技術學院單招職業適應性測試題庫帶答案
評論
0/150
提交評論