農(nóng)村供水管理系統(tǒng) 數(shù)據(jù)加工(征求意見稿)_第1頁
農(nóng)村供水管理系統(tǒng) 數(shù)據(jù)加工(征求意見稿)_第2頁
農(nóng)村供水管理系統(tǒng) 數(shù)據(jù)加工(征求意見稿)_第3頁
農(nóng)村供水管理系統(tǒng) 數(shù)據(jù)加工(征求意見稿)_第4頁
農(nóng)村供水管理系統(tǒng) 數(shù)據(jù)加工(征求意見稿)_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Q/LB.□XXXXX-XXXXDB34/TXXXX—2023前言本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由安徽省水利廳提出并歸口。本文件起草單位:安徽省(水利部淮河水利委員會(huì))水利科學(xué)研究院(安徽省水利工程質(zhì)量檢測中心站)、中水三立數(shù)據(jù)技術(shù)股份有限公司、安徽省農(nóng)村飲水安全技術(shù)中心、安徽農(nóng)業(yè)大學(xué)、安徽金海迪爾信息技術(shù)有限責(zé)任公司、安徽省大禹水利工程科技有限公司。本文件起草人:沈超、王躍國、劉懷利、廖麗霞、張成、杜運(yùn)成、周志祥、李羊第、顧慶瑋、張嘯天、鄭銳、周婷、劉星宇、姚禮幫、趙輝、吳霜、張國繁、葛夢瑤。適用范圍本文件規(guī)定了農(nóng)村供水管理系統(tǒng)數(shù)據(jù)加工流程、數(shù)據(jù)分析、數(shù)據(jù)抽取、數(shù)據(jù)清洗、標(biāo)準(zhǔn)化轉(zhuǎn)換以及數(shù)據(jù)安全和溯源。本文件適用于農(nóng)村供水管理系統(tǒng)相關(guān)的數(shù)據(jù)加工處理。規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T20271信息安全技術(shù)信息系統(tǒng)通用安全技術(shù)要求術(shù)語和定義下列術(shù)語和定義適用于本文件。數(shù)據(jù)清洗過濾datacleaningandfiltering數(shù)據(jù)清洗是在數(shù)據(jù)加工過程中對不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)進(jìn)行重新審查、校驗(yàn)和處理,保證數(shù)據(jù)的準(zhǔn)確性、完整性、一致性和有效性。噪聲數(shù)據(jù)noisydata指數(shù)據(jù)中存在著錯(cuò)誤或異常(偏離期望值)的數(shù)據(jù),或難以被機(jī)器正確理解和翻譯的數(shù)據(jù)。前置數(shù)據(jù)庫predatabase用于存儲(chǔ)和管理數(shù)據(jù)源的原始數(shù)據(jù)的數(shù)據(jù)庫。生產(chǎn)數(shù)據(jù)庫productionlibrarydatabase用于存儲(chǔ)和管理實(shí)際生產(chǎn)過程中數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)。業(yè)務(wù)數(shù)據(jù)庫businesslibrarydatabase用于存儲(chǔ)和管理特定業(yè)務(wù)流程中的數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)加工流程農(nóng)村供水管理系統(tǒng)數(shù)據(jù)加工應(yīng)包括數(shù)據(jù)分析、數(shù)據(jù)抽取、數(shù)據(jù)清洗、標(biāo)準(zhǔn)化轉(zhuǎn)換四個(gè)主要環(huán)節(jié),如圖1所示。圖1農(nóng)村供水管理系統(tǒng)數(shù)據(jù)加工流程數(shù)據(jù)分析5.1數(shù)據(jù)分類5.1.1應(yīng)將待加工數(shù)據(jù)根據(jù)農(nóng)村供水管理業(yè)務(wù)應(yīng)用劃分為基礎(chǔ)數(shù)據(jù)、監(jiān)測數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、空間數(shù)據(jù)、多媒體數(shù)據(jù)五類。5.1.2應(yīng)根據(jù)數(shù)據(jù)分類明確對應(yīng)的數(shù)據(jù)加工路徑、加工規(guī)則、加工目標(biāo)數(shù)據(jù)庫及相應(yīng)庫表信息。5.1.3數(shù)據(jù)加工頻次應(yīng)與各數(shù)據(jù)分類的采集頻次保持一致。5.2數(shù)據(jù)初篩對待加工數(shù)據(jù)進(jìn)行初步篩選,應(yīng)遵循如下原則:a)數(shù)據(jù)的主要內(nèi)容是否滿足農(nóng)村供水管理系統(tǒng)業(yè)務(wù)需求;b)數(shù)據(jù)使用的數(shù)據(jù)格式是否符合需求;c)數(shù)據(jù)是否具有完整的元數(shù)據(jù)或相關(guān)資料描述;d)數(shù)據(jù)是否具有明確的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)量、數(shù)據(jù)關(guān)系以及數(shù)據(jù)類型;e)數(shù)據(jù)的采集和獲取方式是否穩(wěn)定。數(shù)據(jù)抽取6.1抽取方法6.1.1根據(jù)抽取數(shù)據(jù)量劃分為全量抽取和增量抽取兩種方法。首次抽取應(yīng)采用全量抽取方式,非首次抽取宜采用增量抽取方式。6.1.2根據(jù)抽取操作形式劃分為直接讀庫抽取和通過數(shù)據(jù)服務(wù)抽取兩種方法。結(jié)構(gòu)化數(shù)據(jù)宜采用直接讀庫方式抽取,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)宜通過數(shù)據(jù)服務(wù)方式抽取。6.2抽取要求數(shù)據(jù)抽取應(yīng)包括但不限于如下要求:a)應(yīng)通過數(shù)據(jù)來源的前置庫進(jìn)行抽取,不可直接從生產(chǎn)庫或業(yè)務(wù)庫進(jìn)行抽取;b)數(shù)據(jù)抽取目的地表結(jié)構(gòu)應(yīng)與抽取來源的表結(jié)構(gòu)一致;c)每次數(shù)據(jù)抽取工作應(yīng)至少記錄抽取標(biāo)志位、抽取時(shí)間、抽取來源、抽取數(shù)量、目標(biāo)庫表、抽取完成情況、操作人員;取操作中斷時(shí)可通過抽取標(biāo)志位、抽取時(shí)間確定抽取的數(shù)據(jù)。數(shù)據(jù)清洗7.1清洗操作方法數(shù)據(jù)清洗操作應(yīng)包括但不限于如下方法:a)數(shù)據(jù)結(jié)構(gòu)化:應(yīng)根據(jù)業(yè)務(wù)需求將非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)(并非全部)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);b)消除不一致數(shù)據(jù):對不一致的數(shù)據(jù)進(jìn)行刪除或修改保持一致;c)消除冗余數(shù)據(jù):利用相關(guān)性分析的方法檢測冗余,消除重復(fù)冗余數(shù)據(jù);d)消除噪聲數(shù)據(jù):對噪聲數(shù)據(jù)進(jìn)行刪除;e)清除不合理數(shù)據(jù):對業(yè)務(wù)數(shù)據(jù)中不符合應(yīng)用規(guī)則或有邏輯錯(cuò)誤的數(shù)據(jù)進(jìn)行刪除;f)過濾查驗(yàn):過濾刪除掉的數(shù)據(jù)應(yīng)存入問題數(shù)據(jù)庫表,便于后續(xù)查證或重新使用;g)空缺值填補(bǔ):對數(shù)據(jù)中存在的空缺值進(jìn)行處理,可通過濾數(shù)據(jù)、人工填寫、全局常量等方式進(jìn)行填補(bǔ);7.2清洗規(guī)則應(yīng)根據(jù)實(shí)際業(yè)務(wù)需求制定數(shù)據(jù)清洗規(guī)則,應(yīng)包括但不限于如下3個(gè)方面:a)異常值判定規(guī)則:應(yīng)至少包含極大值、極小值、負(fù)值、空缺值、數(shù)據(jù)類型錯(cuò)誤(亂碼);b)業(yè)務(wù)邏輯判定規(guī)則:農(nóng)村供水管理及其他與系統(tǒng)相關(guān)業(yè)務(wù)應(yīng)用規(guī)則和邏輯;c)唯一性檢驗(yàn)規(guī)則:應(yīng)通過主鍵或標(biāo)志位檢驗(yàn)等策略制定重復(fù)數(shù)據(jù)去重規(guī)則。7.3結(jié)果檢驗(yàn)7.3.1準(zhǔn)確性應(yīng)對清洗后數(shù)據(jù)對象的數(shù)據(jù)類型、數(shù)值、長度、格式以及數(shù)據(jù)內(nèi)容的表述進(jìn)行準(zhǔn)確性檢驗(yàn)。7.3.2完整性應(yīng)對每個(gè)數(shù)據(jù)字段內(nèi)容的完整性進(jìn)行檢驗(yàn),在字段要求為非空的情況下確保字段數(shù)據(jù)不能為空值。7.3.3一致性應(yīng)對清洗前后的數(shù)據(jù)值、數(shù)據(jù)量進(jìn)行比對,保持一致性。7.3.4異常反饋系統(tǒng)應(yīng)建立異常反饋機(jī)制,針對檢驗(yàn)發(fā)現(xiàn)的異常數(shù)據(jù)應(yīng)及時(shí)反饋給原數(shù)據(jù)提供單位,以便從源頭實(shí)現(xiàn)數(shù)據(jù)清洗治理。7.4錯(cuò)誤數(shù)據(jù)修正對格式或內(nèi)容錯(cuò)誤或存在邏輯問題的數(shù)據(jù)應(yīng)按照正確規(guī)則進(jìn)行修正,通過人工判定修改或系統(tǒng)自動(dòng)校驗(yàn)修改方式進(jìn)行數(shù)據(jù)修正。經(jīng)過修正后的數(shù)據(jù)可進(jìn)一步進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換。標(biāo)準(zhǔn)化轉(zhuǎn)換8.1數(shù)據(jù)標(biāo)準(zhǔn)化農(nóng)村供水管理系統(tǒng)最終歸檔存儲(chǔ)數(shù)據(jù)應(yīng)實(shí)現(xiàn)對以下數(shù)據(jù)內(nèi)容的標(biāo)準(zhǔn)化統(tǒng)一:統(tǒng)一時(shí)間日期數(shù)據(jù)格式;統(tǒng)一人員性別、民族、戶籍地址、婚姻狀況、身份證號(hào)等分類數(shù)據(jù)取值代碼;統(tǒng)一坐標(biāo)系;統(tǒng)一工程構(gòu)筑物編碼;統(tǒng)一設(shè)備編碼;統(tǒng)一高程數(shù)據(jù)格式。8.2轉(zhuǎn)換規(guī)則農(nóng)村供水管理系統(tǒng)典型業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換規(guī)則見附錄A。8.3兼容性轉(zhuǎn)換后的數(shù)據(jù)結(jié)構(gòu)應(yīng)與目標(biāo)數(shù)據(jù)庫的結(jié)構(gòu)相兼容。8.4規(guī)范性檢驗(yàn)數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換完成后應(yīng)對數(shù)據(jù)規(guī)范性進(jìn)行檢驗(yàn),應(yīng)包括但不限于字段數(shù)據(jù)類型、數(shù)據(jù)格式、字符長度以及數(shù)據(jù)內(nèi)容的準(zhǔn)確性和合理性。經(jīng)檢驗(yàn)通過的數(shù)據(jù)方能完成數(shù)據(jù)加工流程。安全與溯源9.1安全數(shù)據(jù)加工安全應(yīng)符合GB/T20271要求。9.2溯源應(yīng)建立數(shù)據(jù)溯源機(jī)制,應(yīng)記錄農(nóng)村供水管理系統(tǒng)加工處理數(shù)據(jù)的來源、處理時(shí)間、處理人員、處理方法以及加工處理過程中數(shù)據(jù)流路徑上的每次變化記錄,數(shù)據(jù)溯源記錄表格式見表1。表1數(shù)據(jù)溯源記錄表數(shù)據(jù)名稱數(shù)據(jù)來源數(shù)據(jù)類型處理人員處理方法處理時(shí)間數(shù)據(jù)流路徑變化記錄序號(hào)數(shù)據(jù)變化前數(shù)據(jù)變化后變化原因登記人:登記時(shí)間:附錄A(資料性附錄)典型業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換規(guī)則表A.1典型業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換規(guī)則表見表A.1。表A.1典型業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換規(guī)則表轉(zhuǎn)化規(guī)則規(guī)則描述統(tǒng)一時(shí)間日期數(shù)據(jù)格式將各類日期統(tǒng)一為八位的字符日期,如YYYYMMDD。將各類日期統(tǒng)一為六位的字符時(shí)間,如HHMMSS。將各類事件統(tǒng)一為十四位的字符時(shí)間日期,如YYYYMMDDHHMMSS。統(tǒng)一分類數(shù)據(jù)取值代碼將人員的性別數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為國標(biāo)性別信息代碼。將人員的民族數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)信息代碼。將人員的戶籍地址數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為行政區(qū)劃代碼。將人員的婚姻登記情況統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的婚姻狀況代碼。將公民身份證統(tǒng)一轉(zhuǎn)換為18位的身份證號(hào)。統(tǒng)一轉(zhuǎn)換坐標(biāo)系將不同來源的坐標(biāo)數(shù)據(jù)統(tǒng)一為同一坐標(biāo)系,采用WGS84坐標(biāo)系。根據(jù)具體需求將不同坐標(biāo)系的數(shù)據(jù)轉(zhuǎn)換為目標(biāo)坐標(biāo)系,數(shù)據(jù)類型為浮點(diǎn)型。統(tǒng)一構(gòu)筑物編碼將不同來源的構(gòu)筑物數(shù)據(jù)統(tǒng)一為國家建筑標(biāo)準(zhǔn)代碼(GB50352)所規(guī)定的12位編碼,前6位表示所在行政區(qū)劃代碼,中間3位表示建筑物類別,最后3位為自編號(hào),數(shù)據(jù)類型為字符串。統(tǒng)一設(shè)備編碼將各類設(shè)備統(tǒng)一為設(shè)備分類代碼(GB/T151

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論