《智慧水利數據質量規范》_第1頁
《智慧水利數據質量規范》_第2頁
《智慧水利數據質量規范》_第3頁
《智慧水利數據質量規范》_第4頁
《智慧水利數據質量規范》_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Q/LB.□XXXXX-XXXXII智慧水利數據質量規范范圍本文件規定了智慧水利數據質量規范的術語和定義、數據質量管理、數據質量描述、數據質量識別、數據質量評價、數據質量控制、報告數據質量信息。本文件適用于智慧水利數據采集、傳輸、維護和使用過程中的質量管理。規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T33674—2017氣象數據集核心元數據術語和定義下列術語和定義適用于本文件。

智慧水利smartwaterconservancy以智慧城市為代表的智慧型社會建設中產生的相關先進理念和高新技術在水利行業的創新應用,是云計算、大數據、物聯網、傳感器等技術的綜合應用。

數據質量dataquality數據的一組固有特性滿足要求的程度。固有特性一般指永久性的特性。

數據質量管理dataqualitymanagement指導和控制某機構數據質量的協調活動。

質量測量qualitymeasurement對質量定量元素、子元素的評估。

質量結果qualityresult數據質量測量得到的一個值或一組值,或將這些值同規定的一致性質量等級相比得到的評價結果。

質量范圍qualityscope報告質量信息的數據的覆蓋范圍或特征。

完全檢查completeinspection質量范圍內所有個體都進行的檢查。

取樣檢查samplinginspection從質量范圍內的整體中抽取若干個體進行的檢查。

數據集dataset可以標識的數據集合。[來源:GB/T33674—2017,3.1]數據質量管理概述智慧水利數據質量管理主要是對數據質量進行規范和控制,要求智慧水利項目的數據質量管理必須識別相應產品規范或用戶需求中的質量信息,在元數據、質量評價報告中形成正確的質量描述,并在這些規范上的質量結果均為“合格”。框架數據質量管理框架見圖1。數據質量管理框架數據質量描述描述要素數據質量用以下兩個元素來描述:質量定量元素;質量非定量元素。每個數據質量定量元素可細分為多個數據質量定量子元素。每個數據質量定量子元素用多個數據質量定量子元素描述項描述。通過數據質量定量元素、數據質量定量子元素及數據質量定量子元素描述項,描述數據資源滿足相應規范中預先設定的標準的程度,并提供定量的質量信息。數據質量非定量元素提供非定量的質量信息。數據質量描述框架見圖2。數據質量信息框架定量元素構成數據質量定量元素用來描述數據集的定量質量信息,用來表達符合數據規范的程度。包括但不限于以下元素:完整性:特征、特征屬性及特征關系存在或不存在;邏輯一致性:數據結構(包括概念的、邏輯的或物理的數據結構)、屬性及他們之間的相互關系符合邏輯規則的程度;位置精度:特征的位置精度;時間精度:時間屬性及特征之間的時間關系的精度;專題精度:定量屬性的精度、非定量屬性的正確性、特征分類的正確性及特征之間相互關系的正確;附加數據質量定量元素:用戶可根據需求設置,以便描述無法用以上定量元素描述的定量的數據質量信息。子元素數據質量定量子元素與數據質量定量元素相對應,用來描述數據集的定量質量信息。包括但不限于以下子元素:完整性的子元素:多余:數據集中有多余數據;缺少:數據集中缺少應有的數據。邏輯一致性的子元素:概念一致性:符合概念模式規則;值域一致性:值在值域范圍內;格式一致性:數據存儲與數據集物理結構的一致性;拓撲一致性:數據集拓撲關系的正確性。位置精度的子元素:絕對精度:坐標值與其可接受的坐標值或真值之間的接近程度;相對精度:特征相對位置與其可接受的相對位置或真值之間的接近程度;柵格數據位置精度:柵格數據位置與其可接受的值或真值之間的接近程度。時間精度的子元素:時間測量精度:時間測量的正確性;時間一致性:有序事件或有序序列的正確性;時間正確性:數據在與時間有關的方面的正確性。專題精度的子元素:分類正確性:特征或其屬性的分類相對于分類標準的正確性;非定量屬性正確性:非定量屬性的正確性;定量屬性精度:定量屬性的精度。對任意數據質量定量元素,可新建附加數據質量定量子元素。子元素描述項對每個可用的數據質量定量子元素,應記錄其質量信息。每個數據質量定量子元素的完全的質量信息,用下列7個數據質量描述項來描述:數據質量范圍;數據質量測量;數據質量評價過程;數據質量結果;數據質量值類型;數據質量值單位;數據質量日期。非定量元素數據質量非定量元素用來描述數據集的非定量的質量信息。包括但不限于以下元素:目的:描述數據集的創建原因和其預定的使用目的;用途:描述使用過該數據集的應用。數據生產者或其它數據使用者用“用途”來描述數據集的使用情況;數據志:數據志描述數據集的歷史,即數據集從搜集、獲取、匯編到現狀的整個生命周期。數據志包含兩部分:描述數據集起源的源信息;描述數據集生命周期中的事件或轉換的處理步驟或歷史信息(包括連續性或周期性地維護數據集的處理過程)。附加數據質量非定量元素描述以上數據質量非定量元素沒有描述的非定量的質量信息。數據質量識別定量的數據質量信息識別可用的數據質量定量元素對可用于數據集的所有數據質量定量元素加以識別。判斷這些元素是否適用于某一特定類型的數據集。數據質量定量元素可用性由數據規范來決定。新建附加數據質量定量元素若本文件所列的數據質量定量元素未能充分描述數據質量的某一方面,則應當命名并定義新的數據質量定量元素。附加數據質量定量元素的命名和定義,應作為數據集質量信息的一部分。識別可用的數據質量定量子元素對可用數據質量定量元素的所有數據質量定量子元素加以識別,判斷這些元素是否適用于某一特定類型的數據集。每個可用數據質量定量元素至少包含一個可用數據質量定量子元素。數據質量定量子元素的可用性由數據規范來決定。新建附加數據質量定量子元素若本文件所列的數據質量定量子元素未能充分描述數據質量的某一方面,則應當命名并定義新的數據質量定量子元素。附加數據質量定量子元素的命名和定義,應作為數據集質量信息的一部分。數據質量定量子元素描述項使用數據質量范圍對每個可用數據質量定量子元素,應識別至少一個數據質量范圍。數據質量范圍可以是數據集系列、數據集或數據集內具有相同特征的部分數據。若數據質量范圍無法識別,則默認為該數據集。數據質量范圍的確定參照數據規范及數據質量非定量元素提供的非定量質量信息。在同一數據集內,質量也可能有所不同。故對每個可用數據質量定量子元素,應當識別多個數據質量范圍,以便更全面地描述定量的質量信息。數據質量范圍應被充分描述,下列可被用來描述數據質量范圍:層次:數據集所屬的數據集系列、數據集或數據集內具有某些相同特征的一小部分;數據項類型:特征類型、特征屬性及特征間的相互關系;特定數據項:特征實例、屬性值及特征間的關系實例;地理范圍;時間范圍:時間幀及時間幀精度。數據質量測量每個數據質量范圍有一個數據質量測量。數據質量測量應簡要描述并命名(若名稱存在)應用于該數據質量范圍所規定的測試類型,并應當包含邊界或限制參數。數據集的質量應當由多個測量來衡量。單一測量不能充分評價數據質量,也不能為數據集的所有應用提供單一測量。數據質量評價過程每個數據質量測量有一數據質量評價過程。數據質量評價過程應當描述(或引用文檔描述)數據質量范圍內的數據質量測量方法,并包含該方法報告。數據質量結果每個數據質量測量有一個數據質量結果。數據質量結果應為以下兩者之一:將數據質量測量應用到數據質量范圍所限定的數據后得到的值或值的集合;將所得到的值或值的集合,用可接受的指定一致性質量等級,評價這些值或值的集合得到的結果。該數據質量結果為“通過”或“不通過”。這兩種類型的數據質量結果都應被提供。數據質量值類型每個數據質量結果有一個數據質量值類型。“通過”或“不通過”的數據質量類型為“布爾變量”。數據質量值單位每個數據質量結果有一個數據質量值單位(若存在)。數據質量測量日期每個數據質量測量應有一個數據質量測量日期。非定量的數據質量信息識別可用的數據質量非定量元素數據集目的應明確,用途應清晰,數據志應完整。數據集的數據志應是可用的,或者報告數據志,或者報告缺少數據志的原因。數據質量范圍所限定的數據集內,當一部分數據的數據志與其它部分的數據志不同時,應提供其數據志,作為非定量的數據質量信息完整記錄的一部分。新建附加數據質量非定量元素若本文件所列的數據質量非定量元素未能充分描述非定量數據質量的某一方面,則應命名并定義新的數據質量非定量元素。附加數據質量非定量元素的命名和定義,應作為數據集質量信息的一部分。數據質量評價概述數據質量評價過程是產生和報告數據質量結果的一系列步驟。質量評價過程可用在靜態數據集上,也可用在動態數據集上。評價方法數據質量評價方法分類數據質量評價方法分為:直接評價方法:通過比較數據與內外部參考信息來確定數據質量;間接評價方法:使用與數據相關的外部信息推斷或估計數據質量。直接評價方法直接評價方法可分為:自動評價方法或手工評價方法;完全檢查方法或取樣檢查方法:完全檢查方法:測試數據質量范圍內的所有數據項;取樣檢查方法:測試數據質量范圍內的部分數據項,取樣方法、取樣率及取樣過程應在數據質量評價報告中報告。使用取樣檢查方法時,應分析數據質量結果的可靠性,特別是在使用小樣本或非隨機取樣時。間接評價方法間接評價方法所依據的外部知識包括但并不限于:數據質量非定量元素、數據集的其他質量報告、關于產生該數據集的數據的質量報告。僅當直接評價方法不可用時,才用間接評價方法。評價流程和步驟過程流評價與報告數據質量結果的過程流見圖3。評價與報告數據質量結果的過程流評價步驟評價步驟見表1。評價步驟步驟動作描述1識別可用的數據質量定量元素、數據質量定量子元素及數據質量范圍按第6章識別數據質量定量元素、數據質量定量子元素及數據質量范圍。若產品規范或用戶需求有測試需要,重復該步2識別數據質量測量對每個測試,識別數據質量測量、數據質量值類型及數據質量值單位(若存在)3選擇并運用數據質量評價方法對每個被識別的數據質量測量,選擇數據質量評價方法4決定數據質量結果結果為:定量數據質量結果、數據質量值或數據質量值集合、數據質量值單位及數據質量日期5決定一致性若產品規范或用戶需求中已指定一致性質量層次,將其與數據質量結果相比較后可決定一致性。一致性數據質量結果(“通過”或“不通過”)是定量數據質量結果與一致性質量層次比較后的結果數據質量控制控制規則數據質量描述測試套件“數據質量描述測試套件”用來測試對數據集的質量描述的正確性。對數據集的質量描述都必須通過該測試套件的所有測試。測試一:組件測試測試目的:證實質量組件都在質量描述中;測試方法:檢查質量描述,證實數據質量定量元素、數據質量定量子元素及數據質量定量子元素描述項已被用來描述定量的質量信息;檢查質量描述,證實數據質量非定量元素已被用來描述非定量的質量信息。測試二:正確性測試測試目的:證實質量描述的正確性;測試方法:檢查質量描述,證實其數據質量定量元素及數據質量定量子元素在本文件中,或是用戶附加的以便用來描述不在本文件中的數據質量組件或方面;檢查質量描述,證實本文件中的數據質量定量子元素描述子已被用來描述定量的質量信息;檢查質量描述,證實其數據質量非定量元素在本文件中,或是用戶附加的以便用來描述不在本文件中的非定量的數據質量信息。測試三:定量的質量可用性測試測試目的:證實定量質量描述的可用性;測試方法:識別產品規范中與定量質量相關的語句并用它們來識別可用的數據質量定量元素及其可用的數據質量定量子元素。比較這些數據質量定量子元素與質量描述中所用的數據質量定量子元素,確保該數據集可用的所有數據質量定量子元素都已被識別并被用在質量描述中。測試四:非定量的質量可用性測試測試目的:證實非定量的質量描述的可用性;測試方法:證實可用的數據質量非定量元素被用來描述非定量的質量信息。測試五:排斥性測試測試目的:證實質量描述中的附加元素是排斥性的,證實關于附加元素的信息已被充分提供;測試方法:檢查所有附加數據質量定量元素,證實每個都描述了本文件中數據質量定量元素沒有描述的定量質量信息;檢查所有附加數據質量定量子元素,證實每個都描述了本文件中數據質量定量子元素沒有描述的定量質量信息;檢查所有附加數據質量非定量元素,證實每個都描述了本文件中數據質量非定量元素沒有描述的非定量質量信息。測試六:數據質量定量子元素描述子使用正確性測試目的:證實數據質量定量子元素描述子使用正確;測試方法:比較本文件及每個可用數據質量定量子元素(包括附加數據質量定量子元素)所提供的質量信息,證實數據質量定量子元素描述子的使用符合本文件。測試七:在元數據中報告數據質量信息測試目的:證實質量描述已在規范中報告;測試方法:證實定量的質量信息已按規范報告;證實非定量的質量信息已按規范報告。測試八:用“數據質量報告”報告定量的質量信息測試目的:證實定量質量描述已用“數據質量報告”報告;測試方法:證實定量質量信息已用符合報告數據質量信息要求的“數據質量報告”報告。數據質量內容測試套件測試目的:保證納入“智慧水利”的數據內容的質量。測試方法:任何納入“智慧水利”的數據應符合給定的數據規范,并提供一致性數據質量報告,且在這些數據規范上的數據質量結果均為“合格”。控制方法數據質量控制總體上可分為三個步驟:生產者自查:數據集生產者自查認為數據及其質量描述完全符合“數據質量描述測試套件”“數據質量內容測試套件”的所有要求,才能將其提交給第三方檢查。第三方檢查:第三方檢查認為數據集生產者提交的數據及其質量描述完全符合“數據質量描述測試套件”“數據質量內容測試套件”的所有要求,才能將其提交給項目組檢查。否則,詳細指出錯誤,將材料返回給數據集生產者修改。項目組檢查:項目組檢查認為數據集生產者提交的數據及其質量描述完全符合“數據質量描述測試套件”“數據質量內容測試套件”的所有要求,才能將其納入“智慧水利數據”。否則,詳細指出錯誤,將材料返回給數據集生產者修改。報告數據質量信息概述定量數據質量信息應按相應規范要求報告,還應以“數據質量報告”報告。非定量數據質量信息應按相應規范要求報告,無需以“數據質量報告”報告。當多個數據質量結果被綜合成單個數據質量結果來報告數據集質量時,綜合數據質量結果應包含在“數據質量報告”中,其數據質量結果類型為“綜合”。數據質量報告數據質量報告主要內容見表2。其中:編號:給表中每個條款編號;名稱:報告條款名稱;定義/內容:定義或描述條款內容;條件:描述報告該條款的必要條件,或需要該條款的條件。其含義如下:必選:必須有該條款;條件:規定條件被滿足時必須有該條款;可選:該條款是可選的。數據質量報告主要內容編號名稱定義/內容條件1質量報告報告章節必選1.1報告名稱報告名稱必選1.2報告范圍該報告所評價數據集的范圍可選2數據質量測量報告章節必選2.1數學描

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論