2024風能發電系統智能風力發電場數據采集技術規范_第1頁
2024風能發電系統智能風力發電場數據采集技術規范_第2頁
2024風能發電系統智能風力發電場數據采集技術規范_第3頁
2024風能發電系統智能風力發電場數據采集技術規范_第4頁
2024風能發電系統智能風力發電場數據采集技術規范_第5頁
已閱讀5頁,還剩38頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據采集技術規范范圍為規范廣西桂冠電力股份有限公司(以下簡稱公司)本部各職能部門及所屬各企業的數據接入工作,根據桂冠電力工業大數據生態云平臺的建設要求,特制定本規范。本規范適用于公司本部各職能部門及所屬各企業的監控類、監測類、統計類、計量類、分析類、管理類等各類生產運行系統和業務管理系統的數據采集工作。數據采集及傳輸的范圍包括須接入工業大數據平臺的河流、水庫、大壩、水電廠、水電機組、水文站、火電廠、火電機組、風場、風機、光伏方陣、光伏組件等設施中的生產測點數據,以及各業務系統的管理數據。規范性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB4943.1-2011信息技術設備安全GB/T22239-2019信息安全技術網絡安全等級保護基本要求GB/T25070-2019信息安全技術網絡安全等級保護安全設計技術要求術語與定義下列術語和定義適用于本標準。數字生態平臺DigitalEcosystemPlatform數字生態平臺是基于云計算、模型、BIM、GIS、移動互聯網、物聯網、邊緣計算、人工智能等技術,由大數據平臺、數據中臺、應用開發支撐平臺、應用系統等構成,為公司數字化建設提供數據鏈接能力、數據存儲能力、數據計算能力、業務流程能力、數據應用能力等。大集控公司在廣西紅水河流域的十個受控水電站,包括龍灘、巖灘、大化、百龍灘、平班、樂灘、西津、金雞灘、山秀、金牛坪。廣源集控廣源分公司所屬的小水電,包括大七孔、下六甲、隆或、坡甲、厘金灘、草頭坪、龍溪、鯉魚灘、里定、西岸、龍興、江口。新能源newenergy公司已開發利用或正研究布局新生能源產業,如光伏、風電等相關廠站。ETLExtract-Transform-LoadETL是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過采集(extract)、轉換(transform)、加載(load)至目的端的過程。時間戳timestamp對時間和其他待簽名數據進行簽名得到的,用于表明數據時間屬性的數據。[GB/T25069-2022,定義3.541]數據庫鏈接databaselink數據庫鏈接是定義一個數據庫到另一個數據庫的路徑的對象,databaselink允許查詢遠程表及執行遠程程序。在任何分布式環境里,databaselink都是必要的。另外要注意的是databaselink是生態平臺到業務系統單向的連接。結構化數據structureddata一種數據表示形式,按此種形式,由數據元素匯集而成的每個記錄的結構都是一致的并且可以使用關系模型予以有效描述。[GB/T35295-2017,定義2.2.13]非結構化數據unstructureddata不具有預定義模型或未以預定義方式組織的數據。[GB/T35295-2017,定義2.1.25]多源異構數據multi-sourceheterogeneousdata指來源于多個數據源的非統一標準結構的數據,既有混合型數據(包括結構化和非結構化)又有離散性數據(數據分布在不同的系統或平臺)。管理內容和要求數據采集規范數據采集方式為保證桂冠電力大數據平臺與其他相關系統的獨立性,桂冠電力大數據平臺將由數據采集調度程序進行采集數據,產生數據交互的系統需有ntp對時。結合各種數據現狀,ETL模塊主要支持以下模式的數據同步:數據庫直抽:允許桂冠電力大數據平臺從其它系統的數據庫中直接獲取數據,例如通過ODBC、JDBC等接口;KaFka+Slipstream:通過定制準實時數據采集工具,將實時生產測點數據通過KaFka進行異步解析,然后經由Slipstream數據同步至hbase數據庫。數據流向圖準實時數據準實時生產數據主要采集對象為大集控、廣源集控、新能源相關的測點數據。結合三個渠道的實際情況,直接采用標準104及非標104進行生產數據接入處理。大集控圖1大集控測點數據接入流向圖廣源集控圖2廣源集控測點數據接入流向圖新能源圖3廣源集控測點數據接入流向圖測點數據接收點表應包含測點數據類型、點號、廠站機組描述、簡碼、歷史簡碼、發電類型、廠站、傳輸端口號、傳輸協議、機組、原始編碼1、原始編碼2、功能碼、站號等信息,例如:表1測點數據接收點表測點數據類型(四遙)點號廠站機組描述簡碼歷史簡碼發電類型廠站傳輸端口號傳輸協議機組原始編碼1原始編碼2功能碼站號是否再用遙信1馬王4#變槳急停引起機組安全鏈斷開GGDL03XN02A0400001風電馬王24184#450102004WROT.Bool.Rd.b0.0001業務管理數據圖5業務管理數據接入流向圖數據采集策略數據采集策略包括全量采集和增量采集兩種方式采集。全量采集全量采集類似于數據遷移或數據復制,它將數據源中的表或視圖的數據原封不動的從數據庫中采集出來,并轉換成自己的ETL工具可以識別的格式。增量采集增量采集只采集自上次采集以來數據庫中要采集的表中新增、修改、刪除的數據。在ETL使用過程中。增量采集較全量采集應用更廣。如何捕獲變化的數據是增量采集的關鍵。對捕獲方法一般有兩點要求:準確性,能夠將業務系統中的變化數據準確地捕獲到;性能,盡量減少對業務系統造成太大的壓力,影響現有業務。業務系統對增量數據的捕獲可采用表1,所示幾種方式:表2增量數據捕獲方式表捕獲方式技術實現特點技術實現分析時間戳通過數據庫表中包含的一個時間戳字段來記錄數據發生變化的時間,在數據發生變化的同時通過應用程序或者觸發器來修改時間戳字段。采集過程清楚簡單,速度快。每次數據采集時,記錄最大的時間戳,作為本次采集的結束時間以及下次采集的開始時間。一般需要對數據庫的表結構進行修改,同時需要修改應用程序(或加觸發器),改動工作量大。增量日志表(或增量文件)通過在數據庫中添加增量日志表(或增量文件)來記錄變化的數據。修改應用程序(或加觸發器),將變化的數據記錄到增量日志表中。同時在增量日志表中添加兩個字段:增量標志,時間戳字段。增量標志用來記錄增量類型,如新增、刪除或修改以區分不同類型的變化數據;時間戳字段用來確定每次采集的數據范圍,采集方法與時間戳方法一樣,該字段可以用一個不斷增長的全局唯一標識字段來代替,即在每次采集時,記錄下最大ID號作為本次采集的結束標志以及下次采集的開始標志。通過增量標志字段,可以區分不同類型的增量數據,彌補了時間戳方法不能捕獲刪除數據的缺陷。不需要修改原數據庫表結構,但增量日志表的維護同樣需要修改應用程序或加觸發器來完成。數據庫快照將上次執行完數據采集后的數據庫快照記錄下來,與當前要進行增量數據采集的數據庫快照進行比較,生成增量數據。如果上次快照中的記錄在當前的快照中不存在,則表示已被刪除;如果上次快照中的記錄在當前的快照中仍然存在,則比較記錄中的字段,如果字段取值完全一樣,則表示記錄沒有變化,如果有字段取值不同,則表示該記錄被修改;如果當前的快照中的記錄在上次的快照中不存在,則表示是新增的記錄。進行快照比較時,通常會基于主鍵進行全表掃描,在數據量非常大的情況下,非常耗費系統資源和時間。應用程序日志數據的變化是由應用程序引發的,因此可以將應用程序執行成功的修改操作記錄下來,在目標數據庫系統重新執行這些操作,所得結果就是要捕獲的增量數據。數據庫之上的應用程序種類繁多,都要求支持應用程序日志比較難實現。數據庫日志(CDC方式)通過分析數據庫的系統日志來獲取變化的數據。該方法的源自應用程序日志法,對數據庫中數據的最終修改,都是通過數據庫管理系統來完成,數據庫管理系統的系統日志詳細記錄了所有的修改操作。通過數據庫自帶或者專用的工具來讀取數據庫日志。數據庫的系統日志往往數據量非常大,且格式復雜,不同的數據庫系統日志格式也不一樣,要從不同規格的大數據量的系統日志中分析得到所需要的信息,工作量很大。數據采集原則數據量較小的數據表采用“全量”方式采集,數據量大的數據表采用“增量”方式采集。其中:大表:業務系統中,60個月(5年)后記錄數增長到100W條的表。依據時間戳字段增量采集數據。小表:業務系統中,60個月(5年)后記錄數未增長到100W條的表。按全量方式采集數據。數據采集周期為了規范及明確大數據平臺數據采集流程,我們特別針對數據采集周期定制了以下原則:針對于實時生產測點接口數據,按毫秒級進行數據采集;針對于日增量接口數據,每天凌晨0:00進行數據采集;針對于月增量接口數據,每月第一天凌晨0:00進行數據采集;針對于日全量接口數據,每天凌晨0:00進行數據采集;針對于月全量接口數據,每月第一天凌晨0:00進行數據采集。廠站側采集規范模型設計廠站側業務系統中,對增量接口數據,在模型設計時,必須可以支持每一條數據記錄的生命周期管理。在對應的每一張表必須要有記錄建立時間、更新時間(create_time和update_time)二個時間類型字段,要求至少精確到天。對于新增記錄必須標示唯一的create_time,并且更新時間等于創建時間;對于記錄的任一字段屬性的更新都需刷新更新時間update_time。數據維護數據新增:每一條記錄新增時(包括外部數據導入),均應記錄建立時間(create_time),建議建立時間取系統時間,不要在當天補存create_time或update_time時間小于當天的記錄,并且更新時間等于創建時間。數據變更:每一條記錄的任一字段更改時(除了更改時間外),均應同時更新更改時間(update_time),建議更改時間取系統時間,最好可以同時記錄修改來源(如具體的菜單、界面、修改人等),方便問題追溯。同時手工更改數據必須同步更改時間戳字段,具體表現為:更新已存在的數據必須更改update_time字段;若對應的業務已經歸檔,不允許通過任何手段來更改記錄字段,而應通過類似財務沖正操作來更正。數據刪除:在軟刪除的表中,業務系統若有刪除的數據不管是人為刪除還是程序刪除的,都必須放到數據刪除監聽表或者更改表中的更新時間字段(update_time)并且設置對應的數據狀態status(0正常,1刪除,-1草稿)。刪除時間建議為數據庫執行時間,刪除操作與刪除時間應在同一天。若對應的業務已經歸檔,不允許通過任何手段來刪除記錄,而應通過類似財務沖正操作來更正。數據遷移:如果業務系統發生數據遷移的,如遷移到二級歷史庫,不需要記錄到數據刪除監聽表(或者記錄刪除時間)。不允許遷移最近一個月內是新增或變更的數據。數據安全對于業務系統需自身加強的安全教育、對于數據鏈路的訪問用戶及密碼進行保密。建立獨立的數據庫用戶用于抽取數據,該用戶只能查看開放的數據庫表。對于數據采集用戶只提供數據庫表查詢權限,取消抽數用戶的增加、刪除、修改權限。運維管理為了規范大數據平臺數據采集流程,需要做好網絡通道、源數據庫的實時監控和定期巡檢,有問題、有變更、有檢修的,需要及時通知大數據平臺運維組;對于大數據平臺不能訪問源業務系統數據庫的,各單位積極協助查找原因、解決問題。其中對源業務系統數據庫管理要求如下:數據庫用戶的管理密碼變更:用戶密碼變更需用戶提前提前三天釘釘通知,以作好密碼修改前數據抽取相關工作,修改后馬上釘釘通知大數據平臺運維服務處。用戶失效:做好數據庫的巡檢,避免對應用戶失效。用戶訪問的數據表權限缺失:需數據源庫用戶管理好權限問題,權限如有變更,及時處理,避免對應的用戶訪問不了數據表。數據庫訪問管理:應確保數據庫的可訪問數量恰當、訪問服務正常,決策支持可新建立訪問聯接;數據庫應限制訪問ip,并且需要配合防火墻策略使用。數據模型發生變更數據模型發生變更時,需及時提前三天釘釘通知。數據源庫數據庫檢修在有對數據庫進行檢修維護時,應及時通知大數據平臺運維人員。大數據據平臺側采集規范模型設計大數據平臺對接口數據,在制定數據交換接口單元規范,以及ODS模型中必須支持每一條數據記錄的生命周期管理。數據庫對象命令需嚴格按《桂冠電力大數據平臺數據庫開發設計原則》執行。ODS模型每個接口表,文件加載統一增加三個字段:記錄時間、加載時間、記錄狀態。直抽統一增加四個字段:廠站代碼?、記錄時間、加載時間、記錄狀態(status)。DW設計鏈表統一增加三個字段:廠站代碼、生效時間、失效時間;分在線表及歷史,命名方式,在線表名+LS。數據維護根據業務系統數據調研信息,安全方案,確定ODS用戶創建、表空間大小及創建。DW明細流水表加載方式分二種方式:覆蓋追加(Merge)、直接追加(Append)。數據安全生產環境接入限制任何終端接入到大數據平臺內網均需要安裝桂冠電力指定殺毒安全防火墻軟件,確保接入的終端本身是無網絡安全缺陷的,防火墻軟件方才允許終端接入。服務器安全服務器只能桂冠電力運維管理員和運維人員進行訪問,用于服務器監控及應用部署。數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論