《電力人工智能樣本存儲技術要求》征求意見稿_第1頁
《電力人工智能樣本存儲技術要求》征求意見稿_第2頁
《電力人工智能樣本存儲技術要求》征求意見稿_第3頁
《電力人工智能樣本存儲技術要求》征求意見稿_第4頁
《電力人工智能樣本存儲技術要求》征求意見稿_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

T/CESXXX—XXXX

電力人工智能樣本存儲技術要求

1范圍

本文件規(guī)定了電力行業(yè)人工智能樣本包含圖像、文本、音頻電力樣本處理技術中樣本存儲技術總

體架構、基本要求和各項技術指標。

本文件適用于電力行業(yè)人工智能平臺樣本存儲的建設、管理和使用。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T41867-2022信息技術人工智能術語

GB/T25000.51-2017軟件工程軟件產品質量要求和評價體系(SQuaRE)質量測量框架

Q/GDW12118—2021人工智能平臺架構及技術要求

T/CES129-2022電力人工智能平臺樣本規(guī)范

3術語和定義

下列術語和定義適用于本文件。

3.1

樣本存儲系統(tǒng)Samplestoragesystem

指實現樣本存儲技術的軟硬件系統(tǒng),包括樣本數據庫、樣本文件系統(tǒng)、樣本元數據管理系統(tǒng)等。

3.2

樣本存儲效率Samplestorageefficiency

指樣本存儲系統(tǒng)在存儲和訪問樣本數據時所消耗的時間、空間和資源的指標。

3.3

樣本數據Sampledata

其具備的特征能夠反映總體數據情況的一部分個體數據

3.4

文件格式fileformat

存儲介質對存儲信息制定的編碼方式,用于識別內部儲存的資料。

4符號、代號和縮略語

下列符號、代號和縮略語適用于本文件。

4.1符號

4.2代號

4.3縮略語

JPEG:聯合圖像專家組(JointPhotographicExpertsGroup)

PNG:便攜式網絡圖型(PortableNetworkGraphics)

5電力人工智能樣本存儲總體架構

3

T/CESXXX—XXXX

電力人工智能樣本存儲技術總體架構包括:

a)樣本數據,指用于電力人工智能訓練和應用的原始數據,包括結構化數據和非結構化數據。非結

構化數據可以分為文本類、音頻類和圖像類三種類型,每種類型都有自己的格式和規(guī)范。樣本數據需要

被存儲在一個高性能、高可靠、高可用的樣本文件系統(tǒng)中,以便于快速地讀取和處理。

b)樣本元數據,指對樣本數據的描述性信息,包括但不限于編號、類型、來源、標簽、質量、時

間、位置等內容。每個樣本數據都應該有一個唯一的編號,用于標識和關聯。樣本元數據需要被存儲在

一個高效、安全、靈活的樣本數據庫中,以便于進行增刪改查等操作。

c)樣本元數據管理系統(tǒng),指用于實現樣本數據庫和樣本文件系統(tǒng)之間的關聯和協同的系統(tǒng),主要有

三個功能:通過樣本編號建立一一對應的關系,通過樣本元數據進行檢索和定位,通過樣本元數據進行

同步和更新。這個系統(tǒng)需要保證數據的一致性、完整性和可用性。

圖1電力人工智能樣本存儲技術總體架構圖

6樣本存儲技術基本要求

6.1樣本數據格式

樣本數據應采用統(tǒng)一的文件格式進行存儲,以便于后續(xù)的處理和分析。原則上同批次樣本文件

中,單個文件最大不得超過該批次樣本文件平均大小的200%,最小不得小于平均大小的50%。各類

型樣本數據具體格式如下:

a)文本類樣本數據應采用TXT、JSON、XML、CSV等常見的文本文件格式進行存儲,每個文件應包

含一段或多段文本。

b)音頻類樣本數據應采用WAV、MP3、WMA、WAV、APE、FLAC、OGG、AAC等常見的音頻文件格式進

行存儲,每個文件應包含一段或多段音頻。

c)圖像類樣本數據應采用JPEG、PNG、BMP、SVG、WEBP、EPS等常見的圖像文件格式進行存儲,

每個文件應包含一個圖像。

d)視頻類樣本數據應采用MP4、M4V、WEBM、MOV、AVI、DIV等常見的視頻文件格式進行存儲,每

個文件應包含一段視頻。

6.2樣本元數據

樣本元數據是對樣本數據的描述性信息,包括但不限于以下內容:

a)樣本編號:唯一標識每個樣本數據的編碼。

b)樣本類型:表示樣本數據屬于圖像、音頻或文本類。

c)樣本來源:表示樣本數據的獲取方式和來源渠道。

4

T/CESXXX—XXXX

d)樣本標簽:表示樣本數據所屬的類別或屬性。

e)樣本質量:表示樣本數據的清晰度、完整度、有效性等質量屬性。

f)樣本時間:表示樣本數據的采集或生成時間。

g)樣本位置:表示樣本數據與電力系統(tǒng)中的設備或場景的關聯位置。

h)其他信息:根據不同的應用場景,可以增加其他與樣本數據相關的信息。

6.3樣本數據庫

樣本數據庫是用于存儲和管理樣本元數據的數據庫系統(tǒng),應具備以下功能:

a)支持對樣本元數據進行增、刪、改、查等基本操作。

b)支持對樣本元數據進行分類、分組、排序、篩選等高級操作。

c)支持對樣本元數據進行備份、恢復、遷移等維護操作。

d)支持對樣本元數據進行安全、權限、審計等管理操作。

6.4樣本文件系統(tǒng)

樣本文件系統(tǒng)是用于存儲和管理樣本數據的文件系統(tǒng),應具備以下功能:

a)支持對樣本數據進行存儲、讀取、刪除等基本操作。

b)支持對樣本數據進行壓縮、加密、解密等高級操作。

c)支持對樣本數據進行備份、恢復、遷移等維護操作。

d)支持對樣本數據進行安全、權限、審計等管理操作。

e)支持對樣本數據進行格式轉換操作。

6.5樣本元數據管理系統(tǒng)

樣本元數據管理系統(tǒng)是用于實現樣本數據庫和樣本文件系統(tǒng)之間的關聯和協同的系統(tǒng),應具備以

下功能:

a)支持通過樣本編號在樣本數據庫和樣本文件系統(tǒng)之間建立一一對應的關系。

b)支持通過樣本元數據在樣本數據庫和樣本文件系統(tǒng)之間進行檢索和定位。

c)支持通過樣本元數據在樣本數據庫和樣本文件系統(tǒng)之間進行同步和更新。

7樣本存儲技術技術指標

7.1樣本存儲容量

指樣本存儲系統(tǒng)能夠存儲的最大樣本數據量,單位為GB或TB;原則上應大于現有樣本量,同時

為滿足后續(xù)使用,應按實際情況預備適宜富余量。

7.2樣本存儲速度

指樣本存儲系統(tǒng)在存儲或讀取樣本數據時的平均速度,單位為MB/s或GB/s;原則上平均讀寫速

度下限為100MB/s,不設上限。

7.3樣本存儲可靠性

指樣本存儲系統(tǒng)在正常運行條件下,能夠保證樣本數據不丟失、不損壞、不篡改的概率,單位

為%;原則上應為100%。

7.4樣本存儲可用性

指樣本存儲系統(tǒng)在正常運行條件下,能夠正常響應用戶請求的概率,單位為%;原則上應大于

80%,盡可能達到100%。

7.5樣本存儲安全性

指樣本存儲系統(tǒng)在正常運行條件下,能夠保證樣本數據不被非法獲取和篡改的概率,單位為%;

原則上應為100%。

7.6樣本存儲時效性

5

T/CESXXX—XXXX

對于部分存在時效性限制的樣本,應依據實際場景和使用要求制定合適的時效限制,在選取樣本

時應選取在規(guī)定可用時效限制內的樣本,從而保證所選取的樣本的時效性以及實際訓練任務的順利推

進。

6

T/CESXXX—XXXX

參考文獻

[1]GB/T41867-2022信息技術人工智能術語

[2]GB/T25000.51-2017軟件工程軟件產品質量要求和評價體系(SQuaRE)質量測量框架

[3]Q/GDW12118—2021人工智能平臺架構及技術要求

[4]T/CES129-2022電力人工智能平臺樣本規(guī)范

________________________

7

ICS國際標準分類號

CCS中國標準文獻分類號

團體標準

T/CESXXX-XXXX

電力人工智能樣本存儲技術要求

Technicalrequirementsforsamplestorageofpowerartificialintelligence

(征求意見稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電工技術學會發(fā)布

T/CESXXX—XXXX

電力人工智能樣本存儲技術要求

1范圍

本文件規(guī)定了電力行業(yè)人工智能樣本包含圖像、文本、音頻電力樣本處理技術中樣本存儲技術總

體架構、基本要求和各項技術指標。

本文件適用于電力行業(yè)人工智能平臺樣本存儲的建設、管理和使用。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T41867-2022信息技術人工智能術語

GB/T25000.51-2017軟件工程軟件產品質量要求和評價體系(SQuaRE)質量測量框架

Q/GDW12118—2021人工智能平臺架構及技術要求

T/CES129-2022電力人工智能平臺樣本規(guī)范

3術語和定義

下列術語和定義適用于本文件。

3.1

樣本存儲系統(tǒng)Samplestoragesystem

指實現樣本存儲技術的軟硬件系統(tǒng),包括樣本數據庫、樣本文件系統(tǒng)、樣本元數據管理系統(tǒng)等。

3.2

樣本存儲效率Samplestorageefficiency

指樣本存儲系統(tǒng)在存儲和訪問樣本數據時所消耗的時間、空間和資源的指標。

3.3

樣本數據Sampledata

其具備的特征能夠反映總體數據情況的一部分個體數據

3.4

文件格式fileformat

存儲介質對存儲信息制定的編碼方式,用于識別內部儲存的資料。

4符號、代號和縮略語

下列符號、代號和縮略語適用于本文件。

4.1符號

4.2代號

4.3縮略語

JPEG:聯合圖像專家組(JointPhotographicExpertsGroup)

PNG:便攜式網絡圖型(PortableNetworkGraphics)

5電力人工智能樣本存儲總體架構

3

T/CESXXX—XXXX

電力人工智能樣本存儲技術總體架構包括:

a)樣本數據,指用于電力人工智能訓練和應用的原始數據,包括結構化數據和非結構化數據。非結

構化數據可以分為文本類、音頻類和圖像類三種類型,每種類型都有自己的格式和規(guī)范。樣本數據需要

被存儲在一個高性能、高可靠、高可用的樣本文件系統(tǒng)中,以便于快速地讀取和處理。

b)樣本元數據,指對樣本數據的描述性信息,包括但不限于編號、類型、來源、標簽、質量、時

間、位置等內容。每個樣本數據都應該有一個唯一的編號,用于標識和關聯。樣本元數據需要被存儲在

一個高效、安全、靈活的樣本數據庫中,以便于進行增刪改查等操作。

c)樣本元數據管理系統(tǒng),指用于實現樣本數據庫和樣本文件系統(tǒng)之間的關聯和協同的系統(tǒng),主要有

三個功能:通過樣本編號建立一一對應的關系,通過樣本元數據進行檢索和定位,通過樣本元數據進行

同步和更新。這個系統(tǒng)需要保證數據的一致性、完整性和可用性。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論