




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS35.240在提交反饋意見時,請將您知道的相關(guān)專利連同
L70支持性文件一并附上
團體標準
T/CESAXXXX—XXXX
信息技術(shù)人工智能面向機器學習的系統(tǒng)
框架和功能要求
Informationtechnology-Artificialintelligence-Frameworkandfunctional
requirementsofsystemformachinelearning
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
中國電子工業(yè)標準化技術(shù)協(xié)會發(fā)布
T/XXXXXXXX—XXXX
前??言
本部分按照GB/T1.1—2009給出的規(guī)則起草。
請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別這些專利的責任。
本標準由中國電子技術(shù)標準化研究院提出并歸口。
本標準起草單位:
本標準主要起草人:
III
T/XXXXXXXX—XXXX
信息技術(shù)人工智能面向機器學習的系統(tǒng)框架和功能要求
1范圍
本標準給出了面向機器學習的人工智能系統(tǒng)框架,規(guī)定了系統(tǒng)整體及各組件的功能要求。
本標準適用于各領(lǐng)域人工智能系統(tǒng)及解決方案的規(guī)劃、設(shè)計,可作為評估、選型及驗收的依據(jù)。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T5271.31-2006信息技術(shù)詞匯第31部分:人工智能機器學習
GB/T5271.34-2006信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)
3術(shù)語和定義
3.1
機器學習引擎machinelearningengine
提供機器學習開發(fā)及運行的計算組件。
3.2
算法服務(wù)algorithmservice
算法在推理部署后的運行態(tài)。
注:算法服務(wù)接受用戶的應(yīng)用請求,對輸入數(shù)據(jù)進行處理,返回處理結(jié)果。
3.3
作業(yè)job
機器學習訓練或推理任務(wù)的邏輯組合。
注:一個作業(yè)屬于且僅屬于某一個資源池,一個作業(yè)包括一個或多個任務(wù)。
3.4
任務(wù)task
被調(diào)度的訓練/推理對象。
注:任務(wù)用于完成一個相對獨立的業(yè)務(wù)功能。一個任務(wù)屬于且僅屬于一個作業(yè)。
3.5
資源池ResourcePool
1
T/XXXXXXXX—XXXX
各類資源的集合。
4縮略語
下列縮略語適用于本文件。
AI:人工智能(ArtificialIntelligence)
ASIC:專用集成電路(Application-SpecificIntegratedCircuit)
CPU:中央處理器(CentralProcessingUnit)
DAG:有向無環(huán)圖(DirectedAcyclicGraph)
FPGA:現(xiàn)場可編程邏輯門陣列(FieldProgrammableGateArray)
GPU:圖形處理器(GraphicProcessingUnit)
IDE:集成開發(fā)環(huán)境(IntegratedDevelopmentEnvironment)
NLP:自然語言處理(NaturalLanguageProcessing)
REST:表現(xiàn)層狀態(tài)轉(zhuǎn)換(RepresentationalStateTransfer)
5系統(tǒng)概述與框架
5.1概述
面向機器學習的系統(tǒng)包括機器學習、多算法管理、異構(gòu)資源調(diào)度等核心能力,提供數(shù)據(jù)預處理、特
征工程、模型開發(fā)、模型訓練、模型推理服務(wù)發(fā)布的端到端能力。
系統(tǒng)提供應(yīng)用場景所需的各類基礎(chǔ)設(shè)施,包括各種異構(gòu)計算單元(例如CPU、GPU、FPGA、ASIC等),
存儲(例如分布式云存儲),網(wǎng)絡(luò)等資源,結(jié)合實際任務(wù)進行分布式調(diào)度,提供按需分配、統(tǒng)一智能編
排、動態(tài)調(diào)度、彈性伸縮及自動管理等能力。通過統(tǒng)一管理、動態(tài)更新模型庫,提供機器學習算法的開
發(fā)、訓練、部署、運行和管理能力。各類機器學習算法通過有效組合,構(gòu)成視頻、圖像、語音、自然語
言處理等領(lǐng)域的算法服務(wù),支持各領(lǐng)域AI應(yīng)用。
面向機器學習的系統(tǒng)應(yīng)具備數(shù)據(jù)管理(數(shù)據(jù)輸入、輸出、元數(shù)據(jù)管理、數(shù)據(jù)生命周期管理等)和運
維管理等能力(多用戶管理、多租戶管理、監(jiān)控告警等),提供各組件及子模塊間的標準化接口。
5.2系統(tǒng)框架
面向機器學習的人工智能系統(tǒng)框架見圖1。
2
T/XXXXXXXX—XXXX
圖1面向機器學習的AI系統(tǒng)框架
5.2.1數(shù)據(jù)管理
數(shù)據(jù)的全生命周期管理,包含收集、預處理、分析、可視化及訪問過程。數(shù)據(jù)管理包括各類數(shù)據(jù)源
(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))的接入,中間數(shù)據(jù)的管理、最終數(shù)據(jù)的管理、元數(shù)據(jù)的管理、數(shù)
據(jù)質(zhì)量管理、數(shù)據(jù)的標注,并提供統(tǒng)一的數(shù)據(jù)管理工具等。
5.2.2異構(gòu)資源池
異構(gòu)資源池統(tǒng)籌管理機器學習所需的各類計算、存儲和網(wǎng)絡(luò)資源。計算資源可包含不同類別的計算
硬件,如CPU、GPU、FPGA、ASIC等,提供適合與應(yīng)用場景的運算資源(如高效節(jié)能的處理器)。存儲資
源包括不限于緩存、主存、輔存等各級存儲。網(wǎng)絡(luò)資源包括不限于異構(gòu)單元間、計算節(jié)點間或集群間的
互聯(lián)網(wǎng)絡(luò)。異構(gòu)資源可以不同形態(tài),如服務(wù)器、一體機、邊緣計算節(jié)點、計算集群和云基礎(chǔ)設(shè)施等方式
提供。
異構(gòu)資源池支持資源的動態(tài)調(diào)度、按需(數(shù)據(jù)規(guī)模、算法模型、實時性要求等)分配,滿足計算任
務(wù)的資源需求。資源池能夠靈活集成各類計算單元并發(fā)揮其各自特性,構(gòu)建異構(gòu)計算節(jié)點,節(jié)點內(nèi)實現(xiàn)
多粒度并行和任務(wù)調(diào)度,節(jié)點間實現(xiàn)協(xié)同調(diào)度,基于網(wǎng)絡(luò)提供系統(tǒng)擴展并優(yōu)化互聯(lián)性能,支撐部署大規(guī)
模AI計算框架和相關(guān)算法。
5.2.3分布式計算調(diào)度
分布式計算調(diào)度分為任務(wù)調(diào)度和資源調(diào)度。任務(wù)調(diào)度是根據(jù)應(yīng)用特性和運算需求將應(yīng)用負載分解成
任務(wù),并配置任務(wù)執(zhí)行的順序和優(yōu)先級。資源調(diào)度依據(jù)應(yīng)用對資源的需求,將合適的異構(gòu)資源分配給特
定任務(wù),滿足任務(wù)對運算性能和時間的要求。多任務(wù)應(yīng)共享資源以優(yōu)化資源使用率。
3
T/XXXXXXXX—XXXX
分布式計算調(diào)度是人工智能系統(tǒng)的重要能力,在對計算、存儲、網(wǎng)絡(luò)等異構(gòu)資源的統(tǒng)一納管的基礎(chǔ)
上,系統(tǒng)根據(jù)資源標簽將任務(wù)優(yōu)化調(diào)度,以容器形式支持任務(wù)的大規(guī)模部署。
5.2.4機器學習引擎
機器學習引擎基于各類機器學習算法(例如統(tǒng)計機器學習、深度學習、強化學習、遷移學習等)進
行模型訓練、優(yōu)化、推理。機器學習引擎支持開源的計算框架、算法庫,兼容開源的主流接口,可根據(jù)
商用的要求在企業(yè)版本中增強或優(yōu)化。
機器學習算法庫為算法提供安全可靠的管理功能,包括算法的注冊、存儲、下載、評價、優(yōu)化以及
用戶鑒權(quán)、多版本管理、升級維護、運行監(jiān)控等。
按算法需求,機器學習引擎提供特征數(shù)據(jù)的選擇、提取、構(gòu)建等功能。
5.2.5模型庫
模型庫提供對機器學習模型開發(fā)和存儲管理能力。
模型管理包括預置常用的AI模型,以及支持模型導入、導出、更新、發(fā)布、遷移、版本控制等功能。
模型開發(fā)通過可視化輔助開發(fā)工具、多模型融合開發(fā)、模型二次訓練等方式支持模型的開發(fā)與部署。
5.2.6算法服務(wù)
算法服務(wù)是AI應(yīng)用訪問、利用機器學習能力和資源的主要方式。為滿足應(yīng)用場景的需求,系統(tǒng)提供
各類通用算法服務(wù)(例如視頻、圖像、語音、自然語言處理等)。系統(tǒng)提供統(tǒng)一算法服務(wù)框架,進行服
務(wù)管理、服務(wù)運行狀態(tài)監(jiān)控、服務(wù)上線等,并提供一致性的服務(wù)接口,供各領(lǐng)域上層應(yīng)用調(diào)用。
5.2.7運維管理
運維管理提供系統(tǒng)所需的基本運維(例如安裝部署、擴展、監(jiān)控、告警、健康檢查、問題及故障定
位、升級和補丁、備份恢復、操作審計等)及管理功能(例如資源管理、權(quán)限管理、用戶管理、日志管
理、配置管理、安全管理等)。
5.2.8應(yīng)用層
面向機器學習的AI系統(tǒng)可為各類應(yīng)用(例如智慧交通、智能制造、智慧家庭、智慧城市、車聯(lián)網(wǎng)等)
提供支持,按應(yīng)用需求提供系統(tǒng)資源,支持企業(yè)級、商業(yè)級的AI應(yīng)用。
5.2.9接口
面向機器學習的AI系統(tǒng)在應(yīng)用層、算法服務(wù)、機器學習引擎、模型庫、分布式計算調(diào)度、異構(gòu)資源
池、數(shù)據(jù)管理、運維管理等模塊間、及模塊內(nèi)提供接口支持信息傳遞及互操作。
接口應(yīng)遵循業(yè)界常見的架構(gòu)和協(xié)議(例如REST),兼容主流開源框架的接口。
6功能要求
6.1總體要求
面向機器學習的AI系統(tǒng)應(yīng)支持各領(lǐng)域不同場景AI應(yīng)用對機器學習引擎、模型庫、數(shù)據(jù)管理、異構(gòu)資
源池、分布式計算調(diào)度、算法服務(wù)、運維管理及接口等方面的要求。
系統(tǒng)從功能設(shè)計上應(yīng)符合開放性(分層解耦、各層級可獨立演進)、高可靠和可用性(避免單點故
障、保證服務(wù)等級協(xié)議要求等)、統(tǒng)一性(統(tǒng)一的算法服務(wù)框架和接口框架)、可擴展性(從算法服務(wù)、
4
T/XXXXXXXX—XXXX
機器學習引擎、資源供給、接口等各層面支持業(yè)務(wù)的靈活部署與彈性擴展)、易管理及運維、安全等核
心要求。應(yīng)支持業(yè)界主流的AI算法、編程模型、計算框架,針對各類使用場景設(shè)計應(yīng)用層,并提供符合
用戶習慣的分析、開發(fā)和交互接口和開發(fā)文檔支持。
6.2數(shù)據(jù)管理
數(shù)據(jù)管理的要求包括:
a)應(yīng)支持各類數(shù)據(jù)源,包括結(jié)構(gòu)化數(shù)據(jù)(例如傳統(tǒng)關(guān)系型數(shù)據(jù)庫),半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)
據(jù)(例如圖片、音頻、視頻等);
b)應(yīng)支持引入和解析常見文件和數(shù)據(jù)格式(例如parquet、carbondata等);
c)應(yīng)支持對數(shù)據(jù)進行標注;
d)應(yīng)提供數(shù)據(jù)生命周期管理,可以對中間數(shù)據(jù)及產(chǎn)出數(shù)據(jù)進行增刪改查及數(shù)據(jù)檢索等操作;
e)應(yīng)提供數(shù)據(jù)訪問及權(quán)限控制;
f)應(yīng)提供數(shù)據(jù)IDE工具,支持數(shù)據(jù)可視化;
g)宜支持多種元數(shù)據(jù)管理方法(例如數(shù)據(jù)元信息生成、增刪改查、元數(shù)據(jù)分類、血緣管理等);
h)宜支持多種數(shù)據(jù)預處理手段(例如數(shù)據(jù)的聚合、過濾、排序等);
i)宜支持常見的多媒體文件格式的元數(shù)據(jù)信息獲取與管理。
6.3異構(gòu)資源池
異構(gòu)資源池的要求包括:
a)應(yīng)支持CPU加異構(gòu)計算單元的架構(gòu),通過異構(gòu)計算顯著提升計算性能;
b)應(yīng)支持異構(gòu)資源池化,對異構(gòu)資源模塊進行統(tǒng)一管理、配置、編排,提升資源利用率;
c)應(yīng)支持以容器化提供資源,利用容器技術(shù)對異構(gòu)資源提供統(tǒng)一調(diào)度和管理,支持對接主流深度
學習計算框架;
d)應(yīng)支持資源池內(nèi)CPU和異構(gòu)計算單元的不同配比;
e)應(yīng)支持中心集群與邊緣節(jié)點的統(tǒng)一管理;
f)應(yīng)支持本地與遠程計算資源的統(tǒng)一管理;
g)宜支持大規(guī)模高性能計算集群的資源管理;
h)宜支持異構(gòu)資源的高性能互聯(lián)。
6.4分布式計算調(diào)度
6.4.1任務(wù)調(diào)度
任務(wù)調(diào)度的要求包括:
a)應(yīng)支持模型訓練和推理的任務(wù)調(diào)度,支持基于主流開源框架的計算任務(wù);
b)應(yīng)支持大規(guī)模任務(wù)容器化調(diào)度,支持系統(tǒng)在物理機或虛擬機上的部署;
c)應(yīng)支持任務(wù)跨集群調(diào)度,本地任務(wù)可調(diào)度到另一個集群中計算;
d)應(yīng)支持基于任務(wù)的有向無環(huán)圖進行計算調(diào)度;
e)應(yīng)提供任務(wù)調(diào)度及資源使用的視圖;
f)宜支持定義作業(yè)的優(yōu)先級,支持定時作業(yè)、超時作業(yè)、重試作業(yè)設(shè)置。
6.4.2資源調(diào)度
資源調(diào)度的要求包括:
a)應(yīng)支持對異構(gòu)資源池統(tǒng)一調(diào)度,支持資源池的動態(tài)伸縮;
5
T/XXXXXXXX—XXXX
b)應(yīng)支持根據(jù)資源標簽調(diào)度及下發(fā)任務(wù);
c)應(yīng)支持統(tǒng)一的調(diào)度接口,調(diào)度不同類型的異構(gòu)資源;
d)應(yīng)支持多級資源池靈活調(diào)度和共享;
e)應(yīng)提供GPU池化,支持分時復用GPU資源。
6.5機器學習引擎
6.5.1訓練與推理
訓練與推理的要求包括:
a)應(yīng)支持主流開源計算框架(例如Tensorflow,Caffe,PyTorch);
b)應(yīng)支持多種類型的統(tǒng)計機器學習算法:
1)監(jiān)督學習算法(例如邏輯回歸,支持向量機,梯度提升決策樹);
2)非監(jiān)督學習算法(例如聚類算法,關(guān)聯(lián)規(guī)則學習);
c)應(yīng)支持多種類型的深度學習算法(例如卷積神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)等);
d)應(yīng)支持主流深度學習框架模型鏡像的發(fā)布管理、版本管理,以及服務(wù)實例、資源的動態(tài)伸縮調(diào)
度;
e)宜根據(jù)算法需求,支持特征的選擇、提取和構(gòu)建。
6.5.2機器學習算法庫
機器學習算法庫的要求包括:
a)應(yīng)支持算法的統(tǒng)一注冊和管理;
b)應(yīng)提供算法訓練的日志及中間結(jié)果分析功能;
c)應(yīng)提供多種形式的建模方式(例如拖拽式DAG圖、Notebook等);
d)應(yīng)為集成提供標準接口(例如REST);
e)宜支持算法的分布式訓練,提供高性能運算能力;
f)宜支持算法優(yōu)化;
g)宜支持算法參數(shù)調(diào)節(jié)功能,提供推薦參數(shù)幫助用戶進行調(diào)參。
6.6模型庫
模型庫提供適用于應(yīng)用場景的模型功能,包括:
a)應(yīng)具備模型的導入導出、更新、版本管理、權(quán)限控制等基礎(chǔ)功能;
b)應(yīng)預置常用AI模型,集成典型機器學習模型,支持模型的二次訓練,提升模型在應(yīng)用場景下
的效果;
c)工作流應(yīng)支持多模型的融合開發(fā);
d)應(yīng)提供可視化開發(fā)和管理界面;
e)應(yīng)基于多租戶的權(quán)限控制,實現(xiàn)模型的安全管控;
f)應(yīng)提供模型封裝和發(fā)布的能力,通過統(tǒng)一的接口提供模型服務(wù)的調(diào)用。
6.7算法服務(wù)
算法服務(wù)的要求包括:
a)應(yīng)提供一種或多種算法服務(wù)(例如圖像、視頻、語音、自然語言處理等);
b)應(yīng)支持在不影響現(xiàn)有算法服務(wù)能力的前提下,部署新的算法服務(wù);
c)應(yīng)支持算法服務(wù)的增刪啟停、服務(wù)版本管理、服務(wù)歷史記錄、服務(wù)當前狀態(tài)的查詢等;
6
T/XXXXXXXX—XXXX
d)應(yīng)支持一種或多種離線服務(wù)(例如模型自學習服務(wù)、批量推理服務(wù)等);
e)應(yīng)支持一種或多種在線實時服務(wù)(例如實時推理服務(wù)等);
f)應(yīng)支持多用戶同時使用算法服務(wù);
g)應(yīng)支持配置用戶權(quán)限,控制用戶所能調(diào)用的算法服務(wù);
h)應(yīng)支持同一算法服務(wù)的多實例部署;
i)應(yīng)支持不同算法服務(wù)并發(fā)調(diào)用,各服務(wù)獨立運行;
j)應(yīng)支持在多用戶、高并發(fā)情況下的流量負載均衡,保證服務(wù)穩(wěn)定運行;
k)應(yīng)提供通用簡便的服務(wù)上線流程,提供統(tǒng)一服務(wù)框架;
l)應(yīng)提供統(tǒng)一、易用的算法服務(wù)接口框架。
6.8運維管理
運維管理的要求包括:
a)應(yīng)提供多用戶管理,支持多用戶的權(quán)限管理(例如增刪改查),及支持常用的認證系統(tǒng);
b)應(yīng)提供多租戶管理,支持租戶間的應(yīng)用隔離、數(shù)據(jù)隔離、資源隔離、運行隔離;
c)應(yīng)提供安裝與升級能力,支持分發(fā)安裝包、數(shù)據(jù)或模型參數(shù)文件,進行安裝、升級、擴展和回
滾;
d)應(yīng)提供備份與恢復能力,支持安裝包、數(shù)據(jù)或模型參數(shù)文件的備份,以供故障后的系統(tǒng)恢復;
e)應(yīng)提供運行環(huán)境的監(jiān)控能力,包括底層資源的統(tǒng)一監(jiān)控(例如CPU利用率、系統(tǒng)負載等);
f)應(yīng)提供日志管理,可以根據(jù)日志進行故障定位及排查;
g)應(yīng)提供針對監(jiān)控指標及日志的告警能力;
h)宜提供主要監(jiān)控指標的可視化展示功能。
_________________________________
7
T/XXXXXXXX—XXXX
中國電子工業(yè)標準化技術(shù)協(xié)會(CESA)是全國電子信息產(chǎn)業(yè)標準化組織和標準化工作者自愿組成的
社會團體。廣泛聯(lián)系全國電子信息產(chǎn)業(yè)標準化機構(gòu)和標準化工作者,協(xié)助政府部門搞好電子信息產(chǎn)業(yè)標
準化工作,開拓信息技術(shù)領(lǐng)域的標準化工作是中國電子工業(yè)標準化技術(shù)協(xié)會的主要工作內(nèi)容之一。中國
境內(nèi)從事科研開發(fā)、制造、營銷和服務(wù)的企事業(yè)單位、高等院校、社會組織和個人均可隨時向中國電子
工業(yè)標準化技術(shù)協(xié)會團體標準工作部提出團體標準項目建議。
中國電子工業(yè)標準化技術(shù)協(xié)會標準按照《電子工業(yè)標準化技術(shù)協(xié)會協(xié)會團體標準管理辦法》進行制
定和管理。
在本標準實施過程中,如發(fā)現(xiàn)需要修改或補充之處,請將意見和有關(guān)資料寄至中國電子工業(yè)標準化
技術(shù)協(xié)會,以便修訂時參考。
本標準版權(quán)歸中國電子工業(yè)標準化技術(shù)協(xié)會所有。
中國電子工業(yè)標準化技術(shù)協(xié)會地址:北京市海淀區(qū)萬壽路27號
電話子郵箱:standards@
網(wǎng)址:
8
T/XXXXXXXX—XXXX
目??次
前??言.............................................................................................................................................................III
1范圍...................................................................................................................................................................1
2規(guī)范性引用文件...............................................................................................................................................1
3術(shù)語和定義.......................................................................................................................................................1
4縮略語...............................................................................................................................................................2
5系統(tǒng)概述與框架...............................................................................................................................................2
5.1概述...........................................................................................................................................................2
5.2系統(tǒng)框架...................................................................................................................................................2
6功能要求...........................................................................................................................................................4
6.1總體要求...................................................................................................................................................4
6.2數(shù)據(jù)管理...................................................................................................................................................5
6.3異構(gòu)資源池...............................................................................................................................................5
6.4分布式計算調(diào)度.......................................................................................................................................5
6.5機器學習引擎...........................................................................................................................................6
6.6模型庫.......................................................................................................................................................6
6.7算法服務(wù)...................................................................................................................................................6
6.8運維管理...................................................................................................................................................7
II
T/XXXXXXXX—XXXX
信息技術(shù)人工智能面向機器學習的系統(tǒng)框架和功能要求
1范圍
本標準給出了面向機器學習的人工智能系統(tǒng)框架,規(guī)定了系統(tǒng)整體及各組件的功能要求。
本標準適用于各領(lǐng)域人工智能系統(tǒng)及解決方案的規(guī)劃、設(shè)計,可作為評估、選型及驗收的依據(jù)。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T5271.31-2006信息技術(shù)詞匯第31部分:人工智能機器學習
GB/T5271.34-2006信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)
3術(shù)語和定義
3.1
機器學習引擎machinelearningengine
提供機器學習開發(fā)及運行的計算組件。
3.2
算法服務(wù)algorithmservice
算法在推理部署后的運行態(tài)。
注:算法服務(wù)接受用戶的應(yīng)用請求,對輸入數(shù)據(jù)進行處理,返回處理結(jié)果。
3.3
作業(yè)job
機器學習訓練或推理任務(wù)的邏輯組合。
注:一個作業(yè)屬于且僅屬于某一個資源池,一個作業(yè)包括一個或多個任務(wù)。
3.4
任務(wù)task
被調(diào)度的訓練/推理對象。
注:任務(wù)用于完成一個相對獨立的業(yè)務(wù)功能。一個任務(wù)屬于且僅屬于一個作業(yè)。
3.5
資源池ResourcePool
1
T/XXXXXXXX—XXXX
各類資源的集合。
4縮略語
下列縮略語適用于本文件。
AI:人工智能(ArtificialIntelligence)
ASIC:專用集成電路(Application-SpecificIntegratedCircuit)
CPU:中央處理器(CentralProcessingUnit)
DAG:有向無環(huán)圖(DirectedAcyclicGraph)
FPGA:現(xiàn)場可編程邏輯門陣列(FieldProgrammableGateArray)
GPU:圖形處理器(GraphicProcessingUnit)
IDE:集成開發(fā)環(huán)境(IntegratedDevelopmentEnvironment)
NLP:自然語言處理(NaturalLanguageProcessing)
REST:表現(xiàn)層狀態(tài)轉(zhuǎn)換(RepresentationalStateTransfer)
5系統(tǒng)概述與框架
5.1概述
面向機器學習的系統(tǒng)包括機器學習、多算法管理、異構(gòu)資源調(diào)度等核心能力,提供數(shù)據(jù)預處理、特
征工程、模型開發(fā)、模型訓練、模型推理服務(wù)發(fā)布的端到端能力。
系統(tǒng)提供應(yīng)用場景所需的各類基礎(chǔ)設(shè)施,包括各種異構(gòu)計算單元(例如CPU、GPU、FPGA、ASIC等),
存儲(例如分布式云存儲),網(wǎng)絡(luò)等資源,結(jié)合實際任務(wù)進行分布式調(diào)度,提供按需分配、統(tǒng)一智能編
排、動態(tài)調(diào)度、彈性伸縮及自動管理等能力。通過統(tǒng)一管理、動態(tài)更新模型庫,提供機器學習算法的開
發(fā)、訓練、部署、運行和管理能力。各類機器學習算法通過有效組合,構(gòu)成視頻、圖像、語音、自然語
言處理等領(lǐng)域的算法服務(wù),支持各領(lǐng)域AI應(yīng)用。
面向機器學習的系統(tǒng)應(yīng)具備數(shù)據(jù)管理(數(shù)據(jù)輸入、輸出、元數(shù)據(jù)管理、數(shù)據(jù)生命周期管理等)和運
維管理等能力(多用戶管理、多租戶管理、監(jiān)控告警等),提供各組件及子模塊間的標準化接口。
5.2系統(tǒng)框架
面向機器學習的人工智能系統(tǒng)框架見圖1。
2
T/XXXXXXXX—XXXX
圖1面向機器學習的AI系統(tǒng)框架
5.2.1數(shù)據(jù)管理
數(shù)據(jù)的全生命周期管理,包含收集、預處理、分析、可視化及訪問過程。數(shù)據(jù)管理包括各類數(shù)據(jù)源
(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))的接入,中間數(shù)據(jù)的管理、最終數(shù)據(jù)的管理、元數(shù)據(jù)的管理、數(shù)
據(jù)質(zhì)量管理、數(shù)據(jù)的標注,并提供統(tǒng)一的數(shù)據(jù)管理工具等。
5.2.2異構(gòu)資源池
異構(gòu)資源池統(tǒng)籌管理機器學習所需的各類計算、存儲和網(wǎng)絡(luò)資源。計算資源可包含不同類別的計算
硬件,如CPU、GPU、FPGA、ASIC等,提供適合與應(yīng)用場景的運算資源(如高效節(jié)能的處理器)。存儲資
源包括不限于緩存、主存、輔存等各級存儲。網(wǎng)絡(luò)資源包括不限于異構(gòu)單元間、計算節(jié)點間或集群間的
互聯(lián)網(wǎng)絡(luò)。異構(gòu)資源可以不同形態(tài),如服務(wù)器、一體機、邊緣計算節(jié)點、計算集群和云基礎(chǔ)設(shè)施等方式
提供。
異構(gòu)資源池支持資源的動態(tài)調(diào)度、按需(數(shù)據(jù)規(guī)模、算法模型、實時性要求等)分配,滿足計算任
務(wù)的資源需求。資源池能夠靈活集成各類計算單元并發(fā)揮其各自特性,構(gòu)建異構(gòu)計算節(jié)點,節(jié)點內(nèi)實現(xiàn)
多粒度并行和任務(wù)調(diào)度,節(jié)點間實現(xiàn)協(xié)同調(diào)度,基于網(wǎng)絡(luò)提供系統(tǒng)擴展并優(yōu)化互聯(lián)性能,支撐部署大規(guī)
模AI計算框架和相關(guān)算法。
5.2.3分布式計算調(diào)度
分布式計算調(diào)度分為任務(wù)調(diào)度和資源調(diào)度。任務(wù)調(diào)度是根據(jù)應(yīng)用特性和運算需求將應(yīng)用負載分解成
任務(wù),并配置任務(wù)執(zhí)行的順序和優(yōu)先級。資源調(diào)度依據(jù)應(yīng)用對資源的需求,將合適的異構(gòu)資源分配給特
定任務(wù),滿足任務(wù)對運算性能和時間的要求。多任務(wù)應(yīng)共享資源以優(yōu)化資源使用率。
3
T/XXXXXXXX—XXXX
分布式計算調(diào)度是人工智能系統(tǒng)的重要能力,在對計算、存儲、網(wǎng)絡(luò)等異構(gòu)資源的統(tǒng)一納管的基礎(chǔ)
上,系統(tǒng)根據(jù)資源標簽將任務(wù)優(yōu)化調(diào)度,以容器形式支持任務(wù)的大規(guī)模部署。
5.2.4機器學習引擎
機器學習引擎基于各類機器學習算法(例如統(tǒng)計機器學習、深度學習、強化學習、遷移學習等)進
行模型訓練、優(yōu)化、推理。機器學習引擎支持開源的計算框架、算法庫,兼容開源的主流接口,可根據(jù)
商用的要求在企業(yè)版本中增強或優(yōu)化。
機器學習算法庫為算法提供安全可靠的管理功能,包括算法的注冊、存儲、下載、評價、優(yōu)化以及
用戶鑒權(quán)、多版本管理、升級維護、運行監(jiān)控等。
按算法需求,機器學習引擎提供特征數(shù)據(jù)的選擇、提取、構(gòu)建等功能。
5.2.5模型庫
模型庫提供對機器學習模型開發(fā)和存儲管理能力。
模型管理包括預置常用的AI模型,以及支持模型導入、導出、更新、發(fā)布、遷移、版本控制等功能。
模型開發(fā)通過可視化輔助開發(fā)工具、多模型融合開發(fā)、模型二次訓練等方式支持模型的開發(fā)與部署。
5.2.6算法服務(wù)
算法服務(wù)是AI應(yīng)用訪問、利用機器學習能力和資源的主要方式。為滿足應(yīng)用場景的需求,系統(tǒng)提供
各類通用算法服務(wù)(例如視頻、圖像、語音、自然語言處理等)。系統(tǒng)提供統(tǒng)一算法服務(wù)框架,進行服
務(wù)管理、服務(wù)運行狀態(tài)監(jiān)控、服務(wù)上線等,并提供一致性的服務(wù)接口,供各領(lǐng)域上層應(yīng)用調(diào)用。
5.2.7運維管理
運維管理提供系統(tǒng)所需的基本運維(例如安裝部署、擴展、監(jiān)控、告警、健康檢查、問題及故障定
位、升級和補丁、備份恢復、操作審計等)及管理功能(例如資源管理、權(quán)限管理、用戶管理、日志管
理、配置管理、安全管理等)。
5.2.8應(yīng)用層
面向機器學習的AI系統(tǒng)可為各類應(yīng)用(例如智慧交通、智能制造、智慧家
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《汽車行業(yè)概述》課件
- 汽車促銷活動方案(9篇)2
- 婚禮上發(fā)言稿(19篇)
- 2025-2026年衛(wèi)生的技術(shù)創(chuàng)新與市場需求
- 2025-2026年房地產(chǎn)中介服務(wù)的綠色轉(zhuǎn)型策略
- 《中石油加油站媒體》課件
- 幼兒園園本研修個人心得體會(10篇)
- 新大三自我鑒定范文(16篇)
- 2025年鶴崗下載貨運從業(yè)資格證模擬考試
- 2025年甘肅道路運輸從業(yè)資格證考哪些項目
- 二子女無財產(chǎn)無債務(wù)離婚協(xié)議書
- 裝配作業(yè)指導書
- 換填承載力計算(自動版)
- 公司董事會會議臺賬
- 2021-2022學年福建省廈門市第一中學高二下學期期中生物試題(原卷版)
- 煤礦安管人員七新題庫及答案
- (完整word版)中小學教育質(zhì)量綜合評價指標框架(試行)
- HIV-1病毒載量測定及質(zhì)量保證指南
- 電路原理圖設(shè)計評審檢查要素表
- 最新公司客戶訂單流程管理制度
- 工控機測試標準
評論
0/150
提交評論