T-CESA 1228.2-2022 人工智能計算設備調度與協同 第2部分:分布式計算技術要求_第1頁
T-CESA 1228.2-2022 人工智能計算設備調度與協同 第2部分:分布式計算技術要求_第2頁
T-CESA 1228.2-2022 人工智能計算設備調度與協同 第2部分:分布式計算技術要求_第3頁
T-CESA 1228.2-2022 人工智能計算設備調度與協同 第2部分:分布式計算技術要求_第4頁
T-CESA 1228.2-2022 人工智能計算設備調度與協同 第2部分:分布式計算技術要求_第5頁
已閱讀5頁,還剩31頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

CCSL70準Artificialintelligence—Computationschedulingandcooperation—Part2:Distributedcomputingtechnicalrequire中國電子工業標準化技術協會發布IT/CESA1228.2-2022版權保護文件版權所有歸屬于該標準的發布機構,除非有其他規定,否則未經許可,此發行物及其章節不得以其他形式或任何手段進行復制、再版或使用,包括電子版,影印件,或發布在互聯網及內部網絡等。使用許可可于發布機構獲取。T/CESA1228.2-2022前言 2規范性引用文件 3術語和定義 4縮略語 5概述 6計算設備技術要求 6.1云側設備 6.2邊緣設備 6.3終端設備 7分布式協同管理技術要求 7.1通用技術要求 7.2關鍵組件技術要求 7.3云云協同 7.4云邊端協同 7.5多端協同 參考文獻 T/CESA1228.2-2022本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起本文件是T/CESA1228—2022《人工智能計算設備調度與協同》的第2部分。T/CESA1228—2022已經發布了以下部分:——第1部分:虛擬化與調度系統技術規范;——第2部分:分布式計算技術要求。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任。本文件由中國電子技術標準化研究院提出。本文件由中國電子技術標準化研究院、中國電子工業標準化技術協會歸口。本文件起草單位:中國電子技術標準化研究院、華為技術有限公司、上海依圖網絡科技有限公司、上海天數智芯半導體有限公司、北京航空航天大學、中國醫學科學院生物醫學工程研究所、上海商湯阡誓科技有限公司、達闥機器人股份有限公司、昆侖芯(北京)科技有限公司、深圳市矽赫科技有限公司、深圳云天勵飛技術股份有限公司、上海燧原科技有限公司、南通大學、上海計算機軟件技術開發中心。本文件主要起草人:董建、鮑薇、舒馳、趙春昊、徐洋、李小娟、馬騁昊、余雪松、欒鐘治、曹曉琦、許源、蒲江波、吳庚、張站朝、李艷華、洪寶璇、程冰、張明潔、曹志超、陳敏剛。T/CESA1228.2-2022引言本文件是T/CESA1228—2022《人工智能計算設備調度與協同》的第2部分。T/CESA1228—2022已經發布了以下部分:——第1部分:虛擬化與調度系統技術規范。目的在于確立人工智能計算設備虛擬化與調度系統的架構,規定技術要求,描述了對應的測試方法。——第2部分:分布式計算技術要求。目的在于確立人工智能計算設備分布式計算的參考架構,規定軟硬件系統的功能和性能技術要求。1T/CESA1228.2-2022人工智能計算設備調度與協同第2部分:分布式計算技術要求本文件確立了人工智能計算設備分布式計算的參考架構,規定了軟硬件系統的功能和性能技術要本文件適用于用于分布式人工智能計算系統的設計、開發和測試。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。T/CESA1228.1―2022人工智能計算設備調度與協同第1部分:虛擬化與調度系統技術規范3術語和定義下列術語和定義適用于本文件。3.1分布式機器學習distributedmachinelearning一種機器學習的方法或過程,利用互聯網絡作為首選通信載體,在不同子系統上完成同一個機器學習任務。[來源:ISO/IEC2382-2015,2178059,有修改]3.2聯邦機器學習federatedmachinelearning一種機器學習方法或過程,能讓多個參加者協作構建及使用機器學習模型而不暴露參加者所擁有的原始數據或私有數據。[來源:IEEE3652.1,3.1]3.3增量學習incrementallearning一種分為多個階段的自適應學習方法,其中在前驅階段學得的知識被轉化為適當形式,以便為后繼階段的新知識提供基礎。[來源:ISO/IEC2382-2015,2123002,有修改]3.42T/CESA1228.2-2022邊緣計算edgecomputing一種分布式計算方法或過程,其中處理及存儲過程發生在分布式系統的邊緣。[來源:ISO/IECTR23188-2020,3.1.3]3.5集合通信collectivecommunication一種通信模式,其所傳遞數據在一組處理器單元(稱為節點)上處理。3.6分布式訓練distributedtraining一種人工智能學習過程,其訓練任務的部分或者全部分配在多個計算節點完成。3.7分布式推理distributedinference一種人工智能推理過程,其中全部或者部分推理任務分配在多個計算節點完成。4縮略語下列縮略語適用于本文件。AI人工智能(ArtificialIntelligence)CPU中央處理單元(CentralProcessingUnit)FPGA現場可編程邏輯門陣列(FieldProgrammableGateArray)GPU圖形處理單元(GraphicsProcessingUnit)NPU神經網絡處理單元(Neural―networkProcessingUnit)PCIE外設組件互連(PeripheralComponentInterconnectExpress)RDMA遠程直接內存訪問(RemoteDirectMemoryAccess)5概述基于AI計算設備構建的分布式AI任務的運行環境,包含云側、邊側和終端側。環境集成通信、控制、設備接入、管理控制等多種功能,基于虛擬化技術手段,提供資源池化和分配調度能力,降低分布式應用的作業延時,提升作業吞吐率。系統實現提出的主要功能見圖1,包含:分布式訓練,云側設備承擔云、邊緣和端側模型的訓練,并在部署或運行時分發到對應位置;在云側、邊緣、終端側設備上部署模型,并執行推理任務;使能聯邦學習、增量學習等方法。3T/CESA1228.2-2022圖1云邊端分布式AI任務生命周期6計算設備技術要求6.1云側設備6.1.1概述云側AI計算設備及其使用,符合以下要求:a)支持以下應用類型:1)云側訓練;2)在云側部署和運行AI推理任務,在推理過程中應用計算資源彈性伸縮策略;3)增量訓練;4)聯邦學習;b)遵循以下使用原則:1)訓練過程與數據源分離;2)監控AI任務全生命周期過程;3)多租戶共享計算、存儲資源;4)數據集中處理和分析;5)使用虛擬化技術管理計算資源。6.1.2技術要求云側AI計算設備,符合以下要求:a)應具備用于AI計算的加速處理器(如CPU、GPU、NPU、FPGA等);b)應支持模型訓練所需的軟件和模式,包含:1)機器學習框架(如MindSpore、TensorFlow、PyTorch);2)云側分布式集群訓練;4T/CESA1228.2-20223)模型可視化,包含訓練過程,數據處理過程等;c)應提供與邊緣設備、終端設備兼容的互操作協議及接口;d)應支持訓練或推理任務鏡像管理;e)宜實施針對異構AI加速處理器的虛擬化,形成資源池統一調度AI計算。6.2邊緣設備6.2.1概述邊緣側AI計算設備參與協同計算,遵循以下使用原則:a)與數據源頭保持系統要求的耦合度;b)考慮將小規模的計算與服務部署在邊緣側或終端側;c)考慮存儲、傳輸、計算和安全任務;d)在本地執行數據處理,避免數據網絡傳輸中的風險;e)考慮業務場景要求的實時性。6.2.2技術要求邊緣側AI計算設備,符合以下要求:a)AI邊緣計算設備包含但不限于AI服務器、AI加速卡、AI加速模組;b)應提供與終端設備、云側設備的協同接口;c)應支持至少1中機器學習框架(如TensorFlow、PyTorch、MindSpore等);d)應支持視頻分析、文字識別、圖像識別、聲音處理等應用;e)應具備數據隔離措施,在受攻擊時,只影響本地設備,而非其他參與協同的設備;f)宜支持流數據的實時處理;g)宜能在邊緣存儲實時信息;h)宜能監控邊緣節點的運行狀態;i)宜支持推理任務或訓練任務。6.3終端設備6.3.1概述終端側AI設備參與協同計算,在數據流轉邏輯方面,一般部署在隨數據發生(如數據源)的位置附近。6.3.2技術要求終端側AI計算設備,符合以下要求:a)應支持基于輕量化機器學習框架的運行(訓練或推理);b)應支持脫離機器學習框架的模型下沉,在設備上直接運行;c)應支持分布式訓練,包含:1)能與其他終端設備、云側設備、邊緣設備協同,完成訓練;2)兼容分布式訓練框架,包含但不限于TensorFlow、PyTorch、MindSpore等;3)支持差分隱私機制;d)宜支持基于全量框架的深度學習推理;e)宜支持數據預處理(如圖像縮放、圖像填充、圖像旋轉、聲音去噪等);5T/CESA1228.2-2022f)宜使用終端設備電池電量等指標衡量、檢測能耗水平;g)宜支持與邊緣設備或云側設備的交互,完成推理;h)宜支持多端協同,包含但不限于:1)管理多個終端設備;2)多個終端設備之間的數據協同與共享;3)多個終端設備之間計算任務的調度與分發。7分布式協同管理技術要求7.1通用技術要求分布式協同管理架構見圖2,符合以下要求:圖圖2分布式管理架構圖a)應能管理機器學習算法的運行環境配置,包括支持云側設備、邊緣設備和終端設備;b)應支持以下類型的應用在a)包含的計算設備上的運行:1)云端模型裁剪、壓縮和優化;2)聯邦學習;3)協同推理;4)基于云側或邊緣側集群的分布式訓練;5)邊―云協同的增量訓練;c)應支持以下支撐組件:1)機器學習框架;2)深度學習模型編譯器;3)集合通信庫;4)虛擬化與調度組件;5)云側、邊緣側支持容器化微服務架構;d)分布式計算框架,應符合以下要求:1)具備一致性,在多個計算設備共同訓練一個模型時,不同計算設備上模型參數、計算過程應保持一致;2)具備容錯性,對分布式協同訓練的集群,在訓練過程中有節點或網絡連接出現故障(如節點、交換或路由設備不工作或性能下降)時,能保證原有任務持續進行并完成;6T/CESA1228.2-20223)具備統一的編程模型,對于開發者和用戶屏蔽機器學習框架和不同計算設備的差異;4)具備分布式存儲能力,能根據不同的分布式計算場景(如分布式集群、端云,邊云等)設置相應的存儲方式;5)支持計算設備管理,對不同的AI加速卡或AI加速處理器,根據AI任務實施虛擬化和分配,增加計算設備利用率;注:計算設備的管理和調度,涉及虛擬化和集群調度的部e)分布式多終端協同,應符合以下要求:1)去中心化,即多個終端設備協同完成AI任務時,不存在常設的中心節點;2)實時維護與共享集群中節點狀態,以實施調度決策;3)在調度時考慮網絡傳輸的因素,具備實時性保障機制(如超時機制等注:集群組網使用無線連接(如WIFI或藍牙)時,會出現傳輸速4)在調度時考慮設備實際能力,并具備適應性協同策略(如按計算能力調度注:多終端設備結構不同,能力不同,優勢的外設和算力資5)調度時考慮設備使用狀態因素,計算調度過程不影響其他設備或應用的運行。如:正常的視頻播放任務不應被打斷,或導致播放卡頓等;6)考慮非常插電設備接受調度后計算能耗。7.2關鍵組件技術要求7.2.1機器學習框架用于分布式機器學習任務的機器學習框架,符合以下要求:a)應能在云側、邊緣側、終端測等設備上運行;b)提供模型部署功能,符合以下要求,包含但不限于:1)應能以云服務的形式在云側部署,提供推理任務執行環境;2)應支持能被裁剪的輕量化框架,在云側訓練的模型,能部署在端側和邊緣側;3)應支持脫離框架或只依賴輕量化框架的模型的運行;4)應支持在內存受限的設備或環境中的運行;5)宜支持模型量化,并在用戶允許的誤差范圍內,使模型能從云側遷移至端側或邊緣側;c)應支持云側、端側、邊緣側的計算協同模式,包含但不限于:1)云側訓練—端側推理;2)云側訓練—端側增量訓練—終端側推理;3)云側—終端側的聯邦學習;4)云側訓練—邊緣側推理;5)云側訓練—邊緣側增量訓練—邊緣側推理;6)云側—邊緣側聯邦學習;7)云側訓練—邊緣側增量訓練—終端側推理;8)云側—邊緣側—終端側聯合推理;d)宜支持跨云側、邊側、終端側的,一致的計算圖中間表示,保證一次訓練后的模型在端、邊、云三種設備上的無(格式)轉換部署。7.2.2虛擬化與調度異構AI加速處理器或帶有異構AI加速處理器的加速卡的虛擬化與調度組件,符合以下技術要求:a)應符合本文件第1部分的要求;7T/CESA1228.2-2022b)資源調度系統應能調用AI加速卡或AI加速處理器及其虛擬化實例,包含:1)僅能用于訓練任務的加速卡;2)僅能用于推理任務的加速卡;3)能用于訓練及推理任務的加速卡;c)分布管理中的異構資源調度系統,應支持以下調度模式:1)云側的訓練卡調度,實施云側分布式訓練;2)邊緣側的訓練卡調度,支持邊緣側增量訓練;3)云側或邊緣側的推理加速卡調度,支持大模型推理,克服單卡運行時內存限制;4)云側和邊緣側的訓練加速卡的調度,能完成云側訓練—邊緣側增量訓練的任務;5)云側和邊緣推理加速卡的調度,能完成云側訓練—邊緣推理的任務;6)云側和終端側加速卡的調度,能完成云側—端側的聯邦學習任務;7)云側訓練加速卡和端側推理加速卡的調度,能完成云側訓練—端側推理任務;8)邊緣側訓練加速卡和端側推理加速卡的調度,能完成邊緣側增量訓練—端側推理的任務;9)邊緣側訓練加速卡的調度,能完成邊緣側的分布式訓練任務;d)宜支持基于以下類型處理器的AI加速卡的調度,包括:1)CPU(邊緣,終端);2)GPU;3)FPGA;4)NPU或其他定制化處理器。7.2.3深度學習編譯器深度學習編譯器應具有兼容性,能將不同框架下模型或計算圖編譯到指定的AI加速卡上運行,實現模型跨平臺移植。7.2.4安全組件安全原則分布式AI計算協同管理框架的使用,應按圖1規定的生命周期和流程,識別以下風險,包含但不限a)易受竊取等攻擊的資產及相關攻擊模式,包含:1)訓練腳本或代碼文件;2)訓練數據集文件;3)模型文件(包含預訓練模型文件、訓練結果文件和在計算節點中的模型文件);b)模型的文件,在云、邊、端側的完整性被破壞(如被修改);a)模型及相關文件(含訓練腳本、預訓練模型、訓練數據集、模型的參數文件)的機密性被破壞;b)被其他應用惡意攻擊,導致輸出結果錯誤,或無法正常輸出結果;c)推理輸入數據不被截獲或修改;d)云側、邊緣側的容器構建、部署、運行安全威脅;e)邊緣側接口的非授權接入和訪問;f)在無中心(或無云側)的部署架構中忽略使用熱備、冗余機制,造成數據丟失或業務中斷。安全要求.1訓練階段,應實現以下安全防護機制:8T/CESA1228.2-2022a)云側:1)對訓練文件的簽名,能加密AI模型和訓練腳本并上傳至云側;2)對上傳數據的加密;3)運行訓練腳本前,對訓練鏡像文件的身份校驗;4)對預訓練模型的解密;5)對訓練數據的解密;b)邊緣側:1)對云側下發鏡像的身份校驗和模型的加解密;2)對聯邦學習梯度信息的加解密;3)對增量訓練數據的簽名和加密;4)對端側設備上傳的數據的簽名和加密;c)終端側:1)對云側、邊緣側下發模型的身份校驗和加解密;2)對端側聯邦學習梯度數據的加密。.2推理階段,應實現以下防護機制:a)云側:1)在云側環境中配置含有AI模型的容器運行的最小訪問權限;2)對AI模型身份的合法解密;3)在加載鏡像到云側運行環境時,檢查身份合法性;b)邊緣側:1)秘鑰管理,對云側下發的鏡像或模型實施身份校驗;2)對推理數據的加解密;3)入侵檢測;4)邊緣用戶身份校驗,應用授權訪問;c)端側:1)秘鑰管理,對云側下發到端側模型實施身份合法性檢查;2)推理數據在本地的加解密;3)在模型上傳至云側或邊緣側進行推理前,加密模型;4)終端設備使用虛擬機或容器時,在多終端設備間實現基于虛擬機或容器的安全隔離機制。7.2.5集合通信提供統一的通信協議、數據結構定義和元語,機器學習框架利用集合通信庫,能操作不同的計算設備。實現AI加速卡間通信,包含云側內部分布式訓練和端邊云協同訓練所需通信。能在下列集合通信拓撲結構上工作,包含:a)基礎類:1)全網狀結構(FullMesh);2)星形拓撲結構(Star);3)環形拓撲結構(Ring);4)樹拓撲結構(Tree);9T/CESA1228.2-2022b)擴展類:1)3DTorus拓撲結構;2)Dragonfly拓撲結構;3)由以上兩種或以上網絡拓撲結構混合而成的混合拓撲結構。支持集合通信步調,實現同步功能,滿足協同節點異步使用要求,并具備超時管控機制,避免通信無法完成的問題。支持通信協議,包含但不限于:PCIE,RDMA和TCP/IP等。支持集合通信能力表征指標,包含:a)集合通信耗時均值;b)集合通信耗時方差。支持集合通信能力表征指標的測量方法,包含:a)單AI加速卡或者計算設備上集合通信耗時測量;b)全部AI加速卡或者計算設備上的集合通信耗時的均值和方差的計算;c)時間的統計,符合以下要求:1)單AI加速卡或計算設備的時間測量的起始時刻為:集合通信的使用者啟動集合通信的時2)時間測量的結束時刻為:集合通信的使用者感知到集合通信完成的時刻;3)集合通信的啟動和結束如果存在固定開銷,應被計入到通信耗時里。提供面向機器學習框架的統一接口,屏蔽異構硬件的差異。7.3云云協同云云協同的框架見圖3,協同過程符合以下要求:圖3云云協同框架a)云云協同框架,應完成中心調度模式或無中心調度模式(如基于云聯邦的調度);T/CESA1228.2-2022b)使用中心調度模式時,中心調度器:1)應能收集和監視全網計算資源的狀態;2)應能跨云(或計算中心)調度作業,轉發和傳輸作業運行數據;3)應實現負載感知調度、價格感知調度、網絡感知調度或數據感知調度等策略;c)使用中心調度模式時,調度適配器符合以下要求:1)應適配不同云中,異構調度器的實現;2)應能收集調度器資源和作業執行狀態信息,并上報至中心調度器;3)宜能向用戶提供統一視圖,使用戶能使用、全網計算資源執行計算任務;d)宜實現基于統一賬戶的認證、確權;e)宜實現統一計算消耗計量和計費。7.4云邊端協同7.4.1云邊端協同管理框架云邊端協同的框架見圖4,包含邊云管理系統,邊云通道和邊端通道。邊緣云邊端協同的框架見圖4,包含邊云管理系統,邊云通道和邊端通道。邊緣節點的管理,應實現以下功能:a)應用管理,如雙機備份、容器故障檢測、模型管理、AI加速卡插件管理;b)邊緣中間件(如消息總線、規則引擎等)管理;c)端設備服務;d)安全可信模塊;e)設備管理。圖4云邊端協同框架7.4.2云邊模型部署云邊模型部署流程見圖5,符合以下要求:a)將云側模型部署到邊緣側時,邊云管理系統應符合以下要求:1)納管邊緣節點并關聯邊緣節點的設備;2)云側能將AI應用或模型以容器鏡像的形式下發,部署到邊緣節點;T/CESA1228.2-2022b)邊云管理系統應具備以下功能:1)將云側服務能力部署到邊緣,可支持視頻識別、文字識別、圖像識別等大數據任務的處理;2)能將模型以容器和函數兩種方式運行,滿足用戶輕量化部署的要求;3)支持邊緣節點以注冊的方式,接入云側;4)支持云側的業務以容器的形式,部署到邊緣側;5)支持對邊緣側AI加速卡利用率的監控;6)能管理的邊緣節點數量宜不少于128。圖5邊云模型部署流程7.4.3云邊AI任務協同云邊協同框架見圖6,邊云管理系統,符合以下要求:a)應支持增量訓練;b)應實現并提供以下訓練樣本篩選功能:1)根據推理結果的置信度篩選增量訓練的數據;2)數據去重;3)數據聚合;c)應實現梯度數據和增量樣本數據的壓縮和傳輸;d)應實現數據加密,滿足7.2.4中邊緣側安全要求;e)應提供邊緣存儲功能,能按7.1d)4)的要求存儲終端側的推理數據和云側的模型;f)宜支持基于邊緣節點設備和云側設備的聯邦學習,集合通信滿足7.2.5的要求,機器學習框架滿足7.2.1的要求。T/CESA1228.2-20227.4.47.4.4端邊云數據協同邊云數據協同框架見圖7。圖6邊云AI任務協同框架圖7邊云數據協同框架終端側設備與邊緣側的協同(見圖7),符合以下要求:a)應支持端側設備多協議接入;b)宜支持下列終端設備接入,包含:T/CESA1228.2-20221)攝像機;2)智能機器人;3)物聯網傳感器;4)激光雷達、毫米波雷達;5)信號機;6)氣象感知;7)道路單元。邊緣側設備提供面向AI應用的多媒體服務(見圖7),符合以下要求:a)應能轉發多媒體數據(到云側、邊緣側或其它終端);b)應支持多媒體數據的回放;c)宜支持多媒體數據的轉碼、點播、直播、錄像和檢索;d)宜支持地圖數據的共享分發。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論