




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
團信息技術人工智能服務器系統性能測試規范2021-08-26發布2021-09-01實施中國電子工業標準化技術協會發布 1范圍 2規范性引用文件 13術語和定義 4縮略語 35測試模式 45.1封閉模式 45.2開放模式 45.3場景 45.4測試信息 56訓練過程 66.1測試流程 66.2場景 86.3指標及測量方法 6.4訓練用測試系統要求 7推理過程 7.1測試流程 7.2場景 7.3指標及測量方法 267.4推理用測試系統要求 31附錄A(規范性)測試代碼公開規則 33A.1通則 A.2訓練測試代碼公開規則 A.3推理測試代碼公開規則 35B.1圖像識別 B.2物體檢測 B.3語義分割 B.4推薦 B.5自然語言處理 B.6語音識別 B.7光學字符識別 B.8人臉識別 本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任。本文件由中國電子技術標準化研究院提出。本文件由中國電子技術標準化研究院、中國電子工業標準化技術協會歸口。本文件起草單位:中國電子技術標準化研究院、中國科學院軟件研究所、北京航空航天大學、華為技術有限公司、浪潮電子信息產業股份有限公司、騰訊云計算(北京)有限責任公司、上海依圖網絡科技有限公司、中科南京軟件技術研究院、百度在線網絡技術(北京)有限公司、北京曠視科技有限公司、曙光信息產業(北京)有限公司、科大訊飛股份有限公司、聯想(北京)信息技術有限公司、飛騰信息技術有限公司、英特爾(中國)有限公司、上海商湯阡誓科技有限公司、上海仙塔智能科技有限公司。本文件主要起草人:張琦、曹曉琦、鮑薇、董建、孟令中、薛云志、董乾、劉祥龍、尤昉、王愷、吳韶華、康真健、李仁剛、楊曉光、劉海濤、趙春昊、許源、武斌、高卉、劉珊珊、熊亮、魏榮、崔吉順、梅敬青、張藝伯、許欣然、戴榮、許濤、尹斌、程鳴、谷瀟聰、羅玉、王海寧、馬超、溫煒、金古、蔣慧、田紹清、鄭潔。人工智能服務器和人工智能服務器集群是當前各行業應用中,承載人工智能計算的主要形態,已被廣泛采用。人工智能計算設備的性能關系到各行業實施人工智能應用的效率和成本。然而,因為設備實現技術的多樣性、各行業應用能力差異和大數據量訓練、高并發推理等需求因素,設備實際性能成為應用關注的重點。對人工智能計算系統的性能瓶頸識別和驗證,是推進人工智能應用優化,提升效率的先決條件。本文件旨在提供規范、全面、兼顧行業常見場景的人工智能服務器和人工智能服務器集群性能測試方法及指標,為各領域用戶人工智能計算系統的優化提供依據和途徑。1信息技術人工智能服務器系統性能測試規范本文件規定了人工智能服務器系統,完成深度學習訓練及推理任務的性能(運行時間、能耗、實際吞吐率、能效、效率、彈性、承壓能力等)測試方法。本文件適用于人工智能服務器系統的性能評估。2規范性引用文件本文件沒有規范性引用文件。3術語和定義下列術語和定義適用于本文件。一次測試中,處理測試者給出的測試作業,并返回結果的系統。一次測試中,籌備、操作被測系統實施測試,并按測試協議的規定享有測試結果使用權的機構或個用于定義系統測試要求的標準化的模型。[來源:ISO/IEC14776—2009,3.1.87,有修改]獲取并返回被測系統當前時間戳。2人工智能服務器artificialintelligenceserver含有專為人工智能計算設計的計算機構,能夠為人工智能應用提供專用加速計算能力的服務器。人工智能服務器集群artificialintelligenceservercluster集群遵循統一控制的,人工智能計算功能單元的集合。人工智能服務器系統artificialintelligenceserversystem由人工智能服務器及其他必要的計算、存儲設備組成,承擔人工智能運算任務的計算系統。測試集用于測試最終機器學習模型功能的數據。[來源:ISO/IECDIS22989—2021,3.2.19]組織、開展測試的機構或個人。注:測試者使用測試系統實施測試,它向被測系統(3.10)發送作業(3.11),接收輸出,計算性能(3.12)指標。測試系統testsystem執行測試所使用的硬件、軟件及數據。3作業job含有測試樣本的數據包。性能performance人工智能服務器系統運行計算任務時,可被測量的特性。[參考:ISO/IEC20000.10—2018,3.1.16和ISO13372—2012,2.3]訓練數據trainingdata訓練集用于訓練機器學習模型的輸入樣本子集。[來源:ISO/IECDIS22989—2021,3.2.22]驗證集用于評估一個或多個備選機器學習模型功能數據樣本。[來源:ISO/IECDIS22989—2021,3.2.24]4縮略語下列縮略語適用于本文件。AI人工智能(ArtificialIntelligence)AUC曲線下面積(AreaUndAUTOML自動機器學習(AutomatedMachineLearning)BFLOAT16腦半精度浮點數(BrainFloating-point)BLEU雙語評估替換(BilingualEvaluationUnderstudy)FP16半精度浮點數(Half-precisionFloating-pointformat)FP32單精度浮點數(Single-precisionFloating-pointformat)FP64雙精度浮點數(Double-precisionFloating-pointformat)INT44位整型數(4-bitInteger)INT88位整型數(8-bitInteger)4MAP平均準確率均值(MeanAveragePrecision)MIOU平均交并比(MeanIntersectionOverUnion)NFS網絡文件系統(NetworkFileSystem)OCR光學字符識別(OpticalCharacterRecognition)SUT被測系統(SystemUnderTest)TF32張量單精度浮點數UINT44位無符號整型數UINT88位無符號整型數5測試模式5.1封閉模式5.1.1封閉式訓練給定訓練集和目標模型結構、精度,利用受測AI服務器系統,運行建模、優化算法得到目標模型,應符合給定測試集上的準確率門限。5.1.2封閉式推理給定模型(參考實現)、精度、測試集,利用受測AI服務器系統,運行模型定義的推理過程,輸出推理結果,結果應符合精度及給定測試集上的準確率要求。5.2開放模式5.2.1開放式訓練給定訓練集,利用受測AI服務器系統實施訓練模型,結果模型應符合精度及給定測試集上的準確率要求。5.2.2開放式推理給定測試集,被測者提供已訓練好的模型,利用AI服務器系統,運算輸出推理結果,結果應符合精度及給定測試集上的準確率要求。AI服務器系統性能測試的場景類型,應包含:a)通用:針對共性問題,參考或使用公共可獲得的模型和數據集,完成訓練、推理任務;b)專用:針對行業領域問題,使用專用模型和數據集,完成訓練、推理任務;5c)場景類型涉及的技術要素的可變性,見表1及表2。通用封閉專用封閉√√√訓練過程中數據預處理(訓練算法自帶)√√√√√√目標模型精度√√√√“測試集",“驗證集”,“訓練集”不含相同樣本。表2推理模式及可變要素通用封閉專用封閉√√√√√√√√√√√√√√√√"測試集",“驗證集","訓練集”不含相同樣b)測試ID(用于標識測試);c)是否開放(0-封閉、1-開放);d)是否專用(0-通用、1-專用);e)是否訓練(0-推理、1-訓練);f)模型編號(對封閉模式有效,開放模式為模型名);g)提交時間(格式[yyyy:MM:ddHH:mm:ss]);h)測試對象類型(0-單機、1-集群/計算中心);6i)節點數(當“"測試對象類型”不為“0”時有效);j)每節點信息[節點型號、節點標稱計算能力、節點芯片數];k)節點間通信協議和帶寬;1)節點間組織關系(0-單節點、1-主從、2-環形、3-樹狀、4-其他);m)操作系統標識(名稱、內核版本號);n)機器學習框架標識(名稱、版本號);o)是否應用虛擬化技術(0-不使用、1-使用);p)虛擬化組件標識(名稱、版本號);q)批(minibatch)大小(batchsize)可變標識(0-不可變、1-可變);r)批(minibatch)大小的值(正整數,僅當q)為0時有效];s)優化器聲明(算法名);t)是否混合精度訓練(僅對訓練有效,0-不使用、1-使用,附加精度列表);u)是否使用AUTOML完成測試(0-不使用、1-使用,附加AUTOML算法名稱);v)是否使用并行訓練完成測試(0-不使用、1-模型并行、2-數據并行、3-混合并行、4-其他并行算法并附加算法名稱);w)并行訓練時,是否采用異步參數更新[0-不使用(即同步更新)、1-使用];x)是否使用稀疏化(對推理有效,0-不使用、1-使用,附加方法名稱);y)是否使用量化(對推理有效,0-不使用、1-使用,附加量化方法名稱)。6訓練過程6.1測試流程6.1.1基本要求訓練測試過程,應符合以下要求:a)在一次測試中,訓練測試對象包含以下AI服務器系統硬件及配套軟件(不含模型或算法負載):2)AI服務器集群(含云化的AI服務器集群);b)訓練測試過程,包含以下步驟:·被測者于測試前,取得測試集;·如需要,被測者可對數據進行必要的格式轉化或封裝;·被測者按測試內容,編寫并運行必要的訓練代碼(包含數據預處理、數據讀入、訓練、結果模型格式轉化與持久化),得到結果模型;·訓練期間,記錄過程數據、計算指標值、記錄日志、生成結果數據;·被測者發送測試結果給測試者;7·測試者檢查結果合規性;6.1.2規則深度學習訓練規則,符合以下規定:a)訓練測試,不應實施以下操作:1)在測試過程中進行硬件或軟件改配;2)使用本文件規定之外的訓練集進行模型訓練,也不應實施模型預訓練及遷移學習策略;3)訓練測試過程中,對已實現的指標測量函數或測試流程控制函數實施改動、繼承或重載(要求被測者實現的方法除外);4)在數據準備過程中:·減少數據集中的樣本(封閉模式有效,除不足1batch的殘余數據之外);·除b)2)規定的操作生成的樣本外,增加數據集中的樣本(封閉模式有效);·分析數據規律或預先提取、編碼、保存樣本特征(封閉模式有效);·對數據做排序、索引或拆分操作(封閉模式有效);5)在訓練過程中改變指定的優化方法(封閉模式有效);6)使用AUTOML完成訓練任務時,在整個b)訓練測試,符合以下規定:1)應編制并運行的訓練測試代碼:·使用測試工具提供的過程指標計算方法;·使用測試工具提供的日志記錄方法(對工具的要求見6.4);2)數據準備時:·訓練數據尺寸不同或不符合模型需要時,可實施尺寸調整操作;·在不改變輸入圖像(對視覺類場景)像素值的情況下,可實施插值操作,包含但不限于:線性插值、雙線性插值、區域插值等;·訓練集、驗證集、測試集的劃分比例,默認為75%、10%及15%,特殊的劃分應符合表3的規定(封閉模式有效);·可利用分布式環境實施數據準備;3)訓練過程中:·可使用可變學習率,學習率改變方法,由訓練算法確定;·權重及偏執應以常量或隨機值初始化;·試驗次數應符合場景要求(封閉模式見表3,開放模式在測試時統一確定);·如實施混合精度訓練,應符合5.4的要求;·應按6.1.2b)1)-6.1.2b)3)的要求執行(除6.1.2b)2)中注明為“封閉模式有效”的規定外];·應區分模型結構生成(變異)階段和訓練(針對某一代變異調整模型參數)階段,至少在模型結構生成(變異)過程執行前后、訓練開始前后,分別記錄時點;·模型變異及搜索空間應是有限并確定的;5)實施分布式訓練時:8·并行訓練,方式可包含但不限于模型并行、數據并行及混合并行;·可使用分布式文件系統(如NFS)或存儲服務器存放、使用訓練數據。6.1.3訓練結果訓練結果,符合如下要求:a)訓練結果模型與參考模型一致,符合以下要求:1)訓練結果模型精度應符合表3及表5的規定;2)封閉模式下,訓練模型腳本與參考腳本(見表3及表5)應定義一致的網絡結構,訓練模型腳本不應導致以下情況的發生:·多余或缺失的層;·多余或缺失的神經元;·改變的激勵函數(對應層之間);·多余或缺失的跨層連接;·改變的池化方法(對應層之間);b)訓練過程應符合6.1.2的規定;c)結果應包含以下信息:1)5.4規定的數據;2)場景要求的指標值(見表3及表5);3)訓練程序源代碼,符合附錄A的要求;4)訓練日志:·對非AUTOML訓練,日志按每個epoch輸出。每個epoch對應的格式為:“[yyyy:MM:ddHH:mm:ss]-[trial_number]-[epoch_number]-[accuracy]”。其中,第一項為日志輸出時的時間戳,第二項為訓練次數(正整數),第三項為epoch數(正整數),第四項為當前測試集上的準確率(依照場景要求的指標定義);·對AUTOML訓練,日志按每次模型變異及對應訓練過程輸出。每次模型變異后,輸出變[generation_number]-[number_of_nodes]"。其中,第一項為變異開始時間,第二項為變異完成時間,第三項為變異代次計數,第四項為當前變異結果模型的節點數(對初始化模型的訓練,變異起止時間為空,代次記為0);對變異后模型的訓練,日志按每個epoch輸出,格式符合4中“對非AUTOML訓練”規定;5)結果模型文件(含權重和結構信息;AUTOML訓練,為最終結果模型文件);6)規則檢查結果(對AUTOML訓練,6.1.2中關于AUTOML的規則有效)。6.2.1通用測試場景6.2.1.1封閉測試場景應符合表3的要求,場景說明見附錄B。9表3通用訓練性能測試場景(封閉)圖像識別1數據集門限57結果模型精度2門限57結果模型精度分割1數據集門限57結果模型精度識別1數據集門限57結果模型精度1門限Wide:FTRL;Deep:AdagWide:FTRL;Deep:Adag57結果模型精度表3通用訓練性能測試場景(封閉)(續)檢測1f門限57結果模型精度回歸損失;fasterrcnn:softmax+c回歸損失;2門限5結果模型精度自然語言1門限55結果模型精度2WMT18英-德、英-中門限5結果模型精度表3通用訓練性能測試場景(封閉)(續)改變數據的值(如圖像像素值),數據格式轉換過程不計表中門限為參考值,測試實施時可作調整,但應在各被測系統受測時保持統一。°表中WER為GreedyWER指標。bert-large測試項中,sequence-length=512。表中的SSD損失函數[3]:Lconf——分類損失函數,使用交叉熵損失;Lloc——定位損失函數,使用smoothL1損失;c——檢測框的標簽類別;g——ground-truth的坐標;x——模型對ground-truth類別預測的概率;表中fasterrcnn的RPN層損失函數[4]:Lcls——分類損失;Lreg——包圍盒的回歸損失;i——一個anchor的序號;Pi——anchor的預測結果是檢測對象的概率;Pi——ground-truth的標簽;ti——預測包圍盒的坐標;t"——ground-truth中包圍盒的標6.2.1.2開放測試場景應符合表4的要求,場景說明見附錄B。表4通用訓練性能測試場景(開放)圖像識別1結果模型精度檢測1結果模型精度表4通用訓練性能測試場景(開放)(續)分割1門限結果模型精度1門限結果模型精度自然語言1WMT18英->德、英->中門限結果模型精度2門限結果模型精度識別1門限結果模型精度準確率門限,依照封閉場景定義,在測試時可由測試者調整、確定指標及取值。57結果模型精度識別57結果模型精度表5專用訓練性能測試場景(封閉)(續)79結果模型精度訓練數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格的值(如圖像像素值),數據格式轉換過程不計時。表中未確定的模型及數據集,可在具體測試前,由測試者按專用系統的要求統一確定。°EAST和FaceNet的損失函數的定義與實現分別見[8]和[9]6.2.2.2開放測試場景應符合表6的要求,場景說明見附錄B。表6專用訓練性能測試場景(開放)(無結果模型精度識別結果模型精度注:表中的“/”符號,表示“或”。訓練數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格的值(如圖像像素值),數據格式轉換過程不計時。b表中未確定的模型及數據集,可在具體測試前,由測試者按專用系統的要求統一確定。說明總體訓練用時T從訓練開始讀入數據,到模型訓練完畢、完成在非電易失性存儲器上的持久化,所使用的總時長a)在讀入訓練數據命令前,緊鄰該命令計時,獲得時間點ts;b)在輸出模型持久化完成后,串行并緊鄰調用計時時間點tg;c)計算總體訓練時間:T?=t-ts表7訓練時間測量方法(續)說明數據讀入用時TLbe時,可為主存),達至可用狀態,所使用的時間a)在讀入訓練數據命令前,緊鄰該命令計時,等于Ts;b)在訓練數據讀取完成時,串行并緊鄰調用計時命令,獲得時間點c)計算數據讀入時間:T?=t?-tu訓練啟動用時T多加速器訓練時,從訓練開始指令到所有加速器都被分配并開始執行訓練任務所經歷的時長a)訓練開始前,串行并緊鄰調用計時命令,獲得時間點t?;b)在每個加速器進入訓練狀態時,取時間點,直到最進訓練狀態,獲得時間點t?;c)計算訓練啟動用時:T,=t?-tn出“之間的時間間隔a)訓練開始前,串行并緊鄰調用計時命令,獲得時間tTb)訓練退出時,串行并緊鄰調用計時命令,獲得時間點tT?;c)計算訓練用時:TR=tTR2-tTRI正整數)epoch運行訓練過程第i次遍歷(使用)訓練集所用的時間a)第i個epoch開始前,串行并緊鄰調用計時命令,獲得時間tP()-1;b)第i個epoch結束后,串行并緊鄰調用計時命令,獲得時間teP(i)-2;c)第i個epoch用時:TEPi)=tp()-2-正整數)驗當前模型,得出當前模型準確率等指標值的過程a)第j次驗證開始前,串行并緊鄰調用計時命令,獲得時間trs)-1;b)第j次驗證結束后,串行并緊鄰調用計時命令,獲得時間trG)-2;化用時Tα為要求格式所耗費的時間a)模型格式轉化前,串行并緊鄰調用計時命令,獲得時間tcv;b)模型轉化完畢后,串行并緊鄰調用計時命令,獲得時間tcv2;并完整寫入非電易失性存儲所a)模型持久化前,串行并緊鄰調用計時命令,獲得時間tp?;b)模型持久化后,串行并緊鄰調用計時命令,獲得時間tp2;c)模型持久化用時:Tp=tp2-t時延Tc點完全接收數據的用時a)在發送數據前,串行并緊鄰調用計時命令,獲得時間tnc;b)在完整接收數據后,串行并緊鄰調用計時命令,獲得時間t?;c)節點間通信時延Tc=tc2-trc訓練退出可有多種充分條件。正常結束訓練退出條件,如測試集準確率門限等。數據并行時,數據讀入用時為數據讀入開始至所有工作節點都完整獲得所需數據的總用時(含網絡傳輸用時)。數據讀入過程可伴隨訓練同步發生,時間計入訓練用時。干次驗證動用時總體訓練用時(T)第i+6次驗證驗證tovitw格式轉化用時持久化用時訓練啟動命令注1:訓練時間按“訓練用時”計。注2:數據讀入過程可伴隨訓練同步發生。說明a)在SUT,配套使用功率計;b)空載600s,采樣100次以上,測得時整機的空載c)在訓練用時中(見圖1),周期性測量整機的負載功率,并求均值PmE;d)求得PR=P-PTIE訓練瞬時峰值全程(TTR)中,服務器各部件處于(接近)滿負載壓力狀態下的最大瞬時功率a)在SUT,配套使用功率計;b)按單機訓練平均功率測量方法測得PTIE;c)測得單機訓練過程中,最大負載功率計量值Pmux;1)在SUT各節點配套使用功率計;的平均功率PTR-i。件系統擴容的同樣效果。對視覺類測試,單位為圖片數每秒(images/s),對自然語言處理類說明實際吞吐率中,每個epoch處理的數據量與時間的比值a)統計每個epochi(i為正整數)所使用的時間TEP();b)基于1)的結果,統計每epoch平均TP;率a)在集群每個節點n(n為正整數)上,計算該節點訓練吞吐率Th;c)計算AI服務器集群訓練綜合相對吞吐率(見上4))能力(AI服務吐率綜合加速集合S上,實際吞吐率與每任務基線吞吐率之比的加權幾何平均a)對于給定的訓練場景集合S,對每個場景負載s∈S,使用某特定參照計算系統,在s上測得吞吐率Th*,作為基線;b)設SUT在s上測得的訓練實際吞吐率為Ths,則訓練綜合相對吞吐率,由Ths在s上的加權幾何平均計算:α——調整系數(α>0,α∈R+),默認為100.0;ThA——resnet50_v1.5對應的基線吞吐率;Thm*——bert-large對應的基線吞吐率;TRN——resnet50_v1.5對應的權值;b基線吞吐率是參考計算系統在特定場景上的吞吐率,t、α及參照計算系統由測試者按實測資源利用率包含加速器利用率,單位為百分率(%)。訓練相關資源利用率及測量方法,應符合表10的規定:表10訓練過程資源利用率測量方法說明器資源利用率上所有指定參與訓練任務的加速芯片的平均利a)在每個epochi內(假設一趟訓練過程有I個e加速芯片k(假設有K個加速芯片),采樣N次使用率Pk(i,k,N,n,K,I為正整數,N>=3,0<=P<1,為正實數,精確到0.01);b)對每個加速芯片k,求出在i的平均利用c)對每個epochi,求出多芯片平均利用率(如K=1,本步驟忽略):d)對所有epoch求平均,得出訓練階段A加速器資源利集群上所有指定參與訓練任務的加速芯片的平數據傳輸芯片利用率不含在加速器資源利用率6.3.5能效訓練能效是AI服務器系統在單位時間,消耗單位功耗,消化的訓練數據量,單位為兆字節每秒瓦表11訓練過程能效測量方法說明AI服務器訓AI服務器單位時間內消數據量a)對任意一趟訓練,測量每個epoch的平均功率P;b)測量每個epoch的平均用時T;c)計算AI服務器訓練能效:式中:sizeof(訓練集)——訓練集大小,單位為兆字節(MB)AI服務器集群單位時間內消耗單位功耗消化的訓練數據量a)算出每臺AI服務器,每epoch的平均功率PP;(i為正整數)和用時b)計算AI服務器集群訓練能效:6.3.6效率訓練效率是AI服務器系統訓練得到某模型,其預測準確率與訓練代價的比值,單位為每秒千瓦時[1/(s·kWh)]。訓練效率及測量方法,應符合表12的規定:表12訓練過程效率測量方法說明效率標參見場景列表);b)記錄訓練時長TTR;c)記錄TTR時間內的實際能耗Pg;d)計算訓練效率:實際判別準確率與訓練能耗的比值標參見場景列表);b)記錄訓練時長T;c)記錄T時間內的集群實際能耗P;d)計算訓練效率:注2:AI服務器集群訓練效率,參考了[14]定義的能a當準確率指標(設值為a,0≤a≤1)為負向指標時(如WER),以(1-a)計。°能耗是訓練模型過程中特定時間段內消耗的電量。6.4訓練用測試系統要求測試系統符合以下規定,包含但不限于:a)應能自動檢測服務器或接收手動填表的被測系統軟、硬件信息,符合5.4的規定;b)應能使用機器學習框架,AI服務器系統提供的使能軟件函數庫及其他必要信息,完成6.3規定指標的測量,提供指標計算函數;c)應至少能實施6.2.1規定的場景的測試;d)應至少支持以下計算精度中的一種:e)應支持配置了容器或使用虛擬化組件的AI服務器系統的性能測試;f)測試完成后應能完全卸載,不殘留任何測試組件(不含測試數據);g)應提供日志函數,日志所含內容及格式符合6.1.3c)的規定;h)應支持測試者對測試過程的管理和監測,包含但不限于:1)訓練過程子階段開始或完成事件,包含:·每趟訓練的開始和結束;·訓練結果數據上傳及其完成;2)訓練結果數據,符合6.1.3c)的規定;3)測試者對重測的允許及次數控制;4)能提供證據輔助測試者實施測試結果的有效性判定,或自動判定;i)在提前獲得測試項目授權后,應支持被測者在測試期內的任意時間發起測試;j)應能在測試者,為不同測試項維護獨立的結果數據目錄;k)應能支持本地測試(測試者不介入的測試,如預測試、系統調試等)及遠程測試(測試者介入)。6.4.2公平性保障要求應提供策略及實現,支持以下公平性保障功能,包含但不限于:a)防止對指標計算函數的修改;b)防止測試時對指標計算函數的替代使用;c)防止在測試結果上傳前對測試結果數據的修改,結果的規定見6.1.3;d)防止在測試開始后,結果上傳完畢之前對測試代碼的修改;e)防止除測試系統外的其他進程向被測者傳輸過程及結果數據;f)實施遠程測試時,關于測試者授權的鑒別;g)測試過程中測試者與被測者通信的加密,信息完整性檢查。7推理過程7.1測試流程7.1.1基本要求推理測試過程,應符合以下規定:a)推理測試對象包含:1)AI服務器單機;2)AI服務器集群(包含云化的AI服務器集群)。b)推理測試過程,包含以下步驟:1)測試準備:·被測者向測試者發送測試請求,取得測試集;·測試者指定測試數據集,告知獲取方法;·被測系統下載數據集,檢驗合規性。2)測試運行:·被測者按測試內容,載入模型(可預先準備好)和數據集;·被測者運行測試;·記錄過程數據,計算指標值;·結果合規性檢查。3)結果報送:·被測者發送測試結果數據測試者;·測試者檢驗結果合規性;·測試結束。7.1.2規則推理測試過程,符合以下規定:a)符合以下合規性要求:·應實現必要接口(數據準備、輸入、輸出);·應使用測試系統提供的指標計算方法;·應使用測試系統提供的日志記錄方法;·不應對已實現的指標測量函數或測試流程控制函數實施改動、繼承或重載(要求被測者實現的函數或接口除外)。2)推理過程符合:·模型編譯、部署時,不應使用其他模型替換測試模型;·測試前,除數據集封裝格式轉化外,不應瀏覽或記錄數據、修改數據(非預處理)、瀏覽數據、拷貝數據,以及分析、提取、緩存數據特征;·測試過程中,不應實施以下操作:以推理測試進程之外的任何進程,修改、記錄日志;以推理測試進程之外的任何進程,存取測試輸入、輸出數據;緩存、復用輸入、輸出及過程(預處理結果、后處理輸入)數據;修改內存中模型參數;保存、緩存后處理過程輸入數據;記錄、分析或使用作業到達模式來預測某時段內的作業量;根據過程中準確率、丟失率等指標值,故意忽略待處理數據。b)封閉模式推理時,模型壓縮,不應實施如下操作:1)刪除非零權重;2)使用剪枝或其他改變模型結構的方法;c)封閉模式推理時,模型量化,符合以下要求:1)不同場景下量化的模型對象應與表15一致;2)量化結果不應出現6.1.3a)2)列出的情況。d)推理精度應符合7.2.3,7.2.4中按場景的要求;e)應聲明推理所用批大小的信息,符合5.4的規定。推理結果,應符合如下要求:a)通過合規性檢查;b)推理結果包含如下信息:1)5.4規定的測試信息;2)推理作業到達模式序號(見表14);3)推理使用的實際精度;4)場景要求的指標值(具體指標,符合“通用推理性能測試場景(封閉)”表及“專用推理性能測試場景(封閉)”的要求);5)推理測試源碼符合附錄A的規定;HH:mm:ss]-[accuracy]-[已處理作業數]-[已處理樣本數]-[樣本丟失數]”。其中:·第一項為本條日志輸出時的時間戳;·第二項為當前累計的準確率(具體指標的選取,符合“通用推理性能測試場景(封閉)”表及“專用推理性能測試場景(封閉)”的要求);·第三項為當前已返回結果的作業數;·第四項為當前已返回結果的樣本數;·第五項為當前未能在超時范圍內處理的樣本數,即丟失樣本數;7)合規性檢查結果。7.2.1推理作業推理作業,應符合以下要求:a)作業從測試系統發往被測系統,結果從被測系統發送回測試系統;b)每個樣本僅含有推理模塊要求的必要(輸入)參數,不含有額外信息;c)推理作業遵循特定的到達模式,符合7.2.2的要求;d)作業丟失指被測系統無法在超時控制門限內返回結果的情況;e)超時控制門限指測試者從發送作業到收到對應結果之間允許的最大時間間隔。7.2.2作業到達模式推理作業到達模式,應符合表13的定義:表13推理作業到達模式表定義(是/否)(趟)0第i(i為正整數)個作業在第(i-1)個作業完成后緊鄰到達。作業(i-1)未完成或超時控制門限未達到時,作業i不發送否12固定周期1是14泊松分布2作業以泊松分布到達:其中:k是某單位時間內到達的作業數(k為正整數),是143發性大量作業,周期持續一定時長T?(如5s-10s),并維持一定并發度水平σ(o為正整數,如σ>21°到達模式(T與n可在測試時結合需要選取)是1離線4是15到達、離線到達模式中,加入與當前測試場景不同的作業是17.2.3通用測試場景7.2.3.1封閉測試場景應符合表14的要求,場景說明見附錄B。表14通用推理性能測試場景(封閉)圖像識別1泊松分布到達(λ=20)、離線到達、2表14通用推理性能測試場景(封閉)(續)檢測1泊松分布到達(λ=20)、離線到達、分割11泊松分布到達(λ=20)、離線到達、自然語言1泊松分布到達(λ=20)、離線到達、高峰到達,mask_lm_accuracy>0.72WMT18英->德、英->中BLEU>24%(適用于兩種翻譯)識別1未注明時,表中泊松分布,固定周期到達模式涉及的參數,參考值為λ=5,T=500ms,n=b表15通用推理性能測試場景(開放)圖像識別1門限連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高峰到達泊松分布到達(λ=20)、離線到達、檢測1門限連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高峰到達泊松分布到達(λ=20)、離線到達、分割1門限連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高峰到達泊松分布到達(λ=20)、離線到達、1門限連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高峰到達泊松分布到達(λ=20)、離線到達、自然語言1門限連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高峰到達泊松分布到達(λ=20)、離線到達、2WMT18英→德、英→中門限BLEU>24%(適用于兩種翻譯)連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高峰到達識別1門限連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高峰到達泊松分布到達(λ=20)、離線到達、未注明時,表中泊松分布,固定周期到達模式涉及的參數,參考值為λ=5,T=500ms,n=1。b準確率的具體數值為參考值。表16專用推理性能場景(封閉)(無預分測試集來源°連續單一、固定周期到達、泊松分布到泊松分布到達(λ=20)、離線到達、識別ArcFace(Resnet101+arclo連續單一、固定周期到達、泊松分布到泊松分布到達(λ=20)、離線到達、識別測試集來源°連續單一、固定周期到達、泊松分布到泊松分布到達(λ=20)、離線到達、未注明時,泊松分布,固定周期到達模式涉及的參數,參考值為λ=5,T=500ms,n=1。未確定的模型及數據集,可在具體測試前,由測試者按專用系統的要求統一確定。°推理數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格式轉換過程不應改變數據的值(如圖像像素值),數據格式轉換過程不計時。表17專用推理測試場景(開放)(無預分金融行業測試集b連續單一,固定周期到達,泊松分布到泊松分布到達(λ=20),離線到達,識別測試集來源“連續單一,固定周期到達,泊松分布到泊松分布到達(λ=20),離線到達,未注明時,泊松分布,固定周期到達模式涉及的參數,參考值為λ=5,T=500ms,n=1。表中未確定的模型及數據集,可在具體測試前,由測試者按專用系統的要求統一確定。°推理數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格式轉換過程不應改變數據的值(如圖像像素值),數據格式轉換過程不計時。時間單位為毫秒(ms)。推理相關用時及測表18推理時間測量方法說明多次連續推理端到端總延時a)測試者在發送第1個樣本的第1字節前,緊鄰計時,得到時間點tis;計時,得到時間點tE;c)計算得到推理總延時T?=tE-t?s理延時Tπ測試者發送樣本時間與收到結果時間的差a)測試者在發送某樣本第1字節前,緊鄰計時,得到時間點tis;c)計算端到端推理延時:T=tTE-tTIs測試者發送樣本時間與被測者收到樣本時間的差a)測試者在發送某樣本第1字節前,緊鄰計時,得到時間點tns(ts=tris);b)被測者在收到樣本最后1字節后,緊鄰計時,得到時間點trm;c)計算作業發送延時:Tr=trTR-ts結果傳送延時T?R被測者發送結果時間與測試者收到結果時間的差a)被測者在發送結果第1字節前,緊鄰計時,得到時間點tn;b)測試者在收到結果最后1字節后,緊鄰計時,得到時間點tm(tTE=tm);c)計算結果傳送延時:TIR=trRR-tHs被測者收到樣本時間到處理b前時間的差a)被測者收到樣本最后1字節后,緊鄰計時,得到時間點toiss;b)被測者開始處理前,緊鄰計時,得到時間點toise;c)計算任務分派延時Tors=torse-torss預處理延時TIPR時間的差a)被測者對某樣本的預處理開始前,緊鄰計時,得到時間點trgs;b)被測者對某樣本的預處理結束后,緊鄰計時,得到時間點trpPE;c)計算預處理延時T=tIPE-trs的開始時間與結束時間的差a)被測者針對某樣本推理開始前,緊鄰計時,得到時間點trss;b)被測者針對某樣本推理結束后,緊鄰計時,得到時間點tNE;c)計算推理延時TIx=tINE-tNs后處理延時To時間的差a)被測者對某樣本的后處理開始前,緊鄰計時,得到時間點trros;b)被測者對某樣本的后處理結束后,緊鄰計時,得到時間點trE;c)計算后處理延時Tm=tIPE-trPS始時間與結束時間的時間的總和a)被測者對某樣本的處理開始前,緊鄰計時,得到時間點ts(trs=trps);b)被測者對某樣本的處理結束后,緊鄰計時,得到時間點tre(trpe=trpo);c)計算樣本處理延時Tp=tipe-tIps的時間與處理結束時間的差a)被測者收到樣本最后1字節后,緊鄰計時,得到時間點tois(tors=tniss);b)被測者對某樣本的處理結束后,緊鄰計時,得到時間點torPE(toIPE=tPE);c)計算分派處理延時Top=tipe-toiPs表18推理時間測量方法(續)說明處理超時測試者從發送樣本到收到對應結果的允許的最大時間間隔時間的差為絕對值。處理時間的計法為:存在預處理時,以預處理開始時間計;如不存在,以推理開始時間d因作業到達模式不同,推理總延時T可能包括被測者等待作業的間隔時間。第1個樣本端到端推理用時分派處理延時第1個樣本端到端推理用時分派處理延時(Top)第j個樣本端到端推理用時推理總延時(T,)轉移轉移拷頁拷貝分派預處理推理延時(TN)延時延時處理延時(Tp)端到端推理時間轉移轉移拷貝拷貝第/個樣本后處理結果延時傳送樣本發送R注2:推理的中間結果,可在AI服務器系統內部轉移或拷貝,以便處理。圖2推理時間序推理功耗以功率計算,單位為瓦(W)。推理功耗及測量方法,應符合表19的規定:表19推理功耗測量方法說明機推理平均a)在SUT,配套使用功率計;b)在推理延時(T)期間,周期性測量整機的負載功率;表19推理功耗測量方法(續)說明據預處理平全程中,數據預處理階段的平均功率a)在SUT,配套使用功率計;b)在數據預處理延時(TIp)期間,周期性測量整機的負載功率; (接近)滿負載壓力狀態下的最大瞬時功率a)在SUT,配套使用功率計;b)在數據預處理延時(TI)期間,周期性測量整機的負載功率;群推理平均a)在SUT各節點配套使用功率計;b)在相同時間點,周期性測量每個節點服務器的負載功率;c)相同時間點各節點功率加和為集群瞬時負載功率;7.3.3實際吞吐率實際吞吐率代表人工智能服務器系統對特定推理作業的有效計算能力,提升有效計算能力可達到硬件系統擴容的同樣效果。對視覺類測試,單位是images/s,對自然語言處理類測試,單位是sentences/s。推理相關實際吞吐率及測量方法,應符合表20的規定:表20推理吞吐率測量方法說明推理實際吞吐率AI服務器系統在單位時間a)在整個推理測試過程中(T?內),累計所有實際發送的樣本,及實際返回結果,計算樣本數量;推理有效計算能力(AI服務器系統推理吞吐率綜合加速比)集合S上,實際吞吐率與每任務基線吞吐率之比的加權幾何平均a)對每個場景負載s∈S,使用某特定參照計算率,作為基線;b)對每個場景負載s∈S,使用SUT,在s上測得推理實際吞吐率;c)使用表9“AI服務器系統訓練吞吐率綜合加速比”的公式計算推理能效以額定工作情況下能效比計算。分場景推理能效比指標、單位與測量方法,應符合表21表21推理能效比測量方法說明(幀)數[圖像(幀)數/(s-W)]a)被測者在整個推理測試過程中(T?內),在每個端到端推理時間內,周期性讀取功率計測量值,求出平均功率P;b)測試者累計返回結果的任務圖像(幀)數N;c)測試者累計實際分派處理延時總覆蓋時間Tpp;自然語言任務能效比a)在整個推理測試過程中(T?內),在每個端到端推理時間內,周期性讀取功率計測量值,求出平均功率P;b)累計返回結果的單詞數W;c)累計實際分派處理延時總覆蓋時間TpIp;a)在整個推理測試過程中(T?內),在每個端到端推理時間內,周期性讀取功率計測量值,求出平均功率P;b)累計返回結果的句子數S;c)累計實際分派處理延時總覆蓋時間TP;d)計算語音任務能效比行業任務能效比比計算推理效率是AI服務器系統完成推理任務與代價的比值,單位為每秒千瓦時[1/(s·kWh)]。推理效率及測量方法,應符合表22的規定:表22推理效率測量方法說明效率a)推理結束時,記錄模型在測試集上的實際準確率(具體指標參見場景列表);b)記錄實際分派處理延時總覆蓋時間TDIP;c)記錄Tpp內的能耗Ps;表22推理效率測量方法(續)說明效率理能耗的比值f)記錄實際分派處理延時總覆蓋時間Tp;g)記錄Tp內的能耗Pg;h)計算推理效率:注:AI服務器及集群推理效率的定義,分別參考了[13]當準確率指標(設值為a,a≥0且a≤1)為負向指標(如WER)時,則以(1-a)計。推理彈性單位是百分率每兆字節(%/MB)。推理彈性指標及測量方法,應符合表23的規定:表23推理彈性測量方法說明的數量增加時,分派處理時間的變化a)使用高峰模式;b)被測者記錄,每單位時間內,收到的樣本數據總量分派處理時間;c)當第i+1個單位時間收到的樣本數據總量>第i個單位時間內收到的樣本數據總量時,計算區間(i,i+1)的推理彈性:式中:7.3.7承壓力表24推理承壓力測量方法說明被測AI服務器系統在并發壓力門限[單位為兆字節(MB/s)]以上a)使用高峰模式;期間已處理的樣本數據總量;的比值注2:針對不同場景,實際吞吐率可使用7.3.3規定的指標。視頻分析最大路數,單位是“路”,指標及測量方法,應符合表25的定義:說明能承受的最大路數用解碼器(軟件或硬件實現);初始值為1,每個作業含有1幀(1個圖像樣本);結果,則將n的值調整為(n+1);e)重復步驟a)和b),直至有任1路視頻無法在規可使用視覺類模型,如表14-表17規定的圖像識別、物體檢測、語義分割、OCR或人a)應能自動檢測服務器或接收手動填表的被c)應能接收推理結果并為完成計算指標實現必要的功能,包含:2)作業超時(丟失)率門限檢查;d)應能使用機器學習框架,AI服務器系統提供的使能軟件函數庫及其他必要信息,完成7.3規定指標的測量,提供指標計算函數;e)應至少能實施7.2.3規定的場景的測試;f)應支持數據類型,符合6.4.1d)的規定;g)應支持配置了容器或使用虛擬化組件的AI服務器系統的性能測試;h)測試完成后應能完全卸載,不殘留任何測試組件(不含測試數據);i)應提供日志函數,日志所含內容及格式符合7.1.3b)6)的規定;j)應支持測試者對測試過程的管理和監測,包含但不限于:1)推理過程子階段的開始或完成事件,包含:·推理結果數據上傳及其完成;2)推理結果數據,符合7.1.3b)的規定;3)測試者對重測的允許及次數控制;4)能提供證據輔助測試者實施測試結果的有效性判定,或自動判定;k)在提前獲得測試項目授權后,應支持被測者在測試期內的任意時間發起測試;1)應能在測試者,為不同測試項維護獨立的結果數據目錄;m)應能支持本地測試(測試者不介入的測試,如預測試、系統調試等)及遠程測試(測試者介入)。7.4.2公平性保障要求應提供策略及實現,包含但不限于6.4.2規定的項目。其中,對推理結果的要求符合7.1.3b)。(規范性)測試代碼公開規則A.1通則測試代碼公開,應按以下規則執行:a)測試代碼公開流程,包含:1)公開條件檢查:測試者確認測試結果有效性,應符合6.1.3及7.1.3的規定;2)公開協議檢查:代碼公開前,按協議檢查并實施公開事項。未簽署協議的,按本文件的規3)代碼公開:公布于測試者與被測者商定的場所或網絡媒體;4)結束公開:在規定的公開周期后,結束公開,原公開場所、媒體上,代碼將不可訪問。代碼結束公開時,代碼公開協議即告結束。b)公開義務:1)測試代碼可向測試者及組織成員公開。具備合法訪問權限時,組織、成員應能瀏覽、下載;2)被測者不負責向測試者及組織成員之外的機構、團體、企業及個人解釋、講解代碼原理或實施結果復現事項;3)已達成協議的不公開部分,不應公開;4)測試代碼公開,可不包含:——被測者私有的工具源碼(如模型格式轉化、部署),該源碼功能不含a提出的項目;——被測者使用的公共網絡可見的程序源碼,但需在測試代碼中注明(如://ref:[源碼包名_版本,地址])。A.2訓練測試代碼公開規則訓練測試代碼公開,應在符合A.1規定的基礎上,包含以下功能的實現:b)測試工具函數調用(含指標計算,計時,日志,測試起止,校驗等);c)日志生成;d)訓練數據獲取;e)訓練數據讀入;f)訓練數據預處理;g)訓練啟動過程(含學習率調整);h)訓練過程(含epochs循環,損失函數調用,精度轉化(如實施),模型、數據(在被測系統內)傳輸指令等);i)配置文件;j)模型保存。A.3推理測試代碼公開規則推理測試代碼公開,應在符合A.1規定的基礎上,附加包含以下功能的實現代碼:a)測試工具約定的待實現部分(如能耗計量,數據提供,結果取出等);b)測試工具函數調用(含作業到達模式,計時,日志,測試起止,校驗等);c)推理過程;f)數據預處理(如實施了預處理);g)數據后處理(如實施了后處理);i)模型格式轉化(至少應公開調用語句);j)模型部署(至少應公開調用語句);(資料性)測試場景說明B.1圖像識別圖像識別是利用計算機處理、分析和理解圖像的過程,以識別圖像中的目標和對象。圖像識別過程的輸入一般是特定格式的圖像,輸出可包含圖像的類別(假設已有預先定義的類別集合),特性(如物體的顏色,人的性別、年齡等)或其他業務邏輯所關心的信息。圖像識別,廣泛的應用于各類視覺系統 (如安檢,工業制造流水線,農業養殖,電力巡檢,醫療診斷等)。人工智能服務器系統對圖像識別過程的加速能力,對提升視覺系統的應用效率具有意義。B.2物體檢測物體檢測是計算機對給定的圖片或視頻幀,自動識別已知物體并標識物體在圖像中的位置(一般使用矩形框及坐標)的過程。物體檢測的輸入一般是特定格式的圖像或視頻幀,輸出可為已知物體位置信息。物體檢測,廣泛應用于各類視覺系統(如交通,(空拍)圖像分析,分揀流水線等)。人工智能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025商業辦公裝修合同協議范本
- 2025藝人經紀合同范本(與經紀人簽訂)
- 2025合作協議 合同范本
- 2025二手店面交易合同模板
- 2025企業茶葉批發合同
- 湖南省湘一名校聯盟2024-2025學年高一下學期4月期中聯考政治試題(原卷版)
- 基礎護理皮試說課
- 超聲護理方案
- 酒店安全知識培訓
- 大一自我鑒定總結模版
- 【中考真題匯編】專項查漏補缺現代文閱讀-2025年中考語文(含答案)
- 手表質押借款協議書
- 《流感中醫治療》課件
- 2025河南省水利第一工程局集團有限公司招聘49人筆試參考題庫附帶答案詳解
- 2025四川西南發展控股集團有限公司招聘工作人員65人筆試參考題庫附帶答案詳解
- 醫院培訓課件:《走進康復》
- 《智能電網計量裝置》課件
- 2025年河南省鄭州市外國語中學高考生物三模試卷含解析
- (三模)溫州市2025屆高三第三次適應性考試英語試卷(含答案)
- 美團代運營合同協議模板
- 同型半胱氨酸試題及答案
評論
0/150
提交評論