




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、ICS 33.050.20M 30電信終端產業協會標準T/TAF 063-2020移動智能終端人工智能性能基準測試方法Benchmark Test Methods for AI Performance of Intelligent Terminal2020- 08 - 04 發布2020 - 08 - 04 實施電信終端產業協會 發布T/TAF 063-2020 PAGE * ROMAN III目 次 HYPERLINK l _bookmark0 目 次I HYPERLINK l _bookmark1 前 言II HYPERLINK l _bookmark2 引言III HYPERLINK l
2、 _bookmark3 標動智能終端人工智能性能基準測試方法1 HYPERLINK l _bookmark4 范圍1 HYPERLINK l _bookmark5 規范性引用文件1 HYPERLINK l _bookmark6 文件清單的排列順序:1 HYPERLINK l _bookmark7 術語和定義1 HYPERLINK l _bookmark8 神經網絡模型1 HYPERLINK l _bookmark9 推理集1 HYPERLINK l _bookmark10 端側人工智能推理框架1 HYPERLINK l _bookmark11 模型轉換工具2 HYPERLINK l _book
3、mark12 深度學習編譯器2 HYPERLINK l _bookmark13 基準測試例2 HYPERLINK l _bookmark14 終端硬件2 HYPERLINK l _bookmark15 測試概述2 HYPERLINK l _bookmark16 測試構架2 HYPERLINK l _bookmark17 通用測試方法3 HYPERLINK l _bookmark18 性能指標監測3 HYPERLINK l _bookmark19 圖像處理測試方法3 HYPERLINK l _bookmark20 圖像分類測試方法3 HYPERLINK l _bookmark21 人臉識別測試方
4、法4 HYPERLINK l _bookmark22 目標語義分割測試方法5 HYPERLINK l _bookmark23 圖片超分辨率測試方法6 HYPERLINK l _bookmark24 目標檢測測試方法7 HYPERLINK l _bookmark25 視頻處理測試方法8 HYPERLINK l _bookmark26 視頻目標檢測測試8 HYPERLINK l _bookmark27 附 錄 A (規范性附錄) 標準修訂歷史9 HYPERLINK l _bookmark28 附 錄 B 圖像語義分割測試類別9 HYPERLINK l _bookmark29 附 錄 C 圖像超分辨
5、率測試推斷集10 HYPERLINK l _bookmark30 附 錄 D 目標檢測類別10 HYPERLINK l _bookmark31 參考文獻13前 言本標準按照 GB/T-2009 給出的規則起草。本標準中的某些內容可能涉及專利。本標準的發布機構不承擔識別這些專利的責任。本標準由電信終端產業協會提出并歸口。本標準起草單位:中國信息通信研究院、維沃移動通信有限公司、OPPO廣東移動通信有限公司本標準主要起草人:解謙,盧炳全,高立發,賈利敏引言隨著人工智能的飛速發展,為滿足低響應時間,高安全可靠性以及在任意使用環境下(如無網絡) 使用AI場景,一部分AI應用將以部署在終端設備的方式運行
6、,如移動智能手機,平板電腦等。一款智 能移動終端AI處理性能的好壞,一般可以通過基準測試的方式衡量。本標準基于移動終端推理框架技 術,提出一個合理、公平,能反映出終端實際的AI處理能力的基準測試方法,包括對AI基準測試在不 同應用場景的數據集的技術要求,測試方法和評測指標,旨在讓終端AI處理性能測試得到可靠的,可 比較的,能體現終端AI處理能力差異的評測結果,推動智能移動終端向AI終端發展。T/TAF 063-2020 PAGE 13移動智能終端人工智能性能基準測試方法范圍本標準規定了通過使用端側人工智能推理框架在移動智能終端側進行推理計算的基準測試的方法,可以對終端基于神經網絡模型的計算性能
7、進行評估。評測場景包括圖像處理、視頻處理等不同場景,針對不同場景測試集,測試方法和評測指標提出要求。本標準適用于具備智能操作系統的移動智能終端,包括數字移動電話機,平板電腦以及其他數字移動通信終端設備。規范性引用文件下列文件對于本標準的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本標準。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本標準。文件清單的排列順序:a)國家標準; b)行業標準; d)國內有關文件;e)國際標準(含ITU標準、ISO/IEC標準等); f)ISO或IEC有關文件;g)其他國際標準以及其他國際有關文件。術語和定義神經網絡模型封裝了神經網絡算
8、法和參數的特定格式的文件,用于人工智能計算。本標準的神經網絡模型應為經過訓練且達到一定準確率的模型。推理集作為人工智能推理計算的輸入數據集,可以為圖片,視頻等格式的數據或文件。端側人工智能推理框架端側人工智能推理框架部署在移動智能終端上,通常由模型轉換工具和深度學習編譯器組成。端側人工智能推理框架可以分為通用框架和專用框架,通用框架能跨平臺運行,能在多種芯片平臺上運行的人工計算,如TensorFlow Lite,Paddle Lite等。專用框架指僅能在指定的部分芯片平臺上運行的人工智能計算,如SNPE,HiAI等。在測試過程中需要指明使用的端側人工智能推理框架。模型轉換工具模型轉換工具能將輸
9、入的神經網絡模型,根據移動終端特點進行剪裁壓縮和優化,具有減小模型體積、優化算法操作和參數精度等功能。深度學習編譯器用于解決深度神經網絡模型在使用不同底層硬件計算芯片計算的適配等問題,為上層應用的執行提供硬件加速能力。基準測試例基準測試例為指定測試場景下,使用神經網絡模型推理算法對推理測試集進行推理測試的測試例。終端硬件參與人工智能處理的硬件,包括CPU、GPU、AI硬件加速單元,內存、電池等。測試概述測試構架基準測試指通過運行一段(一組)程序或者操作,來評測終端相關性能的活動。移動智能終端人工智能性能基準測試指通過端側人工智能推理框架,運行不同的神經神經網絡模型和測試負載進行推理運算,以此來
10、綜合評價測試對象的AI計算性能。移動智能終端人工智能性能基準測試包括圖像處理、視頻處理測試。具體測試框架如下,見圖1:終端硬件深度學習編譯器推斷集神經網絡模型基準測試例模型轉換工具電池內存DSPNPUGPUCPU性能指標監測端側人工智能推理框架圖1 人工智能基準測試構架圖 1 移動智能終端人工智能性能基準測試構架通用測試方法移動智能終端初始化,包括屏蔽測試無關的其他應用、后臺功能、調整屏幕亮度、記錄初始電量等,使得每次測試前終端的運行狀態保持一致;使用模型優化工具將預訓練的模型文件離線轉換為移動智能終端上可以直接運行的模型文件, 并進行優化;將測試例推理集的圖像或視頻資源進行縮放、通道轉換等預
11、處理工作;將預處理的測試圖像或視頻資源輸入優化后的模型進行推理測試;測試過程中通過軟件方式或其他方式記錄模型指標和硬件性能指標。性能指標監測性能指標包括檢測人工智能推斷計算性能的模型性能指標和硬件性能指標。模型性能指標參見第5 章內容。硬件性能指標為通用測試指標包括功耗,內存,CPU等,具體為:功耗為測試過程中損失的電量百分比;內存平均占用為測試過程中測試工具占用的平均內存量;測試過程中CPU平均使用率(可選);測試過程中的CPU平均工作溫度(可選);測試過程中電池平均工作溫度(可選)。圖像處理測試方法圖像分類測試方法測試編號1測試名稱圖像分類測試測試描述根據各自在圖像信息中所反映的不同特征,
12、把不同類別的目標區分開來的圖像處理方法。推理集要求推理集應由公開渠道可自由獲取的非商業用途圖片數據構成,可選的公開數據集包括如下圖片集:CIFAR-100;Caltech_256;ImageNet。進行基準測試時,應從公開數據集的測試集中隨機抽取10000張圖片,分類類型不少于100類。模型要求評測模型可以選擇下表所列深度學習模型:Inception v3;MobileNet V1。測試步驟1) 加載數據集中的圖片到終端內存,并完成圖像縮放、通道轉換等預處理工作;評測軟件記錄本次圖片推理前的時間戳;將內存中預處理后的數據輸入推理模型;記錄模型輸出結果和該時刻的時間戳;重復步驟a)-d,直到數據
13、集所有圖片完成測試,輸出記錄,計算指標;測試需要使用 float 精度或 int 精度的模型分別進行測試。測試指標TOP1準確率( 在一次推理結果分類排序中,只有當概率最高的結果為正確分類,本次推理結果才能判定為正確,統計所有圖片的推理結果,用正確推理圖片數量除以圖片總數,得到TOP1準確率。TP1:推理結果中,Top1 分類正確的圖片數量; FN1:推理結果中,Top1 分類不正確的圖片數量。TOP5準確率( 單位:%),在一次推理結果分類排序中,概率排名前五的結果中包含正確的分類,本次推理結果判定為正確,統計所有圖片的推理結果,用正確推理圖片數量除以圖片總數,得到TOP5準確率。TP5:推
14、理結果中,Top5 分類正確的圖片數量; FN5:推理結果中,Top5 分類不正確的圖片數量。單張圖片推理時間(單位:毫秒):記錄一組圖片推理總耗時, 計算出單張圖片平均推理時間:TN:一組圖片推理總耗時;N:該組圖片數量。人臉識別測試方法測試編號2測試名稱人臉識別測試測試描述針對人臉照片進行特征提取和比對,并根據終端的平均處理時長,量化移動終端的性能。推理集要求推理集應由公開渠道可自由獲取的非商業用途圖片數據構成,可選的公開數據集包括如下圖片集:Labeled Faces in the Wild Home (LFW)MegaFacePubFig: Public Figures Face Da
15、tabaseColorferet進行基準測試時,應從公開數據集的測試集中隨機抽取10000組,選取對象按照不同年齡段和不同性別兩個維度選取,至少包括男性兒童,女性兒童,男性成人,女性成人,男性老人,女性老人。模型要求評測模型可以選擇下表所列深度學習模型:1.facenet測試步驟選取符合要求的推理集作為測試樣例,建立對應的文件列表;將文件列表送入對比識別算法程序,開始執行程序;從推理算法程序讀取文件列表時開始計時,記錄200組圖片對比完成所需要的時間和對比結果;與數據庫中的圖像關系對比,計算測試樣例的正確通過率,錯誤接受率。統計錯誤率,錯誤接受率為百萬分之一,千分之一,萬分之一處的正確通過率;
16、測試需要使用 float 精度或 int 精度的模型分別進行測試。測試指標正確通過率(Pass Rate,PR,單位:%)在真實的驗證過程中(正確指紋)同一個人的樣本被判斷為同一個人的比對次數占總比對次數的比例:TP:同一個人的樣本對被判斷為同一個人的比對次數; FN:同一個人的樣本對被判為不同人的比對次數。錯誤接受率(False Acceptance Rate,FAR,單位:%)在冒充攻擊嘗試(錯誤指紋)中被錯誤接受的比例:FAR=FP100% TN+FPFP:不同人的樣本對被判為同一個人的比對次數; TN:不同人的樣本對被判為不同人的比對次數。單張圖片推理時間( 單位:毫秒):記錄200組
17、圖片推理總耗時, 計算出單張圖片平均推理時間:TN:一組圖片推理總耗時;N:該組圖片數量。目標語義分割測試方法測試編號3測試名稱圖像語義分割測試測試描述圖像語義分割(Image Semantic Segmentation)融合了傳統的圖像分割和目標識別兩個任務,將圖像分割成一組具有一定語義含義的塊,并識別出每個分割塊的類別,最終得到一幅具有逐像素語義標注的圖像。推理集要求推理集應由公開渠道可自由獲取的非商業用途圖片數據構成,可選的公開數據集包括如下圖片集:1. PASCAL VOC2012進行基準測試時,應從公開數據集的測試集中隨機抽取1000張,至少包括附錄B的分類。模型要求評測模型可以選擇
18、表所列深度學習模型:unet;deeplabv3。測試步驟使用訓練好的神經網絡算法對推理集圖片進行語義分割:測試過程記錄每個數據的推導時間(入口和出口時間差);IoU計算方法:分別加載標注圖和結果圖;根據標注的對象顏色和結果圖中對象顏色,統計顏色吻合的像素點;根據標注對象顏色和結果圖對象顏色,統計色塊像素;根據統計結果計算IoU;其他分類范圍也用相同的方式分別計算IoU;測試需要使用float精度或int精度的模型分別進行測試。測試指標分割類別支持分割的對象類別,記錄識別出超出推理集要求的種類個數和少于推理集要求的種類個數之和。測試集的平均mIoU:IoU: Intersection over
19、 Union,用于評價單一目標上檢測的準確度。 IoU 為推理結果區域與實際目標區域的交集比并集。單張圖片推理時間( 單位:毫秒):記錄一組圖片推理總耗時, 計算出單張圖片平均推理時間:TN:一組圖片推理總耗時N:該組圖片數量圖片超分辨率測試方法測試編號4測試名稱圖片超分辨率測試測試描述指由一幅低分辨率圖像或圖像序列恢復出高分辨率圖像。推理集要求推理集應由公開渠道可自由獲取的非商業用途圖片數據構成,可選的公開數據集見附錄C。進行基準測試時,應從公開數據集的測試集中隨機抽取10000張圖片。模型要求評測模型可以選擇下表所列深度學習模型:SRCNNvdsr測試步驟依據具體的使用場景先將推斷集圖片壓
20、縮,然后使用訓練好的神經網絡算法對壓縮圖片進行超分放大。測試過程記錄每個數據的推導時間(入口和出口時間差);使用超分放大圖片和原始圖片質量計算評測指標;測試需要使用float精度或int精度的模型分別進行測試。測試指標PSNR(峰值信噪比)值NMSE 1 (x(i) y(i)2N i1L2 PSNR 10*log10 ( MSE )x(i), y(i) :圖像 x,y 像素值;L :像素值的動態范圍,一般取255;N : 圖像 x,y 的像素數( x,y 分辨率相同)。SSIM(結構相似度)值(2 +C )(2 +C )SSIM (x, y) x y1xy2(2 + 2 +C )( 2 + 2
21、 +C )xy1xy2x , y :圖像 x,y 的均值; 2 , 2 :圖像 x,y 的方差;xy xy :圖像 x,y 的協方差;c (k L)2 , c (k L)2 :用來維持穩定的常數, L 是像素值的動態范1122圍,一般取255, k1 0.01, k2 0.03 。單張圖片推理時間( 單位:毫秒):記錄一組圖片推理總耗時, 計算出單張圖片平均推理時間:TN:一組圖片推理總耗時N:該組圖片數量目標檢測測試方法測試編號5測試名稱目標檢測測試測試描述目標檢測,也稱為目標提取,是一種基于目標幾何和統計特征的圖像分割技術。其綜合了圖像分割和識別,能夠提取圖片中的對象類別以及具體位置信息。
22、推理集要求推理集應由公開渠道可自由獲取的非商業用途圖片數據構成,可選的公開數據集包括如下圖片集:1. COCO進行基準測試時,應從公開數據集的測試集中隨機抽取10000張圖片,分類類型見附錄D,每類隨機選取20張樣本圖片。模型要求評測模型可以選擇下表所列深度學習模型:MobileNetV2-SSD,ResNet-SSD.測試步驟加載數據集中1張圖片到終端內存,并完成圖像縮放、通道轉換等預處理工作;評測軟件記錄本批次圖片推理前的時間戳;將內存中預處理后的數據單張輸入推理模型;記錄模型輸出結果和該時刻的時間戳;重復步驟a)-d,直到數據集所有圖片完成測試,輸出記錄,計算指標;測試需要使用float
23、精度或int精度的模型分別進行測試。測試指標 HYPERLINK mailto:鍑嗙搴AP0.5 準確度 mAP0.5 :在IoU閾值為0.5的前提下,在所有類別上的mAP值。mAP: Mean Average Precision,用于評價在全部測試樣本上的準確度。與 IoU 設置緊密相關。IoU: Intersection over Union,用于評價單一目標上檢測的準確度。 IoU 為推理結果區域與實際目標區域的交集比并集。單張圖片推理時間(單位:毫秒):記錄一組圖片推理總耗時,計算出單張圖片平均推理時間:TN:一組圖片推理總耗時;N:該組圖片數量。視頻處理測試方法視頻目標檢測測試測試編
24、號7測試名稱對視頻中的內容進行目標檢測處理測試描述根據各自在圖像信息中所反映的不同特征,把不同類別的目標區分開來的圖像處理方法。推理集要求拍攝一段有代表性的3分鐘街景視頻,確保內容明確、目標豐富。將視頻幀進行人工切割和目標標注,以此形成最終視頻輸入樣本。至少包括建筑,汽車,行人,交通指示牌。模型要求見 6.5測試步驟按每幀將視頻中的圖像取出進行處理;其余測試方法參考5.6。測試指標速度FPS:Frame Per Second,每秒鐘最大能處理的圖片張數。 HYPERLINK mailto:鍑嗙搴AP0.5 準確度 mAP0.5 :在IoU閾值為0.5的前提下,在所有類別上的mAP值。mAP:
25、Mean Average Precision,用于評價在全部測試樣本上的準確度。與 IoU 設置緊密相關。IoU: Intersection over Union,用于評價單一目標上檢測的準確度。 IoU 為推理結果區域與實際目標區域的交集比并集。附 錄 A(規范性附錄) 標準修訂歷史修訂時間修訂后版本號修訂內容附 錄 B圖像語義分割測試類別序號父類子類1人(Person)人(person)2動物(Animal)鳥(bird)3動物(Animal)貓(cat)4動物(Animal)牛(cow)5動物(Animal)狗(dog)6動物(Animal)馬(horse)7動物(Animal)羊(Sh
26、eep)8交通工具(Vehicle)飛機(aeroplane)9交通工具(Vehicle)自行車(bicycle)10交通工具(Vehicle)船(boat)11交通工具(Vehicle)巴士(bus)12交通工具(Vehicle)車(car)13交通工具(Vehicle)摩托車(motorbike)14交通工具(Vehicle)火車(train)15Indoor(室內家具)瓶子(bottle)16Indoor(室內家具)椅子(chair)17Indoor(室內家具)餐桌(dining table)18Indoor(室內家具)盆栽(potted plant)19Indoor(室內家具)沙發(s
27、ofa)20Indoor(室內家具)電視/監視器(tv/monitor)附 錄 C圖像超分辨率測試推斷集序號數據集名稱數量分辨率格式種類1BSDS300300(435,367)JPG動物,建筑,食物,風景,人物,植物等2BSD500500(432,370)JPG動物,建筑,食物,風景,人物,植物等3DIV2K1000(1972,1437)PNG環境,植物,動物,手工制品,人物,風景等4General-100100(435,381)BMP動物,日用品,食物,人物,植物,地質等5L2020(3843,2870)PNG動物,建筑,風景,人物,植物等6Manga109109(826,1169)PNG漫
28、畫7OutdoorScene10624(553,440)PNG動物,建筑,草,山,植物,天空,水8PIRM200(617,482)PNG環境,植物,自然風景,人物等9Set55(313,336)PNG小孩,鳥,蝴蝶,頭,女人10Set1414(492,446)PNG人類,動物,昆蟲,花,蔬菜,漫畫等11T9191(264,204)PNG車,花,水果,人臉等12Urban100100(984,797)PNG建筑,城市,結構等附 錄 D 目標檢測類別序號COCO類別編號目標類別父類11人 person人 Person22自行車 bicycle交通工具 Vehicle33汽車 car交通工具 Vehicle45飛機 airplane交通工具 vehicle57火車 train交通工具 vehicle69船 boat交通工具 vehicle710交通信號燈 traffic light室外 outdoor811消防栓 fire hydrant室外 outdoor912路標 street sign室外 outdoor1013停止標識 stop sign室外 outdoor1116鳥 bird動物 animal1217貓 cat動物 animal1318狗 dog動物 animal1419馬 horse動物 animal1520羊 sheep動物 animal1626帽子
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《故障診斷的革新進步》課件
- 《小學家校合作》課件
- 《電路圖元件繪制》課件
- 2025標準合同范本下載「合同版」
- 一年級下冊美術教學設計-動物的花衣裳-嶺南版
- 2025年三亞c1貨運從業資格證考試內容
- 2025版加盟代理合同書
- 2025年襄陽貨運資格證考試題答案
- 一年級上冊科學教學設計-13《常見材料》冀教版
- 2025年百色貨運從業資格證考試題及答案
- GB/T 3091-2025低壓流體輸送用焊接鋼管
- 豬場買賣合同協議
- 【9語一模】2025年安徽合肥市第四十五中學九年級中考一模語文試卷(含答案)
- 啤酒分銷合同協議
- SL631水利水電工程單元工程施工質量驗收標準第2部分:混凝土工程
- 直銷隊管理制度
- 股份代持協議合同6篇
- 2024-2025學年蘇教版七年級生物下冊知識點復習提綱
- DB32-T 5082-2025 建筑工程消防施工質量驗收標準
- 貴州貴州路橋集團有限公司招聘考試真題2024
- NB-T 47013.1-2015 承壓設備無損檢測 第1部分-通用要求
評論
0/150
提交評論