CESA-2022-039-《人工智能 邊端設備模型部署工具鏈功能要求》團體標準(征求意見稿)_第1頁
CESA-2022-039-《人工智能 邊端設備模型部署工具鏈功能要求》團體標準(征求意見稿)_第2頁
CESA-2022-039-《人工智能 邊端設備模型部署工具鏈功能要求》團體標準(征求意見稿)_第3頁
CESA-2022-039-《人工智能 邊端設備模型部署工具鏈功能要求》團體標準(征求意見稿)_第4頁
CESA-2022-039-《人工智能 邊端設備模型部署工具鏈功能要求》團體標準(征求意見稿)_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.020

CCSL70

團體標準

T/CESAXXXX—202X

人工智能邊端設備模型部署工具鏈功能

要求

Artificialintelligence-Functionalrequirementsofedgeandterminaldevicemodel

deploymenttoolchain

征求意見稿

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

已授權的專利證明材料為專利證書復印件或扉頁,已公開但尚未授權的專利申請

證明材料為專利公開通知書復印件或扉頁,未公開的專利申請的證明材料為專利申請

號和申請日期。

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電子工業(yè)標準化技術協(xié)會??發(fā)布

T/CESAXXXX—202X

前言

本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定

起草。

本文件由中國電子技術標準化研究院提出。

本文件由中國電子工業(yè)標準化技術協(xié)會歸口。

本文件起草單位:

本文件主要起草人:

版權保護文件

版權所有歸屬于該標準的發(fā)布機構,除非有其他規(guī)定,否則未經許可,此發(fā)行物及其章節(jié)不得以其

他形式或任何手段進行復制、再版或使用,包括電子版,影印件,或發(fā)布在互聯(lián)網及內部網絡等。使用

許可可于發(fā)布機構獲取。

III

T/CESAXXXX—202X

人工智能邊端設備模型部署工具鏈功能要求

1范圍

本文件給出了邊端設備模型部署工具鏈的組成框架,規(guī)定了其功能要求。

本文件適用于人工智能領域深度學習模型在邊端設備實時性運行能力的設計、研發(fā)、推廣和應用。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.34信息技術詞匯第34部分:人工智能神經網絡

GB/T41867-2022信息技術人工智能術語

3術語和定義

GB/T5371.34和GB/T41867-2022界定的以及下列術語和定義適用于本文件。

3.1

邊端設備Edge-terminaldevice

邊側與端側設備,一類低資源、低功耗的硬件設備,包括輕量級操作系統(tǒng)以及控制器、計算單元。

示例:可穿戴設備、智能相機、機器人、IoT設備。

3.2

模型部署modeldeployment

將神經網絡模型以硬件語言編譯并運行到硬件設備的流程。該流程包括模型壓縮、模型轉換、計

算圖優(yōu)化、編譯優(yōu)化。

3.3

模型壓縮modelcompression

減小神經網絡模型規(guī)模,提高神經網絡模型運行和推理效率的方法。

3.4

工具鏈toolchain

一套針對神經網絡模型進行模型壓縮、模型轉換、圖優(yōu)化、編譯優(yōu)化等流程的軟件工具組合。

3.5

深度神經網絡/深度模型/模型(簡稱)deepneuralnetwork/deepmodel/model

一類由輸入層、隱藏層、輸出層組成的深度學習的基礎網絡結構,該結構是深度學習的基礎。

3.6

計算圖computationalgraph

一種采用有向無環(huán)圖表示的計算邏輯流程,主要包括邊與節(jié)點。邊表示變量,節(jié)點表示邏輯操作。

3.7

算子operator

一類進行特定運算的計算單元,深度學習中特指每一層的數(shù)值和張量運算單元。

3.8

特征圖featuremap

在處理輸入數(shù)據(jù)的過程中,神經網絡中間各層的輸出結果,表征神經網絡中間各層對輸入數(shù)據(jù)的轉

換過程。

3.9

量化感知訓練quantizationawaretraining(QAT)

1

T/CESAXXXX—202X

量化感知訓練是通過對模型插入用于模擬量化推理運算邏輯的偽量化算子,通過梯度下降等優(yōu)化方

式在原始浮點模型上進行微調,從而得到量化后精度符合預期的模型。

3.10

訓練后量化posttrainingquantization(PTQ)

訓練后量化主要是通過少量校準數(shù)據(jù)集獲得網絡的激活值分布,通過統(tǒng)計方式或者優(yōu)化浮點和定點

輸出的分布來獲得量化參數(shù),從而獲取最終部署的模型。

4縮略語

下列縮略語適用于本文件。

AI:人工智能(ArtificialIntelligence)

CPU:中央處理器(CentralProcessingUnit)

GPU:圖形處理器(GraphicProcessingUnit)

NPU:神經網絡處理器(Neural-networkProcessingUnit)

DSP:數(shù)字信號處理器(DigitalSignalProcessor)

SIMD:單指令多數(shù)據(jù)流(SingleInstructionMultipleData)

ASM:匯編語言(AssemblyLanguage)

5組成框架

5.1概述

邊端設備模型部署工具鏈面向提升深度神經網絡在邊端設備實時性運行能力,從模型訓練到部署的

端到端全鏈路優(yōu)化,即通過模型壓縮模塊,將深度神經網絡模型中的冗余去除,減少模型尺寸,實現(xiàn)對

模型的壓縮。模型轉換模塊,將壓縮后模型轉換成推理所需格式。在推理加速模塊,解析轉換的模型格

式,將模型進行圖優(yōu)化操作,并進行運行優(yōu)化、結合硬件計算單元從而加速模型推理并降低硬件功耗。

輔助功能模塊主要是提供模型部署過程所需的基本運維,測試驗證,輔助用戶使用工具鏈。組成框架如

圖1所示,邊端設備模型部署工具鏈由模型壓縮模塊、模型轉換模塊、推理加速模塊和輔助功能模塊組

成。圖2展示了部署工具鏈流程。

2

T/CESAXXXX—202X

圖1邊端設備模型部署工具鏈組成框架

圖2工具鏈的流程

3

T/CESAXXXX—202X

5.2模型壓縮模塊

5.2.1概述

模型壓縮模塊是將深度模型中的冗余部分找到并進行刪減,從而降低深度模型的運算量及節(jié)約內存

使用。該框架主要包括三層,多深度學習訓練框架適配層,壓縮算法適配層,多模式訓練接口層。

5.2.2多深度學習訓練框架適配層

模型壓縮模塊易適配多種主流訓練框架,根據(jù)不同訓練框架的數(shù)據(jù)接口、梯度更新、損失函數(shù)、計

算圖存儲方式等相關方面的API進行適配,從而對不同訓練框架進行支持及擴展。通過實現(xiàn)接口來適配

多種訓練框架。

5.2.3壓縮算法適配層

5.2.3.1概述

壓縮算法適配層是采用主流深度學習壓縮技術對深度模型進行壓縮處理的接口層,應支持剪枝、量

化、知識蒸餾功能模塊。同時,易支持低秩分解、網絡結構搜索、超參數(shù)搜索、權重矩陣稀疏化以及自

定義算法適配的功能。

5.2.3.2模型剪枝

模型剪枝是通過刪除對性能敏感度低的冗余的權重參數(shù)從而實現(xiàn)了深度模型參數(shù)下降的方式。其主

流方式可分為非結構化剪枝及結構化剪枝。非結構化剪枝是對任意單一權重進行評估,剪枝后的權重矩

陣是以稀疏矩陣形式存儲,不利于并行計算。結構化剪枝是以一個卷積核為單位,剪枝后的深度神經網

絡仍保持原始結構,適用于并行計算。因而,剪枝有助于降低模型尺寸大小,減少計算時間及能耗。

5.2.3.3模型量化

模型量化主要是將原始權重為浮點類型的深度神經網絡轉換映射為權重為定點類型的深度神經網

絡。對權重的量化可以降低權重表達位的使用,因而可以降低其存儲空間。同時,終端推理設備存在專

用的定點計算單元,通過低比特指令實現(xiàn)的低精度算子,使量化神經網絡運行速度提升。量化技術主要

分為量化感知訓練以及訓練后量化。量化感知訓練是通過對模型插入用于模擬量化推理運算邏輯的偽量

化算子,通過梯度下降等優(yōu)化方式在原始浮點模型上進行微調,從而得到量化后精度符合預期的模型。

訓練后量化主要是通過少量校準數(shù)據(jù)集獲得網絡的激活值分布,通過統(tǒng)計方式或者優(yōu)化浮點和定點輸出

的分布來獲得量化參數(shù),從而獲取最終部署的模型。

5.2.3.4模型知識蒸餾

知識蒸餾利用性能更好的教師網絡的監(jiān)督信息來訓練學生網絡,使其達到更好的精度性能通過知識

蒸餾,可以獲得精度更高的輕量的學生網絡,從而降低計算成本。

注:教師網絡是一個大型的、性能強的模型。學生網絡是相對教師網絡的一個小型的、性能差的模

型。

5.2.3.5權重矩陣低秩分解

原權重矩陣具有維數(shù)和秩,則滿秩矩陣可以分解為一個的權重矩陣和一個的權重矩陣。該方法通過

將大矩陣分解為小矩陣,以減小模型的尺寸。

5.2.4多模式訓練接口層

多模式訓練是指可支持多種訓練的資源使用的方式,在不同資源訓練場景下完成單個或多個進程之

間數(shù)據(jù)傳輸。其主要可分為單卡、多卡以及分布式訓練。其中單卡和多卡一般是指本地單機,分布式訓

練是指多卡多機方式。

5.3模型轉換模塊

為實現(xiàn)模型在邊端設備上的推理加速,模型轉換模塊指將使用不同深度學習框架訓所得的模型轉換

成推理框架所支持模型格式的功能結構。

4

T/CESAXXXX—202X

模型轉換模塊包括但不限于以下實現(xiàn)方式:

——直接將輸入的模型轉換成目標框架的模型格式;

——通過開放式的神經網絡轉換框架,例如,ONNX。

5.4推理加速模塊

5.4.1概述

推理加速模塊是將深度神經網絡在不同的邊端設備上進行編譯和部署,從而實現(xiàn)推理加速。推理加

速模塊主要由計算圖優(yōu)化適配層、算子適配層、算子庫、編譯器模塊、運行時模塊、后端加速庫組成。

注:運行時包括對接邊端設備的內存分配模塊、調度與執(zhí)行模塊。

5.4.2計算圖優(yōu)化適配層

計算圖優(yōu)化適配層是對模型的網絡結構進行優(yōu)化的功能結構層,包括但不限于以下優(yōu)化方式:

——算子融合;

——算子轉換;

——算子替代;

——算子剔除。

計算圖優(yōu)化一般在編譯前完成。

注:算子通過合并冗余的算子節(jié)點,轉換某些框架不支持或者實現(xiàn)效率較低的算子操作、剔除無用的算子節(jié)點等方

式降低網絡結構的復雜度,降低資源消耗,提升推理速度。

5.4.3算子適配層

算子適配層是對深度神經網絡中的各個算子在部署到邊端硬件設備時,根據(jù)不同邊端硬件AI加速推

理庫進行選擇適配。

5.4.4算子庫

算子庫包含深度神經網絡中各種算子的集合模塊。

示例:常見算子包括conv2d、relu、batch_norm等。

5.4.5編譯器模塊

將推理過程中的中間代碼(IR)轉換成二進制匯編文本。

5.4.6運行時模塊

5.4.6.1內存分配模塊

內存分配模塊主要為算子的輸入與輸出,在邊端設備上分配內存。

注:此處的邊端設備可以狹義地理解為GPU、NPS、DSP等。

5.4.6.2調度執(zhí)行模塊

調度執(zhí)行模塊將將模型的計算任務按照一定規(guī)則進行調度,并在邊端設備上執(zhí)行。

注:例如,“一定規(guī)則”可以理解為對單個算子進行調度,或者對計算圖進行調度。

5.4.7后端加速庫

后端加速庫包括不同硬件對應的AI加速推理庫。方便適配后端對深度神經網絡的部署優(yōu)化。

5.5輔助功能模塊

5.5.1概述

輔助功能模塊主要是提供AI邊端設備模型部署過程所需的基本運維(如模型授權、版本管理、模

型加密),測試驗證,輔助用戶使用工具鏈。該模塊主要包括授權接口、模型版本管理、模型加密、

測試集測試、性能評估、可視化界面。

5.5.2授權接口

5

T/CESAXXXX—202X

當深度神經網絡部署在硬件設備上,運行時的授權管理。授權方式可使用在線授權及離線授權兩種

方式。在線授權是通過聯(lián)網與服務器進行授權文件校準。離線授權是提供授權文件給用戶進行授權校驗。

5.5.3模型版本管理

對于深度學習網絡的不同版本模型部署使用時切換的管理。包括模型版本退回,模型版本升級。

5.5.4模型加密

保證用戶與開發(fā)者的隱私與安全,對部署的深度學習網絡進行加密處理。

5.5.5測試集測試

在深度模型部署到硬件后,采用數(shù)據(jù)集對資源消耗、性能進行測試。

5.5.6性能評估

對模型進行資源評估,如浮點操作數(shù)、參數(shù)量等。

5.5.7可視化界面

在工具鏈中對各個模塊使用的可視化使用方式。例如展示模型結構的可視化、壓縮模型過程的訓練

參數(shù)可視化等。

6功能要求

6.1模型壓縮模塊

模型壓縮模塊要求包括:

a)應支持一種主流訓練框架(如Tensorflow,Pytorch,MindSpore,PaddlePaddle等),宜支持

一種以上訓練框架。

b)應支持剪枝、量化、知識蒸餾三種模型壓縮功能,宜支持神經網絡搜索、超參數(shù)搜索、自定

義算法接入。

c)應支持主流數(shù)據(jù)格式的模型轉換。

d)宜支持單卡訓練、多卡訓練及分布式訓練。

6.1.1壓縮算法適配層

6.1.1.1模型剪枝

模型剪枝要求包括:

a)應支持至少一種訓練剪枝算法、無訓練剪枝算法。

b)宜支持自動化剪枝算法,即自動搜索每層剪枝率,無需人工設置。

6.1.1.2模型量化

模型量化要求包括:

a)應支持訓練后量化算法。

b)宜支持量化感知訓練算法。

6.1.1.3模型知識蒸餾

模型知識蒸餾要求包括:

a)應支持教師對分類損失的軟目標生成,進行蒸餾。

b)宜支持教師網絡中間特征值對學生網絡進行蒸餾。

6.1.2多模式訓練接口層

多模式訓練接口層要求包括:

a)應支持本地單機時單卡、多卡的訓練環(huán)境搭建。

6

T/CESAXXXX—202X

b)宜支持多卡多機的訓練環(huán)境搭建,依靠多進程來實現(xiàn)數(shù)據(jù)并行的分布式訓練。

6.2模型結構轉換模塊

模型結構轉換模塊要求包括:

a)應支持主流訓練框架存儲的模型格式(pt,onnx,pb)的解析。

b)應支持主流訓練框架存儲的模型格式向推理格式的轉換。

c)應支持轉換時對模型進行序列化。

d)應支持模型對隨機輸入的推理并記錄過程中的算子信息與數(shù)據(jù)流動。

e)宜支持自定義算子的注冊。

6.3推理加速模塊

6.3.1通則

邊端推理加速模塊的功能包括:

a)應支持對計算圖的優(yōu)化。

b)應支持至少一種邊端硬件后端加速,宜支持一種以上不同硬件后端加速。

c)宜支持SIMD/ASM優(yōu)化。

d)宜支持模型調度優(yōu)化。

e)宜支持內存管理優(yōu)化。

f)宜支持超參數(shù)搜索,針對硬件資源設置最優(yōu)推理超參數(shù)。

g)宜支持用戶指定特定網絡層作為輸出。

6.3.2計算圖優(yōu)化適配層

計算圖優(yōu)化適配層要求包括:

a)應支持對推理時不參與計算的冗余算子的自動刪除。

b)應支持對推理時重復出現(xiàn)的算子的自動刪除。

c)應支持對推理時線性可融合的算子的自動線性融合(如Conv+BN+ReLU等)。

d)宜支持對內存排布相關算子(如reshape,permute,squeeze,unsqueeze等)的優(yōu)化。

e)宜支持推理時常量算子的折疊優(yōu)化。

6.3.3算子適配層

算子適配層要求包括:

a)應根據(jù)邊端設備的計算特點與算子特點,適配性能最佳的算子;

b)應根據(jù)邊端設備支持的計算精度,適配精度最接近的算子。

注:計算精度包括float32、float16、int32、int16、int8等

6.3.4算子庫

算子庫中包含的算子類型與數(shù)量,應滿足工具鏈所支持模型的具體應用場景的要求,并盡可能多地

覆蓋算子。

模型的具體應用場景要求由工具鏈開發(fā)方或者聯(lián)合使用方共同定義。

注:模型的具體應用場景指自然語言處理、計算機視覺、語音等。

6.3.5編譯器

編譯器要求包括:

a)應支持模型源代碼的解析、驗證、錯誤診斷;

b)應生成匯編文件或者目標機器碼;

c)宜支持對中間代碼(中間表示)進行優(yōu)化。

6.3.6運行時

6.3.6.1內存分配模塊

7

T/CESAXXXX—202X

內存分配模塊要求包括:

a)應對齊內存的大小;

b)應避免內存的重復分配;

c)宜支持一次分配足夠大的內存,通過指針的偏移分配后續(xù)的算子內存;

c)宜支持內存的分配優(yōu)化。

6.3.6.2調度執(zhí)行模塊

調度執(zhí)行模塊要求包括:

a)應支持單算子調度;

b)應支持計算圖調度;

c)宜支持計算圖子圖調度;

d)宜支持算子的調度優(yōu)化。

6.4輔助功能模塊

6.4.1授權接口

授權接口要求包括:

a)應支持在線授權方式。

b)應支持離線授權方式。

6.4.2模型版本管理

模型版本管理要求包括:

a)應支持模型版本回退。

b)應支持模型版本升級。

6.4.3模型加密

模型加密要求包括:

a)宜支持使用加密方式生成Key對模型進行加密,解析時使用key進行解碼。

6.4.4測試集測試

測試集測試要求包括:

a)應支持隨機輸入對模型進行推理,進行資源使用、響應時間測試。

b)宜支持訓練模型的測試數(shù)據(jù)集對模型性能的評估。

6.4.5性能評估

性能評估要求包括:

a)應支持對模型的參數(shù)量、運算量的評估。

b)宜支持神經網絡每層的參數(shù)量評估、運算量評估、數(shù)據(jù)類型及計算單元的顯示。

c)宜支持典型模型的端到端效率,內存占用、內存帶寬、利用率的顯示。

d)宜支持每層的讀寫帶寬、超參和量化信息導出。

6.4.6可視化界面

可視化界面要求包括:

a)應支持對模型結構的顯示。

b)宜支持訓練過程的可視化追蹤,包括損失函數(shù)值,性能,超參數(shù)組等。

c)宜支持可視化工具鏈使用。

d)宜支持運行時,各計算單元工作狀態(tài)、利用率查看。

8

T/CESAXXXX—202X

目次

前言.....................................................................................................................................................................III

1范圍...................................................................................................................................................................1

2規(guī)范性引用文件...............................................................................................................................................1

3術語和定義.......................................................................................................................................................1

4縮略語...............................................................................................................................................................2

5組成框架...........................................................................................................................................................2

5.1概述...........................................................................................................................................................2

5.2模型壓縮模塊...........................................................................................................................................4

5.2.1概述...................................................................................................................................................4

5.2.2多深度學習訓練框架適配層...........................................................................................................4

5.2.3壓縮算法適配層...............................................................................................................................4

5.2.4多模式訓練接口層...........................................................................................................................4

5.3模型轉換模塊...........................................................................................................................................4

5.4推理加速模塊...........................................................................................................................................5

5.4.1概述...................................................................................................................................................5

5.4.2計算圖優(yōu)化適配層...........................................................................................................................5

5.4.3算子適配層.......................................................................................................................................5

5.4.4算子庫...............................................................................................................................................5

5.4.5編譯器模塊.......................................................................................................................................5

5.4.6運行時模塊.......................................................................................................................................5

5.4.7后端加速庫.......................................................................................................................................5

5.5輔助功能模塊...........................................................................................................................................5

5.5.1概述...................................................................................................................................................5

5.5.2授權接口...........................................................................................................................................5

5.5.3模型版本管理...................................................................................................................................6

5.5.4模型加密...........................................................................................................................................6

5.5.5測試集測試.......................................................................................................................................6

5.5.6性能評估...........................................................................................................................................6

5.5.7可視化界面.......................................................................................................................................6

6功能要求...........................................................................................................................................................6

6.1模型壓縮模塊...........................................................................................................................................6

6.1.1壓縮算法適配層...............................................................................................................................6

6.1.2多模式訓練接口層...........................................................................................................................6

6.2模型結構轉換模塊...................................................................................................................................7

6.3推理加速模塊...........................................................................................................................................7

6.3.1通則...................................................................................................................................................7

6.3.2計算圖優(yōu)化適配層...........................................................................................................................7

6.3.3算子適配層.......................................................................................................................................7

I

T/CESAXXXX—202X

6.3.4算子庫...............................................................................................................................................7

6.3.5編譯器...............................................................................................................................................7

6.3.6運行時...............................................................................................................................................7

6.4輔助功能模塊...........................................................................................................................................8

6.4.1授權接口...........................................................................................................................................8

6.4.2模型版本管理...................................................................................................................................8

6.4.3模型加密...........................................................................................................................................8

6.4.4測試集測試.......................................................................................................................................8

6.4.5性能評估...........................................................................................................................................8

6.4.6可視化界面.......................................................................................................................................8

II

T/CESAXXXX—202X

人工智能邊端設備模型部署工具鏈功能要求

1范圍

本文件給出了邊端設備模型部署工具鏈的組成框架,規(guī)定了其功能要求。

本文件適用于人工智能領域深度學習模型在邊端設備實時性運行能力的設計、研發(fā)、推廣和應用。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.34信息技術詞匯第34部分:人工智能神經網絡

GB/T41867-2022信息技術人工智能術語

3術語和定義

GB/T5371.34和GB/T41867-2022界定的以及下列術語和定義適用于本文件。

3.1

邊端設備Edge-terminaldevice

邊側與端側設備,一類低資源、低功耗的硬件設備,包括輕量級操作系統(tǒng)以及控制器、計算單元。

示例:可穿戴設備、智能相機、機器人、IoT設備。

3.2

模型部署modeldeployment

將神經網絡模型以硬件語言編譯并運行到硬件設備的流程。該流程包括模型壓縮、模型轉換、計

算圖優(yōu)化、編譯優(yōu)化。

3.3

模型壓縮modelcompression

減小神經網絡模型規(guī)模,提高神經網絡模型運行和推理效率的方法。

3.4

工具鏈toolchain

一套針對神經網絡模型進行模型壓縮、模型轉換、圖優(yōu)化、編譯優(yōu)化等流程的軟件工具組合。

3.5

深度神經網絡/深度模型/模型(簡稱)deepneuralnetwork/deepmodel/model

一類由輸入層、隱藏層、輸出層組成的深度學習的基礎網絡結構,該結構是深度學習的基礎。

3.6

計算圖computationalgraph

一種采用有向無環(huán)圖表示的計算邏輯流程,主要包括邊與節(jié)點。邊表示變量,節(jié)點表示邏輯操作。

3.7

算子operator

一類進行特定運算的計算單元,深度學習中特指每一層的數(shù)值和張量運算單元。

3.8

特征圖featuremap

在處理輸入數(shù)據(jù)的過程中,神經網絡中間各層的輸出結果,表征神經網絡中間各層對輸入數(shù)據(jù)的轉

換過程。

3.9

量化感知訓練quantizationawaretraining(QAT)

1

T/CESAXXXX—202X

量化感知訓練是通過對模型插入用于模擬量化推理運算邏輯的偽量化算子,通過梯度下降等優(yōu)化方

式在原始浮點模型上進行微調,從而得到量化后精度符合預期的模型。

3.10

訓練后量化posttrainingquantization(PTQ)

訓練后量化主要是通過少量校準數(shù)據(jù)集獲得網絡的激活值分布,通過統(tǒng)計方式或者優(yōu)化浮點和定點

輸出的分布來獲得量化參數(shù),從而獲取最終部署的模型。

4縮略語

下列縮略語適用于本文件。

AI:人工智能(ArtificialIntelligence)

CPU:中央處理器(CentralProcessingUnit)

GPU:圖形處理器(GraphicProcessingUnit)

NPU:神經網絡處理器(Neural-networkProcessingUnit)

DSP:數(shù)字信號處理器(DigitalSignalProcessor)

SIMD:單指令多數(shù)據(jù)流(SingleInstructionMultipleData)

ASM:匯編語言(AssemblyLanguage)

5組成框架

5.1概述

邊端設備模型部署工具鏈面向提升深度神經網絡在邊端設備實時性運行能力,從模型訓練到部署的

端到端全鏈路優(yōu)化,即通過模型壓縮模塊,將深度神經網絡模型中的冗余去除,減少模型尺寸,實現(xiàn)對

模型的壓縮。模型轉換模塊,將壓縮后模型轉換成推理所需格式。在推理加速模塊,解析轉換的模型格

式,將模型進行圖優(yōu)化操作,并進行運行優(yōu)化、結合硬件計算單元從而加速模型推理并降低硬件功耗。

輔助功能模塊主要是提供模型部署過程所需的基本運維,測試驗證,輔助用戶使用工具鏈。組成框架如

圖1所示,邊端設備模型部署工具鏈由模型壓縮模塊、模型轉換模塊、推理加速模塊和輔助功能模塊組

成。圖2展示了部署工具鏈流程。

2

T/CESAXXXX—202X

圖1邊端設備模型部署工具鏈組成框架

圖2工具鏈的流程

3

T/CESAXXXX—202X

5.2模型壓縮模塊

5.2.1概述

模型壓縮模塊是將深度模型中的冗余部分找到并進行刪減,從而降低深度模型的運算量及節(jié)約內存

使用。該框架主要包括三層,多深度學習訓練框架適配層,壓縮算法適配層,多模式訓練接口層。

5.2.2多深度學習訓練框架適配層

模型壓縮模塊易適配多種主流訓練框架,根據(jù)不同訓練框架的數(shù)據(jù)接口、梯度更新、損失函數(shù)、計

算圖存儲方式等相關方面的API進行適配,從而對不同訓練框架進行支持及擴展。通過實現(xiàn)接口來適配

多種訓練框架。

5.2.3壓縮算法適配層

5.2.3.1概述

壓縮算法適配層是采用主流深度學習壓縮技術對深度模型進行壓縮處理的接口層,應支持剪枝、量

化、知識蒸餾功能模塊。同時,易支持低秩分解、網絡結構搜索、超參數(shù)搜索、權重矩陣稀疏化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論