昇騰DeepSeek解決方案_第1頁
昇騰DeepSeek解決方案_第2頁
昇騰DeepSeek解決方案_第3頁
昇騰DeepSeek解決方案_第4頁
昇騰DeepSeek解決方案_第5頁
已閱讀5頁,還剩26頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

把握DeepSeek

時刻,攜手同行華為昇騰Al解決方案匯報2025年4月華為昇騰Al基礎軟硬件介紹1

DeepSeek

洞察及昇騰適配進展目錄22HuaweiProprietary-RestrictedDistributionDeepSeek

是Al發展史上的一個關鍵里程碑,但遠未達到Al終點訓練資源·

著DeepSeek提供了一種高效率訓練的方法,同等

算力規模可以探索更強的模型能力·在競爭背景下,頭部玩家仍將追逐Scaling

Law,

堅定

Al算力的戰略投資,加速探索下一代Al技術Al模型算法:DeepSeekAl框架:昇思、飛槳…異構計算架構:CANN…互聯技術:靈

衢Al芯片:昇騰、寒武紀…AI模型算法:GPT、LLaMAAl框架:PY、TF異構計算架構:CUDA互聯技術:NV

LinkAl

芯片:NV、AMDCV計算機視覺1998

LeNet首

個CNN

架構模型NLP自然語言處理2017谷歌發布首個

Transformer架構模型·DS

對強化學習的創新使用,可以讓大模型便捷的獲得

通用性+專用性,可以滿足各應用場景需求·DS

對通過從模型結構到訓推全流程的極致工程優化,

大幅提升Al的計算效率,提升模型落地經濟性·

國Al公司首次以關鍵創新貢獻者的身份加入到全球Al競爭中,沖擊美國Al霸權·

打破NV+OpenAl

的資金、技術、人才的壟斷,全球

重新思考中美技術路線的選擇補齊最后一塊自主創新的版圖

真正形成中美兩條Al技術路線泛化性和經濟性大幅提升LLM進入"CV

Resnet時刻"DeepSeek-R1進一

步驗證“算力即性能”Scaling

Law升級,模型能力=算力x

據x

考+邏輯推理DeepSeek-V3/R1OpenAl-01/03算力×數據x

思考算力x

數據2015

Resnet效率與成本雙突破CV

全面普及2025DeepSeek

效率與成本雙突破NLP

全面普及2012AlexNet

2023

ChatGPT模型能力突破

模型能力突破開啟CV

時代

開啟NLP時代重新定義Scaling

Law

延續智能涌現的方向國家戰略清晰

雙輪驅動互鎖技術創新依賴資本投入

戰略堅定+技術創新3

HuaweiProprietary-RestrictedDistribution下一代Al技術Mamba、空間智能等模型效巢技術創新硬件級、算法級、架構級、工程級、開

源生態5大技術創新,轟動全球·繞過GUDA

進行PTX

編程硬件級優化

·計算與通信優化,性能提升30%·GRPO:

群體進化的智慧篩選器算法革命

·

自我驗證機制:Al的"錯題本系統"·混合專家模型的"智能路由器"·

多頭潛在注意力MLA:空間壓縮術·訓練框架加速:16到3的量化壓縮,

通信降低89%·推理加速:預加載,動態批處理等·模型、數據、工具鏈、部署全開源·蒸餾技術使能第三方模型性能低成本繞

過CUDA

掘FP8硬件潛力,

MOE

和MLA

技術實現不到10%的成本方案~150M$Llama3.1-405B訓練成本DpVanan

aik性能優數學、科學和代碼等領域領先業界,成為業界公認的LLM

的領先模型0DeepSeek

V3:

實現極致性能,稀疏MOE提質降本低成本完美對標OpenAI

O1,突破精確語義理解及復雜推理任務DeepSeek-V3

是一款MoE

模型,總參數量671B,激活參數量37B,采用2048張H800(節點內NVLink,節點間IB,非超節點架構)在14.8Ttoken數據集上基于自研

HAl-LLM

訓練系統總計訓練了1394h(

58.08

天)我是DeepSeek,

很高興見到你!p幢,

*g,ancn

交編m.Thepset

冊Tae架構創新工程奇跡開源生態uawDeepSeek-R1

推理成本僅為OpenAl

o1的

3

%5.57M$DeepSeek-V3訓

練成本來源:DeepSeek模型測試數據&互聯網4

HuaweiProprietary-RestrictedDistribution

DeepSeek

R1:

在Reasoning

任務達到了世界水平

(OpenAl-01)>以2階段SFT+2

階段RL

完成,從而解決R1-Zero

可讀性差、多種

語言混合問題>本次開源同時發布了6個基于DeepSeek-R1

蒸餾的更小稠密模型(Qwen/LLaMa

1.5B

7B

14B

32B

70B)Figure1|Benchmark

performance

ofDeepSeek-R1.DeepSeek-R1

以DeepSeek-V3

Base

(671B)

為基礎模型,使用GRPO算法作為RL框架來提升Reasoning性能600x

Resoning

CaT

smples博

Qwen25-7B虛

0wn25-14BRISFT

R1

samplesRL

Rule-based

RM200k

Non-Reasoning

(GRPO)*Model-based

RM

O

Lm33-70BCoT

samples

Base

modeksThousandsofRL(GRPO)+RI-ColdstartSFTRule-based

RMAccury+languapeconsistency)RI-ColdstartRL厚Qwen25-15B→

權重關系→

數據流向★

發布模型V3-baseRL

Rule-based

RM(GRPO+(Acaury+formabR1-Zero800kCoT,

Owen25.32800

Llam3.1-8B*Depsck.R1-Disill

Qwen/LlamDeepSeek

-R1

技術路線Huawei

Proprietary-Restricted

Distribution:權重

初始化5具

現口只需存儲圖中的CKV,KF

即可;口考慮到矩陣乘法結合律,具體實現過程中WUK

可以與WUQ

融合、

wUV

可以與

W°融合,從而無需為每個query

計算key-value

值。o0ce

DumeiomouptQ00o,000ad

etSjne響

%OO:oourm?wor0ndn.0000-0000w"擁cenckmcrCWtmmCda

的位9編件9"cancat律DeepSeekV3模型架構:Multi-HeadLatent

Attention(MLA)Benchmark(Metric)#ShotsSmallMoESmallMoEw/MHA

w/MLALargeMoELargeMoEw/MHA

w/MLAActivatedParams2.5B

2.4B25.0B

21.5B#TotalParams15.8B

15.7B250.8B247.4BKV

Cache

per

Token(#Element)110.6K

15.6K860.2K

34.6KBBH(EM)

3-shot37.939.046.650.7MMLU(Ace.)

5-shot48.750.057.559.0C-Eval(Acc.)

5-shot51.650.957.959.2CMMLU(Acc.)

5-shot52.353.460.762.5Attention

MechanismKV

Cache

per

Token(#Element)Multi-Head

Attention(MHA)Grouped-Query

Attention(GQA)

Multi-Query

Attention(MQA)2nhdl2ngdhl2dhlMLA(Ours)

(de+df)L≈2dhL(bs,h)v(bs,h)

bsh

2bsh

ou=low

ankkeys(bs,h)

Keys壓縮后寬度

h'

<隱藏層寬度

hValues1.

推理階段,理論上可以將KV

Cache降低1~2個數量級,大幅減少HBM

存取和通信的開銷。2.

對昇騰更親和,大幅降低對HBM依賴,提升推理Decode

性能。實驗結果>相比于MHA,MLA

每token的KV

Cache量大幅減少,且精度更高。>張量低秩壓縮以降低KV

Cache資源開銷:相比于傳統MHA,MLA

通過降維

操作使得存儲的張量維度大幅減小。(下圖中僅紅色陰影部分需要存儲)>MLA

架構:1)分別對Query、Key-Value

pair進行低秩壓縮;2)使用

RoPE

獲得位置信息;3)使用MHA

計算得到輸出。對

DeepSeekv3而商aryDR128cDALA可以將KV

Cache降低為

22=1.7%Multi-HeadAttentionMulti-Head

LatentAttention(bs,h)nput昇騰

影響MLA

架構腳

鐘9QmmCw,o0w4n網中0- tshrp

Cross

Entropy

LossMTP

Module2Nettoienedkction)Output

HeadTransformerBlockTransformerBlockLinearProjectionTcorcatnotianRMSNorm

RMSNormEmbedinglarerhputTokens

t?

t?tt

t

t

t

4①

構·每個MTP模塊共享嵌入層和輸出頭·每個MTP

模塊獨占一個TransformerBlock和一個投影矩陣·多個MTP模塊串聯保持完整的因果關系鏈②

略·

個MTP

模塊輸出預測token的概率分布·

個MTP

模塊計算對應的交叉熵損失函數·多

個MTP

模塊的損失函數加權平均得到最終訓練目標③

用·提升每批訓練數據的使用效率,強化訓練信號·優化模型表達能力,提升next-token的預測效果·

可參考投機采樣改造MTP模塊,加速推理效率

MTP:Multi-TokenPrediction多token預測提升模型效果·MTP

模塊僅在訓練中使用,提升模型訓練效果,推理階段可以不使用MTP

模塊,基礎模型能夠獨立完成正常推理·

參考投機采樣,MTP

模塊也可以被重新配置用于speculative

decoding,加速解碼過程,降低整體時延cm-Cstropucu-m-

2

4mFigure3|Ilustration

of

our

Multi-Token

Prediction(MTP)implementation.We

keep

the

complete

causal

chain

for

the

prediction

ofeach

tokenat

each

depth.Main

CrossEntropyLoss!MTP

Module1TooncatenutonRMSNormRMSNormEmbedding

LayerTransformerBlock×LEmbeddinglayerHuawei

Proprietary-Restricted

DistributionN

ti

o

z

ldicbon)reepdnosa(24)(25)關

鍵發

現NettokenPedschion)CrossEntropyLossUinearProjectionOutput

HeadOutputHeadTorget

Tokenmp7computaton

MLP(B)▲

MLPWA

MLPD△

ATINB)A

AITNWAATTNF△mmunieaon

DISPATCHF△

DISPATCH(B)▲DeviceDeviceDeviceDeviceDeviceDevice

DeviceDeviceTime0

0

1

2

3

4

5

6

10

1

0

1

2

3

4105

11

2

0

1

2

103

11

43

0

10

111

23

4

10

0

11

1

25

10

11

0

12

6

10

11

0

1

0

7

11

0

0

011300140

321△Forward

chunk▲Backwardchunke4|Overlappingstrategyfora

pair

of

individual

forward

and

backward

chunks

(thedariesofthetransformerblocksare

not

aligned).Orange

denotes

forward,green

denoteswardfor

input",bluedenotes"backward

forweights",purple

denotes

PP

communication,eddenotesbarriers.Bothall-to-all

and

PP

communication

can

be

fully

hidden.①細粒度的計算通信并行·將PPstage拆分為更細的模塊,提升模塊交替編排的靈活度·參考ZeroBubble,反向傳遞中的權重更新和梯度傳遞獨立操作·經過細粒度的拆分和編排之后,計算流和通信流的barrier剛好可以重疊②雙向管道調度減少PP

中的氣泡·

1F1B中每個batch拆分為1個forward和1個backward·ZeroBubble

中把backward拆分為input和weight兩個部分·DualPipe

中使用對稱處理,不同batch

從不同的device

上開始流水③

每卡顯存占用略微增大·雙向管道訓練,需要存兩份參數來進行訓練

(Parameter2x)·

模型總參數量671B,每個卡上4個routed

expert對應26.8B,同

考慮到PP-16和FP8量化,每個卡上顯存占用為1.675GBDenio01Dowoe1Devce2Dwwce

3Dwwce4Dowce6DowcoDevioe

7Tm

cw

□wud

ovetapped

forwardLBackwardFigure

5|Example

DualPipe

scheduling

for8

PP

ranks

and

20

micro-batches

in

two

directions.

The

micro-batches

in

the

reverse

direction

are

symmetric

to

those

in

the

forward

direction,so

we

omittheirbatch

IDforillustrationsimplicity.Two

cells

enclosedbya

sharedblackborder

have

mutually

overlapped

computation

and

communication.

DualPipe:雙流并行優化計算和通信,

All-to-AlI通信開銷接近0MethodBubbleParameterActivation1F1B(PP-1)(F+B)1×PPZB1PDualPipe

(Ours)1×2×PPPP+1參考DualPipe

技術,基于MindSpeed

訓練加速框架以及昇騰硬件特性,針對

性地設計高效率流水并行技術,提升整體訓練性能8

Huawei

Proprietary-Restricted

DistributionFigurboun

back

and

rCOMBINE(F△

PP

COMBINE(B)▲關鍵

啟示

DeepSeek

通過從模型結構到訓推全流程的優化,帶來大模型新范式DeepSeek

V3/R1,大幅提升從訓練到推理的計算效率,降低模型創新及應用落地的門檻推理優化單次推理效率倍級提升Token

預測1次1token預測1次多Token

預測一次預測多個token推理倍級提升后訓練優化

降低學習復雜度強化學習需要裁判模型評估新老策略組隊評估簡化強化學習流程降低后訓練復雜度業界LLM

大模型DeepSeek核心收益效果模型結構優化以計算換內存、降通信,空間時間雙優化Attention

MOE計算通信優化降低計算,極致的掩蓋,同時保證訓練精度PP并行算法1前1后單流水計算量減少35%平衡訓練效率與數值精度訓練精度FP16/BF16壓縮KVCache降低內存90%支持更高并發計算與通信極致掩蓋減少50%PP

氣泡模型容量提升3倍計算量減少70%MLA低秩壓縮減少緩存DeepSeekMoE

更稀疏256選8+1MHA/GQA分組共享減少緩存FP8混合精度

雙向流水并行9

Huawei

Proprietary-Restricted

DistributionGPT416專家選2訓練算力需求

(PFLOPS)Groq4Hunyuan極致

能、穩

的Al集

群深

度開

平臺

態·②

新新一輪百模千態GPT-3/3.5175B

GLM-130B注

便

捷、易

用、

價比

臺DeepSeek-R1-Distill-Qwen-32B開

箱即

用的

學習

件GBERT-LargeGTransformerAlexNet大模型從技術摸高走向技術摸高+工程創新并行,訓練需求持續增長①

:頭

新,

豐富

合,

逐ScalingLaw,加

索AGI②

新的

餾門

檻,

升,出

象,引

波的

”201220132014

201520162017201820192020202120222023202420252026訓練的算力需求將持續增長,算力結構從“預訓練為主”走向“預訓練+后訓練/二次訓練”①技

、

、

新一輪技術競爭兼

能的

/

調

案便

捷的

署、敏

線DeepSeek-R1-Distill-Qwen-1.5B(蒸餾后較原模型能力提升10%+)GPalM(540B)

Megatron-TuningNLG530B10Huawei

Proprietary-Restricted

DistributionGPT-4/40Claude2Llama3-70BBaichuan2-138GGemini2.0

GGemini

Ultra極

致的

性能

化關·

·

·DeepSeek-R1-671BDeepSeek-V3-671BGPT-5Doubao2.0oUama4··開箱即用的一體機,加速大模型應用落地教

療云

硬件+社區釘釘一體機電信息壤一體機昇騰社區新致金融一體機同花順一體機京東云諸多廠家推出一體化方

外提伊務/自用硬

+

+RL

+ISV/

,

熟AS

IS大量行業數據..監督微調SFT行業大模型TO

BE基

型(DeepSeek/

少量行業數據監督微調SFT更多行業高質量數據生成行業大模型模型蒸餾-模型小型化DeepSeek

能力提升成為各行業生產力工具,加速推理落地干行百業DeepSeek

催熟大模型落地技術,降低推理部署門檻華為云移動云電信天翼云聯通云NVIDIAHuggingFaceGitHub……騰訊云阿里云亞馬遜AWS微軟Azure部署更高效月級調優

周/天級優化數

低高質量數據

生成數據算

低高端人才

開源+蒸餾11Huawei

Proprietary-Restricted

Distribution主流云服務商已支持DS

覆蓋公/私有云部署主流算力、主流社區

均已支持DeepSeek電力

制造基礎模型Llama

、Qwen、一體機魔樂社區強化學習Llama/Qwen/)昇騰模型服務商潞晨科技已上線硅基流動已上線清昴已上線訊飛測試中運營商電信天翼云已上線聯通云已上線移動云已上線南京、福建、浙江移動已上線上海、江蘇電信已上線國計民生行業龍崗區政府已上線北京銀行已上線廣大證券已上線北京、南京、西安、武漢、蘇州、無錫等公共服務平臺已上線招行測試中工行測試中太保測試中模型名稱Atlas

300I

DuoAtlas

8001

A2DeepSeekV3√DeepSeek

R1√DeepSeek

Janus-Pro-1B/7B√√DeepSeek

R1-Distill-Llama-70B√DeepSeek

R1-Distill-Qwen-32B√DeepSeek

R1-Distill-Llama-8BDeepSeek

R1-Distill-Qwen-1.5B/7B/14B√√DeepSeek

模型發布即支持昇騰推理,各行業已基于昇騰快速上線e2aDeepSoek-V3(C配套版本上線昇騰社區:/software/modelzo

o/models/detail/678bdeb4e1a64c9dae51d353d84ddd1512

Huawei

Proprietary-Restricted

Distribution最新DeepSeek

V3/R1/Janus-Pro及6個蒸餾模型

基于昇騰開箱即用,配套版本已上線各大開源社區DeepSeek

,3

區全系列模型上線40+客戶/伙伴基于昇騰已上線,

15+測

(

預計兩周內全部上線)配套版本上線魔樂社區:/models/MindlIE/deeps

eekv3口DeepSeek-R1hapMa

.Mnde/Deplesn模型參數:14B/32BDeepSeek-R1-Distll-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型參數:7B/8B/14BDeepSeek-R1-Distill-Qwen-14BDeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-7B模型參數:1.5BDeepSeek-R1-Distill-Qwen-1.5BAtlas8001A2(256GB)Atlas

300I

Duo

Atlas

300V13

Huawei

Proprietary-Restricted

Distribution

HUAWEI編程輔助智能客服個性化學習輔導創意寫作個人知識管理個人文檔分析編程輔助開發板

備Atlas8001A2(1024GB)Atlas8001A2(512GB)體機:大吞吐+高并發,加速行業模型落地昇騰DeepSeek—系統吞吐4940Token/s@32B7500Token/s@14B瓏京科技系統吞吐1911Token/s移動、電信一體

制造模型參數:671B+

滿血版DeepSeek

V3/R1系統吞吐3300

Token/s瓏京科技Al編

程智能對話金融研報文本創作營銷文案內容檢測系統吞吐432

Token/s瓏京科技730Token/s@14B956Token/s@8B956Token/s@7B瓏京科技并發路數247路

@

3

2B300路@14B思騰合力模型參數:70BDeepSeek-R1-Distll-Lama-70B并發路數80路@14B115路

@

8B115

@

7B思騰合力并發路數16路思瑞合力并發路數165路思騰合力

電力

政務

并發路數192路教育油氣金融交通潞

技系統吞吐模型集合模

稱參數計

度產品配置系統吞吐token/s并發用戶數DeepSeek-V3DeepSeek

V3671BINT8Atlas800I

A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I

A21024GB1911192DeepSeek-R1蒸餾模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I

A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I

A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I

A2256GB7500300Atlas

300I

Duo1*Duo

96GB

PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Dstill-Qwen-7B7BINT8Atlas

300I

Duo1*Duo

96GB

PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas

300V1*300V

24GB

PCIE43216

DeepSeek

V3/R1及蒸餾模型,昇騰DeepSeek—

體機推薦配置14HuaweiProprietary-Restricted

DistributionDeepSeek

洞察及昇騰適配進展華為昇騰Al基礎軟硬件介紹CoNTENTS目錄15HuaweiProprietary-RestrictedDistribution21ModelArts

應用使能訓練平臺/推理引擎/模型套件/SDKAl計算框架昇思MindSporePyTorch/TensorFlow/Caffe

…異構計算架構CANNAtlas及昇騰伙伴系列硬件模組/小站/加速卡/服務器/集群昇騰處理器昇騰310系列/昇騰910系列

…昇

MnaaCANNAscend昇騰AI基礎軟硬件架構全面創新,使能行業場景化應用行業場景化應用

視圖分析、檢索聚類、搜索推薦、自然語言處理、智能語音、自動駕駛

應用使能應用使能套件/SDKAl計算框架PyTorch/TensorFlow/Caffe

.異構計算架構CUDANV

系列硬件模組/加速卡/服務器/-->集群NV處理器Ampere系列/Hopper

系列…nVIDIA.

CUDANVIDIA

.英

Al

構昇

Al

構16HuaweiProprietary-RestrictedDistribution[M]TensorRTplugins&parserNV

NCCLNV

CUTLASSNV

CUDA-CNV

cuDNNGraph

Engine圖引擎HCCLAscendC高階APIAscend

C低級APIAscend

aclNNMT

、KS自定義圖融合PatternTX

、MThash

算法自定義調優XF自定義切分策略KS自定義算子開發XF結合場景差異優化深度開放CANN,

一套架構使能昇騰原生開發加速庫

Megatron

DeepSpeed

AscendSpeed…AI框架

思MindSpore

PyTorch

TensorFlow

…GE圖引擎開放圖編譯、圖優化、圖執行,支持自定義圖觸合,提升整網性能計算架構CANN深度開放,使能高效靈活開發,匹配開發者使用習慣HCCL

集合通信庫開放通信算子、平臺接口,支持自定義通信算法,提升網絡通信效率Ascend

C編程語言開放130+底層API、60+高層API,支持高性能自定義融合算子開發算

庫放1600+基礎算子接口、30+融合算子接口,簡化開發復雜度,提升開發效率畢昇編譯器|Runtime

運行時開放硬件資源接口,滿足開發者對模型開發、系統優化、三方生態對接等各場景需求Huawei

Proprietary-Restricted

DistributionGE

圖引擎集合通信庫類庫/模板通用編程算子加速庫對位NV

CUDA,

匹配開發使用習慣昇騰硬件使能CANNCANNKS直接發起Kernel

LaunchNVIDIA.CUDAAscendRuntime運行時NV

Runtime17模型訓練:算網/算存深度協同是大模型分布式并行訓練的基礎大模型技術發展方向干億稠密/萬億稀疏

超長序列

多模態更大規模/更復雜的組網

更復雜的模型及數據切分

更大(模

參據數量、Ch

…讀)

寫eckPoint存儲和⑥

NPUPCPU

從Mind-omacXPT

MindlO(MindX

的IO相件)MindIO

從DPC存

加CKPT

斑DPC(存儲分布式客戶鍋)CXPT

參數(

)面故蹄恢復時,首次

加載CKPT

數臟到計牌

節點DPC

蛋存區存儲節點存

備3、AI任務信息任務、通值域1、控制器獲取網絡拓撲,下發路徑信息同莫

只2

,

AI任務調度…………算網協同·

網絡級負載均衡:獨

家NSLB

算法

,算網協同

調度,多任務節點非連續組網情況下,通信帶寬

提升20%、模型性能提升7%算存協同·極致讀寫性能:

CKPT

等算存讀寫協同優化、

PB

級存取+TB級帶寬,數據讀取效率提升50%大規模組網·

:2層1:1無收斂的AI網絡架構,最大支持128

K集群規模組網,千卡到萬卡平滑演進以全部通信關系和拓撲信息作為輸入通過算法計算出最優結果,實現Al參數面全網負載均衡18

Huawei

Proprietary-Restricted

Distribution支持2級框盒、框框組網,適用于大規模及超大規模集群故障飲復時,個NPU均需教政cxpTo數

瓣(

)

T優化前方案優化后方案計算

節點4、動態路徑調整Al調度平臺網絡控制器NPU/CPU算

合“工序合并”減少計算數據搬入搬出的時間及內存開銷計算與通信融合計算數據細粒度切分,減少計算與通信相互等待計算加速忽略無效計算,減少計算量和內存量低

庫Asce計算通信計算1計算2計算3計算4…通信1通信2通信3通信4自適應選擇性重計算、內存碎片優化、算子庫CANNndC編程語言+Runtime開MultiheadAttention中常見模型的mask上

三角區域均接近于0.高階融合算子庫放接口模型訓練:應用使能軟件加持,

MFU

領先、線性度持平NV模型訓練最優=

單機執行最優+集群并行最優

+中斷時間最短網絡局部計算選路Hash沖突導致有效吞吐不足50%控制器全局集中算路_自動生成路徑并動態下發網絡網絡控制器獲取網絡拓撲

下發路徑硬件層算網協同

提升有效吞吐NLSB網絡級負載均衡實現網絡

動態路由,有效吞吐達98%模型算力利用率

(

MFU)

45%+模型通信與計算優化,單機執行最優軟件層分布式并行充分調度算力資源提供分布式加速庫,內置主流加速算法,滿足各類模型加速場景超大集群線性度

90%+分布式并行+算網協同,集群并行最優數據并行、流水并行層內通信并行L

層L2層

L層19HuaweiProprietary-Restricted

Distribution[M]

昇思OPyTorch模型并行場景/應用測試模型測試結果對話搜索DB-200B0.94x

A800客服、文生圖場景;

金融助手SDXL3.48~3.63x

A10Llama2-7B1.41~2.72x

A10Llama2-13B1.44~2.19xA10電商ChatGLM2-6B1.86x

A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智腦13B1.7x

A30圖像識別、OCR文

字識別和視頻處理Llama2-70B1.7x

L20智慧教育、辦公問

答星火-65Bx800T

A2交互搜索,金融客服問答step1V-130B多模態2.0x

L20對標Triton+TMS/vLLM·業界標準RPC

接口高效對接業務層·模型管理,集群管理,devops·支持多實例并發對標TensorRT-LLM·支持社區模型快速遷移·

自回歸解碼、擴散過程優化·稀疏量化壓縮、并行推理支

持PyTorch/

思·少量代碼實現訓練向推理平滑遷移·整圖/子圖優化+單算子混合推理對標TensorRT·

圖優化,算子融合,Kernel優化·量化、混合精度加速·異步下發,多流水執行模型推理:提供分層開放的推理引擎MindlE,

使能高效推理NEWO推理套件

MindIE-LLM框架推理

MindSpore對接NEWDMindIE-SDMindIE-Torch第三方推理服務Triton

backendSrd20Huawei

Proprietary-Restricted

DistributionMindIE-RT推理開發工具NEWO推理服務化CANNMindIE-ServiceMindIE-MS昇騰推理引擎MindIEMindIE-Server

MindIE-Client推理應用接口推理運行時算子加速庫vLLM差異一:芯片架構差異導致算子實現不同例如,矩陣計算時,昇騰采用16

x16

分形,英偉達采用8x8

分形即使算子功能相同,在不同架構下算子實現方式可能不

同差異二:工具鏈差異導致遷移效率不同算子重開發、精度調試、性能調優的難度

體現在工具鏈的能力上昇騰

其他架構亟需精度對比工具:

GPU的推理精度在適配昇

騰訓練的模型時,需要以昇騰訓練的模型精度為標桿遷移工作量大:

建立工具鏈完成對昇騰的精度

對比和調優。差異三:基礎能力差異導致支持完備度不同基礎庫、加速庫、三方庫等支持情況不同跨架構時需通過引入、適配第三方庫,或者開

發基于自身架構的對等庫來解決庫的差異問題昇騰CUBE

計算單元結構

為16x16x16芯片架構差異遷移分析工具模型支持度分析和修改建議模型支持度評估離線模型

分析報告模型轉換工具實現訓推一體的模型轉換一鍵式命令觸發三方框架

昇騰處理器模型格式

模型格式圖準備->圖拆分->圖優化->圖編譯精度比對、改圖工具一站式調優工具,提升精度優化效率性能優化、快速推理工具一站式調優工具,提升性能優化效率GPUGraphNodesmaping-x.pklNPUGraphComparey.pk1精度結果MindStudio命

行MindStduioIDE數據解析Data

個用戶APP數據采集OSAscend

NPU模型遷移:工具鏈進一步升級,提升GPU

到昇騰快速遷移能力GPU

訓練->昇騰推理:提供MindStudio

一站式工具鏈,3~15人天可完成遷移,80%場景僅需3人天計算架構支持的主要基礎庫/加速庫昇騰DVPP/AIPP/mxVision/ACLNN/ACLBlas等英偉達CodecSDK/CV-CUDA/cuDNN/cuBlas/DALI等GPUCUBE計算單元結構

為8x8x4(A100)21

Huawei

Proprietary-Restricted

DistributionHUAWEIGPT-3

參數:13B/100B

/175B已測試客戶:YD、MY、ZJLLaMA-3

參數:7

B/13B/70B已測試客戶:TYY、YD、BOSS、MY、360、MT、CA、HWY、CGCSYSGLM-3參數:6

B/10B/130B已測試客戶:ZP、BJYH、YCCXJH

、MT

、LTYQwen-2

參數:7B/72B已

:DX、VIP100B業界7B業界13B業界70B業界6B業界7B業界72B業界1.00X1.00X1.05X0.83X1.04X0.83X0.87X100B業界7B業界13B業界70B業界6B業界7B業界1.23X1.01X0.91X1.13X1.21X0.9X昇騰已支持國內外開源開放大模型,實測性能持平業界國內唯一已完成訓練干億參數大模型的技術路線,業界主流大模型PyTorch

實測性能均達到0.8~1.1倍業界最新主流開源模型均已陸續適配并商用中Baichuan2|GLMV3|SiT|MixTral-8x7B|Stable

Diffusion|OpenSora|VideoGPT|Qwen-VL.

.21測試靖果總結nemH0sntho1tmsyon.ha*4716日v地和thum

ai7MindSpore+

昇騰

PyTorch+NV業界主流4款開源大模型PyTorch+昇騰

VSPyTorch+NV22HuaweiProprietary-RestrictedDistribution5

測試結果

51游試絡果列s測試報告S場景核心技術A2DeepSeek適配LoRA微調CCLoRA支持25Q1支持Fused_MLP支持qLoRA微調CCLoRA支持Fused_MLP不支持長序列微調長序列CP方案支持核心技術H800A2FP8+20%~25%不支持無輔助負載均衡損失評分效果提升評分效果提升DualPipe計算通信比1:1->8:1,+8~12%計算通信比3:1->6:1,+4~6%跨節點All2AlI優化RMSNorm+MLA部分重計算省2~3G內存省2~3G內存微調算法目標性能部署建議LoRA微調1.1x業界8機Atlas800T

A2qLoRA微調1.1x業界4機Atlas800T

A2全參微調1.1x業界32機Atlas800T

A2DeepSeek模型A2適配情況DeepSeekV3已適配DeepSeek

R1已適配DeepSeekJanus-Pro已適配

DeepSeek

系列模型昇騰訓練產品適配計劃及微調部署建議支持DualPipe、

跨節點All2AlI等優化

支持CCLoRA、Fused_MLP

核心技術,提升微調訓練吞吐性能DeepSeek

系列預訓練完成昇騰適配,目標性能1.1x

NVDeepSeek

系列模型微調目標性能1.1x業界

(Q1)23Huawei

Proprietary-Restricted

DistributionDeepSeek

V3/DeepSeek

R1(671B)

“滿血版”BF16

精度推理采用BF16

或FP16

數據格式進行推理,需要內存約為1340GB

需要采用Atlas800I/T

A2(8*64GB)4機并行X4Atlas800I

A2(8*64GB)最小配置為4機并行采用Atlas

800T

A2時亦需4機并行INT8

精度推理采用INT8

數據格式進行推理,需要內存<700GB,可2機并行X2Atlas800I

A2(8*64GB)最小配置為2機并行采用Atlas800T

A2時亦需2機并行模型硬件格式部署建議進展DeepSeekJanusPro1BAtlas800IA2BF16單卡部署,單機8實例已適配發布Atlas

3001DuoFP16單卡部署已適配發布A2/DuoINT8適配中適配中DeepSeekJanusPro7BAtlas800IA2BF16單卡部署,單機8實例已適配發布Atlas

300IDuoFP16單卡部署已適配發布A2/DuoINT8適配中適配中模型參數格式部署建議進展DeepSeek-

R1-Distill-Lama8BBF16/INT8<14B模型可采用Atlas300IDuo推理;

大于14B模型推薦Atlas800IA2推理:·

1.5B:Duo/A2單卡部署,開發板部署

·7~8B:Duo卡2卡并行,

A28卡并行,支持開發板部署·

14B:Duo卡2卡并行,

A28卡并行·32~70B:A28卡并行整體已適配發布Atlas8001A2BF16

/INT8推理已發布除70B模型外,其他模型Atlas

300IDuoFP16/INT870BBF16/INT8DeepSeek-

R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8

DeepSeek

主干模型均已支持昇騰推理開箱,性能持續提升中關鍵性能優化特性MLA

架構:支持

W8A8

量化:支持EP

策略:支持

MTP

多token預測:PD

分離部署:待支持

待支持多模態模型DeepSeek

Janus

ProDeepSeek

R1蒸餾模型24

Huawei

Proprietary-Restricted

Distribution參數面用于智能集群分布式推理時參數交換,要求網絡具備高吞吐低時延能力,部署高帶寬的智能

無損RoCE網絡,每臺推理服務器8個200GE

ROCE光口樣本面用于訪問存儲區的高速大帶寬互聯的存儲系統,推薦部署為RoCE無損網絡,每臺推理服務器

2個25GE光口業務面用于系統業務調度和管理。通常部署為TCP/IP有損網絡,每臺推力卡服務器2個25GE光口帶外管理Al服務器BMC管理,可選樣本面(可選)

帶外管理面

(BMC

管理可選)CE58824*GELeaf

CE9860[NFS訪河分

級DPC

訪問

9540存儲區(可選)推理讀流量Al

推理服務器

(Atlas800I

A2)99504臺*8口*20DGDeepseek

V3/R1模型本地化部署組網方案訓推平臺(按需配置)xx臺通用服務器業務面DeepSeek

R1/V3推理配置建議BF16

置4

算節點;INT8

置2

算節

;CE6865E8*25GE推理調度管理流量16*4006E一分二LeafCE9860*2臺Spine

CE9860Leaf

CE6865E8*25GESpineCE9860*2臺參數面25HuaweiProprietary-RestrictedDistribution_200G25GGE_400G100G10G400G

RoCE交

機圖

例序號模型發布日期描述本地部署推理最低配置當前支持情況1DeepSeek-V32024.12.16MOE,671B4*Atlas800I

A2(8卡,64GB)/models/Mindl

E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I

A2(8卡,64GB)/models/Mindl

E/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持,直接用mindIE可跑通,310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持,直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1

*310P(顯存不小于48GB,量化

后顯存不小于24G)310P已支持,直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(顯存不小于96GB)推薦4*310P以上配置310P已支持,直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持,直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I

A2(8卡,32GB)

或8*310P310P已支持,直接用mindIE可跑通9Janus-Pro

1B2025.1.28多模態,1B1*310P或1*310B/models/Mindl

E/Janus-Pro310B適配中10Janus-Pro

7B2025.1.28多模態,7B1*310P/models/Mindl

E/Janus-Pro

DeepSeek

系列模型昇騰

NPU

推理配置建議

速部署DeepSeek

模型資源獲取推理環境調測推理模型部署推理模型測試推理資源評估集群連通測試模型權重轉換性能測試推理設備選型推理鏡像制作模型量化精度測試模型權重下載純模型測試服務化啟動服務化測試推理運行環境部署支持容器化部署鏡像封裝,提供容器命令加速框架

Deepspeed|Mindspeed|MindlEAl計算框架

PyTorch|TensorFlow|MindSpore異構計算架構CANN昇騰處理器已支持的DeepSeek

系列模型Al計算使能服務-DeepSeek部署支持:快速適配DeepSeek模型,支撐模型快速上線關鍵特性W8A8

量化|服務化部署|EP并行Al軟

,客戶不清楚模型組

模型分析工具鏈有

哪些,模型是否支

持容器化部署等模型運行版本配套復雜Python=3.xPyTorch=2.0CANN7.0.0,

依賴MindSpeedPython=3.xCANN6.0.RC3,依賴AclLite推薦昇騰最佳實踐,快速復現DeepSeek

系列模型推理流程,加速客戶應用上線。DeepSeek-R1-Distill-llamaDeepSeek-R1-Distill-qwenJanus-Pro物理機部署基于場景,提供開發環境部署方法DeepSeek-R1DeepSeek-V3DeepSeek-V2.527

Huawei

Proprietary-Restricted

DistributionModelAModelBCANNAAscend運行環境部署粵DeepSeek系列賦能賦能流程01

需求調研

方案制定

賦能實施·

調研客戶工程師開發過程中

的痛點、難點·

明確客戶當前能力缺位情況·

提供賦能內容·

提供昇騰樣例·

昇騰模型/應用開發流程演示·De

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論