




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
把握DeepSeek
時刻,攜手同行華為昇騰Al解決方案匯報2025年4月華為昇騰Al基礎軟硬件介紹1
DeepSeek
洞察及昇騰適配進展目錄22HuaweiProprietary-RestrictedDistributionDeepSeek
是Al發展史上的一個關鍵里程碑,但遠未達到Al終點訓練資源·
隨
著DeepSeek提供了一種高效率訓練的方法,同等
算力規模可以探索更強的模型能力·在競爭背景下,頭部玩家仍將追逐Scaling
Law,
堅定
Al算力的戰略投資,加速探索下一代Al技術Al模型算法:DeepSeekAl框架:昇思、飛槳…異構計算架構:CANN…互聯技術:靈
衢Al芯片:昇騰、寒武紀…AI模型算法:GPT、LLaMAAl框架:PY、TF異構計算架構:CUDA互聯技術:NV
LinkAl
芯片:NV、AMDCV計算機視覺1998
LeNet首
個CNN
架構模型NLP自然語言處理2017谷歌發布首個
Transformer架構模型·DS
對強化學習的創新使用,可以讓大模型便捷的獲得
通用性+專用性,可以滿足各應用場景需求·DS
對通過從模型結構到訓推全流程的極致工程優化,
大幅提升Al的計算效率,提升模型落地經濟性·
中
國Al公司首次以關鍵創新貢獻者的身份加入到全球Al競爭中,沖擊美國Al霸權·
打破NV+OpenAl
的資金、技術、人才的壟斷,全球
重新思考中美技術路線的選擇補齊最后一塊自主創新的版圖
真正形成中美兩條Al技術路線泛化性和經濟性大幅提升LLM進入"CV
Resnet時刻"DeepSeek-R1進一
步驗證“算力即性能”Scaling
Law升級,模型能力=算力x
數
據x
思
考+邏輯推理DeepSeek-V3/R1OpenAl-01/03算力×數據x
思考算力x
數據2015
Resnet效率與成本雙突破CV
全面普及2025DeepSeek
效率與成本雙突破NLP
全面普及2012AlexNet
2023
ChatGPT模型能力突破
模型能力突破開啟CV
時代
開啟NLP時代重新定義Scaling
Law
延續智能涌現的方向國家戰略清晰
雙輪驅動互鎖技術創新依賴資本投入
戰略堅定+技術創新3
HuaweiProprietary-RestrictedDistribution下一代Al技術Mamba、空間智能等模型效巢技術創新硬件級、算法級、架構級、工程級、開
源生態5大技術創新,轟動全球·繞過GUDA
進行PTX
編程硬件級優化
·計算與通信優化,性能提升30%·GRPO:
群體進化的智慧篩選器算法革命
·
自我驗證機制:Al的"錯題本系統"·混合專家模型的"智能路由器"·
多頭潛在注意力MLA:空間壓縮術·訓練框架加速:16到3的量化壓縮,
通信降低89%·推理加速:預加載,動態批處理等·模型、數據、工具鏈、部署全開源·蒸餾技術使能第三方模型性能低成本繞
過CUDA
挖
掘FP8硬件潛力,
MOE
和MLA
技術實現不到10%的成本方案~150M$Llama3.1-405B訓練成本DpVanan
aik性能優數學、科學和代碼等領域領先業界,成為業界公認的LLM
的領先模型0DeepSeek
V3:
實現極致性能,稀疏MOE提質降本低成本完美對標OpenAI
O1,突破精確語義理解及復雜推理任務DeepSeek-V3
是一款MoE
模型,總參數量671B,激活參數量37B,采用2048張H800(節點內NVLink,節點間IB,非超節點架構)在14.8Ttoken數據集上基于自研
HAl-LLM
訓練系統總計訓練了1394h(
58.08
天)我是DeepSeek,
很高興見到你!p幢,
*g,ancn
交編m.Thepset
酒
冊Tae架構創新工程奇跡開源生態uawDeepSeek-R1
推理成本僅為OpenAl
o1的
3
%5.57M$DeepSeek-V3訓
練成本來源:DeepSeek模型測試數據&互聯網4
HuaweiProprietary-RestrictedDistribution
DeepSeek
R1:
在Reasoning
任務達到了世界水平
(OpenAl-01)>以2階段SFT+2
階段RL
完成,從而解決R1-Zero
可讀性差、多種
語言混合問題>本次開源同時發布了6個基于DeepSeek-R1
蒸餾的更小稠密模型(Qwen/LLaMa
1.5B
7B
14B
32B
70B)Figure1|Benchmark
performance
ofDeepSeek-R1.DeepSeek-R1
以DeepSeek-V3
Base
(671B)
為基礎模型,使用GRPO算法作為RL框架來提升Reasoning性能600x
Resoning
CaT
smples博
Qwen25-7B虛
0wn25-14BRISFT
R1
samplesRL
Rule-based
RM200k
Non-Reasoning
(GRPO)*Model-based
RM
O
Lm33-70BCoT
samples
Base
modeksThousandsofRL(GRPO)+RI-ColdstartSFTRule-based
RMAccury+languapeconsistency)RI-ColdstartRL厚Qwen25-15B→
權重關系→
數據流向★
發布模型V3-baseRL
Rule-based
RM(GRPO+(Acaury+formabR1-Zero800kCoT,
際
Owen25.32800
Llam3.1-8B*Depsck.R1-Disill
Qwen/LlamDeepSeek
-R1
技術路線Huawei
Proprietary-Restricted
Distribution:權重
初始化5具
體
實
現口只需存儲圖中的CKV,KF
即可;口考慮到矩陣乘法結合律,具體實現過程中WUK
可以與WUQ
融合、
wUV
可以與
W°融合,從而無需為每個query
計算key-value
值。o0ce
DumeiomouptQ00o,000ad
etSjne響
%OO:oourm?wor0ndn.0000-0000w"擁cenckmcrCWtmmCda
的位9編件9"cancat律DeepSeekV3模型架構:Multi-HeadLatent
Attention(MLA)Benchmark(Metric)#ShotsSmallMoESmallMoEw/MHA
w/MLALargeMoELargeMoEw/MHA
w/MLAActivatedParams2.5B
2.4B25.0B
21.5B#TotalParams15.8B
15.7B250.8B247.4BKV
Cache
per
Token(#Element)110.6K
15.6K860.2K
34.6KBBH(EM)
3-shot37.939.046.650.7MMLU(Ace.)
5-shot48.750.057.559.0C-Eval(Acc.)
5-shot51.650.957.959.2CMMLU(Acc.)
5-shot52.353.460.762.5Attention
MechanismKV
Cache
per
Token(#Element)Multi-Head
Attention(MHA)Grouped-Query
Attention(GQA)
Multi-Query
Attention(MQA)2nhdl2ngdhl2dhlMLA(Ours)
(de+df)L≈2dhL(bs,h)v(bs,h)
bsh
2bsh
ou=low
ankkeys(bs,h)
Keys壓縮后寬度
h'
<隱藏層寬度
hValues1.
推理階段,理論上可以將KV
Cache降低1~2個數量級,大幅減少HBM
存取和通信的開銷。2.
對昇騰更親和,大幅降低對HBM依賴,提升推理Decode
性能。實驗結果>相比于MHA,MLA
每token的KV
Cache量大幅減少,且精度更高。>張量低秩壓縮以降低KV
Cache資源開銷:相比于傳統MHA,MLA
通過降維
操作使得存儲的張量維度大幅減小。(下圖中僅紅色陰影部分需要存儲)>MLA
架構:1)分別對Query、Key-Value
pair進行低秩壓縮;2)使用
RoPE
獲得位置信息;3)使用MHA
計算得到輸出。對
DeepSeekv3而商aryDR128cDALA可以將KV
Cache降低為
22=1.7%Multi-HeadAttentionMulti-Head
LatentAttention(bs,h)nput昇騰
影響MLA
架構腳
鐘9QmmCw,o0w4n網中0- tshrp
Cross
Entropy
LossMTP
Module2Nettoienedkction)Output
HeadTransformerBlockTransformerBlockLinearProjectionTcorcatnotianRMSNorm
RMSNormEmbedinglarerhputTokens
t?
t?tt
t
t
t
4①
模
型
結
構·每個MTP模塊共享嵌入層和輸出頭·每個MTP
模塊獨占一個TransformerBlock和一個投影矩陣·多個MTP模塊串聯保持完整的因果關系鏈②
訓
練
策
略·
每
個MTP
模塊輸出預測token的概率分布·
每
個MTP
模塊計算對應的交叉熵損失函數·多
個MTP
模塊的損失函數加權平均得到最終訓練目標③
關
鍵
作
用·提升每批訓練數據的使用效率,強化訓練信號·優化模型表達能力,提升next-token的預測效果·
可參考投機采樣改造MTP模塊,加速推理效率
MTP:Multi-TokenPrediction多token預測提升模型效果·MTP
模塊僅在訓練中使用,提升模型訓練效果,推理階段可以不使用MTP
模塊,基礎模型能夠獨立完成正常推理·
參考投機采樣,MTP
模塊也可以被重新配置用于speculative
decoding,加速解碼過程,降低整體時延cm-Cstropucu-m-
臺
2
4mFigure3|Ilustration
of
our
Multi-Token
Prediction(MTP)implementation.We
keep
the
complete
causal
chain
for
the
prediction
ofeach
tokenat
each
depth.Main
CrossEntropyLoss!MTP
Module1TooncatenutonRMSNormRMSNormEmbedding
LayerTransformerBlock×LEmbeddinglayerHuawei
Proprietary-Restricted
DistributionN
ti
o
z
ldicbon)reepdnosa(24)(25)關
鍵發
現NettokenPedschion)CrossEntropyLossUinearProjectionOutput
HeadOutputHeadTorget
Tokenmp7computaton
MLP(B)▲
MLPWA
MLPD△
ATINB)A
AITNWAATTNF△mmunieaon
DISPATCHF△
DISPATCH(B)▲DeviceDeviceDeviceDeviceDeviceDevice
DeviceDeviceTime0
0
1
2
3
4
5
6
10
1
0
1
2
3
4105
11
2
0
1
2
103
11
43
0
10
111
23
4
10
0
11
1
25
10
11
0
12
6
10
11
0
1
0
7
11
0
0
011300140
321△Forward
chunk▲Backwardchunke4|Overlappingstrategyfora
pair
of
individual
forward
and
backward
chunks
(thedariesofthetransformerblocksare
not
aligned).Orange
denotes
forward,green
denoteswardfor
input",bluedenotes"backward
forweights",purple
denotes
PP
communication,eddenotesbarriers.Bothall-to-all
and
PP
communication
can
be
fully
hidden.①細粒度的計算通信并行·將PPstage拆分為更細的模塊,提升模塊交替編排的靈活度·參考ZeroBubble,反向傳遞中的權重更新和梯度傳遞獨立操作·經過細粒度的拆分和編排之后,計算流和通信流的barrier剛好可以重疊②雙向管道調度減少PP
中的氣泡·
1F1B中每個batch拆分為1個forward和1個backward·ZeroBubble
中把backward拆分為input和weight兩個部分·DualPipe
中使用對稱處理,不同batch
從不同的device
上開始流水③
每卡顯存占用略微增大·雙向管道訓練,需要存兩份參數來進行訓練
(Parameter2x)·
模型總參數量671B,每個卡上4個routed
expert對應26.8B,同
時
考慮到PP-16和FP8量化,每個卡上顯存占用為1.675GBDenio01Dowoe1Devce2Dwwce
3Dwwce4Dowce6DowcoDevioe
7Tm
cw
□wud
ovetapped
forwardLBackwardFigure
5|Example
DualPipe
scheduling
for8
PP
ranks
and
20
micro-batches
in
two
directions.
The
micro-batches
in
the
reverse
direction
are
symmetric
to
those
in
the
forward
direction,so
we
omittheirbatch
IDforillustrationsimplicity.Two
cells
enclosedbya
sharedblackborder
have
mutually
overlapped
computation
and
communication.
DualPipe:雙流并行優化計算和通信,
All-to-AlI通信開銷接近0MethodBubbleParameterActivation1F1B(PP-1)(F+B)1×PPZB1PDualPipe
(Ours)1×2×PPPP+1參考DualPipe
技術,基于MindSpeed
訓練加速框架以及昇騰硬件特性,針對
性地設計高效率流水并行技術,提升整體訓練性能8
Huawei
Proprietary-Restricted
DistributionFigurboun
back
and
rCOMBINE(F△
PP
COMBINE(B)▲關鍵
啟示
DeepSeek
通過從模型結構到訓推全流程的優化,帶來大模型新范式DeepSeek
V3/R1,大幅提升從訓練到推理的計算效率,降低模型創新及應用落地的門檻推理優化單次推理效率倍級提升Token
預測1次1token預測1次多Token
預測一次預測多個token推理倍級提升后訓練優化
降低學習復雜度強化學習需要裁判模型評估新老策略組隊評估簡化強化學習流程降低后訓練復雜度業界LLM
大模型DeepSeek核心收益效果模型結構優化以計算換內存、降通信,空間時間雙優化Attention
MOE計算通信優化降低計算,極致的掩蓋,同時保證訓練精度PP并行算法1前1后單流水計算量減少35%平衡訓練效率與數值精度訓練精度FP16/BF16壓縮KVCache降低內存90%支持更高并發計算與通信極致掩蓋減少50%PP
氣泡模型容量提升3倍計算量減少70%MLA低秩壓縮減少緩存DeepSeekMoE
更稀疏256選8+1MHA/GQA分組共享減少緩存FP8混合精度
雙向流水并行9
Huawei
Proprietary-Restricted
DistributionGPT416專家選2訓練算力需求
(PFLOPS)Groq4Hunyuan極致
性
能、穩
定
可
靠
的Al集
群深
度開
放
的
平臺
和
生
態·②
工
程
創
新新一輪百模千態GPT-3/3.5175B
●
GLM-130B注
便
捷、易
用、
性
價比
的
平
臺DeepSeek-R1-Distill-Qwen-32B開
箱即
用的
強
化
學習
套
件GBERT-LargeGTransformerAlexNet大模型從技術摸高走向技術摸高+工程創新并行,訓練需求持續增長①
技
術
摸
高
:頭
部
玩
家
將
戰
略
堅
定
投
入
預
訓
練
基
礎
模
型
創
新,
豐富
模
型
組
合,
追
逐ScalingLaw,加
速
探
索AGI②
工
程
創
新
:
新的
范
式
降
低
后
訓
練
和
蒸
餾門
檻,
模
型
效
果
大
幅
提
升,出
現
平
權
現
象,引
發
新
一
波的
“
百
模
干
態
”201220132014
201520162017201820192020202120222023202420252026訓練的算力需求將持續增長,算力結構從“預訓練為主”走向“預訓練+后訓練/二次訓練”①技
術
摸
高
關
注
高
效
、
穩
定
、
開
放
的
底
座
新一輪技術競爭兼
顧
成
本
與
性
能的
蒸
餾
/
微
調
方
案便
捷的
部
署、敏
捷
業
務
上
線DeepSeek-R1-Distill-Qwen-1.5B(蒸餾后較原模型能力提升10%+)GPalM(540B)
Megatron-TuningNLG530B10Huawei
Proprietary-Restricted
DistributionGPT-4/40Claude2Llama3-70BBaichuan2-138GGemini2.0
GGemini
Ultra極
致的
端
到
端
性能
效
率
優
化關·
·
·DeepSeek-R1-671BDeepSeek-V3-671BGPT-5Doubao2.0oUama4··開箱即用的一體機,加速大模型應用落地教
育
醫
療云
服
務
硬件+社區釘釘一體機電信息壤一體機昇騰社區新致金融一體機同花順一體機京東云諸多廠家推出一體化方
外提伊務/自用硬
件
+
開
源
模
型
+RL
套
件
+ISV/
云
,
商
業
模
式
逐
漸
成
熟AS
IS大量行業數據..監督微調SFT行業大模型TO
BE基
礎
模
型(DeepSeek/
少量行業數據監督微調SFT更多行業高質量數據生成行業大模型模型蒸餾-模型小型化DeepSeek
能力提升成為各行業生產力工具,加速推理落地干行百業DeepSeek
催熟大模型落地技術,降低推理部署門檻華為云移動云電信天翼云聯通云NVIDIAHuggingFaceGitHub……騰訊云阿里云亞馬遜AWS微軟Azure部署更高效月級調優
→
周/天級優化數
據
依
賴
降
低高質量數據
→
生成數據算
法
依
賴
降
低高端人才
→
開源+蒸餾11Huawei
Proprietary-Restricted
Distribution主流云服務商已支持DS
覆蓋公/私有云部署主流算力、主流社區
均已支持DeepSeek電力
油
氣
制造基礎模型Llama
、Qwen、一體機魔樂社區強化學習Llama/Qwen/)昇騰模型服務商潞晨科技已上線硅基流動已上線清昴已上線訊飛測試中運營商電信天翼云已上線聯通云已上線移動云已上線南京、福建、浙江移動已上線上海、江蘇電信已上線國計民生行業龍崗區政府已上線北京銀行已上線廣大證券已上線北京、南京、西安、武漢、蘇州、無錫等公共服務平臺已上線招行測試中工行測試中太保測試中模型名稱Atlas
300I
DuoAtlas
8001
A2DeepSeekV3√DeepSeek
R1√DeepSeek
Janus-Pro-1B/7B√√DeepSeek
R1-Distill-Llama-70B√DeepSeek
R1-Distill-Qwen-32B√DeepSeek
R1-Distill-Llama-8BDeepSeek
R1-Distill-Qwen-1.5B/7B/14B√√DeepSeek
模型發布即支持昇騰推理,各行業已基于昇騰快速上線e2aDeepSoek-V3(C配套版本上線昇騰社區:/software/modelzo
o/models/detail/678bdeb4e1a64c9dae51d353d84ddd1512
Huawei
Proprietary-Restricted
Distribution最新DeepSeek
V3/R1/Janus-Pro及6個蒸餾模型
基于昇騰開箱即用,配套版本已上線各大開源社區DeepSeek
發
布
兩
周
,3
大
社
區全系列模型上線40+客戶/伙伴基于昇騰已上線,
15+測
試
中
(
預計兩周內全部上線)配套版本上線魔樂社區:/models/MindlIE/deeps
eekv3口DeepSeek-R1hapMa
.Mnde/Deplesn模型參數:14B/32BDeepSeek-R1-Distll-Qwen-32BDeepSeek-R1-Distill-Qwen-14B模型參數:7B/8B/14BDeepSeek-R1-Distill-Qwen-14BDeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-7B模型參數:1.5BDeepSeek-R1-Distill-Qwen-1.5BAtlas8001A2(256GB)Atlas
300I
Duo
Atlas
300V13
Huawei
Proprietary-Restricted
Distribution
HUAWEI編程輔助智能客服個性化學習輔導創意寫作個人知識管理個人文檔分析編程輔助開發板
邊
端
設
備Atlas8001A2(1024GB)Atlas8001A2(512GB)體機:大吞吐+高并發,加速行業模型落地昇騰DeepSeek—系統吞吐4940Token/s@32B7500Token/s@14B瓏京科技系統吞吐1911Token/s移動、電信一體
機
制造模型參數:671B+
滿血版DeepSeek
V3/R1系統吞吐3300
Token/s瓏京科技Al編
程智能對話金融研報文本創作營銷文案內容檢測系統吞吐432
Token/s瓏京科技730Token/s@14B956Token/s@8B956Token/s@7B瓏京科技并發路數247路
@
3
2B300路@14B思騰合力模型參數:70BDeepSeek-R1-Distll-Lama-70B并發路數80路@14B115路
@
8B115
路
@
7B思騰合力并發路數16路思瑞合力并發路數165路思騰合力
電力
政務
并發路數192路教育油氣金融交通潞
晨
科
技系統吞吐模型集合模
型
名
稱參數計
算
精
度產品配置系統吞吐token/s并發用戶數DeepSeek-V3DeepSeek
V3671BINT8Atlas800I
A21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800I
A21024GB1911192DeepSeek-R1蒸餾模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800I
A2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800I
A2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800I
A2256GB7500300Atlas
300I
Duo1*Duo
96GB
PCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Dstill-Qwen-7B7BINT8Atlas
300I
Duo1*Duo
96GB
PCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas
300V1*300V
24GB
PCIE43216
DeepSeek
V3/R1及蒸餾模型,昇騰DeepSeek—
體機推薦配置14HuaweiProprietary-Restricted
DistributionDeepSeek
洞察及昇騰適配進展華為昇騰Al基礎軟硬件介紹CoNTENTS目錄15HuaweiProprietary-RestrictedDistribution21ModelArts
應用使能訓練平臺/推理引擎/模型套件/SDKAl計算框架昇思MindSporePyTorch/TensorFlow/Caffe
…
…異構計算架構CANNAtlas及昇騰伙伴系列硬件模組/小站/加速卡/服務器/集群昇騰處理器昇騰310系列/昇騰910系列
…昇
思
MnaaCANNAscend昇騰AI基礎軟硬件架構全面創新,使能行業場景化應用行業場景化應用
視圖分析、檢索聚類、搜索推薦、自然語言處理、智能語音、自動駕駛
…
…
應用使能應用使能套件/SDKAl計算框架PyTorch/TensorFlow/Caffe
…
.異構計算架構CUDANV
系列硬件模組/加速卡/服務器/-->集群NV處理器Ampere系列/Hopper
系列…nVIDIA.
CUDANVIDIA
.英
偉
達
Al
基
礎
軟
硬
件
架
構昇
騰
Al
基
礎
軟
硬
件
架
構16HuaweiProprietary-RestrictedDistribution[M]TensorRTplugins&parserNV
NCCLNV
CUTLASSNV
CUDA-CNV
cuDNNGraph
Engine圖引擎HCCLAscendC高階APIAscend
C低級APIAscend
aclNNMT
、KS自定義圖融合PatternTX
、MThash
算法自定義調優XF自定義切分策略KS自定義算子開發XF結合場景差異優化深度開放CANN,
一套架構使能昇騰原生開發加速庫
Megatron
DeepSpeed
AscendSpeed…AI框架
昇
思MindSpore
PyTorch
TensorFlow
…GE圖引擎開放圖編譯、圖優化、圖執行,支持自定義圖觸合,提升整網性能計算架構CANN深度開放,使能高效靈活開發,匹配開發者使用習慣HCCL
集合通信庫開放通信算子、平臺接口,支持自定義通信算法,提升網絡通信效率Ascend
C編程語言開放130+底層API、60+高層API,支持高性能自定義融合算子開發算
子
加
速
庫放1600+基礎算子接口、30+融合算子接口,簡化開發復雜度,提升開發效率畢昇編譯器|Runtime
運行時開放硬件資源接口,滿足開發者對模型開發、系統優化、三方生態對接等各場景需求Huawei
Proprietary-Restricted
DistributionGE
圖引擎集合通信庫類庫/模板通用編程算子加速庫對位NV
CUDA,
匹配開發使用習慣昇騰硬件使能CANNCANNKS直接發起Kernel
LaunchNVIDIA.CUDAAscendRuntime運行時NV
Runtime17模型訓練:算網/算存深度協同是大模型分布式并行訓練的基礎大模型技術發展方向干億稠密/萬億稀疏
超長序列
多模態更大規模/更復雜的組網
更復雜的模型及數據切分
更大(模
參據數量、Ch
…讀)
寫eckPoint存儲和⑥
NPUPCPU
從Mind-omacXPT
據
MindlO(MindX
的IO相件)MindIO
從DPC存
加CKPT
數
斑DPC(存儲分布式客戶鍋)CXPT
參數(
細
存
)面故蹄恢復時,首次
加載CKPT
數臟到計牌
節點DPC
蛋存區存儲節點存
儲
設
備3、AI任務信息任務、通值域1、控制器獲取網絡拓撲,下發路徑信息同莫
只2
,
AI任務調度…………算網協同·
網絡級負載均衡:獨
家NSLB
算法
,算網協同
調度,多任務節點非連續組網情況下,通信帶寬
提升20%、模型性能提升7%算存協同·極致讀寫性能:
CKPT
等算存讀寫協同優化、
PB
級存取+TB級帶寬,數據讀取效率提升50%大規模組網·
超
大
組
網
規
模
:2層1:1無收斂的AI網絡架構,最大支持128
K集群規模組網,千卡到萬卡平滑演進以全部通信關系和拓撲信息作為輸入通過算法計算出最優結果,實現Al參數面全網負載均衡18
Huawei
Proprietary-Restricted
Distribution支持2級框盒、框框組網,適用于大規模及超大規模集群故障飲復時,個NPU均需教政cxpTo數
數
瓣(
始
)
T優化前方案優化后方案計算
節點4、動態路徑調整Al調度平臺網絡控制器NPU/CPU算
子
深
度
融
合“工序合并”減少計算數據搬入搬出的時間及內存開銷計算與通信融合計算數據細粒度切分,減少計算與通信相互等待計算加速忽略無效計算,減少計算量和內存量低
階
二
進
制
算
子
庫Asce計算通信計算1計算2計算3計算4…通信1通信2通信3通信4自適應選擇性重計算、內存碎片優化、算子庫CANNndC編程語言+Runtime開MultiheadAttention中常見模型的mask上
三角區域均接近于0.高階融合算子庫放接口模型訓練:應用使能軟件加持,
MFU
領先、線性度持平NV模型訓練最優=
單機執行最優+集群并行最優
+中斷時間最短網絡局部計算選路Hash沖突導致有效吞吐不足50%控制器全局集中算路_自動生成路徑并動態下發網絡網絡控制器獲取網絡拓撲
下發路徑硬件層算網協同
提升有效吞吐NLSB網絡級負載均衡實現網絡
動態路由,有效吞吐達98%模型算力利用率
(
MFU)
45%+模型通信與計算優化,單機執行最優軟件層分布式并行充分調度算力資源提供分布式加速庫,內置主流加速算法,滿足各類模型加速場景超大集群線性度
90%+分布式并行+算網協同,集群并行最優數據并行、流水并行層內通信并行L
層L2層
L層19HuaweiProprietary-Restricted
Distribution[M]
昇思OPyTorch模型并行場景/應用測試模型測試結果對話搜索DB-200B0.94x
A800客服、文生圖場景;
金融助手SDXL3.48~3.63x
A10Llama2-7B1.41~2.72x
A10Llama2-13B1.44~2.19xA10電商ChatGLM2-6B1.86x
A30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智腦13B1.7x
A30圖像識別、OCR文
字識別和視頻處理Llama2-70B1.7x
L20智慧教育、辦公問
答星火-65Bx800T
A2交互搜索,金融客服問答step1V-130B多模態2.0x
L20對標Triton+TMS/vLLM·業界標準RPC
接口高效對接業務層·模型管理,集群管理,devops·支持多實例并發對標TensorRT-LLM·支持社區模型快速遷移·
自回歸解碼、擴散過程優化·稀疏量化壓縮、并行推理支
持PyTorch/
昇
思·少量代碼實現訓練向推理平滑遷移·整圖/子圖優化+單算子混合推理對標TensorRT·
圖優化,算子融合,Kernel優化·量化、混合精度加速·異步下發,多流水執行模型推理:提供分層開放的推理引擎MindlE,
使能高效推理NEWO推理套件
MindIE-LLM框架推理
MindSpore對接NEWDMindIE-SDMindIE-Torch第三方推理服務Triton
backendSrd20Huawei
Proprietary-Restricted
DistributionMindIE-RT推理開發工具NEWO推理服務化CANNMindIE-ServiceMindIE-MS昇騰推理引擎MindIEMindIE-Server
MindIE-Client推理應用接口推理運行時算子加速庫vLLM差異一:芯片架構差異導致算子實現不同例如,矩陣計算時,昇騰采用16
x16
分形,英偉達采用8x8
分形即使算子功能相同,在不同架構下算子實現方式可能不
同差異二:工具鏈差異導致遷移效率不同算子重開發、精度調試、性能調優的難度
體現在工具鏈的能力上昇騰
—
無
工
具
鏈
—
其他架構亟需精度對比工具:
GPU的推理精度在適配昇
騰訓練的模型時,需要以昇騰訓練的模型精度為標桿遷移工作量大:
建立工具鏈完成對昇騰的精度
對比和調優。差異三:基礎能力差異導致支持完備度不同基礎庫、加速庫、三方庫等支持情況不同跨架構時需通過引入、適配第三方庫,或者開
發基于自身架構的對等庫來解決庫的差異問題昇騰CUBE
計算單元結構
為16x16x16芯片架構差異遷移分析工具模型支持度分析和修改建議模型支持度評估離線模型
—
→
分析報告模型轉換工具實現訓推一體的模型轉換一鍵式命令觸發三方框架
昇騰處理器模型格式
模型格式圖準備->圖拆分->圖優化->圖編譯精度比對、改圖工具一站式調優工具,提升精度優化效率性能優化、快速推理工具一站式調優工具,提升性能優化效率GPUGraphNodesmaping-x.pklNPUGraphComparey.pk1精度結果MindStudio命
令
行MindStduioIDE數據解析Data
個用戶APP數據采集OSAscend
NPU模型遷移:工具鏈進一步升級,提升GPU
到昇騰快速遷移能力GPU
訓練->昇騰推理:提供MindStudio
一站式工具鏈,3~15人天可完成遷移,80%場景僅需3人天計算架構支持的主要基礎庫/加速庫昇騰DVPP/AIPP/mxVision/ACLNN/ACLBlas等英偉達CodecSDK/CV-CUDA/cuDNN/cuBlas/DALI等GPUCUBE計算單元結構
為8x8x4(A100)21
Huawei
Proprietary-Restricted
DistributionHUAWEIGPT-3
參數:13B/100B
/175B已測試客戶:YD、MY、ZJLLaMA-3
參數:7
B/13B/70B已測試客戶:TYY、YD、BOSS、MY、360、MT、CA、HWY、CGCSYSGLM-3參數:6
B/10B/130B已測試客戶:ZP、BJYH、YCCXJH
、MT
、LTYQwen-2
參數:7B/72B已
測
試
客
戶
:DX、VIP100B業界7B業界13B業界70B業界6B業界7B業界72B業界1.00X1.00X1.05X0.83X1.04X0.83X0.87X100B業界7B業界13B業界70B業界6B業界7B業界1.23X1.01X0.91X1.13X1.21X0.9X昇騰已支持國內外開源開放大模型,實測性能持平業界國內唯一已完成訓練干億參數大模型的技術路線,業界主流大模型PyTorch
實測性能均達到0.8~1.1倍業界最新主流開源模型均已陸續適配并商用中Baichuan2|GLMV3|SiT|MixTral-8x7B|Stable
Diffusion|OpenSora|VideoGPT|Qwen-VL.
.21測試靖果總結nemH0sntho1tmsyon.ha*4716日v地和thum
ai7MindSpore+
昇騰
PyTorch+NV業界主流4款開源大模型PyTorch+昇騰
VSPyTorch+NV22HuaweiProprietary-RestrictedDistribution5
測試結果
51游試絡果列s測試報告S場景核心技術A2DeepSeek適配LoRA微調CCLoRA支持25Q1支持Fused_MLP支持qLoRA微調CCLoRA支持Fused_MLP不支持長序列微調長序列CP方案支持核心技術H800A2FP8+20%~25%不支持無輔助負載均衡損失評分效果提升評分效果提升DualPipe計算通信比1:1->8:1,+8~12%計算通信比3:1->6:1,+4~6%跨節點All2AlI優化RMSNorm+MLA部分重計算省2~3G內存省2~3G內存微調算法目標性能部署建議LoRA微調1.1x業界8機Atlas800T
A2qLoRA微調1.1x業界4機Atlas800T
A2全參微調1.1x業界32機Atlas800T
A2DeepSeek模型A2適配情況DeepSeekV3已適配DeepSeek
R1已適配DeepSeekJanus-Pro已適配
DeepSeek
系列模型昇騰訓練產品適配計劃及微調部署建議支持DualPipe、
跨節點All2AlI等優化
支持CCLoRA、Fused_MLP
核心技術,提升微調訓練吞吐性能DeepSeek
系列預訓練完成昇騰適配,目標性能1.1x
NVDeepSeek
系列模型微調目標性能1.1x業界
(Q1)23Huawei
Proprietary-Restricted
DistributionDeepSeek
V3/DeepSeek
R1(671B)
“滿血版”BF16
精度推理采用BF16
或FP16
數據格式進行推理,需要內存約為1340GB
需要采用Atlas800I/T
A2(8*64GB)4機并行X4Atlas800I
A2(8*64GB)最小配置為4機并行采用Atlas
800T
A2時亦需4機并行INT8
精度推理采用INT8
數據格式進行推理,需要內存<700GB,可2機并行X2Atlas800I
A2(8*64GB)最小配置為2機并行采用Atlas800T
A2時亦需2機并行模型硬件格式部署建議進展DeepSeekJanusPro1BAtlas800IA2BF16單卡部署,單機8實例已適配發布Atlas
3001DuoFP16單卡部署已適配發布A2/DuoINT8適配中適配中DeepSeekJanusPro7BAtlas800IA2BF16單卡部署,單機8實例已適配發布Atlas
300IDuoFP16單卡部署已適配發布A2/DuoINT8適配中適配中模型參數格式部署建議進展DeepSeek-
R1-Distill-Lama8BBF16/INT8<14B模型可采用Atlas300IDuo推理;
大于14B模型推薦Atlas800IA2推理:·
1.5B:Duo/A2單卡部署,開發板部署
·7~8B:Duo卡2卡并行,
A28卡并行,支持開發板部署·
14B:Duo卡2卡并行,
A28卡并行·32~70B:A28卡并行整體已適配發布Atlas8001A2BF16
/INT8推理已發布除70B模型外,其他模型Atlas
300IDuoFP16/INT870BBF16/INT8DeepSeek-
R1-Distill-Qwen1.5BBF16/INT87BBF16/INT814BBF16/INT832BBF16/INT8
DeepSeek
主干模型均已支持昇騰推理開箱,性能持續提升中關鍵性能優化特性MLA
架構:支持
W8A8
量化:支持EP
策略:支持
MTP
多token預測:PD
分離部署:待支持
待支持多模態模型DeepSeek
Janus
ProDeepSeek
R1蒸餾模型24
Huawei
Proprietary-Restricted
Distribution參數面用于智能集群分布式推理時參數交換,要求網絡具備高吞吐低時延能力,部署高帶寬的智能
無損RoCE網絡,每臺推理服務器8個200GE
ROCE光口樣本面用于訪問存儲區的高速大帶寬互聯的存儲系統,推薦部署為RoCE無損網絡,每臺推理服務器
2個25GE光口業務面用于系統業務調度和管理。通常部署為TCP/IP有損網絡,每臺推力卡服務器2個25GE光口帶外管理Al服務器BMC管理,可選樣本面(可選)
帶外管理面
(BMC
管理可選)CE58824*GELeaf
CE9860[NFS訪河分
級DPC
訪問
9540存儲區(可選)推理讀流量Al
推理服務器
(Atlas800I
A2)99504臺*8口*20DGDeepseek
V3/R1模型本地化部署組網方案訓推平臺(按需配置)xx臺通用服務器業務面DeepSeek
R1/V3推理配置建議BF16
最
小
配
置4
臺
計
算節點;INT8
最
小
配
置2
臺
計
算節
點
;CE6865E8*25GE推理調度管理流量16*4006E一分二LeafCE9860*2臺Spine
CE9860Leaf
CE6865E8*25GESpineCE9860*2臺參數面25HuaweiProprietary-RestrictedDistribution_200G25GGE_400G100G10G400G
RoCE交
換
機圖
例序號模型發布日期描述本地部署推理最低配置當前支持情況1DeepSeek-V32024.12.16MOE,671B4*Atlas800I
A2(8卡,64GB)/models/Mindl
E/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800I
A2(8卡,64GB)/models/Mindl
E/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持,直接用mindIE可跑通,310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持,直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1
*310P(顯存不小于48GB,量化
后顯存不小于24G)310P已支持,直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(顯存不小于96GB)推薦4*310P以上配置310P已支持,直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持,直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800I
A2(8卡,32GB)
或8*310P310P已支持,直接用mindIE可跑通9Janus-Pro
1B2025.1.28多模態,1B1*310P或1*310B/models/Mindl
E/Janus-Pro310B適配中10Janus-Pro
7B2025.1.28多模態,7B1*310P/models/Mindl
E/Janus-Pro
DeepSeek
系列模型昇騰
NPU
推理配置建議
快
速部署DeepSeek
模
型
模型資源獲取推理環境調測推理模型部署推理模型測試推理資源評估集群連通測試模型權重轉換性能測試推理設備選型推理鏡像制作模型量化精度測試模型權重下載純模型測試服務化啟動服務化測試推理運行環境部署支持容器化部署鏡像封裝,提供容器命令加速框架
Deepspeed|Mindspeed|MindlEAl計算框架
PyTorch|TensorFlow|MindSpore異構計算架構CANN昇騰處理器已支持的DeepSeek
系列模型Al計算使能服務-DeepSeek部署支持:快速適配DeepSeek模型,支撐模型快速上線關鍵特性W8A8
量化|服務化部署|EP并行Al軟
件
棧
多
且
復
雜
,客戶不清楚模型組
件
安
裝
依
賴
順
序
,
模型分析工具鏈有
哪些,模型是否支
持容器化部署等模型運行版本配套復雜Python=3.xPyTorch=2.0CANN7.0.0,
依賴MindSpeedPython=3.xCANN6.0.RC3,依賴AclLite推薦昇騰最佳實踐,快速復現DeepSeek
系列模型推理流程,加速客戶應用上線。DeepSeek-R1-Distill-llamaDeepSeek-R1-Distill-qwenJanus-Pro物理機部署基于場景,提供開發環境部署方法DeepSeek-R1DeepSeek-V3DeepSeek-V2.527
Huawei
Proprietary-Restricted
DistributionModelAModelBCANNAAscend運行環境部署粵DeepSeek系列賦能賦能流程01
需求調研
方案制定
賦能實施·
調研客戶工程師開發過程中
的痛點、難點·
明確客戶當前能力缺位情況·
提供賦能內容·
提供昇騰樣例·
昇騰模型/應用開發流程演示·De
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國機座拼塊鋁膜數據監測研究報告
- 1.6函數的連續性基礎課部85課件
- 2025年中國旋轉烤叉數據監測報告
- 2025年中國方型蚊帳數據監測報告
- 2025年中國數控萬能銑床數據監測研究報告
- 2025-2030年中國二氧化鋯全瓷牙行業運營格局及投資策略研究報告
- 2025-2030年中國不銹鋼水泵行業發展趨勢及競爭調研研究報告
- 肇慶市實驗中學高中生物三:其他植物激素導學案
- 2025至2031年中國素肉條行業投資前景及策略咨詢研究報告
- 新疆輕工職業技術學院《體育教材教法》2023-2024學年第二學期期末試卷
- (人教2024版)數學五年級上冊第6單元《多邊形的面積》大單元教學課件
- 行政事業單位內部控制制度之合同管理制度
- 2024秋期國家開放大學《可編程控制器應用實訓》一平臺在線形考(形成任務3)試題及答案
- 2025年高考語文第一輪復習:高考文言文閱讀挖空練習高考語文文言文備考總復習(全國)
- DB13-T 5722-2023 醫院感染應對策略與質量控制
- 2024秋期國家開放大學《公共政策概論》一平臺在線形考(形考任務1至4)試題及答案
- 藥劑科考試試題
- 湖北省華中師大第一附中2025屆高考物理四模試卷含解析
- GB/T 44275.2-2024工業自動化系統與集成開放技術字典及其在主數據中的應用第2部分:術語
- 數獨題目高級50題(后附答案)
- 口腔診所消防安全工作管理制度
評論
0/150
提交評論