




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
.
2025|
N
D
UST
R
Y
R
ES
EAR
C
H
R
E
P
0
R
TDeepSeek
技術全景解析
重塑全球AI生態的中國力量www.chyxx.com
服務熱線:400-700-9383010-60343812精品行研報告·專項定制·月度專題·市場地位證明·專精特新申報
·可研報告·
商業計劃書·產業規劃三編制
:智研咨詢01
DeepSeek
企業背景02
Deepseek
模型家族03
Deepseek
技術創新04
Deepseek商業模式05
Deepseek
應用場景06
AI大模型市場現狀07
Deepseek對Al行業影響總結www.chyxx.com
服務熱線:400-700-9383010-60343812精品行研報告·專項定制·月度專題·市場地位證明·專精特新申報
·可研報告·
商業計劃書·產業規劃三CONTENT
PART
01DeepSeek
企業背景最全面的產業分析●可預見的行業趨勢服務熱線:400-700-9383
專項定制·
月度專題·市場地位證明·
專精特新申報·可研報告·
商業計劃書·產業規劃www.chyxx.comDeepSeek
背靠資金實力雄厚的幻方量化2025年1月,DeepSeek
發布其最新開源模型DeepSeek
R1,
再度引發全球人工智能領域關注。DeepSeek,全稱杭州深度求索人工智能基礎技術研究有限公司,成立于2023年7月17日,
一家創新型科技公司,專注于開發先進的大語言模型(LM)和
相
關技
術
。DeepSeek
背靠資金實力雄厚的幻方量化,DeepSeek
創始人為梁文鋒,梁文鋒同時也是幻方量化的創始人,幻方量化是
國內頭部量化私募管理人,旗下有兩家百億量化私募,分別是2015年6月成立的浙江九章資產和2016年2月成立的寧波幻方量化。DeepSeek
公司簡介
DeepSeek
股權結構99%
1%杭州深度求索人工智能基礎技術研究有限公司0.1%寧波程采企業管理咨詢合伙企業(有限合伙)100%北京深度求索人工智能基礎技術研究有限公司DeepSeek
位
于浙江杭州市,
成立于2023年
7月。寧波程恩企業管理咨詢合伙企業(有限合伙)●1.1
DeepSeek基本情況資料來源:愛企查
www.chyxx.com★北京智研咨詢梁文鋒南海諸島DeepSeek
大模型不斷優化迭代回顧其發展歷史,2024年1月,發布第
一
版大模型
—
-DeepSeek
LLM,
這個版本使用傳統的Transformer架構,但在訓練方面,已經明顯體現出DeepSeek團隊通過不斷優化訓練策略,達到節約成本,提高效率的思想,這點也在后續的模型迭代中被發揚光
大。2024年5月,
DeepSeek-V2
發布,從這
一
代開始,
DeepSeek
模型開始使用混合專家(MoE)架構,這是傳統Transformer架構的
一
種改進和擴展,該架構使DeepSeek模型能以更低的計算成本進行更復雜的推理,極大提升了模型的性能。2024年12
月
,DeepSeek-V3
上
線
并
開
源
,V3版
本
對MoE
架構進行了進
一
步優化,在維持低訓練成本的同時,穩定性與多方面性能表現都
達到了與領先閉源模型相當的水平。2025年1月,DeepSeek-R1
正
式
發
布
,R1模型的推理能力得到極大加強,與OpenAl-01模
型不相上下,且推理過程完全透明,因此在全球范圍備受關注。正式發布推理模型DeepSeekR1Lite預覽版正式上線2024年11月2024年9月合并DeepSeekCoder
V2和
DeepSeek
V2
Chat兩個模型,升級推出全新的DeepSeek
V2.5新模型DeepSeek
模型家族deepseekDeepSeek
R1DeepSeekV3DeepSeekCoderV2DeepSeekVLDeepSeekV22024年12月宣布DeepSeek
V3
首個版本上線并同
步開源模型權重2024年1月發布第一版大模型——DeepSeek
LLM宣布開源第二
代MoE
大模型
DeepSeekV22024年5月DeepSeek
R1
模型,并同步
開源模型權重2025年1月DeepSeek發展歷程DeepSeek
Coder
DeepSeek
Math
DeepSeek
LLMDeepSeek
成立2023年7月DeepSeek
發展歷程資料來源:智研咨詢整理
www.c智研咨詢●1.2一
PART
02Deepseek
模型家族最全面的產業分析●可預見的行業趨勢服務熱線:400-700-9383
專項定制·
月度專題·市場地位證明·
專精特新申報·可研報告·
商業計劃書·產業規劃→DeepSeek-V2
模型性能進一步優化從低成本的DeepSeek-V2,到超低價格的DeepSeek-V3,再到引起世界廣泛關注的DeepSeek-R1,DeepSeek
的成功主要依賴于DeepSeek
自身深厚的技術積累和持續的技術創新突破。DeepSeek-V2
采用的是MoE
架構,全參數量為236B,
激活參數量是21B。
其采用了兩大創新技術:DeepSeekMoE
架構和多頭潛在注意力(MLA),
使得DeepSeek-V2
的訓練成本大為降低并且提升推理速度。MLA
通過將Key-Value
緩存壓縮為潛在向量來提高推理效率,從而提高吞吐量。DeepSeek
MoE架構允許通過稀疏計算進行有效的推理。相比DeepSeek
LLM67B(Dense),
DeepSeek-V2的性能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV
緩存,最大生成吞吐量提高到5.76倍。DeepSeek-
V2性能LLaMA38BO
LLaMAMistral
7BLLaMA133BLLaMA213B0
20
40ActivatedO
LLaMA165B234B---
LLaMA1
Family---
LLaMA2
Family---LLaMA3
Family---Mixtral
Family---Command
RFamily
---
Qwen1.5
Family6080100Parameters(Billions)DeepSeek-V2Mixtral
8x22B
LLaMA370BCommandR+DBRX
Qwen1.572BDeepSeek
67BQwen1.532B
Grok-1Mixtral8x7BKV
Cache
for
Generation(KB/Token)DeepSeek67BDeepSeek-V2
reducing
KV
cache
by
93.3%0100200300400Maximum
GenerationThroughput(Tokens/Sec)Training
Costs(K
GPU
Hours/T
Tokens)DeepSeek67BDeepSeek-v2050100
150576%of
maximum
throughput10000
20000
30000
40000
50000資
料
來
源
:DeepSeek、
智
研
咨
詢
整
理
www.chyxx.comDeepSeek67BDeepSeek-v2十0807570656055●2.1
DeepSeek-V2模
型
deepseekPerformance
(MMLU)saving
42.5%oftrainingcosts2002502
300智研咨詢LLaMA
270BCommand
R●2.2
DeepSeek-V3模型
deepseekDeepSeek-V3
模型性能大幅提升DeepSeek-V3是一個強大的專家混合(MoE)語言模型,具有671B
個總參數,激活參數量為37B。相較歷史模型,DeepSeek-V3在推理速度上有了大幅提升。此外在目前大模型主流榜單中,DeepSeek-V3
在開源模型中位列榜首,與世界上最先進的閉源
模型不分伯仲。DeepSeek-v3
性
能●
DeepSeek-V3
遵
循
DeepSeek-V2的設計,采用多頭潛在注意力(MLA)和DeepSeekMoE
架構。●采用了無輔助損失的負載均衡策
略,最大限度地減少了由于鼓勵
負載平衡而引起的性能下降。●引入一個多token
預測(MTP)
目
標,證明它有利于模型的性能,
也可用于推理加速的推測解碼。資料來源:DeepSeek、
智研咨詢整理www.chyxx.comDeepSeek-V3模型訓練成本大幅降低根
據DeepSeek
團隊在論文中強調,通過優化算法、框架和硬件的協同設計實現的。在預訓練階段,每萬億個token
上訓練DeepSeek-V3只需要180
KH800GPU小時,也就是說,在其擁有2048個H800GPU
的集群上只需要3.7天。因此,公司的預訓練
階段在不到兩個月的時間內完成,花費了2664K
GPU小時。加上上下文長度擴展的119K
GPU小時和后訓練的5K
GPU小時,
DeepSeek-V3
完整訓練僅花費278.8萬GPU
小時。假設H800GPU
的租賃價格為每小時2美元,則代表著其總訓練成本僅為557.6萬美元。相比同等規模的模型(如GPT-4、GPT-40、
Llama3.1),
訓練成本大幅降低。但DeepSeek
團隊還特意強調,上述成本僅包括DeepSeek-V3的官方訓練,不包括與架構、
算法或數據的先前研究和消融實驗相關的成本。DeepSeek-V3的訓練成本(假設H800的租賃價格為2美元/GPU小時)訓練成本預訓練上下文擴展后訓練總計H800GPU小時(小時)2664K119K5K2788K美元$5.328M$0.238M$0.01M$5.576MDeep
Seek-V3節省訓練成本的方法All
To
ALL通信內核IB+NVLink低精度FP8
訓練Dual
PipeDeepSeek
MoE+MLA無張量并行TP多token
預測(MTP)帶寬限制PTX語言無需輔助損失的負載均衡針對性GPU優化模型結構Architecture模型訓練方式Pre-Train●
2.2
DeepSeek-V3模型資料來源:
DeepSeek、智研咨詢整理www.chyxx.comdeepseek智研咨詢核心技術——無需輔助損失的負載均衡DeepSeek-V3采用了一種無需輔助損失的負載均衡策略,旨在最大限度地減少因負載均衡優化而對模型性能造成的不利影響。MoE模型容易出現“專家負載不均衡”(有的專家忙,有的專家閑),傳統的解決方法是加一個輔助損失,但這可能會損害模
型性能。DeepSeekV3
引入了一種新方法,通過動態調整每個專家的“偏置項”
,來平衡負載。這種方法不依賴輔助損失,減
少了對性能的負面影響。此外,為了防止在單個序列內出現極端不平衡情況,也引入了一種補充的序列級平衡損失,但影響很
小。其中,平衡因子α是一個超參數,對于
DeepSeek-
V3
被設置為極小的值;1(.)表示指示函數;
T表示
序列中的令牌數量。序列級平衡損失鼓勵在每個序
列內實現專家負載的平衡。具體而言,為每個專家引入一個偏置項
bi,并將其
添加到對應的親和度得分Sit,以確定Top-K
路由。補充的序列級輔助損失:無需輔助損失的負載均衡:DeepSeek-V3模
型
deepseek資料來源:
DeepSeek、
智研咨詢整理
智研咨詢●
2.2●
2.2
DeepSeek-V3模
型
deepseek
智
研
咨
詢核心技術——多token
預測
(MTP)傳統語言模型通常只預測下一個token,
而DeepSeek-V3
在訓練中采用MTP
目標,在每個位置預測多個未來token。
這種方式增
加訓練信號密度,提高數據效率,使模型更好規劃表示,準確預測未來token。
具體通過多層次模塊預測多個附加token,
各模
塊共享嵌入層和輸出頭,保持預測因果鏈,提高推理生成速度,提升模型整體性能。MTP
實現的示意圖t?t?
t?
t?LMain
Cross-Entropy
LossMTP
Module1(Next2TokenPrediction)Output
HeadTransformerBlockLinear
ProjectionfconcatenationRMSNorm
RMSNormShared
Embedding
LayerTarget
Tokens
t?
t?
t?
tsCross-Entropy
LossMain
Model(Next
TokenPrediction)Output
HeadTransformer
Block×LEmbeddingLayerInput
Tokens
t?
t?
t?
t?t?
ts
t?
t?LMTP
Cross-EntropyLossMTP
Module
2(Next3TokenPrediction)Output
HeadTransformerBlockLinear
ProjectionfconcatenationRMSNorm
RMSNormShared
EmbeddingLayert?t?t?
t?t?
t?
t?
t?資料來源:
DeepSeek、
智研咨詢整理
www.chyxx.comLMTP核心技術——FP8
混合精度訓練通常的大模型訓練會采用BF16或FP32/TF32
精度作為數據計算和存儲的格式,來確保較高的訓練精度。相比之下,
FP8占
用
的數據位寬僅為FP32的1/4,FP16的1/2,可以提升計算速度,降低對存儲的消耗。微軟2023年的論文《FP8-LM:Training
FP8Large
Language
Models》就提出了一種用于LLM
訓練的極度優化的FP8混合精度框架。其核心思想是計算、儲存和通信(包括
正向和反向傳播)全部使用低精度FP8,
從而大大降低系統工作負載。然而,使用FP8
格式訓練LLM
存在數據下溢出或上溢出等
挑戰以及FP8
數據格式較低精度所導致訓練失敗等問題。DeepSeek
團隊在訓練DeepSeek-V3
時,采用的是混合精度框架,大部分密集計算操作都以FP8
格式進行,而少數關鍵操作則策
略性地保留其原始數據格式,以平衡訓練效率和數值穩定性。通過使用FP8格
式
,DeepSeek
能夠在有限的計算資源下,實現更
高的計算效率。例如,在處理大規模數據集時,FP8
格式可以顯著減少顯存的占用,從而提高模型的訓練速度。DeepSeek-
V3
混合精度框架示意圖To
FP8WgradWeight
GradientFP32ToBF16Optimizer
StatesOutputGradientBF16DeepSeek-V3模型
deepseek資料來源:
DeepSeek、
智研咨詢整理
wwww.智研咨詢②FP32InputGradientMasterWeight∑FP32InputBF16●2.2WeightOutputTo
BF16To
BF16To
FP32DgradFpropTo
FP8To
FP8To
FP8To
FP8FP32●2.2
DeepSeek-V3模型
deepseek
智研咨詢核心技術——Dual
Pipe算法在應用分布式并行策略時,無論是數據并行策略下的梯度聚合步驟,還是模型并行下各模型組件之間的通信,都會帶來大量的
跨設備數據傳輸需求。若不同階段的計算耗時差別較大,則會出現計算設備的空閑,即為“氣泡
(bubble)”。
為解決這一
問題,流水線并行(pipeline
parallel,PP)策略應運而生。其通過將一個較大數據批次分解為多個微批次(micro
batch),
使得每次計算的總耗時減少,從而減少了計算設備所處于的計算和等待兩種狀態在時間軸上的顆粒度,進而使得每個bubble被縮小。在這一背景下,DeepSeek
團隊在傳統PP
策略的基礎上創新性地提出并應用了Dual
Pipe技術。與傳統PP
策略相比,
Dual
Pipe技術最明顯的革新在于其有效地融合了前向和后向計算加速通信。此外,DeepSeek
團隊還通過調節GPU
中流式多處理器(SM)
的調度來實現對其在計算和通信之間進行精細化分配,進而進一步加速了通信過程。Dual
Pipe算
法
示
意
圖Device
0Device
1
Device
2
Device
3
Device
4
Device
5
Device
6
Device
7Time081923456678899560718293456787989506172839456787989051627384956789890415263748596789893253647586978993546576879899445566778899MLP(B)▲MLP(W)▲MLP(F)△ATTN(B)▲ATTN(W)▲ATTN(F)△DISPATCH(F)△DISPATCH(B)▲COMBINE(F)△PPCOMBINE(B)▲Forward
Backward
Backward
for
input
Backward
for
weightsOverlappedforward&BackwardDualPipe8
個
PP
rank和
20個micro-batch的
DualPipe
調
度
示例資料來源:
DeepSeek、
智研咨詢整理
www.chyxx.com△
Forward
chunk▲Backward
chunkComputationCommunicationTimeChunk拆分CategoryBenchmark
(Metric)Claude-3.5-Sonnet-1022GPT-4o
0513DeepSeekV3OpenAl
ol-miniOpenAl
o1-1217DeepSeek
R1EnglishArchitectureMoEMoE#Activated
Params-37B-37B#Total
Params671B671BMMLU
(Pass@1)88.387.288.585.291.890.8MMLU-Redux
(EM)88.98889.186.792.9MMLU-Pro
(EM)7872.675.980.384DROP(3-shot
F1)88.383.791.683.990.292.2IF-Eval
(PromptStrict)86.584.386.184.883.3GPQA-Diamond
(Pass@1)6549.959.16075.771.5SimpleQA(Correct)28.438.224.974730.1FRAMES
(Acc.)72.580.573.376.9-82.5AlpacaEval2.0(LC-winrate)5251.17057.8-87.6CodeArenaHard
(GPT-4-1106)85.280.485.592-92.3LiveCodeBench(Pass@1-COT)33.834.2-53.863.465.9MathCodeforces
(Percentile)20.323.658.793.496.696.3Codeforces(Rating)7177591134182020612029SWEVerified
(Resolved)50.838.84241.648.949.2Aider-Polyglot
(Acc.)45.31649.632.961.753.3AIME
2024
(Pass@1)169.339.263.679.279.8MATH-500(Pass@1)78.374.690.29096.497.3CNMO
2024
(Pass@1)13.110.843.267.678.8ChineseCLUEWSC(EM)85.487.990.989.992.8C-Eval(EM)76.77686.568.991.8C-SimpleQA
(Correct)55.458.76840.3-63.7DeepSeek-R1
基
于DeepSeek-V3
訓練優化得到,增強了復雜邏輯推理能力,全參數量是671B,激活參數37B
。在數學、代碼、
自然語言推理等任務上,性能比肩OpenAl
ol正式版,并且開源模型權重,引發了全球的廣泛關注。DeepSeek-
R1評估結果●2.3DeepSeek-R1模型
→
DeepSeek-R1
性能對標OpenAl資料來源:DeepSeek、
智研咨詢整理
o1正式版在大語言模型(LLM)
的微調過程中,強化學習
(RL)扮演著至關重要的角色。傳統的近端策略優化
(PPO)
算法雖然被廣泛應用于LLM的微調,但其在處理大規模模型時面臨著巨大的計算和存儲負擔。PPO算法需要維護一個與策略模型大小相當的價
值網絡來估計優勢函數,這在大模型場景下會導致顯著的內存占用和計算代價。此外,PPO
算法在更新策略時可能會導致策略分布發生劇烈變化,從而影響訓練的穩定性。為了解決這些問題,
DeepSeek
提出了一種新的強化學習算法——組相對策略優化
(GRPO),旨在減少對價值網絡的依賴,同時保持策略更新的穩定性和高效性。GRPO方法的優勢在于:(1)減少計算負擔:通過避免維護一個與策略模型大小
相當的價值網絡,
GRPO顯著降低了訓練過程中的內存占
用和計算代價。(2)提高訓練穩定性:GRPO
通過組內比較來估計優勢
函數,減少了策略更新的方差,從而確保了更穩定的學習
過
程
。(3)增強策略更新的可控性:GRPO
引入了KL
散度約束,
防止策略更新過于劇烈,從而保持了策略分布的穩定性。資
料
來
源
:
DeepSeek、智
研
咨
詢
整
理www.chyxx.comPPOReference
ModelRewardKL田-
rqPolicyModel0ModelValueModelVGAEATrainedModelsGRPOKLReferenceFrozenModelsqPolicyModelO?Oz·0GModel
RewardModelrrzTGGroupComputationA?A?A?DeepSeek-R1具備以下亮點:(1)純強化學習訓練:基于DeepSeek-V3
應用大規模強化學習,直接將RL
應用于基礎模型而不依賴監督微調(SFT)
步驟,這種方法允許模型探索解決復雜問題的思維鏈(CoT),由此開發出DeepSeek-R1-Zero
。DeepSeek-R1-Zero純強化學習訓練得到的LLM,
并且展示了自我驗證、反思和生成長CoTs
等功能,標志研究界的一個重要里程碑。核心技術——純強化學習訓練deepseekDeepSeek-R1模型作為初始是第一個算法結構對比●
2.3DeepSeek-R1
OpenAI-01-121710096.3
96.694.390.687.485.279.879.275.772.671.563.662.158.749.2
48.941.642.039.236.8200AIME2024Codeforces
GPQA
Diamond
MATH-500MMLU
SWE-bench
Verified(Pass@1)(Percentile)
(Pass@1)(Pass@1)(Pass@1)(Resolved)核心技術——冷啟動數據&多階段訓練策略(2)冷啟動數據&多階段訓練策略:
DeepSeek-R1是為解決
DeepSeek-R1-Zero
存在的問題并進一步提升推理性能而開發的模
型,它在訓練過程中融入了冷啟動數據和多階段訓練策略。冷啟動數據:收集少量高質量長鏈推理數據,通過SFT
初始化模型,提升可讀性和性能。多階段訓練:第一階段RL
專注于數學、編程等明確答案的任務。第二階段結合拒絕采樣生成SFT
數據,增強通用能力(寫作、
問答等)。最終RL對齊人類偏好(如無害性、有用性)。DeepSeek-R1在多個基準測試中展現
出
與OpenAl-01
相當的性能水平。在
Codeforces
和
MMLU
基
準
測
試中與
OpenAl-01-1217
得分相近,尤其是在
AIME2024
、MATH-500
、Swe-Bench等基準測試中,DeepSeek-R1
還稍微勝
出。資料來源:
DeepSeek、智研咨詢整理www.chyxx.com●2.3
DeepSeek-R1模
型DeepSeek-R1
的基準性能deepseekDeepSeek-R1-32B
OpenAI-01-mini
DeepSeek-V3Accuracy/Percentile
(%)智研咨詢97.3
96.490.891.890.090.260.059.88.5406080GPT-4o-0513AIME2024pass@19.3AIME2024cons@6413.4MATH-500pass@174.6GPQADiamondpass@149.9LiveCodeBench
CodeForcespass@1
rating32.9
759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.0o1-mini63.680.090.060.053.81820.0QwQ-32B44.060.090.654.541.91316.0DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-Qwen-7B28.955.552.783.383.992.833.849.116.937.6954.01189.0DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481.0DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691.0DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205.0DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633.0核心技術——模型能力蒸餾遷移(3)模型能力蒸餾遷移:
DeepSeek
R1的推理能力可以通過蒸餾技術遷移到更小的模型中,并且小模型的基準測試取得很優
秀的表現。在DeepSeekR1蒸餾出的6個小模型中,在保持模型參數量僅為o1-mini
同量級的前提下,其知識理解、代碼生成等
核心能力實現全面反超。通過對標OpenAl-o1-mini
的效果上不難看出DeepSeek
在模型輕量化領域的突破性創新,同時也為開
源社區提供了兼具高性能與低部署成本的新型解決方案。DeepSeek-R1
蒸餾小模型性能資料來源:
DeepSeek、
智研咨詢整理
www.deepseekDeepSeek-R1模型●2.3一
PART
03Deepseek
技術創新最全面的產業分析●可預見的行業趨勢服務熱線:400-700-9383
·可研報告·
商業計劃書·產業規劃三(
1
)
專
家(Experts):模型中的每個專家都是一個獨立的神經網絡,專門處理輸入數據的特定
子集或特定任務。例如,在自然語言處理任務中,
一個專家可能專注于處理與語言語法相關的內容,
而另一個專家可能專注于語義理解。(2)門控網絡(Gating
Network):
門控網絡的作用是決定每個輸入樣本應該由哪個專家或哪
些專家來處理。它根據輸入樣本的特征計算出每
個專家的權重或重要性,然后根據這些權重將輸
入樣本分配給相應的專家。門控網絡通常是一個
簡單的神經網絡,其輸出經過softmax
激活函數
處理,以確保所有專家的權重之和為1。MoE
架構引入多個獨立的專家模型MoE,
全
稱Mixture
of
Experts,即混合專家模型,是一種用于提高深度學習模型性能和效率的架構。其核心思想是通過引入多
個獨立的專家模型(Experts),
每個輸入數據只選擇和激活其中的一部分專家模型來進行處理,從而減少計算量,提高訓練和
推理速度。
MoE
的概念在1991年就已提出,訓練不容易收斂是其在大模型領域應用的主要障礙。y?口
y?□Add+NormalizeFFN2
FFN3p=0.8p
=
0.65RouterAdd+NormalizeSelf-AttentionPositionalembeddingx2LParametersyAdd+NormalizeSwitching
FFN
LayerAdd+NormalizeSelf-Attentionx●3.1
DeepSeek
MoE模型技術
deepseekMoE
模型的主要組成部分包括:資料來源:智研咨詢整理
www.chyxx.comMoE模
型
結
構FFN4
FN1Positional
embedding界Routerx1
口FFN3FFN1FFN2FFN4MoreMoE
模型的架構設計使得它可以很容易地擴展到更多的專家和更大的模型規模。
通過增加專家的數量,模型可以覆蓋更
廣泛的數據特征和任務類型,從而在不增加計算復雜度的情況下,提升模型的
表達能力和泛化能力。這種可擴展性為處理大規模、復雜的數據集提供了有效的解決方案,例如在處理多模態數據 (包含文本、圖像、語音等多種類型的數
據
)
時
,MoE模型可以通過設置不同
的專家來專門處理不同模態的數據,實現更高效的多模態融合。資料來源:智研咨詢整理
www.c與傳統的密集模型相比,MoE模型在處
理每個輸入樣本時,只有相關的專家
會被激活,而不是整個模型的所有參
數都被使用。這意味著MoE模型可以在
保持較高性能的同時,顯著減少計算
資源的消耗,特別是在模型規模較大
時,這種優勢更為明顯。例如,對于
一個具有數十億參數的大型語言模型,采用MoE架構可以在不增加太多計算成
本的情況下,通過增加專家的數量來
進一步提升模型的性能。通過將多個專家的預測結果進行整合,MoE模型可以在不同的數據子集或任務方面發揮每個專家的優勢,從而提高整體模型的性能。例如,在圖像分類任務中,一個專家可能擅長識別動物圖片,而另一個專家可能擅長識別車輛圖片,通過門控網絡的合理分配,MoE模型可
以更準確地對不同類型的圖片進行分類。MoE
架構可顯著提高訓練效率●
3.1DeepSeekMoE模型技術智研咨詢DeepSeek
MoE在傳統MoE
模型架構上進行了改進DeepSeekMoE從
傳
統MoE模
型
架
構
的
基
礎
上
,
進
行
了
兩
部
分
改
進
:
(
1
)
細
粒
度
專
家
劃
分
:
相
比
傳
統MoE
模
型,
DeepSeekMoE
將每個MoE
層細分為更多的細粒度專家,每個專家負責處理更具體的任務。例如,在一個典型的DeepSeekMoE模型中,每個MoE
層包含256個專家,每個token
會激活其中的8個專家。這種細粒度的分割方式使得每個專家能夠專注于特定
類型的輸入數據,從而提高模型的靈活性和表達能力。
(2)共享專家隔離:傳統的MoE模型中,所有專家都是獨立的,每個專
家都需要獨立處理輸入數據。DeepSeekMoE
引入了共享專家的概念,把激活專家區分為共享專家和路由專家時,共享專家和路
由專家在數據處理流程上有顯著的區別。對于共享專家,輸入數據無需經過路由模塊的計算,所有數據都會直接通過共享專家
進行處理。相反,對于路由專家,輸入數據會先經過路由模塊,該模塊根據輸入數據的特征選擇最合適的專家進行計算。在這
種架構中,路由模塊通過計算輸入數據與各個專家的匹配概率,選擇概率最高的專家進行處理。最終,將路由專家和共享專家
的計算結果相加,形成MoE
模塊的最終輸出。通過這種方式,模型能夠在處理不同輸入數據時,既能捕捉到輸入數據的共性,
也能關注到輸入數據的差異性。這種設計能夠提高模型的泛化能力和適應性。DeepSeekMoE與
傳
統MoE
的
區
別
部
分
開
源
模
型MoE
模
塊
配
置
對
比模型細粒度專家分離共享專家數路由專家數激活專家數Mixtral8*7B否否082Hunyuan-Large否是1161Qwen1.5-MoE-
A2.7B是是4604DeepSeek-V3是是12568RoutedExpertshared
ExperOutput
Hidden
OO
Output
Hidden澤3
4lk
=4Input
Hidden●
3.1DeepSeek
MoE模型技術(a)ConventionalTop-2Routing(b)+Fine-grainedExpertSegmentation(c)+SharedExpertIsolation(DeepSeekMoE)資料來源:智研咨詢整理
www.chyxx.comRouterInput
Hidden
OO堅M
2N智研咨詢2
Nlk
=2RouterO0Input
HiddenOutput
Hidden2-1
2NdHlk
=3OORouter1多頭潛在注意力MLA
進一步減少KV
緩存的大小在標準的Transformer
模型中,多頭注意力
(MHA)機制通過并行計算多個注意力頭來捕捉輸入序列中的不同特征。每個注意
力頭都有自己的查詢(Q)、鍵
(K)和值(V)
矩陣。對于序列中的每一個token,
都需要計算各自的QKV,進而計算注意力。
在推理過程中,當前大模型所采用的token
by
token遞歸生成方式,上文token
的KV
計算不會受到后續生成token
的影響,因此
可以緩存下來,避免重復計算,提高推理效率,這就是KVcache的由來。也就是說,當生成第個token時,可以利用之前事先算
好的上文個token
的KV值。同樣地,位置token
的KV值計算出來后也將保存在KV
cache中。目前大模型對于注意力機制做的一些改進,包括MQA、GQA
都是為了想方設法減少KV
Cache。DeepSeek提出的MLA的出發點也是如此。減少KV
Cache就可以實現在更少的設備上推理更長的Context,或者在相同的Context
長度下讓推理的batch
size更
大,從而實現更快的推理速度或者更大的吞吐總量。最終目的都是為了實現更低的推理成本。ValueCompressedProjectionKeyQueryMultiQueryGroupQueryMulti
HeadMultiHeadLatentAttention(MQA)Attention(GQA)Attention(MHA)
Attention(MLA)2
■
MHA-
GQA
MQA1●3.2多頭潛在注意力MLA
技術MHA、MQA、GQA與
MLA48
16GQA
groupsdeepseek資料來源:智研咨詢整理
www.chyxx.comTimeper
sample
(s)智
研
咨
詢32
64多頭潛在注意力MLA
實現了更低的推理成本MQA
與GQA
的辦法是通過共享K、V的注意力頭,降低KV
的數據維度,但會犧牲模型性能。MLA
則是通過對注意力機制中的K、V
進行低秩聯合壓縮,減少推理時的KV
緩存;同時對Q
進行低秩壓縮,減少訓練期間的激活內存使用。MLA
架構還結合了旋轉位
置嵌入(RoPE),有效處理了長序列中的位置依賴問題。RoPE
通過旋轉操作將位置信息嵌入到K和Q中,使得模型能夠更好地
捕捉長距離依賴關系。盡管MLA
通過低秩壓縮減少了K、V緩存和激活內存,但它仍然能夠保持與標準多頭注意力(MHA)相
當
的性能。在推理過程中,MLA
只需要緩存壓縮后的鍵和值,這顯著減少了內存占用,使得模型能夠處理更長的上下文長度。
OcachedDuring
InferenceOutput
Hiddenu:OOOO…OOO0Multi-Head
Attention{19;ab(
{[k{,;kf]}(concatenatefG9S
Q?fapplyRoPEOO:00Latent
c
LatentctOInput
Hiddenh.OO0O…-O00OMulti-Head
Attention(num
head=nh,dim
head=dn)qu=[qS:qkal
ku=[kS;kilConcatenate
Concatenateconcotenatek口
{k3
匠applyRoPE[aE1:qE2;…;qim,]=q{E
Rda"h
kEQ&;q&;…;q&mJ=qRER%LDS;v{z;…;vim,J=vfeRCAnhkE;ki2…;kimJ=kfeReADhwDQ∈Rdxd
wDKV∈RdInput
h?ERd●3.2多頭潛在注意力MLA
技術outputurERdw0∈Rdxdn[oaiO2;;0cmJ=O;E
R4資料來源:DeepSeek、
智研咨詢整理
www.chyxx.comRoPE(weRe
RdAnde)RoPE(WKR|
ewUV∈Rdhnh×dewUK∈Rdhnh×de{3MLA架
構wUQ∈Rdhnh×d智
研
咨
詢Latentc{eRLatentCYERRd×d)→
DeepSeek
V3與R1
模型采用MIT
協議開源即代碼層面開源,可以調用與進行二次開發。開源免費調用有助于先行占據市場份額,成為規則制定者,率先拓展生態粘
性。如,谷歌將安卓開源,獲得了全球80%的移動手機端市場份額,同時也覆蓋電視、汽車等使用場景。DeepSeek
V3與R1
模型實現了開源,采用MIT協議。
DeepSeek
開源模型完全免費,開發者可以利用DeepSeek
開源模型開發衍生模型、產品應用以及生成內容。這產生多方面影響:①
對大模型發展:這提升了世界對中國Al大模型能力的認知,
一定程度打破了OpenA1
與Anthropic
等高級閉源模型的封閉生態。
DeepSeek
R1在多個測試指標中對標OpenAl
o1,通過模型開源,也將大模型平均水平提升至類OpenAl
o1等級。②
對下游生態:優質的開源模型可更好用于垂類場景,即使用者針對自身需求蒸餾,或用自有數據訓練,從而適合具體下游場
景;此外,模型訓推成本降低,將帶來使用場景的普及,帶動AIGC、
端側等供給和需求。PermissivePublic
DomainMIT/X11BSD-NewApache2.0WeakCopyleftLGPL2.1LGPL2.1+LGPL3orLGPL3+MPL1.1Strong
CopyleftGPL2GPL2+GPL3or
GPL3+NetworkProtectiveAGPL3用戶通過獲取DeepSeek
開源項目中相關信息進行部署/再訓練使用,應首先確保滿足開源項目對應許可協議。目前,DeepSeek系列開源Al項目,除DeepSeek-R1代碼和模型皆遵循MIT
開
源
許
可協議外,其他DeepSeek
系列開源AI項目皆為代碼遵循MIT
開
源
許
可
協
議
,
模
型
遵
循
DEEPSEEKLICENSE
AGREEMENT(Version1.0)。因此,用戶在部署/再訓練DeepSeek
大模型開源項目時,應首先
遵循對應開源許可協議的相關規定,避免開源合規風險。●
3
.
3
開
源
大
模
型資料來源:智研咨詢整理
www.chyxx.com開源許可協議標準智研咨詢一
PART
04Deepseek
商業模式最全面的產業分析●可預見的行業趨勢服務熱線:400-700-9383
·可研報告·
商業計劃書·產業規劃三企業接入DeepSeek大模型的收費方式主要分為兩種模式,具體如下:(1)API
接口:按Token
計費模式。標準時段下,deepseek-chat(DeepSeek-V3)API
服務定價為百萬tokens
輸入價格0.5元(緩存命中)/2元(緩存未命中)。
deepseek-reasoner(DeepSeek-R1)API服務定價為百萬tokens輸入價格1元(緩存命中)/4元(緩存未命中)。2月26日,deepseek
平臺推出錯峰優惠活動,在00:30-8:30時間段,DeepSeekV3降至原價的50%,DeepSeek-R1
降至原價的25%。資料來源:智研咨詢整理
w模型時段百萬tokens輸入價格(緩存命中)百萬tokens輸入價格(緩存未命中
)百萬tokens輸出價格輸出價格deepseek-chat
(DeepSeek-V3)標準時段0.5元2元8元優惠時端
(00:30-8:30)0.25元1元4元
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年化工園區安全環保提升項目風險評估與治理對策報告
- 2025年文化娛樂市場細分消費者行為與產業變革驅動報告
- 2025年工業互聯網平臺聯邦學習隱私保護技術發展趨勢與政策分析報告
- 小學語文教研組活動策劃工作計劃
- 房地產金融創新產品與融資渠道拓展在2025年的產業布局機遇研究報告
- 2025年金融科技助力普惠金融普惠性提升的實踐探索進展報告
- 2025年能源行業智能電網優化與能源互聯網技術創新戰略報告
- 2025年電商平臺大數據與大數據驅動的用戶體驗優化策略報告
- 2025年鐵路貨運物流園區土地集約利用與可持續發展研究報告
- 供應鏈金融在中小企業融資中的實踐與探索2025年產業變革與創新報告
- GB/T 44827-2024分子體外診斷檢驗尿液、靜脈血清和血漿代謝組學檢驗前過程的規范
- 肩關節鏡術后康復護理
- 企業環保項目激勵制度設計
- 2024年汽車駕駛員(技師)職業鑒定理論考試題庫(含答案)
- 2024年上海市高考語文真題現代文二《斑鳩》簡析及相關常規題型歸納
- 七年級下冊英語語法填空專項訓練100題含答案5篇
- 配電室火災應急處置預案
- 2024年高考英語考前押題密卷(全國卷1)(含答案與解析)
- 遼寧省盤錦市遼河油田實驗中學2023-2024學年九年級下學期開學考試數學試題(原卷版)
- 中小學-預防性騷擾與性侵害-1-課件
- xx市體育中心設計說明
評論
0/150
提交評論