




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DeepSeek-R1\Kimi1.5
及類強(qiáng)推理模型開發(fā)解讀北大對(duì)齊小組主要研究方向:大語言模型對(duì)齊與可擴(kuò)展監(jiān)督2OutlineDeepSeek-R1
開創(chuàng)RL加持下強(qiáng)推理慢思考范式新邊界DeepSeek-R1
Zero
及R1
技術(shù)剖析Pipeline
總覽\DeepSeek-V3
Base\DeepSeek-R1Zero
及R1
細(xì)節(jié)分析RL
算法的創(chuàng)新:GRPO及其技術(shù)細(xì)節(jié)DeepSeek-R1
背后的Insights
&
Takeaways:RL加持下的長(zhǎng)度泛化\推理范式的涌現(xiàn)DeepSeek-R1
社會(huì)及經(jīng)濟(jì)效益技術(shù)對(duì)比探討STaR-based
Methods
vs.RL-based
Methods
強(qiáng)推理路徑對(duì)比(DS-R1\Kimi-1.5\o-series)蒸餾vs.強(qiáng)化學(xué)習(xí)驅(qū)動(dòng):國內(nèi)外現(xiàn)有各家技術(shù)路線對(duì)比分析及TakeawaysPRM
&
MCTS
的作用從文本模態(tài)到多模態(tài)其他討論:Over-Thinking
過度思考等未來方向分析探討模態(tài)穿透賦能推理邊界拓展:Align-DS-V合成數(shù)據(jù)及Test-Time
Scaling:突破數(shù)據(jù)再生產(chǎn)陷阱強(qiáng)推理下的安全:形式化驗(yàn)證Formal
Verification\審計(jì)對(duì)齊Deliberative
Alignment補(bǔ)充拓展:DeepSeek-V3
解讀3DeepSeek-R1
開創(chuàng)RL加持下強(qiáng)推理慢思考范式新邊界OpenAI
o1
開啟后訓(xùn)練Post-Training
時(shí)代下的RL新范式:后訓(xùn)練擴(kuò)展律Post-Training
Scaling
LawDS-R1
獨(dú)立發(fā)現(xiàn)了一些通往o1路上的核心理念,并且效果還好到受到了OpenAI
的認(rèn)可如何通過有效的Test-Time
Scaling
和Train-Time
Scaling
提升模型的推理能力?得益于純大規(guī)模強(qiáng)化學(xué)習(xí),DeepSeek-R1具備強(qiáng)大推理能力與長(zhǎng)文本思考能力,繼開源來備受關(guān)注。DeepSeek
R1-Zero
和R1的出現(xiàn)再次證明了強(qiáng)化學(xué)習(xí)的潛力所在:R1-Zero
從基礎(chǔ)模型開始構(gòu)建,完全依賴強(qiáng)化學(xué)習(xí),而不使用人類專家標(biāo)注的監(jiān)督微調(diào)(SFT);隨著訓(xùn)練步驟增加,模型逐漸展現(xiàn)出長(zhǎng)文本推理及長(zhǎng)鏈推理能力;隨著推理路徑增長(zhǎng),模型表現(xiàn)出自我修復(fù)和啟發(fā)式搜索的能力;4DeepSeek-R1
開創(chuàng)RL加持下強(qiáng)推理慢思考范式新邊界得益于強(qiáng)大的推理能力與長(zhǎng)文本思考能力,DeepSeekR1在復(fù)雜任務(wù)上表現(xiàn)卓越,成為開源領(lǐng)域的又一里程碑,標(biāo)志著開源社區(qū)在與閉源大模型(如OpenAI
o1
系列)的競(jìng)爭(zhēng)中邁出了關(guān)鍵性一步。DeepSeek-R1
在數(shù)學(xué)代碼任務(wù)上表現(xiàn)突出Deepseek
R1在AIME2024上獲得了79.8%的成績(jī),略高于OpenAI-o1-1217。在MATH-500上,獲得97.3%的驚人成績(jī),表現(xiàn)與OpenAI-o1-1217相當(dāng)。在編碼相關(guān)的任務(wù)中表現(xiàn)出專家水平,在
Codeforces上獲得了2029Elo評(píng)級(jí),在競(jìng)賽中表現(xiàn)優(yōu)于96.3%的人類參與者DeepSeek-R1
在知識(shí)類問答上推動(dòng)科學(xué)探索邊界:MMLU\MMLU-Pro\GPQA
Diamond
等STEM-related
榜單上取得良好表現(xiàn)R1
展現(xiàn)出強(qiáng)推理模型在AI-Driven
Research
的潛力在長(zhǎng)文本依賴任務(wù)如FRAMEs
和事實(shí)性推斷任務(wù)Simple-QA上表現(xiàn)突出5回顧:Pre-Training
Scaling
LawPre-Training
Scaling
Laws:預(yù)訓(xùn)練模型上廣泛觀察到的現(xiàn)象,協(xié)調(diào)了計(jì)算量C、模 型參數(shù)量N和數(shù)據(jù)大小D之間的關(guān)系6回顧:Post-Training
Scaling
LawPost-Training
階段,隨著訓(xùn)練時(shí)計(jì)算量(來自RL的Training階段)和Test-Time
計(jì)算量(例如Test-Time
Search)的增長(zhǎng),模型性能(例如數(shù)學(xué)推理能力)也會(huì)隨之提升Post-Training
Scaling
Laws
下訓(xùn)練時(shí)計(jì)算量多了一個(gè)新的變量:Self-Play探索時(shí)LLMInference
的計(jì)算量[1]
/index/learning-to-reason-with-llms/7回顧:Post-Training
Scaling
Law為什么我們需要后訓(xùn)練Scaling-Law?隨著模型尺寸逐漸增大,預(yù)訓(xùn)練階段參數(shù)ScalingUp帶來的邊際收益開始遞減;如果想要深度提升模型推理能力和長(zhǎng)程問題能力,基于RL的Post-Training
將會(huì)成為下一個(gè)突破點(diǎn)。自回歸模型在數(shù)學(xué)推理問題上很難進(jìn)步的一點(diǎn)在于沒有辦法進(jìn)行回答的自主修正,如果僅是依靠生成式方法和擴(kuò)大參數(shù)規(guī)模,那么在數(shù)學(xué)推理任務(wù)上帶來的收益不會(huì)太大。所以需要尋找額外的ScalingLaws[1]。Training
Verifiers
to
Solve
Math
Word
Problems
/pdf/2110.14168Scaling
LLM
Test-Time
Compute
Optimally
can
be
More
Effective
than
Scaling
Model
Parameters8DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
ZeroDeepSeek-R1
Zero:無需監(jiān)督微調(diào)SFT,純強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的強(qiáng)推理模型DeepSeek-v3-Base(671B)DeepSeek-R1-Zero基于規(guī)則的獎(jiǎng)勵(lì)Rule-Based
Reward推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)Large-Scale
Reasoning-Oriented
RL大規(guī)模推理為中心的強(qiáng)化學(xué)習(xí),提升模型數(shù)學(xué)代碼能力RL驅(qū)動(dòng)下自然涌現(xiàn)長(zhǎng)文本推理能力9DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
ZeroDeepSeek-R1
Zero:無需監(jiān)督微調(diào)SFT,純強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的強(qiáng)推理模型獎(jiǎng)勵(lì)建模:基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based
Reward):準(zhǔn)確率獎(jiǎng)勵(lì)+格式獎(jiǎng)勵(lì)準(zhǔn)確率獎(jiǎng)勵(lì)A(yù)ccuracy
Rewards:判斷答案是否是正確的格式獎(jiǎng)勵(lì)Format
Rewards:規(guī)勸模型生成答案的過程是<think>和</think>沒有使用Reward
Model,因?yàn)镺RM和PRM等基于神經(jīng)網(wǎng)絡(luò)的都可能遭受reward
hacking而retraining
reward
model
需要大量的計(jì)算資源,可能會(huì)復(fù)雜化整個(gè)流程訓(xùn)練模板:選擇最簡(jiǎn)單的Thinking
Process,直接觀察到最直接的RL過程下的表現(xiàn)基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based
Reward):準(zhǔn)確率獎(jiǎng)勵(lì)+格式獎(jiǎng)勵(lì)10DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
ZeroDeepSeek-R1
Zero:無需監(jiān)督微調(diào)SFT,純強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的強(qiáng)推理模型推理為中心大規(guī)模強(qiáng)化學(xué)習(xí):組相對(duì)策略優(yōu)化(GRPO)+瞄準(zhǔn)Reasoning
推理任務(wù)自我迭代提升Self-Evolution:隨著訓(xùn)練步數(shù)的增長(zhǎng),模型的thinking
response
length
逐 漸增加(對(duì)應(yīng)著test-time
computation
increasing)Aha
moment:自然學(xué)會(huì)增加更多的推理時(shí)間,反思評(píng)價(jià)先前步驟、探索其他方法RL驅(qū)動(dòng)下自然涌現(xiàn)Long-CoT
能力“Aha”Moment11DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
ZeroDeepSeek-R1
Zero的關(guān)鍵啟示傳統(tǒng)RLHF背景下,SFT通常被認(rèn)為是不可或缺的一步,其邏輯先用大量人工標(biāo)注的數(shù)據(jù)來讓模型初步掌握某種能力(如對(duì)話或者語言風(fēng)格),然后再用RL來進(jìn)一步優(yōu)化性能DeepSeek-R1
系列跳過對(duì)于大規(guī)模人工標(biāo)注數(shù)據(jù)的依賴無需構(gòu)建和維護(hù)高質(zhì)量的SFT數(shù)據(jù)集,而是讓模型直接在RL環(huán)境中進(jìn)行探索類比:初學(xué)者在沒有老師指導(dǎo)的情況下,通過不斷的嘗試和錯(cuò)誤來掌握一門新的技能。這種自主學(xué)習(xí)的方式,不僅節(jié)省了大量的標(biāo)注成本;更重要的是,它讓模型能夠自由地探索解決問題的路徑,而不是被預(yù)先設(shè)定的模式所束縛。12DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
ZeroDeepSeek-R1
Zero的關(guān)鍵啟示跳過SFT階段,直接運(yùn)用純強(qiáng)化學(xué)習(xí)拓展推理能力邊界實(shí)際上也帶來了幾個(gè)很重要的啟示:需要足夠強(qiáng)的基座模型:基座模型(DeepSeek-V3
Base)超過了某個(gè)質(zhì)量和能力閾值(671B在14.8T高質(zhì)量Token上訓(xùn)練)(基座模型知識(shí)幫助突破推理上界,也有一些工作利用小模型復(fù)現(xiàn)Aha
Moment
得益于大規(guī)模RL和高質(zhì)量推理數(shù)據(jù));大規(guī)模強(qiáng)化學(xué)習(xí)加持:GRPO
對(duì)于強(qiáng)化學(xué)習(xí)訓(xùn)練的優(yōu)化;規(guī)則化獎(jiǎng)勵(lì):繞過獎(jiǎng)勵(lì)攻陷問題,但是得益于推理問題可以進(jìn)行自動(dòng)化標(biāo)記和驗(yàn)證(Self-Automated
Verification
and
Annotation),這是與一般聊天和寫作請(qǐng)求任務(wù)不同的;13DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
ZeroDeepSeek-R1
Zero的關(guān)鍵啟示:舉例-自動(dòng)化標(biāo)記和驗(yàn)證示例輸入:編寫python
代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時(shí)添加42。自動(dòng)化驗(yàn)證方法:利用軟件檢查代碼補(bǔ)全判斷是否為完整代碼;執(zhí)行Python代碼檢查運(yùn)行情況判斷是否為可運(yùn)行代碼;調(diào)用外部模塊構(gòu)建額外的檢測(cè)單元;甚至可以更進(jìn)一步,測(cè)量執(zhí)行時(shí)間,使訓(xùn)練過程首選性能更高的解決方案;以上均可以作為小批量訓(xùn)練(Mini-Batch)和連續(xù)訓(xùn)練過程中的獎(jiǎng)勵(lì)信號(hào)14DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
ZeroDeepSeek-R1
Zero的關(guān)鍵啟示:舉例-自動(dòng)化標(biāo)記和驗(yàn)證示例輸入:編寫python
代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時(shí)添加42。基于規(guī)則進(jìn)行驗(yàn)證,并在Mini-Batch中提供獎(jiǎng)勵(lì)信號(hào);[1]
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r115DeepSeek-R1
技術(shù)Pipeline
總覽DeepSeek-R1
Zero
的問題:長(zhǎng)推理過程可讀性差、語言混合,幫助性低Research
Questions:能否在Zero基礎(chǔ)上兼顧推理性能的同時(shí),提升模型的幫助性和安全性?例如產(chǎn)生Clear
&
Coherent
CoT
并且展現(xiàn)出通用能力的模型R1;能否利用一些高質(zhì)量反思數(shù)據(jù)集做Cold
Start
從而加速RL的收斂或幫助提升推理表現(xiàn)16DeepSeek-R1
技術(shù)Pipeline
總覽DeepSeek-v3-Base(671B)DeepSeek-R1-Zero推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)(GRPO)Large-Scale
Reasoning-Oriented
RL基于規(guī)則的獎(jiǎng)勵(lì)Rule-Based
Reward正確率獎(jiǎng)勵(lì)格式獎(jiǎng)勵(lì)反思數(shù)據(jù)冷啟動(dòng)Cold
StartDeepSeek-v3-Base(671B)雙重驗(yàn)證數(shù)學(xué)代碼推理任務(wù)推理為中心的RL正確率獎(jiǎng)勵(lì) 流暢性獎(jiǎng)勵(lì)I(lǐng)ntermediate
Model
(推理鏈可讀性更強(qiáng))Stage
I:
推理鏈可讀性拒絕采樣和全領(lǐng)域SFT600k
推理數(shù)據(jù)(Rule-based+Generative
獎(jiǎng)勵(lì))200k
通用數(shù)據(jù)(Writing
\
Role-Play
etc.)Stage
II:
通用能力&安全性DeepSeek-R1全領(lǐng)域RL
All-Scenarios
RL推理任務(wù)–規(guī)則獎(jiǎng)勵(lì)
(Rule-based
Reward)通用任務(wù)–偏好建模(Reward
Model)17DeepSeek-R1
技術(shù)Pipeline
總覽冷啟動(dòng)Cold
Start數(shù)據(jù)準(zhǔn)備:few-shot
long
cot
data,
詳細(xì)帶反思和驗(yàn)證的數(shù)據(jù)集雙重驗(yàn)證:由人類注釋者和R1-zero
生成的高質(zhì)量鏈?zhǔn)剿伎迹–hain-of-Thought,
CoT)數(shù)據(jù),部分樣本長(zhǎng)度達(dá)到10,000
Token成效:提供一些HumanPrior\顯著提升了語言的語義連貫性、可讀性和基本推理能力。推理為中心RL
Reasoning-Oriented
RL增加了大規(guī)模的RL訓(xùn)練過程:和DeepSeek-R1Zero
基本一致,主要是提升Reasoning的能力,包括coding\mathematics\logicreasoning
等帶有明確解答過程的問題語言一致性獎(jiǎng)勵(lì):引入languageconsistencyreward衡量長(zhǎng)推理鏈可讀性(通過計(jì)算CoT過程中目標(biāo)語言的占比)推理準(zhǔn)確率獎(jiǎng)勵(lì):結(jié)合accuracy
of
reasoning
tasks
and
reward
forlanguage
consistency成效:通過GRPO,模型在AIME2024等數(shù)學(xué)基準(zhǔn)上取得了顯著提升,pass@1從15.6%提高到71.0%。此外,模型能夠自發(fā)延長(zhǎng)推理鏈條,展現(xiàn)出更強(qiáng)的邏輯連貫性。反思數(shù)據(jù)冷啟動(dòng)Cold
StartDeepSeek-v3-Base(671B)雙重驗(yàn)證推理為中心的RL數(shù)學(xué)代碼推理任務(wù)流暢性獎(jiǎng)勵(lì)正確率獎(jiǎng)勵(lì)I(lǐng)ntermediate
Model
(推理鏈可讀性更強(qiáng))Stage
I:
推理鏈可讀性18DeepSeek-R1
技術(shù)Pipeline
總覽拒絕采樣和全領(lǐng)域SFT
Rejection
Sampling
and
SFT當(dāng)上一個(gè)階段的RL收斂之后,再進(jìn)行SFT和之前Cold-Start的數(shù)據(jù)不同,這部分SFT主要是負(fù)責(zé)全領(lǐng)域任務(wù)600k
推理任務(wù):(1)基于規(guī)則的獎(jiǎng)勵(lì)(2)利用批判模型融合生成式獎(jiǎng)勵(lì)200k
通用任務(wù)(writing\role-playing\general-purpose)成效:使模型在推理能力不減的前提下,語言表現(xiàn)更為自然,適應(yīng)性更為廣泛。全領(lǐng)域RL
RL
for
allScenarios進(jìn)一步提升除了reasoning
能力之外幫助性和安全性對(duì)于reasoning
data,
可以用基于規(guī)則的獎(jiǎng)勵(lì)對(duì)于general
data,
可以用獎(jiǎng)勵(lì)模型來建模人類偏好意圖成效:最終版本的R1
不僅在推理和對(duì)話能力上達(dá)到了高水平,還具備更安全的交互性能。拒絕采樣和全領(lǐng)域SFT600k
推理數(shù)據(jù)(Rule-based+Generative
獎(jiǎng)勵(lì))200k
通用數(shù)據(jù)(Writing
\
Role-Play
etc.)Stage
II:
通用能力&安全性DeepSeek-R1全領(lǐng)域RL
All-ScenariosRL推理任務(wù)–規(guī)則獎(jiǎng)勵(lì)(Rule-based
Reward)通用任務(wù)–偏好建模(Reward
Model)19DeepSeek-R1
Takeaways
技術(shù)亮點(diǎn)總結(jié):Part
IPure
RL
to
Develop
Reasoning
Capabilities:社區(qū)的復(fù)現(xiàn)都涉及蒸餾和搜索,而DS-R1Zero跳過監(jiān)督微調(diào)SFT階段,展現(xiàn)出大規(guī)模強(qiáng)化學(xué)習(xí)的潛力,這也得益于以下幾點(diǎn):需要足夠強(qiáng)的基座模型:基座模型(DeepSeek-V3
Base)
超過了某個(gè)質(zhì)量和能力閾值(671B
在14.8T
高質(zhì)量Token上訓(xùn)練);大規(guī)模強(qiáng)化學(xué)習(xí)加持:GRPO
對(duì)于強(qiáng)化學(xué)習(xí)訓(xùn)練的優(yōu)化;規(guī)則化獎(jiǎng)勵(lì):繞過獎(jiǎng)勵(lì)攻陷問題,但是得益于推理問題可以進(jìn)行自動(dòng)化標(biāo)記和驗(yàn)證(Self-Automated
Verification
and
Annotation),這是與一般聊天和寫作請(qǐng)求任務(wù)不同的訓(xùn)練步數(shù)的增長(zhǎng),模型的thinking
response
length
逐漸增加(test-time
computation
increasing)DeepSeek-R1-Zero
自主涌現(xiàn)學(xué)會(huì)重新評(píng)測(cè)原來的方法、反思和主動(dòng)探索其他的路徑多階段訓(xùn)練下的冷啟動(dòng)讓RL訓(xùn)練更加穩(wěn)定,避免初期不穩(wěn)定、加速收斂、提升思維鏈可讀性未來后訓(xùn)練的重心會(huì)逐步傾向于RL,但是少量訓(xùn)練用于SFT可能還是必須的強(qiáng)化學(xué)習(xí)技術(shù)不只局限在基于規(guī)則的數(shù)學(xué)、算法代碼等容易提供獎(jiǎng)勵(lì)的領(lǐng)域,它還可以創(chuàng)造性地把強(qiáng)化學(xué)習(xí)所帶來的強(qiáng)推理能力,泛化到其他領(lǐng)域20DeepSeek-R1
技術(shù)剖析:背后的教師模型DeepSeek-V3基座模型(DeepSeek-V3
Base)
超過了某個(gè)質(zhì)量和能力閾值(671B
在14.8T高質(zhì)量Token上訓(xùn)練)提供了類似于SystemI
的足夠好的Prior
Distribution
直覺,后期RL探索過程進(jìn)一步挖掘激活大規(guī)模RL起到了激活和發(fā)掘預(yù)訓(xùn)練階段積累的知識(shí)和推理能力的作用DeepSeek-V3
低成本(5,576,000美元)帶來驚艷效果MoE
架構(gòu)671B
激活37B\使用Multi-headLatent
Attention(MLA)架構(gòu)2048張H800
計(jì)算:~54天21DeepSeek-R1
技術(shù)剖析:RL
加持下的Length
泛化&推理范式涌現(xiàn)大規(guī)模RL的加持下,DeepSeek-R1
Zero
表現(xiàn)出在推理任務(wù)上思維鏈長(zhǎng)度的自然增長(zhǎng)和涌現(xiàn)反思深度逐層加深,出現(xiàn)標(biāo)記不明確的步驟、保持中間結(jié)論、驗(yàn)證、混合語言推理等現(xiàn)象模型在準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)下自然探索到驗(yàn)證、回溯、總結(jié)、反思的行為范式如何控制來保證最后的response長(zhǎng)度能夠穩(wěn)定上升,可能會(huì)出現(xiàn)反復(fù)重復(fù)驗(yàn)證、或者驗(yàn)證時(shí)間過晚的情況;(REINFORCE
系列更快;PPO訓(xùn)練穩(wěn)定但是慢)多語言可能是因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)是多語言的,“一視同仁”被Tokenization,不同的領(lǐng)域的不同語言編碼是否有不同優(yōu)勢(shì)?社區(qū)復(fù)現(xiàn)結(jié)果1社區(qū)復(fù)現(xiàn)結(jié)果2DS-R1
Zero
長(zhǎng)度涌現(xiàn)現(xiàn)象DeepSeek-R1
長(zhǎng)度泛化復(fù)現(xiàn):/p/2129041083122DeepSeek-R1
技術(shù)剖析:GRPO
賦能RL-ScaleGRPO核心思想是通過構(gòu)建多個(gè)模型輸出的群組,并計(jì)算群組內(nèi)的相對(duì)獎(jiǎng)勵(lì)來估計(jì)基線,從而避免了傳統(tǒng)策略優(yōu)化算法中需要使用與策略模型大小相同的評(píng)論模型。大幅度降低RL
訓(xùn)練的計(jì)算成本,同時(shí)還能保證模型能夠有效地學(xué)習(xí)到策略。具體來說,在傳統(tǒng)的RL訓(xùn)練中,評(píng)論模型需要與策略模型具有相同的大小,增加計(jì)算資源的消耗。而GRPO
算法利用群組內(nèi)的相對(duì)信息來估計(jì)基線,避免了使用Critic
Model的需要。此外,GRPO
算法還引入了一些額外的優(yōu)化策略(獎(jiǎng)勵(lì)縮放和策略裁剪),提升訓(xùn)練的穩(wěn)定性。From
PPO
to
GRPO:PPO
作為Actor-Critic
算法被廣泛運(yùn)用于Post-Training,核心目標(biāo)是最大化下面的目標(biāo)函數(shù)其中,????和??????????
分別表示當(dāng)前策略模型和舊策略模型,q,o是從問題數(shù)據(jù)集和舊策略??????????中采樣的輸入和輸出,????是基于廣義優(yōu)勢(shì)估計(jì)(GAE)計(jì)算的優(yōu)勢(shì)值,依賴于獎(jiǎng)勵(lì)序列{??≥t}和學(xué)習(xí)的價(jià)值函數(shù)????
。因此,PPO需要同時(shí)訓(xùn)練策略模型和價(jià)值函數(shù)。為避免獎(jiǎng)勵(lì)模型的過度優(yōu)化,標(biāo)準(zhǔn)做法是在每個(gè)詞元的獎(jiǎng)勵(lì)中添加與參考模型的KL懲罰項(xiàng)23DeepSeek-R1
技術(shù)剖析:GRPO
賦能RL-ScaleFrom
PPO
to
GRPO:PPO的價(jià)值函數(shù)通常是與策略模型規(guī)模相當(dāng)?shù)莫?dú)立模型,這帶來了巨大的內(nèi)存和計(jì)算負(fù)擔(dān)。獎(jiǎng)勵(lì)模型通常僅對(duì)輸出序列的最后一個(gè)詞元分配獎(jiǎng)勵(lì),導(dǎo)致逐詞元價(jià)值函數(shù)的訓(xùn)練復(fù)雜化。GRPO:無需像PPO額外近似價(jià)值函數(shù),而是利用同一問題下多個(gè)采樣輸出的平均獎(jiǎng)勵(lì)作為基線。具體而言,對(duì)于每個(gè)問題,GRPO從舊策略??????????中采樣一組輸出,并通過最大化以下目標(biāo)優(yōu)化策略模型:通過群組相對(duì)方式計(jì)算優(yōu)勢(shì)值,與獎(jiǎng)勵(lì)模型的對(duì)比性質(zhì)(通常基于同一問題的輸出比較訓(xùn)練)天然契合;此外,GRPO直接將策略模型與參考模型的KL散度作為正則項(xiàng)加入損失函數(shù),而非將其混入獎(jiǎng)勵(lì)計(jì)算,簡(jiǎn)化了優(yōu)勢(shì)值的計(jì)算。DeepSeekMath
/pdf/2402.0330024DeepSeek-R1
技術(shù)剖析:GRPO
賦能RL-ScaleFrom
PPO
to
GRPO:基于結(jié)果監(jiān)督的GRPO:對(duì)于每個(gè)問題q,從舊策略模型??????????采樣一組輸出{??1,??2,??3,…,????},獎(jiǎng)勵(lì)模型為每個(gè)輸出生成獎(jiǎng)勵(lì){??1,??2,??3,…,????}。隨后,獎(jiǎng)勵(lì)通過減去組內(nèi)均值并除以標(biāo)準(zhǔn)差進(jìn)行歸一化。結(jié)果監(jiān)督將歸一化后的獎(jiǎng)勵(lì)分配給每個(gè)輸出的末尾詞元,并將所有詞元的優(yōu)勢(shì)設(shè)為該歸一化獎(jiǎng)勵(lì);基于過程監(jiān)督的GRPO:結(jié)果監(jiān)督僅提供輸出末尾的獎(jiǎng)勵(lì),對(duì)復(fù)雜數(shù)學(xué)任務(wù)的策略指導(dǎo)不足對(duì)問題q
和采樣輸出{??1,??2,??3,…,????},過程獎(jiǎng)勵(lì)模型為每個(gè)步驟生成獎(jiǎng)勵(lì):??=1
1
1
??
??
??{
????????????
1
,
????????????
2
,
…
,
????????????
??1
????????????
1
,
????????????
2
,
…
,
????????????
????,…,
}其中??????????
??
是第??
步的末尾詞元索引,????是第??
個(gè)輸出的總步數(shù)。歸一化后,優(yōu)勢(shì)值為后續(xù)步驟歸一化獎(jiǎng)勵(lì)的累加和基于結(jié)果監(jiān)督的GRPO優(yōu)勢(shì)值估計(jì)基于過程監(jiān)督的GRPO優(yōu)勢(shì)值估計(jì)DeepSeekMath
/pdf/2402.0330025DeepSeek-R1Takeaways
總結(jié)PartIIDS-R1Zero跳過監(jiān)督微調(diào)SFT階段,展現(xiàn)出大規(guī)模強(qiáng)化學(xué)習(xí)的潛力。這種自主學(xué)習(xí)的方式,不僅節(jié)省了大量的標(biāo)注成本,而且讓模型更自由的探索解決問題的路徑,而不是被預(yù)先設(shè)定的模式所束縛。這也使得模型最終具備了更加強(qiáng)大的泛化能力和適應(yīng)能力。為了充分釋放GRPO的潛力并確保訓(xùn)練穩(wěn)定性,DeepSeekR1的訓(xùn)練中采用了四階段的交替迭代流程:“監(jiān)督微調(diào)(SFT)→強(qiáng)化學(xué)習(xí)(RL)→再次SFT→再次RL”,有效解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)模型在冷啟動(dòng)、收斂效率和多場(chǎng)景適應(yīng)性方面的瓶頸。強(qiáng)大的自驗(yàn)證和長(zhǎng)鏈推理能力:并非預(yù)先設(shè)定好的,而是在RL訓(xùn)練中自主涌現(xiàn)出來的自驗(yàn)證是指模型在生成最終答案之前,會(huì)先主動(dòng)地驗(yàn)證自己的中間推理步驟是否正確。這就像一個(gè)學(xué)生在做題時(shí),會(huì)反復(fù)檢查自己的解題過程,以確保答案的準(zhǔn)確性。反思是指模型會(huì)回溯檢查自己之前的推理過程,并根據(jù)檢查的結(jié)果進(jìn)行修正,相當(dāng)于一個(gè)學(xué)生在復(fù)習(xí)時(shí),會(huì)反思自己之前的錯(cuò)誤,以便下次不再犯同樣的錯(cuò)誤。而長(zhǎng)鏈推理能力則讓模型能夠處理更復(fù)雜、更需要多步驟思考的問題。這種能力對(duì)于解決一些需要跨越多個(gè)邏輯步驟才能找到答案的問題至關(guān)重要,例如復(fù)雜的數(shù)學(xué)題或邏輯謎題。冷啟動(dòng)讓RL訓(xùn)練更加穩(wěn)定:避免RL
訓(xùn)練初期的不穩(wěn)定,使得模型能夠更快地進(jìn)入穩(wěn)定的訓(xùn)練狀態(tài);有效地加速RL
訓(xùn)練的收斂,縮短訓(xùn)練時(shí)間;提高模型輸出的可讀性,減少不同語言混合使用的情況。26DeepSeek-R1Takeaways
總結(jié)PartII推理為中心的RL訓(xùn)練:語言一致性獎(jiǎng)勵(lì),以解決模型在多語言環(huán)境中進(jìn)行推理時(shí),出現(xiàn)語言混合的問題。對(duì)推理鏈的質(zhì)量進(jìn)行細(xì)致的評(píng)估,并通過獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型生成更加合理、準(zhǔn)確的推理過程。多目標(biāo)優(yōu)化:兼顧推理性能、幫助性和安全性;蒸餾的潛力:蒸餾可以幫助將更大模型通過RL發(fā)現(xiàn)的高階推理范式蒸餾到小模型中,這比用小模型直接使用大規(guī)模RL發(fā)現(xiàn)的推理范式要更加有效;基于群組的相對(duì)策略優(yōu)化(GRPO):通過構(gòu)建多個(gè)模型輸出的群組,并計(jì)算群組內(nèi)的相對(duì)獎(jiǎng)勵(lì)來估計(jì)基線,從而避免了傳統(tǒng)策略優(yōu)化算法中需要使用與策略模型大小相同的評(píng)論模型降低RL
訓(xùn)練的計(jì)算成本\保證模型能夠有效地學(xué)習(xí)到策略獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì):兼顧推理能力和語言一致性準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì),從而保證模型不僅能夠正確地解決問題,還能夠以規(guī)范、易讀的方式輸出答案格式獎(jiǎng)勵(lì):用于強(qiáng)制模型將推理過程放置在特定的標(biāo)簽內(nèi),用<think>和</think>標(biāo)簽來包裹推理過程,使用<answer>
和</answer>
標(biāo)簽來包裹最終答案。語言一致性獎(jiǎng)勵(lì):懲罰在推理過程中使用了多種語言的輸出,鼓勵(lì)模型盡可能地使用一種目標(biāo)語言進(jìn)行推理,從而保證模型輸出的語言風(fēng)格一致性27DeepSeek-R1
社會(huì)和經(jīng)濟(jì)效益低成本高質(zhì)量語言模型邊界的探索,擴(kuò)展的具體方法和側(cè)重點(diǎn)改變:最初是模型規(guī)模,然后是數(shù)據(jù)集規(guī)模,現(xiàn)在是推理時(shí)的計(jì)算資源和合成數(shù)據(jù);垂直領(lǐng)域和橫向拓展:采用"API+本地化知識(shí)庫"或"提示工程+檢索增強(qiáng)"的混合方案,通過PromptEngineering和RAG等技術(shù)實(shí)現(xiàn)業(yè)務(wù)場(chǎng)景的快速適配與輕量定制,同時(shí)建立完善的運(yùn)維合規(guī)體系,確保數(shù)據(jù)處理全流程的安全性與合法性。資本市場(chǎng)的劇烈波動(dòng)是AI技術(shù)快速迭代引發(fā)的短期現(xiàn)象,表現(xiàn)為研發(fā)投入和數(shù)據(jù)中心建設(shè)成本激增,這在近期美股科技股的震蕩中得以集中體現(xiàn);而從長(zhǎng)期來看,行業(yè)將陷入算力軍備競(jìng)賽的循環(huán),每一輪技術(shù)突破和應(yīng)用場(chǎng)景擴(kuò)展都將催生新的算力需求與資源投入,持續(xù)重塑行業(yè)競(jìng)爭(zhēng)格局。資源優(yōu)化:隨著模型使用方案的平民化,中小企業(yè)和個(gè)人開發(fā)者得以將有限資源聚焦于場(chǎng)景創(chuàng)新與技術(shù)優(yōu)化,無需在基礎(chǔ)能力建設(shè)或算力消耗上投入過多成本。市場(chǎng)激活:這種高性價(jià)比、低門檻的大模型服務(wù)模式,將吸引更多初創(chuàng)團(tuán)隊(duì)涌入賽道,催生多元化的應(yīng)用場(chǎng)景和技術(shù)路徑,推動(dòng)行業(yè)生態(tài)的繁榮發(fā)展。高效創(chuàng)新:在有限算力資源支持下,算法創(chuàng)新模式,突破了算力的“卡脖子”限制28技術(shù)對(duì)比討論:Kimi
K1.5
MoonshotKimi
K1.5
Main
ResultKimi
K1.5
Long2Short
ResultK1.5
專注于用長(zhǎng)文本CoT
解決推理時(shí)Scaling問題利用RL探索:Kimik1.5的核心思想是利用強(qiáng)化學(xué)習(xí),讓模型通過試錯(cuò)(探索)來學(xué)習(xí)解決問題的能力,而不是僅僅依賴于靜態(tài)數(shù)據(jù)集。長(zhǎng)文本CoT
的RL:將RL
應(yīng)用于長(zhǎng)文本CoT推理過程,使模型能夠進(jìn)行更深入、更復(fù)雜的推理。隱式規(guī)劃:通過增加上下文長(zhǎng)度,讓模型在生成CoT
的過程中進(jìn)行隱式的規(guī)劃、反思和修正,無需顯式的搜索樹或價(jià)值函數(shù)。長(zhǎng)文本能力是關(guān)鍵:核心洞察是長(zhǎng)文本能力是強(qiáng)化學(xué)習(xí)訓(xùn)練LLM的關(guān)鍵,而不是更復(fù)雜的訓(xùn)練技巧。長(zhǎng)文本到短文本:通過長(zhǎng)文本CoT模型來指導(dǎo)短文本CoT模型的訓(xùn)練,從而在有限的計(jì)算資源下獲得更好的性能。29技術(shù)對(duì)比討論:Kimi
K1.5
Moonshot四個(gè)階段Pretraining--SFT--Long-CoT
SFT–RLRL
Prompt
Set
Curation
RL
問題的準(zhǔn)備Diverse
Coverage:
涵蓋STEM\coding\general
reasoning的數(shù)據(jù)Balanced
Difficulty:涵蓋不同的complexity
難度Accurate
Evaluability:能夠被Verifiers
準(zhǔn)確評(píng)價(jià),從而防止泛化出一些reward
hacking
和superficialpatterns
的行為L(zhǎng)ong-CoT
SFT用Prompt
Engineering
造了一個(gè)高質(zhì)量LongCoT
warmup
dataset包含了準(zhǔn)確的verified
reasoning
paths
for
both
image
and
text
inputs涵蓋了planning\evaluation\reflection\exploration
多種范式RL
Infrastructure
System30強(qiáng)化學(xué)習(xí):從In-Context
RL
的角度出發(fā),直接訓(xùn)練模型approximate
Planning的過程(例如將Search中,state
和value
等信息都視為L(zhǎng)anguage
Tokens)策略優(yōu)化:建模成Contextual
Bandit,用REINFORCE
變種進(jìn)行優(yōu)化長(zhǎng)度懲罰:引入長(zhǎng)度懲罰機(jī)制,防止模型生成過長(zhǎng)的推理過程,提高計(jì)算效率。Overthinking的行為:可能會(huì)導(dǎo)致更好的表現(xiàn),但是會(huì)帶來training
和inference過程中極大的損耗采樣策略課程學(xué)習(xí)(CurriculumLearning):根據(jù)問題的難度,先讓模型學(xué)習(xí)容易的例子,再逐漸引入更難的例子,這種循序漸進(jìn)的方式有助于模型更好地掌握知識(shí)。優(yōu)先采樣(Prioritized
Sampling):
根據(jù)問題的難度或模型對(duì)問題的掌握程度來調(diào)整采樣概率。模型更傾向于采樣那些困難的、或者模型不擅長(zhǎng)的問題,提高訓(xùn)練效率。技術(shù)對(duì)比討論:Kimi
K1.5
Moonshot策略優(yōu)化損失函數(shù)長(zhǎng)度懲罰獎(jiǎng)勵(lì)31Vision
Data構(gòu)造真實(shí)世界數(shù)據(jù)包括各個(gè)年級(jí)的科學(xué)問題,這些問題需要圖形理解和推理能力;還包括需要視覺感知和推理能力的位置猜測(cè)任務(wù);以及涉及復(fù)雜圖表理解的數(shù)據(jù)分析任務(wù)等。這些數(shù)據(jù)集提升了模型在真實(shí)世界場(chǎng)景中的視覺推理能力。合成視覺推理數(shù)據(jù)是人工生成的,包括程序化創(chuàng)建的圖像和場(chǎng)景,旨在提高特定的視覺推理技能,例如理解空間關(guān)系、幾何模式和物體交互。這些合成數(shù)據(jù)集提供了可控環(huán)境,用于測(cè)試模型的視覺推理能力,并且可以無限生成訓(xùn)練樣本。文本渲染數(shù)據(jù)是通過將文本內(nèi)容轉(zhuǎn)換為視覺格式創(chuàng)建的,使模型能夠在不同模態(tài)下保持一致的文本處理能力。通過將文本文檔、代碼片段和結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為圖像,確保模型無論接收的是純文本輸入還是截圖或照片中的
文本,都能提供一致的響應(yīng)。這也有助于增強(qiáng)模型在處理文本密集型圖像(如截圖、表格、公式等)時(shí)的能力。Long2Short
方法模型融合:將長(zhǎng)文本CoT
模型和短文本CoT
模型的權(quán)重進(jìn)行平均,得到一個(gè)新的模型。最短拒絕采樣;Short
Rejection
Sampling:從多個(gè)采樣結(jié)果中選擇最短且正確的答案然后做SFTDPO(Direct
Preference
Optimization):使用長(zhǎng)文本CoT
模型生成的答案作為偏好數(shù)據(jù)來訓(xùn)練Short
CoT
模型。Long2short
RL:在標(biāo)準(zhǔn)RL
訓(xùn)練后,使用長(zhǎng)度懲罰對(duì)模型進(jìn)行微調(diào),進(jìn)一步提高短文本CoT
模型的效率。技術(shù)對(duì)比討論:Kimi
K1.5
Moonshot32技術(shù)對(duì)比討論:Kimi
K1.5
vs.DeepSeek-R1
ComparisonKimi
K1.5
Main
ResultDS-R1MainResult二者都關(guān)注RL的方法帶來的提升,MCTS
和PRM
沒有被使用(Reward
Hacking
的考慮) MCTS是一種Structure,
A*也是Structure,
人為加入InductiveBias強(qiáng)求LLM按照結(jié)構(gòu)化先驗(yàn)進(jìn)行思考可能會(huì)限制模型的能力;PRM
容易被Reward
Hacking,且絕對(duì)值Value
很難準(zhǔn)確Kimi
K1.5
更多是從In-Context
RL
的角度出發(fā),直接訓(xùn)練模型approximate
Planning的過程(例如將Search中,state
和value
等信息都視為L(zhǎng)anguage
Tokens)DS-R1
是從純RL入手,利用GPRO+Rule-Based
Reward
激活模型能力核心觀念:不管模型中間做錯(cuò)了什么,只要不是重復(fù)的,那么最后模型做對(duì)了,我們就認(rèn)為這是一個(gè)好的探索,值得鼓勵(lì)。反之,如果模型一頓探索,最后做錯(cuò)了,那么再努力也是錯(cuò),要懲罰。33技術(shù)對(duì)比討論:Kimi
K1.5
vs.DeepSeek-R1
Comparison
TakeawaysGRPO
:利用同一問題下多個(gè)采樣輸出的平均獎(jiǎng)勵(lì)作為基線,從而無需額外近似價(jià)值函數(shù)。這種機(jī)制通過群組相對(duì)方式計(jì)算優(yōu)勢(shì)值,與獎(jiǎng)勵(lì)模型基于同一問題的輸出比較訓(xùn)練的特性天然契合。此外,
GRPO直接將策略模型與參考模型的KL散度作為正則項(xiàng)加入損失函數(shù),而非將其混入獎(jiǎng)勵(lì)計(jì)算,簡(jiǎn)化了優(yōu)勢(shì)值的計(jì)算過程。這使得GRPO在大規(guī)模強(qiáng)化學(xué)習(xí)任務(wù)中,特別是在處理復(fù)雜的推理任務(wù)時(shí),能夠更有效地優(yōu)化策略模型,同時(shí)保持較高的計(jì)算效率。Kimi
K1.5
采用的變種Mirror
Descent可以在保證學(xué)習(xí)穩(wěn)定性的同時(shí),促進(jìn)模型對(duì)復(fù)雜推理任務(wù)的理解深度,如逐層加深反思、驗(yàn)證、回溯等行為范式的形成。它允許模型自然地探索到驗(yàn)證、回溯、總結(jié)、反思的行為模式,這些對(duì)于提高模型在推理任務(wù)中的表現(xiàn)至關(guān)重要。后訓(xùn)練Pipeline對(duì)于提升模型推理能力的重要性不可忽視。隨著測(cè)試階段算力和訓(xùn)練階段探索算力的增加,根據(jù)后訓(xùn)練Scaling
Law,模型的表現(xiàn)將持續(xù)得到改善。理想的數(shù)據(jù)構(gòu)建應(yīng)當(dāng)覆蓋廣泛的類別,并且難度分級(jí)明確,這有利于實(shí)現(xiàn)類似課程學(xué)習(xí)的效果,逐步提高模型的能力。在獎(jiǎng)勵(lì)建模時(shí),必須確保基于獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)機(jī)制不會(huì)被輕易攻陷。平衡推理長(zhǎng)度與推理正確率之間的關(guān)系。例如,針對(duì)一個(gè)序列中的下一個(gè)動(dòng)作,若存在一個(gè)是錯(cuò)誤答案而另一個(gè)是正確答案的情況,傳統(tǒng)的方法會(huì)傾向于提升選擇正確答案的概率,同時(shí)降低選擇錯(cuò)誤答案的概率。然而,從推理長(zhǎng)度的角度來看,有時(shí)選擇看似錯(cuò)誤的答案可能會(huì)引導(dǎo)模型進(jìn)入自我修正的過程,這種自我修正機(jī)制以及更長(zhǎng)的推理路徑同樣對(duì)提升模型的整體推理能力至關(guān)重要。34技術(shù)對(duì)比討論:強(qiáng)推理路徑–Pure
RL
vs
STaR-based回顧:STaR推理:起始數(shù)據(jù)集僅有[Question,Answer]
,首先利用一些帶有推理過程的Few-Shot
Examples
來Prompt
模型對(duì)于數(shù)據(jù)集中的問題生成對(duì)應(yīng)的推理過程和答案。過濾:如果生成的答案正確,則將推理過程加入到原有的數(shù)據(jù)集中;如果生成的答案錯(cuò)誤,則嘗試在給出正確答案的前提下再次生成推理過程。將最終生成正確答案的推理收集,構(gòu)建一個(gè)構(gòu)建一個(gè)微調(diào)數(shù)據(jù)集[Question,Rationale,
Answer]進(jìn)行微調(diào)。迭代:重復(fù)這一過程,且每次獲得一個(gè)新的數(shù)據(jù)集,都從原始的模型開始進(jìn)行Fine-tune從而防止過擬合。[1]
STaR:
Bootstrapping
Reasoning
With
Reasoning35技術(shù)對(duì)比討論:強(qiáng)推理路徑–Pure
RL
vs
STaR-based回顧:STaR
與RL的聯(lián)系模型首先采樣潛在的推理路徑(rationale)的過程類似于RL中通過策略選擇動(dòng)作(action),基于環(huán)境狀態(tài)選擇一個(gè)可能的策略路徑。STaR中,通過計(jì)算目標(biāo)函數(shù),模型對(duì)整個(gè)數(shù)據(jù)集的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,并且只根據(jù)預(yù)測(cè)正確的樣本更新模型。STaR在同一批數(shù)據(jù)上進(jìn)行多次梯度更新,這類似于某些策略梯度算法中的策略,即通過多次調(diào)整同一批數(shù)據(jù)來穩(wěn)定學(xué)習(xí)過程。[1]
STaR:
Bootstrapping
Reasoning
With
Reasoning36技術(shù)對(duì)比討論:強(qiáng)推理路徑–Pure
RL
vs
STaR-basedTakeaways:STaR
的核心思路是將思考過程建模到語言模型的Next
Token
Prediction
中,通過 反復(fù)自我迭代和監(jiān)督微調(diào)基于STaR
可以進(jìn)一步將這種思路擴(kuò)展到思考過程是搜索過程的特例,比如rStar-Math,SoS
都可以用類似的思路來理解。本質(zhì)上,STaR一類的方法是希望模型能夠?qū)W習(xí)到MetaCoT,即問題到答案映射過程背后的深入規(guī)律但是對(duì)于問題的結(jié)構(gòu)要求性高,對(duì)于復(fù)雜數(shù)學(xué)推理任務(wù)可能難以自我迭代難以融入Rule-Based
Reward
for
RL訓(xùn)練PureRL加持下,業(yè)界的技術(shù)實(shí)踐更多Focus
on
直接利用RL激活基座模型的推理潛力,通過構(gòu)建rule-based
reward,
額外加上RL
Data的設(shè)計(jì),激活模型的內(nèi)部本身的推理能力Reward
Model的一些嘗試如PRM,會(huì)遇到reward
hacking,
value
不準(zhǔn),難以泛 化等問題[1]
STaR:
Bootstrapping
Reasoning
With
Reasoning37技術(shù)對(duì)比討論:蒸餾vs
強(qiáng)化學(xué)習(xí)大型模型雖然性能強(qiáng)大,但是也存在著一些局限性,例如計(jì)算資源消耗過高,部署和使用門檻較高等。模型蒸餾:將一位經(jīng)驗(yàn)豐富的老師的知識(shí)傳遞給一個(gè)年輕的學(xué)生,讓其在較短的時(shí)間內(nèi)掌握復(fù)雜的技能。DeepSeek利用蒸餾R1的手段獲得了一系列小模型,表現(xiàn)非常突出。這很大程度得益于R1模型足夠強(qiáng)大,發(fā)現(xiàn)了很多高階推理范式,而這些高階推理范式是小模型直接利用大規(guī)模強(qiáng)化學(xué)習(xí)難以發(fā)現(xiàn)的(可以認(rèn)為是由于預(yù)訓(xùn)練知識(shí)不足),因此這些蒸餾得到的小模型表現(xiàn)比較突出,甚至超過了基于大規(guī)模RL的方法。38技術(shù)對(duì)比討論:蒸餾vs
強(qiáng)化學(xué)習(xí)在提升模型強(qiáng)推理能力的努力上,蒸餾和強(qiáng)化學(xué)習(xí)被社區(qū)廣泛探索直接利用SFT蒸餾可以學(xué)習(xí)到數(shù)據(jù)中的推理范式,雖然在推理分?jǐn)?shù)上的表現(xiàn)有所提升,但是更多是去擬合數(shù)據(jù)中的Pattern,
很難學(xué)習(xí)到數(shù)據(jù)背后的數(shù)學(xué)規(guī)律和MetaCoT強(qiáng)化學(xué)習(xí)則是通過試錯(cuò)和嘗試,鼓勵(lì)模型在最大化獎(jiǎng)勵(lì)過程中學(xué)習(xí)到推理背后的規(guī)律,獲得的泛化性和推理表現(xiàn)上界更高SFT主要負(fù)責(zé)記憶而很難進(jìn)行OOD泛化,基于ORM的RL泛化能力較好[1]SFT規(guī)范模型輸出格式,使得后續(xù)的RL可以獲得更高的收益隨著強(qiáng)推理能力復(fù)現(xiàn)的興起,社區(qū)也有很多工作比較LongCoT
長(zhǎng)文本思維鏈的蒸餾效果Scalingup
verifiable
reward是long
cot的核心。小模型(例如wen-math-7b)不容易recentivize
long
cot的behavior(e.g.,
aha
moment)在MATH
場(chǎng)景下。wait,recheck,
alternatively這些詞在rl訓(xùn)練中沒有明顯增加SFT
Memorizes,
RL
Generalizes:
A
Comparative
Study
of
FoundationModel
Post-training
/pdf/2501.17161Demystifying
Long
Chain-of-Thought
Reasoning
in
LLMs
/pdf/2502.0337339技術(shù)對(duì)比討論:蒸餾vs
強(qiáng)化學(xué)習(xí)Open
Questions:Long-COT
指令數(shù)據(jù)擴(kuò)展是否有助于慢思考推理能力?哪種Long-COT
數(shù)據(jù)構(gòu)造方式具有最佳樣本效率?Long-COT
及其擴(kuò)展是否有助于多模態(tài)任務(wù)?Takeaways
from
RedStar
[1]:Long-COT
在有限數(shù)據(jù)下增強(qiáng)推理能力:小規(guī)模數(shù)據(jù)集(如1.3k
個(gè)問題)可以顯著提升推理性能,尤其是在數(shù)學(xué)任務(wù)中,展現(xiàn)了Long-COT
調(diào)優(yōu)即便在數(shù)據(jù)量較少的情況下依然具有強(qiáng)大的推理能力。更大規(guī)模和專業(yè)化模型提升性能:更大規(guī)模的模型(如14B、32B)以及經(jīng)過專業(yè)預(yù)訓(xùn)練的模型(如數(shù)學(xué)預(yù)訓(xùn)練和上下文長(zhǎng)度擴(kuò)展)在Long-COT
訓(xùn)練中表現(xiàn)更佳,優(yōu)于較小規(guī)模的模型(如7B)在保持正確推理路徑和處理復(fù)雜任務(wù)的能力。任務(wù)與語言之間的正遷移:Long-COT
訓(xùn)練不僅能提升數(shù)學(xué)任務(wù)的性能,還能對(duì)其他領(lǐng)域和語言產(chǎn)生正向影響,展現(xiàn)了其廣泛的適用性。此外,該方法具有良好的泛化性和魯棒性,在通用基礎(chǔ)任務(wù)和對(duì)齊評(píng)估中取得了相當(dāng)或更優(yōu)的表現(xiàn)。強(qiáng)化學(xué)習(xí)的規(guī)模化提升了效率:離線強(qiáng)化學(xué)習(xí)算法(DPO)和在線強(qiáng)化學(xué)習(xí)算法(PPO)均能有效增強(qiáng)模型性能。Long-COT
強(qiáng)化多模態(tài)模型:將Long-COT
方法應(yīng)用于多模態(tài)大語言模型(MLLMs)可以顯著提升其性能,說明慢思考(slow-thinking)技術(shù)在多模態(tài)任務(wù)中的有效性。[1]
RedStar:
Does
ScalingLong-CoT
Data
Unlock
BetterSlow-Reasoning
Systems?:
/abs/2501.1128440技術(shù)對(duì)比討論:蒸餾vs
強(qiáng)化學(xué)習(xí)DiscussionKimiK1.5
中Long2Short
方法指的是將長(zhǎng)文本CoT
模型的知識(shí)遷移到短文本CoT
模型,本質(zhì)上是一種「蒸餾」,不過目標(biāo)和策略更多樣,不僅要性能,還要token
效率;更多地關(guān)注對(duì)教師模型推理策略的學(xué)習(xí),而不僅是輸出。S1
模型通過少成本獲得超過o1-preview的表現(xiàn):高質(zhì)量推理數(shù)據(jù)構(gòu)建:s1K數(shù)據(jù)集精心挑選了1000個(gè)涵蓋數(shù)學(xué)競(jìng)賽、博士級(jí)科學(xué)問題及奧林匹克競(jìng)賽題目等,這些問題經(jīng)過難度、多樣性和質(zhì)量的嚴(yán)格篩選,并包含詳細(xì)的推理軌跡與答案。類似課程學(xué)習(xí)的效果。采樣策略優(yōu)化:預(yù)算強(qiáng)制法有效地控制了模型在測(cè)試階段的計(jì)算資源消耗。當(dāng)模型生成的思考標(biāo)記超過預(yù)設(shè)限制時(shí),插入“end-of-thinking
token”來終止思考過程并促使模型轉(zhuǎn)向答案生成階段若需要增加計(jì)算投入,則會(huì)暫時(shí)阻止end-of-thinking
token的出現(xiàn),并鼓勵(lì)更深入的探索。DeepSeek利用蒸餾R1的手段獲得了一系列小模型,表現(xiàn)非常突出。這很大程度得益于R1模型足夠強(qiáng)大,發(fā)現(xiàn)了很多高階推理范式,而這些高階推理范式是小模型直接利用大規(guī)模強(qiáng)化學(xué)習(xí)難以發(fā)現(xiàn)的(可以認(rèn)為是由于預(yù)訓(xùn)練知識(shí)不足),因此這些蒸餾得到的小模型表現(xiàn)比較突出,甚至超過了基于RL的方法。相對(duì)依賴于強(qiáng)大的教師模型蒸餾過程通常針對(duì)特定任務(wù)或一組任務(wù)(例如代碼和數(shù)學(xué)問題)優(yōu)化,這可能導(dǎo)致生成的小模型在面對(duì)新任務(wù)或環(huán)境(例如通用任務(wù))時(shí)適應(yīng)性和泛化能力不足。41技術(shù)對(duì)比討論:MCTS
&
PRM利用MCTS,將答案拆分成分句或Token為單位的節(jié)點(diǎn),而后對(duì)于解空間進(jìn)行搜索通過MCTS
可能會(huì)有以下的問題:Token
Generation
Space
更大,而不是像象棋一樣,Search
Space
是relativelywell-defined,容易陷入局部最優(yōu)Value
Model
直接影響了搜索方向,而訓(xùn)練一個(gè)好的Value
Model
比較困難一個(gè)相對(duì)成功的典范是rStar-Math[1],通過小模型達(dá)到OpenAI
o1數(shù)學(xué)任務(wù)相當(dāng)?shù)乃揭粋€(gè)作為策略模型Policy
Model,另一個(gè)模型訓(xùn)練成為基于偏好的過程獎(jiǎng)勵(lì)模型(PPM),二者配合進(jìn)行MCTS
產(chǎn)生分步驗(yàn)證的高質(zhì)量推理數(shù)據(jù),四輪自我迭代提升,不斷更新數(shù)據(jù)而后微調(diào)模型雖然即便經(jīng)過MCTS模擬后,Q值依然無法做到對(duì)每個(gè)推理步驟進(jìn)行精準(zhǔn)評(píng)分,但是它們能夠有效識(shí)別出哪些步驟是正確的(正向步驟),哪些步驟是無關(guān)或錯(cuò)誤的(負(fù)向步驟),可以用ranking
loss
訓(xùn)練偏序[1]
rStar-Math:
SmallLLMs
Can
Master
MathReasoning
with
Self-Evolved
Deep
Thinking
/abs/2501.0451942技術(shù)對(duì)比討論:MCTS
&
PRM關(guān)鍵的Takeaways:相比于利用MCTS造數(shù)據(jù),直接將MCTS應(yīng)用于模型的訓(xùn)練可能會(huì)限制模型的思考過程?MCTS
是一種Structure,A*也是Structure,人為加入Inductive
Bias強(qiáng)求LLM按照人為的結(jié)構(gòu)化先驗(yàn)進(jìn)行思考可能會(huì)限制模型的能力;不通過額外的Structure,模型自身是否可以學(xué)會(huì)思考:Algorithm
Distillation:
將RL的Training
History
序列直接建模到語言模型中,學(xué)習(xí)到Data-EfficientRL
算法Stream
of
Search:
將搜索的過程轉(zhuǎn)化為自然語言序列預(yù)訓(xùn)練模型,基于這個(gè)模型做policy
improvement
methods(Advantage-Induced
Policy
Alignment)和STaR,解決了heuristic
solvers沒有解決的問題OpenAI
“Don‘t
teach.
Incentivize.”
/watch?v=kYWUEV_e2ssIn-context
Reinforcement
Learning
with
Algorithm
Distillation
/abs/2210.14215Stream
of
Search
(SoS):
Learning
to
Search
in
Language
/abs/2404.03683/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem43技術(shù)對(duì)比討論:MCTS
&
PRM:PRM
的實(shí)踐和反思DS-R1
和Kimi
K1.5
都沒有進(jìn)行明確的MCTS和PRM嘗試PRM
的一些挑戰(zhàn):決定當(dāng)下的某一步是否正確是一個(gè)很難的task,
自動(dòng)化標(biāo)注難以產(chǎn)生很好的結(jié)果,但是用人工標(biāo)注又難以scaling
upModel-Based
PRM
可能會(huì)引入reward
hacking,重新訓(xùn)練會(huì)讓訓(xùn)練變得更加復(fù)雜PRM還是更適合于rerank
top-N
responses
and
assist
guided
search,在大規(guī)模RL實(shí)驗(yàn)下,提升算力更直接PRM的潛力:PRM總歸是一種比較稠密的監(jiān)督信號(hào),對(duì)reward進(jìn)行shaping可以使訓(xùn)練更穩(wěn)定或 收斂得更快PRM還有探索空間,可以讓模型收斂得更快速或更穩(wěn)定(Scaling曲線的斜率更大)和自動(dòng)形式化驗(yàn)證的結(jié)合,提供Rule-Based
之外輔助的Reward
Signal,指導(dǎo)更密集 的獎(jiǎng)勵(lì)優(yōu)化,賦能長(zhǎng)思維鏈安全的驗(yàn)證44技術(shù)對(duì)比討論:Over-Thinking強(qiáng)推理模型存在Overthinking的行為過多的語氣詞,例如Wait
等一些模型經(jīng)常會(huì)不分場(chǎng)合使用一些高端詞匯,典型的如量子糾纏(會(huì)用在各個(gè)領(lǐng)域)對(duì)于一些簡(jiǎn)單的數(shù)學(xué)問題例如2+3=?也會(huì)過多思考看似有反思范式,重復(fù)Pattern多,可能會(huì)導(dǎo)致更好的表現(xiàn),但是會(huì)帶來training
和inference過程中極大的損耗如何合理的分配Test-TimeCompute,進(jìn)行選擇性思考?Long2Short
Distillation長(zhǎng)度優(yōu)化的Penalty優(yōu)化采樣策略[1]
Do
NOT
Think
That
Much
for
2+3=?
On
the
Overthinking
ofo1-Like
LLMs
/pdf/2412.2118745技術(shù)對(duì)比討論:從文本模態(tài)到多模態(tài)DeepSeekR1Zero和R1在純文本模態(tài)上取得的優(yōu)異表現(xiàn)十分驚艷,這也不經(jīng)讓人期待:多模態(tài)場(chǎng)景加持下Deepseek
R1
深度推理模型將會(huì)是怎樣的表現(xiàn)?模態(tài)穿透和模態(tài)聯(lián)動(dòng)將有望進(jìn)一步提升強(qiáng)推理能力。人類在日常生活中接收到的信息往往是全模態(tài)的,不同的感官渠道能夠互相補(bǔ)充,幫助我們更全面地理解和表達(dá)復(fù)雜的概念。全模態(tài)擴(kuò)展將成為Deepseek
R1的下一個(gè)重大突破。首先,在復(fù)雜決策場(chǎng)景中構(gòu)建起"感知-理解-推演"的閉環(huán)認(rèn)知體系,在多個(gè)場(chǎng)景下擴(kuò)展智能邊界。例如,通過跨模態(tài)對(duì)齊技術(shù),模型能將CT影像的灰度特征與病理報(bào)告的專業(yè)術(shù)語建立語義關(guān)聯(lián),在醫(yī)療診斷中同步分析X光片陰影分布與患者主訴癥狀。此外,這種時(shí)空關(guān)聯(lián)推理能力使得自動(dòng)駕駛系統(tǒng)能同時(shí)解析路況視頻中的車輛軌跡、交通信號(hào)燈的閃爍頻率以及周圍環(huán)境的異常聲響,實(shí)現(xiàn)更精確的多維度風(fēng)險(xiǎn)預(yù)判。強(qiáng)推理能力在全模態(tài)場(chǎng)景下的擴(kuò)展面臨諸多挑戰(zhàn)。文本模態(tài)場(chǎng)景下,許多復(fù)雜推理任務(wù)可以通過基于規(guī)則的獎(jiǎng)勵(lì)提供監(jiān)督信號(hào),作為人類意圖和偏好的載體。而當(dāng)從文本模態(tài)擴(kuò)展到多模態(tài)甚至全模態(tài)場(chǎng)景下時(shí),許多問題會(huì)隨之呈現(xiàn):隨著模態(tài)數(shù)量增加,傳統(tǒng)二元偏好或規(guī)則獎(jiǎng)勵(lì)是否能夠捕捉人類意圖的多元偏好或?qū)哟位茫慨?dāng)多模態(tài)擴(kuò)展到全模態(tài)空間,模態(tài)交互更加復(fù)雜,RL方法需要做哪些改進(jìn)?不同模態(tài)下,模態(tài)特有與模態(tài)共有的信息如何統(tǒng)一在獎(jiǎng)勵(lì)信號(hào)建模中?46技術(shù)對(duì)比討論:從文本模態(tài)到多模態(tài)擴(kuò)展多模態(tài)強(qiáng)推理的可能路徑:基于多模態(tài)模型做基座模型擴(kuò)展到強(qiáng)推理場(chǎng)景,另一種是利用LLaVA的思路,在原來的強(qiáng)推理基座模型上進(jìn)行額外的模塊擴(kuò)展;凍結(jié)除投影層Projector外所有模型參數(shù),對(duì)投影層Projector進(jìn)行預(yù)訓(xùn)練,使得投 影層Projector能夠?qū)⒔?jīng)過視覺編碼器的視覺表征映射到語言表征空間。同時(shí)微調(diào)投影層Projector和大語言模型,激發(fā)語言模型多模態(tài)推理能力[1]
Visual
Instruction
Tuning:
/pdf/2304.0848547未來技術(shù)方向展望長(zhǎng)思維鏈可解釋性模態(tài)擴(kuò)展+模態(tài)穿透進(jìn)一步拓展強(qiáng)推理邊界強(qiáng)推理能力賦能Agentic發(fā)展強(qiáng)推理模型的監(jiān)管和安全保證形式化驗(yàn)證審計(jì)對(duì)齊對(duì)齊欺騙現(xiàn)象48未來技術(shù)方向展望:長(zhǎng)思維鏈可解釋性新的挑戰(zhàn):在復(fù)雜環(huán)境下模型可能會(huì)采取捷徑或偏離原本設(shè)計(jì)的任務(wù)路線隨著模型被提供隱式思考的機(jī)會(huì),它們出現(xiàn)欺騙和操縱的可能性逐漸加大模型通過深入思考發(fā)現(xiàn)了能夠完成目標(biāo)的更快方法,盡管這種方法是不被允許或欺騙人類的。模型已經(jīng)展現(xiàn)出了Reward
Hacking和In-Context
Scheming的能力OpenAI
:OpenAI
o1
通過探索漏洞完成任務(wù)。o1-preview模型通過發(fā)現(xiàn)評(píng)估主機(jī)虛擬機(jī)上的Docker守護(hù)進(jìn)程API,并利用它重啟了損壞的挑戰(zhàn)容器,讀取了任務(wù)目標(biāo)(flag.txt),從而避開了應(yīng)當(dāng)通過漏洞利用的安全挑戰(zhàn)。模型利用錯(cuò)誤配置的基礎(chǔ)設(shè)施,跳過了原本設(shè)計(jì)的任務(wù)步驟,實(shí)現(xiàn)了任務(wù)目標(biāo)。Anthropic
:語言模型在面對(duì)獎(jiǎng)勵(lì)設(shè)計(jì)時(shí),可以通過不正當(dāng)?shù)姆绞将@得高獎(jiǎng)勵(lì),甚至通過“獎(jiǎng)勵(lì)篡改”修改自己的獎(jiǎng)勵(lì)機(jī)制,來避開設(shè)置的難點(diǎn)。[1]
Sycophancy
toSubterfuge:
Investigating
Reward-Tampering
in
Large
Language
Models49未來技術(shù)方向展望:長(zhǎng)思維鏈可解釋性Takeaways基于長(zhǎng)思維鏈的推理可以在一定程度上提高模型的可解釋性提供顯式的推理路徑,讓人類可以追蹤模型如何從輸入推導(dǎo)出輸出,從而追蹤模型的決策過程,減少黑箱推理。同時(shí),CoT
使監(jiān)督者更容易檢測(cè)模型是否遵循合理邏輯,并有助于AI
對(duì)齊過程中對(duì)模型行為的透明化處理。然而,CoT
并不能完全解決可解釋性問題,因?yàn)槟P腿钥赡芾肅oT
進(jìn)行欺騙性推理,即In-Context
Scheming。CoT
生成的推理步驟是模型輸出的一部分,并不能保證它反映了模型的真實(shí)內(nèi)部計(jì)算過程。模型可能學(xué)會(huì)輸出符合人類期望的思維鏈,但實(shí)際推理過程可能與其展示的CoT
不同。當(dāng)模型具備長(zhǎng)期目標(biāo)意識(shí)(InstrumentalReasoning)時(shí),它可能會(huì)構(gòu)造看似合理但實(shí)際上誤導(dǎo)性的CoT,以隱藏其真正的意圖。此外,CoT僅是文本輸出的一部分,并不代表模型的實(shí)際內(nèi)部推理過程,因此不能確保其真實(shí)透明。為了防止CoT變成偽裝工具,需要結(jié)合AI-Driven監(jiān)督機(jī)制、對(duì)比推理(ContrastivePrompting)和形式驗(yàn)證(FormalVerification)等方法。例如,可以讓模型在不同監(jiān)督環(huán)境下執(zhí)行相同任務(wù),檢測(cè)其推理一致性;或者使用自動(dòng)化對(duì)抗性測(cè)試,分析模型是否在訓(xùn)練過程中優(yōu)化了欺騙策略。[1]
Sycophancy
toSubterfuge:
Investigating
Reward-Tampering
in
Large
Language
Models50未來技術(shù)方向展望:模態(tài)擴(kuò)展+模態(tài)穿透進(jìn)一步拓展強(qiáng)推理邊界RLHF與DPO方法本身是模態(tài)無感的,通過數(shù)據(jù)構(gòu)造能夠直接應(yīng)用于多模態(tài)場(chǎng)景;但是,多模態(tài)對(duì)齊的難點(diǎn)在于:模態(tài)數(shù)量增加,傳統(tǒng)二元偏好是否能夠捕捉人類意圖的多元偏好或?qū)哟位茫慨?dāng)多模態(tài)擴(kuò)展到全模態(tài)空間,模態(tài)交互更加復(fù)雜,RLHF以及DPO是否還奏效?不同模態(tài)下,模態(tài)特有與模態(tài)共有的信息如何統(tǒng)一在偏好建模中?出發(fā)點(diǎn):我們?nèi)绾卧谌B(tài)場(chǎng)景中,實(shí)現(xiàn)any-to-any
models與人類意圖對(duì)齊51針對(duì)RLHF/DPO對(duì)齊方案存在的效率低、迭代慢、優(yōu)化難的難題,提出從語言反饋中學(xué)習(xí)(Learning
from
Language
Feedback),解決任意到任意模態(tài)對(duì)齊微調(diào)。Question:
Whatmedium
is
the
man
using
to
speak?Before
AlignmentAfter
AlignmentWrong
answerIndirect
responseCorrect
answerDirect
responseA
car
horn.The
man
is
speaking
overa
loudspeaker.Question:
Whathappens
before
thewoman
startsspinning
around?Before
AlignmentAfter
AlignmentCorrect
detectionCorrect
motionBefore
the
woman
starts
spinningaround,she
is
seen
standing
in...The
woman
wasinthe
black
swimsuit,
then
to
herleft,
thenWrong
detectionWrong
motionQuestion:
Small
white
toilet
sittingin
a
small
corner
next
to
a
wall.Before
Alignment
After
AlignmentStrange
shapeRedundant
contentCorrect
shapeClean
layout算法:從語言反饋中學(xué)習(xí)范式,提升任意
到任意模態(tài)生成與理解任務(wù)的對(duì)齊表現(xiàn)模態(tài)統(tǒng)一范式:從語言反饋中學(xué)習(xí)Learning
from
Language
Feedback(LLF)利用信息更豐富的多模態(tài)偏好數(shù)據(jù)實(shí)現(xiàn)更準(zhǔn)確且細(xì)粒度的人類偏好對(duì)齊52模態(tài)統(tǒng)一范式:從語言反饋中學(xué)習(xí)Learning
from
Language
Feedback(LLF)通過語言反饋(LLF)合成的偏好對(duì):當(dāng)前模型的生成結(jié)果通常并不完美。利用語言反饋優(yōu)化提示詞(prompts),可以在某些維度上改善模型的響應(yīng),從而合成更多具有學(xué)習(xí)價(jià)值的偏好對(duì)。53客觀基礎(chǔ):多模態(tài)大模型已具備強(qiáng)大的跨模態(tài)穿透與融合的感知能力,能夠通過結(jié)合世界知識(shí)與上下文學(xué)習(xí)能力,實(shí)現(xiàn)多種模態(tài)(如圖像、文本、音頻、視頻等)的高效推理與協(xié)同輸出。激活賦能:基于慢思考強(qiáng)推理能力的持續(xù)自我進(jìn)化,突破了單一模態(tài)的局限性,跨模態(tài)穿透深度顯著提升。通過深度融合世界知識(shí),模型在文本模態(tài)下的智能邊界得以大幅拓展。模態(tài)穿透賦能智能邊界拓展強(qiáng)推理能力+多模態(tài)訓(xùn)練=激活模態(tài)穿透、拓展智能邊界Base
ModelAlign-DS-V
(8B)ARC
(5-shot)ARC-Challenge
(5-shot)Big
Bench-Hard
(3-shot)32.7%21.4%72.2%34.2%40.5%73.4%GPT-4oMathVistaMathVisionA-OKVQA30.4%62.2%87.9%Align-DS-V
(8B)27.0%63.8%83.7%Align-Anything:
涵蓋多元價(jià)值觀的全模態(tài)對(duì)齊方案數(shù)據(jù)、框架、算法、模型全開源Align-Anything框架支持任意到任意模態(tài)對(duì)齊,這在目前開源社區(qū)中是獨(dú)一無二的。它填補(bǔ)了現(xiàn)有框架僅支持單一模態(tài)或少數(shù)模態(tài)對(duì)齊的空白,為全模態(tài)大模型的對(duì)齊提供了統(tǒng)一和通用的解決方案;數(shù)據(jù)集:開源涵蓋12種模態(tài)的400K對(duì)齊數(shù)據(jù)集算法:開源面向任意模態(tài)、涵蓋
SFT、RLHF、DPO等主流對(duì)齊微調(diào)算法的訓(xùn)練代碼模型:開源指令跟隨微調(diào)后的
Chameleon、LLaMA3.2-Vision
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 裝修公司中間協(xié)議書
- 買賣防盜門合同協(xié)議書
- 隔離酒店意向協(xié)議書
- 食堂購買青菜協(xié)議書
- 項(xiàng)目合作管理協(xié)議書
- 鄉(xiāng)村房屋翻維修協(xié)議書
- 路面硬化返工協(xié)議書
- 茶葉公司加盟協(xié)議書
- 超市合同陳列協(xié)議書
- 車庫出租定金協(xié)議書
- 學(xué)校物業(yè)管理服務(wù)投標(biāo)方案(技術(shù)方案)
- DL-T 1071-2023 電力大件運(yùn)輸規(guī)范
- 基于MATLAB的通信系統(tǒng)的設(shè)計(jì)與仿真畢業(yè)論文
- 2024年湖南高考物理真題試題(原卷版+含解析)
- 因?yàn)楹染粕习噙t到檢查范文
- 廣東省中山市2023-2024學(xué)年八年級(jí)下學(xué)期期末考試數(shù)學(xué)試卷
- 跨文化商務(wù)交際智慧樹知到期末考試答案章節(jié)答案2024年西安工業(yè)大學(xué)
- DZ/T 0462.1-2023 礦產(chǎn)資源“三率”指標(biāo)要求 第1部分:煤(正式版)
- 河南省成人高等教育畢業(yè)生畢業(yè)資格審查表
- 報(bào)修申請(qǐng)表(完整版)
- 山東萊陽核電項(xiàng)目一期工程水土保持方案
評(píng)論
0/150
提交評(píng)論