DeepSeek-R1Kimi 1.5及類強推理模型開發解讀報告_第1頁
DeepSeek-R1Kimi 1.5及類強推理模型開發解讀報告_第2頁
DeepSeek-R1Kimi 1.5及類強推理模型開發解讀報告_第3頁
DeepSeek-R1Kimi 1.5及類強推理模型開發解讀報告_第4頁
DeepSeek-R1Kimi 1.5及類強推理模型開發解讀報告_第5頁
已閱讀5頁,還剩71頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

DeepSeek-R1\Kimi1.5

及類強推理模型開發解讀北大對齊小組主要研究方向:大語言模型對齊與可擴展監督2OutlineDeepSeek-R1

開創RL加持下強推理慢思考范式新邊界DeepSeek-R1

Zero

及R1

技術剖析Pipeline

總覽\DeepSeek-V3

Base\DeepSeek-R1Zero

及R1

細節分析RL

算法的創新:GRPO及其技術細節DeepSeek-R1

背后的Insights

&

Takeaways:RL加持下的長度泛化\推理范式的涌現DeepSeek-R1

社會及經濟效益技術對比探討STaR-based

Methods

vs.RL-based

Methods

強推理路徑對比(DS-R1\Kimi-1.5\o-series)蒸餾vs.強化學習驅動:國內外現有各家技術路線對比分析及TakeawaysPRM

&

MCTS

的作用從文本模態到多模態其他討論:Over-Thinking

過度思考等未來方向分析探討模態穿透賦能推理邊界拓展:Align-DS-V合成數據及Test-Time

Scaling:突破數據再生產陷阱強推理下的安全:形式化驗證Formal

Verification\審計對齊Deliberative

Alignment補充拓展:DeepSeek-V3

解讀3DeepSeek-R1

開創RL加持下強推理慢思考范式新邊界OpenAI

o1

開啟后訓練Post-Training

時代下的RL新范式:后訓練擴展律Post-Training

Scaling

LawDS-R1

獨立發現了一些通往o1路上的核心理念,并且效果還好到受到了OpenAI

的認可如何通過有效的Test-Time

Scaling

和Train-Time

Scaling

提升模型的推理能力?得益于純大規模強化學習,DeepSeek-R1具備強大推理能力與長文本思考能力,繼開源來備受關注。DeepSeek

R1-Zero

和R1的出現再次證明了強化學習的潛力所在:R1-Zero

從基礎模型開始構建,完全依賴強化學習,而不使用人類專家標注的監督微調(SFT);隨著訓練步驟增加,模型逐漸展現出長文本推理及長鏈推理能力;隨著推理路徑增長,模型表現出自我修復和啟發式搜索的能力;4DeepSeek-R1

開創RL加持下強推理慢思考范式新邊界得益于強大的推理能力與長文本思考能力,DeepSeekR1在復雜任務上表現卓越,成為開源領域的又一里程碑,標志著開源社區在與閉源大模型(如OpenAI

o1

系列)的競爭中邁出了關鍵性一步。DeepSeek-R1

在數學代碼任務上表現突出Deepseek

R1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217。在MATH-500上,獲得97.3%的驚人成績,表現與OpenAI-o1-1217相當。在編碼相關的任務中表現出專家水平,在

Codeforces上獲得了2029Elo評級,在競賽中表現優于96.3%的人類參與者DeepSeek-R1

在知識類問答上推動科學探索邊界:MMLU\MMLU-Pro\GPQA

Diamond

等STEM-related

榜單上取得良好表現R1

展現出強推理模型在AI-Driven

Research

的潛力在長文本依賴任務如FRAMEs

和事實性推斷任務Simple-QA上表現突出5回顧:Pre-Training

Scaling

LawPre-Training

Scaling

Laws:預訓練模型上廣泛觀察到的現象,協調了計算量C、模 型參數量N和數據大小D之間的關系6回顧:Post-Training

Scaling

LawPost-Training

階段,隨著訓練時計算量(來自RL的Training階段)和Test-Time

計算量(例如Test-Time

Search)的增長,模型性能(例如數學推理能力)也會隨之提升Post-Training

Scaling

Laws

下訓練時計算量多了一個新的變量:Self-Play探索時LLMInference

的計算量[1]

/index/learning-to-reason-with-llms/7回顧:Post-Training

Scaling

Law為什么我們需要后訓練Scaling-Law?隨著模型尺寸逐漸增大,預訓練階段參數ScalingUp帶來的邊際收益開始遞減;如果想要深度提升模型推理能力和長程問題能力,基于RL的Post-Training

將會成為下一個突破點。自回歸模型在數學推理問題上很難進步的一點在于沒有辦法進行回答的自主修正,如果僅是依靠生成式方法和擴大參數規模,那么在數學推理任務上帶來的收益不會太大。所以需要尋找額外的ScalingLaws[1]。Training

Verifiers

to

Solve

Math

Word

Problems

/pdf/2110.14168Scaling

LLM

Test-Time

Compute

Optimally

can

be

More

Effective

than

Scaling

Model

Parameters8DeepSeek-R1

技術剖析:DeepSeek-R1

ZeroDeepSeek-R1

Zero:無需監督微調SFT,純強化學習驅動的強推理模型DeepSeek-v3-Base(671B)DeepSeek-R1-Zero基于規則的獎勵Rule-Based

Reward推理為中心的大規模強化學習Large-Scale

Reasoning-Oriented

RL大規模推理為中心的強化學習,提升模型數學代碼能力RL驅動下自然涌現長文本推理能力9DeepSeek-R1

技術剖析:DeepSeek-R1

ZeroDeepSeek-R1

Zero:無需監督微調SFT,純強化學習驅動的強推理模型獎勵建模:基于規則的獎勵(Rule-Based

Reward):準確率獎勵+格式獎勵準確率獎勵Accuracy

Rewards:判斷答案是否是正確的格式獎勵Format

Rewards:規勸模型生成答案的過程是<think>和</think>沒有使用Reward

Model,因為ORM和PRM等基于神經網絡的都可能遭受reward

hacking而retraining

reward

model

需要大量的計算資源,可能會復雜化整個流程訓練模板:選擇最簡單的Thinking

Process,直接觀察到最直接的RL過程下的表現基于規則的獎勵(Rule-Based

Reward):準確率獎勵+格式獎勵10DeepSeek-R1

技術剖析:DeepSeek-R1

ZeroDeepSeek-R1

Zero:無需監督微調SFT,純強化學習驅動的強推理模型推理為中心大規模強化學習:組相對策略優化(GRPO)+瞄準Reasoning

推理任務自我迭代提升Self-Evolution:隨著訓練步數的增長,模型的thinking

response

length

逐 漸增加(對應著test-time

computation

increasing)Aha

moment:自然學會增加更多的推理時間,反思評價先前步驟、探索其他方法RL驅動下自然涌現Long-CoT

能力“Aha”Moment11DeepSeek-R1

技術剖析:DeepSeek-R1

ZeroDeepSeek-R1

Zero的關鍵啟示傳統RLHF背景下,SFT通常被認為是不可或缺的一步,其邏輯先用大量人工標注的數據來讓模型初步掌握某種能力(如對話或者語言風格),然后再用RL來進一步優化性能DeepSeek-R1

系列跳過對于大規模人工標注數據的依賴無需構建和維護高質量的SFT數據集,而是讓模型直接在RL環境中進行探索類比:初學者在沒有老師指導的情況下,通過不斷的嘗試和錯誤來掌握一門新的技能。這種自主學習的方式,不僅節省了大量的標注成本;更重要的是,它讓模型能夠自由地探索解決問題的路徑,而不是被預先設定的模式所束縛。12DeepSeek-R1

技術剖析:DeepSeek-R1

ZeroDeepSeek-R1

Zero的關鍵啟示跳過SFT階段,直接運用純強化學習拓展推理能力邊界實際上也帶來了幾個很重要的啟示:需要足夠強的基座模型:基座模型(DeepSeek-V3

Base)超過了某個質量和能力閾值(671B在14.8T高質量Token上訓練)(基座模型知識幫助突破推理上界,也有一些工作利用小模型復現Aha

Moment

得益于大規模RL和高質量推理數據);大規模強化學習加持:GRPO

對于強化學習訓練的優化;規則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進行自動化標記和驗證(Self-Automated

Verification

and

Annotation),這是與一般聊天和寫作請求任務不同的;13DeepSeek-R1

技術剖析:DeepSeek-R1

ZeroDeepSeek-R1

Zero的關鍵啟示:舉例-自動化標記和驗證示例輸入:編寫python

代碼,該代碼采用數字列表,按排序順序返回,在開始時添加42。自動化驗證方法:利用軟件檢查代碼補全判斷是否為完整代碼;執行Python代碼檢查運行情況判斷是否為可運行代碼;調用外部模塊構建額外的檢測單元;甚至可以更進一步,測量執行時間,使訓練過程首選性能更高的解決方案;以上均可以作為小批量訓練(Mini-Batch)和連續訓練過程中的獎勵信號14DeepSeek-R1

技術剖析:DeepSeek-R1

ZeroDeepSeek-R1

Zero的關鍵啟示:舉例-自動化標記和驗證示例輸入:編寫python

代碼,該代碼采用數字列表,按排序順序返回,在開始時添加42。基于規則進行驗證,并在Mini-Batch中提供獎勵信號;[1]

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r115DeepSeek-R1

技術Pipeline

總覽DeepSeek-R1

Zero

的問題:長推理過程可讀性差、語言混合,幫助性低Research

Questions:能否在Zero基礎上兼顧推理性能的同時,提升模型的幫助性和安全性?例如產生Clear

&

Coherent

CoT

并且展現出通用能力的模型R1;能否利用一些高質量反思數據集做Cold

Start

從而加速RL的收斂或幫助提升推理表現16DeepSeek-R1

技術Pipeline

總覽DeepSeek-v3-Base(671B)DeepSeek-R1-Zero推理為中心的大規模強化學習(GRPO)Large-Scale

Reasoning-Oriented

RL基于規則的獎勵Rule-Based

Reward正確率獎勵格式獎勵反思數據冷啟動Cold

StartDeepSeek-v3-Base(671B)雙重驗證數學代碼推理任務推理為中心的RL正確率獎勵 流暢性獎勵Intermediate

Model

(推理鏈可讀性更強)Stage

I:

推理鏈可讀性拒絕采樣和全領域SFT600k

推理數據(Rule-based+Generative

獎勵)200k

通用數據(Writing

\

Role-Play

etc.)Stage

II:

通用能力&安全性DeepSeek-R1全領域RL

All-Scenarios

RL推理任務–規則獎勵

(Rule-based

Reward)通用任務–偏好建模(Reward

Model)17DeepSeek-R1

技術Pipeline

總覽冷啟動Cold

Start數據準備:few-shot

long

cot

data,

詳細帶反思和驗證的數據集雙重驗證:由人類注釋者和R1-zero

生成的高質量鏈式思考(Chain-of-Thought,

CoT)數據,部分樣本長度達到10,000

Token成效:提供一些HumanPrior\顯著提升了語言的語義連貫性、可讀性和基本推理能力。推理為中心RL

Reasoning-Oriented

RL增加了大規模的RL訓練過程:和DeepSeek-R1Zero

基本一致,主要是提升Reasoning的能力,包括coding\mathematics\logicreasoning

等帶有明確解答過程的問題語言一致性獎勵:引入languageconsistencyreward衡量長推理鏈可讀性(通過計算CoT過程中目標語言的占比)推理準確率獎勵:結合accuracy

of

reasoning

tasks

and

reward

forlanguage

consistency成效:通過GRPO,模型在AIME2024等數學基準上取得了顯著提升,pass@1從15.6%提高到71.0%。此外,模型能夠自發延長推理鏈條,展現出更強的邏輯連貫性。反思數據冷啟動Cold

StartDeepSeek-v3-Base(671B)雙重驗證推理為中心的RL數學代碼推理任務流暢性獎勵正確率獎勵Intermediate

Model

(推理鏈可讀性更強)Stage

I:

推理鏈可讀性18DeepSeek-R1

技術Pipeline

總覽拒絕采樣和全領域SFT

Rejection

Sampling

and

SFT當上一個階段的RL收斂之后,再進行SFT和之前Cold-Start的數據不同,這部分SFT主要是負責全領域任務600k

推理任務:(1)基于規則的獎勵(2)利用批判模型融合生成式獎勵200k

通用任務(writing\role-playing\general-purpose)成效:使模型在推理能力不減的前提下,語言表現更為自然,適應性更為廣泛。全領域RL

RL

for

allScenarios進一步提升除了reasoning

能力之外幫助性和安全性對于reasoning

data,

可以用基于規則的獎勵對于general

data,

可以用獎勵模型來建模人類偏好意圖成效:最終版本的R1

不僅在推理和對話能力上達到了高水平,還具備更安全的交互性能。拒絕采樣和全領域SFT600k

推理數據(Rule-based+Generative

獎勵)200k

通用數據(Writing

\

Role-Play

etc.)Stage

II:

通用能力&安全性DeepSeek-R1全領域RL

All-ScenariosRL推理任務–規則獎勵(Rule-based

Reward)通用任務–偏好建模(Reward

Model)19DeepSeek-R1

Takeaways

技術亮點總結:Part

IPure

RL

to

Develop

Reasoning

Capabilities:社區的復現都涉及蒸餾和搜索,而DS-R1Zero跳過監督微調SFT階段,展現出大規模強化學習的潛力,這也得益于以下幾點:需要足夠強的基座模型:基座模型(DeepSeek-V3

Base)

超過了某個質量和能力閾值(671B

在14.8T

高質量Token上訓練);大規模強化學習加持:GRPO

對于強化學習訓練的優化;規則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進行自動化標記和驗證(Self-Automated

Verification

and

Annotation),這是與一般聊天和寫作請求任務不同的訓練步數的增長,模型的thinking

response

length

逐漸增加(test-time

computation

increasing)DeepSeek-R1-Zero

自主涌現學會重新評測原來的方法、反思和主動探索其他的路徑多階段訓練下的冷啟動讓RL訓練更加穩定,避免初期不穩定、加速收斂、提升思維鏈可讀性未來后訓練的重心會逐步傾向于RL,但是少量訓練用于SFT可能還是必須的強化學習技術不只局限在基于規則的數學、算法代碼等容易提供獎勵的領域,它還可以創造性地把強化學習所帶來的強推理能力,泛化到其他領域20DeepSeek-R1

技術剖析:背后的教師模型DeepSeek-V3基座模型(DeepSeek-V3

Base)

超過了某個質量和能力閾值(671B

在14.8T高質量Token上訓練)提供了類似于SystemI

的足夠好的Prior

Distribution

直覺,后期RL探索過程進一步挖掘激活大規模RL起到了激活和發掘預訓練階段積累的知識和推理能力的作用DeepSeek-V3

低成本(5,576,000美元)帶來驚艷效果MoE

架構671B

激活37B\使用Multi-headLatent

Attention(MLA)架構2048張H800

計算:~54天21DeepSeek-R1

技術剖析:RL

加持下的Length

泛化&推理范式涌現大規模RL的加持下,DeepSeek-R1

Zero

表現出在推理任務上思維鏈長度的自然增長和涌現反思深度逐層加深,出現標記不明確的步驟、保持中間結論、驗證、混合語言推理等現象模型在準確率獎勵和格式獎勵下自然探索到驗證、回溯、總結、反思的行為范式如何控制來保證最后的response長度能夠穩定上升,可能會出現反復重復驗證、或者驗證時間過晚的情況;(REINFORCE

系列更快;PPO訓練穩定但是慢)多語言可能是因為預訓練數據是多語言的,“一視同仁”被Tokenization,不同的領域的不同語言編碼是否有不同優勢?社區復現結果1社區復現結果2DS-R1

Zero

長度涌現現象DeepSeek-R1

長度泛化復現:/p/2129041083122DeepSeek-R1

技術剖析:GRPO

賦能RL-ScaleGRPO核心思想是通過構建多個模型輸出的群組,并計算群組內的相對獎勵來估計基線,從而避免了傳統策略優化算法中需要使用與策略模型大小相同的評論模型。大幅度降低RL

訓練的計算成本,同時還能保證模型能夠有效地學習到策略。具體來說,在傳統的RL訓練中,評論模型需要與策略模型具有相同的大小,增加計算資源的消耗。而GRPO

算法利用群組內的相對信息來估計基線,避免了使用Critic

Model的需要。此外,GRPO

算法還引入了一些額外的優化策略(獎勵縮放和策略裁剪),提升訓練的穩定性。From

PPO

to

GRPO:PPO

作為Actor-Critic

算法被廣泛運用于Post-Training,核心目標是最大化下面的目標函數其中,????和??????????

分別表示當前策略模型和舊策略模型,q,o是從問題數據集和舊策略??????????中采樣的輸入和輸出,????是基于廣義優勢估計(GAE)計算的優勢值,依賴于獎勵序列{??≥t}和學習的價值函數????

。因此,PPO需要同時訓練策略模型和價值函數。為避免獎勵模型的過度優化,標準做法是在每個詞元的獎勵中添加與參考模型的KL懲罰項23DeepSeek-R1

技術剖析:GRPO

賦能RL-ScaleFrom

PPO

to

GRPO:PPO的價值函數通常是與策略模型規模相當的獨立模型,這帶來了巨大的內存和計算負擔。獎勵模型通常僅對輸出序列的最后一個詞元分配獎勵,導致逐詞元價值函數的訓練復雜化。GRPO:無需像PPO額外近似價值函數,而是利用同一問題下多個采樣輸出的平均獎勵作為基線。具體而言,對于每個問題,GRPO從舊策略??????????中采樣一組輸出,并通過最大化以下目標優化策略模型:通過群組相對方式計算優勢值,與獎勵模型的對比性質(通常基于同一問題的輸出比較訓練)天然契合;此外,GRPO直接將策略模型與參考模型的KL散度作為正則項加入損失函數,而非將其混入獎勵計算,簡化了優勢值的計算。DeepSeekMath

/pdf/2402.0330024DeepSeek-R1

技術剖析:GRPO

賦能RL-ScaleFrom

PPO

to

GRPO:基于結果監督的GRPO:對于每個問題q,從舊策略模型??????????采樣一組輸出{??1,??2,??3,…,????},獎勵模型為每個輸出生成獎勵{??1,??2,??3,…,????}。隨后,獎勵通過減去組內均值并除以標準差進行歸一化。結果監督將歸一化后的獎勵分配給每個輸出的末尾詞元,并將所有詞元的優勢設為該歸一化獎勵;基于過程監督的GRPO:結果監督僅提供輸出末尾的獎勵,對復雜數學任務的策略指導不足對問題q

和采樣輸出{??1,??2,??3,…,????},過程獎勵模型為每個步驟生成獎勵:??=1

1

1

??

??

??{

????????????

1

,

????????????

2

,

,

????????????

??1

????????????

1

,

????????????

2

,

,

????????????

????,…,

}其中??????????

??

是第??

步的末尾詞元索引,????是第??

個輸出的總步數。歸一化后,優勢值為后續步驟歸一化獎勵的累加和基于結果監督的GRPO優勢值估計基于過程監督的GRPO優勢值估計DeepSeekMath

/pdf/2402.0330025DeepSeek-R1Takeaways

總結PartIIDS-R1Zero跳過監督微調SFT階段,展現出大規模強化學習的潛力。這種自主學習的方式,不僅節省了大量的標注成本,而且讓模型更自由的探索解決問題的路徑,而不是被預先設定的模式所束縛。這也使得模型最終具備了更加強大的泛化能力和適應能力。為了充分釋放GRPO的潛力并確保訓練穩定性,DeepSeekR1的訓練中采用了四階段的交替迭代流程:“監督微調(SFT)→強化學習(RL)→再次SFT→再次RL”,有效解決了傳統強化學習模型在冷啟動、收斂效率和多場景適應性方面的瓶頸。強大的自驗證和長鏈推理能力:并非預先設定好的,而是在RL訓練中自主涌現出來的自驗證是指模型在生成最終答案之前,會先主動地驗證自己的中間推理步驟是否正確。這就像一個學生在做題時,會反復檢查自己的解題過程,以確保答案的準確性。反思是指模型會回溯檢查自己之前的推理過程,并根據檢查的結果進行修正,相當于一個學生在復習時,會反思自己之前的錯誤,以便下次不再犯同樣的錯誤。而長鏈推理能力則讓模型能夠處理更復雜、更需要多步驟思考的問題。這種能力對于解決一些需要跨越多個邏輯步驟才能找到答案的問題至關重要,例如復雜的數學題或邏輯謎題。冷啟動讓RL訓練更加穩定:避免RL

訓練初期的不穩定,使得模型能夠更快地進入穩定的訓練狀態;有效地加速RL

訓練的收斂,縮短訓練時間;提高模型輸出的可讀性,減少不同語言混合使用的情況。26DeepSeek-R1Takeaways

總結PartII推理為中心的RL訓練:語言一致性獎勵,以解決模型在多語言環境中進行推理時,出現語言混合的問題。對推理鏈的質量進行細致的評估,并通過獎勵機制引導模型生成更加合理、準確的推理過程。多目標優化:兼顧推理性能、幫助性和安全性;蒸餾的潛力:蒸餾可以幫助將更大模型通過RL發現的高階推理范式蒸餾到小模型中,這比用小模型直接使用大規模RL發現的推理范式要更加有效;基于群組的相對策略優化(GRPO):通過構建多個模型輸出的群組,并計算群組內的相對獎勵來估計基線,從而避免了傳統策略優化算法中需要使用與策略模型大小相同的評論模型降低RL

訓練的計算成本\保證模型能夠有效地學習到策略獎勵機制的設計:兼顧推理能力和語言一致性準確率獎勵和格式獎勵,從而保證模型不僅能夠正確地解決問題,還能夠以規范、易讀的方式輸出答案格式獎勵:用于強制模型將推理過程放置在特定的標簽內,用<think>和</think>標簽來包裹推理過程,使用<answer>

和</answer>

標簽來包裹最終答案。語言一致性獎勵:懲罰在推理過程中使用了多種語言的輸出,鼓勵模型盡可能地使用一種目標語言進行推理,從而保證模型輸出的語言風格一致性27DeepSeek-R1

社會和經濟效益低成本高質量語言模型邊界的探索,擴展的具體方法和側重點改變:最初是模型規模,然后是數據集規模,現在是推理時的計算資源和合成數據;垂直領域和橫向拓展:采用"API+本地化知識庫"或"提示工程+檢索增強"的混合方案,通過PromptEngineering和RAG等技術實現業務場景的快速適配與輕量定制,同時建立完善的運維合規體系,確保數據處理全流程的安全性與合法性。資本市場的劇烈波動是AI技術快速迭代引發的短期現象,表現為研發投入和數據中心建設成本激增,這在近期美股科技股的震蕩中得以集中體現;而從長期來看,行業將陷入算力軍備競賽的循環,每一輪技術突破和應用場景擴展都將催生新的算力需求與資源投入,持續重塑行業競爭格局。資源優化:隨著模型使用方案的平民化,中小企業和個人開發者得以將有限資源聚焦于場景創新與技術優化,無需在基礎能力建設或算力消耗上投入過多成本。市場激活:這種高性價比、低門檻的大模型服務模式,將吸引更多初創團隊涌入賽道,催生多元化的應用場景和技術路徑,推動行業生態的繁榮發展。高效創新:在有限算力資源支持下,算法創新模式,突破了算力的“卡脖子”限制28技術對比討論:Kimi

K1.5

MoonshotKimi

K1.5

Main

ResultKimi

K1.5

Long2Short

ResultK1.5

專注于用長文本CoT

解決推理時Scaling問題利用RL探索:Kimik1.5的核心思想是利用強化學習,讓模型通過試錯(探索)來學習解決問題的能力,而不是僅僅依賴于靜態數據集。長文本CoT

的RL:將RL

應用于長文本CoT推理過程,使模型能夠進行更深入、更復雜的推理。隱式規劃:通過增加上下文長度,讓模型在生成CoT

的過程中進行隱式的規劃、反思和修正,無需顯式的搜索樹或價值函數。長文本能力是關鍵:核心洞察是長文本能力是強化學習訓練LLM的關鍵,而不是更復雜的訓練技巧。長文本到短文本:通過長文本CoT模型來指導短文本CoT模型的訓練,從而在有限的計算資源下獲得更好的性能。29技術對比討論:Kimi

K1.5

Moonshot四個階段Pretraining--SFT--Long-CoT

SFT–RLRL

Prompt

Set

Curation

RL

問題的準備Diverse

Coverage:

涵蓋STEM\coding\general

reasoning的數據Balanced

Difficulty:涵蓋不同的complexity

難度Accurate

Evaluability:能夠被Verifiers

準確評價,從而防止泛化出一些reward

hacking

和superficialpatterns

的行為Long-CoT

SFT用Prompt

Engineering

造了一個高質量LongCoT

warmup

dataset包含了準確的verified

reasoning

paths

for

both

image

and

text

inputs涵蓋了planning\evaluation\reflection\exploration

多種范式RL

Infrastructure

System30強化學習:從In-Context

RL

的角度出發,直接訓練模型approximate

Planning的過程(例如將Search中,state

和value

等信息都視為Language

Tokens)策略優化:建模成Contextual

Bandit,用REINFORCE

變種進行優化長度懲罰:引入長度懲罰機制,防止模型生成過長的推理過程,提高計算效率。Overthinking的行為:可能會導致更好的表現,但是會帶來training

和inference過程中極大的損耗采樣策略課程學習(CurriculumLearning):根據問題的難度,先讓模型學習容易的例子,再逐漸引入更難的例子,這種循序漸進的方式有助于模型更好地掌握知識。優先采樣(Prioritized

Sampling):

根據問題的難度或模型對問題的掌握程度來調整采樣概率。模型更傾向于采樣那些困難的、或者模型不擅長的問題,提高訓練效率。技術對比討論:Kimi

K1.5

Moonshot策略優化損失函數長度懲罰獎勵31Vision

Data構造真實世界數據包括各個年級的科學問題,這些問題需要圖形理解和推理能力;還包括需要視覺感知和推理能力的位置猜測任務;以及涉及復雜圖表理解的數據分析任務等。這些數據集提升了模型在真實世界場景中的視覺推理能力。合成視覺推理數據是人工生成的,包括程序化創建的圖像和場景,旨在提高特定的視覺推理技能,例如理解空間關系、幾何模式和物體交互。這些合成數據集提供了可控環境,用于測試模型的視覺推理能力,并且可以無限生成訓練樣本。文本渲染數據是通過將文本內容轉換為視覺格式創建的,使模型能夠在不同模態下保持一致的文本處理能力。通過將文本文檔、代碼片段和結構化數據轉換為圖像,確保模型無論接收的是純文本輸入還是截圖或照片中的

文本,都能提供一致的響應。這也有助于增強模型在處理文本密集型圖像(如截圖、表格、公式等)時的能力。Long2Short

方法模型融合:將長文本CoT

模型和短文本CoT

模型的權重進行平均,得到一個新的模型。最短拒絕采樣;Short

Rejection

Sampling:從多個采樣結果中選擇最短且正確的答案然后做SFTDPO(Direct

Preference

Optimization):使用長文本CoT

模型生成的答案作為偏好數據來訓練Short

CoT

模型。Long2short

RL:在標準RL

訓練后,使用長度懲罰對模型進行微調,進一步提高短文本CoT

模型的效率。技術對比討論:Kimi

K1.5

Moonshot32技術對比討論:Kimi

K1.5

vs.DeepSeek-R1

ComparisonKimi

K1.5

Main

ResultDS-R1MainResult二者都關注RL的方法帶來的提升,MCTS

和PRM

沒有被使用(Reward

Hacking

的考慮) MCTS是一種Structure,

A*也是Structure,

人為加入InductiveBias強求LLM按照結構化先驗進行思考可能會限制模型的能力;PRM

容易被Reward

Hacking,且絕對值Value

很難準確Kimi

K1.5

更多是從In-Context

RL

的角度出發,直接訓練模型approximate

Planning的過程(例如將Search中,state

和value

等信息都視為Language

Tokens)DS-R1

是從純RL入手,利用GPRO+Rule-Based

Reward

激活模型能力核心觀念:不管模型中間做錯了什么,只要不是重復的,那么最后模型做對了,我們就認為這是一個好的探索,值得鼓勵。反之,如果模型一頓探索,最后做錯了,那么再努力也是錯,要懲罰。33技術對比討論:Kimi

K1.5

vs.DeepSeek-R1

Comparison

TakeawaysGRPO

:利用同一問題下多個采樣輸出的平均獎勵作為基線,從而無需額外近似價值函數。這種機制通過群組相對方式計算優勢值,與獎勵模型基于同一問題的輸出比較訓練的特性天然契合。此外,

GRPO直接將策略模型與參考模型的KL散度作為正則項加入損失函數,而非將其混入獎勵計算,簡化了優勢值的計算過程。這使得GRPO在大規模強化學習任務中,特別是在處理復雜的推理任務時,能夠更有效地優化策略模型,同時保持較高的計算效率。Kimi

K1.5

采用的變種Mirror

Descent可以在保證學習穩定性的同時,促進模型對復雜推理任務的理解深度,如逐層加深反思、驗證、回溯等行為范式的形成。它允許模型自然地探索到驗證、回溯、總結、反思的行為模式,這些對于提高模型在推理任務中的表現至關重要。后訓練Pipeline對于提升模型推理能力的重要性不可忽視。隨著測試階段算力和訓練階段探索算力的增加,根據后訓練Scaling

Law,模型的表現將持續得到改善。理想的數據構建應當覆蓋廣泛的類別,并且難度分級明確,這有利于實現類似課程學習的效果,逐步提高模型的能力。在獎勵建模時,必須確保基于獎勵模型的獎勵機制不會被輕易攻陷。平衡推理長度與推理正確率之間的關系。例如,針對一個序列中的下一個動作,若存在一個是錯誤答案而另一個是正確答案的情況,傳統的方法會傾向于提升選擇正確答案的概率,同時降低選擇錯誤答案的概率。然而,從推理長度的角度來看,有時選擇看似錯誤的答案可能會引導模型進入自我修正的過程,這種自我修正機制以及更長的推理路徑同樣對提升模型的整體推理能力至關重要。34技術對比討論:強推理路徑–Pure

RL

vs

STaR-based回顧:STaR推理:起始數據集僅有[Question,Answer]

,首先利用一些帶有推理過程的Few-Shot

Examples

來Prompt

模型對于數據集中的問題生成對應的推理過程和答案。過濾:如果生成的答案正確,則將推理過程加入到原有的數據集中;如果生成的答案錯誤,則嘗試在給出正確答案的前提下再次生成推理過程。將最終生成正確答案的推理收集,構建一個構建一個微調數據集[Question,Rationale,

Answer]進行微調。迭代:重復這一過程,且每次獲得一個新的數據集,都從原始的模型開始進行Fine-tune從而防止過擬合。[1]

STaR:

Bootstrapping

Reasoning

With

Reasoning35技術對比討論:強推理路徑–Pure

RL

vs

STaR-based回顧:STaR

與RL的聯系模型首先采樣潛在的推理路徑(rationale)的過程類似于RL中通過策略選擇動作(action),基于環境狀態選擇一個可能的策略路徑。STaR中,通過計算目標函數,模型對整個數據集的預測結果進行評估,并且只根據預測正確的樣本更新模型。STaR在同一批數據上進行多次梯度更新,這類似于某些策略梯度算法中的策略,即通過多次調整同一批數據來穩定學習過程。[1]

STaR:

Bootstrapping

Reasoning

With

Reasoning36技術對比討論:強推理路徑–Pure

RL

vs

STaR-basedTakeaways:STaR

的核心思路是將思考過程建模到語言模型的Next

Token

Prediction

中,通過 反復自我迭代和監督微調基于STaR

可以進一步將這種思路擴展到思考過程是搜索過程的特例,比如rStar-Math,SoS

都可以用類似的思路來理解。本質上,STaR一類的方法是希望模型能夠學習到MetaCoT,即問題到答案映射過程背后的深入規律但是對于問題的結構要求性高,對于復雜數學推理任務可能難以自我迭代難以融入Rule-Based

Reward

for

RL訓練PureRL加持下,業界的技術實踐更多Focus

on

直接利用RL激活基座模型的推理潛力,通過構建rule-based

reward,

額外加上RL

Data的設計,激活模型的內部本身的推理能力Reward

Model的一些嘗試如PRM,會遇到reward

hacking,

value

不準,難以泛 化等問題[1]

STaR:

Bootstrapping

Reasoning

With

Reasoning37技術對比討論:蒸餾vs

強化學習大型模型雖然性能強大,但是也存在著一些局限性,例如計算資源消耗過高,部署和使用門檻較高等。模型蒸餾:將一位經驗豐富的老師的知識傳遞給一個年輕的學生,讓其在較短的時間內掌握復雜的技能。DeepSeek利用蒸餾R1的手段獲得了一系列小模型,表現非常突出。這很大程度得益于R1模型足夠強大,發現了很多高階推理范式,而這些高階推理范式是小模型直接利用大規模強化學習難以發現的(可以認為是由于預訓練知識不足),因此這些蒸餾得到的小模型表現比較突出,甚至超過了基于大規模RL的方法。38技術對比討論:蒸餾vs

強化學習在提升模型強推理能力的努力上,蒸餾和強化學習被社區廣泛探索直接利用SFT蒸餾可以學習到數據中的推理范式,雖然在推理分數上的表現有所提升,但是更多是去擬合數據中的Pattern,

很難學習到數據背后的數學規律和MetaCoT強化學習則是通過試錯和嘗試,鼓勵模型在最大化獎勵過程中學習到推理背后的規律,獲得的泛化性和推理表現上界更高SFT主要負責記憶而很難進行OOD泛化,基于ORM的RL泛化能力較好[1]SFT規范模型輸出格式,使得后續的RL可以獲得更高的收益隨著強推理能力復現的興起,社區也有很多工作比較LongCoT

長文本思維鏈的蒸餾效果Scalingup

verifiable

reward是long

cot的核心。小模型(例如wen-math-7b)不容易recentivize

long

cot的behavior(e.g.,

aha

moment)在MATH

場景下。wait,recheck,

alternatively這些詞在rl訓練中沒有明顯增加SFT

Memorizes,

RL

Generalizes:

A

Comparative

Study

of

FoundationModel

Post-training

/pdf/2501.17161Demystifying

Long

Chain-of-Thought

Reasoning

in

LLMs

/pdf/2502.0337339技術對比討論:蒸餾vs

強化學習Open

Questions:Long-COT

指令數據擴展是否有助于慢思考推理能力?哪種Long-COT

數據構造方式具有最佳樣本效率?Long-COT

及其擴展是否有助于多模態任務?Takeaways

from

RedStar

[1]:Long-COT

在有限數據下增強推理能力:小規模數據集(如1.3k

個問題)可以顯著提升推理性能,尤其是在數學任務中,展現了Long-COT

調優即便在數據量較少的情況下依然具有強大的推理能力。更大規模和專業化模型提升性能:更大規模的模型(如14B、32B)以及經過專業預訓練的模型(如數學預訓練和上下文長度擴展)在Long-COT

訓練中表現更佳,優于較小規模的模型(如7B)在保持正確推理路徑和處理復雜任務的能力。任務與語言之間的正遷移:Long-COT

訓練不僅能提升數學任務的性能,還能對其他領域和語言產生正向影響,展現了其廣泛的適用性。此外,該方法具有良好的泛化性和魯棒性,在通用基礎任務和對齊評估中取得了相當或更優的表現。強化學習的規模化提升了效率:離線強化學習算法(DPO)和在線強化學習算法(PPO)均能有效增強模型性能。Long-COT

強化多模態模型:將Long-COT

方法應用于多模態大語言模型(MLLMs)可以顯著提升其性能,說明慢思考(slow-thinking)技術在多模態任務中的有效性。[1]

RedStar:

Does

ScalingLong-CoT

Data

Unlock

BetterSlow-Reasoning

Systems?:

/abs/2501.1128440技術對比討論:蒸餾vs

強化學習DiscussionKimiK1.5

中Long2Short

方法指的是將長文本CoT

模型的知識遷移到短文本CoT

模型,本質上是一種「蒸餾」,不過目標和策略更多樣,不僅要性能,還要token

效率;更多地關注對教師模型推理策略的學習,而不僅是輸出。S1

模型通過少成本獲得超過o1-preview的表現:高質量推理數據構建:s1K數據集精心挑選了1000個涵蓋數學競賽、博士級科學問題及奧林匹克競賽題目等,這些問題經過難度、多樣性和質量的嚴格篩選,并包含詳細的推理軌跡與答案。類似課程學習的效果。采樣策略優化:預算強制法有效地控制了模型在測試階段的計算資源消耗。當模型生成的思考標記超過預設限制時,插入“end-of-thinking

token”來終止思考過程并促使模型轉向答案生成階段若需要增加計算投入,則會暫時阻止end-of-thinking

token的出現,并鼓勵更深入的探索。DeepSeek利用蒸餾R1的手段獲得了一系列小模型,表現非常突出。這很大程度得益于R1模型足夠強大,發現了很多高階推理范式,而這些高階推理范式是小模型直接利用大規模強化學習難以發現的(可以認為是由于預訓練知識不足),因此這些蒸餾得到的小模型表現比較突出,甚至超過了基于RL的方法。相對依賴于強大的教師模型蒸餾過程通常針對特定任務或一組任務(例如代碼和數學問題)優化,這可能導致生成的小模型在面對新任務或環境(例如通用任務)時適應性和泛化能力不足。41技術對比討論:MCTS

&

PRM利用MCTS,將答案拆分成分句或Token為單位的節點,而后對于解空間進行搜索通過MCTS

可能會有以下的問題:Token

Generation

Space

更大,而不是像象棋一樣,Search

Space

是relativelywell-defined,容易陷入局部最優Value

Model

直接影響了搜索方向,而訓練一個好的Value

Model

比較困難一個相對成功的典范是rStar-Math[1],通過小模型達到OpenAI

o1數學任務相當的水平一個作為策略模型Policy

Model,另一個模型訓練成為基于偏好的過程獎勵模型(PPM),二者配合進行MCTS

產生分步驗證的高質量推理數據,四輪自我迭代提升,不斷更新數據而后微調模型雖然即便經過MCTS模擬后,Q值依然無法做到對每個推理步驟進行精準評分,但是它們能夠有效識別出哪些步驟是正確的(正向步驟),哪些步驟是無關或錯誤的(負向步驟),可以用ranking

loss

訓練偏序[1]

rStar-Math:

SmallLLMs

Can

Master

MathReasoning

with

Self-Evolved

Deep

Thinking

/abs/2501.0451942技術對比討論:MCTS

&

PRM關鍵的Takeaways:相比于利用MCTS造數據,直接將MCTS應用于模型的訓練可能會限制模型的思考過程?MCTS

是一種Structure,A*也是Structure,人為加入Inductive

Bias強求LLM按照人為的結構化先驗進行思考可能會限制模型的能力;不通過額外的Structure,模型自身是否可以學會思考:Algorithm

Distillation:

將RL的Training

History

序列直接建模到語言模型中,學習到Data-EfficientRL

算法Stream

of

Search:

將搜索的過程轉化為自然語言序列預訓練模型,基于這個模型做policy

improvement

methods(Advantage-Induced

Policy

Alignment)和STaR,解決了heuristic

solvers沒有解決的問題OpenAI

“Don‘t

teach.

Incentivize.”

/watch?v=kYWUEV_e2ssIn-context

Reinforcement

Learning

with

Algorithm

Distillation

/abs/2210.14215Stream

of

Search

(SoS):

Learning

to

Search

in

Language

/abs/2404.03683/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem43技術對比討論:MCTS

&

PRM:PRM

的實踐和反思DS-R1

和Kimi

K1.5

都沒有進行明確的MCTS和PRM嘗試PRM

的一些挑戰:決定當下的某一步是否正確是一個很難的task,

自動化標注難以產生很好的結果,但是用人工標注又難以scaling

upModel-Based

PRM

可能會引入reward

hacking,重新訓練會讓訓練變得更加復雜PRM還是更適合于rerank

top-N

responses

and

assist

guided

search,在大規模RL實驗下,提升算力更直接PRM的潛力:PRM總歸是一種比較稠密的監督信號,對reward進行shaping可以使訓練更穩定或 收斂得更快PRM還有探索空間,可以讓模型收斂得更快速或更穩定(Scaling曲線的斜率更大)和自動形式化驗證的結合,提供Rule-Based

之外輔助的Reward

Signal,指導更密集 的獎勵優化,賦能長思維鏈安全的驗證44技術對比討論:Over-Thinking強推理模型存在Overthinking的行為過多的語氣詞,例如Wait

等一些模型經常會不分場合使用一些高端詞匯,典型的如量子糾纏(會用在各個領域)對于一些簡單的數學問題例如2+3=?也會過多思考看似有反思范式,重復Pattern多,可能會導致更好的表現,但是會帶來training

和inference過程中極大的損耗如何合理的分配Test-TimeCompute,進行選擇性思考?Long2Short

Distillation長度優化的Penalty優化采樣策略[1]

Do

NOT

Think

That

Much

for

2+3=?

On

the

Overthinking

ofo1-Like

LLMs

/pdf/2412.2118745技術對比討論:從文本模態到多模態DeepSeekR1Zero和R1在純文本模態上取得的優異表現十分驚艷,這也不經讓人期待:多模態場景加持下Deepseek

R1

深度推理模型將會是怎樣的表現?模態穿透和模態聯動將有望進一步提升強推理能力。人類在日常生活中接收到的信息往往是全模態的,不同的感官渠道能夠互相補充,幫助我們更全面地理解和表達復雜的概念。全模態擴展將成為Deepseek

R1的下一個重大突破。首先,在復雜決策場景中構建起"感知-理解-推演"的閉環認知體系,在多個場景下擴展智能邊界。例如,通過跨模態對齊技術,模型能將CT影像的灰度特征與病理報告的專業術語建立語義關聯,在醫療診斷中同步分析X光片陰影分布與患者主訴癥狀。此外,這種時空關聯推理能力使得自動駕駛系統能同時解析路況視頻中的車輛軌跡、交通信號燈的閃爍頻率以及周圍環境的異常聲響,實現更精確的多維度風險預判。強推理能力在全模態場景下的擴展面臨諸多挑戰。文本模態場景下,許多復雜推理任務可以通過基于規則的獎勵提供監督信號,作為人類意圖和偏好的載體。而當從文本模態擴展到多模態甚至全模態場景下時,許多問題會隨之呈現:隨著模態數量增加,傳統二元偏好或規則獎勵是否能夠捕捉人類意圖的多元偏好或層次化偏好?當多模態擴展到全模態空間,模態交互更加復雜,RL方法需要做哪些改進?不同模態下,模態特有與模態共有的信息如何統一在獎勵信號建模中?46技術對比討論:從文本模態到多模態擴展多模態強推理的可能路徑:基于多模態模型做基座模型擴展到強推理場景,另一種是利用LLaVA的思路,在原來的強推理基座模型上進行額外的模塊擴展;凍結除投影層Projector外所有模型參數,對投影層Projector進行預訓練,使得投 影層Projector能夠將經過視覺編碼器的視覺表征映射到語言表征空間。同時微調投影層Projector和大語言模型,激發語言模型多模態推理能力[1]

Visual

Instruction

Tuning:

/pdf/2304.0848547未來技術方向展望長思維鏈可解釋性模態擴展+模態穿透進一步拓展強推理邊界強推理能力賦能Agentic發展強推理模型的監管和安全保證形式化驗證審計對齊對齊欺騙現象48未來技術方向展望:長思維鏈可解釋性新的挑戰:在復雜環境下模型可能會采取捷徑或偏離原本設計的任務路線隨著模型被提供隱式思考的機會,它們出現欺騙和操縱的可能性逐漸加大模型通過深入思考發現了能夠完成目標的更快方法,盡管這種方法是不被允許或欺騙人類的。模型已經展現出了Reward

Hacking和In-Context

Scheming的能力OpenAI

:OpenAI

o1

通過探索漏洞完成任務。o1-preview模型通過發現評估主機虛擬機上的Docker守護進程API,并利用它重啟了損壞的挑戰容器,讀取了任務目標(flag.txt),從而避開了應當通過漏洞利用的安全挑戰。模型利用錯誤配置的基礎設施,跳過了原本設計的任務步驟,實現了任務目標。Anthropic

:語言模型在面對獎勵設計時,可以通過不正當的方式獲得高獎勵,甚至通過“獎勵篡改”修改自己的獎勵機制,來避開設置的難點。[1]

Sycophancy

toSubterfuge:

Investigating

Reward-Tampering

in

Large

Language

Models49未來技術方向展望:長思維鏈可解釋性Takeaways基于長思維鏈的推理可以在一定程度上提高模型的可解釋性提供顯式的推理路徑,讓人類可以追蹤模型如何從輸入推導出輸出,從而追蹤模型的決策過程,減少黑箱推理。同時,CoT

使監督者更容易檢測模型是否遵循合理邏輯,并有助于AI

對齊過程中對模型行為的透明化處理。然而,CoT

并不能完全解決可解釋性問題,因為模型仍可能利用CoT

進行欺騙性推理,即In-Context

Scheming。CoT

生成的推理步驟是模型輸出的一部分,并不能保證它反映了模型的真實內部計算過程。模型可能學會輸出符合人類期望的思維鏈,但實際推理過程可能與其展示的CoT

不同。當模型具備長期目標意識(InstrumentalReasoning)時,它可能會構造看似合理但實際上誤導性的CoT,以隱藏其真正的意圖。此外,CoT僅是文本輸出的一部分,并不代表模型的實際內部推理過程,因此不能確保其真實透明。為了防止CoT變成偽裝工具,需要結合AI-Driven監督機制、對比推理(ContrastivePrompting)和形式驗證(FormalVerification)等方法。例如,可以讓模型在不同監督環境下執行相同任務,檢測其推理一致性;或者使用自動化對抗性測試,分析模型是否在訓練過程中優化了欺騙策略。[1]

Sycophancy

toSubterfuge:

Investigating

Reward-Tampering

in

Large

Language

Models50未來技術方向展望:模態擴展+模態穿透進一步拓展強推理邊界RLHF與DPO方法本身是模態無感的,通過數據構造能夠直接應用于多模態場景;但是,多模態對齊的難點在于:模態數量增加,傳統二元偏好是否能夠捕捉人類意圖的多元偏好或層次化偏好?當多模態擴展到全模態空間,模態交互更加復雜,RLHF以及DPO是否還奏效?不同模態下,模態特有與模態共有的信息如何統一在偏好建模中?出發點:我們如何在全模態場景中,實現any-to-any

models與人類意圖對齊51針對RLHF/DPO對齊方案存在的效率低、迭代慢、優化難的難題,提出從語言反饋中學習(Learning

from

Language

Feedback),解決任意到任意模態對齊微調。Question:

Whatmedium

is

the

man

using

to

speak?Before

AlignmentAfter

AlignmentWrong

answerIndirect

responseCorrect

answerDirect

responseA

car

horn.The

man

is

speaking

overa

loudspeaker.Question:

Whathappens

before

thewoman

startsspinning

around?Before

AlignmentAfter

AlignmentCorrect

detectionCorrect

motionBefore

the

woman

starts

spinningaround,she

is

seen

standing

in...The

woman

wasinthe

black

swimsuit,

then

to

herleft,

thenWrong

detectionWrong

motionQuestion:

Small

white

toilet

sittingin

a

small

corner

next

to

a

wall.Before

Alignment

After

AlignmentStrange

shapeRedundant

contentCorrect

shapeClean

layout算法:從語言反饋中學習范式,提升任意

到任意模態生成與理解任務的對齊表現模態統一范式:從語言反饋中學習Learning

from

Language

Feedback(LLF)利用信息更豐富的多模態偏好數據實現更準確且細粒度的人類偏好對齊52模態統一范式:從語言反饋中學習Learning

from

Language

Feedback(LLF)通過語言反饋(LLF)合成的偏好對:當前模型的生成結果通常并不完美。利用語言反饋優化提示詞(prompts),可以在某些維度上改善模型的響應,從而合成更多具有學習價值的偏好對。53客觀基礎:多模態大模型已具備強大的跨模態穿透與融合的感知能力,能夠通過結合世界知識與上下文學習能力,實現多種模態(如圖像、文本、音頻、視頻等)的高效推理與協同輸出。激活賦能:基于慢思考強推理能力的持續自我進化,突破了單一模態的局限性,跨模態穿透深度顯著提升。通過深度融合世界知識,模型在文本模態下的智能邊界得以大幅拓展。模態穿透賦能智能邊界拓展強推理能力+多模態訓練=激活模態穿透、拓展智能邊界Base

ModelAlign-DS-V

(8B)ARC

(5-shot)ARC-Challenge

(5-shot)Big

Bench-Hard

(3-shot)32.7%21.4%72.2%34.2%40.5%73.4%GPT-4oMathVistaMathVisionA-OKVQA30.4%62.2%87.9%Align-DS-V

(8B)27.0%63.8%83.7%Align-Anything:

涵蓋多元價值觀的全模態對齊方案數據、框架、算法、模型全開源Align-Anything框架支持任意到任意模態對齊,這在目前開源社區中是獨一無二的。它填補了現有框架僅支持單一模態或少數模態對齊的空白,為全模態大模型的對齊提供了統一和通用的解決方案;數據集:開源涵蓋12種模態的400K對齊數據集算法:開源面向任意模態、涵蓋

SFT、RLHF、DPO等主流對齊微調算法的訓練代碼模型:開源指令跟隨微調后的

Chameleon、LLaMA3.2-Vision

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論