9K条数据训4B模型,逼近DeepSeek-R1?CHIMERA用合成数据破解推理冷启动难题

论文标题:CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

论文地址:https://arxiv.org/abs/2603.00889

数据集:https://huggingface.co/datasets/TianHongZXY/CHIMERA

作者:Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng

日期:2026年3月


🎯 一句话总结

CHIMERA是一个仅包含9,225条样本的紧凑型合成推理数据集,覆盖8大学科、1,179个细粒度主题,通过GPT-5生成题目 + Qwen3-235B合成长链推理轨迹的三阶段流水线构建。用它对Qwen3-4B做SFT+RL后训练,在GPQA-Diamond上达到70.1%、AIME24上86.9%——一个4B小模型,用不到1万条数据,就逼近了DeepSeek-R1(671B)和Qwen3-235B的推理水平。


📖 这篇论文在解决什么问题?

推理能力是大模型当前最热门的赛道。DeepSeek-R1、o3、Qwen3——这些模型之所以能做数学题、写证明、解科学问题,核心秘诀在于后训练:先用高质量推理数据做SFT,再用RL进一步优化。

但想复现这条路线,会撞上三堵墙:

第一堵墙:冷启动。 RL训练需要一个还不错的初始策略作为起点——你不能指望一个完全不懂推理的模型通过瞎蒙来学会推理。这个初始策略通常靠SFT来获得,而SFT需要包含详细长链思维轨迹(long CoT)的种子数据集。问题是,这类数据从哪来?人工标注?一条博士级物理题的详细推理过程可能需要数小时才能写完。蒸馏闭源模型?版权和许可问题一堆。

第二堵墙:领域偏科。 翻开当前开源推理数据集的清单——GSM8K、MATH、NuminaMath、DAPO-Math、DeepMath——清一色是数学。这就像只刷数学卷子的学生去参加全科竞赛,物理化学生物一塌糊涂。GPQA-Diamond这种跨学科的博士级基准,正好暴露了这个短板。

第三堵墙:标注成本。 前沿推理任务(比如Humanity's Last Exam里的题目)难到连领域专家都需要反复讨论才能给出答案。靠人工标注来扩展数据规模?不现实。

CHIMERA的目标就是一把解决这三个问题:用全自动合成流水线生成跨学科、高难度、带长链思维轨迹的推理数据集,而且只需要9K条就够用。

CHIMERA三阶段数据合成流水线

图1:CHIMERA的三阶段构建流水线——从学科扩展到题目生成再到解题轨迹合成,每一步都用不同的模型来完成不同的任务


🧠 核心方法:三阶段流水线

CHIMERA的构建分三步走,每一步有明确的目标和质量把关机制。这条流水线的设计哲学是:让不同的模型干各自最擅长的事

第一阶段:Subject Expansion(学科扩展)

目标:把"数学"、"物理"这种粗粒度学科,展开成上千个细粒度的考试题目方向。

做法很直接——用GPT-5来生成层次化的主题分类树(taxonomy)。比如"数学"会被展开为代数→抽象代数→群论→置换群、数论→解析数论→素数分布→筛法……层层递进,直到每个叶子节点都具体到可以出一道博士级考题的程度。

最终产出:覆盖8大学科的1,179个细粒度主题。

CHIMERA学科分布

图2:左边是8大学科的样本占比——数学占了48.3%,计算机科学14.1%,化学11.9%,物理8.0%;右边是数学内部的子领域分布

数学占了将近一半,这不意外——推理基准里数学题最多,训练数据自然要匹配。但和纯数学数据集不同,CHIMERA还有计算机科学(14.1%)、化学(11.9%)、物理(8.0%)、文学(5.5%)、历史(4.6%)、生物(4.2%)和语言学(3.4%)。这个分布让模型在非数学领域也能学到推理模式——这一点在GPQA-Diamond上会体现得很明显。

第二阶段:Problem Generation(题目生成)

有了1,179个主题,下一步是出题。

这一步的关键词是双模型交叉验证。流程如下:

  1. 用GPT-5针对每个细粒度主题生成问题和参考答案
  2. 要求题目满足三个条件:博士级难度、自包含(题目本身包含所有必要信息)、答案可验证(不能是开放式讨论题)
  3. 用GPT-5和o4-mini分别独立验证每道题——检查题目是否有歧义、答案是否正确
  4. 只有两个验证模型都认可的题目才保留

为什么要两个模型交叉验证?单一模型验证会有盲区——GPT-5可能对自己出的题"心有偏爱",o4-mini作为一个不同架构的模型可以提供正交的质量信号。这有点像学术论文的同行评审:一个审稿人容易放水,两个就靠谱得多。

第三阶段:Solution Synthesis(解题轨迹合成)

题目有了,但SFT需要的是问题+详细推理过程的配对数据。这一步要解决的就是"怎么生成高质量的长链推理轨迹"。

这里有个精妙的设计决策:出题和解题用不同的模型

  • 出题:GPT-5(闭源,出题能力强)
  • 解题:Qwen3-235B-A22B-Thinking-2507(开源,推理轨迹质量高)

为什么不直接让GPT-5出题又解题?因为用GPT-5生成的推理轨迹去训练开源模型,存在分布偏移问题——闭源模型的推理风格和开源模型差异很大,学出来的效果不一定好。用同系列的Qwen3-235B来生成推理轨迹,再去训练Qwen3-4B,分布更接近,蒸馏效率更高。

具体做法: 1. 对每道题让Qwen3-235B-A22B-Thinking-2507生成推理轨迹 2. 验证生成的答案是否和第二阶段的参考答案一致 3. 答案正确的轨迹→进入SFT训练集 4. 模型解不出来的题目→不扔掉,留给RL阶段当训练素材

这一步也揭示了CHIMERA的一个重要特性:数据的难度足够高

数据难度对比

图5:不同数据集在基础模型上的正确率——CHIMERA只有37.5%,远低于DAPO-Math-17K(88.6%)和DeepMath-103K(88.2%)

Qwen3-4B在CHIMERA上的基础正确率只有37.5%——也就是说超过60%的题目对这个4B模型来说是"真难"。对比一下:同一个模型在DAPO-Math-17K上正确率88.6%,DeepMath-103K上88.2%。那些数据集里的大多数题目对模型来说已经"太简单了",拿来训练的边际收益很低。CHIMERA的难度定位恰好在模型的学习区(learning zone)——不至于完全做不出来,但也确实需要花功夫学。


🏗️ 训练策略:SFT + RL两步走

SFT阶段

把第三阶段中模型能解出来的题目(问题+正确推理轨迹)作为SFT训练数据。

配置: - 基座模型:Qwen3-4B-Thinking-2507 - Batch size:256 - Learning rate:1e-5

RL阶段

SFT之后,用RL继续打磨。这里用了一个叫CISPO的算法,对SFT后模型解不出来的题目进行强化学习训练。

配置: - 算法:CISPO - Batch size:256 - Learning rate:1e-6 - 每个prompt做8次rollout - 奖励模型:o4-mini

RL阶段的逻辑很清晰:SFT教会了模型"怎么推理",RL让模型在"还不够会"的难题上继续学习。那些模型在第三阶段解不出来的题目,正好是RL的理想训练素材——它们够难,但不是不可能解。


🧪 实验结果

主实验:4B模型打出什么水平?

模型 参数量 GPQA-D AIME24 AIME25 AIME26 HMMT Feb 25 HMMT Nov 25 HLE
DeepSeek-R1 671B 71.5 79.8 70.0 41.7 8.5
DeepSeek-R1-0528 671B 81.0 91.4 87.5 79.4 17.7
Qwen3-235B-A22B 235B 71.1 85.7 81.5 62.5 11.8
o4-mini (high) 81.4 93.4 92.7 66.7 18.1
gemini-2.5-pro 86.4 88.0 82.5 18.4
Qwen3-4B-Thinking-2507 (Base) 4B 65.8 81.6 81.0 80.8 59.2 57.3 7.3
Qwen3-32B 32B 68.4 81.4 72.9 74.3 56.6 50.0 8.9
DeepSeek-R1-Qwen3-8B 8B 61.1 82.2 76.3 78.0 59.2 57.7 6.9
Qwen3-4B + OpenScience (315K) 4B 53.5 61.7 53.3 53.0 40.0 36.9 4.6
Qwen3-4B + CHIMERA (9K) 4B 70.1 86.9 80.7 82.7 65.7 67.0 9.0

几组关键对比值得细看:

CHIMERA vs 基座模型。 Qwen3-4B-Thinking-2507本身就是一个相当强的基座——AIME24已经能到81.6%。但CHIMERA还是把GPQA-D从65.8%拉到70.1%(+4.3),AIME24从81.6%拉到86.9%(+5.3),HMMT Nov 25更是从57.3%猛涨到67.0%(+9.7)。在一个本身就很强的基座上,9K数据还能带来这种幅度的提升,说明数据质量确实打到了点上。

CHIMERA (9K) vs OpenScience (315K)。 这组对比最震撼。OpenScience有31.5万条数据,是CHIMERA的34倍。但用OpenScience训练的模型在所有基准上都大幅落后——GPQA-D 53.5% vs 70.1%,AIME24 61.7% vs 86.9%,甚至比没有训练的基座模型(65.8%、81.6%)还差。315K条数据不仅没帮上忙,还把模型搞退步了。

这是怎么回事?很可能是因为OpenScience的数据难度太低(基座模型正确率80%+),大量简单题目的SFT相当于让模型"做水题",反而稀释了它原有的难题推理能力。这个对比给出了一个非常明确的信号:数据质量远比数据数量重要,少量高难度、高质量的数据胜过海量平庸数据。

CHIMERA (4B) vs 大模型。 4B模型+CHIMERA在GPQA-D上达到70.1%,距离DeepSeek-R1(671B)的71.5%只差1.4个点——参数量差了168倍,性能差距却可以忽略不计。在AIME24上86.9%更是直接超过了Qwen3-235B的85.7%。和DeepSeek-R1-0528(81.0%)或o4-mini(81.4%)这种最新版本相比还有明显差距,但对于一个4B的开源模型来说,这个成绩已经相当惊艳。

消融实验:SFT和RL各贡献了多少?

基准 Base SFT SFT + RL
GPQA-D 65.8 68.8 70.1
AIME24 81.6 86.5 86.9
AIME25 81.0 79.8 80.7
AIME26 80.8 80.3 82.7
HMMT Feb 25 59.2 63.1 65.7
HMMT Nov 25 57.3 66.3 67.0
HLE 7.3 9.0 9.0

SFT是大头。从Base到SFT,GPQA-D涨了3.0个点(65.8→68.8),AIME24涨了4.9个点(81.6→86.5),HMMT Nov 25涨了9.0个点(57.3→66.3)。RL在SFT的基础上又带来了1-2个点的稳定提升,尤其在AIME26上从80.3%拉到82.7%(+2.4),说明RL在更难的题目上发挥更大。

一个有趣的细节:AIME25在SFT之后反而下降了(81.0→79.8),RL才把它拉回80.7。这可能说明SFT的数据分布和AIME25的考点有一定偏差,但RL通过探索性学习弥补了这个缺口。

HLE(Humanity's Last Exam,人类最后的考试)从7.3%到9.0%,RL没有进一步提升。这是因为HLE的题目实在太难了(涵盖数学、物理、生物、哲学等各种冷门领域),9K数据的RL覆盖面不够广。

推理时间缩放(Inference-Time Scaling)

GPQA-Diamond Pass@k

图3:GPQA-Diamond上的Pass@k曲线——CHIMERA训练后的模型在各个k值上都优于基座模型

HLE Pass@k

图4:HLE上的Pass@k曲线——增加采样次数带来稳定的性能提升

推理时间缩放(test-time scaling)是当前推理模型的热门方向——简单说就是让模型多想几次,取最好的答案。

CHIMERA训练后的模型在这方面表现突出: - GPQA-D:Pass@1 = 70.1%,Pass@8 = 90.7%(基座:Pass@1 = 65.8%,Pass@8 = 81.5%) - HLE:Pass@1 = 9.0%,Pass@8 = 24.0%(基座:Pass@1 = 7.3%,Pass@8 = 19.5%)

GPQA-D的Pass@8达到90.7%意味着什么?只要让模型生成8个候选答案再挑最好的,9道题里几乎能对9道。CHIMERA训练不仅提高了"一次答对"的概率,还让模型的采样多样性变好了——不同的采样能探索到更多的正确推理路径。

数据质量验证

数据质量对比

图6:不同数据源的质量评估——GPT-5生成的题目在两个评估模型(o4-mini和gemini-2.5-pro)上都获得了最高质量评分

论文还做了一件事:让o4-mini和gemini-2.5-pro分别评估不同数据源(GPT-5生成、Gemini-3-Pro生成、HLE人工标注)的题目质量。结果GPT-5生成的题目在两个评估器上都拿到最高分。这也解释了为什么CHIMERA选择用GPT-5来出题。

数据污染检测

基准 8-gram重叠 13-gram重叠
GPQA-Diamond 0 0
HLE 7.89×10⁻⁶ 0

和测试基准之间几乎零重叠。GPQA-Diamond的8-gram和13-gram重叠都是0,HLE的8-gram重叠是7.89×10⁻⁶(基本可以忽略),13-gram也是0。CHIMERA的性能提升不是因为"见过题目",而是真的学到了推理能力。


🔬 CHIMERA数据集长什么样?

来看看关键统计数据:

数据集 样本数 学科数 主题数 题目平均长度 解题轨迹平均长度
GSM8K 7,473 1 45.1 51.7
MATH 7,500 1 33.0 89.5
DAPO-Math-17K 17,398 1 42.5
DeepMath-103K 103,022 1 33.7 2,959.2
OpenScience 315,579 76.1 1,296.8
CHIMERA 9,225 8 1,179 211.1 11,121.4

几个数字跳出来了:

解题轨迹长度11,121个token。 这比DeepMath-103K的2,959长了将近4倍,比OpenScience的1,297长了8倍多。长轨迹意味着推理过程更详细——模型不是直接给答案,而是一步步写出完整的思考过程,包括试错、回溯、验证。这种"啰嗦"的推理对SFT来说是金矿——模型能从中学到怎么"慢慢想"而不是"拍脑袋答"。

题目长度211个token。 也远超其他数据集(多数在30-80之间)。题目本身就足够复杂和自包含,不是那种一行就能写完的简单数学题。

8个学科、1,179个主题。 这是CHIMERA和纯数学数据集的最大区别。有了跨学科覆盖,模型在GPQA-Diamond这种涵盖物理、化学、生物的综合基准上才能不掉链子。


💡 我的思考

"少而精"的数据策略为什么有效?

CHIMERA最反直觉的地方在于:9K数据就够了。这和深度学习圈"数据越多越好"的直觉完全相反。

背后的逻辑其实不复杂:推理能力的学习不像知识记忆——你不需要见过一万道三角函数题才能学会三角函数,关键是要见过足够难、推理过程足够详细的示例。CHIMERA的每条数据平均11K token的推理轨迹,信息密度极高。打个比方,1条CHIMERA数据可能相当于10条GSM8K数据的"营养价值"。

另外一个角度:OpenScience用315K数据反而让模型退步的现象,说明数据难度不匹配比数据不足更可怕。如果训练数据对模型来说太简单(正确率88%+),SFT实际上是在教模型"遇到简单题时怎么回答"——这不仅没帮助,还可能覆盖掉模型原本在难题上的推理策略。CHIMERA的37.5%基础正确率恰好在甜区:够难,让模型有东西学;但不至于难到完全学不动。

三阶段流水线的可复制性

CHIMERA的三阶段流水线设计得相当模块化:

  1. 学科扩展(GPT-5)→ 任何强指令跟随模型都能做
  2. 题目生成+双模型验证(GPT-5 + o4-mini)→ 核心质量把关环节
  3. 解题轨迹合成(Qwen3-235B)→ 开源模型,可复现

如果想复刻这条路线,最大的门槛是第二阶段的出题质量。GPT-5出的题目在多个评估器上质量最高(图6),换成开源模型出题会不会打折扣?论文没做这个消融。

另外,用o4-mini做RL的奖励模型,这意味着RL阶段还是依赖闭源模型。纯开源复现的话,奖励模型这块需要找替代方案。

和蒸馏方案的对比

DeepSeek-R1-Distill-Llama-70B是一个经典的蒸馏方案:用DeepSeek-R1的输出去训练Llama-70B。但它在表2中的表现——GPQA-D 65.2%、AIME24 70.0%、AIME25 55.3%——和CHIMERA训练的4B模型相比全面落后。70B蒸馏模型打不过4B+CHIMERA,这个结果很有说服力:精心设计的合成数据比简单的大模型蒸馏更有效

不过要注意一点:CHIMERA用的基座是Qwen3-4B-Thinking-2507,这本身就是一个经过推理优化的模型。如果换成一个纯base模型(比如Qwen3-4B不带Thinking后缀),效果可能会大打折扣。CHIMERA的成功是建立在"强基座+高质量数据"的叠加之上的。

局限性

学科覆盖的不均匀——数学占48.3%,语言学只有3.4%。这种分布偏差会导致模型在文科类推理上的提升有限。HLE从7.3%只涨到9.0%,可能就和HLE中包含大量非数学领域的题目有关。

RL阶段的增量有限——从表3看,RL在SFT基础上的提升多数在1-2个点。这可能是因为只有1个epoch的RL、9K数据中RL可用的(模型解不出的)题目数量有限。如果能扩大RL阶段的数据量,效果可能更好。

评估基准的覆盖面——论文主要测了数学和科学类基准(AIME、HMMT、GPQA-D),代码推理(如SWE-bench)、多模态推理等方向没有覆盖。CHIMERA在非数学推理上的泛化能力还需要更多验证。

工程落地建议

如果你想用CHIMERA的思路来训练自己的推理模型:

  1. 基座很重要。选一个已经有推理能力的基座模型(如Qwen3系列的Thinking版本),不要从纯base模型开始
  2. 关注数据难度。先用你的基座模型跑一遍候选数据集,如果正确率超过80%,这些数据对SFT来说价值不大
  3. 推理轨迹要长。短轨迹(几十个token)教不会模型"慢思考",瞄准5000+ token级别的详细推理过程
  4. 双模型验证不能省。单模型验证出题质量很难把控,至少两个不同模型交叉检查
  5. SFT和RL分开来。正确轨迹给SFT,解不出的难题给RL——这个分工很合理

📝 总结

CHIMERA这篇论文传递了一个清晰的信号:在推理数据这件事上,精心设计的少量数据可以完胜海量平庸数据。9,225条样本,覆盖8个学科、1,179个主题,每条平均11K token的长链推理轨迹——这就是全部。用它训练的4B模型在GPQA-Diamond上70.1%、AIME24上86.9%,和DeepSeek-R1(671B)、Qwen3-235B在同一个档次。

三阶段流水线(学科扩展→题目生成→轨迹合成)是一个可复制的框架,核心思想是"让不同模型干各自擅长的事"。GPT-5擅长出题,就让它出题;Qwen3-235B擅长推理,就让它解题。双模型交叉验证保证了数据质量,高难度定位(基座正确率37.5%)保证了数据的训练价值。

最让人印象深刻的对比是CHIMERA (9K) vs OpenScience (315K):前者全面碾压后者,后者甚至让模型退步。这个结果给"大力出奇迹"的数据思维泼了一盆冷水——在推理领域,数据的难度、多样性和轨迹质量,远比规模重要。