9K条数据训4B模型，逼近DeepSeek-R1？CHIMERA用合成数据破解推理冷启动难题

论文标题：CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

论文地址：https://arxiv.org/abs/2603.00889

数据集：https://huggingface.co/datasets/TianHongZXY/CHIMERA

作者：Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng

日期：2026年3月

🎯 一句话总结

CHIMERA是一个仅包含9,225条样本的紧凑型合成推理数据集，覆盖8大学科、1,179个细粒度主题，通过GPT-5生成题目 + Qwen3-235B合成长链推理轨迹的三阶段流水线构建。用它对Qwen3-4B做SFT+RL后训练，在GPQA-Diamond上达到70.1%、AIME24上86.9%——一个4B小模型，用不到1万条数据，就逼近了DeepSeek-R1（671B）和Qwen3-235B的推理水平。

📖 这篇论文在解决什么问题？

推理能力是大模型当前最热门的赛道。DeepSeek-R1、o3、Qwen3——这些模型之所以能做数学题、写证明、解科学问题，核心秘诀在于后训练：先用高质量推理数据做SFT，再用RL进一步优化。

但想复现这条路线，会撞上三堵墙：

第一堵墙：冷启动。 RL训练需要一个还不错的初始策略作为起点——你不能指望一个完全不懂推理的模型通过瞎蒙来学会推理。这个初始策略通常靠SFT来获得，而SFT需要包含详细长链思维轨迹（long CoT）的种子数据集。问题是，这类数据从哪来？人工标注？一条博士级物理题的详细推理过程可能需要数小时才能写完。蒸馏闭源模型？版权和许可问题一堆。

第二堵墙：领域偏科。 翻开当前开源推理数据集的清单——GSM8K、MATH、NuminaMath、DAPO-Math、DeepMath——清一色是数学。这就像只刷数学卷子的学生去参加全科竞赛，物理化学生物一塌糊涂。GPQA-Diamond这种跨学科的博士级基准，正好暴露了这个短板。

第三堵墙：标注成本。 前沿推理任务（比如Humanity's Last Exam里的题目）难到连领域专家都需要反复讨论才能给出答案。靠人工标注来扩展数据规模？不现实。

CHIMERA的目标就是一把解决这三个问题：用全自动合成流水线生成跨学科、高难度、带长链思维轨迹的推理数据集，而且只需要9K条就够用。

CHIMERA三阶段数据合成流水线

图1：CHIMERA的三阶段构建流水线——从学科扩展到题目生成再到解题轨迹合成，每一步都用不同的模型来完成不同的任务

🧠 核心方法：三阶段流水线

CHIMERA的构建分三步走，每一步有明确的目标和质量把关机制。这条流水线的设计哲学是：让不同的模型干各自最擅长的事。

第一阶段：Subject Expansion（学科扩展）

目标：把"数学"、"物理"这种粗粒度学科，展开成上千个细粒度的考试题目方向。

做法很直接——用GPT-5来生成层次化的主题分类树（taxonomy）。比如"数学"会被展开为代数→抽象代数→群论→置换群、数论→解析数论→素数分布→筛法……层层递进，直到每个叶子节点都具体到可以出一道博士级考题的程度。

最终产出：覆盖8大学科的1,179个细粒度主题。

CHIMERA学科分布

图2：左边是8大学科的样本占比——数学占了48.3%，计算机科学14.1%，化学11.9%，物理8.0%；右边是数学内部的子领域分布

数学占了将近一半，这不意外——推理基准里数学题最多，训练数据自然要匹配。但和纯数学数据集不同，CHIMERA还有计算机科学（14.1%）、化学（11.9%）、物理（8.0%）、文学（5.5%）、历史（4.6%）、生物（4.2%）和语言学（3.4%）。这个分布让模型在非数学领域也能学到推理模式——这一点在GPQA-Diamond上会体现得很明显。

第二阶段：Problem Generation（题目生成）

有了1,179个主题，下一步是出题。

这一步的关键词是双模型交叉验证。流程如下：

用GPT-5针对每个细粒度主题生成问题和参考答案
要求题目满足三个条件：博士级难度、自包含（题目本身包含所有必要信息）、答案可验证（不能是开放式讨论题）
用GPT-5和o4-mini分别独立验证每道题——检查题目是否有歧义、答案是否正确
只有两个验证模型都认可的题目才保留

为什么要两个模型交叉验证？单一模型验证会有盲区——GPT-5可能对自己出的题"心有偏爱"，o4-mini作为一个不同架构的模型可以提供正交的质量信号。这有点像学术论文的同行评审：一个审稿人容易放水，两个就靠谱得多。

第三阶段：Solution Synthesis（解题轨迹合成）

题目有了，但SFT需要的是问题+详细推理过程的配对数据。这一步要解决的就是"怎么生成高质量的长链推理轨迹"。

这里有个精妙的设计决策：出题和解题用不同的模型。

出题：GPT-5（闭源，出题能力强）
解题：Qwen3-235B-A22B-Thinking-2507（开源，推理轨迹质量高）

为什么不直接让GPT-5出题又解题？因为用GPT-5生成的推理轨迹去训练开源模型，存在分布偏移问题——闭源模型的推理风格和开源模型差异很大，学出来的效果不一定好。用同系列的Qwen3-235B来生成推理轨迹，再去训练Qwen3-4B，分布更接近，蒸馏效率更高。

具体做法： 1. 对每道题让Qwen3-235B-A22B-Thinking-2507生成推理轨迹 2. 验证生成的答案是否和第二阶段的参考答案一致 3. 答案正确的轨迹→进入SFT训练集 4. 模型解不出来的题目→不扔掉，留给RL阶段当训练素材

这一步也揭示了CHIMERA的一个重要特性：数据的难度足够高。

数据难度对比

图5：不同数据集在基础模型上的正确率——CHIMERA只有37.5%，远低于DAPO-Math-17K（88.6%）和DeepMath-103K（88.2%）

Qwen3-4B在CHIMERA上的基础正确率只有37.5%——也就是说超过60%的题目对这个4B模型来说是"真难"。对比一下：同一个模型在DAPO-Math-17K上正确率88.6%，DeepMath-103K上88.2%。那些数据集里的大多数题目对模型来说已经"太简单了"，拿来训练的边际收益很低。CHIMERA的难度定位恰好在模型的学习区（learning zone）——不至于完全做不出来，但也确实需要花功夫学。

🏗️ 训练策略：SFT + RL两步走

SFT阶段

把第三阶段中模型能解出来的题目（问题+正确推理轨迹）作为SFT训练数据。

配置： - 基座模型：Qwen3-4B-Thinking-2507 - Batch size：256 - Learning rate：1e-5

RL阶段

SFT之后，用RL继续打磨。这里用了一个叫CISPO的算法，对SFT后模型解不出来的题目进行强化学习训练。

配置： - 算法：CISPO - Batch size：256 - Learning rate：1e-6 - 每个prompt做8次rollout - 奖励模型：o4-mini

RL阶段的逻辑很清晰：SFT教会了模型"怎么推理"，RL让模型在"还不够会"的难题上继续学习。那些模型在第三阶段解不出来的题目，正好是RL的理想训练素材——它们够难，但不是不可能解。

🧪 实验结果

主实验：4B模型打出什么水平？

模型	参数量	GPQA-D	AIME24	AIME25	AIME26	HMMT Feb 25	HMMT Nov 25	HLE
DeepSeek-R1	671B	71.5	79.8	70.0	–	41.7	–	8.5
DeepSeek-R1-0528	671B	81.0	91.4	87.5	–	79.4	–	17.7
Qwen3-235B-A22B	235B	71.1	85.7	81.5	–	62.5	–	11.8
o4-mini (high)	–	81.4	93.4	92.7	–	66.7	–	18.1
gemini-2.5-pro	–	86.4	–	88.0	–	82.5	–	18.4
Qwen3-4B-Thinking-2507 (Base)	4B	65.8	81.6	81.0	80.8	59.2	57.3	7.3
Qwen3-32B	32B	68.4	81.4	72.9	74.3	56.6	50.0	8.9
DeepSeek-R1-Qwen3-8B	8B	61.1	82.2	76.3	78.0	59.2	57.7	6.9
Qwen3-4B + OpenScience (315K)	4B	53.5	61.7	53.3	53.0	40.0	36.9	4.6
Qwen3-4B + CHIMERA (9K)	4B	70.1	86.9	80.7	82.7	65.7	67.0	9.0

几组关键对比值得细看：

CHIMERA vs 基座模型。 Qwen3-4B-Thinking-2507本身就是一个相当强的基座——AIME24已经能到81.6%。但CHIMERA还是把GPQA-D从65.8%拉到70.1%（+4.3），AIME24从81.6%拉到86.9%（+5.3），HMMT Nov 25更是从57.3%猛涨到67.0%（+9.7）。在一个本身就很强的基座上，9K数据还能带来这种幅度的提升，说明数据质量确实打到了点上。

CHIMERA (9K) vs OpenScience (315K)。 这组对比最震撼。OpenScience有31.5万条数据，是CHIMERA的34倍。但用OpenScience训练的模型在所有基准上都大幅落后——GPQA-D 53.5% vs 70.1%，AIME24 61.7% vs 86.9%，甚至比没有训练的基座模型（65.8%、81.6%）还差。315K条数据不仅没帮上忙，还把模型搞退步了。

这是怎么回事？很可能是因为OpenScience的数据难度太低（基座模型正确率80%+），大量简单题目的SFT相当于让模型"做水题"，反而稀释了它原有的难题推理能力。这个对比给出了一个非常明确的信号：数据质量远比数据数量重要，少量高难度、高质量的数据胜过海量平庸数据。

CHIMERA (4B) vs 大模型。 4B模型+CHIMERA在GPQA-D上达到70.1%，距离DeepSeek-R1（671B）的71.5%只差1.4个点——参数量差了168倍，性能差距却可以忽略不计。在AIME24上86.9%更是直接超过了Qwen3-235B的85.7%。和DeepSeek-R1-0528（81.0%）或o4-mini（81.4%）这种最新版本相比还有明显差距，但对于一个4B的开源模型来说，这个成绩已经相当惊艳。

消融实验：SFT和RL各贡献了多少？

基准	Base	SFT	SFT + RL
GPQA-D	65.8	68.8	70.1
AIME24	81.6	86.5	86.9
AIME25	81.0	79.8	80.7
AIME26	80.8	80.3	82.7
HMMT Feb 25	59.2	63.1	65.7
HMMT Nov 25	57.3	66.3	67.0
HLE	7.3	9.0	9.0

SFT是大头。从Base到SFT，GPQA-D涨了3.0个点（65.8→68.8），AIME24涨了4.9个点（81.6→86.5），HMMT Nov 25涨了9.0个点（57.3→66.3）。RL在SFT的基础上又带来了1-2个点的稳定提升，尤其在AIME26上从80.3%拉到82.7%（+2.4），说明RL在更难的题目上发挥更大。

一个有趣的细节：AIME25在SFT之后反而下降了（81.0→79.8），RL才把它拉回80.7。这可能说明SFT的数据分布和AIME25的考点有一定偏差，但RL通过探索性学习弥补了这个缺口。

HLE（Humanity's Last Exam，人类最后的考试）从7.3%到9.0%，RL没有进一步提升。这是因为HLE的题目实在太难了（涵盖数学、物理、生物、哲学等各种冷门领域），9K数据的RL覆盖面不够广。

推理时间缩放（Inference-Time Scaling）

GPQA-Diamond Pass@k

图3：GPQA-Diamond上的Pass@k曲线——CHIMERA训练后的模型在各个k值上都优于基座模型

HLE Pass@k

图4：HLE上的Pass@k曲线——增加采样次数带来稳定的性能提升

推理时间缩放（test-time scaling）是当前推理模型的热门方向——简单说就是让模型多想几次，取最好的答案。

CHIMERA训练后的模型在这方面表现突出： - GPQA-D：Pass@1 = 70.1%，Pass@8 = 90.7%（基座：Pass@1 = 65.8%，Pass@8 = 81.5%） - HLE：Pass@1 = 9.0%，Pass@8 = 24.0%（基座：Pass@1 = 7.3%，Pass@8 = 19.5%）

GPQA-D的Pass@8达到90.7%意味着什么？只要让模型生成8个候选答案再挑最好的，9道题里几乎能对9道。CHIMERA训练不仅提高了"一次答对"的概率，还让模型的采样多样性变好了——不同的采样能探索到更多的正确推理路径。

数据质量验证

数据质量对比

图6：不同数据源的质量评估——GPT-5生成的题目在两个评估模型（o4-mini和gemini-2.5-pro）上都获得了最高质量评分

论文还做了一件事：让o4-mini和gemini-2.5-pro分别评估不同数据源（GPT-5生成、Gemini-3-Pro生成、HLE人工标注）的题目质量。结果GPT-5生成的题目在两个评估器上都拿到最高分。这也解释了为什么CHIMERA选择用GPT-5来出题。

数据污染检测

基准	8-gram重叠	13-gram重叠
GPQA-Diamond	0	0
HLE	7.89×10⁻⁶	0

和测试基准之间几乎零重叠。GPQA-Diamond的8-gram和13-gram重叠都是0，HLE的8-gram重叠是7.89×10⁻⁶（基本可以忽略），13-gram也是0。CHIMERA的性能提升不是因为"见过题目"，而是真的学到了推理能力。

🔬 CHIMERA数据集长什么样？

来看看关键统计数据：

数据集	样本数	学科数	主题数	题目平均长度	解题轨迹平均长度
GSM8K	7,473	1	–	45.1	51.7
MATH	7,500	1	–	33.0	89.5
DAPO-Math-17K	17,398	1	–	42.5	–
DeepMath-103K	103,022	1	–	33.7	2,959.2
OpenScience	315,579	–	–	76.1	1,296.8
CHIMERA	9,225	8	1,179	211.1	11,121.4

几个数字跳出来了：

解题轨迹长度11,121个token。 这比DeepMath-103K的2,959长了将近4倍，比OpenScience的1,297长了8倍多。长轨迹意味着推理过程更详细——模型不是直接给答案，而是一步步写出完整的思考过程，包括试错、回溯、验证。这种"啰嗦"的推理对SFT来说是金矿——模型能从中学到怎么"慢慢想"而不是"拍脑袋答"。

题目长度211个token。 也远超其他数据集（多数在30-80之间）。题目本身就足够复杂和自包含，不是那种一行就能写完的简单数学题。

8个学科、1,179个主题。 这是CHIMERA和纯数学数据集的最大区别。有了跨学科覆盖，模型在GPQA-Diamond这种涵盖物理、化学、生物的综合基准上才能不掉链子。

💡 我的思考

"少而精"的数据策略为什么有效？

CHIMERA最反直觉的地方在于：9K数据就够了。这和深度学习圈"数据越多越好"的直觉完全相反。

背后的逻辑其实不复杂：推理能力的学习不像知识记忆——你不需要见过一万道三角函数题才能学会三角函数，关键是要见过足够难、推理过程足够详细的示例。CHIMERA的每条数据平均11K token的推理轨迹，信息密度极高。打个比方，1条CHIMERA数据可能相当于10条GSM8K数据的"营养价值"。

另外一个角度：OpenScience用315K数据反而让模型退步的现象，说明数据难度不匹配比数据不足更可怕。如果训练数据对模型来说太简单（正确率88%+），SFT实际上是在教模型"遇到简单题时怎么回答"——这不仅没帮助，还可能覆盖掉模型原本在难题上的推理策略。CHIMERA的37.5%基础正确率恰好在甜区：够难，让模型有东西学；但不至于难到完全学不动。

三阶段流水线的可复制性

CHIMERA的三阶段流水线设计得相当模块化：

学科扩展（GPT-5）→ 任何强指令跟随模型都能做
题目生成+双模型验证（GPT-5 + o4-mini）→ 核心质量把关环节
解题轨迹合成（Qwen3-235B）→ 开源模型，可复现

如果想复刻这条路线，最大的门槛是第二阶段的出题质量。GPT-5出的题目在多个评估器上质量最高（图6），换成开源模型出题会不会打折扣？论文没做这个消融。

另外，用o4-mini做RL的奖励模型，这意味着RL阶段还是依赖闭源模型。纯开源复现的话，奖励模型这块需要找替代方案。

和蒸馏方案的对比

DeepSeek-R1-Distill-Llama-70B是一个经典的蒸馏方案：用DeepSeek-R1的输出去训练Llama-70B。但它在表2中的表现——GPQA-D 65.2%、AIME24 70.0%、AIME25 55.3%——和CHIMERA训练的4B模型相比全面落后。70B蒸馏模型打不过4B+CHIMERA，这个结果很有说服力：精心设计的合成数据比简单的大模型蒸馏更有效。

不过要注意一点：CHIMERA用的基座是Qwen3-4B-Thinking-2507，这本身就是一个经过推理优化的模型。如果换成一个纯base模型（比如Qwen3-4B不带Thinking后缀），效果可能会大打折扣。CHIMERA的成功是建立在"强基座+高质量数据"的叠加之上的。

局限性

学科覆盖的不均匀——数学占48.3%，语言学只有3.4%。这种分布偏差会导致模型在文科类推理上的提升有限。HLE从7.3%只涨到9.0%，可能就和HLE中包含大量非数学领域的题目有关。

RL阶段的增量有限——从表3看，RL在SFT基础上的提升多数在1-2个点。这可能是因为只有1个epoch的RL、9K数据中RL可用的（模型解不出的）题目数量有限。如果能扩大RL阶段的数据量，效果可能更好。

评估基准的覆盖面——论文主要测了数学和科学类基准（AIME、HMMT、GPQA-D），代码推理（如SWE-bench）、多模态推理等方向没有覆盖。CHIMERA在非数学推理上的泛化能力还需要更多验证。

工程落地建议

如果你想用CHIMERA的思路来训练自己的推理模型：

基座很重要。选一个已经有推理能力的基座模型（如Qwen3系列的Thinking版本），不要从纯base模型开始
关注数据难度。先用你的基座模型跑一遍候选数据集，如果正确率超过80%，这些数据对SFT来说价值不大
推理轨迹要长。短轨迹（几十个token）教不会模型"慢思考"，瞄准5000+ token级别的详细推理过程
双模型验证不能省。单模型验证出题质量很难把控，至少两个不同模型交叉检查
SFT和RL分开来。正确轨迹给SFT，解不出的难题给RL——这个分工很合理

📝 总结

CHIMERA这篇论文传递了一个清晰的信号：在推理数据这件事上，精心设计的少量数据可以完胜海量平庸数据。9,225条样本，覆盖8个学科、1,179个主题，每条平均11K token的长链推理轨迹——这就是全部。用它训练的4B模型在GPQA-Diamond上70.1%、AIME24上86.9%，和DeepSeek-R1（671B）、Qwen3-235B在同一个档次。

三阶段流水线（学科扩展→题目生成→轨迹合成）是一个可复制的框架，核心思想是"让不同模型干各自擅长的事"。GPT-5擅长出题，就让它出题；Qwen3-235B擅长推理，就让它解题。双模型交叉验证保证了数据质量，高难度定位（基座正确率37.5%）保证了数据的训练价值。

最让人印象深刻的对比是CHIMERA (9K) vs OpenScience (315K)：前者全面碾压后者，后者甚至让模型退步。这个结果给"大力出奇迹"的数据思维泼了一盆冷水——在推理领域，数据的难度、多样性和轨迹质量，远比规模重要。