广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型

论文标题：Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

论文地址：https://arxiv.org/abs/2603.01571

作者：Qiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma

日期：2026年3月

🎯 一句话总结

Mix-GRM提出了一种将广度推理（Breadth-CoT）和深度推理（Depth-CoT）融合的生成式奖励模型训练框架。通过模块化合成流水线构建混合推理数据，再经SFT+RLVR两阶段训练，一个Qwen3-8B模型在5个奖励模型基准上平均达到79.4%，超越所有同尺寸开源奖励模型8.2个百分点。更惊艳的是，RLVR训练后模型自发涌现出极化行为——遇到偏好判断题自动切换广度模式，遇到正确性验证题自动切换深度模式，结构匹配率从73%飙升到95%。

📖 这篇论文在解决什么问题？

奖励模型（Reward Model）是RLHF流程的核心组件——它负责"打分"，告诉策略模型哪个回答更好。传统的判别式奖励模型直接输出一个标量分数，但最近的趋势是生成式奖励模型（Generative Reward Model, GRM）：让模型先"写出判断理由"，再给出最终结论。这就像让一个阅卷老师不仅打分，还要写批改意见——思考过程越充分，打分越准。

GRM的核心是链式思维（CoT）推理，但论文指出了一个被忽视的问题：不同类型的评判任务需要不同的推理风格。

具体来说：

偏好判断（比如"用户更喜欢哪个回答？"）需要广度。你得从多个维度去看——信息量够不够？逻辑通不通？语气好不好？表达清不清楚？每个维度都看一遍，综合起来做判断。这就是论文定义的Breadth-CoT（B-CoT）：多维度原则覆盖，并行聚合。

正确性验证（比如"这道数学题解对了吗？"）需要深度。你得一步步跟着推理走，找出具体哪一步算错了、逻辑在哪里断裂。不需要面面俱到，但每一步都要扎得足够深。这就是Depth-CoT（D-CoT）：实质性判断深挖，推理链引导精炼。

问题是：当前的GRM训练方法没有区分这两种模式。大多数方法要么统一用长CoT（实际上就是变相的长度缩放），要么只优化其中一种风格。论文通过实验验证了这种缺陷——只用B-CoT训练的模型，偏好判断强但正确性验证弱；只用D-CoT训练的模型则反过来。

Mix-GRM的目标：让一个模型同时掌握两种推理风格，并能根据任务类型自动切换。

Mix-GRM完整框架

图1：Mix-GRM的完整框架——从原始推理轨迹出发，经过标准化、机制合成、SFT+RLVR三个阶段，最终得到能自适应切换推理模式的奖励模型

🧠 核心方法：模块化合成 + 两阶段训练

Mix-GRM的技术路线分成两个大块：数据合成和模型训练。数据合成负责构造混合推理数据，模型训练负责把这两种能力灌进一个模型里。

第一步：标准化（Standardization）

不同模型生成的评判推理轨迹格式千差万别——有的写成散文体，有的分条列举，有的夹杂大量废话。要想把它们融合，首先得统一格式。

标准化的目标是把每条原始推理轨迹解析成原子化的三元组：

(原则 principle, 判断 judgment, 结论 verdict)

比如一条关于代码回答的评判可能被拆成： - (代码正确性, "第3行缺少边界检查导致数组越界", 差) - (代码可读性, "变量命名清晰，注释充分", 好) - (任务完成度, "完成了主要功能但缺少错误处理", 中等)

这一步用DeepSeek-v3（0324快照版本）来完成。

第二步：机制合成（Mechanism Synthesis）

有了标准化的三元组，就可以分别构造B-CoT和D-CoT两种推理数据了。

B-CoT合成：多样本合并去重

B-CoT的核心是"多维度覆盖"。做法是：

对同一个评判任务采样多条推理轨迹（论文实验用N=4）
把多条轨迹中的三元组合并
去除重复的原则维度
用一致性选择（Consistency Selection）筛选最终版本——选择与多数样本结论一致的那条作为基础，再用合并后的原则去增强它

为什么要多样本合并？因为单次采样容易遗漏维度。你让一个模型评价一篇作文，它可能第一次只关注了语法和逻辑，第二次才注意到论据的原创性。多次采样+合并，能覆盖更多评判维度。

D-CoT合成：推理链引导精炼

D-CoT的核心是"判断深度"。做法完全不同：

同样生成多条推理轨迹
但不做合并——而是从中选出推理最深入的那条
然后用一种叫"推理轨迹引导精炼"（reasoning trace-guided refinement）的方法进一步增强它——把被选中轨迹中的具体推理步骤作为"锚点"，引导模型生成更深入的分析

两种合成方式的设计逻辑很清晰：B-CoT追求横向扩展（看得广），D-CoT追求纵向深挖（看得深）。

第三步：机制自适应对齐（Mechanism-Adaptive Alignment）

数据有了，怎么训练？

SFT阶段：把B-CoT数据和D-CoT数据混合在一起做监督微调。训练数据一共9K条。

配置： - 基座模型：Qwen3-8B-Base - 训练轮次：2 epochs - 学习率：2e-5 - Batch size：128 - 最大序列长度：12,288

RLVR阶段：SFT之后，用强化学习+可验证奖励（RLVR）继续训练。这里用的算法是GRPO（Group Relative Policy Optimization，组相对策略优化）。

GRPO的核心思想是：不需要额外的critic模型（传统PPO需要），而是在一组候选回答中通过组内相对排序来计算奖励。具体来说，对每个问题采样8条回答，只看最终结论是否正确——对了给奖励，错了不给。中间的推理过程不打分，只看结果。

配置： - 算法：GRPO - 训练步数：100步 - 学习率：1e-6 - Batch size：128 - KL惩罚系数：0.001 - 每个prompt 8次rollout - 温度：0.8 - RLVR数据：21K条

一个关键设计：RLVR阶段不对推理风格做任何显式约束——不强制模型用B-CoT还是D-CoT，只看最终判断的对错。这为后面的"涌现极化"现象埋下了伏笔。

🧪 实验结果

主实验：5个基准上全面领先

模型	类型	RB-v1	RB-v2	RM-Bench	RMB	PPE	平均
Skywork-Reward-8B	判别式	93.9	79.7	72.4	74.4	61.7	76.5
FARE-8B	判别式	86.3	73.4	74.1	83.2	62.5	75.9
Skywork-Reward-Gemma-2-27B	判别式	93.8	68.5	89.3	80.1	58.4	78.0
RM-R1-Distill-8B	GRM	83.5	48.7	76.6	65.1	62.0	67.2
Self-Taught-Eval-8B	GRM	90.2	64.1	75.6	78.7	61.5	74.0
Base-GRM (SFT+RLVR)	GRM	89.0	74.0	78.8	78.5	64.0	76.9
Mix-GRM (SFT+RLVR)	GRM	91.8	77.5	82.7	80.1	64.8	79.4
DeepSeek-V3.2	GRM	95.5	92.1	91.4	83.9	69.0	86.4
Gemini-3-Flash	GRM	95.3	91.1	93.8	79.2	76.4	87.2

几组关键对比：

Mix-GRM vs 同尺寸开源模型。 平均79.4%，比最强的同尺寸判别式模型Skywork-Reward-Gemma-2-27B（78.0%）还高1.4个点——注意这还是一个27B vs 8B的不公平对比。和同样是GRM的RM-R1-Distill-8B（67.2%）相比，领先超过12个点。

Mix-GRM vs Base-GRM。 Base-GRM是只用标准CoT（不做B-CoT/D-CoT区分）训练的基线。Mix-GRM比它高2.5个点（79.4 vs 76.9），特别是在RB-v2上从74.0%跳到77.5%（+3.5），RM-Bench从78.8%到82.7%（+3.9），说明广度-深度混合训练显著增强了评判能力。

和闭源模型的差距。 DeepSeek-V3.2（86.4%）和Gemini-3-Flash（87.2%）还是明显领先。但考虑到Mix-GRM只用了8B参数和30K训练数据，这个差距已经比很多人预期的要小了。

广度和深度各贡献了什么？

训练策略	偏好	正确性	平均
Base-GRM (SFT)	68.2	72.2	70.2
B-CoT only (SFT)	69.3 ↑	70.2 ↓	69.8
D-CoT only (SFT)	65.9 ↓	72.8 ↑	69.4
Mix-GRM (SFT)	70.0	73.5	71.8
Base-GRM (SFT+RLVR)	68.9	76.4	72.7
Mix-GRM (SFT+RLVR)	72.6	78.7	75.7

这张表揭示了一个关键insight：

B-CoT和D-CoT各有所长，但单独使用都有明显短板。只用B-CoT训练，偏好判断从68.2%涨到69.3%（+1.1），但正确性验证从72.2%跌到70.2%（-2.0）——为了多维度覆盖牺牲了判断深度。只用D-CoT训练则相反：正确性小幅上升到72.8%，但偏好从68.2%掉到65.9%（-2.3）。

Mix-GRM在SFT阶段就兼顾了两个方向（偏好70.0，正确性73.5），但真正的飞跃来自RLVR——偏好从70.0%涨到72.6%，正确性从73.5%猛涨到78.7%（+5.2）。RLVR的"只看结论对不对"的奖励设计，迫使模型自己学会了"什么时候该广、什么时候该深"。

Best-of-N：测试时缩放效果

Best-of-N测试时缩放

图2：Best-of-N结果——在MATH、CHAMP、MBPP+、BigCodeBench四个生成任务上，Mix-GRM作为奖励模型选出的答案质量都优于所有基线

Mix-GRM不仅自己判断准，还能帮别的模型"挑答案"。在Best-of-10设置下： - MATH：43.2%（vs RM-R1的37.7%，+5.5） - CHAMP：39.6% - MBPP+：60.2% - BigCodeBench：34.9%

这说明Mix-GRM学到的评判能力有很好的迁移性——它不是只学会了训练集上的打分套路，而是真正理解了"什么样的回答是好的"。

DPO下游任务表现

模型	Alpaca-v2	Arena-Hard	GSM8k	MATH	数学平均
RM-R1	8.3	12.9	76.1	25.1	44.5
Self-Taught-Eval	9.4	15.1	76.1	25.3	44.7
Base-GRM	7.7	14.5	76.7	25.4	44.8
Mix-GRM	9.2	15.0	77.6	27.1	46.4

用Mix-GRM对DPO数据做重排序后训练策略模型，在MATH上拿到27.1%（比Base-GRM高1.7个点），数学平均46.4%（领先所有基线1.6-1.9个点）。

最精彩的发现：涌现极化

涌现极化雷达图

图3：RLVR训练后的涌现极化现象——模型自发地在偏好任务上使用B-CoT风格（更多原则维度），在正确性任务上使用D-CoT风格（更长的判断token数）

这是论文中我认为最有意思的发现。

在SFT阶段结束后，模型的推理风格和任务类型的匹配率是73%——也就是说，有27%的时候模型会"用错推理模式"（比如对数学题用了偏好判断的广度模式）。

但经过仅100步的RLVR训练后，这个匹配率飙升到95%。

请注意：RLVR的奖励信号只看最终结论的对错，完全没有对推理风格做任何显式约束。模型是自发地学会了根据任务类型选择合适的推理模式。

这个现象的内在逻辑不难理解：对于偏好判断任务，用B-CoT（多维度覆盖）得到正确结论的概率更高，所以这种策略会被RL奖励强化；对于正确性验证任务，用D-CoT（深度推理）更容易找到推理链中的错误，同理会被强化。RL的奖励信号自然地引导模型完成了推理模式的分化。

这让我想到一个有趣的类比：人类专家也会这么做。一个资深编辑审阅文章时会从多个维度打分（结构、论证、语言……），但同一个人检查数学证明时会切换到逐步验证模式。Mix-GRM通过RL训练"学会"了这种认知切换。

消融实验：聚合规模和原则选择

消融实验

图4：(a) 聚合规模N的影响——N越大偏好越好但正确性下降；(b) 原则选择策略——一致性选择在两个方向上都最优

聚合规模（图4a）： B-CoT合成中，把N从1增加到4，偏好判断稳步提升（更多采样覆盖更多维度），但正确性验证先升后降。N=4时偏好最佳但正确性已经开始下滑。这再次验证了"广度和深度天然存在trade-off"的核心论点。

原则选择策略（图4b）： 在N=4的条件下，对比了随机选择、长度选择（选最长的）和一致性选择（选与多数结论一致的）。一致性选择在偏好和正确性上都最优（偏好71.8，正确性72.7），完胜其他两种策略。这说明"多数一致"不仅是更可靠的质量信号，还能保持推理的平衡性。

💡 我的思考

"广度vs深度"框架的价值

Mix-GRM最大的贡献不是某个具体的数字，而是提出了广度推理和深度推理的二元框架来理解GRM的推理模式。这个框架很有解释力：

偏好判断 → 多维度并行覆盖 → B-CoT
正确性验证 → 逐步深入推理 → D-CoT

之前大家在做GRM时，思路大多是"让CoT更长"——也就是论文标题中批评的"Length Scaling"。但长不等于好。一段1000 token的推理，如果只是在一个维度上反复绕圈，不如500 token但覆盖了5个维度来得有效。Mix-GRM的贡献是把"推理质量"从"长度"这个单一维度解放出来，分成了广度和深度两个正交方向。

涌现极化的启发意义

涌现极化现象比主实验结果更让我兴奋。它说明：

RL不需要显式的风格标签也能学会风格切换。只要奖励信号足够清晰（对错二值），模型就能自己发现"哪种风格在哪种任务上更有效"
SFT提供了能力基础，RL负责策略优化。SFT阶段让模型"学会了两种推理方式"，RLVR阶段让模型"学会了什么时候用哪种"。这个分工很优雅
100步RL就够了。从73%到95%的匹配率跳升只需要100步训练——这说明风格切换不是一个"难学"的技能，关键是SFT阶段要把两种模式都教会

这对更广义的多任务学习也有启发：与其在训练数据中显式地告诉模型"这个任务用策略A、那个任务用策略B"，不如让模型在RL阶段自己发现最优策略分配。显式标注可能引入人为偏差，而RL驱动的涌现式分化可能更接近最优解。

30K数据的高效性

整个训练只用了30K数据（9K SFT + 21K RLVR），基座是Qwen3-8B-Base——注意不是已经做过instruction tuning的版本，而是纯base模型。这说明GRM能力可以从零开始高效灌入。

和CHIMERA（9K数据训推理模型）一样，Mix-GRM再次证明了高质量小数据>低质量大数据的趋势。DeepSeek-v3作为合成引擎功不可没——它生成的原始推理轨迹质量足够高，模块化合成流水线才有好的原材料可用。

局限性

闭源依赖。合成流水线依赖DeepSeek-v3来生成初始推理轨迹和做标准化。如果换成更弱的开源模型做合成，数据质量会下降多少？论文没做这个消融。

基准覆盖。5个基准主要测的是文本对比和打分能力。在更复杂的场景下（比如多轮对话评判、长文档质量评估），Mix-GRM的广度-深度框架是否仍然适用？需要更多验证。

和闭源差距。Mix-GRM（79.4%）和DeepSeek-V3.2（86.4%）之间还有7个点的差距。这7个点主要来自模型规模还是训练策略？如果在更大的base模型上训练Mix-GRM，能否逼近闭源水平？论文只做了8B的实验，缺少scaling的分析。

RLVR的简单奖励设计。当前只用结论对错作为奖励信号——这在正确性验证任务上没问题（答案确实是对或错），但在偏好判断任务上，"对错"是由参考标签定义的，而偏好本身有主观性。更细粒度的奖励设计（比如对推理过程的质量也打分）可能带来进一步提升。

和其他工作的联系

Mix-GRM和最近的一些工作形成了有趣的呼应：

CHIMERA：都强调了少量高质量数据的重要性。CHIMERA用9K数据训推理模型，Mix-GRM用30K数据训奖励模型，殊途同归。
RM-R1：同样是GRM路线，但RM-R1只用了统一的长CoT，没有区分广度和深度。Mix-GRM的框架可以看作是对RM-R1的范式升级。
GRPO：Mix-GRM用GRPO做RL训练，和DeepSeek-R1的训练方法一脉相承。GRPO的"不需要critic模型"特性大幅降低了RL训练的门槛。

📝 总结

Mix-GRM这篇论文的核心洞察是：生成式奖励模型的推理质量不是简单的"越长越好"，而是要区分广度（多维度覆盖）和深度（逐步深挖）两种推理模式。偏好判断需要广度，正确性验证需要深度——这两种能力可以通过模块化合成流水线分别构造训练数据，再通过SFT+RLVR融合到同一个模型中。

最让人印象深刻的是涌现极化现象：RLVR训练只看最终结论对错，不对推理风格做任何约束，但模型自发学会了根据任务类型切换推理模式——结构匹配率从SFT后的73%跳到RLVR后的95%。这不仅验证了广度-深度框架的合理性，也展示了RL在策略自适应方面的强大能力。

一个8B模型、30K训练数据、平均79.4%的基准得分——Mix-GRM给出了一条高效构建GRM的清晰路线，也为"超越长度缩放"指出了方向：不是让模型想得更长，而是让模型想得更对。