广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型

论文标题:Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

论文地址:https://arxiv.org/abs/2603.01571

作者:Qiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma

日期:2026年3月


🎯 一句话总结

Mix-GRM提出了一种将广度推理(Breadth-CoT)和深度推理(Depth-CoT)融合的生成式奖励模型训练框架。通过模块化合成流水线构建混合推理数据,再经SFT+RLVR两阶段训练,一个Qwen3-8B模型在5个奖励模型基准上平均达到79.4%,超越所有同尺寸开源奖励模型8.2个百分点。更惊艳的是,RLVR训练后模型自发涌现出极化行为——遇到偏好判断题自动切换广度模式,遇到正确性验证题自动切换深度模式,结构匹配率从73%飙升到95%。


📖 这篇论文在解决什么问题?

奖励模型(Reward Model)是RLHF流程的核心组件——它负责"打分",告诉策略模型哪个回答更好。传统的判别式奖励模型直接输出一个标量分数,但最近的趋势是生成式奖励模型(Generative Reward Model, GRM):让模型先"写出判断理由",再给出最终结论。这就像让一个阅卷老师不仅打分,还要写批改意见——思考过程越充分,打分越准。

GRM的核心是链式思维(CoT)推理,但论文指出了一个被忽视的问题:不同类型的评判任务需要不同的推理风格

具体来说:

偏好判断(比如"用户更喜欢哪个回答?")需要广度。你得从多个维度去看——信息量够不够?逻辑通不通?语气好不好?表达清不清楚?每个维度都看一遍,综合起来做判断。这就是论文定义的Breadth-CoT(B-CoT):多维度原则覆盖,并行聚合。

正确性验证(比如"这道数学题解对了吗?")需要深度。你得一步步跟着推理走,找出具体哪一步算错了、逻辑在哪里断裂。不需要面面俱到,但每一步都要扎得足够深。这就是Depth-CoT(D-CoT):实质性判断深挖,推理链引导精炼。

问题是:当前的GRM训练方法没有区分这两种模式。大多数方法要么统一用长CoT(实际上就是变相的长度缩放),要么只优化其中一种风格。论文通过实验验证了这种缺陷——只用B-CoT训练的模型,偏好判断强但正确性验证弱;只用D-CoT训练的模型则反过来。

Mix-GRM的目标:让一个模型同时掌握两种推理风格,并能根据任务类型自动切换

Mix-GRM完整框架

图1:Mix-GRM的完整框架——从原始推理轨迹出发,经过标准化、机制合成、SFT+RLVR三个阶段,最终得到能自适应切换推理模式的奖励模型


🧠 核心方法:模块化合成 + 两阶段训练

Mix-GRM的技术路线分成两个大块:数据合成模型训练。数据合成负责构造混合推理数据,模型训练负责把这两种能力灌进一个模型里。

第一步:标准化(Standardization)

不同模型生成的评判推理轨迹格式千差万别——有的写成散文体,有的分条列举,有的夹杂大量废话。要想把它们融合,首先得统一格式。

标准化的目标是把每条原始推理轨迹解析成原子化的三元组

(原则 principle, 判断 judgment, 结论 verdict)

比如一条关于代码回答的评判可能被拆成: - (代码正确性, "第3行缺少边界检查导致数组越界", 差) - (代码可读性, "变量命名清晰,注释充分", 好) - (任务完成度, "完成了主要功能但缺少错误处理", 中等)

这一步用DeepSeek-v3(0324快照版本)来完成。

第二步:机制合成(Mechanism Synthesis)

有了标准化的三元组,就可以分别构造B-CoT和D-CoT两种推理数据了。

B-CoT合成:多样本合并去重

B-CoT的核心是"多维度覆盖"。做法是:

  1. 对同一个评判任务采样多条推理轨迹(论文实验用N=4)
  2. 把多条轨迹中的三元组合并
  3. 去除重复的原则维度
  4. 一致性选择(Consistency Selection)筛选最终版本——选择与多数样本结论一致的那条作为基础,再用合并后的原则去增强它

为什么要多样本合并?因为单次采样容易遗漏维度。你让一个模型评价一篇作文,它可能第一次只关注了语法和逻辑,第二次才注意到论据的原创性。多次采样+合并,能覆盖更多评判维度。

D-CoT合成:推理链引导精炼

D-CoT的核心是"判断深度"。做法完全不同:

  1. 同样生成多条推理轨迹
  2. 但不做合并——而是从中选出推理最深入的那条
  3. 然后用一种叫"推理轨迹引导精炼"(reasoning trace-guided refinement)的方法进一步增强它——把被选中轨迹中的具体推理步骤作为"锚点",引导模型生成更深入的分析

两种合成方式的设计逻辑很清晰:B-CoT追求横向扩展(看得广),D-CoT追求纵向深挖(看得深)。

第三步:机制自适应对齐(Mechanism-Adaptive Alignment)

数据有了,怎么训练?

SFT阶段:把B-CoT数据和D-CoT数据混合在一起做监督微调。训练数据一共9K条。

配置: - 基座模型:Qwen3-8B-Base - 训练轮次:2 epochs - 学习率:2e-5 - Batch size:128 - 最大序列长度:12,288

RLVR阶段:SFT之后,用强化学习+可验证奖励(RLVR)继续训练。这里用的算法是GRPO(Group Relative Policy Optimization,组相对策略优化)。

GRPO的核心思想是:不需要额外的critic模型(传统PPO需要),而是在一组候选回答中通过组内相对排序来计算奖励。具体来说,对每个问题采样8条回答,只看最终结论是否正确——对了给奖励,错了不给。中间的推理过程不打分,只看结果。

配置: - 算法:GRPO - 训练步数:100步 - 学习率:1e-6 - Batch size:128 - KL惩罚系数:0.001 - 每个prompt 8次rollout - 温度:0.8 - RLVR数据:21K条

一个关键设计:RLVR阶段不对推理风格做任何显式约束——不强制模型用B-CoT还是D-CoT,只看最终判断的对错。这为后面的"涌现极化"现象埋下了伏笔。


🧪 实验结果

主实验:5个基准上全面领先

模型 类型 RB-v1 RB-v2 RM-Bench RMB PPE 平均
Skywork-Reward-8B 判别式 93.9 79.7 72.4 74.4 61.7 76.5
FARE-8B 判别式 86.3 73.4 74.1 83.2 62.5 75.9
Skywork-Reward-Gemma-2-27B 判别式 93.8 68.5 89.3 80.1 58.4 78.0
RM-R1-Distill-8B GRM 83.5 48.7 76.6 65.1 62.0 67.2
Self-Taught-Eval-8B GRM 90.2 64.1 75.6 78.7 61.5 74.0
Base-GRM (SFT+RLVR) GRM 89.0 74.0 78.8 78.5 64.0 76.9
Mix-GRM (SFT+RLVR) GRM 91.8 77.5 82.7 80.1 64.8 79.4
DeepSeek-V3.2 GRM 95.5 92.1 91.4 83.9 69.0 86.4
Gemini-3-Flash GRM 95.3 91.1 93.8 79.2 76.4 87.2

几组关键对比:

Mix-GRM vs 同尺寸开源模型。 平均79.4%,比最强的同尺寸判别式模型Skywork-Reward-Gemma-2-27B(78.0%)还高1.4个点——注意这还是一个27B vs 8B的不公平对比。和同样是GRM的RM-R1-Distill-8B(67.2%)相比,领先超过12个点。

Mix-GRM vs Base-GRM。 Base-GRM是只用标准CoT(不做B-CoT/D-CoT区分)训练的基线。Mix-GRM比它高2.5个点(79.4 vs 76.9),特别是在RB-v2上从74.0%跳到77.5%(+3.5),RM-Bench从78.8%到82.7%(+3.9),说明广度-深度混合训练显著增强了评判能力。

和闭源模型的差距。 DeepSeek-V3.2(86.4%)和Gemini-3-Flash(87.2%)还是明显领先。但考虑到Mix-GRM只用了8B参数和30K训练数据,这个差距已经比很多人预期的要小了。

广度和深度各贡献了什么?

训练策略 偏好 正确性 平均
Base-GRM (SFT) 68.2 72.2 70.2
B-CoT only (SFT) 69.3 ↑ 70.2 ↓ 69.8
D-CoT only (SFT) 65.9 ↓ 72.8 ↑ 69.4
Mix-GRM (SFT) 70.0 73.5 71.8
Base-GRM (SFT+RLVR) 68.9 76.4 72.7
Mix-GRM (SFT+RLVR) 72.6 78.7 75.7

这张表揭示了一个关键insight:

B-CoT和D-CoT各有所长,但单独使用都有明显短板。只用B-CoT训练,偏好判断从68.2%涨到69.3%(+1.1),但正确性验证从72.2%跌到70.2%(-2.0)——为了多维度覆盖牺牲了判断深度。只用D-CoT训练则相反:正确性小幅上升到72.8%,但偏好从68.2%掉到65.9%(-2.3)。

Mix-GRM在SFT阶段就兼顾了两个方向(偏好70.0,正确性73.5),但真正的飞跃来自RLVR——偏好从70.0%涨到72.6%,正确性从73.5%猛涨到78.7%(+5.2)。RLVR的"只看结论对不对"的奖励设计,迫使模型自己学会了"什么时候该广、什么时候该深"。

Best-of-N:测试时缩放效果

Best-of-N测试时缩放

图2:Best-of-N结果——在MATH、CHAMP、MBPP+、BigCodeBench四个生成任务上,Mix-GRM作为奖励模型选出的答案质量都优于所有基线

Mix-GRM不仅自己判断准,还能帮别的模型"挑答案"。在Best-of-10设置下: - MATH:43.2%(vs RM-R1的37.7%,+5.5) - CHAMP:39.6% - MBPP+:60.2% - BigCodeBench:34.9%

这说明Mix-GRM学到的评判能力有很好的迁移性——它不是只学会了训练集上的打分套路,而是真正理解了"什么样的回答是好的"。

DPO下游任务表现

模型 Alpaca-v2 Arena-Hard GSM8k MATH 数学平均
RM-R1 8.3 12.9 76.1 25.1 44.5
Self-Taught-Eval 9.4 15.1 76.1 25.3 44.7
Base-GRM 7.7 14.5 76.7 25.4 44.8
Mix-GRM 9.2 15.0 77.6 27.1 46.4

用Mix-GRM对DPO数据做重排序后训练策略模型,在MATH上拿到27.1%(比Base-GRM高1.7个点),数学平均46.4%(领先所有基线1.6-1.9个点)。

最精彩的发现:涌现极化

涌现极化雷达图

图3:RLVR训练后的涌现极化现象——模型自发地在偏好任务上使用B-CoT风格(更多原则维度),在正确性任务上使用D-CoT风格(更长的判断token数)

这是论文中我认为最有意思的发现。

在SFT阶段结束后,模型的推理风格和任务类型的匹配率是73%——也就是说,有27%的时候模型会"用错推理模式"(比如对数学题用了偏好判断的广度模式)。

但经过仅100步的RLVR训练后,这个匹配率飙升到95%

请注意:RLVR的奖励信号只看最终结论的对错,完全没有对推理风格做任何显式约束。模型是自发地学会了根据任务类型选择合适的推理模式。

这个现象的内在逻辑不难理解:对于偏好判断任务,用B-CoT(多维度覆盖)得到正确结论的概率更高,所以这种策略会被RL奖励强化;对于正确性验证任务,用D-CoT(深度推理)更容易找到推理链中的错误,同理会被强化。RL的奖励信号自然地引导模型完成了推理模式的分化

这让我想到一个有趣的类比:人类专家也会这么做。一个资深编辑审阅文章时会从多个维度打分(结构、论证、语言……),但同一个人检查数学证明时会切换到逐步验证模式。Mix-GRM通过RL训练"学会"了这种认知切换

消融实验:聚合规模和原则选择

消融实验

图4:(a) 聚合规模N的影响——N越大偏好越好但正确性下降;(b) 原则选择策略——一致性选择在两个方向上都最优

聚合规模(图4a): B-CoT合成中,把N从1增加到4,偏好判断稳步提升(更多采样覆盖更多维度),但正确性验证先升后降。N=4时偏好最佳但正确性已经开始下滑。这再次验证了"广度和深度天然存在trade-off"的核心论点。

原则选择策略(图4b): 在N=4的条件下,对比了随机选择、长度选择(选最长的)和一致性选择(选与多数结论一致的)。一致性选择在偏好和正确性上都最优(偏好71.8,正确性72.7),完胜其他两种策略。这说明"多数一致"不仅是更可靠的质量信号,还能保持推理的平衡性。


💡 我的思考

"广度vs深度"框架的价值

Mix-GRM最大的贡献不是某个具体的数字,而是提出了广度推理和深度推理的二元框架来理解GRM的推理模式。这个框架很有解释力:

  • 偏好判断 → 多维度并行覆盖 → B-CoT
  • 正确性验证 → 逐步深入推理 → D-CoT

之前大家在做GRM时,思路大多是"让CoT更长"——也就是论文标题中批评的"Length Scaling"。但长不等于好。一段1000 token的推理,如果只是在一个维度上反复绕圈,不如500 token但覆盖了5个维度来得有效。Mix-GRM的贡献是把"推理质量"从"长度"这个单一维度解放出来,分成了广度和深度两个正交方向。

涌现极化的启发意义

涌现极化现象比主实验结果更让我兴奋。它说明:

  1. RL不需要显式的风格标签也能学会风格切换。只要奖励信号足够清晰(对错二值),模型就能自己发现"哪种风格在哪种任务上更有效"
  2. SFT提供了能力基础,RL负责策略优化。SFT阶段让模型"学会了两种推理方式",RLVR阶段让模型"学会了什么时候用哪种"。这个分工很优雅
  3. 100步RL就够了。从73%到95%的匹配率跳升只需要100步训练——这说明风格切换不是一个"难学"的技能,关键是SFT阶段要把两种模式都教会

这对更广义的多任务学习也有启发:与其在训练数据中显式地告诉模型"这个任务用策略A、那个任务用策略B",不如让模型在RL阶段自己发现最优策略分配。显式标注可能引入人为偏差,而RL驱动的涌现式分化可能更接近最优解。

30K数据的高效性

整个训练只用了30K数据(9K SFT + 21K RLVR),基座是Qwen3-8B-Base——注意不是已经做过instruction tuning的版本,而是纯base模型。这说明GRM能力可以从零开始高效灌入。

和CHIMERA(9K数据训推理模型)一样,Mix-GRM再次证明了高质量小数据>低质量大数据的趋势。DeepSeek-v3作为合成引擎功不可没——它生成的原始推理轨迹质量足够高,模块化合成流水线才有好的原材料可用。

局限性

闭源依赖。合成流水线依赖DeepSeek-v3来生成初始推理轨迹和做标准化。如果换成更弱的开源模型做合成,数据质量会下降多少?论文没做这个消融。

基准覆盖。5个基准主要测的是文本对比和打分能力。在更复杂的场景下(比如多轮对话评判、长文档质量评估),Mix-GRM的广度-深度框架是否仍然适用?需要更多验证。

和闭源差距。Mix-GRM(79.4%)和DeepSeek-V3.2(86.4%)之间还有7个点的差距。这7个点主要来自模型规模还是训练策略?如果在更大的base模型上训练Mix-GRM,能否逼近闭源水平?论文只做了8B的实验,缺少scaling的分析。

RLVR的简单奖励设计。当前只用结论对错作为奖励信号——这在正确性验证任务上没问题(答案确实是对或错),但在偏好判断任务上,"对错"是由参考标签定义的,而偏好本身有主观性。更细粒度的奖励设计(比如对推理过程的质量也打分)可能带来进一步提升。

和其他工作的联系

Mix-GRM和最近的一些工作形成了有趣的呼应:

  • CHIMERA:都强调了少量高质量数据的重要性。CHIMERA用9K数据训推理模型,Mix-GRM用30K数据训奖励模型,殊途同归。
  • RM-R1:同样是GRM路线,但RM-R1只用了统一的长CoT,没有区分广度和深度。Mix-GRM的框架可以看作是对RM-R1的范式升级。
  • GRPO:Mix-GRM用GRPO做RL训练,和DeepSeek-R1的训练方法一脉相承。GRPO的"不需要critic模型"特性大幅降低了RL训练的门槛。

📝 总结

Mix-GRM这篇论文的核心洞察是:生成式奖励模型的推理质量不是简单的"越长越好",而是要区分广度(多维度覆盖)和深度(逐步深挖)两种推理模式。偏好判断需要广度,正确性验证需要深度——这两种能力可以通过模块化合成流水线分别构造训练数据,再通过SFT+RLVR融合到同一个模型中。

最让人印象深刻的是涌现极化现象:RLVR训练只看最终结论对错,不对推理风格做任何约束,但模型自发学会了根据任务类型切换推理模式——结构匹配率从SFT后的73%跳到RLVR后的95%。这不仅验证了广度-深度框架的合理性,也展示了RL在策略自适应方面的强大能力。

一个8B模型、30K训练数据、平均79.4%的基准得分——Mix-GRM给出了一条高效构建GRM的清晰路线,也为"超越长度缩放"指出了方向:不是让模型想得更长,而是让模型想得更对