RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合

核心摘要

GRPO这类RLVR方法有个老毛病:只有一个outcome-level的稀疏奖励信号,整条生成路径到底哪个token该奖哪个该罚,它分不清楚。而On-Policy Self-Distillation(OPSD)看起来能提供更细粒度的信号,但存在一个致命问题——特权信息泄露,模型偷偷学会了"参考答案才有的信息",推理时拿不到答案就翻车。这篇论文提出了 RLSD(Reinforcement Learning via Self-Distillation),核心思路是:让环境奖励决定更新方向(对还是错),让自蒸馏的teacher-student概率差异决定更新幅度(每个token该调多少)。在Qwen3-VL-8B上,RLSD在5个多模态推理benchmark上平均准确率达到56.18%,比GRPO高2.32个点,而且训练稳定性甩开OPSD一大截。这不是一个全新范式,而是两种已有路线的精巧缝合——但缝得确实漂亮。


论文信息

  • 标题: Self-Distilled RLVR
  • 作者: Chenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan
  • 机构: 中国科学院信息工程研究所、中国科学院大学、Microsoft Research Asia
  • 链接: https://arxiv.org/abs/2604.03128
  • 状态: Work in progress (2026年4月)

问题出在哪?GRPO的信用分配困境

做过RLVR训练的人应该都有这个体感:模型生成了一长串推理过程,最后答对了,奖励就是1;答错了,就是0。可问题是,一条200个token的推理链里,可能前180个token都是对的,就最后一步计算出了错。GRPO拿到的信号是什么?整条链的奖励一样。

这就是 credit assignment问题 ——信用该分配给谁,GRPO说不清楚。

DeepSeek提出GRPO的时候,用group内多个采样的相对奖励差异来估计advantage,这比PPO省了一个critic网络,确实高效。但advantage是sample-level的,不是token-level的。一条对的和一条错的推理链,所有token享受同样的正/负advantage,这个粒度太粗了。

那有没有办法做到token-level的信号?


自蒸馏的诱惑与陷阱

一个自然的想法是 On-Policy Self-Distillation (OPSD):同一个模型,给它看参考答案 \(r\) 时作为teacher,不看答案时作为student。Teacher因为看到了答案,能给出更"精准"的token概率分布,student对着teacher的分布做KL蒸馏,就能获得token级别的学习信号。

听起来很美对不对?而且效率极高——不需要额外的teacher模型,一个模型同时扮演两个角色。

但这里藏着一个根本性的问题。

论文在这里给出了一个相当漂亮的理论分析(Theorem 1):OPSD的训练目标可以分解为两项——

\[\mathcal{L}_{OPSD} = \mathcal{L}^* + I(Y_t; R | X, Y_{\lt t})\]

第一项 \(\mathcal{L}^*\) 是理想的蒸馏目标,第二项 \(I(Y_t; R | X, Y_{\lt t})\) 是条件互信息——它度量的是"当teacher看到参考答案 \(R\) 时,它对下一个token的预测与不看答案时有多大差异"。

关键在于:这个互信息项严格大于0,而且不可消除

这不是一个可以通过增加模型容量或训练更久就能解决的问题。只要teacher能看到答案而student不能,两者的分布就必然存在gap。Student在努力模仿teacher,但teacher的一部分"知识"来源于推理时根本拿不到的特权信息。

图2:OPSD的泄露现象与训练不稳定性——(a)泄露次数随训练持续增加;(b)验证集reward在约20步达到峰值后快速下降;(c)KL散度呈下降趋势但始终高于无特权方法

图2:OPSD的三重困境——左图显示泄露次数(teacher和student的top-1预测差异导致的信息泄露)随训练步持续攀升;中图显示验证集reward约在10-20步达峰后急剧下降;右图显示OPSD的KL散度虽然在下降但始终比无特权的OPD(On-Policy Distillation)高出不少,说明特权信息造成的gap一直存在。

论文用实验验证了这一点:OPSD训练到10-20步时验证集reward就达峰了,之后一路下滑。泄露次数(teacher的top-1预测偏向参考答案的情况)持续增加。这不是过拟合,是结构性的缺陷。


RLSD的核心设计:方向归环境,幅度归teacher

看到这里,这篇论文的核心insight就呼之欲出了:

OPSD的信号很丰富(token级),但方向会被特权信息带偏;GRPO的方向很可靠(基于真实的对错),但信号太粗(sample级)。能不能各取所长?

RLSD的做法是:

1. 更新方向由GRPO的环境奖励决定

跟GRPO一样,模型生成G个采样,verifier判对错,计算group-relative advantage \(A\)。这个advantage决定了"这条生成应该被鼓励还是抑制"。

2. 更新幅度由teacher-student的概率差异决定

对每个token位置 \(t\),计算一个"特权信息增益":

\[\Delta_t = \text{sg}(\log P_T(y_t) - \log P_S(y_t))\]

其中 \(\text{sg}\) 是stop-gradient,\(P_T\) 是teacher(看到答案的模型)的概率,\(P_S\) 是student(不看答案)的概率。

然后构造token级别的权重:

\[w_t = \exp(\text{sign}(A) \cdot \Delta_t) = \left(\frac{P_T(y_t)}{P_S(y_t)}\right)^{\text{sign}(A)}\]

最终的token级advantage为:

\[\hat{A}_t = A \cdot \text{clip}(w_t, 1 - \epsilon_w, 1 + \epsilon_w)\]

图3:RLSD的整体架构——左侧是GRPO的核心流程(采样、验证、计算advantage),右侧是RLSD新增的token级信用分配机制,通过teacher-student概率比来调制每个token的更新幅度

图3:RLSD的完整流程图。左侧是标准的GRPO流程——Policy模型对同一个问题生成多个采样,Verifier判对错,计算group-relative advantage \(A\)。中间是关键的新增部分:同一个模型在Student Mode(不看答案)和Teacher Mode(看到答案 \(r\))下分别计算token概率,得到token级权重 \(w_t\)。右侧展示了如何将sample-level的advantage \(A\) 与token-level的权重相乘,得到细粒度的token-level advantage。

这个设计妙在哪?

当一条生成答对了(\(\text{sign}(A) = +1\)),teacher给了高概率但student给了低概率的token——说明这个token是"答案里有、但模型自己还没学到的关键步骤"——会被赋予更高的权重,模型会更用力地学它。

反过来,当答错了(\(\text{sign}(A) = -1\)),指数变号,teacher觉得好但student也觉得好的token反而被抑制得更厉害——因为"连不看答案的student都觉得该这么写,但其实走错了方向",这种错误更值得纠正。

说实话,这个思路不复杂,但 sign 翻转这个设计确实有巧思。它把teacher-student差异的语义从"模仿teacher"变成了"定位关键token",彻底避开了特权信息泄露的陷阱。


实验结果:数据说话

主实验

基座模型用的是 Qwen3-VL-8B-Instruct,训练数据是 MMFineReason-123K(经过难度筛选的子集),在5个多模态推理benchmark上评测。

方法 MMMU MathVista MathVision ZeroBench WeMath 平均
Base LLM 62.44 73.80 47.37 19.76 54.10 51.49
GRPO 65.11 76.20 48.82 22.60 56.57 53.86
OPSD 63.82 75.10 47.53 21.06 54.95 52.49
SDPO 65.11 74.00 47.27 25.15 52.19 52.74
GRPO+OPSD 63.22 75.90 48.52 22.16 54.76 52.91
RLSD 67.22 78.10 52.73 24.85 58.00 56.18

几个值得注意的数字:

MathVision上RLSD比GRPO高了3.91个点(52.73 vs 48.82),这个差距在数学推理benchmark上是相当能打的。MathVista也涨了1.9个点。

OPSD的平均分52.49,比GRPO的53.86还低——这直接验证了论文关于特权信息泄露的判断。更有意思的是 GRPO+OPSD(简单组合两个loss),效果也不行,只有52.91。说明问题不在"信号不够",而在于OPSD的方向本身就是歪的。

SDPO是另一篇近期工作(Reinforcement Learning via Self-Distillation,2026年1月),它利用rich feedback做self-distillation。在这个实验里SDPO平均52.74,也没打过GRPO。说明self-distillation路线如果不解决方向问题,单纯增加信号丰富度帮助有限。

训练动态分析

图1:RLSD vs GRPO vs OPSD的训练动态——(a)验证集reward曲线显示RLSD最终收敛更高且更稳定;(b)五个benchmark上的柱状图对比

图1左:验证集reward的训练曲线对比。GRPO(蓝色)稳步上升但较慢;OPSD(红色)先涨后跌,波动剧烈;RLSD(绿色)起步快、稳定性好、最终收敛点更高。右图为五个benchmark的柱状图对比,RLSD在MMMU(67.2)、MathVista(78.1)、MathVision(52.73)、WeMath(58.0)上均为最优。

图4:训练过程中的reward、entropy和clip ratio对比

图4三幅子图揭示了训练内部机制。(a) 训练reward对比:RLSD(绿色)的训练accuracy reward从一开始就高于GRPO(蓝色),后期保持领先。(b) Entropy对比:GRPO的entropy在训练中持续下降(从0.4降到0.25以下),而RLSD保持在较高水平(0.35-0.42),说明RLSD更好地维持了探索多样性。(c) Clip ratio:clip low ratio(蓝色)和clip high ratio(红色)都在增长,表明token级credit assignment确实在起作用,且随着训练推进越来越多的token被差异化处理。

Entropy这个指标值得多聊两句。GRPO训练中entropy快速下降,说明模型在快速收敛到某种模式——这不一定是好事,因为过早丧失多样性容易陷入局部最优。RLSD的entropy保持在更高水平,但reward反而更高。这暗示token级信用分配帮助模型在"保持探索"和"精准强化"之间取得了更好的平衡。

关于收敛速度

论文提到一个有意思的点:RLSD在200步时就已经超过了GRPO 400步的性能。收敛速度快了一倍左右。这在工程上是有实际意义的——同样的算力预算下能多跑几轮实验。


特权信息泄露:一个被忽视的结构性问题

坦率讲,这篇论文最有价值的贡献可能不是RLSD方法本身,而是对OPSD特权信息泄露问题的理论刻画。

Theorem 1证明了OPSD的KL目标可以分解为"理想蒸馏目标 + 不可消除的互信息项"。这个互信息 \(I(Y_t; R | X, Y_{\lt t})\) 不依赖于模型容量、不随训练减小,是teacher-student信息不对称的本征结果。

图5:特权信息泄露的具体案例——展示了两个多模态数学推理样例中,模型生成的推理链如何被参考答案"污染"

图5:两个真实的泄露案例。上方绿色标注的正确案例中,模型的推理虽然答对了但推理过程中出现了直接引用参考答案信息的痕迹(如直接数出物体数量而非通过视觉推理得到)。下方红色标注的错误案例中,模型在推理过程中出现了来回修改、自我矛盾的现象——先计算出一个值,然后说"这与底部标签一致",但实际计算有误。这说明OPSD训练会让模型养成"偷看答案"的习惯,推理时没有答案可偷看就会产生混乱。

这个分析有普适意义。不只是OPSD,任何使用privileged information的on-policy蒸馏方法——包括那些把ground truth注入teacher prompt的做法——理论上都面临同样的泄露风险。论文在附录A.3中还证明了,所有distribution-matching变体(前向KL、反向KL、JSD)在特权teacher下都会出现泄露。


我的判断:精巧的工程融合,但边界在哪?

先说我觉得好的地方:

理论和实验的对应做得很扎实。从Theorem 1的分解到图2的实验验证,再到RLSD设计中sign翻转的动机解释,逻辑链条是自洽的。很多论文的理论分析和方法设计是两张皮,这篇不是。

sign(A)翻转这个设计确实有味道。不是简单地把teacher-student差异当成"该学什么"的指标,而是根据outcome的对错翻转其含义——答对时差异大的token要多学,答错时差异大的token要多罚。一个小细节把"模仿teacher"变成了"定位关键token"。

计算开销几乎不增加。只需要额外一次forward pass(teacher mode),不需要额外的模型参数、reward model或critic network。

但也有几个让我皱眉的地方:

只在一个基座模型(Qwen3-VL-8B)上验证过。论文自己在Limitations里承认了这点。在8B scale上work的东西,到70B或更大的模型上是否还有同样的提升?我持保留态度。Credit assignment问题在大模型上可能没那么严重(大模型的基础能力更强,可能自带更好的"归因"能力)。

Teacher同步策略(每10步同步一次)的敏感性没有充分分析。这个超参数对性能的影响有多大?不同的同步频率会不会改变泄露的程度?论文没给消融。

跟SDPO(ETH那篇)的对比不够充分。SDPO利用的是rich textual feedback(运行时错误信息、judge评价等),而RLSD的teacher用的是reference answer。两者的信息来源质量完全不同。在有rich feedback的场景下,SDPO的路线可能更有潜力,因为它不需要reference answer——而RLSD的teacher需要看到ground truth answer。这个限制论文没有讨论。

multimodal-only的评测。虽然论文标题没有限定是multimodal,但所有实验都在多模态推理任务上。纯文本推理(数学、代码)上效果如何?这决定了方法的通用性。

还有一点我比较在意:RLSD说到底还是需要ground truth answer来构造teacher。在没有标准答案的开放式任务上(比如creative writing、instruction following),这个框架就不适用了。这不是论文的问题——RLVR本身就是针对verifiable rewards的——但限制了方法的适用范围。


工程启发

如果你正在做RLVR训练,这篇论文有几个直接可用的启发:

  1. 不要直接用On-Policy Self-Distillation。即使你觉得token-level信号很诱人,特权信息泄露会让模型训着训着就崩。如果非要用,至少按RLSD的方式把方向和幅度解耦。

  2. Token-level credit assignment确实有用。RLSD的2.32个点提升不算巨大但很稳定,而且收敛速度快一倍。如果你的训练预算有限,这个提速很有实际价值。

  3. 关注entropy。RLSD保持了更高的entropy同时取得了更好的reward——这提示我们,GRPO训练中entropy下降太快可能是一个值得警惕的信号。可以考虑加entropy bonus或者调整KL惩罚系数。

  4. Clip ratio是一个有用的监控指标。论文图4(c)展示了clip low/high ratio随训练的变化,这些指标能帮你判断credit assignment是否在起作用。


相关工作脉络

把RLSD放在更大的图景里看:

方法 信号粒度 方向来源 是否需要额外模型 泄露风险
PPO + Critic Token-level 环境 + Value 需要Critic
GRPO Sample-level 环境 不需要
OPSD Token-level Teacher(特权) 不需要 严重
SDPO(ETH) Token-level Rich Feedback 不需要
RLSD Token-level 环境 不需要(复用模型)

RLSD在这个表格里的位置很清晰:它是唯一一个同时做到"token-level信号"、"环境锚定方向"、"不需要额外模型"且"无泄露风险"的方案。当然,PPO+Critic也能做到token-level+环境方向,但需要额外训一个critic网络,且critic的训练本身也不稳定。


总结

RLSD不是一个从零开始的新范式,而是对GRPO和Self-Distillation两条路线的精巧融合。它的核心贡献有两个:一是对OPSD特权信息泄露给出了清晰的理论刻画(这个分析对整个self-distillation社区都有价值);二是提出了一个简洁的解耦方案——方向归环境,幅度归teacher,一个sign翻转就解决了泄露问题。

2.32个点的平均提升算不上惊天动地,但考虑到几乎零额外计算开销和更快的收敛速度,这是一个在工程上很有吸引力的改进。

不过,单一模型规模、单一任务类型(多模态推理)的验证范围还是让人觉得不够踏实。等后续在更多模型和场景上验证后,这个方案的价值才能被更准确地评估。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我