Too Correct to Learn：当模型"答得太对"时，GRPO反而学不动了

核心摘要

你有没有碰到过这种情况——拿一个能打的 base 模型，在 MATH 这种"经典"数学集上跑 GRPO，结果训了半天，MATH 涨一两个点意思一下，AIME 这种真正有难度的题完全推不动，policy entropy 跌到地板上不再变化？

这篇来自 Tencent AI Lab 和 University of Notre Dame 的工作给了一个挺干净的诊断：问题不在模型不会做，而在它"做得太对了"。当一个组里 16 个 rollout 全是正确答案，组内 reward 方差 → 0，标准化之后 advantage 也 → 0，梯度信号直接消失——这就是作者起的名字"saturation-induced collapse"。

解法叫 Mixed-CUTS（Mixed Constrained Uniform Top-K Sampling），思路特别朴素：别动训练目标，动 decoding。一半 rollout 走标准采样（exploitation），另一半走 CUTS——在 Top-K 候选里做 δ 概率过滤后均匀采样（exploration）。两条流合并喂给 GRPO 算 advantage，强行把组内方差撑住。

效果说实话挺打脸 baseline 的：Qwen3-4B 在 AIME25 上 Pass@1 比标准 GRPO 涨 +15.1%，maj@16 直接干到 +23.2%，甚至超过了 base 模型自己的 Thinking Mode。这告诉我一件事——饱和的"简单数据"里其实还藏着大量 RL 没榨出来的信号，前提是你得让模型在它的高置信区域里认真"分头走走"。

论文信息

标题：Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data
作者：Zhenwen Liang¹†, Yujun Zhou¹²†, Sidi Lu¹, Xiangliang Zhang², Haitao Mi¹, Dong Yu¹（†Equal contribution）
机构：¹Tencent AI Lab, ²University of Notre Dame
arXiv：2604.18493

问题动机：什么叫"饱和数据上的崩塌"

先把这个现象拆开讲。

GRPO 这套东西大家都熟了——给一个 prompt，sample 出 G 条 trajectory，每条得到一个 reward，然后用组内均值标准差做 baseline，算 advantage：

\[\hat{A}_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G) + \epsilon}\]

它最大的优点是不用 critic 网络，省了一大堆参数和工程坑。但代价是——它强烈依赖组内 reward 有方差。

问题来了。当你拿 Qwen3-1.7B、Qwen3-4B 这种已经很能打的 base 模型，在 MATH 这种现在已经被打烂的数据集上做 RL，会发生什么？base 模型 Pass@1 已经 70%-82% 了。一个 prompt 采 16 个 rollout，可能 14 个都对，2 个错。组内 reward 方差还行。但训不到 30 个 step，模型就把这种 prompt 全扫平了——16 个全对。

这一刻，分子 \(r_i - \text{mean}\) → 0，分母 \(\text{std} + \epsilon\) → ε，整个 advantage → 0。梯度死了。

但模型并不是不会做更难的题。它只是在 MATH 这种数据上没动力学了——因为它"太对了"。

更微妙的是，这种"假训练"还有一个隐藏的坏作用——正在悄悄把策略推向 mode collapse。GRPO 对每个 trajectory 用同一个 token-level advantage（\(\hat{A}_{i,t} = \hat{A}_i\)），在饱和阶段 advantage 虽然趋零但不是严格的零，clipping 之外那点残余信号会持续把 policy 往已经成功的那条 dominant 路径上挤。结果就是模型不仅没学到新东西，还把它原本会的"非典型解题路径"逐步剪掉了——这就是为什么后续在 AIME 这种 OOD 上反而会表现不如 base 模型的预期。

"Mode collapse 不是因为它错，而是因为它对得太彻底（too correct to learn）。"

这跟传统理解里的 mode collapse 不一样。传统的 mode collapse 是 reward 太稀疏（基本全错），策略没正反馈所以塌缩。这里是反过来的——reward 太稠密（基本全对），策略没负反馈，所以塌缩。两端都坍，中间才有学习。

我看到这里第一反应是——这个观察其实跟之前 DAPO、SimpleRL 那拨工作里提到的"hard-only 训练"动机是一脉相承的。大家都意识到 saturated easy data 是个问题，但通用做法是换数据：要么去 curate AIME/IMO 级别的硬题（DAPO-17K 就是这个路子），要么用 reward shaping 引入难度采样（DIVA-GRPO、DRA-GRPO 都是变种）。

但这条路有个根本的可持续性问题——当模型越来越强，你能找到的"够难"的数据越来越少，curate 成本指数级上升。这篇论文换了一个角度：别去找硬数据，把简单数据里的信号挤出来。

挤的方式是——动 decoding。

方法核心：CUTS 和 Mixed-CUTS

图1：Mixed-CUTS 框架。上半路是 Standard Sampling 的 G/2 条 exploitative trajectory，下半路是 CUTS 的 G/2 条 exploratory trajectory，合并成一个 G 大小的 Combined Group 算 GRPO advantage，最后做 policy update。

图1：Mixed-CUTS 整体框架——左侧 Input Query 同时进入两个 batch：Exploitation Batch 走标准采样（Standard Sampling, \(\pi_\theta\)），Exploration Batch 走 CUTS（先 Top-k 加 δ 阈值过滤，再做均匀采样）。两条流合并到 Combined Group 后，按标准 GRPO 公式 \(A_i = (r_i - \text{mean}(r))/\text{std}(r)\) 算 advantage，再做 policy update。结构上对原 GRPO 几乎零侵入——仅仅是 rollout 阶段把一半样本切到 CUTS decoding。

CUTS 是什么

CUTS（Constrained Uniform Top-K Sampling）本质是一个 inference-time 的 token-level 操作子。每一步 decode：

拿到模型原始概率分布
取 Top-K 候选（论文用 \(K=5\)）
砍掉概率小于 \(\delta\) 的（\(\delta=0.03\)，相当于"不太可能"的尾部直接淘汰）
剩下的候选全部赋予均匀概率，然后采样
前 \(T_{\text{warmup}}=5\) 个 token 不用 CUTS，先用标准 decoding 稳住开头

整个过程parameter-free——不动模型权重，不动训练目标，纯改 decoding。

为什么要这么设计？回答两个问题就清楚了。

第一个问题：为什么不直接用 entropy bonus？

加 entropy 项是 RL 里最朴素的"鼓励探索"做法，但它有个致命缺陷——它无差别地惩罚高置信度。模型在某些 token 上确实就该 99% 输出"="，结果 entropy bonus 把它拍平，整段 reasoning 就开始胡言乱语。这种"diversity"是 incoherent 的——多样性是有了，但语义全废了。

CUTS 的做法是反过来——多样性只在高置信度区域内部展开。Top-K 已经过滤掉所有"不太可能"的 token，剩下的 K 个都是模型认为"语义合理"的。在这 K 个里做均匀采样，相当于"模型你别老选概率最大那条路，把第二、第三选择也试试"——但绝不会跳出"语义合理"的边界。

这个设计真的挺巧的。它把"global exploration"（容易破坏语义连贯）替换成了"local width-first exploration"（保持局部语义有效），在 GRPO 这种 group-relative 的 setting 里特别贴。

第二个问题：为什么要 δ 阈值过滤？

光取 Top-K 还不够。如果某一步分布是 \([0.95, 0.03, 0.005, 0.005, 0.01]\)，那 K=5 之后均匀采样，相当于 80% 的概率从尾部低质量 token 里选。这种"采样"会把 reasoning chain 直接采崩。

δ 这个阈值就是把那些"虽然在 Top-K 里但概率太低"的尾部 token 砍掉。实测里 \(\delta=0.01\) 太松，AIME25 Pass@1 直接掉到 22.0%（4B 模型 35.0%）；\(\delta=0.03\) 是甜点；\(\delta=0.05\) 又过滤太多，探索空间不足。

一段简化的伪代码

把 CUTS 写出来其实就这么几行：

def cuts_sample(logits, K=5, delta=0.03, step_idx=0, T_warmup=5):
    if step_idx < T_warmup:
        return standard_sample(logits)

    probs = softmax(logits)
    topk_vals, topk_idx = topk(probs, K)
    valid_mask = topk_vals >= delta
    valid_idx = topk_idx[valid_mask]

    if len(valid_idx) == 0:
        return topk_idx[0]
    if len(valid_idx) == 1:
        return valid_idx[0]

    return uniform_sample(valid_idx)

整个改动量就是这么大。在原来的 GRPO rollout pipeline 里，把 decoder.step() 替换成 cuts_sample() 即可。Mixed-CUTS 在 batch 维度上一半走 standard_sample、一半走 cuts_sample，合并后送进原 GRPO loss 算。几乎为零的工程成本。

T_warmup=5 这个细节别忽略——前 5 个 token 强制走标准 decoding，是为了"prefix protection"。一段 reasoning 的开头几个 token 决定了整个 chain 的方向（"Let's think step by step"、"First, we have..."这种），如果在开头就引入 uniform 探索，模型可能直接被带偏到不合语义的开局。warmup 把 CUTS 的扰动限制在中后段——前缀稳，后续放开探索。

这种细节在论文里只是顺手提了一句，但工程实现的时候很容易踩坑。如果你直接从第一个 token 就用 CUTS，AIME25 大概率会掉点。

Mixed-CUTS：为什么要混

如果只用 CUTS（全部 rollout 都走 CUTS），会有什么问题？

理论上——baseline 跑歪了。policy 不再 anchor 在 \(\pi_\theta\) 的高概率路径上，advantage 信号全变成"和 uniform 的偏差"，optimization 失去稳定性。这就回到了类似强 entropy regularization 的老坑。

所以作者干脆两条流都跑：

Exploitation Batch（\(G_{\text{std}} = 8\)）：走标准采样，作为 anchor
Exploration Batch（\(G_{\text{CUTS}} = 8\)）：走 CUTS，注入多样性
合并到 Combined Group（\(G = 16\)）做 GRPO

这一步特别关键——advantage 是在合并组上算的，不是分别算两个组各自的 advantage。这意味着：标准采样的 trajectory 和 CUTS 的 trajectory 之间会被强行拉开 reward 差异（如果 CUTS 找到了被标准采样漏掉的正确解，或者反过来 CUTS 因为探索踩了坑），这种结构性差异直接撑起了组内方差。

为什么方差不会塌——一个简洁的推导

这是论文里最数学的部分，但其实就是初等概率。两个等大子组合并，组内方差有 law of total variance：

\[\sigma^2_{\text{mixed}} = \frac{1}{2}(\sigma^2_{\text{std}} + \sigma^2_{\text{CUTS}}) + \frac{1}{4}(\mu_{\text{std}} - \mu_{\text{CUTS}})^2\]

第二项是关键——只要两个子组的均值不同，整体方差就有下界。

考虑两个最坏情形：

情形 A：题目"太简单" —— 标准采样 16 条全对，\(\mu_{\text{std}} \to 1\), \(\sigma^2_{\text{std}} \to 0\)。这是经典的 saturation 死地。但 CUTS 因为强制走"次优 token"，偶尔会拐到一条非典型的解题路径，可能某些步推错了，所以 \(\mu_{\text{CUTS}} \lt 1\)。代入：

\[\sigma^2_{\text{mixed}} \approx \tfrac{1}{2}\sigma^2_{\text{CUTS}} + \tfrac{1}{4}(1 - \mu_{\text{CUTS}})^2 > 0\]

情形 B：题目"太难" —— 标准采样 16 条全错，\(\mu_{\text{std}} \to 0\), \(\sigma^2_{\text{std}} \to 0\)。模型 greedy 死磕同一条错路。CUTS 强制让它考虑 Top-K 里的其他选项，偶尔能"误打误撞"走到正确路径，\(\mu_{\text{CUTS}} > 0\)。代入：

\[\sigma^2_{\text{mixed}} \approx \tfrac{1}{2}\sigma^2_{\text{CUTS}} + \tfrac{1}{4}\mu_{\text{CUTS}}^2 > 0\]

两端都不会塌。这就是"structural variance preservation"——不是靠噪声给方差，而是靠两条 decoding 策略行为差异本身给方差。

我读到这里挺被打动的。它把"为什么这套机制 work"讲得特别干净——不用复杂收敛性证明，就用一个二阶矩分解，把"vanishing advantage"这个核心痛点的解决路径展示得清清楚楚。

实验结果：硬核数据

主实验在 Qwen3-1.7B 和 Qwen3-4B 上跑（都用 non-thinking mode），训练数据是 MATH，评测覆盖五个 benchmark：MATH、AIME24、AIME25、AMC、GPQA-Diamond。

Pass@1 / Pass@16 主表

模型	方法	MATH P@1	AIME24 P@1	AIME25 P@1	AMC P@1	GPQA P@1
Qwen3-1.7B	Base	70.2	12.9	11.7	39.8	32.1
	GRPO	83.6	29.5	22.8	59.8	34.2
	Mixed-CUTS	85.1	32.3	28.1	62.7	36.0
	Δ vs GRPO	+1.5	+2.8	+5.3	+2.9	+1.8
	Thinking Mode	82.6	28.9	24.9	57.5	34.9
Qwen3-4B	Base	82.5	24.2	21.5	61.3	45.3
	GRPO	86.4	32.5	26.6	68.9	48.1
	Mixed-CUTS	90.8	46.0	41.7	76.7	50.1
	Δ vs GRPO	+4.4	+13.5	+15.1	+7.8	+2.0
	Thinking Mode	89.9	54.1	42.1	73.6	52.0

几个值得反复看的数字：

+15.1% AIME25 Pass@1（Qwen3-4B）。 这是真的硬。AIME25 是当下数学评测里最有区分度的几个 benchmark 之一——base 模型 21.5%，GRPO 只能拉到 26.6%（+5.1），Mixed-CUTS 直接干到 41.7%（+20.2）。纯改 decoding 的一个改动，把训了 100 step 的 GRPO 多榨出一倍以上的提升。

+13.5% AIME24 Pass@1。 这块比 AIME25 略低（毕竟 AIME24 没那么"新"），但 13.5 个绝对点的提升也是相当反常的。

Mixed-CUTS 在 4B 上甚至贴近了 Thinking Mode（41.7 vs 42.1）。 在 1.7B 上更夸张——直接超过 Thinking Mode（28.1 vs 24.9）。这意味着 Mixed-CUTS 在 standard decoding 模式下，几乎拿到了"开 Thinking Mode + 长 inference"的效果，但 inference cost 完全不变。

注意一个细节：Pass@1 涨幅远大于 Pass@16 涨幅（4B 上 MATH P@1 +4.4 vs P@16 +0.7）。这是个挺重要的信号——它说明 Mixed-CUTS 不是靠"采样多了总有一条对的"这种随机覆盖，而是真的把概率质量往正确路径上推。这一点对工程上落地特别有意义——你部署的时候 inference 成本不需要变，单次采样就能享受这个提升。

Scalability：模型越大，收益越大

AIME25 的提升从 1.7B 的 +5.3% 跳到 4B 的 +15.1%。这个 scaling 趋势挺有意思——更大的模型，Top-K 里"次优 token"的语义合理性更高（毕竟模型更强），所以 CUTS 的 width-first exploration 能挖出来的 latent reasoning branch 也更多。

我觉得这背后其实是一个挺普适的洞察：模型越强，它的高置信度区域里"被压抑的合理路径"就越丰富。greedy decoding 是把这部分财富一刀切掉了，CUTS 把它拿回来。这意味着随着 base 模型越来越强（Qwen3 → Qwen4 → ...），这条路只会越走越宽。

训练动态：entropy 不再塌缩

图2：Qwen3-4B 训练动态对比。左：response length（GRPO 灰色 vs Mixed-CUTS 橙色），Mixed-CUTS 把响应长度从 ~1200 token 拉到 ~1800+ token；中：policy entropy，GRPO 死死卡在 0.20-0.25，Mixed-CUTS 一路涨到 0.40；右：AIME25 reward，GRPO 训了一百多 step 还在 0.25 徘徊，Mixed-CUTS 在 step 30 之后陡然分叉，最终拉到 0.40+。

图2：训练动态——三条曲线把"为什么 Mixed-CUTS work"讲得明明白白。GRPO 走的是典型的"急速饱和→停滞"路径：response length 卡在 1200 token，policy entropy 跌到 0.20-0.25 不动，AIME25 reward 100 step 还在 0.25。Mixed-CUTS 三个指标全反过来——entropy 持续涨（说明 advantage 信号没死），response length 变长到 1800+ token（说明模型开始自发地展开更深的推理链），AIME25 reward 在 step 30 之后陡分叉。

我在做 GRPO 类训练的时候经常遇到 entropy 塌缩的问题，常规打法是加 entropy bonus、调 KL coefficient、或者干脆 early stop。这篇论文给了一个很不一样的做法——entropy 涨不是目的，advantage 信号活着才是目的。

CUTS 的妙处在于，它通过"行为差异"维持 advantage 信号活力，作为副产物让 entropy 自然涨上去；而不是反过来——直接加 entropy bonus，强行把 entropy 顶起来，结果把 reasoning 搞乱。

response length 从 1200 涨到 1800+ 这个细节也挺值得说。CUTS 强迫模型在某些"次优分支"上展开，这些分支天然会触发 self-correction、回溯、二次验证等"System 2"行为——模型本来内置了这些能力，但 greedy decoding 把它们路径剪掉了。Mixed-CUTS 等于把 RL 当成一个"latent capability awakening"工具用。

maj@16：consistency 才是真大头

这一组数据我觉得比 Pass@1 更值得讨论。

模型	方法	MATH	AIME24	AIME25	AMC	GPQA
Qwen3-4B	Base	88.3	33.1	24.8	70.5	48.1
	GRPO	90.1	43.0	31.9	78.1	51.4
	Mixed-CUTS	94.0	54.9	55.1	83.0	53.1
	Δ	+3.9	+11.9	+23.2	+4.9	+1.7
	Thinking Mode	92.4	67.5	54.0	81.2	54.8

AIME25 maj@16 +23.2%，从 31.9% 直接到 55.1%，干过了 Thinking Mode 的 54.0%。

maj@16 的语义跟 Pass@N 不一样——Pass@N 是"采样空间里只要有一个对，就算对"，maj@16 是"采样 16 次，多数投票算一个答案"。一个方法 Pass@16 高但 maj@16 低，说明它会"偶尔猜对"但不稳定；maj@16 高才说明模型对正确答案有真实的高置信度。

Mixed-CUTS 的 maj@16 提升远大于 Pass@1 提升，这进一步坐实了"它在重塑 policy 概率分布，把概率质量真的搬到了正确路径上"。这一点在生产环境里太重要了——你部署一个 reasoning model，你要的不是"多采几次能蒙到正确答案"，你要的是"它就是稳定地输出正确答案"。

跨域泛化：训练的是 math，提升的是 general reasoning

训练方法	MMLU-Pro	SuperGPQA
Base Model	63.80%	33.05%
Standard GRPO	68.59%	40.03%
Mixed-CUTS	69.65%	41.28%
Δ vs GRPO	+1.06	+1.25

只在 MATH 上训，不做任何额外微调，在 MMLU-Pro 和 SuperGPQA 上 Mixed-CUTS 一致超过 GRPO。这进一步说明 Mixed-CUTS 学到的不是 math overfit，而是更底层的 reasoning skill。

提升幅度不大（1-2 个点），但方向明确，符号一致——足以证明"打破饱和"获得的能力是可以跨域迁移的。

边界条件：在难数据上还 work 吗？

这是我读到一半就在想的问题——如果 Mixed-CUTS 是为"saturated easy data"设计的，那在 AIME 级别的 hard data 上是不是就没用了？

作者给了 DAPO-17K（一个 AIME 难度级别的训练集）的对照实验：

Qwen3-4B 训练在 DAPO-17K	AIME24	MATH-500	AIME25	AMC	GPQA
Standard GRPO	65.6 / 82.6	92.6 / 96.3	54.1 / 68.7	84.6 / 95.6	54.9 / 81.9
Mixed-CUTS	67.5 / 84.1	93.8 / 97.8	56.0 / 73.6	87.7 / 97.7	56.6 / 88.9

在 DAPO 上 Mixed-CUTS 仍然全面领先，但绝对幅度小很多——AIME25 Pass@1 只 +1.9（vs MATH 训练时的 +15.1）。

这正好印证了核心 thesis：当数据难度本身已经足够，模型自然会被强迫探索（reward 方差天然存在），CUTS 的边际贡献就小。但当数据已经被模型刷穿（saturated easy），CUTS 是把模型从"too correct to learn"的死胡同里拉出来的关键。

更工程的意义——当你不想（也很难）继续 curate AIME 级别的硬数据时，Mixed-CUTS 让你能继续从已有的"廉价数据"里榨出 RL 信号。这个生态意义可能比单一指标提升更大。

超参敏感性

这一块论文做得挺扎实，值得专门看一眼。

\(\delta\)（最小概率阈值）的影响（K=5 固定）：

\(\delta\)	Qwen3-1.7B AIME25	Qwen3-4B AIME25
0.01	22.0 / 44.1	35.0 / 64.2
0.02	26.5 / 50.2	40.0 / 69.5
0.03（默认）	28.1 / 52.5	41.7 / 71.9
0.04	27.2 / 51.4	40.6 / 70.8
0.05	26.0 / 49.8	39.8 / 70.1

\(\delta=0.01\) 直接掉了 6-7 个点，因为低质量尾部 token 进了候选集；\(\delta \in [0.02, 0.05]\) 都明显比 GRPO 强。

Top-K 的影响（δ=0.03 固定）：

\(K\)	Qwen3-1.7B AIME25	Qwen3-4B AIME25
3	25.5 / 48.9	38.9 / 68.5
5（默认）	28.1 / 52.5	41.7 / 71.9
7	26.8 / 53.4	40.2 / 72.8
9	21.5 / 48.2	35.5 / 68.2

K=7 在 Pass@16 上略高（更宽搜索空间多样性更好），但 K=9 Pass@1 直接崩了 6.2 个点——过度宽的候选集会引入噪声。这个 trade-off 跟我做 nucleus sampling 调 top-p 时的体感很像。

整体看，超参 robust 范围还挺宽的（\(\delta \in [0.02, 0.05]\), \(K \in [3, 7]\) 全比 GRPO 强），不需要逐模型精调。这对落地很友好。

我的判断

这套方法到底厉害在哪

第一，问题诊断特别到位。 "saturation-induced collapse" 这个概念其实业内很多做 RL 的人都隐约感觉到了，但论文是第一次把它和 vanishing gradient 之间的因果链讲清楚——不是模型不会做，是 GRPO 没信号了。这种"重新框架问题"的能力比单纯提一个新方法更值钱。

第二，方案极简但不简单。 parameter-free decoding 改动，对 GRPO 几乎零侵入——你现有的 RL pipeline 可能就改 10 行代码（rollout 阶段一半样本切到 CUTS decoding）。但理论上有 variance preservation 的硬保证，工程上有 +15.1% 的硬数字。简洁度和有效性这种平衡其实挺难做到的。

第三，"local uniform exploration" 这个概念可能会被更广泛地用起来。 加 entropy bonus 这种 global exploration 一直有"破坏语义"的副作用，CUTS 这种把多样性约束在 Top-K 高置信区域内的做法，提供了一个更安全的探索接口。我猜未来在 code generation、agentic planning 这些 trajectory 更长、错一步全错的场景里，这种"width-first exploration"会更受欢迎。

哪些地方让我皱眉

第一，理论分析停在 variance preservation 层面，没有收敛性证明。 Limitation 里作者自己也承认了——"the mixed behavior policy induced by CUTS introduces a controlled deviation from strict on-policy sampling"，这个 off-policy 程度对长 horizon 收敛性有什么影响，论文没给。Empirically 看 KL coefficient \(1\times 10^{-3}\) 加上 PPO clipping 是稳的，但理论上它仍然是个 open question。

第二，实验只在 Qwen3 1.7B/4B 上做了。 没有 7B、14B、72B 这种更大模型的验证。基于 scaling 趋势（1.7B +5.3 → 4B +15.1）我倾向于相信更大模型上收益会继续增长，但这毕竟是猜测。

第三，跟同期工业界其他"打破 saturation"方案的对比缺失。 比如 DAPO 本身有个 dynamic sampling 机制丢弃零方差组，DIVA-GRPO 用难度加权，COPO 用 batch-level global advantage——这些方案跟 Mixed-CUTS 的对比实验没做。我猜部分原因是这几个方法实现细节不一致，但这块如果能补上会更有说服力。

第四，Figure 2 的 maj@16 panel 在我下载的图里没显示完整（论文 caption 提到右侧应该是 maj@16 consistency 曲线，但实际图我看到的是三个 panel 而不是四个）——这可能是 HTML 渲染的小 bug，不影响结论。

工程启发

如果你也在做基于 GRPO/类似算法的 reasoning RL，这个工作给了几个直接可借鉴的点：

一是诊断你是不是踩到了 saturation 死地——盯着 policy entropy 和 intra-group reward variance。如果 entropy 在前 30 step 就跌到 0.2 以下不动，且 reward variance → 0，你的 advantage 信号已经死了。继续训没意义。

二是 CUTS 这种"local uniform exploration"几乎零成本可复用——不需要重训模型、不需要改训练目标，rollout 阶段加个 decoding wrapper 就行。论文超参（K=5, δ=0.03, T_warmup=5, G_std/G_cuts=8/8）可以直接当合理初值。

三是别迷信"换硬数据"是唯一出路——saturated easy data 里仍然有大量 RL 没榨出来的信号，前提是有合适的探索机制。这点对资源受限的团队特别友好——AIME 级别的高质量数据极贵且少，但 MATH 这种"经典数据"反而满地都是。

四是 8/8 的混合比例不是拍脑袋的——它本质上是 anchor 和 explorer 的最优 trade-off。如果 CUTS 比例太高（比如 12/4），会丢掉 baseline 的稳定性，policy 跑歪；如果太低（比如 4/12），exploration batch 不够多，方差恢复力不足。8/8 在 G=16 这个量级上是个比较 robust 的甜点。我猜如果你 G 取更大（32 或 64），这个比例可能可以适当往 explorer 倾斜。

跟同类工作的关系

这块顺便聊一下定位。最近几个月围绕"GRPO vanishing advantage"出了一波工作：

DAPO（开源 RL 系统）通过 dynamic sampling 在 batch 层面丢弃零方差的组，相当于"治标"——不让坏样本浪费训练 step；
DRA-GRPO 用 Submodular Mutual Information 给 reward 加"diversity 调整项"，鼓励 semantically 不同的 trajectory；
DIVA-GRPO 通过 difficulty-adaptive variant 主动制造组内难度差异；
COPO（Consistency-Aware Policy Optimization）引入 batch-level global advantage 保证信号不全消失；

Mixed-CUTS 跟这几个方向都不一样——它不动 advantage 计算，不动 batch 选择，不动 reward shaping，纯在 decoding 这一层注入"行为差异"。优点是工程改动最小；缺点是它绑定了一个特定的 decoding strategy（Top-K uniform），对其他 RL 算法（不是 group-relative 的）可能不直接适用。

我觉得这几条路本质上是互补的——Mixed-CUTS 解决 sampling-level 的 diversity，DAPO 解决 batch-level 的 sample selection，COPO 解决 advantage-level 的信号融合。未来很可能会看到把这几条路缝在一起的"集大成"系统。

一句话定位

这是一篇"小改动大收益"的工程论文，问题诊断比方法本身更值钱。

如果你只看一个创新点——把"diversity 必须从结构性差异中来，不能从噪声中来"这件事讲清楚，已经值回票价了。这个原则我猜未来会被更多 RL post-training 工作借鉴。

如果你在做 reasoning model 的 RL 训练，强烈建议把 Mixed-CUTS 加进你的 baseline 对比里——它可能让你重新评估"我到底需不需要花那么多钱去 curate hard data"。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我