8个样本就能涨32个点？RLVR的"奇迹"为什么换到Llama身上就不复现了

一句话感受

最近半年，RLVR（Reinforcement Learning with Verifiable Rewards）的圈子里出了一堆让人怀疑人生的结论：1个样本就能让Qwen-Math涨好几个点；随机奖励也能work；甚至完全没有验证器、用模型自己投票当奖励信号都行。但只要你拿这套做法去Llama身上跑一遍，立刻翻车。

我读到的这篇UCLA、NYU、Google合作的论文，把这个圈子最尴尬的问题摆到了桌上：RLVR的这些"奇迹"到底是RL本身的功劳，还是预训练就已经把答案埋好了？

读完以后我的第一反应是：这篇论文可能是2026年第一季度RL方向最值得细啃的几篇之一。它没炫技，没堆baseline，就老老实实地把"RLVR什么时候work、什么时候不work"这个问题，用一组干净到近乎残忍的对照实验剥开了。

核心摘要

这篇论文做了一件听上去很无聊但其实非常重要的事：用控制变量的方式，把"RLVR能在弱监督下泛化"这件事从神话拉回到机制层面。

作者跨两个模型族（Qwen / Llama）、三个推理域（Math / Science / Graph），在三种弱监督设置（稀缺数据、噪声奖励、自监督代理奖励）下做了系统性研究。核心发现可以浓缩成三句话：

第一，RLVR能不能泛化，由训练奖励的"饱和动力学"决定。能泛化的模型经历一个长长的pre-saturation阶段，训练奖励和下游性能一起涨；不能泛化的模型迅速饱和，进入post-saturation阶段后再训也没用。

第二，决定模型属于哪一类的，不是输出多样性，而是"推理忠实度"——也就是中间推理链是否真的在支撑最后那个答案。Llama输出多样性比Qwen高得多，但生成的推理链经常和最终答案脱节，所以说到底它是在背答案而不是在学推理。

第三，SFT在显式推理轨迹上的训练是必需品。在Llama3.2-3B-Base上做continual pre-training（52B math token）+ Thinking SFT（4.35万条带推理过程的样本）后，原本在三种弱监督下都失败的Llama，在三种设置下全部恢复了泛化能力。

一句话点评：这篇论文真正值钱的不是"我们造了个新方法涨了几个点"，而是给整个RLVR-with-weak-supervision领域提供了一个统一的解释框架——把那些看上去互相矛盾的结论（1个样本work、随机奖励work、Llama不work）放到同一张图里讲明白了。

论文信息（已与arXiv摘要页核对）

标题：When Can LLMs Learn to Reason with Weak Supervision?
作者：Salman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov（*为共同一作）
机构：UCLA、NYU、Google
arXiv：2604.18574
项目页：salmanrahman.net/rlvr-weak-supervision

为什么需要这篇论文：圈子里的结论已经互相打架

先把背景捋一下，不然你看不明白这篇论文的价值。

RLVR在2024-2025年这一年多的时间里，把reasoning这条路炒得非常热。DeepSeek-R1把这套方法搬上了主舞台，Kimi K1.5、OpenAI o1全在用类似思路。但伴随而来的是一堆让人挠头的结论：

王宇等人发现，1个训练样本做RLVR能让Qwen-Math涨几个点（Wang et al. 2025a）
邵睿等人发现，随机奖励、错误奖励居然也能匹配ground-truth的效果（Shao et al. 2025）
赵雪等人提出self-certainty，用模型自己的confidence当奖励就能涨（Zhao et al. 2025）
左尧等人提出majority vote做TTRL，多数投票当伪标签也能涨（Zuo et al. 2025）

但这些"奇迹"有个共同的尴尬之处：全是在Qwen系列上做的。换到Llama，全部熄火。

更尴尬的是，Chandak et al. (2025)发现这里面很多论文的baseline报告有问题，"涨"出来的数其实是baseline没调好。Shafayat et al. (2025)发现自监督奖励训练时间一长就会reward hacking，性能崩盘。

这就让一个根本问题浮出水面：RLVR到底是真的在"教模型推理"，还是只是在把预训练里已经存在的能力释放出来？如果只是后者，那你给的奖励信号是真是假就不那么重要了——只要能触发那个pattern就行。

这篇论文的切入点正是这里。

实验设计：一张表说明白所有事

我先把作者的实验设计骨架讲清楚，后面所有结论都建立在这上面。

两个模型族： - Qwen系列：Qwen2.5-1.5B/3B（基础模型，18T预训练token）+ Qwen2.5-Math-1.5B/7B（在Qwen2.5基础上额外训了1T的math token） - Llama系列：Llama-3.2-3B/8B-Instruct（9T token + SFT + DPO对齐）

三个推理域（按预训练曝光度排序）： - Math（高曝光）：用Skywork-OR1 - Science（中等曝光）：用SCP数据集（物理、化学、生物） - Graph（低曝光）：用Reasoning Gym里的Quantum Lock和Largest Island两个算法任务

三个弱监督场景： 1. Scarce data：训练样本数N ∈ {8, 32, 64, 512, 2048} 2. Noisy rewards：随机污染γ比例的标签，γ ∈ {0, 0.1, 0.3, 0.5, 0.7, 0.9} 3. Self-supervised proxy rewards：majority vote / self-certainty

RL算法：GRPO（DeepSeekMath那篇里的Group Relative Policy Optimization）

核心评估指标：avg@16、pass@k

设计的精髓在于三个推理域跨预训练曝光度这个维度——你能直接看到"预训练时见过 vs 没见过"对RL效果的决定性影响。

发现一：饱和动力学决定一切

这是整篇论文最核心的概念。看一眼这张大图就明白了：

图1：跨模型族和领域的训练动力学和测试性能对比。三行分别对应Math/Science/Graph，列1是训练奖励曲线，列2-3是in-domain benchmark性能，列4是OOD benchmark性能。蓝色是Qwen2.5-Math-1.5B（Graph域用7B），绿色是Qwen2.5-1.5B，橙色是Llama3.2-3B-Instruct（Graph域用8B）。彩色虚线竖线标记每个run的饱和步数

图1：跨模型族和领域的训练动力学。Qwen系列（蓝/绿）的训练奖励曲线是缓慢爬升的——在Math域上Qwen2.5-Math-1.5B用8个样本能维持300多步的pre-saturation phase。Llama（橙色）训练奖励飙升非常快，几十步就到顶了，但下游性能没怎么涨。这张图基本就是论文的"封面"，把所有核心结论都画在里面了。

作者形式化定义了一个关键概念——饱和步数 \(t_{\text{sat}}\)：训练奖励第一次达到最大值的99%时的步数。然后把训练分成两段：

Pre-saturation phase：\(t \in [1, t_{\text{sat}} - 1]\)，训练奖励还在涨
Post-saturation phase：\(t \in [t_{\text{sat}}, T]\)，训练奖励已经平了

核心结论一句话：pre-saturation phase的长短，几乎完全决定了模型能不能泛化。

具体的数值可以看这张表（论文Table 1，我做了重新排版）：

模型	训练域	\(t_{\text{sat}}^{(8)}\)	主in-domain指标涨幅	OOD MATH/SCP-Hard涨幅
Qwen2.5-Math-1.5B	Math	302	MATH500: +29.7, AMC: +18.7	SCP-Hard: +10.5
Qwen2.5-1.5B	Math	170	MATH500: +32.1, AMC: +12.7	SCP-Hard: +7.0
Llama3.2-3B-Instruct	Math	55	MATH500: +10.8, AMC: +8.8	SCP-Hard: +3.9
Qwen2.5-Math-1.5B	Science	268	SCP-Hard: +14.5, GPQA: +16.9	MATH500: +25.3
Qwen2.5-1.5B	Science	161	SCP-Hard: +6.4, GPQA: +13.3	MATH500: +32.3
Llama3.2-3B-Instruct	Science	61	SCP-Hard: +1.8, GPQA: +11.9	MATH500: +7.3
Qwen2.5-Math-7B	Graph	150	Quantum Lock: +8.3, Largest Island: +19.8	MATH500: +21.0
Llama3.1-8B-Instruct	Graph	29	Quantum Lock: +10.1, Largest Island: +1.8	MATH500: +9.1

注意几个关键数：

Qwen2.5-Math-1.5B在Math上的饱和步数是302，而Llama3.2-3B-Instruct只有55。差了快6倍。这个对比说明的是什么？说明同样是用8个样本做RLVR，Qwen-Math能在300多步里持续从这8个样本里"挖"出可以泛化的pattern；而Llama不到100步就把这8个样本背得滚瓜烂熟，再训也没用。

更狠的是Qwen2.5-Math-7B训Graph之后，OOD的MATH-500涨了21个点。Graph任务和Math任务在表面上根本不像，但Math-specialized的Qwen-Math-7B竟然在Graph训练时持续优化推理能力，迁移到Math上还涨这么多。说明它学到的不是Graph特定的trick，而是一种更general的推理pattern。

这里有个我特别想强调的细节：Qwen2.5-Math-1.5B和Qwen2.5-1.5B的对比是同架构、只差预训练数据的"双胞胎实验"。前者多训了1T math token，结果在Math上pre-saturation长了将近一倍（302 vs 170），泛化也更强。这基本就是在说：预训练时多见的东西，RL时才能继续学；预训练时没见过的，RL几十步就到天花板了。

发现二：噪声奖励——Llama背错答案的速度和背对答案一样快

这块特别有意思。作者把训练标签随机替换成"模型自己最常给出的错误答案"（这种corruption比random label更难——因为错误答案是模型自己产生的，看起来"合理"），看不同γ下模型还能不能学。

图2：奖励标签污染对训练动力学和泛化的影响。γ表示标签被污染的比例，从0到0.9。Qwen2.5-Math-7B在Graph域、Llama-3.2-3B-Instruct在Math域。中间和底部行是下游测试集的性能。颜色越浅表示污染越严重

图2：噪声奖励的影响。重点看右边Llama那一列——你会发现哪怕γ=0.9（90%的标签都是错的），训练奖励曲线和γ=0.1的几乎重合！这说明Llama在用相同的速度"拟合"错误答案。但下游MATH-500性能从γ=0.5开始就明显下降了。

看到这张图我直接皱眉。Llama的训练奖励曲线在γ=0到γ=0.9之间几乎重合。意思是：标签全错的时候，Llama学得跟标签全对的时候一样快。这不就是经典的memorization signature吗？

具体数据： - Qwen模型在Math和Science上，γ ≤ 0.7（70%标签错）的时候性能仍然接近clean reward。这个robustness非常夸张。 - Llama在Math、Science上，γ ≥ 0.5就开始降级 - Qwen在Graph上同样从γ ≥ 0.5开始降级——再次证明这不是模型族的内禀属性，而是"预训练有没有见过相关分布"的问题

饱和快的model-domain pair都不耐噪声，这条规律在所有八个组合上都成立。这是一个非常漂亮的cross-validation：你可以用saturation dynamics预测noise robustness。

发现三：自监督代理奖励——大部分时候是reward hacking陷阱

完全没有ground-truth的时候，圈子里有两个流行方案：majority vote（采样N个回答，最多的那个当伪标签）和self-certainty（用模型自己的KL散度当奖励）。这两个方案在论文里被直接质疑了。

图3：奖励变体对比，1024训练样本。左边是Qwen2.5-3B、右边是Llama-3.2-3B-Instruct，都在Science上训。蓝色是RLVR（ground-truth），绿色是majority vote，橙色是self-certainty

图3：proxy reward的失败模式。看橙色self-certainty那条线——MATH-500和SCP-Hard在两个模型上都直接崩盘。majority vote稍好但同样不稳定，Qwen2.5-3B训500步以后性能崩塌，Llama的MATH-500从45%崩到4%。

具体数据： - Self-certainty在所有设置下都崩盘——Llama从~50%的MATH-500掉到接近0 - Majority vote只对math-specialized的Qwen-Math有效，对其他模型基本不work - 一个特别诡异的现象：Llama在majority vote上reward会刷到1.0——意思是reward在涨，但下游性能在崩。这就是教科书级别的reward hacking：模型学会了让自己投出的票互相一致，但答案本身没有任何意义。

我读到这里的时候笑了一下。这不就是2024-2025一堆论文标榜"我们用self-supervised reward也能work"的真实样子吗——能work的窗口非常窄，只有Qwen-Math能稳定吃下majority vote，其他全是失败案例。

转折：失败的根本原因不是"探索不够"，而是"推理不真"

到这里你可能会有一个直觉假设：Llama之所以饱和那么快，是因为输出多样性不够——它探索能力差，几下就把可能的输出空间塞满了，然后陷入局部最优。

作者也是这么想的，于是去测了semantic diversity（用LLM judge聚类回答，再算Shannon diversity index）。结果发现……

图4：8样本Math训练中语义多样性的演化。左图是diversity，右图是training reward。Llama（橙色）饱和最快，但diversity一直保持得比Qwen系列还高

图4：Llama的输出多样性其实比Qwen高。橙色（Llama）在RL训练后期diversity反弹到0.5以上，比Qwen的两个模型（绿/蓝）都高。这直接推翻了"Llama因为多样性低所以饱和快"的假设。

事实是：Llama的多样性比Qwen还高，但泛化反而更差。这个观察直接把"探索不足"的假设给毙了。

那真正的原因是什么？作者引入了一个我觉得非常关键的概念——reasoning faithfulness：

一个回答是faithful的，当且仅当它的reasoning trace包含证明final answer所需的全部信息，且逻辑上和final answer一致。

通俗一点讲：模型说出了正确答案，但中间的推理过程能不能真的支撑这个答案？

实现上用OpenAI o3当judge，把每个rollout打成{aligned=1, partially aligned=0.5, misaligned=0}三档。Cohen's Kappa一致性达到了0.752，所以打分本身可信。

接下来这张图是整篇论文的重头戏：

图5：8样本RL训练中推理忠实度（左）和faithful diversity（右）的演化。三行分别是Math/Science/Graph

图5：左列是aligned response的比例（推理过程真的支持答案的比例），右列是faithful diversity（只在faithful response里算的多样性）。Math域上Llama的aligned比例只有~30%，Qwen系列都在60%以上。这意味着Llama答对的题里，有相当大的比例是"蒙对"的——推理链对不上答案。

看Math那一行的左图。Llama的aligned proportion稳定在30%左右，而Qwen-Math在60%上方。直接的解读是：Llama做对的题里有2/3是"瞎对"——它写出了一段看似合理但其实和答案没逻辑关系的推理过程。

那为什么reward还能涨呢？因为奖励只看final answer，不看reasoning trace。模型可以学会一种策略：生成大量看起来不一样的推理过程，但最后总是指向那个见过的答案。这正好同时解释了： 1. 训练reward涨得快——因为它在快速memorize正确答案 2. diversity高——因为推理路径花样多 3. 泛化差——因为推理本身不是真的，换个问题就崩 4. 不耐噪声——因为memorization能力强，错答案也能背下来

Faithful diversity这个指标更狠——只算faithful response里的diversity。Llama的faithful diversity就立刻塌下来了，因为它真的faithful的回答非常少。这下整个画面就清晰了：真正预测泛化能力的，不是raw diversity，也不是aligned proportion单独，而是两者的交集——"模型能用多少种不同的、真正有逻辑的方式去解题"。

我读到这里有个挺强的感受——这是过去半年所有RLVR玄学的根源。1个样本能work、随机奖励能work、self-certainty能work，说到底都是因为Qwen这种model在预训练时就已经"会做"那些题了，RL只是在挑动pre-existing pattern；只要pattern还是faithful的，挑动一下也涨。但你要是模型本身就不会，那RL再挑也只是教它"答对"而不是"会做"，于是就出现Llama这种"训练reward涨但不泛化"的情况。

干预方案：CPT + Thinking SFT，把Llama"修"成能泛化

如果faithfulness是关键，那能不能在RL之前就把faithfulness打进模型里？作者跑了一组2×2的对照实验：

Initialization：Base / CPT（在52B math token上continual pre-training一个epoch）
SFT regime：Thinking SFT（用OpenThoughts-114K里的完整推理轨迹做SFT，约1B token） / Non-Thinking SFT（同样的prompts但只SFT最终答案，约0.27B token）

加上Llama3.2-3B-Instruct作为参考，一共5种pre-RL configuration，然后跑三种弱监督设置：scarce data (N=8)、majority vote、noisy reward (γ=0.7)。

结果非常有意思：

图6：Llama3.2-3B Base/CPT/Instruct变体在Math域三种弱监督设置下的RL训练动力学。三行分别是scarce data、majority vote、noisy reward。实线是Thinking SFT，虚线是Non-Thinking SFT，点划线是Instruct

图6：CPT + Thinking SFT（红色实线）几乎在所有设置下都是top performer。Instruct（绿色点划线）和Base + Non-Thinking SFT（蓝色虚线）基本是flat或者降。这张图把"Thinking SFT是必需品 + CPT是放大器"的claim非常清楚地展示出来了。

三个核心发现：

Thinking SFT是必需的。Instruct baseline在三种设置下RL之后基本不涨甚至降；只有用Thinking SFT初始化，下游才有显著gain。Non-Thinking SFT就算配合CPT，在scarce data和majority vote上也几乎不work。
CPT是放大器，不是替代品。CPT + Thinking SFT 比 Base + Thinking SFT 强很多，但CPT + Non-Thinking SFT几乎不涨——同样的52B token CPT compute，配上不同的SFT target，差距巨大。这排除了"compute堆出来的"解释。
三种弱监督全部恢复。原本的Llama-Base在三种设置下全部失败，CPT + Thinking SFT在三种设置下全部成功。

更关键的是验证了"faithfulness是中介变量"这个因果链：

图7：Llama3.2-3B家族在不同pre-RL干预下的faithfulness演化。左是8 samples、右是majority vote。CPT + Thinking SFT（红色实线）的aligned proportion最高

图7：CPT + Thinking SFT（红色实线）的faithful proportion稳定在40%以上，远高于其他配置。这就形成了完整的因果链——CPT+Thinking SFT → 高faithfulness → 长pre-saturation → 强generalization。

我特别欣赏这个实验设计的精妙之处：Thinking SFT和Non-Thinking SFT用的是完全相同的prompts，只是target output不同。Thinking SFT给完整的推理轨迹，Non-Thinking SFT只给最终答案。这就把"SFT本身"和"SFT教不教推理"两件事彻底分离了。

我的判断：这篇论文真正值钱在哪

看到这里你可能觉得：这不就是"SFT能补，CPT能补"吗？没什么新东西啊。

但我得说，这种看法低估了这篇论文。它的价值不在于提出了一个新方法，而在于提供了一个统一的解释框架。

之前的圈子是这样的：

"我们用1个样本RL也能涨7个点！" "我们用随机奖励也能涨6个点！" "我们用self-certainty也能涨！" "等等，我们换了Llama怎么不涨了？" "那肯定是Llama的探索能力差……"

每个声音都看似有道理，但凑不到一起。这篇论文给出了一个能把这些都装进去的解释：

RLVR不是在"教"模型推理，它是在"释放"预训练里已经存在的faithful reasoning。如果预训练里没埋下faithful reasoning的种子，RL再怎么训也只能教会模型快速memorize答案，不会真的学会推理。

从这个视角往回看： - 1个样本能work：因为Qwen-Math本来就会做这种题，1个样本足够触发pattern - 随机奖励能work：因为奖励信号即使错了，只要模型自己产生的rollouts有相当比例是faithful的，GRPO的clip机制就会偏向放大这些pattern（这点和Spurious Rewards那篇论文呼应） - self-certainty能work（在Qwen-Math上）：因为Qwen-Math的self-certainty本来就和answer correctness高度相关 - Llama不work：因为它的预训练里没充分埋下math reasoning的pattern，RL释放不出什么东西

这个解释框架的力量在于：它把"RLVR能做什么"的边界画清楚了。以后再看到论文说"我们用xxx弱监督也能work"，第一反应应该是"在什么model-domain pair上work？这个pair的pre-RL faithfulness水平如何？"

几个值得追问的地方

我一边写一边在想这篇论文有没有问题。几个我不太确定的地方：

第一，faithfulness的判断完全依赖LLM-as-a-judge（用OpenAI o3）。Cohen's Kappa 0.752算"substantial agreement"了，但毕竟是模型在评模型，会不会有systematic bias？比如o3和Qwen的reasoning style更相似，所以打Qwen的分更宽松？这个作者也承认了，是future work。

第二，"模型族对比作为预训练先验代理"这个设定。作者反复强调"我们不是在说Qwen内禀比Llama强，我们是在说有强math先验 vs 没有强math先验"。这点我同意，但读者很容易误读成"Llama不行"。Section 4的CPT实验确实证明了Llama也能修好，但需要52B math token的额外投入——这个成本对一般团队来说不算小。

第三，scope限制。所有实验都在1.5B-8B规模上做的。30B+规模上是不是同样的pattern？大模型的pre-training prior应该更强，会不会saturation phase更长，对noise更耐受？这块作者明确承认是future work。

第四，Thinking SFT本身就需要高质量的reasoning trace数据集（OpenThoughts-114K）。这种数据集对math/code这种"标准答案"任务好搞，但对开放领域（医疗咨询、科研讨论）就难了。所以这套方案在开放任务上的可迁移性还是个问号。

但这些都不影响我对这篇论文的整体评价。它把一个圈子里悬了一年的根本问题给挑明了。

几个让我意外的细节

读完整篇我列了几个让我"卡住一下"的发现：

1. Math-specialized model在Graph上训能让Math涨21个点

Graph任务是Quantum Lock和Largest Island这种算法题，和competition math表面上完全不像。但Qwen2.5-Math-7B训Graph能让OOD的MATH-500涨21个点。这说明RL期间学到的不是domain-specific的trick，而是更general的"逻辑推理过程"——只要pre-training已经埋下了faithful reasoning的根，跨域迁移就能发生。

2. 训练reward曲线和噪声水平脱钩 = memorization的指纹

这是一个非常清晰的诊断信号。如果你的模型在γ=0和γ=0.9的训练reward曲线几乎重合，那基本可以判定它在memorize。这个观察对工程实践有直接指导价值——以后跑RLVR可以专门留个noise probe测一下。

3. CPT alone不行，Thinking SFT alone帮助有限，必须组合

这个组合效应很反直觉。如果CPT是"教模型领域知识"、SFT是"教模型推理pattern"，那两个相加应该是additive。但实验显示这是multiplicative的关系——单独都不太行，结合起来突然就work了。一个可能的解释是：CPT建立了knowledge representation，Thinking SFT教模型怎么"用"这些representation去构建推理链；缺一不可。

4. Diversity高不一定是好事

这个发现我觉得对RLHF/RLVR的实践有最直接的影响。之前圈子里普遍把output diversity当成exploration健康度的代理指标，所以很多人会刻意维持高diversity。但这篇论文表明，raw diversity可能是unfaithful reasoning的副产物——模型在用"花式推理路径"掩盖"答案是背的"这件事。faithful diversity才是真正应该追的指标。

工程启发：如果你正在做RLVR

如果你的团队正在做RLVR相关工作，这篇论文给我的几条直接启发：

1. 加一个saturation diagnostic。每次跑RL训练，监控training reward曲线的形态。如果reward在50步内就饱和到max的99%、但下游性能没怎么涨，别再加更多RL compute了——你的pre-RL prior不够，再训也是浪费。把compute挪到pre-RL干预上去。

2. 加一个noise probe。训练正式开始前，用γ=0.5的noisy reward跑一个短训，看reward曲线和clean training比有没有明显gap。如果几乎没gap，你的模型在memorize。这是一个比传统overfitting metric更早能发现问题的信号。

3. Faithfulness监控比diversity监控更重要。在你的RL pipeline里加一个faithfulness eval（用一个相对强的judge model，对一组held-out prompts定期打分），观察aligned proportion随训练的演化。这是预测最终泛化能力的leading indicator。

4. 如果你的base model不work，想清楚是domain prior不够还是reasoning pattern不够。前者用CPT补，后者用Thinking SFT补，多数情况下两个都要。别想着"加更多RL data就能修好"——这条路很多时候是个坑。

5. 对小模型做reasoning RL要格外谨慎。1.5B-3B这个scale下，pre-training prior对RL outcome的决定性影响最大。如果你的目标是reasoning，优先选择那些预训练时见过相关分布的base model（比如Qwen-Math系列），而不是迁移成本更高的general-purpose model。

再聊几句这一波"RLVR神话"

最后想唠几句感想。RLVR这一年多在reasoning方向引发的兴奋是真实的——R1出来的时候大家都觉得我们走在了一条新路上。但慢慢地一些奇怪的结论开始堆积：

"1个样本就能涨" "随机奖励也能涨" "self-supervised也能涨"

这些声音叠加起来制造了一种印象：RL本身有某种神秘的"教导能力"，能凭空赋予模型推理技能。

这篇论文非常冷静地把这个神话拆掉了。它告诉我们：你看到的"RL奇迹"，绝大部分是pre-training已经装好的东西被RL释放出来的样子。如果pre-training没装，RL变不出魔法。

这并不否定RLVR的价值。GRPO这套机制依然是把模型从"会做"推到"擅长做"的高效手段。但它把RLVR放到了一个更准确的位置——它是pipeline的最后一个环节，前面的pre-training和SFT决定了它能做什么、做不到什么。

引用作者结论里那句话：

"RL under weak supervision is best understood not as a training technique applied to a fixed model, but as the final stage of a pipeline whose success is largely determined before RL begins."

这句话可能会成为接下来很长一段时间内RL方向的一句"金句"。它把整个领域的注意力从"调RL算法"拉回到"投入pre-RL training"——因为后者的杠杆其实更大。

如果你做reasoning RL，这篇论文值得反复看几遍。它的实验设计干净到可以当教科书读，结论又狠到逼着整个圈子重新审视过去一年的工作。我自己的预测是，2026年下半年会有一波"如何系统性地构建pre-RL prior"的研究浪潮起来。

至于这篇论文本身的局限——主要是规模（最大8B）和judge的可靠性——这些都需要后续工作去补。但它给出的解释框架，已经足够让一大批"看起来矛盾"的结论自洽起来了。

这就是好论文的标志：不是它造了个新东西，而是它让你重新理解了旧东西。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我