RLVR 训练只跑前 15% 步,剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文
核心摘要
如果有人告诉你,把 RLVR(带可验证奖励的强化学习)跑完 500 步的最终模型,可以只看前 75 步、然后用一行线性回归直接外推出来——而且效果跟真训练一样甚至更好——你大概率第一反应是不信。
我看到这篇论文标题的时候也是。
但作者在三个 Qwen 系列模型上做了一件挺惊人的事:把 RLVR 训练过程中每个权重张量的更新轨迹做 SVD,发现单个 Rank-1 方向就能解释绝大部分性能提升,而且这个方向上的标量系数随训练步数近乎完美的线性增长(\(R^2 \gt 0.98\))。基于这个观察,他们提出了 RELEX——只需观测前 15%–20% 的训练步,做一次 SVD + 线性拟合,就能预测任意步数的 checkpoint。在 MATH 上 71.6% vs 71.5%(Qwen2.5-Math-1.5B),85.6% vs 85.5%(Qwen3-4B-Base)。OOD 反而更好。
这篇论文最值钱的不是 RELEX 这个方法本身,是它揭示的一个事实:RLVR 训练在权重空间里走的,是一条几乎一维的直线。整个训练过程的"信息含量"远比我们以为的要少。
论文信息
- 标题:You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories
- 作者:Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng
- arXiv:2605.21468(2026 年 5 月 20 日)
- 代码:https://github.com/weizhepei/RELEX
一、为什么这事儿值得拿出来聊
先说一下 RLVR 这件事的代价。
现在主流的推理模型——DeepSeek-R1 那一票——都靠 RLVR 提升数学和推理能力。GRPO 那套流程很烧 GPU,一个中等规模模型动辄跑几百上千步,每一步都要采样、评分、更新。Qwen3 报告里训练时间以"天"为单位,ProRL 那篇直接告诉你成本就是和训练步数线性挂钩。
更让人难受的是,这套流程跑下来你会发现一个反复被验证的现象——RLVR 并没有教会模型什么真正"新"的东西。Yue 等人的工作、Zhu 等人的工作都指出,RLVR 主要是在"放大"预训练里已经潜伏的正确推理路径,同时压制错的那些。它更像是把预训练学到的能力调出来,而不是注入新能力。
如果是这样,问题就来了:
一个其实只是在"放大已有能力"的过程,需要走完 500 步才能完成吗?前 50 步的动力学,能不能告诉我们最终模型长什么样?
这就是这篇论文的出发点。说实话我一开始觉得这个问题挺玄的——权重空间是几百亿维的,你凭什么觉得它"有规律"?
作者给出的答案是:因为它真的有规律,而且规律简单到让人吃惊。
二、两个让人愣一下的实验观察
整篇论文的根基,是两个实验观察。这两个观察成立,方法就成立;不成立,方法就垮。所以先把这两件事讲透。
观察 1:RLVR 的权重更新是 Rank-1 的
操作是这样的:对 Qwen2.5-Math-1.5B 跑 500 步 GRPO,每步存一个 checkpoint。对每个权重张量 \(W^{(\ell)}\)(注意力的 q/k/v/o,FFN 的 gate/up/down),算它跟基础模型的差 \(\delta_t = W_t - W_0\)。把 500 个时刻的 delta 拉平拼成一个矩阵 \(M \in \mathbb{R}^{500 \times d}\),做 SVD:
然后只保留最大的那个奇异向量 \(\mathbf{v}_1\),把每一步的 delta 都投影到这条一维直线上重构回去:
然后把这个"用 Rank-1 重构出来的 checkpoint"丢到 MATH 上去测。结果如下:

图 1:在三个模型上,把每个张量都换成 Rank-1 近似后(橙色虚线),和真实 RLVR checkpoint(蓝色实线)几乎完全重合。Qwen2.5-Math-1.5B 上从 48.2% 涨到 71.5%,Rank-1 重构同样到 71.x%。
这个结果第一眼看到是会愣一下的。
权重张量 \(W\) 通常是几千乘几千的矩阵,flatten 之后就是百万维。从理论上说,500 步训练在百万维空间里完全可以画出任意复杂的曲线。但实际上呢——所有任务相关的变化都集中在一条一维直线上。其它方向上虽然也有变化,但和最终性能基本无关。
这件事说出来不算第一次。Cai 等人(AlphaRL)、Zhu 等人都注意到 RL 更新有低秩特征,Wang 等人观察到权重和 logits 都"线性演化"。但这篇论文是把"Rank-1 足够"这件事证得最干净、最赤裸的。
观察 2:那条 Rank-1 直线上的系数,随训练步数线性变化
光知道方向是低秩的还不够。要做外推,还得知道"沿着这条线走多快"。
把每一步的 delta 投影到 \(\mathbf{v}_1\),得到一串标量 \(c_1, c_2, \ldots, c_T\)。把这个序列作为时间的函数画出来:

图 2:Qwen2.5-Math-1.5B 中六个代表性模块(q/k/v/gate/up/down_proj)的 Rank-1 系数。蓝点是真实数据,粉线是线性拟合。\(R^2\) 在 0.982 到 0.990 之间——直线和散点几乎贴在一起。
这个图的味道我得多说两句。如果你做过深度学习训练,你会知道训练过程的损失曲线、梯度范数、各种 metric——基本都是非线性的,前期快后期慢,或者带各种相变。但这里的 Rank-1 系数(注意,不是任何 metric,是权重往 RL 方向移动的"投影距离")——居然几乎是直线。
\(R^2 \gt 0.98\) 是什么概念?意思是这条直线解释了系数变化的 98% 以上。所有数据点都死死贴在拟合直线上。
把这两个观察拼起来,论文要说的事就一目了然了:
RLVR 训练在权重空间里画的不是一条曲线,而是一条直线。前面 75 步看到的方向 \(\mathbf{v}_1\) 和速率 \(a\),后面 425 步只是沿着同一个方向、按同一个速率继续走。
三、RELEX:把观察变成方法
观察成立了,方法就近乎是"显然"的。
概念图先看一眼

图 3:左边是原始权重空间——各个 checkpoint 看起来在画曲线,难以预测。右边是 SVD 之后的 Rank-1 子空间——所有观测到的 checkpoint 都贴在 \(\mathbf{v}_1\) 这条直线上,标量系数随步数线性增长。RELEX 的逻辑就是:用前 125 步估计这条直线,然后沿着它直接外推到 500、1000 步。
这张图是整篇论文的"灵魂图",把核心 insight 解释得相当干净。左边那条弯弯绕绕的曲线和右边那条笔直的直线之间,差的就是一次 SVD 投影。
算法本身:三步,闭式解,零训练
Step 1:Rank-1 子空间估计
对每个权重张量 \(W^{(\ell)}\),收集前 \(T_{\text{obs}}\) 步的 delta,做截断 SVD,取最大奇异向量 \(\mathbf{v}_1^{(\ell)}\)。这步是闭式的,几秒钟搞定。
Step 2:线性系数外推
把每个 delta 投到 \(\mathbf{v}_1\) 上得到系数序列 \(\{c_1, \ldots, c_{T_{\text{obs}}}\}\),用最小二乘拟合 \(c(t) = at + b\):
外推到目标步数 \(T\):\(\hat{c}_T = a \cdot T + b\)。
Step 3:组装预测权重
把所有张量拼起来就是预测的 checkpoint \(\hat{\theta}_T\)。
整个过程没有任何"学习"——没有神经网络要训练,没有超参要调,全部是闭式解。复杂度相对于一次 RLVR step 都可以忽略。
我得说,这种简洁度本身就有点说服力——一个方法如果需要一堆魔法超参才能 work,多半是过拟合到实验设置上了。但这种闭式、无参的形式,要么是真的捕获了某种内禀结构,要么干脆就 work 不了。我们看实验。
四、实验结果:71.6% vs 71.5%
主表是这样的(论文 Table 1,三个模型 × 六个 benchmark):
| 方法 | MATH | AIME25 | AIME26 | HMMT25 | OlympBench | AMC23 | Avg. | 训练成本 |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-Math-1.5B | ||||||||
| Base | 48.2 | 4.2 | 5.0 | 0.8 | 23.2 | 33.1 | 19.1 | 0% |
| RLVR | 71.5 | 4.6 | 7.9 | 0.4 | 31.5 | 54.4 | 28.4 | 100% |
| ExPO | 67.7 | 6.7 | 8.8 | 0.4 | 29.5 | 50.3 | 27.2 | 15% |
| AlphaRL | 67.3 | 4.2 | 5.8 | 1.3 | 28.4 | 50.6 | 26.3 | 15% |
| Logits Extrap. | 64.9 | 3.8 | 7.9 | 0.4 | 28.2 | 44.8 | 25.0 | 15% |
| Weight Extrap. | 70.4 | 9.2 | 7.5 | 0.0 | 30.6 | 52.2 | 28.3 | 15% |
| RELEX | 71.6 | 8.8 | 10.0 | 2.1 | 31.4 | 56.2 | 30.0 | 15% |
| Qwen3-4B-Base | ||||||||
| Base | 64.0 | 7.9 | 8.8 | 0.8 | 31.6 | 43.8 | 26.2 | 0% |
| RLVR | 85.5 | 23.8 | 23.8 | 10.0 | 46.6 | 64.1 | 42.3 | 100% |
| RELEX | 85.6 | 23.8 | 19.2 | 14.6 | 47.4 | 67.2 | 43.0 | 15% |
| Qwen3-8B-Base | ||||||||
| Base | 73.9 | 10.0 | 7.1 | 2.9 | 36.9 | 53.8 | 30.8 | 0% |
| RLVR | 88.5 | 29.2 | 25.4 | 16.3 | 49.5 | 73.8 | 47.1 | 100% |
| RELEX | 87.4 | 27.5 | 24.6 | 15.4 | 49.6 | 72.8 | 46.2 | 20% |
几个我看到时候皱眉头/会心一笑的地方:
1. 在 1.5B 模型上 OOD 反而比 RLVR 全量训练更好。
OOD 平均:RELEX 30.0% vs RLVR 28.4%。Qwen2.5-Math-1.5B 上 RELEX 在 5 个 OOD 里赢了 4 个(AIME25、AIME26、HMMT25、AMC23)。这件事比"匹配 in-domain 性能"要 interesting 得多——它说明 SVD 投影不是"差不多复刻",而是某种意义上比原始 RLVR checkpoint 更干净。
作者自己的解释是——SVD 在做"光谱去噪"。后面看消融实验你会更信这一点。
2. Qwen3-8B-Base 上略有差距,但没崩。
87.4% vs 88.5%(in-domain MATH),平均 46.2 vs 47.1。差 1.1 个点和 0.9 个点。在只用 20% 训练成本的情况下,这个差距说实话相当能接受。
3. 同等 budget 下,RELEX 把其它外推 baseline 拉开了一截。
15% 训练成本下,RELEX 在 Qwen2.5-Math-1.5B 上 71.6%,Weight Extrap. 70.4%(差 1.2 分),ExPO 67.7%(差 3.9 分),AlphaRL 67.3%(差 4.3 分),Logits Extrap. 64.9%(差 6.7 分)。
Weight Extrap. 那个对比尤其值得多看一秒——它和 RELEX 都是基于"线性"假设,但 Weight Extrap. 是直接在原始权重空间用两个端点拟合一条直线,不做 SVD。结果就是 1.2 分的差距。
这 1.2 分实际上就是 SVD 投影的"贡献"——把高频的、跟任务无关的方向滤掉,只保留 Rank-1 的"信号方向"。这一步说到底就是一个频谱低通滤波器。
五、消融实验里那个让人愣住的细节
这部分我觉得是整篇论文最有判断力的一段。
作者把 RELEX 三个设计选择全部消融了一遍(论文 Table 2):
| 设计选择 | 变体 | Step 100 | Step 200 | Step 300 | Step 400 | Step 500 |
|---|---|---|---|---|---|---|
| 空间 | SVD(默认) | 67.8 | 70.0 | 70.1 | 70.9 | 71.6 |
| Raw weight | 67.4 | 68.5 | 69.8 | 70.4 | 70.7 | |
| 子空间秩 | Rank-1(默认) | 67.8 | 70.0 | 70.1 | 70.9 | 71.6 |
| Rank-5 | 67.0 | 68.4 | 69.9 | 69.8 | 70.6 | |
| Rank-10 | 67.4 | 68.8 | 69.6 | 70.1 | 70.5 | |
| 拟合函数 | 线性(默认) | 67.8 | 70.0 | 70.1 | 70.9 | 71.6 |
| 三次多项式 | 66.9 | 17.8 | 0.2 | 0.2 | 0.1 | |
| 神经网络(3 层 Transformer) | 67.2 | 69.5 | 70.5 | 70.5 | 72.1 |
三件事我想拎出来讲:
第一,Rank-1 真的就够了,加更多分量反而更差
直觉上你会觉得 Rank-5 应该比 Rank-1 强——更多自由度嘛。但实测 Rank-5、Rank-10 全面落后 Rank-1。
为什么?看下面这张图:

图 4:在一个代表性张量(Qwen2.5-Math-1.5B 的 layer 14 gate_proj)上做 Rank-5 SVD 之后,5 个分量的系数轨迹。Component 1 解释 81.4% 的方差,几乎是一条平滑直线;Component 2 解释 10.3%,已经开始往回拐;Component 3-5 加起来不到 10%,全是震荡的噪声。
这张图我觉得是整篇论文里最有说服力的一张。它告诉你:
- Component 1 是信号——81.4% 的方差,平滑、单调、可拟合
- Component 2-5 是噪声——震荡、非单调、线性外推会越走越偏
你加入 Rank-2 到 Rank-5 的信息,看起来是在"丰富模型",实际上是在引入不可靠的成分——这些成分在观测窗口内拟合得还行,但外推到几百步之后会被线性外推无限放大成 drift。
Rank-1 不是"权宜简化",而是"主动去噪"。 这个点我之前完全没意识到。
第二,三次多项式直接崩盘
Step 200 的时候三次多项式还能撑住 17.8%(虽然已经掉了一半),到 Step 300 直接 0.2%——模型彻底废了。
这就是过参数化外推的经典翻车现场。三次多项式有 4 个参数,在观测窗口内拟合得比线性更紧(训练误差更小),但对窗口外的预测完全不可控。一旦超出观测范围,一点噪声被三次方放大就是灾难。
这件事其实给所有做"用神经网络预测训练动力学"的人提了个醒:在 RLVR 这种真实信号本身就是线性的场景下,加复杂度只会让你过拟合到噪声上。
第三,神经网络拟合也没赢
3 层 Transformer 训练去拟合 Rank-1 系数轨迹,最终在 Step 500 是 72.1%(vs 线性 71.6%),算是赢了 0.5 分。但中间步数(Step 200 是 69.5% vs 线性 70.0%)反而输了,而且要付出"调超参 + 每步训练"的代价。
线性拟合是闭式解、无参数、零调参,比神经网络拟合更稳更便宜——这种情况下,复杂方法没有任何理由胜出。
六、长程外推:观测前 50 步,能不能预测到第 1000 步?
这是论文里另一个让我皱眉的实验。先看图——

图 5:teaser 图,展示 RELEX(红色,外推)vs RLVR(灰色实线,真实训练)。\(T_{\text{cut}}\) 之前是观测窗口(蓝色方块),之后是外推区(红圈)。三个模型上 RELEX 都基本贴住了 RLVR 的真实曲线。
更狠的是 Table 3 那个长程实验——观测窗口 \(T_{\text{obs}} \in \{50, 75, 100, 125\}\),外推到 1000 步(原始训练只有 500 步):
| 模型 | \(T_{\text{obs}}\) | 100 | 200 | 300 | 400 | 500 | 750 | 1000 |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-Math-1.5B | 50 | 67.7 | 68.5 | 69.2 | 70.2 | 70.8 | 70.8 | 66.3 |
| (RLVR=71.5) | 75 | 67.8 | 70.0 | 70.1 | 70.9 | 71.6 | 65.7 | 68.4 |
| 100 | --- | 68.6 | 69.5 | 70.2 | 70.4 | 71.3 | 71.2 | |
| 125 | --- | 69.1 | 69.9 | 70.5 | 70.9 | 71.7 | 71.6 | |
| Qwen3-8B-Base | 50 | 84.6 | 84.9 | 85.9 | 86.2 | 84.7 | 57.4 | 22.7 |
| (RLVR=88.5) | 75 | 83.7 | 85.9 | 86.2 | 86.3 | 87.0 | 78.3 | 50.4 |
| 100 | --- | 85.6 | 85.9 | 86.4 | 87.7 | 87.4 | 82.4 | |
| 125 | --- | 86.0 | 85.9 | 86.6 | 87.5 | 88.0 | 85.6 |
这个表里我看到几件事:
好消息:在合适的 \(T_{\text{obs}}\) 下,外推到 1000 步(原训练 horizon 的两倍)依然能保持峰值附近。Qwen2.5-Math-1.5B 用 \(T_{\text{obs}}=125\),到 1000 步还有 71.6%,比 RLVR 500 步的 71.5% 还高。Qwen3-8B-Base 用 \(T_{\text{obs}}=125\) 到 1000 步保持 85.6%。
坏消息:\(T_{\text{obs}}\) 选错了就会崩。Qwen3-8B-Base 用 \(T_{\text{obs}}=50\) 外推到 1000 步直接掉到 22.7%。Qwen3-4B-Base 上更尴尬,没有任何 \(T_{\text{obs}}\) 能稳定撑过 750 步——大窗口长程崩,小窗口短程弱。
这件事提醒我们:Rank-1 直线假设不是永远成立的。它在足够长的时间尺度上会偏离,而且偏离速度跟模型有关。1.5B 模型上"直线"几乎覆盖到 1000 步,8B 模型上需要更长的观测窗口才稳,4B 反而最难调。
作者自己也点了——"long-horizon stability requires a matched observation window for each model"。这是一个很诚实的限制,但也是这个方法目前最大的实操痛点:你不知道对一个新模型该选什么 \(T_{\text{obs}}\),需要试。
七、说几句批判和判断
技术层面的事讲完了,我想说几个我自己的看法。
这篇论文最厉害的不是 RELEX,是它揭示的现象
RELEX 这个方法本身——SVD + 线性回归——技术上没有任何复杂度。任何稍微熟悉数值线性代数的人,看到"权重轨迹是 Rank-1 的"这个观察,都能写出 RELEX。
这篇论文真正的贡献是把"RLVR 训练等价于在权重空间走一条直线"这件事说清楚、做扎实。\(R^2 > 0.98\) 这个数字,比任何方法都更有冲击力——它意味着 RLVR 的整个训练动力学的"信息含量",可以压缩到每个张量两个标量(斜率 \(a\) 和截距 \(b\))。
如果这个观察推广得开,对整个 RL 训练理论的影响远不止"省 80% 训练成本"。它意味着:
- RLVR 的本质是一个一维 amplification——你可以用 SFT-like 的开销逼近它
- GRPO/PPO 等具体算法的差异,可能主要影响那条直线的方向(\(\mathbf{v}_1\))和速率(\(a\)),而不是更复杂的高维行为
- 训练时间这个变量在 RLVR 里几乎是冗余的,因为它和 \(c_t\) 线性挂钩
但要小心几个潜在的"伪命题"陷阱
第一,评估只在数学推理上做。
只测了 MATH、AIME、HMMT、OlympiadBench、AMC23——全是数学。论文 limitations 也承认了:代码生成、其它推理任务、其它模型族(Llama)都没测。
数学推理有一个独特性:答案是可验证的离散标量,奖励信号特别"干净"。这可能是为什么 GRPO 学到的东西高度集中——因为 reward 本身就指向一个非常明确的方向。换到代码生成、对话、tool use 等更模糊的任务,这种 Rank-1 结构是否还成立,是个开放问题。
第二,模型族也只在 Qwen 上做。
Qwen2.5-Math、Qwen3-4B-Base、Qwen3-8B-Base——三个全都是 Qwen 家族。Llama 系列、Mistral 系列、DeepSeek 自己的 base 模型怎么样?没测。
第三,\(T_{\text{obs}}\) 不可预测是个真问题。
实操中你不知道一个新模型该选 50、75、100 还是 125。论文里这些 sweet spot 是回测出来的——你拿着 RELEX 上线一个新模型,第一次根本不知道选哪个。Qwen3-4B 那个"没有任何 \(T_{\text{obs}}\) 能稳过 750 步"的现象,可能在很多模型上都会出现。
discussion 里作者提了"adaptive subspace selection"作为 future work,这个方向其实很关键——能不能在线监控 \(\mathbf{v}_1\) 是否在漂移?monitoring singular value gaps?我觉得这才是把这个方法变成生产工具的最后一公里。
第四,跟同期工作(Wang 2026 / Cai 2026 / Chen 2026)的差异要看清楚。
Wang 等人(Weight Extrapolation)也基于"线性"假设,但他们用的是两个端点直接在原始权重空间拟合——RELEX 用了完整观测前缀 + SVD 子空间。1.2 分的差距就是这两个区别带来的。
Cai 等人(AlphaRL)也注意到 Rank-1 主导,但他们在每个 checkpoint 单独做 SVD,basis 在轨迹上会"旋转"。RELEX 是轨迹级的单次 SVD,basis 共享。
Chen 等人(NExt)认为 Rank-1 子空间不是线性演化的,需要训练神经网络做非线性预测。RELEX 直接用闭式线性拟合就能 work,反过来说明——至少在 Qwen + 数学场景下,"线性 + Rank-1"足够;非线性方法的复杂度可能没有必要。
这种"前后脚同时出现的相似工作"在 RL 动力学这个方向上密集到这种程度,我觉得说明几件事:(1)这是一个真正的 phenomenon,多组人独立观察到;(2)社区还没有形成共识到底该用哪种范式;(3)未来一年这个方向会有大量后续工作。
工程上能落地什么
如果你正在做 RLVR 训练,这篇论文给的可操作启示有几个:
- 可以把 RLVR 训练 budget 砍到 15-20%。 跑前 75-125 步存 checkpoint,剩下用 RELEX 算。每个张量两次操作(SVD、最小二乘),开销可以忽略。
- SVD 投影本身就是个免费的"后处理 trick"。 哪怕你不做外推、跑完了完整 RLVR,把最终 checkpoint 用 Rank-1 投影一下,可能 OOD 还能涨一点(论文里 Qwen2.5-Math-1.5B 平均涨了 1.6 分)。
- 不要用神经网络去拟合 RLVR 动力学。 至少在数学推理 + Qwen 这个组合下,你只会过拟合到噪声。
- 多存 checkpoint 比想象中重要。 RELEX 工作的前提是有完整前缀的细粒度 checkpoint(每步存)。如果你只存 5 个稀疏 checkpoint,SVD 估计会糊掉。
八、收尾
回到最开始的那个问题——"RLVR 跑前 15% 步剩下能算出来",论文给的答案是:在数学推理 + Qwen 这个具体组合下,确实可以,而且原因是 RLVR 训练在权重空间走的是一条几何意义上的直线。
这件事如果只是个工程 trick,省点 GPU 时间,那就是一篇 NeurIPS workshop 水准的论文。但 \(R^2 \gt 0.98\) 这个数字让它变成了另一种东西——它是关于 RL 训练本质的一个观察,意味着整个 RLVR 过程的动力学可以被压缩到一个一维参数化。
我读完之后真正在想的问题是:
- 如果 RLVR 真的就是在做 Rank-1 amplification,那 PPO/GRPO/RLOO 这些算法之间的差异到底体现在哪里?是斜率不同、方向不同,还是有些算法就压根不是 Rank-1 的?
- 如果一条直线就够,为什么不能用 SFT 直接学到那条直线的目标 checkpoint?这件事如果可行,整个 RLVR 范式都可能被绕开。
- 监督式从基础模型到外推 checkpoint 的"教师 → 学生"蒸馏,会不会比 RLVR 本身更便宜更稳定?
这些问题论文都没回答,但每一个都是值得后续认真做的事。
如果你也在做 RLVR、GRPO、reasoning 训练,这篇论文我建议精读,至少把 Section 3(preliminary)和 Figure 5 那个 5 分量分解的图反复看几遍。\(R^2 = 0.98\) 那张图是有冲击力的——一旦你接受了"RLVR 就是在画直线"这个事实,你看 RL 训练的角度会不一样。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我