RLVR 训练只跑前 15% 步，剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文

核心摘要

如果有人告诉你，把 RLVR（带可验证奖励的强化学习）跑完 500 步的最终模型，可以只看前 75 步、然后用一行线性回归直接外推出来——而且效果跟真训练一样甚至更好——你大概率第一反应是不信。

我看到这篇论文标题的时候也是。

但作者在三个 Qwen 系列模型上做了一件挺惊人的事：把 RLVR 训练过程中每个权重张量的更新轨迹做 SVD，发现单个 Rank-1 方向就能解释绝大部分性能提升，而且这个方向上的标量系数随训练步数近乎完美的线性增长（\(R^2 \gt 0.98\)）。基于这个观察，他们提出了 RELEX——只需观测前 15%–20% 的训练步，做一次 SVD + 线性拟合，就能预测任意步数的 checkpoint。在 MATH 上 71.6% vs 71.5%（Qwen2.5-Math-1.5B），85.6% vs 85.5%（Qwen3-4B-Base）。OOD 反而更好。

这篇论文最值钱的不是 RELEX 这个方法本身，是它揭示的一个事实：RLVR 训练在权重空间里走的，是一条几乎一维的直线。整个训练过程的"信息含量"远比我们以为的要少。

论文信息

标题：You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories
作者：Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng
arXiv：2605.21468（2026 年 5 月 20 日）
代码：https://github.com/weizhepei/RELEX

一、为什么这事儿值得拿出来聊

先说一下 RLVR 这件事的代价。

现在主流的推理模型——DeepSeek-R1 那一票——都靠 RLVR 提升数学和推理能力。GRPO 那套流程很烧 GPU，一个中等规模模型动辄跑几百上千步，每一步都要采样、评分、更新。Qwen3 报告里训练时间以"天"为单位，ProRL 那篇直接告诉你成本就是和训练步数线性挂钩。

更让人难受的是，这套流程跑下来你会发现一个反复被验证的现象——RLVR 并没有教会模型什么真正"新"的东西。Yue 等人的工作、Zhu 等人的工作都指出，RLVR 主要是在"放大"预训练里已经潜伏的正确推理路径，同时压制错的那些。它更像是把预训练学到的能力调出来，而不是注入新能力。

如果是这样，问题就来了：

一个其实只是在"放大已有能力"的过程，需要走完 500 步才能完成吗？前 50 步的动力学，能不能告诉我们最终模型长什么样？

这就是这篇论文的出发点。说实话我一开始觉得这个问题挺玄的——权重空间是几百亿维的，你凭什么觉得它"有规律"？

作者给出的答案是：因为它真的有规律，而且规律简单到让人吃惊。

二、两个让人愣一下的实验观察

整篇论文的根基，是两个实验观察。这两个观察成立，方法就成立；不成立，方法就垮。所以先把这两件事讲透。

观察 1：RLVR 的权重更新是 Rank-1 的

操作是这样的：对 Qwen2.5-Math-1.5B 跑 500 步 GRPO，每步存一个 checkpoint。对每个权重张量 \(W^{(\ell)}\)（注意力的 q/k/v/o，FFN 的 gate/up/down），算它跟基础模型的差 \(\delta_t = W_t - W_0\)。把 500 个时刻的 delta 拉平拼成一个矩阵 \(M \in \mathbb{R}^{500 \times d}\)，做 SVD：

\[M = U \Sigma V^\top\]

然后只保留最大的那个奇异向量 \(\mathbf{v}_1\)，把每一步的 delta 都投影到这条一维直线上重构回去：

\[\hat{W}_t = W_0 + c_t \cdot \mathbf{v}_1, \quad c_t = \langle \delta_t, \mathbf{v}_1 \rangle\]

然后把这个"用 Rank-1 重构出来的 checkpoint"丢到 MATH 上去测。结果如下：

图1：Rank-1 重构与真实 RLVR 轨迹的性能对比

图 1：在三个模型上，把每个张量都换成 Rank-1 近似后（橙色虚线），和真实 RLVR checkpoint（蓝色实线）几乎完全重合。Qwen2.5-Math-1.5B 上从 48.2% 涨到 71.5%，Rank-1 重构同样到 71.x%。

这个结果第一眼看到是会愣一下的。

权重张量 \(W\) 通常是几千乘几千的矩阵，flatten 之后就是百万维。从理论上说，500 步训练在百万维空间里完全可以画出任意复杂的曲线。但实际上呢——所有任务相关的变化都集中在一条一维直线上。其它方向上虽然也有变化，但和最终性能基本无关。

这件事说出来不算第一次。Cai 等人（AlphaRL）、Zhu 等人都注意到 RL 更新有低秩特征，Wang 等人观察到权重和 logits 都"线性演化"。但这篇论文是把"Rank-1 足够"这件事证得最干净、最赤裸的。

观察 2：那条 Rank-1 直线上的系数，随训练步数线性变化

光知道方向是低秩的还不够。要做外推，还得知道"沿着这条线走多快"。

把每一步的 delta 投影到 \(\mathbf{v}_1\)，得到一串标量 \(c_1, c_2, \ldots, c_T\)。把这个序列作为时间的函数画出来：

图2：Rank-1 系数随训练步数线性演化

图 2：Qwen2.5-Math-1.5B 中六个代表性模块（q/k/v/gate/up/down_proj）的 Rank-1 系数。蓝点是真实数据，粉线是线性拟合。\(R^2\) 在 0.982 到 0.990 之间——直线和散点几乎贴在一起。

这个图的味道我得多说两句。如果你做过深度学习训练，你会知道训练过程的损失曲线、梯度范数、各种 metric——基本都是非线性的，前期快后期慢，或者带各种相变。但这里的 Rank-1 系数（注意，不是任何 metric，是权重往 RL 方向移动的"投影距离"）——居然几乎是直线。

\(R^2 \gt 0.98\) 是什么概念？意思是这条直线解释了系数变化的 98% 以上。所有数据点都死死贴在拟合直线上。

把这两个观察拼起来，论文要说的事就一目了然了：

RLVR 训练在权重空间里画的不是一条曲线，而是一条直线。前面 75 步看到的方向 \(\mathbf{v}_1\) 和速率 \(a\)，后面 425 步只是沿着同一个方向、按同一个速率继续走。

三、RELEX：把观察变成方法

观察成立了，方法就近乎是"显然"的。

概念图先看一眼

图3：从原始权重轨迹到 Rank-1 外推的核心直觉

图 3：左边是原始权重空间——各个 checkpoint 看起来在画曲线，难以预测。右边是 SVD 之后的 Rank-1 子空间——所有观测到的 checkpoint 都贴在 \(\mathbf{v}_1\) 这条直线上，标量系数随步数线性增长。RELEX 的逻辑就是：用前 125 步估计这条直线，然后沿着它直接外推到 500、1000 步。

这张图是整篇论文的"灵魂图"，把核心 insight 解释得相当干净。左边那条弯弯绕绕的曲线和右边那条笔直的直线之间，差的就是一次 SVD 投影。

算法本身：三步，闭式解，零训练

Step 1：Rank-1 子空间估计

对每个权重张量 \(W^{(\ell)}\)，收集前 \(T_{\text{obs}}\) 步的 delta，做截断 SVD，取最大奇异向量 \(\mathbf{v}_1^{(\ell)}\)。这步是闭式的，几秒钟搞定。

Step 2：线性系数外推

把每个 delta 投到 \(\mathbf{v}_1\) 上得到系数序列 \(\{c_1, \ldots, c_{T_{\text{obs}}}\}\)，用最小二乘拟合 \(c(t) = at + b\)：

\[a^{(\ell)} = \frac{\text{Cov}(t, c_t)}{\text{Var}(t)}, \quad b^{(\ell)} = \bar{c} - a \bar{t}\]

外推到目标步数 \(T\)：\(\hat{c}_T = a \cdot T + b\)。

Step 3：组装预测权重

\[\hat{W}_T^{(\ell)} = W_0^{(\ell)} + \hat{c}_T^{(\ell)} \cdot \mathbf{v}_1^{(\ell)}\]

把所有张量拼起来就是预测的 checkpoint \(\hat{\theta}_T\)。

整个过程没有任何"学习"——没有神经网络要训练，没有超参要调，全部是闭式解。复杂度相对于一次 RLVR step 都可以忽略。

我得说，这种简洁度本身就有点说服力——一个方法如果需要一堆魔法超参才能 work，多半是过拟合到实验设置上了。但这种闭式、无参的形式，要么是真的捕获了某种内禀结构，要么干脆就 work 不了。我们看实验。

四、实验结果：71.6% vs 71.5%

主表是这样的（论文 Table 1，三个模型 × 六个 benchmark）：

方法	MATH	AIME25	AIME26	HMMT25	OlympBench	AMC23	Avg.	训练成本
Qwen2.5-Math-1.5B
Base	48.2	4.2	5.0	0.8	23.2	33.1	19.1	0%
RLVR	71.5	4.6	7.9	0.4	31.5	54.4	28.4	100%
ExPO	67.7	6.7	8.8	0.4	29.5	50.3	27.2	15%
AlphaRL	67.3	4.2	5.8	1.3	28.4	50.6	26.3	15%
Logits Extrap.	64.9	3.8	7.9	0.4	28.2	44.8	25.0	15%
Weight Extrap.	70.4	9.2	7.5	0.0	30.6	52.2	28.3	15%
RELEX	71.6	8.8	10.0	2.1	31.4	56.2	30.0	15%
Qwen3-4B-Base
Base	64.0	7.9	8.8	0.8	31.6	43.8	26.2	0%
RLVR	85.5	23.8	23.8	10.0	46.6	64.1	42.3	100%
RELEX	85.6	23.8	19.2	14.6	47.4	67.2	43.0	15%
Qwen3-8B-Base
Base	73.9	10.0	7.1	2.9	36.9	53.8	30.8	0%
RLVR	88.5	29.2	25.4	16.3	49.5	73.8	47.1	100%
RELEX	87.4	27.5	24.6	15.4	49.6	72.8	46.2	20%

几个我看到时候皱眉头/会心一笑的地方：

1. 在 1.5B 模型上 OOD 反而比 RLVR 全量训练更好。

OOD 平均：RELEX 30.0% vs RLVR 28.4%。Qwen2.5-Math-1.5B 上 RELEX 在 5 个 OOD 里赢了 4 个（AIME25、AIME26、HMMT25、AMC23）。这件事比"匹配 in-domain 性能"要 interesting 得多——它说明 SVD 投影不是"差不多复刻"，而是某种意义上比原始 RLVR checkpoint 更干净。

作者自己的解释是——SVD 在做"光谱去噪"。后面看消融实验你会更信这一点。

2. Qwen3-8B-Base 上略有差距，但没崩。

87.4% vs 88.5%（in-domain MATH），平均 46.2 vs 47.1。差 1.1 个点和 0.9 个点。在只用 20% 训练成本的情况下，这个差距说实话相当能接受。

3. 同等 budget 下，RELEX 把其它外推 baseline 拉开了一截。

15% 训练成本下，RELEX 在 Qwen2.5-Math-1.5B 上 71.6%，Weight Extrap. 70.4%（差 1.2 分），ExPO 67.7%（差 3.9 分），AlphaRL 67.3%（差 4.3 分），Logits Extrap. 64.9%（差 6.7 分）。

Weight Extrap. 那个对比尤其值得多看一秒——它和 RELEX 都是基于"线性"假设，但 Weight Extrap. 是直接在原始权重空间用两个端点拟合一条直线，不做 SVD。结果就是 1.2 分的差距。

这 1.2 分实际上就是 SVD 投影的"贡献"——把高频的、跟任务无关的方向滤掉，只保留 Rank-1 的"信号方向"。这一步说到底就是一个频谱低通滤波器。

五、消融实验里那个让人愣住的细节

这部分我觉得是整篇论文最有判断力的一段。

作者把 RELEX 三个设计选择全部消融了一遍（论文 Table 2）：

设计选择	变体	Step 100	Step 200	Step 300	Step 400	Step 500
空间	SVD（默认）	67.8	70.0	70.1	70.9	71.6
	Raw weight	67.4	68.5	69.8	70.4	70.7
子空间秩	Rank-1（默认）	67.8	70.0	70.1	70.9	71.6
	Rank-5	67.0	68.4	69.9	69.8	70.6
	Rank-10	67.4	68.8	69.6	70.1	70.5
拟合函数	线性（默认）	67.8	70.0	70.1	70.9	71.6
	三次多项式	66.9	17.8	0.2	0.2	0.1
	神经网络（3 层 Transformer）	67.2	69.5	70.5	70.5	72.1

三件事我想拎出来讲：

第一，Rank-1 真的就够了，加更多分量反而更差

直觉上你会觉得 Rank-5 应该比 Rank-1 强——更多自由度嘛。但实测 Rank-5、Rank-10 全面落后 Rank-1。

为什么？看下面这张图：

图4：Rank-5 SVD 系数轨迹的成分分析

图 4：在一个代表性张量（Qwen2.5-Math-1.5B 的 layer 14 gate_proj）上做 Rank-5 SVD 之后，5 个分量的系数轨迹。Component 1 解释 81.4% 的方差，几乎是一条平滑直线；Component 2 解释 10.3%，已经开始往回拐；Component 3-5 加起来不到 10%，全是震荡的噪声。

这张图我觉得是整篇论文里最有说服力的一张。它告诉你：

Component 1 是信号——81.4% 的方差，平滑、单调、可拟合
Component 2-5 是噪声——震荡、非单调、线性外推会越走越偏

你加入 Rank-2 到 Rank-5 的信息，看起来是在"丰富模型"，实际上是在引入不可靠的成分——这些成分在观测窗口内拟合得还行，但外推到几百步之后会被线性外推无限放大成 drift。

Rank-1 不是"权宜简化"，而是"主动去噪"。 这个点我之前完全没意识到。

第二，三次多项式直接崩盘

Step 200 的时候三次多项式还能撑住 17.8%（虽然已经掉了一半），到 Step 300 直接 0.2%——模型彻底废了。

这就是过参数化外推的经典翻车现场。三次多项式有 4 个参数，在观测窗口内拟合得比线性更紧（训练误差更小），但对窗口外的预测完全不可控。一旦超出观测范围，一点噪声被三次方放大就是灾难。

这件事其实给所有做"用神经网络预测训练动力学"的人提了个醒：在 RLVR 这种真实信号本身就是线性的场景下，加复杂度只会让你过拟合到噪声上。

第三，神经网络拟合也没赢

3 层 Transformer 训练去拟合 Rank-1 系数轨迹，最终在 Step 500 是 72.1%（vs 线性 71.6%），算是赢了 0.5 分。但中间步数（Step 200 是 69.5% vs 线性 70.0%）反而输了，而且要付出"调超参 + 每步训练"的代价。

线性拟合是闭式解、无参数、零调参，比神经网络拟合更稳更便宜——这种情况下，复杂方法没有任何理由胜出。

六、长程外推：观测前 50 步，能不能预测到第 1000 步？

这是论文里另一个让我皱眉的实验。先看图——

图5：RELEX 在三个模型上的外推性能对比

图 5：teaser 图，展示 RELEX（红色，外推）vs RLVR（灰色实线，真实训练）。\(T_{\text{cut}}\) 之前是观测窗口（蓝色方块），之后是外推区（红圈）。三个模型上 RELEX 都基本贴住了 RLVR 的真实曲线。

更狠的是 Table 3 那个长程实验——观测窗口 \(T_{\text{obs}} \in \{50, 75, 100, 125\}\)，外推到 1000 步（原始训练只有 500 步）：

模型	\(T_{\text{obs}}\)	100	200	300	400	500	750	1000
Qwen2.5-Math-1.5B	50	67.7	68.5	69.2	70.2	70.8	70.8	66.3
(RLVR=71.5)	75	67.8	70.0	70.1	70.9	71.6	65.7	68.4
	100	---	68.6	69.5	70.2	70.4	71.3	71.2
	125	---	69.1	69.9	70.5	70.9	71.7	71.6
Qwen3-8B-Base	50	84.6	84.9	85.9	86.2	84.7	57.4	22.7
(RLVR=88.5)	75	83.7	85.9	86.2	86.3	87.0	78.3	50.4
	100	---	85.6	85.9	86.4	87.7	87.4	82.4
	125	---	86.0	85.9	86.6	87.5	88.0	85.6

这个表里我看到几件事：

好消息：在合适的 \(T_{\text{obs}}\) 下，外推到 1000 步（原训练 horizon 的两倍）依然能保持峰值附近。Qwen2.5-Math-1.5B 用 \(T_{\text{obs}}=125\)，到 1000 步还有 71.6%，比 RLVR 500 步的 71.5% 还高。Qwen3-8B-Base 用 \(T_{\text{obs}}=125\) 到 1000 步保持 85.6%。

坏消息：\(T_{\text{obs}}\) 选错了就会崩。Qwen3-8B-Base 用 \(T_{\text{obs}}=50\) 外推到 1000 步直接掉到 22.7%。Qwen3-4B-Base 上更尴尬，没有任何 \(T_{\text{obs}}\) 能稳定撑过 750 步——大窗口长程崩，小窗口短程弱。

这件事提醒我们：Rank-1 直线假设不是永远成立的。它在足够长的时间尺度上会偏离，而且偏离速度跟模型有关。1.5B 模型上"直线"几乎覆盖到 1000 步，8B 模型上需要更长的观测窗口才稳，4B 反而最难调。

作者自己也点了——"long-horizon stability requires a matched observation window for each model"。这是一个很诚实的限制，但也是这个方法目前最大的实操痛点：你不知道对一个新模型该选什么 \(T_{\text{obs}}\)，需要试。

七、说几句批判和判断

技术层面的事讲完了，我想说几个我自己的看法。

这篇论文最厉害的不是 RELEX，是它揭示的现象

RELEX 这个方法本身——SVD + 线性回归——技术上没有任何复杂度。任何稍微熟悉数值线性代数的人，看到"权重轨迹是 Rank-1 的"这个观察，都能写出 RELEX。

这篇论文真正的贡献是把"RLVR 训练等价于在权重空间走一条直线"这件事说清楚、做扎实。\(R^2 > 0.98\) 这个数字，比任何方法都更有冲击力——它意味着 RLVR 的整个训练动力学的"信息含量"，可以压缩到每个张量两个标量（斜率 \(a\) 和截距 \(b\)）。

如果这个观察推广得开，对整个 RL 训练理论的影响远不止"省 80% 训练成本"。它意味着：

RLVR 的本质是一个一维 amplification——你可以用 SFT-like 的开销逼近它
GRPO/PPO 等具体算法的差异，可能主要影响那条直线的方向（\(\mathbf{v}_1\)）和速率（\(a\)），而不是更复杂的高维行为
训练时间这个变量在 RLVR 里几乎是冗余的，因为它和 \(c_t\) 线性挂钩

但要小心几个潜在的"伪命题"陷阱

第一，评估只在数学推理上做。

只测了 MATH、AIME、HMMT、OlympiadBench、AMC23——全是数学。论文 limitations 也承认了：代码生成、其它推理任务、其它模型族（Llama）都没测。

数学推理有一个独特性：答案是可验证的离散标量，奖励信号特别"干净"。这可能是为什么 GRPO 学到的东西高度集中——因为 reward 本身就指向一个非常明确的方向。换到代码生成、对话、tool use 等更模糊的任务，这种 Rank-1 结构是否还成立，是个开放问题。

第二，模型族也只在 Qwen 上做。

Qwen2.5-Math、Qwen3-4B-Base、Qwen3-8B-Base——三个全都是 Qwen 家族。Llama 系列、Mistral 系列、DeepSeek 自己的 base 模型怎么样？没测。

第三，\(T_{\text{obs}}\) 不可预测是个真问题。

实操中你不知道一个新模型该选 50、75、100 还是 125。论文里这些 sweet spot 是回测出来的——你拿着 RELEX 上线一个新模型，第一次根本不知道选哪个。Qwen3-4B 那个"没有任何 \(T_{\text{obs}}\) 能稳过 750 步"的现象，可能在很多模型上都会出现。

discussion 里作者提了"adaptive subspace selection"作为 future work，这个方向其实很关键——能不能在线监控 \(\mathbf{v}_1\) 是否在漂移？monitoring singular value gaps？我觉得这才是把这个方法变成生产工具的最后一公里。

第四，跟同期工作（Wang 2026 / Cai 2026 / Chen 2026）的差异要看清楚。

Wang 等人（Weight Extrapolation）也基于"线性"假设，但他们用的是两个端点直接在原始权重空间拟合——RELEX 用了完整观测前缀 + SVD 子空间。1.2 分的差距就是这两个区别带来的。

Cai 等人（AlphaRL）也注意到 Rank-1 主导，但他们在每个 checkpoint 单独做 SVD，basis 在轨迹上会"旋转"。RELEX 是轨迹级的单次 SVD，basis 共享。

Chen 等人（NExt）认为 Rank-1 子空间不是线性演化的，需要训练神经网络做非线性预测。RELEX 直接用闭式线性拟合就能 work，反过来说明——至少在 Qwen + 数学场景下，"线性 + Rank-1"足够；非线性方法的复杂度可能没有必要。

这种"前后脚同时出现的相似工作"在 RL 动力学这个方向上密集到这种程度，我觉得说明几件事：（1）这是一个真正的 phenomenon，多组人独立观察到；（2）社区还没有形成共识到底该用哪种范式；（3）未来一年这个方向会有大量后续工作。

工程上能落地什么

如果你正在做 RLVR 训练，这篇论文给的可操作启示有几个：

可以把 RLVR 训练 budget 砍到 15-20%。 跑前 75-125 步存 checkpoint，剩下用 RELEX 算。每个张量两次操作（SVD、最小二乘），开销可以忽略。
SVD 投影本身就是个免费的"后处理 trick"。 哪怕你不做外推、跑完了完整 RLVR，把最终 checkpoint 用 Rank-1 投影一下，可能 OOD 还能涨一点（论文里 Qwen2.5-Math-1.5B 平均涨了 1.6 分）。
不要用神经网络去拟合 RLVR 动力学。 至少在数学推理 + Qwen 这个组合下，你只会过拟合到噪声。
多存 checkpoint 比想象中重要。 RELEX 工作的前提是有完整前缀的细粒度 checkpoint（每步存）。如果你只存 5 个稀疏 checkpoint，SVD 估计会糊掉。

八、收尾

回到最开始的那个问题——"RLVR 跑前 15% 步剩下能算出来"，论文给的答案是：在数学推理 + Qwen 这个具体组合下，确实可以，而且原因是 RLVR 训练在权重空间走的是一条几何意义上的直线。

这件事如果只是个工程 trick，省点 GPU 时间，那就是一篇 NeurIPS workshop 水准的论文。但 \(R^2 \gt 0.98\) 这个数字让它变成了另一种东西——它是关于 RL 训练本质的一个观察，意味着整个 RLVR 过程的动力学可以被压缩到一个一维参数化。

我读完之后真正在想的问题是：

如果 RLVR 真的就是在做 Rank-1 amplification，那 PPO/GRPO/RLOO 这些算法之间的差异到底体现在哪里？是斜率不同、方向不同，还是有些算法就压根不是 Rank-1 的？
如果一条直线就够，为什么不能用 SFT 直接学到那条直线的目标 checkpoint？这件事如果可行，整个 RLVR 范式都可能被绕开。
监督式从基础模型到外推 checkpoint 的"教师 → 学生"蒸馏，会不会比 RLVR 本身更便宜更稳定？

这些问题论文都没回答，但每一个都是值得后续认真做的事。

如果你也在做 RLVR、GRPO、reasoning 训练，这篇论文我建议精读，至少把 Section 3（preliminary）和 Figure 5 那个 5 分量分解的图反复看几遍。\(R^2 = 0.98\) 那张图是有冲击力的——一旦你接受了"RLVR 就是在画直线"这个事实，你看 RL 训练的角度会不一样。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新 AI 前沿，关注我