ActGuide-RL:把 SFT 冷启动换成"动作引导"的智能体 RL 新范式

写在前面

做过 Agentic RL 训练的人多半都有过这种崩溃时刻:模型在简单任务上能学,一到难任务,整组 rollout 全 0 分,advantage 直接归零,梯度啥也没有,loss 曲线躺平。

更让人无语的是,业内目前公认的解法只有一条——先做一轮 SFT 冷启动,再上 RL。问题是:SFT 数据要标注 reasoning trace、要蒸馏大模型、要做难度配平,整个流程比 RL 本身还重,换个领域、换个工具集就得从头做一遍。

阿里高德 AMAP 团队最近放出来的这篇 ActGuide-RL,提出了一个我看完之后觉得"对,就应该这么做"的思路:与其费劲做 SFT 冷启动,不如直接把人类日常产生的"动作数据"作为参考计划喂给模型,让它在踩不到 reward 的关卡上自己走过去。在 GAIA 上零冷启动比纯 RL 涨 10.68 个点,在 WebWalker 上涨 27.79 个点——更关键的是,性能跟"SFT 加 RL"两段式 pipeline 持平,但没有任何 SFT。

这篇我想认真聊聊,因为它触碰到了一个很底层的问题:Agentic RL 到底卡在哪?以及,凭什么动作数据可以替代 reasoning 数据?


论文信息

项目 内容
标题 Learning Agentic Policy from Action Guidance
作者 Yuxiang Ji、Zengbin Wang、Yong Wang、Shidong Yang、Ziyu Ma、Guanhua Chen、Zonghua Sun、Liaoni Wu、Xiangxiang Chu
机构 厦门大学 / AMAP(阿里高德) / 南方科技大学
提交日期 2026 年 5 月 12 日
arXiv 2605.12004
代码 github.com/AMAP-ML/ActGuide-RL

一个被低估的问题:可达性瓶颈

先抛个问题:为什么 RL 在难任务上学不动?

教科书答案是"reward 太稀疏"。但稀疏只是表象。真正的根因是论文里讲的"reachability barrier"——可达性瓶颈。

我用大白话翻译一下。Agentic RL 通常用 GRPO 这种 group-based 算法:同一个任务采 N 条轨迹,根据成功失败之间的对比算 advantage。这玩法的前提是,N 条里至少得有几条成功——这样 advantage 才不是 0。

但如果任务太难,N 条全失败呢?group advantage 集体归零,梯度归零,这一批数据完全没用。论文形式化地把这个现象描述成"effective state-visiting mass"在某个关键区间 \([b, b+m-1]\) 内崩溃:

\[M_v^\pi = M_u^\pi \prod_{t=u}^{v-1} \bar{\kappa}_t^\pi\]

其中 \(\bar{\kappa}_t^\pi\) 是单步可达性保留率。一旦某个短区间的累积 \(\bar{\kappa}\) 远小于 1,后续 rollout 就再也走不回有奖励的状态了。

这事关键在于"结构性失败"四个字。论文里讲得很硬气:这种失败不是采样不够,加大 N 也救不了。模型必须先被"推过"那道墙,才能学到任何东西。

图1:Agentic RL 的可达性瓶颈与动作引导思路

配图:左侧是论文标志性的冰川示意——基础策略只能在 in-region 区域内学习,out-region 任务被一道 barrier 隔开。ActGuide-RL 的核心做法是用 action data 搭一座桥,让策略走过去。右上图显示 in-region 任务的 unguided rollout 可以稳定提升 Pass@K,右下图显示 out-region 任务的 unguided rollout 始终停在 0,只有 guided rollout 能逐渐走出去。

这里我得停一下,吐槽一个常见的误解:很多人觉得 RL 比 SFT 强是因为 RL"能探索新行为"。这个说法在 in-region 任务上成立,但在 out-region 任务上彻底崩塌——你都到不了奖励状态,谈什么探索?这恰恰是 Yue 等人在 2025 年那篇 "Does RL Really Incentivize Reasoning" 里强调的:当前 RL 方法的能力天花板,其实被基座模型的可达性卡得死死的。


为什么不直接用 SFT 冷启动

正常的工业界做法是这样的:

第一步,标注或蒸馏一批带完整 reasoning trace 的高质量 SFT 数据。 第二步,用 SFT 把基础模型"暖"到能在难任务上偶尔成功。 第三步,再上 RL 微调。

这套流程跑得通,但代价不小:

  • 标注成本高:reasoning trace 要么人工写,要么蒸馏教师模型。前者贵,后者要先有一个足够强的教师。
  • 泛化性差:换个领域、换个工具集,SFT 数据得重做。
  • out-of-domain 性能掉点:SFT 的 mode-covering 特性会让模型在域外任务上变差。这一点论文用 GPQA、TruthfulQA、IFEval 三个域外榜单的数据做了实证(后面会讲)。

那么有没有更便宜的"暖启动"信号?

论文的回答是:有,动作数据。

人类日常和电脑、手机的交互,本身就产出海量动作轨迹——GUI 点击、命令行操作、API 调用、长程游戏。这些数据的特点是:只有动作,没有 reasoning。过去之所以没人直接拿来训智能体,是因为缺 reasoning trace 这一环。要么硬塞一个合成的 chain-of-thought,要么做行为模仿——前者容易出现 post-hoc 合理化(事后编理由),后者学到表面行为模式,学不到推理能力。

ActGuide-RL 的切入点很巧妙:不去补 reasoning,而是把动作序列当作一个"参考计划"塞给模型,让模型自己在 RL 训练里把 reasoning 学出来。


ActGuide-RL 的三个核心设计

整个方法围绕三个问题展开:怎么引导?引导多少?怎么把引导的收益学回来?

图2:ActGuide-RL 框架总览

配图:左边 (a) 描述可达性动力学——状态访问质量在关键区间 \([b, b+m-1]\) 内坍塌,导致 \(M_T \approx M_{b+m} \ll M_b\)。左下 (b) 对比标准 Agentic RL——in-region 任务有可学信号,out-region 任务无信号。右边 (c) 是 ActGuide-RL 框架的三个模块:动作数据作为参考计划、最小干预原则下的自适应级别选择、guided 与 unguided rollout 的混合策略优化。

设计一:动作数据当"参考计划"

最直接的用法是把动作序列 \(g = (\tilde{\alpha}_1, ..., \tilde{\alpha}_L)\) 作为条件喂进策略:

\[\pi_\theta(\cdot \mid s, g)\]

注意一个细节——论文是把 \(g\) 作为 prompt 里的"未来参考动作列表"附加进去,不是强制模型按这个 prefix 生成。这个差别很重要。强制 prefix 等于行为模仿,模型学不到自己思考;非侵入式 reference 才能让模型把动作翻译成自己的 reasoning 过程。

那这种 reference 真的能修复 barrier 吗?作者做了一个我觉得设计得很漂亮的实证。沿着一条 guided rollout,每个步骤上同时算两个量:

  • \(|\Delta\mathrm{Logit}|\):guided 策略和 unguided 策略的 token logit 差,衡量引导在这个位置上"改变"了多少决策;
  • 前缀级 Pass@K:从当前 guided 状态出发,不再使用引导继续采样 K 条,看能不能恢复 reward。

理想情况下,如果引导真的"推过了"barrier,那么过完 barrier 的位置上,unguided Pass@K 应该从 0 跳上去。

图3:动作引导沿 rollout 的 barrier 修复行为

配图:蓝色柱状是 \(|\Delta\mathrm{Logit}|\),红色曲线是前缀级 Pass@32。(a) Easy sample 几乎从一开始就有非零 Pass@K,说明本来就 in-region;(b) Medium sample 前半段 Pass@K 是 0,在某个步骤之后跳到 0.9 以上,logit 差也在这附近骤增;(c) Hard sample 整条 rollout 几乎都在 0 附近徘徊,直到最后 step i+4、i+5 才跨过 barrier。

这张图我盯着看了一会儿。Easy 和 Hard 的对比尤其有意思——hard sample 的 barrier 不是某一步,而是分散在多个 step,每跨过一个就有一次 logit 跳变。说明 reachability barrier 不是单点墙,而是一系列断点的累加。

为了让引导有强度可调,作者把引导组织成一个递增族:

\[g_0 = \varnothing \prec g_1 \prec \cdots \prec g_K, \quad g_k = (\tilde{\alpha}_1, \dots, \tilde{\alpha}_k)\]

\(g_k\) 就是只给前 \(k\) 个参考动作。这给了"引导强度"一个单调参数,为下一步做铺垫。

设计二:最小干预原则

强引导一定好吗?我看到这里心里就咯噔一下——但凡做过 off-policy RL 的都知道,分布漂移太大会让 importance sampling 直接爆炸。

论文用 cumulative token-level log-ratio shift 来度量漂移:

\[\mathcal{L}_k(\tau) := \sum_{j=1}^{|\tau|} \log \frac{\pi_\theta(z_j \mid z_{\lt j})}{\pi_\theta(z_j \mid z_{\lt j}, g_k)}\]

对应的 off-policy 风险就是这个 shift 的方差 \(R_k\)

图4:引导强度 vs 分布漂移的权衡

配图:横轴是引导比例 \(k\)(20% 到 100%),蓝线是 mean log-ratio shift(左轴),红线是 off-policy 风险 \(R_k\)(右轴)。可以看到红线随 \(k\) 单调上升,蓝线在 \(k=60%\) 之后基本饱和。

这张图很关键。红线一路上升,蓝线 60% 之后趋平——说明引导收益在某个点之后饱和,但风险还在涨。这是典型的边际收益递减加风险递增。

基于这个观察,作者抛出了最小干预原则:每个任务用恰好够用的最小引导级别。形式化地说,目标是近似最大化:

\[J_k = B_k - \lambda R_k\]

其中 \(B_k\) 是 barrier-repair benefit,\(R_k\) 是 off-policy 风险。

关键在于 \(B_k\) 在二值奖励下呈现"阈值行为"——在 barrier 没被跨过之前几乎是 0,跨过之后跳到很高。\(R_k\) 则单调递增。所以 \(J_k\) 的峰值就在"刚好够跨过 barrier 的那个最小 \(k^\star\)"。

实操上怎么找 \(k^\star\)?作者用了一个非常实在的二分查找:

\[k^\star := \min \Bigl\{ k \in \{1, \dots, K\} : \max_{i=1}^N Y(\tau_i^{(k)}) \ge \delta \Bigr\}\]

而且——这里是我觉得最聪明的设计——引导只在 fallback 时触发。每个任务先采 N 条 unguided rollout,如果有成功的就直接用,根本不引导。只有整组全 0 才启动二分查找去找最小够用的 \(k^\star\)

这样做的好处:

  • in-region 任务完全不引入分布漂移,等价于纯 RL;
  • out-region 任务才付出代价,且代价被压到最小。

我个人觉得这个 fallback 机制是整篇论文最被低估的设计。它把"何时引导"和"引导多少"两个问题一起解了,而且解得非常自然。

设计三:混合策略优化

引导只在训练时有,推理时模型必须能独立工作。所以 guided rollout 拿到的 reward 必须被"转化"回 unguided 策略上。

由于 guided 和 unguided 策略共享参数,guided rollout 可以视为相对 \(\pi_\theta(\cdot \mid x)\) 的 off-policy 数据。论文的混合目标是:

\[\mathcal{J}_{\mathrm{mix}}(\theta) = \mathbb{E}\Biggl[\frac{1}{\sum_i T_i}\sum_{i=1}^{|\mathcal{G}|}\sum_{t=1}^{T_i} \min\bigl(r_{i,t}^{\rm mix}\hat{A}, \mathrm{clip}(r_{i,t}^{\rm mix}, 1{-}\epsilon, 1{+}\epsilon)\hat{A}\bigr) - \beta\mathbb{D}_{\mathrm{KL}}\Biggr]\]

token 级 importance ratio 根据 rollout 来源自适应:

  • unguided rollout 用标准 ratio \(\frac{\pi_\theta(z)}{\pi_{\theta_{\rm old}}(z)}\)
  • guided rollout 的分母换成 guided 分布 \(\frac{\pi_\theta(z)}{\pi_{\theta_{\rm old}}(z \mid g_{\rm adap})}\)

这样 guided 探索的 credit 就被 importance weight 转移回了无引导目标。

相比之前 off-policy RL 那些 ratio shaping 的复杂技巧(Yan et al. 2025、Nath et al. 2025),ActGuide-RL 保持目标函数不变——理由是最小干预已经把分布漂移压住了,PPO 的 min-clip 足够稳定。这里我是真的觉得设计得很克制,能不加的复杂度坚决不加。


实验:在 Qwen3-4B 上的爆炸式提升

四个 search-agent 榜单:GAIA(通用 AI 助理任务,分 Lv.1/2/3)、WebWalkerQA(多步网页推理)、XBench、BrowseComp-ZH。基础模型覆盖 Qwen2.5-3B、Qwen2.5-7B、Qwen3-4B、Qwen3-8B 四个不同能力档位。

主表关键数据

模型 方法 GAIA Avg WebWalker Avg XBench BC-ZH
Qwen2.5-3B RL 11.65 15.29 10.00 2.42
Qwen2.5-3B ActGuide-RL 18.45 18.82 16.00 4.50
Qwen2.5-7B RL 11.65 18.67 22.00 4.84
Qwen2.5-7B ActGuide-RL 25.24 22.05 24.00 8.31
Qwen3-4B RL 25.24 12.06 18.00 15.26
Qwen3-4B ActGuide-RL 35.92 39.85 37.00 20.41
Qwen3-8B RL 36.89 42.50 33.00 21.79
Qwen3-8B ActGuide-RL 41.74 46.77 44.00 26.64

最炸的是 Qwen3-4B:WebWalker 从 12.06 涨到 39.85,跨越式提升。XBench 从 18 涨到 37,几乎翻倍。GAIA 涨了 10.68 个点,BC-ZH 涨了 5.15 个点。

为什么 Qwen3-4B 的提升最夸张?我猜是因为它正好处在"基础能力够推理但不够探索"的甜蜜点——in-region 太小,RL 学不动;但只要一点引导就能跨过 barrier。Qwen3-8B 本身 in-region 就大,提升空间被压缩;Qwen2.5-3B/7B 则可能基座能力本身偏弱,引导也只能救一部分。

还有一个细节我得点出来:Qwen2.5-7B 在 GAIA 上"RL"反而比基础模型差了 10 个点(22.32 → 11.65)。这就是论文讲的"in-region RL capability regression"——训练数据难度和基础能力不匹配时,纯 RL 会在容易任务上"忘记"原有能力。ActGuide-RL 通过引导让难任务有训练信号,反而修复了这种退化。

SFT 加 RL pipeline 的对比

方法 GAIA WebWalker XBench BC-ZH GPQA-CoT TruthQA IFEval
ZeroRL 25.24 12.06 18.00 15.26 35.45 62.17 81.33
ZeroRL + ActGuide 35.92 39.85 37.00 20.41 36.93 62.30 82.99
SFT 34.95 31.18 25.00 25.61 29.15 56.95 77.82
SFT + RL 36.89 32.20 17.00 26.30 29.85 57.02 76.34
SFT + RL + ActGuide 40.77 37.06 25.00 28.02 29.57 57.11 77.43

这张表是论文最有杀伤力的论据。看几个关键点:

  • 零冷启动 ActGuide-RL 在 in-domain 三个榜单上和 SFT 加 RL 持平甚至超过:GAIA 35.92 vs 36.89(基本打平),WebWalker 39.85 vs 32.20(反超 7.65 点),XBench 37.00 vs 17.00(碾压)。
  • SFT 在域外榜单上明显掉点:GPQA-CoT 从 35.45 跌到 29.15,TruthQA 从 62.17 跌到 56.95,IFEval 从 81.33 跌到 77.82。这是 SFT 的典型 mode-covering 副作用——把模型过拟合到 SFT 数据的分布上,丢了通用能力。
  • ActGuide-RL 在域外榜单上没有这种掉点,反而略有提升。

我看到 SFT 在 IFEval 上从 81.33 跌到 77.82 的时候停了一下。这个掉点其实挺要命的——IFEval 测的是指令遵循能力,是个非常底层的能力,SFT 把它都搞掉了。这说明现行 SFT 加 RL pipeline 的代价比我们想象的还大。

消融与引导强度

方法 GAIA WebWalker XBench
ActGuide-RL(完整版) 35.92 39.85 37.00
去掉 Minimal-Intervention(Adaptive) 27.18 35.00 34.00
去掉 Minimal-Intervention(Fallback) 24.27 23.82 19.00
去掉 Mixed-Policy Optimization 22.32 21.76 21.00

三个组件去掉任何一个都掉很多。其中"去掉 Fallback"和"去掉 Mixed-Policy"掉得最狠——XBench 从 37 掉到 19/21,几乎掉一半。这两个组件刚好对应"何时引导"和"如何把引导收益学回来",是 ActGuide-RL 的命脉。

图5:固定引导比例 vs 自适应引导

配图:横轴是固定引导比例(0%、25%、50%、100%)和自适应(adaptive)。可以看到 25% 和 50% 比 100% 略好(引导太多确实有害),但 adaptive 在大部分榜单上都是最高。

这张图证实了"最小干预"的核心论断:引导既不是越多越好,也不是越少越好,关键是"按任务难度自适应"。100% 引导(全部参考动作都给)在 XBench 上反而最差,因为引发了过度 off-policy。

噪声敏感性

考虑到实际收集动作数据时不可避免会有"无意义动作"——比如人类在做任务时手滑、回头、试错——作者还测了噪声比例的影响:

噪声比例 GAIA WebWalker XBench BC-ZH
0% 35.92 39.85 37.00 20.41
10% 39.81 39.26 38.00 19.03
20% 29.12 37.94 35.00 17.64

10% 噪声居然在 GAIA 上反而最好——这事让我有点意外。我的猜测是少量噪声起到了类似 dropout 的正则化作用,逼模型不能完全照抄引导。但 20% 噪声明显伤害性能,所以数据质量还是有底线的。

训练动态:可学样本比例的对比

论文还跟踪了一个我觉得非常有说服力的指标——训练过程中"产生有效学习信号的 rollout 组"的比例。简单说,就是 group advantage 不全为 0 的比例。

baseline 在很多 step 上这个比例只有 0.4 到 0.7,意味着将近一半的 batch 是"白跑"——采了 N 条轨迹,结果 advantage 全 0,梯度等于浪费算力。ActGuide-RL 因为有 fallback 引导,几乎稳定在 0.95 以上,意味着每个 batch 都能贡献梯度信号。

这事翻译成工程语言就是:在固定算力预算下,ActGuide-RL 的"有效训练数据吞吐"是 baseline 的近两倍。如果你算单位算力的样本利用率,这个优势会进一步放大 RL 训练效率的差距。

交互轮数与响应长度的演化

另一个有意思的现象:Qwen3-4B 在 zero RL 设定下,训练过程中平均交互轮数和响应长度是缓慢上涨的;而 ActGuide-RL 让这两个指标快速上涨。

这对应一个工程直觉——多步推理能力是"练"出来的。一个 4B 小模型本来不太会拆解任务、不会调用工具,但如果它能不断从"成功的多轮交互"中得到反馈,它就会逐渐学会多步交互。引导数据提供的就是这种"成功多步交互"的脚手架。

为了验证这种能力是真的,作者做了一个 turn budget 的扫描:

交互轮数上限 GAIA WebWalker XBench BC-ZH
2 0.97 9.26 5.00 1.04
4 18.44 33.97 33.00 4.84
8 19.41 35.00 33.00 16.96
16 27.18 37.55 35.00 17.99
32 35.92 39.85 37.00 20.41

ActGuide-RL 训出的模型在 turn budget 越大时性能越好,说明模型真的学会了"用更多轮交互换更高成功率"。turn=2 的时候 GAIA 只有 0.97(连基础任务都做不完),turn=32 时跳到 35.92——这种单调上升曲线,是模型真正掌握长程交互能力的标志。如果模型只是模式匹配,多给轮数也不会涨。


我对这篇论文的判断

亮点很硬:

第一,问题诊断准确。把"RL 难任务学不动"形式化成 reachability barrier 这件事,比单纯讲"reward 太稀疏"深一层。barrier 是结构性的,加大 N 解决不了,这个观察对整个领域都有价值。

第二,方案设计克制。最小干预原则 + fallback 触发 + 二分查找最小 \(k^\star\) 这三件事拼在一起,把"引导"这件事的代价压到了最低。我尤其欣赏 fallback 这一刀——在 in-region 任务上完全不引入任何 off-policy,等于免费午餐。

第三,混合策略优化的目标函数没有花活。没有 ratio shaping、没有额外的 variance reduction,就是标准 PPO 加上 ratio 自适应。能不加的复杂度坚决不加,这种克制在当下 RL 论文里挺少见的。

第四,对 SFT 加 RL 范式的挑战是实打实的。在 in-domain 上持平,在 out-of-domain 上还更好。如果这个结果能在更多领域复现,agentic RL 的工作流可能真的要重写。

但也有几个地方让我皱眉:

第一,只在 search-agent 这一种 stateless 设定上验证。Search-agent 的好处是动作空间简单(就 web-search 和 web-visit 两个工具),而且 stateless 意味着每一步的动作可以独立解释。但对于 GUI、CLI、复杂多工具调用这种 stateful 场景,动作之间的依赖更强,参考计划可能没这么容易"翻译成 reasoning"。我希望看到更多场景的复现。

第二,"最小干预原则"的二分查找是有计算代价的。每次 fallback 都要再采几次 rollout 来定位 \(k^\star\),论文里给的 budget 是 \(B\),但具体到训练吞吐上影响多大没明确给。如果一个 batch 里 50% 任务都触发 fallback,训练速度可能掉一半。

第三,动作数据的来源问题没有充分讨论。论文用的是 Tongyi-DeepResearch 蒸馏出来的动作轨迹,说到底还是依赖一个强的"教师代理"。如果动作数据来自真实人类交互(论文一直暗示这是终极目标),噪声会比 20% 更大、动作会更不结构化,能不能复现这个效果是个开放问题。

第四,跟同期工作的对比可以更充分。论文里 baseline 主要对比 vanilla GRPO 和 SFT 加 RL,但 2025 年下半年其实出过几个"用 expert demo 引导 RL"的工作,比如 LMM-R1 的引导式探索、ARPO 的轨迹增强等。这些工作的核心思想跟 ActGuide-RL 有相似之处,论文里没有正面对比,这一点我觉得可以更严谨些。


工程上的启发

如果你在做 agentic RL 训练,这篇论文有几个直接可以借鉴的点:

先在 in-region 任务上 RL,难任务才上引导。不要一上来就给所有任务塞引导,那是浪费分布漂移预算。

引导以"参考计划"而非"强制 prefix"形式注入。让模型自己消化动作,而不是照抄。这是动作数据能转化成 reasoning 的关键。

Importance ratio 要根据 rollout 来源切换。混合策略训练里,guided rollout 的分母必须用 guided 分布,否则梯度方向就是错的。

如果你有动作数据(GUI 录屏、CLI 历史、API 调用日志),别浪费。即使没有 reasoning trace,单纯的动作序列也能撑起一个 agentic RL 的训练流程。这一点对工业界的意义非常大——动作数据的获取成本远低于 reasoning 标注。


收尾

我觉得 ActGuide-RL 真正动人的地方,不在那几个涨点数字,而在它指出了一个之前被忽略的方向:agentic 能力的训练信号,不必非要是 reasoning trace

过去两年大家围着 chain-of-thought 转,所有 SFT 数据都在卷推理过程的质量。但 agent 干的事是"行动",而不是"想"。人类教徒弟也不是先讲一万遍道理,而是先示范一遍动作,让徒弟自己摸索为什么这么做。

这套思路如果在 GUI agent、code agent、tool-using agent 上都能复现,那 agentic post-training 的工作流可能要从"SFT 加 RL"变成"action guidance RL",整个工业界的标注成本会降一个量级。

当然,这都建立在论文结论能泛化的前提下。Search-agent 是个相对友好的场景,更复杂的 stateful 任务里 reachability barrier 长什么样、最小干预是不是还成立,都需要后续工作来验证。但这个方向我会持续盯着。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我