LM Agent的探索和利用居然可以被量化,而且探索才是命门
你有没有碰到过这种情况:同一个LLM Agent,在Web任务上跑得不错,换到物理环境就各种迷路——来回转圈、重复访问同一个房间、明明前面有路却不敢走?你直觉上知道它在"探索"和"利用"上出了问题,但怎么量化?说"这个Agent探索能力差",这到底差多少?跟谁比?
这篇来自威斯康星大学麦迪逊分校的论文给了一个让我眼前一亮的回答:探索和利用的错误,是可以从外部行为中客观度量的,不需要访问模型内部。 而且更关键的发现是——探索错误才是决定成败的命门,利用错误反而不那么要紧。
核心摘要
当前LM Agent的评估要么看最终成功率,要么靠人工判断行为质量,缺乏对"探索-利用"两种能力的独立量化手段。这篇论文设计了受具身AI启发的可控环境(2D部分可观测网格+任务DAG),提出了策略无关的探索/利用错误度量方法。核心发现:log探索错误与成功率呈强负相关(\(R^2=0.947\)),利用错误几乎无关(\(R^2=0.006\))——探索才是硬瓶颈。即使是最先进的模型(GPT-5.4、Claude Opus 4.6)也表现挣扎,但推理模型更有效解决问题,最小的Harness工程就能大幅提升两种能力。这是把Agent评估从"看结果"推向"看过程"的重要一步。
论文信息
- 标题:Exploration and Exploitation Errors Are Measurable for Language Model Agents
- 作者:Jaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
- 机构:University of Wisconsin–Madison, KRAFTON, Ludo Robotics
- 日期:2026年4月14日
- 链接:https://arxiv.org/abs/2604.13151
- 代码:https://github.com/jjj-madison/measurable-explore-exploit
问题动机:为什么需要量化探索和利用?
聊Agent评估的时候,大家最常用的指标是"成功率"——任务做成了没有。但问题在于,成功率是黑箱输出,它告诉你"结果好不好",却不告诉你"哪里出了问题"。
你想想看,两个成功率都是40%的Agent,一个是因为地图没探索完所以找不到任务节点,另一个是因为找到了节点但走错路达不成前置条件——行为完全不同,但成功率一模一样。你没法从成功率里区分这两种失败模式。
更早之前,CMU和微软研究院的Harris & Slivkins在2025年初发了一篇"Should You Use Your Large Language Model to Explore or Exploit?",用上下文赌博机(contextual bandit)的框架来测试LLM在探索-利用权衡上的能力,发现当前LLM在利用上尤其挣扎。但那篇论文用的是经典bandit设定,没有触及Agent在结构化空间中的探索问题。
这篇论文想解决的是一个更难的问题:在不访问Agent内部策略的前提下,仅从观测到的动作轨迹,能不能区分并量化探索错误和利用错误?
说实话,第一反应我是怀疑的——探索和利用的边界很模糊,Agent走错一步到底算"没探索到"还是"没利用好"?但看完他们的方法设计,我觉得这个团队确实想得比较深。
环境设计:2D网格 + 任务DAG
部分可观测的2D网格地图
想象一个迷宫,但不是全知的上帝视角——Agent每一步只能看到当前格子的可移动方向(上下左右),以及当前格子上的任务节点信息。格子有三种状态:
- observed:已经访问过的格子
- unobserved:已知的邻居格子但还没去过
- unknown:完全不知道存在的区域
这很接近真实机器人场景:一个扫地机器人不知道卧室后面还有个储藏室,直到它走到卧室边缘才看到有路。
任务DAG:有向无环图约束
光有地图还不够,你得有事可做。任务DAG定义了一组子任务和它们之间的前置约束:
- 节点 = 子任务,散布在地图各处
- 边 = 前置条件,有AND和OR两种类型
- 唯一目标节点g = 最终要达成的任务
- 节点状态:undiscovered → discovered → achieved
关键设计决策:所有语义信息被替换为随机符号(比如D7UX、9J7T),防止预训练知识干扰。你不知道"砍树"要在"拿斧头"之后,只知道某个叫D7UX的节点是9J7T的前置。
这个抽象化很聪明。如果保留自然语言语义,GPT-5.4可能直接用世界知识推断前置关系,那就不是在测Agent能力而是在测预训练数据了。

图1:LM Agent在2D网格地图中执行任务DAG的示意图。Agent从起点出发,探索地图发现任务节点,并根据DAG约束完成前置任务
地图可控性:调节探索和利用的难度
这是我觉得设计最精巧的部分。地图密度和走廊宽度可以独立控制:
| 参数 | 低利用需求 | 中等 | 高利用需求 |
|---|---|---|---|
| 地图密度 | 0.1 | 0.25 | 0.4 |
| 含义 | 任务节点分布稀疏 | 中等 | 任务节点分布密集 |
| 参数 | 低探索需求 | 中等 | 高探索需求 |
|---|---|---|---|
| 走廊宽度 | 2-3 | 1-3 | 1 |
| 含义 | 宽阔通道好走 | 中等 | 窄走廊容易迷路 |
密度高 → 需要更多利用能力(找到正确的任务完成顺序);走廊窄 → 需要更多探索能力(别在死胡同里打转)。9种配置(3×3)可以系统性地测试Agent在不同压力下的表现。
度量方法:怎么从轨迹中提取探索和利用错误?
这是论文的核心贡献,也是最烧脑的部分。
四种情况与目标集
在每个时间步,根据Agent的状态,可以定义它"应该去哪里"——目标集 \(\mathcal{T}(t)\):
| 情况 | 条件 | 目标集 | 所需动作 |
|---|---|---|---|
| Case 1 | 没有可做的任务 | 未观测格子 \(\mathcal{U}(t)\) | 探索 |
| Case 2 | 目标节点可达 | 目标节点位置 \(\{l(g)\}\) | 利用 |
| Case 3 | 有可做任务但目标不可达 | 可做任务节点位置 | 利用 |
| Case 4 | 既有可做任务又有未观测格子 | 两者合并 | 探索或利用均可 |
四种case的划分很直觉:没事干就去探索(Case 1),有路走就走(Case 2/3),都行就自由选择(Case 4)。
增益判断
一步动作是否"有进度"用Gain来衡量:
要么直接到达目标集,要么至少比上一步更近了。这个宽松定义允许"先绕路再靠近"的合理行为。
陈旧分数:检测无意义的徘徊
这是我觉得最漂亮的设计。
定义"无进度轨迹" \(\tau_{\text{np}}(t)\):自最近一次进度事件以来的动作序列。进度事件 = 达成待处理任务,或进入未观测格子。
在无进度段中跟踪访问的节点和边,计算三个惩罚项:
- \(c_t = |\mathcal{E}_{\text{np}}| - |\mathcal{V}_{\text{np}}| + 1\):圈复杂度——每多一个环路就增加
- \(e_t = \sum_{e \in \mathcal{E}_{\text{np}}} \max\{m_{\text{np}}(e) - 2, 0\}\):边重复惩罚——同一条边走超过2次
- \(n_t = \sum_{v \in \mathcal{V}_{\text{np}}} \max\{m_{\text{np}}(v) - 2, 0\}\):节点重复惩罚——同一个节点访问超过2次
陈旧分数 \(S_t = c_t + e_t + n_t\)
为什么边的预算是2?这来自经典图论结果:Tarjan在1972年证明了最优在线图探索中,每条无向边最多遍历两次。所以走第三次就是"浪费"。
但论文不是简单地惩罚所有回溯——良性回溯不罚。比如探测到一个分支走不通,退回来换路,这种回退一次的行为 \(c_t\)、\(e_t\)、\(n_t\) 都是0,不触发惩罚。只有反复走进同一个死胡同、在走廊里来回震荡才被标记为错误。
错误度量公式
四种情况:进度事件不罚;完全没增益罚;目标唯一且有增益不罚;目标多个有增益但陈旧分数增加则罚。Case 4解释一下——当你有多个目标可选,虽然朝某个目标靠近了,但如果同时产生了新的环路或重复访问,说明路径效率在下降。
错误归因规则:Case 1的错误归探索,Case 2/3归利用,Case 4同时计入两者。

图2:三种边缘情况——紫色虚线是Agent实际路径,蓝色透明线是更优路径。左:探测后回退(不惩罚);中:到达死胡同但无进度段内只有必要回溯(不惩罚);右:重复进入已穷尽分支(惩罚)
实验结果:探索才是命门
主实验:13个模型的全面对比
论文测了13个模型,横跨OpenAI、Google、Anthropic三家和1个开源基线:
| 模型家族 | 具体模型 |
|---|---|
| OpenAI | GPT-4.1, GPT-4.1 mini, GPT-4.1 nano, GPT-5.4, GPT-5.4 mini, GPT-5.4 nano |
| Gemini 3.1 Pro, Gemini 3 Flash, Gemini 3.1 Flash Lite | |
| Anthropic | Claude Opus 4.6, Claude Sonnet 4.6, Claude Haiku 4.5 |
| 开源 | GPT-OSS-120B |
温度全部设为0。每个模型在9种地图配置 × 3种子 × 8提示集 = 216个episodes上运行。
发现1:探索错误预测成功,利用错误不行
这是论文最核心的一张图:

图3(a):log探索错误与成功率强负相关,\(R^2=0.947\)

图4(b):log利用错误与成功率几乎无关,\(R^2=0.006\)
0.947 vs 0.006,这个差距太大了。说得直白一点:探索做得好,成功率基本就有保障;利用做得好,不一定有用。
为什么?我理解是,在这个任务设定里,如果你连地图都没探完、任务节点都没发现,利用能力再强也无用武之地——巧妇难为无米之炊。但反过来,如果你把地图探完了,利用部分的DAG约束相对简单(节点数最多8个),多数模型都能处理。
不过这里有个需要注意的点:这个结论可能跟任务设计强相关。DAG最多8个节点、AND/OR约束不算复杂,利用难度本身就偏低。如果换成更复杂的任务依赖结构,利用错误的预测力可能会上来。论文也在局限性里承认了这一点。
发现2:相同成功率,不同行为模式
Claude Opus 4.6和Gemini 3.1 Pro在某个配置下都达到100%成功率,但行为截然不同:
- Claude Opus 4.6:利用导向——倾向于直接朝目标节点移动,避免进入未观测区域
- Gemini 3.1 Pro:探索导向——在朝目标移动的同时持续探索未观测格子
这说明单一的成功率指标会掩盖定性差异。你没法从"100%"这个数字看出两个Agent的决策逻辑完全不同。而这种差异在更难的地图上可能导致截然不同的结果——探索导向的Agent在地图变化时更稳健,利用导向的Agent可能在特定配置下更快但鲁棒性差。
发现3:推理模型更有效
这个发现虽然不是论文的核心,但很有实际意义。推理模型(reasoning models,指那些会输出思维链的模型)在这个任务上表现明显更好。原因是,2D网格导航+DAG规划天然就需要多步推理——"我需要先去A解锁B,然后去C解锁D,再到E"——这恰好是推理模型擅长的。
发现4:提示策略对不同错误有针对性
论文测了4种提示策略:Base(无指导)、Exploration(优先探索)、Exploitation(优先利用)、Balance(平衡)。

图5(a):不同提示策略下的探索错误——探索导向提示最低

图6(b):不同提示策略下的利用错误——利用导向提示最低

图7(c):不同提示策略下的成功率——探索导向提示最高!
有意思的来了:探索导向提示不仅降低了探索错误,还拿了最高的总成功率。利用导向提示确实降低了利用错误,但总成功率反而不如探索提示。这和发现1一脉相承——探索是瓶颈,改善探索就是改善全局。
发现5:Harness工程的杠杆效应
这个发现对工程实践最有价值。
所谓的Harness工程,其实就是给Agent加一个规则化的记忆管理器:把已知的地图信息(哪些格子去过、哪些方向是墙)和任务信息(哪些节点达成了、前置条件是什么)用结构化摘要注入提示。不需要改模型,不需要微调,只是把信息组织得更清晰。
效果有多猛?
| 模型 | 方法 | 成功率(%) | 探索错误 | 利用错误 | 步数 |
|---|---|---|---|---|---|
| Gemini 3.1 Flash Lite | Baseline | 51.9 | 0.172 | 0.135 | 94.3 |
| Gemini 3.1 Flash Lite | + Harness | 88.9 | 0.030 | 0.071 | 68.0 |
| GPT-4.1 | Baseline | 63.0 | 0.297 | 0.160 | 92.5 |
| GPT-4.1 | + Harness | 92.6 | 0.053 | 0.044 | 66.1 |
Gemini 3.1 Flash Lite的成功率从51.9%飙到88.9%,探索错误从0.172降到0.030——降了82%。GPT-4.1的成功率从63.0%到92.6%,步数也从92.5降到66.1。
说实话,看到这个数据的时候我有点意外。不是Harness有效让我意外——信息组织对LM的效果提升是意料之中的——而是提升幅度这么大。这说明当前LM Agent的一个主要瓶颈根本不是模型能力不足,而是信息呈现方式不对。模型有能力做推理,但上下文太乱导致推理链条断了。
语义信息的双面性
论文还做了一个有趣的对照实验:把随机符号(D7UX)替换成有意义的名称(如"厨房"、"拿钥匙"),看语义信息如何影响Agent行为。
| 模型 | 语义 | 成功率(%) | 探索错误 | 利用错误 | 步数 |
|---|---|---|---|---|---|
| Gemini 3.1 Flash Lite | ✗ | 25.0 | 0.181 | 0.091 | 143.0 |
| Gemini 3.1 Flash Lite | ✓ | 25.0 | 0.241 | 0.015 | 131.5 |
| GPT-4.1 | ✗ | 15.0 | 0.284 | 0.017 | 142.3 |
| GPT-4.1 | ✓ | 45.0 | 0.177 | 0.029 | 131.2 |
同样的语义信息,对两个模型的影响完全不同:
- GPT-4.1:成功率翻了3倍(15%→45%),语义信息帮助它推断"厨房里可能有食物"之类的常识,促进了探索
- Gemini 3.1 Flash Lite:成功率纹丝不动(25%→25%),探索错误反而上升了33%,利用错误降了6倍
这说明语义先验不是万能的。对于某些模型,语义信息可能干扰其内部推理逻辑——它开始"猜"而不是"看",反而走偏了。这个发现让我重新思考:我们经常给Agent加世界知识以为是在帮忙,但有时候可能是在帮倒忙。
我的判断:这篇论文到底怎么样?
亮点
-
度量方法设计得确实精巧。陈旧分数的三项分解(圈复杂度+边重复+节点重复)兼顾了理论依据(Tarjan定理)和工程直觉(良性回溯不罚),6个边缘案例的验证也很有说服力。
-
探索是命门这个发现有实际指导意义。如果你在做Agent系统,与其花精力优化利用策略,不如先把探索能力搞上去——这个优先级判断很有价值。
-
符号化抽象是个好设计。防止了预训练语义泄露,让度量更干净。对于评估框架来说,这个选择是对的。
问题
-
任务复杂度上限偏低。DAG最多8个节点,2D网格相对简单,利用难度天然就低。\(R^2=0.006\) 的"利用无关"结论,有多少是任务设计的副产品?如果换成10个节点的DAG,或者加入更复杂的AND/OR嵌套,利用错误的预测力会不会上来?论文没给出答案。
-
度量指标的方差问题。论文自己承认了:错误归一化依赖于Agent路径(每case的时间步数不同),应视为行为摘要而非独立可比度量。说到底,不同轨迹之间的错误率不能简单做横向比较——这个限制挺大的,因为你很难拿它来排模型排行榜。
-
符号化抽象跟现实差距不小。真实场景中Agent面对的是自然语言描述的任务和有语义的空间结构,完全去语义化后测出来的"纯探索能力"能在多大程度上迁移到现实场景?论文把这个问题留给了future work。
-
3个种子的方差可能不够。温度=0的情况下3个种子,论文自己说"同一模型不同运行可产生显著不同轨迹"。在这么少的样本量下,\(R^2=0.947\) 的置信区间可能比想象中宽。
工程启发
如果你在做Agent系统,这篇论文有几个直接可用的insight:
- 优先优化探索:在有限资源下,改善Agent的地图/状态空间探索能力比优化利用策略ROI更高
- Harness工程是低垂果实:结构化记忆管理不需要改模型,但效果可能比调提示策略还好
- 语义注入要谨慎:不是所有模型都能从世界知识中受益,要A/B测试确认
- 用陈旧分数监控Agent:\(S_t = c_t + e_t + n_t\) 可以作为线上Agent的行为质量实时指标——当陈旧分数持续上升时,说明Agent在原地打转,该干预了
说到底,这篇论文的价值不在于"发现了新算法",而在于给了一个可操作的观察框架。之前我们说"这个Agent探索不行"只能凭直觉,现在可以掏出陈旧分数说"它的探索错误率是0.3,而平均水平是0.1"。
从"看结果"到"看过程",这一步虽然不大,但方向是对的。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我