检索模型该为谁训练?当搜索的用户从人变成了AI Agent

你有没有注意到一个正在发生的变化——搜索引擎的主要用户,正在从人变成AI Agent。

Tongyi-DeepResearch、Manus、OpenAI的Deep Research……这些搜索智能体已经开始替我们上网查资料了。但问题来了:我们花了二十年时间,用人类的点击日志训练出的检索模型,真的能很好地服务这些AI Agent吗?

这篇来自中国人民大学和中科院计算所的论文给了一个很直觉的回答:不能。Agent的搜索行为和人完全不一样,检索模型应该直接从Agent的交互轨迹中学习。他们提出了LRAT框架,从Agent的浏览行为和推理痕迹中挖掘监督信号来训练检索器,在6种不同Agent上都带来了明显提升——任务成功率平均涨了约28%,而且跨域泛化效果也相当不错。

坦率讲,这个思路看似简单,但切入的时机和角度都很准。下面详细聊聊。


📖 论文信息

  • 标题:Learning to Retrieve from Agent Trajectories
  • 作者:Yuqi Zhou, Sunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen
  • 机构:中国人民大学高瓴人工智能学院、中国科学院计算技术研究所
  • 发表时间:2026年3月30日
  • 论文链接:https://arxiv.org/abs/2604.04949

🎯 核心摘要

痛点:当前的检索模型都是用人类搜索日志训练的,但越来越多的搜索请求来自AI Agent——Agent的搜索模式和人差异巨大(搜索次数更多、浏览更均匀、还会"思考"),用人的数据训练出的检索器对Agent而言并不好使。

方案:LRAT框架直接从Agent的多步交互轨迹中提取三类信号——浏览行为(正负样本)、推理过滤(LLM验证去除假阳性)、推理强度加权(思考越久说明文档越相关),用加权对比学习训练检索器。

效果:在InfoSeek-Eval上任务成功率从52.7%提升到68.0%(+29%),在域外BrowseComp-Plus上跨6种Agent架构(4B到358B)均有提升,证据召回率最高涨了37.9%。

一句话评价:这篇论文抓住了"Agentic Search时代检索模型该为谁优化"这个关键问题,方法不算复杂但很实用,数据飞轮的思路尤其有工程价值。


🧠 为什么需要这篇论文?

传统信息检索的训练范式走了二十多年,核心逻辑一直没变:用户搜索 -> 用户点击 -> 点击日志作为监督信号 -> 训练检索模型。这条路在"人搜索"的时代是成立的。

但现在的情况变了。

像Tongyi-DeepResearch、Manus这类搜索Agent,替代人完成信息检索任务。它们的行为模式和人截然不同。作者分析了26,482条Agent轨迹后发现了几个关键差异:

图1:LRAT的核心思路——传统检索用人类日志训练,但服务对象已经变成Agent了

图1:传统检索模型的训练数据来自人类点击日志,但搜索的"用户"已经变成了AI Agent。LRAT的核心思路就是:既然服务对象变了,训练数据也该从Agent的交互轨迹中来。

差异一:Agent不受位置偏差影响。 人类搜索有个老问题——排在前面的结果更容易被点,不管它是不是真的好。这叫位置偏差,搞信息检索的人和它斗争了很多年。但Agent不一样,下面这张图说得很清楚:

图2:Agent轨迹的四个关键统计发现

图2:(a) Agent的行为转移概率,成功轨迹中搜索后浏览的比例远高于失败轨迹;(b) 浏览到的证据文档越多,准确率越高;(c) 人类点击严重偏向排名靠前的位置,而Agent的浏览分布接近均匀;(d) 成功轨迹中浏览后的推理文本更长,浏览到证据文档时思考也更深入。

看图2(c),人类的点击密度在排名第1位有个明显的峰值,越往后越少——这就是经典的位置偏差。而Agent的浏览分布几乎是一条水平线,接近均匀分布。这个发现的直接价值是:Agent没浏览的文档可以直接当负样本,不需要像处理人类点击那样做去偏。

差异二:Agent会"思考",而且思考的深浅暴露了文档质量。 图2(d)展示了一个很有意思的现象——当Agent浏览到包含证据的文档时,它后续的推理文本平均更长(约150个token);浏览到无关文档时思考明显更短(约100个token)。成功轨迹比失败轨迹的推理也更深入。

这就给了一个天然的"相关性强度"信号:Agent思考得越久,大概率是因为这个文档信息量更大。

差异三:浏览是成功的必要条件。 图2(a)显示,成功轨迹中"搜索后浏览"的转移概率是92.9%,远高于失败轨迹的77.0%。而且图2(b)表明,如果Agent一次都没浏览过证据文档,任务准确率直接掉到接近零。

这三个发现构成了LRAT方法的全部出发点。


🏗 LRAT框架:怎么从Agent轨迹中挖信号?

LRAT的整体框架分四步走,逻辑非常清晰:

图3:LRAT框架全貌

图3:LRAT框架的四个核心组件。(a) 朴素相关性挖掘:Agent浏览过的当正样本,没浏览的当负样本;(b) 推理感知的正样本过滤:用LLM检查Agent的推理痕迹来去除假阳性;(c) 相关性强度估计:根据推理文本长度给正样本加权;(d) 加权对比学习训练。

第一步:朴素信号挖掘

最直觉的做法:Agent在搜索过程中浏览(browse)了哪些文档,就把它们标为正样本;搜索结果里排在前面但没被浏览的,标为负样本。

这个思路和人类点击日志其实很像——点了就是正、没点就是负。但前面说了,Agent没有位置偏差,所以负样本比人类日志里的更干净。

作者从26,482条轨迹中初步挖到了120,579对训练数据。

第二步:推理感知的正样本过滤

朴素信号有个问题——Agent浏览了不代表文档真的相关。Agent有时候浏览了一个文档,看完觉得没用,继续搜别的去了。这就是假阳性。

怎么处理?作者用了一个很巧妙的办法:看Agent浏览完之后的推理痕迹。如果Agent浏览了文档 \(d\) 后,在推理中引用了 \(d\) 的内容来回答问题,那 \(d\) 大概率是真相关的。

具体实现是用LLM(论文里用的Qwen3-32B)做验证:把Agent的推理文本 \(r_{t+2}\)、查询 \(q_t\) 和文档 \(d_{t+1}\) 一起给LLM,让它判断这个文档是否对推理有贡献。

过滤后从120,579对缩减到91,713对,保留了97.2%的ground-truth证据——过滤精度相当高。

第三步:推理强度加权

不是所有正样本都同等重要。Agent对着某个文档思考了300个token和思考了50个token,信号强度显然不同。

作者用推理文本长度 \(l\) 来估计相关性强度,权重公式是一个指数饱和函数:

\[w = \frac{1}{\mu_{raw}}\left(1 - \exp\left(-\frac{\ln 2 \cdot l}{\beta}\right)\right)\]

其中 \(\beta\) 是所有推理长度的中位数,\(\mu_{raw}\) 是归一化系数。这个设计有两个好处:短推理给低权重(过滤噪声),超长推理也不会权重爆炸(饱和截断)。

图4:推理token长度的分布

图4:Agent浏览后推理token长度呈长尾分布,大部分集中在250个token以内,少数超过500。指数饱和函数恰好适配这种分布——短尾区分度高,长尾不过拟合。

第四步:加权对比学习

最终训练使用加权的InfoNCE损失:

\[\mathcal{L} = -w \cdot \log \frac{\exp(s^+)}{\exp(s^+) + \sum \exp(s^-)}\]

负样本来自两个来源:Agent轨迹中没被浏览的文档(trajectory negatives)+ 同batch内其他样本的正文档(in-batch negatives)。混合负样本的做法在检索训练中很常见,这里没有特别新的东西,但和前面的trajectory信号结合起来是合理的。


🧪 实验:跨Agent、跨数据集的验证

实验设置还是比较扎实的。

训练数据:基于Tongyi-DeepResearch-30B在InfoSeekQA上生成的26,482条轨迹,提取91,713对训练样本。基座检索器是Qwen3-Embedding-0.6B。

测试场景: - 域内:InfoSeek-Eval(300个查询) - 域外:BrowseComp-Plus(830个复杂问题 + 100,195篇文档库)

测试的Agent覆盖面很广——从4B的小模型(AgentCPM-Explore)到358B的大模型(GLM-4.7),既有任务专用Agent也有通用大模型。

主实验结果

先看最直观的成功率对比:

图5:LRAT在两个数据集、6种Agent上的成功率提升

图5:左图为域内InfoSeek-Eval结果,右图为域外BrowseComp-Plus结果。红色柱子(+LRAT)在所有Agent上都高于灰色baseline。

几个值得关注的数字:

Agent 参数量 数据集 Baseline成功率 +LRAT成功率 提升幅度
AgentCPM-Explore 4B InfoSeek-Eval 40.3% 55.7% +38.2%
WebExplore 8B InfoSeek-Eval 52.0% 68.7% +32.1%
Tongyi-DeepResearch 30B InfoSeek-Eval 52.7% 68.0% +29.0%
GLM-4.7 358B InfoSeek-Eval 67.7% 82.0% +21.1%
AgentCPM-Explore 4B BrowseComp-Plus 13.5% 15.8% +17.0%
GLM-4.7 358B BrowseComp-Plus 43.9% 54.6% +24.4%

有两个点让我印象比较深:

小模型受益更大。 AgentCPM-Explore(4B)在InfoSeek-Eval上涨了38.2%,而GLM-4.7(358B)涨了21.1%。这其实合理——大模型自身的推理能力更强,对检索质量的依赖相对低一些;小模型本身推理能力弱,检索器给的文档好坏直接决定了成败。

域外泛化能力不错。 训练数据全部来自InfoSeekQA + Tongyi-DeepResearch,但在BrowseComp-Plus上对GPT-OSS、MiniMax、GLM这些完全不同架构的Agent也有效。说明Agent的浏览模式有一定的跨架构通用性。

不过话说回来,小Agent在BrowseComp-Plus上的绝对成功率还是很低——AgentCPM从13.5%到15.8%,只有2.3个百分点的提升。这说明检索器的提升有天花板,Agent自身能力太弱的话,给再好的文档也处理不了。

消融实验

图6:三个组件的逐步消融

图6:在BrowseComp-Plus上逐步叠加LRAT的三个组件。Base是原始Qwen3-Embedding,+Naive是朴素浏览信号,+Filter加入LLM过滤,+Reweight加入推理强度加权。

消融结果在三个通用Agent(GPT-OSS、MiniMax-M2.1、GLM-4.7)上都很一致:

  • 朴素信号 -> +Filter:GPT-OSS从11.5%到11.8%,MiniMax从39.0%到44.8%,GLM从53.2%到55.3%
  • +Filter -> +Reweight:GPT-OSS从11.8%到12.2%,MiniMax从44.8%到48.3%,GLM从55.3%到54.6%

坦率讲,每一步的增益不算很大,尤其是GPT-OSS上三步加起来也就从9.0%到12.2%。但方向是一致的:过滤假阳性有用,推理加权也有用(除了GLM上出现了微小波动)。

我比较好奇的一点是:过滤阶段从120,579对缩减到91,713对,数据量减少了约24%,但性能反而更好。这说明数据质量确实比数量重要——至少在这个场景下是这样。

数据规模与Top-K鲁棒性

图7:训练数据规模效应和Top-K鲁棒性

图7:(a) 随着训练数据从10K增长到30K,三个Agent的成功率单调上升,但增速在减缓;(b) 在不同Top-K设置下(K=1到K=20),LRAT一致优于baseline。

图7(a)有个细节值得注意——从20K到30K的提升已经在变缓了,特别是GLM-4.7几乎触顶。这暗示再往上堆数据可能效果有限。不过作者也没有尝试更大规模的数据,所以拐点到底在哪还不好说。

数据飞轮实验

这是我觉得这篇论文最有工程价值的部分。

图8:数据飞轮示意

图8:Agent(冻结)生成轨迹数据 -> 训练检索器 -> 用新检索器服务Agent -> 生成新轨迹 -> 再训练检索器。不断迭代。

图9:数据飞轮5轮迭代的效果

图9:经过5轮迭代,Agent成功率从约17.5%稳步提升到约23%,检索器Recall从约49%提升到约63%。两条曲线都在上升。

思路很简单:检索器变好 -> Agent用更好的检索结果完成任务 -> 新的轨迹质量更高 -> 训练出更好的检索器。这就是一个正反馈循环。

5轮迭代后,Agent成功率从约17.5%涨到约23%,检索Recall从约49%到约63%。虽然后期增速在放缓,但趋势还在上升。

这让我想到搜索引擎传统的"search log -> train -> serve -> new log"闭环。LRAT某种程度上是把这套经典范式从"人搜索"迁移到了"Agent搜索"。范式不新,但应用场景新了。


🤔 我的判断

亮点

问题切入准确。 搜索Agent确实在快速普及,"检索模型该为谁优化"是个实打实的好问题。这篇论文来得挺及时——不是等别人做了再跟进,而是抢先定义了问题和解法。

方法简洁实用。 没有什么花哨的模块设计,就是"看Agent怎么搜的"然后"学着给Agent优化"。朴素挖掘 + 过滤 + 加权,每一步都有数据分析支撑,逻辑链很干净。

数据飞轮思路有工程落地价值。 对于真正在做搜索Agent产品的团队,这个"部署-收集-训练-再部署"的闭环是可以直接借鉴的。

需要打个问号的地方

通用性还需要更多验证。 训练数据全部来自一个Agent(Tongyi-DeepResearch-30B)在一个数据集(InfoSeekQA)上的轨迹。虽然域外测试效果还行,但数据源的多样性确实是个限制。如果换成编程场景、科研文献搜索等差异更大的任务,还能这么好使吗?

推理长度作为相关性信号,可能不够稳定。 不同Agent的推理风格差异很大——有些Agent天生话多,有些Agent很简洁。用绝对长度做加权,跨Agent的泛化性可能有问题。作者用了中位数归一化来缓解,但我觉得这个信号的稳定性还需要更多验证。

消融实验的增益比较有限。 Filter和Reweight两步在GPT-OSS上分别只带来了0.3和0.4个百分点的提升。这个幅度很难说不是噪声。当然在MiniMax上增益更明显(39.0% -> 44.8% -> 48.3%),但整体来看,大头收益来自朴素浏览信号本身,精细化设计的边际贡献需要打个问号。

与同期工作的对比不够充分。 CMU最近也发布了Agentic Search的行为日志数据集(DeepResearchGym),说明这个方向正在被多个团队同时关注。论文对同期相关工作的讨论和对比偏少,比如Search-R1通过RL让LLM学习与搜索引擎交互、WebExplore等方法的思路,如果能有更系统的对比会更有说服力。

对工程实践的启发

如果你正在做搜索Agent相关的产品,这篇论文有几个可以直接拿走的点:

  1. 收集Agent的轨迹数据。不管用不用LRAT这套方法,Agent的浏览行为本身就是金矿。没被浏览的文档是天然的负样本,而且不需要去偏。

  2. 推理痕迹里有丰富的信号。Agent不只是"点了"或"没点",它还会"想"。这些思考过程可以用来评估文档的实际贡献度,比人类的点击数据维度更丰富。

  3. 数据飞轮要趁早建。检索器和Agent的正反馈循环越早跑起来,数据积累的优势越大。这和传统搜索引擎积累点击日志的逻辑一样。


📝 总结

LRAT做的事情用一句话概括:当搜索的"用户"从人变成Agent,训练检索模型的数据也该从Agent来。

这个命题听起来自然到几乎是废话,但偏偏之前没人系统做过。作者从Agent轨迹的统计分析出发(位置偏差消失、推理痕迹可利用),设计了一套简洁的信号提取和训练方案,在多种Agent上验证了有效性。

说实话,方法层面没有特别惊艳的创新——对比学习、LLM做验证、推理长度加权,这些都不是新东西。但问题定义本身的价值在于:它指出了一个正在发生的范式转移,检索模型的优化目标正在从"让人搜得好"变成"让Agent搜得好"。数据飞轮的思路更是给出了一条可持续演进的工程路线。

这篇论文更像是在正确的时间问了一个正确的问题,然后给了一个够用的答案。对于做搜索Agent的团队来说,值得读一读。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我