搜索智能体的皇帝新衣:它们真的在搜索,还是在用Google验证自己的记忆?

🎯 核心摘要:你以为搜索智能体在网上"搜索"答案?这篇来自哈工大和小红书的论文给了一记当头棒喝——在BrowseComp基准上,智能体不用任何工具就能答对44.5%的问题。更离谱的是,当你把支持答案的证据全部删掉,它们的表现反而比闭卷还差。作者提出了一个新概念"内在知识依赖"(IKD),并构建了LiveBrowseComp基准——335道问题,所有模型闭卷准确率低于2%,搜索增强后分数暴跌25-40分。这不是一篇刷榜论文,而是一面照妖镜,照出了当前搜索基准评估体系的根本缺陷。


📖 论文信息

  • 标题:LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
  • 作者:HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu
  • 机构:哈尔滨工业大学、小红书
  • arXiv:2605.28721
  • 数据集:https://huggingface.co/datasets/Forival/LiveBrowseComp

🧠 一个让人不舒服的问题

你有没有想过一个问题:当DeepSeek、Kimi这些搜索智能体在BrowseComp上刷到60+分的时候,它们到底是在"搜索",还是在"确认"?

打个比方:考试的时候,有一种学生是真的不会做题、翻书查资料找到答案的;还有一种学生是心里已经知道答案了,翻书只是为了确认一下。如果考试评分不区分这两种情况,那"开卷考试"的成绩其实在很大程度上反映的是"闭卷能力"——这考的还是搜索能力吗?

这篇论文做的就是这件事:把这两种能力拆开来看。结论相当扎心。


🎯 问题动机:静态基准的"知识泄漏"

BrowseComp是OpenAI在2024年底推出的搜索智能体基准,1266道需要深度网络浏览才能回答的问题。各家模型在上面你追我赶,分数一路攀升。

但作者提出了一个根本性质疑:这些模型的训练数据覆盖范围越来越广,BrowseComp里的"难题"有多少其实已经被模型"记住"了?

这不是传统意义上的数据污染(字面字符串重叠),而是一种更隐蔽的问题——模型通过海量预训练数据,已经把很多"冷门知识"编码进了参数里。当它拿到一个BrowseComp问题时,它可能已经"知道"答案了,搜索只是走个过场。


🔬 三项诊断实验:揭开IKD的面纱

作者设计了三项精巧的诊断实验来验证这个假设。

实验一:拔掉网线,你还能答多少?

最直接的测试——把所有搜索工具禁用,让模型纯靠参数化知识回答。

图2:闭卷pass@4和搜索贡献热力图

图2:左侧是各模型在四个基准上的闭卷pass@4得分,右侧是搜索工具带来的增益。MiniMax M2.5在BrowseComp上闭卷就能答对44.5%

结果让人吃惊:

  • MiniMax M2.5:BrowseComp上闭卷44.5%,搜索只多贡献了28.5分
  • Kimi K2.6:BrowseComp-ZH上闭卷62.0%——六成题不用搜就会
  • Seed 2.0:HLE上闭卷50.2%

24个模型-基准对的平均闭卷pass@4是38.9。换句话说,这些"搜索基准"上将近四成的分数跟搜索能力毫无关系。

实验二:搜索环境还在,但答案被藏起来了

这个实验更狠。搜索工具照常可用,但检索索引中所有支持正确答案的证据文档被移除,只留下无关文档和"困难负例"(看起来相关但不包含答案的文档)。

模型 闭卷 证据阻断 变化
GLM 5.0 21.3 7.4 ↓13.9
GLM 5.1 23.3 9.4 ↓13.9
MiniMax M2.5 44.5 8.0 ↓36.5
Kimi-K2.5 19.7 2.8 ↓16.9
Kimi-K2.6 25.5 2.3 ↓23.2
DeepSeek-V4-Pro 22.5 7.0 ↓15.5
平均 26.1 6.2 ↓19.9

这个结果太有意思了。所有模型在证据阻断条件下的表现低于闭卷基线。MiniMax M2.5从闭卷44.5%暴跌到8.0%,Kimi-K2.6从25.5%跌到2.3%。

这说明什么?当搜索找不到支持证据时,模型不是简单地"回退"到闭卷能力,而是被检索到的干扰文档带偏了。搜索循环反而成了一个"自我否定"的过程——模型本来心里有个正确答案,但搜到一堆不相关的东西后,反而动摇了自己的判断。

实验三:查询从哪来的?

作者追踪了每个搜索查询中关键信息的来源:是来自之前检索到的文档(证据驱动),还是来自模型自身的推理(知识驱动)。

图3:模型发起查询率和证据使用率

图3:(a) 随着搜索进行,模型发起的查询比例持续上升,后期超过60-80%;(b) 即使检索到了支持答案的证据,模型的实际使用率也不到三分之一

两个核心发现:

  1. 超过一半的查询是模型自己"想"出来的,而非从检索结果中提炼的。随着搜索轮次增加,这个比例还在上升——模型越搜越"自闭"。

  2. 即使检索到了正确证据,使用率也只有24到32个百分点。模型经常无视检索到的有用信息,继续按自己的思路搜。

这就像一个人去图书馆"查资料",但其实一直在翻自己带来的笔记,偶尔瞄一眼书架上的书,大部分时候还是按自己记忆中的线索走。


🏗️ LiveBrowseComp:把模型逼到知识边界之外

基于以上诊断,作者提出了内在知识依赖(IKD)这个概念,并设计了LiveBrowseComp来系统性地抑制它。

图1:静态基准 vs LiveBrowseComp的核心区别

图1:左侧静态基准的知识集不变,模型越训越覆盖;右侧LiveBrowseComp持续刷新,始终保持在模型知识边界之外

核心设计思路很清晰:如果答案所需的事实是模型训练截止后才产生的,那它就不可能"记住",必须真正去搜索。

构建流水线

图4:LiveBrowseComp基准构建流水线

图4:从6个数据源出发,经过时间过滤、长尾评分、答案稳定性过滤、问题构建、专家验证五个阶段

六个持续更新的数据源

来源 覆盖领域 时间窗口 过滤逻辑
GDELT 全球新闻事件 90天 LLM热度评分2.0-4.0,排除头条
TMDB 电影 90天 低流行度、低投票、零票房
RAWG 游戏 90天 低评分数、低关注度
CVE/NVD 安全漏洞 90天 CVSS≥9.0、有利用代码
SportsDB 体育赛事 90天 低级别联赛、非主流赛事
USGS 地震数据 90天 有感但非灾难性

三阶段过滤的精妙之处

时间过滤不够——光是"最近90天"不能保证模型不知道。全球重大事件(比如某个大地震)可能在几天内就通过后训练更新被模型吸收了。所以还需要长尾过滤:只保留那些"存在但不起眼"的事件。

答案稳定性过滤也很聪明——排除那些答案会随时间变化的问题(比如"某电影目前票房多少"),只保留答案唯一确定的事实。

问题构建和验证

标注者的筛选标准相当严格:必须能独立解决BrowseComp原题(10题至少对2题,每题至少花2小时),确保标注者本身具备深度搜索能力。

问题构建后还有五重验证: 1. 正确性验证:追踪证据链,确认答案唯一 2. 唯一性验证:用4个模型各8次rollout生成候选答案池,确认无其他有效答案 3. 难度校准:3个独立标注者尝试解决,30分钟内解出的题被排除 4. 时间性验证:确认至少一条关键证据来自90天窗口内 5. 交叉检查:第4个独立验证者复核所有结果

这套验证流程的严谨程度在基准构建中算是比较少见的。


🧪 实验结果:照妖镜照出了什么

主实验:所有模型大幅下滑

模型 参数量 BrowseComp LiveBrowseComp 下降
Seed 2.0 77.3 41.5 ↓35.8
GPT 5.4 72.1 43.2 ↓28.9
Claude Sonnet 4.6 69.3 41.4 ↓27.9
Gemini 3.1 Pro 67.0 40.0 ↓27.0
GLM 5.1 754B 68.0 33.9 ↓34.1
DeepSeek V4 Pro 1.6T 61.4 38.3 ↓23.1
Kimi-K2.6 1T 62.4 31.7 ↓30.7
DeepSeek v3.2 671B 51.4 37.6 ↓13.8
MiniMax M2.5 230B 60.4 28.0 ↓32.4

几个值得注意的点:

排名大洗牌。GLM 5.1在BrowseComp上是开源模型里的第一名(68.0),但在LiveBrowseComp上只有33.9,被DeepSeek v3.2(37.6)和DeepSeek V4 Pro(38.3)超过。这说明GLM 5.1之前的高分很大程度上来自更广的知识覆盖,而非更强的搜索策略。

DeepSeek v3.2的逆袭很有意思。它在BrowseComp上是开源模型中最低的(51.4),但在LiveBrowseComp上表现相对稳定(37.6),下降幅度最小。这暗示它可能有更好的"真搜索"能力,只是之前被知识覆盖更广的模型压制了。

差距压缩。BrowseComp上开源模型顶底差距16.6分,LiveBrowseComp上只有10.3分。IKD就像一个放大器,让"知识多"的模型看起来"搜索能力强";去掉这个放大器,模型间的真实搜索能力差距其实没那么大。

闭卷验证:IKD被有效抑制

图7:BrowseComp vs LiveBrowseComp闭卷表现对比

图7:所有模型在LiveBrowseComp上的闭卷准确率低于2%,而BrowseComp上闭卷准确率在11-44.5%之间

这张图是整篇论文最直观的"证据"。紫色柱子(BrowseComp闭卷)高高低低,橙色柱子(LiveBrowseComp闭卷)几乎看不见——全部低于2%。设计目标达成。

相关性分析:静态排名能预测实时搜索能力吗?

图8:BrowseComp与LiveBrowseComp的相关性分析

图8:左图BrowseComp vs LiveBrowseComp的Pearson r仅0.53;右图两个静态基准间的Pearson r为0.79

两个静态基准(BrowseComp和BrowseComp-ZH)之间的相关性很高(r=0.79),这符合预期——它们测的是类似的东西(知识+搜索的混合体)。但BrowseComp和LiveBrowseComp之间的Pearson r只有0.53,说明静态基准上的排名不能可靠预测模型在真实搜索场景下的表现。

轮次分布:搜索行为的质变

图9:BrowseComp vs LiveBrowseComp的搜索轮次分布

图9:上排LiveBrowseComp,下排BrowseComp。BrowseComp上存在明显的短轮次集群(快速验证模式),LiveBrowseComp上这个集群消失了

BrowseComp上有一个明显的"短轮次峰"——很多问题在很少的搜索轮次内就解决了,这与"快速验证已知答案"的模式完全吻合。LiveBrowseComp上这个峰消失了,分布向更高轮次移动,说明模型确实在进行更深入的探索性搜索。

人类表现:搜索难度可比

一个关键的对照实验:人类搜索者在BrowseComp上的解决率是30%,在LiveBrowseComp上是31%。两者几乎一样。

这说明LiveBrowseComp对人类来说并不比BrowseComp更难——它只是对模型更难,因为模型失去了"记忆验证"的捷径。这进一步证实了模型在LiveBrowseComp上的性能下降确实来自IKD的移除,而非题目本身更难。


💡 我的判断

这篇论文最值钱的地方

IKD这个概念的提出比LiveBrowseComp基准本身更有价值。它揭示了一个在搜索智能体评估中被系统性忽视的混淆因素:我们以为在测"搜索能力",实际上很大程度在测"知识广度"。

证据阻断实验的设计特别精巧。它不仅证明了模型依赖内在知识,还发现了一个更深层的问题:当搜索找不到确认信息时,模型会被干扰信息带偏,表现甚至不如不搜。这对搜索智能体的鲁棒性提出了严肃的质疑。

几个值得商榷的点

90天窗口是否足够? 作者自己也承认这是一个近似启发式。不同模型的训练数据截止时间不同,有些模型可能通过在线学习或快速迭代覆盖了更近期的数据。不过考虑到实验中所有模型闭卷都低于2%,这个窗口在当前阶段是够用的。

单一搜索后端的局限。所有实验都用serper.dev作为搜索后端。不同的搜索引擎可能返回不同质量的结果,这可能影响模型的搜索策略表现。不过作为控制变量实验,统一后端是合理的。

可扩展性问题。每道题需要多轮专家标注和验证,成本很高。335道题的规模对于一个基准来说偏小。不过考虑到这是一个需要持续刷新的动态基准,这个规模在初始版本是可以接受的。

对工程实践的启发

如果你在做搜索智能体,这篇论文给了几个很实际的信号:

  1. 不要只看BrowseComp分数。你的模型可能只是"知识面广",而非"搜索能力强"。用LiveBrowseComp或类似的时效性基准来校准。

  2. 关注证据整合能力。实验显示模型即使检索到正确证据,使用率也不到三分之一。训练信号应该奖励"从检索结果中提取并整合信息"的行为,而非"生成假设→搜索确认"的模式。

  3. 搜索失败时的回退策略很重要。证据阻断实验表明,当搜索找不到有用信息时,模型会被干扰。需要设计更好的"信心校准"机制——知道什么时候该相信搜索结果,什么时候该回退到自身知识。


📝 收尾

坦率地讲,这篇论文让我对当前搜索智能体的评估体系产生了比较大的怀疑。当一个模型在BrowseComp上从60分涨到70分时,到底是搜索策略进步了,还是训练数据覆盖了更多BrowseComp的答案?在没有LiveBrowseComp这样的对照之前,我们其实分不清。

IKD的存在也提出了一个更深层的问题:我们到底想要什么样的搜索智能体?是一个"什么都知道、搜索只是确认"的百科全书,还是一个"面对未知能真正发现新信息"的探索者?这两种能力的训练信号是不同的,评估方式也应该不同。

这篇论文的贡献不在于刷了什么新的SOTA,而在于它指出了一个方向:搜索智能体的评估必须包含动态、时效性的维度,否则我们只是在测记忆力。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我