搜索智能体的皇帝新衣:它们真的在搜索,还是在用Google验证自己的记忆?
🎯 核心摘要:你以为搜索智能体在网上"搜索"答案?这篇来自哈工大和小红书的论文给了一记当头棒喝——在BrowseComp基准上,智能体不用任何工具就能答对44.5%的问题。更离谱的是,当你把支持答案的证据全部删掉,它们的表现反而比闭卷还差。作者提出了一个新概念"内在知识依赖"(IKD),并构建了LiveBrowseComp基准——335道问题,所有模型闭卷准确率低于2%,搜索增强后分数暴跌25-40分。这不是一篇刷榜论文,而是一面照妖镜,照出了当前搜索基准评估体系的根本缺陷。
📖 论文信息
- 标题:LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
- 作者:HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu
- 机构:哈尔滨工业大学、小红书
- arXiv:2605.28721
- 数据集:https://huggingface.co/datasets/Forival/LiveBrowseComp
🧠 一个让人不舒服的问题
你有没有想过一个问题:当DeepSeek、Kimi这些搜索智能体在BrowseComp上刷到60+分的时候,它们到底是在"搜索",还是在"确认"?
打个比方:考试的时候,有一种学生是真的不会做题、翻书查资料找到答案的;还有一种学生是心里已经知道答案了,翻书只是为了确认一下。如果考试评分不区分这两种情况,那"开卷考试"的成绩其实在很大程度上反映的是"闭卷能力"——这考的还是搜索能力吗?
这篇论文做的就是这件事:把这两种能力拆开来看。结论相当扎心。
🎯 问题动机:静态基准的"知识泄漏"
BrowseComp是OpenAI在2024年底推出的搜索智能体基准,1266道需要深度网络浏览才能回答的问题。各家模型在上面你追我赶,分数一路攀升。
但作者提出了一个根本性质疑:这些模型的训练数据覆盖范围越来越广,BrowseComp里的"难题"有多少其实已经被模型"记住"了?
这不是传统意义上的数据污染(字面字符串重叠),而是一种更隐蔽的问题——模型通过海量预训练数据,已经把很多"冷门知识"编码进了参数里。当它拿到一个BrowseComp问题时,它可能已经"知道"答案了,搜索只是走个过场。
🔬 三项诊断实验:揭开IKD的面纱
作者设计了三项精巧的诊断实验来验证这个假设。
实验一:拔掉网线,你还能答多少?
最直接的测试——把所有搜索工具禁用,让模型纯靠参数化知识回答。

图2:左侧是各模型在四个基准上的闭卷pass@4得分,右侧是搜索工具带来的增益。MiniMax M2.5在BrowseComp上闭卷就能答对44.5%
结果让人吃惊:
- MiniMax M2.5:BrowseComp上闭卷44.5%,搜索只多贡献了28.5分
- Kimi K2.6:BrowseComp-ZH上闭卷62.0%——六成题不用搜就会
- Seed 2.0:HLE上闭卷50.2%
24个模型-基准对的平均闭卷pass@4是38.9。换句话说,这些"搜索基准"上将近四成的分数跟搜索能力毫无关系。
实验二:搜索环境还在,但答案被藏起来了
这个实验更狠。搜索工具照常可用,但检索索引中所有支持正确答案的证据文档被移除,只留下无关文档和"困难负例"(看起来相关但不包含答案的文档)。
| 模型 | 闭卷 | 证据阻断 | 变化 |
|---|---|---|---|
| GLM 5.0 | 21.3 | 7.4 | ↓13.9 |
| GLM 5.1 | 23.3 | 9.4 | ↓13.9 |
| MiniMax M2.5 | 44.5 | 8.0 | ↓36.5 |
| Kimi-K2.5 | 19.7 | 2.8 | ↓16.9 |
| Kimi-K2.6 | 25.5 | 2.3 | ↓23.2 |
| DeepSeek-V4-Pro | 22.5 | 7.0 | ↓15.5 |
| 平均 | 26.1 | 6.2 | ↓19.9 |
这个结果太有意思了。所有模型在证据阻断条件下的表现低于闭卷基线。MiniMax M2.5从闭卷44.5%暴跌到8.0%,Kimi-K2.6从25.5%跌到2.3%。
这说明什么?当搜索找不到支持证据时,模型不是简单地"回退"到闭卷能力,而是被检索到的干扰文档带偏了。搜索循环反而成了一个"自我否定"的过程——模型本来心里有个正确答案,但搜到一堆不相关的东西后,反而动摇了自己的判断。
实验三:查询从哪来的?
作者追踪了每个搜索查询中关键信息的来源:是来自之前检索到的文档(证据驱动),还是来自模型自身的推理(知识驱动)。

图3:(a) 随着搜索进行,模型发起的查询比例持续上升,后期超过60-80%;(b) 即使检索到了支持答案的证据,模型的实际使用率也不到三分之一
两个核心发现:
-
超过一半的查询是模型自己"想"出来的,而非从检索结果中提炼的。随着搜索轮次增加,这个比例还在上升——模型越搜越"自闭"。
-
即使检索到了正确证据,使用率也只有24到32个百分点。模型经常无视检索到的有用信息,继续按自己的思路搜。
这就像一个人去图书馆"查资料",但其实一直在翻自己带来的笔记,偶尔瞄一眼书架上的书,大部分时候还是按自己记忆中的线索走。
🏗️ LiveBrowseComp:把模型逼到知识边界之外
基于以上诊断,作者提出了内在知识依赖(IKD)这个概念,并设计了LiveBrowseComp来系统性地抑制它。

图1:左侧静态基准的知识集不变,模型越训越覆盖;右侧LiveBrowseComp持续刷新,始终保持在模型知识边界之外
核心设计思路很清晰:如果答案所需的事实是模型训练截止后才产生的,那它就不可能"记住",必须真正去搜索。
构建流水线

图4:从6个数据源出发,经过时间过滤、长尾评分、答案稳定性过滤、问题构建、专家验证五个阶段
六个持续更新的数据源:
| 来源 | 覆盖领域 | 时间窗口 | 过滤逻辑 |
|---|---|---|---|
| GDELT | 全球新闻事件 | 90天 | LLM热度评分2.0-4.0,排除头条 |
| TMDB | 电影 | 90天 | 低流行度、低投票、零票房 |
| RAWG | 游戏 | 90天 | 低评分数、低关注度 |
| CVE/NVD | 安全漏洞 | 90天 | CVSS≥9.0、有利用代码 |
| SportsDB | 体育赛事 | 90天 | 低级别联赛、非主流赛事 |
| USGS | 地震数据 | 90天 | 有感但非灾难性 |
三阶段过滤的精妙之处:
时间过滤不够——光是"最近90天"不能保证模型不知道。全球重大事件(比如某个大地震)可能在几天内就通过后训练更新被模型吸收了。所以还需要长尾过滤:只保留那些"存在但不起眼"的事件。
答案稳定性过滤也很聪明——排除那些答案会随时间变化的问题(比如"某电影目前票房多少"),只保留答案唯一确定的事实。
问题构建和验证
标注者的筛选标准相当严格:必须能独立解决BrowseComp原题(10题至少对2题,每题至少花2小时),确保标注者本身具备深度搜索能力。
问题构建后还有五重验证: 1. 正确性验证:追踪证据链,确认答案唯一 2. 唯一性验证:用4个模型各8次rollout生成候选答案池,确认无其他有效答案 3. 难度校准:3个独立标注者尝试解决,30分钟内解出的题被排除 4. 时间性验证:确认至少一条关键证据来自90天窗口内 5. 交叉检查:第4个独立验证者复核所有结果
这套验证流程的严谨程度在基准构建中算是比较少见的。
🧪 实验结果:照妖镜照出了什么
主实验:所有模型大幅下滑
| 模型 | 参数量 | BrowseComp | LiveBrowseComp | 下降 |
|---|---|---|---|---|
| Seed 2.0 | — | 77.3 | 41.5 | ↓35.8 |
| GPT 5.4 | — | 72.1 | 43.2 | ↓28.9 |
| Claude Sonnet 4.6 | — | 69.3 | 41.4 | ↓27.9 |
| Gemini 3.1 Pro | — | 67.0 | 40.0 | ↓27.0 |
| GLM 5.1 | 754B | 68.0 | 33.9 | ↓34.1 |
| DeepSeek V4 Pro | 1.6T | 61.4 | 38.3 | ↓23.1 |
| Kimi-K2.6 | 1T | 62.4 | 31.7 | ↓30.7 |
| DeepSeek v3.2 | 671B | 51.4 | 37.6 | ↓13.8 |
| MiniMax M2.5 | 230B | 60.4 | 28.0 | ↓32.4 |
几个值得注意的点:
排名大洗牌。GLM 5.1在BrowseComp上是开源模型里的第一名(68.0),但在LiveBrowseComp上只有33.9,被DeepSeek v3.2(37.6)和DeepSeek V4 Pro(38.3)超过。这说明GLM 5.1之前的高分很大程度上来自更广的知识覆盖,而非更强的搜索策略。
DeepSeek v3.2的逆袭很有意思。它在BrowseComp上是开源模型中最低的(51.4),但在LiveBrowseComp上表现相对稳定(37.6),下降幅度最小。这暗示它可能有更好的"真搜索"能力,只是之前被知识覆盖更广的模型压制了。
差距压缩。BrowseComp上开源模型顶底差距16.6分,LiveBrowseComp上只有10.3分。IKD就像一个放大器,让"知识多"的模型看起来"搜索能力强";去掉这个放大器,模型间的真实搜索能力差距其实没那么大。
闭卷验证:IKD被有效抑制

图7:所有模型在LiveBrowseComp上的闭卷准确率低于2%,而BrowseComp上闭卷准确率在11-44.5%之间
这张图是整篇论文最直观的"证据"。紫色柱子(BrowseComp闭卷)高高低低,橙色柱子(LiveBrowseComp闭卷)几乎看不见——全部低于2%。设计目标达成。
相关性分析:静态排名能预测实时搜索能力吗?

图8:左图BrowseComp vs LiveBrowseComp的Pearson r仅0.53;右图两个静态基准间的Pearson r为0.79
两个静态基准(BrowseComp和BrowseComp-ZH)之间的相关性很高(r=0.79),这符合预期——它们测的是类似的东西(知识+搜索的混合体)。但BrowseComp和LiveBrowseComp之间的Pearson r只有0.53,说明静态基准上的排名不能可靠预测模型在真实搜索场景下的表现。
轮次分布:搜索行为的质变

图9:上排LiveBrowseComp,下排BrowseComp。BrowseComp上存在明显的短轮次集群(快速验证模式),LiveBrowseComp上这个集群消失了
BrowseComp上有一个明显的"短轮次峰"——很多问题在很少的搜索轮次内就解决了,这与"快速验证已知答案"的模式完全吻合。LiveBrowseComp上这个峰消失了,分布向更高轮次移动,说明模型确实在进行更深入的探索性搜索。
人类表现:搜索难度可比
一个关键的对照实验:人类搜索者在BrowseComp上的解决率是30%,在LiveBrowseComp上是31%。两者几乎一样。
这说明LiveBrowseComp对人类来说并不比BrowseComp更难——它只是对模型更难,因为模型失去了"记忆验证"的捷径。这进一步证实了模型在LiveBrowseComp上的性能下降确实来自IKD的移除,而非题目本身更难。
💡 我的判断
这篇论文最值钱的地方
IKD这个概念的提出比LiveBrowseComp基准本身更有价值。它揭示了一个在搜索智能体评估中被系统性忽视的混淆因素:我们以为在测"搜索能力",实际上很大程度在测"知识广度"。
证据阻断实验的设计特别精巧。它不仅证明了模型依赖内在知识,还发现了一个更深层的问题:当搜索找不到确认信息时,模型会被干扰信息带偏,表现甚至不如不搜。这对搜索智能体的鲁棒性提出了严肃的质疑。
几个值得商榷的点
90天窗口是否足够? 作者自己也承认这是一个近似启发式。不同模型的训练数据截止时间不同,有些模型可能通过在线学习或快速迭代覆盖了更近期的数据。不过考虑到实验中所有模型闭卷都低于2%,这个窗口在当前阶段是够用的。
单一搜索后端的局限。所有实验都用serper.dev作为搜索后端。不同的搜索引擎可能返回不同质量的结果,这可能影响模型的搜索策略表现。不过作为控制变量实验,统一后端是合理的。
可扩展性问题。每道题需要多轮专家标注和验证,成本很高。335道题的规模对于一个基准来说偏小。不过考虑到这是一个需要持续刷新的动态基准,这个规模在初始版本是可以接受的。
对工程实践的启发
如果你在做搜索智能体,这篇论文给了几个很实际的信号:
-
不要只看BrowseComp分数。你的模型可能只是"知识面广",而非"搜索能力强"。用LiveBrowseComp或类似的时效性基准来校准。
-
关注证据整合能力。实验显示模型即使检索到正确证据,使用率也不到三分之一。训练信号应该奖励"从检索结果中提取并整合信息"的行为,而非"生成假设→搜索确认"的模式。
-
搜索失败时的回退策略很重要。证据阻断实验表明,当搜索找不到有用信息时,模型会被干扰。需要设计更好的"信心校准"机制——知道什么时候该相信搜索结果,什么时候该回退到自身知识。
📝 收尾
坦率地讲,这篇论文让我对当前搜索智能体的评估体系产生了比较大的怀疑。当一个模型在BrowseComp上从60分涨到70分时,到底是搜索策略进步了,还是训练数据覆盖了更多BrowseComp的答案?在没有LiveBrowseComp这样的对照之前,我们其实分不清。
IKD的存在也提出了一个更深层的问题:我们到底想要什么样的搜索智能体?是一个"什么都知道、搜索只是确认"的百科全书,还是一个"面对未知能真正发现新信息"的探索者?这两种能力的训练信号是不同的,评估方式也应该不同。
这篇论文的贡献不在于刷了什么新的SOTA,而在于它指出了一个方向:搜索智能体的评估必须包含动态、时效性的维度,否则我们只是在测记忆力。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我