搜索智能体的皇帝新衣：它们真的在搜索，还是在用Google验证自己的记忆？

🎯 核心摘要：你以为搜索智能体在网上"搜索"答案？这篇来自哈工大和小红书的论文给了一记当头棒喝——在BrowseComp基准上，智能体不用任何工具就能答对44.5%的问题。更离谱的是，当你把支持答案的证据全部删掉，它们的表现反而比闭卷还差。作者提出了一个新概念"内在知识依赖"（IKD），并构建了LiveBrowseComp基准——335道问题，所有模型闭卷准确率低于2%，搜索增强后分数暴跌25-40分。这不是一篇刷榜论文，而是一面照妖镜，照出了当前搜索基准评估体系的根本缺陷。

📖 论文信息

标题：LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
作者：HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu
机构：哈尔滨工业大学、小红书
arXiv：2605.28721
数据集：https://huggingface.co/datasets/Forival/LiveBrowseComp

🧠 一个让人不舒服的问题

你有没有想过一个问题：当DeepSeek、Kimi这些搜索智能体在BrowseComp上刷到60+分的时候，它们到底是在"搜索"，还是在"确认"？

打个比方：考试的时候，有一种学生是真的不会做题、翻书查资料找到答案的；还有一种学生是心里已经知道答案了，翻书只是为了确认一下。如果考试评分不区分这两种情况，那"开卷考试"的成绩其实在很大程度上反映的是"闭卷能力"——这考的还是搜索能力吗？

这篇论文做的就是这件事：把这两种能力拆开来看。结论相当扎心。

🎯 问题动机：静态基准的"知识泄漏"

BrowseComp是OpenAI在2024年底推出的搜索智能体基准，1266道需要深度网络浏览才能回答的问题。各家模型在上面你追我赶，分数一路攀升。

但作者提出了一个根本性质疑：这些模型的训练数据覆盖范围越来越广，BrowseComp里的"难题"有多少其实已经被模型"记住"了？

这不是传统意义上的数据污染（字面字符串重叠），而是一种更隐蔽的问题——模型通过海量预训练数据，已经把很多"冷门知识"编码进了参数里。当它拿到一个BrowseComp问题时，它可能已经"知道"答案了，搜索只是走个过场。

🔬 三项诊断实验：揭开IKD的面纱

作者设计了三项精巧的诊断实验来验证这个假设。

实验一：拔掉网线，你还能答多少？

最直接的测试——把所有搜索工具禁用，让模型纯靠参数化知识回答。

图2：闭卷pass@4和搜索贡献热力图

图2：左侧是各模型在四个基准上的闭卷pass@4得分，右侧是搜索工具带来的增益。MiniMax M2.5在BrowseComp上闭卷就能答对44.5%

结果让人吃惊：

MiniMax M2.5：BrowseComp上闭卷44.5%，搜索只多贡献了28.5分
Kimi K2.6：BrowseComp-ZH上闭卷62.0%——六成题不用搜就会
Seed 2.0：HLE上闭卷50.2%

24个模型-基准对的平均闭卷pass@4是38.9。换句话说，这些"搜索基准"上将近四成的分数跟搜索能力毫无关系。

实验二：搜索环境还在，但答案被藏起来了

这个实验更狠。搜索工具照常可用，但检索索引中所有支持正确答案的证据文档被移除，只留下无关文档和"困难负例"（看起来相关但不包含答案的文档）。

模型	闭卷	证据阻断	变化
GLM 5.0	21.3	7.4	↓13.9
GLM 5.1	23.3	9.4	↓13.9
MiniMax M2.5	44.5	8.0	↓36.5
Kimi-K2.5	19.7	2.8	↓16.9
Kimi-K2.6	25.5	2.3	↓23.2
DeepSeek-V4-Pro	22.5	7.0	↓15.5
平均	26.1	6.2	↓19.9

这个结果太有意思了。所有模型在证据阻断条件下的表现低于闭卷基线。MiniMax M2.5从闭卷44.5%暴跌到8.0%，Kimi-K2.6从25.5%跌到2.3%。

这说明什么？当搜索找不到支持证据时，模型不是简单地"回退"到闭卷能力，而是被检索到的干扰文档带偏了。搜索循环反而成了一个"自我否定"的过程——模型本来心里有个正确答案，但搜到一堆不相关的东西后，反而动摇了自己的判断。

实验三：查询从哪来的？

作者追踪了每个搜索查询中关键信息的来源：是来自之前检索到的文档（证据驱动），还是来自模型自身的推理（知识驱动）。

图3：模型发起查询率和证据使用率

图3：(a) 随着搜索进行，模型发起的查询比例持续上升，后期超过60-80%；(b) 即使检索到了支持答案的证据，模型的实际使用率也不到三分之一

两个核心发现：

超过一半的查询是模型自己"想"出来的，而非从检索结果中提炼的。随着搜索轮次增加，这个比例还在上升——模型越搜越"自闭"。
即使检索到了正确证据，使用率也只有24到32个百分点。模型经常无视检索到的有用信息，继续按自己的思路搜。

这就像一个人去图书馆"查资料"，但其实一直在翻自己带来的笔记，偶尔瞄一眼书架上的书，大部分时候还是按自己记忆中的线索走。

🏗️ LiveBrowseComp：把模型逼到知识边界之外

基于以上诊断，作者提出了内在知识依赖（IKD）这个概念，并设计了LiveBrowseComp来系统性地抑制它。

图1：静态基准 vs LiveBrowseComp的核心区别

图1：左侧静态基准的知识集不变，模型越训越覆盖；右侧LiveBrowseComp持续刷新，始终保持在模型知识边界之外

核心设计思路很清晰：如果答案所需的事实是模型训练截止后才产生的，那它就不可能"记住"，必须真正去搜索。

构建流水线

图4：LiveBrowseComp基准构建流水线

图4：从6个数据源出发，经过时间过滤、长尾评分、答案稳定性过滤、问题构建、专家验证五个阶段

六个持续更新的数据源：

来源	覆盖领域	时间窗口	过滤逻辑
GDELT	全球新闻事件	90天	LLM热度评分2.0-4.0，排除头条
TMDB	电影	90天	低流行度、低投票、零票房
RAWG	游戏	90天	低评分数、低关注度
CVE/NVD	安全漏洞	90天	CVSS≥9.0、有利用代码
SportsDB	体育赛事	90天	低级别联赛、非主流赛事
USGS	地震数据	90天	有感但非灾难性

三阶段过滤的精妙之处：

时间过滤不够——光是"最近90天"不能保证模型不知道。全球重大事件（比如某个大地震）可能在几天内就通过后训练更新被模型吸收了。所以还需要长尾过滤：只保留那些"存在但不起眼"的事件。

答案稳定性过滤也很聪明——排除那些答案会随时间变化的问题（比如"某电影目前票房多少"），只保留答案唯一确定的事实。

问题构建和验证

标注者的筛选标准相当严格：必须能独立解决BrowseComp原题（10题至少对2题，每题至少花2小时），确保标注者本身具备深度搜索能力。

问题构建后还有五重验证： 1. 正确性验证：追踪证据链，确认答案唯一 2. 唯一性验证：用4个模型各8次rollout生成候选答案池，确认无其他有效答案 3. 难度校准：3个独立标注者尝试解决，30分钟内解出的题被排除 4. 时间性验证：确认至少一条关键证据来自90天窗口内 5. 交叉检查：第4个独立验证者复核所有结果

这套验证流程的严谨程度在基准构建中算是比较少见的。

🧪 实验结果：照妖镜照出了什么

主实验：所有模型大幅下滑

模型	参数量	BrowseComp	LiveBrowseComp	下降
Seed 2.0	—	77.3	41.5	↓35.8
GPT 5.4	—	72.1	43.2	↓28.9
Claude Sonnet 4.6	—	69.3	41.4	↓27.9
Gemini 3.1 Pro	—	67.0	40.0	↓27.0
GLM 5.1	754B	68.0	33.9	↓34.1
DeepSeek V4 Pro	1.6T	61.4	38.3	↓23.1
Kimi-K2.6	1T	62.4	31.7	↓30.7
DeepSeek v3.2	671B	51.4	37.6	↓13.8
MiniMax M2.5	230B	60.4	28.0	↓32.4

几个值得注意的点：

排名大洗牌。GLM 5.1在BrowseComp上是开源模型里的第一名（68.0），但在LiveBrowseComp上只有33.9，被DeepSeek v3.2（37.6）和DeepSeek V4 Pro（38.3）超过。这说明GLM 5.1之前的高分很大程度上来自更广的知识覆盖，而非更强的搜索策略。

DeepSeek v3.2的逆袭很有意思。它在BrowseComp上是开源模型中最低的（51.4），但在LiveBrowseComp上表现相对稳定（37.6），下降幅度最小。这暗示它可能有更好的"真搜索"能力，只是之前被知识覆盖更广的模型压制了。

差距压缩。BrowseComp上开源模型顶底差距16.6分，LiveBrowseComp上只有10.3分。IKD就像一个放大器，让"知识多"的模型看起来"搜索能力强"；去掉这个放大器，模型间的真实搜索能力差距其实没那么大。

闭卷验证：IKD被有效抑制

图7：BrowseComp vs LiveBrowseComp闭卷表现对比

图7：所有模型在LiveBrowseComp上的闭卷准确率低于2%，而BrowseComp上闭卷准确率在11-44.5%之间

这张图是整篇论文最直观的"证据"。紫色柱子（BrowseComp闭卷）高高低低，橙色柱子（LiveBrowseComp闭卷）几乎看不见——全部低于2%。设计目标达成。

轮次分布：搜索行为的质变

图9：BrowseComp vs LiveBrowseComp的搜索轮次分布

图9：上排LiveBrowseComp，下排BrowseComp。BrowseComp上存在明显的短轮次集群（快速验证模式），LiveBrowseComp上这个集群消失了

BrowseComp上有一个明显的"短轮次峰"——很多问题在很少的搜索轮次内就解决了，这与"快速验证已知答案"的模式完全吻合。LiveBrowseComp上这个峰消失了，分布向更高轮次移动，说明模型确实在进行更深入的探索性搜索。

人类表现：搜索难度可比

一个关键的对照实验：人类搜索者在BrowseComp上的解决率是30%，在LiveBrowseComp上是31%。两者几乎一样。

这说明LiveBrowseComp对人类来说并不比BrowseComp更难——它只是对模型更难，因为模型失去了"记忆验证"的捷径。这进一步证实了模型在LiveBrowseComp上的性能下降确实来自IKD的移除，而非题目本身更难。

💡 我的判断

这篇论文最值钱的地方

IKD这个概念的提出比LiveBrowseComp基准本身更有价值。它揭示了一个在搜索智能体评估中被系统性忽视的混淆因素：我们以为在测"搜索能力"，实际上很大程度在测"知识广度"。

证据阻断实验的设计特别精巧。它不仅证明了模型依赖内在知识，还发现了一个更深层的问题：当搜索找不到确认信息时，模型会被干扰信息带偏，表现甚至不如不搜。这对搜索智能体的鲁棒性提出了严肃的质疑。

几个值得商榷的点

90天窗口是否足够？ 作者自己也承认这是一个近似启发式。不同模型的训练数据截止时间不同，有些模型可能通过在线学习或快速迭代覆盖了更近期的数据。不过考虑到实验中所有模型闭卷都低于2%，这个窗口在当前阶段是够用的。

单一搜索后端的局限。所有实验都用serper.dev作为搜索后端。不同的搜索引擎可能返回不同质量的结果，这可能影响模型的搜索策略表现。不过作为控制变量实验，统一后端是合理的。

可扩展性问题。每道题需要多轮专家标注和验证，成本很高。335道题的规模对于一个基准来说偏小。不过考虑到这是一个需要持续刷新的动态基准，这个规模在初始版本是可以接受的。

对工程实践的启发

如果你在做搜索智能体，这篇论文给了几个很实际的信号：

不要只看BrowseComp分数。你的模型可能只是"知识面广"，而非"搜索能力强"。用LiveBrowseComp或类似的时效性基准来校准。
关注证据整合能力。实验显示模型即使检索到正确证据，使用率也不到三分之一。训练信号应该奖励"从检索结果中提取并整合信息"的行为，而非"生成假设→搜索确认"的模式。
搜索失败时的回退策略很重要。证据阻断实验表明，当搜索找不到有用信息时，模型会被干扰。需要设计更好的"信心校准"机制——知道什么时候该相信搜索结果，什么时候该回退到自身知识。

📝 收尾

坦率地讲，这篇论文让我对当前搜索智能体的评估体系产生了比较大的怀疑。当一个模型在BrowseComp上从60分涨到70分时，到底是搜索策略进步了，还是训练数据覆盖了更多BrowseComp的答案？在没有LiveBrowseComp这样的对照之前，我们其实分不清。

IKD的存在也提出了一个更深层的问题：我们到底想要什么样的搜索智能体？是一个"什么都知道、搜索只是确认"的百科全书，还是一个"面对未知能真正发现新信息"的探索者？这两种能力的训练信号是不同的，评估方式也应该不同。

这篇论文的贡献不在于刷了什么新的SOTA，而在于它指出了一个方向：搜索智能体的评估必须包含动态、时效性的维度，否则我们只是在测记忆力。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我