找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架

你每天花多长时间找论文?

我说的不是那种"看到一篇引用顺藤摸瓜"的找法,而是"老板让你三天内做一份某个方向的 literature survey"那种。打开 arXiv 搜一遍,再去 Semantic Scholar 搜一遍,Google Scholar 再来一遍——结果发现三个平台返回的论文重合度不到 30%,每个都有对方没有的。去重、排序、导出 BibTeX、整理表格……说实话,这套流程每次做完我都觉得,这不该是人干的活。

Paper Circle 这篇论文就是冲着这个痛点来的。它搞了一套多智能体系统,把"找论文"和"读论文"两件事都自动化了,而且是 ACL 2026 主会 Oral。

坦率讲,我看完之后的感受是:工程完成度很高,系统设计有章法,但"多智能体"这个标签本身可能没有听起来那么性感。


核心摘要

Paper Circle 用 6 个协作 Agent 组成论文发现流水线(Discovery Pipeline),整合 arXiv、Semantic Scholar 等多源检索,再用 BM25 + 多准则排序实现 98.18% 的命中率。另一条分析流水线(Analysis Pipeline)把 PDF 转成带溯源的知识图谱(KG),支持问答和覆盖度检查。在 500 条 benchmark 查询上 MRR 达到 0.8824,平均 21 秒返回结果。真实用户测试中 NASA-TLX 认知负荷仅 1.2/7,可用性评分 7.6/10。这不是一个"概念验证",而是一个跑通了全链路的开源系统。


论文信息

  • 标题: Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework
  • 作者: Komal Kumar, Aman Chadha, Salman Khan, Fahad Shahbaz Khan, Hisham Cholakkal
  • 机构: Mohamed bin Zayed University of Artificial Intelligence (MBZUAI); AWS Generative AI Innovation Center, Amazon Web Services
  • 发表: ACL 2026 Main Conference (Oral)
  • 链接: https://arxiv.org/abs/2604.06170

问题动机:为什么单源搜索已经不够用了?

做过 survey 的人都知道一个残酷的事实:没有任何单一论文搜索引擎能覆盖所有你需要的论文。

Paper Circle 在实际使用中统计了 21,115 篇论文的来源覆盖率,结论相当扎心:

来源 检索缺失率
arXiv 70.9%
Semantic Scholar 80.4%
Google Scholar 36.9%
Paper Circle(多源融合) 9.0%

也就是说,如果你只用 Semantic Scholar 搜,有 80% 的相关论文你根本看不到。arXiv 好一点但也漏了 70%。即使用 Google Scholar 也有将近 37% 的漏网之鱼。

这个数据我觉得还是有说服力的。虽然"缺失率"的定义可能有一些争议(后面批判性分析里会聊),但方向是对的——多源融合确实是刚需。

除了覆盖率问题,还有一个更现实的痛点:检索完了还得人肉去重、排序、导出。 Paper Circle 的 Discovery Pipeline 自动去除了 43.5% 的重复论文,直接输出 JSON/CSV/BibTeX/Markdown/HTML 五种格式。


系统架构:两条流水线,各司其职

Paper Circle 的整体架构分为两个独立的子系统。

图1: Paper Circle 系统架构总览,展示了 Discovery Orchestrator 和 Paper Mind Orchestrator 两条主线,底层由 Query Agent、Search Agent、Sorting Agent、Analysis Agent、Export Agent 五个核心 Agent 驱动,通过 Multi-agent Code Orchestrator Tracker 统一调度

图1: 系统架构总览 -- 上半部分是 Discovery(发现)和 Paper Mind(分析)两个编排器,下半部分是五个核心 Agent 和它们共享的工具层

整个系统的设计哲学其实挺清晰的:Discovery Pipeline 负责"找到对的论文",Analysis Pipeline 负责"读懂一篇论文"。两条线可以独立使用,也可以串联。


Discovery Pipeline:用"去噪扩散"的思路找论文

这部分的设计我觉得是全文最有意思的地方。

图2: Discovery Pipeline 的工作流程,借鉴了扩散模型的"噪声-去噪"思想。从一个空白草稿(Empty Draft)出发,经过多轮 Agent Step 的迭代"去噪",逐步从 Noised Draft 收敛到 Denoised Draft,最终生成 Final Draft

图2: Discovery Pipeline 的核心流程 -- 一个 Orchestrator Agent 在底层调度 Query Decomposition、Paper Search、Ranking & Sorting、Analysis & Insights、Export 五个子 Agent

作者把论文发现过程类比为"去噪扩散"(Denoising Diffusion):一开始你的检索结果是一团"噪声"(不相关的论文、重复的论文、排序混乱的论文),每一轮 Agent 操作都是在做"去噪",逐步收敛到你真正想要的结果。

这个类比有点花哨,但底层逻辑是实在的。具体来说,五个 Agent 分工如下:

Query Agent 解析用户自然语言查询,拆解成结构化检索参数(关键词、时间范围、会议筛选等)。

Search Agent 同时查 arXiv、Semantic Scholar 等多个源,做跨源去重。去重不是简单比标题,而是用 DOI、arXiv ID 等唯一标识做精确匹配,再加模糊标题匹配兜底。

Sorting Agent 是排序的核心,用多准则加权打分。BM25 做文本相关性,再叠加时间衰减、引用数归一化、来源权重等维度。还有一个 diversity-aware 的重排,防止前 K 个结果全是同一个方向的。

Analysis Agent 对检索结果做统计分析——发表趋势、作者分布、关键词共现之类的。

Export Agent 生成同步输出:JSON、CSV、BibTeX、Markdown、HTML,附带完整的检索过程日志。

说实话,每个单独的组件都不新鲜。BM25 是信息检索的老家伙了,多源融合也有人做过。但 Paper Circle 的工程价值在于:它把这些东西完整地串起来了,而且每一步都有日志、可复现。 这在学术工具里其实挺少见的。


Analysis Pipeline:把论文变成知识图谱

另一条线就是论文深度分析。给它一篇 PDF,它帮你拆解成结构化的知识图谱。

图3: Analysis Pipeline 的层级架构。Paper Analysis Orchestrator 统一调度 Concept Extractor、Method Extractor、Experiment Extractor、Linkage Agent 四个专业 Agent,底层共享 Ingestion(PDF解析)、Chunking(段落/图表/公式分块)、Graph Builder(概念/方法/实验/链接节点构建)、QnA(RAG问答/定位/导出/验证)四个基础模块

图3: Analysis Pipeline 架构 -- 四个专业化的 Extractor Agent 分别负责提取概念、方法、实验和关联关系

这个设计的特点是类型化知识图谱(Typed Knowledge Graph)。节点不是泛泛的"实体",而是分为:

节点类型 说明 示例
Concept 论文涉及的核心概念 "Attention Mechanism", "BM25"
Method 提出或使用的方法 "Diversity-aware Reranking"
Experiment 实验设置和结果 "50-query benchmark, MRR=0.627"
Dataset 使用的数据集 "ICLR 2024 papers"
Figure 论文中的图表 "Figure 3: Architecture"

每个节点和边都带有溯源信息(Provenance),可以追溯到论文的具体段落和页码。这个特性在 Table 1 的系统对比中,是 Paper Circle 独有的——PaperQA、PaperQA2、STORM 都不支持。

图4: 完整的 Analysis Pipeline 细节流程。Orchestrator Agent 接收 PDF/URL 输入后,先调用 PDF Processor 处理,再分发到 Deep Analyzer、Critic Agent、Literature Expert Agent、Knowledge Graph Agent 等多个分析智能体,每个 Agent 下面挂载 Contribution Analyzer、Reproducibility Checker、Summarizer 等子 Agent,最终汇总生成 Final Report

图4: Analysis Pipeline 的更详细视图 -- 包含 Deep Analyzer、Critic Agent、Literature Expert Agent、Knowledge Graph Agent 等分工明确的分析智能体

分析完之后,用户可以在前端直接看知识图谱、按类型筛选节点、提问题:

图5: Paper Circle 的分析前端界面。左侧(A区域)展示论文的 Mindmap 思维导图可视化,中间部分(C区域)是问答界面,用户提问后系统基于知识图谱返回答案并引用对应的 Figure。右侧(B/D区域)展示提取的 Concepts 列表和详细描述。底部(E区域)提供 Flowchart、Concepts、Methods、Experiments、Interactive Graph 等多种视图切换

图5: 分析前端 -- 支持思维导图、概念列表、问答、多视图切换,看起来完成度确实不错


跟现有工具比,Paper Circle 到底强在哪?

Table 1 做了一个比较全面的横向对比:

能力 Paper Circle PaperQA PaperQA2 STORM SciSage alphaXiv
多智能体编排 Y -- -- Y Y --
多源检索 Y Y Y -- ~ ~
类型化知识图谱 Y -- -- ~ Y --
节点/边溯源 Y -- -- -- ~ --
覆盖度验证 Y -- -- -- ~ --
图谱感知QA Y Y Y -- Y --
确定性运行 Y -- -- ~ ~ --
结构化导出 Y ~ ~ Y ~ --

Paper Circle 的差异化主要在三个点:(1) 多源融合 + 去重;(2) 带溯源的类型化知识图谱;(3) 确定性运行和完整的过程日志。

不过我要说,PaperQA2 在单论文问答的准确率上其实相当厉害,它用的是 RAG + 引用验证的范式,跟 Paper Circle 的定位不太一样。Paper Circle 更偏"发现"(找到论文),PaperQA2 更偏"理解"(读懂论文)。两者其实可以互补。


实验结果:数据说话

主实验:50 条语义查询 benchmark

作者用 312 篇来自 ICLR/NeurIPS/ICML/CVPR 等会议的论文建了一个本地语料库,然后用 50 条自然语言查询做检索评测。

模型 类型 Hit Rate MRR R@1 Time(s)
Qwen3-Coder-30B-Q3KM Agent 0.80 0.627 0.58 22.2
qwen3-coder:30b Agent 0.80 0.518 0.46 21.1
BM25 Baseline Baseline 0.78 0.541 0.48 --
deepseek-coder-v3:16b Agent 0.66 0.396 0.32 47.9
Semantic Baseline Baseline 0.54 0.279 0.22 --

看到这个数据,我的第一反应是:BM25 baseline 也太能打了吧?

Hit Rate 0.78 vs Agent 的 0.80,MRR 0.541 vs 0.627——差距有,但远没到"Agent 碾压传统方法"的程度。而且 BM25 不需要 GPU,不需要等 22 秒,这个性价比……

更有意思的是,小模型(qwen2.5-coder:3b/7b)的 Agent 表现甚至不如 BM25。这说明 Agent 框架本身的价值很大程度上取决于底层 LLM 的能力。如果 LLM 不够强,加了 Agent 架构反而引入了更多的出错环节。

扩展实验:500 条查询

到了 500 条查询的大规模测试,数据就好看多了:

配置 Hit Rate MRR R@1 Time(s)
Default(完整 Agent) 0.9818 0.8824 0.8381 21.54
带过滤 + 离线 0.9600 0.8485 0.7800 22.76
纯离线 0.9200 0.6476 0.5600 41.45
无 mention 0.6400 0.4316 0.3600 38.35

98.18% 的命中率和 0.88 的 MRR——这个数确实很能打。但这里有个细节值得注意:500 条查询是用什么标准构造的?如果查询本身就是从语料库里的论文标题改写来的,那高命中率多少有点"开卷考试"的味道。

检索消融实验

Table 7 的消融实验揭示了一个有趣的现象:

配置 Hit Rate MRR Time(s)
BM25 Full 0.9600 0.8629 33.75
BM25 + Reranker 0.9600 0.8692 935.07
Semantic Full 0.9400 0.7097 31.28

BM25 + Reranker 的 MRR 只比纯 BM25 高了 0.006(0.8692 vs 0.8629),但耗时从 34 秒飙到了 935 秒——28 倍的时间换来 0.7% 的提升。这波投入产出比属实不太划算。

而纯语义检索(Semantic)反而比 BM25 低了 15 个点的 MRR。在学术论文检索这个场景下,BM25 这种精确匹配的方法依然很有竞争力,因为论文标题、摘要里的关键术语本身就是高质量的检索锚点。

论文评审预测:老实说效果不行

Paper Circle 还尝试了一个有意思的任务——用 LLM 预测论文评审分数。在 50 篇 ICLR 2024 论文上的结果:

图6: 论文评审预测的四组对比图。(A) 平均MSE:GPT-120B为1.42,Qwen-30B-Q3为3.79,GPT-20B为1.34,Qwen-30B为3.44;(B) 平均相关系数:所有模型的Pearson和Spearman相关系数都接近0甚至为负(最高仅0.09);(C) 不同容错阈值下的准确率:GPT-120B和GPT-20B在+-1.5阈值下可达约95%,但Qwen模型仅约65%;(D) 模型成功率:GPT-120B为96%,GPT-20B为84%,Qwen模型为76%

图6: 论文评审分数预测结果 -- 相关系数接近0,说明 LLM 目前还不能可靠地排序论文质量

图 6(B) 里的数据很说明问题:所有模型的 Pearson/Spearman 相关系数都在 -0.15 到 0.09 之间徘徊。这意味着LLM 给的评审分数跟人类评审的排序基本没有相关性

GPT-120B 的 MAE 是 1.42(满分通常是 10 分制),看绝对误差还行,但排序能力约等于随机。作者很坦诚地承认了这一点,我觉得这个诚实度值得点赞——很多论文会选择不报这种"难看"的结果。


真实用户反馈

81 个用户 session,横跨 9 个研究方向,处理了 21,115 篇论文。关键可用性指标:

  • NASA-TLX 认知负荷: 1.2/7(几乎无感)
  • SUS 积极评分: 7.6/10
  • SUS 消极评分: 2.6/10
  • 可学习性: 8/10
  • 中位运行时间: 2.3 分钟

这组数据说明系统的上手门槛确实低。但 81 个 session 的样本量偏小,而且不知道这些用户是不是团队内部的——如果是的话,评分可能偏乐观。


数据库设计:一个被忽略的亮点

图7: Paper Circle 的数据库 ER 图,包含 users、papers、communities、paper_analysis、paper_engagement、paper_discussions、community_papers 七张表。paper_analysis 表存储了知识图谱的 Nodes & Edges(JSON格式)以及 Markdown Summary、Mermaid 思维导图和流程图

图7: 数据库关系图 -- 支持社区(Communities)、论文互动(Engagement)、讨论(Discussions)等社交功能

这张 ER 图其实透露了不少信息。Paper Circle 不只是一个检索工具,它还内置了社区功能——用户可以创建 Community(比如"NLP 2026"),把论文加进去,还能做讨论和互动(like、view、save)。paper_analysis 表用 JSON 直接存知识图谱的 Nodes & Edges,简单粗暴但够用。


我的判断:工程价值大于学术贡献

说实话,读完整篇论文之后,我的感受是这是一个工程质量很高的系统论文,但"多智能体"这个卖点被包装得有点过了

亮点

  1. 多源融合的覆盖率提升是实打实的。从单源 20-64% 的覆盖率提升到 91%,这个数据对做 survey 的人来说有真实价值。
  2. 系统完成度很高。从检索到分析到前端到导出,全链路跑通了,而且开源。这在学术工具类论文里属于上乘。
  3. 诚实地报告了论文评审预测的失败。相关系数接近 0 这个结果,很多人会选择不放出来。

问题

  1. BM25 baseline 的尴尬。在 50 条查询的实验里,BM25 跟最好的 Agent 差距很小(MRR 0.541 vs 0.627)。这让人怀疑:Agent 架构带来的增益,到底是来自"多智能体协作",还是仅仅来自"在线搜索补充了更多论文"?
  2. Benchmark 的公正性存疑。500 条查询是怎么构造的?如果是从已有论文生成的,那高命中率可能只是在测"信息检索"而不是"论文发现"。真实场景下,用户的查询往往模糊、不完整,这种 benchmark 可能过于理想化。
  3. "多智能体"的必要性没有充分论证。消融实验里,去掉 Intent Agent(no_intent)后 MRR 只从 0.8629 降到 0.8554,去掉 Sorting 的单独排序步骤后也几乎没影响。这说明很多 Agent 的边际贡献并不大。
  4. 论文评审预测这部分有点"凑"。跟主系统的论文发现和分析定位不太一致,而且结果确实不好看。

对工程实践的启发

如果你正在做学术检索工具或者 AI 辅助研究的产品,Paper Circle 有几个设计值得借鉴: - 多源融合 + 跨源去重是必做的,单源覆盖率太低了 - BM25 在学术论文检索场景下依然是超强 baseline,不要一上来就 all-in 语义检索 - Reranker 的时间开销要认真评估,28 倍耗时换 0.7% 提升大概率不值得 - 知识图谱的溯源(Provenance)对用户信任度很关键


跟同期工作的定位对比

工具 核心定位 优势 局限
Paper Circle 多源发现 + 知识图谱分析 覆盖率高,全链路,开源 Agent增益有限
PaperQA2 单论文精准问答 RAG + 引用验证,问答准确 不做发现,单源
STORM 综述生成 自动写 Wikipedia 式综述 不做结构化分析
SciSage 知识图谱 + QA 图谱能力强 社区生态弱

Paper Circle 填了一个"多源发现 + 图谱分析"的空位。跟 PaperQA2 比,它更偏"找论文";跟 STORM 比,它更偏"结构化理解"而非"自由文本生成"。


收尾

Paper Circle 这篇论文给我最大的收获,其实不是"多智能体"本身,而是那组覆盖率数据——arXiv 漏了 70.9%,Semantic Scholar 漏了 80.4%。这两个数字让我重新审视了自己日常找论文的方式。

至于"用 Agent 做论文检索"这个方向,我的判断是:核心价值不在 Agent 架构本身,而在数据源整合和智能排序。 Agent 只是一种组织代码的方式,真正让用户受益的是"一次搜八个源然后帮你去重排序"。如果你把同样的逻辑写成一个普通的 Python 脚本而不叫它"Agent",效果不会差太多。

但话说回来,系统开源了,用起来也方便——如果你每周都要跟踪某个方向的新论文,试试 Paper Circle 还是值得的。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我