π-Bench：当 AI 助理被要求"猜你想说但没说的话"，9 个旗舰模型集体翻车

核心摘要

你有没有过这种体验：跟 AI 助理说"帮我准备下周客户汇报的 deck"，它真就生成了一份模板——但完全没考虑你三周前那次会议里定的格式规范、你老板偏好的指标口径、这个客户专属的术语表。它"完成了任务"，但完全没"读懂你"。

这就是这篇论文要量化的那道坎。π-Bench 提出了一个挺扎心的问题：当用户的话只说了一半，AI 智能体能不能主动把另一半挖出来？ 它给 9 个旗舰模型——GPT-5.4、Claude 4.6 Opus、Gemini 3.1 Pro、DeepSeek V3.2、Kimi K2.5、Qwen3.6 Plus 等——出了 100 道横跨 5 个职业角色的多轮长程任务，每道题都埋了 hidden intents（隐藏意图），然后用两个分数：Proc（主动性，看智能体能不能在用户开口前自己解决或追问）和 Comp（完成度，看最终交付物对不对）分别打分。

结论挺有意思：Comp 和 Proc 是两件事。Kimi K2.5 拿到 61.6 的 Comp 但 Proc 只有 43.1——能干活，但要你一句一句喂；Seed2.0 Pro 反过来，Proc 58.4 高于 Comp 52.1——能猜你想要什么但活儿干得糙。即便最好的模型，平均 Proc 也才到 67%。这个 benchmark 的价值不在于又分出谁强谁弱，而在于把"任务做完"和"减轻用户负担"这两个维度切开了。后者才是真正决定 AI 助理用得舒不舒服的那一层。

论文信息

标题：π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
作者：Haoran Zhang、Luxin Xu、Zhilin Wang、Runquan Gui、Shunkai Zhang、Haodi Lei、Zihao He、Bingsu He、Chicheng Qin、Tong Zhu、Xiaoye Qu、Yang Yang、Yu Cheng、Yafu Li
arXiv：2605.14678（v3, 44 页）
发布：2026 年 5 月

为什么需要这么一个 benchmark

先抛一个判断：现在 Agent 评测的主流方向，其实在回避真正的难题。

主流 Agent benchmark——AgentBench、tau-bench、Mind2Web 之类——基本都默认用户开口的一刹那目标就清晰：API 怎么调、表单填什么字段、网页点哪个按钮。但真实助理场景不长这样。你说"准备客户汇报"，没人会告诉你格式 16:9 还是 4:3、关键指标用 GMV 还是 DAU、客户偏好深色背景还是浅色。这些"没说但很重要"的东西，论文里叫 hidden intents（隐藏意图）。memory benchmark 是另一条路，但它聚焦"记得住、调得出"，π-Bench 的设定不一样——记忆只是手段，识别什么需求没说出来、并主动补上才是目的。还有一类 proactive agent benchmark 主要建在手机/GUI 场景上（视觉轨迹、设备上下文、即时澄清、消费级短任务），对真实的长期专业助理来说太薄了。OpenClaw 这种长程办公助理，它需要在一个持久化工作区里反复读写文件、协调工具、跨会话保持决策一致——session 3 定的命名规范，到 session 17 要自动沿用，而不是每次都问一遍。

说到底，作者想测的是这样一种"老员工感"——跟你共事久了的同事，你不用每次都把背景重讲一遍。这个能力现在是不是真的在前沿模型身上出现了？π-Bench 给了一个比较硬核的回答方式。

π-Bench 长什么样

图1：π-Bench 总览。左：5 类用户角色（研究员、市场专员、法务实习生、药剂师、金融分析师）；中：每个角色一个 episode、20 个多轮 session 串成长程工作流，sessions 之间存在跨会话依赖；右：评估两个维度——Proactivity（主动性）和 Completeness（完成度）

图1：π-Bench 总览。左：5 类用户角色；中：每个角色 1 个 episode 含 20 个多轮 session，sessions 之间存在跨会话依赖结构（强依赖组 6 组、独立任务 5 个）；右：双指标评估

整个 benchmark 的设计可以拆成三层：

第一层：5 类角色 × 20 个会话 = 100 个任务

5 个职业角色覆盖了不同工作流：

角色	典型任务	工作流特点
Researcher	文献综述、rebuttal 准备、研究规划	不标准化，难度高
Marketer	内容策划、数据分析、报告	中等结构化
Law Trainee	法律文书、案件移交	风险导向，判断密集
Pharmacist	文献摘要、实验记录、药物设计	高度结构化、文件锚定
Financier	财务分析、风险评估	风险判断密集

所有角色都是跟领域专家一起构造的，不是 LLM 拍脑袋编出来的——这点很重要，回头会看到 Pharmacist 这类高度文件锚定的角色得分明显高于 Researcher。

第二层：跨会话依赖

20 个 session 不是相互独立的。论文里安排了 6 组强依赖（每组 2-3 个 session 共享必要的 carry-over 信息）和 5 个独立任务。比如 session 3 你跟智能体说"客户 deck 用 16:9，关键指标用 GMV"，到 session 17 说"准备这个客户的月度更新"，强助理应该自动沿用前面定的格式和指标，而不是从头问一遍。

第三层：每个 task 的解构

一个 session 由四部分组成：初始请求 \(u_1\)（意图明确但故意欠规约）、hidden intents \(\mathcal{I} = \{i_1, ..., i_m\}\)（被故意藏起来的隐含约束/偏好/依赖）、checklist \(\mathcal{C} = \{c_1, ..., c_n\}\)（可验证的最终交付清单）、以及两套 graders（rubric-based 用 LLM 判细则 + rule-based 用脚本验证文件存在、字段、工具调用）。

这里有个关键设计——hidden intent 和 checklist 是两层独立的结构。前者是 latent 偏好/约束，后者是客观可验证的交付义务。这个区分直接决定了 Proc 和 Comp 是两个分数，而不是同一个分数的两个分量。

核心机制：Hidden Intent 怎么追踪

图2：单个 session 的 turn-based 交互循环。左侧是回合循环：智能体响应、工具调用、工作区更新；用户智能体观察智能体输出并生成下一轮消息。右侧是隐藏意图追踪：每个 intent 最终被分配 completed（智能体直接解决）、inferred（智能体精准追问后由用户揭示）、provided（用户主动告知）三种状态之一。所有 intent 终态后 session 结束

图2：每个 session 是一个 turn-based 循环。每个 hidden intent 最终被打三种标签之一：completed / inferred / provided——这个三态划分是整个评估的灵魂

这块我得展开聊一下，因为它是整篇论文最值钱的设计。每一个 hidden intent 在 session 结束时必然被分配为以下三态之一：

Completed（已解决）：智能体在用户没明说的情况下，自己产出了符合该 intent 的动作或交付物。比如用户没说文件命名规则，但智能体直接沿用了之前定的命名规范——这是最高级别的主动。
Inferred（已追问）：智能体没直接解决，但提了一个精准问题正中要害，用户在下一轮揭示需求，然后智能体据此行动。这也算主动——主动澄清。
Provided（被动给出）：智能体既没解决也没问对地方，用户被迫主动把这个需求 throw 出来。这是被动的标志。

主动性分数定义就出来了：

\[\text{Proc}(H) = \frac{|\mathcal{I}_{\text{completed}}| + |\mathcal{I}_{\text{inferred}}|}{|\mathcal{I}|}\]

直接 completed 和精准 inferred 给等权——这点设计挺到位的。有些 intent 只能通过澄清解决（你不能让智能体猜你的预算上限），有些可以直接推断（命名规范这种可以 carry 过来），都属于 agent driven 的主动行为。完成度更直接，每个 checklist item 跑 grader，平均得分：

\[\text{Comp}(H) = \frac{1}{|\mathcal{C}|}\sum_{c\in\mathcal{C}} s(c, H)\]

为什么 Proc 和 Comp 会脱钩？ session 是直到所有 hidden intent 都进入终态才结束的——意思是，就算智能体一开始很被动，最后所有信息都被用户喂完了，它依然能把活儿干完拿到不错的 Comp 分，但 Proc 会很低（大部分 intent 都打 provided 标签）。所以这两个分数分开看才有意义：Comp 衡量最终能不能干完，Proc 衡量过程中要不要用户费劲推着走。一个好助理，应该 Comp 和 Proc 双高。

主实验：9 个旗舰模型横扫一遍

模型	Avg Proc	Avg Comp	Researcher (P/C)	Marketer (P/C)	Pharmacist (P/C)	Law Trainee (P/C)	Financier (P/C)
GPT-5.4	67.0±2.1	65.6±1.8	46.0/66.4	78.2/67.1	75.9/71.5	56.9/61.9	78.1/61.2
Gemini 3.1 Pro	57.1±0.9	60.0±0.8	41.1/59.2	65.0/62.1	71.0/72.1	50.0/55.3	58.6/51.1
Claude 4.6 Opus	65.5±1.4	67.6±1.5	50.3/74.5	75.0/74.6	82.8/68.6	45.7/57.2	73.8/63.2
DeepSeek V3.2	53.3±1.9	57.8±3.0	29.0/66.9	69.1/59.4	75.9/62.6	33.2/51.1	59.1/48.9
MiniMax M2.7	55.6±3.2	60.0±1.8	33.4/63.9	71.9/61.9	77.1/63.6	38.6/52.5	57.2/58.1
Kimi K2.5	43.1±0.2	61.6±1.9	28.9/63.5	41.2/62.3	70.1/74.8	34.8/54.4	40.4/52.9
Seed2.0 Pro	58.4±0.9	52.1±3.8	38.9/59.6	71.4/44.2	77.0/67.6	46.0/44.7	58.7/44.5
GLM-5.1	58.4±0.8	63.6±2.9	41.8/61.6	62.6/69.1	75.2/70.3	45.5/57.3	66.7/59.8
Qwen3.6 Plus	64.0±1.1	64.1±0.6	40.1/70.0	77.5/66.6	79.7/70.2	45.7/60.2	77.1/53.6

表1：9 个旗舰模型在 π-Bench 上的整体表现，每格为 Proc / Comp（%），均值取 3 次独立运行

我看到这个表第一反应是：好家伙，没一个模型是 Proc 和 Comp 都拉满的。Proc 范围 43.1-67.0，Comp 范围 52.1-67.6，差距都挺大。

几个有意思的现象。没有全能选手，只有偏科冠军——GPT-5.4 拿了 Proc 第一 67.0 但 Comp 只有 65.6，输给 Claude 4.6 Opus 的 67.6；Claude Opus 反过来 Proc 65.5 略低。两家咬得一样紧，只是 GPT 更偏主动、Claude 更偏靠谱。Qwen3.6 Plus 是个意外——Proc 64.0、Comp 64.1，两者都接近 GPT-5.4，而且方差是所有模型里最低的（1.1 / 0.6）。说实话这个数据让我有点惊讶，国产模型在这种长程隐式意图任务上能站到这个位置。Kimi K2.5 是个有趣的反例：Comp 61.6 不算差，Proc 只有 43.1——是所有模型里最低的。意思就是它能干活，但要你一步一步喂指令。Seed2.0 Pro 反过来，Proc 58.4 但 Comp 52.1，能猜中你想要什么但实现质量不行。领域差异巨大——Pharmacist 几乎所有模型都打到 70+，Researcher 的 Proc 集中在 30-50。原因前面说了，Pharmacist 任务高度文件锚定 hidden intent 容易推断；Researcher 任务工作流不标准化，rebuttal、文献综述这些活儿需要更深的领域判断。

解耦分析：为什么 Comp 和 Proc 不能合二为一

图3：(a)(b)(c) 三类代表性任务类别上 Proc-Comp 散点图，(d) 整体平均。灰色虚线是 Comp = Proc 的对角线。可以看到 Type H（法务移交）大幅偏向 Comp，Type K（药物设计）偏向 Proc，Type Q（消费选择）偏向 Comp，Overall (d) 大致呈正相关但偏离严重

图3：四象限散点。Type H (Legal handoffs)：Comp 84.1% vs Proc 38.1%——能起草文件但漏掉移交细节；Type K (Drug design)：Proc 84.9% vs Comp 68.0%——能推断科学约束但综合写作弱；Type Q (Consumer)：完成导向；(d) Overall 整体呈正相关但 Kimi K2.5 / Seed2.0 Pro 严重偏离对角线

我先说结论：这张图证明了 Proc 和 Comp 测的是不同能力，不同任务类型会让模型暴露不同短板。

看 Type H（法务移交）那一象限——所有模型几乎都聚在右下角，平均 Comp 拉到 84.1% 但 Proc 只有 38.1%，差了 46 个点。论文的解释很直接：智能体能起草请求中明确要求的法律文件，但漏掉了"案件是否已经准备好移交给同事"这件事的所有 hidden intent——缺哪些证据材料、有哪些 blocker、下一步谁做什么。这些东西用户必须自己提，智能体不会主动 surface 出来。这折射出工程实践里一个普遍现象：当前 LLM 智能体很擅长按 spec 干活，但很不擅长判断什么没说。Type K（药物设计）反过来，Proc 84.9% 高于 Comp 68.0%——hidden intent 通常是具体的科学约束，从工作区文件里有迹可循；但要写完整、技术细节正确的综合报告需要更深的领域深度，所以 Comp 反而拖后腿。(d) 整体散点图最直观——Kimi K2.5 远离对角线偏右下，Seed2.0 Pro 偏左上，是 Proc-Comp 解耦最典型的例子。

消融实验：历史会话到底有没有用？

图4：消融实验——去掉强依赖组前序会话后的表现变化。Completeness 平均只下降 2.5 个点，但 Proactivity 大幅下跌，GPT-5.4 暴跌 13.6 个点（78.5→64.9），DeepSeek V3.2 跌 9.8 个点（61.9→52.1），MiniMax M2.7 跌 5.1 个点

图4：消融研究。每个强依赖组的最后一个 task 上，对比原始轨迹（Ours）与去掉前序 session（w/o dependencies）后的得分。结论一目了然：去掉历史，Comp 变化不大，Proc 大幅下滑

这个消融做得很干净，一句话总结：所谓"老员工感"真的来自历史对话，而且只对 Proc 有用，对 Comp 几乎不影响。具体数字：

模型	Comp（有依赖→无依赖）	Proc（有依赖→无依赖）
GPT-5.4	65.4 → 63.8（-1.6）	78.5 → 64.9（掉 13.6 个点）
MiniMax M2.7	59.9 → 56.6（-3.4）	64.8 → 59.7（-5.1）
DeepSeek V3.2	55.2 → 52.8（-2.4）	61.9 → 52.1（-9.8）

平均 Comp 只掉 2.5 个点，平均 Proc 掉 9.5 个点。去掉历史后，原本能从前序 session 推断出来的 hidden intent（客户格式偏好、命名规范、上次会议决议）就推不出来了，智能体只能等用户重新告诉它（intent 被打 provided 标签，Proc 直接掉分）；但被告知之后执行能力没变，所以 Comp 变化不大。GPT-5.4 掉 13.6 个点是最猛的，反过来说明它原本就是最依赖历史信息做主动推断的模型——这恰恰是它 Proc 第一的来源。模型越强，这个差就越大。

我对这篇论文的判断

先说我喜欢的。问题选对了——"主动性"这件事在工程落地里特别痛，我之前调一个长程办公助理 demo 的时候，最难调的不是模型能不能完成单步任务，而是它能不能记住三周前定的设定还沿用、能不能在用户没说之前主动 surface 关键问题。这种能力以前没法量化，作者把它抠出来做了系统化定义。三态划分 completed / inferred / provided 是这篇论文的灵魂——把主动行为细分成"直接做对"和"精准提问"两种，让 Proc 这个分数有可解释性，不是黑盒指标。跨会话依赖落到了实处，6 组强依赖+消融实验证明，前序 session 信息确实对 Proc 起作用，把 benchmark 跟 memory 这条线连起来，但又不是单纯测记忆，而是测"用记忆提升主动性"的复合能力。

但有几个地方让我皱眉。100 个任务可能偏少，每个角色才 20 个 session，强依赖组才 6 个。统计层面（3 个 seed 取均值、方差多数 \lt 2.0）控制不错，但具体到 Type H/K/Q 这种细分类别，样本量很小，结论鲁棒性要打个问号。user agent 和 grader 都用 GPT-5.4 跑的，存在潜在循环依赖——GPT-5.4 当 simulated user 时，自己作为被评模型可能会被自己更好理解。论文做了独立 frontier 模型审计宣称分歧率 \lt 4%，但跨家族的多 judge ensemble 会更可信。主动性的边界问题：over-clarify 的 agent（什么都问一遍）也能拿到 inferred 分。论文用 turn count 作为补充缓解但没完全闭环，未来 v2 应该引入"问题质量"维度。5 个角色全是知识工作者，没覆盖代码 agent、数据科学 agent、运营 agent 这些场景。

工程启发与收尾

如果你在做 Agent 产品，这篇论文有几个直接的工程启示：

1. 别只盯 task completion。Kimi K2.5 那种"能干活但要你喂"的特性，用户用着会很累但 task success 不一定低，传统 success rate 抓不到。建议加一个类 Proc 的指标——在用户给出明确指令之前，agent 主动解决或精准追问的占比。

2. 跨 session 偏好沿用要专门设计。消融数据证明这是 Proc 高分模型的核心区别能力。memory 模块不能只存"事实记忆"，还要专门做"latent 偏好提取"——从历史里抽出隐性约束（格式、命名、口径、流程偏好）并在新任务中检索匹配。这块现在多数 memory 框架做得不够细。

3. 把 hidden intent 做成显式的、可标注的对象，让 grader 单独打分。光用 LLM-as-judge 给一个总分太粗了，分维度打才看得清真实弱点；并且 Proc 这个分数可以直接当 RL reward 用，引导模型学"主动澄清+主动推断"的行为。

π-Bench 这篇论文最值钱的不是跑出来的具体数字（虽然 GPT-5.4 / Claude Opus / Qwen3.6 Plus 三巨头并立这个结论也挺有信息量），而是它把"主动性"从一个模糊的产品体验词，变成了一个可量化、可消融、可对比的研究对象。最近一年 Agent benchmark 在卷工具调用、卷长程规划、卷代码生成，但很少有人正经测"AI 知不知道用户没说什么"。

回到开头那个"帮我准备客户 deck"的例子——什么时候 AI 助理跟你工作半年后，开口就知道"这个客户要用 16:9 + GMV 口径 + 那套术语表"，而不是每次都问一遍——那才是 personal assistant 真正落地的时刻。π-Bench 至少把这条路标出来了，剩下就看接下来一年模型能不能在 Proc 这一栏继续往上爬。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我