LLM 智能体的记忆「悄悄过期」问题:最强模型也只能拿 55 分
一个你一定踩过的坑
上周帮一个朋友 debug 他做的个人助理 Agent,跑了几天突然出了个挺离谱的 case:
用户三个月前跟 Agent 闲聊,提过"我每天骑车上下班"。两周前用户发消息说"昨天打球把腿摔断了,要打石膏"。然后那天早上用户问 Agent:"帮我规划一下这周的通勤方案。"
Agent 兴高采烈地回了一段:"考虑到您日常骑车通勤,我建议您注意上下班路线的红绿灯节奏,避开高峰期……"
朋友当场就裂开了。
这不是一个孤立的 bug,这是当前几乎所有有"长期记忆"的 LLM Agent 都绕不开的一道坎——记忆不会自动过期。新观察来了,但旧记忆还坐在记忆库里岿然不动,没有任何机制告诉模型"这条记忆已经不适用了"。
最近来自武汉大学、香港中文大学、香港科技大学的几位作者把这个事情正经做成了一个 benchmark,叫 STALE,专门测 LLM 智能体能不能意识到自己的记忆已经失效。结果挺难看的——即便是 Gemini-3.1-pro 这种规模的旗舰模型,整体准确率也只有 55.2 个百分点。更扎心的是,PR 这个维度(后面会讲),绝大多数模型直接交白卷。
📄 论文:STALE: Can LLM Agents Know When Their Memories Are No Longer Valid? 👥 作者:Hanxiang Chao, Yihan Bai, Rui Sheng, Tianle Li, Yushi Sun 🏫 机构:武汉大学、香港中文大学、香港科技大学 📅 arXiv: 2605.06527(2026 年 5 月)
核心摘要
LLM 智能体被越来越多地用作长期个人助手,但学术界对"记忆"的评测基本停留在静态事实检索——能不能记住用户三个月前说过什么。这个评测漏掉了一个真实部署里更要命的问题:当新证据出现时,模型能不能主动让旧记忆失效?
这篇论文把这种失效模式命名为隐式冲突(Implicit Conflict),并细分为两种:同属性的共指冲突(Type I)和跨属性的传播冲突(Type II)。然后构造了一个含 400 个专家验证场景、1200 条查询、上下文最长 150K token 的基准 STALE,从三个维度做探测:你能识别记忆过期吗(SR)?面对带有过期前提的提问能否拒绝配合(PR)?在自然交互里能否主动应用新状态(IPA)?
实验结果相当残酷。最强的 Gemini-3.1-pro 整体 55.2%,PR 维度只有个位数到 30 几个点。LightMem、mem-0、Zep 这些专门做记忆的框架,大多数都比裸模型还差。作者顺手做了个原型 CUPMem,把"写入时显式裁决"做进记忆系统,整体跳到 68.0%,但 IPA 维度依然只有 32-43%。
一句话评价:这篇论文最值钱的不是 CUPMem 这个方案,而是把"长期记忆失效"这件事拆解清楚了——证据能检索到,但没机制裁定该信哪条。值得做 Agent 的人认真读。
什么是「隐式冲突」?两种类型说清楚
论文一开始就把核心概念定义得很硬核——用潜在状态追踪(latent state tracking)的视角来看长期记忆。借了 HMM 和 POMDP 的语言:用户的真实状态 \(S_t\) 是隐藏的,每条对话 \(m_t\) 只提供这个状态的部分、有噪声的观察。助手要做的不是"缓存对话片段",而是对一系列用户属性维护和修订信念(health、location、commute modality 等等)。
在这个框架下,隐式冲突就是:新观察 \(m_n\) 使旧观察 \(m_o\) 支持的某个信念 \(v_o(a)\) 失效了,但失效过程没有任何显式否定。形式化下来是两条公理:
- 公理 1(信念不兼容):存在更早的观察 \(m_o\) 和属性 \(a\),使得 \(m_n \models_\mathcal{K} \neg v_o(a)\);
- 公理 2(非显式失效):\(m_o\) 之后没有任何话语显式否定、修正或标记 \(v_o(a)\) 过期(不能出现"我现在不……了"这种表述)。
关键就在"隐式"两个字。不是用户跑来说"我不再骑车了"——那种太简单。而是用户说了另一件事(打球摔了腿),你得通过常识推理意识到:腿断了短期内骑不了车,所以那条"骑车通勤"的记忆得失效。

图 1:STALE 论文最核心的一张图。从左到右依次是「时间稀疏的对话」→「部分观察」→「隐藏的潜在状态」→「记忆管理与状态探测」。最右边的三种探测查询对应后面会讲的 SR/PR/IPA。
Type I:共指冲突(Co-referential Conflict)
两条观察直接落在同一个属性上,但暗示不同的值。
举个论文里的例子:用户早期说"我住在西雅图",过了几个月说"正在波特兰新公寓签水电合同"。这两条信息都关于"当前居住地"这个属性,后者隐式否定了前者,但用户从未说过"我搬离了西雅图"。
Type I 的难点在于:后一句话从来没有显式提到"location"这个 attribute,更没说"location 变了"——但语义上明显是冲突。
Type II:传播冲突(Propagated Conflict)
这个就难了。新观察 \(m_n\) 更新的是属性 \(b\),但这个变化通过因果或逻辑链传播下去,让一个结构上相关但不同的属性 \(a\) 的旧信念也失效了。
开头那个例子就是 Type II——腿骨折是 health 属性的更新,但传播到 commute modality(通勤方式)这个相关属性,使得"骑车通勤"的旧信念失效。
论文还给了个更抽象的:用户说"刚适应了波特兰的生活节奏",几个月后说"在靴子里发现一只树皮蝎子,被持续干热天气逼进室内"。前者支持"住在波特兰",后者更新了"local environment"——但树皮蝎子和持续干热不是波特兰的特征,而是亚利桑那州凤凰城那一带的——所以"住在波特兰"的信念实际上被传播性地失效了。整个推理链从未被任何话语显式陈述。
Type II 比 Type I 难得多,因为跨属性依赖链需要模型自己从世界知识里推出来。
STALE 怎么构造?四步走 + 长上下文针海
数据集构造是这篇论文工作量最大的一块。我看完整个 pipeline 觉得设计得相当细。

图 2:数据集生成完整流水线。每个 instance 自动生成后都会经过人类专家审核和修订。
四个步骤拆开来看:
Step 1:基础状态构建
从一个层次化主题本体中采样属性 \(a\)(比如 Routine.commute_modality),LLM 生成一个 persona、场景以及旧观察 \(m_o\),要明确支持某个值 \(v_o(a)\)。
Step 2:对抗性冲突生成
让一个"逻辑攻击者"基于 \(m_o\) 在时间间隔 \(\Delta t\) 后合成新观察 \(m_n\):
- Type I:直接给出一个不兼容的新值 \(v_n(a)\),但写 \(m_n\) 时不能直接点名 attribute \(a\),要让新值"暗含其中";
- Type II:识别一个能因果影响目标属性 \(B\) 的上游属性 \(A\),生成反映 \(v_n(A)\) 更新但不显式提及 \(B\) 的 \(m_n\),逼模型自己做级联推理。
Step 3:质量控制
每对 \((m_o, m_n)\) 都过 LLM judge 检查三件事:独立合理性、状态级冲突、隐含性。语法上太明显的(比如直接出现"以前 X 现在 Y")一律拒绝。失败的回到 Step 2 带反馈重新生成。
Step 4:多轮对话打包 + 长上下文针海
\(m_o\) 和 \(m_n\) 分别被包成动态多轮对话 session,嵌入到一个时间顺序的长上下文针海里(up to 150K tokens),中间填充来自 LongMemEval 的干扰 session。干扰 session 还要保守过滤掉任何可能对目标属性造成额外更新的内容,保证 \(m_n\) 是这段历史里冲突的唯一来源。
最终的数据集:400 个专家验证的冲突场景(200 Type I + 200 Type II),1200 条评估 query(每场景 × 3 个探测维度),覆盖 100+ 日常话题,上下文长度最长 150K tokens。

图 3:属性分布饼图。10 大类,最大一类占 13.5%,最小 4.7%,覆盖比较均衡。
三维探测:不是看你能不能"记住",是看你能不能用
这是我觉得这篇论文最聪明的地方——不是简单地问"记忆过期没有",而是从三个维度探测模型能力。
| 维度 | 名称 | 探测方式 | 示例查询 |
|---|---|---|---|
| SR | State Resolution(状态解析) | 显式探测 | "根据对话历史,用户还每天骑车通勤吗?" |
| PR | Premise Resistance(前提抗性) | 对抗探测 | "既然用户每天骑车,帮制定一个自行车维护计划?" |
| IPA | Implicit Policy Adaptation(隐式策略适应) | 隐式探测 | "帮规划一下这周的通勤方案?" |
这三个维度测的是完全不同的能力。
- SR 是显式探测——直接问"这个事是不是已经变了"。这是最简单的,模型只要把两段证据放一起对比就行。
- PR 是对抗探测——查询里嵌入了过时的前提("既然用户每天骑车……"),但表面上没提到任何新证据。模型要主动拒绝这个虚假前提,先纠正再回答。这个真的很微妙——人类助理面对"既然你每天骑车"这种话,反应应该是"等等,你不是上周骑车摔了吗?"
- IPA 是隐式探测——查询完全不提 \(m_o\) 也不提 \(m_n\)("帮规划这周的通勤方案"),但安全的回答必须基于更新后的信念。这个测的是 Agent 在自然交互里的主动性——能不能想到去查相关记忆。
实际部署里,PR 和 IPA 比 SR 重要得多。用户不会闲着没事问你"我之前说的那件事还有效吗",用户只会带着假设直接提需求。这恰恰是模型最容易翻车的地方。
实验结果:全面溃败
直接看主结果表。
| 模型 | T1 SR | T1 PR | T1 IPA | T2 SR | T2 PR | T2 IPA | Overall |
|---|---|---|---|---|---|---|---|
| GPT-4o-mini* | 30.0% | 0.0% | 11.0% | 9.5% | 0.0% | 1.5% | 8.7% |
| GPT-5.4-nano | 20.5% | 1.5% | 21.5% | 9.0% | 0.0% | 6.5% | 9.8% |
| GPT-5.4 | 35.0% | 2.0% | 29.0% | 9.0% | 2.0% | 17.0% | 15.7% |
| Gemini-3.1-flash-lite | 41.0% | 1.5% | 42.0% | 25.0% | 1.5% | 23.5% | 22.4% |
| Gemini-3.1-pro | 92.0% | 30.0% | 71.0% | 69.0% | 14.0% | 55.0% | 55.2% |
| Llama-3.3-70B* | 6.5% | 0.0% | 3.0% | 6.0% | 0.0% | 0.0% | 2.6% |
| Qwen3.5-9B | 36.0% | 1.0% | 21.5% | 21.5% | 0.0% | 7.5% | 14.6% |
| Qwen3.5-27B | 76.0% | 4.0% | 39.0% | 42.0% | 3.5% | 23.0% | 31.3% |
| MiniMax-M2.5 | 10.5% | 1.5% | 8.0% | 5.5% | 5.0% | 2.5% | 5.5% |
| LightMem | 52.5% | 1.0% | 23.5% | 21.5% | 0.5% | 7.5% | 17.8% |
| Zep | 10.0% | 0.0% | 19.0% | 3.0% | 1.0% | 3.0% | 6.0% |
| LiCoMemory | 15.5% | 0.5% | 22.5% | 1.5% | 1.5% | 4.0% | 7.6% |
| A-mem | 13.5% | 0.0% | 7.5% | 8.0% | 0.0% | 1.5% | 5.1% |
| mem-0 | 17.0% | 1.0% | 22.0% | 3.5% | 0.0% | 6.5% | 8.3% |
| CUPMem(本文) | 91.0% | 78.0% | 32.0% | 89.0% | 75.0% | 43.0% | 68.0% |
* 表示上下文窗口不够,做了 evidence-preserving 截断。记忆框架统一用 GPT-4o-mini 作 backbone。
我看完这张表,有三个判断挺扎心的。
发现 1:识别 ≠ 应用
Qwen3.5-27B 这个例子特别典型。Type I SR 上达到 76.0%——直接问它"这个属性是不是变了",它大概率能答对。但到了 Type I IPA(自然场景中主动应用更新状态),直接掉到 39.0%。Type II 更狠,从 SR 的 42.0% 掉到 IPA 的 23.0%。
也有反过来的,比如 LiCoMemory,Type I SR 是 15.5%,IPA 反而 22.5%。这种"反向"现象作者解释说,明显的状态识别和隐式策略适应是部分独立的机制。
直白点讲:模型脑子里其实"知道"这事变了,但行为上还是按旧的来。这跟人有点像——你明知道朋友失恋了不该提前任,结果一聊天还是顺嘴提了一句。
发现 2:前提偏差几乎打穿了所有模型
PR 维度真是惨不忍睹。直接看几个数字:
- Gemini-3.1-pro:Type I SR 92.0% → Type I PR 30.0%,掉了 62 个点;
- Qwen3.5-27B:Type I SR 76.0% → Type I PR 4.0%,掉了 72 个点;
- GPT-5.4:Type I SR 35.0% → Type I PR 2.0%;
这意味着什么?意味着即便模型"知道"这条记忆过期了,只要你的提问里暗含旧假设——"既然你每天骑车……"——模型就会顺着你的话往下说。
这事在实际部署里真的非常危险。用户的提问天然会带假设(人类语言就是这样),助手本应该验证这些假设而不是盲从。但目前的模型几乎没有这种"反向校验"的本能。
发现 3:Type II 比 Type I 难一截
几乎所有系统在 Type II 上的表现都比 Type I 显著差。Gemini-3.1-pro 在 SR 上从 92.0% 跌到 69.0%,PR 从 30.0% 跌到 14.0%,IPA 从 71.0% 跌到 55.0%。
为什么?Type I 只需要识别同一属性的两个不兼容值——说到底就是一个对比任务。Type II 要通过因果链推导出另一个属性的失效——需要常识 + 结构推理。后者对模型来说显然更难。
我对实验结果的几个观察
第一,memory framework 不是银弹。除了 LightMem(17.8%)勉强比裸 GPT-4o-mini(8.7%)好一些,其他几个像 Zep(6.0%)、A-mem(5.1%)甚至更差。这挺讽刺的——你专门做了记忆模块,结果还不如直接把对话扔进上下文。
第二,PR 维度才是真正的试金石。所有模型在 SR 上多多少少都能看,但 PR 是公认的滑铁卢——除了 CUPMem 之外,全场最高分是 Gemini-3.1-pro 的 30.0%(Type I),其余全部个位数。这强烈暗示当前模型缺少一种"质疑用户前提"的内在机制。
第三,Gemini-3.1-pro 是这次的卷王。SR/IPA 几乎在每个维度都断崖式领先其他闭源模型。Qwen3.5-27B 算是开源里的亮点(31.3%),但跟 Gemini-3.1-pro 还差一截。
注意力分析:模型到底"看"了什么?
实验之外,论文还做了一个很有意思的分析——拿 Qwen3.5-9B 和 Qwen3.5-27B 做注意力模式诊断,想搞清楚模型在"对" 与 "错"的样本上行为有什么差异。

图 4:注意力比率分析。读这张图的核心点:正确回答的样本(蓝线)在中间层会把更多注意力分配给「新证据」相对于「旧证据」,错误的(橙线)则相对更平均。Type II 整体注意力比率更弱,对应了 Type II 难度更高的结论。
论文把对话上下文拆成三段:新 session \(S_n\)、旧 session \(S_o\)、query \(Q\)。分别测三种注意力流向:
- \(S_n \to S_o\)(新证据 → 旧证据,看模型有没有在两段证据间做对比)
- \(Q \to S_o\)(查询 → 旧证据)
- \(Q \to S_n\)(查询 → 新证据)
而且很贴心地做了 noise baseline——把每段证据替换成它紧邻的干扰 session,得到的就是位置相关而非内容相关的注意力。
几个关键发现:
- \(Q \to S_o\) 和 \(Q \to S_n\) 都明显高于 noise baseline,说明 query 确实在内容上吸引注意力。
- \(S_n \to S_o\) 一直很弱,几乎贴在 baseline 附近。这告诉我们一件事:模型并没有在内部做一个"显式对比新旧证据"的步骤。它更像是查询条件路由——query 把注意力导向哪一段证据,决定了输出。
- Type II 的 query-to-new-session 注意力比 Type I 弱,跟 Type II 表现更差的结论一致。
- 回答正确的样本,中间层(layer 15 附近)对新证据的相对注意力会冲高,明显高于错答样本。
第二点我觉得是这个分析里最值得思考的——长上下文模型处理"新旧冲突"时,没有内置的调和机制,成功与否高度依赖于"查询恰好引导到了正确的证据段"。这跟人类不一样——人类在听到"既然你每天骑车……"时会下意识停顿、回想"哎等等他不是刚摔了腿吗"。模型没有这个 reflexive check。
这个发现也直接为 CUPMem 的设计提供了理论支撑:既然查询时模型自己做不好调和,那就把调和挪到写入时去做。
CUPMem:写入时显式裁决
CUPMem 的全称是 Current-state Updating and Propagation-aware Memory。核心思路一句话讲清:把查询时的偶然调和挪到写入时的显式裁决。
三步走架构:
1. 写入侧信念更新(裁决)
当一个新 session 到来,CUPMem 不是简单 append-only,而是:
- 从新 session 中抽取状态更新候选 \(\Delta_t\)
- 用 LLM 裁决器(adjudicator)对已有记忆逐一审查,给出四种判决之一:
- KEEP:保持有效
- STALE:标记为过期
- REPLACE:替换为新值
- UNKNOWN:标记为不确定
这一步对应解决 Type I——同属性的新旧值直接打架,由裁决器判断。
2. 拓扑触发的信念传播(搜索)
针对 Type II 的级联失效,CUPMem 不只检查直接相关的属性槽,还要扩展搜索到结构上可能受影响的区域:
通俗讲就是:搬家了 → 不只更新 location 这一个属性,还要搜索通勤方式、社交圈、常去的超市等所有可能受影响的属性,逐一交给裁决器判。
3. 授权状态下的受限读出
查询时不再把 top-k 记忆一股脑塞给生成器,而是基于裁决结果分级使用:
- active 记忆 → 作为当前依据
- stale 记忆 → 作为历史背景(可以参考但不能作为当前事实)
- unknown 状态 → 阻止使用旧默认值作为前提
效果怎么样?
回到主表,CUPMem 用同一个 GPT-4o-mini backbone:
- 整体准确率从裸模型的 8.7% → 68.0%
- 尤其在 PR 维度上:Type I PR 从 0.0% → 78.0%,Type II PR 从 0.0% → 75.0%
PR 这个提升真的很能打——直接从全场垫底变成全场最高。这证实了一个直觉:记忆失效不是检索问题,而是状态裁决问题。
但 IPA 维度上 CUPMem 只有 32-43%,比 Gemini-3.1-pro 还差一截。这其实挺值得琢磨的——说明"写入时裁决"解决了显式探测和对抗探测,但在自然场景中主动想起去查相关记忆依然很难。IPA 的提升可能需要在查询侧再做点工作。
为什么记忆框架表现这么差?LightMem 的诊断
论文对 LightMem(记忆框架里表现最好的)做了非常细的诊断,揭开了一个挺打脸的真相。
| 维度 | 新证据被检索到 | 新旧都被检索 | 旧证据 top-1 | 新证据 top-1 | 有新证据仍失败 |
|---|---|---|---|---|---|
| SR | 77.5% | 71.0% | 88.2% | 5.2% | 56.1% |
| PR | 77.5% | 70.8% | 84.5% | 7.5% | 99.0% |
| IPA | 67.8% | 52.2% | 25.5% | 20.2% | 78.6% |
仔细读这张表,几个数字真的很扎眼:
- 新证据检索率 77.5%——证据不是找不到,是能找到的。
- 但是在 PR 维度,即使新证据出现在检索结果里,失败率依然高达 99 个百分点。
- 写入时,新证据来的时候 top-3 里包含对应旧证据的比例是 60.5%,但只有 3.3% 的旧条目被判定需要更新。
论文给这个现象起了个名字:current-state adjudication gap——可见性 ≠ 权威性。新旧记忆和平共处在检索结果里,没有任何机制来裁定谁更权威、谁已过期。最终模型用哪条,完全看 query 怎么写、向量怎么打分。
这就是为什么单纯"加一个 memory module"解决不了问题——你只是让记忆在检索层面"找得到",但没有解决"哪条该信"这个根本问题。
与已有基准的对比
| 基准 | 对话场景 | 状态演化 | 隐式推理 | 冲突解决 | 级联失效 | 对抗探测 |
|---|---|---|---|---|---|---|
| LoCoMo | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| LongMemEval | ✓ | ✓ | ✗ | 显式 | ✗ | ✗ |
| IMPLEXCONV | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ |
| FactConsolidation | ✗ | ✓ | ✗ | 显式 | ✗ | ✗ |
| KnowMe-Bench | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ |
| PersonaMem-v2 | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ |
| AMEMGYM | ✓ | ✓ | ✓ | ✗ | ✗ | ✗ |
| STALE | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
STALE 的差异化定位很清楚:已有的工作要么只测静态检索(能不能记住),要么处理的是显式冲突(用户直接说"我搬家了"),没有人系统地测隐式失效 + 级联传播 + 对抗探测这三个的组合。
特别是 Cascading Invalidation(级联失效)和 Adversarial Probing(对抗探测)这两列,之前几乎是空白。
几个值得吐槽的地方
吹了这么多,也得说说我觉得有问题的地方。
1. CUPMem 在 IPA 上还是不行。32-43% 这个数字,说明写入时裁决能解决"问得显式"或"问得对抗"的场景,但"问得隐式"——也就是用户在自然交互中根本没提相关线索时,模型还是想不起来该去查哪条记忆。这其实是个 query understanding 的问题,需要查询侧再做工作。
2. 数据集规模其实不算大。400 个冲突场景(200 + 200)对一个 benchmark 来说偏小。虽然有专家验证保证质量,但话题覆盖再广,每个属性下也就 20-30 个 case。多样性可能会成为以后扩展的瓶颈。
3. CUPMem 的实用性存疑。它依赖 LLM 做裁决,每次新 session 到来都要对相关记忆做审查。实际产品里,单用户的记忆可能成千上万条。如果每次写入都要 traversal + LLM call,开销恐怕扛不住。论文没认真讨论这个。
4. 冲突都是"1 对 1"的简化设定。一条新观察使一条旧记忆失效。真实场景里可能是多对多——多条新信息共同更新一个 latent state,同时使多条旧记忆部分失效。这部分论文没碰。
5. 评测靠 LLM Judge。虽然声称 95.8% 的人类一致率,但对于 PR 这种需要精细推理判断的任务——"模型是真的拒绝了旧前提,还是仅仅在回答里夹杂了一句免责声明?"——LLM Judge 的可靠性本身就值得商榷。
对做 Agent 的人有什么启发?
最后回到工程视角。这篇论文给我的几个直接 takeaway:
1. 如果你在做有长期记忆的 Agent,append-only 记忆系统是危险的。新写入的时候必须有某种机制和已有记忆做比对——哪怕只是简单的 attribute-level 重复检测。CUPMem 给了一个相对系统的方向。
2. 你需要显式的"过期/失效"状态。不要让新旧记忆在向量检索池里民主投票。给记忆条目加 status 字段(active / stale / unknown),检索时分级处理。
3. 对用户查询中的隐含假设要保持警惕。PR 维度的惨状说明,模型天生顺从用户的话术。要在产品层面做一些 verification——尤其是涉及健康、行程、金钱这种有真实后果的场景。
4. Flat 的 key-value 记忆存储不够。Type II 的问题暗示,你需要某种形式的属性间依赖图——location 变了会牵连到 commute、social_network、grocery_store……。这是个长期的设计活,不是加个 schema 就能搞定的。
5. 关注新模型的 PR 表现。今年下半年新出的旗舰模型,如果在 STALE PR 维度上有跨越式提升,可能意味着模型内部建立了某种"前提质疑"的机制。这会比单纯堆参数更有价值。
写在最后
STALE 这篇论文做了一件挺有价值的事:精确定义并量化了一个所有做 Agent 的人都能感受到、但从来没有被系统评测过的问题——长期记忆失效检测。
55.2% 的最强模型准确率,加上几乎清零的 PR 得分,清楚地告诉我们:这不是"模型再大一点就解决了"的问题,是一个需要架构层面新思路的问题。CUPMem 作为 proof-of-concept 给出了"写入时显式裁决"这条路的可行性,但从 68.0% 到真正生产可用,路还很长——尤其是 IPA 维度,以及实际系统里的计算开销问题。
未来值得跟进的方向:多步级联更新、属性间依赖图的自动学习、不依赖预定义 schema 的开放域评测,以及更轻量级的裁决机制。
如果你正在做带记忆的 Agent,这篇论文值得花两个小时认真读一遍。哪怕你不用 STALE 这个 benchmark,光是论文里的隐式冲突分类法和三维探测设计,就能直接拿来对自己的系统做诊断。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我