你的多模态大模型，其实根本"不会记"——M³Eval 用认知心理学把视频记忆这件事彻底拆开

核心摘要

视频理解这两年卷得很凶，但有个事一直被回避：模型到底"记住"了什么？是真的形成了对场景、人物、事件的稳定表征，还是不过是把上下文窗口塞满，然后在最后一帧附近做了点局部检索？这篇 M³Eval 把这件事按在地上摩擦——它没去刷某个长视频问答榜单，而是直接搬出认知心理学里关于人类工作记忆的几条经典发现：分散注意、顺向/逆向干扰、交错事件、N-Back，然后让 GPT、Gemini、Qwen-VL 这些主流多模态模型挨个对着人做对照实验。

结果挺扎心的：模型在分屏并行视频上接近随机，在交错重组上低于人类一大截，逆向干扰几乎消失（人类身上是 +20 个点的差距），N-Back 任务里甚至"序列越长准确率越低，但 N 越大反而平了"——和人类的遗忘曲线方向相反。一句话：这些模型不是"记忆差"，而是它们的"记"压根就不是人那种由编码、巩固、遗忘组成的记忆机制。这篇论文给我最大的启发不是某个 SOTA 数字，而是它把"记忆能力"作为一个独立维度从感知和推理里切出来了——这件事此前没人系统做过。

arXiv ID：2606.05008，建议任何在做长视频理解、视频 Agent、具身智能的团队都翻一翻。

论文信息

标题：M³Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
作者：Jie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong
arXiv：2606.05008
项目主页：https://pku-value-lab.github.io/m3eval-homepage
提交日期：2026 年 6 月

一、为什么要单独评测"记忆"？

先说个我前段时间自己撞过的坑。我们在做一个长视频问答系统的评测时，碰到一个特别奇怪的现象：把模型上下文从 30 分钟堆到 2 小时，整体准确率确实在涨——但仔细看错题分布，问题主要集中在中段，开头和结尾反而都还行。当时我们的第一反应是"位置编码不行"，调了几个 RoPE 变体，效果一般。后来才发现，这压根就不是"长上下文外推"问题——是模型根本没有形成稳定的中段表征，它只是在最后做了一个局部检索。

这正是 M³Eval 想说的事。现在视频理解的 benchmark，绝大多数都把"记忆"和"感知"、"推理"混在一起评。LongVideoBench、Video-MME 这些榜单刷得越来越高，但你仔细看那些题，本质上是"在某段视频片段里发生了什么"——只要模型看到了，就能答对；看到了答不对，是感知问题。但记忆问题不是这样的——记忆问题是"你看到了，编码进去了，过一会儿还能不能取出来？取出来时会不会和别的内容串台？"

作者把这个 gap 总结得很清楚：现有 benchmark 评估的是 "what models can perceive"，而不是 "what models retain, with what fidelity, and how robustly under interference"。三个维度：容量、保真度、抗干扰鲁棒性。这三件事，传统视频 QA 没法分别测。

图1：M³Eval 总体框架——以分散注意为例

图1：M³Eval 框架总览。以"分散注意"任务为例：分屏同时呈现两段语义相似的视频，构造记忆问题，从源识别（Source Identification）、顺序理解（Order Understanding）、内容保留（Content Retention）三个维度分析模型表现。

二、把认知心理学"翻译"成视频任务

这篇论文我最喜欢的地方就在这。它不是凭直觉拍脑袋设计任务，而是直接把认知心理学里几条经过几十年验证的人类记忆规律拿过来，逐条转成视频任务。这种 mapping 做得很认真，每个任务背后都有一个明确的心理学问题。

整体框架可以这样看：

维度	心理学源头	视频任务	想测什么
空间编码	分散注意（Divided Attention）	分屏并行视频	并行流能否独立编码
时间稳定性	顺向 / 逆向干扰	顺序拼接相似视频	干扰下记忆鲁棒性
时间重组	交错事件 / 故事模式	两源视频片段交错穿插	能否分离来源、还原时序
符号抽象	N-Back 工作记忆	视频片段序列匹配	跨时间间隔的符号化记忆

图2：四个评测范式的统一框架

图2：M³Eval 把空间维度（分散注意）、时间维度（记忆干扰、交错事件）和跨越时间的符号抽象（N-Back）整合在一个框架下，每个任务都对应一个明确的人类记忆理论。

任务一：分散注意——并行视频流的编码能力

这个任务设计很直观：找两段语义相似的视频（比如都是做菜，但食材不同），分屏左右同时播。然后问：某个动作发生在左边还是右边？事件顺序对不对？某个细节是真存在还是你编的？

更刁钻的是——他们还做了一个 swap 变种：每隔一段时间，把左右两个视频的位置交换一下。在没 swap 的版本里，模型还能"靠位置作弊"（左边的事件就归属左边视频），但有了 swap 之后，位置不再是可靠线索，模型必须真的把内容和身份绑定。

图3：分散注意——分屏配置（左：无交换，右：有帧交换）

图3：分散注意任务两种配置。左边是固定分屏，右边引入了周期性的左右交换，破坏掉模型对"空间位置=视频身份"的简单依赖。

这块设计得真的挺漂亮的。我之前看过一些视频对比数据集，但很少有人想到用 swap 这种方式去测"内容-身份绑定"——它把"模型到底是真的认得这是哪段视频，还是只是记住了空间位置"这个问题逼出来了。

任务二：记忆干扰——顺向 vs 逆向

人类记忆里有一个非常稳定的现象：当你连续学两段相似材料 A→B 后，去回忆 A 会受 B 干扰（逆向干扰），去回忆 B 会受 A 干扰（顺向干扰）。心理学几十年的实验显示，人类的逆向干扰通常比顺向更强——后学的东西会"覆盖"先学的东西。

把这个搬到视频上，就是：把两段相似视频按顺序拼起来，然后问关于前段（测逆向干扰）或后段（测顺向干扰）的问题。看模型会不会在两段之间"串台"。除了准确率，还测了一个很关键的指标：入侵率（Intrusion Rate）——模型选了来自竞争视频里的选项的比例。

图4：记忆干扰——顺向（左）与逆向（右）

图4：顺向干扰指早学的内容干扰晚学的；逆向干扰则反过来——晚学的覆盖早学的。两个方向反映记忆系统不同的机制。

任务三：交错事件——把打散的故事重新拼回去

这个任务我觉得是最难的：把两段视频各切成 10 个片段，然后按 A₁-B₁-A₂-B₂-…-A₁₀-B₁₀ 的方式交错播给模型。问模型：哪些片段属于 A？哪些属于 B？它们各自的内部顺序是什么？

这事人能做得相当好，因为人类记忆有所谓 "story schema"——大脑会自动按事件结构组织记忆，而不是按表面输入顺序。所以即使输入是打散的，人类仍然能恢复出底层的两条故事线。

图5：交错事件——两个视频源的片段被穿插呈现

图5：交错事件任务设计。模型需要把交错呈现的片段按来源分离，并恢复每个来源内部的时序。这个任务还引入了"虚假记忆辨别"——给模型一些根本不属于任何视频的诱饵题，看它能不能识别。

任务四：N-Back——符号化的工作记忆

N-Back 是认知心理学里测工作记忆容量的经典范式。流程是：给你一连串刺激，问"当前这个和 N 步之前的那个是不是匹配"。N 越大，难度越高。

视频版的玩法：放 K 个短视频片段，问最后一个的某属性（场景 / 动作）和倒数第 N+1 个是不是相同。这个任务的关键在于——它要求模型形成符号化的抽象表征，否则你没法在长序列里精确比对"第几个之前的那个"。

图6：N-Back——把视频片段抽象成符号再比较

图6：N-Back 任务示意图。每个视频片段被抽象为一个符号化属性（如场景类别、动作类别），然后跨时间间隔做匹配判断。这个任务直接测试"模型能否对视频做出和人脑等价的符号抽象"。

三、实验结果：模型在每个任务上都和人差出一截

数据集规模先放上来：总共 2403 个问题，451 个长视频，约 403 小时素材，来自 HourVideo、Video-MME、LVBench、InfiniBench、CrossVid 五个公开数据集。这个量在一个新设计的 benchmark 里算扎实的。

测试模型覆盖了主流的开闭源多模态模型——闭源代表 GPT、Gemini，开源代表 Qwen-VL 系列等。下面挑几张最关键的表说。

3.1 分散注意：看到 swap 之后模型直接崩

表1：分散注意准确率（%）

模型	无交换-源识别	无交换-顺序理解	无交换-内容保留	有交换-源识别
人类	89.58	90.00	92.16	81.25
Gemini	62.50	52.50	49.02	37.50
GPT	27.08	35.00	47.06	35.42
Qwen-VL	41.67	25.00	35.29	27.08

数据原始读法：人类做这个任务，即便加了 swap 也还有 81%。模型在没 swap 时已经一塌糊涂（GPT 27%、Qwen 41%），加 swap 后清一色掉到 25%-37% 区间——基本就是四选一的随机水平。

我看到这数据的第一反应是有点意外的——分屏并行播视频，对模型来说本来就是"两段视频的 token 顺序拼起来"，按理说不应该比单段视频难那么多。但实际上掉得这么狠，说明模型对"两个并行流"这个结构没有任何特殊处理，只是把它们当成更长的单流去 attend。一旦内容相似（这正是任务设计的关键），它就完全没法把两条流分离开。

作者在 attention map 可视化里也印证了这点：单屏时注意力是聚焦在查询区域的，分屏时注意力变得发散且混乱，被并行视频流互相干扰。

3.2 记忆干扰：模型完全没有"逆向干扰"

这是我读完整篇论文觉得最反直觉、也最值钱的一个发现。

表2：记忆干扰——准确率与入侵率

模型	顺向准确率	逆向准确率	Δ（顺向-逆向）	顺向入侵率	逆向入侵率
人类	94.55	74.55	+20.00	3.64	20.00
Gemini	63.64	54.55	+9.09	23.64	30.91
GPT	43.64	40.00	+3.64	43.64	34.55
Qwen-VL	45.45	40.00	+5.45	40.00	43.64

这张表你光看数字不够，得看 Δ 这一列才有味道。

人类的 Δ 是 +20 个点——非常显著的逆向干扰：后看的视频会大幅压住对前一段视频的回忆。这是认知心理学里几十年来反复验证的现象，几乎是人类工作记忆的"指纹"之一。

而模型的 Δ 是多少？Gemini 9、GPT 3.6、Qwen 5.4。模型的顺向和逆向干扰强度几乎对称。

这说明什么？说明模型的"记忆"压根不是人类那种"先编码、后被新内容覆盖"的过程，而是把整段视频均匀地塞进上下文里、靠注意力机制全局访问。它的"遗忘"不存在前后差异——因为它根本没有"先后"概念，所有 token 在 attention 里平等竞争。

这个发现挺刺激的。它意味着我们目前所有基于"扩展上下文"思路的长视频方案，其实都不是在解决"记忆"问题——它们只是在做"更长的检索"。真正的记忆模型应该长什么样？至少应该有某种类似海马体那样的、对时间顺序敏感的巩固机制。

图7：视频重复能改善干扰下的准确率

图7（论文 Figure 8）：在干扰条件下，无论重复目标视频还是干扰视频，准确率都会上升。这个发现既符合人类记忆的"复述强化"机制，也提示了一种针对模型的 inference-time 增强策略。

3.3 交错事件：虚假记忆辨别全军覆没

表3：交错事件准确率（%）

模型	源识别	顺序理解	内容保留	虚假记忆辨别
人类	75.95	80.00	83.64	82.11
Gemini	43.04	50.00	49.09	26.32
GPT	43.04	40.00	47.27	7.37
Qwen-VL	39.24	33.33	34.55	3.16

源识别、顺序理解、内容保留这三列模型基本是 40% 上下的水平，离人类 75-83% 还差很多——但这块至少还在合理范围。

真正炸眼的是最后一列"虚假记忆辨别"。这个指标的设计是：题目里夹一些根本不属于任何一段视频的虚构内容（比如"主角接到一个电话"，但视频里压根没有电话），看模型是不是会糊里糊涂选上去。

人类的虚假记忆辨别率是 82%——也就是说人能很好地识别出"这事根本没发生过"。而模型呢？Gemini 26%，GPT 7.37%，Qwen 3.16%。Qwen 在这个指标上接近 0。

这个数说明的就一件事：在交错呈现的复杂场景里，模型的"幻觉"已经严重到失去了对"看过 vs 没看过"的辨别能力。它不是答错了，是它根本不知道自己在编。

3.4 N-Back：模型的"遗忘曲线"方向是错的

图8：N-Back 任务上整体准确率

图8（论文 Figure 10）：N-Back 任务在场景和动作两个属性上的总体准确率。人类对场景属性的准确率高于动作；而模型反过来——动作属性更高、场景更低，与人类直觉相反。

N-Back 的最大发现不是 "模型差人多少"——这种事你已经听腻了——而是模型的曲线形状和人类反向：

当 K（序列长度）增加时：人类略微下降，模型急剧下降。这部分还说得过去——序列变长，模型工作记忆压力变大。
当 N（间隔距离）增加时：人类单调下降（这是经典的遗忘曲线），但模型的准确率反而平坦甚至略微上升。

这是非常关键的一个反直觉发现。原因不难猜——Transformer 用全局注意力均等地"看见"所有过去 token，N 大 N 小对它来说差别不大；它没有"刚刚看到的更清楚、更早的逐渐模糊"这种渐进衰减。

但反过来，这恰恰说明了一件事：模型不是没有"记忆"，而是它的记忆没有结构。所有内容平等存在，无法按"近期 vs 久远"做差异化处理。这意味着：

它无法有效过滤掉无关的早期信息
它无法对时间近端做更高保真的编码
当输入变长时，所有旧内容都参与竞争，注意力被稀释

要解决这事，恐怕得引入显式的遗忘机制——这其实也是 Mamba、TTT、各种 state-space 方法在尝试的方向之一。

四、几个值得反复回味的发现

发现一：空间源 vs 时间源——为啥时间这么难？

作者做了个很直接的对比：分散注意里加 swap 测的是"空间源接地"（同一时刻你能不能定位内容来自哪一侧），交错事件测的是"时间源接地"（看完整段视频后你能不能定位内容来自哪一段时间）。

结果是模型在时间源接地上显著低于空间源接地，很多模型甚至低于随机基线。

这个不对称性其实和人类是一致的——人类做空间定位也比时间定位准。但模型的不对称程度更夸张。原因是模型的视觉表征对空间几何信息有天然的归纳偏置（CNN/ViT 的设计就是为这个），但对时间结构没有。时间在多模态模型里仍然是"被动的位置编码"，而不是主动的结构化表征。

发现二：重复策略对模型也有效

图 7 那张（论文 Figure 8）值得多说两句。它显示了一个工程上很有用的 finding：在干扰条件下，重复呈现目标或干扰视频，都能让模型表现变好。

这个发现至少给我两个启发：

推理时如果你的 query 涉及视频里的关键内容，把那部分关键片段在上下文里重复一遍，可能比 prompt engineering 更有效——这是一个 free lunch 的工程 trick。
这个现象解释了为啥 RAG 类方案在长视频问答上效果不错——它本质上就是"把相关片段重复呈现"，等于是给模型加了一次复述。

发现三：模型为啥不像人？

我把作者的几个发现汇总一下，模型和人类的记忆到底差在哪：

维度	人类	现有多模态模型
编码	选择性，受注意调制	均匀编码所有输入
保留	时间衰减 + 巩固	全部均等保留
干扰模式	强逆向、弱顺向	顺向逆向对称
遗忘机制	主动遗忘无关信息	几乎不遗忘
时间结构	故事模式组织	表面顺序为主
容量限制	工作记忆约 4-7 项	受 context length 限制

说实话看到这张表我有点感慨。我们一直说 Transformer 的 attention 是某种"通用记忆机制"，但仔细看的话，它根本就缺了人类记忆系统中最核心的那个特性——结构化的衰减和巩固。

五、我的判断：这篇论文做对了什么、又有哪些可以争议的地方

做对的几件事

第一，把"记忆"作为一个独立维度切出来。这件事在 LLM 评测里其实早就有人做（needle-in-haystack 那一系列），但在视频理解领域，之前真没人这么干。M³Eval 的 framework 设计是"研究范式"级别的贡献，而不只是"加一个 benchmark"。

第二，认知心理学这层 mapping 做得扎实。每个任务背后都有十几年甚至几十年的人类心理学实验作为锚点，不是凭直觉拍脑袋设计。这意味着即便未来模型架构变了，这些任务的诊断价值依然成立。

第三，开源数据 + 项目主页齐全。从 451 个视频里精选 2403 个问题，标注成本不低，但他们公开了。这种"做完就分享"的态度对社区是好事。

可以争议的地方

第一，人类基线的样本量。表 1 里人类 N 看起来没那么大，几个百分点的差异可能在 noise 范围内。如果要立"人类 vs 模型差距"这种论断，人类基线的统计稳健性应该更强一些（论文附录有部分数据，但整体可以更严）。

第二，符号抽象任务的难度可能被高估。N-Back 的"场景 / 动作"标注，模型差不光是记忆问题，也有视觉概念识别的不确定性。把这两个解耦开测会更干净。

第三，没和现有视频记忆增强方案做对比。比如 MemoryBank、外挂 RAG、显式 memory token 的工作。如果作者能把这些方案在 M³Eval 上跑一遍，会更有说服力——证明这个 benchmark 不光能测出问题，还能区分不同解决方案的优劣。

工程上的启发

如果你也在做长视频理解、视频 Agent、多模态记忆这类事，这篇论文有几个 takeaway 可以直接试：

评测时把"感知错误"和"记忆错误"分开统计。模型答错可能是没看清，也可能是看清了但记串了——前者要改视觉编码器，后者要改记忆机制，路径完全不同。
推理时复读关键片段是个简单有效的 trick，尤其是在长上下文 + 多线索场景下。
位置编码改 RoPE 频率这种修法基本没法解决记忆问题，因为问题不在"距离衰减"，而在"没有结构化的遗忘"。要从根上做，得引入显式的 memory 模块或 state-space 类架构。
设计自己的诊断任务时，可以借鉴 M³Eval 的思路：用 swap、interleave、N-Back 这类受控变量去把不同的认知能力分离开。

收尾

读完这篇论文，我最大的感受是——多模态模型在感知和推理上的进步，可能给了我们一种"它什么都会"的错觉。但只要你换一个评测维度（比如这次的记忆），就会发现仍然有非常大的空白。

未来 AGI 的路上，"长上下文"和"真记忆"是两个完全不同的事。前者是工程能力，后者是结构能力。M³Eval 这篇论文，是把后者第一次系统拎出来摆到桌面上。无论你是研究人员还是工程师，这都值得花点时间消化。

如果你也在做视频 Agent、长视频理解、具身智能里的事件记忆，建议直接去项目主页 https://pku-value-lab.github.io/m3eval-homepage 把数据 pull 下来跑一遍——这种诊断式评测，跑过一次比读十篇论文都管用。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新 AI 前沿，关注我。