图像编辑也能"看菜下饭"：ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍

论文标题：From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

作者：Xiangyan Qu, Zhenlong Yuan, Jing Tang, Rui Chen, Datao Tang, Meng Yu, Lei Sun, Yancheng Bai, Xiangxiang Chu, Gaopeng Gou, Gang Xiong, Yujun Cai（共12位作者）

机构：中国科学院信息工程研究所、中国科学院大学网络安全学院、阿里巴巴集团 AMAP、昆士兰大学

发表：CVPR 2026

论文链接：https://arxiv.org/abs/2603.00141

📖 一句话总结

这篇论文提出了 ADE-CoT（ADaptive Edit Chain-of-Thought）框架，核心思路是：图像编辑任务有难有易，不该对所有任务"一视同仁"地砸算力。通过难度感知的资源分配、编辑特定的早期剪枝、以及深度优先的机会停止三板斧，ADE-CoT 在三个主流编辑模型上实现了推理效率提升 2-5 倍，同时编辑质量还更好。

🎯 问题：图像编辑的 Image-CoT 为什么会浪费算力？

过去一年，"测试时扩展"（Test-Time Scaling, TTS）这个概念在 LLM 领域火得一塌糊涂——DeepSeek-R1、OpenAI o1/o3 都在推理时投入更多计算来换取更好的输出。这个思路自然也被搬到了图像生成领域，催生了所谓的 Image-CoT（图像思维链）：生成 N 个候选图像，再用一个验证器挑出最好的那个，也就是经典的 Best-of-N（BoN）策略。

在文生图（Text-to-Image）场景下，这个策略运转良好。原因很简单：从同一个文本 prompt 出发，不同的随机种子会生成风格迥异的图像，多采几次确实能找到更好的结果。

但图像编辑不一样。

图1：T2I 和图像编辑中 Image-CoT 的对比

图1：T2I 生成中，多次采样产生多样性丰富的候选（左）；图像编辑中，多次采样产生大量冗余的正确结果（右）。编辑任务受源图像约束，输出空间天然就窄。

图像编辑有源图像作为锚点，输出空间比纯生成小得多。一条"把苹果变成橙子"的指令，大部分采样结果可能长得差不多——你花了 32 次采样的算力，其中 20 次产出几乎一样的结果，这就是纯粹的浪费。

作者做了一组很有说服力的统计分析，揭示了三个关键问题：

图2：Image-CoT 在图像编辑中的三个问题

图2：三张统计图分别展示了：(a) 初始分数越高的样本，通过 BoN 获得的增益越小——说明简单任务不需要大预算；(b) 在早期去噪阶段，通用评分器的误判率高达 30-40%——早期剪枝不靠谱；(c) 大规模采样时，大量结果高度冗余——后期采样在浪费算力。

三个核心发现：

资源错配：简单编辑（初始分数高）几乎不需要多采样，但 BoN 还是给它分配了和困难编辑一样多的预算
早期验证不靠谱：在去噪过程的早期阶段，图像还比较模糊，通用的多模态大模型（MLLM）评分误差很大，直接用来剪枝容易"误杀"好样本
后期采样冗余：找到第一个好结果后，继续采样大概率只是在复制类似的结果

这三个问题对应了论文的三个解决方案。思路清晰，层层递进。

🏗️ 方法：ADE-CoT 的三板斧

ADE-CoT 的整体框架可以看成对 BoN 策略的三次精准手术：在进入手术室之前先评估病情轻重（难度感知）→ 手术中快速排除不靠谱的方案（早期剪枝）→ 达到目标后立刻收手（机会停止）。

图3：ADE-CoT 框架总览

图3：三种方法的对比。BoN 对所有样本一视同仁，全部走完全程（左）；Early Pruning 在早期阶段剪掉低分样本但预算固定（中）；ADE-CoT 三管齐下——动态预算 + 编辑特定早期剪枝 + 机会停止（右）。

🔧 策略一：难度感知资源分配——给简单任务少发"工资"

直觉很好理解：让模型先做一次试探性编辑，看看初始结果的质量怎么样。质量已经不错了？那后续少采几次就行。质量很差？那得加大力度多试几次。

具体实现：先生成一个候选图像，用验证器给一个初始分数 \(S\)，然后根据这个分数动态调整采样预算：

\[N_a = N_{\text{min}} + \lceil (N - N_{\text{min}}) \times (1 - S/S_{\text{max}})^{\gamma} \rceil\]

这个公式的设计相当巧妙。\(\gamma\) 是一个控制"敏感度"的超参数（论文默认 0.15），它决定了预算随难度变化的曲线形状。当 \(\gamma\) 很小时，只有分数非常接近满分的任务才会大幅减少预算；当 \(\gamma\) 较大时，中等难度的任务也会明显减少预算。

打个比方：这就像餐厅里的"看人下菜"策略。来了个只点了一碗面的客人（简单任务），你派一个服务员快速搞定就行；来了个点了满汉全席的贵客（困难任务），那得安排全套人马伺候。

图7：γ 参数消融实验

图7：γ 参数对 NFE（计算量）和 G_O（编辑质量）的影响。γ=0.15 是效率与质量的最佳平衡点——再小的话计算量降不下来，再大的话会误伤困难任务的质量。

从消融实验来看（图7），γ=0.15 时，NFE 从 896 降到约 800 左右，而 G_O 几乎不变。这说明确实有一大批"简单任务"在白白消耗算力。

🔧 策略二：编辑特定的早期剪枝验证——给"模糊照片"装上显微镜

BoN 要等所有样本跑完全部去噪步骤才选最优，太慢了。一个自然想法是在去噪过程的早期阶段就把明显不行的候选砍掉。但问题在于：早期阶段的图像还很模糊，通用评分器（比如 VIE-Score）看不准。

ADE-CoT 的解决方案分四步：

第一步：单步预览。不需要额外跑去噪步骤，而是利用 Flow Matching 模型的特性，直接从早期时间步 \(t_e\) 的噪声潜变量估算出清晰图像：

\[x_{0|t_e} = x_{t_e} - \sigma_{t_e}\epsilon_{\theta}(x_{t_e}, T_{t_e})\]

这一步非常经济——零额外计算开销，就能拿到一张"预览图"。虽然预览质量不如最终结果，但足以做粗筛。

第二步：编辑区域正确性检测 \(S_{\text{reg}}\)。利用 MLLM 识别编辑指令涉及的对象（比如"苹果"），再用 Grounded SAM2 生成掩码，最后检查图像变化是否集中在正确区域。如果你要改苹果但实际上改了背景，那这个样本就有问题。

第三步：指令-描述一致性检测 \(S_{\text{cap}}\)。让 MLLM 根据源图和编辑指令生成一段目标描述，然后用 CLIP Score 检查编辑后的图像和这段描述是否匹配。

第四步：统一评分。把通用分数和两个编辑特定分数加权组合：

\[S = S_{\text{gen}} + \lambda_{\text{reg}} S_{\text{reg}} + \lambda_{\text{cap}} S_{\text{cap}}\]

低于拒绝阈值 \(S_{\text{rj}}=5\) 的直接淘汰，剩下的还要过一道 DINOv2 视觉相似度过滤，把长得太像的候选合并掉。

图9：编辑特定分数的效果

图9：加入编辑特定分数后，低分区域的样本数量大幅减少（蓝色 vs 红色柱子）。这说明编辑特定分数帮助验证器更准确地识别出不合格的候选，避免了通用评分器在早期阶段"看走眼"的问题。

图10：早期过滤消融实验

图10：仅使用通用分数 \(S_{\text{gen}}\) 做早期过滤（橙色）vs 使用完整编辑特定分数 \(S\)（绿色），后者在相同 NFE 下能获得更高的 G_O 分数。说明编辑特定分数确实补上了通用评分器的短板。

🔧 策略三：深度优先的机会停止——找到好结果就收工

经过前面两步，剩余的候选质量已经不错了，但还有一个问题：什么时候该停下来？BoN 的做法是无脑跑完所有预算，但很多时候跑到一半就已经找到满意的结果了。

ADE-CoT 引入了一个实例特定验证器（Instance-Specific Verifier）来解决这个问题。

思路是这样的：对于每个编辑任务，自动生成 5 个针对性的 Yes/No 验证问题。比如对于"在照片中添加一副太阳镜"这个指令，验证器可能会生成：

"图中人物是否戴着太阳镜？"
"太阳镜的位置是否在面部正确位置？"
"图像整体美感是否自然？"
"原图中未编辑区域是否保持不变？"
"太阳镜的风格是否与照片协调？"

然后让 MLLM 对编辑结果逐一回答这些问题，统计 Yes 的数量得到实例特定分数 \(S_{\text{spec}}\)。当累积找到 \(N_{\text{high}}=4\) 个满足 \(S_{\text{spec}} \ge S_{\text{high}}\) 的结果时，搜索立即停止。

图11：实例特定验证器示例

图11：通用评分器（General Score）给两个候选打了接近的分数（6.25 vs 6.0），难以区分优劣；但实例特定验证器通过针对性的 Yes/No 问题，能精准识别出哪个编辑更符合意图（5/5 vs 3/5）。

这种方式比通用评分器更"懂"当前任务。通用评分器用一把尺子量所有任务，而实例特定验证器相当于为每个任务定制了一把专用尺子。

图12：机会停止消融实验

图12：在 BoN、PRM、PARM 三种基线方法上，加入机会停止（stop）都能在降低 NFE 的同时维持甚至提升 G_O。曲线更陡峭地向左上方移动，意味着用更少的计算拿到更好的结果。

🧪 实验：三个模型、三个基准，全面碾压

实验设置

作者在三个主流图像编辑模型上做了测试：

模型	类型	去噪步数
FLUX.1 Kontext	Flow-based 编辑模型	28 步
BAGEL	统一多模态模型	28 步
Step1X-Edit	Flow-based 编辑模型	50 步

评估覆盖三个基准数据集：GEdit-Bench（真实用户编辑任务）、AnyEdit-Test（多类型编辑）和 Reason-Edit（复杂推理编辑）。

对比的 baseline 包括： - BoN：经典 Best-of-N，生成 N=32 个候选选最优 - PRM（Process Reward Model）：在过程中用奖励模型筛选 - PARM（Process Advantage Reward Model）：PRM 的改进版 - TTS-EF（Test-Time Scaling with Early Filtering）：加了早期过滤的 TTS 方法

主实验结果

下面是三个模型在 GEdit-Bench 上的核心结果（采样预算 N=32）：

方法	Kontext G_O	Kontext η	BAGEL G_O	BAGEL η	Step1X G_O	Step1X η
BoN	6.641	0.66	6.908	0.69	7.157	0.72
PRM	6.517	1.13	6.685	1.17	7.031	0.94
PARM	6.563	0.77	6.765	1.21	7.072	0.94
TTS-EF	6.376	0.98	6.660	1.15	6.777	0.96
TTS-EF (修改版)	6.643	0.79	6.910	1.04	7.162	0.93
ADE-CoT	6.695	1.47	6.972	1.27	7.196	1.45

几个关键数字值得划重点：

编辑质量全面领先：ADE-CoT 在所有三个模型上的 G_O（综合评分）都是最高的。Kontext 上 6.695 vs BoN 的 6.641，BAGEL 上 6.972 vs 6.908，Step1X 上 7.196 vs 7.157。
推理效率提升 2-5 倍：以 FLUX.1 Kontext 为例，推理效率 η 从 BoN 的 0.66 飙到 1.47（↑2.2×），结果效率 ξ 从 0.12 涨到 0.66（↑5.5×）。
在 AnyEdit-Test 和 Reason-Edit 上也是类似表现：ADE-CoT 在 BAGEL 上的 AnyEdit-Test η 达到 1.64（BoN 仅 0.67，提升 2.4×）。

换句话说，ADE-CoT 不是在"牺牲质量换速度"，而是质量更好的同时速度还更快。这在算法优化里是很难得的——通常提速都要付出精度代价。

效率-质量曲线

图4：FLUX.1 Kontext 的性能曲线

图4：在 FLUX.1 Kontext 上，ADE-CoT（红色）的曲线始终在其他方法的上方和左侧，意味着在任意计算预算下，ADE-CoT 都能拿到更高的 G_O 分数。

图5：BAGEL 的性能曲线

图5：BAGEL 上的趋势与 Kontext 一致。ADE-CoT 仅用约 880 NFE 就达到了 BoN 需要 1600 NFE 才能达到的质量水平。

图6：Step1X-Edit 的性能曲线

图6：Step1X-Edit 上 ADE-CoT 的优势同样明显，在 NFE 约 430 时就超越了 BoN 在 896 NFE 下的 G_O。

三张图都传达了同一个信息：ADE-CoT 的帕累托前沿明显优于所有 baseline。

🔬 消融实验：每一刀都砍在了点上

逐步叠加各组件

消融实验是这篇论文最扎实的部分之一。作者从 BoN baseline 出发，逐步叠加每个组件，观察 G_O 和 NFE 的变化：

配置	Kontext G_O / NFE	BAGEL G_O / NFE	Step1X G_O / NFE
Baseline (BoN)	6.641 / 896	6.908 / 1600	7.157 / 896
+ 难度感知预算	6.641 / 797	6.909 / 1391	7.157 / 778
+ 早期剪枝（通用分数）	6.642 / 719	6.912 / 1351	7.157 / 719
+ 早期剪枝（编辑特定分数）	6.647 / 673	6.916 / 1290	7.161 / 638
+ 相似样本过滤	6.651 / 508	6.915 / 1087	7.162 / 522
+ 后期保留	6.652 / 464	6.935 / 972	7.163 / 462
+ 实例特定验证器	6.702 / 464	6.984 / 972	7.206 / 462
+ 机会停止（完整版）	6.695 / 418	6.972 / 882	7.196 / 434

几个有趣的观察：

难度感知预算单独就减少了约 11-13% 的 NFE，G_O 几乎零损失。这验证了"简单任务确实不需要那么多采样"的假设。
相似样本过滤带来了 NFE 的最大单次下降（从 673 降到 508，砍掉 25%）。这说明冗余结果确实是 BoN 的一大痛点。
实例特定验证器的加入让 G_O 有了明显跳升（Kontext 上从 6.652 到 6.702），说明这个针对性更强的验证器确实能选出更好的结果。
最终的机会停止让 NFE 又降了一截（从 464 到 418），但 G_O 略微下降（从 6.702 到 6.695）。这是可以理解的——提前停止意味着可能错过最后几个采样中出现的更优结果，但效率收益远大于微小的质量损失。

单步预览 vs 其他方案

获取早期预览图像有三种方式，作者做了对比：

方法	Kontext G_O / NFE	BAGEL G_O / NFE
额外去噪步	6.678 / 523	6.952 / 1008
直接解码噪声	6.648 / 790	6.945 / 1334
单步预览（ADE-CoT）	6.695 / 418	6.972 / 882

单步预览在 G_O 和 NFE 两方面都是最优的。额外去噪步虽然预览质量更好，但增加了计算开销；直接解码噪声则预览质量太差，导致早期剪枝不准确。单步预览在零额外开销和可用预览质量之间找到了平衡点。

搜索策略：BFS vs DFS vs 混合

策略	Kontext G_O / NFE / η
BFS	6.702 / 464 / 1.37
DFS	6.644 / 574 / 1.32
无排序	6.694 / 433 / 1.42
ADE-CoT（混合）	6.695 / 418 / 1.47

纯 BFS（广度优先）G_O 最高但 NFE 偏大；纯 DFS（深度优先）NFE 大且 G_O 最低；ADE-CoT 的混合策略（先 BFS 筛选排序，再 DFS 机会停止）兼顾了两者优点，η 效率最高。

不同 MLLM 的影响

作者还测试了三个不同的 MLLM 作为验证器：

MLLM	Kontext G_O / NFE	Step1X G_O / NFE
Qwen2.5-VL-72B	6.637 / 436	7.193 / 446
Qwen-VL-MAX	6.695 / 418	7.196 / 434
Qwen3-VL-32B	6.719 / 403	7.240 / 414

Qwen3-VL-32B 表现最好，在所有模型上都拿到了最高 G_O 和最低 NFE。这说明 ADE-CoT 的性能会随着 MLLM 评估能力的增强而水涨船高——未来更强的多模态模型会让 ADE-CoT 更加高效。

💡 我的观点和启发

1. "自适应"才是正确的 Scaling 姿势

这篇论文让我想到了计算机体系结构中的动态电压频率调节（DVFS）：CPU 不需要时刻运行在最高频率，空闲时降频省电，繁忙时升频保性能。ADE-CoT 本质上就是给图像编辑的推理过程装了一个"变频器"——简单任务跑低档位，困难任务跑高档位。

这种"按需分配"的思想在 LLM 推理优化中已经有很多尝试（比如 speculative decoding、adaptive compute），但在图像编辑领域还是比较新鲜的。关键在于，作者找到了一个很好的难度代理指标——初始编辑的验证分数。这个指标获取成本极低（只需要一次完整推理），但预测能力相当不错。

2. "看人下菜"的验证器设计很有巧思

传统的通用评分器就像一个只会打综合分的老师，不管你交的是数学作业还是语文作文，都用同一套评分标准。ADE-CoT 的实例特定验证器则像一个会出针对性问题的面试官——对于"添加太阳镜"的任务，它会问"太阳镜在不在正确位置"而不是泛泛地问"图片好不好看"。

这种设计特别适合图像编辑场景，因为编辑的"正确性"高度依赖于具体指令。通用评分器容易被表面的图像质量迷惑（图11 的例子就很说明问题），而实例特定验证器能抓住编辑意图的核心。

3. 工程落地需要考虑的问题

虽然 ADE-CoT 在学术指标上表现出色，但要真正落地，有几个问题值得思考：

MLLM 调用成本：ADE-CoT 需要多次调用 MLLM（生成验证问题、回答问题、评估区域正确性等）。虽然节省了扩散模型的计算量，但增加了 MLLM 的调用量。如果 MLLM 推理成本较高，整体成本可能并不一定降低。论文中使用的是 Qwen-VL 系列，不清楚换成更小的模型会不会显著影响效果。
延迟 vs 吞吐：ADE-CoT 降低了总计算量（NFE），但其中包含了串行的验证步骤。在追求单请求延迟的场景下，这些串行步骤可能会抵消一部分并行采样的加速效果。
Grounded SAM2 的依赖：编辑区域检测依赖 Grounded SAM2，这个模型本身也有推理开销。在高吞吐量的生产环境中，这个额外依赖可能成为瓶颈。

4. 更广泛的启示

这篇工作给我的最大启发是：不要把 Test-Time Scaling 当成"暴力堆算力"的代名词。真正高效的 TTS 应该是自适应的——先评估任务难度，再决定投入多少资源。这个思路不仅适用于图像编辑，在视频生成、3D 生成、甚至 LLM 推理中都有潜力。

想象一下，如果 LLM 的 Chain-of-Thought 也能做到"简单问题少想几步，难题多想几步"，那推理效率会提升很多。DeepSeek-R1 已经在尝试类似的方向了，但还远没有做到像 ADE-CoT 这样系统化。

📊 与相关方法的对比

维度	BoN	PRM/PARM	TTS-EF	ADE-CoT
预算分配	固定	固定	固定	难度自适应
早期剪枝	无	过程奖励筛选	通用分数剪枝	编辑特定分数剪枝
停止策略	跑完所有预算	跑完所有预算	跑完所有预算	机会停止
冗余处理	无	无	无	DINOv2 相似度过滤
验证粒度	全局通用分数	过程级分数	全局通用分数	实例特定 Yes/No
效率（η）	~0.7	~1.1	~1.0	~1.4

ADE-CoT 几乎在每个维度上都做了改进，而不是单点突破。这种"全链路优化"的策略让它在最终效果上拉开了较大差距。

🔗 相关资源

论文：https://arxiv.org/abs/2603.00141
代码：https://github.com/BetterEditControl/ADE-CoT（论文中提到将开源，截至发稿暂未公开）
基础模型：
Step1X-Edit
BAGEL
FLUX.1 Kontext
评估基准：GEdit-Bench、AnyEdit-Test、Reason-Edit

📝 总结

ADE-CoT 这篇工作的核心贡献在于揭示了一个被忽视的事实：图像编辑和文生图的 Image-CoT 面临的挑战完全不同。文生图需要多样性，多采样是有价值的；图像编辑需要精准性，盲目多采样是浪费。

在这个洞察之上，ADE-CoT 用三个巧妙的策略——难度感知资源分配、编辑特定早期剪枝、深度优先机会停止——将 Best-of-N 的效率提升了 2-5 倍，同时质量还更好。

如果你在做图像编辑相关的产品或研究，这篇论文值得仔细读。它不仅提供了一个即插即用的效率优化框架（和具体模型解耦），更提供了一种"按需扩展"的思考方式，这种方式在 AI 推理成本日益高涨的今天，会越来越重要。