图像编辑也能"看菜下饭":ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍

论文标题:From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

作者:Xiangyan Qu, Zhenlong Yuan, Jing Tang, Rui Chen, Datao Tang, Meng Yu, Lei Sun, Yancheng Bai, Xiangxiang Chu, Gaopeng Gou, Gang Xiong, Yujun Cai(共12位作者)

机构:中国科学院信息工程研究所、中国科学院大学网络安全学院、阿里巴巴集团 AMAP、昆士兰大学

发表:CVPR 2026

论文链接:https://arxiv.org/abs/2603.00141


📖 一句话总结

这篇论文提出了 ADE-CoT(ADaptive Edit Chain-of-Thought)框架,核心思路是:图像编辑任务有难有易,不该对所有任务"一视同仁"地砸算力。通过难度感知的资源分配、编辑特定的早期剪枝、以及深度优先的机会停止三板斧,ADE-CoT 在三个主流编辑模型上实现了推理效率提升 2-5 倍,同时编辑质量还更好。


🎯 问题:图像编辑的 Image-CoT 为什么会浪费算力?

过去一年,"测试时扩展"(Test-Time Scaling, TTS)这个概念在 LLM 领域火得一塌糊涂——DeepSeek-R1、OpenAI o1/o3 都在推理时投入更多计算来换取更好的输出。这个思路自然也被搬到了图像生成领域,催生了所谓的 Image-CoT(图像思维链):生成 N 个候选图像,再用一个验证器挑出最好的那个,也就是经典的 Best-of-N(BoN)策略。

在文生图(Text-to-Image)场景下,这个策略运转良好。原因很简单:从同一个文本 prompt 出发,不同的随机种子会生成风格迥异的图像,多采几次确实能找到更好的结果。

但图像编辑不一样。

图1:T2I 和图像编辑中 Image-CoT 的对比

图1:T2I 生成中,多次采样产生多样性丰富的候选(左);图像编辑中,多次采样产生大量冗余的正确结果(右)。编辑任务受源图像约束,输出空间天然就窄。

图像编辑有源图像作为锚点,输出空间比纯生成小得多。一条"把苹果变成橙子"的指令,大部分采样结果可能长得差不多——你花了 32 次采样的算力,其中 20 次产出几乎一样的结果,这就是纯粹的浪费。

作者做了一组很有说服力的统计分析,揭示了三个关键问题:

图2:Image-CoT 在图像编辑中的三个问题

图2:三张统计图分别展示了:(a) 初始分数越高的样本,通过 BoN 获得的增益越小——说明简单任务不需要大预算;(b) 在早期去噪阶段,通用评分器的误判率高达 30-40%——早期剪枝不靠谱;(c) 大规模采样时,大量结果高度冗余——后期采样在浪费算力。

三个核心发现:

  1. 资源错配:简单编辑(初始分数高)几乎不需要多采样,但 BoN 还是给它分配了和困难编辑一样多的预算
  2. 早期验证不靠谱:在去噪过程的早期阶段,图像还比较模糊,通用的多模态大模型(MLLM)评分误差很大,直接用来剪枝容易"误杀"好样本
  3. 后期采样冗余:找到第一个好结果后,继续采样大概率只是在复制类似的结果

这三个问题对应了论文的三个解决方案。思路清晰,层层递进。


🏗️ 方法:ADE-CoT 的三板斧

ADE-CoT 的整体框架可以看成对 BoN 策略的三次精准手术:在进入手术室之前先评估病情轻重(难度感知)→ 手术中快速排除不靠谱的方案(早期剪枝)→ 达到目标后立刻收手(机会停止)

图3:ADE-CoT 框架总览

图3:三种方法的对比。BoN 对所有样本一视同仁,全部走完全程(左);Early Pruning 在早期阶段剪掉低分样本但预算固定(中);ADE-CoT 三管齐下——动态预算 + 编辑特定早期剪枝 + 机会停止(右)。

🔧 策略一:难度感知资源分配——给简单任务少发"工资"

直觉很好理解:让模型先做一次试探性编辑,看看初始结果的质量怎么样。质量已经不错了?那后续少采几次就行。质量很差?那得加大力度多试几次。

具体实现:先生成一个候选图像,用验证器给一个初始分数 \(S\),然后根据这个分数动态调整采样预算:

\[N_a = N_{\text{min}} + \lceil (N - N_{\text{min}}) \times (1 - S/S_{\text{max}})^{\gamma} \rceil\]

这个公式的设计相当巧妙。\(\gamma\) 是一个控制"敏感度"的超参数(论文默认 0.15),它决定了预算随难度变化的曲线形状。当 \(\gamma\) 很小时,只有分数非常接近满分的任务才会大幅减少预算;当 \(\gamma\) 较大时,中等难度的任务也会明显减少预算。

打个比方:这就像餐厅里的"看人下菜"策略。来了个只点了一碗面的客人(简单任务),你派一个服务员快速搞定就行;来了个点了满汉全席的贵客(困难任务),那得安排全套人马伺候。

图7:γ 参数消融实验

图7:γ 参数对 NFE(计算量)和 G_O(编辑质量)的影响。γ=0.15 是效率与质量的最佳平衡点——再小的话计算量降不下来,再大的话会误伤困难任务的质量。

从消融实验来看(图7),γ=0.15 时,NFE 从 896 降到约 800 左右,而 G_O 几乎不变。这说明确实有一大批"简单任务"在白白消耗算力。

🔧 策略二:编辑特定的早期剪枝验证——给"模糊照片"装上显微镜

BoN 要等所有样本跑完全部去噪步骤才选最优,太慢了。一个自然想法是在去噪过程的早期阶段就把明显不行的候选砍掉。但问题在于:早期阶段的图像还很模糊,通用评分器(比如 VIE-Score)看不准。

ADE-CoT 的解决方案分四步:

第一步:单步预览。不需要额外跑去噪步骤,而是利用 Flow Matching 模型的特性,直接从早期时间步 \(t_e\) 的噪声潜变量估算出清晰图像:

\[x_{0|t_e} = x_{t_e} - \sigma_{t_e}\epsilon_{\theta}(x_{t_e}, T_{t_e})\]

这一步非常经济——零额外计算开销,就能拿到一张"预览图"。虽然预览质量不如最终结果,但足以做粗筛。

第二步:编辑区域正确性检测 \(S_{\text{reg}}\)。利用 MLLM 识别编辑指令涉及的对象(比如"苹果"),再用 Grounded SAM2 生成掩码,最后检查图像变化是否集中在正确区域。如果你要改苹果但实际上改了背景,那这个样本就有问题。

第三步:指令-描述一致性检测 \(S_{\text{cap}}\)。让 MLLM 根据源图和编辑指令生成一段目标描述,然后用 CLIP Score 检查编辑后的图像和这段描述是否匹配。

第四步:统一评分。把通用分数和两个编辑特定分数加权组合:

\[S = S_{\text{gen}} + \lambda_{\text{reg}} S_{\text{reg}} + \lambda_{\text{cap}} S_{\text{cap}}\]

低于拒绝阈值 \(S_{\text{rj}}=5\) 的直接淘汰,剩下的还要过一道 DINOv2 视觉相似度过滤,把长得太像的候选合并掉。

图9:编辑特定分数的效果

图9:加入编辑特定分数后,低分区域的样本数量大幅减少(蓝色 vs 红色柱子)。这说明编辑特定分数帮助验证器更准确地识别出不合格的候选,避免了通用评分器在早期阶段"看走眼"的问题。

图10:早期过滤消融实验

图10:仅使用通用分数 \(S_{\text{gen}}\) 做早期过滤(橙色)vs 使用完整编辑特定分数 \(S\)(绿色),后者在相同 NFE 下能获得更高的 G_O 分数。说明编辑特定分数确实补上了通用评分器的短板。

🔧 策略三:深度优先的机会停止——找到好结果就收工

经过前面两步,剩余的候选质量已经不错了,但还有一个问题:什么时候该停下来?BoN 的做法是无脑跑完所有预算,但很多时候跑到一半就已经找到满意的结果了。

ADE-CoT 引入了一个实例特定验证器(Instance-Specific Verifier)来解决这个问题。

思路是这样的:对于每个编辑任务,自动生成 5 个针对性的 Yes/No 验证问题。比如对于"在照片中添加一副太阳镜"这个指令,验证器可能会生成:

  • "图中人物是否戴着太阳镜?"
  • "太阳镜的位置是否在面部正确位置?"
  • "图像整体美感是否自然?"
  • "原图中未编辑区域是否保持不变?"
  • "太阳镜的风格是否与照片协调?"

然后让 MLLM 对编辑结果逐一回答这些问题,统计 Yes 的数量得到实例特定分数 \(S_{\text{spec}}\)。当累积找到 \(N_{\text{high}}=4\) 个满足 \(S_{\text{spec}} \ge S_{\text{high}}\) 的结果时,搜索立即停止。

图11:实例特定验证器示例

图11:通用评分器(General Score)给两个候选打了接近的分数(6.25 vs 6.0),难以区分优劣;但实例特定验证器通过针对性的 Yes/No 问题,能精准识别出哪个编辑更符合意图(5/5 vs 3/5)。

这种方式比通用评分器更"懂"当前任务。通用评分器用一把尺子量所有任务,而实例特定验证器相当于为每个任务定制了一把专用尺子。

图12:机会停止消融实验

图12:在 BoN、PRM、PARM 三种基线方法上,加入机会停止(stop)都能在降低 NFE 的同时维持甚至提升 G_O。曲线更陡峭地向左上方移动,意味着用更少的计算拿到更好的结果。


🧪 实验:三个模型、三个基准,全面碾压

实验设置

作者在三个主流图像编辑模型上做了测试:

模型 类型 去噪步数
FLUX.1 Kontext Flow-based 编辑模型 28 步
BAGEL 统一多模态模型 28 步
Step1X-Edit Flow-based 编辑模型 50 步

评估覆盖三个基准数据集:GEdit-Bench(真实用户编辑任务)、AnyEdit-Test(多类型编辑)和 Reason-Edit(复杂推理编辑)。

对比的 baseline 包括: - BoN:经典 Best-of-N,生成 N=32 个候选选最优 - PRM(Process Reward Model):在过程中用奖励模型筛选 - PARM(Process Advantage Reward Model):PRM 的改进版 - TTS-EF(Test-Time Scaling with Early Filtering):加了早期过滤的 TTS 方法

主实验结果

下面是三个模型在 GEdit-Bench 上的核心结果(采样预算 N=32):

方法 Kontext G_O Kontext η BAGEL G_O BAGEL η Step1X G_O Step1X η
BoN 6.641 0.66 6.908 0.69 7.157 0.72
PRM 6.517 1.13 6.685 1.17 7.031 0.94
PARM 6.563 0.77 6.765 1.21 7.072 0.94
TTS-EF 6.376 0.98 6.660 1.15 6.777 0.96
TTS-EF (修改版) 6.643 0.79 6.910 1.04 7.162 0.93
ADE-CoT 6.695 1.47 6.972 1.27 7.196 1.45

几个关键数字值得划重点:

  • 编辑质量全面领先:ADE-CoT 在所有三个模型上的 G_O(综合评分)都是最高的。Kontext 上 6.695 vs BoN 的 6.641,BAGEL 上 6.972 vs 6.908,Step1X 上 7.196 vs 7.157。
  • 推理效率提升 2-5 倍:以 FLUX.1 Kontext 为例,推理效率 η 从 BoN 的 0.66 飙到 1.47(↑2.2×),结果效率 ξ 从 0.12 涨到 0.66(↑5.5×)。
  • 在 AnyEdit-Test 和 Reason-Edit 上也是类似表现:ADE-CoT 在 BAGEL 上的 AnyEdit-Test η 达到 1.64(BoN 仅 0.67,提升 2.4×)。

换句话说,ADE-CoT 不是在"牺牲质量换速度",而是质量更好的同时速度还更快。这在算法优化里是很难得的——通常提速都要付出精度代价。

效率-质量曲线

图4:FLUX.1 Kontext 的性能曲线

图4:在 FLUX.1 Kontext 上,ADE-CoT(红色)的曲线始终在其他方法的上方和左侧,意味着在任意计算预算下,ADE-CoT 都能拿到更高的 G_O 分数。

图5:BAGEL 的性能曲线

图5:BAGEL 上的趋势与 Kontext 一致。ADE-CoT 仅用约 880 NFE 就达到了 BoN 需要 1600 NFE 才能达到的质量水平。

图6:Step1X-Edit 的性能曲线

图6:Step1X-Edit 上 ADE-CoT 的优势同样明显,在 NFE 约 430 时就超越了 BoN 在 896 NFE 下的 G_O。

三张图都传达了同一个信息:ADE-CoT 的帕累托前沿明显优于所有 baseline


🔬 消融实验:每一刀都砍在了点上

逐步叠加各组件

消融实验是这篇论文最扎实的部分之一。作者从 BoN baseline 出发,逐步叠加每个组件,观察 G_O 和 NFE 的变化:

配置 Kontext G_O / NFE BAGEL G_O / NFE Step1X G_O / NFE
Baseline (BoN) 6.641 / 896 6.908 / 1600 7.157 / 896
+ 难度感知预算 6.641 / 797 6.909 / 1391 7.157 / 778
+ 早期剪枝(通用分数) 6.642 / 719 6.912 / 1351 7.157 / 719
+ 早期剪枝(编辑特定分数) 6.647 / 673 6.916 / 1290 7.161 / 638
+ 相似样本过滤 6.651 / 508 6.915 / 1087 7.162 / 522
+ 后期保留 6.652 / 464 6.935 / 972 7.163 / 462
+ 实例特定验证器 6.702 / 464 6.984 / 972 7.206 / 462
+ 机会停止(完整版) 6.695 / 418 6.972 / 882 7.196 / 434

几个有趣的观察:

  1. 难度感知预算单独就减少了约 11-13% 的 NFE,G_O 几乎零损失。这验证了"简单任务确实不需要那么多采样"的假设。

  2. 相似样本过滤带来了 NFE 的最大单次下降(从 673 降到 508,砍掉 25%)。这说明冗余结果确实是 BoN 的一大痛点。

  3. 实例特定验证器的加入让 G_O 有了明显跳升(Kontext 上从 6.652 到 6.702),说明这个针对性更强的验证器确实能选出更好的结果。

  4. 最终的机会停止让 NFE 又降了一截(从 464 到 418),但 G_O 略微下降(从 6.702 到 6.695)。这是可以理解的——提前停止意味着可能错过最后几个采样中出现的更优结果,但效率收益远大于微小的质量损失。

单步预览 vs 其他方案

获取早期预览图像有三种方式,作者做了对比:

方法 Kontext G_O / NFE BAGEL G_O / NFE
额外去噪步 6.678 / 523 6.952 / 1008
直接解码噪声 6.648 / 790 6.945 / 1334
单步预览(ADE-CoT) 6.695 / 418 6.972 / 882

单步预览在 G_O 和 NFE 两方面都是最优的。额外去噪步虽然预览质量更好,但增加了计算开销;直接解码噪声则预览质量太差,导致早期剪枝不准确。单步预览在零额外开销和可用预览质量之间找到了平衡点。

搜索策略:BFS vs DFS vs 混合

策略 Kontext G_O / NFE / η
BFS 6.702 / 464 / 1.37
DFS 6.644 / 574 / 1.32
无排序 6.694 / 433 / 1.42
ADE-CoT(混合) 6.695 / 418 / 1.47

纯 BFS(广度优先)G_O 最高但 NFE 偏大;纯 DFS(深度优先)NFE 大且 G_O 最低;ADE-CoT 的混合策略(先 BFS 筛选排序,再 DFS 机会停止)兼顾了两者优点,η 效率最高。

不同 MLLM 的影响

作者还测试了三个不同的 MLLM 作为验证器:

MLLM Kontext G_O / NFE Step1X G_O / NFE
Qwen2.5-VL-72B 6.637 / 436 7.193 / 446
Qwen-VL-MAX 6.695 / 418 7.196 / 434
Qwen3-VL-32B 6.719 / 403 7.240 / 414

Qwen3-VL-32B 表现最好,在所有模型上都拿到了最高 G_O 和最低 NFE。这说明 ADE-CoT 的性能会随着 MLLM 评估能力的增强而水涨船高——未来更强的多模态模型会让 ADE-CoT 更加高效。


💡 我的观点和启发

1. "自适应"才是正确的 Scaling 姿势

这篇论文让我想到了计算机体系结构中的动态电压频率调节(DVFS):CPU 不需要时刻运行在最高频率,空闲时降频省电,繁忙时升频保性能。ADE-CoT 本质上就是给图像编辑的推理过程装了一个"变频器"——简单任务跑低档位,困难任务跑高档位。

这种"按需分配"的思想在 LLM 推理优化中已经有很多尝试(比如 speculative decoding、adaptive compute),但在图像编辑领域还是比较新鲜的。关键在于,作者找到了一个很好的难度代理指标——初始编辑的验证分数。这个指标获取成本极低(只需要一次完整推理),但预测能力相当不错。

2. "看人下菜"的验证器设计很有巧思

传统的通用评分器就像一个只会打综合分的老师,不管你交的是数学作业还是语文作文,都用同一套评分标准。ADE-CoT 的实例特定验证器则像一个会出针对性问题的面试官——对于"添加太阳镜"的任务,它会问"太阳镜在不在正确位置"而不是泛泛地问"图片好不好看"。

这种设计特别适合图像编辑场景,因为编辑的"正确性"高度依赖于具体指令。通用评分器容易被表面的图像质量迷惑(图11 的例子就很说明问题),而实例特定验证器能抓住编辑意图的核心。

3. 工程落地需要考虑的问题

虽然 ADE-CoT 在学术指标上表现出色,但要真正落地,有几个问题值得思考:

  • MLLM 调用成本:ADE-CoT 需要多次调用 MLLM(生成验证问题、回答问题、评估区域正确性等)。虽然节省了扩散模型的计算量,但增加了 MLLM 的调用量。如果 MLLM 推理成本较高,整体成本可能并不一定降低。论文中使用的是 Qwen-VL 系列,不清楚换成更小的模型会不会显著影响效果。
  • 延迟 vs 吞吐:ADE-CoT 降低了总计算量(NFE),但其中包含了串行的验证步骤。在追求单请求延迟的场景下,这些串行步骤可能会抵消一部分并行采样的加速效果。
  • Grounded SAM2 的依赖:编辑区域检测依赖 Grounded SAM2,这个模型本身也有推理开销。在高吞吐量的生产环境中,这个额外依赖可能成为瓶颈。

4. 更广泛的启示

这篇工作给我的最大启发是:不要把 Test-Time Scaling 当成"暴力堆算力"的代名词。真正高效的 TTS 应该是自适应的——先评估任务难度,再决定投入多少资源。这个思路不仅适用于图像编辑,在视频生成、3D 生成、甚至 LLM 推理中都有潜力。

想象一下,如果 LLM 的 Chain-of-Thought 也能做到"简单问题少想几步,难题多想几步",那推理效率会提升很多。DeepSeek-R1 已经在尝试类似的方向了,但还远没有做到像 ADE-CoT 这样系统化。


📊 与相关方法的对比

维度 BoN PRM/PARM TTS-EF ADE-CoT
预算分配 固定 固定 固定 难度自适应
早期剪枝 过程奖励筛选 通用分数剪枝 编辑特定分数剪枝
停止策略 跑完所有预算 跑完所有预算 跑完所有预算 机会停止
冗余处理 DINOv2 相似度过滤
验证粒度 全局通用分数 过程级分数 全局通用分数 实例特定 Yes/No
效率(η) ~0.7 ~1.1 ~1.0 ~1.4

ADE-CoT 几乎在每个维度上都做了改进,而不是单点突破。这种"全链路优化"的策略让它在最终效果上拉开了较大差距。


🔗 相关资源

  • 论文:https://arxiv.org/abs/2603.00141
  • 代码:https://github.com/BetterEditControl/ADE-CoT(论文中提到将开源,截至发稿暂未公开)
  • 基础模型
  • Step1X-Edit
  • BAGEL
  • FLUX.1 Kontext
  • 评估基准:GEdit-Bench、AnyEdit-Test、Reason-Edit

📝 总结

ADE-CoT 这篇工作的核心贡献在于揭示了一个被忽视的事实:图像编辑和文生图的 Image-CoT 面临的挑战完全不同。文生图需要多样性,多采样是有价值的;图像编辑需要精准性,盲目多采样是浪费。

在这个洞察之上,ADE-CoT 用三个巧妙的策略——难度感知资源分配、编辑特定早期剪枝、深度优先机会停止——将 Best-of-N 的效率提升了 2-5 倍,同时质量还更好。

如果你在做图像编辑相关的产品或研究,这篇论文值得仔细读。它不仅提供了一个即插即用的效率优化框架(和具体模型解耦),更提供了一种"按需扩展"的思考方式,这种方式在 AI 推理成本日益高涨的今天,会越来越重要。