图像编辑也能"看菜下饭":ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍
论文标题:From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
作者:Xiangyan Qu, Zhenlong Yuan, Jing Tang, Rui Chen, Datao Tang, Meng Yu, Lei Sun, Yancheng Bai, Xiangxiang Chu, Gaopeng Gou, Gang Xiong, Yujun Cai(共12位作者)
机构:中国科学院信息工程研究所、中国科学院大学网络安全学院、阿里巴巴集团 AMAP、昆士兰大学
发表:CVPR 2026
论文链接:https://arxiv.org/abs/2603.00141
📖 一句话总结
这篇论文提出了 ADE-CoT(ADaptive Edit Chain-of-Thought)框架,核心思路是:图像编辑任务有难有易,不该对所有任务"一视同仁"地砸算力。通过难度感知的资源分配、编辑特定的早期剪枝、以及深度优先的机会停止三板斧,ADE-CoT 在三个主流编辑模型上实现了推理效率提升 2-5 倍,同时编辑质量还更好。
🎯 问题:图像编辑的 Image-CoT 为什么会浪费算力?
过去一年,"测试时扩展"(Test-Time Scaling, TTS)这个概念在 LLM 领域火得一塌糊涂——DeepSeek-R1、OpenAI o1/o3 都在推理时投入更多计算来换取更好的输出。这个思路自然也被搬到了图像生成领域,催生了所谓的 Image-CoT(图像思维链):生成 N 个候选图像,再用一个验证器挑出最好的那个,也就是经典的 Best-of-N(BoN)策略。
在文生图(Text-to-Image)场景下,这个策略运转良好。原因很简单:从同一个文本 prompt 出发,不同的随机种子会生成风格迥异的图像,多采几次确实能找到更好的结果。
但图像编辑不一样。

图1:T2I 生成中,多次采样产生多样性丰富的候选(左);图像编辑中,多次采样产生大量冗余的正确结果(右)。编辑任务受源图像约束,输出空间天然就窄。
图像编辑有源图像作为锚点,输出空间比纯生成小得多。一条"把苹果变成橙子"的指令,大部分采样结果可能长得差不多——你花了 32 次采样的算力,其中 20 次产出几乎一样的结果,这就是纯粹的浪费。
作者做了一组很有说服力的统计分析,揭示了三个关键问题:

图2:三张统计图分别展示了:(a) 初始分数越高的样本,通过 BoN 获得的增益越小——说明简单任务不需要大预算;(b) 在早期去噪阶段,通用评分器的误判率高达 30-40%——早期剪枝不靠谱;(c) 大规模采样时,大量结果高度冗余——后期采样在浪费算力。
三个核心发现:
- 资源错配:简单编辑(初始分数高)几乎不需要多采样,但 BoN 还是给它分配了和困难编辑一样多的预算
- 早期验证不靠谱:在去噪过程的早期阶段,图像还比较模糊,通用的多模态大模型(MLLM)评分误差很大,直接用来剪枝容易"误杀"好样本
- 后期采样冗余:找到第一个好结果后,继续采样大概率只是在复制类似的结果
这三个问题对应了论文的三个解决方案。思路清晰,层层递进。
🏗️ 方法:ADE-CoT 的三板斧
ADE-CoT 的整体框架可以看成对 BoN 策略的三次精准手术:在进入手术室之前先评估病情轻重(难度感知)→ 手术中快速排除不靠谱的方案(早期剪枝)→ 达到目标后立刻收手(机会停止)。

图3:三种方法的对比。BoN 对所有样本一视同仁,全部走完全程(左);Early Pruning 在早期阶段剪掉低分样本但预算固定(中);ADE-CoT 三管齐下——动态预算 + 编辑特定早期剪枝 + 机会停止(右)。
🔧 策略一:难度感知资源分配——给简单任务少发"工资"
直觉很好理解:让模型先做一次试探性编辑,看看初始结果的质量怎么样。质量已经不错了?那后续少采几次就行。质量很差?那得加大力度多试几次。
具体实现:先生成一个候选图像,用验证器给一个初始分数 \(S\),然后根据这个分数动态调整采样预算:
这个公式的设计相当巧妙。\(\gamma\) 是一个控制"敏感度"的超参数(论文默认 0.15),它决定了预算随难度变化的曲线形状。当 \(\gamma\) 很小时,只有分数非常接近满分的任务才会大幅减少预算;当 \(\gamma\) 较大时,中等难度的任务也会明显减少预算。
打个比方:这就像餐厅里的"看人下菜"策略。来了个只点了一碗面的客人(简单任务),你派一个服务员快速搞定就行;来了个点了满汉全席的贵客(困难任务),那得安排全套人马伺候。

图7:γ 参数对 NFE(计算量)和 G_O(编辑质量)的影响。γ=0.15 是效率与质量的最佳平衡点——再小的话计算量降不下来,再大的话会误伤困难任务的质量。
从消融实验来看(图7),γ=0.15 时,NFE 从 896 降到约 800 左右,而 G_O 几乎不变。这说明确实有一大批"简单任务"在白白消耗算力。
🔧 策略二:编辑特定的早期剪枝验证——给"模糊照片"装上显微镜
BoN 要等所有样本跑完全部去噪步骤才选最优,太慢了。一个自然想法是在去噪过程的早期阶段就把明显不行的候选砍掉。但问题在于:早期阶段的图像还很模糊,通用评分器(比如 VIE-Score)看不准。
ADE-CoT 的解决方案分四步:
第一步:单步预览。不需要额外跑去噪步骤,而是利用 Flow Matching 模型的特性,直接从早期时间步 \(t_e\) 的噪声潜变量估算出清晰图像:
这一步非常经济——零额外计算开销,就能拿到一张"预览图"。虽然预览质量不如最终结果,但足以做粗筛。
第二步:编辑区域正确性检测 \(S_{\text{reg}}\)。利用 MLLM 识别编辑指令涉及的对象(比如"苹果"),再用 Grounded SAM2 生成掩码,最后检查图像变化是否集中在正确区域。如果你要改苹果但实际上改了背景,那这个样本就有问题。
第三步:指令-描述一致性检测 \(S_{\text{cap}}\)。让 MLLM 根据源图和编辑指令生成一段目标描述,然后用 CLIP Score 检查编辑后的图像和这段描述是否匹配。
第四步:统一评分。把通用分数和两个编辑特定分数加权组合:
低于拒绝阈值 \(S_{\text{rj}}=5\) 的直接淘汰,剩下的还要过一道 DINOv2 视觉相似度过滤,把长得太像的候选合并掉。

图9:加入编辑特定分数后,低分区域的样本数量大幅减少(蓝色 vs 红色柱子)。这说明编辑特定分数帮助验证器更准确地识别出不合格的候选,避免了通用评分器在早期阶段"看走眼"的问题。

图10:仅使用通用分数 \(S_{\text{gen}}\) 做早期过滤(橙色)vs 使用完整编辑特定分数 \(S\)(绿色),后者在相同 NFE 下能获得更高的 G_O 分数。说明编辑特定分数确实补上了通用评分器的短板。
🔧 策略三:深度优先的机会停止——找到好结果就收工
经过前面两步,剩余的候选质量已经不错了,但还有一个问题:什么时候该停下来?BoN 的做法是无脑跑完所有预算,但很多时候跑到一半就已经找到满意的结果了。
ADE-CoT 引入了一个实例特定验证器(Instance-Specific Verifier)来解决这个问题。
思路是这样的:对于每个编辑任务,自动生成 5 个针对性的 Yes/No 验证问题。比如对于"在照片中添加一副太阳镜"这个指令,验证器可能会生成:
- "图中人物是否戴着太阳镜?"
- "太阳镜的位置是否在面部正确位置?"
- "图像整体美感是否自然?"
- "原图中未编辑区域是否保持不变?"
- "太阳镜的风格是否与照片协调?"
然后让 MLLM 对编辑结果逐一回答这些问题,统计 Yes 的数量得到实例特定分数 \(S_{\text{spec}}\)。当累积找到 \(N_{\text{high}}=4\) 个满足 \(S_{\text{spec}} \ge S_{\text{high}}\) 的结果时,搜索立即停止。

图11:通用评分器(General Score)给两个候选打了接近的分数(6.25 vs 6.0),难以区分优劣;但实例特定验证器通过针对性的 Yes/No 问题,能精准识别出哪个编辑更符合意图(5/5 vs 3/5)。
这种方式比通用评分器更"懂"当前任务。通用评分器用一把尺子量所有任务,而实例特定验证器相当于为每个任务定制了一把专用尺子。

图12:在 BoN、PRM、PARM 三种基线方法上,加入机会停止(stop)都能在降低 NFE 的同时维持甚至提升 G_O。曲线更陡峭地向左上方移动,意味着用更少的计算拿到更好的结果。
🧪 实验:三个模型、三个基准,全面碾压
实验设置
作者在三个主流图像编辑模型上做了测试:
| 模型 | 类型 | 去噪步数 |
|---|---|---|
| FLUX.1 Kontext | Flow-based 编辑模型 | 28 步 |
| BAGEL | 统一多模态模型 | 28 步 |
| Step1X-Edit | Flow-based 编辑模型 | 50 步 |
评估覆盖三个基准数据集:GEdit-Bench(真实用户编辑任务)、AnyEdit-Test(多类型编辑)和 Reason-Edit(复杂推理编辑)。
对比的 baseline 包括: - BoN:经典 Best-of-N,生成 N=32 个候选选最优 - PRM(Process Reward Model):在过程中用奖励模型筛选 - PARM(Process Advantage Reward Model):PRM 的改进版 - TTS-EF(Test-Time Scaling with Early Filtering):加了早期过滤的 TTS 方法
主实验结果
下面是三个模型在 GEdit-Bench 上的核心结果(采样预算 N=32):
| 方法 | Kontext G_O | Kontext η | BAGEL G_O | BAGEL η | Step1X G_O | Step1X η |
|---|---|---|---|---|---|---|
| BoN | 6.641 | 0.66 | 6.908 | 0.69 | 7.157 | 0.72 |
| PRM | 6.517 | 1.13 | 6.685 | 1.17 | 7.031 | 0.94 |
| PARM | 6.563 | 0.77 | 6.765 | 1.21 | 7.072 | 0.94 |
| TTS-EF | 6.376 | 0.98 | 6.660 | 1.15 | 6.777 | 0.96 |
| TTS-EF (修改版) | 6.643 | 0.79 | 6.910 | 1.04 | 7.162 | 0.93 |
| ADE-CoT | 6.695 | 1.47 | 6.972 | 1.27 | 7.196 | 1.45 |
几个关键数字值得划重点:
- 编辑质量全面领先:ADE-CoT 在所有三个模型上的 G_O(综合评分)都是最高的。Kontext 上 6.695 vs BoN 的 6.641,BAGEL 上 6.972 vs 6.908,Step1X 上 7.196 vs 7.157。
- 推理效率提升 2-5 倍:以 FLUX.1 Kontext 为例,推理效率 η 从 BoN 的 0.66 飙到 1.47(↑2.2×),结果效率 ξ 从 0.12 涨到 0.66(↑5.5×)。
- 在 AnyEdit-Test 和 Reason-Edit 上也是类似表现:ADE-CoT 在 BAGEL 上的 AnyEdit-Test η 达到 1.64(BoN 仅 0.67,提升 2.4×)。
换句话说,ADE-CoT 不是在"牺牲质量换速度",而是质量更好的同时速度还更快。这在算法优化里是很难得的——通常提速都要付出精度代价。
效率-质量曲线

图4:在 FLUX.1 Kontext 上,ADE-CoT(红色)的曲线始终在其他方法的上方和左侧,意味着在任意计算预算下,ADE-CoT 都能拿到更高的 G_O 分数。

图5:BAGEL 上的趋势与 Kontext 一致。ADE-CoT 仅用约 880 NFE 就达到了 BoN 需要 1600 NFE 才能达到的质量水平。

图6:Step1X-Edit 上 ADE-CoT 的优势同样明显,在 NFE 约 430 时就超越了 BoN 在 896 NFE 下的 G_O。
三张图都传达了同一个信息:ADE-CoT 的帕累托前沿明显优于所有 baseline。
🔬 消融实验:每一刀都砍在了点上
逐步叠加各组件
消融实验是这篇论文最扎实的部分之一。作者从 BoN baseline 出发,逐步叠加每个组件,观察 G_O 和 NFE 的变化:
| 配置 | Kontext G_O / NFE | BAGEL G_O / NFE | Step1X G_O / NFE |
|---|---|---|---|
| Baseline (BoN) | 6.641 / 896 | 6.908 / 1600 | 7.157 / 896 |
| + 难度感知预算 | 6.641 / 797 | 6.909 / 1391 | 7.157 / 778 |
| + 早期剪枝(通用分数) | 6.642 / 719 | 6.912 / 1351 | 7.157 / 719 |
| + 早期剪枝(编辑特定分数) | 6.647 / 673 | 6.916 / 1290 | 7.161 / 638 |
| + 相似样本过滤 | 6.651 / 508 | 6.915 / 1087 | 7.162 / 522 |
| + 后期保留 | 6.652 / 464 | 6.935 / 972 | 7.163 / 462 |
| + 实例特定验证器 | 6.702 / 464 | 6.984 / 972 | 7.206 / 462 |
| + 机会停止(完整版) | 6.695 / 418 | 6.972 / 882 | 7.196 / 434 |
几个有趣的观察:
-
难度感知预算单独就减少了约 11-13% 的 NFE,G_O 几乎零损失。这验证了"简单任务确实不需要那么多采样"的假设。
-
相似样本过滤带来了 NFE 的最大单次下降(从 673 降到 508,砍掉 25%)。这说明冗余结果确实是 BoN 的一大痛点。
-
实例特定验证器的加入让 G_O 有了明显跳升(Kontext 上从 6.652 到 6.702),说明这个针对性更强的验证器确实能选出更好的结果。
-
最终的机会停止让 NFE 又降了一截(从 464 到 418),但 G_O 略微下降(从 6.702 到 6.695)。这是可以理解的——提前停止意味着可能错过最后几个采样中出现的更优结果,但效率收益远大于微小的质量损失。
单步预览 vs 其他方案
获取早期预览图像有三种方式,作者做了对比:
| 方法 | Kontext G_O / NFE | BAGEL G_O / NFE |
|---|---|---|
| 额外去噪步 | 6.678 / 523 | 6.952 / 1008 |
| 直接解码噪声 | 6.648 / 790 | 6.945 / 1334 |
| 单步预览(ADE-CoT) | 6.695 / 418 | 6.972 / 882 |
单步预览在 G_O 和 NFE 两方面都是最优的。额外去噪步虽然预览质量更好,但增加了计算开销;直接解码噪声则预览质量太差,导致早期剪枝不准确。单步预览在零额外开销和可用预览质量之间找到了平衡点。
搜索策略:BFS vs DFS vs 混合
| 策略 | Kontext G_O / NFE / η |
|---|---|
| BFS | 6.702 / 464 / 1.37 |
| DFS | 6.644 / 574 / 1.32 |
| 无排序 | 6.694 / 433 / 1.42 |
| ADE-CoT(混合) | 6.695 / 418 / 1.47 |
纯 BFS(广度优先)G_O 最高但 NFE 偏大;纯 DFS(深度优先)NFE 大且 G_O 最低;ADE-CoT 的混合策略(先 BFS 筛选排序,再 DFS 机会停止)兼顾了两者优点,η 效率最高。
不同 MLLM 的影响
作者还测试了三个不同的 MLLM 作为验证器:
| MLLM | Kontext G_O / NFE | Step1X G_O / NFE |
|---|---|---|
| Qwen2.5-VL-72B | 6.637 / 436 | 7.193 / 446 |
| Qwen-VL-MAX | 6.695 / 418 | 7.196 / 434 |
| Qwen3-VL-32B | 6.719 / 403 | 7.240 / 414 |
Qwen3-VL-32B 表现最好,在所有模型上都拿到了最高 G_O 和最低 NFE。这说明 ADE-CoT 的性能会随着 MLLM 评估能力的增强而水涨船高——未来更强的多模态模型会让 ADE-CoT 更加高效。
💡 我的观点和启发
1. "自适应"才是正确的 Scaling 姿势
这篇论文让我想到了计算机体系结构中的动态电压频率调节(DVFS):CPU 不需要时刻运行在最高频率,空闲时降频省电,繁忙时升频保性能。ADE-CoT 本质上就是给图像编辑的推理过程装了一个"变频器"——简单任务跑低档位,困难任务跑高档位。
这种"按需分配"的思想在 LLM 推理优化中已经有很多尝试(比如 speculative decoding、adaptive compute),但在图像编辑领域还是比较新鲜的。关键在于,作者找到了一个很好的难度代理指标——初始编辑的验证分数。这个指标获取成本极低(只需要一次完整推理),但预测能力相当不错。
2. "看人下菜"的验证器设计很有巧思
传统的通用评分器就像一个只会打综合分的老师,不管你交的是数学作业还是语文作文,都用同一套评分标准。ADE-CoT 的实例特定验证器则像一个会出针对性问题的面试官——对于"添加太阳镜"的任务,它会问"太阳镜在不在正确位置"而不是泛泛地问"图片好不好看"。
这种设计特别适合图像编辑场景,因为编辑的"正确性"高度依赖于具体指令。通用评分器容易被表面的图像质量迷惑(图11 的例子就很说明问题),而实例特定验证器能抓住编辑意图的核心。
3. 工程落地需要考虑的问题
虽然 ADE-CoT 在学术指标上表现出色,但要真正落地,有几个问题值得思考:
- MLLM 调用成本:ADE-CoT 需要多次调用 MLLM(生成验证问题、回答问题、评估区域正确性等)。虽然节省了扩散模型的计算量,但增加了 MLLM 的调用量。如果 MLLM 推理成本较高,整体成本可能并不一定降低。论文中使用的是 Qwen-VL 系列,不清楚换成更小的模型会不会显著影响效果。
- 延迟 vs 吞吐:ADE-CoT 降低了总计算量(NFE),但其中包含了串行的验证步骤。在追求单请求延迟的场景下,这些串行步骤可能会抵消一部分并行采样的加速效果。
- Grounded SAM2 的依赖:编辑区域检测依赖 Grounded SAM2,这个模型本身也有推理开销。在高吞吐量的生产环境中,这个额外依赖可能成为瓶颈。
4. 更广泛的启示
这篇工作给我的最大启发是:不要把 Test-Time Scaling 当成"暴力堆算力"的代名词。真正高效的 TTS 应该是自适应的——先评估任务难度,再决定投入多少资源。这个思路不仅适用于图像编辑,在视频生成、3D 生成、甚至 LLM 推理中都有潜力。
想象一下,如果 LLM 的 Chain-of-Thought 也能做到"简单问题少想几步,难题多想几步",那推理效率会提升很多。DeepSeek-R1 已经在尝试类似的方向了,但还远没有做到像 ADE-CoT 这样系统化。
📊 与相关方法的对比
| 维度 | BoN | PRM/PARM | TTS-EF | ADE-CoT |
|---|---|---|---|---|
| 预算分配 | 固定 | 固定 | 固定 | 难度自适应 |
| 早期剪枝 | 无 | 过程奖励筛选 | 通用分数剪枝 | 编辑特定分数剪枝 |
| 停止策略 | 跑完所有预算 | 跑完所有预算 | 跑完所有预算 | 机会停止 |
| 冗余处理 | 无 | 无 | 无 | DINOv2 相似度过滤 |
| 验证粒度 | 全局通用分数 | 过程级分数 | 全局通用分数 | 实例特定 Yes/No |
| 效率(η) | ~0.7 | ~1.1 | ~1.0 | ~1.4 |
ADE-CoT 几乎在每个维度上都做了改进,而不是单点突破。这种"全链路优化"的策略让它在最终效果上拉开了较大差距。
🔗 相关资源
- 论文:https://arxiv.org/abs/2603.00141
- 代码:https://github.com/BetterEditControl/ADE-CoT(论文中提到将开源,截至发稿暂未公开)
- 基础模型:
- Step1X-Edit
- BAGEL
- FLUX.1 Kontext
- 评估基准:GEdit-Bench、AnyEdit-Test、Reason-Edit
📝 总结
ADE-CoT 这篇工作的核心贡献在于揭示了一个被忽视的事实:图像编辑和文生图的 Image-CoT 面临的挑战完全不同。文生图需要多样性,多采样是有价值的;图像编辑需要精准性,盲目多采样是浪费。
在这个洞察之上,ADE-CoT 用三个巧妙的策略——难度感知资源分配、编辑特定早期剪枝、深度优先机会停止——将 Best-of-N 的效率提升了 2-5 倍,同时质量还更好。
如果你在做图像编辑相关的产品或研究,这篇论文值得仔细读。它不仅提供了一个即插即用的效率优化框架(和具体模型解耦),更提供了一种"按需扩展"的思考方式,这种方式在 AI 推理成本日益高涨的今天,会越来越重要。