自蒸馏让大模型变"自信"了，推理能力却崩了——不确定性才是推理的命脉

论文标题：Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

作者：Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang

发表时间：2026年3月25日

论文链接：https://arxiv.org/abs/2603.24472

🎯 核心摘要

自蒸馏（Self-Distillation）是一种让模型"自己教自己"的后训练方法，在多个任务上都能提升效率和性能。但一个令人困惑的现象是：同样的方法用在数学推理上，有时反而让模型的准确率暴跌40%。这篇论文追踪到了根源——自蒸馏会系统性地压制模型在推理过程中的"不确定性表达"（如"wait"、"hmm"、"maybe"等犹豫词），而这些看似冗余的"犹豫"恰恰是模型进行自我纠错和假设调整的关键机制。模型越"自信"，推理能力反而越差。这不是工程调参能解决的问题，而是指向了后训练中一个被忽视的根本矛盾：压缩表达 vs 保留推理弹性。

📖 问题：为什么"自己教自己"反而学傻了？

你可能有过这样的经验：考试的时候，直觉上觉得选A，但心里嘀咕"等等，好像B也说得通……"，于是回头验算一遍，发现确实应该选B。这个"嘀咕"的过程，就是人类推理中的不确定性表达。

大语言模型也有类似的行为。当DeepSeek-R1这类推理模型解数学题时，它们会在思维链中输出"wait, let me reconsider..."、"hmm, this doesn't seem right"这样的表达。这不是废话——这是模型在推理过程中进行假设检验和路径修正的信号。

问题来了。自蒸馏（Self-Distillation）的核心思路是：先让模型在有"参考答案"提示的条件下生成高质量回答，然后用这些回答去训练模型的无提示生成能力。这听起来很合理——用"开卷考试"的优秀答案去训练"闭卷考试"的能力嘛。

图2a：纯程序性推理 vs 带认知不确定性表达的推理

左侧是纯程序性推理——"Step 1... Step 2... 答案是15"，一路到底不回头，容易过早锁死错误路径。右侧是带有认知不确定性表达的推理——"我觉得答案可能是12，但不太确定，让我再探索一下……"，留有自我纠错的余地。

但论文发现了一个致命的副作用：当模型看着参考答案做题时，它会变得极度自信，不再"犹豫"。用这些过度自信的回答做训练数据，就等于在教模型"解题时不要犹豫、不要反思"。结果就是模型在遇到新的、没见过的题目时，丧失了自我纠错的能力。

图2b：无引导生成 vs 教师引导生成

无引导生成（左）：模型独立思考，会犹豫、会自我质疑。教师引导生成（右）：模型看着答案做题，信心十足，"答案一定是12！"

🧠 核心发现：信息越丰富，模型越"自信"，越不会推理

实验设计：四种"开卷程度"

论文设计了一组巧妙的对照实验，用DeepSeek-R1-Distill-Qwen-7B模型在DAPO-Math-17k数据集上测试四种不同的上下文条件：

无引导生成（Unguided）：模型独立做题，没有任何提示
解题过程引导（Solution-Guided, c=s）：把完整的解题过程和答案塞给模型看
仅答案引导（Solution-Guided w/o Think, c=s\think）：只给最终答案，不给解题过程
再生条件（Regeneration, c=ỹ）：给模型看它自己之前生成的正确回答

结果令人震惊

生成条件	平均得分	平均长度（token）	认知不确定性词数量
无引导	0.30	13,054	182.5
完整解题引导	0.98	1,873	8.8
仅答案引导	0.78	12,036	159.8
再生条件引导	0.95	2,808	24.1

表1：四种条件下的响应特征对比。数据来自DeepSeek-R1-Distill-Qwen-7B在DAPO-Math-17k上的表现。

这组数据揭示了一个清晰的模式：上下文信息越丰富，模型的回答就越短、越自信，不确定性表达越少。

看具体数字：无引导条件下，模型平均输出13054个token，其中包含182.5个不确定性词（wait, hmm, perhaps, maybe, actually, alternatively, seems, might, likely, check）。而在完整解题引导下，回答缩短到1873个token，不确定性词骤降到8.8个——减少了95%。

论文用信息论框架解释了这一现象：条件互信息 \(I(y;c|x)\) 衡量了上下文 \(c\) 在给定问题 \(x\) 后对答案 \(y\) 提供的额外信息量。信息越多，模型需要"独立思考"的空间越小，自然就不需要犹豫了。

SFT验证：用"自信"数据训练，性能崩塌

光观察生成行为还不够，论文进一步做了验证：分别用"无引导"和"解题引导"两种条件生成的正确回答（各800条），对DeepSeek-R1-Distill-Qwen-7B做SFT微调，然后测试OOD（分布外）数学推理能力。

基准测试	基座模型	SFT（无引导数据）	SFT（解题引导数据）
AIME24	54.79	51.04	20.21
AIME25	37.92	40.00	12.71
AMC23	89.06	87.66	57.03
MATH500	92.19	90.93	65.52

表2：不同训练数据对OOD推理性能的影响。解题引导数据训练后，AIME24暴跌了34个百分点。

结果触目惊心：用"解题引导"条件生成的数据训练后，AIME24从54.79骤降到20.21，跌幅超过34个百分点。而这些训练数据的正确率是一样的！区别仅在于推理风格——一个犹豫、一个果断。

这直接证明了：推理性能的退化不是因为训练数据的正确性问题，而是因为不确定性表达被压制。

🏗️ 在线自蒸馏：问题在训练循环中被放大

离线SFT只是热身。论文的重头戏是分析在线（on-policy）自蒸馏的动态行为。这里对比了两种方法：

GRPO（Group Relative Policy Optimization）：DeepSeek-R1使用的强化学习方法，模型从自身策略采样，用组内相对奖励做优化
SDPO（Self-Distillation Policy Optimization）：自蒸馏策略优化，模型在教师引导下生成回答，然后蒸馏到无引导的学生策略

DeepSeek-R1-Distill-Qwen-7B上的对比

图3a：DeepSeek模型训练分数和响应长度对比

GRPO（绿线）和SDPO（粉线/紫线）的训练分数与响应长度对比。SDPO(c=s)的训练分数虽然初始较高但逐渐下降，响应长度持续缩短；GRPO则稳步上升，响应长度逐渐增加。

图3c：AIME24上的OOD评估结果

AIME24上的Acc@16评估。GRPO稳定维持在~0.55并小幅上升；SDPO(c=s)从~0.55快速跌至~0.32，退化幅度约40%。SDPO(c=s\think)退化较缓但也在下降。

AIME24上SDPO(c=s)的准确率从0.55跌到约0.32，退化幅度达40%。与此同时，GRPO保持稳定甚至微涨。

认知不确定性词汇的变化方向截然相反

图3d：AIME24上认知不确定性词汇变化

GRPO和SDPO训练后，10个认知不确定性标记词的使用频率变化。GRPO让"wait"增加了28.5次（绿色），SDPO让"wait"减少了60.8次（粉色）。两者的方向完全相反。

这张图非常直观：

GRPO训练后，"wait"的使用频率增加了+28.5次，其他词也有小幅增加——模型学会了更多地"犹豫"和自我检查
SDPO训练后，"wait"减少了-60.8次，"perhaps"减少了-17.1次，"maybe"减少了-17.1次——模型的不确定性表达被全面压制

Qwen3-8B上的复现

论文还在Qwen3-8B上做了实验，分别测试了Thinking Mode ON和OFF两种模式。

Thinking Mode ON（开启思维链）：

图4a：Qwen3-8B Thinking ON训练曲线

Qwen3-8B Thinking ON模式下的训练分数和响应长度。SDPO(c=s)训练分数下降，响应长度快速缩短。

图4：Qwen3-8B Thinking ON AIME24评估

AIME24上Qwen3-8B的OOD评估。GRPO维持在约0.78，SDPO(c=s)跌至约0.55——又是大幅退化。

Qwen3-8B Thinking ON模式下，SDPO(c=s)在AIME24上从约0.78跌至约0.55，GRPO则稳定维持在0.78左右。

Thinking Mode OFF（关闭思维链）：

有意思的是，Thinking OFF模式展示了完全不同的动态。GRPO训练时，模型的响应长度快速增加——它自发地学会了引入"wait"、"hmm"等认知不确定性词汇，相当于自己"发明"了思维链。而SDPO训练后，模型缩短了回答但没有提升准确率。

🔧 任务覆盖度：决定自蒸馏成败的关键变量

论文的第6节回答了一个关键问题：为什么自蒸馏在化学任务（Chemistry）上能成功，在数学任务（DAPO-Math-17k）上却失败？

答案在于任务覆盖度（Task Coverage）的差异：

数据集	训练题数	题目多样性	训练/评估重叠度
Chemistry	2,400	仅6种题型	90/10同分布
LiveCodeBench	131	较多样	100%重叠
DAPO-Math-17k	14,000	类型广泛	不重叠

Chemistry数据集只有6种题目类型，训练集和评估集来自同分布——这种情况下，模型不需要泛化能力，"死记硬背"就够了。不确定性表达在这种场景下确实是多余的——就像你反复做同一套模拟题，做到后面根本不需要思考，直接条件反射写答案就行。

但DAPO-Math-17k涵盖了各种类型的数学题，评估用的AIME24/AIME25是竞赛级难题，与训练集完全不重叠。这时候模型必须有真正的泛化推理能力——而不确定性表达正是泛化推理的核心工具。

论文还做了一组精细的消融：在Qwen3-8B（Thinking OFF）上，将训练集大小从 \(|D|=1\) 逐步扩大到 \(|D|=512\)，观察SDPO和GRPO的表现：

\(|D| \leq 128\)（小覆盖）：SDPO快速达到高训练分数，回答长度缩短8倍。因为题目重复性高，不需要不确定性表达
\(|D| = 512\)（大覆盖）：SDPO的训练分数提升困难，OOD性能严重退化；GRPO则持续改善，并主动增加认知不确定性词汇的使用

这个发现的工程意义很明确：自蒸馏只适合任务覆盖窄、评估分布与训练分布高度重叠的场景。一旦需要泛化，就必须保留不确定性表达。

🔬 移动目标教师：反馈循环的放大效应

论文还分析了一个关键的实现细节：自蒸馏中教师模型是固定的（Fixed Teacher）还是随训练更新的（Moving Target / EMA）？

直觉上，EMA更新的教师应该更好——它能跟上学生的进步嘛。但实验发现恰恰相反：即使EMA更新率很低（0.05），移动目标教师也会形成一个"自信产生更自信"的正反馈循环。

机制是这样的： 1. 教师引导学生生成自信回答 2. 自信回答被用于更新学生 3. 更新后的学生被用于更新教师 4. 更自信的教师引导学生生成更自信的回答 5. 循环往复，不确定性表达加速消亡

固定教师虽然也会压制不确定性，但至少不会产生这种指数级放大的效应。

📊 认知不确定性标记词的定义

论文定义了10个认知不确定性标记词（Epistemic Markers），用于量化推理过程中的不确定性表达：

标记词	功能
wait	暂停、重新审视当前推理
hmm	表示犹豫或深思
perhaps	提出替代可能性
maybe	对当前结论不确定
actually	自我纠正的信号
alternatively	考虑其他方案
seems	降低断言的确定性
might	承认多种可能性
likely	概率性判断
check	主动验证当前推理

这些词看起来"没什么用"，但它们在推理过程中承担着关键角色：降低对当前推理路径的commitment，为假设修正留出空间。

类比成人的思维过程：在解一道复杂题目时，说"等一下，让我重新看看这个条件"和"答案就是X，下一题"——前者更容易发现自己的错误。

🤔 批判性分析

这篇论文做对了什么？

问题定义精准：不是泛泛地说"自蒸馏有问题"，而是精确定位到了"不确定性表达被压制"这一具体机制。从信息论框架到经验验证，逻辑链条完整。
实验设计巧妙：四种信息丰富度的对照实验，特别是"仅答案引导"（c=s\think）条件的设计——它信息量不算很大，模型还是会生成长回答并保留不确定性表达，但准确率明显低于完整引导。这说明关键不在于给了多少信息，而在于信息的"性质"是否会抑制探索行为。
跨模型验证充分：在DeepSeek-R1-Distill-Qwen-7B、Qwen3-8B、OLMo-3-7B-Instruct三个模型上都观察到了一致的模式，增强了结论的可信度。

有哪些值得质疑的地方？

10个标记词的选择是否足够？ 论文定义的"wait, hmm, perhaps..."等10个词作为不确定性的度量指标，但模型表达不确定性的方式远不止这些。比如"let me reconsider"、"this contradicts..."等句级表达就没有被捕捉到。用词频统计来衡量推理行为，颗粒度可能太粗了。
因果关系的强度存疑：论文证明了"自蒸馏→不确定性词减少→OOD性能下降"的相关性，但"不确定性词减少"是因还是果？有没有可能是自蒸馏通过其他机制损害了推理能力，不确定性词的减少只是表象？论文虽然用SFT实验（Table 2）做了一定程度的因果验证，但这也只能说明"用低不确定性数据训练会退化"，不能完全排除混淆因素。
任务覆盖度的分析还可以更深入：Chemistry成功、DAPO-Math失败，除了题目多样性之外，是否还有其他因素？比如数学推理本身的搜索空间更大、化学题更偏记忆？论文没有控制这些变量。
缺少修复方案的实验验证：论文诊断了问题，但没有给出具体的修复方案并验证其有效性。比如，能否在自蒸馏训练中加入不确定性表达的正则化？能否筛选保留不确定性表达的训练数据？这些方向值得探索。

💡 工程启示

对于在做LLM后训练的从业者，这篇论文有几个直接可用的建议：

监控训练数据中的不确定性表达：如果你在做自蒸馏或教师引导的SFT，监控训练数据中"wait"、"hmm"等词的频率。频率急剧下降是一个危险信号。
避免移动目标教师：在自蒸馏中使用固定教师模型，而不是EMA更新的教师。或者至少用极低的更新率，并监控反馈循环的放大效应。
自蒸馏的适用场景有限：如果你的任务覆盖度窄（题目类型少、评估分布与训练分布相近），自蒸馏是安全的。一旦需要泛化到新题型，优先考虑GRPO等强化学习方法。
不要把"长回答"等同于"低效"：推理模型的长回答里藏着自我纠错的能力。盲目压缩回答长度可能是在削弱模型最核心的推理机制。

📚 相关工作与技术背景

自蒸馏（Self-Distillation）近年来是LLM后训练的热门方向。MIT、ETH Zurich、Meta和斯坦福等机构在2026年初密集发布了多项自蒸馏研究成果。其核心思想是利用模型的In-Context Learning能力构建一个"临时教师"——用少量示例或完整解答引导模型生成高质量回答，然后用这些回答训练模型的无引导能力。

GRPO（Group Relative Policy Optimization）是DeepSeek-R1使用的核心训练方法。它从模型当前策略采样多个回答，用组内相对奖励（而非绝对奖励）来估计优势函数，避免了训练价值网络的开销。GRPO的一个关键特性是它不压缩模型的输出分布——模型可以自由探索不同的推理路径。

认知不确定性表达（Epistemic Verbalization）是2025-2026年LLM研究中逐渐受到关注的概念。相关研究（如EMBER基准）发现，LLM中的不确定性标记词不仅影响输出质量，还会影响LLM-as-Judge评估的公平性。这篇论文则揭示了它在推理能力中的核心作用。

📝 总结

这篇论文的核心贡献在于揭示了一个反直觉的洞察：后训练不仅要让模型"答对"，还要让模型"会犹豫"。正确答案+过度自信的推理风格，训练出来的模型反而比基座模型更差。

这个发现的影响范围可能超出数学推理领域。所有需要复杂推理、假设检验、多步搜索的任务——编程调试、科学推理、多步规划——都可能面临同样的风险。后训练方法的设计者们需要重新思考：优化目标除了"准确率"，是否还应该包含"推理过程的弹性"？

当然，论文也有其局限性：不确定性的度量方式比较粗糙、因果机制的论证还不够严密、缺少修复方案的验证。但作为一篇诊断性研究，它精准地指出了问题所在，为后续工作奠定了方向。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注公众号：机器懂语言