自蒸馏让大模型变"自信"了,推理能力却崩了——不确定性才是推理的命脉
论文标题:Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?
作者:Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang
发表时间:2026年3月25日
论文链接:https://arxiv.org/abs/2603.24472
🎯 核心摘要
自蒸馏(Self-Distillation)是一种让模型"自己教自己"的后训练方法,在多个任务上都能提升效率和性能。但一个令人困惑的现象是:同样的方法用在数学推理上,有时反而让模型的准确率暴跌40%。这篇论文追踪到了根源——自蒸馏会系统性地压制模型在推理过程中的"不确定性表达"(如"wait"、"hmm"、"maybe"等犹豫词),而这些看似冗余的"犹豫"恰恰是模型进行自我纠错和假设调整的关键机制。模型越"自信",推理能力反而越差。这不是工程调参能解决的问题,而是指向了后训练中一个被忽视的根本矛盾:压缩表达 vs 保留推理弹性。
📖 问题:为什么"自己教自己"反而学傻了?
你可能有过这样的经验:考试的时候,直觉上觉得选A,但心里嘀咕"等等,好像B也说得通……",于是回头验算一遍,发现确实应该选B。这个"嘀咕"的过程,就是人类推理中的不确定性表达。
大语言模型也有类似的行为。当DeepSeek-R1这类推理模型解数学题时,它们会在思维链中输出"wait, let me reconsider..."、"hmm, this doesn't seem right"这样的表达。这不是废话——这是模型在推理过程中进行假设检验和路径修正的信号。
问题来了。自蒸馏(Self-Distillation)的核心思路是:先让模型在有"参考答案"提示的条件下生成高质量回答,然后用这些回答去训练模型的无提示生成能力。这听起来很合理——用"开卷考试"的优秀答案去训练"闭卷考试"的能力嘛。

左侧是纯程序性推理——"Step 1... Step 2... 答案是15",一路到底不回头,容易过早锁死错误路径。右侧是带有认知不确定性表达的推理——"我觉得答案可能是12,但不太确定,让我再探索一下……",留有自我纠错的余地。
但论文发现了一个致命的副作用:当模型看着参考答案做题时,它会变得极度自信,不再"犹豫"。用这些过度自信的回答做训练数据,就等于在教模型"解题时不要犹豫、不要反思"。结果就是模型在遇到新的、没见过的题目时,丧失了自我纠错的能力。

无引导生成(左):模型独立思考,会犹豫、会自我质疑。教师引导生成(右):模型看着答案做题,信心十足,"答案一定是12!"
🧠 核心发现:信息越丰富,模型越"自信",越不会推理
实验设计:四种"开卷程度"
论文设计了一组巧妙的对照实验,用DeepSeek-R1-Distill-Qwen-7B模型在DAPO-Math-17k数据集上测试四种不同的上下文条件:
- 无引导生成(Unguided):模型独立做题,没有任何提示
- 解题过程引导(Solution-Guided, c=s):把完整的解题过程和答案塞给模型看
- 仅答案引导(Solution-Guided w/o Think, c=s\think):只给最终答案,不给解题过程
- 再生条件(Regeneration, c=ỹ):给模型看它自己之前生成的正确回答
结果令人震惊
| 生成条件 | 平均得分 | 平均长度(token) | 认知不确定性词数量 |
|---|---|---|---|
| 无引导 | 0.30 | 13,054 | 182.5 |
| 完整解题引导 | 0.98 | 1,873 | 8.8 |
| 仅答案引导 | 0.78 | 12,036 | 159.8 |
| 再生条件引导 | 0.95 | 2,808 | 24.1 |
表1:四种条件下的响应特征对比。数据来自DeepSeek-R1-Distill-Qwen-7B在DAPO-Math-17k上的表现。
这组数据揭示了一个清晰的模式:上下文信息越丰富,模型的回答就越短、越自信,不确定性表达越少。
看具体数字:无引导条件下,模型平均输出13054个token,其中包含182.5个不确定性词(wait, hmm, perhaps, maybe, actually, alternatively, seems, might, likely, check)。而在完整解题引导下,回答缩短到1873个token,不确定性词骤降到8.8个——减少了95%。
论文用信息论框架解释了这一现象:条件互信息 \(I(y;c|x)\) 衡量了上下文 \(c\) 在给定问题 \(x\) 后对答案 \(y\) 提供的额外信息量。信息越多,模型需要"独立思考"的空间越小,自然就不需要犹豫了。
SFT验证:用"自信"数据训练,性能崩塌
光观察生成行为还不够,论文进一步做了验证:分别用"无引导"和"解题引导"两种条件生成的正确回答(各800条),对DeepSeek-R1-Distill-Qwen-7B做SFT微调,然后测试OOD(分布外)数学推理能力。
| 基准测试 | 基座模型 | SFT(无引导数据) | SFT(解题引导数据) |
|---|---|---|---|
| AIME24 | 54.79 | 51.04 | 20.21 |
| AIME25 | 37.92 | 40.00 | 12.71 |
| AMC23 | 89.06 | 87.66 | 57.03 |
| MATH500 | 92.19 | 90.93 | 65.52 |
表2:不同训练数据对OOD推理性能的影响。解题引导数据训练后,AIME24暴跌了34个百分点。
结果触目惊心:用"解题引导"条件生成的数据训练后,AIME24从54.79骤降到20.21,跌幅超过34个百分点。而这些训练数据的正确率是一样的!区别仅在于推理风格——一个犹豫、一个果断。
这直接证明了:推理性能的退化不是因为训练数据的正确性问题,而是因为不确定性表达被压制。
🏗️ 在线自蒸馏:问题在训练循环中被放大
离线SFT只是热身。论文的重头戏是分析在线(on-policy)自蒸馏的动态行为。这里对比了两种方法:
- GRPO(Group Relative Policy Optimization):DeepSeek-R1使用的强化学习方法,模型从自身策略采样,用组内相对奖励做优化
- SDPO(Self-Distillation Policy Optimization):自蒸馏策略优化,模型在教师引导下生成回答,然后蒸馏到无引导的学生策略
DeepSeek-R1-Distill-Qwen-7B上的对比

GRPO(绿线)和SDPO(粉线/紫线)的训练分数与响应长度对比。SDPO(c=s)的训练分数虽然初始较高但逐渐下降,响应长度持续缩短;GRPO则稳步上升,响应长度逐渐增加。

AIME24上的Acc@16评估。GRPO稳定维持在~0.55并小幅上升;SDPO(c=s)从~0.55快速跌至~0.32,退化幅度约40%。SDPO(c=s\think)退化较缓但也在下降。
AIME24上SDPO(c=s)的准确率从0.55跌到约0.32,退化幅度达40%。与此同时,GRPO保持稳定甚至微涨。
认知不确定性词汇的变化方向截然相反

GRPO和SDPO训练后,10个认知不确定性标记词的使用频率变化。GRPO让"wait"增加了28.5次(绿色),SDPO让"wait"减少了60.8次(粉色)。两者的方向完全相反。
这张图非常直观:
- GRPO训练后,"wait"的使用频率增加了+28.5次,其他词也有小幅增加——模型学会了更多地"犹豫"和自我检查
- SDPO训练后,"wait"减少了-60.8次,"perhaps"减少了-17.1次,"maybe"减少了-17.1次——模型的不确定性表达被全面压制
Qwen3-8B上的复现
论文还在Qwen3-8B上做了实验,分别测试了Thinking Mode ON和OFF两种模式。
Thinking Mode ON(开启思维链):

Qwen3-8B Thinking ON模式下的训练分数和响应长度。SDPO(c=s)训练分数下降,响应长度快速缩短。

AIME24上Qwen3-8B的OOD评估。GRPO维持在约0.78,SDPO(c=s)跌至约0.55——又是大幅退化。
Qwen3-8B Thinking ON模式下,SDPO(c=s)在AIME24上从约0.78跌至约0.55,GRPO则稳定维持在0.78左右。
Thinking Mode OFF(关闭思维链):
有意思的是,Thinking OFF模式展示了完全不同的动态。GRPO训练时,模型的响应长度快速增加——它自发地学会了引入"wait"、"hmm"等认知不确定性词汇,相当于自己"发明"了思维链。而SDPO训练后,模型缩短了回答但没有提升准确率。
🔧 任务覆盖度:决定自蒸馏成败的关键变量
论文的第6节回答了一个关键问题:为什么自蒸馏在化学任务(Chemistry)上能成功,在数学任务(DAPO-Math-17k)上却失败?
答案在于任务覆盖度(Task Coverage)的差异:
| 数据集 | 训练题数 | 题目多样性 | 训练/评估重叠度 |
|---|---|---|---|
| Chemistry | 2,400 | 仅6种题型 | 90/10同分布 |
| LiveCodeBench | 131 | 较多样 | 100%重叠 |
| DAPO-Math-17k | 14,000 | 类型广泛 | 不重叠 |
Chemistry数据集只有6种题目类型,训练集和评估集来自同分布——这种情况下,模型不需要泛化能力,"死记硬背"就够了。不确定性表达在这种场景下确实是多余的——就像你反复做同一套模拟题,做到后面根本不需要思考,直接条件反射写答案就行。
但DAPO-Math-17k涵盖了各种类型的数学题,评估用的AIME24/AIME25是竞赛级难题,与训练集完全不重叠。这时候模型必须有真正的泛化推理能力——而不确定性表达正是泛化推理的核心工具。
论文还做了一组精细的消融:在Qwen3-8B(Thinking OFF)上,将训练集大小从 \(|D|=1\) 逐步扩大到 \(|D|=512\),观察SDPO和GRPO的表现:
- \(|D| \leq 128\)(小覆盖):SDPO快速达到高训练分数,回答长度缩短8倍。因为题目重复性高,不需要不确定性表达
- \(|D| = 512\)(大覆盖):SDPO的训练分数提升困难,OOD性能严重退化;GRPO则持续改善,并主动增加认知不确定性词汇的使用
这个发现的工程意义很明确:自蒸馏只适合任务覆盖窄、评估分布与训练分布高度重叠的场景。一旦需要泛化,就必须保留不确定性表达。
🔬 移动目标教师:反馈循环的放大效应
论文还分析了一个关键的实现细节:自蒸馏中教师模型是固定的(Fixed Teacher)还是随训练更新的(Moving Target / EMA)?
直觉上,EMA更新的教师应该更好——它能跟上学生的进步嘛。但实验发现恰恰相反:即使EMA更新率很低(0.05),移动目标教师也会形成一个"自信产生更自信"的正反馈循环。
机制是这样的: 1. 教师引导学生生成自信回答 2. 自信回答被用于更新学生 3. 更新后的学生被用于更新教师 4. 更自信的教师引导学生生成更自信的回答 5. 循环往复,不确定性表达加速消亡
固定教师虽然也会压制不确定性,但至少不会产生这种指数级放大的效应。
📊 认知不确定性标记词的定义
论文定义了10个认知不确定性标记词(Epistemic Markers),用于量化推理过程中的不确定性表达:
| 标记词 | 功能 |
|---|---|
| wait | 暂停、重新审视当前推理 |
| hmm | 表示犹豫或深思 |
| perhaps | 提出替代可能性 |
| maybe | 对当前结论不确定 |
| actually | 自我纠正的信号 |
| alternatively | 考虑其他方案 |
| seems | 降低断言的确定性 |
| might | 承认多种可能性 |
| likely | 概率性判断 |
| check | 主动验证当前推理 |
这些词看起来"没什么用",但它们在推理过程中承担着关键角色:降低对当前推理路径的commitment,为假设修正留出空间。
类比成人的思维过程:在解一道复杂题目时,说"等一下,让我重新看看这个条件"和"答案就是X,下一题"——前者更容易发现自己的错误。
🤔 批判性分析
这篇论文做对了什么?
-
问题定义精准:不是泛泛地说"自蒸馏有问题",而是精确定位到了"不确定性表达被压制"这一具体机制。从信息论框架到经验验证,逻辑链条完整。
-
实验设计巧妙:四种信息丰富度的对照实验,特别是"仅答案引导"(c=s\think)条件的设计——它信息量不算很大,模型还是会生成长回答并保留不确定性表达,但准确率明显低于完整引导。这说明关键不在于给了多少信息,而在于信息的"性质"是否会抑制探索行为。
-
跨模型验证充分:在DeepSeek-R1-Distill-Qwen-7B、Qwen3-8B、OLMo-3-7B-Instruct三个模型上都观察到了一致的模式,增强了结论的可信度。
有哪些值得质疑的地方?
-
10个标记词的选择是否足够? 论文定义的"wait, hmm, perhaps..."等10个词作为不确定性的度量指标,但模型表达不确定性的方式远不止这些。比如"let me reconsider"、"this contradicts..."等句级表达就没有被捕捉到。用词频统计来衡量推理行为,颗粒度可能太粗了。
-
因果关系的强度存疑:论文证明了"自蒸馏→不确定性词减少→OOD性能下降"的相关性,但"不确定性词减少"是因还是果?有没有可能是自蒸馏通过其他机制损害了推理能力,不确定性词的减少只是表象?论文虽然用SFT实验(Table 2)做了一定程度的因果验证,但这也只能说明"用低不确定性数据训练会退化",不能完全排除混淆因素。
-
任务覆盖度的分析还可以更深入:Chemistry成功、DAPO-Math失败,除了题目多样性之外,是否还有其他因素?比如数学推理本身的搜索空间更大、化学题更偏记忆?论文没有控制这些变量。
-
缺少修复方案的实验验证:论文诊断了问题,但没有给出具体的修复方案并验证其有效性。比如,能否在自蒸馏训练中加入不确定性表达的正则化?能否筛选保留不确定性表达的训练数据?这些方向值得探索。
💡 工程启示
对于在做LLM后训练的从业者,这篇论文有几个直接可用的建议:
-
监控训练数据中的不确定性表达:如果你在做自蒸馏或教师引导的SFT,监控训练数据中"wait"、"hmm"等词的频率。频率急剧下降是一个危险信号。
-
避免移动目标教师:在自蒸馏中使用固定教师模型,而不是EMA更新的教师。或者至少用极低的更新率,并监控反馈循环的放大效应。
-
自蒸馏的适用场景有限:如果你的任务覆盖度窄(题目类型少、评估分布与训练分布相近),自蒸馏是安全的。一旦需要泛化到新题型,优先考虑GRPO等强化学习方法。
-
不要把"长回答"等同于"低效":推理模型的长回答里藏着自我纠错的能力。盲目压缩回答长度可能是在削弱模型最核心的推理机制。
📚 相关工作与技术背景
自蒸馏(Self-Distillation)近年来是LLM后训练的热门方向。MIT、ETH Zurich、Meta和斯坦福等机构在2026年初密集发布了多项自蒸馏研究成果。其核心思想是利用模型的In-Context Learning能力构建一个"临时教师"——用少量示例或完整解答引导模型生成高质量回答,然后用这些回答训练模型的无引导能力。
GRPO(Group Relative Policy Optimization)是DeepSeek-R1使用的核心训练方法。它从模型当前策略采样多个回答,用组内相对奖励(而非绝对奖励)来估计优势函数,避免了训练价值网络的开销。GRPO的一个关键特性是它不压缩模型的输出分布——模型可以自由探索不同的推理路径。
认知不确定性表达(Epistemic Verbalization)是2025-2026年LLM研究中逐渐受到关注的概念。相关研究(如EMBER基准)发现,LLM中的不确定性标记词不仅影响输出质量,还会影响LLM-as-Judge评估的公平性。这篇论文则揭示了它在推理能力中的核心作用。
📝 总结
这篇论文的核心贡献在于揭示了一个反直觉的洞察:后训练不仅要让模型"答对",还要让模型"会犹豫"。正确答案+过度自信的推理风格,训练出来的模型反而比基座模型更差。
这个发现的影响范围可能超出数学推理领域。所有需要复杂推理、假设检验、多步搜索的任务——编程调试、科学推理、多步规划——都可能面临同样的风险。后训练方法的设计者们需要重新思考:优化目标除了"准确率",是否还应该包含"推理过程的弹性"?
当然,论文也有其局限性:不确定性的度量方式比较粗糙、因果机制的论证还不够严密、缺少修复方案的验证。但作为一篇诊断性研究,它精准地指出了问题所在,为后续工作奠定了方向。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注公众号:机器懂语言