一次推理输出多个答案:MIT用强化学习打破LLM的"熵坍缩"困局
论文标题: Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
作者: Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim (MIT)
发表时间: 2026年3月25日
论文地址: https://arxiv.org/abs/2603.24844
核心摘要
当前大模型经过RLHF/RLVR等后训练流程后,往往会陷入熵坍缩——对同一个问题反复生成几乎相同的答案。这在医疗诊断、模糊问答、编程等存在多个合理解的场景下是致命缺陷。
MIT团队提出Multi-Answer RL,让模型在单次前向推理中同时输出 \(K\) 个不同答案及其置信度分数。在3个基准任务上,该方法相比单答案基线覆盖率提升27%-37%,编程任务top-1准确率从0.29飙升至0.49(提升69%),同时token消耗降低44%。
图1:标准RL训练后模型对同一问题的30次采样几乎收敛到相同答案(左),而Multi-Answer RL训练后模型单次推理即可输出多个差异化的候选答案及置信度(右)。
问题动机:RL后训练的"熵坍缩"代价
常规RLVR(Reinforcement Learning with Verifiable Rewards)的训练信号是"答案对不对",这种二值奖励天然地将模型推向单一高分答案。经过多轮训练后,模型的输出分布急剧收窄——即使用高温采样30次,也只能得到约4个不同答案。
这个问题在3类场景中尤为突出:
- 医疗诊断:患者症状可能同时对应多种疾病,只输出"最可能的1个"远远不够
- 模糊问答:信息不完整时,存在多个合理推断
- 编程任务:同一规格可用完全不同的算法实现,多样性直接关联pass@K指标
传统的解决方案是推理时多次采样(best-of-K),但这需要 \(K\) 倍的计算开销,且由于熵坍缩,多次采样的结果高度重复。
方法设计:集合级奖励 + 校准惩罚
Multi-Answer RLVR:集合级正确性奖励
核心思想是将奖励从"单个答案是否正确"升级为"一组答案中有多少个正确":
其中 \(A = \{a_1, \ldots, a_K\}\) 是模型单次生成的 \(K\) 个答案,\(\mathcal{Y}^*\) 是真实答案集合。这个奖励函数直接激励模型输出更多样、更正确的答案。
Multi-Answer RLCR:加入校准约束
仅追求覆盖率还不够——模型还需要对每个答案给出靠谱的置信度。RLCR在正确性奖励基础上减去Multi-Brier校准惩罚:
其中Multi-Brier分数衡量预测置信度与实际正确性的偏差:
\(q_i\) 是模型为第 \(i\) 个答案输出的置信度。当模型对正确答案给高置信度、对错误答案给低置信度时,Brier分数最小。
生成格式与唯一性约束
模型被训练为按固定格式输出:先在 <think> 标签中推理,然后依次输出 <answer1>、<confidence1>、<answer2>、<confidence2> 等。如果提取出的 \(K\) 个答案不满足互不相同的约束,格式奖励直接归零——这是保证多样性的硬性机制。
对于单答案数据集(真实答案唯一),还额外约束所有置信度之和 \(\leq 1\),使其具备概率分布语义。
训练配置
- 基础模型:Qwen3-8B
- 算法:GRPO with BNPO objective
- 批大小:1536(每个prompt采样32个response)
- 学习率:\(1 \times 10^{-6}\),线性warmup比例0.05
- 温度:0.7
- 最大生成长度:1536 tokens
- 训练轮次:11 epochs
- 硬件:NVIDIA A100 和 H100 GPU
实验结果
正确性与效率(K=3)
| 方法 | 数据集 | 平均正确数↑ | 多样性↑ | Token数↓ | Top-1准确率↑ |
|---|---|---|---|---|---|
| RLVR-Multi | DDXPlus | 0.79 | 1.00 | 677 | 0.42 |
| RLCR-Multi | DDXPlus | 0.77 | 1.00 | 510 | 0.43 |
| RLVR-Single | DDXPlus | 0.62 | - | 1191 | - |
| RLCR-Single | DDXPlus | 0.65 | - | - | - |
| RLVR-Multi | HotPotQA | 0.27 | 1.00 | 544 | - |
| RLCR-Multi | HotPotQA | 0.27 | 1.00 | 622 | - |
| RLVR-Single | HotPotQA | 0.17 | - | - | - |
| RLCR-Single | HotPotQA | 0.23 | - | - | - |
| RLCR-Multi | MBPP | 1.38 | 2.94 | 250.94 | 0.48 |
| RLVR-Multi | MBPP | 1.35 | 2.98 | 235.49 | 0.49 |
| RLVR-Single | MBPP | 0.98 | - | 511.73 | 0.29 |
3个数据集上,Multi-Answer方法的平均正确答案数全面超越单答案基线。MBPP上的提升尤为显著——从0.98提升到1.38,top-1准确率从0.29提升到0.49。
图2:左侧为RLVR-Single的30次独立采样,右侧为RLVR-Multi的10组生成(每组3个答案)。Multi-Answer平均产生约8个唯一答案,而Single采样30次也仅得到约4个不同答案,熵坍缩效应一目了然。
校准性能
| 方法 | 数据集 | Set ECE↓ | Top-1 ECE↓ | Top-k Brier↓ |
|---|---|---|---|---|
| RLCR-Multi | DDXPlus | 0.02 | 0.01 | 0.18 |
| RLVR-Multi | DDXPlus | 0.13 | 0.16 | 0.19 |
| RLCR-Multi | MBPP | 0.26 | 0.37 | 0.34 |
| RLVR-Multi | MBPP | 0.44 | 0.54 | 0.51 |
RLCR-Multi在DDXPlus上的Set ECE达到惊人的0.02,几乎完美校准。相比RLVR-Multi,校准误差在MBPP上降低了0.18个绝对值。
图3:RLCR-Multi的校准曲线(蓝色)紧贴理想对角线,而RLVR-Multi(橙色)在高置信度区域表现出系统性过度自信。Brier惩罚项有效抑制了置信度虚高。
Token效率
图7:在DDXPlus上,Multi-Answer方法仅需单答案方法56%的token即可产出等量答案集。这意味着在相同推理预算下,Multi-Answer可以覆盖更多候选诊断。
K值扩展性
| K值 | DDXPlus覆盖率 | 训练稳定性 |
|---|---|---|
| 2 | 0.78 | 稳定 |
| 3 | 0.79 | 稳定 |
| 4 | 0.70 | 稳定 |
| 5 | 0.62 | 稳定 |
随着 \(K\) 从2增至5,覆盖率呈现平缓下降而非剧烈崩溃,说明8B规模的模型在容量上能合理支撑多答案生成。
图6:K=2到K=5的训练过程中,奖励曲线均稳定上升,无剧烈振荡。K越大收敛值越低是模型容量有限的自然表现,非训练不稳定。
答案多样性可视化
图4:DDXPlus上不同方法生成的唯一诊断数量分布。Multi-Answer方法(绿色/蓝色)的唯一诊断数显著高于单答案方法(红色/橙色),且分布更均匀。
图5:通过N-gram重叠度量化答案相似性。RLVR-Single的高N-gram重叠表明其多次采样的结果趋于同质化,而Multi-Answer方法的低重叠度证实了真正的语义多样性。
图8:RLVR-Single(左)与RLVR-Multi(右)的词云对比。Single方法的输出高度集中于少数高频词,Multi方法则展现出丰富的词汇分布,覆盖更广泛的诊断术语。
批判性思考
亮点
-
问题定义精准:熵坍缩是当前RLVR训练的真实痛点,尤其在医疗、法律等多解场景下影响巨大。这篇工作没有在推理阶段做文章,而是从训练目标层面根治问题——思路干净利落。
-
集合级奖励设计优雅:\(R_{\text{RLVR}}^{\text{multi}}\) 的设计将"多样性"和"正确性"统一在同一个奖励函数里,无需额外的多样性正则项。唯一性约束通过格式奖励硬编码,避免了连续松弛带来的调参负担。
-
校准+正确性双目标:RLCR的Brier惩罚使模型不仅给出多个答案,还能给出可信赖的置信度——DDXPlus上Set ECE=0.02的数字相当惊艳。
-
实验设计覆盖面广:涵盖多标签分类(DDXPlus)、模糊单答案(HotPotQA)、代码生成(MBPP)三种不同范式,且每种都有定量分析。
局限
-
单答案top-1准确率的代价:论文承认Multi-Answer方法在DDXPlus上的top-1准确率(0.42-0.43)低于单答案基线的最高值。如果应用场景只关心"最佳答案"而非"覆盖候选",Multi-Answer可能不是最优选择。
-
串行生成的效率瓶颈:虽然Multi-Answer在总token数上优于多次独立采样,但 \(K\) 个答案仍是串行生成的——无法像并行采样那样利用GPU并行度。在低延迟场景下,这个限制可能是致命的。
-
数据集规模和领域有限:DDXPlus 25000条训练数据已算充分,但HotPotQA和MBPP的实验缺乏规模说明。更关键的是,三个基准均为较短答案的QA/代码任务,对长文本生成(如论文撰写、对话等)的泛化能力完全未验证。
-
8B模型的天花板:仅在Qwen3-8B上实验,未验证方法在70B+规模模型上是否仍有同等增益。直觉上更大模型可能天然具备更好的多模态输出能力,Multi-Answer的边际收益可能递减。
-
\(K\) 值需要预设:模型需要在训练时固定生成答案数 \(K\),无法根据问题难度动态调整。一个简单问题强制输出5个答案可能引入噪声,一个复杂问题只输出2个可能不够。
工程启示
-
医疗AI的鉴别诊断系统:Multi-Answer RLCR天然适配鉴别诊断(differential diagnosis)场景——一次推理输出多个可能疾病及置信度,直接可作为辅助诊断的候选列表。Set ECE=0.02意味着置信度几乎可以直接当概率用。
-
代码补全的多候选方案:在IDE集成场景下,Multi-Answer模型可以一次推理提供多种实现方案(如不同算法复杂度的解法),比best-of-K采样节省44%计算资源。MBPP上top-1准确率从0.29跳到0.49,这个增幅在工业代码补全中是可感知的质量提升。
-
集合级奖励可迁移到Agent场景:当AI Agent面对多步规划时,同样存在"探索多条路径 vs 只走最可能路径"的权衡。Multi-Answer RL的集合级奖励函数可以改造为Agent的多路径规划奖励。
-
格式约束是廉价但有效的多样性保障:论文中"答案不唯一则格式奖励归零"的做法非常实用。在工程实践中,通过模板化输出格式 + 硬约束检查来保证结构化输出质量,是比连续损失函数更可靠的方案。
-
校准Brier分数可作为通用置信度训练信号:无论是否采用Multi-Answer框架,RLCR中的Brier惩罚项都可以独立作为让LLM输出校准置信度的训练技巧。对于任何需要不确定性量化的下游应用(RAG的召回排序、Tool调用决策等),这个信号都有价值。
-
部署考量:串行生成 \(K\) 个答案会增加单请求延迟。建议在延迟不敏感的批处理场景(如离线诊断报告生成、代码审查建议)中优先采用,在线实时交互场景仍需评估延迟-质量权衡。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注公众号:机器懂语言