Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解

你有没有注意到一个很有意思的趋势——LLaMA 3 用了 15T tokens 训练一个 8B 的模型,每个参数对应快 2000 个 token。而 Chinchilla 法则告诉你,最优比例大概是 20 个 token 对应一个参数。

差了两个数量级。

业界早就在"违反" Chinchilla 了,但一直缺少一套完整的理论解释。这篇来自威斯康星大学麦迪逊分校和斯坦福的论文,终于把这件事说清楚了:当你把推理阶段的计算开销也纳入优化目标,过度训练(overtraining)不是退而求其次的工程妥协,而是数学上的最优解。


📖 核心摘要

痛点:经典 Chinchilla scaling law 只优化训练阶段的计算分配,完全忽略推理成本。但现实中,模型部署后要做大量推理,尤其是 test-time scaling(重复采样、pass@k)正在成为主流范式。

方案:作者提出 T\(^2\)(Train-to-Test)scaling laws,把模型大小 \(N\)、训练 token 数 \(D\)、推理采样次数 \(k\) 三者放在统一的计算预算下联合优化。两条互补路线——一条建模 NLL loss,一条直接建模 pass@k 准确率。

效果:在 8 个下游任务上,过度训练的 37M 小模型(配合多次采样)在相同总算力下,性能碾压 Chinchilla 最优的 455M-901M 模型。LAMBADA 上 49.90% vs 27.30%,Simple Reasoning 上 57.90% vs 18.40%。

定位:这不是一篇增量改进的论文,而是对 scaling law 这个基础问题的范式级修正。如果你还在用"每参数 20 token"的经验法则做训练规划,这篇论文会让你重新审视整个决策框架。


📖 论文信息

  • 标题:Test-Time Scaling Makes Overtraining Compute-Optimal
  • 作者:Nicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala
  • 机构:University of Wisconsin-Madison, Stanford University
  • 日期:2026 年 4 月 1 日
  • 链接:https://arxiv.org/abs/2604.01411

🎯 问题动机:Chinchilla 法则到底哪里不对?

2022 年 DeepMind 提出 Chinchilla scaling law,核心结论是:给定计算预算 \(C\),模型参数量 \(N\) 和训练 token 数 \(D\) 应该同比例增长,大约每个参数对应 20 个 token。这个结论影响了整个行业的训练资源规划。

但 Chinchilla 有个关键盲区——它只优化了训练阶段,完全没考虑模型部署后的推理成本。

这在 2022 年的语境下还算合理,因为那时的推理基本就是一次前向传播。但现在情况变了。

随着 test-time scaling 成为主流——OpenAI o1 系列的链式推理、best-of-N 采样、pass@k 评估——推理阶段的计算开销已经不可忽视。一个 70B 模型做一次推理,和一个 7B 模型做 10 次推理然后选最好的,哪个更划算?Chinchilla 法则回答不了这个问题。

作者的洞察很直接:如果推理时要做多次采样,那小模型天然有优势——同样的推理预算,小模型能采更多次。而采样次数的增加对准确率的提升,可能远超模型参数量增大带来的收益。

顺着这个逻辑推下去,训练阶段就应该把模型做小、但训练更多 token——也就是过度训练。

图 1:T2 Scaling 的核心思路——把 Chinchilla 预训练 scaling 和 pass@k 推理 scaling 统一起来

图 1:整个框架的直觉。左边是经典 Chinchilla scaling(只看训练),中间是 pass@k scaling(只看推理采样),右边是 T\(^2\) scaling(两者联合优化)。当引入推理预算约束后,最优点会从 Chinchilla 推荐的大模型位置,大幅偏移到更小、训练更久的模型上。


🏗️ 方法核心:两条路线殊途同归

作者提出了两种互补的建模方式,分别从不同角度逼近同一个问题。

统一的算力框架

先把问题形式化。训练开销 \(C_{\text{train}} \approx 6ND\),推理开销 \(C_{\text{inf}} \approx 2Nk\)\(k\) 是采样次数)。给定固定的推理预算 \(C_{\text{inf}}\),能采样的次数就是:

\[k = \frac{C_{\text{inf}}}{2N}\]

模型越小,\(k\) 越大。这个简单的关系是整篇论文的核心杠杆。

Approach 1:Loss-based(NLL 建模)

在 Chinchilla 的 loss 公式上加一项 pass@k 的贡献:

\[\hat{L}(N, D, k) = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + \frac{G}{k^{\gamma}}\]

前三项就是经典 Chinchilla 公式(不可约误差 + 模型容量不足 + 数据不足),最后一项 \(G/k^{\gamma}\) 捕捉了重复采样带来的收益递减。

\(k = C_{\text{inf}} / 2N\) 代入,整个优化问题就变成了:在训练预算 \(C_{\text{train}}\) 下,最小化 \(\hat{L}(N, D, C_{\text{inf}}/2N)\)

Approach 2:Accuracy-based(Beta 分布回归)

直接建模 pass@k 准确率,而不是走 loss 这个中间量。

核心思路是用 Beta 分布来建模不同题目的难度分布。每个任务的每道题有一个正确概率 \(p_i\),pass@k 就是 \(1 - (1-p_i)^k\)。作者用 Beta 分布来参数化 \(p_i\) 的分布,其均值 \(\mu\) 和方差通过模型 loss 来预测:

\[\mu_{N,D} = \frac{\theta_2}{1 + \exp(\theta_1 \cdot (\hat{L}(N,D) - \theta_0))}\]

这个设计挺精巧的——它不是直接拟合一个数,而是建模了整个难度分布,所以能自然处理不同难度的任务。

两条路线为什么能一致?

Approach 1 建模的是 loss(越低越好),Approach 2 建模的是准确率(越高越好),维度完全不同。但两者给出的最优配置却高度一致——都指向更小、训练更久的模型。

这其实挺让人放心的。如果只有一种方法,你可能会怀疑是拟合偏差。两种完全不同的建模范式得出相同结论,说明这个现象是真实的。


🧪 实验设计

模型和数据

作者用了一套非常扎实的 checkpoint grid。基础部分复用了 Porian et al. (2024) 的 106 个模型(5M 到 901M 参数,在 RefinedWeb 上训练 50M 到 120B tokens)。在此基础上,又额外从头训练了 21 个过度训练的模型。

图 6:Checkpoint grid 热力图,显示了不同模型大小和训练 FLOPs 的组合

图 6:Checkpoint grid 的全貌。白格是 Porian et al. (2024) 的原有 checkpoint,橙色格是作者新增的过度训练 checkpoint。每个格子里的数字是在该配置下可用的评估采样数。可以看到橙色 checkpoint 集中在左下角——小模型、大 token 数的区域。

训练配置:AdamW 优化器(lr=3e-3),batch size 256 序列(每条 2048 tokens),cosine decay,bfloat16 精度。

评测任务

8 个下游任务,分两类: - 真实任务(4 个):LAMBADA、ARC-Easy、SciQ、OpenBookQA - 合成任务(4 个):Simple Knowledge、Simple Reasoning、Commonsense Causal、Spatial Reasoning

推理预算统一设为 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs,大约相当于一个 70B 模型跑一次前向传播的开销。


📊 实验结果:数据说话

RQ1:最优训练策略怎么变了?

图 2:当考虑推理预算时,最优的 D/N 比例、模型大小 N、训练 token 数 D 如何随训练 FLOPs 变化

图 2:三张子图分别展示最优 D/N 比、最优模型大小 N、最优训练 token 数 D 随训练 FLOPs 的变化。黑色虚线是 Chinchilla(Hoffmann et al. 2022)的推荐,蓝色线是 Approach 1,红色线是 Approach 2。结论很清晰:T\(^2\) 推荐的 D/N 比显著高于 Chinchilla,模型大小显著更小,训练 token 数显著更多。

这张图的信息量很大。看左图,Chinchilla 推荐的 D/N 比基本稳定在 20 左右(灰色虚线),而 T\(^2\) 的两种 Approach 在高训练预算下都推荐 \(10^3\)\(10^5\) 量级的 D/N 比——差了两到三个数量级。

中间的图更直观:在 \(10^{25}\) FLOPs 的训练预算下,Chinchilla 推荐大约 \(10^{11}\)(千亿级)参数的模型,而 T\(^2\) 推荐 \(10^{8}\)\(10^{9}\)(亿级)——小了两到三个数量级。

这个偏移幅度坦率讲有点吓人。不是微调,是数量级的差异。

RQ2:对过度训练模型的预测准不准?

图 3:标准 Chinchilla(左列)和加入推理预算修正(右列)的 scaling 曲线对比

图 3:四象限对比图。左列是不考虑推理预算的标准 Chinchilla 视角,右列是加入推理预算修正后的 T\(^2\) 视角。上行是 Approach 1(NLL),下行是 Approach 2(Accuracy)。黑色粗线是 Chinchilla 最优前沿,蓝色/红色线是 T\(^2\) 最优前沿。右列中可以看到,当模型足够小(能采样足够多次)时,性能会远超 Chinchilla 最优点。

图 4:预测值 vs 实际观测值的散点图

图 4:模型预测的外推能力验证。上图是 Approach 1(NLL),下图是 Approach 2(Accuracy)。灰点是用于拟合的原始 checkpoint(Porian et al. 2024),绿点是新训练的过度训练 checkpoint。Approach 1 在外推到过度训练区域时的相对误差仅 2.8%,Approach 2 为 8.4%。

这个验证步骤做得很到位。绿色的点是作者额外训练的过度训练模型,没参与拟合。Approach 1 的 2.8% 相对误差说明 scaling law 对过度训练区域的外推是可靠的。Approach 2 的 8.4% 稍大一些,但考虑到它直接建模准确率(比 loss 更难拟合),这个误差也可以接受。

主实验表:过度训练 vs Chinchilla 最优

在训练预算 \(C_{\text{train}} = 2.56 \times 10^{19}\) FLOPs、推理预算 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs 的条件下:

任务 最优过度训练模型(pass@k) 模型大小 Chinchilla 最优(pass@k) 模型大小
LAMBADA OpenAI 49.90% 37M 27.30% 455M
OpenBookQA 1.40% 37M 0.30% 901M
SciQ 1.20% 37M 0.22% 611M
ARC-Easy 0.14% 149M 0.07% 611M
Simple Knowledge 14.60% 84M 5.80% 901M
Simple Reasoning 57.90% 37M 18.40% 901M
Commonsense Causal 8.10% 37M 1.40% 901M
Spatial Reasoning 6.00% 37M 1.10% 901M

说实话,看到这张表我愣了一下。37M 的模型,参数量是 901M 模型的 4%,pass@k 准确率却高出数倍。LAMBADA 上 49.90% vs 27.30%,Simple Reasoning 上 57.90% vs 18.40%。

不过要注意一个细节——这里的绝对准确率普遍不高(很多任务低于 10%)。这是因为模型本身较小(最大 901M),而且评测标准是严格的 pass@k。但相对提升是实打实的。

RQ3:后训练会不会改变结论?

一个自然的疑问是:过度训练在 base model 上有效,经过 fine-tuning 之后呢?

任务 方法 最优过度训练 模型大小 Chinchilla 最优 模型大小
OpenBookQA FT 2.80% 37M 0.45% 901M
SciQ FT 56.10% 149M 29.00% 901M
ARC-Easy FT 5.60% 149M 1.50% 901M
OpenBookQA SFT 2.60% 37M 0.38% 901M
SciQ SFT 66.80% 84M 57.60% 901M
ARC-Easy SFT 8.20% 37M 3.40% 455M

FT 是标准 fine-tuning(loss 算在 instruction + completion 上),SFT 是只算 completion 的监督微调。

结论很明确:后训练不会推翻过度训练的优势。虽然 fine-tuning 会缩小一些差距(尤其 SFT 在 SciQ 上 66.80% vs 57.60%,差距收窄了),但最优前沿仍然稳定地偏向小模型 + 过度训练。

图 5:后训练后的最优 D/N 比变化

图 5:后训练后最优 tokens-per-parameter 比例的变化。上行是 Approach 1,下行是 Approach 2。黑色虚线是 Chinchilla 推荐,蓝色/红色虚线是 base model 的 T\(^2\) 推荐,紫色和绿色实线分别是 FT 和 SFT 后的推荐。后训练确实让最优比例往 Chinchilla 方向回退了一些(因为 fine-tuning 本身也会改善性能,削弱了多次采样的边际收益),但仍然远高于 Chinchilla 推荐。


🔬 批判性分析

亮点

1. 问题提得好。 把训练和推理放在统一框架下优化,这个问题本身就很有价值。业界早就在"凭感觉"做过度训练(LLaMA 系列就是典型),这篇论文给出了理论依据。

2. 两种方法的交叉验证。 用两种完全不同的建模范式(loss vs accuracy)得到一致结论,这比单一方法更有说服力。

3. 实验诚实度高。 额外训练了 21 个过度训练 checkpoint 来验证外推能力,不是只在拟合范围内自说自话。

值得商榷的地方

1. 推理范式的局限性。 论文假设 test-time scaling = 重复采样(pass@k),但现实中的 test-time scaling 形式更多样——chain-of-thought、tree search、self-correction 等。pass@k 是最简单的一种,也是对模型能力要求最低的一种。更复杂的推理策略可能需要模型本身有更强的基础能力,这时候过度训练小模型的优势还能保持吗?

我觉得这是一个比较大的开放问题。pass@k 说到底是"量取胜",而 chain-of-thought 更接近"质取胜"。后者对模型内在推理能力的要求更高,小模型即使采样 1000 次可能也跑不出正确的推理链。

2. 模型规模天花板。 实验中最大的模型是 901M,这在今天看来相当小。在更大的规模(比如 7B-70B)上,过度训练的收益递减曲线可能完全不同。作者自己也承认了这个局限——"future work should study scale and model architecture more carefully."

3. 推理预算的设定。 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs(约等于 70B 模型的一次前向传播),这个预算其实不大。在实际部署中,如果推理预算更充裕或更紧张,最优配置可能会有显著变化。论文对不同 \(C_{\text{inf}}\) 的敏感性分析不够充分。

4. 评估公平性。 pass@k 评估天然有利于"能产生更多样本"的配置。小模型在相同推理预算下能采更多次,这几乎是 pass@k 指标本身的结构性偏好,而不完全是模型能力的反映。如果用 majority voting 或者更复杂的选择策略,结论可能会有不同。

跟同期工作的关系

过度训练的实践其实并不新鲜。Meta 的 LLaMA 系列从一开始就在大幅过度训练(LLaMA 1 用 1T tokens 训练 7B 模型,D/N 比约 143)。Sardana & Frankle (2024) 也研究过推理最优的 scaling law。这篇论文的独特贡献在于提供了一个严格的数学框架,把"模型大小-训练量-推理采样"三者统一起来。


💡 我的判断

这篇论文的核心贡献是概念层面的——它让"Chinchilla 法则只考虑了一半问题"这件事变得不可回避。

从工程落地的角度看,有几个启发:

1. 训练规划要考虑部署场景。 如果你的应用会用到 test-time scaling(pass@k、best-of-N、self-consistency 等),那训练时就应该往小模型 + 更多数据的方向偏。不是感觉上偏一点,而是偏很多。

2. 小模型的价值被低估了。 在推理密集型场景下,一个训练充分的小模型可能比一个"Chinchilla 最优"的大模型更有性价比。这对端侧部署、低延迟场景特别有意义。

3. 但不要过度外推。 论文的实验规模(最大 901M)离实际大模型训练还有距离。在 7B+ 规模上,过度训练的收益可能没这么夸张。而且,更复杂的推理策略(不只是 pass@k)可能会改变最优配置的位置。

说到底,这篇论文回答的是一个很根本的问题:在给定总算力(训练 + 推理)的约束下,怎么分配资源最合理? 答案是——比你以为的更偏向小模型和更多训练数据。

这个结论直觉上也说得通。推理是一次性的训练成本被无数次推理调用摊薄的过程。模型越小、推理越便宜,摊薄的效率越高。Chinchilla 法则之所以推荐大模型,是因为它完全没考虑这个摊薄效应。

当然,有个地方我没完全想清楚:当 test-time scaling 的形式从简单的重复采样升级到更复杂的推理策略时,这套框架还能用吗?这可能是接下来最值得关注的方向。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我