Scaling Laws

一句话定义

Scaling Laws = 模型损失（loss）与算力、参数、数据三者之间存在幂律可预测关系。它把 LLM 训练从经验工程升级为可外推的科学，是 2020 年代「越大越好」战略的理论基石，也是 2024 年起「越大不再越好」战术回调的诊断依据。

核心公式

L(N, D) ≈ (N_c / N)^α_N + (D_c / D)^α_D + L_∞

L — 损失（loss）
N — 参数量
D — 训练 token 数
L_∞ — 不可压缩的熵下限（数据本身的随机性 + 任务本质难度）
α_N、α_D — 各自的 scaling exponent，约 0.05–0.10 量级

含义：投入算力（N×D）时，loss 沿幂律下降；但每多投入一倍算力，loss 改善幅度递减。

三代 Scaling Laws 演化

代	论文	核心结论	工程含义
1.0 算力主导	Kaplan 2020 (OpenAI)	给定算力，应优先加大模型参数；数据需求随参数缓慢增长	GPT-3 175B 训了 ~300B tokens（事后看严重欠拟合）
2.0 数据-参数平衡	Hoffmann 2022 (Chinchilla, DeepMind)	算力固定时，参数和数据应近似 1:20 同步扩	Chinchilla 70B 训 1.4T tokens，比 Gopher 280B 强
2.5 推理优化超训	行业实践 2023+	对要长期推理服务的模型，故意 overtrain（超 20× tokens/param）摊销推理成本	Llama-3-70B 训了 15T tokens（≈ 200× ratio），换取更小模型更强能力
3.0 推理时扩展	OpenAI o1/o3、DeepSeek-R1 2024+	推理时投入更多算力（Test-Time Compute）也遵循 scaling law	算力可在「训练时」和「推理时」两条曲线间动态分配

Chinchilla 比例的工程直觉

模型	参数	训练 tokens	tokens/param 比	是否 Chinchilla 最优
GPT-3	175B	300B	≈ 1.7×	严重欠拟合（应训 3.5T）
Chinchilla	70B	1.4T	20×	最优（论文锚点）
Llama-2 70B	70B	2T	28×	略超训
Llama-3 70B	70B	15T	≈ 214×	极度超训（换推理效率）
Llama-3 8B	8B	15T	≈ 1875×	极致超训（小模型路线）

直觉：训练成本一次性，推理成本千万次。模型越要被高频推理使用，越值得 overtrain 出”小而强”的版本。

何时不再适用：边界条件

数据墙：当高质量人类文本接近耗尽，单纯加 D 不再产生预期的 loss 下降（见 c15 数据墙）
能力涌现非平滑：某些能力（如算术、CoT 推理）呈阶跃式出现，不是连续幂律——这给 PM 的能力预测带来不确定性
Goodhart 陷阱：loss 下降不等于真实能力提升；某些 benchmark 饱和后 loss 仍降但用户感受无变化（见 c14）
Broken Neural Scaling Laws（Caballero 2023）：观察到部分任务 loss 曲线在某临界算力处发生折断，幂律不再单一

三条算力曲线的分配

                       Train-Time Scaling
                      （Kaplan→Chinchilla→Overtrain）
                              ↓
        总算力 = ─────────── Pareto Frontier ─────────
                              ↑
                     Test-Time Scaling
                  （o1/o3/R1：MCTS + PRM 搜索）

2024 年起，前沿实验室开始把同等算力投到推理而非训练侧——这是范式转移。

PM 决策启示

评估模型供应商：训了多少 token 比参数量更能预测质量；问”tokens/param ratio”是关键
选小模型还是大模型：高频推理场景选过度训练的小模型（Llama-3 8B、Phi-4）；低频复杂任务选大模型
预算分配：训练算力 ≠ 推理算力；reasoning model 的成本曲线和经典 LLM 完全不同
能力外推风险：不要直接外推某个能力的进步速度——涌现可能跳跃，也可能停滞
数据投入的边际收益：低质量数据扩 10× 不如高质量数据扩 1×；后训练阶段尤其

关键人物与论文

Jared Kaplan (Anthropic 联创) — Kaplan 2020 论文一作，把 scaling laws 从猜测变定律
Jordan Hoffmann (DeepMind) — Chinchilla 论文一作，纠正了 Kaplan 的参数偏重
Richard Sutton — The Bitter Lesson (2019)，论证算力压倒结构创新的 70 年历史规律
Yi Tay — Emergent abilities of LLMs (2022)，论证能力涌现的不连续性

关联概念

预训练·合成数据·Test-Time Compute·Chinchilla·数据墙·范式

Scaling Laws

Scaling Laws

一句话定义

核心公式

三代 Scaling Laws 演化

Chinchilla 比例的工程直觉

何时不再适用：边界条件

三条算力曲线的分配

PM 决策启示

关键人物与论文

相关章节

关联概念