预训练 (Pre-training)

一句话定义

预训练 = 在海量未标注文本上做 next-token prediction，让模型学习语言的联合概率分布。消耗整个训练 pipeline 90%+ 算力，产出”什么都懂一点但不听话”的基座模型 (Base Model)。

[数据采集] → [预训练] → [SFT] → [RLHF / DPO] → [对齐/红队] → 部署
              ~90% 算力     5%       3%             2%

预训练之后的所有阶段总和不到 10% 算力，但决定了模型”会不会听话、好不好用”。

不同实验室的 mix 都是商业机密，但公开数据点（Llama-3 / DCLM / RedPajama / SmolLM2）的近似比例：

来源	占比	作用
Web crawl（去重清洗）	50–70%	通用语言覆盖、世界知识广度
Code（GitHub）	10–25%	推理能力、结构化思维
Books / arXiv / papers	5–15%	长文本推理、专业知识
Math（StackExchange、OpenWebMath）	2–8%	数学推理
多语言	5–20%	跨语言能力（中文模型会显著提高占比）
合成数据	0–30%（2024 起激增）	弥补数据墙、特定能力补强

关键经验：code 占比与最终模型的推理能力强相关——这是为什么 Llama-3 / DeepSeek-V3 都把 code 数据拉到 25%+。

层级	主流选项
硬件	NVIDIA H100/H200/B200，TPU v5/v6
分布式策略	FSDP（PyTorch 原生）、Megatron-LM（NVIDIA）、DeepSpeed ZeRO
并行维度	TP（Tensor）+ PP（Pipeline）+ DP（Data）+ SP（Sequence）
优化器	AdamW（主流），Lion / Sophia / Adam-mini（实验）
学习率调度	Linear warmup + Cosine decay（主流），WSD（warmup-stable-decay）2024 后兴起
精度	BF16 训练 + FP32 累加，FP8 训练 2024 起进入主流（H100+）
Tokenizer	SentencePiece / BPE / Tiktoken（见 Tokenization）

预训练 loss 曲线遵循 Scaling Laws 的幂律下降，但能力曲线不是 loss 曲线：

Loss 平滑下降：可预测，可外推
能力可能阶跃涌现：算术、CoT 推理、in-context learning 等能力在某临界算力处突现
Loss spike：训练不稳定时 loss 突跳，通常需要回退 checkpoint 重训或调小 LR；2024 起常用 z-loss、QK-norm 等技巧缓解

阶段	数据特征	上下文长度	占比
Phase 1: 通用预训练	高吞吐、多样性、低质量门槛	4K–8K	85%
Phase 2: 高质量精训	高质量子集、教科书风格、合成数据	8K–32K	10%
Phase 3: 长上下文扩展	长文档、code repo、合成长链路	128K–1M	5%

Llama-3 / Phi-4 / DeepSeek-V3 都采用类似的 staged curriculum。Phase 3 的存在意味着原始预训练 ≠ 长上下文能力——长上下文是单独训出来的。

数据墙时代（c15），多 epoch + 合成数据成为必然组合。

Test-Time Compute 把算力从预训练转向推理——预训练不再吞噬全部 budget，推理时投入更多计算做深度思考成为新维度。