R

c04 - 模型训练全阶段 Pipeline

创建 2026-05-13 更新 2026-05-16 15 条双链 共创

4. 模型训练全阶段 Pipeline

LLM 的训练是一条多阶段、多目标的 pipeline:预训练监督微调偏好对齐

4.1 预训练 (Pre-training) 与 Scaling Laws

预训练 在海量文本上做 next-token prediction,消耗总训练算力 90%+。

Scaling Laws:Kaplan et al. (2020) 和 Hoffmann et al. (2022, “Chinchilla”):

L(N, D) ≈ (N_c/N)^α_N + (D_c/D)^α_D + L_∞

Chinchilla 定律:参数量和训练数据应按 1:20 比例扩展。

4.2 监督微调 (SFT) 与参数高效微调 (PEFT)

SFT 不是在注入新知识,而是在激活和重组 预训练 阶段学到的知识。1000 条高质量 SFT 样本可能优于 10 万条平庸样本。

PEFT 光谱:全量微调 → LoRA → QLoRA → Prefix Tuning → Adapter

关键决策:领域知识获取优先 RAG(避免 灾难性遗忘);行为模式改变用 LoRA/SFT;深度能力改变用全量微调。

4.3 偏好对齐:RLHF、DPO 与 Constitutional AI

RLHF 完整 pipeline:收集偏好数据 → 训练 Reward Model → PPO 优化。

DPO 绕过显式 Reward Model,直接从偏好对优化,已成为主流。

Constitutional AI 让模型根据”宪法原则”自我评判修正。

相关概念卡:Scaling LawsPEFT / LoRARLHF / DPO 模块二延伸:m202 §2.2.3 模式 B — RAG + LoRA 的互补组合模式 | m210 数据工程流 — 合成数据 Pipeline 与标注工程实操 上一章:c03 Transformer 下一章:c05 KV Cache