合成数据 (Synthetic Data)

一句话定义

合成数据 = 用模型（或程序）生成训练数据，喂给其它模型或自身迭代。它是穿越数据墙的核心手段，也是 2024 起前沿模型能力暴涨的隐形引擎。

五种合成路径

路径	机制	典型案例
1. 蒸馏 (Distillation)	强模型输出 → 弱模型训练数据	DeepSeek-R1 → Distill-Llama-8B / Qwen-7B 系列
2. 自我迭代 (Self-Improve)	模型生成 → 自筛选 → 训练自身下一代	OpenAI GPT-4 → o1 → o3 链路；Anthropic CAI
3. 多 Agent 对抗	多 Agent 辩论 / 攻防 / 生成对抗	Constitutional AI（critique + revise）、Debate 训练
4. 程序化生成	模板 / 求解器 / 代码执行结果	数学题（MathQA）、code 单元测试、SQL 合成
5. 混合（Seed + Augment）	人工 seed → 模型扩增多样性与难度	Microsoft Phi 系列 textbook-quality 数据

标志性案例

模型 / 项目	合成数据扮演角色	量级
Anthropic Constitutional AI (2022)	用宪法原则自动 critique + revise，无需人类标注偏好	数万条
Microsoft Phi-1/2/3/4 (2023–2025)	“Textbook is all you need”：合成教科书风格数据训出小模型超越大模型	数十亿 tokens
NVIDIA Nemotron-4 340B (2024)	公开”合成数据 pipeline”，专为训练他人模型设计	数十万 prompts
DeepSeek-R1 (2025-01)	RL + 合成推理链路 → 蒸馏到 8B/14B 小模型	80 万合成 CoT
Llama-3 后训练 (2024)	数千万合成偏好对替代部分人工标注	大规模
OpenAI o1 → o3 (2024–2025)	推理链路自蒸馏成为核心训练信号	公开有限

可验证 vs 不可验证域

域	验证机制	合成数据效果
代码	跑测试用例 → pass/fail	极强；可大规模自动筛选
数学	求解器 / 符号验证 / 答案匹配	极强；GSM8K、MATH 突破核心来源
形式逻辑	证明检查器	强
事实问答	难（需外部 KB 校对）	中；需配合 RAG
创意 / 风格	主观；需偏好模型	弱；易模式坍塌
价值观 / 道德	需人类对齐	弱；CAI 是局部解

关键认知：合成数据的威力直接与领域的可验证性成正比。这是为什么 reasoning model 在数学/代码爆发，而创意写作改善缓慢。

模型坍塌 (Model Collapse)

物理机制

模型 A 输出 → 训 B → B 输出 → 训 C … 每代分布都向”模型最熟悉的中央模式”收缩，尾部多样性（rare events）持续丢失。最终：模型输出趋同、罕见知识消失、错误自我强化。

关键研究

论文	结论	年份
Shumailov et al. AI models collapse when trained on recursively generated data (Nature)	多代纯合成数据训练 → 显著质量退化	2024
Gerstgrasser et al. Is Model Collapse Inevitable?	混入足量真实数据可阻断坍塌	2024
Dohmatob et al. Strong Model Collapse	即使少量合成数据污染也可能放大风险	2024
Feng et al. Beyond Model Collapse	数据筛选机制可缓解坍塌	2024

实务结论（业内主流共识）：纯合成数据训练会坍塌；真实数据 + 合成数据混合 + 严格筛选是可持续路径。

防御 Pipeline

[seed 高质量真实数据] → [模型 augment 扩多样性/难度]
                              ↓
                  [质量过滤：reward model / 规则 / 一致性]
                              ↓
                    [多样性过滤：去重 / 模式打散]
                              ↓
              [真实数据 anchor 混入（10–30% 比例）]
                              ↓
                         [训练 + 评估]
                              ↓
                    [失败模式扫描 + 迭代]

失败模式

模式坍塌：合成数据多样性不足 → 模型输出风格单一
错误强化：seed 模型的系统性错误被自我蒸馏放大
评估泄漏：合成数据无意中包含 benchmark 题目 → 评估虚高（c14）
偏见同质化：seed 模型的偏见被复制到所有派生模型
能力幻觉：在合成数据高分，真实分布下崩溃
法律灰区：用 GPT-4 / Claude 输出训竞品模型，违反 TOS（OpenAI / Anthropic 都明示禁止）

法律 / 商业边界

OpenAI、Anthropic 的服务条款均禁止用其输出训练竞争模型
开源模型（Llama-3、Qwen、DeepSeek）多数允许蒸馏使用，需看具体 license（如 Llama-3 限制 700M MAU 以上需许可）
自家闭环（用自家模型蒸馏自家小模型）几乎都被允许，是主流策略

PM 决策启示

评估供应商训练来源：是否含合成数据？哪个 seed 模型？合成比例？决定能力上下限
小模型选型：开源 distill 系列（Llama-Distill、Qwen-Distill）常是 80% 大模型能力 / 5% 推理成本，性价比极高
垂直微调时：自合成 100K–1M 条样本通常比人工标注 1K 更经济，但需配合 reward model 过滤
法律审查：用闭源 API 输出训练时必查 TOS；商业落地前请法务过 license
评估独立性：自家合成数据不能用作评估集；评估集必须完全独立来源

关联概念

预训练·SFT·RLHF·Constitutional AI·数据墙·DeepSeek·蒸馏·强化学习

合成数据