合成数据
合成数据 (Synthetic Data)
一句话定义
合成数据 = 用模型(或程序)生成训练数据,喂给其它模型或自身迭代。它是穿越 数据墙 的核心手段,也是 2024 起前沿模型能力暴涨的隐形引擎。
五种合成路径
| 路径 | 机制 | 典型案例 |
|---|---|---|
| 1. 蒸馏 (Distillation) | 强模型输出 → 弱模型训练数据 | DeepSeek-R1 → Distill-Llama-8B / Qwen-7B 系列 |
| 2. 自我迭代 (Self-Improve) | 模型生成 → 自筛选 → 训练自身下一代 | OpenAI GPT-4 → o1 → o3 链路;Anthropic CAI |
| 3. 多 Agent 对抗 | 多 Agent 辩论 / 攻防 / 生成对抗 | Constitutional AI(critique + revise)、Debate 训练 |
| 4. 程序化生成 | 模板 / 求解器 / 代码执行结果 | 数学题(MathQA)、code 单元测试、SQL 合成 |
| 5. 混合(Seed + Augment) | 人工 seed → 模型扩增多样性与难度 | Microsoft Phi 系列 textbook-quality 数据 |
标志性案例
| 模型 / 项目 | 合成数据扮演角色 | 量级 |
|---|---|---|
| Anthropic Constitutional AI (2022) | 用宪法原则自动 critique + revise,无需人类标注偏好 | 数万条 |
| Microsoft Phi-1/2/3/4 (2023–2025) | “Textbook is all you need”:合成教科书风格数据训出小模型超越大模型 | 数十亿 tokens |
| NVIDIA Nemotron-4 340B (2024) | 公开”合成数据 pipeline”,专为训练他人模型设计 | 数十万 prompts |
| DeepSeek-R1 (2025-01) | RL + 合成推理链路 → 蒸馏到 8B/14B 小模型 | 80 万合成 CoT |
| Llama-3 后训练 (2024) | 数千万合成偏好对替代部分人工标注 | 大规模 |
| OpenAI o1 → o3 (2024–2025) | 推理链路自蒸馏成为核心训练信号 | 公开有限 |
可验证 vs 不可验证域
| 域 | 验证机制 | 合成数据效果 |
|---|---|---|
| 代码 | 跑测试用例 → pass/fail | 极强;可大规模自动筛选 |
| 数学 | 求解器 / 符号验证 / 答案匹配 | 极强;GSM8K、MATH 突破核心来源 |
| 形式逻辑 | 证明检查器 | 强 |
| 事实问答 | 难(需外部 KB 校对) | 中;需配合 RAG |
| 创意 / 风格 | 主观;需偏好模型 | 弱;易模式坍塌 |
| 价值观 / 道德 | 需人类对齐 | 弱;CAI 是局部解 |
关键认知:合成数据的威力直接与领域的可验证性成正比。这是为什么 reasoning model 在数学/代码爆发,而创意写作改善缓慢。
模型坍塌 (Model Collapse)
物理机制
模型 A 输出 → 训 B → B 输出 → 训 C … 每代分布都向”模型最熟悉的中央模式”收缩,尾部多样性(rare events)持续丢失。最终:模型输出趋同、罕见知识消失、错误自我强化。
关键研究
| 论文 | 结论 | 年份 |
|---|---|---|
| Shumailov et al. AI models collapse when trained on recursively generated data (Nature) | 多代纯合成数据训练 → 显著质量退化 | 2024 |
| Gerstgrasser et al. Is Model Collapse Inevitable? | 混入足量真实数据可阻断坍塌 | 2024 |
| Dohmatob et al. Strong Model Collapse | 即使少量合成数据污染也可能放大风险 | 2024 |
| Feng et al. Beyond Model Collapse | 数据筛选机制可缓解坍塌 | 2024 |
实务结论(业内主流共识):纯合成数据训练会坍塌;真实数据 + 合成数据混合 + 严格筛选是可持续路径。
防御 Pipeline
[seed 高质量真实数据] → [模型 augment 扩多样性/难度]
↓
[质量过滤:reward model / 规则 / 一致性]
↓
[多样性过滤:去重 / 模式打散]
↓
[真实数据 anchor 混入(10–30% 比例)]
↓
[训练 + 评估]
↓
[失败模式扫描 + 迭代]
失败模式
- 模式坍塌:合成数据多样性不足 → 模型输出风格单一
- 错误强化:seed 模型的系统性错误被自我蒸馏放大
- 评估泄漏:合成数据无意中包含 benchmark 题目 → 评估虚高(c14)
- 偏见同质化:seed 模型的偏见被复制到所有派生模型
- 能力幻觉:在合成数据高分,真实分布下崩溃
- 法律灰区:用 GPT-4 / Claude 输出训竞品模型,违反 TOS(OpenAI / Anthropic 都明示禁止)
法律 / 商业边界
- OpenAI、Anthropic 的服务条款均禁止用其输出训练竞争模型
- 开源模型(Llama-3、Qwen、DeepSeek)多数允许蒸馏使用,需看具体 license(如 Llama-3 限制 700M MAU 以上需许可)
- 自家闭环(用自家模型蒸馏自家小模型)几乎都被允许,是主流策略
PM 决策启示
- 评估供应商训练来源:是否含合成数据?哪个 seed 模型?合成比例?决定能力上下限
- 小模型选型:开源 distill 系列(Llama-Distill、Qwen-Distill)常是 80% 大模型能力 / 5% 推理成本,性价比极高
- 垂直微调时:自合成 100K–1M 条样本通常比人工标注 1K 更经济,但需配合 reward model 过滤
- 法律审查:用闭源 API 输出训练时必查 TOS;商业落地前请法务过 license
- 评估独立性:自家合成数据不能用作评估集;评估集必须完全独立来源