R

合成数据

创建 2026-06-04 更新 2026-06-04 8 条双链 共创

合成数据 (Synthetic Data)

一句话定义

合成数据 = 用模型(或程序)生成训练数据,喂给其它模型或自身迭代。它是穿越 数据墙 的核心手段,也是 2024 起前沿模型能力暴涨的隐形引擎。

五种合成路径

路径机制典型案例
1. 蒸馏 (Distillation)强模型输出 → 弱模型训练数据DeepSeek-R1 → Distill-Llama-8B / Qwen-7B 系列
2. 自我迭代 (Self-Improve)模型生成 → 自筛选 → 训练自身下一代OpenAI GPT-4 → o1 → o3 链路;Anthropic CAI
3. 多 Agent 对抗Agent 辩论 / 攻防 / 生成对抗Constitutional AI(critique + revise)、Debate 训练
4. 程序化生成模板 / 求解器 / 代码执行结果数学题(MathQA)、code 单元测试、SQL 合成
5. 混合(Seed + Augment)人工 seed → 模型扩增多样性与难度Microsoft Phi 系列 textbook-quality 数据

标志性案例

模型 / 项目合成数据扮演角色量级
Anthropic Constitutional AI (2022)用宪法原则自动 critique + revise,无需人类标注偏好数万条
Microsoft Phi-1/2/3/4 (2023–2025)“Textbook is all you need”:合成教科书风格数据训出小模型超越大模型数十亿 tokens
NVIDIA Nemotron-4 340B (2024)公开”合成数据 pipeline”,专为训练他人模型设计数十万 prompts
DeepSeek-R1 (2025-01)RL + 合成推理链路 → 蒸馏到 8B/14B 小模型80 万合成 CoT
Llama-3 后训练 (2024)数千万合成偏好对替代部分人工标注大规模
OpenAI o1 → o3 (2024–2025)推理链路自蒸馏成为核心训练信号公开有限

可验证 vs 不可验证域

验证机制合成数据效果
代码跑测试用例 → pass/fail极强;可大规模自动筛选
数学求解器 / 符号验证 / 答案匹配极强;GSM8K、MATH 突破核心来源
形式逻辑证明检查器
事实问答难(需外部 KB 校对)中;需配合 RAG
创意 / 风格主观;需偏好模型弱;易模式坍塌
价值观 / 道德需人类对齐弱;CAI 是局部解

关键认知:合成数据的威力直接与领域的可验证性成正比。这是为什么 reasoning model 在数学/代码爆发,而创意写作改善缓慢。

模型坍塌 (Model Collapse)

物理机制

模型 A 输出 → 训 B → B 输出 → 训 C … 每代分布都向”模型最熟悉的中央模式”收缩,尾部多样性(rare events)持续丢失。最终:模型输出趋同、罕见知识消失、错误自我强化。

关键研究

论文结论年份
Shumailov et al. AI models collapse when trained on recursively generated data (Nature)多代纯合成数据训练 → 显著质量退化2024
Gerstgrasser et al. Is Model Collapse Inevitable?混入足量真实数据可阻断坍塌2024
Dohmatob et al. Strong Model Collapse即使少量合成数据污染也可能放大风险2024
Feng et al. Beyond Model Collapse数据筛选机制可缓解坍塌2024

实务结论(业内主流共识):纯合成数据训练会坍塌;真实数据 + 合成数据混合 + 严格筛选是可持续路径。

防御 Pipeline

[seed 高质量真实数据] → [模型 augment 扩多样性/难度]

                  [质量过滤:reward model / 规则 / 一致性]

                    [多样性过滤:去重 / 模式打散]

              [真实数据 anchor 混入(10–30% 比例)]

                         [训练 + 评估]

                    [失败模式扫描 + 迭代]

失败模式

  1. 模式坍塌:合成数据多样性不足 → 模型输出风格单一
  2. 错误强化:seed 模型的系统性错误被自我蒸馏放大
  3. 评估泄漏:合成数据无意中包含 benchmark 题目 → 评估虚高(c14
  4. 偏见同质化:seed 模型的偏见被复制到所有派生模型
  5. 能力幻觉:在合成数据高分,真实分布下崩溃
  6. 法律灰区:用 GPT-4 / Claude 输出训竞品模型,违反 TOS(OpenAI / Anthropic 都明示禁止)

法律 / 商业边界

  • OpenAI、Anthropic 的服务条款均禁止用其输出训练竞争模型
  • 开源模型(Llama-3、Qwen、DeepSeek)多数允许蒸馏使用,需看具体 license(如 Llama-3 限制 700M MAU 以上需许可)
  • 自家闭环(用自家模型蒸馏自家小模型)几乎都被允许,是主流策略

PM 决策启示

  1. 评估供应商训练来源:是否含合成数据?哪个 seed 模型?合成比例?决定能力上下限
  2. 小模型选型:开源 distill 系列(Llama-Distill、Qwen-Distill)常是 80% 大模型能力 / 5% 推理成本,性价比极高
  3. 垂直微调时:自合成 100K–1M 条样本通常比人工标注 1K 更经济,但需配合 reward model 过滤
  4. 法律审查:用闭源 API 输出训练时必查 TOS;商业落地前请法务过 license
  5. 评估独立性:自家合成数据不能用作评估集;评估集必须完全独立来源

相关章节

关联概念

预训练·SFT·RLHF·Constitutional AI·数据墙·DeepSeek·蒸馏·强化学习