m210. 数据工程流实操

模块一第 15 章（c15 数据墙与后训练霸权）覆盖了数据墙的宏观判断。本章补工程实操层：没有大量真实数据时，如何从零构建训练数据，并保证质量。

2.7.1 冷启动合成数据 Pipeline

完整 Pipeline 架构

Phase 1: Seed Data（50–200 条高质量真实样本）
  → 覆盖核心场景 + 边界情况
  → 这是 pipeline 的"锚"——[合成数据](/kb/基础知识库/合成数据/)质量上限由此决定
  
Phase 2: [合成数据](/kb/基础知识库/合成数据/)扩增
  → 用强模型基于 Seed Data 模式生成更多样本
  → 策略：场景变体、难度梯度、对抗样本、多 [Agent](/kb/基础知识库/agent/) 辩论
  → 2025 最佳实践：Persona-based 生成
    （为强模型指定不同角色："资深律师"/"实习生"/"挑剔的客户"，
    从不同视角生成数据，显著提升多样性）
  
Phase 3: 质量过滤
  → 自动化：评判模型打分 + 去重 + Constitutional AI 过滤（[c04 §4.3](/kb/基础知识库/c04-模型训练全阶段-pipeline/)）
  → 人工：抽检 5–10%，重点审核边界分数样本
  → [Reward Model](/kb/基础知识库/rlhf/) 打分：用偏好模型对[合成数据](/kb/基础知识库/合成数据/)做质量排序，
    只保留 Top 60–70%

Phase 4: 微调
  → [LoRA](/kb/基础知识库/lora/) 微调（[c04 §4.2 SFT + PEFT](/kb/基础知识库/c04-模型训练全阶段-pipeline/)）

Phase 5: 评估与迭代
  → 真实测试集评估 → 找薄弱环节 → 补充[合成数据](/kb/基础知识库/合成数据/) → 重训练

Seed Data 是最关键的投资

Seed Data 的质量决定了整个合成 pipeline 的质量上限。100 条精心设计的真实样本，比 10,000 条机械生成的样本价值更高。

PM 能做的：参与 Seed Data 的场景定义（覆盖哪些典型任务、哪些边界情况），以及对已有样本的验收评审。这是 PM 对数据飞轮最直接的贡献。

2.7.2 合成数据质量评估

维度	指标	测量方法
多样性	语义覆盖率	Embedding 聚类数量 / 语义空间覆盖度
一致性	同类回答风格统一度	LLM-as-Judge 风格评分（见 c14 §14.2）
事实准确率	事实性陈述正确率	RAG 检索验证 + 人工抽检（防幻觉）
格式合规率	输出格式正确率	Schema 校验（100% 可自动化）
难度分布	是否覆盖简单到复杂全梯度	Perplexity / 回答长度作代理指标

模型坍塌的预防

问题：模型 A 生成数据 → 训练模型 B → B 生成数据 → 训练模型 C……每代都在放大偏见、压缩多样性，最终质量衰退（c15 §15.2 模型坍塌）。

预防措施：

每轮混入比例固定（10–30%）的真实人类数据作为”锚点”
监控Embedding多样性指标，设定多样性下限阈值
用不同基座模型生成数据（GPT-4o 生成 + Claude 验证，而非同一模型自问自答）

2.7.3 标注工程架构

偏好数据采集（DPO 所需的 chosen/rejected 配对）

Step 1: 模型生成 3–5 个候选回答（变化 temperature 增加多样性）

Step 2: 标注员做偏好排序或两两对比

Step 3: 质量控制
  - 每条 ≥ 2 标注员独立标注
  - 计算 Cohen's Kappa 一致性（>0.6 为可接受）
  - 低一致性样本交第三人仲裁或丢弃

Step 4: 主动学习采样
  - 优先标注模型"最不确定"的样本
    （候选回答质量接近时，对 [DPO](/kb/基础知识库/rlhf/) 训练的边际贡献最大）

标注效率的关键决策

自建标注 vs 外包：

维度	自建标注团队	外包（Scale AI、Surge AI）
领域知识	高（内部人员理解业务）	低（需要详细指南培训）
成本	高固定成本	高变动成本，弹性好
速度	慢	快
数据安全	高	中（数据过第三方）
推荐场景	高专业领域（法律/医疗/金融）	通用任务、快速迭代

标注指南是杠杆：标注一致性（Cohen’s Kappa）比标注数量更重要。模糊的标注指南会导致数据集充满噪声，训练出来的模型行为不稳定。PM 应参与标注指南的制定，而非把它当成工程任务。这与 c14 §14.5 黄金评估集的设计逻辑完全相同。

工具：Argilla（开源标注平台，HuggingFace 集成好）、Label Studio（通用标注）是搭建内部标注能力的起点。

2.7.4 数据版本管理与实验追踪

必须记录的信息

每次训练必须记录：

数据集版本（哪些样本、生成于何时）
基座模型版本（哪个 checkpoint）
LoRA 超参数（rank, alpha, target modules, learning rate）
训练步数和 loss 曲线
评估结果（多个维度的分数，对应 Scaling Laws 预测值）

第三次迭代之后，版本管理的价值会变得极其明显——你会感谢之前记录下的每一条元数据，因为这是复现和对比实验的唯一依据。

核心工具

工具	用途
DVC	Git 集成的数据版本管理（数据集像代码一样做版本控制）
Weights & Biases（W&B）	实验追踪、loss 可视化、超参数对比
MLflow	开源实验追踪，适合自建

数据飞轮的闭环设计

产品上线
    ↓
用户交互（隐式反馈：采纳/拒绝/修改/重试）
    ↓
反馈数据采集 & 清洗
    ↓
转化为 [SFT](/kb/基础知识库/sft/) / [DPO](/kb/基础知识库/rlhf/) 训练数据
    ↓
[LoRA](/kb/基础知识库/lora/) 微调 → 更好的产品
    ↓（循环）

PM 的设计责任：数据飞轮的效率取决于产品如何设计反馈采集。点赞/踩、“采纳”按钮、编辑前后的 diff——这些都是高质量训练信号，需要产品层有意识地设计，而不是事后补采。这是 PM 对 RLHF 流程最直接的贡献点。

附录：模块二与模块一的交叉引用索引

本模块章节	回指模块一	回指内容
m201 CoT 原理	c11	中间 token 的条件影响
m201 few-shot 示例位置	c09	Lost in the Middle
m201 Prompt Caching	c05 §5.3	前缀缓存机制
m201 幻觉防御	c13	Sycophancy
m202 微调原理	c04	SFT/LoRA/DPO 全光谱
m203 RAG 原理	c09	混合检索、HyDE
m203 多语言 Embedding	c02	Tokenization 与多语言
m206 Agent 技术栈	c10	ReAct、Function Calling、MCP
m206 深度推理	c11	Test-Time Compute、PRM
m208 vLLM	c05 §5.3	PagedAttention
m209 定价原理	c05 §5.1	Prefill vs Decode
m209 量化方案	c07	INT8/GPTQ/AWQ/GGUF
m210 后训练概念	c15	合成数据、模型坍塌
m210 DPO 数据格式	c04 §4.3	偏好对齐原理

相关概念卡：合成数据、LoRA、DPO/RLHF、SFT、Embedding、RAG、幻觉与校准、Scaling Laws、Agent 上一章：m209 推理成本控制

m210 - 数据工程流实操