m210 - 数据工程流实操
m210. 数据工程流实操
模块一第 15 章(c15 数据墙与后训练霸权)覆盖了数据墙的宏观判断。本章补工程实操层:没有大量真实数据时,如何从零构建训练数据,并保证质量。
2.7.1 冷启动合成数据 Pipeline
完整 Pipeline 架构
Phase 1: Seed Data(50–200 条高质量真实样本)
→ 覆盖核心场景 + 边界情况
→ 这是 pipeline 的"锚"——[合成数据](/kb/基础知识库/合成数据/)质量上限由此决定
Phase 2: [合成数据](/kb/基础知识库/合成数据/)扩增
→ 用强模型基于 Seed Data 模式生成更多样本
→ 策略:场景变体、难度梯度、对抗样本、多 [Agent](/kb/基础知识库/agent/) 辩论
→ 2025 最佳实践:Persona-based 生成
(为强模型指定不同角色:"资深律师"/"实习生"/"挑剔的客户",
从不同视角生成数据,显著提升多样性)
Phase 3: 质量过滤
→ 自动化:评判模型打分 + 去重 + Constitutional AI 过滤([c04 §4.3](/kb/基础知识库/c04-模型训练全阶段-pipeline/))
→ 人工:抽检 5–10%,重点审核边界分数样本
→ [Reward Model](/kb/基础知识库/rlhf/) 打分:用偏好模型对[合成数据](/kb/基础知识库/合成数据/)做质量排序,
只保留 Top 60–70%
Phase 4: 微调
→ [LoRA](/kb/基础知识库/lora/) 微调([c04 §4.2 SFT + PEFT](/kb/基础知识库/c04-模型训练全阶段-pipeline/))
Phase 5: 评估与迭代
→ 真实测试集评估 → 找薄弱环节 → 补充[合成数据](/kb/基础知识库/合成数据/) → 重训练
Seed Data 是最关键的投资
Seed Data 的质量决定了整个合成 pipeline 的质量上限。100 条精心设计的真实样本,比 10,000 条机械生成的样本价值更高。
PM 能做的:参与 Seed Data 的场景定义(覆盖哪些典型任务、哪些边界情况),以及对已有样本的验收评审。这是 PM 对数据飞轮最直接的贡献。
2.7.2 合成数据质量评估
| 维度 | 指标 | 测量方法 |
|---|---|---|
| 多样性 | 语义覆盖率 | Embedding 聚类数量 / 语义空间覆盖度 |
| 一致性 | 同类回答风格统一度 | LLM-as-Judge 风格评分(见 c14 §14.2) |
| 事实准确率 | 事实性陈述正确率 | RAG 检索验证 + 人工抽检(防幻觉) |
| 格式合规率 | 输出格式正确率 | Schema 校验(100% 可自动化) |
| 难度分布 | 是否覆盖简单到复杂全梯度 | Perplexity / 回答长度作代理指标 |
模型坍塌的预防
问题:模型 A 生成数据 → 训练模型 B → B 生成数据 → 训练模型 C……每代都在放大偏见、压缩多样性,最终质量衰退(c15 §15.2 模型坍塌)。
预防措施:
- 每轮混入比例固定(10–30%)的真实人类数据作为”锚点”
- 监控Embedding多样性指标,设定多样性下限阈值
- 用不同基座模型生成数据(GPT-4o 生成 + Claude 验证,而非同一模型自问自答)
2.7.3 标注工程架构
偏好数据采集(DPO 所需的 chosen/rejected 配对)
Step 1: 模型生成 3–5 个候选回答(变化 temperature 增加多样性)
Step 2: 标注员做偏好排序或两两对比
Step 3: 质量控制
- 每条 ≥ 2 标注员独立标注
- 计算 Cohen's Kappa 一致性(>0.6 为可接受)
- 低一致性样本交第三人仲裁或丢弃
Step 4: 主动学习采样
- 优先标注模型"最不确定"的样本
(候选回答质量接近时,对 [DPO](/kb/基础知识库/rlhf/) 训练的边际贡献最大)
标注效率的关键决策
自建标注 vs 外包:
| 维度 | 自建标注团队 | 外包(Scale AI、Surge AI) |
|---|---|---|
| 领域知识 | 高(内部人员理解业务) | 低(需要详细指南培训) |
| 成本 | 高固定成本 | 高变动成本,弹性好 |
| 速度 | 慢 | 快 |
| 数据安全 | 高 | 中(数据过第三方) |
| 推荐场景 | 高专业领域(法律/医疗/金融) | 通用任务、快速迭代 |
标注指南是杠杆:标注一致性(Cohen’s Kappa)比标注数量更重要。模糊的标注指南会导致数据集充满噪声,训练出来的模型行为不稳定。PM 应参与标注指南的制定,而非把它当成工程任务。这与 c14 §14.5 黄金评估集的设计逻辑完全相同。
工具:Argilla(开源标注平台,HuggingFace 集成好)、Label Studio(通用标注)是搭建内部标注能力的起点。
2.7.4 数据版本管理与实验追踪
必须记录的信息
每次训练必须记录:
- 数据集版本(哪些样本、生成于何时)
- 基座模型版本(哪个 checkpoint)
- LoRA 超参数(rank, alpha, target modules, learning rate)
- 训练步数和 loss 曲线
- 评估结果(多个维度的分数,对应 Scaling Laws 预测值)
第三次迭代之后,版本管理的价值会变得极其明显——你会感谢之前记录下的每一条元数据,因为这是复现和对比实验的唯一依据。
核心工具
| 工具 | 用途 |
|---|---|
| DVC | Git 集成的数据版本管理(数据集像代码一样做版本控制) |
| Weights & Biases(W&B) | 实验追踪、loss 可视化、超参数对比 |
| MLflow | 开源实验追踪,适合自建 |
数据飞轮的闭环设计
产品上线
↓
用户交互(隐式反馈:采纳/拒绝/修改/重试)
↓
反馈数据采集 & 清洗
↓
转化为 [SFT](/kb/基础知识库/sft/) / [DPO](/kb/基础知识库/rlhf/) 训练数据
↓
[LoRA](/kb/基础知识库/lora/) 微调 → 更好的产品
↓(循环)
PM 的设计责任:数据飞轮的效率取决于产品如何设计反馈采集。点赞/踩、“采纳”按钮、编辑前后的 diff——这些都是高质量训练信号,需要产品层有意识地设计,而不是事后补采。这是 PM 对 RLHF 流程最直接的贡献点。
附录:模块二与模块一的交叉引用索引
| 本模块章节 | 回指模块一 | 回指内容 |
|---|---|---|
| m201 CoT 原理 | c11 | 中间 token 的条件影响 |
| m201 few-shot 示例位置 | c09 | Lost in the Middle |
| m201 Prompt Caching | c05 §5.3 | 前缀缓存机制 |
| m201 幻觉防御 | c13 | Sycophancy |
| m202 微调原理 | c04 | SFT/LoRA/DPO 全光谱 |
| m203 RAG 原理 | c09 | 混合检索、HyDE |
| m203 多语言 Embedding | c02 | Tokenization 与多语言 |
| m206 Agent 技术栈 | c10 | ReAct、Function Calling、MCP |
| m206 深度推理 | c11 | Test-Time Compute、PRM |
| m208 vLLM | c05 §5.3 | PagedAttention |
| m209 定价原理 | c05 §5.1 | Prefill vs Decode |
| m209 量化方案 | c07 | INT8/GPTQ/AWQ/GGUF |
| m210 后训练概念 | c15 | 合成数据、模型坍塌 |
| m210 DPO 数据格式 | c04 §4.3 | 偏好对齐原理 |
相关概念卡:合成数据、LoRA、DPO/RLHF、SFT、Embedding、RAG、幻觉与校准、Scaling Laws、Agent 上一章:m209 推理成本控制