R

m210 - 数据工程流实操

创建 2026-05-13 更新 2026-05-18 8 条双链 共创

m210. 数据工程流实操

模块一第 15 章(c15 数据墙与后训练霸权)覆盖了数据墙的宏观判断。本章补工程实操层:没有大量真实数据时,如何从零构建训练数据,并保证质量。

2.7.1 冷启动合成数据 Pipeline

完整 Pipeline 架构

Phase 1: Seed Data(50–200 条高质量真实样本)
  → 覆盖核心场景 + 边界情况
  → 这是 pipeline 的"锚"——[合成数据](/kb/基础知识库/合成数据/)质量上限由此决定
  
Phase 2: [合成数据](/kb/基础知识库/合成数据/)扩增
  → 用强模型基于 Seed Data 模式生成更多样本
  → 策略:场景变体、难度梯度、对抗样本、多 [Agent](/kb/基础知识库/agent/) 辩论
  → 2025 最佳实践:Persona-based 生成
    (为强模型指定不同角色:"资深律师"/"实习生"/"挑剔的客户",
    从不同视角生成数据,显著提升多样性)
  
Phase 3: 质量过滤
  → 自动化:评判模型打分 + 去重 + Constitutional AI 过滤([c04 §4.3](/kb/基础知识库/c04-模型训练全阶段-pipeline/))
  → 人工:抽检 5–10%,重点审核边界分数样本
  → [Reward Model](/kb/基础知识库/rlhf/) 打分:用偏好模型对[合成数据](/kb/基础知识库/合成数据/)做质量排序,
    只保留 Top 60–70%

Phase 4: 微调
  → [LoRA](/kb/基础知识库/lora/) 微调([c04 §4.2 SFT + PEFT](/kb/基础知识库/c04-模型训练全阶段-pipeline/))

Phase 5: 评估与迭代
  → 真实测试集评估 → 找薄弱环节 → 补充[合成数据](/kb/基础知识库/合成数据/) → 重训练

Seed Data 是最关键的投资

Seed Data 的质量决定了整个合成 pipeline 的质量上限。100 条精心设计的真实样本,比 10,000 条机械生成的样本价值更高。

PM 能做的:参与 Seed Data 的场景定义(覆盖哪些典型任务、哪些边界情况),以及对已有样本的验收评审。这是 PM 对数据飞轮最直接的贡献。

2.7.2 合成数据质量评估

维度指标测量方法
多样性语义覆盖率Embedding 聚类数量 / 语义空间覆盖度
一致性同类回答风格统一度LLM-as-Judge 风格评分(见 c14 §14.2
事实准确率事实性陈述正确率RAG 检索验证 + 人工抽检(防幻觉
格式合规率输出格式正确率Schema 校验(100% 可自动化)
难度分布是否覆盖简单到复杂全梯度Perplexity / 回答长度作代理指标

模型坍塌的预防

问题:模型 A 生成数据 → 训练模型 B → B 生成数据 → 训练模型 C……每代都在放大偏见、压缩多样性,最终质量衰退(c15 §15.2 模型坍塌)。

预防措施

  • 每轮混入比例固定(10–30%)的真实人类数据作为”锚点”
  • 监控Embedding多样性指标,设定多样性下限阈值
  • 用不同基座模型生成数据(GPT-4o 生成 + Claude 验证,而非同一模型自问自答)

2.7.3 标注工程架构

偏好数据采集(DPO 所需的 chosen/rejected 配对)

Step 1: 模型生成 3–5 个候选回答(变化 temperature 增加多样性)

Step 2: 标注员做偏好排序或两两对比

Step 3: 质量控制
  - 每条 ≥ 2 标注员独立标注
  - 计算 Cohen's Kappa 一致性(>0.6 为可接受)
  - 低一致性样本交第三人仲裁或丢弃

Step 4: 主动学习采样
  - 优先标注模型"最不确定"的样本
    (候选回答质量接近时,对 [DPO](/kb/基础知识库/rlhf/) 训练的边际贡献最大)

标注效率的关键决策

自建标注 vs 外包

维度自建标注团队外包(Scale AI、Surge AI)
领域知识高(内部人员理解业务)低(需要详细指南培训)
成本高固定成本高变动成本,弹性好
速度
数据安全中(数据过第三方)
推荐场景高专业领域(法律/医疗/金融)通用任务、快速迭代

标注指南是杠杆:标注一致性(Cohen’s Kappa)比标注数量更重要。模糊的标注指南会导致数据集充满噪声,训练出来的模型行为不稳定。PM 应参与标注指南的制定,而非把它当成工程任务。这与 c14 §14.5 黄金评估集的设计逻辑完全相同。

工具:Argilla(开源标注平台,HuggingFace 集成好)、Label Studio(通用标注)是搭建内部标注能力的起点。

2.7.4 数据版本管理与实验追踪

必须记录的信息

每次训练必须记录:

  • 数据集版本(哪些样本、生成于何时)
  • 基座模型版本(哪个 checkpoint)
  • LoRA 超参数(rank, alpha, target modules, learning rate)
  • 训练步数和 loss 曲线
  • 评估结果(多个维度的分数,对应 Scaling Laws 预测值)

第三次迭代之后,版本管理的价值会变得极其明显——你会感谢之前记录下的每一条元数据,因为这是复现和对比实验的唯一依据。

核心工具

工具用途
DVCGit 集成的数据版本管理(数据集像代码一样做版本控制)
Weights & Biases(W&B)实验追踪、loss 可视化、超参数对比
MLflow开源实验追踪,适合自建

数据飞轮的闭环设计

产品上线

用户交互(隐式反馈:采纳/拒绝/修改/重试)

反馈数据采集 & 清洗

转化为 [SFT](/kb/基础知识库/sft/) / [DPO](/kb/基础知识库/rlhf/) 训练数据

[LoRA](/kb/基础知识库/lora/) 微调 → 更好的产品
    ↓(循环)

PM 的设计责任:数据飞轮的效率取决于产品如何设计反馈采集。点赞/踩、“采纳”按钮、编辑前后的 diff——这些都是高质量训练信号,需要产品层有意识地设计,而不是事后补采。这是 PM 对 RLHF 流程最直接的贡献点。


附录:模块二与模块一的交叉引用索引

本模块章节回指模块一回指内容
m201 CoT 原理c11中间 token 的条件影响
m201 few-shot 示例位置c09Lost in the Middle
m201 Prompt Cachingc05 §5.3前缀缓存机制
m201 幻觉防御c13Sycophancy
m202 微调原理c04SFT/LoRA/DPO 全光谱
m203 RAG 原理c09混合检索、HyDE
m203 多语言 Embeddingc02Tokenization 与多语言
m206 Agent 技术栈c10ReAct、Function Calling、MCP
m206 深度推理c11Test-Time Compute、PRM
m208 vLLMc05 §5.3PagedAttention
m209 定价原理c05 §5.1Prefill vs Decode
m209 量化方案c07INT8/GPTQ/AWQ/GGUF
m210 后训练概念c15合成数据、模型坍塌
m210 DPO 数据格式c04 §4.3偏好对齐原理

相关概念卡:合成数据LoRADPO/RLHFSFTEmbeddingRAG幻觉与校准Scaling LawsAgent 上一章:m209 推理成本控制