R

c15 - 数据墙与后训练霸权

创建 2026-05-13 更新 2026-05-16 9 条双链 共创

15. 数据墙与后训练霸权:AI 竞争的下半场

高质量互联网文本已接近枯竭,Scaling Laws 的预训练 Scaling 路径正在逼近边际收益递减的拐点。AI 竞争的核心战场,正在从”谁能训练更大的模型”转向”谁能做更好的后训练”。

15.1 数据墙的物理现实

互联网可爬取的高质量文本总量约 10¹³ tokens(CommonCrawl 去重清洗后的估计)。

对比训练规模:

  • Llama-3:15T tokens 预训练
  • Chinchilla 最优定律:参数与数据 1:20 的比例,意味着 1T 参数模型需要 20T tokens

可用数据量与所需数据量正面碰撞。第一波数据红利已经结束。

重复训练的代价:将同一数据集用 2 轮(Epoch 2)训练时,过拟合风险显著上升,质量开始下降。简单”扩大训练集”的路已经走到头。

15.2 合成数据:解法与风险并存

合成数据(Synthetic Data:用已有模型生成训练数据。数学推导步骤、代码解释、多语言翻译、思维链标注——这些都可以批量合成,以 10–100 倍的速度”制造”训练数据。

可验证域的优势:数学和代码有客观的标准答案,合成数据的质量可以自动验证(跑代码看是否通过测试、检查数学推导是否正确)。不需要人工逐条标注。这是为什么数学推理(GSM8K、MATH)和代码生成(HumanEval)成为合成数据首批突破的能力域,也是 DeepSeek-R1 等推理模型的核心训练方法。

模型坍塌(Model Collapse)的风险:模型 A 的输出 → 训练模型 B → B 的输出 → 训练模型 C……每一代都在放大偏见、压缩多样性,输出分布越来越窄,最终质量衰退。

防御机制

  • 混入比例固定的真实人类数据作为”锚点”(通常 10–30%)
  • 合成数据比例设定上限
  • 多样性过滤器:剔除语义重复、模式单一的合成样本

15.3 后训练 Pipeline:竞争的真正壁垒

当基础预训练模型趋于同质化(都在 Llama、Qwen 等开源底座上),后训练成为应用层公司的核心差异化战场:

高质量 Seed Data(人工精选,领域专家参与)

合成数据扩增(多样性、难度分级、能力覆盖)

质量过滤(Reward Model 评分 + 规则过滤 + 一致性检查)

SFT 规范化(格式、风格、指令遵循、安全边界)

RLHF / DPO 偏好优化(偏好数据收集 → 奖励模型训练 → 策略优化)

对抗测试与红队迭代

三层核心壁垒

  1. Seed Data 的质量与覆盖度:高质量初始数据不能靠购买解决,往往来自深度的行业积累(法律所内部文书、医院诊疗记录、金融分析师报告)。这是最难被复制的壁垒。

  2. Reward Model(奖励模型)的准确性:RM 不准,后续所有 RLHF/DPO 优化都是在错误方向上推进。RM 的训练和校准是后训练 pipeline 的质量天花板。

  3. 评估体系的完整性:没有好的评估,无法判断后训练是进步了还是退步了(见 c14 评估体系)。

15.4 PM 能实质参与的环节

后训练不是纯工程活动,PM 可以也应该深度参与三个核心决策:

场景定义(SFT 数据):哪些任务类型需要专项数据覆盖?模型在哪些场景下表现不足?——这是产品侧的专业判断,工程师无法独立回答。

偏好数据设计:如何在产品交互中内嵌用户反馈采集?点赞/踩、修改前后对比、“重新生成”触发、答案采纳率——这些都是高质量偏好数据的来源,需要产品有意识地设计数据飞轮,而非事后补采。

评估标准的制定:在给定业务场景下,“好答案”的具体判断标准是什么?(不是”更准确”这种废话,而是”法律场景下引用真实条文比推测条文重要 10 倍”这样的具体权重)——这是 PM 的核心贡献,也是工程师无法独立给出的业务判断。

15.5 战略判断:应用层 PM 的机会在哪里

不应追求的:在通用能力上与基础模型公司的后训练团队竞争(资源不对等,意义不大)。

真正的机会

  • 垂直领域的高质量 Seed Data(法律合同、医学文献、金融报告、工厂作业规范)做专项后训练,在特定场景超越通用模型
  • 精细的评估标准(由领域专家参与制定,而非通用 benchmark)确保优化方向正确
  • 通过产品反馈飞轮持续积累偏好数据,形成”用户越多 → 数据越好 → 模型越强 → 用户越多”的竞争壁垒

这正是为什么法律 AI(Harvey)、医疗 AI(Abridge)、代码 AI(Cursor)能在特定垂直领域建立强势地位的结构性原因——不是因为基础模型更强,而是因为领域后训练和评估体系更精准。

相关概念卡:Scaling Laws合成数据RLHF / DPOSFT 模块二延伸:m210 数据工程流 — 合成数据 Pipeline 的完整工程实操、模型坍塌防御、偏好数据标注体系 上一章:c14 评估体系