15. 数据墙与后训练霸权：AI 竞争的下半场

高质量互联网文本已接近枯竭，Scaling Laws 的预训练 Scaling 路径正在逼近边际收益递减的拐点。AI 竞争的核心战场，正在从”谁能训练更大的模型”转向”谁能做更好的后训练”。

15.1 数据墙的物理现实

互联网可爬取的高质量文本总量约 10¹³ tokens（CommonCrawl 去重清洗后的估计）。

对比训练规模：

Llama-3：15T tokens 预训练
Chinchilla 最优定律：参数与数据 1:20 的比例，意味着 1T 参数模型需要 20T tokens

可用数据量与所需数据量正面碰撞。第一波数据红利已经结束。

重复训练的代价：将同一数据集用 2 轮（Epoch 2）训练时，过拟合风险显著上升，质量开始下降。简单”扩大训练集”的路已经走到头。

15.2 合成数据：解法与风险并存

合成数据（Synthetic Data）：用已有模型生成训练数据。数学推导步骤、代码解释、多语言翻译、思维链标注——这些都可以批量合成，以 10–100 倍的速度”制造”训练数据。

可验证域的优势：数学和代码有客观的标准答案，合成数据的质量可以自动验证（跑代码看是否通过测试、检查数学推导是否正确）。不需要人工逐条标注。这是为什么数学推理（GSM8K、MATH）和代码生成（HumanEval）成为合成数据首批突破的能力域，也是 DeepSeek-R1 等推理模型的核心训练方法。

模型坍塌（Model Collapse）的风险：模型 A 的输出 → 训练模型 B → B 的输出 → 训练模型 C……每一代都在放大偏见、压缩多样性，输出分布越来越窄，最终质量衰退。

防御机制：

混入比例固定的真实人类数据作为”锚点”（通常 10–30%）
合成数据比例设定上限
多样性过滤器：剔除语义重复、模式单一的合成样本

15.3 后训练 Pipeline：竞争的真正壁垒

当基础预训练模型趋于同质化（都在 Llama、Qwen 等开源底座上），后训练成为应用层公司的核心差异化战场：

高质量 Seed Data（人工精选，领域专家参与）
        ↓
合成数据扩增（多样性、难度分级、能力覆盖）
        ↓
质量过滤（Reward Model 评分 + 规则过滤 + 一致性检查）
        ↓
SFT 规范化（格式、风格、指令遵循、安全边界）
        ↓
RLHF / DPO 偏好优化（偏好数据收集 → 奖励模型训练 → 策略优化）
        ↓
对抗测试与红队迭代

三层核心壁垒：

Seed Data 的质量与覆盖度：高质量初始数据不能靠购买解决，往往来自深度的行业积累（法律所内部文书、医院诊疗记录、金融分析师报告）。这是最难被复制的壁垒。
Reward Model（奖励模型）的准确性：RM 不准，后续所有 RLHF/DPO 优化都是在错误方向上推进。RM 的训练和校准是后训练 pipeline 的质量天花板。
评估体系的完整性：没有好的评估，无法判断后训练是进步了还是退步了（见 c14 评估体系）。

15.4 PM 能实质参与的环节

后训练不是纯工程活动，PM 可以也应该深度参与三个核心决策：

场景定义（SFT 数据）：哪些任务类型需要专项数据覆盖？模型在哪些场景下表现不足？——这是产品侧的专业判断，工程师无法独立回答。

偏好数据设计：如何在产品交互中内嵌用户反馈采集？点赞/踩、修改前后对比、“重新生成”触发、答案采纳率——这些都是高质量偏好数据的来源，需要产品有意识地设计数据飞轮，而非事后补采。

评估标准的制定：在给定业务场景下，“好答案”的具体判断标准是什么？（不是”更准确”这种废话，而是”法律场景下引用真实条文比推测条文重要 10 倍”这样的具体权重）——这是 PM 的核心贡献，也是工程师无法独立给出的业务判断。

15.5 战略判断：应用层 PM 的机会在哪里

不应追求的：在通用能力上与基础模型公司的后训练团队竞争（资源不对等，意义不大）。

真正的机会：

用垂直领域的高质量 Seed Data（法律合同、医学文献、金融报告、工厂作业规范）做专项后训练，在特定场景超越通用模型
用精细的评估标准（由领域专家参与制定，而非通用 benchmark）确保优化方向正确
通过产品反馈飞轮持续积累偏好数据，形成”用户越多 → 数据越好 → 模型越强 → 用户越多”的竞争壁垒

这正是为什么法律 AI（Harvey）、医疗 AI（Abridge）、代码 AI（Cursor）能在特定垂直领域建立强势地位的结构性原因——不是因为基础模型更强，而是因为领域后训练和评估体系更精准。

相关概念卡：Scaling Laws、合成数据、RLHF / DPO、SFT 模块二延伸：m210 数据工程流 — 合成数据 Pipeline 的完整工程实操、模型坍塌防御、偏好数据标注体系上一章：c14 评估体系