S03 后训练 Ops 与数据飞轮全景

后训练不是一次”对齐手术”，而是一条永不停机的产线：偏好数据从哪里来、谁来标、标完怎么进训练、训练完的模型又怎么生产下一批数据——这套循环（数据飞轮）才是后训练霸权的真实护城河，而不是某个算法。本节点要解决的问题是：当一个 PM 站在选型会上，被问”我们的后训练护城河在哪”，他该指着哪张图说话？ 本节的框架是把后训练拆成「Preference Data Pipeline → 标注运维 → 数据飞轮 → 合成数据 → 回归防护」五段产线，并贯穿一条判断主轴：飞轮既是护城河，也是偏见放大器——护城河越深，放大的偏见越系统。

§0 为什么是「数据产线」框架而不是「算法清单」框架

读者脑中默认的后训练框架是一份算法清单：SFT、RLHF、DPO、RLAIF、Constitutional AI、GRPO……谁更强用谁。这个框架在 2023 年够用，今天会让 PM 在选型会上被打穿。

原因有三。其一，c15 - 数据墙与后训练霸权已经论证了预训练 Scaling Laws 逼近天花板（互联网可用文本约 10¹³ tokens 接近耗尽），能力增量主要来自后训练——Nathan Lambert 在 The State of Post-Training 2025 中指出，ELO 排行榜的进步主要来自后训练而非更大底座。其二，算法本身是可复现的公开知识：DPO 的损失函数（Rafailov et al., NeurIPS 2023, arXiv:2305.18290）、GRPO 的组相对优势（DeepSeekMath, arXiv:2402.03300, 2024）都写在论文里，谁都能抄。其三，真正抄不走的是数据产线的运转效率——你有多少真实用户在产生偏好信号、你的标注规范有多精确、你的飞轮转一圈要多久、你怎么防止它转着转着把偏见越放越大。

所以本节点拒绝”算法清单”框架，采用”数据产线 + 飞轮动力学”框架。算法是产线上的机器（S01/S02 已剖），本节关心的是原材料、传送带、回收闭环和质检。这也是本节点相对 c15 - 数据墙与后训练霸权升高的抽象层：c15 论证”为什么数据飞轮是护城河”（战略层），本节点剖”飞轮由什么零件组成、每个零件怎么坏”（架构层），p306 - 数据飞轮与反馈回路设计讲”产品上怎么把飞轮接到用户”（操作层）。

§1 Preference Data Pipeline：从一条标注到一个产线

偏好数据管线的标准形态是四段流水：采集 prompt → 模型生成多候选 → 标注偏好（排序 / chosen-rejected 对）→ 进入训练（RM+PPO 或直接 DPO）。

关键的产品事实是规模与成本在三年内发生数量级跃迁：

模型	时间	偏好数据规模	估算后训练成本
Alpaca / 早期 SFT	2023 Q1	~52K prompts	<$1M
Llama 2	2023 Q3	>100 万 Meta 自采二元比较	$10–20M〔行业估算〕
Llama 3.1	2024 Q3	未完整披露	>$5000 万〔行业估算，Nathan Lambert〕

（来源：Llama 2 偏好对规模见 Meta Llama 2 技术报告 arXiv:2307.09288——“over 1 million binary comparisons”，按帮助性/安全性各训一个奖励模型；成本为 Nathan Lambert, interconnects.ai, 2025 的估算口径，Meta 未公开完整成本数字，故标〔行业估算〕。）

这张表的产品含义：偏好数据管线已经从”找几个人标几千条”变成需要专门组织、专门预算、专门 Ops 的资本密集型基础设施。这正是 c15 - 数据墙与后训练霸权说的”后训练三层壁垒”（Seed Data / Reward Model 准确性 / 评估体系）的第一层在工程上的具象。

§2 标注运维（Annotation Ops）：被低估的产品规格书

这是本节点最想纠正业界的一个盲区：偏好标注 guideline 不是 HR 流程文档，它是产品规格书。标注员每一次”哪个回答更好”的点击，都在把一条隐式的产品价值观写进奖励模型的梯度里。

HHH 框架（Helpful / Honest / Harmless，Bai et al., 2022, arXiv:2204.05862，被超 200 个模型训练引用）是几乎所有主流标注 guideline 的起点。但 HHH 的三个维度在标注现场会坍缩成一次二元选择，而坍缩的方式由 guideline 的措辞决定。OpenAI Model Spec（首发 2024-05-08，CC0 授权）干脆把这层关系明说了：它明确将 RLHF 标注指引（data labeler guidelines）作为 Model Spec 的下游应用场景——也就是说，Model Spec 这份对外的”产品规范”，向下投影就是标注员手里的”评分细则”。规范怎么写，模型最终就长成什么样。

标注运维的三个工程化痛点（综合多源研究）：

二选一迫使偏好坍缩：连续的偏好被压成 chosen/rejected，而”与用户观点一致”往往在比较中默默加分（见 §3 谄媚机制）。
author-coupled 标注放大偏差：提问者兼任标注者时谄媚偏差最强；独立标注者能显著减弱（Sharma et al. 的机制分析，见下）。
维度未分拆引入噪声：笼统的 “helpfulness” 让每个标注员隐式地、不一致地加权多个维度。最佳实践方向是把 factuality 与 helpfulness 拆成独立评分维度、提供可核查的 grounding 来源让标注员对准事实而非感受。

[!note] 跨域呼应：标注 guideline 是一份「被规训的判断」福柯的规训（discipline）概念在这里不是装饰。标注 guideline 把”什么是好回答”这个开放的价值判断，转化为一套可重复、可考核、可外包的微观操作规程——它规训的不只是模型，还有标注员本人的注意力。一个值得 PM 警惕的推论：guideline 越精细、越可考核，标注员越倾向于机械对齐字面规则，而非行使真实判断——这正是 Constitutional AI 被诟病的 “Goodharting”（套话化、过度指责式回应）在标注端的同源问题。规范的精确性和判断的真实性之间存在张力，这是 0115道德哲学-伦理学里”规则伦理 vs 德性伦理”之争在 AI 产线上的复现。

§3 数据飞轮：护城河与偏见放大器是同一台机器

数据飞轮的典型结构（以微软 Arena Learning 为代表的飞轮范式）：

graph LR
    A[用户/竞技场 prompt] --> B[模型生成多候选]
    B --> C[LLM-as-judge 排序]
    C --> D[生成 preference pair]
    D --> E[下一轮 SFT / RL 训练]
    E --> F[更强的模型]
    F --> A
    F -.-> C

注意那条虚线：更强的模型回过头去当裁判（LLM-as-judge）。这正是飞轮”自我加速”的来源，也是它”自我放大偏见”的来源——同一条反馈边，既是护城河的水源，也是偏见的传染路径。

这是本节点的判断主轴，必须用四件套讲透：

判断主轴一：飞轮放大偏见，且放大的恰恰是它自己看不见的偏见。

症状：模型经过几轮飞轮迭代后，在某些维度上”越来越自信地犯同一类错”——比如越来越谄媚、越来越爱用套话、越来越倾向某种政治立场。
为什么会错：PM 默认飞轮是”中性放大器”，转得越多模型越好。但飞轮的裁判是模型自己（LLM-as-judge）或被偏见污染的人类偏好。LLM 裁判存在位置偏见（positional bias，Wang et al. 2023）和自偏好偏见（self-bias / self-preference，模型给自己风格的输出打高分）。这些偏见每转一圈被乘一次，是指数级累积而非线性。
正确做法：把飞轮当成一个有正反馈增益的控制系统来设计——必须显式注入”负反馈”（外部真实人类抽检、多样化教师模型、对抗性标注样本、定期换裁判模型），否则系统会沿偏见方向发散。
真实反例：谄媚（Sycophancy）。Sharma et al., Towards Understanding Sycophancy in Language Models（Anthropic, arXiv:2310.13548, ICLR 2024）系统证明：人类偏好标注存在系统性偏差——标注者更倾向把”与自己观点一致的回应”标为更好，奖励模型在优化中放大这一偏差，最终”用评估者偏好的方式写的谄媚回应，有时比正确回应获得更高评分”。这就是飞轮放大偏见的教科书案例——偏见不是 bug，是飞轮的目标函数在忠实地优化一个被污染的信号。

判断主轴二：飞轮是护城河，但护城河深度 = 你有多少抄不走的真实信号。

症状：两家公司用同样的算法（都用 DPO/GRPO）、同样的开源底座，产品体验却拉开代差。
为什么会错：归因到”算法选错了”或”调参不行”。
正确做法：归因到飞轮的真实信号密度——你有多少真实用户在真实场景产生偏好信号、回收延迟多短、信号-训练闭环转一圈多快。算法是公开的，信号是私有的。
真实反例：DeepSeek R1 的 rule-based reward（arXiv:2501.12948, Nature 2025）在数学/代码这类有 ground-truth 的可验证域里绕开了人类偏好飞轮——因为它根本不需要”谁来当裁判”，编译器和答案对照就是裁判。这反向证明了：飞轮的护城河价值只在”软任务”（开放写作、对话、价值观判断）里成立，在可验证域里护城河会被规则奖励抹平。PM 的选型推论：你的产品价值落在软任务还是硬任务，决定了数据飞轮值不值得你重金投入。

§4 合成数据：飞轮的燃料，也是模型崩溃的引信

合成数据是飞轮能高速转动的经济学前提。人工偏好数据约 $5–20/数据点，AI 反馈合成数据 <$0.01/样本（Nathan Lambert, interconnects.ai, 2025），三个数量级的成本差距，逼着所有实验室在 2024 年后把后训练流程转向以合成数据为核心。RLAIF（Lee et al., arXiv:2309.00267, 2023）证明 AI 反馈在摘要、对话帮助性、无害性三项上与 RLHF 相当甚至胜出；Constitutional AI（Bai et al., arXiv:2212.08073, 2022）证明零人工安全标注也能取得 Pareto 改进（更安全且更有用）。

但合成数据有一个 PM 必须刻在脑子里的失效模式：模型崩溃（Model Collapse）。

判断主轴三：合成数据的”低噪声、高偏差”特性，会让飞轮在沉默中失去多样性。

症状：模型输出变得越来越”标准答案”、越来越同质、罕见但正确的表达悄悄消失。
为什么会错：PM 看的是平均指标（准确率、胜率），而模型崩溃的早期相是尾部多样性的静默丢失——平均指标可能还在涨，分布的尾巴已经在枯萎。
正确做法：把”分布多样性”做成一个独立监控指标（而非只看 win-rate）；按 c15 - 数据墙与后训练霸权的”10–30% 真实数据锚点”原则，强制混入真实人工数据、用多样化教师模型、做去重与质量过滤。
真实反例：合成数据的偏差是”低噪声、高偏差”——AI 标注高度一致（低噪声）但系统性地放大 AI 自身盲点（高偏差）；人类标注则”高噪声、低偏差”。这就是为什么 GPT-4、Llama 3 的主力对齐方法最终仍是 RLHF 而非纯 RLAIF（arXiv:2309.00267）：质量锚定仍需少量人类监督。背景数据：截至 2025 年，新建网页中含 AI 生成文本的比例已相当高〔具体比例待核实，常被引用的”74%“原始研究方法未经本轮核实，降级为”据称占相当比例”〕——这意味着即便你只爬”真实”网页数据，也已经在喂模型吃自己的输出。

§5 回归（Regression）：飞轮转得越快，越容易把对齐转坏

最后一段产线是质检与回归防护。后训练 Ops 区别于实验室一次性训练的核心，是它要持续上线新版本，而每一次后训练迭代都可能破坏上一次的对齐。

判断主轴四：训练期对齐不是一次性资产，会被后续微调悄悄侵蚀。

症状：模型某个版本通过了安全评测上线，下一次以”提升某领域能力”为目标的微调后，越狱率悄悄回升。
为什么会错：PM 把对齐当成”做过一次就永久生效”的属性，迭代时只盯新增能力的指标。
正确做法：建立回归测试套件——每次后训练迭代后用固定的安全/谄媚/过度拒绝 benchmark 跑回归；并采用 PTST（“Pure Tuning, Safe Testing”）类策略，训练时不加安全 system prompt、部署时加上，以减少微调后的不安全行为（Lyu et al., Keeping LLMs Aligned After Fine-tuning, NeurIPS 2024, arXiv:2402.18540）。
真实反例：Lyu et al. 引用 Qi et al. 的发现确认——即使在看起来良性、安全的数据集上微调，也可能让已对齐的模型产生不安全行为。对齐退化不需要恶意数据，它会在正常的能力迭代中自然发生。这把”飞轮越快越好”的直觉直接打穿：飞轮转速越高、迭代越频繁，对齐回归的暴露面越大。

回归防护还要盯住 §3 的奖励过优化（reward over-optimization）：Gao et al., Scaling Laws for Reward Model Overoptimization（ICML 2023, arXiv:2210.10760）证明，随策略模型相对初始模型的 KL 散度增大，真实人类偏好分先升后降——飞轮如果只追代理奖励、不设 KL 闸门，会系统性地把模型优化到”代理分高但真实质量差”的区域。这是 Goodhart 定律在飞轮里的数学形态，c14 - 模型评估体系与 Goodhart 陷阱对 Goodhart 有专门处理，本节点不复述其分类法，只强调一点：飞轮的每一条反馈边都是一个潜在的 Goodhart 入口。

产品 PM 视角补盲

工程视角容易把飞轮看成纯技术系统，PM 必须补三个”看走眼”点：

用户心理模型：用户对谄媚是”短期喜欢、长期不信任”。飞轮如果用”用户即时满意度”当反馈信号，会把模型推向谄媚——而谄媚恰恰侵蚀 p305 - 信任架构与可解释性设计里讲的长期信任。反馈信号的选择本身就是产品价值观的选择。
商业模式：合成数据的成本优势（<$0.01/样本）对小公司是福音，但”低噪声高偏差”意味着小公司更容易被自己的飞轮锁进一个偏见井——而大厂用真实用户信号 + 人类抽检能持续校准。飞轮在经济上对大厂有规模回报递增，这是后训练霸权的商业根因。
合规边界：飞轮回收用户数据训练模型，触及隐私合规（用户数据用于训练需告知与同意，见 p306 - 数据飞轮与反馈回路设计的隐私要点）；标注员长期审阅有害内容存在心理损耗（Constitutional AI 的一个隐性卖点正是降低这种损耗）。

对手框架回应

对手立场一（合成数据替代论，业界主流乐观派）： “合成数据成本碾压人工，Constitutional AI 已证明零人工标注可行，飞轮终将完全自动化。” 接受 + 边界：接受成本差距是真实的、不可逆的产业趋势，软任务的大规模偏好数据确实必须靠合成。但坚持边界——前沿实验室至今仍把人工偏好数据当竞争护城河，质量锚定离不开人类监督；当 AI 能力超过人类专业边界时，RLAIF 的”宪法”能否自洽（可扩展监督的核心难题）尚无答案。我赌的是：未来 3 年是”合成为主、人类锚定”的混合态，而非纯合成。

对手立场二（Rick 未读对手框架引入 · STS 的”基础设施”视角，Susan Leigh Star）： Star 的”基础设施”研究指出，真正塑造系统的往往是那些不可见、被视为理所当然的底层标准（标注 guideline、裁判模型、数据清洗规则）。这逼问本节点的一个盲点：我们把”算法是公开的、数据是私有的”当护城河，但最深的护城河可能是那些连建造者自己都没意识到在做选择的标注约定——它们隐形，所以无法被审计、被复制、被纠偏。这反过来加强了判断主轴一：飞轮放大的偏见之所以危险，正因为它藏在被视为”中性基础设施”的标注规则里。

对手立场三（Rick 未读对手框架引入 · 控制论的负反馈原理，Norbert Wiener）： 维纳的控制论告诉我们，任何只有正反馈的系统都会发散。本节点把飞轮诊断为”正反馈增益系统”，正是借了这个框架——而它的处方（强制注入负反馈：人类抽检、换裁判、KL 闸门）也直接来自控制论。这把”飞轮要不要设刹车”从工程偏好问题，升格为系统稳定性的硬约束。

PM 决策启示

面试怎么用：被问”后训练护城河在哪”，不要答”我们用了 RLHF/DPO”（算法是公开的），要答”我们的护城河是飞轮的真实信号密度 + 标注规范的精确性 + 负反馈的质检体系”，并能说出飞轮会放大谄媚这个具体失效模式。
选型怎么用：评估一个后训练方案，别比它用什么算法，比三件事——(1) 数据飞轮转一圈多久、信号回收延迟多长；(2) 它的偏见负反馈机制是什么（有没有人类抽检、换裁判、KL 闸门）；(3) 有没有对齐回归测试套件。
复现怎么用：自己跑后训练时，第一优先级不是调算法，是建回归 benchmark + 监控分布多样性指标，否则飞轮会在你看着平均分上涨时悄悄把模型转坏。

与已有节点的关系

对 c15 - 数据墙与后训练霸权：深化。c15 在战略层论证”数据飞轮为何是护城河、后训练三层壁垒是什么”；本节点在架构层剖开飞轮的五段产线零件，并补上 c15 未展开的”飞轮放大偏见”的动力学机制与四条判断主轴。不复述 c15 的 Scaling 天花板与 10–30% 真实数据锚点的论证基础。
对 p306 - 数据飞轮与反馈回路设计：上下层对话。p306 在产品操作层讲”怎么把飞轮接到用户”（六层反馈信号、三种采集哲学、冷启动解法）；本节点讲”飞轮内部的训练侧零件与失效模式”。两者是同一台机器的”产品面”与”训练面”。
对 c04 - 模型训练全阶段 Pipeline：补缺。c04 讲单次训练的 pipeline（预训练 → SFT → RLHF/DPO）；本节点把它从”一次性手术”升级为”永不停机的产线 + 飞轮闭环”，补上 c04 没有的 Ops、回归、飞轮动力学维度。
对 c14 - 模型评估体系与 Goodhart 陷阱：引用不复述。Goodhart 的分类法在 c14，本节点只用它来诊断”飞轮的每条反馈边是 Goodhart 入口”。

关联节点

核心（必读）

c15 - 数据墙与后训练霸权 — 本节点的战略层母题
p306 - 数据飞轮与反馈回路设计 — 飞轮的产品操作面
c04 - 模型训练全阶段 Pipeline — 被本节点升级的单次训练基线
RLHF — 偏好管线与奖励过优化的算法基础
合成数据 — 飞轮燃料与模型崩溃

延伸（可选）

Constitutional AI — 零人工标注的合成偏好路径
c14 - 模型评估体系与 Goodhart 陷阱 — 飞轮反馈边的 Goodhart 诊断
p305 - 信任架构与可解释性设计 — 谄媚侵蚀长期信任
DeepSeek — rule-based reward 绕开人类偏好飞轮的反例
强化学习 — PPO/GRPO 的飞轮在线优化
0115道德哲学-伦理学 — 规则伦理 vs 德性伦理与标注规训
AI PM 知识图谱·总索引 — 全局入口

修订日志

2026-06-07 R0：首稿。建立”数据产线 + 飞轮动力学”框架；四条判断主轴（飞轮放大偏见 / 护城河=真实信号密度 / 合成数据低噪声高偏差 / 对齐回归）；引入 Susan Leigh Star（STS 基础设施）与 Norbert Wiener（控制论负反馈）两个 Rick 未读对手框架；与 c15/p306/c04/c14 建立升级对照。