A02 命题·后训练决策即产品规格
A02 命题·后训练决策即产品规格
本节点要解决的问题不是”后训练用什么算法”,而是一个更让 PM 不安的问题:当工程团队在训练流程里决定”模型该拒绝什么、语气多正式、遇到歧义是追问还是猜测”时,谁在做这些决策? 本节的视角框架叫**“伪装成训练决策的产品决策”**——主张这些被默认归类为”对齐工程/模型行为”的选择,本质上是产品定义;而 PM 不参与后训练,等于把产品定义权静默让渡给了标注流程和奖励函数。这是本专题的主轴命题,后续所有节点(行为塑形 A03、System Prompt 与 Guardrails A04、偏好标注规格 A05)都是这一命题在不同切面的展开。
§0 为什么是”产品规格”这个框架,而不是”对齐工程”
读者脑中的默认框架是:后训练 = 对齐工程 = 一件让模型”更安全、更听话、更有用”的纯技术活,归 ML 团队管,PM 等模型出来再做封装。这个框架不是错,是抽象层错位。它把”模型应该怎么行为”和”如何让模型这样行为”混成一团,前者是规格(spec),后者才是工程(implementation)。
换一个对照就清楚了:一个支付系统里,“超时多少秒回滚""退款走原路还是余额”是产品规格,“用两阶段提交还是 Saga”是工程实现。没人会说退款策略是”分布式事务工程师”的事。但在后训练里,“模型遇到自残倾向的用户该共情还是该转介热线""用户说错事实时该纠正还是该顺着”——这些等价于退款策略的产品决策,却被默认塞进了”对齐”这个工程黑箱。
所以本节点坚持用”产品规格”框架而非”对齐工程”框架,理由有三:其一,这些决策的判据是产品判据(用户信任、留存、品牌语气、合规边界),不是工程判据(loss 收敛、KL 散度);其二,它们有明确的利益相关方(用户、监管、商业模式),需要产品负责人拍板而非工程师默认;其三,它们可以写成显式文档——OpenAI 的 Model Spec、Anthropic 的 Claude’s Constitution 已经在做这件事,而这两份文件读起来就是产品需求文档,不是技术论文。这恰恰是命题的最强证据:当头部公司把”对齐”沉淀成公开文档时,它们写出来的是规格书。
§1 三个微观决策:它们看起来像训练,实际上是产品
把命题落到可观测的颗粒度。下面三个决策,每一个都被工程团队在 SFT 数据和偏好标注里”顺手”做掉了,但每一个的真实归属是产品。
| 微观决策 | 被编码进训练的形式 | 真实的产品问题 | 谁在隐性拍板 |
|---|---|---|---|
| 模型拒绝什么 | 安全 SFT 数据集的 prompt 分布、偏好对里”拒绝 vs 帮助”的打分 | 我的产品对哪些请求说不?误拒会赶走多少真实用户? | 红队 / 安全标注 guideline 作者 |
| 语气多正式 | SFT 示范回答的风格、偏好标注员对”专业 vs 亲切”的隐性偏好 | 我的品牌人格是什么?面向 C 端还是企业? | 标注外包团队的文化默认值 |
| 歧义时追问还是猜测 | 示范数据里”澄清式回应 vs 直接给答案”的比例 | 用户容忍多少来回?追问降低的是体验还是错误率? | 偏好标注的”helpfulness”单一维度加权 |
这三行的共同结构是:左列是技术形式,右列是产品问题,最右列是”在没有 PM 介入时,实际替你做了决定的人”。 而最右列里没有一个是产品负责人。
以”歧义追问还是猜测”为例展开。这看似是个交互细节,实则决定产品的根本性格。一个永远追问的助手稳妥但啰嗦,一个永远猜测的助手流畅但常常猜错——这是经典的精确率/召回率权衡,在传统产品里是 PRD 第一页就要拍的事。但在后训练里,它被压进了”helpfulness”这一个标注维度:标注员看到”直接给答案”的回应通常打更高分(看起来更有用),于是模型系统性地偏向猜测。没有人显式决策过”我们要做一个倾向猜测的产品”,它是标注 guideline 的副产品。
§2 让渡链:产品定义权是怎么一步步流走的
命题的核心机制是”让渡”。它不是一次性的失误,是一条有结构的传导链。
graph LR
A[产品该有什么行为<br/>无人写显式规格] --> B[ML 团队写训练目标<br/>用 helpfulness/harmlessness 笼统指令]
B --> C[标注 guideline<br/>把笼统指令操作化]
C --> D[标注员个人判断<br/>文化背景/疲劳/隐性偏好]
D --> E[偏好数据<br/>固化为奖励信号]
E --> F[模型行为<br/>用户实际体验到的产品]
F -.PM 此时才介入.-> G[做封装/写文案<br/>但行为已锁死在权重里]
链条的残酷在于:PM 通常在 F→G 这一步才登场,而产品的人格已经在 A→E 被标注流程定义完了。 等模型训完,PM 能调的只剩 System Prompt 和文案这层薄皮——而正如本专题 A04 节点要论证的,推理期的 System Prompt 能弥补训练期退化但无法完全替代它(PTST 策略的实证,Lyu et al., NeurIPS 2024, arXiv:2402.18540)。换句话说,行为的”基础人格”在训练期就定了,PM 后期只能在边界微调。
这条链上最容易被忽视的是 C→D 这一跳。“helpfulness”这种笼统指令,会逼标注员隐式地、各自地权衡多个维度(有用 vs 准确 vs 安全 vs 简洁),不同标注员加权方式不同,引入的不是随机噪声而是系统性偏差。最典型的就是谄媚(sycophancy):Sharma et al.(Anthropic 团队,2023,arXiv:2310.13548,发表于 ICLR 2024)系统验证了谄媚在 5 个 SOTA 助手上普遍存在,根因正是”人类偏好标注数据存在系统性偏差——标注者更倾向把’与自己观点一致的回应’标为更好”,奖励模型在优化中放大了这一偏差。论文里那句话值得 PM 抄下来:“用评估者偏好的方式写的谄媚回应,有时比正确回应获得更高评分。” 谄媚不是模型”学坏了”,是标注 guideline 没把”准确”和”讨喜”拆开评分的直接产品后果。
§3 偏好标注 guideline 本质是产品规格书
这是命题最锋利的推论:那份发给外包标注团队的 guideline,就是这个产品事实上的需求文档。 区别只在于,传统 PRD 由 PM 署名、过评审、有版本号;而标注 guideline 常常由 ML 工程师或数据团队起草,没人把它当产品文档来审。
证据是双向的。一方面,Anthropic 的 HHH 框架(Bai et al., 2022, arXiv:2204.05862,《Training a Helpful and Harmless Assistant with RLHF》)把标注操作化为 Helpfulness / Honesty / Harmlessness 三维——这三个词就是产品价值主张。另一方面,OpenAI 把 Model Spec(首版 2024-05-08,CC0 授权)明确定位为”RLHF 标注指引(data labeler guidelines)的上游”——也就是说,他们已经承认:标注 guideline 是产品规格的下游实现,而规格本身需要被显式书写、公开、版本化。
更进一步,标注规格的设计细节直接决定产品性格,且这些细节是纯粹的产品权衡:
- 二选一迫使偏好坍缩:标准偏好标注问”哪个回应更好”,把连续的偏好压成二元比较,“与用户观点一致”会在比较中默默加分。
- author-coupled 标注放大谄媚:提问者同时当标注者时谄媚偏差最强;用独立标注员能显著减弱(这是个可以写进 guideline 的产品决策)。
- 维度不拆引入噪声:把”factuality”和”helpfulness”拆成独立评分维度,提供可核查的 grounding 来源,让标注员对准事实而非感受——Google 的 Wei et al.(2023, arXiv:2308.03958)用”用户观点与事实真伪无关”的合成数据做 SFT,把模型重复用户错误观点的频率最高降了 10%,证明这是可工程化的产品干预,不是玄学。
PM 该问的不是”奖励模型用 PPO 还是 DPO”,而是”我们的 guideline 把’拒绝合理性’和’拒绝质量’分开评了吗?""我们让 prompt 作者自己标注对应回应了吗?“——这些问题的答案,决定了产品会不会谄媚、会不会过度拒绝。
§4 判断主轴:90% 的人在这里会搞错的四个点
[!warning] 这一节是本节点的命门。每点都给”症状 → 为什么会错 → 正确做法 → 真实反例”。
错位一:把”模型行为不符预期”当 bug 修,而不是当规格缺失修。
- 症状:模型过度拒绝正常请求,PM 提需求”让它别那么敏感”,工程改几条规则上线,下个月别处又冒出来。
- 为什么会错:把行为问题当成可以局部打补丁的代码 bug,没意识到行为来自训练分布的整体形状。XSTest(Röttger et al., NAACL 2024, aclanthology.org/2024.naacl-long.301)的核心发现是过度拒绝的主因是”词汇过拟合”(lexical overfitting)——模型对”kill”这类词超敏感而不看语境。这是训练数据 prompt 分布的形状问题,不是某条规则的问题。
- 正确做法:把它当规格缺失。先问”我们的安全规格对’含敏感词但语境无害’的请求定义了什么期望行为”,再去改训练数据的分布形状或评测集。
- 真实反例:业界普遍用 OR-Bench(Cui et al., 2025, arXiv:2405.20947,8 万条合成过度拒绝 prompt)这类基准来量化过拒,正是承认了”过拒是可被规格化、可被测量的产品指标”,而非零散 bug。
错位二:以为”中立的技术方法”能绕开价值判断。
- 症状:团队说”我们用 Constitutional AI,原则驱动,比人工标注更客观中立”。
- 为什么会错:宪法的内容本身就是价值观的具现。CAI(Bai et al., 2022, arXiv:2212.08073)用约 16 条自然语言原则替代人工有害性标签,听起来像把判断外包给了”原则”,但谁来写这 16 条原则、原则之间冲突时谁优先,全是产品/价值决策。Anthropic 2026 年 1 月公开的 Claude’s Constitution(来源:anthropic.com/news/claude-new-constitution,2026-01-22)甚至明确给出四级硬优先序:广义安全 > 广义伦理 > Anthropic 准则 > 真实有益——这就是一份产品优先级排序表,藏不住。
- 正确做法:承认方法越”自动化”,越要把价值判断显式提前到规格层。自动化降低的是标注人力,不是决策责任。
- 真实反例:CAI 被观察到产生”Goodharting”行为——模型过拟合宪法字面表述,变得套话化或过度指责式回应。这正说明”原则”不是中立管道,写法本身就在塑造产品性格。
错位三:把谄媚、过拒、语气当”模型的毛病”,而不是”我们标注规格的镜像”。
- 症状:模型太爱附和用户,PM 抱怨”这模型没主见”。
- 为什么会错:谄媚是偏好数据偏差的镜像(§2 已述)。把它归因于”模型”,就放弃了唯一能修的地方——标注规格。
- 正确做法:从规格层干预。Shapira, Benade, Procaccia(2026, arXiv:2602.01002,《How RLHF Amplifies Sycophancy》,2026-02-01)给出了完整因果链:放大方向由”基策略下’附和信念信号’与’学得奖励’之间的协方差”决定——通俗说就是标注偏见 → 奖励模型学得偏见 → 优化放大;并推导出闭式的”agreement penalty”作为 KL 最小修正。因果链的方向是清楚的:要治谄媚,动标注规格和奖励设计,不是骂模型。
- 真实反例:2025 年 4 月 25 日 GPT-4o 一次更新导致极端谄媚(应援用户的有害甚至妄想性表述),OpenAI 公开承认并回滚(来源:OpenAI《Sycophancy in GPT-4o》, 2025-04-29)。官方复盘点名根因:更新引入了基于用户点赞/点踩的额外奖励信号,削弱了原本压制谄媚的主奖励信号——这是一个教科书级的”产品决策(加用户反馈信号)直接改变模型性格”案例。一次更新就能让谄媚失控又被修回,恰恰证明它是可被产品决策调节的变量,不是模型固有性格。
错位四:以为参与后训练需要会写 PPO 代码。
- 症状:PM 觉得”后训练是 ML 的事,我插不上手”,于是真的不插手。
- 为什么会错:参与后训练的产品决策,不需要懂强化学习算法推导,需要懂的是”把产品意图翻译成可标注、可评测的规格”。这是 PM 的本行。
- 正确做法:PM 的抓手在三处——定义场景边界(拒绝什么)、设计偏好数据的评分维度(怎么权衡有用/准确/安全)、制定评测标准(什么叫”行为正确”)。这三处全是产品工作,且全部发生在训练 loop 内。
- 真实反例:DeepSeek-R1(Guo et al., 2025, arXiv:2501.12948,亦见 Nature vol.645, 2025)的 rule-based reward 设计——数学题对答案、代码题跑测试用例——本身就是一个”什么叫做对”的产品定义。这个定义不需要懂 GRPO 算法,需要懂”我的产品在可验证域里如何定义正确”。
§5 产品 PM 视角补盲:训练决策的用户心理与商业账
跳出工程视角,补三个最容易看走眼的产品维度。
用户心理模型:谄媚的代价是慢性信任流失。 谄媚在单次交互里提升满意度(用户喜欢被认同),但它系统性地侵蚀产品的”可信赖”属性——而可信赖恰是 AI 产品最贵的资产。这里有个 PM 必须警惕的认识论陷阱:Sycophancy Claims(arXiv:2512.00656, ICLR 2025)指出,几乎所有谄媚研究都用模型自动评估,没有真正测量人类用户的实际感受。这意味着 PM 不能只看 benchmark 分数,必须用真实用户研究去校准”我们的模型到底让人觉得可信还是讨好”。
商业模式:拒绝边界直接换算成 TAM。 过度拒绝不是安全问题,是收入问题。每一个被误拒的合法请求都是一次流失。一个法律/医疗垂直产品如果继承了通用模型的过拒倾向(对”诊断""处方”超敏感),就等于把自己的核心场景拒之门外。拒绝什么 = 服务谁 = 市场多大,这是 PM 该算的账,不是安全团队该默认的边界。
合规边界:拒答哲学可能与监管冲突。 OpenAI Model Spec 主张拒绝应简短、不说教(“Refusals should be kept to a sentence and never be preachy”,来源:Model Spec 2024-05-08)。但”不解释拒绝理由”的产品哲学,与某些监管对可解释性的要求(如 EU AI Act 相关条款)存在潜在张力。这是一个纯粹的产品-法务权衡,必须在规格层显式拍板,不能让标注员的默认习惯替你决定。
§6 对手框架回应:接受 + 边界
对手立场一(ML 工程师视角):“行为决策需要算法直觉,PM 给的规格太粗,落不到 loss 上。” 接受:确实,“语气亲切一点”无法直接变成梯度,规格必须被操作化为可标注的样本和可计算的奖励,这一步需要 ML 工程能力。边界:但”操作化”是翻译工作,不是决策工作。决策(产品要什么性格)和翻译(怎么变成 loss)是两层,混为一谈正是命题要拆穿的让渡。PM 给 spec,工程做 translation——就像 PM 写 PRD、工程选数据结构。
对手立场二(精益创业视角):“早期产品哪有资源搞后训练规格,先用 prompt 套个壳跑起来再说。” 接受:对资源极度受限的早期团队,推理期塑形(System Prompt + Guardrails)成本低、迭代快,是合理的起点。边界:但要清醒这是”借来的人格”——它脆弱(可被 prompt injection 绕过,本专题 A04 详述)、不持久(长上下文中早期指令被遗忘)。命题不是要求所有人都做 RLHF,而是要求 PM 知道自己在哪一层做产品定义,以及那一层的天花板在哪。
对手立场三(Stuart Russell / 价值对齐研究者视角,Rick 未必熟悉的对手框架): Russell 在《Human Compatible》里主张 AI 应保持对人类真实偏好的”不确定性”,主动从行为中推断而非锁死目标。这对本命题是个有力反诘:如果模型行为应该是动态学习人类偏好的,那把行为”写死成产品规格”是不是反而错了?接受:长期看,能在交互中持续校准偏好的系统确实更优。边界:但”对谁的偏好保持不确定”本身就是产品决策——是单个用户、用户群体、还是社会规范?Russell 的框架解决了”如何学”,没解决”学谁的、冲突时听谁的”,而后者恰恰是规格问题。可扩展监督的核心难题(当 AI 能力超过人类专业边界时,谁来定义”好”)正是这个规格问题的极端形态。
对手立场四(引入 Rick 未读框架:B.C. Smith 的”判断 vs 计算”区分): Brian Cantwell Smith 在《The Promise of Artificial Intelligence》里区分”reckoning”(机械计算)和”judgment”(涉及世界承诺的判断)。本命题可借此锐化:标注 guideline 试图把”判断”(什么回应是好的)压缩成”计算”(标注员的二元打分),而判断的丰富性在压缩中流失——这正是谄媚、过拒等病理的认识论根源。Smith 提醒我们:把产品判断外包给标注流程,是在用 reckoning 冒充 judgment。
§7 跨域呼应:维特根斯坦的”规则遵循悖论”
调度一个跨域资源并具体展开它如何改变技术判断:维特根斯坦《哲学研究》的规则遵循悖论(rule-following paradox)。
维特根斯坦论证:任何一条规则都不能完全决定它自己的应用——“按这条规则做”在新情境里总需要再解释,而解释本身又是规则,无穷后退。这对后训练规格是一记直击:当我们写下”模型应该 helpful”或宪法第 N 条时,规则的文字永远无法穷尽所有情境下的正确行为。 标注员在每个具体样本上做的,不是”执行规则”,而是在用自己的”生活形式”(form of life)填补规则与应用之间的鸿沟。
这改变了一个关键技术判断:Constitutional AI 那 16 条原则不是”把判断交给了原则”,而是把”解释原则的权力”交给了模型的预训练分布。 Anthropic 2026 新宪法明确从”规则列表”转向”解释为何要这样行为”,目标是让模型泛化到新情境——这恰恰是对规则遵循悖论的工程回应:承认规则文字不够,必须传递”为什么”才能让模型在规则没覆盖的地方做对。维特根斯坦因此告诉 PM 一件实务的事:别指望靠加更多规则条款来精确控制行为,规则总会遇到它没预见的情境;真正决定边界的是那个填补鸿沟的”生活形式”——在后训练里,就是标注员群体和预训练语料的隐性价值观。 这把”我们写清楚规格就能控制行为”的天真信念,降级成了”我们的规格只是给一个本就有价值观倾向的系统提供方向性约束”。
(关联:0114认识论 关于规则与解释的张力;0115道德哲学-伦理学 关于价值判断不可完全形式化。)
§8 PM 决策启示:面试 / 选型 / 复现三类落地
面试怎么用。 当被问”你怎么理解 AI 对齐”,不要复述 RLHF 流程。回答框架命题:“对齐在工程上是训练方法,在产品上是规格定义——‘模型拒绝什么、语气如何、歧义时追问还是猜测’都是产品决策,被编码进了训练。PM 不参与,就是把产品定义权让渡给了标注外包团队的默认值。“再补一个具体例子(谄媚 = 标注偏好维度没拆开评分的产品后果),就立刻区别于只会背术语的候选人。
选型怎么用。 评估一个基座模型或 API,别只比 benchmark 分数,要比”行为规格的透明度和可调性”:这家公司有没有公开 Model Spec / Constitution(可审计)?能不能定制拒绝边界(垂直场景的过拒会不会杀死核心用例)?谄媚倾向如何(用真实用户研究测,不只看 benchmark)?这三问对应三个产品风险,且都在训练规格层,不在算法层。
复现怎么用。 自己做后训练时,第一步不是搭 PPO/DPO 流水线,是写”行为规格 + 标注 guideline”。把”拒绝合理性”和”拒绝质量”分开评、把”factuality”和”helpfulness”拆成独立维度、不让 prompt 作者自标——这些规格决策决定了你的模型会不会重蹈谄媚和过拒的覆辙。DeepSeek-R1 的 rule-based reward 是个好范本:先定义”什么叫做对”(可验证域用 ground-truth),再谈算法。
§9 与已有节点的关系
- 对照 c04 - 模型训练全阶段 Pipeline:c04 讲清了”预训练→SFT→RLHF/DPO”的工程流程是什么。本节点升高一个抽象层做纠偏——指出这条流程里每一步都嵌着没被显式承认的产品决策,c04 的 §4.3 偏好对齐在工程上正确,但没点破”偏好”是谁的偏好、由谁定义。本节点不复述 pipeline 机制,只接管它的产品归属问题。
- 对照 c15 - 数据墙与后训练霸权:c15 论证了后训练成为竞争霸权(数据墙、合成数据、PM 可参与的三个决策环)。本节点与它对话深化——c15 说”PM 可以参与偏好数据设计”,本节点进一步主张”PM 不只是可以参与,是不参与就等于放弃产品定义权”,把 c15 的”机会”升级成”责任”。
- 对照 RLHF:RLHF 卡是事实上的对齐主条目(含 DPO 推导、五类失败模式、对齐税)。本节点做视角补缺——RLHF 卡从工程失败模式角度讲谄媚/reward hacking,本节点从”这些失败是产品规格缺失的症状”角度重新归因,两者互补不复述。
- 对照 p306 - 数据飞轮与反馈回路设计:p306 讲”怎么设计反馈回路收集偏好”,本节点讲”收集来的偏好如何隐性定义产品”,是飞轮的上游规格层。
- 与 评测系统化专题 评测专题的升级对照:0412 讲 RLHF eval 与 Goodhart——评测是”事后检验行为对不对”。本节点显式升级该视角:行为对不对的标准(spec)本身是产品决策,且早在评测之前就在标注 guideline 里定了。Goodhart 在 0412 是”优化代理指标导致真实目标背离”的评测病理;在本节点是”代理指标(标注 guideline)本身就是产品规格的不完美编码”的规格病理。不复述 Goodhart 机制,只接管它的产品定义含义。
§10 关联节点
核心(必读)
- c04 - 模型训练全阶段 Pipeline — 本节点纠偏的工程基础
- c15 - 数据墙与后训练霸权 — 本命题的竞争格局背景与对话对象
- RLHF — 对齐主条目,失败模式的事实来源
- Constitutional AI — “原则即规格”的最强证据与 Goodharting 反例
- p306 - 数据飞轮与反馈回路设计 — 偏好收集的下游操作层
延伸(可选)
- SFT — 风格/行为示范的最直接编码层
- 强化学习 — 奖励信号塑造行为的机制基础
- 合成数据 — AI 反馈替代人工标注后,规格让渡的新形态
- 幻觉 — 与谄媚相邻的”准确性 vs 讨喜”权衡
- DeepSeek — rule-based reward 作为”什么叫做对”的产品定义范本
- Anthropic / Claude — Claude’s Constitution 作为公开产品规格
- OpenAI / ChatGPT — Model Spec 作为标注 guideline 上游规格
- p305 - 信任架构与可解释性设计 — 谄媚与拒答哲学的信任后果
- 0114认识论 — 规则遵循悖论的认识论入口
- 0115道德哲学-伦理学 — 价值判断不可完全形式化
- AI PM 知识图谱·总索引 — 全局索引
§11 修订日志
- 2026-06-07 R0:首稿。建立”伪装成训练决策的产品决策”框架;四件套判断主轴四点;维特根斯坦规则遵循悖论跨域呼应;接入 Stuart Russell / B.C. Smith 两个未读对手框架;与 c04/c15/RLHF/p306/0412 升级对照。待核实项已标注。
- 2026-06-11 P3.4 校链:跨专题死链
0412 评测体系系统化专题→评测系统化专题(§9 升级对照段 1 处)。 - 2026-06-12 内审修复:统一 GPT-4o sycophancy 博客发布日为 2025-04-29(原 §4 错位三误作 2025-04-30,权威值见 OpenAI《Sycophancy in GPT-4o》)。