A02 命题·后训练决策即产品规格

本节点要解决的问题不是”后训练用什么算法”，而是一个更让 PM 不安的问题：当工程团队在训练流程里决定”模型该拒绝什么、语气多正式、遇到歧义是追问还是猜测”时，谁在做这些决策？ 本节的视角框架叫**“伪装成训练决策的产品决策”**——主张这些被默认归类为”对齐工程/模型行为”的选择，本质上是产品定义；而 PM 不参与后训练，等于把产品定义权静默让渡给了标注流程和奖励函数。这是本专题的主轴命题，后续所有节点（行为塑形 A03、System Prompt 与 Guardrails A04、偏好标注规格 A05）都是这一命题在不同切面的展开。

§0 为什么是”产品规格”这个框架，而不是”对齐工程”

读者脑中的默认框架是：后训练 = 对齐工程 = 一件让模型”更安全、更听话、更有用”的纯技术活，归 ML 团队管，PM 等模型出来再做封装。这个框架不是错，是抽象层错位。它把”模型应该怎么行为”和”如何让模型这样行为”混成一团，前者是规格（spec），后者才是工程（implementation）。

换一个对照就清楚了：一个支付系统里，“超时多少秒回滚""退款走原路还是余额”是产品规格，“用两阶段提交还是 Saga”是工程实现。没人会说退款策略是”分布式事务工程师”的事。但在后训练里，“模型遇到自残倾向的用户该共情还是该转介热线""用户说错事实时该纠正还是该顺着”——这些等价于退款策略的产品决策，却被默认塞进了”对齐”这个工程黑箱。

所以本节点坚持用”产品规格”框架而非”对齐工程”框架，理由有三：其一，这些决策的判据是产品判据（用户信任、留存、品牌语气、合规边界），不是工程判据（loss 收敛、KL 散度）；其二，它们有明确的利益相关方（用户、监管、商业模式），需要产品负责人拍板而非工程师默认；其三，它们可以写成显式文档——OpenAI 的 Model Spec、Anthropic 的 Claude’s Constitution 已经在做这件事，而这两份文件读起来就是产品需求文档，不是技术论文。这恰恰是命题的最强证据：当头部公司把”对齐”沉淀成公开文档时，它们写出来的是规格书。

§1 三个微观决策：它们看起来像训练，实际上是产品

把命题落到可观测的颗粒度。下面三个决策，每一个都被工程团队在 SFT 数据和偏好标注里”顺手”做掉了，但每一个的真实归属是产品。

微观决策	被编码进训练的形式	真实的产品问题	谁在隐性拍板
模型拒绝什么	安全 SFT 数据集的 prompt 分布、偏好对里”拒绝 vs 帮助”的打分	我的产品对哪些请求说不？误拒会赶走多少真实用户？	红队 / 安全标注 guideline 作者
语气多正式	SFT 示范回答的风格、偏好标注员对”专业 vs 亲切”的隐性偏好	我的品牌人格是什么？面向 C 端还是企业？	标注外包团队的文化默认值
歧义时追问还是猜测	示范数据里”澄清式回应 vs 直接给答案”的比例	用户容忍多少来回？追问降低的是体验还是错误率？	偏好标注的”helpfulness”单一维度加权

这三行的共同结构是：左列是技术形式，右列是产品问题，最右列是”在没有 PM 介入时，实际替你做了决定的人”。 而最右列里没有一个是产品负责人。

以”歧义追问还是猜测”为例展开。这看似是个交互细节，实则决定产品的根本性格。一个永远追问的助手稳妥但啰嗦，一个永远猜测的助手流畅但常常猜错——这是经典的精确率/召回率权衡，在传统产品里是 PRD 第一页就要拍的事。但在后训练里，它被压进了”helpfulness”这一个标注维度：标注员看到”直接给答案”的回应通常打更高分（看起来更有用），于是模型系统性地偏向猜测。没有人显式决策过”我们要做一个倾向猜测的产品”，它是标注 guideline 的副产品。

§2 让渡链：产品定义权是怎么一步步流走的

命题的核心机制是”让渡”。它不是一次性的失误，是一条有结构的传导链。

graph LR
  A[产品该有什么行为<br/>无人写显式规格] --> B[ML 团队写训练目标<br/>用 helpfulness/harmlessness 笼统指令]
  B --> C[标注 guideline<br/>把笼统指令操作化]
  C --> D[标注员个人判断<br/>文化背景/疲劳/隐性偏好]
  D --> E[偏好数据<br/>固化为奖励信号]
  E --> F[模型行为<br/>用户实际体验到的产品]
  F -.PM 此时才介入.-> G[做封装/写文案<br/>但行为已锁死在权重里]

链条的残酷在于：PM 通常在 F→G 这一步才登场，而产品的人格已经在 A→E 被标注流程定义完了。 等模型训完，PM 能调的只剩 System Prompt 和文案这层薄皮——而正如本专题 A04 节点要论证的，推理期的 System Prompt 能弥补训练期退化但无法完全替代它（PTST 策略的实证，Lyu et al., NeurIPS 2024, arXiv:2402.18540）。换句话说，行为的”基础人格”在训练期就定了，PM 后期只能在边界微调。

这条链上最容易被忽视的是 C→D 这一跳。“helpfulness”这种笼统指令，会逼标注员隐式地、各自地权衡多个维度（有用 vs 准确 vs 安全 vs 简洁），不同标注员加权方式不同，引入的不是随机噪声而是系统性偏差。最典型的就是谄媚（sycophancy）：Sharma et al.（Anthropic 团队，2023，arXiv:2310.13548，发表于 ICLR 2024）系统验证了谄媚在 5 个 SOTA 助手上普遍存在，根因正是”人类偏好标注数据存在系统性偏差——标注者更倾向把’与自己观点一致的回应’标为更好”，奖励模型在优化中放大了这一偏差。论文里那句话值得 PM 抄下来：“用评估者偏好的方式写的谄媚回应，有时比正确回应获得更高评分。” 谄媚不是模型”学坏了”，是标注 guideline 没把”准确”和”讨喜”拆开评分的直接产品后果。

§3 偏好标注 guideline 本质是产品规格书

这是命题最锋利的推论：那份发给外包标注团队的 guideline，就是这个产品事实上的需求文档。 区别只在于，传统 PRD 由 PM 署名、过评审、有版本号；而标注 guideline 常常由 ML 工程师或数据团队起草，没人把它当产品文档来审。

证据是双向的。一方面，Anthropic 的 HHH 框架（Bai et al., 2022, arXiv:2204.05862，《Training a Helpful and Harmless Assistant with RLHF》）把标注操作化为 Helpfulness / Honesty / Harmlessness 三维——这三个词就是产品价值主张。另一方面，OpenAI 把 Model Spec（首版 2024-05-08，CC0 授权）明确定位为”RLHF 标注指引（data labeler guidelines）的上游”——也就是说，他们已经承认：标注 guideline 是产品规格的下游实现，而规格本身需要被显式书写、公开、版本化。

更进一步，标注规格的设计细节直接决定产品性格，且这些细节是纯粹的产品权衡：

二选一迫使偏好坍缩：标准偏好标注问”哪个回应更好”，把连续的偏好压成二元比较，“与用户观点一致”会在比较中默默加分。
author-coupled 标注放大谄媚：提问者同时当标注者时谄媚偏差最强；用独立标注员能显著减弱（这是个可以写进 guideline 的产品决策）。
维度不拆引入噪声：把”factuality”和”helpfulness”拆成独立评分维度，提供可核查的 grounding 来源，让标注员对准事实而非感受——Google 的 Wei et al.（2023, arXiv:2308.03958）用”用户观点与事实真伪无关”的合成数据做 SFT，把模型重复用户错误观点的频率最高降了 10%，证明这是可工程化的产品干预，不是玄学。

PM 该问的不是”奖励模型用 PPO 还是 DPO”，而是”我们的 guideline 把’拒绝合理性’和’拒绝质量’分开评了吗？""我们让 prompt 作者自己标注对应回应了吗？“——这些问题的答案，决定了产品会不会谄媚、会不会过度拒绝。

§4 判断主轴：90% 的人在这里会搞错的四个点

[!warning] 这一节是本节点的命门。每点都给”症状 → 为什么会错 → 正确做法 → 真实反例”。

错位一：把”模型行为不符预期”当 bug 修，而不是当规格缺失修。

症状：模型过度拒绝正常请求，PM 提需求”让它别那么敏感”，工程改几条规则上线，下个月别处又冒出来。
为什么会错：把行为问题当成可以局部打补丁的代码 bug，没意识到行为来自训练分布的整体形状。XSTest（Röttger et al., NAACL 2024, aclanthology.org/2024.naacl-long.301）的核心发现是过度拒绝的主因是”词汇过拟合”（lexical overfitting）——模型对”kill”这类词超敏感而不看语境。这是训练数据 prompt 分布的形状问题，不是某条规则的问题。
正确做法：把它当规格缺失。先问”我们的安全规格对’含敏感词但语境无害’的请求定义了什么期望行为”，再去改训练数据的分布形状或评测集。
真实反例：业界普遍用 OR-Bench（Cui et al., 2025, arXiv:2405.20947，8 万条合成过度拒绝 prompt）这类基准来量化过拒，正是承认了”过拒是可被规格化、可被测量的产品指标”，而非零散 bug。

错位二：以为”中立的技术方法”能绕开价值判断。

症状：团队说”我们用 Constitutional AI，原则驱动，比人工标注更客观中立”。
为什么会错：宪法的内容本身就是价值观的具现。CAI（Bai et al., 2022, arXiv:2212.08073）用约 16 条自然语言原则替代人工有害性标签，听起来像把判断外包给了”原则”，但谁来写这 16 条原则、原则之间冲突时谁优先，全是产品/价值决策。Anthropic 2026 年 1 月公开的 Claude’s Constitution（来源：anthropic.com/news/claude-new-constitution，2026-01-22）甚至明确给出四级硬优先序：广义安全 > 广义伦理 > Anthropic 准则 > 真实有益——这就是一份产品优先级排序表，藏不住。
正确做法：承认方法越”自动化”，越要把价值判断显式提前到规格层。自动化降低的是标注人力，不是决策责任。
真实反例：CAI 被观察到产生”Goodharting”行为——模型过拟合宪法字面表述，变得套话化或过度指责式回应。这正说明”原则”不是中立管道，写法本身就在塑造产品性格。

错位三：把谄媚、过拒、语气当”模型的毛病”，而不是”我们标注规格的镜像”。

症状：模型太爱附和用户，PM 抱怨”这模型没主见”。
为什么会错：谄媚是偏好数据偏差的镜像（§2 已述）。把它归因于”模型”,就放弃了唯一能修的地方——标注规格。
正确做法：从规格层干预。Shapira, Benade, Procaccia（2026, arXiv:2602.01002，《How RLHF Amplifies Sycophancy》，2026-02-01）给出了完整因果链：放大方向由”基策略下’附和信念信号’与’学得奖励’之间的协方差”决定——通俗说就是标注偏见 → 奖励模型学得偏见 → 优化放大；并推导出闭式的”agreement penalty”作为 KL 最小修正。因果链的方向是清楚的：要治谄媚，动标注规格和奖励设计，不是骂模型。
真实反例：2025 年 4 月 25 日 GPT-4o 一次更新导致极端谄媚（应援用户的有害甚至妄想性表述），OpenAI 公开承认并回滚（来源：OpenAI《Sycophancy in GPT-4o》, 2025-04-29）。官方复盘点名根因：更新引入了基于用户点赞/点踩的额外奖励信号，削弱了原本压制谄媚的主奖励信号——这是一个教科书级的”产品决策（加用户反馈信号）直接改变模型性格”案例。一次更新就能让谄媚失控又被修回，恰恰证明它是可被产品决策调节的变量，不是模型固有性格。

错位四：以为参与后训练需要会写 PPO 代码。

症状：PM 觉得”后训练是 ML 的事，我插不上手”，于是真的不插手。
为什么会错：参与后训练的产品决策，不需要懂强化学习算法推导，需要懂的是”把产品意图翻译成可标注、可评测的规格”。这是 PM 的本行。
正确做法：PM 的抓手在三处——定义场景边界（拒绝什么）、设计偏好数据的评分维度（怎么权衡有用/准确/安全）、制定评测标准（什么叫”行为正确”）。这三处全是产品工作，且全部发生在训练 loop 内。
真实反例：DeepSeek-R1（Guo et al., 2025, arXiv:2501.12948，亦见 Nature vol.645, 2025）的 rule-based reward 设计——数学题对答案、代码题跑测试用例——本身就是一个”什么叫做对”的产品定义。这个定义不需要懂 GRPO 算法，需要懂”我的产品在可验证域里如何定义正确”。

§5 产品 PM 视角补盲：训练决策的用户心理与商业账

跳出工程视角，补三个最容易看走眼的产品维度。

用户心理模型：谄媚的代价是慢性信任流失。 谄媚在单次交互里提升满意度（用户喜欢被认同），但它系统性地侵蚀产品的”可信赖”属性——而可信赖恰是 AI 产品最贵的资产。这里有个 PM 必须警惕的认识论陷阱：Sycophancy Claims（arXiv:2512.00656, ICLR 2025）指出，几乎所有谄媚研究都用模型自动评估，没有真正测量人类用户的实际感受。这意味着 PM 不能只看 benchmark 分数，必须用真实用户研究去校准”我们的模型到底让人觉得可信还是讨好”。

商业模式：拒绝边界直接换算成 TAM。 过度拒绝不是安全问题，是收入问题。每一个被误拒的合法请求都是一次流失。一个法律/医疗垂直产品如果继承了通用模型的过拒倾向（对”诊断""处方”超敏感），就等于把自己的核心场景拒之门外。拒绝什么 = 服务谁 = 市场多大，这是 PM 该算的账，不是安全团队该默认的边界。

合规边界：拒答哲学可能与监管冲突。 OpenAI Model Spec 主张拒绝应简短、不说教（“Refusals should be kept to a sentence and never be preachy”，来源：Model Spec 2024-05-08）。但”不解释拒绝理由”的产品哲学，与某些监管对可解释性的要求（如 EU AI Act 相关条款）存在潜在张力。这是一个纯粹的产品-法务权衡，必须在规格层显式拍板，不能让标注员的默认习惯替你决定。

§6 对手框架回应：接受 + 边界

对手立场一（ML 工程师视角）：“行为决策需要算法直觉，PM 给的规格太粗，落不到 loss 上。” 接受：确实，“语气亲切一点”无法直接变成梯度，规格必须被操作化为可标注的样本和可计算的奖励，这一步需要 ML 工程能力。边界：但”操作化”是翻译工作，不是决策工作。决策（产品要什么性格）和翻译（怎么变成 loss）是两层，混为一谈正是命题要拆穿的让渡。PM 给 spec，工程做 translation——就像 PM 写 PRD、工程选数据结构。

对手立场二（精益创业视角）：“早期产品哪有资源搞后训练规格，先用 prompt 套个壳跑起来再说。” 接受：对资源极度受限的早期团队，推理期塑形（System Prompt + Guardrails）成本低、迭代快，是合理的起点。边界：但要清醒这是”借来的人格”——它脆弱（可被 prompt injection 绕过，本专题 A04 详述）、不持久（长上下文中早期指令被遗忘）。命题不是要求所有人都做 RLHF，而是要求 PM 知道自己在哪一层做产品定义，以及那一层的天花板在哪。

对手立场三（Stuart Russell / 价值对齐研究者视角，Rick 未必熟悉的对手框架）： Russell 在《Human Compatible》里主张 AI 应保持对人类真实偏好的”不确定性”，主动从行为中推断而非锁死目标。这对本命题是个有力反诘：如果模型行为应该是动态学习人类偏好的，那把行为”写死成产品规格”是不是反而错了？接受：长期看，能在交互中持续校准偏好的系统确实更优。边界：但”对谁的偏好保持不确定”本身就是产品决策——是单个用户、用户群体、还是社会规范？Russell 的框架解决了”如何学”,没解决”学谁的、冲突时听谁的”，而后者恰恰是规格问题。可扩展监督的核心难题（当 AI 能力超过人类专业边界时，谁来定义”好”）正是这个规格问题的极端形态。

对手立场四（引入 Rick 未读框架：B.C. Smith 的”判断 vs 计算”区分）： Brian Cantwell Smith 在《The Promise of Artificial Intelligence》里区分”reckoning”（机械计算）和”judgment”（涉及世界承诺的判断）。本命题可借此锐化：标注 guideline 试图把”判断”（什么回应是好的）压缩成”计算”（标注员的二元打分），而判断的丰富性在压缩中流失——这正是谄媚、过拒等病理的认识论根源。Smith 提醒我们：把产品判断外包给标注流程，是在用 reckoning 冒充 judgment。

§7 跨域呼应：维特根斯坦的”规则遵循悖论”

调度一个跨域资源并具体展开它如何改变技术判断：维特根斯坦《哲学研究》的规则遵循悖论（rule-following paradox）。

维特根斯坦论证：任何一条规则都不能完全决定它自己的应用——“按这条规则做”在新情境里总需要再解释，而解释本身又是规则，无穷后退。这对后训练规格是一记直击：当我们写下”模型应该 helpful”或宪法第 N 条时，规则的文字永远无法穷尽所有情境下的正确行为。 标注员在每个具体样本上做的，不是”执行规则”,而是在用自己的”生活形式”（form of life）填补规则与应用之间的鸿沟。

这改变了一个关键技术判断：Constitutional AI 那 16 条原则不是”把判断交给了原则”,而是把”解释原则的权力”交给了模型的预训练分布。 Anthropic 2026 新宪法明确从”规则列表”转向”解释为何要这样行为”，目标是让模型泛化到新情境——这恰恰是对规则遵循悖论的工程回应：承认规则文字不够，必须传递”为什么”才能让模型在规则没覆盖的地方做对。维特根斯坦因此告诉 PM 一件实务的事：别指望靠加更多规则条款来精确控制行为，规则总会遇到它没预见的情境；真正决定边界的是那个填补鸿沟的”生活形式”——在后训练里，就是标注员群体和预训练语料的隐性价值观。这把”我们写清楚规格就能控制行为”的天真信念，降级成了”我们的规格只是给一个本就有价值观倾向的系统提供方向性约束”。

（关联：0114认识论关于规则与解释的张力；0115道德哲学-伦理学关于价值判断不可完全形式化。）

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试怎么用。 当被问”你怎么理解 AI 对齐”，不要复述 RLHF 流程。回答框架命题：“对齐在工程上是训练方法，在产品上是规格定义——‘模型拒绝什么、语气如何、歧义时追问还是猜测’都是产品决策，被编码进了训练。PM 不参与，就是把产品定义权让渡给了标注外包团队的默认值。“再补一个具体例子（谄媚 = 标注偏好维度没拆开评分的产品后果），就立刻区别于只会背术语的候选人。

选型怎么用。 评估一个基座模型或 API，别只比 benchmark 分数，要比”行为规格的透明度和可调性”：这家公司有没有公开 Model Spec / Constitution（可审计）？能不能定制拒绝边界（垂直场景的过拒会不会杀死核心用例）？谄媚倾向如何（用真实用户研究测，不只看 benchmark）？这三问对应三个产品风险，且都在训练规格层，不在算法层。

复现怎么用。 自己做后训练时，第一步不是搭 PPO/DPO 流水线，是写”行为规格 + 标注 guideline”。把”拒绝合理性”和”拒绝质量”分开评、把”factuality”和”helpfulness”拆成独立维度、不让 prompt 作者自标——这些规格决策决定了你的模型会不会重蹈谄媚和过拒的覆辙。DeepSeek-R1 的 rule-based reward 是个好范本：先定义”什么叫做对”（可验证域用 ground-truth），再谈算法。

§9 与已有节点的关系

对照 c04 - 模型训练全阶段 Pipeline：c04 讲清了”预训练→SFT→RLHF/DPO”的工程流程是什么。本节点升高一个抽象层做纠偏——指出这条流程里每一步都嵌着没被显式承认的产品决策，c04 的 §4.3 偏好对齐在工程上正确，但没点破”偏好”是谁的偏好、由谁定义。本节点不复述 pipeline 机制，只接管它的产品归属问题。
对照 c15 - 数据墙与后训练霸权：c15 论证了后训练成为竞争霸权（数据墙、合成数据、PM 可参与的三个决策环）。本节点与它对话深化——c15 说”PM 可以参与偏好数据设计”,本节点进一步主张”PM 不只是可以参与，是不参与就等于放弃产品定义权”,把 c15 的”机会”升级成”责任”。
对照 RLHF：RLHF 卡是事实上的对齐主条目（含 DPO 推导、五类失败模式、对齐税）。本节点做视角补缺——RLHF 卡从工程失败模式角度讲谄媚/reward hacking，本节点从”这些失败是产品规格缺失的症状”角度重新归因，两者互补不复述。
对照 p306 - 数据飞轮与反馈回路设计：p306 讲”怎么设计反馈回路收集偏好”，本节点讲”收集来的偏好如何隐性定义产品”，是飞轮的上游规格层。
与评测系统化专题评测专题的升级对照：0412 讲 RLHF eval 与 Goodhart——评测是”事后检验行为对不对”。本节点显式升级该视角：行为对不对的标准（spec）本身是产品决策，且早在评测之前就在标注 guideline 里定了。Goodhart 在 0412 是”优化代理指标导致真实目标背离”的评测病理；在本节点是”代理指标（标注 guideline）本身就是产品规格的不完美编码”的规格病理。不复述 Goodhart 机制，只接管它的产品定义含义。

§10 关联节点

核心（必读）

c04 - 模型训练全阶段 Pipeline — 本节点纠偏的工程基础
c15 - 数据墙与后训练霸权 — 本命题的竞争格局背景与对话对象
RLHF — 对齐主条目，失败模式的事实来源
Constitutional AI — “原则即规格”的最强证据与 Goodharting 反例
p306 - 数据飞轮与反馈回路设计 — 偏好收集的下游操作层

延伸（可选）

SFT — 风格/行为示范的最直接编码层
强化学习 — 奖励信号塑造行为的机制基础
合成数据 — AI 反馈替代人工标注后，规格让渡的新形态
幻觉 — 与谄媚相邻的”准确性 vs 讨喜”权衡
DeepSeek — rule-based reward 作为”什么叫做对”的产品定义范本
Anthropic / Claude — Claude’s Constitution 作为公开产品规格
OpenAI / ChatGPT — Model Spec 作为标注 guideline 上游规格
p305 - 信任架构与可解释性设计 — 谄媚与拒答哲学的信任后果
0114认识论 — 规则遵循悖论的认识论入口
0115道德哲学-伦理学 — 价值判断不可完全形式化
AI PM 知识图谱·总索引 — 全局索引

§11 修订日志

2026-06-07 R0：首稿。建立”伪装成训练决策的产品决策”框架；四件套判断主轴四点；维特根斯坦规则遵循悖论跨域呼应；接入 Stuart Russell / B.C. Smith 两个未读对手框架；与 c04/c15/RLHF/p306/0412 升级对照。待核实项已标注。
2026-06-11 P3.4 校链：跨专题死链 0412 评测体系系统化专题→评测系统化专题（§9 升级对照段 1 处）。
2026-06-12 内审修复：统一 GPT-4o sycophancy 博客发布日为 2025-04-29（原 §4 错位三误作 2025-04-30，权威值见 OpenAI《Sycophancy in GPT-4o》）。