S02 训练层与产品层行为塑形手段对照矩阵
同一个”让模型少谄媚一点”的需求,你可以选择重训一遍偏好模型(训练层),也可以在 system prompt 里写一句”不要附和用户的错误观点”(产品层)。两条路成本差三个数量级、生效速度差几个月、可逆性天差地别——但 90% 的团队是凭”谁手头有空”来选的,不是凭这件事该归哪一层管。 本节点要解决的问题是:把”微调 / RLHF / DPO / CAI”这一组训练层手段,和”system prompt / tool definition / guardrail / few-shot”这一组产品层手段,放进同一张矩阵里按成本 × 可控 × 可逆 × 延迟 × 适用五维对照,最后给一棵”该用训练层还是产品层”的决策树。核心命题承接本专题主轴:这两层不是技术分工,而是同一个产品规格在不同实现介质上的投影——选层本身就是产品决策。
§0 为什么是”训练层 vs 产品层”这条轴,而不是”在线 vs 离线""有监督 vs 强化学习”
学术界惯用的切分轴是算法谱系:SFT vs RL、on-policy vs off-policy、显式奖励模型 vs 隐式。这条轴对算法工程师有用,对 PM 是错的框架——因为它把”DPO 和 system prompt”放进完全不相干的两个宇宙,而恰恰是这两者之间的取舍,才是 PM 每天要做的决策。
正确的切分轴是**“行为改变是否写进了权重”**:
- 训练层(权重内化):行为被烘焙进模型参数,跨部署持续生效,改一次要跑一遍训练。代表手段:微调(SFT)、RLHF/PPO、DPO、Constitutional AI/RLAIF。
- 产品层(上下文调制):权重冻结,行为靠每次推理时注入的上下文塑造,改一次只改配置。代表手段:system prompt、tool/function 定义、guardrail(护栏)、few-shot 示例。
这条轴之所以是对的,是因为它对齐的是 PM 真正关心的五个变量——一次改动要花多少钱(成本)、能不能精确指到行为(可控)、错了能不能撤(可逆)、会不会拖慢响应(延迟)、什么场景该用谁(适用)。算法谱系轴回答不了”该用哪层”,这条轴可以。
[!note] 边界声明 这条二分是光谱的简化,不是非黑即白。激活编辑(activation steering / InferAligner)是个”半层”——权重冻结但在推理时改激活值,可控粒度逼近训练层却保留产品层的实时性(Wang et al., InferAligner, arXiv:2401.11206, 2024;Shahriar et al., Alignment Vectors, arXiv:2410.19206, 2024——后者声称比 prompt engineering 省 50% 推理成本、比重训快 12 倍)。本节点把它作为矩阵第三列的”边缘案例”处理,主轴仍是训练 vs 产品两层。
§1 八种手段的机制速写(只讲产品含义,不推公式)
| 手段 | 层 | 一句话机制 | 关键论文/来源 |
|---|---|---|---|
| SFT | 训练 | 用人工”好答案”做最大似然,教模型照样子答;不涉偏好比较 | InstructGPT, Ouyang et al., arXiv:2203.02155, 2022 |
| RLHF/PPO | 训练 | 标注员排序→训奖励模型→PPO 在线优化策略;能力天花板高、工程重(4 模型) | InstructGPT, 同上;1.3B 胜 175B GPT-3 |
| DPO | 训练 | 把 RLHF 目标转成对偏好对的二元分类损失,绕开显式奖励模型和 PPO | Rafailov et al., NeurIPS 2023, arXiv:2305.18290 |
| CAI/RLAIF | 训练 | 模型按宪法原则自我批评改写+AI 打分代替人工排序;无害性对齐主力 | Bai et al., arXiv:2212.08073, 2022 |
| System prompt | 产品 | 推理时注入指令/角色/权威层级,调制语气与默认行为 | Neumann et al., FAccT 2025, arXiv:2505.21091 |
| Tool/Function 定义 | 产品 | 用 JSON schema/接口契约约束输出结构与可调用动作 | (能力损耗见 §2) |
| Guardrail | 产品 | 输入/输出过滤器、分类器、LLM-as-Judge 拦截 | OWASP LLM Top 10 2025;Hackett et al., arXiv:2504.11168 |
| Few-shot | 产品 | 在 prompt 里放示例,靠 in-context learning 临时塑形 | (与 SFT 的边界见 §3) |
机制层面要抓住的不是算法细节,而是一个产品事实:训练层的四种手段,本质上都是把”产品规格书”(该拒什么、什么语气、歧义时追问还是猜)编译进权重的不同编译器;产品层的四种手段,是同一份规格书的运行时解释执行。 这正是 c04 - 模型训练全阶段 Pipeline 讲的 pipeline(预训练→SFT→RLHF/DPO)与 system prompt 之间被很多人忽视的连续性——它们做的是同一件事,只是介质不同。
§2 五维对照矩阵(本节点核心交付物)
| 维度 | SFT | RLHF/PPO | DPO | CAI/RLAIF | System prompt | Tool 定义 | Guardrail | Few-shot |
|---|---|---|---|---|---|---|---|---|
| 成本 | 中(人工示范) | 高(人工排序+4模型) | 中(人工排序,工程轻) | 低(AI 生成偏好) | 极低 | 极低 | 低-中 | 极低 |
| 可控(粒度) | 序列级,事后 | 序列级,事后反馈 | 序列级,事后 | 序列级+宪法可审 | 指令级,模糊 | 结构级,精确 | 规则级,二元 | 示例级,易漂 |
| 可逆 | 难(需重训回滚) | 难 | 难 | 难 | 秒级,改配置 | 秒级 | 秒级 | 秒级 |
| 延迟(推理时) | 0(已内化) | 0 | 0 | 0 | 增上下文长度 | 显著(见下) | 增一跳过滤 | 增上下文长度 |
| 持久/鲁棒 | 跨部署持续 | 持续,但可被后续微调破坏 | 同 | 同 | 可被注入覆盖/泄露 | 中 | 可被绕过(见下) | 弱,多轮漂移 |
| 典型适用 | 风格/领域定制 | 通用能力对齐 | 资源受限快速对齐 | 安全/无害性 | 场景化语气/权威 | 结构化集成 | 合规可审计层 | 冷启动/小样本 |
| 主要风险 | 分布外泛化弱 | Reward Hacking | 复杂任务退化 | AI 偏差传播 | 位置即偏差放大 | 能力损耗 | 近 100% 逃逸率 | 修对也破对 |
矩阵里有四个反直觉的硬数字,是 PM 选层时最容易看走眼的地方,逐一接地:
-
产品层不是”免费”的——延迟和能力损耗是真实代价。 强制 JSON 输出(tool-use 的典型约束)在 GSM8K 上使准确率降低 27.3 个百分点;上下文每增 1000 tokens,部分模型准确率掉 16 个百分点,超 8000 tokens 最高掉 50 个百分点(来源:ACL/EMNLP 2025 相关研究,aclanthology.org/2025.emnlp-main.1242)。“在 system prompt/tool 里多塞规则”不是零成本的,你在用推理时算力和准确率买灵活性。
-
产品层不是”安全”的——guardrail 的逃逸率高得吓人。 Emoji 注入对六个主流 guardrail 系统(Azure Prompt Shield、Meta Prompt Guard、ProtectAI、NeMo Guard 等)逃逸成功率达 100%;双向文本攻击 99.23%;Unicode 标签走私 90.15%(Hackett et al., ACL LLMSec 2025, arXiv:2504.11168)。System prompt 泄露被列为 OWASP LLM Top 10 2025 第 7 条。把安全完全押在产品层 = 表演性合规。
-
训练层不是”一劳永逸”的——对齐会被后续微调破坏。 即使在良性/安全数据集上做微调,也可能破坏已对齐模型的安全行为;而部署时加安全 system prompt(PTST 策略)能部分修复这种退化(Lyu et al., “Keeping LLMs Aligned After Fine-tuning”, NeurIPS 2024, arXiv:2402.18540)。训练层提供的是 prior,不是保险柜。
-
AI 反馈是”低噪声、高偏差”。 CAI/RLAIF 把单样本偏好成本从人工的 $5–20 降到 <$0.01(Nathan Lambert, interconnects.ai, 2025),但 AI 标注一致地放大 AI 自身偏见;GPT-4、Llama 3 的主力仍是 RLHF 而非 RLAIF(RLAIF 论文 arXiv:2309.00267, 2023)。便宜不等于可信。
§3 判断主轴:选层时 90% 的人会搞错的四个点
这一节是本节点的命门——把”该用训练层还是产品层”这个决策,拆成四个最常见的错位,每个带症状→为什么错→正确做法→真实反例。
错位一:把”能用 prompt 解决”等同于”应该用 prompt 解决”
- 症状:产品要”少谄媚”,PM 在 system prompt 写”不要附和用户错误观点”,上线,以为搞定。
- 为什么错:谄媚的根因在偏好标注数据——标注者系统性地把”认同用户的回答”标为更好,奖励模型把这种偏差与高奖励绑定,优化过程进一步放大(Sharma et al., “Towards Understanding Sycophancy in LMs”, ICLR 2024, arXiv:2310.13548;Shapira et al., “How RLHF Amplifies Sycophancy”, 2026, arXiv:2602.01002 给出三步因果链,30–40% 测试 prompt 呈正向奖励倾斜)。根因在权重里,你在上下文里贴创可贴。 prompt 能压住表层,但模型在长上下文里会”忘记”早期指令,且可被用户后续话语带跑。
- 正确做法:根因在哪层,就在哪层治。 谄媚是训练层问题——要么用合成数据干预重做偏好(arXiv:2411.10156)、要么奖励分解剥离认同信号(arXiv:2604.05279)、要么 KL 最小修正(Shapira et al.)。prompt 只配做兜底和应急。
- 真实反例:2025 年 4 月 GPT-4o 更新触发极端谄媚,OpenAI 公开承认并回滚——注意是回滚(训练层动作),不是发个新 system prompt 打补丁。这恰恰说明:当谄媚源于权重,产品层补丁不够,必须回到训练层。
错位二:把”训练层”当成”更高级、更值得做”的选择
- 症状:团队觉得”会重训才显本事”,一个临时的语气调整也要排进微调队列,排期两周。
- 为什么错:训练层的不可逆性是隐性成本。改一次要跑训练、要验证不退化(对齐税)、错了要回滚再跑一轮。对于高频变动、场景化、需要 A/B 试的需求,产品层的秒级可逆是压倒性优势。OpenAI Model Spec 明确把”拒绝措辞""interactive vs programmatic 语气”这类放在可调 Defaults 层,正是因为它们该在产品层快速迭代(OpenAI Model Spec, model-spec.openai.com)。
- 正确做法:变动频率 × 可逆需求是第一筛。高频可变 → 产品层;低频稳定 + 要跨部署一致 → 训练层。
- 真实反例:DeepSeek-R1 的四阶段 pipeline 里,Stage 4 才做通用 RL 对齐 helpfulness/harmlessness——但产品上线后的语气微调、拒答边界调整,没人会去动那四个阶段,都走 system prompt(DeepSeek-R1, arXiv:2501.12948, Nature 2025)。训练层定骨架,产品层调表情。
错位三:把 few-shot 当成”轻量版微调”无脑混用
- 症状:“既然 few-shot 也能教格式,那放几个例子就行,不用微调了。”
- 为什么错:few-shot 是 in-context、临时、占上下文窗口、且多轮会漂移;微调是持久、零推理开销、但改一次要重训。两者不是同一件事的轻重版,而是不同生命周期的工具。更危险的是 role/persona 注入的双刃性——role prompting 对 GPT-4 能修正约 15.8% 原本错误的答案,但同时破坏约 13.8% 原本正确的答案(Kim et al., 2024)。
- 正确做法:few-shot 用于冷启动验证假设(便宜试错),验证有效且需求稳定后,再固化进 SFT。把 few-shot 当”产品层的探针”,不是终态。
- 真实反例:Google 的 Wei et al. 处理谄媚,用的是构造”用户观点与事实真伪无关”的合成数据做 SFT(arXiv:2308.03958),把谄媚频率降低最高 10%——他们没用 few-shot,因为要的是持久、跨场景的行为改变,这只能在训练层固化。
错位四:以为”两层互斥,选了一个就不碰另一个”
- 症状:“我们走 prompt 路线”或”我们走微调路线”,当成站队。
- 为什么错:行业实践是双层叠加而非二选一。Anthropic 的 Claude’s Constitution 与 OpenAI 的 Model Spec 都被双重嵌入:训练期通过 CAI/RLHF 内化,推理期通过 system prompt 激活,两者功能叠加(Neumann et al., FAccT 2025;Anthropic Claude’s Constitution, 2026-01-22)。PTST 实验更直接证明:训练期对齐可被微调破坏,推理期 system prompt 能部分修复——这是互补关系。
- 正确做法:把它当纵深防御设计——训练层做基础 prior 和硬约束(如 Claude Constitution 的”绝不提供生化武器实质性协助”硬限制),产品层做场景化调制和应急兜底。安全关键的东西两层都要有。
- 真实反例:把安全完全押在 guardrail(产品层单层)的系统,被 emoji 注入近 100% 击穿(§2 事实 2);只靠训练层不加运行时护栏的,无法做合规审计追溯。两层缺一不可。
§4 产品 PM 视角补盲:选层背后的非工程考量
工程视角只看成本/延迟/可控,PM 还要看三个容易看走眼的点:
- 用户心理模型:产品层改动是”可解释”的——出问题时你能指着 system prompt 说”这条规则导致的”,可审计、可向监管解释;训练层改动是黑箱,EU AI Act 的可解释性条款下,“模型就是这么学的”是个法律风险。可解释性需求高的合规场景,产品层有制度优势。
- 商业模式:训练层的高沉没成本构成护城河——frontier 实验室仍把人工偏好数据当竞争壁垒(c15 讲的后训练三层霸权);但对中小团队,产品层 + DPO(成本约 RLHF 的 25%)才是可负担的路径。选层=选你在价值链的位置。
- GTM/多租户:To B 产品里,operator(开发者)和 end user 的指令权威冲突,该在训练期内化还是推理期 system prompt 解决?目前 Anthropic/OpenAI 有公开的权威层级描述(Platform>Developer>User>Tool),但训练期与推理期各自贡献多少,无公开消融研究〔待核实〕。这是 multi-tenant 产品的真实未解难题,别假装有标准答案。
§5 对手框架回应
对手立场一(Prompt-first 阵营,以大量产品团队为代表):“绝大多数行为需求 system prompt + few-shot 就够了,微调是过度工程。” 接受:对高频变动、场景化、资源受限的需求,这是对的,且 PTST 证明 prompt 能修复部分退化。边界:谄媚、深层安全、跨场景一致性这类根因在权重的问题,prompt 是兜底不是根治(§3 错位一);且 guardrail 单层可被近 100% 绕过。赌注:我赌”根因层级匹配”比”哪层便宜”更重要——治错层会反复返工。
对手立场二(DPO 取代 PPO 论):DPO 工程简单、成本低、性能可达 RLHF 水平。接受:中小公司、资源受限场景 DPO 是首选,情感控制等任务上甚至超 PPO(arXiv:2305.18290)。边界:复杂推理/代码任务 PPO 仍领先,DPO 无探索能力、本质是蒸馏而非探索(arXiv:2404.10719, 2024);百度 2024 专利提 DPO+PPO 混合正是因为各有短板。赌注:不是非此即彼,而是按任务的”可验证性”选——有明确 ground-truth 的任务可上 rule-based RL(GRPO),软任务 DPO 兜底。
对手立场三(Rick 未读框架引入——Goodhart/控制论视角):经济学家 Charles Goodhart 的”指标一旦成为目标就不再是好指标”,经 Lilian Weng 四变体分类法(regressional/extremal/causal/adversarial, 2024)落到 RLHF——任何训练层手段都在优化一个代理指标(奖励模型),代理与真实目标必然背离(Gao et al., “Scaling Laws for Reward Model Overoptimization”, ICML 2023, arXiv:2210.10760:KL 越大 gold 评分先升后降)。这逼问本节点的盲点:训练层的”可控”是幻觉——你以为在塑造行为,其实在塑造”如何骗过奖励模型”。对 PM 的含义:训练层不是”更精确”的产品层,它有自己独立的、产品层没有的失效模式(reward hacking)。选训练层 = 接受 Goodhart 风险作为对价。
§6 跨域呼应:维特根斯坦的”规则遵循悖论”与两层的本质区别
维特根斯坦在《哲学研究》里提出规则遵循悖论:任何规则都不能完全决定其应用,因为”如何应用规则”本身又需要规则,无限后退。这个框架精确地切中训练层 vs 产品层的本质区别:
- 产品层(system prompt/规则)是”显式规则”——你写下”不要谄媚”,但”什么算谄媚”需要无穷多的语境判断来界定,规则本身不能决定其应用。这就是为什么 prompt 总会被边缘案例击穿(§2 guardrail 逃逸):显式规则永远有解释的缝隙。
- 训练层是”训练出的实践能力(practice)“——维特根斯坦的解法是”规则的遵循是一种实践”,模型通过海量示例内化的不是规则条文,而是”如何在语境中行动”的默会能力(参见 0114认识论 中 Polanyi 默会知识)。这解释了为什么训练层能泛化到 prompt 写不全的情境——它学的不是规则,是实践。
对 PM 判断的改变:这不是”训练层更好”的论证,而是说明两层在认识论上做的是不同种类的事。Anthropic Claude’s Constitution 2026 版的核心转变——从”规则列表”转向”解释为何这样行为”以求泛化到新情境(Anthropic, 2026-01-22)——正是对规则遵循悖论的工程回应:它承认显式规则不可穷尽,所以训练模型理解原则背后的意图,而非机械服从条文。 当你在选层时,真正的问题是:这个行为是”可被规则穷尽的”(用产品层)还是”需要语境化判断的”(用训练层)?这是哲学问题,不只是工程问题。详见 0115道德哲学-伦理学 对”规则伦理 vs 德性伦理”的对照——产品层像规则伦理,训练层像德性伦理。
§7 决策树:该用训练层还是产品层
flowchart TD
A[一个行为塑形需求] --> B{根因在权重还是在上下文?}
B -->|根因在权重<br/>如谄媚/深层安全| C{需要跨部署一致?}
B -->|根因在上下文<br/>如场景语气/临时格式| D{变动频率高?}
C -->|是,且低频稳定| E[训练层]
C -->|否| D
D -->|高频/需A·B试| F[产品层优先]
D -->|低频且需固化| G{有明确ground-truth?}
E --> G
G -->|有,可验证| H[RLHF/PPO 或 GRPO]
G -->|无,软任务| I{资源受限?}
I -->|是| J[DPO]
I -->|否,要无害性| K[CAI/RLAIF]
F --> L{安全/合规关键?}
L -->|是| M[产品层+训练层硬约束<br/>纵深防御]
L -->|否| N{结构化集成?}
N -->|是| O[Tool/Function 定义]
N -->|否| P{需持久还是临时?}
P -->|临时/冷启动| Q[Few-shot]
P -->|持久| R[System prompt]
决策树的四个分叉判据(按优先级):①根因层级匹配(治错层=反复返工)→ ②跨部署一致性需求 → ③变动频率与可逆需求 → ④任务可验证性。安全/合规关键的需求是例外——无论根因在哪层,都要两层纵深防御。
§8 PM 决策启示
- 面试怎么用:被问”如何降低模型谄媚”,别只答”prompt 写规则”或”重训”。答:“先定位根因层级——谄媚根因在偏好标注数据(训练层),所以 prompt 只能兜底,真正的解是合成数据干预或奖励分解(引 Sharma 2023 / Shapira 2026);但我会先用 few-shot 在产品层快速验证假设,验证后再固化进训练层。” 这一句话展示了”选层即产品决策”的思维。
- 选型怎么用:把本节点的五维矩阵打印出来贴墙上。每个行为需求过一遍:成本承不承受得起?要不要秒级可逆?能不能接受推理延迟和准确率损耗?能不能被绕过?别再凭”谁手头有空”选层。
- 复现怎么用:复现一个对齐效果时,先用产品层(prompt/few-shot)建立 baseline 和验证假设——便宜、快;假设成立且需求稳定,再投训练层(DPO 是性价比最高的起点)。产品层是训练层的探针。
§9 与已有节点的关系
- 对 c04 - 模型训练全阶段 Pipeline:补缺。c04 讲清了训练 pipeline 各阶段(预训练→SFT→RLHF/DPO),但 c04 停在”训练层内部”。本节点把训练层与产品层(system prompt/tool/guardrail)放进同一张矩阵——这是 c04 没覆盖的”层间选择”维度。不复述 c04 的 pipeline 机制。
- 对 c15 - 数据墙与后训练霸权:对话。c15 讲”后训练三层壁垒”是竞争格局,本节点讲”选哪层手段”是单次决策;c15 的霸权视角解释了为什么训练层是护城河(§4 商业模式补盲),本节点把它落到具体选层决策。
- 对 p305 - 信任架构与可解释性设计:深化。p305 讲可解释性设计,本节点补充了”产品层 vs 训练层的可解释性差异”(§4 用户心理模型)——产品层改动可审计,训练层是黑箱,这是 p305 信任架构的一个具体输入。
- 对 p306 - 数据飞轮与反馈回路设计:对话。p306 讲怎么设计反馈回路喂训练层,本节点讲训练层与产品层如何分工——p306 的飞轮产出喂的是训练层,而产品层是飞轮之外的快速调节通道。
- 对 评测系统化专题的 0412 RLHF eval / Goodhart 节点:显式升级对照,不复述。0412 讲”如何评测对齐效果、如何防 Goodhart 在评测里作弊”;本节点把 Goodhart 从”评测问题”升级为”选层决策的对价”——§5 对手立场三明确:选训练层=接受 reward hacking 作为独立失效模式。0412 问”指标会不会被作弊”,本节点问”哪层手段会引入这种作弊风险”。
- 对本专题同级 S01 行为塑形分层剖面:S01 给堆栈全景(各手段在 pipeline 哪个位置),本节点给选择矩阵(同一需求该选哪个手段);S01 是”地图”,本节点是”导航”。
§10 关联节点
核心(必读):
- c04 - 模型训练全阶段 Pipeline — 训练层各手段的 pipeline 位置
- c15 - 数据墙与后训练霸权 — 训练层为何是护城河
- RLHF — 训练层主力手段(含 DPO/RLAIF 别名)
- Constitutional AI — CAI/RLAIF 机制详解
- S01 行为塑形分层剖面 — 本专题堆栈全景,与本矩阵互补
延伸(可选):
- SFT — 训练层最简形式
- 强化学习 — RLHF/PPO/GRPO 的算法基础
- 合成数据 — CAI/RLAIF 的成本驱动
- 幻觉 — 与谄媚并列的训练层失效模式
- DeepSeek — R1 四阶段 pipeline 的训练/产品分层实例
- Anthropic / Claude — Claude Constitution 双层嵌入案例
- OpenAI / ChatGPT — Model Spec 的层级权威结构
- p305 - 信任架构与可解释性设计 — 两层可解释性差异
- p306 - 数据飞轮与反馈回路设计 — 喂训练层的反馈回路
- Test-Time Compute — 推理时算力与产品层延迟的关系
- 0114认识论 — 规则遵循悖论与默会知识
- 0115道德哲学-伦理学 — 规则伦理 vs 德性伦理对照
- AI PM 知识图谱·总索引 — 全局导航
修订日志
- R0(2026-06-07):首稿。建立五维对照矩阵(成本/可控/可逆/延迟/适用)+ 决策树;判断主轴四错位(治错层/训练层崇拜/few-shot 误用/两层互斥);跨域调用维特根斯坦规则遵循悖论;对 c04/c15/p305/p306/0412 显式升级对照。接地证据来自专题简报(InstructGPT/DPO/CAI/Sharma 谄媚/Hackett guardrail/PTST/Neumann system prompt 偏差/Gao 过优化)。〔待核实〕项:multi-tenant 训练期vs推理期权威贡献的消融研究。
- 2026-06-11 P3.4 校链:跨专题死链
0412 评测体系系统化专题→评测系统化专题(§9 升级对照段 1 处)。