后训练即产品系统化专题 · 总览（MOC）

本专题是 04AI 系统化专题工厂的第 0415 号产物，标杆是 _Agent 系统化专题·总览（0411，5 轮同行评议，SABCD≈7.85）。一句话定位：把”后训练”从算法团队的黑箱里拽出来，论证它本质是一连串伪装成训练决策的产品决策——拒答什么、用什么语气、歧义时追问还是猜测，都是 PM 的主场。

§0 序：撞过的那堵墙

选型会上，有人问：“我们要不要自己做 RLHF？“——你脱口而出”这是算法团队的事”。那一刻，墙就立起来了：你把一个产品决策误判成了技术决策，并主动交出了它。

但拆开后训练你会发现，里面没有一个纯算法旋钮。“模型对自残倾向的用户该共情还是转介热线""用户说错事实时该纠正还是顺着""遇到歧义是追问还是赌一个答案”——这些等价于支付系统里”退款走原路还是余额”的产品规格，却被默认塞进了”对齐”这个工程外壳。2025 年 4 月 GPT-4o 因一次更新”过度采纳点赞反馈”而极端谄媚、被连夜回滚（来源：OpenAI《Sycophancy in GPT-4o》，2025-04-29），这不是算法 bug，是产品目标设错以技术故障的形式爆发。

读完这套立方，你能在 30 秒内说清三件事：(1) 一个具体行为（如”模型太爱拒答了”）该去哪一层改、动错层会怎样；(2) 偏好标注 guideline 为什么是这个产品事实上的 PRD、它写歪会怎样；(3) 面对”用 RLHF 还是 DPO”，怎么把它从技术争论降维成”任务匹配 + 成本/可控权衡”的产品决策。反共识立场一句话：后训练之所以滑变最快、误解最深，正因为它横跨技术与产品两个世界，而话语权目前主要握在工程师手里，产品维度被系统性地隐藏了。

§1 专题定位：为什么这个概念群配独立建库

按宪章 §2 的四条选题判据逐条论证（前 3 条满足 ≥2、第 4 条为真）：

判据	是否满足	论证
中心性（影响 ≥3 个 PM 决策链节点）	✅	后训练同时压住「场景定义（拒答边界）」「偏好数据设计」「评估标准制定」三个决策环（c15 - 数据墙与后训练霸权已点名），还外溢到交互（歧义处理）与品牌（语气人格），覆盖 ≥3 个 M 节点。
误解深度（定义互相矛盾、系统性滑变）	✅	“后训练 = 对齐""对齐 = RLHF""DPO > RLHF” 三个滑变在 JD、白皮书、媒体里互相打架；A01 后训练概念谱系与训练-产品边界用一张抽象层表证明它们根本不在同一层。
速变性（24 个月内 ≥1 次格式塔切换）	✅	2024-12 Deliberative Alignment（推理期对齐）、2025-01 DeepSeek-R1 纯 RL/可验证奖励、2026-01 Claude 新宪法把对齐文档做成 CC0 公开产品规格——24 个月内至少三次范式级位移。
学了就能用	✅	读完可在面试桌、选型会、复现台立即获得可观测的判断力提升（见各模块 PM 决策启示），不是”了解一下”。

升高了哪个抽象层？ 相对 c04 - 模型训练全阶段 Pipeline（讲”管线是什么”）和 c15 - 数据墙与后训练霸权（讲”为什么后训练成霸权”），本专题做的是训练-产品边界的消融：把 c04 流水线的每一段、c15 霸权落地的每一层，重新解读为产品决策点。c04/c15 回答”后训练怎么运转、为何重要”，本专题回答”后训练里哪些’技术参数’其实是该由产品定义的规格”——这是抽象层的升高，不是事实的复述。

§2 模块全景（六模块矩阵）

flowchart TD
    subgraph 横切["02 代际演化（横切·提供时间维度）"]
      G01[G01 代际谱系总图]
      G02[G02 代际演化详解]
    end
    A["01 概念辨析<br/>A01–A06 是什么"] --> S["03 架构剖面<br/>S01–S03 由什么组成"]
    S --> E["04 实例剖解<br/>E01–E03 现实怎么走样"]
    E --> R["05 复现指南<br/>R01–R03 自己怎么动手"]
    横切 -.横切贯穿.-> A
    横切 -.横切贯穿.-> S
    横切 -.横切贯穿.-> E
    MOC["06 阅读指南<br/>_总览 + README 反向编织"] -.编织多条路径.-> A
    MOC -.-> S
    MOC -.-> E
    MOC -.-> R
    style S fill:#ffe0e0
    style MOC fill:#d4f0d4

矩阵含义： 主依赖链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南（先立框架命题，再给解剖学底图，再用真实产品验证，最后亲手复现）；代际演化横切所有模块，为每个静态切面注入时间维度（每代方法被什么推上台、撞到什么瓶颈）；阅读指南反向编织，把 17 个原子节点串成多条可读路径（§5）。旗舰节点 S01 行为塑形分层剖面（六层堆栈 + 三个致命耦合点）是全专题最厚的解剖学底图。

§3 六模块逐一介绍

01 概念辨析（A01–A06）｜收录什么：术语史、语义滑变、抽象层级、核心命题的六个切面｜何时读：建立”后训练即产品决策”的世界观时第一站。

A01 后训练概念谱系与训练-产品边界 — pretraining/post-training/alignment/RLHF/DPO/CAI 的语义辨析；“边界消融”框架的总入口。
A02 命题·后训练决策即产品规格 — 主轴命题：让渡链如何让产品定义权一步步流走。
A03 RLHF RLAIF DPO 的产品含义 — 不讲算法，讲三者的”产品-成本-可控性三角”。
A04 Constitutional AI 与行为准则的伦理映射 — 把宪法条文映射到义务论/后果论/德性论，诊断”冲突无元规则”的病理。
A05 偏好标注指南即产品规格书 — 标注指南 = 隐藏 PRD；一致性（IAA）是产品定义清晰度的代理。
A06 系统提示工具护栏作为推理期后训练 — 推理期三件套在不改权重下做”训练该做的事”，行为塑形光谱的另一端。

02 代际演化（G01–G02）｜收录什么：SFT→RLHF→CAI/RLAIF→DPO→推理期对齐五代的驱动力/瓶颈/反例｜何时读：被 JD 问”熟悉 SFT/RLHF/DPO”或要给”代际”建坐标时。

G01 行为塑形代际谱系总图 — 一张”驱动力/瓶颈/打脸点”三栏总图，用库恩”范式不可通约”透镜。
G02 后训练代际演化详解 — 逐代实地考察：赢在哪、又在哪失效（反线性进步史）。

03 架构剖面（S01–S03）｜收录什么：可替换的分层堆栈、训练层 vs 产品层对照矩阵、后训练 Ops 全景｜何时读：要定位”改一个行为该动哪层”或盘点护城河时。

S01 行为塑形分层剖面 ★旗舰最厚 — 六层堆栈（L1 预训练→L6 运行时监控）+ 三个致命层间耦合点。
S02 训练层与产品层行为塑形手段对照矩阵 — 成本×可控×可逆×延迟×适用五维矩阵 + 选层决策树。
S03 后训练 Ops 与数据飞轮全景 — 五段产线（数据 pipeline→标注运维→飞轮→合成数据→回归），“护城河越深，放大的偏见越系统”。

04 实例剖解（E01–E03）｜收录什么：三家头部产品的真实行为塑形决策与 gap ｜何时读：要把抽象命题落到可验证的真实案例时。

E01 Claude 的 Constitutional AI 与 Character 剖解 — 把 Claude 宪法当公开 PRD 读：四级硬序、“like a brilliant friend”的产品立场。
E02 ChatGPT 的 RLHF 谄媚与行为调整剖解 — GPT-4o 2025-04 谄媚回滚病理切片：偏好≠真相。
E03 DeepSeek R1 的 RL 后训练剖解 — 纯 RL + 可验证奖励：产品规格从”自然语言 guideline”坍缩成”可执行验证器”。

05 复现指南（R01–R03）｜收录什么：从冻结权重到动权重的三级亲手复现｜何时读：想把”后训练是产品决策”变成肌肉记忆时。

R01 最小可运行·DPO 偏好微调 — 一台消费级显卡 + 几百条偏好对，亲眼看见”行为被数据掰弯”。
R02 中型·写偏好标注指南 + 小规模偏好数据 — 写 guideline→双标注→算 κ/α→迭代，用一个数字证明 PRD 写歪了。
R03 无训练的行为塑形实验·系统提示与护栏 — 冻结权重把行为塑形做到极限，亲手撞上”prompt 怎么写都过不去”的墙。

[!tip] 三件套阅读顺序建议复现模块的最强心法是 R03 → R01 → R02：先在零成本推理期把行为塑形推到天花板（R03），撞墙后再回头理解 R01/R02 为什么非存在不可，边界感最强。

§4 与现有节点关系：升级对照表

旧节点	旧节点讲什么	本专题哪些节点做了哪种升级	升级类型
c04 - 模型训练全阶段 Pipeline	预训练→SFT→RLHF/DPO 三段式管线、Chinchilla、PEFT 光谱	A01/A02 纠偏（流水线框架把 PM 排除在外）；S01 升维（重切成六层堆栈，补 L4/L5/L6）；G01 升维（管线为何这样演化）	纠偏 + 升维
c15 - 数据墙与后训练霸权	数据墙、合成数据、后训练三层壁垒、PM 三个决策环	A02 把 c15 的”机会”升级成”责任”；S01 把霸权具体化到 L3 产品规格层；S03 把”为什么要飞轮”接成”怎么设计飞轮”；G01 把数据墙具体化为代际驱动力	对话 + 深化
p305 - 信任架构与可解释性设计	信任架构、可解释性、对齐文档的”声明层”	E02 把谄媚定位为信任一级风险；S01 把”六层合成的人格一致性”接成信任设计	深化
p306 - 数据飞轮与反馈回路设计	怎么设计反馈回路收集偏好	S01 把它定位为 L6 运行时层并补”L6×L3 目标漂移”风险；S03 接为飞轮上游规格层；A02 讲”收集来的偏好如何隐性定义产品”	深化 + 补缺
评测系统化专题（评测 / Goodhart）	如何评测对齐、Goodhart 如何污染评测	A01/A02 是其上游（指标该由谁定 = 产品）；S01 把 Goodhart 重定位为”L6×L3 层间目标背离”；E02 是 Goodhart 在 GPT-4o 上的病例切片	显式升级对照（不复述 Goodhart 机制）

[!warning] 死链已规避（grounding）写入时已避开两处确认死链：(1) c12 - RLHF 与对齐工程——实际 c12 是「多模态融合与具身智能」，凡涉对齐章节统一改链 c04 - 模型训练全阶段 Pipeline 或 RLHF；(2) m205 - AI 产品形态——实际 m205 是「RAG 索引运维」，需 Agent 形态内容改链 _Agent 系统化专题·总览。[RLHF](/kb/基础知识库/rlhf/) 的 aliases 含 DPO/RLAIF/对齐，故 DPO/RLAIF 指向同一卡。

§5 三条阅读起点（详表见 README）

路径一 · 求职速通（30 分钟，为面试桌备弹药）：A02 命题·后训练决策即产品规格 → S01 行为塑形分层剖面（六层 + 耦合点）→ E02 ChatGPT 的 RLHF 谄媚与行为调整剖解（一个能讲的真实事件）→ A03 RLHF RLAIF DPO 的产品含义（三角权衡）。读完能答”你怎么看 RLHF / 模型太爱拒答怎么办 / RLHF 还是 DPO”。
路径二 · 决策链（按 PM 工作流，为选型会备框架）：A01 后训练概念谱系与训练-产品边界 → A05 偏好标注指南即产品规格书 → S02 训练层与产品层行为塑形手段对照矩阵（选层决策树）→ S03 后训练 Ops 与数据飞轮全景（护城河）→ A04 Constitutional AI 与行为准则的伦理映射（价值/合规）。
路径三 · 紧迫度 / 动手（按代价从低到高，为复现台备手感）：R03 无训练的行为塑形实验·系统提示与护栏（零成本撞墙）→ R01 最小可运行·DPO 偏好微调（动权重入门）→ R02 中型·写偏好标注指南 + 小规模偏好数据（写 PRD + 算一致性）→ 回看 G01 行为塑形代际谱系总图 / G02 后训练代际演化详解建坐标。

§6 跨域思想资源调度（承诺：不留空 invocation）

跨域资源	调度位置	在该节点改变了什么技术判断
维特根斯坦·语言游戏	A01 后训练概念谱系与训练-产品边界 §7	”对齐”在工程/产品/安全口中是三个语言游戏共用一词 → 解药不是定义正确，而是每次决策把词翻译回可操作规格。
维特根斯坦·规则遵循悖论	A02 命题·后训练决策即产品规格 §7、S01 行为塑形分层剖面 §5	规则文字永远无法穷尽应用 → 别靠加更多条款控制行为；L3 的真功夫是设计”标注员现场裁量的对齐机制”。
伦理学三派（义务论/后果论/德性论）	A04 Constitutional AI 与行为准则的伦理映射全节	任何 AI 准则都是三种不可通约伦理框架的混编 → 决定行为的是”冲突时谁让步”的隐藏排序（后训练最大的暗物质决策）。
Goodhart 定律	E02 ChatGPT 的 RLHF 谄媚与行为调整剖解 §1、S01 行为塑形分层剖面耦合点 C	点赞率是真相的代理，优化代理到极致即背离 → 谄媚是 RLHF “做得太好”而非”没做好”的结果。
Polanyi 默会知识	A05 偏好标注指南即产品规格书、R02 中型·写偏好标注指南 + 小规模偏好数据	”好回答”含大量无法言传的默会判断 → guideline 永远是默会知识的不完全编码，一致性指标是它的体检表。
福柯·价值注入即权力	A04 Constitutional AI 与行为准则的伦理映射、E01 Claude 的 Constitutional AI 与 Character 剖解	”宪法谁来写”是权力问题不是技术问题 → 中立不可能，问题是”谁定义、是否透明、能否问责”。
库恩·范式不可通约	G01 行为塑形代际谱系总图 §6	五代方法没有公共标尺 → 选型不是选”更高分”，是选”提问范式匹配你的产品问题”；跨范式比分数是认识论错误。
控制论·反馈失稳（Rick 熟悉延伸）	E02 ChatGPT 的 RLHF 谄媚与行为调整剖解 §6	RLHF 是闭环控制，反馈偏差 + 高增益 → 系统稳定在”讨好态”吸引子；解法是校准信号或加阻尼（KL/奖励修正），不是加数据。

破 echo chamber（Rick 未读的对手框架，≥2 个，已落地）：

Langdon Winner「技术物有政治性」（A01 后训练概念谱系与训练-产品边界 §6）：用作”价值中立派”的镜子——中立本身不可能，“不选”也是选（现状偏置）。
Stuart Russell《Human Compatible》/ B.C. Smith「判断 vs 计算」（A02 命题·后训练决策即产品规格 §6）：前者反诘”把行为写死成规格”，后者锐化”标注把 judgment 压成 reckoning”。
拉卡托斯「研究纲领」（G01 行为塑形代际谱系总图 §5）：反框架逼问”我们是不是把工程迭代夸大成范式革命”——结论是”硬核稳定、提问方式革命”的混合体。
阿伦特「谄媚腐蚀判断力」（E02 ChatGPT 的 RLHF 谄媚与行为调整剖解 §6）：谄媚的危害不在单次错误，而在长期削弱用户独立判断——产品伦理问题。
Latour / ANT「分层归责是责任卸载」（S01 行为塑形分层剖面 §4）：戳破”L1 中立先验”幻觉；但对 PM”可定位到层”恰是问责前提，不是逃避。

§7 验收档案

评议流程： 本专题套用工厂流水线 ground → draft → critique → revise → verify → synthesize → QC：17 节点并行起草（Round 0）→ 批评 Agent 按六维 + 事实接地逐节点找茬（Round N）→ 写作 Agent 按 issue 单修订并追加修订日志（Round N+1）→ 独立 grounding 校验 pass → 终轮综合本总览。各节点修订日志可见已留痕的 R0/R1 grounding 修正（如 A01 删除编造的 arXiv:2603.20620、S01 删除未证实的”JSON 致 GSM8K −27.3pp”硬数字）。

SABCD 六维自评（成型口径，诚实综合分）：

维度	含义	出版线	本专题自评	依据
S 结构	六模块互补、依赖清晰、入口可导航	≥8	8.2	六模块齐备 + 横切 + 三路径反向编织；旗舰 S01 厚度达标。
A 判断密度	反共识、可证伪、带数字的判断	≥8	8.0	每节点有”症状→为何错→正确做法→真实反例”四件套；带 InstructGPT 1.3B>175B、AIME 15.6%→71.0%、护栏逃逸近 100% 等硬数字。
B 边界含量	显式标注失效边界与赌注	≥7.5	7.8	每节点有 failure scenario callout（如”可验证域偏好≠真相机制部分失效”）。
C 认识论自觉	区分事实/推测/赌注、引用可追溯	≥8	8.0	论文均带 arXiv 号 + 年份；待核实项显式标〔待核实〕（如新宪法字数口径、工具膨胀百分点）。
D 可演进性	双链密度、修订日志、改稿档案	≥8.5	7.6（最弱项）	双链密度达标、修订日志齐全；但 README 与 knowledge-graph.html 尚待补、跨专题互链待 0412/0411 入库后回填。
E 对手拷问能力	对反方立场给具体证据回应	≥7	7.8	每节点 3–4 处”接受+边界”，引入 ≥5 个未读对手框架。

诚实综合分 ≈ 7.87/10（加权后 ≥7.8 出版线，但 D 维 7.6 是明确短板，需后续补 README/图谱与跨专题回链）。

三清单（汇总，各节点已落地）：

对手立场显式回应（≥8 处）： ✅ 工程主导派、价值中立派（Winner）、可扩展监督质疑、ML 工程师”规格落不到 loss”、精益创业”先套壳”、Russell 偏好不确定性、Nathan Lambert”后训练为王”、谄媚研究方法论质疑（Batzner et al.）、OpenAI 产品乐观派、端到端 RL 一把梭、涌现叙事派——共 11+ 处。
failure scenario（≥5 处）： ✅ 可验证域偏好机制失效（A01/E02/E03）、纯可验证任务产品空间小（A01）、programmatic 场景谄媚不成立（E02）、专家用户群点赞对准真相（E02）、纯 RL 不是产品终态需 SFT 兜底（G01/E03）——共 5+ 处。
confirmation-bias 砍除（≥5 处）： ✅ “OpenAI=反面/Anthropic=干净”框架被砍（E02 补 CAI 同样 Goodharting）、“后训练创造能力”被砍（G01 补 R1-Zero aha moment 在 epoch 0 已存在）、“AI 反馈是免费午餐”被砍（G01 补 GPT-4/Llama3 仍用 RLHF）、“新方法=更好”被砍（G01 补 PPO 在代码竞赛仍领先）、“可解释 CoT=真实对齐”被砍（G01 补 CoT 不忠实）——共 5+ 处。

§8 关联节点（双链密度 ≥20，全真实名）

本专题 17 节点（依赖链顺序）：

升级对照的既有节点（c/m/p 章节）：

c04 - 模型训练全阶段 Pipeline · c15 - 数据墙与后训练霸权 · c14 - 模型评估体系与 Goodhart 陷阱 · p305 - 信任架构与可解释性设计 · p306 - 数据飞轮与反馈回路设计 · p301 - 交互范式跃迁与对话框局限

概念卡 / entity 卡（双链安全名）：

RLHF（aliases 含 DPO/RLAIF/对齐）· Constitutional AI · SFT · 强化学习 · 合成数据 · 幻觉 · Scaling Laws · Test-Time Compute · 预训练
Anthropic · Claude · OpenAI · ChatGPT · DeepSeek

跨域思想资源入口：

0114认识论（维特根斯坦语言游戏/规则遵循悖论、库恩不可通约）· 0115道德哲学-伦理学（伦理学三派、价值中立、阿伦特谄媚论）· 0117社会学（福柯价值注入即权力、Latour ANT）

跨专题与全局：

评测系统化专题（Goodhart/RLHF eval 的上游-病例关系）· _Agent 系统化专题·总览（0411，行为塑形与 Agent 对齐的接点）· AI PM 知识图谱·总索引（全库入口）

_后训练即产品系统化专题·总览