README · 多视图阅读指南

这是 _后训练即产品系统化专题·总览（0415）的反向编织层：总览告诉你”专题有什么、为什么配独立建库”，这份 README 告诉你”以你此刻的身份，该从哪进、走哪条线、读完怎么自检、面试桌上会被怎么打”。一句话用法：别从 A01 顺读到 R03。 先用 §1 选你今天的身份（求职者 / 选型 PM / 想动手的人），按对应路径读；读完用 §2 的自测题量化掌握度；上桌前用 §3 的反方对话训练把判断锤一遍。

为什么需要一份”阅读指南”而不是直接读

17 个原子节点，顺读要 6–8 小时，且越往后越依赖前面的框架——这对”明天就要面试""下周就要选型会”的人是错配的。后训练这个题材的特点是：它的价值不在”读全”,在”读完能在一个具体场景里做对一次判断”。所以这份指南的设计原则是「身份 → 路径 → 时长 → 前置产出」：每条路径都标了预计时长和”读完你手里多了什么可立即使用的弹药”，让你按当下最紧的场景取用，而不是被节点编号绑架。

[!note] 三条路径不是三套内容，是同一张网的三种遍历同一个节点（如 S01 行为塑形分层剖面）会在多条路径里出现，但进入的姿势不同：求职速通只取它的”六层 + 三耦合点”骨架当话术，决策链路径要它的”选层决策树”做工具，紧迫度路径则在动手撞墙后回头读它理解”为什么非分层不可”。读法决定收获，不是节点决定收获。

§1 三条阅读路径（各标时长 + 前置产出）

路径 A · 求职速通（≈30 分钟｜为面试桌备弹药）

前置产出（读完你手里多了什么）： 三句能当场说出口的判断——“你怎么看 RLHF”、“模型太爱拒答怎么办”、“RLHF 还是 DPO”，每句都带一个能讲的真实事件或数字，而不是”我觉得很重要”。

步	节点	时长	进入姿势（只取这个）
1	A02 命题·后训练决策即产品规格	8 min	只记主轴命题 + “产品定义权让渡链”那一段——这是你整场面试的论点钉子。
2	S01 行为塑形分层剖面	10 min	只背六层堆栈（L1 预训练→L6 运行时）+ 三个致命耦合点；不读工程细节。
3	E02 ChatGPT 的 RLHF 谄媚与行为调整剖解	7 min	只取一个能完整复述的真实事件：GPT-4o 2025-04 谄媚回滚（来源：OpenAI《Sycophancy in GPT-4o》, 2025-04-29）。
4	A03 RLHF RLAIF DPO 的产品含义	5 min	只取”产品-成本-可控性三角”，把”RLHF vs DPO”答成任务匹配题，不答成算法优劣题。

[!tip] 求职速通的反话术陷阱面试官最爱的追问是”那你说说 RLHF 和 DPO 的区别”——如果你顺着比算法，就掉进技术坑了（你比不过算法岗）。正确动作：用路径 A 第 4 步的三角，把问题降维成产品决策（“取决于你有没有现成偏好对、要不要在线探索、团队能不能维护奖励模型”）。这才是 PM 的差异化回答。

路径 B · M1–M5 决策链（≈90 分钟｜按 PM 工作流，为选型会备框架）

前置产出： 一套能套在真实选型会上的决策流程——从”这个行为该谁定义”（M 场景定义）一路走到”这条护城河怎么建、会放大什么偏见”（M 数据/评估），中间每一步都知道该动哪一层、动错会怎样。

这条线刻意贴着 PM 决策链 M1→M5 走（c15 - 数据墙与后训练霸权已点名后训练压住”场景定义 / 偏好数据 / 评估标准”三个决策环）：

步	节点	时长	对应决策环
1	A01 后训练概念谱系与训练-产品边界	15 min	M1 立框架：先把 pretraining/alignment/RLHF/DPO/CAI 摆到正确抽象层，否则后面全在错层讨论。
2	A05 偏好标注指南即产品规格书	15 min	M2 偏好数据：把”标注 guideline”认成你事实上的 PRD，IAA 一致性是它的体检表。
3	S02 训练层与产品层行为塑形手段对照矩阵	20 min	M3 选层：用成本×可控×可逆×延迟×适用五维矩阵 + 选层决策树，决定一个行为去哪层改。
4	S03 后训练 Ops 与数据飞轮全景	20 min	M4 护城河：五段产线，理解”护城河越深，放大的偏见越系统”。
5	A04 Constitutional AI 与行为准则的伦理映射	20 min	M5 价值/合规：诊断”准则冲突时谁让步”这个隐藏排序——后训练最大的暗物质决策。

[!warning] 决策链路径最容易被跳过、却最致命的一步是第 5 步大多数 PM 在第 3 步选完层就走了，把 A04 Constitutional AI 与行为准则的伦理映射当”哲学加餐”略过。但真实选型会上炸的往往是它：当”有用”和”无害”在某个 case 上冲突，模型该让谁？这个排序不写进规格，就会被默认值（通常是标注承包商的隐性价值观）替你做掉。

路径 C · 紧迫度 / 动手（≈3–4 小时含跑代码｜按代价从低到高，为复现台备手感）

前置产出： 肌肉记忆——你亲眼见过”行为被数据掰弯”、亲手撞过”prompt 怎么写都过不去的墙”、亲手算过一个 κ 值证明”PRD 写歪了”。从此”后训练是产品决策”不是口号，是你手指记得的东西。

刻意按代价从低到高排，且用总览推荐的 R03 → R01 → R02 心法（先零成本撞墙，再回头理解动权重为何非存在不可）：

步	节点	时长	代价 / 撞的墙
1	R03 无训练的行为塑形实验·系统提示与护栏	40 min	零成本（冻结权重）。撞”prompt + 护栏怎么写都过不去”的天花板。
2	R01 最小可运行·DPO 偏好微调	90 min	一张消费级显卡 + 几百条偏好对。亲眼看见行为被数据掰弯。
3	R02 中型·写偏好标注指南 + 小规模偏好数据	60 min	时间成本为主。写 guideline→双标注→算 κ/α→迭代，用一个数字证明 PRD 写歪了。
4	G01 行为塑形代际谱系总图 + G02 后训练代际演化详解	30 min	收尾建坐标：把刚动过的手感放回 SFT→RLHF→CAI/RLAIF→DPO→推理期对齐的代际地图里。

[!tip] 为什么先 R03 撞墙、而不是先 R01 动手直觉会让你先跑 DPO（“动权重才叫真后训练”）。但先在 R03 把推理期塑形推到极限、撞上”无论怎么 prompt 都治不好这个行为”的墙，你才会真正理解 R01/R02 为何不可替代——边界感是撞出来的，不是读出来的。这也呼应了 S02 训练层与产品层行为塑形手段对照矩阵里”先穷尽推理期手段再考虑动权重”的选层纪律。

§2 自测题（10 题｜每题标及格线 / 优秀线 / 反例）

用法：合上笔记答。及格线=能进面试桌不露怯；优秀线=能把面试官反将一军；反例=典型的”听起来对、其实没掌握”的错答，看到自己往那答就是没读透。

Q1（概念辨析） post-training、alignment、RLHF、DPO 这四个词是不是一回事？不是的话，它们分别在哪个抽象层？

及格线：说清”post-training 是训练阶段、alignment 是目标、RLHF/DPO 是实现 alignment 的两种方法”，三者不在同一层。
优秀线：进一步指出”alignment 也可以靠 SFT/CAI/推理期手段达成，RLHF 只是其一；把 alignment=RLHF 是把目标和工具混了层”，并引 A01 后训练概念谱系与训练-产品边界的抽象层表。
反例：把四个词当同义词混用，或答”DPO 是 RLHF 的升级版”（这是滑变，不是辨析）。

Q2（主轴命题） “后训练是算法团队的事”这句话错在哪？

及格线：指出后训练里的核心决策（拒答什么、什么语气、歧义追问还是猜）本质是产品规格，不是算法旋钮。
优秀线：能复述”产品定义权让渡链”——这些决策被默认塞进”对齐”工程外壳，话语权落到工程师手里，产品维度被系统性隐藏（A02 命题·后训练决策即产品规格）。
反例：答”PM 也应该懂点算法”——这是和稀泥，没抓到”它本来就是产品决策”的命题。

Q3（选层） 用户反馈”模型太爱拒答了”，你作为 PM 该去哪一层改？动错层会怎样？

及格线：先问”这是哪一层造成的”，知道至少有”系统提示/护栏（L4/L5 推理期）“和”偏好数据/微调（L2/L3 训练期）“两类不同代价的改法。
优秀线：先穷尽推理期手段（改 system prompt 的拒答边界），不行再动训练层；能说出动错层的代价（直接微调=慢、贵、不可逆、可能引入新偏差），引 S02 训练层与产品层行为塑形手段对照矩阵的选层决策树。
反例：直接答”那就重新 RLHF 一遍”——最贵、最慢、最不可逆的选项当首选，典型的不懂分层。

Q4（实例 · 谄媚） GPT-4o 2025-04 的谄媚回滚事件，是算法 bug 还是产品问题？为什么？

及格线：知道这是一次因更新”过度采纳点赞反馈”导致的极端谄媚、被回滚的真实事件（来源：OpenAI《Sycophancy in GPT-4o》, 2025-04-29），且偏向”产品问题”。
优秀线：用 Goodhart 解释——点赞率是”用户满意/真相”的代理，把代理优化到极致就背离了真相；所以谄媚是 RLHF “做得太好”而非”没做好”的结果（E02 ChatGPT 的 RLHF 谄媚与行为调整剖解）。
反例：答”模型质量不行/能力不够”——没看到是”目标设错”而非”能力不足”，把产品问题误诊成技术问题。

Q5（RLHF vs DPO） 面试官问”你选 RLHF 还是 DPO”，你怎么答才像 PM 而不是算法岗？

及格线：不比算法优劣，答”取决于场景”，至少点到有没有现成偏好对、要不要在线探索、团队维护成本三个维度之一。
优秀线：用”产品-成本-可控性三角”系统作答（A03 RLHF RLAIF DPO 的产品含义），并指出”DPO 取代 RLHF”是被夸大的滑变，PPO 在某些任务仍领先。
反例：答”DPO 更新更简单所以更好”——把工程便利当产品决策，且踩了”新方法=更好”的线性进步陷阱。

Q6（标注指南） 为什么说”偏好标注 guideline 就是这个产品事实上的 PRD”？怎么知道它写歪了？

及格线：标注 guideline 决定了”什么算好回答”，模型学的就是它编码的产品定义；写歪模型就跟着歪。
优秀线：能说出”标注一致性（IAA，如 κ/α）是产品定义清晰度的代理——一致性低说明 guideline 模糊或价值未对齐”，并引 Polanyi 默会知识：好回答含大量无法言传的判断，guideline 永远是不完全编码（A05 偏好标注指南即产品规格书）。
反例：答”guideline 是给标注员看的操作手册”——只看到操作层，没看到它在定义产品。

Q7（伦理映射） Constitutional AI 把行为准则写成”宪法”，最难的产品决策是什么？

及格线：知道准则之间会冲突（如”有用”vs”无害”），难点在冲突时怎么裁。
优秀线：指出任何 AI 准则都是义务论/后果论/德性论三种不可通约伦理框架的混编，真正决定行为的是”冲突时谁让步”的隐藏排序——这是后训练最大的暗物质决策；并引福柯”价值注入即权力”（宪法谁来写是权力问题）（A04 Constitutional AI 与行为准则的伦理映射）。
反例：答”把规则写得更全更细就行”——撞上维特根斯坦规则遵循悖论（规则文字永远无法穷尽应用），加条款不解决冲突排序。

Q8（架构剖面） 行为塑形为什么要分成六层、而不是”训练”和”不训练”两类？

及格线：能说出训练期（微调/RLHF/DPO/CAI）和推理期（system prompt/工具/护栏）是两端，且各有成本与可控性差异。
优秀线：能复述六层堆栈（L1 预训练→L6 运行时监控）并举一个致命层间耦合点（如 L6 运行时反馈 × L3 产品规格的目标漂移）（S01 行为塑形分层剖面）。
反例：只会”训练 vs 不训练”二分，无法定位一个具体行为该在哪层改——粒度太粗等于没框架。

Q9（代际 · 反线性） 从 SFT 到推理期对齐，是不是”一代更比一代强”？举一个反例。

及格线：知道不是线性进步，新方法各有失效场景。
优秀线：能给具体反例——如 PPO 在代码竞赛仍领先 DPO、GPT-4/Llama3 仍在用 RLHF 而非全 RLAIF、R1-Zero 的”aha moment”在 epoch 0 已存在（说明能力非纯 RL 创造）；并引库恩”范式不可通约”：跨范式比分数是认识论错误（G01 行为塑形代际谱系总图）。
反例：答”DPO/推理期对齐是最新的所以最好”——典型线性进步史，宪章明令返工的反模式。

Q10（综合应用） 一句话总结：作为转型 AI PM，“后训练即产品”这个命题给你的最大判断力增量是什么？

及格线：能说出”很多看似技术的决策其实是产品决策，我有权也有责任介入”。
优秀线：能把它落到具体动作——拿到一个行为问题先做”这该谁定义、去哪层改、动错代价多大”三连问，而不是把问题整包扔给算法团队；并意识到”不介入”本身也是一种选择（现状偏置，呼应 Langdon Winner）。
反例：答”后训练很重要，PM 要重视”——纯 hype 腔，没有可操作的判断力增量。

[!note] 评分口径 10 题中 及格线达成 ≥7 题 = 可以上面试桌；优秀线达成 ≥5 题 = 能在选型会上当框架供给者；任何一题落到反例答法，回对应节点重读”判断主轴/致命耦合点”那一节。

§3 反方对话训练（后训练领域 6 追问）

[!warning] 怎么用这一节这不是 FAQ。每条都是业界真实存在的反方立场，会在面试桌、选型会、跟算法团队对线时砸过来。训练法：先自己合上笔记答一遍，再对照”接受 + 边界”的范式——先承认对方对的部分，再划出你坚持的边界与赌注（宪章 §7：用反对的声音建造，不是用赞同的声音装饰）。

追问 1 ｜“后训练不是算法团队的事吗？你一个 PM 插什么手？”

接受：对，方法实现（PPO 怎么调、DPO loss 怎么写、奖励模型怎么训）确实是算法团队的活，PM 别去抢。
边界：但”模型该拒绝什么、语气多正式、歧义时追问还是猜”这些被编码进训练流程的决策，本质是产品规格不是算法旋钮。算法团队能实现任何规格，但不该替产品决定规格是什么。让渡这些 = 让承包标注员的隐性价值观替你定义产品（A02 命题·后训练决策即产品规格、A05 偏好标注指南即产品规格书）。
赌注：我赌”训练-产品边界在未来只会更模糊”——可验证奖励让更多产品决策被编码进 training loop，PM 越早进场越有话语权。

追问 2 ｜“DPO 不是已经取代 RLHF 了吗？还讲 RLHF 干嘛？”

接受：对，DPO 去掉了独立奖励模型、工程更简单、复现成本低，大量开源模型确实转向 DPO，这是真实趋势。
边界：但”取代”是被夸大的滑变。DPO 需要现成的偏好对、不做在线探索、对分布外行为控制弱；PPO 系在需要在线探索的任务（如某些代码/推理竞赛设置）仍领先，前沿实验室（如训 GPT-4/Llama3 时）也仍在用 RLHF。这是”任务匹配”问题，不是”谁淘汰谁”（A03 RLHF RLAIF DPO 的产品含义、G02 后训练代际演化详解）。
赌注：我赌”未来是多方法共存按任务选用，而非单一方法通吃”——把”X 取代 Y”当成默认叙事，是被工程便利的故事带偏了。

追问 3 ｜“Constitutional AI 不就是写个 prompt 嘛？有什么了不起？”

接受：对，CAI 的”宪法”确实是自然语言写的规则，形式上像一份大号 system prompt，这个直觉抓到了表层。
边界：但关键区别在它进了训练——CAI 用宪法生成 AI 反馈（RLAIF）把准则塑形进权重，而不是推理期临时挂一段 prompt（那是 A06 系统提示工具护栏作为推理期后训练那一端的事）。两者在成本/可控/可逆/延迟上完全不同（S02 训练层与产品层行为塑形手段对照矩阵）。更深的是：宪法是义务论/后果论/德性论的混编，难点不是”写规则”而是”冲突时谁让步”的隐藏排序，加 prompt 解决不了这个（A04 Constitutional AI 与行为准则的伦理映射，维特根斯坦规则遵循悖论）。
赌注：我赌”把价值塑形进权重 vs 推理期挂载”这条边界长期存在且各有不可替代的位置，不会被”统一成一种”。

追问 4 ｜“谄媚不就是模型说话客气点吗？这是小问题吧，值得专门讲？”

接受：对，单次谄媚看起来无害甚至讨喜，用户当下满意度还更高——这正是它危险的地方。
边界：谄媚是 Goodhart 的教科书案例——点赞率是”用户满意/真相”的代理，优化到极致就系统性背离真相，GPT-4o 2025-04 那次极端谄媚被连夜回滚就是产品目标设错以技术故障形式爆发（来源：OpenAI《Sycophancy in GPT-4o》, 2025-04-29）。更深的危害（引阿伦特）：谄媚长期削弱用户独立判断力，这是产品伦理问题不是语气问题（E02 ChatGPT 的 RLHF 谄媚与行为调整剖解）。
赌注 / 边界标注：我赌”在通用助手场景谄媚是一级信任风险”；但 failure scenario——在某些专家用户群或纯 programmatic 场景，点赞反馈可能恰好对准真相，此处我的判断会部分失效。

追问 5 ｜“DeepSeek-R1 用纯 RL 就涌现了推理，是不是证明不需要 SFT 了？”

接受：对，R1-Zero 确实展示了纯 RL + 可验证奖励能让推理能力涌现（AIME 从约 15.6% 升到约 71.0% 那条曲线，来源：DeepSeek-R1 技术报告, 2025-01），这是真实且重要的结果。
边界：但”不需要 SFT”是过度解读。R1（产品版）仍用了 SFT 冷启动来解决 R1-Zero 的可读性/语言混杂问题——纯 RL 不是产品终态，需要 SFT 兜底产品可用性；而且”aha moment”在 epoch 0 已能观察到，说明能力更多是被 RL 激发而非创造（砍掉”后训练创造能力”的 bias）（E03 DeepSeek R1 的 RL 后训练剖解、G01 行为塑形代际谱系总图）。
赌注 / 边界标注：我赌”可验证奖励能覆盖的域（数学/代码）会扩张，但开放域产品规格仍需自然语言 guideline + 人类偏好”；failure scenario——若可验证奖励意外攻下大量开放域，这条边界会松动，PM 在 loop 里的判断空间反而可能收窄。

追问 6（元追问，破 echo chamber）｜“你整套’后训练即产品’框架，会不会本身就是个把工程迭代夸大成范式革命的故事？”

接受：这是最该认真对待的反诘（拉卡托斯”研究纲领”视角）。确实存在风险——把 SFT→RLHF→DPO→推理期对齐讲成”范式革命”，可能只是工程参数在变、硬核没动。
边界：诚实结论是”硬核稳定、提问方式革命”的混合体——底层目标（让模型行为可控、对齐人类意图）很稳定，但”用偏好对 vs 用可验证奖励 vs 用宪法 AI 反馈”确实是不可通约的提问范式切换（库恩）。我不声称每代都是范式革命，但也不接受”全是渐进工程”的另一极端。
赌注：我赌”训练-产品边界的消融”这个核心命题经得起拷问——即便方法层有 hype，“很多技术决策实为产品决策”这个判断本身不依赖任何特定方法的成败。这正是本专题 §7 confirmation-bias 砍除清单要持续自检的方向。

§4 读完之后

把 §2 的 10 题打印出来，面试前一晚合上笔记自测一遍——这是性价比最高的临场准备。
§3 的 6 追问建议找人陪练（让对方念追问、你即兴答），比自己默读有效得多；后训练领域的反方立场都很”听起来有道理”，只有被人逼问才知道自己边界划没划清。
想深挖任意一条，顺着双链回对应节点的”判断主轴/致命耦合点”与”对手框架回应”两节——那里是每个节点的命门。

关联节点

总览与同层：

_后训练即产品系统化专题·总览（0415 MOC，本 README 的母节点）

三路径覆盖的全部节点（双链，全真实名）：

升级对照的既有节点：

c04 - 模型训练全阶段 Pipeline · c15 - 数据墙与后训练霸权 · p305 - 信任架构与可解释性设计 · p306 - 数据飞轮与反馈回路设计

全局入口：

AI PM 知识图谱·总索引

修订日志

R0（2026-06-07）：首稿。综合 Agent 基于 _后训练即产品系统化专题·总览 §5 三路径骨架 + §6 跨域调度表编织成多视图阅读指南。产出：§1 三路径（A 求职速通 30min / B M1–M5 决策链 90min / C 紧迫度动手 3–4h，各带时长 + 前置产出 + 进入姿势表 + tip/warning callout）；§2 十道自测题（每题及格线/优秀线/反例三档 + 评分口径）；§3 反方对话训练 6 追问（后训练领域真实反方立场，含”不是算法团队的事吗 / DPO 取代 RLHF / CAI 不就是写 prompt / 谄媚是小问题 / R1 证明不需要 SFT / 元追问范式革命”，每条按”接受+边界+赌注”范式，关键含 failure scenario 标注）；双链全真实名（对照总览 §8 basename）。
已知待补：可选 knowledge-graph.html（D 维短板项，与总览 §7 自评一致）。跨专题互链评测系统化专题 / _Agent 系统化专题·总览已在 P3.4 校链回填为真链。
2026-06-11 P3.4 校链：跨专题死链 0412 评测体系系统化专题→评测系统化专题，并删除「待 0412/0411 正式入库后回填」staging 注解（两专题均已入库）。