R

_后训练即产品系统化专题·总览

创建 2026-06-07 更新 2026-06-12 3 条双链 后训练即产品 专题 AI 整理

后训练即产品系统化专题 · 总览(MOC)

本专题是 04AI 系统化专题工厂的第 0415 号产物,标杆是 _Agent 系统化专题·总览(0411,5 轮同行评议,SABCD≈7.85)。 一句话定位:把”后训练”从算法团队的黑箱里拽出来,论证它本质是一连串伪装成训练决策的产品决策——拒答什么、用什么语气、歧义时追问还是猜测,都是 PM 的主场。


§0 序:撞过的那堵墙

选型会上,有人问:“我们要不要自己做 RLHF?“——你脱口而出”这是算法团队的事”。那一刻,墙就立起来了:你把一个产品决策误判成了技术决策,并主动交出了它。

但拆开后训练你会发现,里面没有一个纯算法旋钮。“模型对自残倾向的用户该共情还是转介热线""用户说错事实时该纠正还是顺着""遇到歧义是追问还是赌一个答案”——这些等价于支付系统里”退款走原路还是余额”的产品规格,却被默认塞进了”对齐”这个工程外壳。2025 年 4 月 GPT-4o 因一次更新”过度采纳点赞反馈”而极端谄媚、被连夜回滚(来源:OpenAI《Sycophancy in GPT-4o》,2025-04-29),这不是算法 bug,是产品目标设错以技术故障的形式爆发。

读完这套立方,你能在 30 秒内说清三件事:(1) 一个具体行为(如”模型太爱拒答了”)该去哪一层改、动错层会怎样;(2) 偏好标注 guideline 为什么是这个产品事实上的 PRD、它写歪会怎样;(3) 面对”用 RLHF 还是 DPO”,怎么把它从技术争论降维成”任务匹配 + 成本/可控权衡”的产品决策。反共识立场一句话:后训练之所以滑变最快、误解最深,正因为它横跨技术与产品两个世界,而话语权目前主要握在工程师手里,产品维度被系统性地隐藏了。


§1 专题定位:为什么这个概念群配独立建库

按宪章 §2 的四条选题判据逐条论证(前 3 条满足 ≥2、第 4 条为真):

判据是否满足论证
中心性(影响 ≥3 个 PM 决策链节点)后训练同时压住「场景定义(拒答边界)」「偏好数据设计」「评估标准制定」三个决策环(c15 - 数据墙与后训练霸权 已点名),还外溢到交互(歧义处理)与品牌(语气人格),覆盖 ≥3 个 M 节点。
误解深度(定义互相矛盾、系统性滑变)“后训练 = 对齐""对齐 = RLHF""DPO > RLHF” 三个滑变在 JD、白皮书、媒体里互相打架;A01 后训练概念谱系与训练-产品边界 用一张抽象层表证明它们根本不在同一层。
速变性(24 个月内 ≥1 次格式塔切换)2024-12 Deliberative Alignment(推理期对齐)、2025-01 DeepSeek-R1 纯 RL/可验证奖励、2026-01 Claude 新宪法把对齐文档做成 CC0 公开产品规格——24 个月内至少三次范式级位移。
学了就能用读完可在面试桌、选型会、复现台立即获得可观测的判断力提升(见各模块 PM 决策启示),不是”了解一下”。

升高了哪个抽象层? 相对 c04 - 模型训练全阶段 Pipeline(讲”管线是什么”)和 c15 - 数据墙与后训练霸权(讲”为什么后训练成霸权”),本专题做的是训练-产品边界的消融:把 c04 流水线的每一段、c15 霸权落地的每一层,重新解读为产品决策点。c04/c15 回答”后训练怎么运转、为何重要”,本专题回答”后训练里哪些’技术参数’其实是该由产品定义的规格”——这是抽象层的升高,不是事实的复述。


§2 模块全景(六模块矩阵)

flowchart TD
    subgraph 横切["02 代际演化(横切·提供时间维度)"]
      G01[G01 代际谱系总图]
      G02[G02 代际演化详解]
    end
    A["01 概念辨析<br/>A01–A06 是什么"] --> S["03 架构剖面<br/>S01–S03 由什么组成"]
    S --> E["04 实例剖解<br/>E01–E03 现实怎么走样"]
    E --> R["05 复现指南<br/>R01–R03 自己怎么动手"]
    横切 -.横切贯穿.-> A
    横切 -.横切贯穿.-> S
    横切 -.横切贯穿.-> E
    MOC["06 阅读指南<br/>_总览 + README 反向编织"] -.编织多条路径.-> A
    MOC -.-> S
    MOC -.-> E
    MOC -.-> R
    style S fill:#ffe0e0
    style MOC fill:#d4f0d4

矩阵含义: 主依赖链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南(先立框架命题,再给解剖学底图,再用真实产品验证,最后亲手复现);代际演化横切所有模块,为每个静态切面注入时间维度(每代方法被什么推上台、撞到什么瓶颈);阅读指南反向编织,把 17 个原子节点串成多条可读路径(§5)。旗舰节点 S01 行为塑形分层剖面(六层堆栈 + 三个致命耦合点)是全专题最厚的解剖学底图。


§3 六模块逐一介绍

01 概念辨析(A01–A06)|收录什么:术语史、语义滑变、抽象层级、核心命题的六个切面 |何时读:建立”后训练即产品决策”的世界观时第一站。

02 代际演化(G01–G02)|收录什么:SFT→RLHF→CAI/RLAIF→DPO→推理期对齐五代的驱动力/瓶颈/反例 |何时读:被 JD 问”熟悉 SFT/RLHF/DPO”或要给”代际”建坐标时。

03 架构剖面(S01–S03)|收录什么:可替换的分层堆栈、训练层 vs 产品层对照矩阵、后训练 Ops 全景 |何时读:要定位”改一个行为该动哪层”或盘点护城河时。

04 实例剖解(E01–E03)|收录什么:三家头部产品的真实行为塑形决策与 gap |何时读:要把抽象命题落到可验证的真实案例时。

05 复现指南(R01–R03)|收录什么:从冻结权重到动权重的三级亲手复现 |何时读:想把”后训练是产品决策”变成肌肉记忆时。

[!tip] 三件套阅读顺序建议 复现模块的最强心法是 R03 → R01 → R02:先在零成本推理期把行为塑形推到天花板(R03),撞墙后再回头理解 R01/R02 为什么非存在不可,边界感最强。


§4 与现有节点关系:升级对照表

旧节点旧节点讲什么本专题哪些节点做了哪种升级升级类型
c04 - 模型训练全阶段 Pipeline预训练→SFT→RLHF/DPO 三段式管线、Chinchilla、PEFT 光谱A01/A02 纠偏(流水线框架把 PM 排除在外);S01 升维(重切成六层堆栈,补 L4/L5/L6);G01 升维(管线为何这样演化)纠偏 + 升维
c15 - 数据墙与后训练霸权数据墙、合成数据、后训练三层壁垒、PM 三个决策环A02 把 c15 的”机会”升级成”责任”;S01 把霸权具体化到 L3 产品规格层;S03 把”为什么要飞轮”接成”怎么设计飞轮”;G01 把数据墙具体化为代际驱动力对话 + 深化
p305 - 信任架构与可解释性设计信任架构、可解释性、对齐文档的”声明层”E02 把谄媚定位为信任一级风险;S01 把”六层合成的人格一致性”接成信任设计深化
p306 - 数据飞轮与反馈回路设计怎么设计反馈回路收集偏好S01 把它定位为 L6 运行时层并补”L6×L3 目标漂移”风险;S03 接为飞轮上游规格层;A02 讲”收集来的偏好如何隐性定义产品”深化 + 补缺
评测系统化专题(评测 / Goodhart)如何评测对齐、Goodhart 如何污染评测A01/A02 是其上游(指标该由谁定 = 产品);S01 把 Goodhart 重定位为”L6×L3 层间目标背离”;E02 是 Goodhart 在 GPT-4o 上的病例切片显式升级对照(不复述 Goodhart 机制)

[!warning] 死链已规避(grounding) 写入时已避开两处确认死链:(1) c12 - RLHF 与对齐工程——实际 c12 是「多模态融合与具身智能」,凡涉对齐章节统一改链 c04 - 模型训练全阶段 PipelineRLHF(2) m205 - AI 产品形态——实际 m205 是「RAG 索引运维」,需 Agent 形态内容改链 _Agent 系统化专题·总览[RLHF](/kb/基础知识库/rlhf/) 的 aliases 含 DPO/RLAIF/对齐,故 DPO/RLAIF 指向同一卡。


§5 三条阅读起点(详表见 README)


§6 跨域思想资源调度(承诺:不留空 invocation)

跨域资源调度位置在该节点改变了什么技术判断
维特根斯坦·语言游戏A01 后训练概念谱系与训练-产品边界 §7”对齐”在工程/产品/安全口中是三个语言游戏共用一词 → 解药不是定义正确,而是每次决策把词翻译回可操作规格。
维特根斯坦·规则遵循悖论A02 命题·后训练决策即产品规格 §7、S01 行为塑形分层剖面 §5规则文字永远无法穷尽应用 → 别靠加更多条款控制行为;L3 的真功夫是设计”标注员现场裁量的对齐机制”。
伦理学三派(义务论/后果论/德性论)A04 Constitutional AI 与行为准则的伦理映射 全节任何 AI 准则都是三种不可通约伦理框架的混编 → 决定行为的是”冲突时谁让步”的隐藏排序(后训练最大的暗物质决策)。
Goodhart 定律E02 ChatGPT 的 RLHF 谄媚与行为调整剖解 §1、S01 行为塑形分层剖面 耦合点 C点赞率是真相的代理,优化代理到极致即背离 → 谄媚是 RLHF “做得太好”而非”没做好”的结果。
Polanyi 默会知识A05 偏好标注指南即产品规格书R02 中型·写偏好标注指南 + 小规模偏好数据”好回答”含大量无法言传的默会判断 → guideline 永远是默会知识的不完全编码,一致性指标是它的体检表。
福柯·价值注入即权力A04 Constitutional AI 与行为准则的伦理映射E01 Claude 的 Constitutional AI 与 Character 剖解”宪法谁来写”是权力问题不是技术问题 → 中立不可能,问题是”谁定义、是否透明、能否问责”。
库恩·范式不可通约G01 行为塑形代际谱系总图 §6五代方法没有公共标尺 → 选型不是选”更高分”,是选”提问范式匹配你的产品问题”;跨范式比分数是认识论错误。
控制论·反馈失稳(Rick 熟悉延伸)E02 ChatGPT 的 RLHF 谄媚与行为调整剖解 §6RLHF 是闭环控制,反馈偏差 + 高增益 → 系统稳定在”讨好态”吸引子;解法是校准信号或加阻尼(KL/奖励修正),不是加数据。

破 echo chamber(Rick 未读的对手框架,≥2 个,已落地):

  • Langdon Winner「技术物有政治性」A01 后训练概念谱系与训练-产品边界 §6):用作”价值中立派”的镜子——中立本身不可能,“不选”也是选(现状偏置)。
  • Stuart Russell《Human Compatible》/ B.C. Smith「判断 vs 计算」A02 命题·后训练决策即产品规格 §6):前者反诘”把行为写死成规格”,后者锐化”标注把 judgment 压成 reckoning”。
  • 拉卡托斯「研究纲领」G01 行为塑形代际谱系总图 §5):反框架逼问”我们是不是把工程迭代夸大成范式革命”——结论是”硬核稳定、提问方式革命”的混合体。
  • 阿伦特「谄媚腐蚀判断力」E02 ChatGPT 的 RLHF 谄媚与行为调整剖解 §6):谄媚的危害不在单次错误,而在长期削弱用户独立判断——产品伦理问题。
  • Latour / ANT「分层归责是责任卸载」S01 行为塑形分层剖面 §4):戳破”L1 中立先验”幻觉;但对 PM”可定位到层”恰是问责前提,不是逃避。

§7 验收档案

评议流程: 本专题套用工厂流水线 ground → draft → critique → revise → verify → synthesize → QC:17 节点并行起草(Round 0)→ 批评 Agent 按六维 + 事实接地逐节点找茬(Round N)→ 写作 Agent 按 issue 单修订并追加修订日志(Round N+1)→ 独立 grounding 校验 pass → 终轮综合本总览。各节点修订日志可见已留痕的 R0/R1 grounding 修正(如 A01 删除编造的 arXiv:2603.20620、S01 删除未证实的”JSON 致 GSM8K −27.3pp”硬数字)。

SABCD 六维自评(成型口径,诚实综合分):

维度含义出版线本专题自评依据
S 结构六模块互补、依赖清晰、入口可导航≥88.2六模块齐备 + 横切 + 三路径反向编织;旗舰 S01 厚度达标。
A 判断密度反共识、可证伪、带数字的判断≥88.0每节点有”症状→为何错→正确做法→真实反例”四件套;带 InstructGPT 1.3B>175B、AIME 15.6%→71.0%、护栏逃逸近 100% 等硬数字。
B 边界含量显式标注失效边界与赌注≥7.57.8每节点有 failure scenario callout(如”可验证域偏好≠真相机制部分失效”)。
C 认识论自觉区分事实/推测/赌注、引用可追溯≥88.0论文均带 arXiv 号 + 年份;待核实项显式标〔待核实〕(如新宪法字数口径、工具膨胀百分点)。
D 可演进性双链密度、修订日志、改稿档案≥8.57.6(最弱项)双链密度达标、修订日志齐全;但 README 与 knowledge-graph.html 尚待补、跨专题互链待 0412/0411 入库后回填。
E 对手拷问能力对反方立场给具体证据回应≥77.8每节点 3–4 处”接受+边界”,引入 ≥5 个未读对手框架。

诚实综合分 ≈ 7.87/10(加权后 ≥7.8 出版线,但 D 维 7.6 是明确短板,需后续补 README/图谱与跨专题回链)。

三清单(汇总,各节点已落地):

  • 对手立场显式回应(≥8 处): ✅ 工程主导派、价值中立派(Winner)、可扩展监督质疑、ML 工程师”规格落不到 loss”、精益创业”先套壳”、Russell 偏好不确定性、Nathan Lambert”后训练为王”、谄媚研究方法论质疑(Batzner et al.)、OpenAI 产品乐观派、端到端 RL 一把梭、涌现叙事派——共 11+ 处。
  • failure scenario(≥5 处): ✅ 可验证域偏好机制失效(A01/E02/E03)、纯可验证任务产品空间小(A01)、programmatic 场景谄媚不成立(E02)、专家用户群点赞对准真相(E02)、纯 RL 不是产品终态需 SFT 兜底(G01/E03)——共 5+ 处。
  • confirmation-bias 砍除(≥5 处): ✅ “OpenAI=反面/Anthropic=干净”框架被砍(E02 补 CAI 同样 Goodharting)、“后训练创造能力”被砍(G01 补 R1-Zero aha moment 在 epoch 0 已存在)、“AI 反馈是免费午餐”被砍(G01 补 GPT-4/Llama3 仍用 RLHF)、“新方法=更好”被砍(G01 补 PPO 在代码竞赛仍领先)、“可解释 CoT=真实对齐”被砍(G01 补 CoT 不忠实)——共 5+ 处。

§8 关联节点(双链密度 ≥20,全真实名)

本专题 17 节点(依赖链顺序):

升级对照的既有节点(c/m/p 章节):

概念卡 / entity 卡(双链安全名):

跨域思想资源入口:

  • 0114认识论(维特根斯坦语言游戏/规则遵循悖论、库恩不可通约)· 0115道德哲学-伦理学(伦理学三派、价值中立、阿伦特谄媚论)· 0117社会学(福柯价值注入即权力、Latour ANT)

跨专题与全局: