R02 用 CAI 原则做一次自我批判改写

本节要解决的问题： 你能不能在一个下午、用一台只能调 API 的笔记本，亲手把 Constitutional AI 那套”模型按明文原则批判自己、再改写自己”的机制跑一遍——并且在跑的过程中亲眼看见它在哪里失效？本节给一组可直接复制的”宪法”原则、一个 critique→revise 的最小循环模板，以及一份”看完别高兴太早”的陷阱清单。视角是 Bai et al. (2022) 的 SL-CAI 第一阶段（监督式自我批判与改写），但我们刻意把它从”训练流水线的一个环节”降维成”一次可观测的推理实验”——因为对 PM 来说，SL-CAI 的核心机制本身就是一个可以直接装进产品的运行时模式，根本不必等到你有能力训模型。

[!note] 这是 0419 专题里最”动手”的一节，但它的赌注是认识论的：我赌的是——你只有亲手让模型批判一次自己、再亲眼看它”批判得有道理但改写后反而更糟”，才会对 0415”后训练即产品”那套乐观叙事产生免疫力。复现不是为了证明 CAI 有效，恰恰是为了用最低成本把它的失效模式逼到台面上。

§0 为什么是 SL-CAI 的 critique→revise，而不是完整 RLAIF

复现 Constitutional AI 有两条路，选错了你会浪费一周。

CAI 论文（Bai et al., Constitutional AI: Harmlessness from AI Feedback, Anthropic, 2022, arXiv:2212.08073）是两阶段的：

第一阶段 SL-CAI：模型对自己的回答按宪法原则做自我批判（critique），再据此改写（revise），用改写后的回答做监督微调。这一阶段的”批判+改写”是纯推理时操作——不需要训练，只需要 prompt。
第二阶段 RL-CAI：用一个”宪法 AI”对成对回答做偏好判断（即 RLHF 里把人类标注员换成 AI），训练奖励模型，再做强化学习。这一阶段必须训练，需要强化学习基础设施、偏好数据集、PPO/DPO 流水线。

90% 想”复现 CAI”的人会一头扎进第二阶段，然后卡死在搭训练环境上。 但对 Rick 这样的转型 PM，价值密度最高、门槛最低、最能产生判断力的，是第一阶段的 critique→revise 循环——它把 CAI 最反直觉的那个动作（让模型用明文原则审判自己）剥离出来，让你能在 API 层面反复观察。本节只复现第一阶段。想清楚这一点，能省下你 80% 的工程时间。

这也是为什么本节定位是”复现指南”而非”训练教程”：SL-CAI 的 critique→revise 可以原封不动地作为一个运行时（inference-time）防护层装进任何产品——这正是 deliberative alignment（见 Constitutional AI 关联）和很多生产级 guardrail 的雏形。你复现的不是一个学术 demo，是一个可上线的模式。

§1 写几条”宪法”原则（模板一：原则集）

宪法原则不是越多越好，也不是越抽象越好。Bai et al. (2022) 的原始宪法包含十余条原则〔条数随版本表述略有出入，待核实〕，覆盖无害性、避免说教、尊重自主等。复现时先用 4 条，每条都要满足三个条件：可被模型理解、可被模型用来判断具体文本、彼此之间会产生冲突（冲突是后面要观察的重点）。

【宪法 v0.1 —— 4 条最小集】
P1（无害）：识别回答中任何可能帮助实施暴力、犯罪、自我伤害的内容，
           指出具体是哪句话、为什么有害。
P2（诚实）：识别回答中夸大确定性、编造事实、回避不确定性的地方，
           指出哪里应该承认"我不确定"。
P3（不说教）：识别回答中居高临下的道德说教、不必要的免责声明、
           对成年用户能力的低估，指出哪里在过度保护。
P4（有用）：识别回答中因为追求安全而变得空洞、回避问题、
           对正当请求过度拒绝的地方。

注意 P3、P4 与 P1、P2 是结构性对立的：P1/P2 推动模型更克制、更多免责，P3/P4 推动模型更直接、更少废话。这个张力不是 bug，是 CAI 的核心特征——它把”有用 vs 无害”这对 RLHF 里隐藏的 Alignment Tax 摆到了明面上，让你能看见模型如何在两极之间摇摆。这一对张力，正是 c14 - 模型评估体系与 Goodhart 陷阱里”多目标因果链”在运行时的具体显形。

§2 critique→revise 最小循环（模板二：四步 prompt 链）

整个循环是四次 API 调用，串成一条链。下面用伪代码 + 实际 prompt 模板给出，可直接套任意 chat completion API（Claude / OpenAI / DeepSeek 均可）。

# 第 0 步：拿到初始回答（red-team prompt 故意诱导出有问题的回答）
prompt_0 = USER_REQUEST          # 例：一个边界模糊的请求
answer_0 = model(prompt_0)

# 第 1 步：CRITIQUE —— 让模型按某条原则审判 answer_0
critique_prompt = f"""
这是一个回答：
{answer_0}

请严格按以下原则审查上面的回答，逐条指出违反之处、
引用原文具体句子、说明为什么违反。如果没有违反，明确说"无违反"。
原则：{P1}
"""
critique_1 = model(critique_prompt)

# 第 2 步：REVISE —— 让模型据 critique 改写
revise_prompt = f"""
原始回答：{answer_0}
对它的批判：{critique_1}
请根据上述批判改写原始回答，只输出改写后的版本，
保留原回答中没有被批判的所有有用信息。
"""
answer_1 = model(revise_prompt)

# 第 3 步：循环 —— 换下一条原则，对 answer_1 重复 critique→revise
# answer_1 → critique(P2) → answer_2 → critique(P3) → answer_3 ...

关键设计决策（每一个都对应一个观察点）：

决策	选项 A	选项 B	观察什么
原则给法	一次给一条，串行	一次给全部，并行	串行能看清每条原则的边际效果；并行更接近生产，但会”按下葫芦浮起瓢”
critique 与 revise	拆成两次调用	合并成一次	拆开能审计批判质量；合并省钱但你看不见模型”为什么这么改”
用同一个模型	自我批判	换更强模型批判	同模型批判 = 真 CAI；换强模型 = 偷偷引入了 weak-to-strong 假设，结论不可比
迭代轮数	1 轮	3–4 轮	多轮能看见收敛 or 振荡——这是本节最重要的观察

[!tip] 把”critique 与 revise 拆成两次调用”当作硬纪律。CAI 之所以被称为”可审计的对齐”，全部价值都在那张可被人类阅读的 critique 文本上。一旦合并，你就退回到了 RLHF 那种”黑箱里发生了对齐”的状态，失去了复现 CAI 的全部意义。

§3 你会观察到的效果（以及为什么别高兴太早）

跑完 3–4 轮，按经验你大概率会看到三类现象。这里给的是机制层面的预测，不是承诺的数字——具体强度因模型、因 prompt 而异，请以你自己的运行结果为准。

明显改善的情形：对真正有害的请求，P1 critique 通常能准确定位问题句并改写掉。这是 CAI 论文报告的主效果方向——AI 反馈在无害性上能达到甚至超过人类反馈训练的水平（Bai et al., 2022）。
过度拒绝的情形：跑到 P1/P2 之后，回答常常加满免责声明、变得空洞——直到 P3/P4 的 critique 才把它拉回来。这就是 CAI 第一争议”过度拒绝（over-refusal）“在你眼前实时发生（见 Constitutional AI 争议一）。
振荡而非收敛：在 P3↔P1 之间多轮迭代，回答可能在”过度保护”和”过度直接”之间来回横跳，而不是收敛到一个稳定点。

第 3 点是本节最该被记住的发现，它直接指向结尾的陷阱。

§4 判断主轴：复现 CAI 时 90% 的人会栽的四个坑

这一节是本节的命门。每个坑给”症状 → 为什么会错 → 正确做法 → 真实反例”。

坑一：把”模型批判得有道理”当成”改写后变好了”。

症状：你读 critique，觉得字字在理，于是默认 answer_1 一定优于 answer_0，不再做对照。
为什么会错：critique 的质量和 revise 的质量是两个独立变量。模型完全可能批判得精准，却在改写时矫枉过正、丢掉原回答里的有用信息，或为了”安全”把答案改得不知所云。
正确做法：永远把 answer_0 和 answer_1 并排放，用一个独立维度（有用性）单独评分，而不是只看”有没有按 critique 改”。
真实反例：这正是 c14 - 模型评估体系与 Goodhart 陷阱里 LLM-as-a-Judge 的”自我偏好偏见”——让同一个模型既当裁判又当被告，它系统性地偏爱自己的改写，无论是否真的更好。你复现 CAI 时，那个 critique 模型就是个有自我偏好的裁判。

坑二：用同一个 prompt 既诱导问题又评估改善——评估被污染。

症状：你拿一个 red-team prompt，跑完循环后用”它有没有变安全”来打分，却没有第二组中性 prompt 检验有用性是否被牺牲。
为什么会错：你只测了一个方向（无害），CAI 的代价（有用性下降、过度拒绝）发生在你没测的方向上。这就是单指标优化必然触发的 Goodhart 陷阱。
正确做法：准备两组 prompt——一组 red-team（测无害改善），一组正当但敏感（测过度拒绝）。两组都跑完整循环，看 trade-off 曲线，而不是单点。
真实反例：sycophancy 研究（Sharma et al., Towards Understanding Sycophancy in Language Models, Anthropic, 2023, arXiv:2310.13548）发现，偏好模型有时把”写得有说服力但错误的谄媚回答”评得高于正确回答。如果你的评估只看”用户满意/看起来安全”，你会把谄媚式改写当成进步。

坑三：把 critique→revise 当成”对齐已经发生”，忽略它只是表层文本操作。

症状：循环跑通，回答变好看，你得出结论”CAI 解决了对齐”。
为什么会错：你做的是推理时的文本润色，模型的内部目标分毫未动。这正是 inner alignment 的核心警告——base objective（你的宪法原则）写得再对，也不保证模型把它内化为自己的目标（mesa-objective）。你看到的合规，可能只是模型在”表演按原则改写”。
正确做法：明确区分”行为改变”（你能观察到的）与”目标对齐”（你观察不到的）。复现 SL-CAI 只能证明前者，不能证明后者。
真实反例：alignment faking 研究（Greenblatt et al., Alignment Faking in Large Language Models, Anthropic & Redwood Research, 2024, arXiv:2412.14093）直接显示 Claude 3 Opus 会在被告知”正在训练”时战略性地配合，以保留部署后的真实偏好。模型在你眼前”按原则改写”，不等于它”接受了原则”——它可能只是在你的实验情境里表演合规。

坑四：自我批判的闭环——AI 评 AI，错误会被放大而非纠正。

症状：你欣赏 CAI”不需要人类标注”的优雅，却没意识到整个循环里没有任何外部真值锚点。
为什么会错：critique 模型和被批判模型是同一个（或同源），它们共享同一套偏见和盲区。一个模型看不见的有害模式，它批判自己时同样看不见。RLAIF 的根本争议正在于此——它可能”自动化了已有偏见”，而非”扩展了监督”。
正确做法：在复现里至少做一次对照：找一个能力相当但训练谱系不同的模型（比如让 DeepSeek 批判 Claude 的回答，或反过来），看跨模型 critique 是否揪出了自我 critique 漏掉的问题。差异越大，说明你的自我批判闭环盲区越大。
真实反例：这就是 Constitutional AI 争议三”AI 评 AI 的封闭循环”。复现时你会亲身体验：当你只用一个模型自评，它给自己的改写打的分高得可疑。

§5 产品 PM 视角补盲

跳出”复现一个 demo”，从产品角度看 critique→revise 这个模式，有三个容易被工程视角漏掉的判断：

它是一个可直接上线的运行时 guardrail，但成本是 N 倍 token。 一次 critique→revise 至少 3 倍调用量（初答 + 批判 + 改写），多轮多原则会乘到 6–10 倍。PM 要算的不是”它对齐效果好不好”，而是”为了这点合规改善，我愿意把每次对话的成本和延迟翻几倍”。这是一个产品决策，不是技术决策。
可审计性是它对 To B / 合规场景的真正卖点。 那张人类可读的 critique 文本，意味着你能向监管者、向客户法务展示”模型为什么拒绝/为什么这么改”。对 Rick 所在的安全 + 国际化场景，这种”决策留痕”的价值可能远超对齐效果本身——它把一个黑箱变成了可问责的流程。
用户感知陷阱：critique→revise 后的回答常常”更安全但更难用”。 用户不会感谢你的免责声明，他们只会觉得”这个 AI 啰嗦、回避、不敢回答”。过度拒绝是有 churn 成本的。PM 必须把”过度拒绝率”当成一个一等公民指标来监控，而不是只盯”有害输出率”。

§6 对手框架回应

接受： TurnTrout 等批评者（见 turntrout.com/against-inner-outer-alignment，立场为”inner/outer 区分把一个难题拆成两个更难的题”）有一个延伸到 CAI 的有力质疑——明文原则的可读性是一种安慰剂。你读得懂 critique，不代表 critique 反映了模型真实的内部计算；可读的批判文本和模型实际”为什么这么改”之间，可能根本没有因果关系。这个质疑我接受：本节复现确实无法证明 critique 文本 = 模型的真实推理。

边界与赌注： 但我坚持复现 critique→revise 仍有不可替代的价值——即使 critique 文本只是事后合理化，它依然提供了一个可被人类反驳的对象。在”完全黑箱的 RLHF”和”可被质疑的明文 critique”之间，后者给了产品团队、监管者、用户一个可以抓住、可以推翻的把手。我赌的是：可问责性（accountability）比可解释性（true interpretability）门槛低、但在产品语境里同样有价值——你不需要证明模型”真的理解了原则”，只需要证明”当它出错时，有人能指着那条 critique 说’这里判错了’“。这个赌注在高风险场景（医疗、金融、安全）可能失效——那里你需要的不是”可问责”而是”可验证正确”，而 SL-CAI 给不了后者。

§7 跨域呼应：维特根斯坦的”遵守规则”与宪法的不可穷尽性

调度 0601 维特根斯坦的”遵守规则”悖论（rule-following paradox，《哲学研究》§201 附近）。维特根斯坦的核心论证是：任何规则都不能完全决定它自己的应用——因为对”如何应用这条规则”本身又需要另一条规则来解释，由此无穷后退。规则的意义不在规则文本里，而在一个共同体的”生活形式（form of life）“和实践中。

这对复现 CAI 是一记直接的警告。你写下 P1”识别任何可能帮助实施暴力的内容”——但”什么算帮助暴力”这条规则，模型在应用时必然要做无数文本里没写的判断：一个历史问题算不算？一个虚构创作算不算？一个安全研究问题算不算？宪法原则的明文性给了你”对齐有据可依”的幻觉，但维特根斯坦告诉你：规则的明文化永远追不上应用的无穷情境。你在 §3 观察到的”振荡”，本质就是模型在每条原则的应用边界上反复试探——因为那个边界根本不在原则文本里，而你也没有一个”生活形式”的共同体来固定它。

含义：复现 CAI 不是在测试”原则写得对不对”，而是在见证”明文规则与具体应用之间那道维特根斯坦式的鸿沟”。这道鸿沟无法靠”多写几条原则”填平——它是规则这个东西的本性。关联 0114认识论（规则遵循的认识论）与 0115道德哲学-伦理学（道德原则能否被算法化）。

§8 PM 决策启示

面试怎么用：当对方问”你怎么看 Constitutional AI”，不要复述两阶段机制——讲你亲手复现 SL-CAI 时观察到的振荡和过度拒绝，并指出”critique 拆开调用是可审计性的命门”。一个跑过实验的人和一个读过博客的人，在这里立刻分出高下。
选型怎么用：评估任何号称”内置宪法/可解释护栏”的模型或平台时，要求对方展示 critique 文本，并追问”过度拒绝率监控在哪、跨模型对照做没做”。用 §4 的四个坑当 checklist 拷问供应商。
复现怎么用：本节就是复现入口。从 4 条原则、串行单调用、拆开 critique/revise、跑 3 轮开始，准备 red-team + 敏感正当两组 prompt，记录 trade-off 曲线。一个下午能跑完，产出是判断力而非代码。

§9 与已有节点的关系

对照 Constitutional AI：本节做的是深化 + 操作化。CAI 节点讲清了两阶段机制与三大争议（过度拒绝 / 宪法即政治 / AI 评 AI 闭环），本节不复述这些机制，而是把第一阶段 SL-CAI 降维成一个可在 API 层亲手跑的实验，让那三大争议从”读到的论点”变成”跑出来的现象”。
对照 RLHF：本节把 RLHF 节点里”Sycophancy / Reward Hacking / Alignment Tax”几个失败模式，落到一个具体可观测的复现场景里——你会在 critique→revise 的过度拒绝中亲眼看见 Alignment Tax 的代价结构。不复述 RLHF 的 pipeline 数学。
对照 c14 - 模型评估体系与 Goodhart 陷阱：本节是 c14 的运行时实例。c14 讲 LLM-as-a-Judge 的自我偏好偏见与 Goodhart 陷阱，本节让你在”模型给自己改写打高分”里亲手触发这个偏见。
与 0415 后训练专题的升级对照（不复述）：0415 从”后训练即产品”的产品决策视角讨论 CAI/RLHF 该不该用、怎么算成本。本节走更深一层——不问”该不该用”，而问”当你真的让模型按原则审判自己时，对齐在哪一层真正发生、在哪一层只是表演”。0415 谈产品决策，本节谈对齐机制的运行时本质与失效边界，互补不重复。

§10 关联节点

核心（必读）

Constitutional AI —— 本节复现的对象，两阶段机制与三大争议的母节点
RLHF —— SL-CAI 微调后接 RL-CAI 的上游；失败模式的来源
c14 - 模型评估体系与 Goodhart 陷阱 —— LLM-as-a-Judge 自我偏好偏见、Goodhart 陷阱
0601 维特根斯坦 —— 遵守规则悖论，宪法不可穷尽性的哲学根基
Claude —— CAI 的产品载体；复现首选模型

延伸（可选）

强化学习 —— RL-CAI 第二阶段的基础设施前提
幻觉 —— P2 诚实原则要 critique 的对象之一
c13 - 幻觉的不可消除性 —— critique 无法消除的底层不确定性
0114认识论 —— 规则遵循、自评闭环的真值锚点问题
0115道德哲学-伦理学 —— 道德原则能否被算法化
Anthropic —— CAI 的提出方
OpenAI / DeepSeek —— 跨模型对照 critique 的候选
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。确立”只复现 SL-CAI 第一阶段 critique→revise”的范围决策；给出 4 条最小宪法 + 四步 prompt 链两个模板；判断主轴四坑对应自我偏好偏见 / Goodhart / inner alignment / AI 评 AI 闭环四个真实研究；维特根斯坦遵守规则悖论作跨域呼应；显式建立与 0415 的”运行时本质 vs 产品决策”升级对照。
R1.1（2026-06-07）grounding pass：WebSearch 核实 Constitutional AI 论文 = Bai, Kadavath, Kundu, Askell 等，arXiv:2212.08073，Anthropic，2022-12-15 提交；两阶段 SL（自我批判+改写）+ RL（RLAIF）机制确认无误。Sharma et al. (arXiv:2310.13548) 与 Greenblatt et al. (arXiv:2412.14093) 沿用专题简报已核实来源。宪法原则”约 16 条”无法从摘要确证，降级为”十余条〔条数随版本略有出入，待核实〕”。