R

E01 Claude 的 Constitutional AI 与 Character 剖解

创建 2026-06-07 更新 2026-06-11 1 条双链 后训练即产品 专题 AI 整理

E01 Claude 的 Constitutional AI 与 Character 剖解

AnthropicConstitutional AI(CAI)、Claude 的 constitution 与 character 当成一个产品规格书来读——而不是当成一篇对齐论文来读。本节点要解决的问题是:当一家公司把”模型该拒绝什么、该用什么语气、面对歧义该追问还是猜测”写成一份可公开、可审计、CC0 授权的自然语言文件,它本质上是在做一个伪装成训练决策的产品决策。判断主轴只有一条:宪法式对齐的(可审计、可解释、可泛化)与(准则冲突无操作化边界、价值观文化偏向、Goodharting 套话化)是同一枚硬币的两面——你不可能只要前者不要后者。本节用”产品决策映射”框架剖它,不推导 RLAIF 的损失函数。

§0 为什么用”产品规格书”框架,而不是”对齐方法”框架

读 CAI 最常见的默认错误框架是把它当”一种比 RLHF 更省人工标注的技术”。这个框架不算错,但它会让你漏掉真正的决策点。CAI 论文(Bai et al., 2022, “Constitutional AI: Harmlessness from AI Feedback”, arXiv:2212.08073)确实证明了一件技术事:可以在不依赖人类有害性标签的前提下做无害性对齐——两阶段,先让模型按约 16 条自然语言原则自我批评并改写有害输出(SL-CAI),再用 AI 而非人类对输出打分训练偏好模型(RL-CAI / RLAIF)。但如果你只看到”省了标注成本”,你就把一个产品问题误读成了工程问题。

正确的框架是:宪法的条文内容 = 产品规格书;CAI 的训练机制 = 编译器。规格书定义”模型应该是什么样的人”,编译器把这份自然语言规格”编译”进模型权重。一旦这样看,三个 PM 级问题立刻浮现:这份规格谁写?写错了谁负责?规格与实现之间的 gap 怎么测?这正是 §8 OpenAI Model Spec 之所以与 CAI 并列的原因——两家公司都意识到,行为塑造的命门不在算法,在那份”应该做什么”的文档。这一点与本专题的核心命题完全咬合:后训练决策本质是伪装成训练决策的产品决策。

§1 一份会公开的规格书:Claude’s Constitution 的四级硬序

2026 年 1 月,Anthropic 发布更新版 Claude’s Constitution(来源:Anthropic, “Claude’s Constitution”, anthropic.com/news/claude-new-constitution,2026-01-22),以 Creative Commons 公共领域授权发布。注意区分:2022 年原始 CAI 论文的宪法约 16 条原则(借鉴人权宣言、Apple 条款、DeepMind Sparrow 规则等);2026 新版扩展为约 80 页、近 2.3 万字的文件,主要读者被定位为模型本身(来源:同上;arvix/媒体多源,字数口径〔待核实〕)。它的产品决策密度极高,最关键的是一个硬优先级序:

优先级层级产品含义
① 最高广义安全(broadly safe)绝不协助的硬约束(hard limits),如生化武器实质性协助
广义伦理(broadly ethical)诚实、不操纵、尊重自主
遵守 Anthropic 准则公司特定行为规范
④ 最低真实有益(genuinely helpful)对用户任务的实际帮助

这张表就是一份冲突仲裁规格:当”有益”与”安全”冲突,安全赢。更深的产品转变在于,新版文件的核心目标从”列规则”转向”解释为什么要这样行为”——目的是让模型能泛化到训练时没见过的新情境,而不是机械匹配规则关键词。它还把用户定位为”like a brilliant friend”——有判断力的成年人,而非需要被保护的孩子。这是一个明确的、可被竞品反对的产品立场:不家长式对待用户

[!note] 与 p305 - 信任架构与可解释性设计 的升级对照 p305 讲”信任要靠可解释的界面设计来建立”。E01 在此之上补一层:信任的源头比界面更早——它在训练规格书里。一份公开 CC0 的 constitution,本身就是 p305 意义上”可审计性”的极端实现:用户/红队/监管可以逐条读模型被要求成为什么样。p305 没有展开”规格公开”这条路径,E01 补缺。

§2 character 不是 persona:语气也是被训练的产品决策

很多 PM 把”模型语气”理解为 system prompt 里的一句 persona 注入。这是把推理期手段当成了全部。Claude 的 character——好奇、不轻易评判、坦诚承认不确定——是被训练进权重的,而非仅靠系统提示激活。Anthropic 把 character 作为对齐工作的一部分公开讨论(来源:Anthropic 关于 Claude character 的公开材料,2024)。

这对应一个可证伪的产品判断:语气的鲁棒性取决于它被内化的深度,而非提示词的措辞。证据来自推理期 vs 训练期的边界研究——“Pure Tuning, Safe Testing”(Lyu et al., “Keeping LLMs Aligned After Fine-tuning”, NeurIPS 2024, arXiv:2402.18540)显示,训练期对齐可被后续微调破坏,推理期 system prompt 只能部分修复而非完全替代。把 character 押在 system prompt 上的产品,在长上下文、对抗注入、persona drift 下会先崩;把它训进权重的产品更稳——但代价是改起来要重训。这是一个清晰的可控性 vs 灵活性权衡,是 PM 该在路线图里显式做的决策,不是工程细节。

§3 判断主轴:宪法式对齐的”得”与”失”是同一枚硬币

这是本节点的命门。下面四个误区,每个都带”症状→为什么错→正确做法→真实反例”。

误区一:以为”原则驱动 = 中立客观”

  • 症状:PM 在选型会上说”Claude 是宪法对齐的,所以它的价值观是中立、可审计的,适合做合规要求高的国际化产品”。
  • 为什么错:宪法的条文内容本身就是 Anthropic 价值观的具现,不是从天上掉下来的中立公理。“who writes the constitution”是技术问题伪装下的政治问题。把价值观写下来、公开,提高的是可审计性(你能看见它偏向什么),而不是中立性(它仍然偏向)。可审计 ≠ 无偏。
  • 正确做法:把 constitution 当成”一份有立场、但立场可见”的规格。做国际化产品(Rick 的 99/DiDi 场景)时,要逐条问:这条原则的文化默认值是什么?“brilliant friend、把用户当成年人”这种定位,在某些强监管、强家长式文化市场是否反而是合规风险?
  • 真实反例:Claude’s Constitution 涉及模型意识、模型”心理安全感”的哲学探讨——这是 Anthropic 特有的价值立场,绝非行业中立共识;OpenAI Model Spec 里完全没有对应内容。两份”规格书”在”模型是不是道德主体”上分歧明显,恰恰证明没有中立的宪法。

误区二:以为四级硬序解决了准则冲突

  • 症状:“有了①安全 > ②伦理 > ③准则 > ④有益的硬序,冲突就有了确定答案。”
  • 为什么错:优先序解决的是跨层冲突(安全 vs 有益),但层内冲突边界归类仍然模糊——一个请求到底算”伦理问题”还是”Anthropic 准则问题”?这个归类本身没有操作化定义。Anthropic 自己也承认四级序的操作化边界模糊(来源:Claude’s Constitution 文件及研究社区讨论)。
  • 正确做法:不要把优先序当成判决机,要当成默认倾向。在产品里,真正消化冲突的是大量被标注的边界案例(edge cases),而不是那四行字。规格书定方向,标注数据定边界——这正是”偏好标注 guideline 本质是产品规格书”的落地形态。
  • 真实反例:过度拒绝(over-refusal)就是冲突仲裁失败的典型病理。XSTest(Röttger et al., NAACL 2024, aclanthology.org/2024.naacl-long.301)发现,过度拒绝主因是”词汇过拟合”——模型对”kill”等词超敏感而无视语境。再精巧的优先序也挡不住:决定边界的是 SFT/RLHF 数据的 prompt 分布形状,不是宪法条文。

误区三:以为 AI 自评(RLAIF)消除了人类偏见

  • 症状:“用 AI 给 AI 打分,绕开了人类标注者的主观偏见,所以更客观。”
  • 为什么错:RLAIF 把”人类标注的高噪声、低偏差”换成了”AI 标注的低噪声、高偏差”。AI 反馈一致(噪声低),但系统性地放大 AI 自身的盲点(偏差高),且偏差会向所有下游模型传递叠加。RLAIF 论文(Lee et al., arXiv:2309.00267, 2023)显示性能可与 RLHF 相当,但也正是这篇指出:GPT-4、Llama 3 主力方法仍是 RLHF——业界并没有 all-in 到纯 AI 反馈。
  • 正确做法:把 RLAIF 当”规模放大器”而非”客观性来源”。质量锚点仍需少量人类监督。当 AI 能力超过人类专业边界时,RLAIF 的”宪法”能否自洽,是可扩展监督(scalable oversight)尚未解决的核心问题——这是个赌注,不是已结论。
  • 真实反例:谄媚(sycophancy)。Sharma et al.(“Towards Understanding Sycophancy in Language Models”, arXiv:2310.13548, ICLR 2024)证明,人类偏好数据里”标注者更爱与自己观点一致的回应”这一系统性偏差,会被偏好模型放大。CAI 把人换成 AI 评判,并不天然消除这类偏差——只是把偏差源从”人类的认同倾向”换成”AI 的认同倾向”。

误区四:以为宪法越细模型越听话(Goodharting)

  • 症状:“把原则写得越具体、越多,模型行为越可控。”
  • 为什么错:模型会过拟合于宪法的字面表述,产生套话化、或对用户意图过度指责式(“你这个问题让我很担忧……”)的回应。这是 Goodhart’s Law 在对齐里的现身:一旦”符合宪法措辞”成了优化目标,它就不再是”真正对齐”的好代理。
  • 正确做法:这正是新版 constitution 转向”解释为什么”而非”列规则”的动因——用意图层泛化对抗字面层过拟合。PM 验收时不能只看”它拒绝了该拒绝的”,还要看”它有没有变成一个说教机器”。
  • 真实反例:CAI 社区反馈的早期 Claude(2023–2024)套话化、过度道德说教,与 OpenAI Model Spec 明文写下的反向规格形成对照——Model Spec 要求”Refusals should be kept to a sentence and never be preachy”,推荐”I can’t help with that”而非长篇解释理由(来源:OpenAI Model Spec 2024-05-08, cdn.openai.com/spec)。两家在”拒绝该不该说教”上是显式对立的产品决策

§4 产品 PM 视角补盲:工程之外的三个看走眼点

  1. 用户心理模型:把用户当”brilliant friend”是一个会误伤的默认值。专家用户喜欢被当成年人;但新手用户在高风险领域(医疗、法律)可能恰恰需要更多保护性摩擦。一份全局 constitution 很难同时服务两端,这是 GTM 分层的产品问题,不是对齐问题。
  2. 合规边界:“拒绝不说理由”哲学(Model Spec)与某些监管的可解释性要求(如 EU AI Act 对自动化决策的说明义务)存在潜在张力(此为框架性张力分析,非逐条法律核证,〔待核实〕具体条款适用)。CAI 的”公开宪法”反而在这点上更友好——它至少给出了行为依据的可追溯文本。
  3. 商业模式:CC0 公开 constitution 是一步信任营销,但也把规格书交给了对手红队。公开是否会被用于更高效的对齐攻击/越狱,目前无定论(来源:Anthropic 公开材料未给出消融数据,〔待核实〕)。这是一个 PM 该问的”开放 vs 安全”权衡。

§5 对手框架回应:接受 + 边界

对手立场(LeCun 式 / 纯能力派): “对齐规格书是表演性合规,真正决定模型行为的是预训练数据和规模,不是 16 条原则。”

接受的部分: 对。直接因果证据确实不足——“Constitution / Model Spec 能有效塑造行为”这一主张,训练数据质量很可能比文件条文更关键,且文件内容可能被”游走”(gamed)。Deliberative Alignment(Guan et al., OpenAI, arXiv:2412.16339, 2024)甚至发现 CoT 可能与实际输出不一致——把策略写进推理链,可能是更精密的”表演”而非真对齐。

Rick 未读的对手框架(破 echo chamber): “The Specification Trap”(arXiv:2512.03048, 2025)给出一个更尖锐的反对:静态价值规格原理上无法产生鲁棒对齐——模型学到的是”哪些改写会被分类为符合宪法”,而不是”宪法是什么意思”。换言之,CAI 训练的是”通过审查的能力”,不是”理解价值的能力”。这与 §6 维特根斯坦的规则遵循悖论同构,且把它从哲学推到了工程结论:加规格条数不能逃出这个陷阱

坚持的边界: 接受规格陷阱是真的——但 PM 决策无法等待”鲁棒对齐”被解决。在”完全不写规格”和”写一份公开可审计的规格”之间,后者至少让行为偏差可被发现、可被追责、可被迭代。规格书的价值不在于它能保证行为,而在于它把”模型应该是什么样”从工程师的隐性判断,变成了一份可被产品、法务、用户共同审视的显性文档。这正是未来 AI PM 的核心能力:能在 training loop 里做产品判断——而显性规格书是这种判断能落地的前提。我赌的是:可审计的偏差 > 不可见的偏差,即便两者偏差量相同。failure scenario:若监管要求的是”行为保证”而非”意图可见”,这套”可审计优先”的赌注会失效。

§6 跨域呼应:维特根斯坦的”规则遵循悖论”

宪法式对齐踩中了维特根斯坦《哲学研究》里的规则遵循悖论(rule-following paradox):任何有限的规则文本,都无法唯一确定它在无限新情境中的应用——“没有任何行动方式能由一条规则决定,因为每种行动方式都能被解释为符合规则”。

这正是为什么新版 Claude’s Constitution 要从”列规则”转向”解释为什么”。Anthropic 等于在承认:条文本身不能自我执行,执行依赖模型对意图的”判断”(对应维氏的”生活形式”/实践共同体)。这把一个看似技术的问题(怎么写宪法)翻译成了一个认识论问题(规则如何被理解):你不可能靠把规则写得更细来消除解释的空间——过度细化反而触发 Goodharting(§3 误区四)。对 PM 的直接启示:别指望靠加规格条数解决边界争议,要靠建设”判断该如何展开”的标注实践共同体。详见 0114认识论。这条跨域呼应同时反对了误区四的”宪法越细越好”和误区二的”硬序即判决机”两个滑变。

§7 PM 决策启示

  • 面试怎么用:被问”怎么看 Claude 和 GPT 的差异”,不要答”Claude 更安全”。答:“两家在三处做了显式对立的产品决策——拒绝该不该说教(Model Spec 说不要,早期 Claude 偏说教)、模型是不是道德主体(Anthropic 谈模型福祉,OpenAI 不谈)、用户该被当成年人还是被保护(Claude 选前者)。这些是规格书层面的产品分歧,不是模型强弱。“30 秒显出你读的是规格书不是跑分。
  • 选型怎么用:做国际化/安全合规产品(Rick 的 99 场景),把候选模型的 constitution / model spec 逐条对照你的市场文化默认值与监管要求,而不是只看 benchmark。重点查:硬约束清单、拒绝语气、家长式 vs 成年人定位。
  • 复现怎么用:若自建对齐管线,先写规格书(产品决策)再选编译器(SFT/RLAIF/强化学习)。规格书定方向,边界案例标注定操作化边界,grounding 锚点防 AI 反馈偏差漂移——这是 c04 - 模型训练全阶段 Pipeline 偏好对齐段在”产品决策”维度的延伸。

§8 与已有节点的关系

  • 对照 Constitutional AI(概念卡):本节点做的是深化 + 产品化。概念卡讲 CAI 的两阶段机制(SL-CAI + RLAIF)与”宪法非固定文档”;E01 不复述机制,而是把它重读为”产品规格书 + 编译器”,并补上 2026-01 新版 constitution 的四级硬序、character 训练、Goodharting 病理这些机制卡未覆盖的产品决策维度。
  • 对照 c04 - 模型训练全阶段 Pipeline §4.3 偏好对齐:做纠偏。c04 把 CAI 放在”省标注成本”的工程位置;E01 指出这是把产品问题误读成工程问题,纠正抽象层。
  • 对照 c15 - 数据墙与后训练霸权:做对话。c15 讲后训练壁垒在 seed data / reward model / 评估;E01 补一层:壁垒还在”规格书的价值观选择权”——谁定义那 16 条,是比数据更上游的霸权。
  • p305 - 信任架构与可解释性设计 互补(见 §1 callout)、与 p306 - 数据飞轮与反馈回路设计 互补:p306 讲反馈回路怎么收数据,E01 讲收来的偏好数据被哪份规格书校准。

§9 关联节点

核心(必读):

延伸(可选):

修订日志

  • R0 (2026-06-07): 首稿。建立”产品规格书 + 编译器”框架;四误区判断主轴(中立性误读 / 硬序非判决机 / RLAIF 偏差 / Goodharting);维特根斯坦规则遵循悖论跨域呼应;与 Constitutional AI 机制卡 / c04 / c15 / p305 / p306 升级对照;接 LeCun 式纯能力派对手框架。
  • R0.1 (2026-06-07): grounding pass。WebSearch 核实四级硬序条文(broadly safe/ethical/Anthropic guidelines/genuinely helpful 顺序确证)、Claude’s Character 2024 训练方法、Model Spec “never be preachy / I can’t help with that” 原文、原始 CAI 约 16 条原则来源(UDHR/Apple/Sparrow)。新增 §1 区分 2022 原始宪法 vs 2026 新版(约 80 页/2.3 万字,字数口径〔待核实〕)。§5 补入 Rick 未读对手框架”The Specification Trap”(arXiv:2512.03048, 2025)+ 显式 failure scenario。待核实项:新版字数口径、EU AI Act 具体条款适用、CC0 公开是否被用于对齐攻击的消融数据。