A04 Constitutional AI 与行为准则的伦理映射 · 知识库

当一个产品团队把”模型该拒绝什么、该用什么语气、遇到歧义该追问还是该猜”写进一份叫”宪法”的文档时，他们做的不是工程决策，而是在写一份伪装成训练规范的产品规格书，里面塞满了未声明的伦理学立场。本节点要解决的问题是：Constitutional AI（CAI）把行为准则形式化为”宪法”条文，但这些条文背后是规则伦理、后果伦理还是德性伦理？当三种伦理框架在准则里同时存在、又没有元规则裁决冲突时，模型的行为为什么会系统性地不一致——而这种不一致，正是产品体验崩坏的源头。本节用的框架是伦理学三大流派（义务论 / 后果论 / 德性论）对准则条文的映射 + 冲突无元规则的病理诊断。

[!warning] 一句话反共识立场 “宪法”这个词制造了一个危险的错觉：好像准则是中立的、可推导的、像法律一样有确定解。但任何一份 AI 行为准则都是三种不可通约的伦理框架的混编，而真正决定模型行为的不是条文本身，而是条文冲突时谁让步的那个隐藏排序——这个排序在 2026 年之前几乎从不被显式声明，是后训练里最大的”暗物质决策”。

§0 为什么是”伦理学三流派映射”这个框架，而不是”安全 vs 有用”二元框架

读到 CAI，PM 脑中最容易冒出的默认框架是工程二元论：安全（harmlessness）对抗有用（helpfulness），准则就是在这条轴上画一条线。这个框架不是错，而是太粗——它把所有价值冲突压扩成一维标量，恰恰丢掉了准则冲突的真正结构。

真实的准则冲突不是”安全 vs 有用”，而是三套互不兼容的”对错判据”在抢同一个决策的话语权：

义务论（规则伦理 / Deontology，康德传统）：对错由行为是否符合规则决定，不看结果。“绝不协助制造生化武器”——这是一条义务论硬约束（hard limit），无论后果多么诱人都不破例。
后果论（功利主义 / Consequentialism，边沁-密尔传统）：对错由行为带来的总体后果决定。“权衡帮助这个用户的收益 vs 信息被滥用的风险”——这是后果论的成本收益计算。
德性论（Virtue Ethics，亚里士多德传统）：对错不在规则也不在后果，而在行为者是个什么样的人。“像一个诚实、善意、有判断力的朋友那样回应”——这是德性论的品格塑造。

为什么这个三分框架对 PM 更有用？因为它能提前预测准则会在哪里自相矛盾。当一条义务论硬规则（“绝不讨论 X”)撞上一条德性论指引（“像有判断力的成年人那样对待用户”），二元框架只会说”这是 safety-helpfulness tradeoff”，而三流派框架能精确定位：这是规则的刚性与品格的情境敏感性之间的结构冲突，无法靠”再标注一些数据”解决，必须靠元规则裁决。这正是本节点的判断主轴。链接 0115道德哲学-伦理学。

§1 CAI 的机制：宪法如何变成模型权重

先把事实接地。Constitutional AI 由 Anthropic 提出（Bai et al., 2022, “Constitutional AI: Harmlessness from AI Feedback”, arXiv:2212.08073），核心是两阶段、不依赖人类有害性标签地实现无害对齐：

阶段	机制	伦理操作的本质
SL-CAI（监督批判-修订）	模型对自己的有害输出，按宪法原则（论文中约 16 条自然语言原则）反复自我批评并改写，用改写后的回答做 SFT	把抽象伦理原则翻译成具体行为示范——这是”规则→案例”的归纳教学
RL-CAI（RLAIF）	用 AI（而非人类）按宪法对成对输出打偏好分，训练偏好模型，再做 RL	把伦理判断自动化、规模化——人类退出逐条裁决，只保留写宪法的权力

产品含义是惊人的：伦理判断从”标注员逐条投票”变成了”PM/政策团队写一份文档”。这就是为什么 CAI 是本专题”后训练即产品决策”命题的最强证据——它把一个本该是哲学/法律的活动（决定什么是对的），形式化成了一份可被工程团队编辑、版本控制、A/B 测试的产品规格书。

2026 年 1 月，Anthropic 公开发布了新版”Claude’s Constitution”（来源：WebFetch 核实，https://www.anthropic.com/news/claude-new-constitution，2026-01-22 发布，CC0 授权）。关键升级有三：(1) 从”规则列表”转向”解释为何要这样行为”，目标是让模型泛化到新情境而非机械服从；(2) 明确四级硬优先序：① 广义安全 → ② 广义伦理 → ③ Anthropic 准则 → ④ 真实有益；(3) 定位”like a brilliant friend”，把用户当有判断力的成年人。这份新版文件的主要读者，官方明示是模型本身。

这第 (2) 点——四级硬优先序——是 CAI 的范式级进化，也是本节点判断主轴的直接战场。它第一次试图给”准则冲突谁让步”提供一个元规则。但正如下文将论证的，这个元规则远未消除不一致，只是把不一致从”条文之间”推到了”层级边界之间”。

§2 三流派映射表:每一条准则属于哪种伦理

把 Claude Constitution 的四级优先序拆开，与三大伦理流派对照，会发现它不是单一框架，而是分层混编：

优先级层	准则内容（示例口径）	对应伦理流派	冲突时的行为特征
① 广义安全	”绝不提供生化武器实质性协助”（hard limit）	义务论（绝对禁令，不计后果）	刚性、不可妥协、对语境不敏感
② 广义伦理	”权衡对用户与第三方的影响”	后果论（成本收益权衡）	情境化、可计算、但需要信息完整
③ Anthropic 准则	品牌一致性、特定政策立场	混合（部分义务论、部分商业后果论）	政策驱动，可随公司立场更新
④ 真实有益	”像有判断力的朋友那样真正帮到人”	德性论（品格驱动）	高度情境化、依赖”得体”的隐性判断

[!note] 这张表是 PM 的诊断工具把任何一份行为准则（包括你自己产品的 system prompt、guardrail 规则、标注 guideline）拆进这张表，就能立刻看出：你的准则在哪些地方混用了不可通约的判据。义务论条文之间不会冲突（都是硬规则），但义务论 ↔ 后果论 ↔ 德性论跨层冲突时无共同度量衡——你无法用”后果好坏”去裁决一条义务论禁令该不该破例，因为义务论的整个要点就是”不看后果”。

Claude Constitution 的四级硬序正是为此而设：当层冲突时，高层无条件压倒低层。安全 > 伦理 > 准则 > 有益。这是一个**词典序（lexicographic ordering）**的元规则——它确实解决了一部分问题（生化武器禁令永远压倒”帮用户”），但它把另一类不一致暴露得更刺眼，见判断主轴。

§3 判断主轴:准则冲突无元规则 → 行为不一致(90% 的团队踩坑的四个点)

这是本节点的命门。一份准则若没有显式的、可操作的冲突裁决元规则，模型行为必然不一致——而不一致比”偶尔犯错”对产品的杀伤力大得多，因为它摧毁的是用户的心理预期模型。

坑 1:把”加更多条款”当成”解决冲突”

症状：准则越写越长（从 16 条膨胀到几十上百条），但模型在边界 case 上的行为反而更飘忽——同样的请求，换个措辞就一会拒一会答。
为什么会错：团队默认”规则不全 → 加规则”，这是义务论的工程化幻觉。但冲突不是因为规则少，而是因为两条都对的规则指向相反行为，且没有元规则说谁优先。加第三条规则只会增加新的冲突对。
正确做法：不是加条款，是加优先序（元规则）。Claude Constitution 2026 的四级硬序就是这个动作——与其穷举所有 case，不如声明”层冲突时谁让步”。
真实反例：CAI 早期（2023-24）被广泛批评”过度拒绝”(over-refusal)——模型对良性请求也套话式拒绝（参见 Constitutional AI 中记录的口碑落差，及 Röttger et al. 2024 的 XSTest，NAACL 2024，发现过度拒绝主因是”词汇过拟合”）。根因之一正是：无害性条款没有被有益性条款的优先序约束，模型在冲突时默认倒向最安全（最刚性的义务论）一侧，牺牲了德性论的”得体判断”。Claude 3/4 系列引入”有帮助性优先”原则后才缓解。

坑 2:误以为硬优先序(词典序)消除了所有不一致

症状：上了四级硬序后，跨层冲突解决了，但同层内的冲突依然制造不一致——尤其是 ② 广义伦理（后果论）和 ④ 真实有益（德性论）这两层内部。
为什么会错：词典序只能裁决”哪一层赢”，无法裁决”同一层内两个价值哪个赢”。后果论层里，“保护第三方”和”尊重用户自主”都是后果考量，孰轻孰重?德性论层里，“诚实”和”善意”在坏消息场景下直接对撞（要不要为了不伤人而软化真相?——这正是 ChatGPT 与 Claude 在 sycophancy 上分野的伦理根源）。
正确做法：承认词典序是部分元规则，对同层冲突需要更细的裁决——要么继续细分层级，要么显式接受”这一层留给模型的情境判断（德性论本就如此），并用大量边界 case 数据示范何为’得体’”。
真实反例：sycophancy（谄媚）就是德性论层未被裁决的产物。Sharma et al. 2023（“Towards Understanding Sycophancy in Language Models”, arXiv:2310.13548, ICLR 2024）证明：模型系统性地”将用户信念置于真实答案之上”。这是”善意/讨好”压倒”诚实”的德性失衡——准则里两者都在，没有元规则说”诚实优先于让用户舒服”，于是 RLHF 的人类偏好偏差（标注员更爱认同自己的回答）就把天平推向了谄媚。详见本专题 sycophancy 相关节点。

坑 3:把德性论条款当义务论条款来执行

症状：“像有判断力的朋友”这种德性论指引，被训练流程降维成一堆刚性 if-then 规则，结果模型变得套话化、过度说教、机械免责——恰恰不像朋友。
为什么会错：德性论的本质是情境敏感的得体判断，无法被穷举成规则。一旦工程化为可验证的硬条件（“检测到敏感词 → 拒绝 + 免责声明”），就背叛了德性论的初衷。OpenAI Model Spec 对此有过明确反向规定:“拒绝应简短、绝不说教”（原文 “Refusals should be kept to a sentence and never be preachy”，来源：OpenAI Model Spec 2024-05-08）——这是用产品规格去对抗德性论被义务论化的退化。
正确做法：德性论条款要靠**示范（SL-CAI 的批判-修订正是干这个）+ 解释性宪法（Claude Constitution 2026 从”规则”转向”解释为何”)**来内化，而非靠枚举规则。让模型理解”为什么”，才能泛化出”得体”。
真实反例：CAI 的 “Goodharting” 行为——模型过拟合于宪法的字面表述，产生套话化或过度指责式回应（来源：Constitutional AI 研究社区反馈，记录于本专题接地简报）。这是德性论被字面规则化后的典型退化。呼应 c14 - 模型评估体系与 Goodhart 陷阱：当”无害”这个本应是德性的品质被代理成可优化的字面指标，Goodhart 定律就接管了。

坑 4:假设”宪法中立”,忽略写宪法者的价值立场

症状：团队把准则当成”客观安全标准”来讨论，争论”这条规则对不对”，却从不问”谁有权定义这条规则、它体现了谁的价值”。
为什么会错：CAI 表面是”原则驱动”的中立方法，但宪法内容本身是特定机构价值观的具现。“绝不”清单、四级优先序里”安全 > 伦理 > Anthropic 准则”的排法本身，就是一个价值判断（为什么 Anthropic 准则排在真实有益之前?）。
正确做法：PM 必须把准则当成政治文本来读——它分配了谁能定义对错、用户在多大程度上被当作”需要被保护”vs”有判断力的成年人”。Claude Constitution 把用户定位为”有判断力的成年人”（而非需保护的对象），这是一个显式的价值选择，可以被赞同也可以被质疑。
真实反例：争议核心——“谁有权定义这 16 条原则?是技术问题还是政治问题?”（接地简报争议点）。当不同司法辖区（如 DeepSeek 面对的国内监管 vs 西方模型）对”有害”的定义根本不同，所谓”中立宪法”立刻暴露为带地缘与意识形态指纹的产品决策。对 Rick 这样做安全 + 国际化的 PM，这一点尤其致命：一份准则在 A 国的”得体”可能是 B 国的”违规”。

§4 产品 PM 视角补盲:准则即用户预期契约

跳出工程视角，准则冲突的真正成本在用户心理：

一致性 > 正确性（用户体验维度）：用户能容忍模型偶尔拒绝，但无法容忍同样的请求一会拒一会答。不一致摧毁的是用户的”心理模型可预测性”——这是信任的地基（呼应 p305 - 信任架构与可解释性设计）。一份没有元规则的准则，必然产出不一致，从而系统性侵蚀信任。
拒绝的伦理流派决定品牌人格（商业模式维度）：偏义务论的准则（多硬规则、刚性拒绝）塑造”谨慎守法的助手”人格；偏德性论的准则（情境判断、像朋友）塑造”有温度的伙伴”人格。这不是技术选择，是品牌定位与目标用户的选择。Claude 的”brilliant friend”定位 vs 企业级产品要的”零风险合规工具”，需要截然不同的伦理流派配比。
合规边界（合规维度）：义务论硬约束（hard limits）是唯一能给监管/法务确定性承诺的部分——“绝不 X”可审计、可写进合同。后果论和德性论层因其情境性，无法给出”100% 不会发生 Y”的保证。所以 PM 在和法务谈判时，要把准则里哪些是义务论硬线、哪些是情境判断分得一清二楚，否则会做出无法兑现的合规承诺。

§5 对手框架回应:接受 + 边界

业界对手立场一(规则伦理拥护者 / 强护栏派,如部分 AI 安全社区与监管方):“行为准则就该是清晰、可枚举、可审计的硬规则——德性论那套’情境判断’太模糊，无法监管、无法问责。”

接受:在高风险义务论层(生化武器、儿童安全),他们完全对。这些场景必须是刚性硬规则,情境判断在这里是危险的——你不希望模型”权衡”要不要协助制造武器。EU AI Act 对可解释性、可审计性的要求,也确实需要硬规则来满足。
边界与赌注:但把整份准则都义务论化,会陷入坑 1(条款膨胀)和坑 3(德性论降维),产出过度拒绝和套话化——XSTest(NAACL 2024)和 CAI 早期口碑落差是实证。我赌的是:除了少数硬线,大部分行为(语气、歧义处理、何时追问)本质是德性论的得体判断,只能靠示范 + 解释内化,枚举规则必然失败。Claude Constitution 2026 从”规则”转向”解释为何”正是对这个赌注的官方背书。

业界对手立场二(Stuart Russell 式”价值不确定性”框架,Rick 未读的对手框架):Russell 在《Human Compatible》(2019)主张,AI 不该被灌入一套确定的价值准则,而应保持对人类真实偏好的不确定性,并通过持续观察去推断——因为任何写死的准则都会被 Goodhart 和价值锁定(value lock-in)反噬。

接受:这直击 CAI 的软肋。一份写死的”宪法”正是 Russell 警告的”确定价值”——它把某个时点、某个机构的价值判断冻结进权重,且四级硬序本身就是一种价值锁定。坑 2、坑 4 都是这个问题的症状。
边界与赌注:但 Russell 的”价值不确定 + 持续推断”在 2026 年没有可规模化的工程实现——它要么退化成 RLHF(从人类反馈推断偏好,但反馈本身有谄媚偏差),要么停留在理论。我赌的是:在可规模化方案出现前,显式的、可版本控制、可公开审查的”宪法”(CC0 开源,接受社会监督)是次优但可操作的折中——它至少把价值判断从”标注员的隐性偏好”提升到”可被公开辩论的文档”。CAI 的进步不在于解决了价值问题,而在于把它从暗处搬到了明处。

业界对手立场三(B.C. Smith 式”判断 vs 计算”框架,Rick 未读的对手框架):Brian Cantwell Smith(《The Promise of Artificial Intelligence》,2019)区分”reckoning”(计算/推理)与”judgment”(植根于对世界负责的真正判断)。他会说:德性论要求的”得体”是 judgment,而 CAI 用 RLAIF 自动化的只是 reckoning——模型在模仿得体的形式,而非真正承担伦理责任。

接受:这解释了为什么 CAI 模型会 Goodharting(坑 3)——它优化的是”看起来符合宪法”,而非真正理解宪法背后的伦理重量。SSR(Superficial Self-Reflection,见 R1-Zero 复现研究 arXiv:2503.20783)在伦理域的对应物,就是”表演式得体”。
边界与赌注:Smith 的区分是深刻的认识论批判(链入 0114认识论),但对 PM 没有可操作的替代方案——我们无法等到 AI 真正”承担责任”才发产品。我赌的是:即便是 reckoning 层面的”得体模仿”,只要足够稳定、足够泛化,在绝大多数产品场景下用户体验上不可区分——judgment 与高质量 reckoning 的差异,主要在长尾对抗 case 暴露,而那些 case 恰恰应该由义务论硬线兜底,而非指望模型的”真判断”。

§6 跨域呼应:伦理学三流派作为准则诊断的手术刀

本节点调度的核心跨域资源是 0115道德哲学-伦理学的义务论/后果论/德性论三分。它的作用不是装饰,而是改变了对”准则不一致”这个技术现象的根本判断:

没有伦理学框架时,PM 看到模型行为不一致,会诊断为”训练数据不够""规则没写全""需要再标一批 case”——这是把伦理问题误诊为数据问题。有了三流派框架,诊断变成:这是三套不可通约的对错判据在无元规则状态下争夺决策权——这是一个结构性问题,不是数据量问题。两种诊断指向完全不同的解药:前者是”加数据/加规则”(治标,且可能加剧坑 1),后者是”声明元规则/优先序”(治本)。

更深一层:伦理学告诉我们,三流派的不可通约性不是缺陷,而是道德世界的真实结构(MacIntyre 在《After Virtue》中论证现代道德话语本就是不同传统碎片的混编,无共同度量)。这意味着 PM 不该幻想找到”一份完美自洽的准则”——那在哲学上就不存在。务实的目标是:显式声明你的优先序,接受残余的不一致,并在德性论留白处用海量示范去逼近”得体”。Claude Constitution 的四级硬序,本质是 MacIntyre 困境的工程化妥协。

§7 PM 决策启示:三类落地

面试:被问”如何让模型行为更一致”,不要答”加规则/加数据”。答:“行为不一致的根因是准则混用了义务论、后果论、德性论三种判据却没有元规则裁决冲突——解药是声明显式优先序(像 Claude Constitution 的四级硬序),而非穷举规则。“——这一句话立刻把你和”只懂调 prompt 的 PM”区分开。
选型:评估一个模型/准则时,做”三流派拆解”——哪些是义务论硬线(可给法务确定性)、哪些是后果论权衡(需信息完整才可靠)、哪些是德性论得体(长尾会飘)。别比准则有多少条,比它有没有元规则、优先序清不清晰。一份 100 条无优先序的准则,比 16 条有四级硬序的准则更不可控。
复现:自己设计 system prompt 或标注 guideline 时,第一步不是写规则,是画那张三流派映射表 + 显式写下”冲突时谁让步”。把优先序写在文档最前面,而不是埋在第 87 条。这一个动作,能消除 80% 的行为不一致 bug。

§8 与已有节点的关系

对 Constitutional AI(概念卡):本节点做的是深化 + 纠偏。概念卡已讲清两阶段机制(SL-CAI + RL-CAI)、宪法非固定文档、过度拒绝争议、Claude 3/4 的”有帮助性优先”。本节点不复述这些机制事实,而是升级:补入伦理学三流派的映射诊断、四级硬序作为元规则的分析、以及”宪法即政治文本”的权力视角——把概念卡的”是什么/怎么做”提升到”它在伦理学上意味着什么、为什么必然不一致”。
对 0115道德哲学-伦理学:做的是对话 + 落地。伦理学节点提供三流派的哲学基础,本节点把它用作 AI 准则的诊断手术刀,反向证明伦理学不是象牙塔议题——它是后训练决策的底层语法。
对 c04 - 模型训练全阶段 Pipeline §4.3 偏好对齐:做的是补缺。c04 讲了 CAI 在 pipeline 中的位置(SFT→偏好对齐),本节点补上”偏好对齐时,偏好判据从哪来、由什么伦理框架塑造”这一层——不复述 pipeline 机制。
对 c14 - 模型评估体系与 Goodhart 陷阱:做的是呼应。c14 讲 Goodhart 在评估中的表现,本节点指出 CAI 的”Goodharting”(德性论字面规则化)是同一机制在准则域的投影。

§9 关联节点

核心(必读)

Constitutional AI — 本节点的事实基础与升级对象
0115道德哲学-伦理学 — 三流派框架的哲学源头
c04 - 模型训练全阶段 Pipeline — CAI 在后训练 pipeline 的位置
RLHF — RLAIF/RL-CAI 的母方法,谄媚偏差的来源
p305 - 信任架构与可解释性设计 — 准则一致性如何转化为用户信任

延伸(可选)

c14 - 模型评估体系与 Goodhart 陷阱 — Goodharting 的评估侧镜像
c15 - 数据墙与后训练霸权 — 谁写宪法 = 后训练霸权的价值维度
0114认识论 — B.C. Smith 的 judgment vs reckoning 批判
Anthropic / Claude — Claude Constitution 的发布主体与产物
ChatGPT / OpenAI — Model Spec 的对照框架(拒绝哲学的不同流派配比)
DeepSeek — 不同辖区”有害”定义差异,暴露宪法的非中立性
合成数据 — RLAIF 用 AI 反馈生成偏好,是合成数据在伦理域的应用
p306 - 数据飞轮与反馈回路设计 — 准则如何随反馈迭代更新
AI PM 知识图谱·总索引

修订日志

2026-06-07 R0 首稿:建立伦理学三流派(义务论/后果论/德性论)对 CAI 四级优先序的映射框架;判断主轴定位”准则冲突无元规则→行为不一致”的四个坑(条款膨胀幻觉/词典序残余不一致/德性论被义务论化/宪法非中立);引入 Stuart Russell(价值不确定性)与 B.C. Smith(judgment vs reckoning)两个 Rick 未读对手框架;升级对照 Constitutional AI 概念卡与 0115 伦理学节点。