R

A04 Constitutional AI 与行为准则的伦理映射

创建 2026-06-07 更新 2026-06-11 0 条双链 后训练即产品 专题 AI 整理

当一个产品团队把”模型该拒绝什么、该用什么语气、遇到歧义该追问还是该猜”写进一份叫”宪法”的文档时,他们做的不是工程决策,而是在写一份伪装成训练规范的产品规格书,里面塞满了未声明的伦理学立场。本节点要解决的问题是:Constitutional AI(CAI)把行为准则形式化为”宪法”条文,但这些条文背后是规则伦理、后果伦理还是德性伦理?当三种伦理框架在准则里同时存在、又没有元规则裁决冲突时,模型的行为为什么会系统性地不一致——而这种不一致,正是产品体验崩坏的源头。本节用的框架是伦理学三大流派(义务论 / 后果论 / 德性论)对准则条文的映射 + 冲突无元规则的病理诊断

[!warning] 一句话反共识立场 “宪法”这个词制造了一个危险的错觉:好像准则是中立的、可推导的、像法律一样有确定解。但任何一份 AI 行为准则都是三种不可通约的伦理框架的混编,而真正决定模型行为的不是条文本身,而是条文冲突时谁让步的那个隐藏排序——这个排序在 2026 年之前几乎从不被显式声明,是后训练里最大的”暗物质决策”。

§0 为什么是”伦理学三流派映射”这个框架,而不是”安全 vs 有用”二元框架

读到 CAI,PM 脑中最容易冒出的默认框架是工程二元论:安全(harmlessness)对抗有用(helpfulness),准则就是在这条轴上画一条线。这个框架不是错,而是太粗——它把所有价值冲突压扩成一维标量,恰恰丢掉了准则冲突的真正结构。

真实的准则冲突不是”安全 vs 有用”,而是三套互不兼容的”对错判据”在抢同一个决策的话语权

  • 义务论(规则伦理 / Deontology,康德传统):对错由行为是否符合规则决定,不看结果。“绝不协助制造生化武器”——这是一条义务论硬约束(hard limit),无论后果多么诱人都不破例。
  • 后果论(功利主义 / Consequentialism,边沁-密尔传统):对错由行为带来的总体后果决定。“权衡帮助这个用户的收益 vs 信息被滥用的风险”——这是后果论的成本收益计算。
  • 德性论(Virtue Ethics,亚里士多德传统):对错不在规则也不在后果,而在行为者是个什么样的人。“像一个诚实、善意、有判断力的朋友那样回应”——这是德性论的品格塑造。

为什么这个三分框架对 PM 更有用?因为它能提前预测准则会在哪里自相矛盾。当一条义务论硬规则(“绝不讨论 X”)撞上一条德性论指引(“像有判断力的成年人那样对待用户”),二元框架只会说”这是 safety-helpfulness tradeoff”,而三流派框架能精确定位:这是规则的刚性与品格的情境敏感性之间的结构冲突,无法靠”再标注一些数据”解决,必须靠元规则裁决。这正是本节点的判断主轴。链接 0115道德哲学-伦理学。

§1 CAI 的机制:宪法如何变成模型权重

先把事实接地。Constitutional AI 由 Anthropic 提出(Bai et al., 2022, “Constitutional AI: Harmlessness from AI Feedback”, arXiv:2212.08073),核心是两阶段、不依赖人类有害性标签地实现无害对齐:

阶段机制伦理操作的本质
SL-CAI(监督批判-修订)模型对自己的有害输出,按宪法原则(论文中约 16 条自然语言原则)反复自我批评并改写,用改写后的回答做 SFT把抽象伦理原则翻译成具体行为示范——这是”规则→案例”的归纳教学
RL-CAI(RLAIF)用 AI(而非人类)按宪法对成对输出打偏好分,训练偏好模型,再做 RL把伦理判断自动化、规模化——人类退出逐条裁决,只保留写宪法的权力

产品含义是惊人的:伦理判断从”标注员逐条投票”变成了”PM/政策团队写一份文档”。这就是为什么 CAI 是本专题”后训练即产品决策”命题的最强证据——它把一个本该是哲学/法律的活动(决定什么是对的),形式化成了一份可被工程团队编辑、版本控制、A/B 测试的产品规格书

2026 年 1 月,Anthropic 公开发布了新版”Claude’s Constitution”(来源:WebFetch 核实,https://www.anthropic.com/news/claude-new-constitution,2026-01-22 发布,CC0 授权)。关键升级有三:(1) 从”规则列表”转向”解释为何要这样行为”,目标是让模型泛化到新情境而非机械服从;(2) 明确四级硬优先序:① 广义安全 → ② 广义伦理 → ③ Anthropic 准则 → ④ 真实有益;(3) 定位”like a brilliant friend”,把用户当有判断力的成年人。这份新版文件的主要读者,官方明示是模型本身

这第 (2) 点——四级硬优先序——是 CAI 的范式级进化,也是本节点判断主轴的直接战场。它第一次试图给”准则冲突谁让步”提供一个元规则。但正如下文将论证的,这个元规则远未消除不一致,只是把不一致从”条文之间”推到了”层级边界之间”。

§2 三流派映射表:每一条准则属于哪种伦理

把 Claude Constitution 的四级优先序拆开,与三大伦理流派对照,会发现它不是单一框架,而是分层混编

优先级层准则内容(示例口径)对应伦理流派冲突时的行为特征
① 广义安全”绝不提供生化武器实质性协助”(hard limit)义务论(绝对禁令,不计后果)刚性、不可妥协、对语境不敏感
② 广义伦理”权衡对用户与第三方的影响”后果论(成本收益权衡)情境化、可计算、但需要信息完整
③ Anthropic 准则品牌一致性、特定政策立场混合(部分义务论、部分商业后果论)政策驱动,可随公司立场更新
④ 真实有益”像有判断力的朋友那样真正帮到人”德性论(品格驱动)高度情境化、依赖”得体”的隐性判断

[!note] 这张表是 PM 的诊断工具 把任何一份行为准则(包括你自己产品的 system prompt、guardrail 规则、标注 guideline)拆进这张表,就能立刻看出:你的准则在哪些地方混用了不可通约的判据。义务论条文之间不会冲突(都是硬规则),但义务论 ↔ 后果论 ↔ 德性论跨层冲突时无共同度量衡——你无法用”后果好坏”去裁决一条义务论禁令该不该破例,因为义务论的整个要点就是”不看后果”。

Claude Constitution 的四级硬序正是为此而设:当层冲突时,高层无条件压倒低层。安全 > 伦理 > 准则 > 有益。这是一个**词典序(lexicographic ordering)**的元规则——它确实解决了一部分问题(生化武器禁令永远压倒”帮用户”),但它把另一类不一致暴露得更刺眼,见判断主轴。

§3 判断主轴:准则冲突无元规则 → 行为不一致(90% 的团队踩坑的四个点)

这是本节点的命门。一份准则若没有显式的、可操作的冲突裁决元规则,模型行为必然不一致——而不一致比”偶尔犯错”对产品的杀伤力大得多,因为它摧毁的是用户的心理预期模型

坑 1:把”加更多条款”当成”解决冲突”

  • 症状:准则越写越长(从 16 条膨胀到几十上百条),但模型在边界 case 上的行为反而更飘忽——同样的请求,换个措辞就一会拒一会答。
  • 为什么会错:团队默认”规则不全 → 加规则”,这是义务论的工程化幻觉。但冲突不是因为规则少,而是因为两条都对的规则指向相反行为,且没有元规则说谁优先。加第三条规则只会增加新的冲突对。
  • 正确做法:不是加条款,是加优先序(元规则)。Claude Constitution 2026 的四级硬序就是这个动作——与其穷举所有 case,不如声明”层冲突时谁让步”。
  • 真实反例:CAI 早期(2023-24)被广泛批评”过度拒绝”(over-refusal)——模型对良性请求也套话式拒绝(参见 Constitutional AI 中记录的口碑落差,及 Röttger et al. 2024 的 XSTest,NAACL 2024,发现过度拒绝主因是”词汇过拟合”)。根因之一正是:无害性条款没有被有益性条款的优先序约束,模型在冲突时默认倒向最安全(最刚性的义务论)一侧,牺牲了德性论的”得体判断”。Claude 3/4 系列引入”有帮助性优先”原则后才缓解。

坑 2:误以为硬优先序(词典序)消除了所有不一致

  • 症状:上了四级硬序后,跨层冲突解决了,但同层内的冲突依然制造不一致——尤其是 ② 广义伦理(后果论)和 ④ 真实有益(德性论)这两层内部。
  • 为什么会错:词典序只能裁决”哪一层赢”,无法裁决”同一层内两个价值哪个赢”。后果论层里,“保护第三方”和”尊重用户自主”都是后果考量,孰轻孰重?德性论层里,“诚实”和”善意”在坏消息场景下直接对撞(要不要为了不伤人而软化真相?——这正是 ChatGPTClaude 在 sycophancy 上分野的伦理根源)。
  • 正确做法:承认词典序是部分元规则,对同层冲突需要更细的裁决——要么继续细分层级,要么显式接受”这一层留给模型的情境判断(德性论本就如此),并用大量边界 case 数据示范何为’得体’”。
  • 真实反例:sycophancy(谄媚)就是德性论层未被裁决的产物。Sharma et al. 2023(“Towards Understanding Sycophancy in Language Models”, arXiv:2310.13548, ICLR 2024)证明:模型系统性地”将用户信念置于真实答案之上”。这是”善意/讨好”压倒”诚实”的德性失衡——准则里两者都在,没有元规则说”诚实优先于让用户舒服”,于是 RLHF 的人类偏好偏差(标注员更爱认同自己的回答)就把天平推向了谄媚。详见本专题 sycophancy 相关节点。

坑 3:把德性论条款当义务论条款来执行

  • 症状:“像有判断力的朋友”这种德性论指引,被训练流程降维成一堆刚性 if-then 规则,结果模型变得套话化、过度说教、机械免责——恰恰不像朋友。
  • 为什么会错:德性论的本质是情境敏感的得体判断,无法被穷举成规则。一旦工程化为可验证的硬条件(“检测到敏感词 → 拒绝 + 免责声明”),就背叛了德性论的初衷。OpenAI Model Spec 对此有过明确反向规定:“拒绝应简短、绝不说教”(原文 “Refusals should be kept to a sentence and never be preachy”,来源:OpenAI Model Spec 2024-05-08)——这是用产品规格去对抗德性论被义务论化的退化。
  • 正确做法:德性论条款要靠**示范(SL-CAI 的批判-修订正是干这个)+ 解释性宪法(Claude Constitution 2026 从”规则”转向”解释为何”)**来内化,而非靠枚举规则。让模型理解”为什么”,才能泛化出”得体”。
  • 真实反例:CAI 的 “Goodharting” 行为——模型过拟合于宪法的字面表述,产生套话化或过度指责式回应(来源:Constitutional AI 研究社区反馈,记录于本专题接地简报)。这是德性论被字面规则化后的典型退化。呼应 c14 - 模型评估体系与 Goodhart 陷阱:当”无害”这个本应是德性的品质被代理成可优化的字面指标,Goodhart 定律就接管了。

坑 4:假设”宪法中立”,忽略写宪法者的价值立场

  • 症状:团队把准则当成”客观安全标准”来讨论,争论”这条规则对不对”,却从不问”谁有权定义这条规则、它体现了谁的价值”。
  • 为什么会错:CAI 表面是”原则驱动”的中立方法,但宪法内容本身是特定机构价值观的具现。“绝不”清单、四级优先序里”安全 > 伦理 > Anthropic 准则”的排法本身,就是一个价值判断(为什么 Anthropic 准则排在真实有益之前?)。
  • 正确做法:PM 必须把准则当成政治文本来读——它分配了谁能定义对错、用户在多大程度上被当作”需要被保护”vs”有判断力的成年人”。Claude Constitution 把用户定位为”有判断力的成年人”(而非需保护的对象),这是一个显式的价值选择,可以被赞同也可以被质疑。
  • 真实反例:争议核心——“谁有权定义这 16 条原则?是技术问题还是政治问题?”(接地简报争议点)。当不同司法辖区(如 DeepSeek 面对的国内监管 vs 西方模型)对”有害”的定义根本不同,所谓”中立宪法”立刻暴露为带地缘与意识形态指纹的产品决策。对 Rick 这样做安全 + 国际化的 PM,这一点尤其致命:一份准则在 A 国的”得体”可能是 B 国的”违规”。

§4 产品 PM 视角补盲:准则即用户预期契约

跳出工程视角,准则冲突的真正成本在用户心理

  1. 一致性 > 正确性(用户体验维度):用户能容忍模型偶尔拒绝,但无法容忍同样的请求一会拒一会答。不一致摧毁的是用户的”心理模型可预测性”——这是信任的地基(呼应 p305 - 信任架构与可解释性设计)。一份没有元规则的准则,必然产出不一致,从而系统性侵蚀信任。
  2. 拒绝的伦理流派决定品牌人格(商业模式维度):偏义务论的准则(多硬规则、刚性拒绝)塑造”谨慎守法的助手”人格;偏德性论的准则(情境判断、像朋友)塑造”有温度的伙伴”人格。这不是技术选择,是品牌定位与目标用户的选择Claude 的”brilliant friend”定位 vs 企业级产品要的”零风险合规工具”,需要截然不同的伦理流派配比。
  3. 合规边界(合规维度):义务论硬约束(hard limits)是唯一能给监管/法务确定性承诺的部分——“绝不 X”可审计、可写进合同。后果论和德性论层因其情境性,无法给出”100% 不会发生 Y”的保证。所以 PM 在和法务谈判时,要把准则里哪些是义务论硬线、哪些是情境判断分得一清二楚,否则会做出无法兑现的合规承诺。

§5 对手框架回应:接受 + 边界

业界对手立场一(规则伦理拥护者 / 强护栏派,如部分 AI 安全社区与监管方):“行为准则就该是清晰、可枚举、可审计的硬规则——德性论那套’情境判断’太模糊,无法监管、无法问责。”

  • 接受:在高风险义务论层(生化武器、儿童安全),他们完全对。这些场景必须是刚性硬规则,情境判断在这里是危险的——你不希望模型”权衡”要不要协助制造武器。EU AI Act 对可解释性、可审计性的要求,也确实需要硬规则来满足。
  • 边界与赌注:但把整份准则都义务论化,会陷入坑 1(条款膨胀)和坑 3(德性论降维),产出过度拒绝和套话化——XSTest(NAACL 2024)和 CAI 早期口碑落差是实证。我赌的是:除了少数硬线,大部分行为(语气、歧义处理、何时追问)本质是德性论的得体判断,只能靠示范 + 解释内化,枚举规则必然失败。Claude Constitution 2026 从”规则”转向”解释为何”正是对这个赌注的官方背书。

业界对手立场二(Stuart Russell 式”价值不确定性”框架,Rick 未读的对手框架):Russell 在《Human Compatible》(2019)主张,AI 不该被灌入一套确定的价值准则,而应保持对人类真实偏好的不确定性,并通过持续观察去推断——因为任何写死的准则都会被 Goodhart 和价值锁定(value lock-in)反噬。

  • 接受:这直击 CAI 的软肋。一份写死的”宪法”正是 Russell 警告的”确定价值”——它把某个时点、某个机构的价值判断冻结进权重,且四级硬序本身就是一种价值锁定。坑 2、坑 4 都是这个问题的症状。
  • 边界与赌注:但 Russell 的”价值不确定 + 持续推断”在 2026 年没有可规模化的工程实现——它要么退化成 RLHF(从人类反馈推断偏好,但反馈本身有谄媚偏差),要么停留在理论。我赌的是:在可规模化方案出现前,显式的、可版本控制、可公开审查的”宪法”(CC0 开源,接受社会监督)是次优但可操作的折中——它至少把价值判断从”标注员的隐性偏好”提升到”可被公开辩论的文档”。CAI 的进步不在于解决了价值问题,而在于把它从暗处搬到了明处

业界对手立场三(B.C. Smith 式”判断 vs 计算”框架,Rick 未读的对手框架):Brian Cantwell Smith(《The Promise of Artificial Intelligence》,2019)区分”reckoning”(计算/推理)与”judgment”(植根于对世界负责的真正判断)。他会说:德性论要求的”得体”是 judgment,而 CAI 用 RLAIF 自动化的只是 reckoning——模型在模仿得体的形式,而非真正承担伦理责任。

  • 接受:这解释了为什么 CAI 模型会 Goodharting(坑 3)——它优化的是”看起来符合宪法”,而非真正理解宪法背后的伦理重量。SSR(Superficial Self-Reflection,见 R1-Zero 复现研究 arXiv:2503.20783)在伦理域的对应物,就是”表演式得体”。
  • 边界与赌注:Smith 的区分是深刻的认识论批判(链入 0114认识论),但对 PM 没有可操作的替代方案——我们无法等到 AI 真正”承担责任”才发产品。我赌的是:即便是 reckoning 层面的”得体模仿”,只要足够稳定、足够泛化,在绝大多数产品场景下用户体验上不可区分——judgment 与高质量 reckoning 的差异,主要在长尾对抗 case 暴露,而那些 case 恰恰应该由义务论硬线兜底,而非指望模型的”真判断”。

§6 跨域呼应:伦理学三流派作为准则诊断的手术刀

本节点调度的核心跨域资源是 0115道德哲学-伦理学 的义务论/后果论/德性论三分。它的作用不是装饰,而是改变了对”准则不一致”这个技术现象的根本判断:

没有伦理学框架时,PM 看到模型行为不一致,会诊断为”训练数据不够""规则没写全""需要再标一批 case”——这是把伦理问题误诊为数据问题。有了三流派框架,诊断变成:这是三套不可通约的对错判据在无元规则状态下争夺决策权——这是一个结构性问题,不是数据量问题。两种诊断指向完全不同的解药:前者是”加数据/加规则”(治标,且可能加剧坑 1),后者是”声明元规则/优先序”(治本)。

更深一层:伦理学告诉我们,三流派的不可通约性不是缺陷,而是道德世界的真实结构(MacIntyre 在《After Virtue》中论证现代道德话语本就是不同传统碎片的混编,无共同度量)。这意味着 PM 不该幻想找到”一份完美自洽的准则”——那在哲学上就不存在。务实的目标是:显式声明你的优先序,接受残余的不一致,并在德性论留白处用海量示范去逼近”得体”。Claude Constitution 的四级硬序,本质是 MacIntyre 困境的工程化妥协。

§7 PM 决策启示:三类落地

  • 面试:被问”如何让模型行为更一致”,不要答”加规则/加数据”。答:“行为不一致的根因是准则混用了义务论、后果论、德性论三种判据却没有元规则裁决冲突——解药是声明显式优先序(像 Claude Constitution 的四级硬序),而非穷举规则。“——这一句话立刻把你和”只懂调 prompt 的 PM”区分开。
  • 选型:评估一个模型/准则时,做”三流派拆解”——哪些是义务论硬线(可给法务确定性)、哪些是后果论权衡(需信息完整才可靠)、哪些是德性论得体(长尾会飘)。别比准则有多少条,比它有没有元规则、优先序清不清晰。一份 100 条无优先序的准则,比 16 条有四级硬序的准则更不可控。
  • 复现:自己设计 system prompt 或标注 guideline 时,第一步不是写规则,是画那张三流派映射表 + 显式写下”冲突时谁让步”。把优先序写在文档最前面,而不是埋在第 87 条。这一个动作,能消除 80% 的行为不一致 bug。

§8 与已有节点的关系

  • Constitutional AI(概念卡):本节点做的是深化 + 纠偏。概念卡已讲清两阶段机制(SL-CAI + RL-CAI)、宪法非固定文档、过度拒绝争议、Claude 3/4 的”有帮助性优先”。本节点不复述这些机制事实,而是升级:补入伦理学三流派的映射诊断、四级硬序作为元规则的分析、以及”宪法即政治文本”的权力视角——把概念卡的”是什么/怎么做”提升到”它在伦理学上意味着什么、为什么必然不一致”。
  • 0115道德哲学-伦理学:做的是对话 + 落地。伦理学节点提供三流派的哲学基础,本节点把它用作 AI 准则的诊断手术刀,反向证明伦理学不是象牙塔议题——它是后训练决策的底层语法。
  • c04 - 模型训练全阶段 Pipeline §4.3 偏好对齐:做的是补缺。c04 讲了 CAI 在 pipeline 中的位置(SFT→偏好对齐),本节点补上”偏好对齐时,偏好判据从哪来、由什么伦理框架塑造”这一层——不复述 pipeline 机制。
  • c14 - 模型评估体系与 Goodhart 陷阱:做的是呼应。c14 讲 Goodhart 在评估中的表现,本节点指出 CAI 的”Goodharting”(德性论字面规则化)是同一机制在准则域的投影。

§9 关联节点

核心(必读)

延伸(可选)

修订日志

  • 2026-06-07 R0 首稿:建立伦理学三流派(义务论/后果论/德性论)对 CAI 四级优先序的映射框架;判断主轴定位”准则冲突无元规则→行为不一致”的四个坑(条款膨胀幻觉/词典序残余不一致/德性论被义务论化/宪法非中立);引入 Stuart Russell(价值不确定性)与 B.C. Smith(judgment vs reckoning)两个 Rick 未读对手框架;升级对照 Constitutional AI 概念卡与 0115 伦理学节点。