E01 Anthropic Constitution 与 RSP 作为制度剖解

一家 AI 公司把自己的训练原则命名为 “Constitution”（宪法）、把自己的能力释放规则命名为 “Responsible Scaling Policy”（负责任扩展政策，RSP），这不是修辞上的偶然——它在用公法的语汇为私人工程选择命名。本节点要回答的问题是：当一家私营公司自己起草”宪法”、自己实施、又自己评估合规，这套自我约束在制度意义上到底成立到什么程度？ 视角不是技术合规（“CAI 训练有没有跑通”），而是制度设计：把 Anthropic 当作一个正在自我立宪（self-constitution）+ 自我监管（self-regulation）的准国家行为体来解剖，用”可问责性”这把尺子量它的可信度。判断主轴提前摆明：自我约束的制度可信度，不取决于规则文本写得多漂亮，而取决于谁能在公司不想守的时候迫使它守——RSP 在法律性质上是一张承诺备忘录（promissory note），不是法律。

§0 为什么用”制度设计”框架，而不是”AI 安全技术”或”企业伦理”框架

读到 Constitutional AI，PM 脑中默认会弹出两个框架，两个都不够锋利。

默认框架一：把它当 AI 安全技术。 即只问”用 AI 反馈替代人工标注（RLAIF）省了多少标注成本、对齐效果如何”。这是工程视角，它会漏掉一个根本事实：CAI 的核心创新不在算法，在于把”价值判断的权力”从分散的人工标注员手里，收归到一份由公司单方面起草的成文原则里。这是一个治理权的集中动作，技术框架看不见它。

默认框架二：把它当企业伦理 / CSR。 即把”宪法""负责任”读成公关话术，一笑置之。这同样失焦——它低估了这些文件的制度后果。Anthropic 的宪法文本是公开的、可被逐条审计的；RSP 触发的 ASL（AI Safety Level）阈值是会真实影响产品发布节奏的承诺。把它当纯粹公关，就看不到它正在生产事实上的行业标准（OpenAI 的 Model Spec、Google DeepMind 的 Frontier Safety Framework 都在其后跟进）。

制度设计框架比这两者都高一层：它问的是分权（谁立法、谁执法、谁裁决）、问责（违反了谁能罚）、合法性来源（这套规则凭什么有约束力）。用这把尺子，Anthropic 的 CAI + RSP 立刻显形为一个集立法权、行政权、解释权于一身的私人治理体——而这正是它最大的制度脆弱点。这与本专题 0419 节点（CAI 作为价值对齐机制）形成显式升级：0419 在”机制如何运作”层面剖 CAI，本节点把同一对象抬到”制度如何（不）可信”层面，不复述其训练机制。

§1 自我立宪：Constitutional AI 作为”成文宪法”的字面与折扣

事实接地先做实。Constitutional AI 原始论文为 Yuntao Bai 等（Anthropic 团队，含 Amanda Askell、Deep Ganguli、Jared Kaplan、Dario Amodei 等 48 位作者），《Constitutional AI: Harmlessness from AI Feedback》，arXiv:2212.08073，2022 年 12 月 15 日提交（已 WebFetch 核实标题、作者、日期）。其机制是用一份明文原则列表（“宪法”）替代大量人工有害性标注，让模型经由自我批评 + RLAIF 自我修正。Anthropic 于 2023 年公开了 Claude 所用宪法文本，条款来源混杂——援引《世界人权宣言》、Apple 服务条款、DeepMind 原则等（来源：Anthropic 官网公开宪法文本）。

把它当”宪法”来读，立刻暴露三个与真宪法的制度学折扣：

真宪法的制度属性	Anthropic Constitution 的对应状况
制宪权来源：人民 / 制宪会议（外部授权）	公司单方面起草，无外部授权程序
修宪门槛：高门槛、公开程序、可追溯	公司可单方修订，无公开修宪程序
违宪审查：独立法院可宣告违宪	无独立机构可裁定模型行为是否”违宪”
公民救济：违宪侵权可诉	用户被模型误伤无对应的”宪法诉讼”通道

学界对这个类比的批评相当锋利。Orozco y Villa 与 Menendez（2025，DigiCon）直指该类比在规范意义上”过于单薄（normatively too thin）“，理由三条：高层原则与具体工程实现之间存在不可弥合的翻译鸿沟；以 AI 自我批评替代人工监督，违背欧盟自动化决策”human-in-the-loop”原则，动摇宪政的个人问责机制；公平性、偏见等判断需要情境道德推理，算法无法独立完成——结论是 CAI 是”炫目的转移注意力（shiny distraction）“。Abiri（2024，arXiv:2406.16696）提出”Public Constitutional AI”，承认 Anthropic 现做法有透明度优势，但”在解决个体 AI 决策不透明性、促进真正民主合法性方面存在根本缺陷”，主张通过公民协商程序制定 AI 宪法、设立”AI 法院”发展案例法。Priyanshu、Maurya 与 Hong（2024，arXiv:2407.01557）以 NIST 框架与欧盟 AI 法案视角分析 Claude 治理，发现三个硬缺口：无外部机构可核实 Claude 行为是否符合宪法目标、无独立审计机制接触训练过程、违规后果完全依赖 Anthropic 自身判断。

[!note] 制度学命题一部”宪法”之所以是宪法，不在于它写下了原则，而在于它约束了写它的那个权力。Anthropic 的宪法约束的是模型，不是公司——公司随时可以改宪法。这是”以宪法之名行内部规章之实”。命名做的是话语工作（borrowing legitimacy from constitutionalism），不是制度工作。

§2 自我监管：RSP 作为”承诺非法律”的法律性质

RSP 的版本线（接地）：v1.0 于 2023 年 9 月由 Anthropic 首发，配合 2023 年 7 月白宫自愿承诺（Amazon、Anthropic、Google、Inflection、Meta、Microsoft、OpenAI 联署）；v2.0 于 2024 年 10 月 15 日更新，进一步明确 ASL 分级阈值（来源：assets.anthropic.com RSP PDF）；现行 v3.0 新增”Frontier Safety Roadmaps”与”Risk Reports”，纳入潜在外部审查（来源：anthropic.com/news）。行业跟进：OpenAI、Google DeepMind 在数月内推出类似框架；2024 年 5 月（首尔 AI 峰会）16 家 AI 公司签署《前沿 AI 安全承诺》，承诺在 2025 年 2 月前各自制定 RSP（来源：ailabwatch.org）。

RSP 的制度性质要害是一句话：它在法律上是单方自愿承诺，不是可诉的法律义务。 没有外部主体能在 Anthropic 重新解释 ASL 阈值、或在竞争压力下放松约束时，对它提起诉讼或施加法律罚则。

这一点的批评同样有据。Campos（2023，via ailabwatch.org）称 RSP 是”风险管理做错了方向”，关键在它把举证责任倒转了：高风险行业（核、药、航空）的惯例是”不证明安全就不得上市”，而 RSP 框架默认放行、直到触发阈值——举证责任落在安全关切方而非能力研发方。ailabwatch.org 将 RSP 概括为”承诺备忘录（promissory note）“而非实际政策，并指出结构性矛盾：竞争压力下实验室有激励放松约束或重新解释阈值定义；Google DeepMind 的 Frontier Safety Framework 被明确指出”尚未将安全措施与风险评估结果挂钩”。Karnofsky（2023）、Habryka 与 Greenblatt（2023）均表达怀疑（来源：ailabwatch.org）。

高风险行业的强制监管	Anthropic RSP
上市前须证明安全（前置举证）	默认放行，触发阈值才收紧（后置举证）
独立机构（FDA / FAA / NRC）执法	公司自评估、自定义阈值
违规有法律罚则 / 吊销许可	违规后果依赖公司自我判断与声誉
阈值由监管者定义、不可被被监管者重释	阈值定义权在公司手中

§3 判断主轴：自我约束的可信度 = 可问责性，而非规则文本质量

这是本节点的命门——90% 的人在评估 Anthropic 治理时会搞错的四个点，每点配症状 → 为什么会错 → 正确做法 → 真实反例。

错位一：把”规则写得好”等同于”治理可信”。

症状：读完公开的宪法文本和 RSP，觉得”考虑得很周全，比同行强”，于是判定 Anthropic 治理可信。
为什么会错：制度可信度是关于约束力的属性，不是关于文本质量的属性。一份写得再好、但只能由起草者自己解释和执行的规则，约束力等于零。
正确做法：只问一个问题——“当公司商业利益与这条规则冲突时，谁能迫使它守？“答不出外部主体，可信度就该大幅折扣。
真实反例：RSP 的 ASL 阈值定义权完全在 Anthropic 手中（来源：ailabwatch.org 对阈值可重释性的批评）；竞争白热化时，“重新解释阈值”是合规的，没有外部主体能否决。

错位二：把”透明”等同于”问责”。

症状：因为 Anthropic 公开了宪法文本、公开了 RSP，就认定它”接受了问责”。
为什么会错：透明是问责的必要非充分条件。能看见规则，不等于能在违规时施加后果。Priyanshu 等（2024，arXiv:2407.01557）正是指出：透明的同时仍无外部核实、无独立审计、违规后果自决。
正确做法：区分”可见性（visibility）“与”可问责性（accountability）“。问”看到违规之后，谁能做什么”。
真实反例：Constitutional AI 文本公开，但无独立机构可核实 Claude 实际行为是否符合该文本（同上来源）。

错位三：把”自愿承诺”读成”准法律义务”。

症状：把首尔《前沿 AI 安全承诺》、白宫自愿承诺当作”行业已被约束”。
为什么会错：自愿承诺缺乏强制执行，历时性脆弱——跨行业历史记录显示，无约束力的自愿标准在竞争强化时系统性退化（Campos 2023；ailabwatch）。
正确做法：把自愿承诺定位为”声誉抵押”，其强度随声誉成本变化而变化，竞争升温即贬值。
真实反例：2025 年起，美国 EO 14148（2025-01-20）撤销拜登 EO 14110 的多项 AI 安全与透明度要求（EO 14179（2025-01-23）为其后去监管纲领）；多个行业团体呼吁对 EU AI Act 执行”暂停两年（stop-the-clock）“——外部约束环境一松，自愿承诺的相对约束力随之缩水（来源：WebSearch 接地材料）。

错位四：把”先行立规者”误当”民主合法者”。

症状：因为 Anthropic 是行业里最早、最系统立规的，就把它的规则当成”应然标准”。
为什么会错：先发优势是话语权力而非合法性授权。最早定义术语、定义阈值的人，塑造了后来者的可能性空间——这恰恰是问题，不是资格。
正确做法：把”谁先写了规则”与”这规则凭什么有约束力”分开评估。
真实反例：CAI 命名本身将工程选择（RLAIF 训练程序）包装为宪政意象，Birhane 等（2026，arXiv:2605.06806，FAccT 2026 录用）的”话语俘获”框架指出此类命名先于正式监管即塑造了监管可能性空间。

§4 产品 PM 视角补盲：自我监管不是工程问题，是激励结构问题

跳出工程 PM 视角，三个 PM 容易看走眼的点：

商业模式张力：Anthropic 是营利性前沿实验室，安全承诺与商业释放节奏存在结构性张力。RSP 的”默认放行”举证方向，恰恰是这个张力的制度化产物——它把安全做成了”不阻碍上市的前提下尽量做”。PM 评估任何”安全 + 商业”双使命公司时，要先看激励结构倒向哪边，而非看使命宣言。
Long-Term Benefit Trust（长期受益信托，LTBT）的制度含义：Anthropic 于 2023 年设立 LTBT——由 5 名”财务无利害关系”成员组成的独立机构，持 Class T 普通股（经济价值极小但治理权重大），有权选任与罢免一部分董事，该比例随时间增长，最终将达董事会多数（3/5）；受托人任期一年，后续受托人由受托人投票选出（来源：Anthropic 官网 “The Long-Term Benefit Trust”；Harvard Law CorpGov 2023-10-28）。这是一个比 CAI/RSP 更接近”真制度”的设计——它试图把部分控制权交给非营利受托人，是 Anthropic 治理里唯一带有横向问责雏形的结构。但 PM 的判断点恰在其约束力：EA Forum 有评估直指”LTBT 可能是无权力的（powerless）“——信托能否在 CEO/投资人不同意时真正行使权力，决定它是真分权还是装饰性分权（来源：EA Forum, “Maybe Anthropic’s Long-Term Benefit Trust is powerless”）。
合规边界与”监管者能力不对称”：政府缺乏计算资源与技术专长独立评估专有模型（Chatham House / AI Governance Research 类批评，见接地材料）。这意味着即便有外部监管，监管者也常无能力核实。PM 做 Trust & Safety / Policy 时要意识到：自我监管之所以盛行，部分是因为外部监管在技术上无力——这不是为自我监管辩护，而是说明问责缺口是双向造成的。

§5 对手框架回应：接受 + 边界

对手立场一（Anthropic / Hubinger 2023）：RSP 是”以正确方式实现暂停”，原则先行比规则化更灵活，开发者目前最能创新安全方案（Schuett 等 2024，arXiv:2407.07300 支持渐进式监管路径）。

接受：在技术演进极快、监管者技术能力滞后的窗口期，由最懂前沿能力的人先立规，确有现实合理性；CAI 的可审计原子化（将宪法拆为可审计命题）也确实是”私人规则向可问责公共标准转化”的早期迹象（arXiv:2605.24229，2026，ID 已核实（2026-06-12）；将 model spec/constitution 分解为 Anthropic 约 205 条、OpenAI 约 197 条可审计命题〔205/197 具体条数仍待核实〕）。
边界与赌注：我赌的是——没有外部强制执行的前置举证倒转，在竞争白热期会系统性失效。Schuett 等的”渐进式”假设了一个善意的、最终会让渡给规则化的过渡；但激励结构（营利 + 军备竞赛）让”过渡”有变成”永久自治”的强大引力。灵活性的代价是约束力，PM 决策不能赌公司在利益冲突时选择自缚。

对手立场二（Anthropic：自我批评比人工标注更可扩展、更民主，明文原则比 RLHF 黑盒透明）。

接受：相对于完全不透明的 RLHF 价值灌输，公开成文原则确实是治理透明度的进步，这一点 Abiri（2024）也承认。
边界：透明 ≠ 问责（见 §3 错位二）。且以 AI 自我批评替代人工监督，与欧盟 AI Act 的 human-in-the-loop 要求直接冲突（Orozco y Villa & Menendez 2025）。透明度是真实进步，但它被用来替代而非补充外部问责时，就成了问责缺口的遮蔽物。

§6 跨域呼应：O’Donnell 委任民主 + 秦制大共同体本位

调度两个跨域框架，各自具体改变一个判断。

O’Donnell《Delegative Democracy》（《Journal of Democracy》5:1，1994，pp. 55–69）的纵向/横向问责之分，精确切中 Anthropic 治理的脆弱点。O’Donnell 区分：纵向问责（选举）存在且有效，横向问责（制度内部相互制衡）实质缺位——委任民主中选民把全权委任给当选者，此后其”可以为所欲为”。把它映射到 AI 公司：用户/社会通过”使用即同意”把数据与价值判断权”委任”给 Anthropic，这是一种弱纵向问责（用脚投票、市场竞争）；但横向问责——独立机构对其规则制定与执行的相互制衡——几乎完全缺位。CAI/RSP 看似建立了”内部宪法”，实则没有建立任何横向制衡机构。这个框架让我把判断从”Anthropic 规则好不好”切换到”它有没有横向问责”——答案是几乎没有。〔须标注：O’Donnell 原框架针对拉美后威权国家，移植到非选举性私人实体存在分析单元错配，此处为显式类比，非既有学术共识。〕

秦晖”秦制”的大共同体本位 / 小共同体缺位框架（见 0622 秦晖），提供一个东方制度史的对照镜。秦制的要害是”编户齐民”——朝廷绕过宗族、村社等小共同体，直接控制每一户。映射到 AI 治理：前沿实验室通过 API 与终端模型，直接触达每一个用户与每一个第三方应用，绕过了行业自律组织、开源社区、用户工会等”小共同体”。CAI 把价值判断收归一份中央宪法，正是”大共同体本位”的算法版本——它消解了价值判断本应分散在多元社群中的可能性。这个对照让我看见：自我立宪的危险不只是”公司自己说了算”，而是它结构性地排除了中间层治理的存在空间。〔秦制是前现代中国历史特殊物，挪用于 AI 治理须防”以古喻今”的论证捷径，此处作分析隐喻。〕

§7 PM 决策启示

面试（Safety PM / Policy PM / Trust & Safety 高区分度）：被问”你怎么评价 Anthropic 的 Constitutional AI / RSP”时，不要复述机制（那是初级答案）。直接上判断主轴：“这两者的制度可信度取决于可问责性，而非文本质量。CAI 是自我立宪、RSP 是承诺非法律——都集立法/执法/解释权于一身，缺横向问责。我会用 O’Donnell 的纵向/横向问责框架来定位它的脆弱点。“这一句话立刻区分出”懂技术”与”懂治理”。
选型 / 供应商评估：评估任何宣称”负责任 AI”的供应商，落到一张表——谁立规、谁执法、谁能在它违规时施加后果、举证责任倒向哪边。问不出外部强制主体，就把”安全承诺”按”声誉抵押”折价。
复现 / 自家治理设计：若 Rick 在滴滴/99 设计 AI 安全治理（呼应安全感知与干预、降发生方法论），核心教训是——别只写规则，要设计问责回路：谁来核实、违反触发什么、举证责任放在能力方还是安全方。把”前置举证”而非”后置放行”作为默认。

§8 与已有节点的关系

对照 Constitutional AI（0401 概念节点）：本节点做的是抽象层抬升——0401 讲 CAI 是什么、机制如何运作；本节点不复述机制，把它抬到”作为成文宪法的制度折扣”层面，问它的约束力与合法性。
对照本专题 0419 节点（CAI 作为价值对齐机制）：做对话与深化——0419 在”对齐机制”层面剖 CAI，本节点在”制度可信度”层面剖同一对象，二者构成”机制 → 制度”的升级链，互不复述。
对照 AI 公司政治敏感内容立场对比：做补缺——该节点比较各家立场，本节点补上”立场背后的制度结构（谁有权定义立场、谁能问责）“这一层。
对照对齐哲学系下的问责理论：做纠偏——把”AI 安全”从工程合规话语，纠偏回”分权与问责”的政治制度话语。

§9 关联节点

核心（必读）

Constitutional AI — 本节点剖解的对象，机制层基础（不复述）
Anthropic — 行为主体
0622 秦晖 — 大共同体本位 / 小共同体缺位的制度史对照
奥唐奈 — 委任民主、纵向/横向问责
AI 公司政治敏感内容立场对比 — 立场比较的制度结构补层
RLHF — CAI 的对照工程基底

延伸（可选）

OpenAI — Model Spec 作为同类自我规范
Agent — 自治系统的问责延伸
幻觉 — 模型行为不可核实性的技术根源
生命政治 — 治理术对行为的直接干预
霸权 — 先行立规作为话语权力
0116政治哲学 — 制宪权、违宪审查、合法性来源
0117社会学 — 私人治理与制度同构
福柯 — 治理术、规则的生产性权力
安全感知与干预 — Rick 自家安全治理的问责回路设计
降发生方法论 — 前置举证 vs 后置放行的方法论迁移
AI PM 知识图谱·总索引 — 全局入口

修订日志

R1（2026-06-07）：首稿。确立判断主轴（自我约束可信度 = 可问责性；RSP 是承诺非法律）；接地 CAI 论文（arXiv:2212.08073）、RSP 版本线（v1.0 2023-09 / v2.0 2024-10-15 / v3.0）、四类批评（Orozco y Villa & Menendez 2025、Abiri 2024、Priyanshu 等 2024、Campos 2023 via ailabwatch）；判断主轴四错位四件套齐备；对手框架两处接受+边界；跨域调度 O’Donnell + 秦制各具体展开；与 0419/0401 显式升级对照不复述。
R1.1（2026-06-07）grounding pass：WebFetch 核实 arXiv:2212.08073 标题/作者（48 位）/提交日（2022-12-15），去除该项〔待核实〕；WebSearch 核实 LTBT 制度细节（5 名财务无利害关系受托人、Class T 股、可任免最终达董事会多数 3/5、一年任期）并补入 EA Forum “powerless” 批评，去除 LTBT〔待核实〕。剩余待核实项 1：arXiv:2605.24229（model spec 原子化命题数 205/197 来源 ID）。
2026-06-11 P3.4 校链：§8 死链 0419政治哲学 改为别名链对齐哲学（0419 对齐哲学专题已入库）。
2026-06-12 内审修复：对齐台账矛盾——§接受处 arXiv:2605.24229 的〔ID 待核实〕改为”ID 已核实（2026-06-12）“（该 ID 在 E02/A05/A06/S03/G01 均有 WebSearch 确证记录），其 205/197 具体条数另标〔仍待核实〕。