R

E01 Anthropic Constitution 与 RSP 作为制度剖解

创建 2026-06-07 更新 2026-06-12 0 条双链 AI 作为制度现象 专题 AI 整理

E01 Anthropic Constitution 与 RSP 作为制度剖解

一家 AI 公司把自己的训练原则命名为 “Constitution”(宪法)、把自己的能力释放规则命名为 “Responsible Scaling Policy”(负责任扩展政策,RSP),这不是修辞上的偶然——它在用公法的语汇为私人工程选择命名。本节点要回答的问题是:当一家私营公司自己起草”宪法”、自己实施、又自己评估合规,这套自我约束在制度意义上到底成立到什么程度? 视角不是技术合规(“CAI 训练有没有跑通”),而是制度设计:把 Anthropic 当作一个正在自我立宪(self-constitution)+ 自我监管(self-regulation)的准国家行为体来解剖,用”可问责性”这把尺子量它的可信度。判断主轴提前摆明:自我约束的制度可信度,不取决于规则文本写得多漂亮,而取决于谁能在公司不想守的时候迫使它守——RSP 在法律性质上是一张承诺备忘录(promissory note),不是法律。

§0 为什么用”制度设计”框架,而不是”AI 安全技术”或”企业伦理”框架

读到 Constitutional AI,PM 脑中默认会弹出两个框架,两个都不够锋利。

默认框架一:把它当 AI 安全技术。 即只问”用 AI 反馈替代人工标注(RLAIF)省了多少标注成本、对齐效果如何”。这是工程视角,它会漏掉一个根本事实:CAI 的核心创新不在算法,在于把”价值判断的权力”从分散的人工标注员手里,收归到一份由公司单方面起草的成文原则里。这是一个治理权的集中动作,技术框架看不见它。

默认框架二:把它当企业伦理 / CSR。 即把”宪法""负责任”读成公关话术,一笑置之。这同样失焦——它低估了这些文件的制度后果。Anthropic 的宪法文本是公开的、可被逐条审计的;RSP 触发的 ASL(AI Safety Level)阈值是会真实影响产品发布节奏的承诺。把它当纯粹公关,就看不到它正在生产事实上的行业标准(OpenAI 的 Model Spec、Google DeepMind 的 Frontier Safety Framework 都在其后跟进)。

制度设计框架比这两者都高一层:它问的是分权(谁立法、谁执法、谁裁决)、问责(违反了谁能罚)、合法性来源(这套规则凭什么有约束力)。用这把尺子,Anthropic 的 CAI + RSP 立刻显形为一个集立法权、行政权、解释权于一身的私人治理体——而这正是它最大的制度脆弱点。这与本专题 0419 节点(CAI 作为价值对齐机制)形成显式升级:0419 在”机制如何运作”层面剖 CAI,本节点把同一对象抬到”制度如何(不)可信”层面,不复述其训练机制。

§1 自我立宪:Constitutional AI 作为”成文宪法”的字面与折扣

事实接地先做实。Constitutional AI 原始论文为 Yuntao Bai 等(Anthropic 团队,含 Amanda Askell、Deep Ganguli、Jared Kaplan、Dario Amodei 等 48 位作者),《Constitutional AI: Harmlessness from AI Feedback》,arXiv:2212.08073,2022 年 12 月 15 日提交(已 WebFetch 核实标题、作者、日期)。其机制是用一份明文原则列表(“宪法”)替代大量人工有害性标注,让模型经由自我批评 + RLAIF 自我修正。Anthropic 于 2023 年公开了 Claude 所用宪法文本,条款来源混杂——援引《世界人权宣言》、Apple 服务条款、DeepMind 原则等(来源:Anthropic 官网公开宪法文本)。

把它当”宪法”来读,立刻暴露三个与真宪法的制度学折扣:

真宪法的制度属性Anthropic Constitution 的对应状况
制宪权来源:人民 / 制宪会议(外部授权)公司单方面起草,无外部授权程序
修宪门槛:高门槛、公开程序、可追溯公司可单方修订,无公开修宪程序
违宪审查:独立法院可宣告违宪无独立机构可裁定模型行为是否”违宪”
公民救济:违宪侵权可诉用户被模型误伤无对应的”宪法诉讼”通道

学界对这个类比的批评相当锋利。Orozco y Villa 与 Menendez(2025,DigiCon)直指该类比在规范意义上”过于单薄(normatively too thin)“,理由三条:高层原则与具体工程实现之间存在不可弥合的翻译鸿沟;以 AI 自我批评替代人工监督,违背欧盟自动化决策”human-in-the-loop”原则,动摇宪政的个人问责机制;公平性、偏见等判断需要情境道德推理,算法无法独立完成——结论是 CAI 是”炫目的转移注意力(shiny distraction)“。Abiri(2024,arXiv:2406.16696)提出”Public Constitutional AI”,承认 Anthropic 现做法有透明度优势,但”在解决个体 AI 决策不透明性、促进真正民主合法性方面存在根本缺陷”,主张通过公民协商程序制定 AI 宪法、设立”AI 法院”发展案例法。Priyanshu、Maurya 与 Hong(2024,arXiv:2407.01557)以 NIST 框架与欧盟 AI 法案视角分析 Claude 治理,发现三个硬缺口:无外部机构可核实 Claude 行为是否符合宪法目标、无独立审计机制接触训练过程、违规后果完全依赖 Anthropic 自身判断。

[!note] 制度学命题 一部”宪法”之所以是宪法,不在于它写下了原则,而在于它约束了写它的那个权力。Anthropic 的宪法约束的是模型,不是公司——公司随时可以改宪法。这是”以宪法之名行内部规章之实”。命名做的是话语工作(borrowing legitimacy from constitutionalism),不是制度工作。

§2 自我监管:RSP 作为”承诺非法律”的法律性质

RSP 的版本线(接地):v1.0 于 2023 年 9 月由 Anthropic 首发,配合 2023 年 7 月白宫自愿承诺(Amazon、Anthropic、Google、Inflection、Meta、Microsoft、OpenAI 联署);v2.0 于 2024 年 10 月 15 日更新,进一步明确 ASL 分级阈值(来源:assets.anthropic.com RSP PDF);现行 v3.0 新增”Frontier Safety Roadmaps”与”Risk Reports”,纳入潜在外部审查(来源:anthropic.com/news)。行业跟进:OpenAI、Google DeepMind 在数月内推出类似框架;2024 年 5 月(首尔 AI 峰会)16 家 AI 公司签署《前沿 AI 安全承诺》,承诺在 2025 年 2 月前各自制定 RSP(来源:ailabwatch.org)。

RSP 的制度性质要害是一句话:它在法律上是单方自愿承诺,不是可诉的法律义务。 没有外部主体能在 Anthropic 重新解释 ASL 阈值、或在竞争压力下放松约束时,对它提起诉讼或施加法律罚则。

这一点的批评同样有据。Campos(2023,via ailabwatch.org)称 RSP 是”风险管理做错了方向”,关键在它把举证责任倒转了:高风险行业(核、药、航空)的惯例是”不证明安全就不得上市”,而 RSP 框架默认放行、直到触发阈值——举证责任落在安全关切方而非能力研发方。ailabwatch.org 将 RSP 概括为”承诺备忘录(promissory note)“而非实际政策,并指出结构性矛盾:竞争压力下实验室有激励放松约束或重新解释阈值定义;Google DeepMind 的 Frontier Safety Framework 被明确指出”尚未将安全措施与风险评估结果挂钩”。Karnofsky(2023)、Habryka 与 Greenblatt(2023)均表达怀疑(来源:ailabwatch.org)。

高风险行业的强制监管Anthropic RSP
上市前须证明安全(前置举证)默认放行,触发阈值才收紧(后置举证)
独立机构(FDA / FAA / NRC)执法公司自评估、自定义阈值
违规有法律罚则 / 吊销许可违规后果依赖公司自我判断与声誉
阈值由监管者定义、不可被被监管者重释阈值定义权在公司手中

§3 判断主轴:自我约束的可信度 = 可问责性,而非规则文本质量

这是本节点的命门——90% 的人在评估 Anthropic 治理时会搞错的四个点,每点配症状 → 为什么会错 → 正确做法 → 真实反例。

错位一:把”规则写得好”等同于”治理可信”。

  • 症状:读完公开的宪法文本和 RSP,觉得”考虑得很周全,比同行强”,于是判定 Anthropic 治理可信。
  • 为什么会错:制度可信度是关于约束力的属性,不是关于文本质量的属性。一份写得再好、但只能由起草者自己解释和执行的规则,约束力等于零。
  • 正确做法:只问一个问题——“当公司商业利益与这条规则冲突时,谁能迫使它守?“答不出外部主体,可信度就该大幅折扣。
  • 真实反例:RSP 的 ASL 阈值定义权完全在 Anthropic 手中(来源:ailabwatch.org 对阈值可重释性的批评);竞争白热化时,“重新解释阈值”是合规的,没有外部主体能否决。

错位二:把”透明”等同于”问责”。

  • 症状:因为 Anthropic 公开了宪法文本、公开了 RSP,就认定它”接受了问责”。
  • 为什么会错:透明是问责的必要非充分条件。能看见规则,不等于能在违规时施加后果。Priyanshu 等(2024,arXiv:2407.01557)正是指出:透明的同时仍无外部核实、无独立审计、违规后果自决。
  • 正确做法:区分”可见性(visibility)“与”可问责性(accountability)“。问”看到违规之后,谁能做什么”。
  • 真实反例:Constitutional AI 文本公开,但无独立机构可核实 Claude 实际行为是否符合该文本(同上来源)。

错位三:把”自愿承诺”读成”准法律义务”。

  • 症状:把首尔《前沿 AI 安全承诺》、白宫自愿承诺当作”行业已被约束”。
  • 为什么会错:自愿承诺缺乏强制执行,历时性脆弱——跨行业历史记录显示,无约束力的自愿标准在竞争强化时系统性退化(Campos 2023;ailabwatch)。
  • 正确做法:把自愿承诺定位为”声誉抵押”,其强度随声誉成本变化而变化,竞争升温即贬值。
  • 真实反例:2025 年起,美国 EO 14148(2025-01-20)撤销拜登 EO 14110 的多项 AI 安全与透明度要求(EO 14179(2025-01-23)为其后去监管纲领);多个行业团体呼吁对 EU AI Act 执行”暂停两年(stop-the-clock)“——外部约束环境一松,自愿承诺的相对约束力随之缩水(来源:WebSearch 接地材料)。

错位四:把”先行立规者”误当”民主合法者”。

  • 症状:因为 Anthropic 是行业里最早、最系统立规的,就把它的规则当成”应然标准”。
  • 为什么会错:先发优势是话语权力而非合法性授权。最早定义术语、定义阈值的人,塑造了后来者的可能性空间——这恰恰是问题,不是资格。
  • 正确做法:把”谁先写了规则”与”这规则凭什么有约束力”分开评估。
  • 真实反例:CAI 命名本身将工程选择(RLAIF 训练程序)包装为宪政意象,Birhane 等(2026,arXiv:2605.06806,FAccT 2026 录用)的”话语俘获”框架指出此类命名先于正式监管即塑造了监管可能性空间。

§4 产品 PM 视角补盲:自我监管不是工程问题,是激励结构问题

跳出工程 PM 视角,三个 PM 容易看走眼的点:

  • 商业模式张力:Anthropic 是营利性前沿实验室,安全承诺与商业释放节奏存在结构性张力。RSP 的”默认放行”举证方向,恰恰是这个张力的制度化产物——它把安全做成了”不阻碍上市的前提下尽量做”。PM 评估任何”安全 + 商业”双使命公司时,要先看激励结构倒向哪边,而非看使命宣言。
  • Long-Term Benefit Trust(长期受益信托,LTBT)的制度含义:Anthropic 于 2023 年设立 LTBT——由 5 名”财务无利害关系”成员组成的独立机构,持 Class T 普通股(经济价值极小但治理权重大),有权选任与罢免一部分董事,该比例随时间增长,最终将达董事会多数(3/5);受托人任期一年,后续受托人由受托人投票选出(来源:Anthropic 官网 “The Long-Term Benefit Trust”;Harvard Law CorpGov 2023-10-28)。这是一个比 CAI/RSP 更接近”真制度”的设计——它试图把部分控制权交给非营利受托人,是 Anthropic 治理里唯一带有横向问责雏形的结构。但 PM 的判断点恰在其约束力:EA Forum 有评估直指”LTBT 可能是无权力的(powerless)“——信托能否在 CEO/投资人不同意时真正行使权力,决定它是真分权还是装饰性分权(来源:EA Forum, “Maybe Anthropic’s Long-Term Benefit Trust is powerless”)。
  • 合规边界与”监管者能力不对称”:政府缺乏计算资源与技术专长独立评估专有模型(Chatham House / AI Governance Research 类批评,见接地材料)。这意味着即便有外部监管,监管者也常无能力核实。PM 做 Trust & Safety / Policy 时要意识到:自我监管之所以盛行,部分是因为外部监管在技术上无力——这不是为自我监管辩护,而是说明问责缺口是双向造成的。

§5 对手框架回应:接受 + 边界

对手立场一(Anthropic / Hubinger 2023):RSP 是”以正确方式实现暂停”,原则先行比规则化更灵活,开发者目前最能创新安全方案(Schuett 等 2024,arXiv:2407.07300 支持渐进式监管路径)。

  • 接受:在技术演进极快、监管者技术能力滞后的窗口期,由最懂前沿能力的人先立规,确有现实合理性;CAI 的可审计原子化(将宪法拆为可审计命题)也确实是”私人规则向可问责公共标准转化”的早期迹象(arXiv:2605.24229,2026,ID 已核实(2026-06-12);将 model spec/constitution 分解为 Anthropic 约 205 条、OpenAI 约 197 条可审计命题〔205/197 具体条数仍待核实〕)。
  • 边界与赌注:我赌的是——没有外部强制执行的前置举证倒转,在竞争白热期会系统性失效。Schuett 等的”渐进式”假设了一个善意的、最终会让渡给规则化的过渡;但激励结构(营利 + 军备竞赛)让”过渡”有变成”永久自治”的强大引力。灵活性的代价是约束力,PM 决策不能赌公司在利益冲突时选择自缚。

对手立场二(Anthropic:自我批评比人工标注更可扩展、更民主,明文原则比 RLHF 黑盒透明)。

  • 接受:相对于完全不透明的 RLHF 价值灌输,公开成文原则确实是治理透明度的进步,这一点 Abiri(2024)也承认。
  • 边界:透明 ≠ 问责(见 §3 错位二)。且以 AI 自我批评替代人工监督,与欧盟 AI Act 的 human-in-the-loop 要求直接冲突(Orozco y Villa & Menendez 2025)。透明度是真实进步,但它被用来替代而非补充外部问责时,就成了问责缺口的遮蔽物。

§6 跨域呼应:O’Donnell 委任民主 + 秦制大共同体本位

调度两个跨域框架,各自具体改变一个判断。

O’Donnell《Delegative Democracy》(《Journal of Democracy》5:1,1994,pp. 55–69)的纵向/横向问责之分,精确切中 Anthropic 治理的脆弱点。O’Donnell 区分:纵向问责(选举)存在且有效,横向问责(制度内部相互制衡)实质缺位——委任民主中选民把全权委任给当选者,此后其”可以为所欲为”。把它映射到 AI 公司:用户/社会通过”使用即同意”把数据与价值判断权”委任”给 Anthropic,这是一种弱纵向问责(用脚投票、市场竞争);但横向问责——独立机构对其规则制定与执行的相互制衡——几乎完全缺位。CAI/RSP 看似建立了”内部宪法”,实则没有建立任何横向制衡机构。这个框架让我把判断从”Anthropic 规则好不好”切换到”它有没有横向问责”——答案是几乎没有。〔须标注:O’Donnell 原框架针对拉美后威权国家,移植到非选举性私人实体存在分析单元错配,此处为显式类比,非既有学术共识。〕

秦晖”秦制”的大共同体本位 / 小共同体缺位框架(见 0622 秦晖),提供一个东方制度史的对照镜。秦制的要害是”编户齐民”——朝廷绕过宗族、村社等小共同体,直接控制每一户。映射到 AI 治理:前沿实验室通过 API 与终端模型,直接触达每一个用户与每一个第三方应用,绕过了行业自律组织、开源社区、用户工会等”小共同体”。CAI 把价值判断收归一份中央宪法,正是”大共同体本位”的算法版本——它消解了价值判断本应分散在多元社群中的可能性。这个对照让我看见:自我立宪的危险不只是”公司自己说了算”,而是它结构性地排除了中间层治理的存在空间。〔秦制是前现代中国历史特殊物,挪用于 AI 治理须防”以古喻今”的论证捷径,此处作分析隐喻。〕

§7 PM 决策启示

  • 面试(Safety PM / Policy PM / Trust & Safety 高区分度):被问”你怎么评价 Anthropic 的 Constitutional AI / RSP”时,不要复述机制(那是初级答案)。直接上判断主轴:“这两者的制度可信度取决于可问责性,而非文本质量。CAI 是自我立宪、RSP 是承诺非法律——都集立法/执法/解释权于一身,缺横向问责。我会用 O’Donnell 的纵向/横向问责框架来定位它的脆弱点。“这一句话立刻区分出”懂技术”与”懂治理”。
  • 选型 / 供应商评估:评估任何宣称”负责任 AI”的供应商,落到一张表——谁立规、谁执法、谁能在它违规时施加后果、举证责任倒向哪边。问不出外部强制主体,就把”安全承诺”按”声誉抵押”折价。
  • 复现 / 自家治理设计:若 Rick 在滴滴/99 设计 AI 安全治理(呼应 安全感知与干预、降发生方法论),核心教训是——别只写规则,要设计问责回路:谁来核实、违反触发什么、举证责任放在能力方还是安全方。把”前置举证”而非”后置放行”作为默认。

§8 与已有节点的关系

  • 对照 Constitutional AI(0401 概念节点):本节点做的是抽象层抬升——0401 讲 CAI 是什么、机制如何运作;本节点不复述机制,把它抬到”作为成文宪法的制度折扣”层面,问它的约束力与合法性。
  • 对照本专题 0419 节点(CAI 作为价值对齐机制):做对话与深化——0419 在”对齐机制”层面剖 CAI,本节点在”制度可信度”层面剖同一对象,二者构成”机制 → 制度”的升级链,互不复述。
  • 对照 AI 公司政治敏感内容立场对比:做补缺——该节点比较各家立场,本节点补上”立场背后的制度结构(谁有权定义立场、谁能问责)“这一层。
  • 对照 对齐哲学 系下的问责理论:做纠偏——把”AI 安全”从工程合规话语,纠偏回”分权与问责”的政治制度话语。

§9 关联节点

核心(必读)

  • Constitutional AI — 本节点剖解的对象,机制层基础(不复述)
  • Anthropic — 行为主体
  • 0622 秦晖 — 大共同体本位 / 小共同体缺位的制度史对照
  • 奥唐奈 — 委任民主、纵向/横向问责
  • AI 公司政治敏感内容立场对比 — 立场比较的制度结构补层
  • RLHF — CAI 的对照工程基底

延伸(可选)

  • OpenAI — Model Spec 作为同类自我规范
  • Agent — 自治系统的问责延伸
  • 幻觉 — 模型行为不可核实性的技术根源
  • 生命政治 — 治理术对行为的直接干预
  • 霸权 — 先行立规作为话语权力
  • 0116政治哲学 — 制宪权、违宪审查、合法性来源
  • 0117社会学 — 私人治理与制度同构
  • 福柯 — 治理术、规则的生产性权力
  • 安全感知与干预 — Rick 自家安全治理的问责回路设计
  • 降发生方法论 — 前置举证 vs 后置放行的方法论迁移
  • AI PM 知识图谱·总索引 — 全局入口

修订日志

  • R1(2026-06-07):首稿。确立判断主轴(自我约束可信度 = 可问责性;RSP 是承诺非法律);接地 CAI 论文(arXiv:2212.08073)、RSP 版本线(v1.0 2023-09 / v2.0 2024-10-15 / v3.0)、四类批评(Orozco y Villa & Menendez 2025、Abiri 2024、Priyanshu 等 2024、Campos 2023 via ailabwatch);判断主轴四错位四件套齐备;对手框架两处接受+边界;跨域调度 O’Donnell + 秦制各具体展开;与 0419/0401 显式升级对照不复述。
  • R1.1(2026-06-07)grounding pass:WebFetch 核实 arXiv:2212.08073 标题/作者(48 位)/提交日(2022-12-15),去除该项〔待核实〕;WebSearch 核实 LTBT 制度细节(5 名财务无利害关系受托人、Class T 股、可任免最终达董事会多数 3/5、一年任期)并补入 EA Forum “powerless” 批评,去除 LTBT〔待核实〕。剩余待核实项 1:arXiv:2605.24229(model spec 原子化命题数 205/197 来源 ID)。
  • 2026-06-11 P3.4 校链:§8 死链 0419政治哲学 改为别名链 对齐哲学(0419 对齐哲学专题已入库)。
  • 2026-06-12 内审修复:对齐台账矛盾——§接受处 arXiv:2605.24229 的〔ID 待核实〕改为”ID 已核实(2026-06-12)“(该 ID 在 E02/A05/A06/S03/G01 均有 WebSearch 确证记录),其 205/197 具体条数另标〔仍待核实〕。