R02 设计一个 AI 治理制度 · 知识库

为一个真实 AI 产品设计一套可落地的治理制度——规则怎么制定、谁来执行、用户被误判了怎么申诉、出了事谁负责——并给出一张能直接抄进 PRD 的设计模板。本节点的视角不是”合规对齐”（把外部监管要求翻译成 checklist），而是制度设计（institutional design）：把 AI 公司治理当作一次准立法、准行政、准司法的三权配置工程来做，问的是”这套权力安排的合法性来源是什么、问责回路在哪闭合”。这是 0430 专题从”诊断 AI 公司正在变成准国家行为体”到”那就老老实实把它当国家来设计”的落地一跳。

§0 为什么是”制度设计”框架，而不是”信任与安全运营手册”框架

绝大多数 AI 公司内部讲”治理”，默认套的是运营框架：Trust & Safety 把它当成一条工单流水线（举报进来 → 审核员判 → 处置 → 复核），KPI 是处置时效、误判率、申诉处理量。这套框架不是错的，但它系统性看不见一类问题——它把治理当成”执行既定规则”，于是规则从哪来、规则本身是否正当、被治理者有没有参与权、最终责任落在谁头上，全部被折叠进”政策由 Policy 团队定”这一句话里。

制度设计框架的第一性问题不一样。它先承认 Kate Klonick 在 “The New Governors”（Harvard Law Review 131, 2018）里确证的事实：Facebook、YouTube、Twitter 的内容政策在功能上已经构成一套私法体系（private law），影响全球言论标准，却几乎没有对用户的直接问责。Evelyn Douek 在 “Content Moderation as Administration”（Harvard Law Review 136, 2022）进一步指出：内容审核不该被理解为一条条”司法判决”，而是大规模言论行政（mass speech administration）——关键决策发生在事前的制度设计层，而不是事后的个案纠错层。

这两个判断合起来给出本节点的框架选择理由：如果你的 AI 产品在事实上行使着立法权（写规则）、行政权（执行规则）、司法权（裁定争议），那么唯一诚实的设计起点，是把它当成一个微型政体来设计三权配置，而不是当成一条客服工单流水线来优化时效。运营框架优化的是”执行得多快多准”；制度设计框架优化的是”这套权力配置在被人质疑’你凭什么’时，能不能站住”。后者才是 Safety PM / Policy PM 面试桌上真正的高区分度问题。

[!note] 框架级辨析一句话合规框架问”我们做到外部要求了吗”；运营框架问”我们执行得够快够准吗”；制度设计框架问”我们这套权力安排的合法性来源和问责回路在哪”。本节点只做第三种。

§1 治理制度的四权解剖：规则制定 / 执行 / 申诉 / 问责

把一个 AI 产品的治理拆成四个可独立设计、必须互相咬合的子系统。这是后面整张模板的骨架。

子系统	对应公法类比	核心设计问题	AI 产品里的真实载体
规则制定	立法	规则从哪来？谁有权改？改了怎么公示？	Usage Policy / Model Spec / Community Guidelines / Constitution
规则执行	行政	谁判？人判还是模型判？尺度一致性如何保证？	分类器 + 人审队列 + 自动处置 pipeline
申诉	司法	被误判的用户走哪条路翻案？谁是终审？	申诉入口 + 复核层 + （可选）外部裁决机构
问责	宪法/选举	谁为系统性错误负责？合法性怎么补？	透明度报告 + 外部审计 + 治理委员会 + 退出权

注意四者的依赖顺序：执行的尺度由规则制定决定；申诉只是执行的事后纠错，无法弥补规则本身的不正当；而问责是唯一能反向约束前三者的回路——没有问责子系统的治理制度，本质上是开明专制，运行得再好也只是”运气好碰上了好皇帝”。这正是 Hannah Bloch-Wehba 在 “Global Platform Governance: Private Power in the Shadow of the State”（SMU Law Review 72, 2019）的核心批评：平台同时执行规则制定与裁定，而行政法的基本原则——透明度、参与、说理、复审——在平台治理中严重缺失。她列的这四项缺失，恰好是本节点模板要逐项补回的设计目标。

§2 设计模板：八步把治理制度落进 PRD

下面这张模板是本节点的核心交付物。每一步给”决策问题 + 设计选项 + Rick 的判断（带边界）“。可以直接当成一次治理制度 Design Review 的议程。

Step 1 — 划定治理客体（governance object）。 你在治理”什么”？是用户生成内容（UGC），还是模型生成内容（model output），还是用户对模型的”用法”（misuse）？这三者的治理逻辑完全不同：UGC 治理对标 Klonick 的内容审核范式；model output 治理对标 Anthropic 的 Constitutional AI（见 §3 与 Constitutional AI）；misuse 治理对标 OpenAI Usage Policy 的”能力封锁”。多数 AI 产品同时是这三者，但 90% 的团队只设计了其中一套规则就以为治理完整了（详见 §5 致命错位 #1）。

Step 2 — 规则的合法性来源（source of legitimacy）。 规则凭什么算数？四种来源，正当性递增、可扩展性递减：(a) 企业单方意志（“我们的产品我们说了算”）；(b) 外部规范内化（对标第一修正案 / GDPR / 联合国人权宣言）；(c) 专家协商（伦理委员会、红队）；(d) 受影响者参与（用户共议、公民陪审团）。Anthropic 公开的 Claude 宪法文本确实援引了联合国人权宣言、DeepMind 原则等外部规范，属于 (b)；Gilad Abiri 在 “Public Constitutional AI”（arXiv:2406.16696，2024）批评这仍不够，主张走 (d)——通过公民协商程序制定 AI 宪法，并设”AI 法院”发展案例法。Rick 的判断：对一个商业 AI 产品，(b)+(c) 是务实的合法性下限，纯 (a) 在任何外部拷问下都会崩；但 (d) 在产品早期是奢侈品，强行上马会瘫痪迭代速度——这是合法性与速度的真实 trade-off，不能假装不存在。

Step 3 — 规则的形态：原则 vs 规则（principles vs rules）。 写成高层原则（“不得伤害”）还是具体规则（“不得输出 X 类内容”）？这是机制设计的核心张力，直接链机制设计：原则可解释、可适应新情况，但执行时留下巨大自由裁量空间，容易被 Goodhart 化（见 c14 - 模型评估体系与 Goodhart 陷阱）；具体规则可一致执行、可审计，但永远滞后于对抗性用户的新花样。学术界已经把这件事量化了：Jakkli、Rajamanoharan & Nanda “How Well Do Models Follow Their Constitutions?”（arXiv:2605.24229，2026）把 Anthropic 宪法分解成约 205 条、OpenAI Model Spec 约 197 条可审计的原子命题，正是为了把”模糊原则”转成”可被外部核验的治理目标”。模板建议：双层结构——顶层原则提供合法性叙事与适应性，底层原子规则提供可执行性与可审计性，两层之间的”翻译鸿沟”必须有专人负责（这正是 Orozco y Villa & Menendez 2025 批评 Constitutional AI “规范过薄”的命门：高层原则与工程实现之间存在不可弥合的翻译鸿沟）。

Step 4 — 执行架构：人 / 模型 / 混合。 谁来判？纯人审（尺度一致性差、不可扩展、审核员心理创伤）、纯模型审（可扩展、但不可解释、错误模式系统化）、人机混合（事前模型筛、事后人复核高风险）。Douek 的 “Content Moderation as Administration” 的关键洞见在这里落地：别在个案层面追求司法级精确，要在制度层面设计可接受的错误率分布。模板建议明确写出三个数字：自动处置阈值、人审抽检率、高风险类目的”必须人审”白名单。

Step 5 — 申诉通道设计（the right to appeal）。 这是被治理者唯一的能动性出口，也是最常被砍预算的子系统。最小可用申诉制度三要素：(a) 用户能知道自己为什么被处置（说理义务）；(b) 有一条独立于原判者的复核路径（不能让做出原判的同一个分类器/同一个人复核自己）；(c) 复核结论有时限与终局性。EU Digital Services Act（DSA，对 VLOP/VLOSE 义务自 2023-08-25 生效，全面适用自 2024-02-17）把这条从”产品善意”升级成了法律义务：用户有权通过平台内部投诉或法外争议解决机制挑战内容审核决定；欧盟委员会称两年内 DSA 已使约 5000 万条内容审核决定获得复审机会（来源：欧盟委员会官网 digital-strategy.ec.europa.eu）。Rick 的判断：申诉制度的真正成本不是工程，是它会反向暴露你规则制定的随意性——一旦你必须向用户说明”你为什么被封”，你就再也不能用”违反社区准则”这种不可证伪的万能理由了。这是好事，但很多团队恰恰因此回避它。

Step 6 — 问责与外部制衡（accountability & external check）。 谁为系统性错误负责，合法性怎么补？这是四权里唯一能约束公司自身的回路，也是最难设计的。可选机制按强度排序：透明度报告（最弱，自报）→ 外部独立审计 → 准司法的外部裁决机构 → 结构性治理改造。Meta Oversight Board 是目前唯一的大规模真实样本，它的成败必须同时看：成立 2020-05，截至 2025 年已发布超过 200 份决定、317 条政策建议；在 Trump 停权案（2021）中裁定 Meta “施加了无限期且无标准的处罚”并迫使 Meta 改为两年期停权（Trump 账号 2023-03 复权）——这是私人裁决机构反向约束母公司的真实证据。但反面同样确凿：Klonick 本人给该委员会的综合评分仅为”勉强及格（C）“；Meta 在 2025-01 单方面废除美国区第三方事实核查、改用 Community Notes 时（上线首六个月仅产生约 900 条已发布笔记，同期 EU 专业事实核查员标记约 3500 万条内容），Board 批评其”仓促、偏离常规程序”却无力阻止；更致命的是 Meta 已通知 Board 可能在 2028 年后停止资助（来源：Platformer “Meta Oversight Board 5 years”；TechBrew 2026）。这就引出结尾陷阱的伏笔——见 §7。

Step 7 — 退出权与可竞争性（exit & contestability）。 Albert Hirschman 的 exit-voice-loyalty 框架在这里是隐形的第五权：如果被治理者无法退出（数据锁定、网络效应、唯一可用模型），那么再精致的申诉制度也只是”笼中投诉”。模板必须显式回答：用户能不能带着数据走？有没有可替代品？这条直接决定了前六步的所有设计是”真治理”还是”治理表演”。

Step 8 — 修订与元规则（amendment & meta-rules）。 谁有权改规则、改规则要走什么程序、改了怎么向存量用户公示并给缓冲期？没有元规则的治理制度，等于一部可以被随时偷偷重写的宪法——这恰是 Meta 2025 单方面推翻事实核查的结构性病根。模板要求：规则修订必须留痕、版本化、有公示期，重大变更需经问责子系统（Step 6 的机构）审议。

§3 跨模型对照：三家 AI 公司的治理制度选型（事实接地）

把 §2 模板套到三个真实样本上，看不同公司在四权配置上的赌注差异。

公司	规则形态	合法性来源	问责机制	制度性质
Anthropic	Constitutional AI（明文宪法 + RLAIF 自我批评）；Responsible Scaling Policy v1.0(2023-09)→v2.0(2024-10-15)→v3.0	外部规范内化（联合国人权宣言等）+ 企业	Long-Term Benefit Trust（准公益托管）+ RSP v3 引入”潜在外部审查”	准立法（行为宪法）+ 准公益托管
OpenAI	Model Spec（约 197 条原子命题）+ Usage Policy	企业 + 专家	倡议类 IAEA 式国际监管机构（准外交）	私人行为规范 + 准外交倡议
Meta	Community Guidelines	企业 + 外部规范内化	Oversight Board（准司法外部机构，资助权仍在 Meta 手中）	准司法外部制衡（合法性脆弱）

事实来源：Bai 等 “Constitutional AI: Harmlessness from AI Feedback”（arXiv:2212.08073，2022-12）；RSP 版本线来自 assets.anthropic.com PDF；Model Spec / Constitution 的原子命题分解来自 Jakkli 等 arXiv:2605.24229；Oversight Board 数据来自 oversightboard.com 与 Platformer。三家的共同结构性弱点：合法性来源都以”企业”为最终兜底，问责机制都由公司自己设立、自己资助、（在 Meta 案例里）自己可随时断供。这就是 Birhane 等 “Big AI’s Regulatory Capture”（arXiv:2605.06806，FAccT 2026）所说”企业同时作为规则制定者、实施者、合规评估者，消除了外部问责的逻辑基础”。

§4 判断主轴：设计治理制度时 90% 的人会栽的四个错位

[!warning] 这一节是本节点的命门——每点带”症状 → 为什么会错 → 正确做法 → 真实反例”

错位 #1 —— 只设计了”执行”，以为就是治理全套。

症状：PRD 里有详细的审核流程、处置矩阵、SLA，但翻遍文档找不到”规则从哪来、谁有权改、用户怎么翻案、出了系统性错谁负责”。
为什么会错：执行子系统有明确 KPI（时效、准确率），看得见摸得着，组织资源天然往那里堆；而合法性、申诉、问责是”成本中心”，没有亮眼指标，于是被默默省略。
正确做法：用 §1 四权表做一次缺口审计，任何一权缺失都要在 PRD 里显式写明”我们暂不做这一权，赌注是 X，失效场景是 Y”——把省略变成有意识的、被记录的决策，而不是无意识的盲区。
真实反例：Meta 早期内容审核高度成熟（执行权强），但直到 2020 年才被外部压力逼出 Oversight Board（问责权），中间十几年的治理是”强执行 + 零问责”的开明专制。

错位 #2 —— 把”原则”当成”已经解决了执行问题”。

症状：团队写了一套漂亮的 AI 原则/宪法，发布会上引用联合国人权宣言，然后认为治理制度已经建成。
为什么会错：高层原则与具体工程实现之间存在 Orozco y Villa & Menendez（2025）指出的不可弥合的翻译鸿沟——“不得伤害”无法自动翻译成分类器的判定阈值。原则提供的是合法性叙事，不是执行能力。
正确做法：强制走 §2 Step 3 的双层结构，并为”原则→原子规则”的翻译设专人专岗，把翻译过程本身纳入审计。
真实反例：Constitutional AI 被 Orozco y Villa & Menendez 批为”炫目的转移注意力（shiny distraction）“，正是因为它用”宪法”这个高合法性词汇，掩盖了”谁来核验模型行为真的符合宪法”这个无人回答的问题（Priyanshu, Maurya & Hong “AI Governance and Accountability: An Analysis of Anthropic’s Claude”, arXiv:2407.01557, 2024：无外部机构可核实 Claude 行为是否符合宪法目标，无独立审计接触训练过程）。

错位 #3 —— 申诉制度做成”客服话术”，而非独立复核。

症状：用户申诉后，由做出原始判定的同一个模型/同一支团队”复核”，结论 99% 维持原判，附一句”经核实处置正确”。
为什么会错：复核者与原判者同一，结构上不可能产生纠错——这违背了任何司法体系最基本的”任何人不得做自己案件的法官”原则。它制造了申诉的形式而没有申诉的实质。
正确做法：复核路径必须独立于原判路径（不同模型版本、不同人审队列、或外部机构），并公开复核改判率作为制度健康度指标。
真实反例：DSA 之所以强制引入”法外争议解决机制”，正是因为立法者认定平台内部申诉的独立性不可信——这是对纯内部申诉制度的一次国家级不信任投票。

错位 #4 —— 把”问责机构”的存在当成”问责回路已闭合”。

症状：公司设立了伦理委员会 / 外部顾问团 / 监督委员会，对外宣称”我们有独立问责”，但该机构的预算、议程设置权、成员任免权、结论执行权，全部仍握在公司手里。
为什么会错：问责的本质是约束力，不是机构的存在。一个由你出钱、你任命、你可随时解散、其结论你可选择性执行的机构，提供的是合法性表演（legitimacy theater），不是真问责。
正确做法：评估问责机构时只问四个问题——钱谁出？人谁定？议程谁设？结论必须执行吗？四个问题里只要有两个答案是”公司自己”，这个机构就是装饰。
真实反例：Meta Oversight Board 在四个问题上的答案分别是 Meta、（独立但 Meta 出资）、部分独立、仅个案决定有约束力而政策建议无约束力——Klonick 给 C 的根本原因，以及 2028 断供威胁能成立的根本原因，都在这四个答案里。这正是结尾陷阱的核心，见 §7。

§5 产品 PM 视角补盲：治理是商业模式问题，不是道德问题

跳出”工程 PM / 合规 PM”视角，补三个最容易看走眼的点。

(1) 治理强度与商业模式深度绑定，不是独立的伦理选择。 一个靠用户停留时长变现的产品（注意力经济，见 Tim Wu The Attention Merchants, 2016）与一个靠 API 调用量变现的产品，治理激励完全相反：前者有结构性动机放松治理（更多刺激内容 = 更多停留），后者有动机收紧治理（一次滥用事故 = 企业客户流失）。面试时若被问”你会怎么设计治理”，先反问”这个产品靠什么赚钱”——治理制度的真实约束来自激励结构，不来自价值观宣言。

(2) 自愿治理在竞争加剧期会系统性退化——这是历史规律，不是悲观预测。 ailabwatch.org 汇总的对 Responsible Scaling Policy 的结构性批评（Campos 2023：RSP 是”风险管理做错方向”，把举证责任从能力研发者转移到安全关切者）指出：竞争压力下，实验室有激励放松安全约束或重新解释阈值定义。这与金融业巴塞尔协议前、烟草业自我监管的历史轨迹结构性相似。PM 设计治理制度时，必须假设”未来某个季度，增长压力会要求你松动治理”，并在制度里预埋抵抗这一压力的元规则（Step 8），否则你设计的不是制度，是一份会在第一次 KPI 危机时作废的备忘录。

(3) “可退出性”是用户感知治理公平性的真正锚点。 用户对治理不公的容忍度，与他们能否退出成反比。一个有充分竞品的市场里，糟糕的治理会被用脚投票纠正；一个赢家通吃的市场里，再好的申诉流程也只是 Hirschman 意义上的”无效 voice”。这就是为什么反垄断（Tim Wu The Curse of Bigness, 2018）和治理是同一个问题的两面——PM 谈治理却不谈市场结构，等于谈宪法却不谈有没有反对党。

§6 跨域呼应：O’Donnell 委任民主——AI 治理的”横向问责赤字”

调度一个 Rick 政治理论库里的精确框架：Guillermo O’Donnell 的委任民主（Delegative Democracy，Journal of Democracy 5:1, 1994, pp. 55–69，见奥唐奈）。

O’Donnell 的核心贡献是区分两种问责：纵向问责（vertical accountability，选举式问责，自下而上）与横向问责（horizontal accountability，制度间相互制衡）。委任民主的病理是：纵向问责存在（选举有效），但横向问责缺位——总统当选后可”为所欲为”，不受立法、司法、其他横向机制约束。

这个框架精确改变了我们对 AI 治理制度的判断：把它套到 AI 公司，你会发现绝大多数 AI 产品治理也只有”纵向问责”（用户可以卸载、可以差评、可以投诉，这是自下而上的选举式问责），但横向问责几乎为零——没有任何与公司平级、能在公司不情愿时强制约束它的制度（法院、独立监管、平级机构）。§4 错位 #4 描述的 Oversight Board 之所以是”装饰”，用 O’Donnell 的语言说就是：它被设计成了一个看起来像横向问责机构、实则只能行使纵向建议权的东西——钱、人、议程都在 Meta 手里，它无法在 Meta 不情愿时强制 Meta。

委任民主框架的杀伤力在于它的下一个论断：O’Donnell 强调委任民主不是通往代议制民主的过渡阶段，而是一种稳定的均衡——人们在危机中主动让渡横向问责以换取领导力。映射到 AI：“前沿 AI 安全紧急状态”的话语（frontier risk 太高、迭代太快、外人看不懂），正在被用来论证”此刻不能让外部横向机构拖慢我们”——这是一次教科书式的、用紧急状态换取横向问责豁免的委任结构。这恰好与本专题 Schmitt 节点（“主权者是决定例外状态的人”）形成跨节点呼应：谁有权宣布”现在是 AI 紧急时刻、所以治理要让位于速度”，谁就握有真正的主权。

边界声明：O’Donnell 框架原本针对拉美后威权转型国家，AI 公司是非选举性、非国家实体，存在”分析单元错配”——这是理论借用，不是既有学术共识（检索未发现已发表的将 O’Donnell 直接应用于 AI 公司治理的同行评审论文）。我赌的是”横向/纵向问责”这对区分本身具有跨单元的解释力，但承认”用户卸载”是否真等价于”选举”是可被质疑的（市场竞争是 O’Donnell 框架未涵盖的第三种问责形式）。

§7 对手框架回应 + 结尾陷阱

对手立场（接受 + 边界）： 美国第一修正案学派与 ITIF 等智库（“The EU’s Content Moderation Regulation”, 2025-05）的核心反方立场是：强制把私人治理公法化，本身就是一种言论管制；要求平台承担行政法式的透明、说理、复审义务，会损害言论自由与创新，所谓”跨大西洋裂缝”本质是宪法价值观分歧而非技术差异。Knight First Amendment Institute（“Meet the New Governors, Same as the Old Governors”, 2018）更直接质疑 Klonick 的前提：现有第一修正案框架仍然适用且足够，平台调节更多是可及性与透明度问题，不构成新型权威。

接受：他们对的部分是真的——把所有治理决定公法化会带来寒蝉效应，且国家强制（DSA 式）确实可能被滥用为审查工具（Balkin 的”附带审查/collateral censorship”风险）。一个被国家深度规制的平台治理，可能比企业自治更危险。边界：但这个反方立场对”无问责的私人权力”问题给不出答案——它假设要么企业自治、要么国家管制的二元，而本节点模板（Step 6/7/8）押注的是第三条路：可竞争的、有元规则约束的、带独立外部制衡的私人治理。我赌的是制度设计的精细程度，而不是”私 vs 公”的站队。

[!danger] 结尾陷阱：你设计的治理制度，可能只是一件更精致的合法性外衣本节点给了你一张八步模板，套完它，你会得到一套看起来三权齐备、申诉通畅、还设了外部委员会的治理制度。这里埋着 0430 专题最锋利的陷阱：一套设计精良的治理制度，恰恰是最高级的合法性表演（legitimacy theater）。 Harvard JOLT 那篇 “The Meta Oversight Board and the Empty Promise of Legitimacy”（jolt.law.harvard.edu，作者待确认）的标题本身就是判词——Oversight Board 在四权解剖图上几乎完美，却因为钱、人、议程、结论执行权这四把钥匙始终在母公司手里，最终成了”合法性的空头支票”。2028 断供威胁能成立，证明了它从来不是真权力，只是 Meta 可随时收回的恩赐。

所以这张模板真正的用法不是”照着搭一套”,而是”照着审一套”：每搭好一权，立刻用 §4 错位 #4 的四问拷打它——钱谁出、人谁定、议程谁设、结论必须执行吗。如果你的治理制度在这四问下站不住，那么你越是把它设计得精美，它就越是一件好看的外衣——而外衣的功能恰恰是让外界停止追问里面有没有身体。判断一套 AI 治理制度的成色，不看它有多少机构和流程，只看在公司最不情愿的那个时刻，这套制度能不能强制公司就范。能，是制度；不能，是装饰。这是 Safety PM / Policy PM 面试桌上，把你和”会背 Trust & Safety 流程的候选人”区分开的唯一一句话。

§8 PM 决策启示

面试怎么用：被问”如何为 X 产品设计内容/模型治理”时，不要先答审核流程。先用 §1 四权表把问题结构化，再用 §4 错位 #4 的四问（钱/人/议程/执行）作为收尾的杀手锏。展示你区分”治理”与”治理表演”的能力，这是高区分度信号。
选型怎么用：评估要不要采购/集成某个第三方治理方案（如外部审核 API、外部裁决服务）时，用 §3 对照表 + §5 的”商业模式决定治理激励”判断它的结构性可信度，别只看 feature list。
复现怎么用：把 §2 八步模板直接当成治理制度 Design Review 的议程；每一步都强制回答”赌注是什么、失效场景是什么”，把省略变成被记录的决策（接 R01 的最小可运行思路、R03 的进阶）。

§9 与已有节点的关系

对照机制设计：本节点是机制设计在”治理”这一具体场景的落地应用。0421 讲的是激励相容、规则形态、Goodhart 化等抽象机制原理；本节点不复述这些原理，而是把它们套进”规则制定/执行/申诉/问责”的四权工程里——属于深化 + 应用，不是平行。Step 3 的”原则 vs 规则”张力、Step 8 的元规则设计，直接调用 0421 的机制设计工具箱。
对照 A06（本专题概念辨析模块”内容治理作为准立法”节点）：A06 做的是诊断（论证内容治理在功能上已构成私法体系，引 Klonick/Douek/Bloch-Wehba），是”是什么”；本节点做的是操作（既然它已是准立法，那就老老实实按制度来设计），是”怎么动手”。本节点不复述 A06 的诊断论证，直接以其结论为设计前提——属于对话 + 落地。
对照 Constitutional AI：本节点把 CAI 从”一种对齐技术”重新定位为”一种治理制度选型”（§3），并用 §4 错位 #2 给它的”宪法”类比加了制度设计层面的边界——属于纠偏 + 跨域升格，把技术节点接到制度分析框架上。

§10 关联节点

核心（必读）

机制设计 —— 本节点的抽象母框架
Constitutional AI —— 治理制度选型的核心真实样本
奥唐奈 —— §6 跨域呼应的政治理论锚点（委任民主 / 横向问责赤字）
AI 公司政治敏感内容立场对比 —— 三家公司治理立场的事实底料
c14 - 模型评估体系与 Goodhart 陷阱 —— Step 3 原则规则化的失效机制

延伸（可选）

施密特（本专题 Schmitt 例外状态节点；若死链则降级为文本提及）—— §6 “紧急状态换问责豁免”的跨节点呼应
福柯 —— 治理术：治理通过”引导品行”而非压制运作
0116政治哲学 —— 合法性来源的政治哲学背景
0133新制度经济学 —— 制度作为约束、元规则、可信承诺
p305 - 信任架构与可解释性设计 —— 申诉制度的”说理义务”在产品侧的落地
霸权 —— 合法性表演 vs 真问责的意识形态分析
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。建立四权解剖（规则制定/执行/申诉/问责）+ 八步设计模板 + 四错位判断主轴 + O’Donnell 委任民主跨域呼应 + “治理制度即合法性外衣”结尾陷阱。链机制设计、A06、Constitutional AI。事实接地：Klonick/Douek/Bloch-Wehba 已确证带期刊年份；Oversight Board 数字（200+决定/317建议/Trump 2023-03复权/2028断供/900 vs 3500万）来自可访问新闻源；arXiv ID 全部经 WebFetch 核实（2212.08073 Bai 等；2406.16696 Abiri “Public Constitutional AI”；2407.01557 Priyanshu/Maurya/Hong；2605.24229 Jakkli/Rajamanoharan/Nanda “How Well Do Models Follow Their Constitutions?”；2605.06806 Birhane 等 “Big AI’s Regulatory Capture”）。唯一遗留〔待核实〕：Harvard JOLT “Empty Promise of Legitimacy” 作者姓名（PDF 二进制无法解析）。
2026-06-11 P3.4 校链：§9/§10/Step 3 死链 0421机制设计（3 处）改为别名链机制设计（0421 机制设计专题已入库）。