R

R02 设计一个 AI 治理制度

创建 2026-06-07 更新 2026-06-11 1 条双链 AI 作为制度现象 专题 AI 整理

为一个真实 AI 产品设计一套可落地的治理制度——规则怎么制定、谁来执行、用户被误判了怎么申诉、出了事谁负责——并给出一张能直接抄进 PRD 的设计模板。本节点的视角不是”合规对齐”(把外部监管要求翻译成 checklist),而是制度设计(institutional design):把 AI 公司治理当作一次准立法、准行政、准司法的三权配置工程来做,问的是”这套权力安排的合法性来源是什么、问责回路在哪闭合”。这是 0430 专题从”诊断 AI 公司正在变成准国家行为体”到”那就老老实实把它当国家来设计”的落地一跳。

§0 为什么是”制度设计”框架,而不是”信任与安全运营手册”框架

绝大多数 AI 公司内部讲”治理”,默认套的是运营框架:Trust & Safety 把它当成一条工单流水线(举报进来 → 审核员判 → 处置 → 复核),KPI 是处置时效、误判率、申诉处理量。这套框架不是错的,但它系统性看不见一类问题——它把治理当成”执行既定规则”,于是规则从哪来、规则本身是否正当、被治理者有没有参与权、最终责任落在谁头上,全部被折叠进”政策由 Policy 团队定”这一句话里。

制度设计框架的第一性问题不一样。它先承认 Kate Klonick 在 “The New Governors”(Harvard Law Review 131, 2018)里确证的事实:Facebook、YouTube、Twitter 的内容政策在功能上已经构成一套私法体系(private law),影响全球言论标准,却几乎没有对用户的直接问责。Evelyn Douek 在 “Content Moderation as Administration”(Harvard Law Review 136, 2022)进一步指出:内容审核不该被理解为一条条”司法判决”,而是大规模言论行政(mass speech administration)——关键决策发生在事前的制度设计层,而不是事后的个案纠错层。

这两个判断合起来给出本节点的框架选择理由:如果你的 AI 产品在事实上行使着立法权(写规则)、行政权(执行规则)、司法权(裁定争议),那么唯一诚实的设计起点,是把它当成一个微型政体来设计三权配置,而不是当成一条客服工单流水线来优化时效。 运营框架优化的是”执行得多快多准”;制度设计框架优化的是”这套权力配置在被人质疑’你凭什么’时,能不能站住”。后者才是 Safety PM / Policy PM 面试桌上真正的高区分度问题。

[!note] 框架级辨析一句话 合规框架问”我们做到外部要求了吗”;运营框架问”我们执行得够快够准吗”;制度设计框架问”我们这套权力安排的合法性来源问责回路在哪”。本节点只做第三种。

§1 治理制度的四权解剖:规则制定 / 执行 / 申诉 / 问责

把一个 AI 产品的治理拆成四个可独立设计、必须互相咬合的子系统。这是后面整张模板的骨架。

子系统对应公法类比核心设计问题AI 产品里的真实载体
规则制定立法规则从哪来?谁有权改?改了怎么公示?Usage Policy / Model Spec / Community Guidelines / Constitution
规则执行行政谁判?人判还是模型判?尺度一致性如何保证?分类器 + 人审队列 + 自动处置 pipeline
申诉司法被误判的用户走哪条路翻案?谁是终审?申诉入口 + 复核层 + (可选)外部裁决机构
问责宪法/选举谁为系统性错误负责?合法性怎么补?透明度报告 + 外部审计 + 治理委员会 + 退出权

注意四者的依赖顺序:执行的尺度由规则制定决定;申诉只是执行的事后纠错,无法弥补规则本身的不正当;而问责是唯一能反向约束前三者的回路——没有问责子系统的治理制度,本质上是开明专制,运行得再好也只是”运气好碰上了好皇帝”。这正是 Hannah Bloch-Wehba 在 “Global Platform Governance: Private Power in the Shadow of the State”(SMU Law Review 72, 2019)的核心批评:平台同时执行规则制定与裁定,而行政法的基本原则——透明度、参与、说理、复审——在平台治理中严重缺失。她列的这四项缺失,恰好是本节点模板要逐项补回的设计目标。

§2 设计模板:八步把治理制度落进 PRD

下面这张模板是本节点的核心交付物。每一步给”决策问题 + 设计选项 + Rick 的判断(带边界)“。可以直接当成一次治理制度 Design Review 的议程。

Step 1 — 划定治理客体(governance object)。 你在治理”什么”?是用户生成内容(UGC),还是模型生成内容(model output),还是用户对模型的”用法”(misuse)?这三者的治理逻辑完全不同:UGC 治理对标 Klonick 的内容审核范式;model output 治理对标 Anthropic 的 Constitutional AI(见 §3 与 Constitutional AI);misuse 治理对标 OpenAI Usage Policy 的”能力封锁”。多数 AI 产品同时是这三者,但 90% 的团队只设计了其中一套规则就以为治理完整了(详见 §5 致命错位 #1)。

Step 2 — 规则的合法性来源(source of legitimacy)。 规则凭什么算数?四种来源,正当性递增、可扩展性递减:(a) 企业单方意志(“我们的产品我们说了算”);(b) 外部规范内化(对标第一修正案 / GDPR / 联合国人权宣言);(c) 专家协商(伦理委员会、红队);(d) 受影响者参与(用户共议、公民陪审团)。Anthropic 公开的 Claude 宪法文本确实援引了联合国人权宣言、DeepMind 原则等外部规范,属于 (b);Gilad Abiri 在 “Public Constitutional AI”(arXiv:2406.16696,2024)批评这仍不够,主张走 (d)——通过公民协商程序制定 AI 宪法,并设”AI 法院”发展案例法。Rick 的判断:对一个商业 AI 产品,(b)+(c) 是务实的合法性下限,纯 (a) 在任何外部拷问下都会崩;但 (d) 在产品早期是奢侈品,强行上马会瘫痪迭代速度——这是合法性与速度的真实 trade-off,不能假装不存在。

Step 3 — 规则的形态:原则 vs 规则(principles vs rules)。 写成高层原则(“不得伤害”)还是具体规则(“不得输出 X 类内容”)?这是机制设计的核心张力,直接链 机制设计:原则可解释、可适应新情况,但执行时留下巨大自由裁量空间,容易被 Goodhart 化(见 c14 - 模型评估体系与 Goodhart 陷阱);具体规则可一致执行、可审计,但永远滞后于对抗性用户的新花样。学术界已经把这件事量化了:Jakkli、Rajamanoharan & Nanda “How Well Do Models Follow Their Constitutions?”(arXiv:2605.24229,2026)把 Anthropic 宪法分解成约 205 条、OpenAI Model Spec 约 197 条可审计的原子命题,正是为了把”模糊原则”转成”可被外部核验的治理目标”。模板建议:双层结构——顶层原则提供合法性叙事与适应性,底层原子规则提供可执行性与可审计性,两层之间的”翻译鸿沟”必须有专人负责(这正是 Orozco y Villa & Menendez 2025 批评 Constitutional AI “规范过薄”的命门:高层原则与工程实现之间存在不可弥合的翻译鸿沟)。

Step 4 — 执行架构:人 / 模型 / 混合。 谁来判?纯人审(尺度一致性差、不可扩展、审核员心理创伤)、纯模型审(可扩展、但不可解释、错误模式系统化)、人机混合(事前模型筛、事后人复核高风险)。Douek 的 “Content Moderation as Administration” 的关键洞见在这里落地:别在个案层面追求司法级精确,要在制度层面设计可接受的错误率分布。模板建议明确写出三个数字:自动处置阈值、人审抽检率、高风险类目的”必须人审”白名单。

Step 5 — 申诉通道设计(the right to appeal)。 这是被治理者唯一的能动性出口,也是最常被砍预算的子系统。最小可用申诉制度三要素:(a) 用户能知道自己为什么被处置(说理义务);(b) 有一条独立于原判者的复核路径(不能让做出原判的同一个分类器/同一个人复核自己);(c) 复核结论有时限与终局性。EU Digital Services Act(DSA,对 VLOP/VLOSE 义务自 2023-08-25 生效,全面适用自 2024-02-17)把这条从”产品善意”升级成了法律义务:用户有权通过平台内部投诉或法外争议解决机制挑战内容审核决定;欧盟委员会称两年内 DSA 已使约 5000 万条内容审核决定获得复审机会(来源:欧盟委员会官网 digital-strategy.ec.europa.eu)。Rick 的判断:申诉制度的真正成本不是工程,是它会反向暴露你规则制定的随意性——一旦你必须向用户说明”你为什么被封”,你就再也不能用”违反社区准则”这种不可证伪的万能理由了。这是好事,但很多团队恰恰因此回避它。

Step 6 — 问责与外部制衡(accountability & external check)。 谁为系统性错误负责,合法性怎么补?这是四权里唯一能约束公司自身的回路,也是最难设计的。可选机制按强度排序:透明度报告(最弱,自报)→ 外部独立审计 → 准司法的外部裁决机构 → 结构性治理改造。Meta Oversight Board 是目前唯一的大规模真实样本,它的成败必须同时看:成立 2020-05,截至 2025 年已发布超过 200 份决定、317 条政策建议;在 Trump 停权案(2021)中裁定 Meta “施加了无限期且无标准的处罚”并迫使 Meta 改为两年期停权(Trump 账号 2023-03 复权)——这是私人裁决机构反向约束母公司的真实证据。但反面同样确凿:Klonick 本人给该委员会的综合评分仅为”勉强及格(C)“;Meta 在 2025-01 单方面废除美国区第三方事实核查、改用 Community Notes 时(上线首六个月仅产生约 900 条已发布笔记,同期 EU 专业事实核查员标记约 3500 万条内容),Board 批评其”仓促、偏离常规程序”却无力阻止;更致命的是 Meta 已通知 Board 可能在 2028 年后停止资助(来源:Platformer “Meta Oversight Board 5 years”;TechBrew 2026)。这就引出结尾陷阱的伏笔——见 §7。

Step 7 — 退出权与可竞争性(exit & contestability)。 Albert Hirschman 的 exit-voice-loyalty 框架在这里是隐形的第五权:如果被治理者无法退出(数据锁定、网络效应、唯一可用模型),那么再精致的申诉制度也只是”笼中投诉”。模板必须显式回答:用户能不能带着数据走?有没有可替代品?这条直接决定了前六步的所有设计是”真治理”还是”治理表演”。

Step 8 — 修订与元规则(amendment & meta-rules)。 谁有权改规则、改规则要走什么程序、改了怎么向存量用户公示并给缓冲期?没有元规则的治理制度,等于一部可以被随时偷偷重写的宪法——这恰是 Meta 2025 单方面推翻事实核查的结构性病根。模板要求:规则修订必须留痕、版本化、有公示期,重大变更需经问责子系统(Step 6 的机构)审议。

§3 跨模型对照:三家 AI 公司的治理制度选型(事实接地)

把 §2 模板套到三个真实样本上,看不同公司在四权配置上的赌注差异。

公司规则形态合法性来源问责机制制度性质
AnthropicConstitutional AI(明文宪法 + RLAIF 自我批评);Responsible Scaling Policy v1.0(2023-09)→v2.0(2024-10-15)→v3.0外部规范内化(联合国人权宣言等)+ 企业Long-Term Benefit Trust(准公益托管)+ RSP v3 引入”潜在外部审查”准立法(行为宪法)+ 准公益托管
OpenAIModel Spec(约 197 条原子命题)+ Usage Policy企业 + 专家倡议类 IAEA 式国际监管机构(准外交)私人行为规范 + 准外交倡议
MetaCommunity Guidelines企业 + 外部规范内化Oversight Board(准司法外部机构,资助权仍在 Meta 手中)准司法外部制衡(合法性脆弱)

事实来源:Bai 等 “Constitutional AI: Harmlessness from AI Feedback”(arXiv:2212.08073,2022-12);RSP 版本线来自 assets.anthropic.com PDF;Model Spec / Constitution 的原子命题分解来自 Jakkli 等 arXiv:2605.24229;Oversight Board 数据来自 oversightboard.com 与 Platformer。三家的共同结构性弱点:合法性来源都以”企业”为最终兜底,问责机制都由公司自己设立、自己资助、(在 Meta 案例里)自己可随时断供。这就是 Birhane 等 “Big AI’s Regulatory Capture”(arXiv:2605.06806,FAccT 2026)所说”企业同时作为规则制定者、实施者、合规评估者,消除了外部问责的逻辑基础”。

§4 判断主轴:设计治理制度时 90% 的人会栽的四个错位

[!warning] 这一节是本节点的命门——每点带”症状 → 为什么会错 → 正确做法 → 真实反例”

错位 #1 —— 只设计了”执行”,以为就是治理全套。

  • 症状:PRD 里有详细的审核流程、处置矩阵、SLA,但翻遍文档找不到”规则从哪来、谁有权改、用户怎么翻案、出了系统性错谁负责”。
  • 为什么会错:执行子系统有明确 KPI(时效、准确率),看得见摸得着,组织资源天然往那里堆;而合法性、申诉、问责是”成本中心”,没有亮眼指标,于是被默默省略。
  • 正确做法:用 §1 四权表做一次缺口审计,任何一权缺失都要在 PRD 里显式写明”我们暂不做这一权,赌注是 X,失效场景是 Y”——把省略变成有意识的、被记录的决策,而不是无意识的盲区。
  • 真实反例:Meta 早期内容审核高度成熟(执行权强),但直到 2020 年才被外部压力逼出 Oversight Board(问责权),中间十几年的治理是”强执行 + 零问责”的开明专制。

错位 #2 —— 把”原则”当成”已经解决了执行问题”。

  • 症状:团队写了一套漂亮的 AI 原则/宪法,发布会上引用联合国人权宣言,然后认为治理制度已经建成。
  • 为什么会错:高层原则与具体工程实现之间存在 Orozco y Villa & Menendez(2025)指出的不可弥合的翻译鸿沟——“不得伤害”无法自动翻译成分类器的判定阈值。原则提供的是合法性叙事,不是执行能力。
  • 正确做法:强制走 §2 Step 3 的双层结构,并为”原则→原子规则”的翻译设专人专岗,把翻译过程本身纳入审计。
  • 真实反例:Constitutional AI 被 Orozco y Villa & Menendez 批为”炫目的转移注意力(shiny distraction)“,正是因为它用”宪法”这个高合法性词汇,掩盖了”谁来核验模型行为真的符合宪法”这个无人回答的问题(Priyanshu, Maurya & Hong “AI Governance and Accountability: An Analysis of Anthropic’s Claude”, arXiv:2407.01557, 2024:无外部机构可核实 Claude 行为是否符合宪法目标,无独立审计接触训练过程)。

错位 #3 —— 申诉制度做成”客服话术”,而非独立复核。

  • 症状:用户申诉后,由做出原始判定的同一个模型/同一支团队”复核”,结论 99% 维持原判,附一句”经核实处置正确”。
  • 为什么会错:复核者与原判者同一,结构上不可能产生纠错——这违背了任何司法体系最基本的”任何人不得做自己案件的法官”原则。它制造了申诉的形式而没有申诉的实质
  • 正确做法:复核路径必须独立于原判路径(不同模型版本、不同人审队列、或外部机构),并公开复核改判率作为制度健康度指标。
  • 真实反例:DSA 之所以强制引入”法外争议解决机制”,正是因为立法者认定平台内部申诉的独立性不可信——这是对纯内部申诉制度的一次国家级不信任投票。

错位 #4 —— 把”问责机构”的存在当成”问责回路已闭合”。

  • 症状:公司设立了伦理委员会 / 外部顾问团 / 监督委员会,对外宣称”我们有独立问责”,但该机构的预算、议程设置权、成员任免权、结论执行权,全部仍握在公司手里。
  • 为什么会错:问责的本质是约束力,不是机构的存在。一个由你出钱、你任命、你可随时解散、其结论你可选择性执行的机构,提供的是合法性表演(legitimacy theater),不是真问责。
  • 正确做法:评估问责机构时只问四个问题——钱谁出?人谁定?议程谁设?结论必须执行吗?四个问题里只要有两个答案是”公司自己”,这个机构就是装饰。
  • 真实反例:Meta Oversight Board 在四个问题上的答案分别是 Meta、(独立但 Meta 出资)、部分独立、仅个案决定有约束力而政策建议无约束力——Klonick 给 C 的根本原因,以及 2028 断供威胁能成立的根本原因,都在这四个答案里。这正是结尾陷阱的核心,见 §7。

§5 产品 PM 视角补盲:治理是商业模式问题,不是道德问题

跳出”工程 PM / 合规 PM”视角,补三个最容易看走眼的点。

(1) 治理强度与商业模式深度绑定,不是独立的伦理选择。 一个靠用户停留时长变现的产品(注意力经济,见 Tim Wu The Attention Merchants, 2016)与一个靠 API 调用量变现的产品,治理激励完全相反:前者有结构性动机放松治理(更多刺激内容 = 更多停留),后者有动机收紧治理(一次滥用事故 = 企业客户流失)。面试时若被问”你会怎么设计治理”,先反问”这个产品靠什么赚钱”——治理制度的真实约束来自激励结构,不来自价值观宣言。

(2) 自愿治理在竞争加剧期会系统性退化——这是历史规律,不是悲观预测。 ailabwatch.org 汇总的对 Responsible Scaling Policy 的结构性批评(Campos 2023:RSP 是”风险管理做错方向”,把举证责任从能力研发者转移到安全关切者)指出:竞争压力下,实验室有激励放松安全约束或重新解释阈值定义。这与金融业巴塞尔协议前、烟草业自我监管的历史轨迹结构性相似。PM 设计治理制度时,必须假设”未来某个季度,增长压力会要求你松动治理”,并在制度里预埋抵抗这一压力的元规则(Step 8),否则你设计的不是制度,是一份会在第一次 KPI 危机时作废的备忘录。

(3) “可退出性”是用户感知治理公平性的真正锚点。 用户对治理不公的容忍度,与他们能否退出成反比。一个有充分竞品的市场里,糟糕的治理会被用脚投票纠正;一个赢家通吃的市场里,再好的申诉流程也只是 Hirschman 意义上的”无效 voice”。这就是为什么反垄断(Tim Wu The Curse of Bigness, 2018)和治理是同一个问题的两面——PM 谈治理却不谈市场结构,等于谈宪法却不谈有没有反对党。

§6 跨域呼应:O’Donnell 委任民主——AI 治理的”横向问责赤字”

调度一个 Rick 政治理论库里的精确框架:Guillermo O’Donnell 的委任民主(Delegative Democracy,Journal of Democracy 5:1, 1994, pp. 55–69,见 奥唐奈)。

O’Donnell 的核心贡献是区分两种问责:纵向问责(vertical accountability,选举式问责,自下而上)与横向问责(horizontal accountability,制度间相互制衡)。委任民主的病理是:纵向问责存在(选举有效),但横向问责缺位——总统当选后可”为所欲为”,不受立法、司法、其他横向机制约束。

这个框架精确改变了我们对 AI 治理制度的判断:把它套到 AI 公司,你会发现绝大多数 AI 产品治理也只有”纵向问责”(用户可以卸载、可以差评、可以投诉,这是自下而上的选举式问责),但横向问责几乎为零——没有任何与公司平级、能在公司不情愿时强制约束它的制度(法院、独立监管、平级机构)。§4 错位 #4 描述的 Oversight Board 之所以是”装饰”,用 O’Donnell 的语言说就是:它被设计成了一个看起来像横向问责机构、实则只能行使纵向建议权的东西——钱、人、议程都在 Meta 手里,它无法在 Meta 不情愿时强制 Meta。

委任民主框架的杀伤力在于它的下一个论断:O’Donnell 强调委任民主不是通往代议制民主的过渡阶段,而是一种稳定的均衡——人们在危机中主动让渡横向问责以换取领导力。映射到 AI:“前沿 AI 安全紧急状态”的话语(frontier risk 太高、迭代太快、外人看不懂),正在被用来论证”此刻不能让外部横向机构拖慢我们”——这是一次教科书式的、用紧急状态换取横向问责豁免的委任结构。 这恰好与本专题 Schmitt 节点(“主权者是决定例外状态的人”)形成跨节点呼应:谁有权宣布”现在是 AI 紧急时刻、所以治理要让位于速度”,谁就握有真正的主权。

边界声明:O’Donnell 框架原本针对拉美后威权转型国家,AI 公司是非选举性、非国家实体,存在”分析单元错配”——这是理论借用,不是既有学术共识(检索未发现已发表的将 O’Donnell 直接应用于 AI 公司治理的同行评审论文)。我赌的是”横向/纵向问责”这对区分本身具有跨单元的解释力,但承认”用户卸载”是否真等价于”选举”是可被质疑的(市场竞争是 O’Donnell 框架未涵盖的第三种问责形式)。

§7 对手框架回应 + 结尾陷阱

对手立场(接受 + 边界): 美国第一修正案学派与 ITIF 等智库(“The EU’s Content Moderation Regulation”, 2025-05)的核心反方立场是:强制把私人治理公法化,本身就是一种言论管制;要求平台承担行政法式的透明、说理、复审义务,会损害言论自由与创新,所谓”跨大西洋裂缝”本质是宪法价值观分歧而非技术差异。Knight First Amendment Institute(“Meet the New Governors, Same as the Old Governors”, 2018)更直接质疑 Klonick 的前提:现有第一修正案框架仍然适用且足够,平台调节更多是可及性与透明度问题,不构成新型权威。

接受:他们对的部分是真的——把所有治理决定公法化会带来寒蝉效应,且国家强制(DSA 式)确实可能被滥用为审查工具(Balkin 的”附带审查/collateral censorship”风险)。一个被国家深度规制的平台治理,可能比企业自治更危险。边界:但这个反方立场对”无问责的私人权力”问题给不出答案——它假设要么企业自治、要么国家管制的二元,而本节点模板(Step 6/7/8)押注的是第三条路:可竞争的、有元规则约束的、带独立外部制衡的私人治理。我赌的是制度设计的精细程度,而不是”私 vs 公”的站队。

[!danger] 结尾陷阱:你设计的治理制度,可能只是一件更精致的合法性外衣 本节点给了你一张八步模板,套完它,你会得到一套看起来三权齐备、申诉通畅、还设了外部委员会的治理制度。这里埋着 0430 专题最锋利的陷阱:一套设计精良的治理制度,恰恰是最高级的合法性表演(legitimacy theater)。 Harvard JOLT 那篇 “The Meta Oversight Board and the Empty Promise of Legitimacy”(jolt.law.harvard.edu,作者待确认)的标题本身就是判词——Oversight Board 在四权解剖图上几乎完美,却因为钱、人、议程、结论执行权这四把钥匙始终在母公司手里,最终成了”合法性的空头支票”。2028 断供威胁能成立,证明了它从来不是真权力,只是 Meta 可随时收回的恩赐。

所以这张模板真正的用法不是”照着搭一套”,而是”照着审一套”:每搭好一权,立刻用 §4 错位 #4 的四问拷打它——钱谁出、人谁定、议程谁设、结论必须执行吗。如果你的治理制度在这四问下站不住,那么你越是把它设计得精美,它就越是一件好看的外衣——而外衣的功能恰恰是让外界停止追问里面有没有身体。判断一套 AI 治理制度的成色,不看它有多少机构和流程,只看在公司最不情愿的那个时刻,这套制度能不能强制公司就范。能,是制度;不能,是装饰。 这是 Safety PM / Policy PM 面试桌上,把你和”会背 Trust & Safety 流程的候选人”区分开的唯一一句话。

§8 PM 决策启示

  • 面试怎么用:被问”如何为 X 产品设计内容/模型治理”时,不要先答审核流程。先用 §1 四权表把问题结构化,再用 §4 错位 #4 的四问(钱/人/议程/执行)作为收尾的杀手锏。展示你区分”治理”与”治理表演”的能力,这是高区分度信号。
  • 选型怎么用:评估要不要采购/集成某个第三方治理方案(如外部审核 API、外部裁决服务)时,用 §3 对照表 + §5 的”商业模式决定治理激励”判断它的结构性可信度,别只看 feature list。
  • 复现怎么用:把 §2 八步模板直接当成治理制度 Design Review 的议程;每一步都强制回答”赌注是什么、失效场景是什么”,把省略变成被记录的决策(接 R01 的最小可运行思路、R03 的进阶)。

§9 与已有节点的关系

  • 对照 机制设计:本节点是机制设计在”治理”这一具体场景的落地应用。0421 讲的是激励相容、规则形态、Goodhart 化等抽象机制原理;本节点不复述这些原理,而是把它们套进”规则制定/执行/申诉/问责”的四权工程里——属于深化 + 应用,不是平行。Step 3 的”原则 vs 规则”张力、Step 8 的元规则设计,直接调用 0421 的机制设计工具箱。
  • 对照 A06(本专题概念辨析模块”内容治理作为准立法”节点):A06 做的是诊断(论证内容治理在功能上已构成私法体系,引 Klonick/Douek/Bloch-Wehba),是”是什么”;本节点做的是操作(既然它已是准立法,那就老老实实按制度来设计),是”怎么动手”。本节点不复述 A06 的诊断论证,直接以其结论为设计前提——属于对话 + 落地
  • 对照 Constitutional AI:本节点把 CAI 从”一种对齐技术”重新定位为”一种治理制度选型”(§3),并用 §4 错位 #2 给它的”宪法”类比加了制度设计层面的边界——属于纠偏 + 跨域升格,把技术节点接到制度分析框架上。

§10 关联节点

核心(必读)

  • 机制设计 —— 本节点的抽象母框架
  • Constitutional AI —— 治理制度选型的核心真实样本
  • 奥唐奈 —— §6 跨域呼应的政治理论锚点(委任民主 / 横向问责赤字)
  • AI 公司政治敏感内容立场对比 —— 三家公司治理立场的事实底料
  • c14 - 模型评估体系与 Goodhart 陷阱 —— Step 3 原则规则化的失效机制

延伸(可选)

  • 施密特(本专题 Schmitt 例外状态节点;若死链则降级为文本提及)—— §6 “紧急状态换问责豁免”的跨节点呼应
  • 福柯 —— 治理术:治理通过”引导品行”而非压制运作
  • 0116政治哲学 —— 合法性来源的政治哲学背景
  • 0133新制度经济学 —— 制度作为约束、元规则、可信承诺
  • p305 - 信任架构与可解释性设计 —— 申诉制度的”说理义务”在产品侧的落地
  • 霸权 —— 合法性表演 vs 真问责的意识形态分析
  • AI PM 知识图谱·总索引

修订日志

  • R1(2026-06-07):首稿。建立四权解剖(规则制定/执行/申诉/问责)+ 八步设计模板 + 四错位判断主轴 + O’Donnell 委任民主跨域呼应 + “治理制度即合法性外衣”结尾陷阱。链 机制设计、A06、Constitutional AI。事实接地:Klonick/Douek/Bloch-Wehba 已确证带期刊年份;Oversight Board 数字(200+决定/317建议/Trump 2023-03复权/2028断供/900 vs 3500万)来自可访问新闻源;arXiv ID 全部经 WebFetch 核实(2212.08073 Bai 等;2406.16696 Abiri “Public Constitutional AI”;2407.01557 Priyanshu/Maurya/Hong;2605.24229 Jakkli/Rajamanoharan/Nanda “How Well Do Models Follow Their Constitutions?”;2605.06806 Birhane 等 “Big AI’s Regulatory Capture”)。唯一遗留〔待核实〕:Harvard JOLT “Empty Promise of Legitimacy” 作者姓名(PDF 二进制无法解析)。
  • 2026-06-11 P3.4 校链:§9/§10/Step 3 死链 0421机制设计(3 处)改为别名链 机制设计(0421 机制设计专题已入库)。