A06 制度俘获与问责真空
当 AI 公司同时握有立法权(写规则)、行政权(执行规则)、司法权(裁定申诉)时,出了事,谁负责? 本节点要解决的不是”AI 会不会犯错”这个技术问题,而是一个制度设计问题:当一套准国家级的治理结构在没有横向问责(horizontal accountability)的条件下运转,错误的代价由谁承担、由谁追究。本节的视角框架是 O’Donnell 的委任民主(delegative democracy)+ 监管俘获理论——我的核心赌注是:AI 制度现象最致命的风险不是”模型不对齐”,而是问责真空叠加监管俘获所构成的结构性塌陷。前者是工程问题,后者是政体问题;PM 招聘市场(尤其 Safety / Policy / Trust & Safety 岗)真正稀缺的,是能看穿第二层的人。
§0 为什么是”问责真空+俘获”框架,而不是”对齐”或”合规”框架
先挡掉两个默认错误框架。
错误框架一:技术对齐框架(“把模型对齐好就安全了”)。 这是 04AI 域里最主流的叙事——Constitutional AI、RLHF、Responsible Scaling Policy 都在这个框架里运转。它的盲点是:对齐解决的是”模型是否按规则行事”,但完全不触及”规则由谁定、出事由谁担责”。 一份写得再完美的宪法,如果起草、执行、评估全由同一家公司闭环完成,它在制度意义上仍然是零问责的。把对齐当成安全的全部,等于把”司机守不守交规”当成”交通系统是否安全”的全部——漏掉了谁立法、谁执法、谁审判、谁能上诉。
错误框架二:合规框架(“等监管来了就好了”)。 这是政府视角的默认乐观。它的盲点更深:监管本身可以被俘获。 当被监管者比监管者更有钱、更懂技术、更能控制人才流向时,“立法”这个动作不会带来问责,反而会把企业偏好洗成法律的形式合法性。Corporate Europe Observatory 的数据显示,科技行业在布鲁塞尔的年度游说支出达 €1.51 亿(较 2021 年增长 55%),Meta 单家年投入 €1000 万,欧盟委员会高层官员在 AI 议题上 86% 的会面对象是业界人士(来源:Corporate Europe Observatory, 2024-03)。合规框架默认”立法=问责到位”,俘获框架追问”立法过程本身被谁写的”。
为什么选 O’Donnell? 因为 AI 公司治理在结构上不是”独裁”(它有选择退出、有市场竞争、有用户用脚投票),但也绝不是”代议制问责”(用户没有选票选 CEO、没有横向制衡机构能 override 算法决策)。O’Donnell 1994 年描述的拉美”委任民主”恰好是这个中间态:纵向问责(选举)存在,横向问责(制度间相互制衡)缺位。 把”选举”替换成”用户用脚投票/App Store 评分”,把”总统”替换成”平台 CEO/模型行为”,这个错位结构几乎完美迁移。这是本专题最锋利的跨域接口——也是我必须诚实标注其移植边界的地方(见末尾跨域呼应段)。
§1 三权合一:问责真空的结构来源
问责真空不是偶发的失误,而是治理结构的逻辑产物。当一个实体把立法、行政、司法三种功能内化进同一个组织边界,外部问责就失去了着力点——你无法向”既是裁判又是球员又是规则制定者”的一方主张权利。
| 公法三权 | 平台/AI 公司对应机制 | 问责缺口 |
|---|---|---|
| 立法 | 社区准则 / Model Spec / Constitutional AI 宪法文本 | 规则由公司单方面制定、单方面修订,用户无立法参与 |
| 行政 | 内容审核 / 模型行为执行 / 账号处置 | 执行不透明,处罚标准可随时重新解释 |
| 司法 | 申诉流程 / Meta Oversight Board | 裁定权最终解释权仍归公司;Board 决定仅约束个案 |
Kate Klonick 在 “The New Governors”(Harvard Law Review 131, 2018, pp. 1598–1670)中论证:Facebook、Twitter、YouTube 的内容政策”在功能上构成私法体系(private law),影响全球言论标准,却几乎没有对用户的直接问责”,并明确指出问责缺口是结构性的而非偶发的。Hannah Bloch-Wehba 在 “Global Platform Governance: Private Power in the Shadow of the State”(SMU Law Review 72, 2019)中进一步点明:行政法的四项基本原则——透明度、参与、说理、复审——在平台治理中系统性缺失。
把这个诊断从”内容平台”平移到”AI 公司”,缺口只会更大:内容审核至少有可见的产出(被删的帖子),而模型行为的”立法”发生在训练数据选择、RLHF 偏好标注、安全策略设定这些根本不可观测的层面。Evelyn Douek 在 “Content Moderation as Administration”(Harvard Law Review 136, 2022, pp. 526–607)的核心洞见在此尤其致命:关键决策发生在事前制度设计层面,而非事后个案纠错层面。 这意味着当你能申诉时,真正的决定早已在你看不见的地方做完了。
§2 委任民主:纵向问责的幻觉
O’Donnell(“Delegative Democracy,” Journal of Democracy 5:1, 1994, pp. 55–69)的关键贡献是把问责拆成两维:
- 纵向问责(vertical):选民通过选举追究执政者——存在,且周期性有效。
- 横向问责(horizontal):立法、司法、独立机构之间的相互制衡——这才是委任民主实质缺位的部分。
委任民主的诡异之处在于:它看起来有问责(选举是真的),所以人们误以为问责到位了。但选举只能事后整体清算,无法对具体决策施加约束;总统在两次选举之间可以”为所欲为”。
映射到 AI 公司,“纵向问责”就是用户用脚投票 / App Store 评分 / 媒体舆论——它真实存在,所以制造了”市场会惩罚作恶者”的安全幻觉。但它和委任民主里的选举一样:只能整体清算,无法约束具体决策。 你可以卸载 ChatGPT,但你无法 override 它对你某次提问的拒答;你可以给 App 打一星,但你无法让一个独立机构审查它的安全策略是否合理。横向问责——能够实时制衡、独立审查、强制说理的机构——在 AI 公司治理中几乎为零。
[!note] 我赌的是什么 我赌”市场竞争=问责”这个反方论点会失效。理由:委任民主在拉美稳定存在了几十年而非自我修正,证明”纵向问责存在”不会自动催生”横向问责”。AI 公司治理同理——只要切换成本(lock-in、生态依赖、数据沉淀)足够高,用脚投票的纵向压力就不足以替代横向制衡。这是个可证伪的赌注:如果未来出现一个对用户有强制约束力、独立于公司预算的外部审查机构并持续运转,我就输了。
§3 监管俘获:当”立法”反而加固问责真空
如果说委任民主解释了”为什么市场问责不够”,监管俘获则解释了”为什么政府问责也可能失灵”。这是问责真空的第二层——最危险的不是没有监管,而是被俘获的监管,它用合法性的外衣掩盖了零问责的实质。
Birhane 等(2026,arXiv:2605.06806,FAccT 2026 录用)构建了 27 机制分类法,在 100 篇报道中识别出 249 项俘获实例,最主流的俘获叙事是”监管扼杀创新”(占 16%),“旋转门”出现在 24% 的高知名度案例中。他们把俘获机制归为五类:直接政策影响、利益冲突参与、市场影响、法律规避、话语与认知影响。
最值得 PM 警觉的是第五类——话语俘获先于制度俘获。行业通过资助学术研究、定义技术术语、主导专家咨询,在正式监管出台前就已经塑造了”监管的可能性空间”。这与本专题的命名洞察形成尖锐呼应:把工程选择命名为”Constitutional”(宪法),把自愿备忘录命名为”Responsible Scaling”(负责任扩展),本身就是话语俘获的一部分——用宪政意象先行占据道德高地,让”它已经是负责任的治理了”成为讨论的默认前提。
EU AI Act 的实际演变是教科书级案例:通用目的 AI(GPAI)最初获豁免,仅保留少量透明度义务,原有的基本权利审查等保障条款被删除(来源:Corporate Europe Observatory, 2024-03)。Sandra Wachter(Yale Journal of Law & Technology 26:3)指出 AI Act 的三大结构性漏洞:对自我监管/自我认证的过度依赖、执法机制软弱、公私部门均设宽泛豁免。换句话说,即便”立法”完成了,俘获机制可以让法律文本在生效那一刻就已被掏空。
| 问责真空的两层 | 失灵机制 | 关键证据 |
|---|---|---|
| 第一层:市场问责失灵 | 委任民主——纵向有、横向无 | O’Donnell 1994;切换成本制造 lock-in |
| 第二层:监管问责失灵 | 俘获——话语+旋转门+游说 | Birhane 2026(249 实例);CEO 86% 会面对象为业界 |
§4 判断主轴:90% 的人在问责问题上会搞错的四个点
这一节是本节点的命门。问责真空不是一个抽象的道德焦虑,它有四个高频误判,每个都直接决定 PM 在面试桌和决策会上的判断质量。
误判一:把”有申诉流程”当成”有问责”。
- 症状:看到一家公司有 appeal 按钮、有 Oversight Board,就判定它”有问责机制”。
- 为什么会错:申诉是事后个案纠错,问责是对决策权的事前/横向约束。两者完全不同。Meta Oversight Board 是最佳反例:它在 Trump 停权案(2021)中确实裁定 Meta”施加了无限期且无标准的处罚”并要求重审——但 Meta 保留对政策的最终解释权,Board 的政策建议中明确拒绝执行的也有(19 条具体建议里完全执行 15 条,拒绝 1 条)。Klonick 本人给 Board 的综合评分仅为”勉强及格(C)“(来源:Platformer, “Meta Oversight Board 5 Years”)。
- 正确做法:区分”个案救济”和”结构问责”。问”这个机构能不能 override 公司的政策,还是只能改单个判决?预算独立吗?”
- 真实反例:Meta 于 2026 年通知 Oversight Board 成员,可能在 2028 年后停止资助并已削减当前预算(来源:TechBrew, 2026-04-03)。一个钱包攥在被监督方手里的”监督”机构,其问责性在结构上就是假的。
误判二:把”自愿承诺”当成”约束”。
- 症状:看到 Responsible Scaling Policy、Frontier Safety Commitments、白宫自愿承诺,就认为安全有了制度保障。
- 为什么会错:自愿承诺的举证责任方向是反的。高风险行业的惯例是”不证明安全就不得上市”,而 RSP 框架默认放行直到触发阈值——举证责任落在安全顾虑方而非能力研发方(来源:ailabwatch.org 总结的 Campos 2023 批评)。
- 正确做法:问”这个承诺有没有外部强制执行机制?违约的后果由谁判定?” 如果违约后果完全依赖公司自身判断,它就是”承诺备忘录(promissory note)“而非政策。
- 真实反例:跨行业历史记录(金融业巴塞尔协议前、烟草业自我监管)显示,无约束力的自愿标准在竞争强化期系统性退化。AI 行业当前经济回报潜力巨大,结构性激励与历史高危行业高度相似。
误判三:把”立法已通过”当成”俘获已避免”。
- 症状:EU AI Act 通过了,就认为欧盟已经驯服了 AI 公司。
- 为什么会错:立法的过程和文本都可能已被俘获。GPAI 豁免、基本权利审查条款删除,都发生在立法谈判桌上(来源:Corporate Europe Observatory, 2024-03)。
- 正确做法:读立法时盯住”自我认证""合规推定""豁免条款”三个词——它们是俘获的指纹。GPAI 实践守则技术上自愿,但提供”合规推定(presumption of conformity)“,即事实上的安全港(来源:Latham & Watkins)。
- 真实反例:2025 年多个行业团体呼吁对 EU AI Act 执行”暂停两年(stop-the-clock)“;特朗普政府以 EO 14148(2025-01-20)撤销拜登 EO 14110、再以 EO 14179(2025-01-23)确立去监管纲领,废除前朝多项 AI 安全与透明度要求;州级层面,《One Big Beautiful Bill》曾含十年禁止州级 AI 监管条款,2025-07-01 被参议院 99-1 删除、从未成法,联邦随即以 2025-12-11 行政令《Ensuring a National Policy Framework for AI》(设 AI Litigation Task Force + BEAD 资金施压)转向司法施压——立法通过远不是终点,俘获是持续进行时。
误判四:把”问责真空”当成纯伦理问题,而非 PM 决策问题。
- 症状:认为”出了事谁负责”是法务/公关的事,与产品决策无关。
- 为什么会错:问责真空直接塑造产品风险的内部定价。当外部问责缺位时,组织内部对”安全 vs. 速度”的权衡会系统性偏向速度——因为犯错的外部代价被结构性低估了。这是 失败考古学 节点描述的失败模式的制度根源:不是工程师不小心,而是问责结构让”小心”在激励上不划算。
- 正确做法:作为 Safety/Policy PM,把”我们的决策出错时,谁会追究、追究到什么程度”明确写进风险评估。设计可追溯的决策记录和对外可验证的承诺,主动制造问责锚点。
- 真实反例:学界已把 Anthropic 的 constitution 与 OpenAI 的 Model Spec 分解为可审计的原子命题(Anthropic 205 条、OpenAI 197 条;来源:“How Well Do Models Follow Their Constitutions?” arXiv:2605.24229, 2026),将私人规则转化为可外部审计的目标——这是少数主动制造问责锚点的正面动作,但审计仍由研究者自发完成,缺独立、有强制力的机构去执行。
§5 产品 PM 视角补盲:问责真空的三个非工程盲点
工程 PM 容易把问责真空看成”日志做全、可解释性做好”就能解决的技术问题。但它在三个非工程层面有更隐蔽的陷阱:
-
用户心理模型盲点:用户误以为”有大公司背书=有人兜底”。 实际上品牌信任掩盖了零问责的事实——用户对 AI 输出的信任度,远高于该公司对错误输出承担的实际责任。这个信任-责任剪刀差是 Trust & Safety 产品最危险的地方:你的产品越被信任,问责真空的伤害半径越大。
-
商业模式盲点:问责真空是被定价进商业模式里的隐性补贴。 把外部性(错误内容、有害建议、隐私损害)甩给用户和社会承担,等于让企业获得了一笔”免费”的成本外部化。Morozov 对监控资本主义的批评在此适用——剥削与成本外部化本是资本主义历史常态(“Critique of Techno-Feudal Reason,” New Left Review 133/134, 2022),不需要”技术封建主义”标签,但云租金式的依附+成本外部化是真实现象。PM 要看清:你的 unit economics 里,有多少是建立在”没人来追究”之上的。
-
合规边界盲点:南方视角缺失。 几乎所有问责文献以美欧为中心。但 DiDi/99 这类平台在发展中国家语境下的准主权行为(算法劳动控制、数据国家化压力)构成独立的问责结构——这里的问责真空往往双向:既缺市场横向制衡,又面临国家纵向施压,平台被夹在”对用户零问责”和”对国家高度负责”的扭曲结构里。作为做过滴滴安全 + 国际化的 PM,这是 Rick 的独特观察位:监管俘获在监管能力强的法域是”企业俘获政府”,在监管能力弱的法域可能是”政府征用企业”——两种问责扭曲,需要不同的产品应对。
§6 对手框架回应:接受 + 边界
对手一:Knight First Amendment Institute(“Meet the New Governors, Same as the Old Governors,” 2018)。 立场:现有第一修正案框架仍然适用且足够;平台调节不等于新型权威,更多是可及性与透明度问题,强制公法化等于变相言论管控。
- 接受:他们对的部分是——把私人治理强行套上公法约束,确实有压制言论的现实风险,而且 EU AI Act、DSA 的强制执行(2024–)证明国家法律仍能有效约束平台自治,问责真空不是无解的铁板。
- 边界:但我坚持,“现有框架足够”低估了 AI 公司相对内容平台的不可观测性。内容审核至少有可见产出,模型行为的”立法”在训练阶段完成,第一修正案框架根本够不到。我赌的是:可观测性的代差使得旧框架在 AI 场景下系统性失效。
对手二:Schuett 等(2024,arXiv:2407.07300)的渐进式监管派。 立场:技术演进太快,原则导向、自愿先行的灵活性优于刚性法规,开发者目前最能创新安全方案。
- 接受:他们对的部分是——在范式仍在快速切换时,过早的刚性规则确实可能锁死错误标准、抑制安全创新。“原则先行、逐步规则化”在认识论上有道理。
- 边界:但这个论证有一个它不愿正视的前提——它假设开发者的安全激励与公众一致。Birhane 的 249 个俘获实例和 Campos 的”举证责任倒置”批评恰恰打掉这个前提。我的边界是:灵活性可以接受,但灵活性不能等于”评估者=被评估者”。 渐进式监管必须配一个独立于公司预算的外部审计机构,否则”灵活”就是俘获的同义词。
§7 跨域呼应:O’Donnell 委任民主的移植,以及它的失效边界
本节点的主框架调度来自 奥唐奈 的委任民主理论(“Delegative Democracy,” Journal of Democracy 5:1, 1994)。它如何改变了我对 AI 治理的判断?
在没有这个框架之前,关于 AI 公司问责的默认讨论是二元的:要么”它是自由市场主体,市场会问责”,要么”它是危险垄断,需要政府监管”。O’Donnell 提供了第三种诊断:一个实体可以同时拥有真实的纵向问责(市场/选举)和缺位的横向问责(制衡/审查),而且这个错位结构稳定、自我维持、不会自动走向健全问责。这一下子解释了为什么”用户可以卸载 App”这个事实从不曾转化为有效约束——因为纵向问责在结构上就替代不了横向问责。这不是装饰性引用:它把”市场会惩罚作恶者”这个看似有力的反方论点,降级为”委任民主里的选举幻觉”。
但我必须诚实标注移植边界(这是认识论自觉,不是谦辞):
-
分析单元错配。 O’Donnell 的框架原本针对拉美后威权国家——一个选举性、领土性的政治实体。AI 公司是非选举、非领土的私营实体。把”总统”换成”CEO”、“选举”换成”用脚投票”是一个类比,不是已被同行评审确立的等价关系。目前尚无直接将 O’Donnell 框架应用于 AI 公司治理的同行评审论文(检索确认)。我把它作为分析透镜使用,不作为既有学术共识陈述。
-
市场竞争是 O’Donnell 框架没有的第三种问责。 委任民主里没有”竞争对手”这个变量,但 AI 公司面对真实的同业竞争。这是框架的失效点——当切换成本低、竞争充分时,市场的纵向压力可能确实接近横向制衡的效果。所以我的判断有一个明确的 failure scenario:在低 lock-in、高竞争的产品品类(如通用聊天 API 早期),问责真空命题会减弱。 它最成立的地方是高 lock-in、强生态依赖、数据沉淀深的场景。
跨域呼应还可向 0116政治哲学 与 霸权 延伸:话语俘获(Birhane 第五类机制)在结构上就是葛兰西式的文化霸权——通过定义术语和资助研究,让企业偏好成为”常识”,在正式立法之前就赢得了战争。“Constitutional""Responsible”这些命名,是霸权斗争的语言战场。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
面试怎么用(Safety / Policy / Trust & Safety 高区分度):
- 被问”你怎么看 AI 公司的自我监管”时,不要停在”我觉得自我监管不够、需要外部监管”(这是 hype 腔的反面,同样空洞)。用两层框架答:第一层用 O’Donnell 区分纵向/横向问责,指出市场问责的结构性局限;第二层用 Birhane 的俘获机制指出”外部监管”本身可能被俘获。能讲清”申诉≠问责""立法≠避俘获”这两个区分,就拉开了和泛泛而谈者的差距。
- 准备一个具体数字锚点:Meta Oversight Board 可能 2028 年后断粮、Klonick 评 C、CEO 86% 会面对象为业界、Birhane 249 个俘获实例。数字让判断可信。
选型怎么用(采购/集成 AI 供应商时):
- 评估供应商治理成熟度时,加一栏”问责锚点”:它的 Model Spec 是否分解为可外部审计的命题?申诉机制能 override 政策还是只能改个案?有没有独立于公司预算的外部审查?把”信任-责任剪刀差”写进供应商风险评估。
复现怎么用(自建治理结构时):
- 如果你的产品要建内容/行为治理结构,主动制造问责锚点:可追溯的决策记录(事前 logging 立法层决策,不只是事后审核日志)、对外可验证的承诺(带强制执行机制,不是 promissory note)、预算独立的审查(哪怕是合同约束的第三方)。把 Bloch-Wehba 的行政法四原则(透明、参与、说理、复审)当成 checklist。
§9 与已有节点的关系
- 对照 失败考古学(深化):0416 描述 AI 制度的失败模式(出事的具体形态)。本节点提供其制度根源——失败不是工程意外,而是问责真空让”谨慎”在激励上不划算的必然产物。不复述 0416 的失败案例清单,只接上其上游的”为什么会反复失败”。
- 对照 Constitutional AI(纠偏):CAI 节点讲”宪法如何让模型对齐”。本节点纠偏其制度盲点——一份自写、自执行、自评估的宪法,在问责意义上是零约束的。不复述 CAI 的技术机制,只补”宪政意象掩盖了问责真空”这一层。
- 对照本专题 A 系列其他节点(对话):与”内容治理作为准立法""自我监管作为制度现象""AI 公司作为准主权”形成横向对话——它们讲权力是什么,本节点讲这套权力对谁负责、出事找谁。
§10 关联节点
核心(必读)
- 失败考古学——本节点是其制度根源,互为上下游
- Constitutional AI——问责盲点的纠偏对象
- 奥唐奈——委任民主主框架来源
- 0622 秦晖——秦制框架下”大共同体消灭小共同体”与问责真空的中国镜像
- 霸权——话语俘获的葛兰西式解读
- 0116政治哲学——问责作为政治哲学问题的入口
延伸(可选)
- 福柯——治理术:问责真空下”引导而非压制”的权力形态
- 葛兰西——文化霸权与”Constitutional/Responsible”命名战
- AI 公司政治敏感内容立场对比——准主权行为的实证对照
- p305 - 信任架构与可解释性设计——问责锚点的产品化落地
- 0133新制度经济学——成本外部化与问责真空的制度经济学
- 安全感知与干预——滴滴安全产品中的问责结构对照
- 纠纷治理从裁判到管家——平台司法功能的实务镜像
- AI PM 知识图谱·总索引——回到总图
修订日志
- R1(2026-06-07):首稿。建立”问责真空两层模型”(市场问责失灵=委任民主 / 监管问责失灵=俘获),判断主轴四误判,O’Donnell 移植边界显式标注,链 失败考古学 为制度根源。
- R1.1(2026-06-07):grounding pass——WebSearch 核实 Anthropic/OpenAI 原子命题数(205/197),确认来源为 arXiv:2605.24229 “How Well Do Models Follow Their Constitutions?”,移除〔待核实〕标记。无剩余待核实项。
- 2026-06-11 P3.1 误判三真实反例处 EO 14179 撤销误归因订正为 EO 14148 撤销 + EO 14179 立纲领,并补入 OBBBA 十年州禁令事实过去时(2025-07-01 参议院 99-1 删除、从未成法 + 联邦转向 2025-12-11 行政令设 AI Litigation Task Force/BEAD 施压)。依据:Senate Commerce 99-1 公告、白宫 EO《Ensuring a National Policy Framework for AI》原文(WebSearch 核实)。
- 2026-06-11 P3.4 校链:§9/§10 死链
0416 失败(3 处)改为别名链 失败考古学(0416 失败考古学专题已入库)。