R03 AI 制度问责机制设计
如果一家 AI 公司事实上行使着准立法(写宪法/Model Spec)、准行政(内容审核与封号)、准司法(申诉裁定)三权,那么作为 Safety/Policy PM,你能给它装上哪些可工作的问责机制——而不是给它装上一套看起来很美、实则被设计来被架空的合规装饰?这一节不讲”AI 应该负责任”这种正确的废话,而是给出一套可落地的问责四件套模板(透明 / 申诉 / 独立审查 / 退出权),逐件标注它的工程实现、合法性来源、以及——这是命门——它最常见的被架空方式。本节的视角框架是制度设计(institutional design)而非技术合规(technical compliance):问责不是一个 feature checklist,而是一套权力分立的博弈结构;设计得好不好,看的不是它”承诺了什么”,而是它”在设计者自己想违背承诺时还能不能咬住设计者”。
§0 为什么是”制度设计”框架,而不是”合规清单”框架
读到”AI 问责”,PM 脑中默认弹出的框架往往是合规清单:透明度报告发了没?申诉入口建了没?审计做了没?这个框架的致命缺陷是——它把问责当成被治理者的自我承诺,而问责的本质恰恰是约束被治理者。一个由 AI 公司自己写、自己执行、自己评估的”问责清单”,在逻辑上消除了问责的可能性(这一点 Birhane 等 2026 在 FAccT 的监管俘获分类法、Wachter 在 Yale JOLT 26:3 对 EU AI Act”过度依赖自我认证”的批评,都给出了系统证据)。
正确的框架是制度设计:把问责理解成 O’Donnell(1994,Journal of Democracy 5:1)区分的两种问责的工程化——
- 纵向问责(vertical accountability):被治理者对”上层”(用户、市场、股东)负责,靠用户用脚投票、App Store 评分、舆论。这种问责 AI 公司天然就有,也天然不够——因为用户处于信息劣势(Pasquale 的”黑箱社会”),无法判断自己被怎么对待了。
- 横向问责(horizontal accountability):被治理者对”平级”的独立机构(独立审查委员会、外部审计师、法院、监管者)负责。这种问责才是 AI 治理结构性缺失的部分——而问责机制设计的全部难点,就在于如何凭空造出横向问责。
[!note] 框架级判断 一个问责机制是真是假,唯一的试金石是它有没有横向问责的牙齿:当 AI 公司自己想违背承诺时,是否存在一个它无法单方面解散、无法单方面断粮、无法单方面改写规则的力量能拦住它。所有”被架空”的故事,本质都是横向问责被还原成了纵向问责(“我们对用户负责”)或自我问责(“我们内部有 review”)。
所以本节的四件套,不是按”功能”排列,而是按它们各自补哪一种问责、以及横向问责被抽掉时它如何坍缩来组织。
§1 问责四件套模板(总表)
这是本节点的核心交付物。把它当成一张设计 checklist + 反架空 checklist 的合订本——左边是”装什么”,右边是”它会怎么被卸掉”。
| 机制 | 补哪种问责 | 最小实现 | 合法性来源 | 真实参照 | 被架空的典型方式 |
|---|---|---|---|---|---|
| ① 透明(Transparency) | 纵向(缩小信息差) | 定期透明度报告 + 决策说明 + 可审计的规则文本 | 用户知情权;DSA 强制透明度义务 | EU DSA 透明度数据库(2024.2 全面适用);Anthropic/OpenAI 公布的 constitution/Model Spec | ”透明度剧场”:报告海量但无关键数据;公布原则却不公布执行 |
| ② 申诉(Appeal/Redress) | 纵向→横向过渡 | 个案申诉入口 + 说理义务 + 复审通道 | 正当程序(due process) | Meta 用户申诉流;DSA 的法外争议解决机制 | 申诉黑洞:自动驳回、无说理、复审仍由原决策方做 |
| ③ 独立审查(Independent Review) | 横向(核心) | 外部委员会 + 独立审计接触权 + 建议的约束力 | 准司法/准宪政;新治理学派的审计工具 | Meta Oversight Board(2020.5);arXiv:2605.24229 把 spec 拆成可审计原子命题 | 经费依附 + 建议无强制力 + 接触权被限:Meta 拟 2028 后断粮 Oversight Board |
| ④ 退出权(Right to Exit) | 横向(结构性制衡) | 数据可携 + 互操作 + 反锁定 | 反垄断;Zittrain 的”生成性”开放 | GDPR 数据可携权;DMA 互操作义务 | 退出成本人为抬高:数据可导出但不可用,生态锁定使”退出”名存实亡 |
下面逐件拆。每件都给模板(怎么装)+ 命门(怎么被卸)。
§2 ① 透明:把黑箱变成可审计文本——以及”透明度剧场”陷阱
模板(怎么装):透明不是”发个报告”,而是三层递进——
- 规则透明:把治理规则做成可审计的明文,而非埋在模型权重里的隐性规范。Anthropic 公布 Claude 的 constitution、OpenAI 公布 Model Spec,是正确方向;学术上 arXiv:2605.24229《How Well Do Models Follow Their Constitutions?》(Jakkli/Rajamanoharan/Nanda, 2026-05-22,ID 已核实(2026-06-12))已经把这些 spec 文件拆解成可审计的原子命题(据称 Anthropic 205 条、OpenAI 197 条〔具体条数待核实〕),这是”私人规则转化为可问责公共标准”的早期工程范式。
- 过程透明:决策的说明义务(reason-giving)。DSA 要求平台对每条内容审核决定给出说理,并汇入欧盟委员会的公开透明度数据库——这把 Klonick(2018,Harvard Law Review 131)描述的”私人立法”拽进了公共可见性。
- 结果透明:定期透明度报告(下架量、自动化审核准确率、申诉成功率)。DSA 强制所有非微小平台至少年度披露。
命门(怎么被卸)——透明度剧场(transparency theater):
- 症状:报告越来越厚,关键数字越来越少。发布”我们处理了 5000 万条内容”,却不发”其中误判率多少、申诉改判率多少”。
- 为什么会错:透明的设计目标被偷换——从”让外部能监督”偷换成”让外部觉得被监督了”。披露量 ≠ 披露质。
- 正确做法:透明度的验收标准不是”发了多少”,而是”外部第三方能否凭它复算出治理质量”。要求披露的是可证伪的指标(误判率、申诉改判率、各人群的差别对待率),而非流量数字。
- 真实反例:Meta 2025 年 1 月用 Community Notes 替换美国区专业事实核查后,上线首六个月仅产出约 900 条已发布笔记,同期欧盟专业事实核查员标记约 3500 万条内容(来源:TechPolicy Press;Nieman Lab 2026)——“我们有众包透明机制”的承诺,在数量级上是空的。透明的形式在,治理的实质不在。
§3 ② 申诉:正当程序的工程化——以及”申诉黑洞”
模板(怎么装):申诉是把”用户对平台”的纵向关系,注入正当程序使其开始具备横向性。Bloch-Wehba(2019,SMU Law Review 72)指出行政法四原则(透明、参与、说理、复审)在平台治理中严重缺失——申诉机制就是补这四项的最小载体:
- 可达的入口:每个被治理决定(封号、限流、下架)都附带申诉路径,而非埋三层菜单。
- 说理义务:驳回也要给理由,且理由要对应到具体规则条款(呼应 §2 的规则透明)。
- 独立复审:复审者不能是原决策者——这是申诉从”自我问责”升级为”准横向问责”的关键一跳。
- 时限与救济:有明确时限、有恢复原状的救济。
命门(怎么被卸)——申诉黑洞:
- 症状:申诉入口存在,但 99% 自动驳回、无说理、复审仍由原算法/原团队做。
- 为什么会错:申诉若不切断”原决策者 = 复审者”,它就只是把自我问责包装成了申诉。Douek(2022,Harvard Law Review 136)的洞见正在此——内容审核的关键决策发生在事前制度设计层(规则怎么写、阈值怎么定),事后逐案申诉只是”司法判决”幻觉,真正的权力在事前,申诉够不着。
- 正确做法:申诉设计要双管齐下——事后保证复审独立 + 说理可对账;事前把高频申诉模式反馈进规则修订(申诉数据是规则缺陷的探针,不是客服 KPI)。
- 真实反例:Meta Oversight Board 在 Trump 停权案(2021)中裁定 Meta”施加了无限期且无标准的处罚”——即 Meta 的原始决定连说理和时限都没有,是 Board 这个外部机构倒逼它补正当程序。这恰好说明:没有横向力量介入,纵向申诉天然会退化成黑洞。
§4 ③ 独立审查:横向问责的核心——以及”经费依附 + 建议无牙”
这是四件套里最难造、最值钱、也最容易被精致地架空的一件。它是凭空制造横向问责的核心工程。
模板(怎么装):一个真正的独立审查机制需要三个不可或缺的支柱,缺一即坍缩为装饰——
- 结构独立:审查机构的成员任免、议程设置,被审查方不能单方面控制。
- 接触权(access):审查方有权接触被审查方的内部数据、训练过程、决策日志。Priyanshu/Maurya/Hong(2024,arXiv:2407.01557)的核心发现是:目前无外部机构可核实 Claude 行为是否符合宪法目标,无独立审计机制接触训练过程——没有接触权,审查就是隔墙猜谜。
- 约束力(teeth):审查结论对被审查方有强制力,而非”建议”。
命门(怎么被卸)——这件套有三种经典卸法,且常常组合出现:
- 卸法一:经费依附。 审查机构的钱由被审查方出。症状是机构存在、决定漂亮,但财政命脉攥在对方手里。真实反例:Meta 于 2026 年通知 Oversight Board 成员,可能在 2028 年后停止资助并已削减当前预算(来源:TechBrew 2026.4)。一个可以被随时断粮的”独立”委员会,其独立性是租来的。
- 卸法二:建议无牙。 被审查方保留对政策的最终解释权,审查结论只是”建议”。真实反例:在 Oversight Board 就 Trump 案提出的 19 条政策建议中,Meta 承诺完全执行 15 条(约 79%)、部分执行 1、仍在评估 2、不采取进一步行动 1(来源:Meta Transparency Center / about.fb.com 2021.6)——采纳率高,但采纳与否的决定权始终在 Meta,且建议本身明确”非约束性”。Klonick 本人给 Board 的综合评分是”勉强及格(C)”。
- 卸法三:接触权阉割。 审查方只能看被审查方愿意给的东西。Birhane 等(2026)的监管俘获分类法显示,“政府/外部缺乏计算资源和技术专长独立评估专有模型”是结构性的——没有接触权,审查机构连”看不看得懂”都成问题。
[!note] 设计判断:独立审查的”三支柱测试” 给任何一个号称”独立”的 AI 审查机制做体检,问三句话:钱谁出?数据谁给?结论谁拍板? 三个答案里只要有一个是”被审查方自己”,这个机制就已经被架空——只是架空得早晚、明显与否而已。Meta Oversight Board 三个问题的答案分别是:Meta 出钱、Meta 给(有限)数据、Meta 拍板——所以它在五年后被 Klonick 评为 C,并非偶然。
§5 ④ 退出权:用结构制衡补充程序问责——以及”锁定即软牢笼”
前三件都是程序性问责(透明、申诉、审查都假设”用户/社会留在系统内”再争取权利)。退出权是唯一的结构性问责:它给被治理者制造一个”如果你治理得太烂,我可以走”的真实威胁,从而在不打官司、不开听证会的情况下约束权力。
模板(怎么装):退出权 = 让”退出”在技术和经济上真的可行:
- 数据可携(portability):用户能把自己的数据以可用格式导出(GDPR 数据可携权的工程化)。
- 互操作(interoperability):竞品/第三方能接入,使迁移不必从零开始(DMA 对网守平台的互操作义务)。
- 反锁定(anti-lock-in):不通过专有格式、生态绑定、数据不可用人为抬高退出成本。
退出权的思想根在 Zittrain(2008,The Future of the Internet)的”生成性 vs 应用化”——封闭专有系统消灭无许可创新,退出权就是对抗”应用化”的制度装置。它也是对秦制式集权诊断(0622 秦晖:编户齐民、大共同体消灭小共同体自治)的正面解药:退出权就是给”小共同体”(用户社群、第三方开发者、竞品生态)保留不被大平台直接编户齐民的逃逸空间。
命门(怎么被卸)——锁定即软牢笼:
- 症状:数据”可以导出”,但导出的是无法在别处使用的死格式;API、生态、网络效应使”走得了”变成”走不了”。
- 为什么会错:退出权的实质不是”导出按钮存在”,而是”退出成本足够低,以至于退出威胁可信”。Varoufakis(2023,Technofeudalism)称之为”云租金”——平台像数字领主一样靠依附性收租;即便 Morozov(NLR 2022)正确反驳了”封建主义”标签夸张,平台依附性(lock-in)作为现象本身是真实的、各方都承认的。
- 正确做法:退出权的验收标准是”迁移到竞品后能恢复多少效用”,而不是”导出了多少字节”。要测的是端到端的可迁移性,不是导出 API 的存在性。
- 真实反例:当 Meta 把第三方事实核查换成 Community Notes 时,用户/事实核查机构理论上”可以不用 Meta”,但社交图谱锁定使退出在现实中不可行——结构性退出权的缺失,正是 Meta 能单方面改写治理规则而几乎无成本的根因。
§6 判断主轴:问责机制设计中 90% 的人会搞错的四个点
这一节是本节点的命门——把四件套从”知道”升级为”会装且防得住被卸”。
错点一:把”自我承诺”当”问责”。
- 症状:PM 把”我们发布了 Responsible Scaling Policy / Constitutional AI / 透明度报告”当成已经实现了问责。
- 为什么会错:自我承诺补的是纵向问责(对外表态),完全没碰横向问责(外部能否拦住你)。ailabwatch 对 RSP 的总结一针见血:它本质是”承诺备忘录(promissory note)“而非政策;Campos(2023)指出 RSP 把举证责任”做反了”——高危行业惯例是”不证明安全不得上市”,RSP 却默认放行直到触发阈值。
- 正确做法:审视任何 AI 问责机制时,先问”横向问责在哪”。没有独立审查的牙齿,其余都是承诺。
- 真实反例:白宫 2023 自愿承诺、Seoul 2024 Frontier Safety Commitments——签署方众多,无一具备法律强制力,竞争压力下随时可被重新解释阈值(ailabwatch、Chatham House 2026)。
错点二:四件套各自为政,忘了它们必须互锁。
- 症状:透明、申诉、审查、退出各建一个,但彼此不咬合。
- 为什么会错:四件套是一条链:透明(规则可见)→ 申诉(个案救济)→ 独立审查(系统性纠偏)→ 退出权(终极威慑)。缺任一环,前面的就漏底。没有透明,申诉无从说理;没有独立审查,申诉退化成黑洞;没有退出权,审查的建议可以被无成本拒绝(反正用户走不了)。
- 正确做法:把四件套当成权力分立的整体设计,而非四个独立 feature。验收时测的是”链条的最弱环”。
错点三:误以为”国家监管”能替代”机制设计”,于是 PM 自己什么都不用做。
- 症状:把问责外包给”等 EU AI Act/DSA 来管”。
- 为什么会错:(a) 监管有强烈的执行赤字——Wachter 指出 EU AI Act”执法和调查机制软弱、宽泛豁免”;AI Office 据称需三倍人力才够执法〔待核实〕。(b) 监管可被俘获——Birhane 等(2026)在 100 篇报道中识别 249 项俘获实例,“旋转门”出现在 24% 的高知名度案例。(c) 监管会被政治逆转——美国 EO 14148(2025-01-20)撤销了拜登 EO 14110 的多项 AI 安全/透明要求(EO 14179(2025-01-23)为其后去监管纲领)。
- 正确做法:内部机制设计与外部监管是互补而非替代。PM 能控的是产品内的问责架构;监管是兜底,但你不能赌它兜得住。
错点四:以为”装上了”就”咬得住”,忽视机制的历时性退化。
- 症状:上线时机制完整,运行两年后被悄悄掏空。
- 为什么会错:自愿/软性机制有历时性脆弱——竞争一加剧,无约束力的标准系统性退化(Campos;ailabwatch 的跨行业观察)。问责机制不是”装一次”,是”持续抵抗被卸”。
- 正确做法:给每个机制设反退化设计——经费独立于被审查方(防卸法一)、建议有自动生效条款或外部强制力(防卸法二)、接触权写进不可单方修改的章程(防卸法三)。
§7 产品 PM 视角补盲:工程之外的三个看走眼点
跳出”把问责当架构 feature”的工程 PM 视角,补三个 Safety/Policy PM 必踩的非工程坑:
- 用户心理模型:用户并不想要”完整的问责程序”,用户想要”我的问题被公平解决了”的体感。一个说理清晰、24 小时响应的轻量申诉,体感上胜过一个程序完备但走流程要 30 天的”准司法”系统。问责机制的合法性一半来自实质公正,一半来自被感知的公正(perceived fairness)——这正是 Meta Oversight Board 被国际机构正面引用(程序范例)却被 Klonick 评 C(实质有限)的张力所在。
- 商业模式冲突:问责机制几乎总是和增长/留存/成本短期对立——退出权直接削弱锁定(核心护城河),独立审查直接增加成本和”被否决”风险。所以问责机制的真正考验不在顺境,而在它和商业 KPI 正面冲突时谁让步。这是为什么”经费依附”是最阴险的卸法:它不需要明着违背承诺,只要在预算会上悄悄缩编即可。
- 合规边界与跨域差异:同一套问责机制在不同法域有不同合法性。DSA 区域强制透明,美国第一修正案学派则可能视”强制公法化”为言论管控(ITIF 2025 的”跨大西洋裂缝”论)。Policy PM 不能设计一套全球统一的问责模板,而要设计可按法域参数化的问责架构。
§8 对手框架回应:接受反方,标注边界
对手一:美国第一修正案学派(如 Knight First Amendment Institute, Armijo 2018)——“强加公法式问责 = 言论管控”。
- 接受:他们对的部分是,强制 AI 公司公法化其治理,确实有让国家通过监管间接控制言论的风险(Balkin 的”附带审查”/collateral censorship 正是此理)。问责机制若被国家俘获,会从”约束平台”变成”国家借平台之手审查”。
- 边界与赌注:但本节点赌的是——机制设计的重心放在独立审查与退出权(横向、去国家中心),而非单纯加码国家监管,恰恰能绕开这个陷阱。独立委员会、数据可携、互操作,都是不增加国家直接控制权的横向问责。我赌:在”纯自我监管”和”纯国家监管”之间,存在一个以独立第三方为支点的中间制度空间,这正是 Celeste(2019)“数字宪政主义”和新治理学派(Douek)指向的方向。
对手二:Morozov(NLR 2022)——“别用’封建/主权’的夸张框架,当前就是彻底的资本主义”。
- 接受:他对的部分是,把 AI 公司浪漫化为”数字领主/准主权者”会夸大其特殊性,掩盖它本质是资本主义企业(Alphabet 年均 R&D 投入 160–275 亿美元,不是”懒惰食租者”)。问责设计不必预设 AI 公司是新物种。
- 边界与赌注:但我赌——无论叫它”准主权”还是”资本主义巨头”,它事实上集三权于一身、且横向问责缺失,这个制度现象本身是真的(Klonick、Douek、Bloch-Wehba 三篇法学顶刊独立确证)。框架之争不影响”需要给它装横向问责”这个工程结论。我用”准主权”只是分析隐喻,落地时锚定的是可验证的三权集中事实。
对手三:渐进监管派(Schuett 等 2024,arXiv:2407.07300)——“原则导向、让开发者先创新,逐步规则化”。
- 接受:他们对的部分是,AI 演进太快,过早硬规则会僵化、且开发者目前最懂安全方案。原则先行有灵活性优势。
- 边界与赌注:但我赌——“渐进”在竞争激烈期会系统性地停在”原则”阶段不往”规则”走,因为每一方都有激励放松(ailabwatch 对 Google DeepMind Frontier Safety Framework”尚未将安全措施与风险评估挂钩”的批评是实证)。所以四件套里我把**独立审查的”约束力”和退出权的”反锁定”**设为不可妥协项——它们正是防止”渐进”无限期停在软承诺的棘轮。
§9 跨域呼应:施密特的”例外状态”与问责机制的根本脆弱性
调度一个 Rick 未必常用的对手框架——Carl Schmitt 的主权/例外状态理论(《政治神学》1922/1934)——来逼问本节点自己的盲点。
施密特的命题是:“主权者是决定例外状态的人”(Souverän ist, wer über den Ausnahmezustand entscheidet)。法律不能自我执行,总有一个先于法律的意志在裁定”何时法律暂停适用”。把这个框架对准 AI 问责机制,得到一个令人不安的诊断:我设计的全部四件套,都是”常态”下的问责程序;而 AI 公司真正的权力,在于它能单方面宣布”例外状态”——以”安全紧急""前沿风险""平台完整性”为名,暂停一切问责程序。
Niu(2026,arXiv:2602.18474)的”chancellor trap”进一步指出:算法治理中,名义主权(auctoritas,CEO/董事会)与实际治理能力(potestas,算法系统)分离——更可怕的是,算法把”例外”自动处理成”常态”,使主权者对例外的识别能力本身被剥蚀。这意味着:内容被自动封禁、账号被批量限流,这些本是”例外”的权力行使,被算法常规化到无人需要、也无人能够”宣布”它们——问责机制根本来不及触发。
[!note] 这个框架改变了什么判断 它让我意识到四件套有一个共同盲区:它们都假设”被治理决定”是离散的、可识别的事件(一次封号、一次下架),从而可被透明、可被申诉、可被审查。但算法治理的真正权力是连续的、概率性的、不可定位的(Rouvroy & Berns 2013 的”算法治理术”:直接作用于行为概率,绕过主体化)。一个被推荐算法系统性降权的创作者,没有一个可申诉的”决定”,因为根本没有一次性的”决定”——只有概率分布的悄然偏移。所以四件套必须补第五维:对”无事件的系统性偏移”的问责(差别对待审计、算法影响评估),否则问责机制管得住”例外的宣布”,管不住”例外的常态化弥散”。这是本节点承认的核心边界。
§10 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试(Safety/Policy/T&S PM 高区分度):当被问”你会怎么给我们的 AI 产品设计问责机制”——不要背 feature 清单。先抛框架:“问责的命门是横向问责,我会用四件套,但每件我都会先告诉你它最常见的被架空方式。“然后用”三支柱测试”(钱谁出/数据谁给/结论谁拍板)现场体检对方现有机制。这一下就把你和”答透明度报告”的候选人区分开。
- 选型(评估第三方 AI 供应商/平台的治理可信度):用 §1 总表当 due diligence checklist。重点不是看供应商”承诺了什么”,而是逐项打分”它的横向问责有没有牙齿”——独立审查能否接触模型、退出时数据能否真的迁移、申诉复审是否独立。
- 复现(自己产品落地):把四件套按 §6 错点四的”反退化设计”装上去——经费独立、建议有自动生效条款、接触权写进不可单方修改的章程、退出权按端到端可迁移验收。再补 §9 的第五维(系统性偏移审计)。最小可运行版:透明度报告 + 独立复审的申诉 + 一个有接触权的外部顾问组 + GDPR 式数据可携。进阶版:准司法的外部委员会(学 Oversight Board 但修掉它的三个卸法)。
§11 与已有节点的关系
- 对照 A06(本专题 01 概念辨析模块”AI 公司作为准主权行为体”节点):A06 做的是诊断——论证 AI 公司事实上行使三权、构成准主权。本节点是处方——既然它是准主权,就得给它装权力分立。两者是”病理 → 治疗”的依赖关系,本节点不复述 A06 对”准主权”的论证基础,直接承接其结论。
- 对照 失败考古学(0416 失败维度专题):0416 讲 AI 制度怎么失败/走样,本节点讲怎么用问责机制兜住失败。关系是”对话/深化”——本节点 §2–§5 的”被架空方式”其实是 0416 失败模式的机制级反演:每一种问责被架空,对应 0416 描述的一类制度走样。本节点不复述 0416 的失败案例,而是把它们重新组织成”防御 checklist”。
- 对照 Constitutional AI(既有 0401 节点):CAI 是 AI 公司自我问责(自写宪法、自我批评的 RLAIF)的最典型实例。本节点对它做纠偏——指出自我问责无法替代横向问责(Orozco y Villa & Menendez 2025 的”规范过薄”、Abiri 2024 的”民主合法性缺陷”),CAI 是四件套里”规则透明”这一项的样本,但不是问责的全部。不复述 CAI 的机制细节。
- 对照 AI 公司政治敏感内容立场对比(既有 04AI 根级节点):那篇是横向对比各公司立场,本节点提供评估那些立场是否”可问责”的框架。
§12 关联节点
核心(必读)
- A06(本专题:准主权诊断,本节点的前提)
- 失败考古学(0416 跨专题:失败维度,本节点的镜像)
- Constitutional AI(自我问责的典型样本与其局限)
- AI 公司政治敏感内容立场对比(立场对比,需用本框架评估其可问责性)
- 0622 秦晖(编户齐民/大共同体吞噬小共同体 ↔ 退出权作为保留逃逸空间的解药)
- 奥唐奈(纵向 vs 横向问责的理论原点)
延伸(可选)
- 0116政治哲学(问责 = 权力分立的工程化,思想总入口)
- 福柯(算法治理术:对”无事件的系统性偏移”为何难以问责)
- 霸权(话语俘获先于制度俘获,监管为何被掏空)
- Anthropic(Long-Term Benefit Trust 作为准公益托管的问责实验)
- OpenAI(Model Spec 作为规则透明样本)
- Agent(Agent 自主决策时问责链如何延长/断裂)
- p305 - 信任架构与可解释性设计(透明的工程实现层)
- c14 - 模型评估体系与 Goodhart 陷阱(透明度指标本身会被 Goodhart 化——“透明度剧场”的认识论根)
§13 修订日志
- R1(2026-06-07)首稿:建立问责四件套模板(透明/申诉/独立审查/退出权),每件配”模板 + 被架空方式”双栏;以 O’Donnell 纵向/横向问责为骨架;用 Meta Oversight Board(经费 2028 断粮、Klonick 评 C、19 条建议采纳结构)作为”独立审查被精致架空”的核心实证;链 A06(诊断→处方)、0416(失败→防御镜像);§9 用施密特例外状态 + Niu chancellor trap + Rouvroy 算法治理术,逼出”四件套管不住例外常态化弥散”的核心边界,补第五维。结尾落在”问责机制易被架空”。
- R1 grounding(2026-06-07):已 WebSearch 核实 arXiv:2407.01557(Priyanshu/Maurya/Hong,“AI Governance and Accountability: An Analysis of Anthropic’s Claude”,2024.5,确证);Meta 19 条建议分布”完全执行 15 / 部分 1 / 评估中 2 / 不执行 1”经 Meta Transparency Center 一手确证(原表述”搁置 2、明确拒绝 1”修正为”评估中 2、不执行 1”)。
- 〔待核实项〕:arXiv:2605.24229 spec 原子命题的具体条数(Anthropic 205 / OpenAI 197;其 ID 已于 2026-06-12 WebFetch 核实,仅条数为非 arXiv 数字待核);AI Office 需三倍人力的具体来源(已在正文标〔待核实〕,非 arXiv)。
- 2026-06-12 内审·arXiv 联网核实:清 1 个 ID-level〔待核实〕——§透明模板处 arXiv:2605.24229《How Well Do Models Follow Their Constitutions?》(Jakkli/Rajamanoharan/Nanda, 2026-05-22)经 WebFetch 确证存在且引述吻合,正文补全标题/作者并标 ID 已核实。存疑 0 个;205/197 条数与 AI Office 人力来源为非 arXiv 项,本轮不动。
- 2026-06-11 P3.4 校链:§11/§12 死链
0416失败(2 处)改为别名链 失败考古学,并把误标的”本专题”订正为”0416 跨专题”(0416 失败考古学专题已入库)。