R02 设计 Verification 而非 Rubber-stamp 的审阅流
如何设计一个能逼出真验证、堵死橡皮图章的 AI 输出审阅流?本节点解决的问题不是”要不要人审”(合规答案永远是”要”),而是”放进去的人,认识论上到底是在 verify 还是在 rubber-stamp”。框架名:审阅流的认识论可靠性设计——把”人在回路”从一个组织结构问题,重写成一个 Goldman 式过程可靠主义问题:审阅者输出的”通过”判断,是否由一个可靠的认知过程产生。
§0 为什么是”过程可靠主义”而不是”流程合规”框架
绝大多数 AI 治理文档(EU AI Act〔2024-08-01 正式生效;高风险系统义务自 2026-08-02 适用〕的 effective human oversight、企业内部的”双人复核”SOP)默认的框架是流程合规:只要审阅这个动作发生了、有人点了”通过”、有审计日志,监督就成立。这个框架是错的——它把”过程存在”误当成”过程可靠”。
更换框架的理由来自一个反例:荷兰儿童福利金算法案与澳大利亚 Robodebt 案中,制度上都存在人在回路,审批环节齐全、日志完整,但认识论上监督已经空转——人的判断被系统激励、管理惯性、体制习惯共同边缘化(治理文献综述,2024–2025;arXiv:2512.13768 “Beyond Procedural Compliance” 即以此为靶)。流程合规的框架对这种失败完全失明,因为它只看动作发生没发生,不看动作背后的认知过程可靠不可靠。
正确的框架是 Goldman 过程可靠主义(Alvin Goldman, “What is Justified Belief?”, 1979;Epistemology and Cognition, 1986):一个信念有认识论正当性,当且仅当它由一个可靠的(在相关条件下倾向于产生真信念的)认知过程产生。把它套到审阅流:审阅者的”通过”判断要有正当性,必须由一个可靠的评估过程产生——而不是由”对 AI 输出的被动信任转移”产生。Andrea Ferrario(“Justifying Our Credences in the Trustworthiness of AI Systems: A Reliabilistic Approach”, Science and Engineering Ethics, 2024)把这一步形式化:对 AI 可信度的置信度有正当性,当且仅当它由一个可靠的评估过程产生,“可靠”= 审阅者的 credence 高比例地与 AI 实际可信度校准。
这就是 verification 与 rubber-stamping 的认识论分水岭:
| Verification(真验证) | Rubber-stamping(橡皮图章) | |
|---|---|---|
| 信念来源 | 审阅者自身可靠的评估过程 | 被动转移自 AI 输出 |
| Goldman 语言 | 由可靠过程产生的有正当性信念 | 无正当性的信念(过程不可靠) |
| 失败模式 | 技术性错误(可定位、可纠正) | 自满 + 自动化偏差(系统性、难纠正) |
| 审计日志看到的 | ”通过" | "通过”(两者完全相同) |
最后一行是整个设计的命门:橡皮图章和真验证在日志里长得一模一样。 所以审阅流不能靠”记录有没有审”来保证质量,必须靠机制设计逼出可靠过程。下面给的就是这套机制和模板。
§1 三个把人推向橡皮图章的结构性力量(设计要对抗的对象)
设计审阅流之前先认清敌人。把审阅者推向 rubber-stamp 的不是懒,是三个有实证支撑的结构性力量:
-
自动化自满(automation complacency)——多任务负荷下,因系统高可靠的历史记录导致对其监视注意力持续下降(Parasuraman & Manzey, “Complacency and Bias in Human Use of Automation”, Human Factors 52(3), 2010)。关键发现:自满在专家与新手身上都出现,且训练与指导不足以克服。这对所有”加强培训”式的治理方案是当头一棒。
-
自动化偏差(automation bias)——过度遵循系统建议,分两类错误:遗漏错误(未察觉系统失效)与委托错误(执行了不该执行的建议)(同上)。
-
验证瓶颈(verification bottleneck)——Huemmer et al.(“AI, Metacognition, and the Verification Bottleneck”, arXiv:2601.17055, 2026)的三波纵向研究给出最新实证:困难任务上 AI 依赖率 73.9%,对 AI 输出的验证置信度反而下降 68.1%(恰在最该验证之处),实际准确率仅 47.8%,信念-表现差距扩大到 34.6 个百分点。核心结论:“verification, not solution generation, became the bottleneck”——生成不是瓶颈,验证才是。 〔边界:该研究样本限于学术早期采用者,无控制组,含自我报告偏差;趋势方向可信,但 34.6pp 这一具体数字应谨慎引用。〕
这三个力量合起来意味着:审阅流的默认演化方向就是退化成橡皮图章。 不施加反向机制,熵增必然把它拉过去。Lisanne Bainbridge 的”自动化的反讽”(“Ironies of Automation”, Automatica, 1983)早已点破结构根源:自动化程度越高,要求人的判断力越强,而人实际练习判断的机会越少,技能因不用而退化。审阅 AI 报告是这个反讽的当代极端形态。
§2 四道机制闸门(把”通过”重新接到可靠过程上)
针对 §1 的三个力量,设计四道可落地的机制闸门。每道闸门的认识论目标都是切断”被动信任转移”这条捷径,强制审阅者自己跑一遍可靠过程。
闸门一:强制溯源核对(断”信任转移”)
不允许只看 AI 的结论和摘要。审阅流必须强制审阅者对关键主张逐条点开溯源链接、核对原文。机制实现:
- 把”通过”按钮的前置条件设为”每条 claim 的 citation 已被点开且标记 verified/disputed/unverifiable”——未处理的 claim 阻塞提交。
- citation 不能是 AI 自己生成的 plausible-looking 链接(这正是 c13 - 幻觉的不可消除性 里”引用幻觉”这一类的产物);溯源链接必须可解析、可回溯到一手源。
- 对照设计原理:Durán & Formanek 的计算可靠主义(“Grounds for Trust: Essential Epistemic Opacity and Computational Reliabilism”, arXiv:1904.01052, 2019)指出,输出可被信任不要求完全透明,但要求四类可靠性依据之一——verification & validation 程序。强制溯源核对就是把这条依据嵌进审阅动作本身。
闸门二:抽检 + 红队种子错误(断”自满”)
历史可靠记录越好,注意力越涣散(§1 力量 1)。对抗手段是让审阅者无法假设输出是对的:
- 盲抽检:每批 AI 输出随机抽 N% 做全量深度核对,审阅者不知道哪条会被抽。
- 种子错误(seeded errors / honeypot):在送审材料里按已知比例植入预先标记的错误,统计审阅者的捕获率。捕获率就是这个审阅流的”可靠性”直接度量——它把抽象的”过程可靠不可靠”变成一个可监控的数字。捕获率掉到阈值以下 = 审阅流正在退化成橡皮图章,触发干预。
- 认识论依据:这是把 Ferrario(2024)的”校准”操作化——审阅者的 credence 是否 track AI 的实际正确率,只能靠”在已知答案上测捕获率”来检验,光看通过率永远测不出来。
闸门三:异议成本对称化(断”委托错误”)
橡皮图章之所以稳定,常因为说”通过”零成本、说”驳回”高成本(要写理由、要承担拖慢交付的责任、要和出活的人产生摩擦)。这种不对称会系统性地把人推向通过。设计上要把异议成本压到与通过成本对称甚至更低:
- 驳回/标记异议的操作做成一键 + 结构化模板(选错误类型 → 引用冲突证据),而非自由长文。
- 把”提出有效异议”计入绩效正向信号(捕获了种子错误、驳回后被证实确有问题),而不只是”按时通过了多少份”。
- 反例警示:若 KPI 只考核审阅吞吐量(每天过多少份),就是在用激励结构亲手制造橡皮图章——这正是 Robodebt / 福利金案里”管理惯性边缘化人的判断”的微观机制。
闸门四:分层触发 human-in-the-loop(把验证强度按风险分配)
不是所有输出都值得同等强度的验证——把稀缺的真验证注意力浪费在低风险输出上,会加速高风险处的自满。按 Polanyi 默会知识与提示工程的认识论张力 的洞察,组织最值钱的判断是默会的、进不了向量库的;审阅流要把人的默会判断力集中投放在 AI 最可能出错且后果最重的地方:
- 触发条件 = f(风险等级, 模型自报不确定性, 与已知事实冲突信号, 不可逆性)。
- 高触发:强制闸门一+二+三全开 + 双人独立复核(两人不得看到对方判断,避免锚定)。
- 低触发:抽检即可。
- ⚠️ 自报不确定性这个信号本身要打折:模型在最不确定时常输出最自信(c13 - 幻觉的不可消除性 的校准问题),所以不能只信模型的 confidence display,要叠加外部冲突信号。
§3 可直接套用的审阅流模板
把上面四道闸门压成一张可贴墙的清单(送审 → 通过/驳回 的强制路径):
[送审单] AI 输出 + 自报不确定性 + 全部 citation
│
├─ 0. 风险分层:算 f(风险,不确定性,冲突信号,不可逆性) → 触发等级
│
├─ 1. 溯源闸门:逐条 claim 点开 citation
│ 每条标记 {verified | disputed | unverifiable}
│ 存在 unverifiable/disputed 未处理 → 阻塞,不可提交
│
├─ 2. 抽检/种子闸门:本批是否命中盲抽?是→全量核对
│ 系统已植入 k 个种子错误 → 记录本次捕获 j 个
│
├─ 3. 异议闸门:发现问题→一键结构化驳回(选类型+贴冲突证据)
│ (驳回成本 ≤ 通过成本,绩效记正向)
│
├─ 4. 高触发追加:双人独立复核(互盲),分歧→升级
│
└─ [判定] 通过 / 驳回 / 升级
└─ 日志额外记录:每条 claim 的核对状态、种子捕获率、复核分歧
(⭐日志记"过程指标",不只记"结论"——否则无法事后区分真验证与橡皮图章)
模板的认识论自检三问(贴在审阅者视野里):
- 我此刻的”通过”判断,来源是我自己核对了证据,还是AI 看起来很确定?(断信任转移)
- 如果这条输出是错的,我刚才的动作能不能抓到?(捕获率自检)
- 我说”驳回”的成本,是不是高到让我倾向于不说?(异议对称性自检)
§4 判断主轴:90% 的人会在这五处把审阅流做成橡皮图章
| # | 症状 | 为什么会错 | 正确做法 | 真实反例 |
|---|---|---|---|---|
| 1 | 把”有人审了”当成”审到位了” | 流程合规框架的盲点:只看动作不看过程可靠性 | 用种子错误捕获率度量过程可靠性 | Robodebt / 荷兰福利金案:人在回路齐全,认识论监督空转 |
| 2 | 给审阅者看 AI 的摘要+confidence 分数 | 高 confidence display 反而增加过度依赖(“explainability theater”,Renieris et al., MIT SMR, 2025) | 强制看一手溯源,不是看模型自评 | 透明度悖论:更高透明度 → 用户误读为更高可靠性 → 校准变差 |
| 3 | 靠”加强培训/提高责任心”对抗自满 | Parasuraman & Manzey (2010):自满训练不足以克服 | 靠机制(盲抽检、互盲复核)改变激励结构 | 专家组同样表现自满,资历不免疫 |
| 4 | 只考核审阅吞吐量 | 异议成本 >> 通过成本,激励结构亲手造橡皮图章 | 异议成本对称化 + 有效异议计入绩效 | 任何按”日均过审份数”考核的审核团队 |
| 5 | 信任模型自报的不确定性来触发复核 | 模型最不确定时最自信(c13 - 幻觉的不可消除性 校准问题) | 自报不确定性打折,叠加外部冲突信号 | 引用幻觉:模型对杜撰的 citation 同样流畅自信 |
§5 产品 PM 视角补盲
工程视角只会问”审阅功能做了没”。产品 PM 要补三个看走眼点:
- 用户心理模型:审阅者会把”系统提供了 confidence 分数 / 解释”误读为”系统在帮我背书”,于是放松核对——可解释性界面如果设计不当,是在生产橡皮图章而非防止它。confidence display 要按”逼用户去核对”而不是”让用户安心”来设计。
- 商业模式张力:AI 审阅产品的卖点常是”提效”(少看、快过),而真验证天然是”减效”(多看、慢过)。如果定价和卖点都押在吞吐量提升上,产品激励就和认识论可靠性反向——这是 AI 审阅类 SaaS 的根本 GTM 陷阱。
- 合规边界:EU AI Act 要求 effective human oversight,但”effective”无法靠”有审批环节”满足(arXiv:2510.09090 / 2512.13768 均指出 procedural compliance ≠ epistemic effectiveness)。把”有效”翻译成”种子错误捕获率 ≥ X%“这类可审计的认识论指标,是合规产品的差异化机会。
§6 对手框架回应
-
接受:计算可靠主义(Durán & Formanek, 2019)对的一面——AI 输出不要求完全透明也可被合理信任,强制”完全可解释才能用”在工程上不现实,也会因信息过载反而降低审阅质量。边界:CR 自己承认它是认识论框架,不直接处理问责(accountability)归属;且”历史成功记录”这条可靠性依据在 distribution shift 下会失效(Durán et al., Minds and Machines, 2026 部分承认)。所以审阅流不能只靠”历史可靠就少审”——这恰恰喂养自满。我赌的是:用种子错误这类持续主动探测,而非历史记录,来维持过程可靠性。
-
接受:人机互补论者(Ferrario, Facchini & Durán, “Epistemology gives a Future to Complementarity”, arXiv:2601.09871, 2026)对的一面——人+AI 可以构成一个比单独人或单独 AI 更可靠的认识论过程。边界:互补性不是自动达成的,它要求审阅者的判断真的进入了过程;一旦退化成橡皮图章,“互补”就坍缩成”AI 单干 + 人盖章”。本节点的四道闸门正是互补性得以成立的前置条件。
〔failure scenario:若组织把本节点的种子错误机制本身当 KPI 优化——审阅者学会”只抓种子、对真实错误照旧放过”(Goodhart 定律的经典走样),则捕获率虚高而真实可靠性不变。对策:种子错误必须与真实错误在形态上不可区分,且定期更换形态。这是本框架自己的盲点。〕
§7 跨域呼应:维特根斯坦语言游戏的”判准”与橡皮图章
调度 0601 维特根斯坦 后期的”遵守规则”论题。维特根斯坦问:当你说”我遵守了规则”,凭什么算遵守了?他的回答是——遵守规则不是私人地内省核对,而是嵌在公共实践的判准(criteria)里。把这套搬到审阅流:“我验证了”不是审阅者的私人内心感受,而要有公共可检验的判准。 橡皮图章的本质,正是审阅者私下觉得”我看过了/差不多对”,却没有任何公共判准能区分这种”觉得验证了”和”真验证了”——两者在内心体验和审计日志里都一样。种子错误捕获率就是为”验证”这个词建立的公共判准:它让”我验证了”这句话有了可被第三方检验的真值条件,而不只是一句自我安慰的语言游戏内的合规话术。这也呼应 0114认识论 里可靠主义对”内心确信≠正当性”的核心区分——正当性在过程,不在感受。
§8 PM 决策启示
- 面试怎么用:被问”AI 产品怎么做人审”,不要答”加个审核环节”。答:“人审默认会退化成橡皮图章(Parasuraman & Manzey 2010 自满不可训练克服),所以我设计四道闸门——强制溯源、种子错误测捕获率、异议成本对称、按风险分层触发——并且日志记过程指标而非只记结论,因为真验证和橡皮图章在结论里长得一样。” 30 秒区分出”做过 AI 治理”和”听说过 AI 治理”。
- 选型怎么用:评估 AI 审阅/human-in-the-loop 工具时,别看它有没有审批流(人人都有),看它能不能度量审阅者的捕获率、confidence display 是”逼核对”还是”给安心”、异议成本是否对称。
- 复现怎么用:自己搭审阅 pipeline,第一件事不是写审批界面,是先植入种子错误并建捕获率看板——没有这个度量,你永远不知道你的”人在回路”是不是在空转。
§9 与已有节点的关系
- 对照 0418 审阅瓶颈系统化专题:0418 在产品机制层论证”审阅注意力是 AI 时代真正的瓶颈”、定位注意力经济的反转。本节点做对话+深化:把 0418 的”瓶颈”问题往下钻一层到认识论层——瓶颈不只是注意力稀缺,更是”被动信任转移”这条认知捷径让审阅在动作上发生、在过程上空转。0418 问”注意力够不够分”,本节点问”分过去的注意力是不是接到了可靠过程上”。不复述 0418 的瓶颈论证基础。
- 对照 0427 知识系统专题:0427 在知识产品设计层处理”组织默会判断进不了向量库”的 L1 覆盖率天花板。本节点把这一洞察用在闸门四的”把人的默会判断集中投放在高风险处”。
- 对照 c13 - 幻觉的不可消除性:c13 论证幻觉架构性不可消除、四级应对。本节点做纠偏式深化——既然幻觉不可消除(尤其引用幻觉 + 校准失败),审阅流的设计前提就不能是”抓出所有错”,而是”用可靠过程把漏网率压到契约可接受范围”,并显式承认这是按永久失败模式设计。不复述 c13 的五分类与架构成因。
§10 关联节点
核心(必读):
- c13 - 幻觉的不可消除性 —— 审阅流要对抗的对象(引用幻觉、校准失败)
- Polanyi 默会知识与提示工程的认识论张力 —— 闸门四”默会判断集中投放”的依据
- 0114认识论 —— 可靠主义 / 正当性在过程不在感受
- 0601 维特根斯坦 —— “验证”需要公共判准(§7)
延伸(可选):
- 幻觉 —— 幻觉概念基础
- RAG —— 溯源核对依赖的检索增强生成
- Agent —— 自主 Agent 输出的审阅是本节点的高触发场景
- 本专题同级:R01(最小可运行的认识论体检)、R03(confidence display 与 citation 系统设计)〔待本专题落定后补全名链接〕
待建概念清单(本专题登记,绝不在主库建 stub)
计算可靠主义 Computational Reliabilism(Durán & Formanek 2019)—— 主库暂无节点,文中以普通文本+来源线索处理自动化自满 Automation Complacency(Parasuraman & Manzey 2010)—— 同上验证瓶颈 Verification Bottleneck(Huemmer et al. 2026)—— 同上适当依赖 Appropriate Reliance / 信任校准 Calibrated Trust(Lee & See 2004)—— 同上Alvin Goldman(过程可靠主义)—— 主库06人/无独立人物卡,0114认识论 内有「社会认识论」前向链概念条目(无独立节点);如需引用走该母节点,不建死链
修订日志
- R1(2026-06-07):初稿。建立”过程可靠主义”框架替代”流程合规”;四道机制闸门(溯源/抽检+种子/异议对称/分层触发)+ 可贴墙模板 + 五处判断主轴 + 与 0418 升级对照 + 维特根斯坦判准跨域呼应 + Goodhart 走样自陷阱。事实接地:Goldman 1979/1986、Ferrario 2024、Durán & Formanek 2019、Parasuraman & Manzey 2010、Bainbridge 1983、Lee & See 2004、Huemmer et al. 2026、Renieris et al. 2025 均来自本专题已核实接地证据包;Huemmer 具体数字标注边界。
- 2026-06-11 P3.4 校链:待建概念清单内
社会认识论(全 vault 无独立节点,系 0114认识论 内前向链概念)去双链改纯文本,母节点指向 0114认识论,不建死链。 - 2026-06-12 内审修复:§0 与 §合规边界 提及 EU AI Act 处生效口径统一为”2024-08-01 正式生效;高风险系统义务自 2026-08-02 适用”(权威值,呼应总览 §8 QC #5)。