R02 设计 Verification 而非 Rubber-stamp 的审阅流 · 知识库

如何设计一个能逼出真验证、堵死橡皮图章的 AI 输出审阅流？本节点解决的问题不是”要不要人审”（合规答案永远是”要”），而是”放进去的人，认识论上到底是在 verify 还是在 rubber-stamp”。框架名：审阅流的认识论可靠性设计——把”人在回路”从一个组织结构问题，重写成一个 Goldman 式过程可靠主义问题：审阅者输出的”通过”判断，是否由一个可靠的认知过程产生。

§0 为什么是”过程可靠主义”而不是”流程合规”框架

绝大多数 AI 治理文档（EU AI Act〔2024-08-01 正式生效；高风险系统义务自 2026-08-02 适用〕的 effective human oversight、企业内部的”双人复核”SOP）默认的框架是流程合规：只要审阅这个动作发生了、有人点了”通过”、有审计日志，监督就成立。这个框架是错的——它把”过程存在”误当成”过程可靠”。

更换框架的理由来自一个反例：荷兰儿童福利金算法案与澳大利亚 Robodebt 案中，制度上都存在人在回路，审批环节齐全、日志完整，但认识论上监督已经空转——人的判断被系统激励、管理惯性、体制习惯共同边缘化（治理文献综述，2024–2025；arXiv:2512.13768 “Beyond Procedural Compliance” 即以此为靶）。流程合规的框架对这种失败完全失明，因为它只看动作发生没发生，不看动作背后的认知过程可靠不可靠。

正确的框架是 Goldman 过程可靠主义（Alvin Goldman, “What is Justified Belief?”, 1979；Epistemology and Cognition, 1986）：一个信念有认识论正当性，当且仅当它由一个可靠的（在相关条件下倾向于产生真信念的）认知过程产生。把它套到审阅流：审阅者的”通过”判断要有正当性，必须由一个可靠的评估过程产生——而不是由”对 AI 输出的被动信任转移”产生。Andrea Ferrario（“Justifying Our Credences in the Trustworthiness of AI Systems: A Reliabilistic Approach”, Science and Engineering Ethics, 2024）把这一步形式化：对 AI 可信度的置信度有正当性，当且仅当它由一个可靠的评估过程产生，“可靠”= 审阅者的 credence 高比例地与 AI 实际可信度校准。

这就是 verification 与 rubber-stamping 的认识论分水岭：

	Verification（真验证）	Rubber-stamping（橡皮图章）
信念来源	审阅者自身可靠的评估过程	被动转移自 AI 输出
Goldman 语言	由可靠过程产生的有正当性信念	无正当性的信念（过程不可靠）
失败模式	技术性错误（可定位、可纠正）	自满 + 自动化偏差（系统性、难纠正）
审计日志看到的	”通过"	"通过”（两者完全相同）

最后一行是整个设计的命门：橡皮图章和真验证在日志里长得一模一样。 所以审阅流不能靠”记录有没有审”来保证质量，必须靠机制设计逼出可靠过程。下面给的就是这套机制和模板。

§1 三个把人推向橡皮图章的结构性力量（设计要对抗的对象）

设计审阅流之前先认清敌人。把审阅者推向 rubber-stamp 的不是懒，是三个有实证支撑的结构性力量：

自动化自满（automation complacency）——多任务负荷下，因系统高可靠的历史记录导致对其监视注意力持续下降（Parasuraman & Manzey, “Complacency and Bias in Human Use of Automation”, Human Factors 52(3), 2010）。关键发现：自满在专家与新手身上都出现，且训练与指导不足以克服。这对所有”加强培训”式的治理方案是当头一棒。
自动化偏差（automation bias）——过度遵循系统建议，分两类错误：遗漏错误（未察觉系统失效）与委托错误（执行了不该执行的建议）（同上）。
验证瓶颈（verification bottleneck）——Huemmer et al.（“AI, Metacognition, and the Verification Bottleneck”, arXiv:2601.17055, 2026）的三波纵向研究给出最新实证：困难任务上 AI 依赖率 73.9%，对 AI 输出的验证置信度反而下降 68.1%（恰在最该验证之处），实际准确率仅 47.8%，信念-表现差距扩大到 34.6 个百分点。核心结论：“verification, not solution generation, became the bottleneck”——生成不是瓶颈，验证才是。〔边界：该研究样本限于学术早期采用者，无控制组，含自我报告偏差；趋势方向可信，但 34.6pp 这一具体数字应谨慎引用。〕

这三个力量合起来意味着：审阅流的默认演化方向就是退化成橡皮图章。 不施加反向机制，熵增必然把它拉过去。Lisanne Bainbridge 的”自动化的反讽”（“Ironies of Automation”, Automatica, 1983）早已点破结构根源：自动化程度越高，要求人的判断力越强，而人实际练习判断的机会越少，技能因不用而退化。审阅 AI 报告是这个反讽的当代极端形态。

§2 四道机制闸门（把”通过”重新接到可靠过程上）

针对 §1 的三个力量，设计四道可落地的机制闸门。每道闸门的认识论目标都是切断”被动信任转移”这条捷径，强制审阅者自己跑一遍可靠过程。

闸门一：强制溯源核对（断”信任转移”）

不允许只看 AI 的结论和摘要。审阅流必须强制审阅者对关键主张逐条点开溯源链接、核对原文。机制实现：

把”通过”按钮的前置条件设为”每条 claim 的 citation 已被点开且标记 verified/disputed/unverifiable”——未处理的 claim 阻塞提交。
citation 不能是 AI 自己生成的 plausible-looking 链接（这正是 c13 - 幻觉的不可消除性里”引用幻觉”这一类的产物）；溯源链接必须可解析、可回溯到一手源。
对照设计原理：Durán & Formanek 的计算可靠主义（“Grounds for Trust: Essential Epistemic Opacity and Computational Reliabilism”, arXiv:1904.01052, 2019）指出，输出可被信任不要求完全透明，但要求四类可靠性依据之一——verification & validation 程序。强制溯源核对就是把这条依据嵌进审阅动作本身。

闸门二：抽检 + 红队种子错误（断”自满”）

历史可靠记录越好，注意力越涣散（§1 力量 1）。对抗手段是让审阅者无法假设输出是对的：

盲抽检：每批 AI 输出随机抽 N% 做全量深度核对，审阅者不知道哪条会被抽。
种子错误（seeded errors / honeypot）：在送审材料里按已知比例植入预先标记的错误，统计审阅者的捕获率。捕获率就是这个审阅流的”可靠性”直接度量——它把抽象的”过程可靠不可靠”变成一个可监控的数字。捕获率掉到阈值以下 = 审阅流正在退化成橡皮图章，触发干预。
认识论依据：这是把 Ferrario（2024）的”校准”操作化——审阅者的 credence 是否 track AI 的实际正确率，只能靠”在已知答案上测捕获率”来检验，光看通过率永远测不出来。

闸门三：异议成本对称化（断”委托错误”）

橡皮图章之所以稳定，常因为说”通过”零成本、说”驳回”高成本（要写理由、要承担拖慢交付的责任、要和出活的人产生摩擦）。这种不对称会系统性地把人推向通过。设计上要把异议成本压到与通过成本对称甚至更低：

驳回/标记异议的操作做成一键 + 结构化模板（选错误类型 → 引用冲突证据），而非自由长文。
把”提出有效异议”计入绩效正向信号（捕获了种子错误、驳回后被证实确有问题），而不只是”按时通过了多少份”。
反例警示：若 KPI 只考核审阅吞吐量（每天过多少份），就是在用激励结构亲手制造橡皮图章——这正是 Robodebt / 福利金案里”管理惯性边缘化人的判断”的微观机制。

闸门四：分层触发 human-in-the-loop（把验证强度按风险分配）

不是所有输出都值得同等强度的验证——把稀缺的真验证注意力浪费在低风险输出上，会加速高风险处的自满。按 Polanyi 默会知识与提示工程的认识论张力的洞察，组织最值钱的判断是默会的、进不了向量库的；审阅流要把人的默会判断力集中投放在 AI 最可能出错且后果最重的地方：

触发条件 = f(风险等级, 模型自报不确定性, 与已知事实冲突信号, 不可逆性)。
高触发：强制闸门一+二+三全开 + 双人独立复核（两人不得看到对方判断，避免锚定）。
低触发：抽检即可。
⚠️ 自报不确定性这个信号本身要打折：模型在最不确定时常输出最自信（c13 - 幻觉的不可消除性的校准问题），所以不能只信模型的 confidence display，要叠加外部冲突信号。

§3 可直接套用的审阅流模板

把上面四道闸门压成一张可贴墙的清单（送审 → 通过/驳回的强制路径）：

[送审单] AI 输出 + 自报不确定性 + 全部 citation
   │
   ├─ 0. 风险分层：算 f(风险,不确定性,冲突信号,不可逆性) → 触发等级
   │
   ├─ 1. 溯源闸门：逐条 claim 点开 citation
   │       每条标记 {verified | disputed | unverifiable}
   │       存在 unverifiable/disputed 未处理 → 阻塞，不可提交
   │
   ├─ 2. 抽检/种子闸门：本批是否命中盲抽？是→全量核对
   │       系统已植入 k 个种子错误 → 记录本次捕获 j 个
   │
   ├─ 3. 异议闸门：发现问题→一键结构化驳回（选类型+贴冲突证据）
   │       （驳回成本 ≤ 通过成本，绩效记正向）
   │
   ├─ 4. 高触发追加：双人独立复核（互盲），分歧→升级
   │
   └─ [判定] 通过 / 驳回 / 升级
            └─ 日志额外记录：每条 claim 的核对状态、种子捕获率、复核分歧
               （⭐日志记"过程指标"，不只记"结论"——否则无法事后区分真验证与橡皮图章）

模板的认识论自检三问（贴在审阅者视野里）：

我此刻的”通过”判断，来源是我自己核对了证据，还是AI 看起来很确定？（断信任转移）
如果这条输出是错的，我刚才的动作能不能抓到？（捕获率自检）
我说”驳回”的成本，是不是高到让我倾向于不说？（异议对称性自检）

§4 判断主轴：90% 的人会在这五处把审阅流做成橡皮图章

#	症状	为什么会错	正确做法	真实反例
1	把”有人审了”当成”审到位了”	流程合规框架的盲点：只看动作不看过程可靠性	用种子错误捕获率度量过程可靠性	Robodebt / 荷兰福利金案：人在回路齐全，认识论监督空转
2	给审阅者看 AI 的摘要+confidence 分数	高 confidence display 反而增加过度依赖（“explainability theater”，Renieris et al., MIT SMR, 2025）	强制看一手溯源，不是看模型自评	透明度悖论：更高透明度 → 用户误读为更高可靠性 → 校准变差
3	靠”加强培训/提高责任心”对抗自满	Parasuraman & Manzey (2010)：自满训练不足以克服	靠机制（盲抽检、互盲复核）改变激励结构	专家组同样表现自满，资历不免疫
4	只考核审阅吞吐量	异议成本 >> 通过成本，激励结构亲手造橡皮图章	异议成本对称化 + 有效异议计入绩效	任何按”日均过审份数”考核的审核团队
5	信任模型自报的不确定性来触发复核	模型最不确定时最自信（c13 - 幻觉的不可消除性校准问题）	自报不确定性打折，叠加外部冲突信号	引用幻觉：模型对杜撰的 citation 同样流畅自信

§5 产品 PM 视角补盲

工程视角只会问”审阅功能做了没”。产品 PM 要补三个看走眼点：

用户心理模型：审阅者会把”系统提供了 confidence 分数 / 解释”误读为”系统在帮我背书”，于是放松核对——可解释性界面如果设计不当，是在生产橡皮图章而非防止它。confidence display 要按”逼用户去核对”而不是”让用户安心”来设计。
商业模式张力：AI 审阅产品的卖点常是”提效”（少看、快过），而真验证天然是”减效”（多看、慢过）。如果定价和卖点都押在吞吐量提升上，产品激励就和认识论可靠性反向——这是 AI 审阅类 SaaS 的根本 GTM 陷阱。
合规边界：EU AI Act 要求 effective human oversight，但”effective”无法靠”有审批环节”满足（arXiv:2510.09090 / 2512.13768 均指出 procedural compliance ≠ epistemic effectiveness）。把”有效”翻译成”种子错误捕获率 ≥ X%“这类可审计的认识论指标，是合规产品的差异化机会。

§6 对手框架回应

接受：计算可靠主义（Durán & Formanek, 2019）对的一面——AI 输出不要求完全透明也可被合理信任，强制”完全可解释才能用”在工程上不现实，也会因信息过载反而降低审阅质量。边界：CR 自己承认它是认识论框架，不直接处理问责（accountability）归属；且”历史成功记录”这条可靠性依据在 distribution shift 下会失效（Durán et al., Minds and Machines, 2026 部分承认）。所以审阅流不能只靠”历史可靠就少审”——这恰恰喂养自满。我赌的是：用种子错误这类持续主动探测，而非历史记录，来维持过程可靠性。
接受：人机互补论者（Ferrario, Facchini & Durán, “Epistemology gives a Future to Complementarity”, arXiv:2601.09871, 2026）对的一面——人+AI 可以构成一个比单独人或单独 AI 更可靠的认识论过程。边界：互补性不是自动达成的，它要求审阅者的判断真的进入了过程；一旦退化成橡皮图章，“互补”就坍缩成”AI 单干 + 人盖章”。本节点的四道闸门正是互补性得以成立的前置条件。

〔failure scenario：若组织把本节点的种子错误机制本身当 KPI 优化——审阅者学会”只抓种子、对真实错误照旧放过”（Goodhart 定律的经典走样），则捕获率虚高而真实可靠性不变。对策：种子错误必须与真实错误在形态上不可区分，且定期更换形态。这是本框架自己的盲点。〕

§7 跨域呼应：维特根斯坦语言游戏的”判准”与橡皮图章

调度 0601 维特根斯坦后期的”遵守规则”论题。维特根斯坦问：当你说”我遵守了规则”，凭什么算遵守了？他的回答是——遵守规则不是私人地内省核对，而是嵌在公共实践的判准（criteria）里。把这套搬到审阅流：“我验证了”不是审阅者的私人内心感受，而要有公共可检验的判准。 橡皮图章的本质，正是审阅者私下觉得”我看过了/差不多对”,却没有任何公共判准能区分这种”觉得验证了”和”真验证了”——两者在内心体验和审计日志里都一样。种子错误捕获率就是为”验证”这个词建立的公共判准：它让”我验证了”这句话有了可被第三方检验的真值条件，而不只是一句自我安慰的语言游戏内的合规话术。这也呼应 0114认识论里可靠主义对”内心确信≠正当性”的核心区分——正当性在过程，不在感受。

§8 PM 决策启示

面试怎么用：被问”AI 产品怎么做人审”，不要答”加个审核环节”。答：“人审默认会退化成橡皮图章（Parasuraman & Manzey 2010 自满不可训练克服），所以我设计四道闸门——强制溯源、种子错误测捕获率、异议成本对称、按风险分层触发——并且日志记过程指标而非只记结论，因为真验证和橡皮图章在结论里长得一样。” 30 秒区分出”做过 AI 治理”和”听说过 AI 治理”。
选型怎么用：评估 AI 审阅/human-in-the-loop 工具时，别看它有没有审批流（人人都有），看它能不能度量审阅者的捕获率、confidence display 是”逼核对”还是”给安心”、异议成本是否对称。
复现怎么用：自己搭审阅 pipeline，第一件事不是写审批界面，是先植入种子错误并建捕获率看板——没有这个度量，你永远不知道你的”人在回路”是不是在空转。

§9 与已有节点的关系

对照 0418 审阅瓶颈系统化专题：0418 在产品机制层论证”审阅注意力是 AI 时代真正的瓶颈”、定位注意力经济的反转。本节点做对话+深化：把 0418 的”瓶颈”问题往下钻一层到认识论层——瓶颈不只是注意力稀缺，更是”被动信任转移”这条认知捷径让审阅在动作上发生、在过程上空转。0418 问”注意力够不够分”，本节点问”分过去的注意力是不是接到了可靠过程上”。不复述 0418 的瓶颈论证基础。
对照 0427 知识系统专题：0427 在知识产品设计层处理”组织默会判断进不了向量库”的 L1 覆盖率天花板。本节点把这一洞察用在闸门四的”把人的默会判断集中投放在高风险处”。
对照 c13 - 幻觉的不可消除性：c13 论证幻觉架构性不可消除、四级应对。本节点做纠偏式深化——既然幻觉不可消除（尤其引用幻觉 + 校准失败），审阅流的设计前提就不能是”抓出所有错”，而是”用可靠过程把漏网率压到契约可接受范围”,并显式承认这是按永久失败模式设计。不复述 c13 的五分类与架构成因。

§10 关联节点

核心（必读）：

c13 - 幻觉的不可消除性 —— 审阅流要对抗的对象（引用幻觉、校准失败）
Polanyi 默会知识与提示工程的认识论张力 —— 闸门四”默会判断集中投放”的依据
0114认识论 —— 可靠主义 / 正当性在过程不在感受
0601 维特根斯坦 —— “验证”需要公共判准（§7）

延伸（可选）：

幻觉 —— 幻觉概念基础
RAG —— 溯源核对依赖的检索增强生成
Agent —— 自主 Agent 输出的审阅是本节点的高触发场景
本专题同级：R01（最小可运行的认识论体检）、R03（confidence display 与 citation 系统设计）〔待本专题落定后补全名链接〕

待建概念清单（本专题登记，绝不在主库建 stub）

计算可靠主义 Computational Reliabilism（Durán & Formanek 2019）—— 主库暂无节点，文中以普通文本+来源线索处理
自动化自满 Automation Complacency（Parasuraman & Manzey 2010）—— 同上
验证瓶颈 Verification Bottleneck（Huemmer et al. 2026）—— 同上
适当依赖 Appropriate Reliance / 信任校准 Calibrated Trust（Lee & See 2004）—— 同上
Alvin Goldman（过程可靠主义）—— 主库 06人/ 无独立人物卡，0114认识论内有「社会认识论」前向链概念条目（无独立节点）；如需引用走该母节点，不建死链

修订日志

R1（2026-06-07）：初稿。建立”过程可靠主义”框架替代”流程合规”；四道机制闸门（溯源/抽检+种子/异议对称/分层触发）+ 可贴墙模板 + 五处判断主轴 + 与 0418 升级对照 + 维特根斯坦判准跨域呼应 + Goodhart 走样自陷阱。事实接地：Goldman 1979/1986、Ferrario 2024、Durán & Formanek 2019、Parasuraman & Manzey 2010、Bainbridge 1983、Lee & See 2004、Huemmer et al. 2026、Renieris et al. 2025 均来自本专题已核实接地证据包；Huemmer 具体数字标注边界。
2026-06-11 P3.4 校链：待建概念清单内 社会认识论（全 vault 无独立节点，系 0114认识论内前向链概念）去双链改纯文本，母节点指向 0114认识论，不建死链。
2026-06-12 内审修复：§0 与 §合规边界提及 EU AI Act 处生效口径统一为”2024-08-01 正式生效；高风险系统义务自 2026-08-02 适用”（权威值，呼应总览 §8 QC #5）。