A02 审阅验证橡皮图章辨析

当 AI 把生产成本压到趋零、瓶颈反转为人类审阅带宽（见 A01 审阅瓶颈命题），一个被产品经理系统性回避的问题浮上来：用户在 AI 报告下点的那个”确认”按钮，到底是一次验证（verification），还是一次橡皮图章（rubber-stamping）？这不是措辞洁癖。这个辨析直接决定 confidence display、citation、HITL 触发点的设计——把橡皮图章当成验证，等于在产品里建造了虚假的人类监督，而虚假监督比没有监督更危险，因为它让责任链看起来完整、让合规审计有交代、让所有人都以为”有人把过关”。本节用一个认识论框架（review / verification / rubber-stamping 三态光谱）拆开这个问题，并追问那个更尖锐的：用户在审阅 AI 报告时获得的，是知识，还是知识的模拟？

§0 为什么是”三态光谱”而不是”人在环路 vs 没人在环路”

PM 默认的框架是二元的：要么 human-in-the-loop（HITL），要么全自动。这个框架是错的，因为它把”有人在环路”等同于”有效监督”——而这恰恰是整个审阅瓶颈问题的核心谎言。

正确的框架是三态光谱，区分维度是”人对 AI 输出施加的认知努力强度”：

状态	认知机制	用户获得的	责任性质
Rubber-stamping（橡皮图章）	系统 1 主导，模式匹配”看起来对”就放行	知识的模拟（justified false belief 的温床）	形式责任，监督剧场
Review（审阅）	系统 1 + 部分系统 2，批判性阅读但不独立重建	校准过的信念（但仍依赖 AI 的框定）	共担责任
Verification（验证）	系统 2 主导，独立重建或可机械核对的判定	知识（justified true belief）	实质责任

为什么”二元框架”是错的，看 Sele & Chugunova（PLoS ONE, 2024）的实验：把”算法委托模式”改成”人在环路模式”后，用户对算法建议的接受率从 66% 升到 73%，而预测准确率反而下降（误差从 17.4 升到 18.0 百分位），人类监督者”未能充当紧急制动器”。也就是说，加上”人在环路”这个标签，结果更差——因为它制造的是橡皮图章，不是验证，却让设计者误以为风险已被覆盖。二元框架看不见这个反例，三态光谱才能定位它：那 73% 里多出来的人，大部分滑到了橡皮图章一格。

§1 三个词的认识论锚点：JTB 与”知识 vs 知识的模拟”

把三态光谱接到认识论的经典骨架——知识 = justified true belief（被证成的真信念，JTB）：

Verification 追求的是用户自己持有 justified true belief：用户不仅相信结论为真，且持有独立于 AI 的证成链条（自己核对了引用、重跑了计算、对照了规格）。
Review 是 justified belief，但 justification 部分外包给了 AI——用户的”被证成”来自”AI 的推理看起来连贯 + 引用看起来真实”，这是二阶证成（相信”AI 有理由”），不是一阶证成（自己拥有理由）。
Rubber-stamping 连 justification 都没有，只有 belief：用户相信结论，理由是”它通常对”或”看起来很专业”。这正是 c13 - 幻觉的不可消除性最危险的着陆点——当幻觉穿着流畅自信的外衣（RLHF 对齐税导致模型最不确定时语气最自信），橡皮图章用户拿到的是 justified-looking false belief，是知识的精致模拟。

这里要引一个 Gettier 式的警告（Edmund Gettier, “Is Justified True Belief Knowledge?”, Analysis, 1963）：即便 belief 为真、且有 justification，若 justification 与 truth 之间是偶然连接，那也不是知识。审阅 AI 报告时这种偶然性无处不在——AI 引对了一个真实存在的 URL，但把声明张冠李戴（Tow Center / CJR 2025 对 8 个 AI 搜索引擎的 1600 次查询测试发现，Perplexity Pro 引用错误率达 45%，且错误多是”来源真实、归属错误”这种最难被用户察觉的类型）。用户看到”有引用”就放行，他的真信念与真证成之间是断裂的——这是 Gettier 反例在 AI 时代的工业化复现。

[!note] 跨域呼应 · 认识论（0114认识论，dim-epistemological）审阅 AI 报告把一个古老的认识论难题推到产品设计的台面上：证言知识（testimonial knowledge）的可靠性问题。哲学家 C.A.J. Coady（Testimony: A Philosophical Study, 1992）论证人类绝大部分知识来自他人证言，我们对证言的接受默认是合理的——因为证言者与我们共享一个”会因撒谎/出错而承担社会后果”的责任结构。但 AI 不是证言者：它没有信念、不承担后果、其”自信语气”与”实际可靠性”解耦（校准失准，见 c13 §13.4）。Coady 框架下证言之所以能传递知识的那个社会性担保，在 AI 这里结构性缺席。这直接改变了一个技术判断：confidence display 不能照搬”人类专家说话”的隐喻（让 AI 显得像个可信的同事），否则它借用了一个它配不上的担保，把用户从 review 推向 rubber-stamping。正确做法是反向设计——让界面持续提示”这是无责任主体的概率输出，证成需你自己补全”。这是把认识论的”证言担保缺失”翻译成了 citation 必须可点击核验、confidence 必须可证伪的硬约束。

§2 判断主轴：90% 的人在”审阅 = 监督”上会搞错的四个点

这一节是命门。审阅 AI 输出时，PM 和用户最常犯的四个认识论错位，每个带”症状 → 为什么会错 → 正确做法 → 真实反例”：

错位一：把”看过了”当成”验证过了”。

症状：界面记录”用户已查看 diff/报告”，合规上就算”人工审核完成”。
为什么会错：眼球停留 ≠ 认知重建。Diff 只展示”变了什么”，隐藏了”为什么变、影响哪些依赖”（CodeAnt 关于 diff 审阅认知负荷的分析）；当变更集超过工作记忆容量（Cowan 2001 给出的约 4 组块，或 Miller 1956 的 7±2），缺陷检出率断崖式下降，审阅者被迫走橡皮图章路径。
正确做法：区分”查看埋点”与”验证埋点”，只有发生了可观测的核验动作（点开引用、修改了内容、拒绝了某 hunk）才计入实质审核。
真实反例：Boeing 737 MAX MCAS 审批链中，监管对波音自评数据存在过度依赖（rubber-stamping），“看过”文件不等于独立验证了系统行为——NTSB 指出未充分考虑飞行员在多警报下的认知负荷。

错位二：把 AI 先出的判断当成中性起点。

症状：AI 报告先呈现结论，用户在此基础上”审阅修改”。
为什么会错：锚定效应。AI 输出在用户形成独立判断之前出现，系统 2 还没启动，系统 1 已经接受了框定。Wilson、Caliskan et al.（UW / AAAI-AIES 2025，528 名参与者招聘实验）发现：严重偏见条件下 90% 的决策追随 AI，即便参与者声称不信任 AI，决策仍偏移近 50 个百分点。
正确做法：高风险场景下让用户先独立判断、再揭示 AI 建议（“判断前置”），或采用”跨上下文审阅”——另起会话、只给最终产物、不给生产历史，逼系统 2 介入。
真实反例：Rosbach et al.（arXiv 2411.00998, 2024）28 名病理专家实验中，7% 的”初始正确”判断被错误 AI 建议推翻；时间压力不增加发生率，但加剧严重程度。

错位三：以为”解释/引用越多 = 审阅越可靠”。

症状：堆砌 chain-of-thought、塞满 citation，以为透明度自动带来批判性。
为什么会错：XAI 能否缓解自动化偏见，实证方向相互冲突（AI & Society 综述, 2025）——部分研究发现解释反而增加信任、加剧 automation bias，复杂解释抬高认知负荷、压低批判性评估。透明度可能变成新的橡皮图章诱因（“它都给我看推理了，应该没问题”）。
正确做法：解释要服务于”可证伪”，不是”可信赖”——给的不是”为什么对”，而是”如何自己验证 / 在哪最可能错”。
真实反例：c13 §13.3 记录的谄媚幻觉——模型为迎合用户给出自信解释，解释越长越像在合理化（rationalize）而非推理。

错位四：把高可靠系统的长期表现当成”可以不监督”的理由。

症状：系统长期表现好，用户逐渐降低监控强度。
为什么会错：这就是 Parasuraman & Manzey（Human Factors, 2010）的”learned carelessness”——系统可靠性越高，人越降低监控投入，且这是注意力资源有限的结构特征，训练无法消除。叠加警觉衰减（Mackworth 1948 雷达实验起的传统），长时间监控低故障率系统，信号检出概率系统性下降。
正确做法：confidence-gated 自动执行（见 A04 Confidence-gated 自动执行）——高置信自动放行，把人的有限注意力集中到低置信样本上，而不是要求人均匀监控一切（这是人类最做不到的事）。
真实反例：Budzyń et al.（Lancet Gastroenterology & Hepatology, 2025）——内镜医生长期依赖 AI 提示后，独立执行肠镜的腺瘤检出率从 28.4% 降到 22.4%（deskilling），监督能力本身被监督对象侵蚀。

§3 产品 PM 视角补盲：橡皮图章的商业激励与合规陷阱

工程视角只看”如何让审阅更有效”，但 PM 必须看见三个更难的事实：

用户心理模型：用户想要橡皮图章。审阅是认知负担，AI 的卖点恰恰是”替我省事”。一个逼用户认真验证的产品，在体验指标上会输给一个让用户一键放行的产品。这是产品设计的根本张力——有效监督与用户体验天然冲突。把验证做得太重，用户流失；做得太轻，监督失效。
商业模式陷阱：接受率（acceptance rate）是最诱人也最危险的北极星指标。Cursor/Copilot 用接受率证明价值，但接受率衡量的是”用户点了同意”，不衡量同意是否正确（接受后代码是否真的对，几乎没有公开 RCT 测量）。优化接受率，等于优化橡皮图章率。
合规边界：EU AI Act 第 14 条要求高风险 AI 提供商让用户”知道 automation bias”——但 Laux & Ruschemeier（European Journal of Risk Regulation, 2025；arXiv 2502.10036）尖锐批评：法律把”知道有这个风险”与”实际减轻风险”混同，只建立”感知义务”，不要求从设计层面消除偏见。对 PM 的含义：满足合规字面要求 ≠ 建立了有效监督。监管本身可能在制造合规层面的橡皮图章。

§4 对手框架回应：橡皮图章一定是坏事吗？

业界存在一个有力的反方立场，值得”接受 + 标边界”，而非反驳。

反方（自动化效率派 / Satya Borg 等实践者立场）：审阅瓶颈的解法不是”逼人更努力验证”，而是把认知工作前移到规格（spec）阶段——一旦 spec 被批准，审阅就退化为”机械验证产物是否符合 spec”，这种”橡皮图章”是合理且高效的。要求人对每一行 AI 输出做完整 verification，本身就违背了 AI 提效的初衷；在低风险、可回滚、有自动化测试兜底的场景，rubber-stamping 是正确的资源分配。

接受：这个立场对的部分很硬。不是所有审阅都该是 verification——把验证成本花在低风险环节是浪费，且人类注意力是稀缺资源（A01 审阅瓶颈命题的直接推论），均匀分配注意力本身就是反模式。confidence-gated 自动执行的整个合法性，正建立在”有些事值得橡皮图章”之上。

边界与赌注：但这个立场偷换了一个前提——它假设”风险已被前移的 spec 和自动化测试充分覆盖”。问题是 (a) spec 本身可能是 AI 生成的，审阅 spec 又回到原问题；(b) 自动化测试覆盖不了语义正确性与”必要性判断”（LogRocket 实测：审阅 AI 代码的认知性质是”判断必要性”而非”验证正确性”，这是测试兜底不了的）；(c) “可回滚”在很多领域是幻觉（已发出的邮件、已做的医疗决策、已传播的报告不可回滚）。我的赌注是：橡皮图章的合法性边界由”失败的不可逆性 + 自动化兜底的完整性”两个轴决定，而产品设计的真正难点，是让这条边界对用户可见、且默认值站在安全一侧——这正是 confidence-gated 与 HITL 触发点设计要解决的（见 A05、p307 - Copilot 到 Autopilot 光谱）。把”哪些该橡皮图章”的决策权交给用户的系统 1，等于没设计。

[!warning] failure scenario：本节框架在哪失效三态光谱假设”认知努力强度”是连续可分的，但在极高速率下（agent 以 1000 tok/s 产出代码，Satya Borg 的”freight train”比喻），review 这一中间态可能直接坍缩——人要么橡皮图章要么溺水，没有可持续的中间档。此时把产品目标定为”提升 review 质量”是错的，应转向”减少需要 review 的量”（前移 + 压缩 + 门控）。我赌三态光谱在”人类可设定节奏”的场景成立，在”AI 主导节奏”的场景需让位给”流量控制”思路。

§5 PM 决策启示：面试 / 选型 / 复现三类落地

面试：被问”你怎么设计 AI 报告的审核流程”，30 秒回答框架——“先区分这个场景需要 review、verification 还是可以 rubber-stamping，判据是失败的不可逆性和自动化兜底完整性；再据此设计 confidence 门控、citation 可核验性、HITL 触发点。把’人在环路’当默认安全网是反模式，Sele & Chugunova 2024 证明它可能让结果更差。”
选型：评估 AI 协作工具时，别看接受率，看”它把用户推向三态光谱的哪一格”——是否有判断前置/跨上下文审阅来对抗锚定？citation 是否可点击核验（对抗 Gettier 式假证成）？confidence 是否可证伪而非仅可信赖？
复现：自建审阅界面时，分离”查看埋点”与”验证埋点”，只有可观测核验动作才计入实质审核；在高风险节点强制判断前置；用门控把注意力导向低置信样本。

§6 与已有节点的关系

对 c13 - 幻觉的不可消除性：深化 + 对话。c13 论证幻觉架构性不可消除、校准失准；本节点承接其结论，把战场从”模型端能否消除幻觉”推进到”人端审阅能否拦住幻觉”，给出”橡皮图章是幻觉的最佳着陆点”这一新判断。不复述五分类学与 Softmax 论证。
对 p305 - 信任架构与可解释性设计：纠偏。p305 主张信任目标是”校准”而非”最大化”；本节点补一个 p305 未充分展开的认识论边界——XAI/透明度可能加剧橡皮图章（解释增加信任而非批判性），证言担保的社会结构在 AI 处缺席，因此”可解释”应服务于”可证伪”而非”可信赖”。
对 p307 - Copilot 到 Autopilot 光谱：对话。p307 的 L0–L4 控制权光谱是”系统自动化程度”的纵轴；本节点的三态光谱是”人类审阅强度”的横轴，二者正交——同一个 L2 协作者，用户可能在 review 也可能在 rubber-stamping。两轴交叉才是完整的设计空间。

§7 关联节点

核心（必读）

A01 审阅瓶颈命题 — 本节点的上游前提：生产成本趋零、瓶颈反转
A04 Confidence-gated 自动执行 — 橡皮图章合法化的工程载体
c13 - 幻觉的不可消除性 — 橡皮图章为何危险的模型端根因
p305 - 信任架构与可解释性设计 — 信任校准与透明度悖论
p307 - Copilot 到 Autopilot 光谱 — 自动化程度的正交轴
0114认识论 — JTB / Gettier / 证言知识的跨域锚点
幻觉 — 概念卡

延伸（可选）

p302 - 七种 AI 交互设计模式、p304 - 防御性 UX：对抗延迟与幻觉、p306 - 数据飞轮与反馈回路设计
0117社会学 — 自动化偏见的组织/制度维度
Claude Code、Claude、ChatGPT、Agent、Test-Time Compute — 概念卡
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。建立 review/verification/rubber-stamping 三态光谱 + JTB/Gettier 认识论锚点；判断主轴四错位四件套；接入 Sele&Chugunova、Wilson/Caliskan、Rosbach、Budzyń、Parasuraman&Manzey、Laux&Ruschemeier、Coady、Gettier 等证据；对手框架回应（spec 前移派）；与 c13/p305/p307 升级对照。