A06 自动化偏见与审阅疲劳

当生产成本趋零、AI 把内容像货运列车一样以每秒上千 token 砸向人类时，整个 review-bottleneck 专题的乐观叙事都隐含一个前提：人会认真审。本节点要解决的问题是——这个前提本身是不是假的？ 框架是”自动化偏见（automation bias）× 警觉衰减（vigilance decrement）× 技能退化（deskilling）“三条相互强化的退化曲线。判断主轴只有一句，但它足以掀翻半个专题的设计假设：AI 越好用，用户越不审；审阅这道关卡，正在以工程化的方式悄悄变成剧场。

§0 为什么是”退化曲线”框架，而不是”培训能修好”框架

PM 拿到”人会过度信任 AI”这个问题时，本能反应是把它当成一个素养问题：写进 onboarding、加个 tooltip、做次培训、让用户”知道要批判性审阅”。这个默认框架是错的，且错得有据可查。

Parasuraman & Manzey 在《Human Factors》（2010）对自动化偏见与自动化惰性（automation complacency）的实证综述里给出了反直觉的结论：这两种效应在新手与专家身上同时出现，无法通过训练或指令消除。原因不是懒惰、不是性格、不是素养不够，而是多任务下注意力的有限性结构特征（bounded cognitive resources）——他们称之为”learned carelessness”（习得性疏忽）：当一个系统长期表现良好，人会系统性地、理性地降低监控强度，因为持续高强度监控一个几乎从不出错的系统，本身就是认知资源的巨大浪费。

这就是为什么必须换框架。把它当素养问题，你会去做培训；把它当注意力经济的结构性退化问题，你才会去改产品——改信息呈现的压缩率、改 confidence-gated 的触发条件、改审阅界面本身。素养框架治标且无效，结构框架才指向 p304 - 防御性 UX：对抗延迟与幻觉和 p305 - 信任架构与可解释性设计真正要解决的设计问题。

[!note] 框架级辨析的赌注我赌的是：自动化偏见不可被培训消除，只能被设计约束。如果未来出现稳健的、可复制的”训练有效降低 automation bias”实证（目前没有），这个框架的根基就要重估。

§1 三个概念的精确切分（别混用）

review-bottleneck 语境下，“用户不认真审”被笼统地归因，但它其实是三个机制不同、设计应对也不同的东西。混用会导致 PM 开错药方。

概念	定义	奠基文献	设计杠杆
自动化偏见 Automation Bias	过度依赖自动化输出，忽略与之矛盾的信息；含 omission（系统不报警就不行动）与 commission（跟随系统错误建议）两类错误	Parasuraman & Riley, 1997	改变 AI 输出出现的时机（锚定前 vs 后）
自动化惰性 Automation Complacency	多任务并发时，被动监控取代主动注意力，错误检出率下降	Parasuraman & Manzey, 2010	强制主动参与（active interface）
警觉衰减 Vigilance Decrement	持续监控低故障率系统时，随时间延长，信号检出概率系统性下降	Mackworth, 1948（雷达实验）	限制单次审阅时长、轮换
技能退化 Deskilling	长期依赖 AI 后丧失独立判断能力，即便不用 AI 也变差	—	保留无 AI 训练模式

切分的实践意义：自动化偏见是”当下这一次审错了”，警觉衰减是”审到第 50 个就开始走神”，技能退化是”审了半年后连自己也不会审了”。三者叠加，是 review-bottleneck 设计里”审阅形同虚设”的完整病理链。

§2 实证强度分层：医疗最硬，代码最软（别用错证据）

事实接地要求我对证据强度诚实分级。这是这个专题里最容易被 hype 滥用的地方——很多人拿一篇代码审阅博客就断言”AI 让人变蠢”，证据等级根本撑不起。

最硬：医疗内镜的 deskilling 直接实证。 Budzyń et al.（2025, Lancet Gastroenterology & Hepatology）在 4 个内镜中心、19 名有经验医生、1,443 例对照中发现：引入 AI 辅助后，医生独立（无 AI）执行肠镜的腺瘤检出率从 28.4% 降到 22.4%，下降约 6 个百分点（来源：EurekAlert news-release 1094223；ASCO Post 2025-08）。这是”长期依赖 AI 提示 → 自主技能退化”的直接计量证据，也被 International AI Safety Report 2026（Bengio et al.，100+ 作者）收录为 automation bias 的核心实证。

较硬：病理与招聘的 automation bias 实验。 Rosbach et al.（2024, arXiv 2411.00998）在 28 名病理专家的网络实验中测得：7% 的”初始正确”判断被错误 AI 建议推翻；时间压力不增加发生率，但加剧严重程度（更快接受错误）。Wilson, Caliskan et al.（2025, AAAI/ACM AIES）在 528 名参与者的招聘实验中发现更激进的结果：严重偏见条件下，90% 的决策追随 AI；即便参与者口头表示不信任 AI，决策仍可偏移近 50 个百分点（来源：UW News 2025-11-10）。

最软：代码审阅。 “AI 生成速度远超人工逐行审阅，团队面临橡皮图章压力”——这条在定性上成立，但来源是行业博客（Satya Borg, 2026-02-12，“Human Review is the Bottleneck”），不是同行评审论文。“生成几秒 / 审阅几分”的口径定性可信，但查不到经过同行评审的受控实验给出严格时间比〔待核实〕。

[!warning] confirmation-bias 砍除本专题早期叙事偏爱用”代码审阅橡皮图章”作为主力论据，因为它最贴近 Rick 的 Claude Code 一手体感。但它恰恰是证据最弱的一档。正确做法：把医疗 deskilling 实证（Lancet 2025）当主锚，把代码体感降级为”指示性观察”，并显式补入反例——见 §4 Air France 447 这类”高可靠系统 + 被动监控”的航空灾难，证明机制跨域成立、不是软件圈的自我感动。

§3 判断主轴：90% 的人在自动化偏见上搞错的四个点

这一节是 PM 顶刊与技术博客的分水岭。每点带”症状 → 为什么会错 → 正确做法 → 真实反例”。

错点一：以为”加个人审就安全了”（HITL 谬误）。

症状：高风险流程上挂一个”人工确认”按钮，监管和 PRD 就都安心了。
为什么会错：人审的存在不等于人审有效。Sele & Chugunova（2024, PLoS ONE）的实验是这条主轴最锋利的反例——被试预测学生成绩时，加入”人在环路”后算法建议接受率从 66% 升到 73%，但预测准确率反而下降（误差从 17.4 升到 18.0 百分位），人类监督者”未能充当紧急制动器”。
正确做法：把”人审”从默认开关升级为有触发条件的、经设计的介入点（confidence-gated，见 §5），并实测它是否真的降低错误率，而不是假设它会。
真实反例：EU AI Act 第 14 条要求高风险 AI 提供商让用户”知道 automation bias 的存在”。Laux & Ruschemeier（2025, European Journal of Risk Regulation, Vol.16；arXiv 2502.10036）的核心批评是：法案把”知道有这个风险”与”实际减轻风险”混为一谈——这正是 HITL 谬误的法条化版本。

错点二：以为”系统越可靠越好”（可靠性悖论）。

症状：拼命提升模型准确率，认为准确率高了用户自然会信、会用得好。
为什么会错：系统可靠性越高，learned carelessness 越强——人越不监控（Parasuraman & Manzey, 2010）。99% 可靠的系统，那 1% 的错误反而最危险，因为没人在看了。
正确做法：在高可靠区间主动制造”摩擦”——周期性插入需要主动判断的检查点，对抗警觉衰减。
真实反例：Air France 447（2009）。空客 A330 皮托管结冰、自动驾驶断开后，长期被动监控导致飞行员手动驾驶技能退化、情境意识崩溃，最终坠毁。调查（BEA；IEEE Spectrum 报道）指出机组”长时间未进行手动飞行”——这是高可靠自动化 + 被动监控的致命组合，与软件审阅同构。

错点三：以为”给出解释就能让人批判性审阅”（XAI 万能论）。

症状：相信加上 confidence display、citation、推理链，用户就会做 verification。这直接关系 p305 - 信任架构与可解释性设计的核心赌注。
为什么会错：XAI 能否缓解 automation bias，实证方向相互冲突，无定论。《AI & Society》（2025, Springer，分析 35 项研究）综述显示：部分研究里解释帮助逐案评估；反向研究里解释反而增加信任、加剧 automation bias，复杂解释抬高认知负荷、降低批判性评估。
正确做法：把解释当成可能加重 rubber-stamping 的双刃剑来做 A/B 验证，而不是默认它有益。认识论上，这正是”审阅 AI 报告是 verification 还是 rubber-stamping”这一问题的设计落点——见 §6。
真实反例：Boeing 737 MAX MCAS（2018–2019）。系统设计未被飞行员知晓，面对多重警报无法判断根因；监管审批又过度依赖波音自评数据（rubber-stamping）。信息的”存在”（警报）没有变成有效审阅，因为认知负荷压垮了判断。

错点四：以为”deskilling 是遥远的副作用”。

症状：把技能退化当成长期、模糊、难量化的担忧，留给”以后再说”。
为什么会错：Lancet 2025 的 6 个百分点是半年内可测的退化，不是十年后的隐忧。
正确做法：对依赖 AI 的关键判断岗位，保留无 AI 的训练/抽检模式，把技能保持当成可监测指标。
真实反例：见 §2 内镜研究——这是目前最干净的 deskilling 计量证据。

§4 进步主义修正：不是”AI 让人退化”的线性叙事

写退化曲线最容易滑入”自动化 = 人变蠢”的单调叙事，这是反模式。三处反例校正：

退化是条件性的，不是必然的。 Gaus et al.（2026, arXiv 2605.18045）在机器人自主性研究中发现：不确定性估计只在模型进入”数据相关能力区间”后才对门控有意义——阈值 τ 的选择对结果的影响远大于不确定性估计方法的选择。换言之，退化与否高度依赖设计参数，而非技术宿命。
混合不总是更差。 有 SEO 研究显示人工 + AI 混合内容首页排名率优于纯人工（80% vs 22%）——但这测的是搜索可见性，不等于内容质量，引用时必须标清这层。
航空业的对策有效过。 AF447 之后，行业引入强制手动飞行训练、改进自动化断开时的接管协议。退化曲线可以被设计干预扳平——这恰恰是本节点对 PM 的价值所在。

§5 PM 决策启示：把退化曲线翻译成可执行设计

面试怎么用。 被问”你怎么保证人会认真审 AI 的输出”，标准答案是 HITL；顶刊答案是：“我不假设人会认真审——Sele & Chugunova 2024 证明加人审反而可能降准确率。我会用 confidence-gated 设计，只在模型低置信、且不确定性类型匹配门控条件时（Doku 2026 的秩对齐 + 无反转区）才触发人审，并实测它是否真降错误率。”

选型怎么用。 评估一个”带 AI 审核”的工具时，别看它”有没有人审环节”，看三件事：(a) 人审是 confidence-gated 还是无脑全量（无脑全量必然 rubber-stamp）；(b) 是否在高可靠区间制造主动摩擦对抗警觉衰减；(c) 是否监测使用者的独立技能（deskilling 预警）。这是对 p307 - Copilot 到 Autopilot 光谱自动化分级的”病理学补充”——光谱讲该给多少控制权，本节点讲控制权给多了人会怎样退化。

复现怎么用（Rick 的 Claude Code 一手观察）。 我自己重度使用 Claude Code 的体感，正是这条主轴的活样本：当它连续多次给出能跑的代码后，我对它输出的审阅强度肉眼可见地下降——不是因为我变懒，而是 learned carelessness 的理性表现（持续高强度审一个总是对的东西不划算）。最危险的恰恰是它”几乎总对”之后那次错。这与 Air France 447 机制同构，只是后果不致命。我个人的对策是：对高风险变更（删改、迁移、涉钱逻辑）强制冷读——另起一次审视、不看生成历史，对抗锚定。这其实是 Cross-Context Review（arXiv 2603.12123）思路的个人化落地：历史上下文会让审阅变成”合理化”而非”批判”。〔此为一手观察，非受控实验〕

§6 跨域呼应：审阅是 verification 还是 rubber-stamping？

把”人审 AI 输出”放进认识论 0114认识论，问题变成：审阅者声称的”我审过了”，构成对输出的辩护（justification）吗，还是只是一次仪式性背书？

这里引入一个 Rick 未必熟悉的对手框架——Harry Collins 的”interactional expertise”（互动型专长）。Collins 区分”会做”（contributory expertise）与”会评判但不会做”（interactional expertise）。自动化偏见 + deskilling 的可怕之处在于：审阅者正在从 contributory 滑向 interactional，最终连 interactional 都守不住——当你长期不亲手做（写代码、做内镜），你评判的语言还在，但支撑评判的默会知识（Polanyi 默会知识与提示工程的认识论张力）正在流失。届时”我审过了”在认识论上就是空壳：它有 verification 的语法，没有 verification 的语义。

这个辨析直接决定产品设计：如果审阅者的默会知识在退化，那么 confidence display 和 citation 不能预设审阅者有能力 verify。设计上必须把验证负担前移——把审阅从”批判性阅读输出”改成”机械核对输出是否符合事先批准的规格（spec）“（Satya Borg 的 spec-first 主张），因为后者对默会知识的要求更低、更可执行。这是认识论维度对 HITL 触发设计的硬约束，而不是装饰性引用。

§7 与已有节点的关系（升级对照，不复述）

对 p305 - 信任架构与可解释性设计：做纠偏。p305 的目标是”信任校准”、把可解释性当信任工具；本节点指出可解释性是双刃剑（XAI 实证冲突），解释可能加剧 automation bias 而非缓解——p305 的”分层透明悖论”在这里得到 automation bias 文献的实证支撑与边界标注。
对 p307 - Copilot 到 Autopilot 光谱：做深化。p307 的”自动化悖论 / 技能退化风险”是一句原则；本节点用 Lancet 2025 的 6 个百分点把它落成可测的病理曲线，并把”动态升降级”的触发指标与 confidence-gated 失效条件（Doku 2026）对接。
对 p304 - 防御性 UX：对抗延迟与幻觉：做对话。p304 假设”置信度外显 + 优雅降级”能让用户更好地处理幻觉；本节点追问”用户真的会看那个置信度吗”——automation complacency 下，外显的置信度可能被无视，防御性 UX 需要 confidence-gated 强制介入兜底。
对 c13 - 幻觉的不可消除性：做补缺。c13 论证幻觉在生成端不可消除；本节点论证即便有幻觉，审阅端的退化让它更难被拦截——幻觉问题的下半场不在生成而在审阅。
对 0114认识论 / 0117社会学：把 verification vs rubber-stamping 的认识论问题，与注意力作为稀缺资源（Herbert Simon, 1971：“a wealth of information creates a poverty of attention”）的社会学问题接上——审阅疲劳是注意力经济在 AI 时代的具体形态。

§8 关联节点

核心（必读）

p305 - 信任架构与可解释性设计 — XAI 双刃剑的纠偏对象
p307 - Copilot 到 Autopilot 光谱 — 自动化悖论的病理深化
p304 - 防御性 UX：对抗延迟与幻觉 — 置信度外显是否被看见的对话
c13 - 幻觉的不可消除性 — 幻觉下半场在审阅端
幻觉 — automation bias 让幻觉更难被拦
0114认识论 — verification vs rubber-stamping
Claude Code — Rick 一手 deskilling 观察样本

延伸（可选）

p302 - 七种 AI 交互设计模式 — confidence-gated 介入模式
p306 - 数据飞轮与反馈回路设计 — 审阅退化污染反馈信号
0117社会学 — 注意力经济（Simon 1971）
Polanyi 默会知识与提示工程的认识论张力 — 默会知识流失与 interactional expertise
Agent — agent 时代人工监督进一步弱化
Test-Time Compute — 生成端算力增长 vs 审阅端带宽不变
Claude / ChatGPT — 高可靠输出加剧 learned carelessness

§9 修订日志

R1（2026-06-07）：首稿。确立”退化曲线”三机制框架（automation bias / vigilance decrement / deskilling），证据三档分层（医疗最硬→招聘/病理→代码最软），判断主轴四错点四件套，引入 Sele & Chugunova 2024（HITL 反例）、Laux & Ruschemeier 2025（AI Act 批评）、Collins interactional expertise（Rick 未读对手框架）；与 p304/p305/p307/c13 建立四向升级对照；带 Claude Code 一手观察。待后续轮次核实：代码审阅时间比〔待核实〕、SEO 混合内容质量代理变量的方法论争议。