S01 审阅成本分层剖面 · 知识库

当 AI 让生产成本趋零、瓶颈反转为”人类审阅带宽”之后，一个 AI 产品的真正护城河不在模型能力，而在它把多少审阅负荷转嫁给了用户、又用什么手段把这部分负荷压回去。这一节解决的问题是：审阅成本到底注入在哪些环节？我把它拆成六层注入点——输出量、压缩呈现、置信信号、可溯源、分流自动化、反馈学习——逐层给出”降审阅负荷的手段 + PM 必须问的问题清单”，并用本专题的判断主轴（致命耦合）证明：这六层不是可以独立优化的旋钮，而是一条会互相拆台的链。这是一个剖面（anatomy）框架，不是流程框架。

§0 为什么是”成本分层”而不是”漏斗”或”HITL 流程图”

读者脑中默认的框架通常是两个：一是把审阅画成漏斗（生成 → 过滤 → 人审 → 通过），二是把它画成 HITL 流程图（在某个断点插一个”人”）。这两个框架都有一个致命的隐含假设——审阅成本集中在”人审”那一个节点，于是优化目标就变成”把人审做得快一点”。

错。审阅成本是沿整条生产链分布注入的：模型一次吐多少（输出量层）决定了人要扫多少；用 diff 还是全文呈现（压缩层）决定了人要建多大的心智模型；有没有置信信号（信号层）决定了人要不要逐条怀疑；能不能点回原文（溯源层）决定了人验证一条声明要花几秒还是几分钟；高置信能不能自动放行（分流层）决定了人到底要不要看；纠错有没有回流（反馈层）决定了明天的负荷是涨还是跌。漏斗框架把这六处注入点压扁成一个”人审”黑箱，于是 PM 永远在优化错的东西——给审阅界面加个”批量通过”按钮，而不去问”为什么生成层一次给了我 288 行”。

成本分层框架的价值在于：它强迫你承认审阅负荷是一个可被上游设计提前消减、也可被上游设计悄悄放大的量。每一层都是一个注入点，也是一个干预点。而真正的杀招是 §7 要讲的——层与层之间的耦合，一层的优化会让另一层失效。

[!note] 框架级辨析漏斗/HITL 问”在哪里插入人”；成本分层问”在哪些环节把负荷塞给了人、又能在哪些环节把它拿回来”。前者把人当成流程节点，后者把审阅带宽当成贯穿全链的稀缺资源——这正是本专题的核心命题：Herbert Simon 1971 年的判断”信息的丰裕制造注意力的贫困”（Simon, “Designing Organizations for an Information-Rich World”, 1971），在 AI 时代被推到极致。

§1 第一层 · 输出量（Volume）—— 负荷的源头闸门

一句话：审阅负荷的第一性来源不是质量，是数量。 人类工作记忆上限约 4 个组块（Cowan, 2001, Behavioral and Brain Sciences；Miller 1956 的 7±2 在排除组块化后被修正为约 4），而 AI 一次输出动辄数百行，从源头就突破了审阅者的认知容量。

实测对比触目惊心：LogRocket 的实测中，同一个 REST API 任务，人类写 29 行、Claude Code 写 186 行；重构任务人类 26 行、Claude Code 288 行，审阅时间从 4–5 分钟涨到 15–20 分钟（来源：LogRocket, “AI coding tools shift the bottleneck to review”, 2026，博客实测非 RCT）。更宏观地，Faros AI 对 10,000+ 开发者的观测显示：高 AI 采用团队 PR 合并数 +98%，但 PR 审阅时间 +91%，平均 PR 体积增加 154%（来源：Faros AI，经 Aviator/LogRocket 转述）。

降负荷手段：输出预算（max tokens 不是技术参数而是审阅预算）、分步交付而非一次性吐完、强制”先 spec 后产出”把审阅前移到规格阶段（Satya Borg, “Human Review is the Bottleneck”, 2026）。

PM 问题清单：

我的产品默认一次给用户多少内容？这个量是按”模型能生成多少”定的，还是按”用户一屏能审多少”定的？
有没有给用户”要少一点”的控制权（输出预算滑杆）？
我是在让用户审”已完成的大块”，还是审”增量的小步”？

§2 第二层 · 压缩呈现（Compression）—— 把外在负荷压到最低

一句话：同样的内容，用 diff、摘要、artifact 呈现，能把认知负荷理论中的**外在负荷（extraneous load）**压到任务真正需要的最低限度（Sweller, 1988；渐进披露 progressive disclosure 见 Nielsen, 1995）。人类有意识注意的信息速率仅约 10–14 bit/s，大规模压缩是认知系统的内置机制。

但压缩是双刃剑——这是 §7 第一个致命耦合的伏笔。Diff 只展示”变了什么”，却隐藏了”为什么变、影响哪些依赖、历史如何演进”，与审阅者真正需要的信息严重不匹配（来源：CodeAnt.ai, “Why Diff-Based Code Reviews Overwhelm Developers”）。

降负荷手段：diff/摘要/结构化标注（按”重命名/移动/逻辑修改”分类，见 arXiv 2605.26100）、progressive disclosure（默认折叠、按需展开）、artifact 预览面板。

PM 问题清单：

我的压缩呈现丢掉的是”噪音”还是”审阅者判断必需的上下文”？
摘要是”对原文的充分压缩”还是”对原文的有损改写”？用户能否一键穿透回原文？
折叠的默认态，是降低了负荷，还是诱导了 rubber-stamping？

§3 第三层 · 置信信号（Confidence）—— 决定”要不要怀疑”

一句话：置信信号（logprobs、verbalized confidence、可靠性着色）的作用是把审阅者的注意力分配从”逐条平均怀疑”变成”按风险加权怀疑”。但前提是信号本身被校准（calibrated）。

校准是个移动靶。Guo et al.（ICML 2017, “On Calibration of Modern Neural Networks”）发现现代深度网络系统性过度自信，并提出温度缩放（temperature scaling）这一至今仍是标准的后处理方法；但 Minderer et al.（NeurIPS 2021）发现 ViT/MLP-Mixer 校准已改善，2026 年甚至有研究（arXiv 2506.09593）发现新一代模型在分布内反而低估自信。更关键的认识论刺刀来自 ICLR 2026 的一篇 blogpost（“What are Calibrated Probabilities Actually Useful for?”）：校准与辨别能力（discrimination）是正交属性——一个对所有输入都输出 50% 置信的完美校准模型，对逐样本的选择性审阅毫无帮助。

降负荷手段：置信着色、不确定性区间、多次采样一致性。PM 问题清单：

我展示的”置信度”是经过校准的，还是模型的原始 softmax 自信？（c13 - 幻觉的不可消除性指出 RLHF 对齐税使模型在最不确定时语气最自信。）
这个信号是用于”批量阈值”还是”逐样本决策”？两者要求的属性根本不同。

§4 第四层 · 可溯源（Provenance）—— 决定”验证一条要花几秒”

一句话：溯源（citation、引用跳转、工具调用日志）把”验证一条声明”的成本从”重新调研”压到”点一下看原文”。这是 Perplexity 把审阅界面做成产品的核心。

但溯源的可信度本身要被审计。Tow Center（CJR, 2025-03）对 1600 次查询的实测：Perplexity Free 引用错误率 37%、Pro 反而 45%、Grok-3 高达 94%。错误的特殊性质是”来源张冠李戴”（URL 真实但声明被错误归属），比完全捏造更难被发现——因为它通过了”链接能点开”这个表面检验，却没通过”链接内容支持声明”这个实质检验。这恰恰是 rubber-stamping 的温床：溯源界面给了审阅者”我验证过了”的错觉，而真正的 verification 并未发生。

降负荷手段：内联可点击引用、高亮原文片段（不只给 URL）、工具调用日志外显。PM 问题清单：

我的引用是”指向来源”还是”证明声明”？用户点进去看到的是整篇文章还是被引的那一句？
溯源是降低了审阅成本，还是制造了”已审阅”的剧场感（verification vs rubber-stamping）？

§5 第五层 · 分流自动化（Routing）—— 决定”人到底要不要看”

一句话：置信门控（confidence-gated automation）让高置信结果自动放行、低置信触发人审，从而把审阅带宽集中到真正需要的地方——这是选择性预测（selective prediction, Geifman & El-Yaniv, NeurIPS 2017 / SelectiveNet, ICML 2019）和学习延迟（learning to defer, Mozannar & Sontag, ICML 2020）的产品化。

但分流的有效性有严格边界。Doku（2026, “The Confidence Gate Theorem”, arXiv 2603.09947）证明置信门控单调改善质量的充要条件是”秩对齐 + 无反转区”，在上下文漂移（contextual drift）下失效（AUC 从 0.71 降至 0.61）。更狠的实证反例：Sele & Chugunova（PLoS ONE 2024）发现加入”人在环路”后接受率 +7pp 但准确率反而下降——人类监督者”未能充当紧急制动器”。

降负荷手段：confidence-gated 自动执行、风险分级（读文件可 L3 自治、发邮件/转账须 L1 确认，见 p307 - Copilot 到 Autopilot 光谱）。PM 问题清单：

自动放行的阈值是按什么定的？在保留集上验证过秩对齐条件吗？
我赌的是”高置信=正确”，这个赌注在分布漂移时会怎么崩？

§6 第六层 · 反馈学习（Feedback）—— 决定”明天的负荷涨还是跌”

一句话：反馈层（纠错回流、行内编辑作为训练信号）决定审阅成本是一次性的还是复利下降的。行内编辑是密度最高的训练信号（见 p306 - 数据飞轮与反馈回路设计）。如果纠错不回流，每天的审阅负荷恒定不降；如果回流，理论上模型在你审过的错误类型上越来越少犯。

但这一层最容易与第五层断开——这是 §7 第三个致命耦合。

§7 判断主轴 · 三个层间致命耦合（命门）

⭐ 这一节是本节点区别于”技术博客”的命门。 六层不是六个独立旋钮，下面三个耦合点是 90% 的团队会栽的地方，每点带”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

耦合一：压缩层（§2）↘ 信号层（§3）—— 压缩丢信息致审阅失效

症状：产品上了漂亮的 diff/摘要，审阅效率”看起来”提升，但线上错误率没降甚至上升。
为什么会错：压缩层把”判断必需的上下文”当噪音丢了（diff 隐藏了依赖影响），而审阅者面对的是一个信息被阉割但仍要做判断的界面。此时即便有置信信号，信号也是基于”完整上下文”算的，与审阅者看到的”压缩视图”错配——审阅者无法用信号去定位被压缩掉的风险。压缩与信号在信息基底上断了。
正确做法：压缩层与信号层共享同一信息基底——置信信号必须标在”压缩后保留的元素”上，且对”被折叠的高风险元素”强制反折叠（confidence-gated disclosure）。
真实反例：CodeAnt.ai 指出 diff 审阅中”变更集过大时缺陷检测率下降，高级开发者被迫走橡皮图章路径”——diff 的压缩省了阅读量，却让缺陷藏进了被压缩的依赖关系里。

耦合二：信号层（§3）↘ 分流层（§5）—— 置信未校准致错误分流

症状：自动放行了一批”高置信”结果，事后发现其中错误率远高于人审批次。
为什么会错：分流层（§5）把 §3 的置信信号当作放行依据，但若信号未校准（Guo 2017 的过度自信，或 c13 - 幻觉的不可消除性的 RLHF 自信偏移），“高置信”并不等于”高正确率”。更隐蔽的是 ICLR 2026 blogpost 的正交性论证：校准好的信号适合”批量阈值”，但分流是逐样本决策，校准根本不保证逐样本安全。信号层的属性与分流层的需求不匹配。
正确做法：分流阈值必须基于逐样本可辨别的信号（如 selective prediction 的选择头），并在保留集上验证 Doku 2026 的”秩对齐 + 无反转区”；分布漂移监控触发阈值收紧。
真实反例：Sele & Chugunova（2024）——人在环路设计反而降低准确率，因为分流触发后的人审并未真正纠错，而触发本身基于一个未被验证的信号假设。

耦合三：分流层（§5）↘ 反馈层（§6）—— 自动化与反馈断开致偏见累积

症状：上线初期分流准，几个月后自动放行批次的错误率悄悄爬升，且错误呈现系统性偏向。
为什么会错：自动放行的批次默认无人审，因此默认无纠错信号回流。反馈层（§6）只从”被人审的批次”学习，而自动放行批次的错误成为学习盲区——模型在它自信的地方持续犯同类错，没人纠，飞轮只转人审那半边。更糟的是自动化偏见（automation bias，Parasuraman & Manzey, 2010, Human Factors）叠加：人对高可靠系统降低监控（learned carelessness），连本该审的也开始橡皮图章，偏见在两端同时累积。AI 招聘实验（Wilson, Caliskan et al., 2025, AAAI-AIES）显示严重偏见条件下 90% 决策追随 AI——分流把偏见自动化，反馈又收不到反向信号，闭环变成了偏见的正反馈。
正确做法：自动放行批次必须保留抽样审计回路（哪怕 1–5% 随机抽审），把审计结果强制回流反馈层；监控自动批次的错误分布漂移。分流层与反馈层之间不能是单向阀。
真实反例：医疗 AI——Budzyń et al.（2025, Lancet Gastroenterology & Hepatology）发现长期依赖 AI 提示后医生独立腺瘤检出率从 28.4% 降至 22.4%（deskilling）；自动化接管 + 技能退化 + 无纠错回流，正是这条耦合崩塌的临床版本。

§8 产品 PM 视角补盲（跳出工程 PM）

工程 PM 只会问”六层各自怎么做”。产品 PM 必须补三个看走眼点：

用户心理模型：审阅界面降低的”感知负荷”可能高于”实际负荷”——溯源界面让用户觉得自己验证了（耦合四的剧场感），这在留存上是优点、在安全上是隐患。压缩率的甜区是产品决策不是技术决策。
商业模式：审阅带宽是用户最稀缺的资源，谁能把它压到最低谁就有定价权。Perplexity Pro 引用错误率反而更高（CJR 2025）说明”付费=更准”的预期可被违背，这是信任资产的透支。
合规边界：EU AI Act 第 14 条只要求提供商让用户”知道 automation bias”，不要求从设计上消除它（Laux & Ruschemeier, 2025, European Journal of Risk Regulation）。监管把”知道风险”与”减轻风险”混同——PM 不能把合规当成审阅设计的天花板。

§9 对手框架回应（接受 + 边界）

对手立场（业界乐观派）：“AI Code Review 工具能发现 1.7× 更多问题（CodeRabbit 宣称），审阅瓶颈是工具问题，会被工具解决。”

接受：确实，结构化标注、AI-led review（arXiv 2505.16339 现场实验显示总体偏好较高）在合适的 PR 类型上降低了处理负荷，AI 辅助审阅不是伪命题。

边界与赌注：但 arXiv 2604.03196（2026, “From Industry Claims to Empirical Reality”）实证发现 AI review 存在严重”信噪比”问题，大量输出缺乏实用价值——用 AI 审 AI，等于在第二层注入新的审阅负荷。我赌的是：审阅瓶颈的本质是人类带宽的物理上限，工具只能转移负荷不能消灭它。在 verification 真正需要人类判断的环节（耦合三的审计回路），没有工具能替人承担最终责任。这个赌注的失效场景：若某天模型自我审阅可达到人类水平的可靠性（跨上下文审阅 CCR, arXiv 2603.12123 是早期尝试），则瓶颈确实可被工具消解——但目前同会话自审会”合理化而非批判”，CCR 仍是研究阶段。

§10 跨域呼应 · Simon 的注意力稀缺命题（认识论维度）

Herbert Simon〔待建概念卡〕 1971 年提出”信息的丰裕制造注意力的贫困”（“a wealth of information creates a poverty of attention”，Computers, Communications, and the Public Interest）。这个半世纪前的判断恰好是本节点的理论基底——但我要补一个 Simon 没说的认识论转向：AI 时代的稀缺不只是注意力的”量”，更是 verification 的”真伪”。

审阅 AI 报告到底是 verification（真验证）还是 rubber-stamping（橡皮图章）？这不是态度问题，是界面结构决定的认识论问题：当溯源界面只给 URL 不给被引片段（§4）、当压缩界面折叠了判断必需的上下文（§2）、当置信信号未校准（§3），界面在结构上就不可能支持真 verification，只能产出 rubber-stamping。Simon 让我们看到注意力是稀缺品；耦合分析让我们看到——坏的审阅界面会把稀缺的注意力消耗在虚假的验证仪式上，这比注意力不足更危险。这条认识论判断直接决定了 confidence display / citation / HITL 触发该怎么设计：设计目标不是”让用户感觉审过了”，而是”在结构上让真验证比假验证更省力”。（参见 0114认识论、0117社会学。）

§11 PM 决策启示（面试 / 选型 / 复现三类落地）

面试：被问”如何设计 AI 产品的审阅体验”，不要答”加个审阅页面”。答”审阅成本分布在六层注入点，我会先定位负荷源头（输出量层），再看三个致命耦合有没有被拆开”，并举耦合三（自动化与反馈断开致偏见累积）作为证明你懂系统的杀招。
选型：评估两个 AI 工具，别比 feature list，比这张六层表——它在哪几层做了真降负荷、哪几层只是制造了 rubber-stamping 的剧场感（用 §4 的”指向来源 vs 证明声明”做探针）。
复现：自己搭审阅流时，先在保留集上验证置信信号的校准与秩对齐（耦合二），再给自动放行批次留 1–5% 抽样审计回路（耦合三），否则飞轮只会越转越偏。

§12 与已有节点的关系（不复述旧节点事实）

本节点对四个旧节点做的是抽象升层与系统化整合，不是复述：

对 p304 - 防御性 UX：对抗延迟与幻觉：p304 的”幻觉应对四层”（预期管理→溯源→置信外显→优雅降级）是单产品的 UX 战术；本节点把它升维成贯穿生产链的成本注入模型，并指出 p304 各层之间也存在耦合（溯源剧场感）。属于”深化 + 系统化”。
对 p305 - 信任架构与可解释性设计：p305 讲”信任校准”，本节点补它的反面机制——审阅界面如何在结构上制造 rubber-stamping，让信任校准失效。属于”对话 + 补缺”。
对 p306 - 数据飞轮与反馈回路设计：p306 讲飞轮怎么转，本节点在耦合三指出飞轮只转半边（自动放行批次的学习盲区）的失效模式。属于”纠偏”。
对 p307 - Copilot 到 Autopilot 光谱：p307 的 L0–L4 控制权光谱是本节点第五层（分流自动化）的细化框架；本节点把它放进六层耦合里，指出 autopilot 与反馈层断开的偏见累积风险。属于”整合”。
对 c13 - 幻觉的不可消除性：c13 论证幻觉架构性不可消除，本节点接受这个前提，把”审阅”定位为幻觉不可消除世界里的必要补偿机制——并指出补偿机制本身会因耦合崩塌而失效。属于”应用 + 深化”。
与本专题同级节点：本节点是 03 架构剖面的总剖面，下游的实例剖解（E 系列）会用这六层去解剖具体产品；复现指南（R 系列）会落地耦合三的抽样审计回路。

§13 关联节点

核心（必读）

延伸（可选）

§14 修订日志

R0（2026-06-07）：首稿。建立六层注入点框架（输出量/压缩/置信/溯源/分流/反馈），三个层间致命耦合（压缩丢信息致审阅失效、置信未校准致错误分流、自动化与反馈断开致偏见累积），每耦合带四件套。接入 Simon 注意力稀缺命题与 verification vs rubber-stamping 认识论维度。对手框架回应 AI Code Review 乐观派。事实接地：Simon 1971、Cowan 2001、Guo 2017、ICLR 2026 blogpost、Doku 2026、Sele & Chugunova 2024、Budzyń 2025 Lancet、Faros AI、CJR 2025、LogRocket、Parasuraman & Manzey 2010、Wilson et al. 2025、EU AI Act 第14条 Laux & Ruschemeier 2025 均经简报核实。