A01 审阅瓶颈命题·从生产瓶颈到审阅瓶颈

本节点要解决的问题：当 AI 把”生产一段内容/一段代码/一份报告”的边际成本压到趋近于零，整个价值链上真正稀缺的资源是什么、约束移到了哪里？本节给出一个反共识断言并把它当作整个 0418 专题的地基——瓶颈从”人类的生产能力”反转成了”人类的审阅带宽”；任何还在优化”让 AI 生成更多”而非”减少人类需审阅的量”的产品，都在优化错误的变量。这是一个关于约束理论（Theory of Constraints）在 AI 时代如何换位的命题，框架名叫”审阅瓶颈反转”。

§0 为什么是”瓶颈反转”这个框架，而不是”效率提升”框架

业界谈 AI 编程、AI 写作、AI 调研，默认框架是效率提升：同样的人，单位时间产出更多，所以更好。这个框架的隐含假设是”生产是瓶颈”——只要把生产环节加速，整条链路就加速。

这个假设在 AI 之前大体成立，在 AI 之后结构性失效。约束理论（Goldratt, The Goal, 1984）的核心洞察是：一条链路的吞吐量只由最慢的那个环节决定，加速非瓶颈环节不仅不增加吞吐，还会在瓶颈前堆积在制品（WIP），反而恶化系统。AI 干的事情正是疯狂加速一个非瓶颈环节（生产），而真正的瓶颈（人类的理解、判断、负责）纹丝不动——甚至因为生产洪流的冲击而变得更慢。

所以本专题拒绝”效率提升”框架，采用”瓶颈反转”框架。两者给出的产品决策截然相反：

效率框架下，正确动作是”提高生成速度、扩大生成量、降低生成成本”。
瓶颈框架下，正确动作是”压缩需审阅量、提高单位审阅的杠杆、把认知工作前移到瓶颈不会堆积的地方”。

判断一个 AI 产品团队是否看懂了这个时代，最快的探针就是一句话：你们在优化”生成更多”还是”减少需审阅量”？ 前者是在加速非瓶颈，后者才是在动瓶颈。

§1 命题的两端：生成的不对称崩塌 vs 审阅的刚性

把”瓶颈反转”拆成可验证的两个子断言。

子断言一：生成端成本趋零，且这是已发生的事实，不是预测。

代码方面，2025 年的开发者调查显示 AI 生成代码占新增代码的比例已达到约 42%（来源：Faros AI 对 10,000+ 开发者样本的分析，经 LogRocket/Aviator 二手转引）。内容方面，AI 生成文章占全网新发布文章的比例从 2020 年 1 月的约 2.2% 升至 2025 年 5 月的 51.7%，首次超过人类撰写发生在 2024 年 11 月（来源：Visual Capitalist 可视化，引自 Graphite 数据集）。学术方面，UC Berkeley Haas 与 Cornell 团队分析 2018–2024 年超 200 万篇预印本，AI 采用者论文产出提升 50% 以上（来源：De Vaan & Stuart et al., Science, 2025）。三个域指向同一结构：生成的边际成本与边际时间正在塌向零。

子断言二：审阅端的成本是刚性的，不随生成提速而提速。

人类审阅一段内容所需的时间，取决于三件事：内容本身的复杂度（内在认知负荷）、审阅者的背景知识、以及承担判断所需的认知投入。这三者都不随 AI 产量线性扩展——AI 一秒写出的东西，人类不会因此一秒就读懂。工作记忆的硬上限是结构性的：Miller (1956) 的 7±2 与 Cowan (2001) 在排除组块化后测得的约 4 个组块，无论取哪个数，都远小于 AI 一次性吐出的数百行代码或数千字报告所含的元素交互数。

两端的不对称是命题的全部张力所在。一个直观但尚无严格受控实验支撑的口径是”生成几秒、审阅几分”——这个定性关系成立，但目前查不到经同行评审的标准时间比〔待核实〕。有实证支撑的，是审阅端确实在被冲垮：De Vaan 的原话是 AI 论文洪流”正在制造巨大瓶颈，评审者极难跟上”。

graph LR
  subgraph 旧约束["AI 之前：生产是瓶颈"]
    A1[构思] --> A2["⚠️生产<br/>慢"] --> A3[审阅] --> A4[发布]
  end
  subgraph 新约束["AI 之后：审阅是瓶颈"]
    B1[构思] --> B2["生产<br/>趋零"] --> B3["⚠️审阅<br/>刚性·被冲垮"] --> B4[发布]
  end

§2 跨域呼应：Simon 的注意力稀缺命题——本专题的经济学地基

[!note] 跨域调度：Herbert A. Simon（1971）注意力经济把”审阅瓶颈”放进更大的思想史，它不是新现象，而是 Simon 半个世纪前命题的最新一幕。

1971 年，Herbert Simon 在 Computers, Communications, and the Public Interest（Greenberger 编，Johns Hopkins Press，pp. 37–52）的文章 “Designing Organizations for an Information-Rich World” 中写下后来被反复引用的判断：

“在一个信息丰裕的世界里，信息的丰裕意味着另一种东西的匮乏：信息所消耗之物的稀缺。信息消耗什么是相当明显的：它消耗接收者的注意力。因此信息的丰裕制造了注意力的贫困。”

Simon 的关键贡献不是”信息会过载”这种直觉，而是把它结构化成一个经济学问题：信息的成本主要由接收者（审阅者）承担，而非生产者；当生产成本趋零，全部约束就压到接收端的注意力分配上。这正是本专题的地基——AI 让 Simon 命题从”媒体/广告”语境跳进”生产工具”语境：过去是海量信息争夺消费者的注意力，现在是你自己的 AI 助手生产的海量产出，争夺你作为负责人的审阅带宽。

Simon 的框架直接改变了一个技术判断：审阅瓶颈不是”AI 还不够好”的暂时性问题，而是注意力稀缺这一恒定约束在新成本结构下的必然显形。哪怕 AI 的质量再翻几倍，只要它仍需要人类承担最终责任，注意力就仍是那个莴苣——兔子（信息）繁殖得越快，莴苣越稀缺。这把”等模型变强就好了”的乐观主义钉死在了经济学约束上。

延伸链入：0117社会学中的注意力作为社会资源、0114认识论中”理解 vs 接收”的区分。

§3 判断主轴：90% 的 AI 产品团队会在这里搞错的四个点

这是本节点的命门。下面四个错位，每一个都对应一个真实可观测的产品决策失误。

错位一：把”生成更多”当成产品价值，而瓶颈在审阅端。

症状：产品路线图的 KPI 是”生成速度""单次生成 token 量""一次能改多少文件”；demo 比拼”看 AI 一口气写了 500 行”。
为什么会错：沿用了 AI 之前的”生产是瓶颈”心智，下意识优化最显眼、最容易涨的指标。约束理论说这是加速非瓶颈——WIP（待审代码/待读报告）在审阅前疯狂堆积。
正确做法：把北极星从”生成量”换成”净通过量”（被人类接受并负责发布的量），并显式优化”单位产出需要的审阅时间”。
真实反例：Faros AI 对 10,000+ 开发者的分析显示，高 AI 采用团队 PR 合并数 +98%，但 PR 审阅时间 +91%、平均 PR 体积 +154%（来源：Faros AI，经 Aviator/LogRocket 转引）。生成端的胜利几乎被审阅端的堆积对冲掉了。更刺眼的是 METR 2025 的 RCT：16 名有经验的开源开发者、246 个任务，用 AI 实际比不用慢 19%，而他们自己预测会快 24%（来源：METR, 2025-07；arXiv 2507.09089。注意样本小、任务为成熟开源项目，不可轻易泛化）。

错位二：把”审阅”误当成低成本的橡皮图章环节，于是不为它做产品设计。

症状：生成界面精雕细琢，审阅界面是个原始的 diff 或一大段纯文本，“用户自己看一下就行”。
为什么会错：低估了审阅的认知负荷。当变更集超过工作记忆容量，缺陷检出率断崖下降，审阅者被迫走”橡皮图章”或”溺水”两条歧路（来源：CodeAnt 对 diff 审阅认知负荷的分析；Satya Borg, “Human Review is the Bottleneck”, 2026）。
正确做法：把”审阅界面即产品”当成一等公民。压缩率、progressive disclosure、diff/summary/artifact 都是在为审阅端做”信息压缩 + 渐进披露”，目标是把外在认知负荷压到任务真正需要的最低限度。
真实反例：Claude Code 的 VS Code 扩展长期缺少 Copilot Edits 那样的逐 hunk 批准 UI，开发者专门提 feature request 要求补齐（来源：GitHub Issue #33932）——审阅界面的设计差距是真实的产品落后项。

错位三：把”审阅通过”当成 verification（真验证），但实际发生的是 rubber-stamping（盖章）。

症状：HITL（human-in-the-loop）流程里有”人类确认”这一步，团队就宣称”有人类把关、安全”。
为什么会错：自动化偏见（automation bias）。当输出速度超过人的认知评估能力、或系统长期表现良好，人会系统性降低监控强度（“learned carelessness”），监督沦为剧场。这不是懒惰或性格问题，而是多任务下注意力有限性的结构特征（来源：Parasuraman & Manzey, Human Factors, 2010）。
正确做法：从认识论上严肃对待”审阅 AI 报告到底是 verification 还是 rubber-stamping”这个问题——它直接决定 confidence display、citation、HITL 触发点的设计（这是本专题认识论维度的主轴，详见后续节点）。设计上要逼出系统 2，而非默认系统 1 通过。
真实反例：Sele & Chugunova（PLoS ONE, 2024）的实验中，加入”人在环路”后接受率提升约 7 个百分点，但预测准确率反而下降（误差从 17.4 升到 18.0 百分位）——人类监督者”未能充当紧急制动器”。“有人把关”不等于”把关有效”。

错位四：把审阅瓶颈当成”以后再说”的二阶问题，而它是当下就在反噬产品质量的一阶问题。

症状：“先把生成做好，审阅体验迭代到 V2 再优化。”
为什么会错：瓶颈不会等你。生成提速的同时审阅就被冲垮，质量损失即时发生。学术界已观测到：2025 年 ICLR 约 20%、Nature Communications 约 12% 的同行评审意见疑似 AI 生成（来源：arXiv 2025 检测研究；Nature, 2025），即审阅环节本身正在被 AI 反向占领——人类带宽不够，就用 AI 假装审阅，瓶颈被掩盖而非解决。
正确做法：把”减少需审阅量 / 提高审阅杠杆”放进产品的第一性目标，与生成能力同等优先级。
真实反例：医疗领域，Budzyń et al.（Lancet Gastroenterology & Hepatology, 2025）发现长期依赖 AI 提示后，医生独立肠镜的腺瘤检出率从 28.4% 降到 22.4%——审阅/独立判断能力的退化（deskilling）是即时且可测的，不是远期风险。

§4 产品 PM 视角补盲：工程之外的三个看走眼点

跳出”工程 PM”视角，审阅瓶颈在用户心理、商业模式、合规三个面向上各有一个易被忽略的坑。

用户心理模型：用户对 AI 产出的信任曲线是不对称的——建立缓慢、崩塌迅速（呼应 p305 - 信任架构与可解释性设计）。如果产品默认”全部接受”且偶尔出错，一次崩塌会让用户从过度信任直接跌进过度怀疑，反而把审阅成本推到最高（什么都要重查）。设计目标是信任校准，不是信任最大化。
商业模式：很多 AI 产品按”生成量”计费（per token / per generation），这把激励对齐到了非瓶颈环节——卖得越多，用户审阅负担越重，留存越差。真正可持续的或许是按”净通过量/已接受成果”计价，让商业利益与”减少需审阅量”同向。
合规边界：EU AI Act 第 14 条要求高风险 AI 让用户”知道存在 automation bias”，但 Laux & Ruschemeier（European Journal of Risk Regulation, 2025；arXiv 2502.10036）批评：仅要求”感知义务”不等于从设计层面”减轻”偏见，把”知道有风险”与”实际降低风险”混为一谈。对 PM 的含义：合规打勾 ≠ 审阅有效，监管目前管不到瓶颈的真问题。

§5 对手框架回应：接受 + 边界

对手立场 A：注意力经济/审阅瓶颈是个被夸大的隐喻——注意力不符合经济商品特征（不可储存、不可转让、不可积累），“瓶颈反转”只是营销话术。（代表：部分经济学家与批评者，如 Adrian Lenardic et al., 2022，批评注意力经济逻辑扭曲学术激励；Wikipedia 注意力经济词条本身被标”需更多引用”。）

接受：对。把注意力简单类比成货币确实掩盖了它的特殊性，且本专题部分支撑数据（如”屏幕专注时长 47 秒""信息过载成本 1 万亿美元”）来自行业汇编站点而非同行评审论文〔来源强度弱，引用须降级〕。
边界与赌注：但本专题不依赖”注意力是商品”这个强命题。它只需要一个弱得多、且有硬实证的命题：人类承担最终责任的审阅带宽是有限且刚性的（工作记忆上限、automation bias、deskilling 三组实证都独立成立）。即使”注意力经济”这个宏大叙事可被质疑，审阅瓶颈作为工程约束依然成立。我赌的是：约束理论 + 认知负荷的微观机制，比”注意力经济”的宏观隐喻更经得起拷问。

对手立场 B（Rick 未读的对手框架）：审阅瓶颈是过渡现象，终将被”AI 审阅 AI”消解——用 verifier/judge 模型、多 Agent 互审来替代人类审阅带宽。 （代表：AI 自动化评估、LLM-as-judge、constitutional AI 的支持者；以及 Jevons 悖论视角——成本下降会扩大需求而非缩减瓶颈。）

接受：对一类可程序化验证的任务（单元测试通过、schema 校验、事实可被检索核对），AI 审阅确实能吸收大量审阅量，瓶颈可被推后。
边界与赌注：但凡需要人类承担责任的决策（医疗、法律、安全、对外发布），“谁来审阅审阅者”的回归问题无法用更多 AI 关闭——AI 审阅 AI 仍把最终责任留给人，只是把同一份 automation bias 叠了一层。c13 已论证幻觉的架构性不可消除（见 c13 - 幻觉的不可消除性），这意味着 verifier 自身也会幻觉。我赌的是：在责任不可转移的场景，审阅瓶颈是结构性的、不可被纯技术消解的，只能被设计缓解。

§6 PM 决策启示：面试 / 选型 / 复现三类落地

面试：被问”如何评估一个 AI 编程产品的好坏”时，不要答”看它生成代码的质量和速度”。答：“我先问它在优化生成还是优化审阅——前者是加速非瓶颈，后者才动瓶颈；然后看它的净通过量、PR 体积变化、以及审阅界面是不是一等公民。“30 秒区分出”懂约束理论”和”只懂 feature list”。
选型：评估两个 AI 工具时，把”审阅成本”作为独立维度建表，列：单次产出的平均审阅时长、是否支持渐进披露/逐 hunk 接受、是否有 confidence-gated 的自动执行、是否提供可溯源引用。别只比生成能力。
复现/自用：Rick 自己深度使用 Claude Code 是一手研究材料——可直接观察自己在审阅 AI 大段 diff 时，哪些时刻滑进了 rubber-stamping、哪些设计（如分块 diff、commit 拆分、先看 spec 再看实现）真正降低了审阅负荷。把这些一手观察沉淀进 E 节点。

§7 与已有节点的关系（升级对照，不复述）

本节点是 0418 专题的总命题地基，对既有 0403 产品设计节点做的是”升高一个抽象层 + 提供统一约束视角”：

对 p302 - 七种 AI 交互设计模式：p302 罗列模式，本节点提供”为什么需要这些模式”的单一约束根因——所有压缩/披露/确认模式都是对审阅瓶颈的回应。做的是根因补缺。
对 p304 - 防御性 UX：对抗延迟与幻觉：p304 把幻觉当成需对抗的输出缺陷，本节点把”审阅幻觉的成本”前置为瓶颈本身——防御性 UX 是审阅杠杆的子集。做的是视角升维。
对 p305 - 信任架构与可解释性设计：p305 讲信任校准，本节点指出信任校准的目的正是降低审阅成本（校准好 → 该信的快速通过、该疑的精准拦截）。做的是目的对话。
对 p306 - 数据飞轮与反馈回路设计：审阅环节产生的接受/拒绝/纠错信号是飞轮的高密度燃料——本节点为 p306 提供”飞轮数据从哪来”的答案。做的是接口对接。
对 p307 - Copilot 到 Autopilot 光谱：p307 的 L0–L4 控制权光谱，本质是”审阅介入程度”光谱——autopilot 即审阅前移到 confidence gate。做的是重新诠释。
对 c13 - 幻觉的不可消除性：c13 论证幻觉不可消除，本节点据此推出”审阅瓶颈不可消除”的产品级推论。做的是下游推演。
对工程协作侧 0414（coding 审阅）与 0417（context）专题：0414 在战术层讲怎么审 AI 代码，本节点在战略层讲”审阅为什么是瓶颈”；0417 讲上下文工程如何喂模型，本节点讲上下文的反向问题——人类的”上下文窗口”才是真稀缺。做的是抽象层互补，不复述其战术细节。

§8 关联节点

核心（必读）

延伸（可选）

修订日志

R0（2026-06-07）：首稿。确立”瓶颈反转”框架（约束理论 + Simon 注意力稀缺），四件套判断主轴，接入注意力经济/AI 审阅 AI 两组对手框架，落地三类 PM 决策启示，与 p302/p304/p305/p306/p307、c13、0414、0417 建立升级对照。事实接地待 grounding pass 复核。