A03 信息压缩率与 Progressive Disclosure

当生产成本趋零、审阅带宽成为唯一稀缺资源时，“一次性把全部输出甩给用户”不再是慷慨，而是把认知负荷外部化、把瓶颈变成事故的设计失职。本节点要回答的问题是：在审阅瓶颈时代，AI 产品该用什么单位向人类交付信息？框架是 Sweller 的认知负荷理论 × Nielsen 的渐进披露 × 信息论意义上的压缩率——三者合流，指向一个可操作的设计变量：审阅一个 AI 产物所需消耗的工作记忆组块数。这是问题陈述，不是答案：因为”压缩”本身有代价（见 §4 的不可调和选择），压错了比不压更糟。

§0 为什么是”压缩率 × 渐进披露”这个框架，而不是”信息架构”或”摘要”

读者脑中默认的框架大概率是两个：一个是 IA（信息架构）里的”组织、分类、导航”；一个是产品里随处可见的”加个摘要功能”。这两个框架在审阅瓶颈语境下都不够用，必须先挡掉。

“信息架构”的失效：IA 假设信息总量相对稳定、用户来检索既有内容。但 AI 生成把”信息总量”变成了一个可以无限暴涨的变量——一个 agent 可以在 90 秒里产出 286 行代码（来源：LogRocket 实测，REST/重构任务人类 26–29 行 vs Claude Code 186–288 行）。IA 解决”东西放哪”，不解决”东西多到没人看得过来”。后者是带宽问题，不是组织问题。

“加个摘要”的失效：摘要是压缩的一种，但”摘要 vs 全量”是个伪二选一。真正的设计变量不是”给不给摘要”，而是压缩率（compression ratio）的分层曲线——第一屏给多少 bit、展开第二层给多少、审阅者下钻到原始产物要几跳。摘要把这条曲线坍缩成两个离散点（摘要/全文），丢掉了中间所有可调节空间，而中间空间恰恰是 diff、artifact、置信度折叠面板所在的位置。

所以本节点选定的框架是三层合一：

认知科学底座：Sweller 认知负荷理论（1988）——解释”为什么不能全量甩给人”，给出工作记忆这条物理上限。
交互设计模式：Nielsen 渐进披露（1995）——解释”怎么分层暴露”，把外在负荷压到任务真正需要的最低限度。
信息论刻度：压缩率 + 有意识注意速率（~10–14 bit/s）——给”压多少”提供可量化的标尺，而不是凭感觉。

一句话：IA 管”放哪”，摘要管”短不短”，压缩率 × 渐进披露管”在人类那条 ~4 组块 / ~10 bit/s 的窄管子里，怎样让最关键的判断信息先到、且不丢失可下钻的真相”。这才是审阅瓶颈时代的核心设计动作。

§1 认知负荷理论：审阅带宽的物理上限从哪来

Sweller 在 1988 年于 Cognitive Science 发表 “Cognitive Load During Problem Solving: Effects on Learning”（vol. 12, pp. 257–285，来源：Wiley Online Library），奠定认知负荷理论。核心命题是：人类工作记忆严格受限，任何要求同时在短时记忆中保留大量元素的任务都会过载，而长时记忆中的”图式（schema）“是压缩信息、绕过这一限制的唯一机制。

1998 年 Sweller、Van Merriënboer 与 Paas 提出三类负荷（来源：Springer Educational Psychology Review 2021；Frontiers in Psychology 2017）：

类型	定义	对审阅 AI 输出的含义	设计可控性
内在负荷 Intrinsic	材料本身的元素交互复杂度	这段代码/方案本身有多难懂	低（受内容约束）
外在负荷 Extraneous	呈现方式带来的无关负担	全量刷屏、缺上下文、格式混乱	高（设计直接干预）
生成负荷 Germane	用于构建心智模型的工作记忆	审阅者搭建”这改了什么”的理解	中（可引导）

审阅瓶颈的本质，就是外在负荷被 AI 产量推到爆表。 内在负荷由内容决定，AI 帮不上也害不了；但 AI 的”全量倾泻”把巨量外在负荷直接灌给审阅者——这正是渐进披露和压缩率要砍的那一刀。

工作记忆的上限有多窄，学界有个著名争议（这里要标边界）：Miller（1956）的 7±2 组块被引上万次，但 Miller 本人强调”7”只是修辞性估算；Cowan（2001）“The Magical Number 4”（Behavioral and Brain Sciences，被引 6592 次）在排除组块化后给出真实上限约 4 个组块（来源：Cambridge Core）。对 PM 的决策含义：4 还是 7 不重要——重要的是无论哪个数字，AI 一次性吐出几百行代码或几千字报告时都远超上限。 设计目标因此不是”显示得下”，而是”在 4 组块的窗口里，让最该被判断的那几件事先进来”。

[!note] 一个需要标的边界：生成负荷的理论地位生成负荷（Germane Load）并非稳固结论。Schnotz & Kürschner（2007）、de Jong（2010）质疑其无法与内在负荷分离测量；Sweller、Kalyuga 等约在 2010–2011 年把它从”独立第三类”降级为”用于处理内在负荷的资源视角”（来源：Springer EPR 2021）。我在本节点用三分法是因为它对 PM 设计够用，但若有人用”生成负荷不可测”来质疑，我接受——三分法是工程近似，不是测量工具。

§2 渐进披露与压缩率：把外在负荷压到任务下限

Nielsen 在 1995 年提出渐进披露（Progressive Disclosure）作为交互模式：只展示当前决策所需的最少信息，其余按需展开（来源：Interaction Design Foundation 2026；UXPin 2026）。它的认知机制非常精确——直接削减外在负荷：把不属于当前判断的竞争刺激移出工作记忆窗口，给真正的判断让出组块。

压缩率给”压多少”提供刻度。两个可接地的认知科学事实：

有意识思维的信息速率约 10 bit/s，而感觉系统每秒采集约 10 亿 bit——两者相差约一亿倍（来源：Zheng & Meister, “The Unbearable Slowness of Being: Why do we live at 10 bits/s?”, Neuron 2025, Caltech）。这意味着大规模压缩不是设计偏好，而是认知系统的内置约束——人类有意识处理本就是个极窄管道，AI 产品不帮着压，等于逆着生理走。（注：该 10 bit/s 仅指有意识处理；潜意识处理量级未知，作者自承这是一个待解释的悖论。）
摘要被证明是对原始输入”高效且充分的压缩”，自然语言摘要可使下游重建原始结构的大部分信息（来源：PubMed 1997, “Impact of information compression”）。这给”摘要不必然丢失关键结构”提供了实证支点。

把两者合起来，得到本节点的核心操作定义：

审阅成本 ≈ 产物需要占用的工作记忆组块数 × 在审阅者有意识处理速率（~10 bit/s，Zheng & Meister 2025）下逐组块判断的时间。 渐进披露的工作，就是重排这条曲线——让高信息密度、低组块占用的判断要点先到（第一屏），让低密度、高组块占用的原始细节按需下钻（第 N 层）。

graph LR
    A["AI 全量产物<br/>286行/几千字<br/>外在负荷爆表"] -->|压缩 Layer 1| B["判断要点<br/>≤4 组块<br/>~10s 可读"]
    B -->|渐进披露 Layer 2| C["结构化 diff / 变更分类<br/>按需展开"]
    C -->|下钻 Layer 3| D["原始全量产物<br/>可追溯真相"]
    style A fill:#ffd5d5
    style B fill:#d5f0d5
    style D fill:#e0e0ff

Diff / 摘要 / Artifact 三者，本质上都是这条曲线上的压缩-披露节点：diff 把”全文件”压成”变了什么”；摘要把”长报告”压成”结论 + 关键证据”；Claude 的 Artifact 把”对话流里的代码”析出成”可独立预览、带 +12 -1 diff 统计的产物”（来源：Claude Desktop 现有 diff 统计指示功能）。它们不是三个独立 feature，而是同一个认知负荷管理动作的不同切片。

§3 Diff 为什么”压对了一半、压错了一半”——一个不能浪漫化的实证

Diff 是最被推崇的压缩形式，但它正好暴露了”压缩有代价”。这一节要给 diff 泼一盆冷水，否则就是 hype。

压对的一半：diff 把”整个文件”压成”变了什么”，组块占用大幅下降。

压错的一半（来源：CodeAnt.ai “Why Diff-Based Code Reviews Overwhelm Developers”，WebFetch 核实）：diff 只显示”变了什么”，却隐藏了”为什么变、影响哪些依赖、历史怎么演进”——而这恰恰是审阅者真正需要的判断信息。换句话说，diff 压掉的不只是冗余，还有上下文。当变更集过大时，4–7 组块被迅速淹没，缺陷检测率下降，资深开发者被迫走”橡皮图章”或陷入倦怠。

这把矛盾接上了实证。Faros AI “AI Productivity Paradox” 研究分析了 1,255 个团队、10,000+ 开发者的遥测数据（来源：faros.ai/blog/ai-software-engineering）：高 AI 采用团队完成任务 +21%、PR 合并数 +98%，但 PR 审阅时间 +91%，平均 PR 体积 +154%；且 AI 采用与公司级交付指标（DORA）的相关性微弱甚至不存在。diff 没能阻止审阅时间随产量同步暴涨——因为它压缩的维度（行级变更）和审阅者真正需要的维度（必要性、影响面、上下文）不匹配。

LogRocket 的实测点出了认知性质的根本转变：审阅 AI 代码时，不是在验证正确性，而是在判断必要性——“这 286 行里有多少是这个任务真正需要的”。这是与审阅人类代码完全不同的认知任务（人类代码默认”写的人觉得有必要”，AI 代码没有这个先验）。对压缩设计的含义：好的压缩不该只压”语法变更”，要压向”必要性判断”——这正是 arXiv 2605.26100 “Beyond Summaries” 提出的结构化变更标注（按重命名/移动/逻辑修改分类）想做的事：纯文本摘要接不进自动化流程，结构化标注才能支持优先级过滤。

LLM 辅助审阅的现场实验（来源：arXiv 2505.16339，WirelessCar Sweden AB）给出一个正面证据：当 LLM 反馈”结构清晰、范围精准、语气中性、可操作”——即符合审阅者认知预期时——报告处理负荷下降、采纳率提升；但首要障碍是假阳性和信任问题。这把我们引向下一节最危险的耦合。

§4 判断主轴：压缩这件事，90% 的人会在这四个点上搞错

这是本节点的命门。压缩不是越多越好，它有一个致命的对立面：压缩既能降低认知负荷，也能制造”虚假的可审性”——让审阅看起来完成了，实际只是被压缩界面诱导着 rubber-stamp 了。

错点一：把”压缩率”当成单调收益，压到看不见真相

症状：第一屏只给一句”✅ 已完成，3 个文件已更新”，下钻入口藏三跳。
为什么会错：把渐进披露误解为”默认折叠一切”。折叠降低了外在负荷，却也把审阅者推向系统 1（自动接受）、关掉系统 2（批判验证）。
正确做法：压缩率要与风险成反比——高风险产物第一屏必须强制暴露足够判断信息（见 p307 - Copilot 到 Autopilot 光谱的风险分级），低风险才允许深度折叠。
真实反例：Perplexity 的内联引用看似把”溯源”压缩成可点编号，但 Tow Center 实测（来源：CJR 2025-03，1600 次查询）Perplexity Pro 引用错误率 45%（比 Free 的 37% 更高）。压缩界面（一个干净的编号链接）制造了”已溯源”的视觉确证，但 URL 真实而归属错误——这种错误比凭空捏造更难被审阅者发现。压缩界面越精致，rubber-stamping 风险越高。

错点二：压缩的维度，对不上审阅者真正要判断的维度

症状：给了完美的行级 diff，但审阅者要问的是”这个改动有没有必要”。
为什么会错：压缩工具（diff）继承自”审阅人类代码”的时代，那时假设”必要性已被作者保证”。AI 时代这个先验失效了（见 §3）。
正确做法：压缩要朝”决策所需信息”对齐，不是朝”变更最小表示”对齐。
真实反例：§3 的 Faros 数据——行级 diff 没挡住 PR 审阅时间 +91%。

错点三：用压缩降低负荷，反而喂大了自动化偏见

症状：摘要写得越流畅、越自信，审阅者越快点”通过”。
为什么会错：降低认知负荷的同时，也降低了系统 2 被激活的概率。这不是 bug，是认知机制——automation bias 与 complacency 在专家和新手身上都出现，训练无法消除（来源：Parasuraman & Manzey 2010, Human Factors）。
正确做法：压缩界面要保留”摩擦点”——在高风险节点强制审阅者做一个不可被一键略过的判断动作。
真实反例：Sele & Chugunova（2024, PLoS ONE）发现，加入人工监督后接受率 +7pp，但准确率反而下降（误差 17.4→18.0 百分位）——“人在环路”没充当紧急制动器。压缩 + 一键通过，等于给 automation bias 铺了红毯。

错点四：以为”解释/展开”必然帮助审阅——XAI 的反向证据

症状：在压缩面板里加详细的 AI rationale，假定”解释越多，审阅越批判”。
为什么会错：解释会增加信任，有时反而加剧 automation bias；复杂解释抬高认知负荷、降低批判性评估。
正确做法：把”解释”当成可调变量做 A/B，而非默认善因；区分”帮助逐案评估的解释”和”诱导信任的解释”。
真实反例：XAI 能否缓解 automation bias，实证方向相互冲突、无定论（来源：Springer AI & Society 2025 综述；arXiv 2204.08859）。我在这里押的赌注：渐进披露的”可下钻”价值大于”默认展开解释”的价值——因为下钻是审阅者主动发起的系统 2 动作，而展开是被动接收。但这是赌注，不是定论。

§5 产品 PM 视角补盲：压缩率不只是 UX 变量，也是商业与合规变量

工程视角容易把压缩当纯 UX 问题。三个非工程的”看走眼”点：

用户心理模型：压缩界面塑造用户对”AI 有多可靠”的心理锚。第一屏给”✅ 完成”，用户会形成”它基本都对”的模型；给”已完成，2 处低置信，建议复核”，用户会形成”它是协作者，需要我把关”。压缩率的选择，是在偷偷训练用户的信任校准曲线（呼应 p305 - 信任架构与可解释性设计：目标是校准而非最大化信任）。
商业模式：压缩得越狠、自动执行越多，用户感知价值越高（“它替我干完了”），但产品方承担的责任也越大——一旦压缩掩盖了错误且被自动执行，归责落到产品。这是产品定价与责任边界的隐性耦合：你压缩掉的审阅步骤，等于你替用户承担的风险溢价。
合规边界：EU AI Act 第 14 条要求高风险 AI 让用户”知道 automation bias”，但 Laux & Ruschemeier（2025, European Journal of Risk Regulation）批评其只建立”感知义务”、不要求从设计层面消除偏见（来源：arXiv 2502.10036）。对 PM 的含义：把”我们提供了折叠的详情入口”当成合规护身符是危险的——监管正在从”提供了信息”转向追问”是否真的减轻了风险”。压缩界面的合规性，迟早要以”审阅者是否实际进行了有效判断”来衡量，而非以”信息是否技术上可获取”来衡量。

§6 跨域呼应：Sweller 认知负荷 × Herbert Simon 注意力稀缺——两个奠基命题的合流

本节点调度两个跨域资源，且要具体展开它们如何改变技术判断（不空喊）。

第一个是 Sweller 的认知负荷理论（已在 §1 落地）——它给”审阅带宽”提供了物理基础：工作记忆 ~4 组块是硬约束，不是态度问题。这把”审阅瓶颈”从一个工程吐槽（“代码太多看不完”）升级为一个有认知科学根基的结构命题（“人类信息吞吐有生理上限，AI 产量没有”）。没有 Sweller，“压缩”只是经验法则；有了 Sweller，压缩有了可量化的目标函数：把产物的组块占用压到 4 以内。

第二个是 Herbert Simon 1971 年的奠基命题（来源：Simon, “Designing Organizations for an Information-Rich World,” in Computers, Communications, and the Public Interest, 1971, pp. 37–52）：

“信息的丰裕制造了注意力的贫困（a wealth of information creates a poverty of attention），因此需要在过剩的信息源之间高效地分配注意力。”

Simon 的关键洞察是：信息的成本主要由接收者承担，而非生产者。 这正是审阅瓶颈的经济学原型——AI 把生产成本压到趋零，于是全部成本转移到接收端（审阅者）的注意力上。这个跨域命题改变了一个具体技术判断：它告诉我们”无压缩的全量输出”不是中性的，而是一次成本转嫁——生产方省了压缩的力气，把它转嫁成了审阅方的注意力支出。因此”压缩率”不只是 UX 优化，它是在决定这笔注意力成本由谁买单。一个不压缩的 AI 产品，本质上是在向用户开一张隐性的注意力账单。

[!note] 引入一个 Rick 未必熟的对手框架以破 echo chamber Adrian Lenardic et al.（2022）批评注意力经济逻辑渗入科学评价体系，导致”公众关注度”扭曲研究价值判断（来源：Tandfonline 2025 相关讨论）。把这个批评搬到本节点：如果产品一味追求”压缩到用户秒懂、秒批准”，会不会把”易于审阅”异化为”易于被通过”？ 即压缩的优化目标从”帮助判断”滑向”促成点击”。这是本节点必须自承的盲点——压缩率的善恶，取决于它服务于审阅者的判断，还是服务于产品的通过率指标。

跨域链入：0114认识论（审阅 AI 报告是 verification 还是 rubber-stamping，是认识论问题）、0117社会学（注意力作为被争夺的稀缺资源，是一个社会分配问题）。

§7 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌上：当被问”如何设计一个 AI 辅助审阅产品”，不要答”加摘要、加 diff”。答：“我会先确定审阅一个产物要占用几个工作记忆组块，目标压到 ~4 以内；然后按风险设计渐进披露曲线——高风险强制第一屏暴露判断信息、保留摩擦点，低风险才允许深折叠；并且我会警惕压缩制造的 rubber-stamping——精致的压缩界面会喂大 automation bias（引 Sele & Chugunova 2024 的反例）。” 30 秒说清，且每句带证据。

选型会上：比较两个 AI 编码工具时，别比 feature list，比压缩-披露曲线设计：它的 diff 是否暴露了必要性/影响面（而非只有行级变更）？高风险操作前是否有不可一键略过的判断点？置信度是否真实驱动展示层级，还是装饰？（参考 Claude Code 与 Cursor 在逐 hunk 批准 UI 上的差距，来源：GitHub Issue #33932。）

复现时：自己搭审阅界面，第一版就引入”组块预算”这个度量——估算每个产物第一屏占用几个组块，超过 4 个就该再压一层或拆成渐进披露。把”压缩率随风险反向调节”做成可配置参数，而不是写死的折叠规则。

§8 与已有节点的关系（升级对照，不复述）

本节点对照以下旧节点，做的是补缺 + 深化，不复述其事实基础：

对照 p302 - 七种 AI 交互设计模式：p302 列举了交互模式的”是什么”；本节点补缺了一个 p302 未独立成节的维度——把”渐进披露/摘要/diff”从七种模式里抽出来，统一到”认知负荷管理”这一个判断主轴下，并给出可量化的压缩率刻度。p302 是模式目录，本节点是其中一类模式的认知科学解剖。
对照 p304 - 防御性 UX：对抗延迟与幻觉：p304 处理”延迟与幻觉”两类防御；本节点深化了一个 p304 默认但未展开的前提——防御性 UX 的”溯源引用、置信度外显、优雅降级”本质上都是压缩-披露动作，且它们有反作用（§4 错点一：精致的溯源压缩反而制造虚假可审性）。p304 把溯源当解药，本节点指出解药也有副作用。
对照 p305 - 信任架构与可解释性设计：p305 主张”信任校准而非最大化”、“分层透明悖论”；本节点对话——压缩率正是分层透明的实现旋钮，§4 错点四的 XAI 反向证据直接支撑了 p305 的”过度透明反降低信任”判断，给它补了实证。
对照 c13 - 幻觉的不可消除性：c13 证明幻觉架构性不可消除；本节点承接——既然幻觉不可消除，审阅就不可省略，于是”如何压缩以让有限审阅带宽对准最可能出错处”成为刚需。c13 是病因，本节点是带宽侧的应对设计。
对照 0414（coding 审阅）与 0417（context）专题：0414 关注 coding agent 的审阅实践，本节点提供其认知科学底座（为什么 diff 压对了一半）；0417 关注 context 管理，本节点的”压缩率”与 context window 是同一枚硬币的两面——AI 侧扩 context，人侧压 context，张力正在此。

§9 关联节点

核心（必读）

p302 - 七种 AI 交互设计模式 — 本节点是其中”渐进披露/摘要”模式的深度解剖
p304 - 防御性 UX：对抗延迟与幻觉 — 溯源/置信度/降级都是压缩-披露动作
p305 - 信任架构与可解释性设计 — 分层透明悖论的实现旋钮即压缩率
c13 - 幻觉的不可消除性 — 幻觉不可消除 → 审阅不可省 → 压缩成刚需
p307 - Copilot 到 Autopilot 光谱 — 压缩率应与控制层级/风险反向耦合
0114认识论 — 审阅是 verification 还是 rubber-stamping 的认识论之问

延伸（可选）

p306 - 数据飞轮与反馈回路设计 — 审阅者的接受/拒绝是高密度训练信号
幻觉 — 概念卡：压缩界面如何掩盖引用幻觉
Agent — agent 产量是外在负荷爆表的源头
Test-Time Compute — 生成侧投入更多算力，审阅侧带宽不变，张力加剧
Claude Code — Artifact / diff 统计是压缩-披露的一手观察对象
0117社会学 — 注意力作为被争夺的稀缺资源
AI PM 知识图谱·总索引 — 回到总图

修订日志

R0（2026-06-07）首稿：确立”压缩率 × 渐进披露 × 认知负荷”三层框架；§4 四错点判断主轴；§6 Sweller × Simon 双跨域落地；与 p302/p304/p305/p307/c13、0414/0417 的升级对照。事实接地：Sweller 1988、Simon 1971、Cowan 2001、Nielsen 1995、Parasuraman & Manzey 2010、Sele & Chugunova 2024、CodeAnt/CJR/LogRocket 实测均已标来源；XAI 反向证据标 Springer 2025 综述。
R0.1（2026-06-07）grounding 升级：将”10–14 bit/s”原综述转引升级为原始论文 Zheng & Meister, Neuron 2025（Caltech，10 bit/s 有意识思维速率）；将 Faros “+91%/+98%/+154%” 从第三方转载升级为 Faros 官方研究报告（1,255 团队 / 10,000+ 开发者，含 +21% 任务完成、DORA 弱相关）。两项原待核实项均已落实原始来源。当前无遗留待核实项。