R02 Progressive Disclosure 信息压缩实验

本节要解决的问题：当 AI 把一份长报告/长 diff/长 PR 甩到审阅者面前时，“全文一次性平铺”几乎一定通向两种坏结局之一——溺水（drowning，逐字读完但崩溃）或橡皮图章（rubber-stamping，假装读完直接批准）。渐进披露（Progressive Disclosure）＋信息压缩是把外在认知负荷（extraneous load）压到任务真正需要的最低限度的工程手段。但它有一个致命的双刃：压缩既能降低审阅时间，也能制造”看起来审过了、其实没审”的假象。本节给一套可自己跑的对照实验模板，外加一套测法，让你用数字而不是直觉去回答”我的分层设计到底是省了时间，还是省掉了审阅本身”。本节的框架名是：压缩率 × 召回率的双轴度量——任何只测时间、不测漏检的实验都是在自欺。

[!warning] 这是一份”复现指南”而非”原理课” 渐进披露的认知科学原理（Sweller 三类负荷、Miller/Cowan 工作记忆上限、Nielsen 1995 渐进披露模式）在本专题 [A03 信息压缩率与 Progressive Disclosure](/kb/专题-评测与度量/a03-信息压缩率与-progressive-disclosure/)、[A01 审阅瓶颈的认知科学地基](/kb/专题-评测与度量/a01-审阅瓶颈命题-从生产瓶颈到审阅瓶颈/) 里讲透。本节不复述，只给”怎么动手测”。原理基础引自：Sweller, J. (1988), Cognitive Science 12, 257–285；Nielsen, J. (1995), “Progressive Disclosure”, NN/g。

§0 为什么是”压缩率 × 召回率”而不是”只测审阅时间”

最容易踩的框架错误：把”审阅时间下降”当成实验成功的唯一指标。

这是错的，而且错得很危险。审阅时间下降有两种完全相反的成因：

好的下降：分层设计帮审阅者更快定位到真正需要看的部分，外在负荷降低，单位时间检出率不变或上升。
坏的下降：分层设计把审阅者哄进了系统 1（Kahneman 快思考），他根本没进入系统 2 的批判性核查，时间是省了，因为他压根没审。

这两者在”时间”这一个维度上完全无法区分。Sele & Chugunova (2024, PLoS ONE) 的实验给了一个刺骨的反例：给自动化决策加上”人在环路”后，接受率上升 7 个百分点，但预测准确率反而下降（误差从第 17.4 百分位升到 18.0）——人类监督者”未能充当紧急制动器”。这正是”看起来审了、实际没审”的实证形态。

所以本节的核心方法论硬约束是：

任何渐进披露实验，必须同时测”审阅时间”和”缺陷召回率”。只测前者的实验，结论一律不可信。

度量的双轴：

轴	测什么	朝哪个方向算好	工具
效率轴	审阅完成时间、披露层级的实际展开深度	时间 ↓	计时 + 交互日志（哪些折叠块被展开）
质量轴	注入缺陷的召回率（recall）、假阳性率	召回率 ↑ 或 ≈	种子缺陷（seeded defects）+ 盲评

只有当效率轴改善、质量轴不退化时，分层设计才是真的赢。

§1 实验设计：种子缺陷 + AB 对照

最小可信实验需要四个组件，缺一不可。

1.1 物料：带”种子缺陷”的长 AI 输出

不能拿一份”干净”的 AI 报告去测——你无法测量审阅者漏掉了什么，因为你不知道里面有什么该被发现。做法是人为注入已知缺陷（seeded defects / bug injection），这是软件工程里成熟的”变异测试 / 缺陷植入”思路的迁移。

准备 1 份长 AI 输出（建议 ≥ 800 行代码 diff，或 ≥ 3000 字报告——要超过 Cowan 工作记忆 4 组块、Miller 7±2 组块的上限，逼出负荷）。
注入 N 个已知缺陷，分三档严重度：
- 致命（P0）：逻辑错误、安全漏洞、事实性幻觉（对应 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) 的五分类学：事实/引用/逻辑/时效/谄媚）。
- 中等（P1）：可用性/边界条件问题、引用张冠李戴（Perplexity 式”URL 真但归属错”——比凭空捏造更难被发现，见 CJR/Tow Center 2025）。
- 轻微（P2）：风格、命名、冗余。
缺陷位置随机分布，且故意有一部分藏在折叠层（L2/L3）里——这是检验分层设计是否反而隐藏了缺陷的关键。

1.2 两个臂（arms）

臂	呈现方式
对照组 A（平铺）	AI 输出全文一次性平铺，无折叠、无摘要
实验组 B（渐进披露）	三层结构：L1 摘要 → L2 分组详情（可展开） → L3 原始全文（可展开）

1.3 被试与盲法

同一批被试做被试内（within-subject）交叉设计更省人，但要用两份等难度物料避免学习效应；样本紧张时这是首选。
被试不知道缺陷数量与位置（盲评）。
⚠️ 小样本的诚实声明：METR (2025, arXiv 2507.09089) 的 16 人 RCT 提醒我们——人会系统性高估 AI 工具带来的提速（自评快 24%，实测慢 19%）。所以绝不能用被试主观”感觉省时”作为指标，必须用客观计时与客观召回率。

1.4 测量项（落到字段）

per_review_record:
  arm: A | B
  task_time_sec: 客观计时（从打开到提交）
  defects_found: [缺陷ID列表]      # 用于算召回率
  false_positives: [误报ID列表]    # 用于算假阳性
  layers_expanded: {L2: bool, L3: bool, 展开块ID列表}  # 仅 B 臂
  self_rated_confidence: 1-5       # 主观置信，单独分析，不作主指标
  self_rated_effort: 1-5           # 主观负荷（可对标 NASA-TLX 简版）

§2 渐进披露三层模板（可直接抄）

下面是一个跨”代码审阅 / 报告审阅”通用的三层模板。核心设计原则：L1 必须能独立支撑”是否需要下钻”的决策，否则分层等于没分。

2.1 L1 摘要层（默认全部可见）

L1 的职责是”地图”，不是”内容”。它要回答审阅者最先问的三个问题：改了什么 / 风险在哪 / 我需要重点看哪。

> [!summary] L1 · 一屏可读
> - 变更性质：3 个文件，新增逻辑 / 重构 / 配置变更
> - ⚠️ 高风险标记：触及鉴权逻辑（auth.ts:42）、外部 API 调用
> - 置信度门控：模型自评 2 处低置信（见 L2 标 🔶）
> - 建议审阅路径：先看 🔶 两处 → 再看鉴权 → 其余可快速扫

关键：L1 里必须有置信度信号（confidence display），把模型”哪里没把握”显式外推给审阅者——这直接接 [R03 Confidence-gated Auto-accept 阈值实验](/kb/专题-评测与度量/r03-confidence-gated-auto-accept-阈值实验/) 与 [p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/)。

2.2 L2 分组详情层（按需展开）

<details>
<summary>📁 auth.ts（2 处变更，🔶 1 处低置信）</summary>

- 行 42：新增 token 校验分支 ｜ 🔶 模型注释"未覆盖过期 token 场景"
- 行 58：重构错误处理 ｜ 影响：调用方 X、Y

</details>

L2 是”结构化标注”层，而非纯文本摘要。纯文本摘要难以接入优先级过滤与自动化（arXiv 2605.26100, “Beyond Summaries: Structure-Aware Labeling of Code Changes”）——按变更类型（重命名/移动/逻辑修改）结构化，才能让审阅者跨上下文切换的外在负荷降下来。

2.3 L3 原始全文层（最后一层兜底）

L3 是完整 diff/全文。它必须存在且一键可达——这是审阅者的”逃生舱”。如果分层把原始内容藏到三层点击之外，审阅者会因为够不着而被迫信任 L1，这恰恰是制造橡皮图章的设计。

[!note] 模板的反共识点很多人以为渐进披露的价值在”少给信息”。错。它的价值在信息的可达性排序：把决策所需信息前置（L1），把验证所需信息保留但下沉（L3），二者都不能少。删掉 L3 = 把”压缩”变成”截断”。

§3 测法：三个必算的数字

3.1 压缩率（Compression Ratio）

压缩率 = 1 - (L1 默认可见字符数 / 原始全文字符数)

参考锚点：认知科学研究表明，有意识注意的信息吞吐约为 10–14 bit/s，是大脑总处理速率的极小部分（来源：cognitionresearch.org 综述，sp_compress.pdf）——意味着大幅压缩是认知系统的内置需求，不是奢侈。但压缩率单看无意义，必须配召回率读。

3.2 缺陷召回率（Defect Recall）—— 主指标

召回率 = 被试发现的种子缺陷数 / 注入的种子缺陷总数
分严重度算：P0 召回率单独报（P0 漏检是一票否决）

3.3 时间-召回前沿（Time-Recall Frontier）

把每个被试画成 (审阅时间, 召回率) 散点，对照组 A 与实验组 B 各一片云。理想结果：B 的云相对 A 左移（更快）且不下移（召回不降）。若 B 左移但下移——这就是”压缩省掉了审阅”的铁证，分层失败。

结果形态	解读	行动
B 左移 + 召回持平/上升	真赢：负荷降了	推广，但仍盯 P0 漏检
B 左移 + 召回下降	假赢：橡皮图章	召回 = 设计失败，回炉
B 不动 + 召回上升	分层帮了结构化思考	看场景，可能值得
B 右移（更慢）	分层增加了切换成本	层级太深，压扁

补充诊断指标——展开率（expand rate）：B 臂里 L2/L3 被展开的比例。若 P0 缺陷藏在 L3、而 L3 展开率极低、同时召回率却”没掉”——警惕，可能是被试在 L1 凭直觉猜对，而非真的验证（这是 confirmation bias 的实验内显形）。

§4 判断主轴：90% 的人在这五个点上会搞错

这是本节的命门。渐进披露实验最常见的五个翻车点，每点给”症状 → 为什么会错 → 正确做法 → 真实反例”。

错点 1：只测时间，不测召回

症状：报告写”分层后审阅时间下降 40%，实验成功”。
为什么会错：时间下降可能恰恰因为审阅者放弃了审阅（见 §0）。
正确做法：召回率为主指标，时间为辅；P0 召回不达标直接判失败。
真实反例：Sele & Chugunova (2024) ——加人审后接受率↑、准确率↓；“省时”的另一面是”省审”。

错点 2：用”无缺陷”的物料测

症状：拿真实干净 PR 做实验，被试都说”很流畅”。
为什么会错：没有 ground truth，你无法知道谁漏了什么——这等于没测质量轴。
正确做法：必须注入已知种子缺陷，含一部分故意藏在折叠层。
真实反例：变异测试（mutation testing）整个领域的存在前提就是”没有注入缺陷就无法度量检出能力”。

错点 3：把缺陷全放在 L1，假装分层有效

症状：L1 摘要里直接点名所有问题，召回率当然高。
为什么会错：这测的是”摘要写得好不好”，不是”分层是否安全”。真实场景里 AI 不可能在摘要里诚实列出自己所有的错（它对自己的幻觉无自觉，见 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) 校准失准节）。
正确做法：缺陷分布必须包含”摘要未提、需下钻才能发现”的类型，专门检验 L3 可达性。
真实反例：Perplexity 的引用错误是”URL 真、归属错”（CJR 2025），这种错摘要里看不出，必须点开原文核对——正好是 L1 摘要会系统性漏掉的类型。

错点 4：信被试的主观”省力感”

症状：用 NASA-TLX 或 5 分自评说”负荷显著下降，所以好”。
为什么会错：主观省力感与客观表现可能背离；自动化偏见让人”舒服地错”。
正确做法：主观量表只作辅助解释变量，绝不作主结论。
真实反例：METR (2025) ——开发者主观感觉 AI 让自己快 24%，客观实测慢 19%，差 43 个百分点。

错点 5：忽略锚定效应——L1 摘要本身会污染审阅

症状：L1 说”看起来没问题”，被试后续就真的没发现问题。
为什么会错：AI 摘要在审阅者形成独立判断之前出现，放大锚定效应，直接让系统 1 接管、系统 2 不启动。
正确做法：实验里加一个变体——L1 摘要只给结构地图、不给”看起来 OK”式结论，对比锚定强弱对召回的影响。
真实反例：跨上下文审阅（arXiv 2603.12123, “Cross-Context Review”）的设计动机正是——同会话自审会”合理化而非批判”，必须另起会话、只给最终产物来削弱锚定。

§5 产品 PM 视角补盲

跳出”实验设计”，三个 PM 在落地时会看走眼的点：

用户心理模型：审阅界面即产品（本专题核心命题）。折叠交互的”默认折叠 vs 默认展开”是一个信任默认值的产品决策——默认折叠 = 你在赌用户信任 AI 的摘要。对新用户（L1 信任阶段，见 [p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/)）应默认多展开，对成熟用户才敢多折叠。一刀切的折叠默认值会把新用户推向盲信。
商业模式陷阱：压缩率是个诱人的 KPI（“我们把审阅时间砍了一半！”），但它极易被 Goodhart 化（见 [c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/)）——一旦团队 OKR 绑定”审阅时间下降”，工程师会优化出”逼用户跳过审阅”的界面。KPI 必须是召回率，不能是时间。
合规边界：在高风险域（医疗、金融、安全），“渐进披露导致关键信息下沉到 L3”可能构成监管问题。EU AI Act 第 14 条要求高风险 AI 让用户”知道 automation bias”（Laux & Ruschemeier, 2025, European Journal of Risk Regulation）——折叠掉风险信息恰恰与”感知义务”冲突。Rick 自己做安全产品，这条尤其要记。

§6 对手框架回应：渐进披露的反方

接受 + 边界，不反驳。

反方立场（业界”全透明”派）：一部分 UX 研究者主张”不要替用户决定看什么，全部摊开让用户自己判断”，认为折叠是设计者的傲慢。
- 接受：他们对的部分是——折叠确实是设计者代替用户做了信息取舍，且 L1 摘要会引入锚定（§4 错点 5 已承认）。
- 边界：但”全透明”在 AI 时代不可持续。当 agent 以 1000 tok/s 的速度产出（Satya Borg, 2026, “Human Review is the Bottleneck”），全透明 = 必然溺水。我赌的是：有结构的压缩 + 可达的原文，优于无结构的全平铺——只要 L3 一键可达，折叠就不是截断。
反方立场（XAI 怀疑派）：解释/摘要不一定降低自动化偏见，有研究发现解释反而增加信任、加剧 automation bias（综述见 AI & Society, 2025, 35 项研究）。
- 接受：完全成立。L1 摘要写得越”专业可信”，越可能让审阅者放松警惕——这是为什么本节坚持”测召回不测时间”。
- 边界：所以渐进披露不是自动安全的，它是一把需要被实验验证的双刃剑。本节整套方法论的存在，正是因为”分层会不会反而害人”是个经验问题，不能靠原理推断。这也是 failure scenario：在被试本就倾向盲信 AI 的团队里，再好的分层也救不了，得先治信任校准。
Rick 未读对手框架引入 · Lisanne Bainbridge《Ironies of Automation》(1983)：自动化越成功，留给人的监督任务越是”偶发、枯燥、却致命重要”——人类恰恰最不擅长这种警觉任务。
- 作用：这逼问了渐进披露的根本盲点——把常规内容折叠起来、只让人看”异常”，正是 Bainbridge 警告的”把人变成被动异常监控者”。所以 L1 不能只标”异常”，还要偶尔强制审阅者下钻正常内容（抽检机制），否则警觉会衰减。这条直接修正了我的模板设计。

§7 跨域呼应：维特根斯坦”看见 as”与压缩的认识论

[!quote] 跨域调度：维特根斯坦《哲学研究》第二部分”看见一个面相（seeing-as）” 同一个鸭兔图，你看见鸭还是兔，取决于你被引导去看的面相。

渐进披露的 L1 摘要做的正是强制 framing：它先告诉审阅者”这份东西看起来是 X 性质的”，于是审阅者后续就戴着 X 的眼镜去看 L2/L3。这不是中性的信息压缩——压缩本身就是一次诠释，它决定了审阅者会”看见 as”什么。

这把一个工程问题（怎么折叠信息）升级成了一个认识论问题（见 0114认识论）：审阅 AI 报告到底是 verification（独立核查）还是 rubber-stamping（在 AI 已设定的框架内确认）？维特根斯坦的洞见是——一旦面相被设定，“独立看”在心理上几乎不可能。所以本节 §4 错点 5 才如此强调”L1 只给结构、不给结论”：少给一层 framing，就多保住一分 verification 的可能。

社会学维度（0117社会学）补一刀：当组织把”审阅时间”制度化为 KPI，渐进披露就从”帮人省力的工具”异化为”逼人放弃审阅的合法化装置”——压缩率成了 rubber-stamping 的体面外衣。

§8 PM 决策启示

面试怎么用：被问”你怎么设计 AI 审阅界面”，别答”做个好看的 diff”。答：“我会先注入种子缺陷跑 AB 对照，主指标是 P0 缺陷召回率而非审阅时间——因为时间下降可能恰恰是审阅者放弃审阅。“这一句话立刻把你和”会画图的 PM”区分开。
选型怎么用：评估 AI code review 工具时，问供应商要”召回率 vs 时间”的前沿数据，而不是”接受率”。接受率高（如 OpenAI Codex 的 82.6% 合并率，arXiv 2602.17084）可能只反映描述写得好、被试懒得审，不反映质量。
复现怎么用：本节模板 + R01（最小可运行）可在一个下午跑出第一版数据。建议先用自己团队的真实 PR 注缺陷，N=6–10 人即可看出方向（METR 也才 16 人）。

§9 与已有节点的关系

对照 [p302 - 七种 AI 交互设计模式](/kb/产品设计与交互范式/p302-七种-ai-交互设计模式/)：p302 把渐进披露列为七模式之一（横向罗列）。本节做的是深化 + 操作化——从”它是一种模式”推进到”怎么测它有没有用、什么时候它反而有害”。
对照 [p304 - 防御性 UX：对抗延迟与幻觉](/kb/产品设计与交互范式/p304-防御性-ux-对抗延迟与幻觉/)：p304 讲幻觉应对四层（预期管理→溯源→置信度外显→优雅降级）。本节是它的实验台——把”置信度外显”从原则变成 L1 里的 🔶 标记，并给出验证其有效性的测法。
对照 [p307 - Copilot 到 Autopilot 光谱](/kb/产品设计与交互范式/p307-copilot-到-autopilot-光谱/)：p307 给 L0–L4 控制权框架。本节补的是——分层披露是 L2/L3 协作层的具体审阅界面实现，没有可信的渐进披露，光谱往 L3/L4 推就是在推橡皮图章。
对照 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/)：c13 论证幻觉架构性不可消除。本节是它的产品后果之一——既然幻觉消不掉，审阅界面就必须假设”AI 摘要本身可能在撒谎”，所以缺陷必须藏一部分在折叠层来测 L3 可达性。

（以上均为升级对照，不复述旧节点的事实基础。）

§10 关联节点

核心（必读）

[A03 信息压缩率与 Progressive Disclosure](/kb/专题-评测与度量/a03-信息压缩率与-progressive-disclosure/) — 本节的原理底座（Sweller / Nielsen / 工作记忆）
[R03 Confidence-gated Auto-accept 阈值实验](/kb/专题-评测与度量/r03-confidence-gated-auto-accept-阈值实验/) — 置信度门控，L1 信号的去向
[p302 - 七种 AI 交互设计模式](/kb/产品设计与交互范式/p302-七种-ai-交互设计模式/) — 渐进披露作为模式的横向定位
[p304 - 防御性 UX：对抗延迟与幻觉](/kb/产品设计与交互范式/p304-防御性-ux-对抗延迟与幻觉/) — 置信度外显的原则层
[p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/) — 折叠默认值 = 信任默认值
[c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) — 为何 L1 摘要不可全信

延伸（可选）

[p307 - Copilot 到 Autopilot 光谱](/kb/产品设计与交互范式/p307-copilot-到-autopilot-光谱/) — 分层审阅作为协作层实现
[c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/) — 压缩率被 KPI 异化的风险
0114认识论 — verification vs rubber-stamping
0117社会学 — KPI 制度化对审阅的异化
[R01 最小可运行骨架](/kb/专题-评测与度量/r01-给-ai-输出加-confidence-display-+-diff/) — 跑本实验的脚手架
[Claude Code](/kb/ai-公司与产品/claude-code/) — Rick 一手实践场（见 E 节点）
[Agent](/kb/基础知识库/agent/) [Test-Time Compute](/kb/基础知识库/test-time-compute/) [Claude](/kb/ai-公司与产品/claude/) [ChatGPT](/kb/ai-公司与产品/chatgpt/)
[AI PM 知识图谱·总索引](/kb/ai-pm-知识图谱/ai-pm-知识图谱-总索引/)

修订日志

R1（2026-06-07）：首稿。确立”压缩率 × 召回率双轴”方法论；给三层模板 + 种子缺陷 AB 实验 + 时间-召回前沿测法 + 五点判断主轴 + Bainbridge/维特根斯坦双跨域。待 grounding pass 核验 METR/Sele&Chugunova/CJR/EU AI Act 数字。