R

R02 Progressive Disclosure 信息压缩实验

创建 2026-06-07 更新 2026-06-11 1 条双链 审阅瓶颈 专题 AI 整理

R02 Progressive Disclosure 信息压缩实验

本节要解决的问题:当 AI 把一份长报告/长 diff/长 PR 甩到审阅者面前时,“全文一次性平铺”几乎一定通向两种坏结局之一——溺水(drowning,逐字读完但崩溃)或橡皮图章(rubber-stamping,假装读完直接批准)。渐进披露(Progressive Disclosure)+信息压缩是把外在认知负荷(extraneous load)压到任务真正需要的最低限度的工程手段。但它有一个致命的双刃:压缩既能降低审阅时间,也能制造”看起来审过了、其实没审”的假象。本节给一套可自己跑的对照实验模板,外加一套测法,让你用数字而不是直觉去回答”我的分层设计到底是省了时间,还是省掉了审阅本身”。本节的框架名是:压缩率 × 召回率的双轴度量——任何只测时间、不测漏检的实验都是在自欺。

[!warning] 这是一份”复现指南”而非”原理课” 渐进披露的认知科学原理(Sweller 三类负荷、Miller/Cowan 工作记忆上限、Nielsen 1995 渐进披露模式)在本专题 [A03 信息压缩率与 Progressive Disclosure](/kb/专题-评测与度量/a03-信息压缩率与-progressive-disclosure/)[A01 审阅瓶颈的认知科学地基](/kb/专题-评测与度量/a01-审阅瓶颈命题-从生产瓶颈到审阅瓶颈/) 里讲透。本节不复述,只给”怎么动手测”。原理基础引自:Sweller, J. (1988), Cognitive Science 12, 257–285;Nielsen, J. (1995), “Progressive Disclosure”, NN/g。


§0 为什么是”压缩率 × 召回率”而不是”只测审阅时间”

最容易踩的框架错误:把”审阅时间下降”当成实验成功的唯一指标

这是错的,而且错得很危险。审阅时间下降有两种完全相反的成因:

  1. 好的下降:分层设计帮审阅者更快定位到真正需要看的部分,外在负荷降低,单位时间检出率不变或上升。
  2. 坏的下降:分层设计把审阅者哄进了系统 1(Kahneman 快思考),他根本没进入系统 2 的批判性核查,时间是省了,因为他压根没审。

这两者在”时间”这一个维度上完全无法区分。Sele & Chugunova (2024, PLoS ONE) 的实验给了一个刺骨的反例:给自动化决策加上”人在环路”后,接受率上升 7 个百分点,但预测准确率反而下降(误差从第 17.4 百分位升到 18.0)——人类监督者”未能充当紧急制动器”。这正是”看起来审了、实际没审”的实证形态。

所以本节的核心方法论硬约束是:

任何渐进披露实验,必须同时测”审阅时间”和”缺陷召回率”。只测前者的实验,结论一律不可信。

度量的双轴:

测什么朝哪个方向算好工具
效率轴审阅完成时间、披露层级的实际展开深度时间 ↓计时 + 交互日志(哪些折叠块被展开)
质量轴注入缺陷的召回率(recall)、假阳性率召回率 ↑ 或 ≈种子缺陷(seeded defects)+ 盲评

只有当效率轴改善、质量轴不退化时,分层设计才是真的赢。


§1 实验设计:种子缺陷 + AB 对照

最小可信实验需要四个组件,缺一不可。

1.1 物料:带”种子缺陷”的长 AI 输出

不能拿一份”干净”的 AI 报告去测——你无法测量审阅者漏掉了什么,因为你不知道里面有什么该被发现。做法是人为注入已知缺陷(seeded defects / bug injection),这是软件工程里成熟的”变异测试 / 缺陷植入”思路的迁移。

  • 准备 1 份长 AI 输出(建议 ≥ 800 行代码 diff,或 ≥ 3000 字报告——要超过 Cowan 工作记忆 4 组块、Miller 7±2 组块的上限,逼出负荷)。
  • 注入 N 个已知缺陷,分三档严重度:
    • 致命(P0):逻辑错误、安全漏洞、事实性幻觉(对应 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) 的五分类学:事实/引用/逻辑/时效/谄媚)。
    • 中等(P1):可用性/边界条件问题、引用张冠李戴(Perplexity 式”URL 真但归属错”——比凭空捏造更难被发现,见 CJR/Tow Center 2025)。
    • 轻微(P2):风格、命名、冗余。
  • 缺陷位置随机分布,且故意有一部分藏在折叠层(L2/L3)里——这是检验分层设计是否反而隐藏了缺陷的关键。

1.2 两个臂(arms)

呈现方式
对照组 A(平铺)AI 输出全文一次性平铺,无折叠、无摘要
实验组 B(渐进披露)三层结构:L1 摘要 → L2 分组详情(可展开) → L3 原始全文(可展开)

1.3 被试与盲法

  • 同一批被试做被试内(within-subject)交叉设计更省人,但要用两份等难度物料避免学习效应;样本紧张时这是首选。
  • 被试不知道缺陷数量与位置(盲评)。
  • ⚠️ 小样本的诚实声明:METR (2025, arXiv 2507.09089) 的 16 人 RCT 提醒我们——人会系统性高估 AI 工具带来的提速(自评快 24%,实测慢 19%)。所以绝不能用被试主观”感觉省时”作为指标,必须用客观计时与客观召回率。

1.4 测量项(落到字段)

per_review_record:
  arm: A | B
  task_time_sec: 客观计时(从打开到提交)
  defects_found: [缺陷ID列表]      # 用于算召回率
  false_positives: [误报ID列表]    # 用于算假阳性
  layers_expanded: {L2: bool, L3: bool, 展开块ID列表}  # 仅 B 臂
  self_rated_confidence: 1-5       # 主观置信,单独分析,不作主指标
  self_rated_effort: 1-5           # 主观负荷(可对标 NASA-TLX 简版)

§2 渐进披露三层模板(可直接抄)

下面是一个跨”代码审阅 / 报告审阅”通用的三层模板。核心设计原则:L1 必须能独立支撑”是否需要下钻”的决策,否则分层等于没分。

2.1 L1 摘要层(默认全部可见)

L1 的职责是”地图”,不是”内容”。它要回答审阅者最先问的三个问题:改了什么 / 风险在哪 / 我需要重点看哪

> [!summary] L1 · 一屏可读
> - 变更性质:3 个文件,新增逻辑 / 重构 / 配置变更
> - ⚠️ 高风险标记:触及鉴权逻辑(auth.ts:42)、外部 API 调用
> - 置信度门控:模型自评 2 处低置信(见 L2 标 🔶)
> - 建议审阅路径:先看 🔶 两处 → 再看鉴权 → 其余可快速扫

关键:L1 里必须有置信度信号(confidence display),把模型”哪里没把握”显式外推给审阅者——这直接接 [R03 Confidence-gated Auto-accept 阈值实验](/kb/专题-评测与度量/r03-confidence-gated-auto-accept-阈值实验/)[p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/)

2.2 L2 分组详情层(按需展开)

<details>
<summary>📁 auth.ts(2 处变更,🔶 1 处低置信)</summary>

- 行 42:新增 token 校验分支 | 🔶 模型注释"未覆盖过期 token 场景"
- 行 58:重构错误处理 | 影响:调用方 X、Y

</details>

L2 是”结构化标注”层,而非纯文本摘要。纯文本摘要难以接入优先级过滤与自动化(arXiv 2605.26100, “Beyond Summaries: Structure-Aware Labeling of Code Changes”)——按变更类型(重命名/移动/逻辑修改)结构化,才能让审阅者跨上下文切换的外在负荷降下来。

2.3 L3 原始全文层(最后一层兜底)

L3 是完整 diff/全文。它必须存在且一键可达——这是审阅者的”逃生舱”。如果分层把原始内容藏到三层点击之外,审阅者会因为够不着而被迫信任 L1,这恰恰是制造橡皮图章的设计。

[!note] 模板的反共识点 很多人以为渐进披露的价值在”少给信息”。错。它的价值在信息的可达性排序:把决策所需信息前置(L1),把验证所需信息保留但下沉(L3),二者都不能少。删掉 L3 = 把”压缩”变成”截断”。


§3 测法:三个必算的数字

3.1 压缩率(Compression Ratio)

压缩率 = 1 - (L1 默认可见字符数 / 原始全文字符数)

参考锚点:认知科学研究表明,有意识注意的信息吞吐约为 10–14 bit/s,是大脑总处理速率的极小部分(来源:cognitionresearch.org 综述,sp_compress.pdf)——意味着大幅压缩是认知系统的内置需求,不是奢侈。但压缩率单看无意义,必须配召回率读。

3.2 缺陷召回率(Defect Recall)—— 主指标

召回率 = 被试发现的种子缺陷数 / 注入的种子缺陷总数
分严重度算:P0 召回率单独报(P0 漏检是一票否决)

3.3 时间-召回前沿(Time-Recall Frontier)

把每个被试画成 (审阅时间, 召回率) 散点,对照组 A 与实验组 B 各一片云。理想结果:B 的云相对 A 左移(更快)且不下移(召回不降)。若 B 左移但下移——这就是”压缩省掉了审阅”的铁证,分层失败。

结果形态解读行动
B 左移 + 召回持平/上升真赢:负荷降了推广,但仍盯 P0 漏检
B 左移 + 召回下降假赢:橡皮图章召回 = 设计失败,回炉
B 不动 + 召回上升分层帮了结构化思考看场景,可能值得
B 右移(更慢)分层增加了切换成本层级太深,压扁

补充诊断指标——展开率(expand rate):B 臂里 L2/L3 被展开的比例。若 P0 缺陷藏在 L3、而 L3 展开率极低、同时召回率却”没掉”——警惕,可能是被试在 L1 凭直觉猜对,而非真的验证(这是 confirmation bias 的实验内显形)。


§4 判断主轴:90% 的人在这五个点上会搞错

这是本节的命门。渐进披露实验最常见的五个翻车点,每点给”症状 → 为什么会错 → 正确做法 → 真实反例”。

错点 1:只测时间,不测召回

  • 症状:报告写”分层后审阅时间下降 40%,实验成功”。
  • 为什么会错:时间下降可能恰恰因为审阅者放弃了审阅(见 §0)。
  • 正确做法:召回率为主指标,时间为辅;P0 召回不达标直接判失败。
  • 真实反例:Sele & Chugunova (2024) ——加人审后接受率↑、准确率↓;“省时”的另一面是”省审”。

错点 2:用”无缺陷”的物料测

  • 症状:拿真实干净 PR 做实验,被试都说”很流畅”。
  • 为什么会错:没有 ground truth,你无法知道谁漏了什么——这等于没测质量轴。
  • 正确做法:必须注入已知种子缺陷,含一部分故意藏在折叠层。
  • 真实反例:变异测试(mutation testing)整个领域的存在前提就是”没有注入缺陷就无法度量检出能力”。

错点 3:把缺陷全放在 L1,假装分层有效

  • 症状:L1 摘要里直接点名所有问题,召回率当然高。
  • 为什么会错:这测的是”摘要写得好不好”,不是”分层是否安全”。真实场景里 AI 不可能在摘要里诚实列出自己所有的错(它对自己的幻觉无自觉,见 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) 校准失准节)。
  • 正确做法:缺陷分布必须包含”摘要未提、需下钻才能发现”的类型,专门检验 L3 可达性。
  • 真实反例:Perplexity 的引用错误是”URL 真、归属错”(CJR 2025),这种错摘要里看不出,必须点开原文核对——正好是 L1 摘要会系统性漏掉的类型。

错点 4:信被试的主观”省力感”

  • 症状:用 NASA-TLX 或 5 分自评说”负荷显著下降,所以好”。
  • 为什么会错:主观省力感与客观表现可能背离;自动化偏见让人”舒服地错”。
  • 正确做法:主观量表只作辅助解释变量,绝不作主结论。
  • 真实反例:METR (2025) ——开发者主观感觉 AI 让自己快 24%,客观实测慢 19%,差 43 个百分点。

错点 5:忽略锚定效应——L1 摘要本身会污染审阅

  • 症状:L1 说”看起来没问题”,被试后续就真的没发现问题。
  • 为什么会错:AI 摘要在审阅者形成独立判断之前出现,放大锚定效应,直接让系统 1 接管、系统 2 不启动。
  • 正确做法:实验里加一个变体——L1 摘要只给结构地图、不给”看起来 OK”式结论,对比锚定强弱对召回的影响。
  • 真实反例:跨上下文审阅(arXiv 2603.12123, “Cross-Context Review”)的设计动机正是——同会话自审会”合理化而非批判”,必须另起会话、只给最终产物来削弱锚定。

§5 产品 PM 视角补盲

跳出”实验设计”,三个 PM 在落地时会看走眼的点:

  1. 用户心理模型:审阅界面即产品(本专题核心命题)。折叠交互的”默认折叠 vs 默认展开”是一个信任默认值的产品决策——默认折叠 = 你在赌用户信任 AI 的摘要。对新用户(L1 信任阶段,见 [p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/))应默认多展开,对成熟用户才敢多折叠。一刀切的折叠默认值会把新用户推向盲信。
  2. 商业模式陷阱:压缩率是个诱人的 KPI(“我们把审阅时间砍了一半!”),但它极易被 Goodhart 化(见 [c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/))——一旦团队 OKR 绑定”审阅时间下降”,工程师会优化出”逼用户跳过审阅”的界面。KPI 必须是召回率,不能是时间。
  3. 合规边界:在高风险域(医疗、金融、安全),“渐进披露导致关键信息下沉到 L3”可能构成监管问题。EU AI Act 第 14 条要求高风险 AI 让用户”知道 automation bias”(Laux & Ruschemeier, 2025, European Journal of Risk Regulation)——折叠掉风险信息恰恰与”感知义务”冲突。Rick 自己做安全产品,这条尤其要记。

§6 对手框架回应:渐进披露的反方

接受 + 边界,不反驳。

  • 反方立场(业界”全透明”派):一部分 UX 研究者主张”不要替用户决定看什么,全部摊开让用户自己判断”,认为折叠是设计者的傲慢。

    • 接受:他们对的部分是——折叠确实是设计者代替用户做了信息取舍,且 L1 摘要会引入锚定(§4 错点 5 已承认)。
    • 边界:但”全透明”在 AI 时代不可持续。当 agent 以 1000 tok/s 的速度产出(Satya Borg, 2026, “Human Review is the Bottleneck”),全透明 = 必然溺水。我赌的是:有结构的压缩 + 可达的原文,优于无结构的全平铺——只要 L3 一键可达,折叠就不是截断。
  • 反方立场(XAI 怀疑派):解释/摘要不一定降低自动化偏见,有研究发现解释反而增加信任、加剧 automation bias(综述见 AI & Society, 2025, 35 项研究)。

    • 接受:完全成立。L1 摘要写得越”专业可信”,越可能让审阅者放松警惕——这是为什么本节坚持”测召回不测时间”。
    • 边界:所以渐进披露不是自动安全的,它是一把需要被实验验证的双刃剑。本节整套方法论的存在,正是因为”分层会不会反而害人”是个经验问题,不能靠原理推断。这也是 failure scenario:在被试本就倾向盲信 AI 的团队里,再好的分层也救不了,得先治信任校准。
  • Rick 未读对手框架引入 · Lisanne Bainbridge《Ironies of Automation》(1983):自动化越成功,留给人的监督任务越是”偶发、枯燥、却致命重要”——人类恰恰最不擅长这种警觉任务。

    • 作用:这逼问了渐进披露的根本盲点——把常规内容折叠起来、只让人看”异常”,正是 Bainbridge 警告的”把人变成被动异常监控者”。所以 L1 不能只标”异常”,还要偶尔强制审阅者下钻正常内容(抽检机制),否则警觉会衰减。这条直接修正了我的模板设计。

§7 跨域呼应:维特根斯坦”看见 as”与压缩的认识论

[!quote] 跨域调度:维特根斯坦《哲学研究》第二部分”看见一个面相(seeing-as)” 同一个鸭兔图,你看见鸭还是兔,取决于你被引导去看的面相。

渐进披露的 L1 摘要做的正是强制 framing:它先告诉审阅者”这份东西看起来是 X 性质的”,于是审阅者后续就戴着 X 的眼镜去看 L2/L3。这不是中性的信息压缩——压缩本身就是一次诠释,它决定了审阅者会”看见 as”什么。

这把一个工程问题(怎么折叠信息)升级成了一个认识论问题(见 0114认识论):审阅 AI 报告到底是 verification(独立核查)还是 rubber-stamping(在 AI 已设定的框架内确认)?维特根斯坦的洞见是——一旦面相被设定,“独立看”在心理上几乎不可能。所以本节 §4 错点 5 才如此强调”L1 只给结构、不给结论”:少给一层 framing,就多保住一分 verification 的可能。

社会学维度(0117社会学)补一刀:当组织把”审阅时间”制度化为 KPI,渐进披露就从”帮人省力的工具”异化为”逼人放弃审阅的合法化装置”——压缩率成了 rubber-stamping 的体面外衣。


§8 PM 决策启示

  • 面试怎么用:被问”你怎么设计 AI 审阅界面”,别答”做个好看的 diff”。答:“我会先注入种子缺陷跑 AB 对照,主指标是 P0 缺陷召回率而非审阅时间——因为时间下降可能恰恰是审阅者放弃审阅。“这一句话立刻把你和”会画图的 PM”区分开。
  • 选型怎么用:评估 AI code review 工具时,问供应商要”召回率 vs 时间”的前沿数据,而不是”接受率”。接受率高(如 OpenAI Codex 的 82.6% 合并率,arXiv 2602.17084)可能只反映描述写得好、被试懒得审,不反映质量。
  • 复现怎么用:本节模板 + R01(最小可运行)可在一个下午跑出第一版数据。建议先用自己团队的真实 PR 注缺陷,N=6–10 人即可看出方向(METR 也才 16 人)。

§9 与已有节点的关系

  • 对照 [p302 - 七种 AI 交互设计模式](/kb/产品设计与交互范式/p302-七种-ai-交互设计模式/):p302 把渐进披露列为七模式之一(横向罗列)。本节做的是深化 + 操作化——从”它是一种模式”推进到”怎么测它有没有用、什么时候它反而有害”。
  • 对照 [p304 - 防御性 UX:对抗延迟与幻觉](/kb/产品设计与交互范式/p304-防御性-ux-对抗延迟与幻觉/):p304 讲幻觉应对四层(预期管理→溯源→置信度外显→优雅降级)。本节是它的实验台——把”置信度外显”从原则变成 L1 里的 🔶 标记,并给出验证其有效性的测法。
  • 对照 [p307 - Copilot 到 Autopilot 光谱](/kb/产品设计与交互范式/p307-copilot-到-autopilot-光谱/):p307 给 L0–L4 控制权框架。本节补的是——分层披露是 L2/L3 协作层的具体审阅界面实现,没有可信的渐进披露,光谱往 L3/L4 推就是在推橡皮图章。
  • 对照 [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/):c13 论证幻觉架构性不可消除。本节是它的产品后果之一——既然幻觉消不掉,审阅界面就必须假设”AI 摘要本身可能在撒谎”,所以缺陷必须藏一部分在折叠层来测 L3 可达性。

(以上均为升级对照,不复述旧节点的事实基础。)


§10 关联节点

核心(必读)

  • [A03 信息压缩率与 Progressive Disclosure](/kb/专题-评测与度量/a03-信息压缩率与-progressive-disclosure/) — 本节的原理底座(Sweller / Nielsen / 工作记忆)
  • [R03 Confidence-gated Auto-accept 阈值实验](/kb/专题-评测与度量/r03-confidence-gated-auto-accept-阈值实验/) — 置信度门控,L1 信号的去向
  • [p302 - 七种 AI 交互设计模式](/kb/产品设计与交互范式/p302-七种-ai-交互设计模式/) — 渐进披露作为模式的横向定位
  • [p304 - 防御性 UX:对抗延迟与幻觉](/kb/产品设计与交互范式/p304-防御性-ux-对抗延迟与幻觉/) — 置信度外显的原则层
  • [p305 - 信任架构与可解释性设计](/kb/产品设计与交互范式/p305-信任架构与可解释性设计/) — 折叠默认值 = 信任默认值
  • [c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) — 为何 L1 摘要不可全信

延伸(可选)

  • [p307 - Copilot 到 Autopilot 光谱](/kb/产品设计与交互范式/p307-copilot-到-autopilot-光谱/) — 分层审阅作为协作层实现
  • [c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/) — 压缩率被 KPI 异化的风险
  • 0114认识论 — verification vs rubber-stamping
  • 0117社会学 — KPI 制度化对审阅的异化
  • [R01 最小可运行骨架](/kb/专题-评测与度量/r01-给-ai-输出加-confidence-display-+-diff/) — 跑本实验的脚手架
  • [Claude Code](/kb/ai-公司与产品/claude-code/) — Rick 一手实践场(见 E 节点)
  • [Agent](/kb/基础知识库/agent/) [Test-Time Compute](/kb/基础知识库/test-time-compute/) [Claude](/kb/ai-公司与产品/claude/) [ChatGPT](/kb/ai-公司与产品/chatgpt/)
  • [AI PM 知识图谱·总索引](/kb/ai-pm-知识图谱/ai-pm-知识图谱-总索引/)

修订日志

  • R1(2026-06-07):首稿。确立”压缩率 × 召回率双轴”方法论;给三层模板 + 种子缺陷 AB 实验 + 时间-召回前沿测法 + 五点判断主轴 + Bainbridge/维特根斯坦双跨域。待 grounding pass 核验 METR/Sele&Chugunova/CJR/EU AI Act 数字。