E03 创作工具的审阅哲学剖解·Midjourney 与 Artifact

当生产成本趋零，瓶颈反转为「人类审阅带宽」（本专题总命题）之后，一个被大多数产品文章忽略的问题浮上来：审阅不是一种统一动作。同样是「让人看一眼 AI 的产出再决定要不要」，看 Midjourney 生成的四宫格图，和看 Claude artifact 里一段可运行的代码或一份结构化文档，调用的是两套完全不同的认知机制、两种不同的审阅成本结构。本节点要解决的问题是：审阅成本的结构会随内容品类发生质变，因此审阅界面的设计不能只有一套范式——Midjourney 走的是「选择式审阅」，Claude artifact 走的是「结构化审阅」，二者的分野不是 UI 风格差异，而是对「人类审阅这件事究竟在做什么」的两种哲学回答。本节用的分析框架，是把 c13 - 幻觉的不可消除性的「正确性可证伪 vs 不可证伪」这条轴，叠到审阅成本上去做切分。

§0 为什么是「审阅成本结构」这个框架，而不是「模态差异」

最容易滑入的错误框架是：「图像是视觉模态、代码/文档是文本模态，所以审阅方式不同」。这个框架是错的，因为它把分野归因于输入通道，会推出「只要做好多模态渲染就行」的错误产品结论。真正的分野在输出的正确性是否可被收敛性地验证：

一张图「好不好」没有客观真值，它是审美偏好问题——审阅 = 从候选集里选（selection），是 p303 - 克服空白画布综合症处理的「发散后收敛」问题。
一段代码「对不对」有客观真值（能不能跑、跑出来对不对、有没有引入回归），审阅 = 对单一产物做逐项验证（verification），是 p305 - 信任架构与可解释性设计处理的「校准信任」问题。

把轴选对，产品决策就分岔了：可证伪品类要把审阅成本压在「定位差异、追溯依据」上（diff、citation、测试）；不可证伪品类要把审阅成本压在「降低每次决策的代价、扩大候选吞吐」上（批量出图、快速 reroll、低摩擦否决）。用错框架的代价：给 Midjourney 强加 citation/confidence 标注是荒谬的（图没有「来源」可追溯），给代码 artifact 只做「四选一」式审阅则是灾难（鼓励 rubber-stamping，把 verification 退化成 selection）。

§1 两种审阅成本结构的解剖

维度	Midjourney（选择式审阅）	Claude artifact（结构化审阅）
输出正确性	无客观真值（审美偏好）	有客观真值（可运行/可测试/事实可核）
审阅动作	从候选集选择 + 否决	对单一产物逐项验证
单次决策成本	极低（一眼好恶，~系统1）	高（需建心智模型，~系统2）
主导认知系统	系统 1（快速模式识别）	系统 2（逻辑推理）—— 但极易被系统 1 劫持
错误的代价	低（选错重出即可，可逆）	高（漏检缺陷进入生产，难逆）
关键瓶颈	候选吞吐 × 否决摩擦	单产物的认知负荷 × 漏检率
对应设计杠杆	批量并行、reroll、variation 树	diff、progressive disclosure、citation、HITL 断点

这张表的核心是第三、四行的耦合：当单次决策成本低、且错误可逆时，把审阅退化为系统 1 的「好恶判断」是合理的——Midjourney 的产品形态（一次出 4 张、U/V 按钮、reroll）正是为「让系统 1 高速空转」优化的，这没有错。但当单次决策成本高、错误不可逆时，审阅必须强制系统 2 介入，而 AI 输出恰恰天然诱导审阅者用系统 1 应付（automation bias，详见 c13 - 幻觉的不可消除性 §13.3 提到的「模型最不确定时语气最自信」）。这就是两种品类的命门所在。

§2 Midjourney 的选择式审阅：把审阅成本转移到「否决摩擦」

Midjourney 的审阅哲学可以一句话概括：既然你无法验证一张图「对不对」，那就让你尽可能廉价地说「不要这张，换」。它的每一个交互都在压低否决摩擦：

一次四宫格：把「选择」内置进生成，审阅者从一开始就在做对比选择，而非孤立判断单张图的好坏（对比判断的系统 1 成本远低于绝对判断）。
Variation 树 / reroll：否决不是终点而是分叉，把「拒绝」重新框定为「沿这个方向再探一步」，消解了否决的负面情绪成本。
审阅即产品：用户 95% 的时间花在「看、选、微调参数再生成」的循环里——审阅界面就是 Midjourney 的产品本体，而不是生成之后附加的一道关卡。这直接印证本专题总命题「审阅界面即产品」。

判断：Midjourney 把瓶颈正确地识别为「候选吞吐 × 否决摩擦」，并对它做了到位的优化。但它的设计哲学有一个自我设限的边界——它假设审阅永远是审美选择，永远可逆。一旦用户要把生成图用于商业用途（版权归属、是否「抄」了某个在世画师的风格），审阅就从「选不选」变成「能不能用」，后者是可证伪的法律问题，Midjourney 的界面对此几乎零支持。这是选择式审阅哲学的盲区。

§3 Claude artifact 的结构化审阅：把审阅成本压在「认知负荷」上

Claude artifact 面对的是可证伪品类，它的审阅哲学是：既然产物有客观真值，就帮你尽量低成本地把验证做扎实，同时对抗你想偷懒（rubber-stamping）的本能。它的设计杠杆完全不同：

结构化呈现 + progressive disclosure：把长输出折叠成可分层展开的结构（代码块、可运行预览、文档大纲），让审阅者按需展开，压低外在认知负荷（Nielsen 1995 渐进披露原理，主要作用是减少 extraneous load）。
Diff 化：Claude Desktop 已提供 diff 统计指示（如 +12 -1）、可点击 diff 查看器与内联注释（来源：Anthropic 产品文档及社区记录，2026）；但 VS Code 扩展长期缺失同等粒度的逐 hunk 批准 UI，开发者公开提出 feature request（GitHub Issue #33932、#31395，2026-03）。这说明结构化审阅的关键不在「有 diff」，而在 diff 的可操作粒度——能不能逐 hunk 接受/拒绝，直接决定审阅者是被迫整批 rubber-stamp 还是能做细粒度 verification。
可运行预览：artifact 的预览面板把「读代码想象它的行为」替换成「直接看它的行为」，这是把 verification 从昂贵的系统 2 心智模拟，部分卸载给可观测的运行结果——降低内在负荷的最有效手段。

判断：结构化审阅的核心战场是对抗注意力反转。Satya Borg（“Human Review is the Bottleneck”, 2026）的一手观察很尖锐：「An agent’s code hits you like a freight train at 1000 tok/sec with zero mortal constraints.」（一手博客，非学术论文）——AI 以千 token/秒涌来，人类要么 rubber-stamp 要么溺水。结构化审阅的全部设计努力，就是在这两个糟糕选项之间凿出第三条路：把审阅的认知工作前移到 spec 阶段，让看代码这件事从「批判性阅读」退化为「机械核对是否符合已批准的规格」——降低单产物的内在负荷，让有限的系统 2 投入获得最大杠杆。

§4 判断主轴：四个 90% 的人会搞错的点

[!warning] 致命耦合点：审阅成本结构必须先于审阅 UI 被识别

错点 1：以为「审阅界面」是一套通用模式，照搬到所有 AI 产品。

症状：给图像生成产品强行加 confidence 分数和 citation；给代码 agent 只做「方案 A / 方案 B 二选一」的卡片式审阅。
为什么会错：把审阅当成统一动作，没看到 selection 与 verification 是两种认知机制。
正确做法：先判定产物正确性是否可证伪（§0 的轴），再选审阅范式。
真实反例：把代码审阅做成「四选一」会系统性诱发 rubber-stamping——LogRocket 实测（2026，非同行评审博客）显示审阅 AI 生成的 186 行代码需 8–12 分钟，而「四选一」UI 鼓励人用看图的系统 1 速度（秒级）去处理它，漏检必然飙升。

错点 2：把「低否决摩擦」当成所有审阅的目标。

症状：在高风险代码/医疗/金融审阅里也追求「一键通过」的丝滑。
为什么会错：低摩擦对可逆的审美选择是优点，对不可逆的正确性验证是灾难——它正是 automation bias 的温床。
正确做法：可证伪 + 不可逆品类要故意增加关键节点的摩擦（HITL 强制断点），见 p307 - Copilot 到 Autopilot 光谱的风险感知降级（读文件 L3、发邮件/转账 L1）。
真实反例：Sele & Chugunova（PLoS ONE, 2024）实验发现，加入「人在环路」后接受率上升约 7 个百分点，但预测准确率反而下降——人没充当「紧急制动器」。摩擦设计错位会让 HITL 沦为剧场。

错点 3：以为结构化审阅（diff/citation）能自动消除 automation bias。

症状：上线了 diff、加了置信度标注，就认为审阅质量有保障。
为什么会错：可解释性对 automation bias 的缓解作用在实证上方向冲突——部分研究发现解释反而增加盲信、抬高认知负荷（综述见 AI & Society, 2025）。
正确做法：把可解释信息当「校准信任」的工具而非「免责声明」，并配合跨上下文审阅（另起会话、只给最终产物、不给生成历史，减少锚定，逼系统 2 介入；来源：arXiv 2603.12123，2026）。
真实反例：CJR/Tow Center（2025-03，1600 次查询）测得 Perplexity Pro 引用错误率约 45%，比免费版（约 37%）更高——更「专业」的界面（带引用编号）反而让用户更信任一个错得更多的系统。citation 是双刃剑。

错点 4：把图像审阅的「可逆」假设当永久成立。

症状：默认创作工具的审阅永远低风险，不为版权/合规留审阅钩子。
为什么会错：当生成物进入商业链路，审阅就从不可证伪（审美）切换到可证伪（侵权与否），成本结构突变。
正确做法：为「使用前」单设一道可证伪审阅（来源声明、风格相似度提示），而非沿用「选不选」界面。
真实反例：Midjourney 因训练数据与在世艺术家风格的版权争议长期被诉（Andersen v. Stability AI 等集体诉讼，2023 起，Midjourney 为被告之一；Disney 与 Universal 亦于 2025-06 起诉 Midjourney），但其审阅界面对「这张图能不能商用」零提示——哲学盲区落成了产品盲区。

§5 产品 PM 视角补盲

工程视角只会问「审阅 UI 怎么做」，PM 必须补三个非工程盲区：

用户心理模型：Midjourney 用户把自己定位为「策展人/导演」，要的是掌控感与高吞吐——审阅摩擦越低越爽。Claude 代码用户把自己定位为「最终责任人」，要的是「我确实看懂了才放行」的踏实感——这时过度丝滑反而制造焦虑（「它是不是骗我点了通过」）。同一个「低摩擦」，在两类用户心智里一个是爽点一个是雷点。
商业模式耦合：选择式审阅天然按「生成次数/算力」计费（Midjourney 订阅+GPU 时长），因为吞吐就是价值。结构化审阅难以按次计费——审阅一段救命代码和审阅一段废代码花的功夫天差地别，价值锚在「省下的审阅带宽」而非「生成量」。定价模型必须跟随审阅成本结构，否则会激励错误行为（按生成量计费的代码工具会鼓励 AI 多产、人少看）。
合规边界：EU AI Act 第 14 条要求高风险 AI 让用户「知道 automation bias」，但只创设「感知义务」，不要求从设计上消除它（Laux & Ruschemeier, European Journal of Risk Regulation, 2025）。对 PM 的含义：法律只兜底到「告知」，把「审阅是否真有效」的责任完全留给了产品设计——这是审阅界面设计的护城河，也是责任所在。

§6 对手框架回应

业界反方立场（接受 + 边界）：一种有力的反方观点认为——「区分 selection 与 verification 是过度理论化；现实中创作工具正在融合，Midjourney 也在加编辑/inpainting（局部验证），Claude 也能生成图（审美选择），二者会收敛到同一套审阅界面」。

接受：这个观察是对的。品类边界确实在模糊，多模态产品会同时承载两种审阅。Adobe Firefly、Midjourney 的局部重绘都已引入「针对某区域的精确验证」，这正是 verification 渗入 selection 的证据。

边界与赌注：但我坚持——融合的是工具，分化的是审阅动作本身。一个产品同时做两类审阅，恰恰更需要清醒区分「此刻用户在 select 还是在 verify」，并切换不同的摩擦与认知负荷设计。把它们揉成一套 UI 才是真正的错误。我赌的是：未来高级创作工具的竞争力，不在于支持多少模态，而在于能否在 selection 与 verification 之间正确切换审阅范式。这个赌注的 failure scenario：如果某种统一的「AI 自审 + 人类抽检」机制（confidence-gated 自动执行）成熟到能让人类几乎不必区分两类审阅，那么本节点的分类学价值会显著贬值——但目前 confidence gating 在「上下文漂移 / 语义 OOD」场景下仍会失效（Doku 2026, arXiv 2603.09947;Gaus et al. 2026, arXiv 2605.18045），人类区分两类审阅在 2–3 年内仍是刚需。

Rick 未读对手框架引入：借 Herbert Simon 的注意力经济命题（“a wealth of information creates a poverty of attention”，1971）逼问本节点——Simon 会说，两种审阅范式的真正约束不是认知机制差异，而是注意力作为稀缺资源的总量恒定。这提醒我：再精巧的审阅 UI 也只是在分配同一池有限注意力，减少否决摩擦与降低认知负荷，本质是同一件事的两种表述——都是在为稀缺的注意力做预算。这把 §1 那张「看似两套独立设计杠杆」的表，统一到了一个注意力预算的底层框架下。

§7 跨域呼应：审阅是 verification 还是 rubber-stamping，是一个认识论问题

[!note] 跨域调度：0114认识论 — 验证 vs 背书的认识论分野

「审阅 AI 报告」这个动作，在认识论上有两种截然不同的性质：verification（验证） 是审阅者独立重建了对产物的判断依据，对其真值形成了自己的确信；rubber-stamping（橡皮图章） 是审阅者借助 AI 的权威外观，把自己的判断让渡了出去，只在形式上「过了一遍」。维特根斯坦式的追问是：当一个人「看过」AI 的 200 行代码并点了通过，他「知道」这段代码对吗？——如果他的确信完全建立在「AI 通常是对的」这个外部归纳上，而非对代码本身的独立把握，那这不是知识（justified true belief），而是托付。

这个认识论区分直接决定产品设计：

它决定了 confidence display 的设计伦理——展示置信度，到底是帮助用户做独立 verification（给他一个该多警惕的信号），还是给了他一个 rubber-stamping 的借口（「系统都说 95% 了，我就不细看了」）？同一个 UI 元素，落在 verification 一侧是辅助，落在 rubber-stamping 一侧是帮凶。
它决定了 citation 的设计目标——Perplexity 的引用编号若让人「看到有引用就信了」（CJR 实测 37–45% 错误率仍被信任），那 citation 制造的是 verification 的幻觉而非 verification 本身。好的 citation 设计要让点开溯源比不点更省心理成本，才能真正驱动验证。
它决定了 HITL 触发条件——HITL 断点该设在「人有能力做真 verification 的地方」，而非「流程上好插入的地方」。把 HITL 设在用户根本无力独立判断的环节（如审阅一段高度专业的医疗 AI 输出），制造的只是 rubber-stamping 的合规外壳。

这就是为什么本节点说审阅设计是认识论问题而非 UI 问题：界面在悄悄决定用户的「确信」是真知识还是托付，而这关乎产品对用户的诚实。

§8 一手观察：Claude Code 深度使用中的审阅范式切换（E 节点要求）

作为 Claude Code 的重度使用者，我对两种审阅范式的切换有直接体感（一手观察，非文献）：

当我让 Claude 生成一个全新模块时，我的审阅是「结构化 verification」——逐 hunk 看 diff、跑测试、问「这个边界条件考虑了吗」。这时我极度依赖 diff 粒度，缺了逐 hunk 接受能力我就会烦躁，因为整批接受等于放弃验证。
当我让 Claude 给一段文案/命名出三个候选时，我的审阅瞬间切回「selection」——我用看 Midjourney 的速度扫一眼，凭好恶选，几乎不做逻辑核对。
最危险的时刻是两者被同一个界面混在一起：当 Claude 在一次回复里既改了代码（需 verify）又顺手改了注释/文案（可 select），统一的 diff 视图会诱导我用同一种节奏处理全部改动——要么对文案过度认真，要么（更常见）对代码也只扫一眼。这正是 §4 错点 1 的一手印证：审阅界面没有区分两类动作时，人会用成本更低的那种（selection）去覆盖应该用 verification 的部分，漏检由此产生。

这个一手观察反过来给产品建议：好的审阅界面应当对「这一处该 verify 还是该 select」做出显式标注——比如把「逻辑改动」与「风格改动」用结构化标注分流（呼应 arXiv 2605.26100「Beyond Summaries: 结构化变更标注」的思路），让审阅者的认知节奏跟着内容性质走，而不是跟着 UI 的统一布局走。

§9 PM 决策启示

面试怎么用：被问「你怎么设计 AI 产品的审阅体验」，不要答「加个 confidence 分数和 citation」。先反问「这个产物的正确性可证伪吗、错误可逆吗」，据此分流到 selection 或 verification 范式——30 秒展示你看到了审阅成本结构这一层。
选型怎么用：评估创作类 AI 工具时，别比 feature list，比「它有没有把审阅成本结构判对」。代码工具看 diff 粒度（能否逐 hunk）、图像工具看否决摩擦（reroll/variation 是否丝滑）、混合工具看它能否区分两类动作。
复现怎么用：自建 AI 产品时，第一张该画的不是生成 UI，而是「审阅成本结构表」（§1 那张表的本产品版）——它会倒逼出整个审阅界面的设计，因为审阅界面即产品。

§10 与已有节点的关系

对照 p309 - 特殊品类交互设计要点：p309 按品类列交互要点，本节点纠偏其潜在的「品类 = 模态」隐含框架，提出真正的分野是「审阅成本结构（可证伪性 × 可逆性）」，比模态高一个抽象层。不复述 p309 的品类清单。
对照 p305 - 信任架构与可解释性设计：p305 讲「信任校准」的通用原则，本节点深化其在两类品类上的分化落地——selection 品类几乎不需要信任校准（错了重来即可），verification 品类才是信任架构的主战场。
对照 p307 - Copilot 到 Autopilot 光谱：p307 的 L0–L4 控制权光谱与本节点正交——本节点指出，同一个自动化层级，在 selection 与 verification 品类下的审阅设计完全不同，光谱必须叠加品类维度才完整。
对照 c13 - 幻觉的不可消除性：本节点把 c13 的「正确性可证伪 vs 不可证伪」从「模型为什么会错」延伸到「人该怎么审」，不复述幻觉的架构成因。
对照本专题同级 E 节点（审阅界面 UX 实例、citation 系统实例）：本节点提供的是这些实例背后的分类学框架，是它们的上位综合。

§11 关联节点

核心（必读）

p305 - 信任架构与可解释性设计 — 信任校准在 verification 品类的落地
p307 - Copilot 到 Autopilot 光谱 — 自动化层级 × 品类维度的正交叠加
p309 - 特殊品类交互设计要点 — 被本节点纠偏的品类框架
c13 - 幻觉的不可消除性 — 可证伪性这条轴的源头
p303 - 克服空白画布综合症 — selection 品类的发散-收敛问题
0114认识论 — verification vs rubber-stamping 的认识论根基

延伸（可选）

p302 - 七种 AI 交互设计模式 — 审阅模式在交互模式谱里的位置
p304 - 防御性 UX：对抗延迟与幻觉 — 优雅降级与纠错三件套
p306 - 数据飞轮与反馈回路设计 — 审阅行为作为反馈信号
幻觉 — 概念卡
Agent — agent 输出的审阅是本节点延伸场景
Claude Code — 一手观察的来源工具
Claude / ChatGPT / Test-Time Compute — 关联概念/产品
0117社会学 — 审阅作为责任分配的社会建制
AI PM 知识图谱·总索引 — 总入口

修订日志

2026-06-07 R0：首稿。建立「selection vs verification」审阅成本结构二分框架；判断主轴四错点四件套；对手框架（融合论）接受+边界；跨域调度 Simon 注意力经济（未读框架）+ 0114 认识论（verification vs rubber-stamping）；E 节点一手 Claude Code 观察；与 p305/p307/p309/c13 显式升级对照。数字接地：Sele & Chugunova 2024、CJR/Tow 2025、Laux & Ruschemeier 2025、Satya Borg 2026、GitHub Issue #33932/#31395、arXiv 2603.12123/2605.26100/2603.09947/2605.18045 均引自接地证据包；Claude Desktop diff 行为标〔来源：产品文档/社区，2026〕待终审复核。