R

E03 创作工具的审阅哲学剖解·Midjourney 与 Artifact

创建 2026-06-07 更新 2026-06-11 0 条双链 审阅瓶颈 专题 AI 整理

E03 创作工具的审阅哲学剖解·Midjourney 与 Artifact

当生产成本趋零,瓶颈反转为「人类审阅带宽」(本专题总命题)之后,一个被大多数产品文章忽略的问题浮上来:审阅不是一种统一动作。同样是「让人看一眼 AI 的产出再决定要不要」,看 Midjourney 生成的四宫格图,和看 Claude artifact 里一段可运行的代码或一份结构化文档,调用的是两套完全不同的认知机制、两种不同的审阅成本结构。本节点要解决的问题是:审阅成本的结构会随内容品类发生质变,因此审阅界面的设计不能只有一套范式——Midjourney 走的是「选择式审阅」,Claude artifact 走的是「结构化审阅」,二者的分野不是 UI 风格差异,而是对「人类审阅这件事究竟在做什么」的两种哲学回答。本节用的分析框架,是把 c13 - 幻觉的不可消除性 的「正确性可证伪 vs 不可证伪」这条轴,叠到审阅成本上去做切分。

§0 为什么是「审阅成本结构」这个框架,而不是「模态差异」

最容易滑入的错误框架是:「图像是视觉模态、代码/文档是文本模态,所以审阅方式不同」。这个框架是错的,因为它把分野归因于输入通道,会推出「只要做好多模态渲染就行」的错误产品结论。真正的分野在输出的正确性是否可被收敛性地验证

  • 一张图「好不好」没有客观真值,它是审美偏好问题——审阅 = 从候选集里选(selection),是 p303 - 克服空白画布综合症 处理的「发散后收敛」问题。
  • 一段代码「对不对」有客观真值(能不能跑、跑出来对不对、有没有引入回归),审阅 = 对单一产物做逐项验证(verification),是 p305 - 信任架构与可解释性设计 处理的「校准信任」问题。

把轴选对,产品决策就分岔了:可证伪品类要把审阅成本压在「定位差异、追溯依据」上(diff、citation、测试);不可证伪品类要把审阅成本压在「降低每次决策的代价、扩大候选吞吐」上(批量出图、快速 reroll、低摩擦否决)。用错框架的代价:给 Midjourney 强加 citation/confidence 标注是荒谬的(图没有「来源」可追溯),给代码 artifact 只做「四选一」式审阅则是灾难(鼓励 rubber-stamping,把 verification 退化成 selection)。

§1 两种审阅成本结构的解剖

维度Midjourney(选择式审阅)Claude artifact(结构化审阅)
输出正确性无客观真值(审美偏好)有客观真值(可运行/可测试/事实可核)
审阅动作从候选集选择 + 否决对单一产物逐项验证
单次决策成本极低(一眼好恶,~系统1)高(需建心智模型,~系统2)
主导认知系统系统 1(快速模式识别)系统 2(逻辑推理)—— 但极易被系统 1 劫持
错误的代价低(选错重出即可,可逆)高(漏检缺陷进入生产,难逆)
关键瓶颈候选吞吐 × 否决摩擦单产物的认知负荷 × 漏检率
对应设计杠杆批量并行、reroll、variation 树diff、progressive disclosure、citation、HITL 断点

这张表的核心是第三、四行的耦合:当单次决策成本低、且错误可逆时,把审阅退化为系统 1 的「好恶判断」是合理的——Midjourney 的产品形态(一次出 4 张、U/V 按钮、reroll)正是为「让系统 1 高速空转」优化的,这没有错。但当单次决策成本高、错误不可逆时,审阅必须强制系统 2 介入,而 AI 输出恰恰天然诱导审阅者用系统 1 应付(automation bias,详见 c13 - 幻觉的不可消除性 §13.3 提到的「模型最不确定时语气最自信」)。这就是两种品类的命门所在。

§2 Midjourney 的选择式审阅:把审阅成本转移到「否决摩擦」

Midjourney 的审阅哲学可以一句话概括:既然你无法验证一张图「对不对」,那就让你尽可能廉价地说「不要这张,换」。它的每一个交互都在压低否决摩擦:

  • 一次四宫格:把「选择」内置进生成,审阅者从一开始就在做对比选择,而非孤立判断单张图的好坏(对比判断的系统 1 成本远低于绝对判断)。
  • Variation 树 / reroll:否决不是终点而是分叉,把「拒绝」重新框定为「沿这个方向再探一步」,消解了否决的负面情绪成本。
  • 审阅即产品:用户 95% 的时间花在「看、选、微调参数再生成」的循环里——审阅界面就是 Midjourney 的产品本体,而不是生成之后附加的一道关卡。这直接印证本专题总命题「审阅界面即产品」。

判断:Midjourney 把瓶颈正确地识别为「候选吞吐 × 否决摩擦」,并对它做了到位的优化。但它的设计哲学有一个自我设限的边界——它假设审阅永远是审美选择,永远可逆。一旦用户要把生成图用于商业用途(版权归属、是否「抄」了某个在世画师的风格),审阅就从「选不选」变成「能不能用」,后者是可证伪的法律问题,Midjourney 的界面对此几乎零支持。这是选择式审阅哲学的盲区。

§3 Claude artifact 的结构化审阅:把审阅成本压在「认知负荷」上

Claude artifact 面对的是可证伪品类,它的审阅哲学是:既然产物有客观真值,就帮你尽量低成本地把验证做扎实,同时对抗你想偷懒(rubber-stamping)的本能。它的设计杠杆完全不同:

  • 结构化呈现 + progressive disclosure:把长输出折叠成可分层展开的结构(代码块、可运行预览、文档大纲),让审阅者按需展开,压低外在认知负荷(Nielsen 1995 渐进披露原理,主要作用是减少 extraneous load)。
  • Diff 化:Claude Desktop 已提供 diff 统计指示(如 +12 -1)、可点击 diff 查看器与内联注释(来源:Anthropic 产品文档及社区记录,2026);但 VS Code 扩展长期缺失同等粒度的逐 hunk 批准 UI,开发者公开提出 feature request(GitHub Issue #33932、#31395,2026-03)。这说明结构化审阅的关键不在「有 diff」,而在 diff 的可操作粒度——能不能逐 hunk 接受/拒绝,直接决定审阅者是被迫整批 rubber-stamp 还是能做细粒度 verification。
  • 可运行预览:artifact 的预览面板把「读代码想象它的行为」替换成「直接看它的行为」,这是把 verification 从昂贵的系统 2 心智模拟,部分卸载给可观测的运行结果——降低内在负荷的最有效手段。

判断:结构化审阅的核心战场是对抗注意力反转。Satya Borg(“Human Review is the Bottleneck”, 2026)的一手观察很尖锐:「An agent’s code hits you like a freight train at 1000 tok/sec with zero mortal constraints.」(一手博客,非学术论文)——AI 以千 token/秒涌来,人类要么 rubber-stamp 要么溺水。结构化审阅的全部设计努力,就是在这两个糟糕选项之间凿出第三条路:把审阅的认知工作前移到 spec 阶段,让看代码这件事从「批判性阅读」退化为「机械核对是否符合已批准的规格」——降低单产物的内在负荷,让有限的系统 2 投入获得最大杠杆。

§4 判断主轴:四个 90% 的人会搞错的点

[!warning] 致命耦合点:审阅成本结构必须先于审阅 UI 被识别

错点 1:以为「审阅界面」是一套通用模式,照搬到所有 AI 产品。

  • 症状:给图像生成产品强行加 confidence 分数和 citation;给代码 agent 只做「方案 A / 方案 B 二选一」的卡片式审阅。
  • 为什么会错:把审阅当成统一动作,没看到 selection 与 verification 是两种认知机制。
  • 正确做法:先判定产物正确性是否可证伪(§0 的轴),再选审阅范式。
  • 真实反例:把代码审阅做成「四选一」会系统性诱发 rubber-stamping——LogRocket 实测(2026,非同行评审博客)显示审阅 AI 生成的 186 行代码需 8–12 分钟,而「四选一」UI 鼓励人用看图的系统 1 速度(秒级)去处理它,漏检必然飙升。

错点 2:把「低否决摩擦」当成所有审阅的目标。

  • 症状:在高风险代码/医疗/金融审阅里也追求「一键通过」的丝滑。
  • 为什么会错:低摩擦对可逆的审美选择是优点,对不可逆的正确性验证是灾难——它正是 automation bias 的温床。
  • 正确做法:可证伪 + 不可逆品类要故意增加关键节点的摩擦(HITL 强制断点),见 p307 - Copilot 到 Autopilot 光谱 的风险感知降级(读文件 L3、发邮件/转账 L1)。
  • 真实反例:Sele & Chugunova(PLoS ONE, 2024)实验发现,加入「人在环路」后接受率上升约 7 个百分点,但预测准确率反而下降——人没充当「紧急制动器」。摩擦设计错位会让 HITL 沦为剧场。

错点 3:以为结构化审阅(diff/citation)能自动消除 automation bias。

  • 症状:上线了 diff、加了置信度标注,就认为审阅质量有保障。
  • 为什么会错:可解释性对 automation bias 的缓解作用在实证上方向冲突——部分研究发现解释反而增加盲信、抬高认知负荷(综述见 AI & Society, 2025)。
  • 正确做法:把可解释信息当「校准信任」的工具而非「免责声明」,并配合跨上下文审阅(另起会话、只给最终产物、不给生成历史,减少锚定,逼系统 2 介入;来源:arXiv 2603.12123,2026)。
  • 真实反例:CJR/Tow Center(2025-03,1600 次查询)测得 Perplexity Pro 引用错误率约 45%,比免费版(约 37%)更高——更「专业」的界面(带引用编号)反而让用户更信任一个错得更多的系统。citation 是双刃剑。

错点 4:把图像审阅的「可逆」假设当永久成立。

  • 症状:默认创作工具的审阅永远低风险,不为版权/合规留审阅钩子。
  • 为什么会错:当生成物进入商业链路,审阅就从不可证伪(审美)切换到可证伪(侵权与否),成本结构突变。
  • 正确做法:为「使用前」单设一道可证伪审阅(来源声明、风格相似度提示),而非沿用「选不选」界面。
  • 真实反例:Midjourney 因训练数据与在世艺术家风格的版权争议长期被诉(Andersen v. Stability AI 等集体诉讼,2023 起,Midjourney 为被告之一;Disney 与 Universal 亦于 2025-06 起诉 Midjourney),但其审阅界面对「这张图能不能商用」零提示——哲学盲区落成了产品盲区。

§5 产品 PM 视角补盲

工程视角只会问「审阅 UI 怎么做」,PM 必须补三个非工程盲区:

  1. 用户心理模型:Midjourney 用户把自己定位为「策展人/导演」,要的是掌控感与高吞吐——审阅摩擦越低越爽。Claude 代码用户把自己定位为「最终责任人」,要的是「我确实看懂了才放行」的踏实感——这时过度丝滑反而制造焦虑(「它是不是骗我点了通过」)。同一个「低摩擦」,在两类用户心智里一个是爽点一个是雷点。
  2. 商业模式耦合:选择式审阅天然按「生成次数/算力」计费(Midjourney 订阅+GPU 时长),因为吞吐就是价值。结构化审阅难以按次计费——审阅一段救命代码和审阅一段废代码花的功夫天差地别,价值锚在「省下的审阅带宽」而非「生成量」。定价模型必须跟随审阅成本结构,否则会激励错误行为(按生成量计费的代码工具会鼓励 AI 多产、人少看)。
  3. 合规边界:EU AI Act 第 14 条要求高风险 AI 让用户「知道 automation bias」,但只创设「感知义务」,不要求从设计上消除它(Laux & Ruschemeier, European Journal of Risk Regulation, 2025)。对 PM 的含义:法律只兜底到「告知」,把「审阅是否真有效」的责任完全留给了产品设计——这是审阅界面设计的护城河,也是责任所在。

§6 对手框架回应

业界反方立场(接受 + 边界):一种有力的反方观点认为——「区分 selection 与 verification 是过度理论化;现实中创作工具正在融合,Midjourney 也在加编辑/inpainting(局部验证),Claude 也能生成图(审美选择),二者会收敛到同一套审阅界面」。

接受:这个观察是对的。品类边界确实在模糊,多模态产品会同时承载两种审阅。Adobe Firefly、Midjourney 的局部重绘都已引入「针对某区域的精确验证」,这正是 verification 渗入 selection 的证据。

边界与赌注:但我坚持——融合的是工具,分化的是审阅动作本身。一个产品同时做两类审阅,恰恰更需要清醒区分「此刻用户在 select 还是在 verify」,并切换不同的摩擦与认知负荷设计。把它们揉成一套 UI 才是真正的错误。我赌的是:未来高级创作工具的竞争力,不在于支持多少模态,而在于能否在 selection 与 verification 之间正确切换审阅范式。这个赌注的 failure scenario:如果某种统一的「AI 自审 + 人类抽检」机制(confidence-gated 自动执行)成熟到能让人类几乎不必区分两类审阅,那么本节点的分类学价值会显著贬值——但目前 confidence gating 在「上下文漂移 / 语义 OOD」场景下仍会失效(Doku 2026, arXiv 2603.09947;Gaus et al. 2026, arXiv 2605.18045),人类区分两类审阅在 2–3 年内仍是刚需。

Rick 未读对手框架引入:借 Herbert Simon 的注意力经济命题(“a wealth of information creates a poverty of attention”,1971)逼问本节点——Simon 会说,两种审阅范式的真正约束不是认知机制差异,而是注意力作为稀缺资源的总量恒定。这提醒我:再精巧的审阅 UI 也只是在分配同一池有限注意力,减少否决摩擦与降低认知负荷,本质是同一件事的两种表述——都是在为稀缺的注意力做预算。这把 §1 那张「看似两套独立设计杠杆」的表,统一到了一个注意力预算的底层框架下。

§7 跨域呼应:审阅是 verification 还是 rubber-stamping,是一个认识论问题

[!note] 跨域调度:0114认识论 — 验证 vs 背书的认识论分野

「审阅 AI 报告」这个动作,在认识论上有两种截然不同的性质:verification(验证) 是审阅者独立重建了对产物的判断依据,对其真值形成了自己的确信;rubber-stamping(橡皮图章) 是审阅者借助 AI 的权威外观,把自己的判断让渡了出去,只在形式上「过了一遍」。维特根斯坦式的追问是:当一个人「看过」AI 的 200 行代码并点了通过,他「知道」这段代码对吗?——如果他的确信完全建立在「AI 通常是对的」这个外部归纳上,而非对代码本身的独立把握,那这不是知识(justified true belief),而是托付。

这个认识论区分直接决定产品设计

  • 它决定了 confidence display 的设计伦理——展示置信度,到底是帮助用户做独立 verification(给他一个该多警惕的信号),还是给了他一个 rubber-stamping 的借口(「系统都说 95% 了,我就不细看了」)?同一个 UI 元素,落在 verification 一侧是辅助,落在 rubber-stamping 一侧是帮凶。
  • 它决定了 citation 的设计目标——Perplexity 的引用编号若让人「看到有引用就信了」(CJR 实测 37–45% 错误率仍被信任),那 citation 制造的是 verification 的幻觉而非 verification 本身。好的 citation 设计要让点开溯源比不点更省心理成本,才能真正驱动验证。
  • 它决定了 HITL 触发条件——HITL 断点该设在「人有能力做真 verification 的地方」,而非「流程上好插入的地方」。把 HITL 设在用户根本无力独立判断的环节(如审阅一段高度专业的医疗 AI 输出),制造的只是 rubber-stamping 的合规外壳。

这就是为什么本节点说审阅设计是认识论问题而非 UI 问题:界面在悄悄决定用户的「确信」是真知识还是托付,而这关乎产品对用户的诚实。

§8 一手观察:Claude Code 深度使用中的审阅范式切换(E 节点要求)

作为 Claude Code 的重度使用者,我对两种审阅范式的切换有直接体感(一手观察,非文献):

  • 当我让 Claude 生成一个全新模块时,我的审阅是「结构化 verification」——逐 hunk 看 diff、跑测试、问「这个边界条件考虑了吗」。这时我极度依赖 diff 粒度,缺了逐 hunk 接受能力我就会烦躁,因为整批接受等于放弃验证。
  • 当我让 Claude 给一段文案/命名出三个候选时,我的审阅瞬间切回「selection」——我用看 Midjourney 的速度扫一眼,凭好恶选,几乎不做逻辑核对。
  • 最危险的时刻是两者被同一个界面混在一起:当 Claude 在一次回复里既改了代码(需 verify)又顺手改了注释/文案(可 select),统一的 diff 视图会诱导我用同一种节奏处理全部改动——要么对文案过度认真,要么(更常见)对代码也只扫一眼。这正是 §4 错点 1 的一手印证:审阅界面没有区分两类动作时,人会用成本更低的那种(selection)去覆盖应该用 verification 的部分,漏检由此产生。

这个一手观察反过来给产品建议:好的审阅界面应当对「这一处该 verify 还是该 select」做出显式标注——比如把「逻辑改动」与「风格改动」用结构化标注分流(呼应 arXiv 2605.26100「Beyond Summaries: 结构化变更标注」的思路),让审阅者的认知节奏跟着内容性质走,而不是跟着 UI 的统一布局走。

§9 PM 决策启示

  • 面试怎么用:被问「你怎么设计 AI 产品的审阅体验」,不要答「加个 confidence 分数和 citation」。先反问「这个产物的正确性可证伪吗、错误可逆吗」,据此分流到 selection 或 verification 范式——30 秒展示你看到了审阅成本结构这一层。
  • 选型怎么用:评估创作类 AI 工具时,别比 feature list,比「它有没有把审阅成本结构判对」。代码工具看 diff 粒度(能否逐 hunk)、图像工具看否决摩擦(reroll/variation 是否丝滑)、混合工具看它能否区分两类动作。
  • 复现怎么用:自建 AI 产品时,第一张该画的不是生成 UI,而是「审阅成本结构表」(§1 那张表的本产品版)——它会倒逼出整个审阅界面的设计,因为审阅界面即产品。

§10 与已有节点的关系

  • 对照 p309 - 特殊品类交互设计要点:p309 按品类列交互要点,本节点纠偏其潜在的「品类 = 模态」隐含框架,提出真正的分野是「审阅成本结构(可证伪性 × 可逆性)」,比模态高一个抽象层。不复述 p309 的品类清单。
  • 对照 p305 - 信任架构与可解释性设计:p305 讲「信任校准」的通用原则,本节点深化其在两类品类上的分化落地——selection 品类几乎不需要信任校准(错了重来即可),verification 品类才是信任架构的主战场。
  • 对照 p307 - Copilot 到 Autopilot 光谱:p307 的 L0–L4 控制权光谱与本节点正交——本节点指出,同一个自动化层级,在 selection 与 verification 品类下的审阅设计完全不同,光谱必须叠加品类维度才完整。
  • 对照 c13 - 幻觉的不可消除性:本节点把 c13 的「正确性可证伪 vs 不可证伪」从「模型为什么会错」延伸到「人该怎么审」,不复述幻觉的架构成因。
  • 对照本专题同级 E 节点(审阅界面 UX 实例、citation 系统实例):本节点提供的是这些实例背后的分类学框架,是它们的上位综合。

§11 关联节点

核心(必读)

延伸(可选)

修订日志

  • 2026-06-07 R0:首稿。建立「selection vs verification」审阅成本结构二分框架;判断主轴四错点四件套;对手框架(融合论)接受+边界;跨域调度 Simon 注意力经济(未读框架)+ 0114 认识论(verification vs rubber-stamping);E 节点一手 Claude Code 观察;与 p305/p307/p309/c13 显式升级对照。数字接地:Sele & Chugunova 2024、CJR/Tow 2025、Laux & Ruschemeier 2025、Satya Borg 2026、GitHub Issue #33932/#31395、arXiv 2603.12123/2605.26100/2603.09947/2605.18045 均引自接地证据包;Claude Desktop diff 行为标〔来源:产品文档/社区,2026〕待终审复核。