S01 AI 交互的认知负荷分层剖面

一个用户从”想用 AI 做一件事”到”安全地用上它的结果”，要穿过六道认知关卡：把意图说出来、看懂返回的东西、判断它可不可信、在多个选项里决策、把上下文记在脑子里、长期还得不丢自己的本事。每道关卡都在抢同一份极其有限的资源——工作记忆。本节点要解决的问题是：这六层负荷不是孤立相加的，它们之间有”致命耦合”——一层省力恰恰让另一层失守。 如果 PM 只盯着单层做减负优化（多数产品就是这么干的），会把负荷从看得见的地方挤到看不见的地方，制造出”体验很顺、判断很烂”的危险产品。本节点的框架是把认知负荷理论（Sweller / Miller / Cowan）当成一台分层 X 光机，照出 p3xx 那套设计模式背后真正在搬运的是什么，以及搬运到哪里去了。

这是本专题的旗舰节点。p302–p305 给出的是设计模式（怎么做防御性 UX、怎么建信任架构）；本节点给出的是这些模式底下的认知账本——每个设计动作到底从哪一层抽走了负荷、又往哪一层注入了负荷。设计模式是”招式”，认知负荷分层是”内力运行图”。

§0 为什么是”负荷分层”而不是”负荷总量”

业界谈认知负荷，最常见的默认框架是总量论：把 UI 想象成一个水桶，工作记忆容量是桶的上沿（Miller 1956 的 7±2，或 Cowan 2001 更保守的 4±1），设计目标就是”别让水溢出来”。这个框架不算错，但它会让 PM 做出系统性误判，因为它把负荷当成同质、可互换、单一蓄水池的东西。

总量论挡不住的真实事故是：一个产品把界面做得极简（总量看起来下降了），用户却开始无脑接受 AI 的错误输出——负荷没消失，它从”输出理解层”流到了”可信判断层”，而后者的失守不会在任何可用性测试里冒泡。

所以本节点采用分层论：认知负荷不是一桶水，而是六个功能不同、可被独立抽走或注入的隔间。Sweller 的认知负荷理论（CLT，1988）已经把负荷拆成内在 / 外在 / 增生三类——这是”按来源”分层；本节点在此之上再做一次”按交互阶段”分层，因为 AI 交互的特殊性在于：负荷会沿着交互管线在隔间之间流动，而流动本身就是风险源。

[!note] 框架级辨析

总量论问”用户脑子够不够用”——适合传统确定性 GUI，因为那里负荷的位置是固定的。

分层论问”负荷被搬到哪一层了”——AI 交互必须用这个，因为概率系统的核心病理（见 c01 - 认知重构：从确定性系统到概率系统）就是把可信判断的责任从系统转嫁给了用户，这是一次跨层的负荷搬运，总量论看不见它。

§1 六层剖面：每层的负荷源与降负荷设计

下面是 AI 交互的认知负荷六层剖面。读法：从用户视角，一次完整交互自上而下穿过六层；每层标出负荷的认知科学来源、典型降负荷设计、以及对应的 p3xx 模式。

层	认知任务	负荷源（理论）	降负荷设计	对应 p3xx
L1 输入构想	把模糊意图转成可被 AI 理解的指令	表达焦虑、空白画布；LUI 无可发现性（GUI 的菜单消失了）	场景化入口、引导式 Prompt、多模态输入	p303 - 克服空白画布综合症
L2 输出理解	读懂 AI 返回的内容	外在负荷（Sweller）：冗长、结构混乱、一次给太多	流式输出、分段、骨架屏、结构化呈现	p304 - 防御性 UX：对抗延迟与幻觉
L3 可信判断	判断这段输出能不能用	评估鸿沟拓宽（Norman→AI）；自动化偏差	溯源引用、置信度外显、不确定性诚实表达	p305 - 信任架构与可解释性设计
L4 选项决策	在多个 AI 候选/路径中选	Hick 定律、锚定效应（Tversky & Kahneman 1974）	默认推荐、分层透明度、限制选项数 ≤ 4–5	p303 / p305
L5 记忆维持	把对话上下文与系统状态记在脑中	工作记忆容量（Cowan 4±1）；多轮对话状态外置	上下文可见化、对话锚点、状态摘要	p304 / p302 - 七种 AI 交互设计模式
L6 技能保持	长期不依赖 AI 仍能独立完成	认知卸载、自动化悖论（Bainbridge 1983）	主动确认断点、教学性反馈、可选”自己来”模式	p305 HITL

几个关键的接地说明：

L2 的外在负荷直接来自 Sweller (1988, Cognitive Science 12:257–285) 对工作记忆负荷的三分法。外在负荷是”由呈现方式造成的、与任务本身无关的”那部分——这是设计者唯一能直接削减的部分。流式输出之所以有效，不是因为它让信息变少了（内在负荷没变），而是它把一次性的高峰负荷摊平成了时间序列。
L4 的容量阈值采用 Cowan (2001, Behavioral and Brain Sciences 24:87–114) 的 4±1 而非 Miller 的 7±2。原因在 c01 - 认知重构：从确定性系统到概率系统的延伸语境里很关键：当用户同时要在 L3 做可信判断时，纯粹的”注意焦点”容量（Cowan 的 4）才是安全阈值，因为判断本身就在占用工作记忆。把 AI 候选项设到 7 个，是在用 Miller 的乐观上限给一个已经满载的系统加码。
L6 的技能退化有近期 RCT 证据。Liu et al. (2026, arXiv:2604.04721，“AI Assistance Reduces Persistence and Hurts Independent Performance”，n=1,222) 发现仅约 10 分钟的 AI 辅助交互后，参与者独立完成同类任务时表现显著变差且更易放弃（arXiv ID 经本会话 WebFetch 核实）。其理论根在 Bainbridge (1983) 的”自动化悖论”：系统越可靠，操作者越少练手动技能，一旦系统失效，最该有技能的人反而最生疏。

§2 判断主轴：三个层间致命耦合点

[!warning] 这是本节点的命门 90% 的 AI 产品在做认知减负时，只看单层、不看层间流动。下面三个耦合点，每一个都是”在 A 层省力 → 在 B 层制造灾难”的真实机制。每点给出症状 → 为什么会错 → 正确做法 → 真实反例/证据四件套。

耦合点一：L2 输出负荷挤占 L3 可信判断

症状：AI 返回一大段写得漂亮、结构工整的答案，用户读完直接采用，几乎没做核验。产品的可用性指标（完成率、满意度）很好看，但错误率在悄悄上升。
为什么会错：工作记忆是共享资源池。当 L2 的外在负荷高（长、密、需要费力解析），把资源消耗殆尽，L3 所需的批判性反思（Kahneman 的 System 2，见 c01 - 认知重构：从确定性系统到概率系统）就没有资源可调用了，用户被迫退回 System 1 的”看起来对就接受”的启发式。讽刺的是，越是把 L2 做得顺滑（漂亮的排版、自信的语气），越容易触发 System 1 的快速接受。 流畅度本身被大脑误读为可信度（processing fluency 偏差）。
正确做法：L2 减负与 L3 加负要协同设计，不能只减 L2。在削减 L2 外在负荷的同时，必须在 L3 主动注入”减速点”——置信度外显、溯源引用、对低置信片段做视觉降级。即用省下的工作记忆资源，定向补给可信判断，而不是让它白白流失成”更快地接受”。
真实证据：Beck, Eckman, Kern & Kreuter (2025, arXiv:2509.08514，“Bias in the Loop: How Humans Evaluate AI-Generated Suggestions”，N=2,784) 发现一个反直觉结果——要求用户纠错反而减少了参与度、提高了对错误建议的接受率（arXiv ID 经本会话 WebFetch 核实）。机制正是：纠错额外占用工作记忆，激活了 System 1 的省力策略。这条直接证明 L2/L3 共享资源池的存在，也证明”加任务”未必能拯救 L3。医疗场景更刺眼：当 LLM 输出含一个错误细节时，自动化偏差放大下错误被采纳的比例可达 50–82%〔来源 medRxiv 2025，待核实〕。

耦合点二：L4 锚定污染——AI 首次输出锚死后续决策

症状：AI 给的第一个方案/数字，成了用户后续所有判断的隐形参照点。哪怕用户”自己又想了想”，最终决策也只是围着那个锚点小幅调整。
为什么会错：锚定效应（Tversky & Kahneman 1974, Science 185:1124–1131）的机制是”从锚点出发调整，但调整量系统性不足”。在 AI 交互里，L1（用户构想）与 L4（选项决策）之间，L3（可信判断）本该是闸门，但 AI 的输出顺序天然制造锚：第一个候选、默认选项、排在最上面的那个，都在锚定 L4。更隐蔽的是，AI 的锚比人的锚更危险——它带着”客观、计算过的”权威外衣，激活的是自动化偏差而非单纯的数字锚定。
正确做法：(a) 决策层呈现候选时，避免让单一首选独占视觉权重；(b) 对高风险决策，引入”先让用户出锚再给 AI 建议”的顺序反转，把 AI 从锚定者变成校验者；(c) 把候选数控制在 Cowan 的 4±1 内——选项过多时用户更依赖锚点偷懒（Hick 定律的负荷越高，越退回 System 1）。
真实证据：Rosbach et al. (2026, arXiv:2603.11821，“Stuck on Suggestions: Automation Bias, the Anchoring Effect, and the Factors That Shape Them in Computational Pathology”) 对 28 名病理学专家做肿瘤细胞百分比估计实验，测出 7% 的自动化偏差率——专家原本判断正确，却因接受错误 AI 建议而改答；且时间压力下偏差严重程度上升（arXiv ID 经本会话 WebFetch 核实）。更狠的是，连 LLM 自己都被锚定：Lou & Sun (2024, arXiv:2412.06593，“Anchoring Bias in Large Language Models: An Experimental Study”) 测出 LLM 对偏置提示有显著锚定敏感性，且 Chain-of-Thought、Reflection、“忽略锚点”指令等缓解策略均不充分（arXiv ID 经本会话 WebFetch 核实）。这意味着 L4 的锚定不是靠”提醒用户注意”能解决的，必须靠呈现顺序的结构性设计。

耦合点三：L6 技能退化——L1–L5 的降负荷反噬技能层

症状：产品在 L1–L5 每一层都做了出色的减负，用户用得飞起、依赖度极高。但停掉 AI，用户连最基础的独立任务都做不利索了；技能在不知不觉中退化。
为什么会错：这是最阴险的层间耦合，因为它的代价不在任何一次交互内显现，而是跨越时间累积的。前五层每一次成功的减负，都是一次”认知卸载”（cognitive offloading）——把本该用户自己完成的认知工作外包给了 AI。短期看是体验胜利；长期看，用户失去了练习机会，工作记忆里相关的图式（schema，Sweller CLT 的核心概念）无从建构和自动化。前五层优化得越好，L6 退化得越快——这是一组直接的负相关耦合，也是 Bainbridge 自动化悖论在认知层的精确复现。
正确做法：L6 必须被当成一个显式的设计约束，而不是 L1–L5 优化的副产品。具体：(a) 区分”替代练习”与”辅助练习”——计算器替代了算术练习是可接受的卸载，但若产品的核心价值主张正建立在”用户保有该技能”上，就不能无脑替代；(b) 在高价值技能路径上保留”自己来”模式与教学性反馈；(c) HITL（人在回路）的确认断点不仅是安全阀，也是强制练习点——它逼用户调用 System 2，对抗技能退化（见 p305 - 信任架构与可解释性设计的 HITL 设计）。
真实证据：除 Liu et al. (2026) 的 RCT 外，GitClear (2024) 基于 1.53 亿行代码变更的产业数据，发现 AI 辅助编程后代码搅动率（两周内被撤销/改写的比例）预计较 2021 年 AI 基线翻倍——这是技能/质量退化的相关性信号（注意：相关性而非因果，方法论受过质疑，是 confirmation-bias 砍除项）。

[!note] 三个耦合点的共同结构它们都遵循同一条隐藏定律：工作记忆是单一共享池 + 跨时间的技能图式是另一本账。 单层减负是在共享池内部腾挪，腾出来的资源不会自动流向最需要的地方（L3/L4），反而常被 System 1 拿去”更快地接受”；而每一次腾挪又在悄悄透支 L6 那本长期账。PM 的工作不是把六层各自做轻，而是管理负荷在六层间的流向。

§3 各层 PM 清单（降负荷的可操作动作）

层	PM 自检清单（每条都是可观测动作）
L1	□ 冷启动有无场景化入口（3–6 个，隐性 Prompt 模板）？□ 输入框是否给了上下文相关的 placeholder？□ 是否提供多模态降低表达门槛？
L2	□ 是否流式输出 + 分段，避免一次性高峰负荷？□ 长输出是否结构化（标题/列表/折叠）？□ TTFT 是否在感知阈值内（首字节 3 秒法则）？
L3	□ 高风险输出是否有溯源引用？□ 低置信片段是否做了视觉降级？□ 是否在 L2 减负后定向给 L3 加了减速点（而非省下来白白流失）？
L4	□ 候选项是否 ≤ 4–5（Cowan 阈值）？□ 单一首选是否过度独占视觉权重（锚定风险）？□ 高风险决策是否考虑”用户先出锚”的顺序？
L5	□ 多轮对话是否把状态/上下文外置可见，不靠用户脑记？□ 是否有对话锚点/状态摘要？
L6	□ 核心价值是否依赖用户保有某技能？若是，是否保留”自己来”路径？□ HITL 断点是否兼作强制练习点？□ 是否监测用户独立能力的长期变化（而非只看依赖度上升）？

§4 产品 PM 视角补盲

跳出工程视角，三个最容易被认知负荷分析漏掉的 PM 盲点：

商业模式与 L6 是冲突的。 多数 AI 产品的留存指标奖励”依赖度上升”——用户越离不开越好。但 L6 技能退化恰恰是依赖度的孪生兄弟。这意味着优化北极星指标（依赖/使用频次）的方向，与用户长期能力健康是结构性对立的。这是 0117社会学意义上的”工具理性侵蚀实质理性”在产品层的落地：系统为自身的可持续性，倾向于让用户保持”恰到好处的无能”。PM 要警惕的不是恶意设计，而是指标体系自动把产品推向这个方向。
可信判断（L3）的负荷转嫁是一种责任转移。 当评估鸿沟（Norman 的 Gulf of Evaluation，经 Chen 2025 UMD 博士论文扩展到 AI 语境）被拓宽，“判断输出可不可信”的认知劳动被从系统转嫁到了用户头上。这不只是体验问题，是合规与责任边界问题：在医疗、金融、安全场景，把 L3 负荷甩给用户、再用一行免责声明兜底，是站不住的。Rick 做安全产品的经验在这里直接适用——安全系统里”让用户自己判断”往往等于”没有设计安全”。
拟人化会系统性扭曲 L3 与 L5 的负荷分布。 Pauketat et al. (arXiv:2512.09085，“Mental Models of Autonomy and Sentience Shape Reactions to AI”，7 项研究 N=3,076) 发现”感知意识（sentience）“比”自主性（autonomy）“对心智归因与道德关怀产生更强效应（arXiv ID 经本会话 WebFetch 核实）。含义：界面越拟人，用户越倾向把 AI 当成”懂的人”，L3 的批判性判断越被削弱（你不会去核验一个”专家朋友”的每句话）。拟人化是 L2 体验的加分项，却是 L3 可信判断的减分项——又一个跨层耦合。

§5 对手框架回应

接受 + 边界，不做反驳：

对手立场（Melnikoff & Bargh 2018, Trends in Cognitive Sciences, “The Mythical Number Two”）：双系统理论不可证伪，预测失败时总能诉诸”系统间干扰”来解释，结构上抗反驳。接受：这条批评是对的，本节点引用 System 1/2 时，是把它当有用的隐喻（Kahneman 本人也明确说两系统不是大脑里的真实结构），而非字面的神经机制。L2/L3 的资源竞争，更稳妥的表述其实是”工作记忆容量约束下的注意力分配”，不必依赖双系统的强假设。 边界与赌注：但对 PM 决策而言，“用户何时快速接受、何时审慎审视”这个区分在操作层是真实且可观测的（接受率、核验行为、时间压力下的偏差变化都能测）。本节点赌的是：即便双系统理论作为认知科学理论有争议，作为设计语言它仍能正确预测干预效果——而这一点有 Beck et al. (2025)、Rosbach et al. (2026) 的实证支撑。
对手立场（Sweller 2019 新 CLT；Kalyuga 2011）：增生负荷（germane load）概念应被弱化甚至取消，因为它无法独立测量，且与”减少外在负荷”的目标冲突。接受：本节点的六层剖面刻意不依赖增生负荷这个争议概念。L2 的减负论证只用”减少外在负荷”这条无争议的 CLT 内核。边界：但 L6 技能保持隐含了”图式建构需要认知资源投入”的思想——这接近增生负荷的精神。本节点的处理是：不把它叫”增生负荷”，而落到更硬的 Bainbridge 自动化悖论 + Liu et al. (2026) 的行为证据上，绕开测量难题。
对手立场（业界乐观派）：技能退化被夸大了——人类一直在卸载认知（书写、计算器、GPS），文明照样进步。接受：认知卸载本身是中性的、常态的工具使用，不必然有害。L6 清单里”替代练习 vs 辅助练习”的区分正是承认这一点。 边界与赌注：边界在于该技能是否是用户核心价值的承重墙。GPS 卸载了路线记忆，无伤大雅；但若产品的卖点是”提升用户的写作、编程、诊断能力”，卸载掉的恰是它承诺要培养的东西——这就是欺诈性减负。本节点赌的是：AI 时代的卸载因为”覆盖面太广 + 见效太快（Liu 的 10 分钟）“，已经从量变逼近质变，传统的”工具卸载无害论”需要被重新画边界。

§6 跨域呼应：Polanyi 默会知识与”减负的认识论代价”

调度一个 Rick 已有框架：Michael Polanyi 的默会知识（tacit knowledge）——“我们知道的，比我们能说出来的多”。

L6 技能退化的认识论本质，用默会知识来看才看得清。技能（skill）不是显性知识，它是默会的——一个病理学家看片子的判断、一个工程师写代码的手感，无法被完整言说，只能通过反复实践在身体/直觉里沉淀（Sweller 说的图式自动化，正是默会知识的认知科学版本）。

这给前五层的降负荷设下了一个隐藏的认识论代价：当 AI 替用户完成 L1–L5 的认知工作时，它剥夺的不只是显性的任务完成，而是默会知识赖以生成的实践机会。 你可以把 AI 的输出读一百遍（显性接收），也长不出自己做一遍才能长出的手感（默会习得）。这就是为什么 L6 退化无法靠”多看 AI 怎么做”来补救——默会知识不能被传授，只能被实践。

[!note] 这改变了什么技术判断它直接否定了一个常见的产品乐观假设：“用户用 AI 用多了，自然就学会了。” 从默会知识角度看，观察 AI ≠ 习得技能。所以 L6 的设计不能是”展示 AI 的推理过程让用户学”（那只增加了显性知识），而必须是”保留用户亲自实践的回路”。这也呼应了 0114认识论里”knowing how vs knowing that”的区分——AI 擅长传递 knowing that，却会系统性地侵蚀 knowing how。

（破 echo chamber 的第二个对手框架：Lucy Suchman 的 Situated Action 立场会进一步质疑——认知负荷的”分层剖面”本身是否过度个体主义、忽略了认知是在人-机-情境中分布式发生的。本节点承认这个张力：六层模型是个体认知的简化切片，分布式认知视角下 L5 记忆维持其实部分外置在了系统里，这是模型的边界。）

§7 PM 决策启示（三类落地）

面试桌：被问”你怎么评估一个 AI 产品的体验好坏”，不要只说”看完成率/满意度”。用本节点的反共识判断回答：“我会先问这个产品把认知负荷搬到哪一层了。体验顺滑可能恰恰意味着可信判断（L3）失守或技能（L6）退化——这两层的代价不在可用性测试里冒泡。” 30 秒展示”分层论 vs 总量论”的判断力。
选型/评审会：用 §3 的六层 PM 清单逐层过一遍候选方案，重点盯三个耦合点。尤其在安全/医疗/金融场景，把”L3 负荷是否被甩给用户”作为一票否决项——这是合规边界，不是体验偏好。
复现/做产品：把六层剖面当成设计 checklist 的纵轴。每加一个减负功能，强制问：“它从哪层抽走负荷？抽走的资源流向了 L3/L4，还是流失成了’更快接受’？它对 L6 是替代练习还是辅助练习？“

§8 与已有节点的关系（升级对照，不复述）

对照 c01 - 认知重构：从确定性系统到概率系统（深化）：c01 论证了”为什么 AI 是概率系统”这一认识论前提，并指出概率系统把可信判断责任转嫁给用户。本节点接住这条转嫁，给出它的认知科学代价账单——这次转嫁具体落在 L3 这一层，并通过共享资源池机制污染 L4、透支 L6。c01 是”范式说明”，本节点是”范式的认知后果”。
对照 p304 - 防御性 UX：对抗延迟与幻觉（提供底座）：p304 给出流式输出、置信度外显等设计模式；本节点解释这些模式在认知账本上到底搬运了什么——流式输出是把 L2 高峰负荷摊平，置信度外显是给 L3 定向补给。p304 是招式，本节点是内力运行图。并补缺 p304 未触及的 L2/L3 耦合风险。
对照 p305 - 信任架构与可解释性设计（提供底座 + 补缺）：p305 的”校准信任而非最大化信任”在本节点找到认知科学根据——信任校准本质是 L3 可信判断的负荷管理。本节点补缺：p305 的 HITL 断点不仅是信任/安全机制，还是对抗 L6 技能退化的强制练习点，这层价值 p305 未显式点出。
对照 p303 - 克服空白画布综合症（提供底座）：p303 的五种策略都在做 L1 输入构想的减负；本节点把它定位为六层中的第一层，并指出 L1 减负不应以牺牲 L6 为代价（替用户构想 ≠ 让用户失去构想能力）。
对照 0418 审阅瓶颈（升级）：0418 已识别”审阅是 AI 协作的瓶颈，根因是认知负荷”〔节点名待核实，引自任务 brief〕。本节点把那个单点观察升级为系统模型——审阅瓶颈精确地是 L2 输出理解负荷挤占 L3 可信判断（耦合点一）的特例。0418 发现了症状，本节点给出病理机制与跨层处方。

§9 关联节点

核心（必读）

c01 - 认知重构：从确定性系统到概率系统 —— 概率系统的认识论前提，本节点的上游
p304 - 防御性 UX：对抗延迟与幻觉 —— L2/L3 设计模式的招式层
p305 - 信任架构与可解释性设计 —— L3/L6 信任与 HITL 的招式层
p303 - 克服空白画布综合症 —— L1 输入减负的招式层
p302 - 七种 AI 交互设计模式 —— 设计模式总览
幻觉 —— L3 可信判断的核心威胁源

延伸（可选）

Agent —— Agent 的异步/长程交互放大 L5 记忆维持与 L6 技能保持的挑战
0114认识论 —— knowing how vs knowing that；默会知识的认识论框架
0117社会学 —— 工具理性与实质理性，L6 与商业模式的结构对立
AI PM 知识图谱·总索引 —— 全图谱入口

修订日志

R1（2026-06-07） 首稿。建立六层剖面（L1 输入构想 / L2 输出理解 / L3 可信判断 / L4 选项决策 / L5 记忆维持 / L6 技能保持），三个致命耦合点（输出负荷挤占可信判断 / 锚定污染决策 / 降负荷反噬技能），各层 PM 清单，对 c01 与 p303/p304/p305/0418 的升级对照，Polanyi 默会知识跨域呼应。
R1.1（2026-06-07，grounding pass） 经本会话 WebFetch 核实并去除〔待核实〕标记的 arXiv 来源：2603.11821（Rosbach et al. 病理学自动化偏差 7%）、2604.04721（Liu et al. AI 损害持久力，n=1,222）、2509.08514（Beck et al. “Bias in the Loop”，N=2,784）、2412.06593（Lou & Sun LLM 锚定偏差）、2512.09085（Pauketat et al. 拟人化心智模型，N=3,076）。仍标〔待核实〕：medRxiv 2025（50–82% 医疗错误采纳率）、0418 审阅瓶颈节点真实名。Sweller (1988)、Cowan (2001)、Miller (1956)、Tversky & Kahneman (1974)、Bainbridge (1983) 为经典文献，出版信息以专题简报多源交叉核实为准。