A04 心智模型形成·概率系统 vs 确定系统 · 知识库

为什么用户对 AI 建立的心智模型，会比对任何传统软件都更慢、更脆弱、更容易系统性出错——这不是”用户笨”或”教育不够”的问题，而是用户的大脑还在用确定系统的旧模型去套一个概率系统。本节用 Donald Norman 的心智模型框架（设计模型／心智模型／系统意象 + 执行鸿沟／评估鸿沟）作为认知底座，论证一个产品判断：确定系统的心智模型迁移到 AI，不是”略有偏差”，而是范式级的系统性误用——它决定了 AI 产品最致命的失望从哪里来，也决定了 p3xx 那些设计模式（信任架构、防御性 UX）到底在补什么洞。

§0 为什么是 Norman 心智模型，而不是”用户教育”或”UX 易用性”

面对”用户不会用 AI”，业界的默认框架往往是两个：一是用户教育论（“多写文档、做 onboarding、用户学会了就好了”），二是易用性论（“界面再简单一点、按钮再大一点”）。这两个框架都隐含一个致命假设：用户脑中那个”系统应该怎么工作”的模型是对的，只是不够熟练。

Norman 的框架直接挑掉这个假设。在《The Design of Everyday Things》（1988 初版名 The Psychology of Everyday Things，Doubleday；2013 修订扩展版，Basic Books）和更早的 “Some Observations on Mental Models”（1983，收录于 Gentner & Stevens 编 Mental Models，Lawrence Erlbaum，pp. 7–14）中，Norman 指出：用户通过感知和交互自己构建一个关于系统的内部表征（心智模型），而这个模型”往往是不完整的、自相矛盾的、迷信性的、错误的，并随时间不稳定变化”。

关键在于这套理论的三角结构：

设计模型（design model）：设计者脑中”系统如何工作”的构想
用户心智模型（user’s mental model）：用户从可感知信号里反推出来的模型
系统意象（system image）：产品外观、反馈、文案、说明书——用户唯一能依赖的信息源

[!note] 框架级辨析用户教育论想修的是”用户心智模型 ↔ 设计模型”之间的距离，靠灌输；易用性论想修的是”系统意象”的清晰度，靠简化。但 AI 的真正问题是：确定系统留给用户的旧心智模型本身就是错的框架，越熟练、越自信，误用越深。这不是距离问题，是模型类型用错的问题。Norman 框架能看见这一层，前两个框架看不见——它们都默认”用户的模型种类是对的”。

这就是为什么本节点要做 AI 交互的”认知底座”：p305 - 信任架构与可解释性设计、p304 - 防御性 UX：对抗延迟与幻觉是设计模式（知道用户模型会错之后怎么办），而本节点要解释的是为什么会错、错在哪个结构位置。

§1 执行鸿沟与评估鸿沟：AI 把这两条鸿沟反向拉扯

“执行鸿沟（Gulf of Execution）“与”评估鸿沟（Gulf of Evaluation）“这对术语，并非 Norman 单独提出，而是 Hutchins、Hollan & Norman 在 “Direct Manipulation Interfaces”（期刊版 Human-Computer Interaction, Vol. 1, 1985, pp. 311–338；书章版收录于 User-Centered System Design, 1986）中共同创造（来源：lri.fr 存档 PDF；NN/g, Whitenton, 2018-03-11）。

执行鸿沟：用户的意图与系统可操作性之间的距离——“我想做什么 vs 系统允许我怎么做”
评估鸿沟：系统状态与用户解读之间的距离——“系统现在是什么状态 vs 我理解到的状态”

AI 系统对这两条鸿沟做了一件反直觉、且容易被产品经理误判的事。Yuexi (Tracy) Chen 在其 UMD 博士论文（2025，指导 Zhicheng Liu，drum.lib.umd.edu）中系统论证了一个核心悖论：

AI 通过自然语言交互缩小了执行鸿沟（用户更容易表达意图），却同时拓宽了评估鸿沟——AI 生成的输出可能不准确或不可信，用户难以判断哪些内容可用。

鸿沟	传统确定性系统	概率性 AI 系统
执行鸿沟	大（须学命令/路径/菜单层级）	小（自然语言降低门槛）
评估鸿沟	小（反馈可预测、状态可验证）	大（输出可能幻觉，评估负担转移给用户）

这张表是本节的第一个 PM 判断：AI 产品最常见的设计错误，是被缩小的执行鸿沟骗了。 团队看到”用户随便说一句话就能用”，误以为可用性大幅提升，于是把资源投在让对话框更聪明（继续缩执行鸿沟），却忽视了真正爆炸的是评估侧——用户根本无法判断手里这段输出能不能信。p304 的”溯源引用、置信度外显、优雅降级”，p305 的”折叠式推理面板、校准信任”，本质上全部都在填评估鸿沟，而不是执行鸿沟。如果 PM 没有这张表，就会把防御性 UX 当成”锦上添花”而非”结构性必需”。

§2 为什么概率系统的心智模型天生更难建：归因失败

确定系统和概率系统在”出错时”给用户的认知体验，存在一个结构性差异，这是整套迁移误用的根。

在确定系统里，出错是异常态。一个传统软件如果同样的输入产生了不同的输出，用户会本能地判定为 bug，归因于”系统坏了”，并合理地期待”修好之后它就会稳定”。这个归因是正确的，它让用户的心智模型保持稳定——模型说”系统应该是确定的”，异常被外部化为”故障”。

在概率系统里，出错是分布内的正常事件。同一个 prompt 两次给出不同答案，不是 bug，是采样。一次幻觉不是故障，是概率分布尾部的一次落点。但用户的大脑仍在用确定系统的归因机制：他要么把这次错误外部化为”AI 坏了/这个产品不行”（过度怀疑），要么因为前几次对了就把错误也吸收进”它一直挺准”的稳定模型里（过度信任）。无论哪种归因都是错的，因为正确的心智模型应该是”它是一个有错误率的概率系统，每次输出都需要独立评估”——而这恰恰是确定系统从未要求用户具备的能力。

Dhuliawala et al.（“A Diachronic Perspective on User Trust in AI under Uncertainty”, EMNLP 2023, arXiv:2310.13544）的实证给了这条判断硬支撑：

用户对 AI 的信任沿”可靠性 + 置信度通信”两个维度建立心智模型；
少数几次置信度与准确率不匹配的错误就会严重损害信任，且恢复极慢；
最具破坏性的模式是 overconfident + wrong（高置信但出错），比 underconfident + correct 破坏性更大。

为什么 overconfident + wrong 这么毒？因为它精准地击中了确定系统的旧心智模型：在确定系统里，“系统表现得很确信”是”系统是对的”的可靠信号；用户把这条旧规则迁移到 AI，于是 AI 的高置信幻觉就成了完美的陷阱。用户不是被骗了一次，是被自己脑中那个不该用的旧模型骗了。

[!note] 判断主轴预告这一节解释了”为什么难建”，下一节把它落成 PM 最该记住的那张”四件套”——确定系统心智模型迁移 AI 的四种系统性误用。

§3 判断主轴：用确定系统心智模型套 AI 的四种系统性误用

这是本节点的命门。90% 的 AI 产品失望，可以归到下面四种”旧模型迁移”上。每一种都给出 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。

误用 1：可重复性假设（“同样输入应有同样输出”）

症状：用户截图一段满意的 AI 回答发给同事，同事照原样输入却得到不同结果，于是认定”产品不稳定/在骗我”。
为什么会错：确定系统的核心契约就是可重复性（determinism），这是用户几十年软件经验里最底层的默认。但 LLM 是从概率分布采样（见 c01 - 认知重构：从确定性系统到概率系统 §1.1），可重复性默认不成立。
正确做法：产品要么显式管理这个预期（“每次生成可能不同”），要么在需要可复现的场景提供 temperature=0 / 固定 seed / “pin 住这次输出”的机制。
真实反例：客服/法务等场景里，团队把一次抽查到的”好回答”当成”系统现在会这样回答”写进验收标准——这是把概率系统的一次采样误当成确定系统的稳定行为。

误用 2：置信即正确假设（“它说得这么肯定，应该是对的”）

症状：用户接受了 AI 流畅、自信、格式完美的错误答案，不复核。
为什么会错：确定系统里”输出的确信程度”通常和正确性相关（报错才是不确定）；AI 的语言流畅度与事实正确性解耦。这正是 Dhuliawala 的 overconfident + wrong 毒性来源。
正确做法：置信度外显（颜色/分段标注，依赖 logprobs）、来源溯源、对不确定内容主动降级表达——这是 p305 校准信任的核心。
真实反例：medRxiv（2025）研究发现，当 LLM 诊断输出含一个错误细节时，自动化偏误下用户接受错误的比例达到 50–82%——流畅的错误比明显的错误更危险。

误用 3：边界可学习假设（“用几次我就摸清它能干嘛了”）

症状：用户试了三五次，自认为”已经懂这个 AI 的脾气了”，然后在一个看似相似的任务上栽跟头。
为什么会错：确定系统的能力边界是清晰且可枚举的（功能列表、菜单项）；概率系统的能力边界是模糊、依赖输入分布、且会随版本漂移的。用户用确定系统的”摸清功能”策略，建立的是一个虚假完整的模型。
正确做法：Holstein & Satzger（arXiv:2510.08104，2025，提交 ICIS 2025）指出 AI 协作需要三类心智模型共同演化：领域模型 + 信息处理模型（AI 如何运作）+ 互补感知模型（各自强弱项）。确定系统只需前两类且第二类稳定；AI 要求用户持续更新第三类。产品要主动暴露能力边界、给反例、做能力地图，而不是让用户自己摸。
真实反例：用户在 AI 上成功做了几次数据汇总，便信任它做需要精确算术的财务核对——“会做 A 类任务”被错误外推为”会做相邻的 B 类任务”。

误用 4：状态可见假设（“系统现在是什么状态我看得懂”）

症状：Agent 跑了 30 秒没动静，用户不知道它在思考、在调工具、还是卡死了，于是反复刷新或放弃。
为什么会错：确定系统的状态是离散、可枚举、可在 UI 上如实呈现的（加载中/完成/错误）；概率性 Agent 的”状态”是连续的、内部的推理过程，评估鸿沟在此急剧拓宽。
正确做法：流式输出、执行日志、工具调用可视化、TTFT 心理预期管理——这是 p304 对抗延迟与 Agent 异步 UI 的设计动机。
真实反例：早期 Agent 产品用一个转圈图标表示”运行中”，把一个需要 2 分钟、调 8 个工具的复杂过程压缩成与”网页加载”无法区分的系统意象——用户的旧心智模型只会读出”它卡了”。

[!note] 把这张表打印出来贴墙上这四条不是并列的 bug 列表，它们共享同一个根：用户大脑里跑的是确定系统的固件。任何一个 AI 产品在做 onboarding、错误文案、信任设计之前，先问自己——我在对抗的是这四种迁移误用里的哪几种？

§4 产品 PM 视角补盲：拟人化会反向污染心智模型

工程视角容易把”心智模型校准”理解成”多给点解释和文档”。但有一个 PM 必须警惕的反向机制：界面的拟人化设计，会系统性地扭曲用户的心智模型，而且方向是变差。

Pauketat et al.（CHI 2026，arXiv:2512.09085，7 项研究，N=3076）发现，用户对 AI 形成两个不同维度的心智模型：自主性（autonomy） 与 感知意识（sentience）；激活”感知意识”比激活”自主性”在道德归因和心智归因上产生更强效应，且感知意识的激活会单向地提升对自主性的感知。

对 PM 的含义很直接：当你给 AI 加上人格化的名字、第一人称语气、“我觉得""我认为”的表达时，你在主动往用户脑中安装一个更接近”有意识主体”的心智模型——而这个模型恰恰强化了误用 2（置信即正确）和误用 3（把它当成一个能力边界稳定的”人”）。拟人化提升了亲和力和 engagement（短期商业指标好看），却以让用户的心智模型更偏离”概率系统”真相为代价。这是一个被 engagement 指标掩盖的长期信任债务。

Yin et al.（arXiv:2510.02660，2025）甚至对术语本身提出挑战：当研究者说 AI 的”心智模型”或”心智理论”时，实际讨论的常是行为预测与偏差校正，而非真正的认知状态；LLM 在心智理论测试中的成功来自”行为模仿”。这条提醒对 PM 同样适用：不要被自己产品的拟人化外观骗到，以为用户在和一个”懂”的主体交互。

§5 对手框架回应：Gulf 框架能直接移植到 AI 吗

本节坚持用 Norman 的 gulf 框架解释 AI 心智模型，但业界有真实的反方立场，必须接受其合理部分并标出本节的边界。

反方立场（扩展派，Caetano et al., arXiv:2412.16892, 2024）：认为 Norman 的 2-gulf 模型不足以描述 AI + 混合现实环境，需要扩展到 8 个鸿沟（人、AI、物理环境三方交互）。

[!note] 接受 + 边界接受：在多智能体、具身、混合现实等复杂场景，2-gulf 确实过于简化，三方甚至多方交互会产生远比”执行/评估”更丰富的鸿沟结构。Caetano 的扩展在那些场景里是对的。边界：但对当下绝大多数 PM 要做的产品（对话式助手、Copilot、单 Agent 工作流），2-gulf 仍是信息密度最高、最可操作的框架——它用最少的概念抓住了”执行变易、评估变难”这个最关键的反转。在还没把 2-gulf 用到位之前就跳到 8 个鸿沟，是用复杂度逃避判断。本节的赌注是：对 PM 的日常决策，2-gulf 的杠杆率远高于其精度损失。

更强的反方（结构性批评）：有研究者认为概率系统根本不适合”执行-评估循环”这一以用户为主动方的框架，因为 AI 的不确定性是内生的，不是交互设计能消除的问题。

接受：这条很有力。评估鸿沟在 AI 里有一部分确实不可能靠设计填平——只要模型会幻觉，用户就永远需要承担最终评估责任。
边界：但”不能填平”不等于”不能管理”。p305 的命题正是”目标是校准信任而非最大化信任”——承认评估鸿沟不可消除，恰恰是正确设计的起点，而不是放弃理由。

Rick 未读的对手框架引入（破 echo chamber）：Mothilal et al.（arXiv:2510.22978，2025）分析了 258 篇 CHI 论文（2020–2025），发现 HCI 从业者自己也普遍把 LLM 推理”去语境化”，将其心智模型简化为”工具”而非概率推理系统。这是对本专题的一记自我拷问：连研究者都难免用错心智模型类型，凭什么假设产品设计能让普通用户建立正确模型？ 这正是本节把”误用”定位为系统性、结构性而非”用户素养”问题的理由——它不是教育能解决的，必须靠系统意象（产品设计）去补偿。

§6 跨域呼应：Norman 的”系统意象”与认识论的”唯一可及证据”

调度一个跨域资源：把 Norman 的”系统意象”放到0114认识论的视角下看，会得到一个比 UX 更深的判断。

认识论里有一个基本处境：认知主体永远无法直接接触”物自体”（系统的真实内部状态），只能通过感官给予的现象（系统意象）去重构一个关于世界的模型。Norman 的三角结构其实是这条认识论原理在 HCI 里的具体化——用户无法访问设计模型，也无法访问系统内部，他对系统的全部”知识”都是从系统意象这一唯一可及证据里反推出来的推论。

这个视角对 AI 产品的杀伤力在于：确定系统的系统意象是”忠实的”——界面如实反映了一个本就确定的内部，用户的反推因此可靠。而AI 的系统意象是”会撒谎的”：一段高置信、格式完美、措辞专业的输出，作为”证据”指向的是”这个系统很可靠”，但这个证据与真相（它只是一次概率采样）之间是断裂的。用户没有任何认识论手段能从这段流畅文本里独立验证它对不对——除非产品主动把溯源、置信度、推理链作为额外证据注入系统意象。

于是产品设计在 AI 时代承担了一个新的认识论责任：它不再只是”如实呈现一个确定的内部”，而是要主动构造能让用户做出正确归因的证据结构。 信任架构（p305）本质上是一套认识论工程——它在补偿用户面对概率系统时的归因无能。这把 p305 从”UX 模式”升格成了”认识论补偿装置”，也回答了为什么单纯的”界面简化”治不了 AI 的信任问题：简化减少的是证据噪声，而 AI 缺的是正确类型的证据。

§7 PM 决策启示：面试 / 选型 / 复现三类落地

面试怎么用：被问”AI 产品和传统产品做 UX 的核心区别”，30 秒答案是——“传统软件用户的心智模型只要够熟练就够用；AI 用户的心智模型类型就是错的，他在用确定系统的固件跑概率系统。所以 AI 的 UX 重心从’降低执行鸿沟’反转到’填补评估鸿沟’，信任设计不是加分项是结构必需。“能说出 Norman 三角 + 两条鸿沟反向拉扯 + 四种迁移误用，就压过 90% 只会说”AI 要可解释”的候选人。
选型怎么用：评估一个 AI 产品/供应商，别只看模型能力，看它的系统意象有没有为评估鸿沟做设计——有没有溯源？置信度外显？能否复现关键输出？Agent 状态是否可见？这四项直接对应§3 的四种误用，是”它有没有认真对待用户心智模型”的可观测代理指标。
复现怎么用：自己搭 demo 时，把 temperature、seed、logprobs、工具调用日志当成一等公民暴露给前端——这些不是工程细节，它们是你给用户构造正确证据结构的原材料。一个不暴露这些的 AI 原型，注定会让用户建立错误心智模型。

§8 与已有节点的关系（升级对照，不复述）

对 c01 - 认知重构：从确定性系统到概率系统：深化 + 补缺。 c01 从系统侧/PM 认知侧论证”AI 是概率系统而非确定系统”这一范式跃迁（PM 自己脑中的范式重构）。本节点把同一条范式裂缝翻转到用户侧：c01 说”PM 要重构自己的认知”，本节点说”用户重构不了——用户的大脑还在用确定系统的心智模型，且这种迁移误用是系统性、结构性、教育治不好的”。c01 是供给侧的认知升级，A04 是需求侧的认知失败，二者构成”概率系统认知”的一体两面。不复述 c01 的监督/无监督/欠拟合过拟合论证。
对 p304 - 防御性 UX：对抗延迟与幻觉：提供理论根因。 p304 给出”对抗幻觉四层设计 + 对抗延迟三件套”的设计方案；A04 解释这些方案到底在补哪条鸿沟、对抗哪种迁移误用（误用 2 → 置信度外显，误用 4 → 状态可见/流式）。p304 是”怎么做”，A04 是”为什么必须做、做的是哪个认知位置”。
对 p305 - 信任架构与可解释性设计：升格其定位。 p305 主张”校准信任而非最大化信任”；A04 通过 Norman 三角 + 认识论视角，把 p305 从”UX 模式”升格为”认识论补偿装置”——它补的是用户面对概率系统的归因无能。
对 p302 - 七种 AI 交互设计模式与 p303 - 克服空白画布综合症：底座关系。 p303 的”表达焦虑”在 A04 框架里是被缩小的执行鸿沟下用户仍不知如何触发好采样的残余；p302 的七模式整体可读作”对四种迁移误用的对症设计库”。
对 0418 审阅瓶颈（认知负荷）：互补，不同病灶。 0418 谈的是评估阶段的认知负荷（评估很累）；A04 谈的是评估阶段的心智模型错位（用户根本不知道该用什么模型去评估）。负荷是”累”，错位是”方向错”——两条线在评估鸿沟交汇，但病灶不同，对应的设计干预也不同（降负荷 vs 校模型）。

§9 关联节点

核心（必读）

c01 - 认知重构：从确定性系统到概率系统——本节点的供给侧对偶，概率范式的系统侧论证
p305 - 信任架构与可解释性设计——评估鸿沟的核心设计应答
p304 - 防御性 UX：对抗延迟与幻觉——四种误用的对症设计
幻觉——overconfident + wrong 的机制根源
0114认识论——系统意象作为”唯一可及证据”的跨域底座

延伸（可选）

p302 - 七种 AI 交互设计模式——可读作”对症设计库”
p303 - 克服空白画布综合症——执行鸿沟侧的残余问题
Agent——状态不可见（误用 4）最严重的场景
0117社会学——拟人化心智模型的社会建构维度
AI PM 知识图谱·总索引——专题入口

修订日志

R1（2026-06-07）：首稿。建立 Norman 三角 + 两条鸿沟反向拉扯框架；提炼”四种确定系统心智模型迁移误用”作为判断主轴；接入 Chen(2025)、Dhuliawala(2023)、Holstein & Satzger(2025)、Pauketat(2026)、Yin(2025)、Mothilal(2025) 实证；对手框架回应（Caetano 8-gulf 扩展派 + 结构性批评 + Mothilal 自我拷问）；跨域调度认识论”唯一可及证据”把 p305 升格为认识论补偿装置；与 c01/p304/p305/p302/p303/0418 显式升级对照。

[!note] 接地状态 Norman 1983/1988/2013、Hutchins-Hollan-Norman 1985/1986 gulf 术语、Dhuliawala EMNLP 2023 (arXiv:2310.13544)、Holstein & Satzger (arXiv:2510.08104)、Pauketat CHI 2026 (arXiv:2512.09085)、Yin (arXiv:2510.02660)、Mothilal (arXiv:2510.22978)、Caetano (arXiv:2412.16892)、Chen UMD 博士论文 2025 均为 SHARED_CONTEXT 已核实简报来源。medRxiv 2025 幻觉 50–82% 数字来自简报（自动化偏误综述节）。本节未引入简报外的新硬事实。