R

A04 心智模型形成·概率系统 vs 确定系统

创建 2026-06-07 更新 2026-06-11 2 条双链 认知科学 专题 AI 整理

为什么用户对 AI 建立的心智模型,会比对任何传统软件都更慢、更脆弱、更容易系统性出错——这不是”用户笨”或”教育不够”的问题,而是用户的大脑还在用确定系统的旧模型去套一个概率系统。本节用 Donald Norman 的心智模型框架(设计模型/心智模型/系统意象 + 执行鸿沟/评估鸿沟)作为认知底座,论证一个产品判断:确定系统的心智模型迁移到 AI,不是”略有偏差”,而是范式级的系统性误用——它决定了 AI 产品最致命的失望从哪里来,也决定了 p3xx 那些设计模式(信任架构、防御性 UX)到底在补什么洞。


§0 为什么是 Norman 心智模型,而不是”用户教育”或”UX 易用性”

面对”用户不会用 AI”,业界的默认框架往往是两个:一是用户教育论(“多写文档、做 onboarding、用户学会了就好了”),二是易用性论(“界面再简单一点、按钮再大一点”)。这两个框架都隐含一个致命假设:用户脑中那个”系统应该怎么工作”的模型是对的,只是不够熟练。

Norman 的框架直接挑掉这个假设。在《The Design of Everyday Things》(1988 初版名 The Psychology of Everyday Things,Doubleday;2013 修订扩展版,Basic Books)和更早的 “Some Observations on Mental Models”(1983,收录于 Gentner & Stevens 编 Mental Models,Lawrence Erlbaum,pp. 7–14)中,Norman 指出:用户通过感知和交互自己构建一个关于系统的内部表征(心智模型),而这个模型”往往是不完整的、自相矛盾的、迷信性的、错误的,并随时间不稳定变化”。

关键在于这套理论的三角结构:

  • 设计模型(design model):设计者脑中”系统如何工作”的构想
  • 用户心智模型(user’s mental model):用户从可感知信号里反推出来的模型
  • 系统意象(system image):产品外观、反馈、文案、说明书——用户唯一能依赖的信息源

[!note] 框架级辨析 用户教育论想修的是”用户心智模型 ↔ 设计模型”之间的距离,靠灌输;易用性论想修的是”系统意象”的清晰度,靠简化。但 AI 的真正问题是:确定系统留给用户的旧心智模型本身就是错的框架,越熟练、越自信,误用越深。这不是距离问题,是模型类型用错的问题。Norman 框架能看见这一层,前两个框架看不见——它们都默认”用户的模型种类是对的”。

这就是为什么本节点要做 AI 交互的”认知底座”:p305 - 信任架构与可解释性设计p304 - 防御性 UX:对抗延迟与幻觉设计模式(知道用户模型会错之后怎么办),而本节点要解释的是为什么会错、错在哪个结构位置


§1 执行鸿沟与评估鸿沟:AI 把这两条鸿沟反向拉扯

“执行鸿沟(Gulf of Execution)“与”评估鸿沟(Gulf of Evaluation)“这对术语,并非 Norman 单独提出,而是 Hutchins、Hollan & Norman 在 “Direct Manipulation Interfaces”(期刊版 Human-Computer Interaction, Vol. 1, 1985, pp. 311–338;书章版收录于 User-Centered System Design, 1986)中共同创造(来源:lri.fr 存档 PDF;NN/g, Whitenton, 2018-03-11)。

  • 执行鸿沟:用户的意图与系统可操作性之间的距离——“我想做什么 vs 系统允许我怎么做”
  • 评估鸿沟:系统状态与用户解读之间的距离——“系统现在是什么状态 vs 我理解到的状态”

AI 系统对这两条鸿沟做了一件反直觉、且容易被产品经理误判的事。Yuexi (Tracy) Chen 在其 UMD 博士论文(2025,指导 Zhicheng Liu,drum.lib.umd.edu)中系统论证了一个核心悖论:

AI 通过自然语言交互缩小了执行鸿沟(用户更容易表达意图),却同时拓宽了评估鸿沟——AI 生成的输出可能不准确或不可信,用户难以判断哪些内容可用。

鸿沟传统确定性系统概率性 AI 系统
执行鸿沟大(须学命令/路径/菜单层级)(自然语言降低门槛)
评估鸿沟小(反馈可预测、状态可验证)(输出可能幻觉,评估负担转移给用户)

这张表是本节的第一个 PM 判断:AI 产品最常见的设计错误,是被缩小的执行鸿沟骗了。 团队看到”用户随便说一句话就能用”,误以为可用性大幅提升,于是把资源投在让对话框更聪明(继续缩执行鸿沟),却忽视了真正爆炸的是评估侧——用户根本无法判断手里这段输出能不能信。p304 的”溯源引用、置信度外显、优雅降级”,p305 的”折叠式推理面板、校准信任”,本质上全部都在填评估鸿沟,而不是执行鸿沟。如果 PM 没有这张表,就会把防御性 UX 当成”锦上添花”而非”结构性必需”。


§2 为什么概率系统的心智模型天生更难建:归因失败

确定系统和概率系统在”出错时”给用户的认知体验,存在一个结构性差异,这是整套迁移误用的根。

在确定系统里,出错是异常态。一个传统软件如果同样的输入产生了不同的输出,用户会本能地判定为 bug,归因于”系统坏了”,并合理地期待”修好之后它就会稳定”。这个归因是正确的,它让用户的心智模型保持稳定——模型说”系统应该是确定的”,异常被外部化为”故障”。

在概率系统里,出错是分布内的正常事件。同一个 prompt 两次给出不同答案,不是 bug,是采样。一次幻觉不是故障,是概率分布尾部的一次落点。但用户的大脑仍在用确定系统的归因机制:他要么把这次错误外部化为”AI 坏了/这个产品不行”(过度怀疑),要么因为前几次对了就把错误也吸收进”它一直挺准”的稳定模型里(过度信任)。无论哪种归因都是错的,因为正确的心智模型应该是”它是一个有错误率的概率系统,每次输出都需要独立评估”——而这恰恰是确定系统从未要求用户具备的能力。

Dhuliawala et al.(“A Diachronic Perspective on User Trust in AI under Uncertainty”, EMNLP 2023, arXiv:2310.13544)的实证给了这条判断硬支撑:

  • 用户对 AI 的信任沿”可靠性 + 置信度通信”两个维度建立心智模型;
  • 少数几次置信度与准确率不匹配的错误就会严重损害信任,且恢复极慢
  • 最具破坏性的模式是 overconfident + wrong(高置信但出错),比 underconfident + correct 破坏性更大。

为什么 overconfident + wrong 这么毒?因为它精准地击中了确定系统的旧心智模型:在确定系统里,“系统表现得很确信”是”系统是对的”的可靠信号;用户把这条旧规则迁移到 AI,于是 AI 的高置信幻觉就成了完美的陷阱。用户不是被骗了一次,是被自己脑中那个不该用的旧模型骗了。

[!note] 判断主轴预告 这一节解释了”为什么难建”,下一节把它落成 PM 最该记住的那张”四件套”——确定系统心智模型迁移 AI 的四种系统性误用。


§3 判断主轴:用确定系统心智模型套 AI 的四种系统性误用

这是本节点的命门。90% 的 AI 产品失望,可以归到下面四种”旧模型迁移”上。每一种都给出 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。

误用 1:可重复性假设(“同样输入应有同样输出”)

  • 症状:用户截图一段满意的 AI 回答发给同事,同事照原样输入却得到不同结果,于是认定”产品不稳定/在骗我”。
  • 为什么会错:确定系统的核心契约就是可重复性(determinism),这是用户几十年软件经验里最底层的默认。但 LLM 是从概率分布采样(见 c01 - 认知重构:从确定性系统到概率系统 §1.1),可重复性默认不成立
  • 正确做法:产品要么显式管理这个预期(“每次生成可能不同”),要么在需要可复现的场景提供 temperature=0 / 固定 seed / “pin 住这次输出”的机制。
  • 真实反例:客服/法务等场景里,团队把一次抽查到的”好回答”当成”系统现在会这样回答”写进验收标准——这是把概率系统的一次采样误当成确定系统的稳定行为。

误用 2:置信即正确假设(“它说得这么肯定,应该是对的”)

  • 症状:用户接受了 AI 流畅、自信、格式完美的错误答案,不复核。
  • 为什么会错:确定系统里”输出的确信程度”通常和正确性相关(报错才是不确定);AI 的语言流畅度与事实正确性解耦。这正是 Dhuliawala 的 overconfident + wrong 毒性来源。
  • 正确做法:置信度外显(颜色/分段标注,依赖 logprobs)、来源溯源、对不确定内容主动降级表达——这是 p305 校准信任的核心。
  • 真实反例:medRxiv(2025)研究发现,当 LLM 诊断输出含一个错误细节时,自动化偏误下用户接受错误的比例达到 50–82%——流畅的错误比明显的错误更危险。

误用 3:边界可学习假设(“用几次我就摸清它能干嘛了”)

  • 症状:用户试了三五次,自认为”已经懂这个 AI 的脾气了”,然后在一个看似相似的任务上栽跟头。
  • 为什么会错:确定系统的能力边界是清晰且可枚举的(功能列表、菜单项);概率系统的能力边界是模糊、依赖输入分布、且会随版本漂移的。用户用确定系统的”摸清功能”策略,建立的是一个虚假完整的模型。
  • 正确做法:Holstein & Satzger(arXiv:2510.08104,2025,提交 ICIS 2025)指出 AI 协作需要三类心智模型共同演化:领域模型 + 信息处理模型(AI 如何运作)+ 互补感知模型(各自强弱项)。确定系统只需前两类且第二类稳定;AI 要求用户持续更新第三类。产品要主动暴露能力边界、给反例、做能力地图,而不是让用户自己摸。
  • 真实反例:用户在 AI 上成功做了几次数据汇总,便信任它做需要精确算术的财务核对——“会做 A 类任务”被错误外推为”会做相邻的 B 类任务”。

误用 4:状态可见假设(“系统现在是什么状态我看得懂”)

  • 症状:Agent 跑了 30 秒没动静,用户不知道它在思考、在调工具、还是卡死了,于是反复刷新或放弃。
  • 为什么会错:确定系统的状态是离散、可枚举、可在 UI 上如实呈现的(加载中/完成/错误);概率性 Agent 的”状态”是连续的、内部的推理过程,评估鸿沟在此急剧拓宽。
  • 正确做法:流式输出、执行日志、工具调用可视化、TTFT 心理预期管理——这是 p304 对抗延迟与 Agent 异步 UI 的设计动机。
  • 真实反例:早期 Agent 产品用一个转圈图标表示”运行中”,把一个需要 2 分钟、调 8 个工具的复杂过程压缩成与”网页加载”无法区分的系统意象——用户的旧心智模型只会读出”它卡了”。

[!note] 把这张表打印出来贴墙上 这四条不是并列的 bug 列表,它们共享同一个根:用户大脑里跑的是确定系统的固件。任何一个 AI 产品在做 onboarding、错误文案、信任设计之前,先问自己——我在对抗的是这四种迁移误用里的哪几种?


§4 产品 PM 视角补盲:拟人化会反向污染心智模型

工程视角容易把”心智模型校准”理解成”多给点解释和文档”。但有一个 PM 必须警惕的反向机制:界面的拟人化设计,会系统性地扭曲用户的心智模型,而且方向是变差。

Pauketat et al.(CHI 2026,arXiv:2512.09085,7 项研究,N=3076)发现,用户对 AI 形成两个不同维度的心智模型:自主性(autonomy)感知意识(sentience);激活”感知意识”比激活”自主性”在道德归因和心智归因上产生更强效应,且感知意识的激活会单向地提升对自主性的感知。

对 PM 的含义很直接:当你给 AI 加上人格化的名字、第一人称语气、“我觉得""我认为”的表达时,你在主动往用户脑中安装一个更接近”有意识主体”的心智模型——而这个模型恰恰强化了误用 2(置信即正确)和误用 3(把它当成一个能力边界稳定的”人”)。拟人化提升了亲和力和 engagement(短期商业指标好看),却以让用户的心智模型更偏离”概率系统”真相为代价。这是一个被 engagement 指标掩盖的长期信任债务。

Yin et al.(arXiv:2510.02660,2025)甚至对术语本身提出挑战:当研究者说 AI 的”心智模型”或”心智理论”时,实际讨论的常是行为预测与偏差校正,而非真正的认知状态;LLM 在心智理论测试中的成功来自”行为模仿”。这条提醒对 PM 同样适用:不要被自己产品的拟人化外观骗到,以为用户在和一个”懂”的主体交互。


§5 对手框架回应:Gulf 框架能直接移植到 AI 吗

本节坚持用 Norman 的 gulf 框架解释 AI 心智模型,但业界有真实的反方立场,必须接受其合理部分并标出本节的边界。

反方立场(扩展派,Caetano et al., arXiv:2412.16892, 2024):认为 Norman 的 2-gulf 模型不足以描述 AI + 混合现实环境,需要扩展到 8 个鸿沟(人、AI、物理环境三方交互)。

[!note] 接受 + 边界 接受:在多智能体、具身、混合现实等复杂场景,2-gulf 确实过于简化,三方甚至多方交互会产生远比”执行/评估”更丰富的鸿沟结构。Caetano 的扩展在那些场景里是对的。 边界:但对当下绝大多数 PM 要做的产品(对话式助手、Copilot、单 Agent 工作流),2-gulf 仍是信息密度最高、最可操作的框架——它用最少的概念抓住了”执行变易、评估变难”这个最关键的反转。在还没把 2-gulf 用到位之前就跳到 8 个鸿沟,是用复杂度逃避判断。本节的赌注是:对 PM 的日常决策,2-gulf 的杠杆率远高于其精度损失。

更强的反方(结构性批评):有研究者认为概率系统根本不适合”执行-评估循环”这一以用户为主动方的框架,因为 AI 的不确定性是内生的,不是交互设计能消除的问题。

  • 接受:这条很有力。评估鸿沟在 AI 里有一部分确实不可能靠设计填平——只要模型会幻觉,用户就永远需要承担最终评估责任。
  • 边界:但”不能填平”不等于”不能管理”。p305 的命题正是”目标是校准信任而非最大化信任”——承认评估鸿沟不可消除,恰恰是正确设计的起点,而不是放弃理由。

Rick 未读的对手框架引入(破 echo chamber):Mothilal et al.(arXiv:2510.22978,2025)分析了 258 篇 CHI 论文(2020–2025),发现 HCI 从业者自己也普遍把 LLM 推理”去语境化”,将其心智模型简化为”工具”而非概率推理系统。这是对本专题的一记自我拷问:连研究者都难免用错心智模型类型,凭什么假设产品设计能让普通用户建立正确模型? 这正是本节把”误用”定位为系统性、结构性而非”用户素养”问题的理由——它不是教育能解决的,必须靠系统意象(产品设计)去补偿。


§6 跨域呼应:Norman 的”系统意象”与认识论的”唯一可及证据”

调度一个跨域资源:把 Norman 的”系统意象”放到0114认识论的视角下看,会得到一个比 UX 更深的判断。

认识论里有一个基本处境:认知主体永远无法直接接触”物自体”(系统的真实内部状态),只能通过感官给予的现象(系统意象)去重构一个关于世界的模型。Norman 的三角结构其实是这条认识论原理在 HCI 里的具体化——用户无法访问设计模型,也无法访问系统内部,他对系统的全部”知识”都是从系统意象这一唯一可及证据里反推出来的推论。

这个视角对 AI 产品的杀伤力在于:确定系统的系统意象是”忠实的”——界面如实反映了一个本就确定的内部,用户的反推因此可靠。而AI 的系统意象是”会撒谎的”:一段高置信、格式完美、措辞专业的输出,作为”证据”指向的是”这个系统很可靠”,但这个证据与真相(它只是一次概率采样)之间是断裂的。用户没有任何认识论手段能从这段流畅文本里独立验证它对不对——除非产品主动把溯源、置信度、推理链作为额外证据注入系统意象。

于是产品设计在 AI 时代承担了一个新的认识论责任:它不再只是”如实呈现一个确定的内部”,而是要主动构造能让用户做出正确归因的证据结构。 信任架构(p305)本质上是一套认识论工程——它在补偿用户面对概率系统时的归因无能。这把 p305 从”UX 模式”升格成了”认识论补偿装置”,也回答了为什么单纯的”界面简化”治不了 AI 的信任问题:简化减少的是证据噪声,而 AI 缺的是正确类型的证据


§7 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试怎么用:被问”AI 产品和传统产品做 UX 的核心区别”,30 秒答案是——“传统软件用户的心智模型只要够熟练就够用;AI 用户的心智模型类型就是错的,他在用确定系统的固件跑概率系统。所以 AI 的 UX 重心从’降低执行鸿沟’反转到’填补评估鸿沟’,信任设计不是加分项是结构必需。“能说出 Norman 三角 + 两条鸿沟反向拉扯 + 四种迁移误用,就压过 90% 只会说”AI 要可解释”的候选人。
  • 选型怎么用:评估一个 AI 产品/供应商,别只看模型能力,看它的系统意象有没有为评估鸿沟做设计——有没有溯源?置信度外显?能否复现关键输出?Agent 状态是否可见?这四项直接对应§3 的四种误用,是”它有没有认真对待用户心智模型”的可观测代理指标。
  • 复现怎么用:自己搭 demo 时,把 temperature、seed、logprobs、工具调用日志当成一等公民暴露给前端——这些不是工程细节,它们是你给用户构造正确证据结构的原材料。一个不暴露这些的 AI 原型,注定会让用户建立错误心智模型。

§8 与已有节点的关系(升级对照,不复述)

  • c01 - 认知重构:从确定性系统到概率系统:深化 + 补缺。 c01 从系统侧/PM 认知侧论证”AI 是概率系统而非确定系统”这一范式跃迁(PM 自己脑中的范式重构)。本节点把同一条范式裂缝翻转到用户侧:c01 说”PM 要重构自己的认知”,本节点说”用户重构不了——用户的大脑还在用确定系统的心智模型,且这种迁移误用是系统性、结构性、教育治不好的”。c01 是供给侧的认知升级,A04 是需求侧的认知失败,二者构成”概率系统认知”的一体两面。不复述 c01 的监督/无监督/欠拟合过拟合论证。
  • p304 - 防御性 UX:对抗延迟与幻觉:提供理论根因。 p304 给出”对抗幻觉四层设计 + 对抗延迟三件套”的设计方案;A04 解释这些方案到底在补哪条鸿沟、对抗哪种迁移误用(误用 2 → 置信度外显,误用 4 → 状态可见/流式)。p304 是”怎么做”,A04 是”为什么必须做、做的是哪个认知位置”。
  • p305 - 信任架构与可解释性设计:升格其定位。 p305 主张”校准信任而非最大化信任”;A04 通过 Norman 三角 + 认识论视角,把 p305 从”UX 模式”升格为”认识论补偿装置”——它补的是用户面对概率系统的归因无能
  • p302 - 七种 AI 交互设计模式p303 - 克服空白画布综合症:底座关系。 p303 的”表达焦虑”在 A04 框架里是被缩小的执行鸿沟下用户仍不知如何触发好采样的残余;p302 的七模式整体可读作”对四种迁移误用的对症设计库”。
  • 对 0418 审阅瓶颈(认知负荷):互补,不同病灶。 0418 谈的是评估阶段的认知负荷(评估很累);A04 谈的是评估阶段的心智模型错位(用户根本不知道该用什么模型去评估)。负荷是”累”,错位是”方向错”——两条线在评估鸿沟交汇,但病灶不同,对应的设计干预也不同(降负荷 vs 校模型)。

§9 关联节点

核心(必读)

延伸(可选)


修订日志

  • R1(2026-06-07):首稿。建立 Norman 三角 + 两条鸿沟反向拉扯框架;提炼”四种确定系统心智模型迁移误用”作为判断主轴;接入 Chen(2025)、Dhuliawala(2023)、Holstein & Satzger(2025)、Pauketat(2026)、Yin(2025)、Mothilal(2025) 实证;对手框架回应(Caetano 8-gulf 扩展派 + 结构性批评 + Mothilal 自我拷问);跨域调度认识论”唯一可及证据”把 p305 升格为认识论补偿装置;与 c01/p304/p305/p302/p303/0418 显式升级对照。

[!note] 接地状态 Norman 1983/1988/2013、Hutchins-Hollan-Norman 1985/1986 gulf 术语、Dhuliawala EMNLP 2023 (arXiv:2310.13544)、Holstein & Satzger (arXiv:2510.08104)、Pauketat CHI 2026 (arXiv:2512.09085)、Yin (arXiv:2510.02660)、Mothilal (arXiv:2510.22978)、Caetano (arXiv:2412.16892)、Chen UMD 博士论文 2025 均为 SHARED_CONTEXT 已核实简报来源。medRxiv 2025 幻觉 50–82% 数字来自简报(自动化偏误综述节)。本节未引入简报外的新硬事实。