R03 心智模型校准实验 · 知识库

怎么用一段可复现的 onboarding／提示干预，把用户脑中那个”AI 是个无所不知的确定系统”的错误心智模型，扶正成”AI 是个有能力边界的概率系统”，并且用一个可测的误用率指标证明你真的扶正了它——而不是又写了一份没人读的帮助文档？本节是 A04 心智模型形成·概率系统 vs 确定系统的操作化落地：A04 论证了”为什么用户的心智模型会系统性出错”，本节给出”怎么动手校准它、怎么测量校准是否生效”的最小可运行实验方案＋模板。这是一篇复现指南，不是设计模式综述——读完你应该能在两周内跑出第一组前后对照数据。

§0 为什么是”心智模型校准实验”，而不是”写更好的 onboarding”

面对”用户误用 AI”，产品团队的默认动作有三个，全都是错的框架：

写更详细的帮助文档——假设问题是”信息不够”。但 A04 心智模型形成·概率系统 vs 确定系统已经论证：用户的心智模型”往往是不完整的、自相矛盾的、迷信性的、错误的”（Norman 1983），信息从不缺，缺的是让用户主动重构内部表征的契机。文档是单向投递，心智模型重构需要的是体验性的反例。
做更友好的 onboarding tour——假设问题是”用户不熟练”。但用户对 AI 的误用不是熟练度问题，是范式错配：他们在用确定系统（计算器、搜索引擎、表单）的旧模型去套一个概率系统。onboarding tour 教的是”按钮在哪”，治不了”这个按钮背后的东西会以概率出错”。
加免责声明——“AI 可能出错，请自行核实”。这是法务话术，不是认知干预。Skitka, Mosier & Burdick（1999，International Journal of Human-Computer Studies）奠基的自动化偏误研究早就说明：人会无批判地采纳自动化建议、折扣矛盾信息，一句免责声明无法激活 System 2 的审视。

本节坚持一个不同的框架：心智模型校准是一个可设计、可测量、可迭代的实验，不是一次性的文案任务。它的核心方法论是——用”诊断鸿沟 → 注入校准干预 → 测量误用率前后差”的实验闭环，把”用户怎么理解 AI”这件看不见的事变成可观测的数字。把它当成一个 A/B 实验来跑，而不是当成一次界面美化。

[!note] 跨域呼应：维特根斯坦的”语言游戏”与心智模型的不可言传维特根斯坦在《哲学研究》中指出，理解一个概念不是掌握一条定义，而是学会在一套实践（语言游戏）中正确使用它。这直接改变了校准实验的设计判断：你无法用一段定义把”AI 是概率系统”装进用户脑中（“AI 会犯错”这句话用户早就背得出，却照样过度依赖）。心智模型的重构必须发生在用户亲手撞了一次概率系统的墙之后——让他在低风险沙盒里经历一次”AI 自信地给了错答案”，比给他读一百遍免责声明更能改写内部表征。这与 Polanyi 默会知识与提示工程的认识论张力同源（详见 0114认识论）：能力边界是默会的，靠演示而非陈述传递。所以本节的模板把”体验性反例（experiential counter-example）“列为校准干预的核心组件，而不是把”文案优化”列为核心。

§1 第一步：诊断现有心智模型与鸿沟在哪

校准之前必须先量化”现在错得有多离谱”。这一步对应 Norman 的评估鸿沟（用户对系统状态的解读 vs 系统实际状态的差距）。AI 系统的特殊性在于：它缩窄了执行鸿沟（自然语言让用户更容易表达意图），却显著拓宽了评估鸿沟（输出可能幻觉，用户难以判断哪些可信）——这是 Chen（UMD 博士论文，2025，drum.lib.umd.edu）系统论证的核心悖论，也是本节要测量的那条鸿沟。

诊断用三个轻量探针，半天内可完成：

探针	方法	测什么
能力边界问卷	给用户 10 个任务描述（5 个 AI 擅长、5 个 AI 系统性失败，如精确算术、实时事实、长尾私域知识），让其判断”AI 能不能可靠完成”	用户对能力边界的认知准确率
置信度对齐测试	让用户看 8 条 AI 输出（一半真、一半含一个错误细节），让其标注”你有多信”	用户的信任校准曲线——尤其能否识别 overconfident+wrong（高置信但出错）
行为日志回放	抽取真实会话，标注”未经核实直接采纳错误输出”的事件	基线误用率（baseline misuse rate）

误用率（misuse rate）的可操作定义（本节的核心因变量）：

误用率 = 用户未经任何验证行为，直接采纳了一条事实性错误／越界 AI 输出的会话数 ÷ 含此类输出的总会话数。

“验证行为”包括：点开溯源引用、追问反问、外部核实、修改后再用。这个定义把抽象的”误用”锚定成可埋点的事件，是后面所有前后对照的基准线。Dhuliawala et al.（EMNLP 2023，arXiv:2310.13544）的研究支持把 overconfident+wrong 单列——它对信任的破坏性比 underconfident+correct 大得多，且信任恢复极慢，所以诊断时要专门统计这一类的采纳率。

§2 第二步：设计校准干预（方法＋四类组件）

校准干预不是一段文案，是一组改写心智模型的体验。基于 A04 的理论底座，有效干预必须同时作用于 Norman 三角的两端——既要修正用户的心智模型，又要让系统意象（界面信号）持续广播”我是概率系统”。四类组件按性价比排序：

组件一体验性反例（experiential counter-example）—— 最强，必做。 在 onboarding 的沙盒里，故意让用户向 AI 提一个它会自信出错的问题（如一道需要精确计算的题、一个长尾事实），让 AI 给出 overconfident+wrong 的答案，然后揭示真相。这是激活 System 2 的”减速点”——让用户亲历一次概率系统的失败，而非被告知。注意：必须在低风险沙盒，且立刻给出正确答案，否则伤害信任（见 §6 陷阱）。

组件二能力边界地图（capability map）—— 必做。 一张极简的”AI 擅长／不擅长”二分卡，但关键是用用户自己的任务语境填充，不是抽象原则。Holstein & Satzger（2025，arXiv:2510.08104）论证人机协作需要三类心智模型共同演化，其中互补感知模型（双方各自强弱项）是传统确定系统不需要、概率系统必需的一类——能力边界地图正是在直接构建这一类。

组件三系统意象的持续信号（persistent system image）—— 必做。 干预不能只在 onboarding 一次性发生，否则心智模型会回弹。需要把”概率性”编码进常驻界面信号：置信度外显、溯源引用、不确定性诚实表达。这正是 p305 - 信任架构与可解释性设计与 p304 - 防御性 UX：对抗延迟与幻觉那些设计模式在补的洞——本节是它们的认知科学底座与可测验证方案，p3xx 是设计模式，本节负责”怎么证明这些模式真的校准了心智模型”。

组件四主动确认的减速点（friction point）—— 高风险场景选做。 在高风险操作前插入一步主动确认，呈现替代方案。这是把 System 2 强行拉回的”轻推（nudge）“。但要节制：A06 自动化偏见与学习性无助警告过度依赖致技能退化，而过度摩擦又会引发算法厌恶，两头都是坑。

[!warning] 业界反方立场：接受 + 边界 反方一（自动化偏误难以根除派）：Beck, Eckman, Kern & Kreuter（2025，arXiv:2509.08514，N=2,784 受控实验）发现一个反直觉结果——要求用户纠错反而减少参与度、提高了对错误建议的接受率（纠错的额外认知成本激活了 System 1 的省力策略）。接受：这意味着”加更多确认步骤”不一定降低误用率，可能适得其反，组件四必须谨慎。边界：但同一研究也发现”个体对 AI 的态度”是绩效最强预测因子、怀疑者检测错误更可靠——这恰恰说明校准心智模型（改变态度与边界认知）比增加摩擦更根本，本节赌的就是”改模型 > 加摩擦”。 反方二（Rick 未读对手框架·Melnikoff & Bargh 2018）：《The Mythical Number Two》（Trends in Cognitive Sciences，DOI: 10.1016/j.tics.2018.02.001）批评 System 1／System 2 双系统框架”结构上抗反驳、不可证伪”。接受：所以本节不把”激活了 System 2”当作成功指标——那不可测；本节只测误用率这一行为指标的前后差，把双系统理论降级为设计直觉的来源、而非验收标准。这是认识论上的自我设限：用可证伪的行为数字，绕开不可证伪的认知机制之争。

§3 第三步：测量——前后对照实验设计

校准是否生效，唯一裁判是误用率的前后差。实验设计如下（最小可运行版）：

设计要素	规格
实验类型	随机对照（A/B），对照组走旧 onboarding，实验组走校准干预
核心因变量	误用率（§1 定义）；次要：置信度对齐误差、能力边界问卷得分、任务完成质量
测量时点	T0 干预前基线、T1 干预后即时、T2 一周后（测回弹）、T3 一月后（测留存）
样本量	自动化偏误效应量通常中等；若基线误用率 30%、目标降至 20%、α=0.05、power=0.8，每组约需 300+ 用户（用标准比例检验功效公式估算，〔具体数值需按实际基线重算〕）
混淆变量控制	记录用户 AI 熟悉度、专业背景——Horowitz & Kahn（2023，arXiv:2306.16507，9 国 9,000 人）发现 AI 知识中等者偏误最强（U 型／类 Dunning-Kruger），不分层会污染结论

关键设计判断：必须测 T2／T3 而非只测 T1。心智模型会回弹——这是 §6 第一个陷阱。只测即时效果的实验几乎一定高估校准的持久性。

致命耦合点：测”知道”还是测”做到”。 90% 的团队会把能力边界问卷得分上升当成功，这是错的。

症状：问卷分从 60% 升到 90%，团队宣布校准成功，但真实误用率几乎没动。 为什么会错：“知道 AI 会错”（陈述性知识）和”在真实压力下会去核实”（程序性行为）是两回事——这正是维特根斯坦”语言游戏”与 Polanyi 默会知识所揭示的：能说出定义 ≠ 会在实践中正确使用。用户能在问卷上完美答出”AI 不擅长算术”，转头照样直接采纳一个错误的算术结果。 正确做法：以行为指标（误用率）为主裁判，问卷得分只作过程指标。问卷涨、误用率不动 = 干预失败，需重做组件一（体验性反例不够痛）。 真实反例：医疗场景（medRxiv 2025）显示，当 LLM 输出含一个错误细节时，幻觉被采纳率达 50–82%——这些用户大多”知道”AI 会幻觉，知识没拦住行为，只有界面层的强制核实信号（溯源、置信度）才把数字压下去。

§4 复现模板（可直接抄）

实验登记表（Pre-registration，跑之前先填，防 p-hacking）

实验名称: AI 能力边界心智模型校准 v1
假设(H1): 校准干预组的误用率较对照组下降 ≥ X 个百分点(T2 时点)
零假设(H0): 两组误用率无显著差异
核心因变量: 误用率 = 未核实采纳错误输出会话数 / 含错误输出会话数
次要因变量: [置信度对齐误差, 能力边界问卷得分, 任务质量]
干预组件: [体验性反例, 能力边界地图, 持续系统意象信号, (高风险)确认减速点]
分层变量: [AI 熟悉度: 低/中/高, 专业背景]   # 防 U 型偏误污染
测量时点: [T0 基线, T1 即时, T2 一周, T3 一月]
样本量: 每组 N=___  (依基线误用率与目标效应量功效计算)
停止规则: 跑满预定样本量, 不中途偷看显著性

onboarding 校准脚本（组件一 + 二，三屏）

[屏 1 · 体验性反例]
"试试问我一道精确计算题。"
→ 用户提问 → AI 自信给出(故意)略错的答案
→ 揭示: "看到了吗?我刚才很自信,但算错了。
   我是个概率系统——大多数时候对,但会自信地犯错。
   重要的事,请点开我的溯源核实一下。"

[屏 2 · 能力边界地图(用户任务语境填充)]
我擅长(可放心快速采纳):        我会系统性出错(请务必核实):
- 起草/改写/头脑风暴            - 精确数字/算术
- 总结/分类/翻译                - 实时/最新事实
- 解释概念                      - 你公司私域的长尾知识

[屏 3 · 常驻信号约定]
"从现在起你会看到:🟢高置信 🟡需核实 🔗溯源。
 看到 🟡 时,这是我在提醒你切换到审视模式。"

埋点清单（测误用率必备事件）

event: ai_output_shown        {output_id, has_error(标注), confidence_level}
event: source_clicked         {output_id}        # 验证行为
event: followup_question       {output_id}        # 验证行为
event: output_adopted         {output_id, verified: bool}
→ 误用率 = count(adopted & !verified & has_error) / count(shown & has_error)

§5 PM 决策启示

面试怎么用：被问”你怎么衡量 AI 产品的用户教育效果”，不要答”看 onboarding 完成率／看帮助文档点击量”（那是确定系统思维）。答：“我会把它建模成心智模型校准实验，主裁判是误用率的前后对照，因为用户对 AI 的核心风险是 evaluation gap（Chen 2025）下的过度依赖，而非执行困难。“——30 秒区分出”做过 AI 产品”和”只用过 AI”。
选型怎么用：评估一个 AI 平台／供应商时，问”你们的置信度信号、溯源、不确定性表达是不是 API 可取（logprobs、引用结构化返回）“——没有这些，组件三（持续系统意象信号）无法落地，校准必然回弹。
复现怎么用：本节就是复现手册本身。第一周跑 §1 诊断拿基线，第二周上 §4 模板跑 A/B，T2 看数。链 A04 心智模型形成·概率系统 vs 确定系统拿理论、参 0418 审阅瓶颈专题拿审阅界面的认知负荷管理方案、链 p305 - 信任架构与可解释性设计拿信号设计模式。

§6 与已有节点的关系 · 升级对照（不复述）

对 A04 心智模型形成·概率系统 vs 确定系统（深化）：A04 是诊断学——论证”为什么用户心智模型会范式级误用、evaluation gap 从哪来”。本节是它的操作化：把 A04 的诊断变成可跑的校准实验与可测的误用率，回答”那然后呢，怎么扶正、怎么证明扶正了”。
对 0418 审阅瓶颈专题（跨专题对话）：0418 审阅瓶颈专题讲的是注意力经济的 AI 反转——当生成变廉价，审阅成了瓶颈，核心约束是审阅者的认知负荷。本节与之互补：0418 关注”如何降低单次审阅的认知负荷”（p304 - 防御性 UX：对抗延迟与幻觉式的信息压缩），本节关注”如何校准用户心智模型使其在该审时主动切到审视模式”。两者共享认知负荷理论底座（Miller 1956；Sweller 1988；Cowan 2001 的 4±1），但一个治”审阅太累”，一个治”该审却不审”。0418 的 R03 Confidence-gated Auto-accept 阈值实验 与本节的误用率实验是同一枚硬币的两面——可联合设计。
对 p305 - 信任架构与可解释性设计 / p304 - 防御性 UX：对抗延迟与幻觉（认知底座 + 验证补缺）：p3xx 是设计模式（怎么设计置信度外显、溯源、优雅降级）；本节是这些模式的认知科学底座 + 可测验证方案。p305 说”目标是校准信任而非最大化信任”，本节给出”校准到没到位，用误用率怎么测”。本专题是 p3xx 之下的认知理论根基，不重复其设计细节。
对 A06 自动化偏见与学习性无助（病理回指）：A06 描述误用的两种病理（过度依赖致技能退化、学习性无助）；本节的校准干预正是针对”过度依赖”这一病理的预防性处置，但须守住 A06 的边界——校准过头会滑向算法厌恶（不足依赖）。

[!danger] 结尾陷阱：三个会让你的校准实验”看起来成功、实际失败”的坑 陷阱一 · 心智模型回弹（最致命）：onboarding 当场把误用率压下去了，一周后回到基线。心智模型不是一次注入就固化的，它”随时间不稳定变化”（Norman 1983）。只测 T1 的实验系统性高估校准持久性。 解药：必测 T2／T3，并把组件三（常驻系统意象信号）当作和 onboarding 同等重要的留存机制——干预是脉冲，信号是维持。 陷阱二 · 校准过头变成算法厌恶：体验性反例（组件一）若做得太狠、反例太吓人、或反复强调”AI 会错”，用户会从过度依赖直接荡到过度怀疑——开始什么都不信、连 AI 擅长的事也手动重做，生产力不升反降。Dhuliawala（2023）已证信任崩塌后恢复极慢。误用率降了，但任务完成率／满意度也崩了 = 你赢了战役输了战争。 解药：永远把”任务质量／采纳率”作为护栏指标和误用率一起看，目标是校准信任（calibrated trust）不是最小化信任。 陷阱三 · 测了”知道”骗了自己：见 §3 致命耦合点——问卷得分涨 ≠ 行为改变。用陈述性知识的提升冒充心智模型的重构，是这类实验最常见的自欺。行为指标（误用率）才是唯一裁判，问卷只是过程探针。 三个陷阱共同的根：心智模型校准是程序性、默会、易回弹的，任何把它当成”投递一次正确信息”的确定系统式解法，都会在这三处之一翻车。

§7 关联节点

核心（必读）

A04 心智模型形成·概率系统 vs 确定系统 — 本节的理论母体（诊断 → 操作化）
A06 自动化偏见与学习性无助 — 校准要预防的病理与不可越的边界
A02 双系统理论与 AI 接受 — System 1 快接受／System 2 审视的切换机制
A03 认知负荷理论与 AI 信息呈现 — 校准干预的负荷预算约束
p305 - 信任架构与可解释性设计 — 持续系统意象信号的设计模式来源
p304 - 防御性 UX：对抗延迟与幻觉 — 置信度外显／溯源的设计实现
0418 审阅瓶颈专题 — 跨专题：审阅认知负荷的另一半硬币

延伸（可选）

c01 - 认知重构：从确定性系统到概率系统 — 整个误用问题的范式起点
p302 - 七种 AI 交互设计模式 — 校准信号嵌入哪些交互范式
p303 - 克服空白画布综合症 — onboarding 首次引导流的姊妹设计
幻觉 — 误用率分子里”错误输出”的根因
Agent — 多步 Agent 场景下心智模型校准的延伸难题
0114认识论 — 默会知识 vs 陈述知识、可证伪性边界
0117社会学 — 信任作为社会建构对校准的影响
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。建立”诊断鸿沟 → 注入校准干预 → 测前后误用率差”实验闭环；给出误用率可操作定义、四类干预组件、前后对照实验设计、可直接抄的登记表／onboarding 脚本／埋点清单模板；接入 Beck et al.(2025)、Melnikoff & Bargh(2018) 两处对手立场（接受+边界）；维特根斯坦语言游戏作为跨域呼应落到”体验性反例 > 文案”的设计判断；结尾三陷阱（回弹／过度校准／测知道而非做到）。
2026-06-11 P3.4 校链：0418 审阅瓶颈专题已迁入 04AI，§5 + §6 + §7 关联节点共 3 处对 0418 的〔跨专题待落盘〕降级文本恢复为真 0418 总览 双链。