R03 心智模型校准实验
怎么用一段可复现的 onboarding/提示干预,把用户脑中那个”AI 是个无所不知的确定系统”的错误心智模型,扶正成”AI 是个有能力边界的概率系统”,并且用一个可测的误用率指标证明你真的扶正了它——而不是又写了一份没人读的帮助文档?本节是 A04 心智模型形成·概率系统 vs 确定系统 的操作化落地:A04 论证了”为什么用户的心智模型会系统性出错”,本节给出”怎么动手校准它、怎么测量校准是否生效”的最小可运行实验方案+模板。这是一篇复现指南,不是设计模式综述——读完你应该能在两周内跑出第一组前后对照数据。
§0 为什么是”心智模型校准实验”,而不是”写更好的 onboarding”
面对”用户误用 AI”,产品团队的默认动作有三个,全都是错的框架:
- 写更详细的帮助文档——假设问题是”信息不够”。但 A04 心智模型形成·概率系统 vs 确定系统 已经论证:用户的心智模型”往往是不完整的、自相矛盾的、迷信性的、错误的”(Norman 1983),信息从不缺,缺的是让用户主动重构内部表征的契机。文档是单向投递,心智模型重构需要的是体验性的反例。
- 做更友好的 onboarding tour——假设问题是”用户不熟练”。但用户对 AI 的误用不是熟练度问题,是范式错配:他们在用确定系统(计算器、搜索引擎、表单)的旧模型去套一个概率系统。onboarding tour 教的是”按钮在哪”,治不了”这个按钮背后的东西会以概率出错”。
- 加免责声明——“AI 可能出错,请自行核实”。这是法务话术,不是认知干预。Skitka, Mosier & Burdick(1999,International Journal of Human-Computer Studies)奠基的自动化偏误研究早就说明:人会无批判地采纳自动化建议、折扣矛盾信息,一句免责声明无法激活 System 2 的审视。
本节坚持一个不同的框架:心智模型校准是一个可设计、可测量、可迭代的实验,不是一次性的文案任务。它的核心方法论是——用”诊断鸿沟 → 注入校准干预 → 测量误用率前后差”的实验闭环,把”用户怎么理解 AI”这件看不见的事变成可观测的数字。把它当成一个 A/B 实验来跑,而不是当成一次界面美化。
[!note] 跨域呼应:维特根斯坦的”语言游戏”与心智模型的不可言传 维特根斯坦在《哲学研究》中指出,理解一个概念不是掌握一条定义,而是学会在一套实践(语言游戏)中正确使用它。这直接改变了校准实验的设计判断:你无法用一段定义把”AI 是概率系统”装进用户脑中(“AI 会犯错”这句话用户早就背得出,却照样过度依赖)。心智模型的重构必须发生在用户亲手撞了一次概率系统的墙之后——让他在低风险沙盒里经历一次”AI 自信地给了错答案”,比给他读一百遍免责声明更能改写内部表征。这与 Polanyi 默会知识与提示工程的认识论张力同源(详见 0114认识论):能力边界是默会的,靠演示而非陈述传递。所以本节的模板把”体验性反例(experiential counter-example)“列为校准干预的核心组件,而不是把”文案优化”列为核心。
§1 第一步:诊断现有心智模型与鸿沟在哪
校准之前必须先量化”现在错得有多离谱”。这一步对应 Norman 的评估鸿沟(用户对系统状态的解读 vs 系统实际状态的差距)。AI 系统的特殊性在于:它缩窄了执行鸿沟(自然语言让用户更容易表达意图),却显著拓宽了评估鸿沟(输出可能幻觉,用户难以判断哪些可信)——这是 Chen(UMD 博士论文,2025,drum.lib.umd.edu)系统论证的核心悖论,也是本节要测量的那条鸿沟。
诊断用三个轻量探针,半天内可完成:
| 探针 | 方法 | 测什么 |
|---|---|---|
| 能力边界问卷 | 给用户 10 个任务描述(5 个 AI 擅长、5 个 AI 系统性失败,如精确算术、实时事实、长尾私域知识),让其判断”AI 能不能可靠完成” | 用户对能力边界的认知准确率 |
| 置信度对齐测试 | 让用户看 8 条 AI 输出(一半真、一半含一个错误细节),让其标注”你有多信” | 用户的信任校准曲线——尤其能否识别 overconfident+wrong(高置信但出错) |
| 行为日志回放 | 抽取真实会话,标注”未经核实直接采纳错误输出”的事件 | 基线误用率(baseline misuse rate) |
误用率(misuse rate)的可操作定义(本节的核心因变量):
误用率 = 用户未经任何验证行为,直接采纳了一条事实性错误/越界 AI 输出的会话数 ÷ 含此类输出的总会话数。
“验证行为”包括:点开溯源引用、追问反问、外部核实、修改后再用。这个定义把抽象的”误用”锚定成可埋点的事件,是后面所有前后对照的基准线。Dhuliawala et al.(EMNLP 2023,arXiv:2310.13544)的研究支持把 overconfident+wrong 单列——它对信任的破坏性比 underconfident+correct 大得多,且信任恢复极慢,所以诊断时要专门统计这一类的采纳率。
§2 第二步:设计校准干预(方法+四类组件)
校准干预不是一段文案,是一组改写心智模型的体验。基于 A04 的理论底座,有效干预必须同时作用于 Norman 三角的两端——既要修正用户的心智模型,又要让系统意象(界面信号)持续广播”我是概率系统”。四类组件按性价比排序:
组件一 体验性反例(experiential counter-example)—— 最强,必做。 在 onboarding 的沙盒里,故意让用户向 AI 提一个它会自信出错的问题(如一道需要精确计算的题、一个长尾事实),让 AI 给出 overconfident+wrong 的答案,然后揭示真相。这是激活 System 2 的”减速点”——让用户亲历一次概率系统的失败,而非被告知。注意:必须在低风险沙盒,且立刻给出正确答案,否则伤害信任(见 §6 陷阱)。
组件二 能力边界地图(capability map)—— 必做。 一张极简的”AI 擅长/不擅长”二分卡,但关键是用用户自己的任务语境填充,不是抽象原则。Holstein & Satzger(2025,arXiv:2510.08104)论证人机协作需要三类心智模型共同演化,其中互补感知模型(双方各自强弱项)是传统确定系统不需要、概率系统必需的一类——能力边界地图正是在直接构建这一类。
组件三 系统意象的持续信号(persistent system image)—— 必做。 干预不能只在 onboarding 一次性发生,否则心智模型会回弹。需要把”概率性”编码进常驻界面信号:置信度外显、溯源引用、不确定性诚实表达。这正是 p305 - 信任架构与可解释性设计 与 p304 - 防御性 UX:对抗延迟与幻觉 那些设计模式在补的洞——本节是它们的认知科学底座与可测验证方案,p3xx 是设计模式,本节负责”怎么证明这些模式真的校准了心智模型”。
组件四 主动确认的减速点(friction point)—— 高风险场景选做。 在高风险操作前插入一步主动确认,呈现替代方案。这是把 System 2 强行拉回的”轻推(nudge)“。但要节制:A06 自动化偏见与学习性无助 警告过度依赖致技能退化,而过度摩擦又会引发算法厌恶,两头都是坑。
[!warning] 业界反方立场:接受 + 边界 反方一(自动化偏误难以根除派):Beck, Eckman, Kern & Kreuter(2025,arXiv:2509.08514,N=2,784 受控实验)发现一个反直觉结果——要求用户纠错反而减少参与度、提高了对错误建议的接受率(纠错的额外认知成本激活了 System 1 的省力策略)。接受:这意味着”加更多确认步骤”不一定降低误用率,可能适得其反,组件四必须谨慎。边界:但同一研究也发现”个体对 AI 的态度”是绩效最强预测因子、怀疑者检测错误更可靠——这恰恰说明校准心智模型(改变态度与边界认知)比增加摩擦更根本,本节赌的就是”改模型 > 加摩擦”。 反方二(Rick 未读对手框架·Melnikoff & Bargh 2018):《The Mythical Number Two》(Trends in Cognitive Sciences,DOI: 10.1016/j.tics.2018.02.001)批评 System 1/System 2 双系统框架”结构上抗反驳、不可证伪”。接受:所以本节不把”激活了 System 2”当作成功指标——那不可测;本节只测误用率这一行为指标的前后差,把双系统理论降级为设计直觉的来源、而非验收标准。这是认识论上的自我设限:用可证伪的行为数字,绕开不可证伪的认知机制之争。
§3 第三步:测量——前后对照实验设计
校准是否生效,唯一裁判是误用率的前后差。实验设计如下(最小可运行版):
| 设计要素 | 规格 |
|---|---|
| 实验类型 | 随机对照(A/B),对照组走旧 onboarding,实验组走校准干预 |
| 核心因变量 | 误用率(§1 定义);次要:置信度对齐误差、能力边界问卷得分、任务完成质量 |
| 测量时点 | T0 干预前基线、T1 干预后即时、T2 一周后(测回弹)、T3 一月后(测留存) |
| 样本量 | 自动化偏误效应量通常中等;若基线误用率 30%、目标降至 20%、α=0.05、power=0.8,每组约需 300+ 用户(用标准比例检验功效公式估算,〔具体数值需按实际基线重算〕) |
| 混淆变量控制 | 记录用户 AI 熟悉度、专业背景——Horowitz & Kahn(2023,arXiv:2306.16507,9 国 9,000 人)发现 AI 知识中等者偏误最强(U 型/类 Dunning-Kruger),不分层会污染结论 |
关键设计判断:必须测 T2/T3 而非只测 T1。心智模型会回弹——这是 §6 第一个陷阱。只测即时效果的实验几乎一定高估校准的持久性。
致命耦合点:测”知道”还是测”做到”。 90% 的团队会把能力边界问卷得分上升当成功,这是错的。
症状:问卷分从 60% 升到 90%,团队宣布校准成功,但真实误用率几乎没动。 为什么会错:“知道 AI 会错”(陈述性知识)和”在真实压力下会去核实”(程序性行为)是两回事——这正是维特根斯坦”语言游戏”与 Polanyi 默会知识所揭示的:能说出定义 ≠ 会在实践中正确使用。用户能在问卷上完美答出”AI 不擅长算术”,转头照样直接采纳一个错误的算术结果。 正确做法:以行为指标(误用率)为主裁判,问卷得分只作过程指标。问卷涨、误用率不动 = 干预失败,需重做组件一(体验性反例不够痛)。 真实反例:医疗场景(medRxiv 2025)显示,当 LLM 输出含一个错误细节时,幻觉被采纳率达 50–82%——这些用户大多”知道”AI 会幻觉,知识没拦住行为,只有界面层的强制核实信号(溯源、置信度)才把数字压下去。
§4 复现模板(可直接抄)
实验登记表(Pre-registration,跑之前先填,防 p-hacking)
实验名称: AI 能力边界心智模型校准 v1
假设(H1): 校准干预组的误用率较对照组下降 ≥ X 个百分点(T2 时点)
零假设(H0): 两组误用率无显著差异
核心因变量: 误用率 = 未核实采纳错误输出会话数 / 含错误输出会话数
次要因变量: [置信度对齐误差, 能力边界问卷得分, 任务质量]
干预组件: [体验性反例, 能力边界地图, 持续系统意象信号, (高风险)确认减速点]
分层变量: [AI 熟悉度: 低/中/高, 专业背景] # 防 U 型偏误污染
测量时点: [T0 基线, T1 即时, T2 一周, T3 一月]
样本量: 每组 N=___ (依基线误用率与目标效应量功效计算)
停止规则: 跑满预定样本量, 不中途偷看显著性
onboarding 校准脚本(组件一 + 二,三屏)
[屏 1 · 体验性反例]
"试试问我一道精确计算题。"
→ 用户提问 → AI 自信给出(故意)略错的答案
→ 揭示: "看到了吗?我刚才很自信,但算错了。
我是个概率系统——大多数时候对,但会自信地犯错。
重要的事,请点开我的溯源核实一下。"
[屏 2 · 能力边界地图(用户任务语境填充)]
我擅长(可放心快速采纳): 我会系统性出错(请务必核实):
- 起草/改写/头脑风暴 - 精确数字/算术
- 总结/分类/翻译 - 实时/最新事实
- 解释概念 - 你公司私域的长尾知识
[屏 3 · 常驻信号约定]
"从现在起你会看到:🟢高置信 🟡需核实 🔗溯源。
看到 🟡 时,这是我在提醒你切换到审视模式。"
埋点清单(测误用率必备事件)
event: ai_output_shown {output_id, has_error(标注), confidence_level}
event: source_clicked {output_id} # 验证行为
event: followup_question {output_id} # 验证行为
event: output_adopted {output_id, verified: bool}
→ 误用率 = count(adopted & !verified & has_error) / count(shown & has_error)
§5 PM 决策启示
- 面试怎么用:被问”你怎么衡量 AI 产品的用户教育效果”,不要答”看 onboarding 完成率/看帮助文档点击量”(那是确定系统思维)。答:“我会把它建模成心智模型校准实验,主裁判是误用率的前后对照,因为用户对 AI 的核心风险是 evaluation gap(Chen 2025)下的过度依赖,而非执行困难。“——30 秒区分出”做过 AI 产品”和”只用过 AI”。
- 选型怎么用:评估一个 AI 平台/供应商时,问”你们的置信度信号、溯源、不确定性表达是不是 API 可取(logprobs、引用结构化返回)“——没有这些,组件三(持续系统意象信号)无法落地,校准必然回弹。
- 复现怎么用:本节就是复现手册本身。第一周跑 §1 诊断拿基线,第二周上 §4 模板跑 A/B,T2 看数。链 A04 心智模型形成·概率系统 vs 确定系统 拿理论、参 0418 审阅瓶颈专题拿审阅界面的认知负荷管理方案、链 p305 - 信任架构与可解释性设计 拿信号设计模式。
§6 与已有节点的关系 · 升级对照(不复述)
- 对 A04 心智模型形成·概率系统 vs 确定系统(深化):A04 是诊断学——论证”为什么用户心智模型会范式级误用、evaluation gap 从哪来”。本节是它的操作化:把 A04 的诊断变成可跑的校准实验与可测的误用率,回答”那然后呢,怎么扶正、怎么证明扶正了”。
- 对 0418 审阅瓶颈专题(跨专题对话):0418 审阅瓶颈专题讲的是注意力经济的 AI 反转——当生成变廉价,审阅成了瓶颈,核心约束是审阅者的认知负荷。本节与之互补:0418 关注”如何降低单次审阅的认知负荷”(p304 - 防御性 UX:对抗延迟与幻觉 式的信息压缩),本节关注”如何校准用户心智模型使其在该审时主动切到审视模式”。两者共享认知负荷理论底座(Miller 1956;Sweller 1988;Cowan 2001 的 4±1),但一个治”审阅太累”,一个治”该审却不审”。0418 的
R03 Confidence-gated Auto-accept 阈值实验与本节的误用率实验是同一枚硬币的两面——可联合设计。 - 对 p305 - 信任架构与可解释性设计 / p304 - 防御性 UX:对抗延迟与幻觉(认知底座 + 验证补缺):p3xx 是设计模式(怎么设计置信度外显、溯源、优雅降级);本节是这些模式的认知科学底座 + 可测验证方案。p305 说”目标是校准信任而非最大化信任”,本节给出”校准到没到位,用误用率怎么测”。本专题是 p3xx 之下的认知理论根基,不重复其设计细节。
- 对 A06 自动化偏见与学习性无助(病理回指):A06 描述误用的两种病理(过度依赖致技能退化、学习性无助);本节的校准干预正是针对”过度依赖”这一病理的预防性处置,但须守住 A06 的边界——校准过头会滑向算法厌恶(不足依赖)。
[!danger] 结尾陷阱:三个会让你的校准实验”看起来成功、实际失败”的坑 陷阱一 · 心智模型回弹(最致命):onboarding 当场把误用率压下去了,一周后回到基线。心智模型不是一次注入就固化的,它”随时间不稳定变化”(Norman 1983)。只测 T1 的实验系统性高估校准持久性。 解药:必测 T2/T3,并把组件三(常驻系统意象信号)当作和 onboarding 同等重要的留存机制——干预是脉冲,信号是维持。 陷阱二 · 校准过头变成算法厌恶:体验性反例(组件一)若做得太狠、反例太吓人、或反复强调”AI 会错”,用户会从过度依赖直接荡到过度怀疑——开始什么都不信、连 AI 擅长的事也手动重做,生产力不升反降。Dhuliawala(2023)已证信任崩塌后恢复极慢。误用率降了,但任务完成率/满意度也崩了 = 你赢了战役输了战争。 解药:永远把”任务质量/采纳率”作为护栏指标和误用率一起看,目标是校准信任(calibrated trust)不是最小化信任。 陷阱三 · 测了”知道”骗了自己:见 §3 致命耦合点——问卷得分涨 ≠ 行为改变。用陈述性知识的提升冒充心智模型的重构,是这类实验最常见的自欺。行为指标(误用率)才是唯一裁判,问卷只是过程探针。 三个陷阱共同的根:心智模型校准是程序性、默会、易回弹的,任何把它当成”投递一次正确信息”的确定系统式解法,都会在这三处之一翻车。
§7 关联节点
核心(必读)
- A04 心智模型形成·概率系统 vs 确定系统 — 本节的理论母体(诊断 → 操作化)
- A06 自动化偏见与学习性无助 — 校准要预防的病理与不可越的边界
- A02 双系统理论与 AI 接受 — System 1 快接受/System 2 审视的切换机制
- A03 认知负荷理论与 AI 信息呈现 — 校准干预的负荷预算约束
- p305 - 信任架构与可解释性设计 — 持续系统意象信号的设计模式来源
- p304 - 防御性 UX:对抗延迟与幻觉 — 置信度外显/溯源的设计实现
- 0418 审阅瓶颈专题 — 跨专题:审阅认知负荷的另一半硬币
延伸(可选)
- c01 - 认知重构:从确定性系统到概率系统 — 整个误用问题的范式起点
- p302 - 七种 AI 交互设计模式 — 校准信号嵌入哪些交互范式
- p303 - 克服空白画布综合症 — onboarding 首次引导流的姊妹设计
- 幻觉 — 误用率分子里”错误输出”的根因
- Agent — 多步 Agent 场景下心智模型校准的延伸难题
- 0114认识论 — 默会知识 vs 陈述知识、可证伪性边界
- 0117社会学 — 信任作为社会建构对校准的影响
- AI PM 知识图谱·总索引
修订日志
- R1(2026-06-07):首稿。建立”诊断鸿沟 → 注入校准干预 → 测前后误用率差”实验闭环;给出误用率可操作定义、四类干预组件、前后对照实验设计、可直接抄的登记表/onboarding 脚本/埋点清单模板;接入 Beck et al.(2025)、Melnikoff & Bargh(2018) 两处对手立场(接受+边界);维特根斯坦语言游戏作为跨域呼应落到”体验性反例 > 文案”的设计判断;结尾三陷阱(回弹/过度校准/测知道而非做到)。
- 2026-06-11 P3.4 校链:0418 审阅瓶颈专题已迁入 04AI,§5 + §6 + §7 关联节点共 3 处对 0418 的〔跨专题待落盘〕降级文本恢复为真
0418 总览双链。