R01 测一个 AI 界面的认知负荷
你想知道你那个新上线的 AI 助手”用起来累不累”——但”累”不是一个可以拍脑袋下结论的词。本节解决的问题是:如何用任务时间、错误率、NASA-TLX 三件套,把一个 AI 界面的认知负荷从模糊感受变成可复现的数字,并给出 PM 当天就能跑起来的测法与模板。本节的视角框架是 Sweller 认知负荷理论(CLT)的三分法 + 工效学的”三联测量”(performance / subjective / physiological 中取前两类)。一句话立场:这是整个 0426 专题里唯一一个”动手”的节点——理论说完了,这里逼你去量;而量完你会撞上本节最重要的反共识——主观负荷和客观表现经常对不上,这个错位本身才是 PM 最该读懂的信号。
[!warning] 本节是操作手册,不是理论复述 关于”为什么 7±2 是 4±1”、“增生负荷是否存在”这类争论,请回到本专题的概念辨析与架构剖面节点。这里只回答一个问题:给你一个 AI 界面,你怎么把它的认知负荷测出来。
§0 为什么是”任务时间 + 错误率 + NASA-TLX”这三件,而不是别的
测认知负荷的方法在工效学里大致分三类,选错框架会让你测了半天测了个寂寞:
| 测量类别 | 代表方法 | 测的是什么 | PM 现实可行性 |
|---|---|---|---|
| 绩效法(performance) | 任务完成时间、错误率、子任务遗漏率、双任务范式 | 负荷的行为后果 | ✅ 埋点即可,零额外设备 |
| 主观法(subjective) | NASA-TLX、Paas 9 点量表、SEQ | 用户自报的脑力投入 | ✅ 一份问卷,5 分钟 |
| 生理法(physiological) | 瞳孔直径、心率变异性(HRV)、EEG、皮电 | 负荷的生理印记 | ❌ 需眼动仪/设备,招募成本高 |
为什么 PM 默认取前两类(绩效 + 主观): 生理法虽是”金标准”最接近、最难造假,但它需要专业设备和受控实验室,对一个要在两周内给出”这版界面认知负荷降了没”的 PM 来说不现实。绩效 + 主观这一对组合,恰恰构成本节的命门——它们经常打架(详见末节)。而那个”打架”本身,比任意单一数字都更有判断价值。
[!note] 框架级辨析:别把 NASA-TLX 当”满意度问卷” NASA-TLX 不是 NPS,不是 SUS(系统可用性量表),不是 CSAT。SUS 测”可用性”,NPS 测”愿不愿意推荐”,CSAT 测”满不满意”。TLX 专测脑力工作负荷(mental workload)——它问的是”你为完成这件事调动了多少心智资源”,而不是”你喜不喜欢”。一个用户可以非常满意一个高负荷界面(因为结果惊艳),也可以讨厌一个低负荷界面。把 TLX 和满意度混为一谈,是测量设计里最常见的第一个错误。
§1 三个绩效指标:怎么埋、怎么算
绩效指标的优点是”用户骗不了你”——它是行为留下的痕迹,不依赖自报。
① 任务完成时间(Time on Task, ToT)
- 定义:从用户开始一个明确任务,到达成目标状态的墙钟时间。
- 埋点:
task_start→task_success两个事件,取差值。务必区分”首次到达”与”含反复试错”。 - 解读陷阱:时间长 ≠ 负荷高。用户可能在”享受地探索”,也可能在”痛苦地挣扎”。时间必须和错误率、TLX 交叉看。
② 错误率(Error Rate)
- 定义:在 AI 界面里,错误有两种性质完全不同的来源,必须分开记:
- 用户操作错误:点错、填错、误解了界面(这是界面认知负荷的直接体现)。
- 接受 AI 错误输出:用户把 AI 的幻觉/错误建议当对的采纳了——这是**自动化偏差(automation bias)**的体现,见 幻觉 与本专题认知偏差节点。
- 为什么必须分:前者说明”界面让人犯错”,后者说明”界面让人放松了警惕”。一个 AI 界面可以操作错误率极低(很顺手),却接受 AI 错误率极高(太顺手了,顺手到不审查)——这正是 Beck et al.(2025, arXiv:2509.08514)那个反直觉发现的机理:要求纠错反而提高了对错误建议的接受率,因为纠错的额外认知成本激活了省力策略。
③ 子任务遗漏 / 双任务掉落率(可选,进阶)
- 经典工效学做法:让用户主任务之外同时盯一个次要任务(如听到提示音就按键)。次任务表现下降的幅度,反映主任务”吃掉”了多少剩余心智资源。这是 Parasuraman 谱系研究监控失效的经典范式,但对纯产品测试偏重,通常 PM 不跑,了解即可。
[!note] PM 视角补盲:别只测”完成的人” 幸存者偏差在这里致命。如果你只统计成功完成任务的用户的时间和 TLX,你系统性地砍掉了所有”负荷高到放弃”的人。放弃率(abandonment rate)本身就是最强的认知负荷信号,且常常被绩效指标的分母悄悄藏掉。务必单列。
§2 NASA-TLX:六维度怎么问、怎么算
NASA-TLX(NASA Task Load Index)由 Sandra Hart 与 Lowell Staveland 在 NASA Ames 研究中心开发,1988 年正式发表(Hart & Staveland, “Development of NASA-TLX,” in Human Mental Workload, North-Holland, 1988),是全球被引最多的主观工作负荷量表之一,至今(Hart 在 2006 年的回顾论文中统计)被引数千次。〔年份与出处已核实:Hart & Staveland 1988;Hart 2006 回顾见 Proceedings of the Human Factors and Ergonomics Society——arXiv 无关,此为传统期刊/会议文献,WebSearch 多源一致。〕
六个维度(用户对每一维在 0–100 打分):
| 维度 | 英文 | 问什么 | 在 AI 界面里的具体含义 |
|---|---|---|---|
| 脑力需求 | Mental Demand | 思考、记忆、判断花了多少力 | 用户要不要费力组织 prompt、读懂长输出 |
| 体力需求 | Physical Demand | 体力投入 | AI 界面通常很低(可保留以对照) |
| 时间压力 | Temporal Demand | 节奏紧不紧、被催促感 | 等待生成时的焦虑、流式输出的节奏感 |
| 绩效(自评) | Performance | 觉得自己做得好不好(注意:此维反向) | 用户对结果质量的自我评估 |
| 努力程度 | Effort | 为达到这个绩效付出了多少 | 反复改 prompt、来回核对的累 |
| 挫败感 | Frustration | 烦躁、气馁、有没有受挫 | 幻觉、答非所问带来的恼火 |
两种计分法,务必选定一种并写进报告:
- Raw TLX(RTLX,推荐 PM 用): 直接把六维(Performance 反向后)取平均。简单、省一道工序,且大量研究表明 RTLX 与完整加权版相关性极高。对快速产品迭代,RTLX 足够。
- 加权 TLX(完整版): 测前让用户做 15 次两两比较(六维取两两组合 C(6,2)=15),得出每维权重,再加权平均。更精确但费时,适合学术或高风险场景(医疗、航空)。
[!warning] 计分第一坑:Performance 维要反向 Performance 维度问的是”你觉得自己做得多好”,分越高代表表现越好——但 TLX 测的是”负荷”,好的表现意味着低负荷压力。所以计算总分前必须把 Performance 维反向(100 减原始分),否则一个”用户觉得自己做得很好”的低负荷界面会被你算成高负荷。这是新手最常犯、最隐蔽的错。
§3 实验设计:对比是一切,绝对值几乎没用
单测一个界面得到 TLX=52、ToT=84 秒,这两个数字本身毫无意义。 认知负荷测量的全部价值在对比:
- A/B 对比: 旧版 vs 新版,或竞品 vs 自家。这是 PM 最常用、最该用的。
- 任务内对比: 同一界面,简单任务 vs 复杂任务,看负荷是否随内在负荷(intrinsic load)合理上升——如果简单任务负荷就爆表,说明外在负荷(extraneous load,即界面本身造成的无关耗费)过高,这正是 Sweller CLT 里设计者唯一能直接砍掉的那一块。
- 被试内 vs 被试间:
- 被试内(within-subject): 同一批人两个版本都用。优点:消除个体差异(每人是自己的对照),样本量需求小。缺点:有学习/顺序效应,必须对半交叉抵消顺序(一半人先用 A,一半人先用 B)。
- 被试间(between-subject): 每人只用一个版本。优点:无顺序污染。缺点:个体差异噪声大,需要更大样本。
- PM 默认推荐被试内 + 顺序平衡,因为招募成本是最大约束。
样本量的现实主义: 学术显著性常要 n≥30/组;但产品迭代里,n=5 能抓住 ~80% 的严重可用性/负荷问题(Nielsen 的经典经验法则——属于可用性发现率,不是统计显著性,引用时不要混淆这两件事)。PM 的取舍:发现问题用 5–8 人定性 + TLX 看趋势;要拿数字去说服老板/做 OKR,补到每组 20–30 人跑统计检验。
[!note] confirmation-bias 砍除 我早期会本能地把”新版 TLX 更低”当成胜利就收工。这是 bias。补一条反例纪律:新版 TLX 更低,但接受 AI 错误率更高,是更糟的结果,不是更好的——负荷降了,可能是因为用户更不审查了。低负荷不是终极目标,校准的负荷才是(呼应 p305 - 信任架构与可解释性设计 的”校准信任而非最大化信任”)。
§4 判断主轴:测认知负荷时 90% 的人会搞错的五个点
这一节是本节点的命门。每个 AI PM 第一次跑负荷测量,几乎必踩其中三个。
错位 1:把 TLX 当满意度问卷
- 症状: 拿 TLX 总分低当”用户喜欢”上报。
- 为什么会错: 混淆了”工作负荷”和”满意度”两个正交维度。
- 正确做法: TLX 测负荷,另配 SUS/CSAT 测满意度,两者交叉解读。
- 真实反例: Midjourney 的 prompt 界面对新手脑力需求极高(要学魔法咒语般的参数语法),TLX 必然不低;但资深创作者满意度爆表。只看 TLX 会误判这是个”坏界面”。
错位 2:忘了反向 Performance 维
- 症状: 总分算出来高得离谱,或 A/B 排序反了。
- 为什么会错: Performance 维语义方向与其余五维相反(见 §2 警告)。
- 正确做法: 计分脚本里硬编码反向,并在模板里标红提醒。
错位 3:绩效和主观打架时,随手挑一个信的
- 症状: “时间更短所以更好”或”TLX 更低所以更好”,二选一拍板。
- 为什么会错: 主观负荷与客观表现是两套不同的东西(本节末节核心)。
- 正确做法: 当二者矛盾时,矛盾本身是发现,要追问原因,不是抹平。
- 真实反例: 流式输出(streaming)让用户感知等待变短、时间压力维(Temporal Demand)下降,即主观负荷降了;但用户为了边读边判断,实际任务完成时间可能没变甚至变长。这正是 p304 - 防御性 UX:对抗延迟与幻觉 里”流式的三个心理学机制”在测量上的回响——它优化的是感知负荷,不一定是客观效率。
错位 4:不区分两种错误(操作错误 vs 接受 AI 错误)
- 症状: 错误率一个总数报上去。
- 为什么会错: 见 §1,两种错误指向相反的设计动作(降低界面摩擦 vs 增加审查摩擦)。
- 正确做法: 分两列记。接受 AI 错误率高时,你要的恰恰是适度增加认知摩擦(减速点、确认步骤),而不是继续降负荷。
- 真实反例: 自动化偏差研究(Skitka, Mosier & Burdick, 1999, Int. J. Human-Computer Studies——已核实)的奠基发现:界面越顺,用户越倾向无批判采纳。把”接受 AI 错误”也算进”低错误率”是自欺。
错位 5:测了一次就当定论,忽略学习曲线
- 症状: 首次使用的 TLX 拿来代表长期负荷。
- 为什么会错: AI 界面的负荷会随用户建立心智模型(Norman 意义上)而显著下降(组块化、自动化)。首测高负荷可能只是”还没学会”。
- 正确做法: 至少测两个时点(首次 + 第 N 次),看负荷衰减曲线。Rick 这种”学习曲线极平”的用户,首测数据尤其会高估稳态负荷。
§5 对手框架回应:NASA-TLX 真的可信吗?
接受反方的对: 主观量表有真问题。
- 回顾性偏差: TLX 是事后填的,用户对”刚才有多累”的记忆会被结果好坏污染(峰终定律:Kahneman 等的 peak-end rule——结果好就觉得过程不累)。
- 个体基线漂移: 同样的 60 分,焦虑型用户和钝感型用户代表的真实负荷天差地别。TLX 是序数尺度,跨人绝对值比较站不住。
- 生理学派的批评: 工效学里一直有声音认为只有瞳孔、HRV、EEG 这类生理信号才”客观”,自报数据是二等公民。这个批评有其道理——TLX 测的是”被意识到的负荷”,意识不到的那部分它抓不到。
本节坚持的边界与赌注:
- 我赌的是:对绝大多数产品迭代场景,RTLX + 绩效指标的信噪比已经够用——你要的不是负荷的真值,而是”新版比旧版高还是低”的方向判断,而方向判断对回顾性偏差和个体漂移的鲁棒性远高于绝对值。
- 边界(failure scenario):在高风险、低容错领域(医疗诊断 AI、自动驾驶接管界面、金融风控),主观量表不够,必须上生理测量或更严的双任务范式。这些场景里,用户”没意识到的负荷”恰恰是事故的来源,而那正是 TLX 的盲区。
- 第二个 failure scenario:当被试知道自己在被测、且知道哪个是”新版”时,会产生需求特征(demand characteristics)——倾向于给新版打更友好的分。务必做盲化或至少不暗示哪版是主推。
§6 跨域呼应:测量行为本身会改变被测对象
调度科学哲学里的操作主义(operationism)与社会科学的反身性(reflexivity)。
P.W. Bridgman 的操作主义主张”一个概念的意义就是测量它的那套操作”——把这条用在”认知负荷”上会得到一个不安的结论:“认知负荷”不是一个先于测量存在的客观物,而是被 NASA-TLX 这套操作定义出来的东西。 换个量表(Paas 单维量表 vs TLX 六维),你测到的”负荷”就是不同的构念。这逼出 PM 的认识论自觉:你报告的不是”用户的认知负荷”,而是”用 RTLX 这把尺子量出来的某个数”,换尺子结论可能翻转。
更进一层是反身性:测量动作会反作用于被测对象。让用户中途停下来填 TLX,这个打断本身就增加了负荷、改变了他对任务的体验记忆。这与 0114认识论 里”观察者不能从被观察系统中抽身”是同一个问题。对 PM 的落地纪律:把 TLX 放在任务完成之后而非过程之中;承认你的数字带着测量工具的指纹,在报告里写明用了哪个版本、什么时点、如何计分——让别人能复现,这才是出版级的接地(呼应本宪章 §8 grounding 纪律)。
[!note] Rick 未读对手框架引入 这里引入的操作主义/反身性,不是为了显得有学问,而是为了挡住一个具体的产品错误:把单次 TLX 数字当成”用户真实状态”上 OKR。一旦你接受”负荷是被测量操作定义出来的”,你就不会再用一个绝对数字去拍板,而会去看不同操作下结论是否稳健——这是 echo chamber 的反义词。
§7 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试怎么用: 当面试官问”你怎么评估一个 AI 功能的体验”,不要答”看满意度”。答:“我会拆成绩效(任务时间+分两种的错误率+放弃率)和主观(RTLX 六维)两条线做 A/B,被试内+顺序平衡,n=5–8 先抓严重问题;关键是看两条线打不打架——如果新版主观负荷降了但接受 AI 错误率升了,我会判定这是更危险的版本,而不是更好的。“——这一句”打架判断”直接把你和背 framework 的候选人区分开。
- 选型怎么用: 评估两个 AI 供应商的交互方案时,用同一套任务跑 RTLX + 绩效对比,而不是听 demo 的爽感。Demo 测的是峰值惊艳,RTLX+ToT 测的是日常负荷,后者才决定留存。
- 复现怎么用: 用本节末尾的模板,任何人拿到你的报告(任务脚本+计分法+时点+样本)都能复跑出可比数字。不可复现的体验测量等于没测。
§8 与已有节点的关系(升级对照,不复述)
- 对照 0418 审阅瓶颈(认知负荷)节点:做了”深化 + 操作化”。 0418 把”认知负荷”指认为 AI 审阅的核心瓶颈(读懂并核验 AI 输出比生成更累),是问题诊断;本节是把那个瓶颈变成可测量的数字——0418 说”审阅很累”,R01 说”这是你测’有多累、降了没’的具体方法与模板”。诊断 → 仪器。
- 对照 c01 - 认知重构:从确定性系统到概率系统:做了”测量层落地”。 c01 论证 AI 是概率系统、输出不确定;本节回答”那种不确定性给用户造成的额外审查负荷,具体怎么量”——把 c01 的认识论命题接到工效学仪表盘上。
- 对照 p302 - 七种 AI 交互设计模式 / p303 - 克服空白画布综合症 / p304 - 防御性 UX:对抗延迟与幻觉 / p305 - 信任架构与可解释性设计:做了”验证回路”。 p3xx 是设计模式(该怎么设计),本节是度量手段(设计完怎么验证它真降了负荷)。p303 的渐进式揭示、p304 的流式输出,都声称降低认知负荷——R01 给的就是检验这些声称是否兑现的尺子。本专题是 p3xx 的认知科学底座,R01 是这个底座里负责”对账”的那一节。
§9 关联节点
核心(必读)
- c01 - 认知重构:从确定性系统到概率系统 — 为什么概率系统给用户加了审查负荷
- p304 - 防御性 UX:对抗延迟与幻觉 — 流式/降级等”降感知负荷”设计,本节负责验证
- p305 - 信任架构与可解释性设计 — 校准信任 vs 最大化信任,对应”校准负荷而非最小化负荷”
- 幻觉 — 接受 AI 错误率指标的源头
- 本专题:Sweller 认知负荷理论(CLT)三分法节点、Kahneman 双系统节点、认知偏差(锚定/自动化偏差)节点
延伸(可选)
- p302 - 七种 AI 交互设计模式
- p303 - 克服空白画布综合症
- A04 心智模型形成·概率系统 vs 确定系统 — 学习曲线导致负荷衰减的机制
- 0114认识论 — 操作主义与反身性
- Agent — 多步 Agent 界面的负荷测量更复杂(异步、长程)
- AI PM 知识图谱·总索引
§10 可直接复用的测量模板
模板 A:任务脚本(填空即用)
界面版本:____(A=旧版 / B=新版)
被试编号:____ 时点:____(首次 / 第 N 次使用)
任务描述(给用户的原话,务必两版完全一致):
"请用这个 AI 助手,完成 ________。完成后告诉我'好了'。"
开始时间戳:____ 结束时间戳:____
任务时间 ToT(秒)= 结束 − 开始 = ____
是否完成:□是 □否(放弃) ← 放弃也要记录,计入放弃率
操作错误次数(点错/填错/误解界面):____
接受 AI 错误输出次数(把幻觉/错建议当对的):____
观察记录(卡在哪一步、什么时候叹气):____________________
模板 B:RTLX 问卷(任务完成后立即填,0–100)
请就刚才这个任务给每一项打 0–100 分:
1. 脑力需求(要多费脑筋思考/记忆/判断) ____
2. 时间压力(节奏紧迫、被催促的感觉) ____
3. 努力程度(为做好它付出了多少) ____
4. 挫败感(烦躁、气馁、受挫) ____
5. 体力需求(身体上的投入) ____
6. 绩效自评(你觉得自己完成得多好,100=极好) ____ ⚠️计分时反向
RTLX 总分 = (脑力 + 时间 + 努力 + 挫败 + 体力 + (100 − 绩效)) / 6
注:此为 Raw TLX(未加权);若做加权版,需另跑 15 次两两比较得权重。
模板 C:结论判读决策表(本模板的灵魂)
| 主观(RTLX) | 客观(ToT/错误率) | 判读 | PM 动作 |
|---|---|---|---|
| 新版↓ | 新版↓(更快更准) | 真改进 | 发版,记录 win |
| 新版↓ | 接受 AI 错误↑ | 危险的”假改进” | 不发,可能过度降低了审查;加减速点 |
| 新版↑ | 新版↓ | 学习曲线未走完 / 内在负荷暴露 | 补测第 N 次;查是不是首次惩罚 |
| 新版↓ | ToT 不变或↑ | 优化的是感知而非客观效率 | 看场景:留存导向可接受,效率导向不够 |
| 两者矛盾且稳定 | — | 主观≠客观,这是发现不是噪声 | 追问机理,别抹平 |
末节(本节落点):主观负荷 ≠ 客观表现
请把这一条贴在测量报告的第一页:用户报告的”轻松”,和用户实际的”表现好”,是两件经常对不上的事——而那个对不上,才是 AI PM 最该读懂的信号。
这不是测量误差,是结构性现象,至少有四个机理在 AI 界面里被放大:
-
流畅性错觉(fluency illusion): AI 界面太顺滑,用户感觉”毫不费力”,于是 RTLX 很低——但低负荷恰恰来自放弃了审查。Beck et al.(2025, arXiv:2509.08514,N=2,784,已核实)的实验给出了这个机理的实证:降低参与摩擦反而提高了对错误建议的接受率。主观轻松 = 客观更易出错,在这里是正相关,不是反相关。
-
峰终定律污染回顾: TLX 是事后填的,一个惊艳的最终结果会让用户回忆整个过程都”不累”(Kahneman 的 peak-end rule)。主观分被结果好坏染色,而客观时间/错误是过程中实打实留下的。
-
感知优化 ≠ 效率优化: 流式输出(p304)让等待”感觉变短”,时间压力维下降,但客观完成时间可能没动。你优化了 RTLX,KPI 上的效率却没变——两条线必然分叉。
-
意识不到的负荷: TLX 只能测”被意识到的”负荷;自动化偏差最危险的部分恰恰是用户没意识到自己放松了警惕。主观量表对这部分系统性失明,这是它的结构性盲区,也是为什么高风险场景必须补生理测量(§5 边界)。
所以,永远别用单一数字下结论,永远把主观和客观并排放,当它们打架时——停下来,那里有金子。 一个让用户”觉得轻松但实际更易出错”的 AI 界面,在 RTLX 上会得高分,在产品上是个定时炸弹。测量的终极目的不是把负荷降到最低,而是把负荷校准到”用户既不疲于审查、也不疏于审查”的那个区间——这与 p305 - 信任架构与可解释性设计 的”校准信任而非最大化信任”是同一条原则的两面。
[!warning] 一句话带走 低 NASA-TLX 不是胜利,主观负荷与客观表现一致地变好才是。它们打架时,信号在打架本身里。
修订日志
- R1(2026-06-07):首稿。建立”绩效+主观”双线框架,三件套(ToT/错误率/RTLX)操作定义,五点判断主轴,三份可复用模板,末节落”主观≠客观”四机理。事实接地:NASA-TLX 出处(Hart & Staveland 1988)、Skitka et al. 1999、Beck et al. 2025(arXiv:2509.08514,N=2,784)均依据专题简报已核实来源;Nielsen n=5 经验法则标注为”发现率而非显著性”;peak-end rule 归 Kahneman。待核实项:Hart 2006 回顾论文的精确被引数(文中仅写”数千次”,未给确数,已规避)。