R01 测一个 AI 界面的认知负荷 · 知识库

你想知道你那个新上线的 AI 助手”用起来累不累”——但”累”不是一个可以拍脑袋下结论的词。本节解决的问题是：如何用任务时间、错误率、NASA-TLX 三件套，把一个 AI 界面的认知负荷从模糊感受变成可复现的数字，并给出 PM 当天就能跑起来的测法与模板。本节的视角框架是 Sweller 认知负荷理论（CLT）的三分法 + 工效学的”三联测量”（performance / subjective / physiological 中取前两类）。一句话立场：这是整个 0426 专题里唯一一个”动手”的节点——理论说完了，这里逼你去量;而量完你会撞上本节最重要的反共识——主观负荷和客观表现经常对不上,这个错位本身才是 PM 最该读懂的信号。

[!warning] 本节是操作手册,不是理论复述关于”为什么 7±2 是 4±1”、“增生负荷是否存在”这类争论,请回到本专题的概念辨析与架构剖面节点。这里只回答一个问题:给你一个 AI 界面,你怎么把它的认知负荷测出来。

§0 为什么是”任务时间 + 错误率 + NASA-TLX”这三件,而不是别的

测认知负荷的方法在工效学里大致分三类,选错框架会让你测了半天测了个寂寞:

测量类别	代表方法	测的是什么	PM 现实可行性
绩效法(performance)	任务完成时间、错误率、子任务遗漏率、双任务范式	负荷的行为后果	✅ 埋点即可,零额外设备
主观法(subjective)	NASA-TLX、Paas 9 点量表、SEQ	用户自报的脑力投入	✅ 一份问卷,5 分钟
生理法(physiological)	瞳孔直径、心率变异性(HRV)、EEG、皮电	负荷的生理印记	❌ 需眼动仪/设备,招募成本高

为什么 PM 默认取前两类(绩效 + 主观): 生理法虽是”金标准”最接近、最难造假,但它需要专业设备和受控实验室,对一个要在两周内给出”这版界面认知负荷降了没”的 PM 来说不现实。绩效 + 主观这一对组合,恰恰构成本节的命门——它们经常打架(详见末节)。而那个”打架”本身,比任意单一数字都更有判断价值。

[!note] 框架级辨析:别把 NASA-TLX 当”满意度问卷” NASA-TLX 不是 NPS,不是 SUS(系统可用性量表),不是 CSAT。SUS 测”可用性”,NPS 测”愿不愿意推荐”,CSAT 测”满不满意”。TLX 专测脑力工作负荷(mental workload)——它问的是”你为完成这件事调动了多少心智资源”,而不是”你喜不喜欢”。一个用户可以非常满意一个高负荷界面(因为结果惊艳),也可以讨厌一个低负荷界面。把 TLX 和满意度混为一谈,是测量设计里最常见的第一个错误。

§1 三个绩效指标:怎么埋、怎么算

绩效指标的优点是”用户骗不了你”——它是行为留下的痕迹,不依赖自报。

① 任务完成时间(Time on Task, ToT)

定义:从用户开始一个明确任务,到达成目标状态的墙钟时间。
埋点:task_start → task_success 两个事件,取差值。务必区分”首次到达”与”含反复试错”。
解读陷阱:时间长 ≠ 负荷高。用户可能在”享受地探索”,也可能在”痛苦地挣扎”。时间必须和错误率、TLX 交叉看。

② 错误率(Error Rate)

定义:在 AI 界面里,错误有两种性质完全不同的来源,必须分开记:
- 用户操作错误:点错、填错、误解了界面(这是界面认知负荷的直接体现)。
- 接受 AI 错误输出:用户把 AI 的幻觉/错误建议当对的采纳了——这是**自动化偏差(automation bias)**的体现,见幻觉与本专题认知偏差节点。
为什么必须分:前者说明”界面让人犯错”,后者说明”界面让人放松了警惕”。一个 AI 界面可以操作错误率极低(很顺手),却接受 AI 错误率极高(太顺手了,顺手到不审查)——这正是 Beck et al.(2025, arXiv:2509.08514)那个反直觉发现的机理:要求纠错反而提高了对错误建议的接受率,因为纠错的额外认知成本激活了省力策略。

③ 子任务遗漏 / 双任务掉落率(可选,进阶)

经典工效学做法:让用户主任务之外同时盯一个次要任务(如听到提示音就按键)。次任务表现下降的幅度,反映主任务”吃掉”了多少剩余心智资源。这是 Parasuraman 谱系研究监控失效的经典范式,但对纯产品测试偏重,通常 PM 不跑,了解即可。

[!note] PM 视角补盲:别只测”完成的人” 幸存者偏差在这里致命。如果你只统计成功完成任务的用户的时间和 TLX,你系统性地砍掉了所有”负荷高到放弃”的人。放弃率(abandonment rate)本身就是最强的认知负荷信号,且常常被绩效指标的分母悄悄藏掉。务必单列。

§2 NASA-TLX:六维度怎么问、怎么算

NASA-TLX(NASA Task Load Index)由 Sandra Hart 与 Lowell Staveland 在 NASA Ames 研究中心开发,1988 年正式发表(Hart & Staveland, “Development of NASA-TLX,” in Human Mental Workload, North-Holland, 1988),是全球被引最多的主观工作负荷量表之一,至今(Hart 在 2006 年的回顾论文中统计)被引数千次。〔年份与出处已核实:Hart & Staveland 1988;Hart 2006 回顾见 Proceedings of the Human Factors and Ergonomics Society——arXiv 无关,此为传统期刊/会议文献,WebSearch 多源一致。〕

六个维度(用户对每一维在 0–100 打分):

维度	英文	问什么	在 AI 界面里的具体含义
脑力需求	Mental Demand	思考、记忆、判断花了多少力	用户要不要费力组织 prompt、读懂长输出
体力需求	Physical Demand	体力投入	AI 界面通常很低(可保留以对照)
时间压力	Temporal Demand	节奏紧不紧、被催促感	等待生成时的焦虑、流式输出的节奏感
绩效(自评)	Performance	觉得自己做得好不好(注意:此维反向)	用户对结果质量的自我评估
努力程度	Effort	为达到这个绩效付出了多少	反复改 prompt、来回核对的累
挫败感	Frustration	烦躁、气馁、有没有受挫	幻觉、答非所问带来的恼火

两种计分法,务必选定一种并写进报告:

Raw TLX(RTLX,推荐 PM 用): 直接把六维(Performance 反向后)取平均。简单、省一道工序,且大量研究表明 RTLX 与完整加权版相关性极高。对快速产品迭代,RTLX 足够。
加权 TLX(完整版): 测前让用户做 15 次两两比较(六维取两两组合 C(6,2)=15),得出每维权重,再加权平均。更精确但费时,适合学术或高风险场景(医疗、航空)。

[!warning] 计分第一坑:Performance 维要反向 Performance 维度问的是”你觉得自己做得多好”,分越高代表表现越好——但 TLX 测的是”负荷”,好的表现意味着低负荷压力。所以计算总分前必须把 Performance 维反向(100 减原始分),否则一个”用户觉得自己做得很好”的低负荷界面会被你算成高负荷。这是新手最常犯、最隐蔽的错。

§3 实验设计:对比是一切,绝对值几乎没用

单测一个界面得到 TLX=52、ToT=84 秒,这两个数字本身毫无意义。 认知负荷测量的全部价值在对比:

A/B 对比: 旧版 vs 新版,或竞品 vs 自家。这是 PM 最常用、最该用的。
任务内对比: 同一界面,简单任务 vs 复杂任务,看负荷是否随内在负荷(intrinsic load)合理上升——如果简单任务负荷就爆表,说明外在负荷(extraneous load,即界面本身造成的无关耗费)过高,这正是 Sweller CLT 里设计者唯一能直接砍掉的那一块。
被试内 vs 被试间:
- 被试内(within-subject): 同一批人两个版本都用。优点:消除个体差异(每人是自己的对照),样本量需求小。缺点:有学习/顺序效应,必须对半交叉抵消顺序(一半人先用 A,一半人先用 B)。
- 被试间(between-subject): 每人只用一个版本。优点:无顺序污染。缺点:个体差异噪声大,需要更大样本。
- PM 默认推荐被试内 + 顺序平衡,因为招募成本是最大约束。

样本量的现实主义: 学术显著性常要 n≥30/组;但产品迭代里,n=5 能抓住 ~80% 的严重可用性/负荷问题(Nielsen 的经典经验法则——属于可用性发现率,不是统计显著性,引用时不要混淆这两件事)。PM 的取舍:发现问题用 5–8 人定性 + TLX 看趋势;要拿数字去说服老板/做 OKR,补到每组 20–30 人跑统计检验。

[!note] confirmation-bias 砍除我早期会本能地把”新版 TLX 更低”当成胜利就收工。这是 bias。补一条反例纪律:新版 TLX 更低,但接受 AI 错误率更高,是更糟的结果,不是更好的——负荷降了,可能是因为用户更不审查了。低负荷不是终极目标,校准的负荷才是(呼应 p305 - 信任架构与可解释性设计的”校准信任而非最大化信任”)。

§4 判断主轴:测认知负荷时 90% 的人会搞错的五个点

这一节是本节点的命门。每个 AI PM 第一次跑负荷测量,几乎必踩其中三个。

错位 1:把 TLX 当满意度问卷

症状: 拿 TLX 总分低当”用户喜欢”上报。
为什么会错: 混淆了”工作负荷”和”满意度”两个正交维度。
正确做法: TLX 测负荷,另配 SUS/CSAT 测满意度,两者交叉解读。
真实反例: Midjourney 的 prompt 界面对新手脑力需求极高(要学魔法咒语般的参数语法),TLX 必然不低;但资深创作者满意度爆表。只看 TLX 会误判这是个”坏界面”。

错位 2:忘了反向 Performance 维

症状: 总分算出来高得离谱,或 A/B 排序反了。
为什么会错: Performance 维语义方向与其余五维相反(见 §2 警告)。
正确做法: 计分脚本里硬编码反向,并在模板里标红提醒。

错位 3:绩效和主观打架时,随手挑一个信的

症状: “时间更短所以更好”或”TLX 更低所以更好”,二选一拍板。
为什么会错: 主观负荷与客观表现是两套不同的东西(本节末节核心)。
正确做法: 当二者矛盾时,矛盾本身是发现,要追问原因,不是抹平。
真实反例: 流式输出(streaming)让用户感知等待变短、时间压力维(Temporal Demand)下降,即主观负荷降了;但用户为了边读边判断,实际任务完成时间可能没变甚至变长。这正是 p304 - 防御性 UX：对抗延迟与幻觉里”流式的三个心理学机制”在测量上的回响——它优化的是感知负荷,不一定是客观效率。

错位 4:不区分两种错误(操作错误 vs 接受 AI 错误)

症状: 错误率一个总数报上去。
为什么会错: 见 §1,两种错误指向相反的设计动作(降低界面摩擦 vs 增加审查摩擦)。
正确做法: 分两列记。接受 AI 错误率高时,你要的恰恰是适度增加认知摩擦(减速点、确认步骤),而不是继续降负荷。
真实反例: 自动化偏差研究(Skitka, Mosier & Burdick, 1999, Int. J. Human-Computer Studies——已核实)的奠基发现:界面越顺,用户越倾向无批判采纳。把”接受 AI 错误”也算进”低错误率”是自欺。

错位 5:测了一次就当定论,忽略学习曲线

症状: 首次使用的 TLX 拿来代表长期负荷。
为什么会错: AI 界面的负荷会随用户建立心智模型(Norman 意义上)而显著下降(组块化、自动化)。首测高负荷可能只是”还没学会”。
正确做法: 至少测两个时点(首次 + 第 N 次),看负荷衰减曲线。Rick 这种”学习曲线极平”的用户,首测数据尤其会高估稳态负荷。

§5 对手框架回应:NASA-TLX 真的可信吗?

接受反方的对: 主观量表有真问题。

回顾性偏差: TLX 是事后填的,用户对”刚才有多累”的记忆会被结果好坏污染(峰终定律:Kahneman 等的 peak-end rule——结果好就觉得过程不累)。
个体基线漂移: 同样的 60 分,焦虑型用户和钝感型用户代表的真实负荷天差地别。TLX 是序数尺度,跨人绝对值比较站不住。
生理学派的批评: 工效学里一直有声音认为只有瞳孔、HRV、EEG 这类生理信号才”客观”,自报数据是二等公民。这个批评有其道理——TLX 测的是”被意识到的负荷”,意识不到的那部分它抓不到。

本节坚持的边界与赌注:

我赌的是:对绝大多数产品迭代场景,RTLX + 绩效指标的信噪比已经够用——你要的不是负荷的真值,而是”新版比旧版高还是低”的方向判断,而方向判断对回顾性偏差和个体漂移的鲁棒性远高于绝对值。
边界(failure scenario):在高风险、低容错领域(医疗诊断 AI、自动驾驶接管界面、金融风控),主观量表不够,必须上生理测量或更严的双任务范式。这些场景里,用户”没意识到的负荷”恰恰是事故的来源,而那正是 TLX 的盲区。
第二个 failure scenario:当被试知道自己在被测、且知道哪个是”新版”时,会产生需求特征(demand characteristics)——倾向于给新版打更友好的分。务必做盲化或至少不暗示哪版是主推。

§6 跨域呼应:测量行为本身会改变被测对象

调度科学哲学里的操作主义(operationism)与社会科学的反身性(reflexivity)。

P.W. Bridgman 的操作主义主张”一个概念的意义就是测量它的那套操作”——把这条用在”认知负荷”上会得到一个不安的结论:“认知负荷”不是一个先于测量存在的客观物,而是被 NASA-TLX 这套操作定义出来的东西。 换个量表(Paas 单维量表 vs TLX 六维),你测到的”负荷”就是不同的构念。这逼出 PM 的认识论自觉:你报告的不是”用户的认知负荷”,而是”用 RTLX 这把尺子量出来的某个数”,换尺子结论可能翻转。

更进一层是反身性:测量动作会反作用于被测对象。让用户中途停下来填 TLX,这个打断本身就增加了负荷、改变了他对任务的体验记忆。这与 0114认识论里”观察者不能从被观察系统中抽身”是同一个问题。对 PM 的落地纪律:把 TLX 放在任务完成之后而非过程之中;承认你的数字带着测量工具的指纹,在报告里写明用了哪个版本、什么时点、如何计分——让别人能复现,这才是出版级的接地(呼应本宪章 §8 grounding 纪律)。

[!note] Rick 未读对手框架引入这里引入的操作主义/反身性,不是为了显得有学问,而是为了挡住一个具体的产品错误:把单次 TLX 数字当成”用户真实状态”上 OKR。一旦你接受”负荷是被测量操作定义出来的”,你就不会再用一个绝对数字去拍板,而会去看不同操作下结论是否稳健——这是 echo chamber 的反义词。

§7 PM 决策启示:面试 / 选型 / 复现三类落地

面试怎么用: 当面试官问”你怎么评估一个 AI 功能的体验”,不要答”看满意度”。答:“我会拆成绩效(任务时间+分两种的错误率+放弃率)和主观(RTLX 六维)两条线做 A/B,被试内+顺序平衡,n=5–8 先抓严重问题;关键是看两条线打不打架——如果新版主观负荷降了但接受 AI 错误率升了,我会判定这是更危险的版本,而不是更好的。“——这一句”打架判断”直接把你和背 framework 的候选人区分开。
选型怎么用: 评估两个 AI 供应商的交互方案时,用同一套任务跑 RTLX + 绩效对比,而不是听 demo 的爽感。Demo 测的是峰值惊艳,RTLX+ToT 测的是日常负荷,后者才决定留存。
复现怎么用: 用本节末尾的模板,任何人拿到你的报告(任务脚本+计分法+时点+样本)都能复跑出可比数字。不可复现的体验测量等于没测。

§8 与已有节点的关系(升级对照,不复述)

对照 0418 审阅瓶颈(认知负荷)节点:做了”深化 + 操作化”。 0418 把”认知负荷”指认为 AI 审阅的核心瓶颈(读懂并核验 AI 输出比生成更累),是问题诊断;本节是把那个瓶颈变成可测量的数字——0418 说”审阅很累”,R01 说”这是你测’有多累、降了没’的具体方法与模板”。诊断 → 仪器。
对照 c01 - 认知重构：从确定性系统到概率系统:做了”测量层落地”。 c01 论证 AI 是概率系统、输出不确定;本节回答”那种不确定性给用户造成的额外审查负荷,具体怎么量”——把 c01 的认识论命题接到工效学仪表盘上。
对照 p302 - 七种 AI 交互设计模式 / p303 - 克服空白画布综合症 / p304 - 防御性 UX：对抗延迟与幻觉 / p305 - 信任架构与可解释性设计:做了”验证回路”。 p3xx 是设计模式(该怎么设计),本节是度量手段(设计完怎么验证它真降了负荷)。p303 的渐进式揭示、p304 的流式输出,都声称降低认知负荷——R01 给的就是检验这些声称是否兑现的尺子。本专题是 p3xx 的认知科学底座,R01 是这个底座里负责”对账”的那一节。

§9 关联节点

核心(必读)

c01 - 认知重构：从确定性系统到概率系统 — 为什么概率系统给用户加了审查负荷
p304 - 防御性 UX：对抗延迟与幻觉 — 流式/降级等”降感知负荷”设计,本节负责验证
p305 - 信任架构与可解释性设计 — 校准信任 vs 最大化信任,对应”校准负荷而非最小化负荷”
幻觉 — 接受 AI 错误率指标的源头
本专题:Sweller 认知负荷理论(CLT)三分法节点、Kahneman 双系统节点、认知偏差(锚定/自动化偏差)节点

延伸(可选)

p302 - 七种 AI 交互设计模式
p303 - 克服空白画布综合症
A04 心智模型形成·概率系统 vs 确定系统 — 学习曲线导致负荷衰减的机制
0114认识论 — 操作主义与反身性
Agent — 多步 Agent 界面的负荷测量更复杂(异步、长程)
AI PM 知识图谱·总索引

§10 可直接复用的测量模板

模板 A:任务脚本(填空即用)

界面版本:____(A=旧版 / B=新版)
被试编号:____    时点:____(首次 / 第 N 次使用)
任务描述(给用户的原话,务必两版完全一致):
  "请用这个 AI 助手,完成 ________。完成后告诉我'好了'。"
开始时间戳:____    结束时间戳:____
任务时间 ToT(秒)= 结束 − 开始 = ____
是否完成:□是 □否(放弃) ← 放弃也要记录,计入放弃率
操作错误次数(点错/填错/误解界面):____
接受 AI 错误输出次数(把幻觉/错建议当对的):____
观察记录(卡在哪一步、什么时候叹气):____________________

模板 B:RTLX 问卷(任务完成后立即填,0–100)

请就刚才这个任务给每一项打 0–100 分:
1. 脑力需求(要多费脑筋思考/记忆/判断)        ____
2. 时间压力(节奏紧迫、被催促的感觉)            ____
3. 努力程度(为做好它付出了多少)                ____
4. 挫败感(烦躁、气馁、受挫)                    ____
5. 体力需求(身体上的投入)                      ____
6. 绩效自评(你觉得自己完成得多好,100=极好)    ____   ⚠️计分时反向

RTLX 总分 = (脑力 + 时间 + 努力 + 挫败 + 体力 + (100 − 绩效)) / 6
注:此为 Raw TLX(未加权);若做加权版,需另跑 15 次两两比较得权重。

模板 C:结论判读决策表(本模板的灵魂)

主观(RTLX)	客观(ToT/错误率)	判读	PM 动作
新版↓	新版↓(更快更准)	真改进	发版,记录 win
新版↓	接受 AI 错误↑	危险的”假改进”	不发,可能过度降低了审查;加减速点
新版↑	新版↓	学习曲线未走完 / 内在负荷暴露	补测第 N 次;查是不是首次惩罚
新版↓	ToT 不变或↑	优化的是感知而非客观效率	看场景:留存导向可接受,效率导向不够
两者矛盾且稳定	—	主观≠客观,这是发现不是噪声	追问机理,别抹平

末节(本节落点):主观负荷 ≠ 客观表现

请把这一条贴在测量报告的第一页:用户报告的”轻松”,和用户实际的”表现好”,是两件经常对不上的事——而那个对不上,才是 AI PM 最该读懂的信号。

这不是测量误差,是结构性现象,至少有四个机理在 AI 界面里被放大:

流畅性错觉(fluency illusion): AI 界面太顺滑,用户感觉”毫不费力”,于是 RTLX 很低——但低负荷恰恰来自放弃了审查。Beck et al.(2025, arXiv:2509.08514,N=2,784,已核实)的实验给出了这个机理的实证:降低参与摩擦反而提高了对错误建议的接受率。主观轻松 = 客观更易出错,在这里是正相关,不是反相关。
峰终定律污染回顾: TLX 是事后填的,一个惊艳的最终结果会让用户回忆整个过程都”不累”(Kahneman 的 peak-end rule)。主观分被结果好坏染色,而客观时间/错误是过程中实打实留下的。
感知优化 ≠ 效率优化: 流式输出(p304)让等待”感觉变短”,时间压力维下降,但客观完成时间可能没动。你优化了 RTLX,KPI 上的效率却没变——两条线必然分叉。
意识不到的负荷: TLX 只能测”被意识到的”负荷;自动化偏差最危险的部分恰恰是用户没意识到自己放松了警惕。主观量表对这部分系统性失明,这是它的结构性盲区,也是为什么高风险场景必须补生理测量(§5 边界)。

所以,永远别用单一数字下结论,永远把主观和客观并排放,当它们打架时——停下来,那里有金子。 一个让用户”觉得轻松但实际更易出错”的 AI 界面,在 RTLX 上会得高分,在产品上是个定时炸弹。测量的终极目的不是把负荷降到最低,而是把负荷校准到”用户既不疲于审查、也不疏于审查”的那个区间——这与 p305 - 信任架构与可解释性设计的”校准信任而非最大化信任”是同一条原则的两面。

[!warning] 一句话带走低 NASA-TLX 不是胜利,主观负荷与客观表现一致地变好才是。它们打架时,信号在打架本身里。

修订日志

R1(2026-06-07):首稿。建立”绩效+主观”双线框架,三件套(ToT/错误率/RTLX)操作定义,五点判断主轴,三份可复用模板,末节落”主观≠客观”四机理。事实接地:NASA-TLX 出处(Hart & Staveland 1988)、Skitka et al. 1999、Beck et al. 2025(arXiv:2509.08514,N=2,784)均依据专题简报已核实来源;Nielsen n=5 经验法则标注为”发现率而非显著性”;peak-end rule 归 Kahneman。待核实项:Hart 2006 回顾论文的精确被引数(文中仅写”数千次”,未给确数,已规避)。