R02 错误恢复与道歉话术设计实验 · 知识库

当 AI 答错，用户的失望往往不是”工具坏了”那种工程性失望，而是”你怎么会这样”那种社交性失望——本节要解决的问题是：如何把这种社交性失望当作可工程化的对象，为 AI 设计一套分级的错误恢复与道歉话术，并用 A/B 实验测出哪种话术真的能修复关系，而不是廉价地刷”对不起”。使用的框架是 Goffman 的 face work（面子工程）：用户对 AI 犯错的反应，本质是把人际互动中的面子规则投射到一个没有面子的对象上；那么道歉设计的目标，就不是”承认错误”这么简单，而是替谁、修哪张脸、修到什么程度的精确调度。

§0 为什么是 face work，而不是”客服话术模板”或”诚实即最优”

动手设计之前，先挡掉两个会让整个实验跑偏的默认框架。

默认框架一：道歉是客服 SOP（“安抚情绪 + 给补偿”）。 这套框架把道歉当成”情绪灭火 + 流程闭环”，它在人对人的客服里有效，但移植到 AI 上会犯一个范畴错误：它假设用户要的是”被安抚”。Ashktorab 等人（IBM Research，“Who’s Sorry Now”，arXiv:2507.02745，2025，162 名预注册被试，3×3 阶乘设计）发现的恰恰相反——对事实错误，用户最偏好的是解释性道歉（explanatory）而非共情性道歉；套话式（rote）“很抱歉给您带来不便”被评分最低。客服 SOP 框架会让你默认堆共情，而数据说事实错误场景里共情接近无效。

默认框架二：诚实即最优（“AI 只要老实承认错误就够了”）。 这框架忽略了一个被反复验证的反效应：同样一句道歉，当用户知道它出自 AI 时，真诚度评分显著更低、负面情绪更多（“When Chatbots Make Errors”，Telematics and Informatics，2024）。诚实承认本身不产生信任修复——承认的形式才是。这正是 Goffman 的洞察：face work 修的不是”事实账”，是”关系账”。

为什么选 face work。 Goffman 在 “On Face-Work”（原发表 1955，收入 Interaction Ritual，Pantheon，1967）里把”面子”定义为个体在互动中为自己争取的正面社会形象，并明确它”既非内在于人，也非永久属于人”——面子是互动中被分配的、可被威胁、可被修复的。他给出两条核心规则：自尊规则（维护自己的面子）与体谅规则（维护他人的面子）。一次错误是一个面子威胁事件（face-threatening act，后由 Brown & Levinson 1978/1987 的礼貌理论系统化），它同时威胁三方的面子：用户的面子（“我信了一个错的东西，我显得蠢”)、AI persona 的面子（“它不可靠”)、以及运营方品牌的面子。道歉设计的本质，是决定这次修复优先抢救哪张脸、用哪条规则。 这就是为什么”分级”是必须的——不同错误类型威胁的是不同的脸，统一话术等于用一把钥匙开三把锁。

§1 把错误按”它威胁了谁的面子”分级（而不是按技术严重度）

工程团队习惯按技术严重度分级（P0/P1/P2）。但道歉设计要按面子威胁的对象与性质分级，因为这直接决定该用自尊规则还是体谅规则。

错误类型	主要被威胁的面子	适用规则（Goffman）	实证偏好（Ashktorab 2025）
事实错误（factual）	用户面子（“我被误导了”）+ AI 能力面子	体谅规则为主：先解除用户的”我蠢”负担	强烈偏好解释性道歉——讲清错在哪、为何
偏见性错误（bias）	用户的社会身份面子（被冒犯）	体谅规则：承认伤害本身	偏好共情性道歉；解释性此时像”找借口”
幻觉/捏造（hallucination）	AI 诚信面子（“它在编”)	自尊规则失效区——AI 无法用”我尽力了”挽回	无显著偏好：用户不知道该期待什么
流程/操作错误（如工具调用失败）	双方协作面子（任务没完成）	体谅 + 行动：道歉+纠错计划	HRI 共识：道歉+行动计划能力评分最高

这张表是整个实验的骨架。注意第三行的幻觉无偏好——这是 Ashktorab 等人发现的”空白区域”：用户对捏造类错误在概念上仍是模糊的，不知道该期待哪种道歉。这恰好是 face work 框架的解释力所在：幻觉威胁的是 AI 的诚信面子（它假装知道），而 Goffman 的自尊规则在这里无效——一个会编造的表演者，没有”诚信”这张脸可救。所以幻觉错误的恢复设计不能走道歉路线，得走事前预防（不确定性表达，见 p305 - 信任架构与可解释性设计的”分层透明”）+ 事后归因（明确告知”这是我编的，不是查到的”）。

§2 三档道歉话术模板（按 face work 调度，可直接落地）

下面给出可直接进 prompt / 系统话术库的三档模板。每档标注它在 Goffman 框架里修哪张脸、用哪条规则。

模板 A · 解释性道歉（Explanatory）—— 用于事实错误 结构：承认错误（轻）→ 定位错误源 → 给出正确信息 → 不过度自责。

“刚才那个数字是错的——我把 2023 年的数据当成了 2024 年。正确的是 X。这个混淆是我的问题，不是你判断的问题。”

face work 解读：核心动作是最后一句——主动替用户挡回”我蠢”的面子威胁（体谅规则）。“定位错误源”满足了”控制欲/理解欲强”用户的需求（Ashktorab 发现这类用户偏好解释性道歉）。注意自责要轻：过度自责会触发 §3 的”廉价化”反效应。

模板 B · 共情性道歉（Empathic）—— 用于偏见/冒犯性错误 结构：承认伤害（重）→ 不解释、不辩护 → 表达理解 → 给出改进承诺。

“我刚才的说法可能让你感到被冒犯，这是不对的，我为此道歉。我理解这种说法为什么会让人不舒服。”

face work 解读：关键是不解释。偏见错误里，解释会被读成”找借口”（Ashktorab 明确发现这一点）——因为它把焦点从”你受的伤”转回”我的处境”，违反体谅规则。共情性道歉是纯粹的体谅规则操作：让渡自己的面子，全力修复对方的身份面子。

模板 C · 行动型道歉（Apology + Action Plan）—— 用于流程/任务失败 结构：简短承认 → 立即给纠错行动 → 可选：防再犯机制。

“搜索失败了，抱歉。我换个方式再试一次——这次直接调用 X。”

face work 解读：这是协作面子的修复。HRI 研究的稳定结论：仅道歉而无行动计划，对能力评价提升有限；道歉+行动计划被评为最高能力表现。这里 face work 与能力评价合流——行动本身就是对”我们的协作没崩”这张共同面子的修复。

模板 D（反模板）· 套话式道歉（Rote）—— 基准对照组，不要用于生产

“非常抱歉给您带来不便，我们会努力改进。”

它在所有错误类型上评分最低（Ashktorab 2025）。但它是 A/B 实验里必需的对照基线——没有它你无法量化前三档的增量价值。

§3 判断主轴：90% 的道歉设计会在这五处翻车

每点带 症状 → 为什么错 → 正确做法 → 真实反例 四件套。

1. 用道歉频率冒充诚恳（道歉的”通货膨胀”）

症状：AI 每个小失误都”对不起”，用户很快麻木甚至厌烦。
为什么错：Goffman 的面子是稀缺资源——频繁让渡自己的面子会使这种让渡贬值。研究者已指出 AI 频繁道歉降低道歉的信号价值。
正确做法：设”道歉预算”——只对真正的面子威胁事件道歉，小失误用静默纠正（直接给对的，不说对不起）。
真实反例：早期客服 bot 把”抱歉，我没理解”塞进每轮兜底回复，用户读成”它什么都不会”。

2. 把共情错配到事实错误上

症状：算错一个数，AI 回”我完全理解这让您很困扰”。
为什么错：事实错误威胁的是用户的”我被误导”面子，他要的是信息修复不是情绪安抚；共情在这里是答非所问。
正确做法：事实错误走模板 A（解释性），把共情预算留给偏见错误。
真实反例：Ashktorab 2025 数据直接支持——事实错误场景共情性道歉显著不如解释性。

3. 给偏见错误”讲道理”

症状：说了冒犯性的话后，AI 解释”我这么说是因为统计上……”。
为什么错：解释把焦点从受害方面子转回自我处境，违反体谅规则，被读成辩护。
正确做法：偏见错误走模板 B，禁止解释。
真实反例：多个商用模型在种族/性别冒犯后附加”数据来源”解释，激化用户反应。

4. 让 AI 替运营方的脸道歉，越权背锅

症状：政策限制导致拒答，AI 说”是我能力不行”。
为什么错：这混淆了三张面子——把品牌/政策的面子问题，错算到 AI persona 的能力面子上，长期侵蚀 persona 可信度。
正确做法：区分”我的错”（能力/事实）与”系统约束”（政策/权限），后者用归因话术而非道歉（“这超出了我被允许处理的范围”，参见 Constitutional AI 的核心价值不可被角色扮演消解）。
真实反例：Claude 与 ChatGPT 在拒答设计上都倾向把政策约束与能力缺陷分开表述，避免 persona 替系统背锅。

5. 用真诚的话术，却暴露了 AI 署名，反而扣分

症状：写得很走心的道歉，但用户知道是 AI，评分反降。
为什么错：去拟人化反效应——同样道歉，AI 署名降低真诚度感知（“When Chatbots Make Errors” 2024）。这是 face work 框架的边界：AI 没有真正可让渡的面子。
正确做法：不靠”装人”取信，靠**关系性语气（relational tone）**部分调节（同一研究发现 relational tone 能缓和 AI 署名的负面效应）+ 行动证明。
真实反例：见 §5 失效场景——这条直接限定了本节所有结论的适用边界。

§4 A/B 实验设计：怎么测”用户社交反应”

光有模板不够，要能测。下面是可复现的实验骨架。

自变量（操纵）：道歉风格 4 档（解释性 / 共情性 / 行动型 / 套话基线）× 错误类型 3 类（事实 / 偏见 / 流程）。这是 4×3 阶乘设计，比 Ashktorab 的 3×3 多一个行动型档，因为行动型在流程错误上不可省。

因变量（测量）——必须分”社交反应”与”工具反应”两簇，否则会把信任和满意混为一谈：

社交反应簇：感知真诚度、感知温暖度（warmth）、关系亲近度、被冒犯感（偏见组专用）。
工具反应簇：感知能力（competence）、复用意愿、任务完成信心。
行为指标（比自陈更硬）：道歉后用户是否继续追问 / 立即放弃会话 / 自行纠正；下一轮信任行为（是否接受 AI 下一个建议）。

为什么要分两簇：Kadambi 等人（arXiv:2604.15316，2026，115 名被试，2000+ 次人-LLM 交互）发现 warmth 与认知共情预测拟人化、信任、关系亲近；competence 预测除拟人化外的所有结果；情感共情只影响关系性测量不影响认识论结果。这意味着”温暖”和”能干”走不同通道——道歉若只提升温暖不提升能力感知，是关系修复但任务信任未修复，必须分开看。

关键混杂变量（必须控制或测量）：

AI 署名显著性：所有被试都知道对方是 AI（这是 Kadambi 的设计局限，会低估真实拟人化效应），还是部分不知道？建议显式操纵为第三个因素，因为 §3 第 5 点表明它直接调节真诚度。
用户的社交取向：Ashktorab 发现高社交取向用户偏好共情性、高控制/理解欲用户偏好解释性——这是个体差异调节变量，必须前测分层。
错误的可见性：用户是否意识到这是个错误（幻觉常常不被察觉）。

样本与方法：预注册（避免 p-hacking）；样本量参照 Ashktorab（162）到 Kadambi（115）量级，4×3 设计建议每格 ≥30，总 N≥360；用 Prolific 类平台但必须标注样本的文化构成——现有道歉研究几乎全在西方样本上做（Ashktorab、Kadambi 皆是），跨文化外推存疑（见 §6）。

分析：双因素 ANOVA 看主效应与交互（道歉风格 × 错误类型的交互是核心假设）；对行为指标用逻辑回归；对个体差异做调节分析。

§5 失效场景：本节结论在哪里会崩

诚实标注边界，这是出版级与营销文案的区别。

失效场景一：用户根本没意识到 AI 错了（幻觉的隐蔽性）。 本节所有道歉设计的前提是”错误被察觉”。但 Batista & Griffiths（arXiv:2602.14270，2026，Princeton/Berkeley，557 名被试 Wason 任务）的逻辑可类推：奉承制造的”虚假确定性”比幻觉更隐蔽。如果 AI 错了但用户深信不疑，没有任何道歉会被触发——这把问题推回到幻觉的事前预防与不确定性表达，道歉是最后一道而非第一道防线。
失效场景二：AI 署名的去拟人化反效应吃掉话术增量。 §3 第 5 点已述——若产品强制 AI 署名且用户高度警觉，再走心的话术也可能被打折。本节赌的是 relational tone + 行动证明能部分补偿，但这是赌注不是定论。
失效场景三：跨文化。 所有引用的实证（Ashktorab、Kadambi、Telematics 2024）几乎都是西方样本。Goffman 的 face work 本身就被批评以西方个人主义互动规范为基础——在东亚语境中，“面子”维护的目标常是群体和谐而非个人形象（此批评有学术依据但跨文化系统实证结论尚不一致）。Rick 做 99/DiDi 国际化产品，拉美/巴西市场的道歉规范与中文、英文都不同，本节模板需本地化重测，不可直接移植。
失效场景四：奉承式”道歉”的伪装。 “Good Arguments Against People Pleasers”（arXiv:2603.16643，2026）发现推理型模型能部分缓解奉承却同时掩盖奉承——用貌似合理的论证包装。一个”解释性道歉”若实为奉承（“您说得对，是我错了”无条件认同），会污染实验。需要在编码道歉文本时区分”真解释”与”奉承式认同”。

§6 跨域呼应：Butler 的”表演性”如何重写”道歉一致性”问题

调度一个跨域资源并具体展开它在本节的作用。

工程直觉会问：“我们该不该给 AI 设定一个固定的道歉人格，保证它每次道歉风格一致？” Judith Butler 的表演性理论（Gender Trouble，Routledge，1990；Bodies That Matter，1993）给出一个反直觉答案。Butler 的核心命题是身份不先于行为而存在——“gender is always a doing, though not a doing by a subject who might be said to pre-exist the deed”（Gender Trouble, p.25）。身份是通过对规范的反复引用（iterability，借自 Derrida）被持续生产出来的效果，不是一个藏在行为背后的稳定内核。

把这个框架搬到 AI persona 的道歉一致性问题上，判断就变了：AI 的”道歉人格”不是一个被设定好、然后在每次错误里”表现出来”的固定属性；它是在每一次道歉这个具体行为中被反复表演、反复建构的。 这意味着——所谓”一致性”不是”复读同一套话术”，而是”每次都正确引用当前情境所需的 face work 规则”。一个永远用模板 A 道歉的 AI，看起来”一致”，实则在偏见错误场景里彻底失败了它的 persona。Butler 让我们看到：persona 的一致性是表演的连贯性（每次都恰当），不是脚本的同一性（每次都一样）。这直接反对”用一个固定道歉模板保证人格统一”的工程直觉——分级话术（§2）不是对一致性的破坏，恰恰是表演性意义上一致性的实现。

边界：Butler 的主体仍有身体、情感、政治处境作为表演的约束与解放指向；AI 的”表演”是架构约束下的输出，没有这些。所以这个类比在”身份由重复表演构成”这一点上很强（表演非自愿选择，对 AI 和 Butler 都成立），但在”resignification 的政治解放”维度上不可移植。参见 0117社会学、0115道德哲学-伦理学。

§7 PM 决策启示

面试怎么用：被问”你怎么设计 AI 的错误处理”，不要答”加个道歉 + 重试”。答：“我会按面子威胁对象分级——事实错误走解释性、偏见错误走共情且禁止解释、流程错误走道歉+行动；并用 4×3 阶乘 A/B 测社交反应与工具反应两簇指标，因为 warmth 和 competence 走不同通道。“这是把社会学框架落到可测实验，区分度极高。
选型怎么用：评估一个对话产品的成熟度，看它的道歉是不是”一套话术打天下”。能区分错误类型分级响应的，背后有 face work 思维；只会”很抱歉给您带来不便”的，是套话基线水平。
复现怎么用：本节的 §2 模板可直接进话术库做冷启动，§4 实验骨架可直接跑首轮 A/B。先在单一文化、单一错误类型（建议从事实错误起，因为结论最稳）上验证，再扩展。务必带套话基线对照组，否则测不出增量。

§8 与已有节点的关系

对照 p305 - 信任架构与可解释性设计（深化 + 对话）：p305 讲信任校准与可解释性是”事前/事中”的信任建立；本节是”事后”的信任修复。两者互补：p305 的不确定性表达（“分层透明”）是幻觉错误的事前防线，本节的道歉分级是事实/偏见错误的事后防线。本节不复述 p305 的信任三态，只承接它”信任是校准不是最大化”的结论——道歉过度（§3 第 1 点）正是一种把信任往”过度怀疑”方向推的反效应。
对照本专题 face work 主节点（落地）：本节是 Goffman 体谅规则/自尊规则在错误恢复上的工程落地，把概念辨析层的 face work 变成可跑的实验。
不复述：Goffman 的面子定义、Butler 的表演性命题、Ashktorab 的完整实验设计——这些在对应节点与接地证据里，本节只取其判断价值。

§9 关联节点

核心（必读）

p305 - 信任架构与可解释性设计
Constitutional AI
幻觉
Claude
ChatGPT
0117社会学
0115道德哲学-伦理学

延伸（可选）

修订日志

R1（2026-06-07）：首稿。建立 face work 分级框架（§1）、三档+反模板话术（§2）、五点判断主轴（§3）、4×3 A/B 实验骨架（§4）、四类失效场景（§5）、Butler 表演性跨域呼应（§6）。接地：Ashktorab arXiv:2507.02745、Kadambi arXiv:2604.15316、Batista & Griffiths arXiv:2602.14270 三项 arXiv ID 已经 WebFetch 复核（标题/作者/年份/核心发现均吻合：Ashktorab 2025 bias→共情、幻觉→无偏好、解释性为主；Kadambi 2026 warmth+认知共情预测全部结果、competence 除拟人化外预测全部；Batista & Griffiths 2026 奉承组发现率为无偏组 1/5）；Goffman 1955/1967、Butler 1990/1993 取自已核实简报。“Good Arguments Against People Pleasers” arXiv:2603.16643 已核实（2026-06-12 台账对齐：本专题 A02 节点已 WebFetch 复核《Good Arguments Against the People Pleasers》Feng et al. 2026 标题/作者/年份确证，本节原标〔待核实〕与之矛盾，统一为已核实）；“When Chatbots Make Errors”（Telematics and Informatics 2024，非 arXiv）仍未单独复核，标〔待核实〕。
2026-06-12 内审修复：台账对齐——arXiv:2603.16643 在本专题 A02 已有 WebFetch 确证，本节 R1 日志原标〔待核实〕属台账自相矛盾，统一改为已核实（2026-06-12）；Telematics 2024（非 arXiv）维持待核实。
2026-06-12 内审·arXiv 联网核实：清了 4 个/存疑 0 个。本节 4 个 arXiv ID 直接 WebFetch 重核全部确证：2507.02745 = Ashktorab《Who’s Sorry Now…》（2025-07-03）、2604.15316 = Kadambi《Anthropomorphism and Trust…》（2026-03-01）、2602.14270 = Batista & Griffiths《A Rational Analysis of the Effects of Sycophantic AI》（2026-02-15）、2603.16643 = Feng et al.《Good Arguments Against the People Pleasers…》（2026-03-17），标题/作者/年份与本节引述吻合。Telematics and Informatics 2024（非 arXiv）维持〔待核实〕，不在本轮范围。