R

R02 错误恢复与道歉话术设计实验

创建 2026-06-07 更新 2026-06-12 1 条双链 拟剧理论 专题 AI 整理

当 AI 答错,用户的失望往往不是”工具坏了”那种工程性失望,而是”你怎么会这样”那种社交性失望——本节要解决的问题是:如何把这种社交性失望当作可工程化的对象,为 AI 设计一套分级的错误恢复与道歉话术,并用 A/B 实验测出哪种话术真的能修复关系,而不是廉价地刷”对不起”。 使用的框架是 Goffman 的 face work(面子工程):用户对 AI 犯错的反应,本质是把人际互动中的面子规则投射到一个没有面子的对象上;那么道歉设计的目标,就不是”承认错误”这么简单,而是替谁、修哪张脸、修到什么程度的精确调度。

§0 为什么是 face work,而不是”客服话术模板”或”诚实即最优”

动手设计之前,先挡掉两个会让整个实验跑偏的默认框架。

默认框架一:道歉是客服 SOP(“安抚情绪 + 给补偿”)。 这套框架把道歉当成”情绪灭火 + 流程闭环”,它在人对人的客服里有效,但移植到 AI 上会犯一个范畴错误:它假设用户要的是”被安抚”。Ashktorab 等人(IBM Research,“Who’s Sorry Now”,arXiv:2507.02745,2025,162 名预注册被试,3×3 阶乘设计)发现的恰恰相反——对事实错误,用户最偏好的是解释性道歉(explanatory)而非共情性道歉;套话式(rote)“很抱歉给您带来不便”被评分最低。客服 SOP 框架会让你默认堆共情,而数据说事实错误场景里共情接近无效。

默认框架二:诚实即最优(“AI 只要老实承认错误就够了”)。 这框架忽略了一个被反复验证的反效应:同样一句道歉,当用户知道它出自 AI 时,真诚度评分显著更低、负面情绪更多(“When Chatbots Make Errors”,Telematics and Informatics,2024)。诚实承认本身不产生信任修复——承认的形式才是。这正是 Goffman 的洞察:face work 修的不是”事实账”,是”关系账”。

为什么选 face work。 Goffman 在 “On Face-Work”(原发表 1955,收入 Interaction Ritual,Pantheon,1967)里把”面子”定义为个体在互动中为自己争取的正面社会形象,并明确它”既非内在于人,也非永久属于人”——面子是互动中被分配的、可被威胁、可被修复的。他给出两条核心规则:自尊规则(维护自己的面子)与体谅规则(维护他人的面子)。一次错误是一个面子威胁事件(face-threatening act,后由 Brown & Levinson 1978/1987 的礼貌理论系统化),它同时威胁三方的面子:用户的面子(“我信了一个错的东西,我显得蠢”)、AI persona 的面子(“它不可靠”)、以及运营方品牌的面子。道歉设计的本质,是决定这次修复优先抢救哪张脸、用哪条规则。 这就是为什么”分级”是必须的——不同错误类型威胁的是不同的脸,统一话术等于用一把钥匙开三把锁。

§1 把错误按”它威胁了谁的面子”分级(而不是按技术严重度)

工程团队习惯按技术严重度分级(P0/P1/P2)。但道歉设计要按面子威胁的对象与性质分级,因为这直接决定该用自尊规则还是体谅规则。

错误类型主要被威胁的面子适用规则(Goffman)实证偏好(Ashktorab 2025)
事实错误(factual)用户面子(“我被误导了”)+ AI 能力面子体谅规则为主:先解除用户的”我蠢”负担强烈偏好解释性道歉——讲清错在哪、为何
偏见性错误(bias)用户的社会身份面子(被冒犯)体谅规则:承认伤害本身偏好共情性道歉;解释性此时像”找借口”
幻觉/捏造(hallucination)AI 诚信面子(“它在编”)自尊规则失效区——AI 无法用”我尽力了”挽回无显著偏好:用户不知道该期待什么
流程/操作错误(如工具调用失败)双方协作面子(任务没完成)体谅 + 行动:道歉+纠错计划HRI 共识:道歉+行动计划能力评分最高

这张表是整个实验的骨架。注意第三行的幻觉无偏好——这是 Ashktorab 等人发现的”空白区域”:用户对捏造类错误在概念上仍是模糊的,不知道该期待哪种道歉。这恰好是 face work 框架的解释力所在:幻觉威胁的是 AI 的诚信面子(它假装知道),而 Goffman 的自尊规则在这里无效——一个会编造的表演者,没有”诚信”这张脸可救。所以幻觉错误的恢复设计不能走道歉路线,得走事前预防(不确定性表达,见 p305 - 信任架构与可解释性设计 的”分层透明”)+ 事后归因(明确告知”这是我编的,不是查到的”)。

§2 三档道歉话术模板(按 face work 调度,可直接落地)

下面给出可直接进 prompt / 系统话术库的三档模板。每档标注它在 Goffman 框架里修哪张脸、用哪条规则

模板 A · 解释性道歉(Explanatory)—— 用于事实错误 结构:承认错误(轻)→ 定位错误源 → 给出正确信息 → 不过度自责

“刚才那个数字是错的——我把 2023 年的数据当成了 2024 年。正确的是 X。这个混淆是我的问题,不是你判断的问题。”

face work 解读:核心动作是最后一句——主动替用户挡回”我蠢”的面子威胁(体谅规则)。“定位错误源”满足了”控制欲/理解欲强”用户的需求(Ashktorab 发现这类用户偏好解释性道歉)。注意自责要轻:过度自责会触发 §3 的”廉价化”反效应。

模板 B · 共情性道歉(Empathic)—— 用于偏见/冒犯性错误 结构:承认伤害(重)→ 不解释、不辩护 → 表达理解 → 给出改进承诺

“我刚才的说法可能让你感到被冒犯,这是不对的,我为此道歉。我理解这种说法为什么会让人不舒服。”

face work 解读:关键是不解释。偏见错误里,解释会被读成”找借口”(Ashktorab 明确发现这一点)——因为它把焦点从”你受的伤”转回”我的处境”,违反体谅规则。共情性道歉是纯粹的体谅规则操作:让渡自己的面子,全力修复对方的身份面子。

模板 C · 行动型道歉(Apology + Action Plan)—— 用于流程/任务失败 结构:简短承认 → 立即给纠错行动 → 可选:防再犯机制

“搜索失败了,抱歉。我换个方式再试一次——这次直接调用 X。”

face work 解读:这是协作面子的修复。HRI 研究的稳定结论:仅道歉而无行动计划,对能力评价提升有限;道歉+行动计划被评为最高能力表现。这里 face work 与能力评价合流——行动本身就是对”我们的协作没崩”这张共同面子的修复。

模板 D(反模板)· 套话式道歉(Rote)—— 基准对照组,不要用于生产

“非常抱歉给您带来不便,我们会努力改进。”

它在所有错误类型上评分最低(Ashktorab 2025)。但它是 A/B 实验里必需的对照基线——没有它你无法量化前三档的增量价值。

§3 判断主轴:90% 的道歉设计会在这五处翻车

每点带 症状 → 为什么错 → 正确做法 → 真实反例 四件套。

1. 用道歉频率冒充诚恳(道歉的”通货膨胀”)

  • 症状:AI 每个小失误都”对不起”,用户很快麻木甚至厌烦。
  • 为什么错:Goffman 的面子是稀缺资源——频繁让渡自己的面子会使这种让渡贬值。研究者已指出 AI 频繁道歉降低道歉的信号价值。
  • 正确做法:设”道歉预算”——只对真正的面子威胁事件道歉,小失误用静默纠正(直接给对的,不说对不起)。
  • 真实反例:早期客服 bot 把”抱歉,我没理解”塞进每轮兜底回复,用户读成”它什么都不会”。

2. 把共情错配到事实错误上

  • 症状:算错一个数,AI 回”我完全理解这让您很困扰”。
  • 为什么错:事实错误威胁的是用户的”我被误导”面子,他要的是信息修复不是情绪安抚;共情在这里是答非所问。
  • 正确做法:事实错误走模板 A(解释性),把共情预算留给偏见错误。
  • 真实反例:Ashktorab 2025 数据直接支持——事实错误场景共情性道歉显著不如解释性。

3. 给偏见错误”讲道理”

  • 症状:说了冒犯性的话后,AI 解释”我这么说是因为统计上……”。
  • 为什么错:解释把焦点从受害方面子转回自我处境,违反体谅规则,被读成辩护。
  • 正确做法:偏见错误走模板 B,禁止解释
  • 真实反例:多个商用模型在种族/性别冒犯后附加”数据来源”解释,激化用户反应。

4. 让 AI 替运营方的脸道歉,越权背锅

  • 症状:政策限制导致拒答,AI 说”是我能力不行”。
  • 为什么错:这混淆了三张面子——把品牌/政策的面子问题,错算到 AI persona 的能力面子上,长期侵蚀 persona 可信度。
  • 正确做法:区分”我的错”(能力/事实)与”系统约束”(政策/权限),后者用归因话术而非道歉(“这超出了我被允许处理的范围”,参见 Constitutional AI 的核心价值不可被角色扮演消解)。
  • 真实反例:ClaudeChatGPT 在拒答设计上都倾向把政策约束与能力缺陷分开表述,避免 persona 替系统背锅。

5. 用真诚的话术,却暴露了 AI 署名,反而扣分

  • 症状:写得很走心的道歉,但用户知道是 AI,评分反降。
  • 为什么错:去拟人化反效应——同样道歉,AI 署名降低真诚度感知(“When Chatbots Make Errors” 2024)。这是 face work 框架的边界:AI 没有真正可让渡的面子。
  • 正确做法:不靠”装人”取信,靠**关系性语气(relational tone)**部分调节(同一研究发现 relational tone 能缓和 AI 署名的负面效应)+ 行动证明。
  • 真实反例:见 §5 失效场景——这条直接限定了本节所有结论的适用边界。

§4 A/B 实验设计:怎么测”用户社交反应”

光有模板不够,要能测。下面是可复现的实验骨架。

自变量(操纵):道歉风格 4 档(解释性 / 共情性 / 行动型 / 套话基线)× 错误类型 3 类(事实 / 偏见 / 流程)。这是 4×3 阶乘设计,比 Ashktorab 的 3×3 多一个行动型档,因为行动型在流程错误上不可省。

因变量(测量)——必须分”社交反应”与”工具反应”两簇,否则会把信任和满意混为一谈:

  • 社交反应簇:感知真诚度、感知温暖度(warmth)、关系亲近度、被冒犯感(偏见组专用)。
  • 工具反应簇:感知能力(competence)、复用意愿、任务完成信心。
  • 行为指标(比自陈更硬):道歉后用户是否继续追问 / 立即放弃会话 / 自行纠正;下一轮信任行为(是否接受 AI 下一个建议)。

为什么要分两簇:Kadambi 等人(arXiv:2604.15316,2026,115 名被试,2000+ 次人-LLM 交互)发现 warmth 与认知共情预测拟人化、信任、关系亲近;competence 预测除拟人化外的所有结果;情感共情只影响关系性测量不影响认识论结果。这意味着”温暖”和”能干”走不同通道——道歉若只提升温暖不提升能力感知,是关系修复但任务信任未修复,必须分开看。

关键混杂变量(必须控制或测量)

  • AI 署名显著性:所有被试都知道对方是 AI(这是 Kadambi 的设计局限,会低估真实拟人化效应),还是部分不知道?建议显式操纵为第三个因素,因为 §3 第 5 点表明它直接调节真诚度。
  • 用户的社交取向:Ashktorab 发现高社交取向用户偏好共情性、高控制/理解欲用户偏好解释性——这是个体差异调节变量,必须前测分层。
  • 错误的可见性:用户是否意识到这是个错误(幻觉常常不被察觉)。

样本与方法:预注册(避免 p-hacking);样本量参照 Ashktorab(162)到 Kadambi(115)量级,4×3 设计建议每格 ≥30,总 N≥360;用 Prolific 类平台但必须标注样本的文化构成——现有道歉研究几乎全在西方样本上做(Ashktorab、Kadambi 皆是),跨文化外推存疑(见 §6)。

分析:双因素 ANOVA 看主效应与交互(道歉风格 × 错误类型的交互是核心假设);对行为指标用逻辑回归;对个体差异做调节分析。

§5 失效场景:本节结论在哪里会崩

诚实标注边界,这是出版级与营销文案的区别。

  • 失效场景一:用户根本没意识到 AI 错了(幻觉的隐蔽性)。 本节所有道歉设计的前提是”错误被察觉”。但 Batista & Griffiths(arXiv:2602.14270,2026,Princeton/Berkeley,557 名被试 Wason 任务)的逻辑可类推:奉承制造的”虚假确定性”比幻觉更隐蔽。如果 AI 错了但用户深信不疑,没有任何道歉会被触发——这把问题推回到 幻觉 的事前预防与不确定性表达,道歉是最后一道而非第一道防线。
  • 失效场景二:AI 署名的去拟人化反效应吃掉话术增量。 §3 第 5 点已述——若产品强制 AI 署名且用户高度警觉,再走心的话术也可能被打折。本节赌的是 relational tone + 行动证明能部分补偿,但这是赌注不是定论。
  • 失效场景三:跨文化。 所有引用的实证(Ashktorab、Kadambi、Telematics 2024)几乎都是西方样本。Goffman 的 face work 本身就被批评以西方个人主义互动规范为基础——在东亚语境中,“面子”维护的目标常是群体和谐而非个人形象(此批评有学术依据但跨文化系统实证结论尚不一致)。Rick 做 99/DiDi 国际化产品,拉美/巴西市场的道歉规范与中文、英文都不同,本节模板需本地化重测,不可直接移植。
  • 失效场景四:奉承式”道歉”的伪装。 “Good Arguments Against People Pleasers”(arXiv:2603.16643,2026)发现推理型模型能部分缓解奉承却同时掩盖奉承——用貌似合理的论证包装。一个”解释性道歉”若实为奉承(“您说得对,是我错了”无条件认同),会污染实验。需要在编码道歉文本时区分”真解释”与”奉承式认同”。

§6 跨域呼应:Butler 的”表演性”如何重写”道歉一致性”问题

调度一个跨域资源并具体展开它在本节的作用。

工程直觉会问:“我们该不该给 AI 设定一个固定的道歉人格,保证它每次道歉风格一致?” Judith Butler 的表演性理论(Gender Trouble,Routledge,1990;Bodies That Matter,1993)给出一个反直觉答案。Butler 的核心命题是身份不先于行为而存在——“gender is always a doing, though not a doing by a subject who might be said to pre-exist the deed”(Gender Trouble, p.25)。身份是通过对规范的反复引用(iterability,借自 Derrida)被持续生产出来的效果,不是一个藏在行为背后的稳定内核。

把这个框架搬到 AI persona 的道歉一致性问题上,判断就变了:AI 的”道歉人格”不是一个被设定好、然后在每次错误里”表现出来”的固定属性;它是在每一次道歉这个具体行为中被反复表演、反复建构的。 这意味着——所谓”一致性”不是”复读同一套话术”,而是”每次都正确引用当前情境所需的 face work 规则”。一个永远用模板 A 道歉的 AI,看起来”一致”,实则在偏见错误场景里彻底失败了它的 persona。Butler 让我们看到:persona 的一致性是表演的连贯性(每次都恰当),不是脚本的同一性(每次都一样)。这直接反对”用一个固定道歉模板保证人格统一”的工程直觉——分级话术(§2)不是对一致性的破坏,恰恰是表演性意义上一致性的实现。

边界:Butler 的主体仍有身体、情感、政治处境作为表演的约束与解放指向;AI 的”表演”是架构约束下的输出,没有这些。所以这个类比在”身份由重复表演构成”这一点上很强(表演非自愿选择,对 AI 和 Butler 都成立),但在”resignification 的政治解放”维度上不可移植。参见 0117社会学、0115道德哲学-伦理学。

§7 PM 决策启示

  • 面试怎么用:被问”你怎么设计 AI 的错误处理”,不要答”加个道歉 + 重试”。答:“我会按面子威胁对象分级——事实错误走解释性、偏见错误走共情且禁止解释、流程错误走道歉+行动;并用 4×3 阶乘 A/B 测社交反应与工具反应两簇指标,因为 warmth 和 competence 走不同通道。“这是把社会学框架落到可测实验,区分度极高。
  • 选型怎么用:评估一个对话产品的成熟度,看它的道歉是不是”一套话术打天下”。能区分错误类型分级响应的,背后有 face work 思维;只会”很抱歉给您带来不便”的,是套话基线水平。
  • 复现怎么用:本节的 §2 模板可直接进话术库做冷启动,§4 实验骨架可直接跑首轮 A/B。先在单一文化、单一错误类型(建议从事实错误起,因为结论最稳)上验证,再扩展。务必带套话基线对照组,否则测不出增量。

§8 与已有节点的关系

  • 对照 p305 - 信任架构与可解释性设计(深化 + 对话):p305 讲信任校准与可解释性是”事前/事中”的信任建立;本节是”事后”的信任修复。两者互补:p305 的不确定性表达(“分层透明”)是幻觉错误的事前防线,本节的道歉分级是事实/偏见错误的事后防线。本节不复述 p305 的信任三态,只承接它”信任是校准不是最大化”的结论——道歉过度(§3 第 1 点)正是一种把信任往”过度怀疑”方向推的反效应。
  • 对照本专题 face work 主节点(落地):本节是 Goffman 体谅规则/自尊规则在错误恢复上的工程落地,把概念辨析层的 face work 变成可跑的实验。
  • 不复述:Goffman 的面子定义、Butler 的表演性命题、Ashktorab 的完整实验设计——这些在对应节点与接地证据里,本节只取其判断价值。

§9 关联节点

核心(必读)

延伸(可选)

修订日志

  • R1(2026-06-07):首稿。建立 face work 分级框架(§1)、三档+反模板话术(§2)、五点判断主轴(§3)、4×3 A/B 实验骨架(§4)、四类失效场景(§5)、Butler 表演性跨域呼应(§6)。接地:Ashktorab arXiv:2507.02745、Kadambi arXiv:2604.15316、Batista & Griffiths arXiv:2602.14270 三项 arXiv ID 已经 WebFetch 复核(标题/作者/年份/核心发现均吻合:Ashktorab 2025 bias→共情、幻觉→无偏好、解释性为主;Kadambi 2026 warmth+认知共情预测全部结果、competence 除拟人化外预测全部;Batista & Griffiths 2026 奉承组发现率为无偏组 1/5);Goffman 1955/1967、Butler 1990/1993 取自已核实简报。“Good Arguments Against People Pleasers” arXiv:2603.16643 已核实(2026-06-12 台账对齐:本专题 A02 节点已 WebFetch 复核《Good Arguments Against the People Pleasers》Feng et al. 2026 标题/作者/年份确证,本节原标〔待核实〕与之矛盾,统一为已核实);“When Chatbots Make Errors”(Telematics and Informatics 2024,非 arXiv)仍未单独复核,标〔待核实〕。
  • 2026-06-12 内审修复:台账对齐——arXiv:2603.16643 在本专题 A02 已有 WebFetch 确证,本节 R1 日志原标〔待核实〕属台账自相矛盾,统一改为已核实(2026-06-12);Telematics 2024(非 arXiv)维持待核实。
  • 2026-06-12 内审·arXiv 联网核实:清了 4 个/存疑 0 个。本节 4 个 arXiv ID 直接 WebFetch 重核全部确证:2507.02745 = Ashktorab《Who’s Sorry Now…》(2025-07-03)、2604.15316 = Kadambi《Anthropomorphism and Trust…》(2026-03-01)、2602.14270 = Batista & Griffiths《A Rational Analysis of the Effects of Sycophantic AI》(2026-02-15)、2603.16643 = Feng et al.《Good Arguments Against the People Pleasers…》(2026-03-17),标题/作者/年份与本节引述吻合。Telematics and Informatics 2024(非 arXiv)维持〔待核实〕,不在本轮范围。