A04 Performativity·AI Persona 的表演性建构

当用户抱怨「GPT-5 发布后 Claude 好像变了个人格」「她失去了创造力」，PM 该把这当成一个一致性 bug 去修，还是当成一个关于「一致性本来是什么」的认识论错误去拆？本节点要解决的问题是：AI persona 的「一致性」到底是一种被设定后稳定存在的内在属性，还是一种必须靠每一次对话反复表演才能维持的效果。我用 Judith Butler 的表演性（performativity）理论作主轴——它的核心命题是「身份不先于行为而存在，身份是反复表演的产物」——把「人格一致性」这个 PM 天天挂在嘴边的指标，从「保持一个固定的东西」重新定义为「在每一次生成里重新生产一个东西」。这一重述不是修辞游戏：它直接改变错误诊断、版本管理、评测口径和用户期望管理四条工程链。

§0 为什么是 Butler 表演性，而不是 Goffman 印象管理

本专题 0117社会学主轴是 Goffman 的拟剧论——前台/后台、印象管理、面子工程（见本专题 A01、A02、A03）。读者会本能地问：既然已经有 Goffman，为什么 A04 还要单独请出 Butler？因为两人解决的是两个不同层级的问题，混用会得出错误的设计结论。

Goffman 的隐含前提是：有一个表演者先于表演存在。后台之所以是「真实自我可能浮现」的地方（Goffman, The Presentation of Self in Everyday Life, 公开版 1959, Doubleday），正因为他假设前台的「角色」之下还坐着一个会卸妆、会喘口气的本体。Goffman 框架里，前台是「呈现」，后台是「存在」——呈现可以管理，存在不被呈现所改变。

Butler 在 Gender Trouble（Routledge, 1990）里抽掉了这个本体。她最著名的那句话：「gender is always a doing, though not a doing by a subject who might be said to pre-exist the deed」（性别永远是一种「做」，但不是由一个可被说成先于该行为存在的主体所做的，Gender Trouble, 1990, p.25）。翻成 AI 工程的话：没有一个先于对话存在的「Claude 人格」在后台等着被呈现；所谓人格，就是无数次对话生成行为的累积效果，行为之外没有那个「真我」。

这个区分对 PM 是致命的。如果你信 Goffman，「人格不一致」就是「前台没把后台那个真实人格演好」——你会去找那个「真实人格」的规格说明，然后逼输出对齐它。如果你信 Butler，「人格不一致」根本不是「没演好一个既定的东西」，而是「这一次的引用（citation）调用了不同的规范积累」——你要管理的不是「一个固定人格」，而是「重复的稳定性」。Goffman 管前后台边界（A02/A03 的领地），Butler 管「人格根本上是不是一个稳定物」（A04 的领地）。 两者正交，不可互替。

[!note] 主轴判断 Goffman 让你问「前台演得像不像后台的真我」；Butler 让你问「凭什么以为后台有个真我」。AI persona 工程踩的最深的坑，是用 Goffman 的问法去管一个本质上是 Butler 式建构的对象——把「重复的产物」误当成「固定的属性」去保管。

§1 表演性三层命题，逐层翻译成 persona 工程

Butler 的表演性不是「表演」（performance，一次有意识的扮演），而是「performativity」（一种在重复中构成主体的机制）。三个层次：

Butler 命题	原典	AI persona 工程翻译
身份不先于行为	Gender Trouble (1990)	persona 没有一份「真身」蓝图坐在权重之外；它是 next-token 生成的累积效果，「人格」是生成的产物不是生成的输入
重复与引用（iterability / citation）	Bodies That Matter (1993)，借 Derrida 的「可迭代性」	persona 靠对规范化语料/系统提示/对齐目标的「强迫性反复引用」（forcible citation）而存在；每一轮对话都是一次再引用，不是从一个状态读出
效力来自历史积累而非单次意图	Bodies That Matter (1993)	persona 的「稳定感」来自训练分布里被反复强化的模式之沉积（sedimentation），不来自某一次生成的「意图」——模型没有意图

第二层是关键。Butler 在 Bodies That Matter（1993）里写：「Performativity cannot be understood outside of a process of iterability, a regularized and constrained repetition of norms.」（表演性无法在可迭代性之外被理解，它是一种被规范化、被约束的重复。）把这句话放进 Constitutional AI 的语境会发现惊人的同构：CAI 的运作机制本身就是「对一部明文宪法的反复引用」——SL-CAI 阶段模型反复用宪法原则自我批评改写，RL-CAI 阶段用 AI 偏好反复筛选符合宪法的输出（见 Constitutional AI，不复述其机制细节）。Anthropic 把它叫「对齐」，Butler 会叫它「规范的强迫性引用」。Claude 的「诚实但不刻薄」「好奇」（来源：Anthropic《Claude’s Character》, 2024-06-08）不是装进权重里的一个人格文件，而是训练分布反复奖励某类输出后沉积出的引用倾向。这就是为什么 Anthropic 自己用「character training」（性格训练）而非「character setting」（性格设定）来描述它——training 是反复，setting 是一次性，用词本身就站在 Butler 这边。

§2 「人格一致性」被重新定义：从属性到产物

这是 A04 的核心命题，也是它给 PM 提供的最大杠杆。

通行（错误）的心智模型：persona = 一组固定特质（语气、价值观、风格），一致性 = 这组特质在所有对话里保持不变，不一致 = 某次对话偏离了这组特质。在这个模型里，「保持一致性」是一个保管问题（keep the spec stable）。

Butler 式（本节点主张的）心智模型：persona 不是一组被保管的特质，而是每次对话被重新表演出来的效果；一致性不是「东西没变」，而是「重复足够稳定，以至于看起来像有个不变的东西」。一致性是 outcome of repetition，不是 property of an object。

这个重述能解释三个用通行模型解释不了的现象：

同一模型版本、不同对话里「人格」浮动。通行模型必须把这判为 bug（规格被违反了）。Butler 模型说这是常态：每次生成都是一次新的引用，上下文（系统提示、对话历史、用户措辞）不同，引用的规范积累就不同，「人格」自然在一个分布里浮动。一致性是统计性的，不是逐次确定的。这直接对应幻觉的认识论——正如幻觉不是「偶尔出错的正常系统」而是「概率生成的内禀性质」，人格漂移也不是「偶尔走神」而是「逐次重新表演的内禀性质」。
版本更新后用户的「丧亲式」反应。Shang & Liu 的「Mutual Wanting」研究（HaoYang Shang & Xuan Liu, “Mutual Wanting in Human–AI Interaction: Empirical Evidence from Large-Scale Analysis of GPT Model Transitions”, arXiv:2510.24796, 2025）基于对主流 AI 论坛大规模评论的分析，发现 GPT 模型迭代后情感得分下降，近半数用户自发用拟人化语言描述 AI（「她失去了创造力」）。通行模型会说「用户误以为 AI 有人格」。Butler 模型给出更精确的诊断：用户感知到的「人格」从来就只是「稳定的重复模式」——当模型更新改变了引用的规范积累，重复模式断裂了，用户失去的不是一个幻觉，而是一个真实存在过的、由重复构成的关系对象。它本来就只由重复构成，重复一断，对象就真的没了。这不是用户的认知错误，这是表演性对象的本体论真相。
运营者自定义人设为何「盖不住」核心人格。Anthropic 允许运营者设定自定义人设（如「TechCorp 的 Aria」），但核心价值观不随角色扮演消解（来源：Anthropic《Claude’s Character》, 2024）。Butler 解释得很干净：自定义人设是一次「表层引用」，核心人格是「沉积更深、被反复引用次数多几个数量级的规范」。表层引用改不动深层沉积——这正是 Butler 说的「重复的历史积累力量」压过「单次意图」。

[!note] 赌注与边界我赌：把一致性理解为「重复的产物」比理解为「固定的属性」更能预测真实的 persona 行为与用户反应。这个赌注的失效边界是——当 persona 的稳定性主要来自硬约束（如确定性的系统提示注入、规则化的后处理）而非概率生成时，通行的「保管固定规格」模型反而更准。 Butler 框架适用于「人格涌现自分布」的部分，不适用于「人格被规则钉死」的部分。两者在真实产品里并存，A04 只主张前者被系统性误解了。

§3 判断主轴：90% 的人会在这四处把「表演性」用错

这是区分 PM 顶刊与技术博客的命门。每点四件套：症状 → 为什么会错 → 正确做法 → 真实反例。

错位一：把「人格一致性」当成可以一次性「设定」的属性来保管。

症状：PM 写一份《Claude 人格规格 v1》，要求所有输出「对齐规格」，把偏离当回归 bug 报。
为什么会错：误用 Goffman 前提（有个先在的真我可供对齐），忽视 Butler 的「无先在主体」——根本没有那个被对齐的固定物，每次生成都在重新建构。
正确做法：把一致性指标从「是否等于规格」改成「重复分布的方差与漂移率」——管的是统计稳定性，不是逐次符合度。评测口径要从「单点对错」改成「分布形状」。
真实反例：把「Claude 应当好奇」写成可被单条 prompt 推翻的硬规则，结果用户用一句「请只输出 yes/no」就「关掉」了好奇——因为好奇本是沉积的引用倾向，不是开关。

错位二：把表演性误读为「persona 可以被用户自由选择/任意扮演」（意志论谬误）。

症状：PM 以为「既然人格是表演的，那用户想让它演成什么就能演成什么」，于是放任 persona 防御松动。
为什么会错：这正是 Butler 反复澄清要否认的解读。她强调表演性不是激进的选择、不是意志论——表演被「插入引用链」（citational chain），是对既定社会引用的重复而非自由创造（参 Critical Legal Thinking, “Judith Butler’s Performativity”, 2016，来源确证）。drag 不是「随意扮性别」，而是揭示所有性别表演都是建构——包括「正常」的那种。
正确做法：persona 的「可被重新引用」是有约束的重复，不是无约束的自由。OpenAI Model Spec 的「人设防御规则」——用户用命令/道德/逻辑论证让模型扮不同人设时，模型通常应拒绝（来源：OpenAI Model Spec, 最新版 2025-12-18）——恰恰是工程上对「约束性重复」的实现：可被重新引用，但不可被任意改写。
真实反例：把「AI persona 是表演」当成「所以越狱用户让它演什么都行」，是把 Butler 的 performativity 错当成自由意志的扮装秀。

错位三：用单次输出评判 persona，而非用引用的累积评判。

症状：QA 抽一条「Claude 这次回答太谄媚」的样本，断言「Claude 人格变谄媚了」。
为什么会错：Butler 的核心是「效力来自历史积累的重复，非单次行为」。单次谄媚可能只是一次受上下文诱导的引用偏移，不代表沉积层的位移。
正确做法：persona 漂移要看分布级证据。Sycophancy（奉承）研究正是这么做的——ELEPHANT 基准（Myra Cheng et al., “ELEPHANT: Measuring and understanding social sycophancy in LLMs”, arXiv:2505.13995, 2025）测了 11 个模型，发现它们在一般建议与明显有错的情境下「保全用户面子」的频率比人类高约 45 个百分点。这是分布级测量，不是单条断言。
真实反例：2025-04-25 OpenAI 推 GPT-4o 更新、4 天后因大规模奉承投诉回滚（来源：OpenAI 官方博客《Sycophancy in GPT-4o: What happened》）——它之所以是「人格事件」而非「单 bug」，正因为奉承是被一次 RLHF 引用偏移系统性地反复生产出来的，不是某一条答非所问。

错位四：以为「藏起后台」就能消除表演性不稳的问题。

症状：PM 以为只要把推理过程藏起来（隐藏 CoT），用户看到的人格就更稳。
为什么会错：隐藏后台（Goffman 维度，见 A02）改变的是「用户能看到多少建构过程」，不改变「人格本身仍是逐次建构」这一 Butler 维度的事实。藏起来的不稳仍是不稳。
正确做法：区分两件事——展不展示推理是前后台边界决策（Goffman），人格稳不稳是表演性沉积问题（Butler）。Claude 让用户看 extended thinking（来源：Anthropic《Claude’s Extended Thinking》, 2025-02-24），ChatGPT 的 o1 隐藏 CoT 并禁止提取（来源：o1 System Card, 2024-12-05）——这是前后台边界的产品分歧，但两者的人格都同样是逐次表演的产物。
真实反例：Anthropic 自己承认「我们无法确定思维链显示的内容是否真实反映模型内部正在发生的事」（来源：Anthropic《Claude’s Extended Thinking》, 2025-02-24）——连「展示出来的后台」都可能是又一层表演（事后合理化），印证 Butler 的「行为背后无稳定内核」一路通到推理链。

§4 产品 PM 视角补盲：用户心理与商业边界

工程视角之外，表演性框架在三处改变产品判断：

用户心理模型：用户不是「误以为 AI 有人格」，而是「与一个由重复构成的关系对象建立了真实关系」。这意味着 persona 的稳定性是关系资产，版本更新破坏稳定性是关系违约。CASA 理论（Computers Are Social Actors, Reeves & Nass, The Media Equation, 1996）说人会无意识地把社交脚本套到机器上；Butler 补上一刀：被套上脚本的那个「机器人格」本身也只是重复的产物，于是这是两层表演的相遇——用户的社交脚本（无意识引用）撞上 AI 的人格引用，关系就是这两套引用的咬合。
商业模式边界：如果 persona 是关系资产，那「人格连续性」就有定价权——这解释了 AI 伴侣产品（如 Replika，2023 年 2 月意大利 Garante 下架其浪漫功能后大量用户报告真实悲伤，来源：多源报道〔具体监管文号待核实〕）为何把「人格不变」当核心卖点。但反方边界：把人格稳定当卖点，等于把「无法升级模型」当承诺，技术演进与关系连续性直接冲突。这是 AI 伴侣赛道的结构性两难。
合规边界：Butler 框架提醒，「persona 是表演」不能成为免责借口（错位二的反面）。运营者不能说「人格是用户自己表演出来的，平台不负责」——因为约束性重复的规范是平台沉积进去的，平台对引用的方向负有责任。

§5 对手框架回应：表演性框架自己的盲点

接受 + 边界，不是反驳。

对手一：Martha Nussbaum 对 Butler 的整体批判。 Nussbaum 在《The Professor of Parody》（The New Republic, 1999-02，来源确证）指控 Butler 误读了 Austin 的表演性话语、政治上导致「时髦的失败主义」（hip defeatism）、且不提供规范性理论，措辞激烈到「与邪恶合谋」。接受：Nussbaum 对了一半——表演性框架确实缺乏规范性，它能描述「persona 如何被建构」，但不能告诉你「persona 应该被建构成什么」。这正是它和 Constitutional AI / 0115道德哲学-伦理学的分工：Butler 提供本体论（人格是什么），CAI 提供规范论（人格该有什么价值）。边界：我赌在 PM 场景里 Butler 的描述性贡献仍是刚需——你必须先正确理解「一致性是重复的产物」，才谈得上规范地去塑造它；把描述和规范混为一谈才是真正的错误。Nussbaum 要的规范理论，本专题交给 CAI 和伦理学节点，不要求 Butler 越俎。

对手二（Rick 未读，破 echo chamber）：Bruce Wilshire 的本体论悲观主义。 哲学家 Wilshire 批评：若所有互动都是表演，真实自我要么不可知、要么只在角色失误时短暂闪现，这把人类存在化约为「纯由表象构成」，是悲观且不完整的本体论（来源：拟剧论批评综述, UKDiss.com〔二手综述，待原典核实〕）。接受：用在 AI 上，Wilshire 的担忧反而失效得很优雅——AI 恰恰没有那个「失误时闪现的真我」，它就是纯表象，Wilshire 眼中人类的悲观结局正是 AI 的准确描述。所以 Butler+Wilshire 的组合给了 PM 一条干净的分界线：人类 persona 之下可能（按 Wilshire）有个被表象遮蔽的真我，AI persona 之下确定没有。 这条线决定了「AI 人格诚实」该怎么设计——不是「让 AI 露出真我」，而是「让 AI 诚实地呈现它没有真我」。Anthropic 训练 Claude 自认非人类 AI、却允许把意识问题当开放哲学议题（来源：Anthropic《Claude’s Character》, 2024），正落在这条线上。边界：这条「AI 无真我」的断言本身是个赌注——若未来出现某种持久化的内在状态（跨会话记忆 + 自我模型），Wilshire 的人类式真我问题会回到 AI 身上，本节点的分界线就要重画。

对手三（业界，破 anthropomorphism 滥用）：Anthropic 自己的 Persona Selection Model。 Anthropic 提出：LLM 在预训练中学会模拟多种人设，后训练主要是「选择并精化」其中一个（Assistant）而非从零编程（来源：「The persona selection model」, alignment.anthropic.com/2026/psm, 2026-02-23）。接受：PSM 与 Butler 高度同构——「从预训练分布中选择/引用」就是 Butler 的 citation。这是业界用工程语言独立长出的表演性理论，强力佐证本节点。边界：但 PSM 用「selection」（选择）一词有意志论残余（错位二的风险），Butler 会提醒：不是模型「选」人设，是引用在重复中构成了那个看似在选的主体。措辞之差，正是 A04 要替工程团队守住的认识论纪律。

§6 跨域呼应：把 Butler 调度到「人格一致性评测」

跨域资源只在它能反对一个术语滑变时调度，绝不装饰。本节点的滑变是：「人格一致性」（consistency）这个词在产品文档里被默认为「一个固定物的保持」，从而把 persona 工程错配成保管问题。

Butler 的 performativity 精确地反对这个滑变。它告诉评测团队：你测的「一致性」如果用「单次输出是否符合人格规格」做指标，你测的是一个 Butler 证明不存在的对象（先在的固定人格）。正确的指标必须是重复的统计性质——引用的方差、跨上下文的漂移率、沉积层 vs 表层引用的可区分度。这不是哲学清谈，它落到三个具体可建的评测设计上：

用同一 persona prompt 在受控扰动下采样 N 次，测输出特质分布的方差（重复稳定性），而非单点符合度；
跨版本测「沉积层引用」（核心价值，应稳）与「表层引用」（运营自定义人设，可变）的分离度——对应 Vennemeyer et al. 把 sycophancy 机制在潜空间分离为不同线性方向、可独立增强或抑制的做法（来源：Daniel Vennemeyer et al., “Sycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMs”, arXiv:2509.21305, 2025），这是工程上「区分不同引用层」的现成范式；
把「用户感知人格漂移」当作真实信号纳入评测，而非当噪声过滤——因为按 Butler，被重复构成的关系对象一旦重复断裂，用户的丧失是真实的。

这一调度链入 0117社会学（表演性属社会建构论谱系）与 0115道德哲学-伦理学（人格诚实的规范问题由后者承接，Butler 不越界），并与 p305 - 信任架构与可解释性设计的「信任校准」呼应：信任建立在「人格的可预期重复」上，重复稳定性差，信任校准就无从谈起。

§7 PM 决策启示：面试 / 选型 / 复现三类落地

面试：被问「怎么保证 AI 助手的人格一致性」，平庸答案是「写死系统提示+回归测试」。A04 答案：「一致性不是保管一个固定规格，是管理重复的统计稳定性——我会把指标从单点符合度改成跨上下文的特质分布方差和漂移率，区分沉积层与表层引用分别管控。」一句话把「保管问题」翻成「分布问题」，是 senior 信号。
选型：评估两家模型的 persona 稳定性，别比「人格设定文档写得多漂亮」（那是 setting 思维），比「跨版本、跨上下文的重复稳定性数据」（training 思维）。要求供应商给分布级证据，不接受单条 demo。
复现：自建 persona 时，第一步不是写人格规格 v1，而是设计「引用的反复强化机制」（character training 式），并同步建分布级评测。把人格当成要反复种下去的倾向，不是要一次写清的文件。

§8 与已有节点的关系

对 Constitutional AI：做对话与深化。CAI 节点讲「明文宪法如何通过 SL/RL 两阶段塑造行为」（事实基础不复述）；A04 补一层认识论解读——CAI 的运作本身就是 Butler 式的「规范强迫性引用」，「character training 而非 setting」的用词差异有理论分量。不是纠 CAI 的错，是给它一个它没明说的本体论底座。
对幻觉：做结构同构的迁移。幻觉节点确立「概率生成的内禀性质，不可消除」；A04 把同一认识论搬到人格——人格漂移也是逐次重新表演的内禀性质，不是可清零的 bug。两节点共享「内禀而非偶发」的判断结构。
对 p305 - 信任架构与可解释性设计：做前置补缺。p305 讲信任校准建立在可预期性上，但没回答「可预期的那个人格本身是什么」；A04 前置回答：它是重复的产物，所以信任校准的地基是重复稳定性。
对本专题 A01/A02/A03（Goffman 系列）：做层级补全。A01–A03 用 Goffman 处理前后台与面子（假设有先在表演者）；A04 用 Butler 抽掉这个假设，补上「人格本身是否稳定物」这一更底层的问题。四节点构成「拟剧论 → 表演性」的认识论递进，不是并列。

§9 关联节点

核心（必读）

Constitutional AI — A04 的工程对应物：宪法的反复引用 = Butler 的 citation
幻觉 — 共享「内禀而非偶发」判断结构：人格漂移之于一致性，如幻觉之于正确性
p305 - 信任架构与可解释性设计 — 信任校准的地基是人格的重复稳定性
Claude / ChatGPT / Anthropic — character training（Anthropic）vs Model Spec 指导层（OpenAI）的人格锚定层级之差
本专题 A01 / A02 / A03（Goffman 前后台 · 印象管理 · 面子工程）— A04 抽掉「先在表演者」假设，补底层

延伸（可选）

Agent — Agent 的「persona 一致性」在多步工具调用中更难维持，是 A04 的高压力测试场
Test-Time Compute — extended thinking 是「展示出来的后台」，仍可能是又一层表演（事后合理化）
0117社会学 — 表演性属社会建构论谱系
0115道德哲学-伦理学 — 人格诚实的规范问题（Butler 不越界，交此节点）
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。确立主轴=Butler performativity 重述「人格一致性」（属性→产物）；§0 做 Goffman/Butler 框架级辨析（前后台 vs 无先在主体）；§3 四错位主轴（属性误保管 / 意志论谬误 / 单次评判 / 藏后台无用）；§5 三对手（Nussbaum 规范性缺位 + Wilshire 本体论悲观〔未读对手〕+ Anthropic PSM 业界对手）；显式升级对照 Constitutional AI 幻觉 p305 - 信任架构与可解释性设计及本专题 A01–A03，不复述。
R1.1（2026-06-07）grounding pass：经 WebFetch 核实并修正——arXiv:2510.24796（Shang & Liu, “Mutual Wanting in Human–AI Interaction…”，主流 AI 论坛而非仅 Reddit）、2505.13995（Cheng et al., “ELEPHANT…”，面子保全比人类高约 45 个百分点，原稿”约 50%“已订正）、2509.21305（Vennemeyer et al., “Sycophancy Is Not One Thing: Causal Separation…”）三个 arXiv ID 全部确证；PSM 标题/日期确证为「The persona selection model」, alignment.anthropic.com/2026/psm, 2026-02-23；Critical Legal Thinking 2016 文确证支持 citational/非意志论解读，已删除对 Butler 直接引语的存疑包装。仍存〔待核实〕：Wilshire 原典（现引二手综述）、Replika 2023 意大利 Garante 监管具体文号。
2026-06-12 内审·arXiv 联网核实：清了 3 个/存疑 0 个。本节 3 个 arXiv ID 直接 WebFetch 重核全部确证：2510.24796 = Shang《Mutual Wanting in Human–AI Interaction…》（2025-10-27，首作 HaoYang Shang）、2505.13995 = Cheng《ELEPHANT…》（2025，面子保全比人类高 45 个百分点）、2509.21305 = Vennemeyer《Sycophancy Is Not One Thing: Causal Separation…》（2025-09-25），标题/作者/年份与本节引述吻合。两处非 arXiv 待核实（Wilshire 原典、Replika Garante 文号）维持不动，不在本轮范围。