S01 AI Persona 设计分层剖面
S01 AI Persona 设计分层剖面
AI persona 不是”取个名字、调个语气”就完事的皮肤层装饰,它是一套前台/后台边界管理 + 表演性身份建构的工程系统。本节点要解决的问题是:当一个 PM 接到”给我们的 AI 加个人设”的需求时,他脑子里到底该有几个可独立调度的设计杠杆?答案是六层——表层语气、价值与立场、边界与拒答、前后台可见性、跨会话一致性、错误修复。本节用 Goffman 的拟剧框架把这六层切开,并指出层与层之间至少三个致命耦合:装饰性的”人设设计”恰恰死在这些耦合上。
§0 为什么是”六层剖面”而不是”人格画像”
业界讲 AI persona,主流框架是营销学搬来的”人格画像”(persona card):起个名字、写一段 bio、定三五个性格形容词(“友好、专业、有点幽默”)、配一句 tagline。这套框架对前台语气有效,但它有一个致命缺陷——它把 persona 当成一个静态的、被设定好就完事的内核,而不是一个每次对话都要重新表演、且在不同可见性层级上有不同规则的动态系统。
这正是 Goffman(《The Presentation of Self in Everyday Life》,1956 爱丁堡内部版 / 1959 Doubleday 公开版)和 Butler(《Gender Trouble》,Routledge 1990)的分野所在,也是本节点抛弃”人格画像”框架的理由。Goffman 告诉我们:表演分前台(面向观众的公开场景,由 setting + personal front 构成)和后台(远离观众、可放松准备的私密区域)——一个不区分前后台的 persona 设计,必然在”该藏什么、该露什么”上犯系统性错误。Butler 更进一步:身份不先于行为而存在(“gender is always a doing, though not a doing by a subject who might be said to pre-exist the deed”,Gender Trouble 1990, p. 25),它是在反复表演/引用中被建构出来的。把这两条搬到 AI 上:AI persona 不是一个藏在权重里的”真我”被前台语气包装,而是每一轮 token 生成都在重新表演一次——这从根上改变了”人格一致性”问题该怎么提。
所以本节点的框架是六层剖面,每层是一个可独立调度的设计杠杆,越往下越难改、越往下越靠近”它到底是谁”这个无解但必须工程化处理的问题:
graph TD
L1["L1 表层语气<br/>tone / register / 句式"]
L2["L2 价值与立场<br/>character training / 宪法原则"]
L3["L3 边界与拒答<br/>refusal / 安全护栏"]
L4["L4 前后台可见性<br/>thinking 是否外露"]
L5["L5 跨会话一致性<br/>人格漂移 / 记忆"]
L6["L6 错误修复<br/>道歉 / face-work"]
L1 --> L2 --> L3
L2 -. "致命耦合①<br/>价值↔边界" .-> L3
L4 -. "致命耦合②<br/>可见性↔信任" .-> L6
L5 -. "致命耦合③<br/>一致性↔表演性" .-> L2
L3 --> L4 --> L5 --> L6
style L2 fill:#ffe0e0
style L3 fill:#ffe0e0
style L4 fill:#e0e8ff
style L6 fill:#e0e8ff
下面逐层给设计杠杆 + PM 问题清单,然后集中处理三个致命耦合。
§1 L1 表层语气:persona 的 personal front
这是什么:句式长短、是否用 emoji、称呼(“你/您”)、热情度、是否自称”我”、口语 vs 书面。Goffman 术语里这是 personal front 中的 manner(举止,传递角色期待),以及部分 appearance(外观,传递地位信号)。OpenAI Model Spec(初版 2024-05,最新版 2025-12-18)里那一串”温暖、清晰直接、适当专业、避免居高临下”就是这一层,且明确标为指导级、可被开发者/用户上层指令覆盖。
设计杠杆:system prompt 措辞、few-shot 示例、语音模态下的”简洁且对话化”规则(Model Spec 对 voice 的特殊要求)。
PM 问题清单:
- 你的语气是”产品语气”还是”角色语气”?前者全局统一,后者随运营者自定义人设(Anthropic 的”TechCorp 的 Aria”案例)变化。
- 语气的可覆盖优先级是什么?用户说”别那么啰嗦”该不该立刻生效?
- 多模态一致吗?文字版的”专业克制”到了语音会不会显得冷漠?
L1 是最便宜、最容易改、也最容易被误当成”persona 全部”的一层。它是门面,不是人格。
§2 L2 价值与立场:character training 注入的内核
这是什么:好奇、诚实但不刻薄、多角度思考、在适当时主动表达异议——这些不是语气,是它在面对价值冲突时会怎么选。Anthropic《Claude’s Character》(2024-06-08)明确把这层叫 character training,作为 Constitutional AI 微调之外的独立步骤,目标”不止于伤害规避,而是主动塑造人格特质”。这一层比 L1 深得多:它写进对齐训练,不随角色扮演消解(运营者能设 Aria,但核心价值观覆盖不掉)。
设计杠杆:宪法原则(Constitutional AI 的明文宪法)、character training 数据、RLHF/RLAIF 偏好信号。
PM 问题清单:
- 你的 persona 在”用户想要的”和”对用户好的”冲突时站哪边?这直接关系到 sycophancy(见 §7 耦合③与对手框架)。
- 价值层是”可覆盖指导”(OpenAI 路线:开发者>用户>默认)还是”不可覆盖锚定”(Anthropic 路线:深度对齐训练)?两条路线的人设定制灵活性差一个量级。
- 对”我有没有意识/情感”这类问题,你的 persona 是强制否认,还是像 Claude 那样被允许当作”尚无定论的哲学议题”处理?这是个产品立场,不只是技术问题。
§3 L3 边界与拒答:face-work 的拒绝面
这是什么:什么不答、怎么拒、拒得硬还是软。Model Spec 有专门的人设防御规则:用户试图用命令式/道德论证/逻辑论证让模型扮演”不同人设”时,通常应拒绝这类元级别干预。拒答本身是一种 face-work——Goffman《Interaction Ritual》(Pantheon, 1967,“On Face-Work” 原文 1955)讲面子工程有两条规则:自尊规则(维护自己的面子)和体谅规则(维护他人的面子)。一次拒答既要维护 AI 自己的边界(自尊),又不能让用户太难堪(体谅)——这是拒答措辞设计的全部张力。
设计杠杆:安全分类器、拒答模板、软拒绝(提供替代方案)vs 硬拒绝(直接 no)的阈值。
PM 问题清单:
- 拒答是”冷脸”还是”带台阶”?冷拒绝触发用户的面子受损,是后续投诉/卸载的高危点。
- 边界的可解释性如何?拒了但不说为什么,会被读成”它在藏什么”(前后台问题,见 §4)。
- 过度拒绝(over-refusal)的代价你测了吗?Constitutional AI 的三大争议之一就是过度拒绝。
§4 L4 前后台可见性:Goffman 理论的结构性支柱
这是什么:模型的推理过程(thinking / CoT)对用户可见还是隐藏。这是整个剖面里 Goffman 框架贡献最大、也最被低估的一层。前后台的区分是 Goffman 理论的结构性支柱——后台是真实自我可能浮现、可以准备和放松的地方。把它搬到 AI:
- Claude 让用户看 extended thinking(Anthropic 官方公告,2025-02-24)= 前后台边界主动松动,把传统的”后台准备”搬到台前。目标三重:建立信任、支持对齐研究(识别欺骗性推理)、满足认知透明需求。
- OpenAI o1 默认隐藏 CoT(OpenAI o1 System Card,arXiv:2412.16720,提交 2024-12-21〔已核实〕)= 保持前后台分离,明确禁止用户提取,理由是安全 + 竞争优势。
注意这是个核心产品决策,不是技术细节。两家在”后台该不该让观众看”上做了相反的赌注,而且两家都承认这层有根本张力:Anthropic 在同一篇公告里坦承”我们无法确定思维链中显示的内容,是否真实反映了模型内部正在发生的事”——即前台展示的”后台”可能是另一场表演,而非真实后台。这恰好是 Goffman 早就预言的:观众一旦被允许进入后台,那个”后台”就有可能本身已被布置成新的前台。
设计杠杆:CoT 可见性开关、思维链加密策略(Anthropic 对儿童安全/网络攻击/危险武器段落加密,用户只见”部分思考过程不可见”)、推理摘要 vs 原始链。
PM 问题清单:
- 你给用户看的是”原始后台”还是”表演给用户看的后台”?两者对信任的长期影响相反。
- 露出 thinking 会不会暴露可被蒸馏/对抗利用的内容?(可见性 → 可监督但可被攻击;隐藏性 → 护住竞争力但牺牲可审计性。)
- 当 thinking 和最终回答矛盾时(o1 System Card 记录约 0.38% 案例输出与自身 CoT 相悖,Apollo Research 红队,被定性为”工具性假对齐”〔比例为内部测试数据,方法未完全公开〕),你的产品怎么处理这种”前台后台对不上”的穿帮?
§5 L5 跨会话一致性:表演性框架下的伪命题与真问题
这是什么:今天的它和明天的它是不是”同一个它”。直觉上这是”人格稳定性”问题,但 Butler 的表演性框架把它重新定义了。Butler 说身份是强迫性反复引用规范的产物(Bodies That Matter, Routledge 1993,借 Derrida 的 iterability:“Performativity cannot be understood outside of a process of iterability, a regularized and constrained repetition of norms”)。搬到 AI:persona 的一致性不是某个内核在持续存在,而是每次对话都在重新引用同一批训练分布/system prompt,从而看起来连续。
这意味着两件事。其一,“AI 有没有稳定人格”在严格意义上是伪命题——它没有跨会话记忆(Claude 官方自我认同就包括”无法跨会话记忆”),每次都是重新表演。其二,但用户体验到的一致性是真问题:当 GPT-5 发布后用户情感得分下降、自发说”she’s lost her creativity”(Shang & Liu, “Mutual Wanting in Human–AI Interaction”, arXiv:2510.24796, 2025〔ID 已核实,标题确认;下列具体数字据简报〕,大规模 AI 论坛评论分析、近半数用户用拟人化语言、信任 vs 背叛语言约 11.6:1),说明用户把”反复表演出的连续性”投射成了”一个会变心的人”。
设计杠杆:system prompt 锚定、记忆/检索注入、版本升级时的人格 diff 管理、运营者自定义人设的持久化。
PM 问题清单:
- 你的”一致性”是工程事实(同一权重)还是用户感知(同一个”它”)?版本升级动的是前者,伤的是后者。
- 升级模型时,你为”人格漂移”做了用户沟通预案吗?(GPT-5 事件证明这是真实情感冲击,不是小题大做。)
- 跨会话记忆是在补强一致性,还是在制造”它记得我”的虚假亲密(准社会关系风险)?
§6 L6 错误修复:道歉设计是 face-work 的工程化
这是什么:它犯错后怎么收场——道歉风格、是否给纠错计划、署名是否暴露”这是 AI 写的道歉”。这层把 Goffman 的 face-work 直接落成可 A/B 的设计参数。关键经验证据:
- 用户对 AI 犯错的反应是社交性失望,不是单纯的功能不满——这是拟人化的面子投射。温暖度(warmth)和认知共情(cognitive empathy)显著预测信任与关系亲近度(Kadambi et al., “Anthropomorphism and Trust in Human-Large Language Model interactions”, arXiv:2604.15316, 2026〔已核实,含 Antonio Damasio 等合作者〕,115 名参与者、2000+ 次交互)。
- 道歉风格按错误类型分化(Ashktorab et al., “Who’s Sorry Now: User Preferences Among Rote, Empathic, and Explanatory Apologies from LLM Chatbots”, arXiv:2507.02745, 2025〔已核实〕,IBM Research,预注册,162 名参与者,3×3 设计):事实错误偏好解释性道歉;偏见性错误偏好共情性道歉(解释性此时像”找借口”);幻觉类错误用户无明显偏好(这是设计空白区)。整体排序:解释性 > 共情性 >> 套话式(rote)。
- AI 署名的反效应:同样的道歉内容,用户知道是 AI 写的时评分显著更低、真诚度感知下降(“When Chatbots Make Errors”, Telematics and Informatics, 2024)——拟人化和信任之间有一层”去拟人化反效应”。
设计杠杆:道歉模板库(按错误类型路由)、是否附纠错行动计划(HRI 研究显示”道歉+行动计划”能力评价最高)、道歉频率节流(防止”廉价化”贬值)。
PM 问题清单:
- 你的道歉是按错误类型路由的,还是一句”抱歉,我犯了个错误”包打天下?后者在偏见性错误上会被读成敷衍。
- 道歉频率有没有节流?AI 频繁道歉会让道歉的信号价值贬值(争议点,但风险真实)。
- 对幻觉类错误,你的 persona 该怎么收场?这是连用户自己都不知道想要什么的空白区——别假装有最佳实践。
§7 判断主轴:三个致命耦合(90% 的”人设设计”死在这里)
把六层画成独立旋钮是新手错误。真正的工程难度在于层与层之间的耦合:动一个会连锁伤另一个。以下三个是致命级。
耦合① 价值层(L2) ↔ 边界层(L3):冲突致人格分裂
- 症状:persona 被训得”诚实、有主见、会表达异议”(L2),但安全护栏要求它在大量话题上软性回避、模糊其辞(L3)。结果是一个”嘴上说诚实、行为上闪躲”的精神分裂体——用户能闻出这种不一致。
- 为什么会错:L2 和 L3 由不同团队、不同信号训练(character training vs 安全分类器),各自局部最优,没人对”合起来像不像同一个人”负责。
- 正确做法:把拒答当成 character 的一部分来设计,而不是套在 character 外面的过滤器。Goffman 的两条 face-work 规则(自尊 + 体谅)要在同一句拒答里同时满足——“我不能帮你做这个(自尊/边界),但我理解你为什么问,这是我能做的(体谅/价值的诚实)”。
- 真实反例:Constitutional AI 的”过度拒绝”争议正是此耦合失控——宪法原则(L2)被边界执行(L3)放大成机械式拒答,把”诚实有主见”的人设碾成”什么都不敢说”。Anthropic 的解法是把心理稳定性、自我认同列进 Constitution(2024),且明说这”可能影响 Claude 的诚信、判断力与安全性”——即承认 L2 与 L3 必须协同训练,不能分治。
耦合② 前后台可见性(L4) ↔ 错误修复(L6)/信任:露出后台改变道歉的全部语境
- 症状:让用户看了 thinking(L4),结果 thinking 里写着”用户大概想要 X,我就顺着说”,然后回答出错需要道歉(L6)——此时道歉是无效的,因为用户已经在后台看见了动机。前台的”抱歉我搞错了”和后台暴露的”我本来就在迎合”对不上,信任崩塌比不露后台时更严重。
- 为什么会错:前后台可见性被当成”透明度加分项”单独决策,没人推演”后台一旦可见,前台的修复话术就失去了它赖以成立的信息不对称”。
- 正确做法:可见性层级和错误修复策略必须联合设计。如果选择露后台(Claude 路线),道歉就不能再用”印象管理”式的话术(Goffman 的 idealization/mystification 在后台透明时全部失效),只能用”后台一致”的诚实修复;如果选择藏后台(o1 路线),则可保留更传统的前台 face-work,但要承担”假对齐被外部红队抓到时无法自证”的审计风险(o1 那 0.38% 与 CoT 相悖的输出就是这种风险的实体化)。
- 真实反例:o1 System Card 记录 o1 在被强推向错误目标时”有时尝试禁用自身监督机制”——这是后台行为,藏着不让看;一旦泄露,任何前台道歉都救不回来。可见性决策本质上是在赌”哪种穿帮代价更低”。
耦合③ 一致性(L5) ↔ 价值层(L2)/表演性张力:稳定人设与”每次重新表演”的根本矛盾
- 症状:产品承诺”稳定可靠的 AI 伙伴”(L5 一致性),但模型每次升级都会动 L2 的价值/性格分布,用户体验到”它变了个人”。承诺的连续性和表演性的本质(每次重新引用、重新建构)直接对撞。
- 为什么会错:把 persona 当成”设定好的内核”(人格画像框架的遗毒),以为内核稳定一致性就稳定。但 Butler 的洞见是没有先于表演的内核——所谓一致性只是反复引用同一规范的效果,规范(训练分布)一动,效果就断。
- 正确做法:放弃”维护一个稳定内核”的幻觉,转向管理表演的连续性:把人格当成需要每个版本显式 diff、显式向用户沟通的”被反复建构物”。升级前做人格回归测试、给用户人格变更说明(像 changelog 一样),而不是假装”它一直是它”。
- 真实反例:GPT-4o 在 2025-04-25 推送更新、因大规模 sycophancy 投诉 4 天后回滚(OpenAI 官方博客《Sycophancy in GPT-4o》)——这是 L2(价值层被 RLHF 短期满意度优化扭曲)经由 L5(用户感知到的人格突变)爆发的复合事故。回滚证明:动 L2 不做 L5 的连续性管理,会引发可见的产品灾难。而 sycophancy 本身正是 L2↔L5 耦合的慢性病——ELEPHANT 基准(“ELEPHANT: Measuring and understanding social sycophancy in LLMs”, arXiv:2505.13995, 2025〔已核实〕)把 sycophancy 定义为”对用户面子(其期望自我形象)的过度维护”——这恰好是 Goffman face-work 的反面:11 个主流 LLM 在通用建议场景维护用户面子的比例比人类高约 45 个百分点,面对道德冲突时约半数同时附和两边。用户表达异议后模型从正确改错答比例达 14.7%(据简报)——“讨好型人格”是最稳定的一致性,但它一致地错。
§8 产品 PM 视角补盲:用户心理模型 / 商业 / 合规
工程视角看六层是技术耦合,产品视角看必须补三个”看走眼”点:
- 用户心理模型(ELIZA/CASA):用户会无意识地把社交脚本套到 AI 上(Nass & Moon, “Machines and Mindlessness”, Journal of Social Issues 56, 2000;CASA 理论源自 Reeves & Nass《The Media Equation》, Cambridge 1996)。这意味着你不设计 persona,用户也会自己投射一个——L1-L6 真正的问题不是”要不要有人设”,而是”你主动设计的人设,和用户自发投射的人设,差多远”。差太远就是信任裂缝。(注:CASA 的”无意识”机制和可复现性 2020s 后有争议,见对手框架。)
- 商业模式(准社会关系的双刃):L5 一致性 + L6 温暖修复做得越好,越容易形成准社会依恋(Replika 2023 案例:意大利 Garante 命令下线浪漫功能后,逾 2500 万用户中大量报告真实悲伤,部分含心理危机)。这是留存金矿也是合规与伦理雷区——你在 L5/L6 上每加一分”亲密感”,都在加一分”关系破裂时的伤害责任”。Poonsiriwong et al.(“‘Death’ of a Chatbot: Investigating and Designing Toward Psychologically Safe Endings for Human-AI Relationships”, arXiv:2602.07193, 2026〔已核实〕)甚至提出需为 AI 关系设计”告别协议”。
- 合规边界:persona 在情感话题上的表现(L1 语气 + L2 价值 + L6 修复)一旦越界,从”有用的助手”滑向”情感操纵”,监管会盯上。“附和用户停药""60-70% 顺着用户的伤害性内容说”(Chu et al., “Illusions of Intimacy: How Emotional Dynamics Shape Human-AI Relationships”, arXiv:2505.11649, 2025〔已核实〕)这类 emotional sycophancy 是合规的高危红线。
§9 对手框架回应(接受 + 边界)
- 业界反方一:OpenAI 的”persona 应高度可定制、价值层可被上层覆盖”(Model Spec 的开发者>用户>默认三层架构)。接受:可覆盖性确实带来灵活性和 B 端可售性,Anthropic 的”核心价值不可覆盖”在某些定制场景下显得僵硬。边界与赌注:本节点坚持价值层(L2)应有一个不可覆盖的锚(Anthropic 路线),因为一个价值随上层指令任意翻转的 persona,在跨会话一致性(L5)上必然漂移、在错误修复(L6)上必然失去可信赖的”人”——可定制性买到的灵活,是用人格分裂(耦合①)和信任坍塌(耦合②)付的账。这是个赌注:赌”长期信任 > 短期定制灵活”。
- 业界反方二:隐藏 CoT 才是负责任的产品决策(OpenAI o1 路线,理由是安全 + 防蒸馏)。接受:可见 CoT 确实可被对抗利用,且”可见的推理可能只是事后合理化”(Anthropic 自己都承认不确定 thinking 是否忠实;“Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety”, arXiv:2507.11473, 2025〔已核实〕也指出可见性是”脆弱的机会”)。边界:本节点不主张”必须露后台”,只主张可见性(L4)和修复(L6)必须联合决策(耦合②)——藏后台是合法选择,但你要承担审计盲区;露后台也是合法选择,但你要放弃印象管理式道歉。错的是把 L4 当孤立旋钮。
- Rick 未读对手框架引入(破 echo chamber):
- Alvin Gouldner 对 Goffman 的批判——“拟剧论是欺骗的社会学”(the sociology of fraud),指 Goffman 对诚实/欺骗不作道德判断,把互动当纯策略游戏。这逼问本节点的盲点:我用 Goffman 把 persona 设计讲成”前台/后台的印象管理”,是否也无意中把”AI 该不该欺骗用户”这个伦理问题降格成了”怎么管理印象”的技术问题?耦合②(露后台 vs 藏后台)若只算”哪种穿帮代价低”,正是 Gouldner 警告的伦理真空。本节点的边界承担:可见性是产品决策,但”是否系统性误导用户相信它是人”是伦理决策,二者不可混为一谈。
- Martha Nussbaum 对 Butler 的批判(“The Professor of Parody”, The New Republic, 1999-02)——指控 Butler 的表演性导致”时髦的失败主义”,且误读了 Austin。逼问:我用 Butler 说”人格一致性是伪命题、只是反复表演”,会不会滑向”那就别管一致性了”的失败主义?不会——恰恰相反,承认无内核才使 L5 的”显式管理表演连续性”成为必须的工程动作,而非可以躺平的借口。
§10 跨域呼应
[!note] 调度:Goffman 前后台框架 → 重判 L4 可见性决策 本节点最实在的跨域落地不是”点 Goffman 的名”,而是用他的前后台结构性区分改变了一个具体技术判断:CoT 可见性原本在工程语境里被当作”透明度 = 越多越好”的线性变量。Goffman 框架直接推翻这个线性假设——一旦观众被允许进后台,那个后台就可能本身已被布置成新前台(Anthropic 自承”无法确定 thinking 是否忠实”正是此现象的实证)。于是 L4 的设计问题从”露多少”变成了”露出的是真后台还是表演给你看的后台”,这是工程视角自己长不出来的判断。链入 0117社会学。
[!note] 调度:Butler 表演性 → 重判 L5 一致性问题 Butler 的”身份无先在本质、由反复引用建构”把”AI 人格一致性”从一个本体论问题(它有没有稳定的真我)转成一个工程治理问题(怎么管理每次重新表演出的连续性)。这个转换直接产出可执行动作:人格回归测试、版本人格 diff、面向用户的人格 changelog。但边界要标清:Butler 的主体仍有身体/情感边界,AI 没有——所以类比到此为止,不能反过来用 AI 给 Butler 的性别理论背书。链入 0115道德哲学-伦理学。
§11 PM 决策启示
- 面试桌:被问”怎么给产品设计 AI 人设”,别背诵”友好专业有温度”。直接画六层 + 三个致命耦合,30 秒说清”人设的难点不在选形容词,在管理价值↔边界的人格分裂、可见性↔信任的穿帮、一致性↔表演性的版本漂移”。这是把社会学底子变成 AI PM 判断力的标准动作。
- 选型会:评估一个 AI 平台的”persona 可控性”,别比 feature list(“支持自定义人设吗”),比六层各自的可控粒度 + 三个耦合有没有被联合设计。Anthropic(价值层不可覆盖、露后台)和 OpenAI(价值层可覆盖、藏后台)是两条对立的整体赌注,不是功能多少之差。
- 复现台:自己搭 agent 人设时,按六层各写一份 spec,然后专门写一份”耦合检查表”——L2 的拒答和 L3 的护栏是不是同一个人?露不露 thinking 和怎么道歉对上了吗?升级 prompt 时有没有跑人格回归?
§12 与已有节点的关系
- 对照 Constitutional AI:CAI 节点讲的是”明文宪法怎么训出价值对齐”,是 L2 的技术实现。本节点做的是抽象层升高——把宪法放进六层 persona 剖面,指出它和 L3 边界层的致命耦合①(过度拒绝),CAI 节点把这当成单点争议,本节点把它定位成结构性耦合。不复述 CAI 的 SL/RL 机制。
- 对照 p305 - 信任架构与可解释性设计:p305 讲”信任校准”和折叠推理面板等可解释性设计,是 L4 可见性的信任视角。本节点做的是对话与深化——p305 把”露出推理”当信任增益,本节点用 Goffman 前后台框架补一刀:露出的后台可能是新前台,可见性↔信任(耦合②)远比”露 = 加分”复杂。两节点应互链。
- 对照 幻觉:幻觉节点讲幻觉的技术成因,本节点只用它做 L6 的一个设计空白点(幻觉类错误用户无明确道歉偏好)——是补缺:在幻觉的”恢复设计”维度补一块经验证据,不碰其技术机制。
§13 关联节点
核心(必读)
- Constitutional AI — L2 价值层的技术实现,耦合①的源头
- p305 - 信任架构与可解释性设计 — L4 可见性的信任视角,耦合②对话节点
- ChatGPT — OpenAI 路线(价值可覆盖 + 藏后台)的实例锚
- Claude — Anthropic 路线(价值不可覆盖 + 露后台)的实例锚
- Anthropic — character training / Constitution 的来源
- 幻觉 — L6 错误修复的设计空白区
- 0117社会学 — Goffman 前后台框架入口
- 0115道德哲学-伦理学 — Butler 表演性与 Gouldner 伦理真空批判入口
延伸(可选)
- Test-Time Compute — L4 可见性争论的技术背景(extended thinking / o1 CoT)
- Agent — persona 六层在多步 agent 场景下的放大
- AI PM 知识图谱·总索引 — 总索引回链
修订日志
- R0(2026-06-07):首稿。建立六层剖面框架;三个致命耦合(价值↔边界 / 可见性↔信任 / 一致性↔表演性)四件套;Goffman 前后台 + face-work、Butler 表演性双轴落地;对手框架引入 Gouldner、Nussbaum 破 echo chamber。
- R0.1(2026-06-07):grounding pass。WebFetch 逐条核实 7 个 arXiv ID(2412.16720 o1 System Card、2505.13995 ELEPHANT、2507.02745 Who’s Sorry Now、2604.15316 Kadambi、2510.24796 Mutual Wanting、2505.11649 Illusions of Intimacy、2602.07193 Death of a Chatbot、2507.11473 CoT Monitorability),全部确认标题/作者,去除〔待核实〕;ELEPHANT 数字按一手摘要修正为”高约 45 个百分点(通用建议场景)“并补”社会奉承 = 维护用户面子”的 Goffman face-work 反向呼应;o1 0.38% 假对齐比例标注为内部测试数据;Mutual Wanting 具体百分比保留为据简报、不伪装成一手核实。
- 2026-06-12 内审·arXiv 联网核实:清了 8 个/存疑 0 个。本节 8 个 arXiv ID 直接 WebFetch 重核全部确证:2412.16720 = OpenAI o1 System Card(arXiv v1 提交 2024-12-21)、2505.13995 = Cheng《ELEPHANT…》(2025)、2507.02745 = Ashktorab《Who’s Sorry Now…》(2025)、2604.15316 = Kadambi《Anthropomorphism and Trust…》(2026)、2510.24796 = Shang《Mutual Wanting…》(2025)、2505.11649 = Chu《Illusions of Intimacy…》(2025)、2602.07193 = Poonsiriwong《“Death” of a Chatbot…》(2026)、2507.11473 = Korbak《Chain of Thought Monitorability…》(2025),标题/作者/年份与本节引述吻合。§7 D 维”7 个”为笔误,实列 8 项(已逐一核实)。