A01 失败考古学方法论
为什么一个想从失败里学东西的 AI PM,必须先杀死”逐案学习”这个本能——本节点要解决的问题是:当你面前堆着 Bard 翻车、Tay 被教坏、Air Canada 被判赔、Character.AI 致死这些惊悚案例时,你到底该怎么”学”它们,才不会学成一个只会复述故事、却无法迁移到自己产品上的人。本节的框架名叫失败考古学(Failure Archaeology):不把失败当个案收藏,而当地层发掘——从一层层堆叠的事故沉积里,反推出可迁移的设计原则。这是整个 0416 专题的方法论地基。
§0 为什么是”考古学”而不是”案例集”
读者脑子里此刻大概率装着一个错误的默认框架:案例集(case study collection)。打开任何一个 AI 安全媒体页,都是”十大 AI 翻车事件”式的清单——每个案例配一段经过、一句”教训是要重视测试”。这个框架的致命缺陷不在它讲的故事错,而在它学习的单位错了:它把”案例”当成原子,于是你能记住 Bard 把系外行星首图说成了 JWST 拍的(实为 2004 年 ESO 的 VLT 完成,早 17 年),却无法回答”我的产品会不会犯同类错误”。
“考古学”这个隐喻替换掉的,正是这个学习单位。考古学家不会因为挖到一只陶罐就写一篇”这只陶罐的故事”;他关心的是地层、共生关系、和器物背后那套已经消失的生产方式。借用福柯《知识考古学》的用法——考古学不追问”事件为何发生”(那是 history 的事),而追问”是什么样的底层结构,使这一类事件成为可能、并被当作正常”。套到 AI 失败上:我们要问的不是”Tay 为什么被教坏”,而是”是什么样的产品结构,使得’上线即被对抗性输入攻陷’成为一整类可预测的失败”。
这就引出一个比”案例 vs 考古”更根本的辨析——幸存者偏差(survivorship bias):为什么研究失败 > 研究成功。
§1 幸存者偏差:成功案例是会骗人的样本
二战时盟军统计返航轰炸机的弹孔分布,想在中弹最密的机翼、机尾加装甲。统计学家 Abraham Wald 指出:你看到的是飞回来了的飞机,中弹最密处恰恰是”中了也能飞回来”的非致命部位;真正该加固的是样本里看不到的——发动机和驾驶舱,因为中那里的都没飞回来。这是幸存者偏差的原型。
AI 产品分析里这个偏差是结构性的,且方向明确:
- 成功是被报道、被复盘、被写进 PR 稿的;失败是被悄悄下线、被法务封口、被 NDA 盖住的。 McDonald’s 与 IBM 的 AI 点餐合作 2024 年 6 月宣布终止、7 月前从 100+ 门店下线(来源:CNBC, 2024-06-17),这是少数”失败被公开”的;更多 PoC 死在内部,连名字都不会留下。Gartner 2024-07-29 的一手调查(822 名商业领袖样本)预测:到 2025 年底,至少 30% 的生成式 AI 项目会在 PoC 后被放弃——这 30% 里绝大多数你永远不会读到案例。
- 成功案例的”成功归因”高度不可靠。 你读到的”某公司用 RAG 把客服满意度提升了 X%“,无法分离出到底是 RAG 起作用,还是同期换了人、改了流程、降了价。成功是多因的,归因是事后叙事。
- 失败的因果链反而更清晰。 Air Canada 案(Moffatt v. Air Canada, 2024 BCCRT 149,裁决 2024-02-19)里,机器人凭空”幻觉”出一条不存在的丧亲票退款政策,用户照做、被拒、起诉、胜诉——因果链一条到底,赔偿 CAD $650.88 板上钉钉。失败比成功信息密度高,因为失败暴露了系统的真实边界,而成功只证明”在那个特定环境里没出事”。
[!note] 判断主轴(这是本节点的命门) 把失败当个案来学,会得到无法迁移的知识。 你记住了一百个故事,下次面对一个没见过的产品形态时,一个都用不上——因为故事是绑定在具体场景上的,而场景永远在变。可迁移的不是案例,是分类学。
§2 case-by-case 的三个失效,与分类学的解法
把失败逐案学习,会在三个地方系统性失效。每个失效都对应一个”症状 → 为什么会错 → 正确做法 → 真实反例”:
失效一:覆盖率幻觉。
- 症状:团队复盘完十个案例,觉得”主要的坑都知道了”。
- 为什么会错:案例数永远追不上失败模式的组合数。AI Incident Database 截至 2026-06-04 收录 1,516 个 incidents,AIAAIC 库到 2024-09 有 1,009 incidents + 411 issues——而且两库 schema 不兼容、连”什么算一个 incident”的边界都不一致(来源:arxiv 2501.17037v1, IEEE PuneCon 2024)。靠枚举案例追求覆盖,是在追一个发散的数列。
- 正确做法:建有限的分类轴。失败模式可能无穷,但产生失败的结构性位置是有限的。
- 真实反例:CMU 2023 年 7 月那项研究——用自动化搜索的”对抗后缀”,同一套方法就绕过了 ChatGPT、Bard、Bing、Claude 2 的内容过滤(来源:Fortune, 2023-07-28)。如果你是逐案学习”Bard 怎么被绕过""Claude 怎么被绕过”,你会写四份复盘;如果你按分类学认出这是同一个input 类失败(边界处的对抗性输入),你一份就够,且能预判第五个模型。
失效二:确认偏差陷阱。
- 症状:先有了”AI 不靠谱”或”AI 很强”的结论,再去案例库里挑证据。
- 为什么会错:1,500+ 案例足够你给任何预设结论凑齐弹药。
- 正确做法:先分类,再分析——这恰好是 AI 版无责复盘(blameless post-mortem)方法论的核心转向(来源:tianpan.co, 2026-04-19)。先把一个失败归入它的类别,再分析,可以挡住”挑选支持我观点的案例”这个动作。
- 真实反例:学术界长期过度关注对抗攻击(adversarial attacks),但对 133 个 AIID incidents 的实证分析(AAAI AIES 论文)显示,真实事故里最普遍的是”不可靠输出”和”偏见”,对抗攻击占比远低于误解和误用;对生成式 AI 而言,误用(misuse)才是最主要威胁向量。研究者按自己熟悉的框架挑案例,挑出了一个与现实分布不符的图景。
失效三:“fix the prompt”反射。
- 症状:每次 AI 出错,第一反应是”改提示词”。
- 为什么会错:相同输入可产生不同输出,“改 prompt”往往只是把症状压回去,而真正的根因在别处。AI 失败有五类是 prompt 改不动的:基础设施(上下文窗口耗尽、检索延迟)、数据(文档过时、embedding 漂移)、模型退化(provider 侧权重更新、概念漂移)、Agentic 协调失败、安全漏洞(来源:tianpan.co, 2026-04-19)。
- 正确做法:把”发生了什么变化?“换成”什么发生了漂移?“——追踪输出分布,而非离散事件;记录失败的分布而非孤立实例。
- 真实反例:某团队的 agentic 循环因未检测到的无限对话循环,四周内每周成本从 $127 暴涨到 $47,000(来源:ZenML LLMOps Database, 2025)。这不是任何一句 prompt 能修的,是系统级(organizational/boundary 类)失败。
解法是一套五类失败分类学,贯穿整个 0416 专题:
| 失败类别 | 一句话定义 | 本专题代表案例 |
|---|---|---|
| Input 失败 | 进入模型的内容被污染或对抗 | Prompt injection(Bing “Sydney” 系统提示泄露, 2023-02-08)、Tay 被对抗性输入教坏(2016-03) |
| Output 失败 | 模型产出本身不可靠 | Bard 系外行星事实错误(2023-02)、幻觉、谄媚 |
| Boundary 失败 | 系统与外部世界的契约边界出错 | Air Canada 机器人误导被判赔(2024-02)、Chevrolet $1 报价提示注入(2023-12) |
| Adoption 失败 | 用户如何理解和使用产品出错 | Character.AI 青少年情感依赖致死(2024-02 去世,2026-01 和解)、律师提交 ChatGPT 伪造判例 |
| Organizational 失败 | 组织流程/激励/治理出错 | 成本失控、demo-to-production gap、发布门禁缺失 |
这五类不是案例的标签,是地层。同一个事故可以同时属于多层(Character.AI 既是 output 也是 adoption),但分类学让你能问出”我的产品在这五层上各自暴露了什么”,而不是”我见过哪些故事”。
§3 从失败反推设计原则:考古学的”逆向工程”动作
考古学的关键动作不是分类本身,而是从失败反推它否定了哪条设计原则。每个公开事故,本质上是一次免费的”反向需求挖掘”:
- Air Canada 案否定的设计原则是”AI 输出可以无核验层直接对外承诺”——反推出boundary 类的正面原则:高风险输出必须有事实核验层 + 免责/转介机制。
- Tay 案否定的是”上线即开放学习、无对抗性输入防护”——反推出 input 类原则:开放学习的产品必须预设对抗性输入是常态而非异常(这是 RLHF 前时代的教科书漏洞,RLHF 和 Constitutional AI 后来正是针对这类问题的对齐机制)。
- Microsoft 自己复盘 Bing Sydney 时那句话最诚实:“在实验室环境中只能发现那么多问题,必须真正面向客户测试才能找到这类场景”(来源:NPR, 2023-02-27)——它否定的是”实验室红队足以覆盖延长会话/情感操纵场景”,反推出 organizational 原则:红队测试必须覆盖长程交互与角色扮演类攻击面。
这个”反推”动作,把一次性的故事变成了可复用的原则。它也正是本专题与 m207 - Agent 产品化:场景推演与失败模式 的分工点:m207 已经为 Agent 建好了六类失败模式表(规划/工具调用/推理/无限循环/雪崩/安全越界)和 HITL 断点框架——那是前瞻式的”推演还没发生的失败”;本专题做的是回溯式的”从已发生的事故反推原则”。两者是同一枚硬币的两面:推演提供假设,考古提供证伪。
§4 跨域呼应:安全工程事故分析(Rick 的不公平优势)
这里是本专题真正的不公平优势所在。Rick 作为滴滴/99 安全产品 PM,手里握着一整套安全工程事故分析理论——这套理论比 AI 圈自己摸索出的失败方法论成熟了三四十年,而且方向完全一致。
Charles Perrow 的正常事故理论(Normal Accident Theory,1984) 是第一块基石。Perrow 用两个维度刻画系统风险:交互复杂性(组件间非线性、非预期的相互作用)和紧耦合(失效后无缓冲、序列不可改)。他的命题是:同时具备这两个特征的系统,灾难性事故是正常的(normal/inevitable),不能被设计消除,只能降频。Williams & Yampolskiy(arXiv:2104.12582, 2021)与 Dobbe(arXiv:2202.09292, 2022)已经论证:当前 AI 系统满足 NAT 两个核心条件——算法黑箱带来交互复杂性,agent 调用链/算法间直接交互带来紧耦合。其经典类比是 2010 年的闪电崩盘(Flash Crash):每个交易算法各自运行正常,系统整体崩盘。
对 Rick 而言,这直接接到他的 降发生方法论。降发生的内核是海恩法则——每起严重事故背后有大量征兆和未遂。这与失败考古学的”记录失败分布而非孤立实例”是同构的:你不是等致命事故发生才学,而是把大量”未遂的小失败”当作地层来读。海恩法则的分层逻辑也正好支撑 c13 - 幻觉的不可消除性 里的”幻觉率分层容忍”——既然 幻觉 是概率采样的结构性结果(不可消除),那就不能追求归零,而要像安全工程那样按后果严重度分层设防。
James Reason 的瑞士奶酪模型(1990) 是第二块。每层防御都有”洞”(弱点),单层有洞不出事,事故是多层洞眼对齐、轨迹贯穿。这恰好解释了为什么 AI 事故几乎从不是单点失效:Air Canada 案是”无核验层 + 无免责提示 + 无高风险领域转介”三层洞同时对齐。Reason 区分主动失效(操作者的不安全行为)和潜在条件(系统深层、长期潜伏的缺陷)——这给本专题的 organizational 类失败提供了语言。值得标注的是一处对手框架:Nancy Leveson 公开批评瑞士奶酪模型是 Heinrich 1931 年多米诺骨牌模型的过时变体,因为它把防御层当作独立变量、忽略了系统的涌现性(来源:TU Delft Research Portal)。
[!note] 接受 + 边界(对手立场回应) 接受 Leveson 的批评对的部分:在紧耦合的 AI agent 系统里,防御层确实不独立——一个被污染的 input 会同时穿透多层(EchoLeak/CVE-2025-32711 的零点击利用链就是绕过 XPIA 分类器 + Markdown 链接脱敏 + CSP 三层)。但坚持本专题的边界:瑞士奶酪模型作为沟通工具和初级归因脚手架仍然高价值——它让一个非安全背景的 AI PM 在 5 分钟内理解”为什么不能指望单层 guardrail”。我赌的是:方法论的可教性 > 理论的精确性,至少在 PM 入门阶段。Leveson 的 STAMP(系统理论事故模型)更精确,但需要建完整的层级控制结构图,PM 的日常决策节奏等不起。
这就是本专题相对 AI 圈原生方法论的升高之处:AI 失败方法论(如 Microsoft 2025-04 的 Agentic AI failure modes 白皮书、arxiv 2511.19933 的 15 个 LLM 隐藏失败模式)大多是 2019 年后从零摸索的,而安全工程已经把”失败必然性""多层防御""边界迁移""系统约束未被执行”这些概念锤炼了 40 年。把它们调度过来,不是装饰,是真的让 Rick 在面试桌上能说出别人说不出的判断——这正是 安全感知与干预 在滴滴的多层级干预设计(感知 → 低置信标注 → 提示人工 → 转接人工)与 p304 - 防御性 UX:对抗延迟与幻觉 的”优雅降级四层”高度同构的原因。
[!warning] failure scenario:本节点的方法论在哪失效 把安全工程理论搬到 AI 有一个真实风险点——类比过度。Perrow 的 NAT、Reason 的奶酪都诞生于物理因果系统(核电、航空),那里”组件失效”有明确定义;而 LLM 是统计推断系统,“相同输入产生不同输出”,没有传统意义的”组件故障”。本专题在 organizational 和 boundary 类失败上用安全工程框架最稳;在 output 类(幻觉、谄媚)上,安全工程的因果模型会水土不服——那里更需要的是概率/校准视角而非故障树。这是我下的赌注的边界。
§5 产品 PM 视角补盲:失败考古学的三个非工程盲点
跳出工程视角,PM 还要看见三件容易看走眼的事:
- 法律地层正在快速成形,且不可逆。 Air Canada 案确立了”机器人不能当免责盾牌”(虽然 BC 民事裁判所属行政机构、非有约束力先例,只有说服力——这点必须诚实标注);Character.AI 案(Google 与 Character.AI 已于 2026-01-07 与 Setzer 家庭和解,金额未披露)则把”产品设计缺陷致未成年人伤害”推向了人身责任。PM 读失败,不能只读技术,要读裁决——因为裁决会变成下一代产品的硬约束。
- “失败 vs 恶作剧”的归因之争是真实的产品决策。 Chevrolet $1 报价案,技术圈分裂:一派认为这是用户蓄意滥用、不算产品失败;另一派认为产品本身无 prompt injection 防护、是真实设计缺陷。PM 必须有立场——本专题的立场是:凡是可被预见的对抗性使用,就是产品的责任边界,不是用户的道德问题。这直接对应 Rick 的 顺风车安全:在安全产品里,“用户恶意使用”从来不是免责理由,而是必须前置防御的设计输入。
- 失败的传播速度远超修复速度。 Chevrolet 截图 6 小时 500 万浏览、次日 2000 万;Bard 错误两天蒸发约 1000 亿美元市值(多数来源一致,但部分分析师认为叠加了宏观因素,需标注)。PM 要意识到:AI 失败的声誉地层比技术地层更难回填。
§6 PM 决策启示:三类落地
- 面试怎么用:当被问”你怎么看 AI 产品的可靠性”,不要复述案例。给出框架——“我不做 case-by-case,我建五类失败分类学(input/output/boundary/adoption/organizational),从失败反推设计原则;这套方法论我接的是安全工程的正常事故理论和瑞士奶酪模型。“30 秒,立刻区分于只会讲故事的候选人。
- 选型怎么用:评估一个 AI 供应商时,不问”你出过什么事故”(他不会真说),问”你们对这五类失败各自的防御层是什么,哪些是事后补的(如 OpenAI 的 Bug Bounty 是 2023 数据泄露后才设的)”。
- 复现怎么用:自己做产品复盘时,强制走”先分类、再分析”,并把”fix the prompt”列为可疑动作——每次想改 prompt 时先问”这是不是 output 类,会不会其实是 boundary/organizational 类伪装成 output”。
§7 与已有节点的关系
本节点是 0416 专题的方法论入口,与既有节点的关系是升级对照,不复述其事实基础:
- 对 m207 - Agent 产品化:场景推演与失败模式:对话 + 互补。m207 是前瞻式失败推演(六类 Agent 失败模式 + HITL 断点),本节点是回溯式失败考古;m207 提供假设,本专题提供证伪与原则反推。
- 对 c13 - 幻觉的不可消除性:深化。c13 论证幻觉不可消除,本节点把它接入安全工程的”事故必然性”(Perrow NAT)——不可消除 ≠ 不可治理,而是要按后果分层设防,这是从”架构事实”到”方法论原则”的升高。
- 对 p304 - 防御性 UX:对抗延迟与幻觉 与 p305 - 信任架构与可解释性设计:纠偏 + 补缺。p304/p305 提供单点防御 UX;本节点提供”为什么单层防御必然失败”的系统论依据(瑞士奶酪),把零散的防御 UX 织成多层结构。
- 对 0412 评测专题 A07 Red Teaming 作为评测实践(即红队所在节点):显式升级对照。0412 在评测语境下把红队当对抗评测方法,本专题从事故回溯角度补入”红队为何会漏掉延长会话/情感操纵”——Microsoft Bing Sydney 是这条对照的真实弹药。两者不复述,互为补角。
§8 关联节点
核心(必读)
- m207 - Agent 产品化:场景推演与失败模式
- c13 - 幻觉的不可消除性
- 降发生方法论
- 安全感知与干预
- 幻觉
延伸(可选)
- p304 - 防御性 UX:对抗延迟与幻觉
- p305 - 信任架构与可解释性设计
- RLHF
- Constitutional AI
- Agent
- 明镜系统
- 顺风车安全
- Anthropic
- ChatGPT
- Gemini
- 0117社会学
- 0115道德哲学-伦理学
- AI PM 知识图谱·总索引
修订日志
- R0(2026-06-07):首稿。确立失败考古学方法论框架——幸存者偏差论证(为何研究失败 > 研究成功)、case-by-case 三失效(覆盖率幻觉/确认偏差/fix-the-prompt 反射)、五类失败分类学(input/output/boundary/adoption/organizational)、从失败反推设计原则的逆向动作。跨域调度安全工程事故分析(Perrow NAT / Reason 瑞士奶酪),接 Rick 降发生方法论 与 安全感知与干预;含 Leveson 对瑞士奶酪的对手批评(接受+边界)与”安全工程类比过度”failure scenario。所有案例细节(Bard/Tay/Air Canada/Character.AI/Chevrolet/CMU/AIID/Gartner)已 WebSearch 核实并标来源年份。