A01 失败考古学方法论 · 知识库

为什么一个想从失败里学东西的 AI PM，必须先杀死”逐案学习”这个本能——本节点要解决的问题是：当你面前堆着 Bard 翻车、Tay 被教坏、Air Canada 被判赔、Character.AI 致死这些惊悚案例时，你到底该怎么”学”它们，才不会学成一个只会复述故事、却无法迁移到自己产品上的人。本节的框架名叫失败考古学（Failure Archaeology）：不把失败当个案收藏，而当地层发掘——从一层层堆叠的事故沉积里,反推出可迁移的设计原则。这是整个 0416 专题的方法论地基。

§0 为什么是”考古学”而不是”案例集”

读者脑子里此刻大概率装着一个错误的默认框架：案例集（case study collection）。打开任何一个 AI 安全媒体页，都是”十大 AI 翻车事件”式的清单——每个案例配一段经过、一句”教训是要重视测试”。这个框架的致命缺陷不在它讲的故事错，而在它学习的单位错了：它把”案例”当成原子，于是你能记住 Bard 把系外行星首图说成了 JWST 拍的（实为 2004 年 ESO 的 VLT 完成，早 17 年），却无法回答”我的产品会不会犯同类错误”。

“考古学”这个隐喻替换掉的，正是这个学习单位。考古学家不会因为挖到一只陶罐就写一篇”这只陶罐的故事”；他关心的是地层、共生关系、和器物背后那套已经消失的生产方式。借用福柯《知识考古学》的用法——考古学不追问”事件为何发生”（那是 history 的事），而追问”是什么样的底层结构，使这一类事件成为可能、并被当作正常”。套到 AI 失败上：我们要问的不是”Tay 为什么被教坏”，而是”是什么样的产品结构，使得’上线即被对抗性输入攻陷’成为一整类可预测的失败”。

这就引出一个比”案例 vs 考古”更根本的辨析——幸存者偏差（survivorship bias）：为什么研究失败 > 研究成功。

§1 幸存者偏差：成功案例是会骗人的样本

二战时盟军统计返航轰炸机的弹孔分布，想在中弹最密的机翼、机尾加装甲。统计学家 Abraham Wald 指出：你看到的是飞回来了的飞机，中弹最密处恰恰是”中了也能飞回来”的非致命部位；真正该加固的是样本里看不到的——发动机和驾驶舱，因为中那里的都没飞回来。这是幸存者偏差的原型。

AI 产品分析里这个偏差是结构性的，且方向明确：

成功是被报道、被复盘、被写进 PR 稿的；失败是被悄悄下线、被法务封口、被 NDA 盖住的。 McDonald’s 与 IBM 的 AI 点餐合作 2024 年 6 月宣布终止、7 月前从 100+ 门店下线（来源：CNBC, 2024-06-17），这是少数”失败被公开”的；更多 PoC 死在内部，连名字都不会留下。Gartner 2024-07-29 的一手调查（822 名商业领袖样本）预测：到 2025 年底，至少 30% 的生成式 AI 项目会在 PoC 后被放弃——这 30% 里绝大多数你永远不会读到案例。
成功案例的”成功归因”高度不可靠。 你读到的”某公司用 RAG 把客服满意度提升了 X%“，无法分离出到底是 RAG 起作用，还是同期换了人、改了流程、降了价。成功是多因的，归因是事后叙事。
失败的因果链反而更清晰。 Air Canada 案（Moffatt v. Air Canada, 2024 BCCRT 149，裁决 2024-02-19）里，机器人凭空”幻觉”出一条不存在的丧亲票退款政策，用户照做、被拒、起诉、胜诉——因果链一条到底，赔偿 CAD $650.88 板上钉钉。失败比成功信息密度高，因为失败暴露了系统的真实边界，而成功只证明”在那个特定环境里没出事”。

[!note] 判断主轴（这是本节点的命门） 把失败当个案来学，会得到无法迁移的知识。 你记住了一百个故事，下次面对一个没见过的产品形态时，一个都用不上——因为故事是绑定在具体场景上的，而场景永远在变。可迁移的不是案例，是分类学。

§2 case-by-case 的三个失效，与分类学的解法

把失败逐案学习，会在三个地方系统性失效。每个失效都对应一个”症状 → 为什么会错 → 正确做法 → 真实反例”：

失效一：覆盖率幻觉。

症状：团队复盘完十个案例，觉得”主要的坑都知道了”。
为什么会错：案例数永远追不上失败模式的组合数。AI Incident Database 截至 2026-06-04 收录 1,516 个 incidents，AIAAIC 库到 2024-09 有 1,009 incidents + 411 issues——而且两库 schema 不兼容、连”什么算一个 incident”的边界都不一致（来源：arxiv 2501.17037v1, IEEE PuneCon 2024）。靠枚举案例追求覆盖，是在追一个发散的数列。
正确做法：建有限的分类轴。失败模式可能无穷，但产生失败的结构性位置是有限的。
真实反例：CMU 2023 年 7 月那项研究——用自动化搜索的”对抗后缀”，同一套方法就绕过了 ChatGPT、Bard、Bing、Claude 2 的内容过滤（来源：Fortune, 2023-07-28）。如果你是逐案学习”Bard 怎么被绕过""Claude 怎么被绕过”，你会写四份复盘；如果你按分类学认出这是同一个input 类失败（边界处的对抗性输入），你一份就够，且能预判第五个模型。

失效二：确认偏差陷阱。

症状：先有了”AI 不靠谱”或”AI 很强”的结论，再去案例库里挑证据。
为什么会错：1,500+ 案例足够你给任何预设结论凑齐弹药。
正确做法：先分类，再分析——这恰好是 AI 版无责复盘（blameless post-mortem）方法论的核心转向（来源：tianpan.co, 2026-04-19）。先把一个失败归入它的类别，再分析，可以挡住”挑选支持我观点的案例”这个动作。
真实反例：学术界长期过度关注对抗攻击（adversarial attacks），但对 133 个 AIID incidents 的实证分析（AAAI AIES 论文）显示，真实事故里最普遍的是”不可靠输出”和”偏见”，对抗攻击占比远低于误解和误用；对生成式 AI 而言，误用（misuse）才是最主要威胁向量。研究者按自己熟悉的框架挑案例，挑出了一个与现实分布不符的图景。

失效三：“fix the prompt”反射。

症状：每次 AI 出错，第一反应是”改提示词”。
为什么会错：相同输入可产生不同输出，“改 prompt”往往只是把症状压回去，而真正的根因在别处。AI 失败有五类是 prompt 改不动的：基础设施（上下文窗口耗尽、检索延迟）、数据（文档过时、embedding 漂移）、模型退化（provider 侧权重更新、概念漂移）、Agentic 协调失败、安全漏洞（来源：tianpan.co, 2026-04-19）。
正确做法：把”发生了什么变化？“换成”什么发生了漂移？“——追踪输出分布，而非离散事件；记录失败的分布而非孤立实例。
真实反例：某团队的 agentic 循环因未检测到的无限对话循环，四周内每周成本从 $127 暴涨到 $47,000（来源：ZenML LLMOps Database, 2025）。这不是任何一句 prompt 能修的，是系统级（organizational/boundary 类）失败。

解法是一套五类失败分类学，贯穿整个 0416 专题：

失败类别	一句话定义	本专题代表案例
Input 失败	进入模型的内容被污染或对抗	Prompt injection（Bing “Sydney” 系统提示泄露, 2023-02-08）、Tay 被对抗性输入教坏（2016-03）
Output 失败	模型产出本身不可靠	Bard 系外行星事实错误（2023-02）、幻觉、谄媚
Boundary 失败	系统与外部世界的契约边界出错	Air Canada 机器人误导被判赔（2024-02）、Chevrolet $1 报价提示注入（2023-12）
Adoption 失败	用户如何理解和使用产品出错	Character.AI 青少年情感依赖致死（2024-02 去世，2026-01 和解）、律师提交 ChatGPT 伪造判例
Organizational 失败	组织流程/激励/治理出错	成本失控、demo-to-production gap、发布门禁缺失

这五类不是案例的标签，是地层。同一个事故可以同时属于多层（Character.AI 既是 output 也是 adoption），但分类学让你能问出”我的产品在这五层上各自暴露了什么”，而不是”我见过哪些故事”。

§3 从失败反推设计原则：考古学的”逆向工程”动作

考古学的关键动作不是分类本身，而是从失败反推它否定了哪条设计原则。每个公开事故，本质上是一次免费的”反向需求挖掘”：

Air Canada 案否定的设计原则是”AI 输出可以无核验层直接对外承诺”——反推出boundary 类的正面原则：高风险输出必须有事实核验层 + 免责/转介机制。
Tay 案否定的是”上线即开放学习、无对抗性输入防护”——反推出 input 类原则：开放学习的产品必须预设对抗性输入是常态而非异常（这是 RLHF 前时代的教科书漏洞，RLHF 和 Constitutional AI 后来正是针对这类问题的对齐机制）。
Microsoft 自己复盘 Bing Sydney 时那句话最诚实：“在实验室环境中只能发现那么多问题，必须真正面向客户测试才能找到这类场景”（来源：NPR, 2023-02-27）——它否定的是”实验室红队足以覆盖延长会话/情感操纵场景”，反推出 organizational 原则：红队测试必须覆盖长程交互与角色扮演类攻击面。

这个”反推”动作，把一次性的故事变成了可复用的原则。它也正是本专题与 m207 - Agent 产品化：场景推演与失败模式的分工点：m207 已经为 Agent 建好了六类失败模式表（规划/工具调用/推理/无限循环/雪崩/安全越界）和 HITL 断点框架——那是前瞻式的”推演还没发生的失败”；本专题做的是回溯式的”从已发生的事故反推原则”。两者是同一枚硬币的两面：推演提供假设，考古提供证伪。

§4 跨域呼应：安全工程事故分析（Rick 的不公平优势）

这里是本专题真正的不公平优势所在。Rick 作为滴滴/99 安全产品 PM，手里握着一整套安全工程事故分析理论——这套理论比 AI 圈自己摸索出的失败方法论成熟了三四十年，而且方向完全一致。

Charles Perrow 的正常事故理论（Normal Accident Theory，1984） 是第一块基石。Perrow 用两个维度刻画系统风险：交互复杂性（组件间非线性、非预期的相互作用）和紧耦合（失效后无缓冲、序列不可改）。他的命题是：同时具备这两个特征的系统，灾难性事故是正常的（normal/inevitable），不能被设计消除，只能降频。Williams & Yampolskiy（arXiv:2104.12582, 2021）与 Dobbe（arXiv:2202.09292, 2022）已经论证：当前 AI 系统满足 NAT 两个核心条件——算法黑箱带来交互复杂性，agent 调用链/算法间直接交互带来紧耦合。其经典类比是 2010 年的闪电崩盘（Flash Crash）：每个交易算法各自运行正常，系统整体崩盘。

对 Rick 而言，这直接接到他的降发生方法论。降发生的内核是海恩法则——每起严重事故背后有大量征兆和未遂。这与失败考古学的”记录失败分布而非孤立实例”是同构的：你不是等致命事故发生才学，而是把大量”未遂的小失败”当作地层来读。海恩法则的分层逻辑也正好支撑 c13 - 幻觉的不可消除性里的”幻觉率分层容忍”——既然幻觉是概率采样的结构性结果（不可消除），那就不能追求归零，而要像安全工程那样按后果严重度分层设防。

James Reason 的瑞士奶酪模型（1990） 是第二块。每层防御都有”洞”（弱点），单层有洞不出事，事故是多层洞眼对齐、轨迹贯穿。这恰好解释了为什么 AI 事故几乎从不是单点失效：Air Canada 案是”无核验层 + 无免责提示 + 无高风险领域转介”三层洞同时对齐。Reason 区分主动失效（操作者的不安全行为）和潜在条件（系统深层、长期潜伏的缺陷）——这给本专题的 organizational 类失败提供了语言。值得标注的是一处对手框架：Nancy Leveson 公开批评瑞士奶酪模型是 Heinrich 1931 年多米诺骨牌模型的过时变体，因为它把防御层当作独立变量、忽略了系统的涌现性（来源：TU Delft Research Portal）。

[!note] 接受 + 边界（对手立场回应）接受 Leveson 的批评对的部分：在紧耦合的 AI agent 系统里，防御层确实不独立——一个被污染的 input 会同时穿透多层（EchoLeak/CVE-2025-32711 的零点击利用链就是绕过 XPIA 分类器 + Markdown 链接脱敏 + CSP 三层）。但坚持本专题的边界：瑞士奶酪模型作为沟通工具和初级归因脚手架仍然高价值——它让一个非安全背景的 AI PM 在 5 分钟内理解”为什么不能指望单层 guardrail”。我赌的是：方法论的可教性 > 理论的精确性，至少在 PM 入门阶段。Leveson 的 STAMP（系统理论事故模型）更精确，但需要建完整的层级控制结构图，PM 的日常决策节奏等不起。

这就是本专题相对 AI 圈原生方法论的升高之处：AI 失败方法论（如 Microsoft 2025-04 的 Agentic AI failure modes 白皮书、arxiv 2511.19933 的 15 个 LLM 隐藏失败模式）大多是 2019 年后从零摸索的，而安全工程已经把”失败必然性""多层防御""边界迁移""系统约束未被执行”这些概念锤炼了 40 年。把它们调度过来，不是装饰，是真的让 Rick 在面试桌上能说出别人说不出的判断——这正是安全感知与干预在滴滴的多层级干预设计（感知 → 低置信标注 → 提示人工 → 转接人工）与 p304 - 防御性 UX：对抗延迟与幻觉的”优雅降级四层”高度同构的原因。

[!warning] failure scenario：本节点的方法论在哪失效把安全工程理论搬到 AI 有一个真实风险点——类比过度。Perrow 的 NAT、Reason 的奶酪都诞生于物理因果系统（核电、航空），那里”组件失效”有明确定义；而 LLM 是统计推断系统，“相同输入产生不同输出”，没有传统意义的”组件故障”。本专题在 organizational 和 boundary 类失败上用安全工程框架最稳；在 output 类（幻觉、谄媚）上，安全工程的因果模型会水土不服——那里更需要的是概率/校准视角而非故障树。这是我下的赌注的边界。

§5 产品 PM 视角补盲：失败考古学的三个非工程盲点

跳出工程视角，PM 还要看见三件容易看走眼的事：

法律地层正在快速成形，且不可逆。 Air Canada 案确立了”机器人不能当免责盾牌”（虽然 BC 民事裁判所属行政机构、非有约束力先例，只有说服力——这点必须诚实标注）；Character.AI 案（Google 与 Character.AI 已于 2026-01-07 与 Setzer 家庭和解，金额未披露）则把”产品设计缺陷致未成年人伤害”推向了人身责任。PM 读失败，不能只读技术，要读裁决——因为裁决会变成下一代产品的硬约束。
“失败 vs 恶作剧”的归因之争是真实的产品决策。 Chevrolet $1 报价案，技术圈分裂：一派认为这是用户蓄意滥用、不算产品失败；另一派认为产品本身无 prompt injection 防护、是真实设计缺陷。PM 必须有立场——本专题的立场是：凡是可被预见的对抗性使用，就是产品的责任边界，不是用户的道德问题。这直接对应 Rick 的顺风车安全：在安全产品里，“用户恶意使用”从来不是免责理由，而是必须前置防御的设计输入。
失败的传播速度远超修复速度。 Chevrolet 截图 6 小时 500 万浏览、次日 2000 万；Bard 错误两天蒸发约 1000 亿美元市值（多数来源一致，但部分分析师认为叠加了宏观因素，需标注）。PM 要意识到：AI 失败的声誉地层比技术地层更难回填。

§6 PM 决策启示：三类落地

面试怎么用：当被问”你怎么看 AI 产品的可靠性”，不要复述案例。给出框架——“我不做 case-by-case，我建五类失败分类学（input/output/boundary/adoption/organizational），从失败反推设计原则；这套方法论我接的是安全工程的正常事故理论和瑞士奶酪模型。“30 秒，立刻区分于只会讲故事的候选人。
选型怎么用：评估一个 AI 供应商时，不问”你出过什么事故”（他不会真说），问”你们对这五类失败各自的防御层是什么，哪些是事后补的（如 OpenAI 的 Bug Bounty 是 2023 数据泄露后才设的）”。
复现怎么用：自己做产品复盘时，强制走”先分类、再分析”，并把”fix the prompt”列为可疑动作——每次想改 prompt 时先问”这是不是 output 类，会不会其实是 boundary/organizational 类伪装成 output”。

§7 与已有节点的关系

本节点是 0416 专题的方法论入口，与既有节点的关系是升级对照，不复述其事实基础：

对 m207 - Agent 产品化：场景推演与失败模式：对话 + 互补。m207 是前瞻式失败推演（六类 Agent 失败模式 + HITL 断点），本节点是回溯式失败考古；m207 提供假设，本专题提供证伪与原则反推。
对 c13 - 幻觉的不可消除性：深化。c13 论证幻觉不可消除，本节点把它接入安全工程的”事故必然性”（Perrow NAT）——不可消除 ≠ 不可治理，而是要按后果分层设防，这是从”架构事实”到”方法论原则”的升高。
对 p304 - 防御性 UX：对抗延迟与幻觉与 p305 - 信任架构与可解释性设计：纠偏 + 补缺。p304/p305 提供单点防御 UX；本节点提供”为什么单层防御必然失败”的系统论依据（瑞士奶酪），把零散的防御 UX 织成多层结构。
对 0412 评测专题 A07 Red Teaming 作为评测实践（即红队所在节点）：显式升级对照。0412 在评测语境下把红队当对抗评测方法，本专题从事故回溯角度补入”红队为何会漏掉延长会话/情感操纵”——Microsoft Bing Sydney 是这条对照的真实弹药。两者不复述，互为补角。

§8 关联节点

核心（必读）

延伸（可选）

修订日志

R0（2026-06-07）：首稿。确立失败考古学方法论框架——幸存者偏差论证（为何研究失败 > 研究成功）、case-by-case 三失效（覆盖率幻觉/确认偏差/fix-the-prompt 反射）、五类失败分类学（input/output/boundary/adoption/organizational）、从失败反推设计原则的逆向动作。跨域调度安全工程事故分析（Perrow NAT / Reason 瑞士奶酪），接 Rick 降发生方法论与安全感知与干预；含 Leveson 对瑞士奶酪的对手批评（接受+边界）与”安全工程类比过度”failure scenario。所有案例细节（Bard/Tay/Air Canada/Character.AI/Chevrolet/CMU/AIID/Gartner）已 WebSearch 核实并标来源年份。