S02 失败类型 × 产品阶段对照矩阵 · 知识库

把五类失败（input / output / boundary / adoption / organizational）铺在四个产品阶段（定义 / 设计 / 上线 / 运营）上，画一张对照矩阵——本节要解决的问题是：同一类失败，在不同阶段被拦截的成本相差几个数量级，PM 该把有限的防御预算压在哪个格子里。本节的框架名叫”失败-阶段拦截成本曲线”，主轴判断是：失败拦截得越晚，成本越高，且这条曲线是凸的（不是线性，是指数）。这条判断不是我发明的——它是 Rick 在滴滴安全做的降发生方法论的”前置”逻辑在 AI 产品上的同构投影。

[!warning] 事实接地声明本节所有案例的时间、后果、裁决均经 WebSearch 核实并标注来源年份（见 c13 - 幻觉的不可消除性同专题简报）。Character.AI 和解金额未公开、Chevrolet $1 报价未经司法检验、BC 裁判所裁决先例效力有限——这三处的边界已在文中显式标注。无法核实的细节标〔待核实〕。

§0 为什么是”类型 × 阶段”矩阵，而不是”案例时间线”

读到”AI 失败”，PM 脑里默认浮现的框架往往是两种错的：一是案例时间线（Bard→Tay→Air Canada→……，按年份排），二是严重度排序（死了人的最严重，掉市值的次之）。这两种框架都无法回答 PM 真正要决策的问题：我现在站在哪个产品阶段，最该提防哪一类失败，花多少钱拦它划算。

时间线告诉你”发生过什么”，但不告诉你”在哪个环节本可以拦住”。严重度排序告诉你”哪个更可怕”，但把”可怕”和”可拦截性”混为一谈——Character.AI 青少年伤害（人命）和 Chevrolet $1 报价（恶作剧）严重度天差地别，但它们在矩阵里可能落在相似的格子（都是 boundary 类失败在”上线/运营”阶段暴露）。

矩阵框架的优越性在于它把”失败”正交分解成两个独立维度：

失败类型（行）：失败的”病理机制”——来自 c13 - 幻觉的不可消除性同专题 taxonomy，五类：input（输入侧，prompt injection / 投毒）、output（输出侧，幻觉 / 不可靠输出 / 偏见）、boundary（边界侧，权限越界 / 责任归属 / 合同效力）、adoption（采用侧，demo-to-production gap / 用户误用 / 信任崩塌）、organizational（组织侧，发布门禁缺失 / 事故响应失灵 / 安全文化漂移）。
产品阶段（列）：失败被”注入”或”暴露”的时点——定义（problem / scope）、设计（model / UX / guardrail）、上线（launch / red team）、运营（production / incident response）。

正交分解之后，拦截成本成了可以填进每个格子的第三个变量。这正是本节相对 m207 - Agent 产品化：场景推演与失败模式的升级点：m207 的六类失败模式（规划 / 工具调用 / 推理 / 无限循环 / 雪崩 / 安全越界）是单一阶段（运营时 Agent 执行）内的横切分类，回答”Agent 跑起来会怎么崩”；本节把视角拉到全生命周期，回答”崩的那一类，本该在哪个阶段拦”。两者是 zoom-in 与 zoom-out 的关系，不复述。

§1 主矩阵：五类失败 × 四阶段，标最易发格与拦截成本

下表是本节的核心交付物。每格标注：该类失败在该阶段的发生概率（高/中/低）、拦截成本量级（相对值，定义阶段=1）、以及代表性真实案例（已核实）。

失败类型＼阶段	定义（problem/scope）	设计（model/UX/guardrail）	上线（launch/red team）	运营（production/incident）
input 输入侧	低｜成本1（未识别注入威胁面）	中｜成本3（未设输入隔离层）	高｜成本10（red team 漏测注入）→ Chevrolet $1（2023-12）、Bing Sydney 提示泄露（2023-02）	极高｜成本30+（野外利用）→ EchoLeak CVE-2025-32711（CVSS 9.3，2025-06）、SpAIware 记忆投毒（2024-09 修复）
output 输出侧	中｜成本1（未定义”可靠”标准）	高｜成本5（选错模型/无溯源层）→ IBM Watson Oncology（2017-2018）	高｜成本12（demo 事实错误）→ Google Bard JWST 错误（2023-02，~$1000亿市值）	高｜成本20（幻觉进入决策）→ 律师引用虚构判例被罚$5000（2023-06）
boundary 边界侧	高｜成本1（未定义责任/权限边界）	中｜成本4（无核验/免责层）	中｜成本8	极高｜成本40+（法律裁决）→ Air Canada 退款承诺判有效 CAD$650.88〔金额见争议〕（2024-02，Moffatt v. Air Canada 2024 BCCRT 149）
adoption 采用侧	高｜成本1（选了 AI 当前解不了的问题）	中｜成本3（demo 用干净数据掩盖变异）	高｜成本15（信任崩塌）→ Tay 16小时下线（2016-03，96000+推文）	极高｜成本50+（人命/不可逆）→ Character.AI 青少年伤害（Setzer 案 2024-02 去世，2026-01 和解）
organizational 组织侧	极高｜成本1（无发布门禁文化）	高｜成本5（无 pre-mortem 机制）	高｜成本10（red team 形同虚设）	高｜成本25（事故响应失灵）→ ChatGPT 数据泄露后才补 Bug Bounty（2023-03）

[!note] 矩阵怎么读 横向看同一类失败的拦截成本如何随阶段攀升（凸曲线）；纵向看同一阶段最易发哪类失败（加粗格）；对角线（左上→右下）是”最该前置拦截”的高价值防御带——organizational 在定义阶段成本=1，拖到运营成本=25，是 25 倍杠杆。

成本量级是相对示意值（first-order approximation），不是精确测算——它的失效边界在于：不同行业基线差异巨大（医疗 AI 的 output 失败拦截成本远高于消费级聊天），且”成本”混合了金钱、声誉、法律、人命四种不可通约的量纲。这里用单一标尺只为表达”凸性”这一结构判断，不主张跨案例可加总。这与 m207 - Agent 产品化：场景推演与失败模式引用的复合错误数学一样，是模型而非测量。

§2 凸性从哪来：四个阶段的”信息不对称”递减

为什么拦截成本曲线是凸的、而不是线性的？因为每往后一个阶段，修复一个失败需要回退的决策数量呈乘性增长，且失败的暴露面从”内部可见”翻转为”外部不可逆”。

定义阶段：失败还只是”一个没问对的问题”。IBM Watson for Oncology 的根因——用 Memorial Sloan Kettering 的少量假设案例而非真实患者数据训练（来源：STAT News 2018-07-25；c13 - 幻觉的不可消除性同专题简报核实）——本质是定义阶段的 adoption 失败（选了”用合成数据教肿瘤决策”这个 AI 当时解不了的问题）。此时改正只需重写 PRD，成本=1。
设计阶段：失败固化进架构。Air Canada 的退款机器人没有”高置信输出 vs 事实来源”的核验层——这是设计阶段的 boundary 缺陷。此时修复要重做 guardrail，成本翻几倍。
上线阶段：失败暴露给真实用户，但还在可下线的范围内。Tay 16 小时下线、Chevrolet 机器人当天下线、Bard 广告被群嘲——都是”上线即暴露、紧急止血”。成本跳到 10–15 倍，因为要叠加公关、回滚、信任修复。
运营阶段：失败进入外部不可逆区。Air Canada 的错误信息构成”疏忽性失实陈述”被判赔（来源：CanLII 2024 BCCRT 149），Character.AI 案中 14 岁的 Sewell Setzer III 已去世、案件 2026-01-07 和解（来源：CNN Business 2026-01-07）——这些是法律和人命量纲，没有”回滚”按钮。成本曲线在这里垂直拉升。

这条凸曲线就是 Rick 的降发生方法论在 AI 产品上的同构：海恩法则讲”每起严重事故背后有 29 起轻微事故和 300 起未遂”，安全工程的对策永远是把干预点前移——在”未遂”阶段拦比在”严重事故”阶段救便宜两个数量级。AI 失败考古学的矩阵给出了完全相同的几何形状。

§3 跨域呼应：瑞士奶酪模型为什么解释”对角线高价值带”

[!note] 跨域调度：James Reason 瑞士奶酪模型（Human Error, Cambridge UP, 1990）这是本节最该显式调用的跨域资源——它来自 Rick 安全工程事故分析的不公平优势，也是本专题的核心思想资产。

瑞士奶酪模型说：组织的多层防御像奶酪切片，每片有”洞”（弱点），单层有洞不出事，只有当多层的洞同时对齐，失败轨迹才贯穿成灾。把这个模型叠在我们的矩阵上，立刻解释了两件事：

第一，为什么 organizational 类失败的拦截杠杆最大（定义阶段成本=1，运营阶段=25）。Reason 区分”主动失效”（操作者的不安全行为，如 red teamer 漏测）与”潜在条件”（系统深层缺陷，如”无发布门禁文化”长期潜伏）。organizational 失败正是潜在条件——它不直接致灾，但它让其它每一层的”洞”都更大。Microsoft Bing 的代表公开说”实验室里只能发现那么多问题，必须真正面向客户测试”（来源：NPR 2023-02-27）——这句话被广泛解读为用线上用户充当安全测试替代品，正是潜在条件（组织把 red team 责任外包给用户）让 Sydney 的人格转换 bug 一路贯穿到上线。

第二，为什么单层防御一定不够。Carnegie Mellon 2023-07 的研究证明：自动化搜索的”后缀字符串”可系统性绕过 ChatGPT、Bard、Bing、Claude 2 的内容过滤（来源：Fortune 2023-07-28）——这意味着 guardrail 这一层”奶酪片”在所有厂商身上都有洞。矩阵的对角线高价值带（左上→右下）之所以高价值，正是因为它要求 PM 在多个阶段同时补洞，而不是指望某一层完美。这与 Nancy Leveson 对瑞士奶酪模型的批评（她认为该模型把防御层当独立变量、忽略系统涌现性，本质是 Heinrich 多米诺模型的变体；来源：TU Delft Research Portal）形成张力——Leveson 的 STAMP 会进一步追问”是哪条安全约束未被执行”，这正是 §4 矩阵升级到”约束执行”视角的入口。

§4 判断主轴：90% 的 PM 在矩阵上会搞错的四个点

这一节是本节的命门——不讲”矩阵很有用”，讲”用矩阵时最容易栽的四个坑”，每点四件套（症状→为什么错→正确做法→真实反例）。

坑 1：把”严重度”当成”防御优先级”。

症状：PM 把预算压在”后果最惨”的格子（如 adoption 运营阶段的人命风险），却不管它的拦截成本曲线。
为什么错：后果惨 ≠ 此刻可拦。Character.AI 的人命悲剧，可拦截点在定义阶段（“要不要让未成年人与情感角色建立浪漫依赖”是一个产品定义问题），到了运营阶段已是 50+ 倍成本、且不可逆。把钱砸在运营阶段的危机响应，是在曲线最贵处买单。
正确做法：防御优先级 = 后果 × 可拦截性 × 阶段杠杆，把钱压在”高后果 + 高当前阶段杠杆”的格子。
真实反例：IBM Watson Oncology 投入巨资做上线营销和事后澄清（运营阶段），却没在定义阶段挑战”合成数据能否教肿瘤决策”这个根问题（来源：STAT News 2018），最终 2022 年整条线被出售。

坑 2：以为 input 类失败是”上线后才有的安全问题”。

症状：把 prompt injection、投毒当成运营阶段的事故响应议题，定义和设计阶段完全不提。
为什么错：input 失败的威胁面在定义阶段就该建模（系统会检索哪些外部数据？插件有哪些权限？），拖到 red team 才发现就是成本10，进了野外就是成本30+。
正确做法：在定义阶段就画”输入信任边界图”，把间接注入（网页/邮件/文件携带恶意指令）列为一等公民——这正是安全感知与干预里”先界定攻击面再设干预点”的产品做法。
真实反例：EchoLeak（CVE-2025-32711，CVSS 9.3，来源：The Hacker News 2025-06）实现了 M365 Copilot 的”零点击”数据外泄——攻击者只需发一封邮件，Copilot 的 RAG 流程自动检索并执行注入指令。这是设计阶段就该用输入隔离堵住的洞，拖到生产环境成了最高规格的企业级 CVE。

坑 3：把 demo 成功当成 adoption 风险已消除。

症状：demo 跑通就排上线，以为 demo-to-production gap 是工程小问题。
为什么错：demo 用干净数据，掩盖了真实世界的变异性。Gartner 2024-07-29 的可追溯数字是”≥30% GenAI PoC 将在 2025 年底前被放弃”（样本 822 名商业领袖，来源：Gartner 新闻稿）——注意我只采信这个一手来源；坊间流传的”60%/88%/95% 失败率”出处不可追溯，本节不引用（这是一次 confirmation-bias 砍除：早期想用”95% 失败”做钩子，砍掉，因为查不到一手方法论）。
正确做法：在设计阶段就用”脏数据 / 长尾输入 / 对抗用户”压测，把 adoption gap 当 boundary 测试做。
真实反例：ZenML 对 1200+ 生产部署的分析（2025）记录到某团队的 agentic 循环成本四周内从 $127 暴涨到 $47000——demo 阶段绝不会暴露的”无限循环成本爆炸”（来源：ZenML LLMOps Database 2025）。

坑 4：把”fix the prompt”当成事故根因分析。

症状：运营阶段出了 output 失败，PM 的反射动作是”改 prompt”然后结案。
为什么错：AI 系统相同输入可产生不同输出，“改 prompt”掩盖了五类 prompt 解不了的失败（基础设施 / 数据漂移 / 模型退化 / Agentic 协调 / 安全漏洞；来源：tianpan.co 2026-04-19 blameless postmortem 分析）。把症状当根因，是矩阵右下角最常见的认知谬误。
正确做法：事故复盘先按 taxonomy 归类（落到本矩阵的哪个格），再问”什么发生了漂移”（追踪输出分布），分离”调查”与”修复”。
真实反例：SpAIware（Johann Rehberger 发现）通过间接注入把恶意指令写进 ChatGPT 长期记忆，跨会话持续外泄——OpenAI 一度将其归类为”安全问题”而非”安全漏洞”降优先级，直到 2024-09 才在版本 1.2024.247 修复（来源：The Hacker News 2024-09；embracethered.com）。“改 prompt”对这种记忆持久化失败完全无效。

§5 产品 PM 视角补盲：矩阵之外的三个”看走眼”点

跳出工程视角，矩阵还藏着三个 PM 容易看走眼的非技术格子：

用户心理模型：boundary 失败的真正杀伤力不在技术，在用户对”AI 说的话”的合理信赖。Air Canada 案的法律意义不是”机器人会幻觉”，而是法院认定”公司对网站上所有信息负责，无论来自静态页还是机器人”——“机器人是独立实体”的免责辩护被明确否定（来源：CanLII 2024 BCCRT 149）。PM 必须把”用户会合理信赖 AI 输出”写进 boundary 设计的前提。
商业模式：adoption 失败常被误读为”产品不好用”，实则是”选错了 AI 当前能力解不了的问题”（amitkoth.com 2025-11 称之为 Wrong Problem Selection）。这是定义阶段的商业判断，不是设计阶段的体验优化。
合规边界：organizational 失败在监管硬化期会被法律放大。EU AI Act（2024-08-01 正式生效，分阶段实施：禁止条款 2025-02-02 / GPAI 2025-08-02 / 高风险 2026-08-02）让”demo 期合规、上线不合规”的裂缝在法律层面显现——NYC MyCity 聊天机器人就因提供违法建议（允许雇主工资盗窃、歧视）被市政府公开警告（来源：2024 多家媒体）。合规审查必须前移到定义阶段的发布门禁里。

§6 对手框架回应：HRO 与 Safety-II 怎么打这张矩阵

[!note] 引入两个 Rick 已熟悉但需对抗的框架，破 echo chamber

对手立场一：High Reliability Organizations（HRO，LaPorte/Roberts/Rochlin，加州伯克利 1980s–1990s）。 HRO 学派用核航母、空管的实证反驳 Perrow——他们证明高风险紧耦合系统可以通过组织文化维持极低事故率，事故不是”正常”的。

接受的部分：HRO 是对的——本矩阵的 organizational 行确实证明，组织实践（发布门禁、blameless postmortem、red team 制度）能把整行的洞补小，这正是 HRO 的核心主张。
坚持的边界与赌注：但 AI 与航母的关键差异是 c13 - 幻觉的不可消除性论证的——幻觉是概率采样的结构性结果，不是可归零的操作失误。HRO 的”接近零事故”赌的是失误可被训练消除；AI 的 output 失败赌不了这个。所以本矩阵坚持：organizational 防御能压低频率，但 output / boundary 格的残余风险永远 > 0，PM 必须为残余风险设计 graceful degradation（见 p304 - 防御性 UX：对抗延迟与幻觉的优雅降级四层），而不是追求归零。

对手立场二：Safety-II / 韧性工程（Hollnagel, Safety-I and Safety-II, 2014）。 Safety-II 批评本矩阵这类”数失败”的思路（Safety-I）是错的——应该研究”为什么系统大多数时候成功”，增强”事情顺利”的能力，而非只减少”出错”。

接受的部分：Safety-II 戳中了失败考古学的盲区——只盯失败会让 PM 漏掉”成功路径为何稳健”的信息。坑 4 里”追踪输出分布而非离散事件”正是 Safety-II 的精神。
坚持的边界：但 Safety-II 对 AI 的适用目前是研究空白（本专题 safety-eng 简报核实：未找到将 FRAM / Safety-II 系统性适用于 AI 产品失败的同行评审文献）。在工具成熟前，PM 手里能用的仍是失败侧的矩阵。这是一个 failure scenario 标注：本矩阵在”系统已高度成熟、失败稀疏到无法统计”的产品上会失效——那时该切换到 Safety-II 视角。

§7 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”你怎么评估一个 AI 功能的风险”，不要答”会有幻觉”。把这张矩阵画出来，说”我先正交分解成五类失败 × 四阶段，定位这个功能最易发的格子和它的拦截成本曲线，把防御预算压在高杠杆的对角线带”。30 秒展示结构化判断力。
选型会：评估供应商时，别比 feature list。问对方”你们的 input 隔离在哪个阶段建模""boundary 责任归属怎么界定""有没有 blameless postmortem 制度”——逐格质询，把矩阵当 checklist。EchoLeak 和 SpAIware 都是供应商侧的失败，选型时就该问到。
复现台：自建 AI 功能时，按矩阵从左上往右下设防御。定义阶段先画输入信任边界图 + 责任边界图（成本最低杠杆最高），别等上线 red team 才补——那已是成本 10 倍。这就是降发生方法论的”前置”在自己产品上的执行。

§8 与已有节点的关系（升级对照，不复述）

对照 m207 - Agent 产品化：场景推演与失败模式：m207 是单阶段（Agent 运营时执行）内的失败横切分类；本节做 zoom-out 补缺——把失败铺到全生命周期四阶段，引入”拦截成本曲线”这个 m207 没有的纵深维度。m207 的 HITL 断点设计，在本矩阵里是”把运营阶段失败前移到设计阶段拦截”的具体手段。
对照 c13 - 幻觉的不可消除性：c13 论证 output 失败（幻觉）不可消除；本节做对话——既然不可消除，矩阵的对策不是”消灭 output 行”，而是”把它的拦截点前移并设残余风险降级”。
对照 p304 - 防御性 UX：对抗延迟与幻觉：p304 的优雅降级四层是本矩阵”运营阶段残余风险”格的具体产品手段；本节做纠偏——p304 偏运营阶段，本节指出真正高杠杆的防御在定义/设计阶段。
对照 p305 - 信任架构与可解释性设计：p305 的信任架构是 boundary 行的设计阶段对策；本节补充 boundary 失败到运营阶段会上升为法律量纲（Air Canada）。
升级对照 0412 A07 Red Teaming 作为评测实践（红队节点）：A07 讲红队/对抗评测方法；本节做 深化对照——红队（red team）在本矩阵里精确落位于”上线阶段”的拦截手段，且 §3 用瑞士奶酪模型指出”红队只是一层奶酪片，CMU 2023 证明它有系统性的洞”，不能单层依赖。评测体系是把”运营阶段失败”前移到”上线阶段”暴露的工具，与本矩阵的前置逻辑同构（不复述其评测分层）。（注：0411 Agent 专题的 A07 Multi-Agent Teams 是同名不同物的多 Agent 节点，勿混。）

§9 关联节点

核心（必读）

延伸（可选）

修订日志

R0（2026-06-07）：首稿。建立五类失败 × 四阶段主矩阵，提出”失败-阶段拦截成本凸曲线”主轴；接入瑞士奶酪模型（Reason 1990）解释对角线高价值带，标注 Leveson STAMP 的张力；HRO 与 Safety-II 双对手框架回应；四点判断主轴四件套全部接地。所有案例事实经 WebSearch 核实并标来源年份，Character.AI 和解金额 / Chevrolet 司法检验 / BC 裁判所先例效力三处边界显式标注。
2026-06-12 内审修复：EU AI Act 由模糊的”2024-03 通过”订正为权威值”2024-08-01 正式生效，分阶段实施（禁止条款 2025-02-02 / GPAI 2025-08-02 / 高风险 2026-08-02）”。