S02 失败类型 × 产品阶段对照矩阵
把五类失败(input / output / boundary / adoption / organizational)铺在四个产品阶段(定义 / 设计 / 上线 / 运营)上,画一张对照矩阵——本节要解决的问题是:同一类失败,在不同阶段被拦截的成本相差几个数量级,PM 该把有限的防御预算压在哪个格子里。本节的框架名叫”失败-阶段拦截成本曲线”,主轴判断是:失败拦截得越晚,成本越高,且这条曲线是凸的(不是线性,是指数)。这条判断不是我发明的——它是 Rick 在滴滴安全做的 降发生方法论 的”前置”逻辑在 AI 产品上的同构投影。
[!warning] 事实接地声明 本节所有案例的时间、后果、裁决均经 WebSearch 核实并标注来源年份(见 c13 - 幻觉的不可消除性 同专题简报)。Character.AI 和解金额未公开、Chevrolet $1 报价未经司法检验、BC 裁判所裁决先例效力有限——这三处的边界已在文中显式标注。无法核实的细节标 〔待核实〕。
§0 为什么是”类型 × 阶段”矩阵,而不是”案例时间线”
读到”AI 失败”,PM 脑里默认浮现的框架往往是两种错的:一是案例时间线(Bard→Tay→Air Canada→……,按年份排),二是严重度排序(死了人的最严重,掉市值的次之)。这两种框架都无法回答 PM 真正要决策的问题:我现在站在哪个产品阶段,最该提防哪一类失败,花多少钱拦它划算。
时间线告诉你”发生过什么”,但不告诉你”在哪个环节本可以拦住”。严重度排序告诉你”哪个更可怕”,但把”可怕”和”可拦截性”混为一谈——Character.AI 青少年伤害(人命)和 Chevrolet $1 报价(恶作剧)严重度天差地别,但它们在矩阵里可能落在相似的格子(都是 boundary 类失败在”上线/运营”阶段暴露)。
矩阵框架的优越性在于它把”失败”正交分解成两个独立维度:
- 失败类型(行):失败的”病理机制”——来自 c13 - 幻觉的不可消除性 同专题 taxonomy,五类:input(输入侧,prompt injection / 投毒)、output(输出侧,幻觉 / 不可靠输出 / 偏见)、boundary(边界侧,权限越界 / 责任归属 / 合同效力)、adoption(采用侧,demo-to-production gap / 用户误用 / 信任崩塌)、organizational(组织侧,发布门禁缺失 / 事故响应失灵 / 安全文化漂移)。
- 产品阶段(列):失败被”注入”或”暴露”的时点——定义(problem / scope)、设计(model / UX / guardrail)、上线(launch / red team)、运营(production / incident response)。
正交分解之后,拦截成本成了可以填进每个格子的第三个变量。这正是本节相对 m207 - Agent 产品化:场景推演与失败模式 的升级点:m207 的六类失败模式(规划 / 工具调用 / 推理 / 无限循环 / 雪崩 / 安全越界)是单一阶段(运营时 Agent 执行)内的横切分类,回答”Agent 跑起来会怎么崩”;本节把视角拉到全生命周期,回答”崩的那一类,本该在哪个阶段拦”。两者是 zoom-in 与 zoom-out 的关系,不复述。
§1 主矩阵:五类失败 × 四阶段,标最易发格与拦截成本
下表是本节的核心交付物。每格标注:该类失败在该阶段的发生概率(高/中/低)、拦截成本量级(相对值,定义阶段=1)、以及代表性真实案例(已核实)。
| 失败类型 \ 阶段 | 定义(problem/scope) | 设计(model/UX/guardrail) | 上线(launch/red team) | 运营(production/incident) |
|---|---|---|---|---|
| input 输入侧 | 低|成本1(未识别注入威胁面) | 中|成本3(未设输入隔离层) | 高|成本10(red team 漏测注入)→ Chevrolet $1(2023-12)、Bing Sydney 提示泄露(2023-02) | 极高|成本30+(野外利用)→ EchoLeak CVE-2025-32711(CVSS 9.3,2025-06)、SpAIware 记忆投毒(2024-09 修复) |
| output 输出侧 | 中|成本1(未定义”可靠”标准) | 高|成本5(选错模型/无溯源层)→ IBM Watson Oncology(2017-2018) | 高|成本12(demo 事实错误)→ Google Bard JWST 错误(2023-02,~$1000亿市值) | 高|成本20(幻觉进入决策)→ 律师引用虚构判例被罚$5000(2023-06) |
| boundary 边界侧 | 高|成本1(未定义责任/权限边界) | 中|成本4(无核验/免责层) | 中|成本8 | 极高|成本40+(法律裁决)→ Air Canada 退款承诺判有效 CAD$650.88〔金额见争议〕(2024-02,Moffatt v. Air Canada 2024 BCCRT 149) |
| adoption 采用侧 | 高|成本1(选了 AI 当前解不了的问题) | 中|成本3(demo 用干净数据掩盖变异) | 高|成本15(信任崩塌)→ Tay 16小时下线(2016-03,96000+推文) | 极高|成本50+(人命/不可逆)→ Character.AI 青少年伤害(Setzer 案 2024-02 去世,2026-01 和解) |
| organizational 组织侧 | 极高|成本1(无发布门禁文化) | 高|成本5(无 pre-mortem 机制) | 高|成本10(red team 形同虚设) | 高|成本25(事故响应失灵)→ ChatGPT 数据泄露后才补 Bug Bounty(2023-03) |
[!note] 矩阵怎么读 横向看同一类失败的拦截成本如何随阶段攀升(凸曲线);纵向看同一阶段最易发哪类失败(加粗格);对角线(左上→右下)是”最该前置拦截”的高价值防御带——organizational 在定义阶段成本=1,拖到运营成本=25,是 25 倍杠杆。
成本量级是相对示意值(first-order approximation),不是精确测算——它的失效边界在于:不同行业基线差异巨大(医疗 AI 的 output 失败拦截成本远高于消费级聊天),且”成本”混合了金钱、声誉、法律、人命四种不可通约的量纲。这里用单一标尺只为表达”凸性”这一结构判断,不主张跨案例可加总。这与 m207 - Agent 产品化:场景推演与失败模式 引用的复合错误数学一样,是模型而非测量。
§2 凸性从哪来:四个阶段的”信息不对称”递减
为什么拦截成本曲线是凸的、而不是线性的?因为每往后一个阶段,修复一个失败需要回退的决策数量呈乘性增长,且失败的暴露面从”内部可见”翻转为”外部不可逆”。
- 定义阶段:失败还只是”一个没问对的问题”。IBM Watson for Oncology 的根因——用 Memorial Sloan Kettering 的少量假设案例而非真实患者数据训练(来源:STAT News 2018-07-25;c13 - 幻觉的不可消除性 同专题简报核实)——本质是定义阶段的 adoption 失败(选了”用合成数据教肿瘤决策”这个 AI 当时解不了的问题)。此时改正只需重写 PRD,成本=1。
- 设计阶段:失败固化进架构。Air Canada 的退款机器人没有”高置信输出 vs 事实来源”的核验层——这是设计阶段的 boundary 缺陷。此时修复要重做 guardrail,成本翻几倍。
- 上线阶段:失败暴露给真实用户,但还在可下线的范围内。Tay 16 小时下线、Chevrolet 机器人当天下线、Bard 广告被群嘲——都是”上线即暴露、紧急止血”。成本跳到 10–15 倍,因为要叠加公关、回滚、信任修复。
- 运营阶段:失败进入外部不可逆区。Air Canada 的错误信息构成”疏忽性失实陈述”被判赔(来源:CanLII 2024 BCCRT 149),Character.AI 案中 14 岁的 Sewell Setzer III 已去世、案件 2026-01-07 和解(来源:CNN Business 2026-01-07)——这些是法律和人命量纲,没有”回滚”按钮。成本曲线在这里垂直拉升。
这条凸曲线就是 Rick 的 降发生方法论 在 AI 产品上的同构:海恩法则讲”每起严重事故背后有 29 起轻微事故和 300 起未遂”,安全工程的对策永远是把干预点前移——在”未遂”阶段拦比在”严重事故”阶段救便宜两个数量级。AI 失败考古学的矩阵给出了完全相同的几何形状。
§3 跨域呼应:瑞士奶酪模型为什么解释”对角线高价值带”
[!note] 跨域调度:James Reason 瑞士奶酪模型(Human Error, Cambridge UP, 1990) 这是本节最该显式调用的跨域资源——它来自 Rick 安全工程事故分析的不公平优势,也是本专题的核心思想资产。
瑞士奶酪模型说:组织的多层防御像奶酪切片,每片有”洞”(弱点),单层有洞不出事,只有当多层的洞同时对齐,失败轨迹才贯穿成灾。把这个模型叠在我们的矩阵上,立刻解释了两件事:
第一,为什么 organizational 类失败的拦截杠杆最大(定义阶段成本=1,运营阶段=25)。Reason 区分”主动失效”(操作者的不安全行为,如 red teamer 漏测)与”潜在条件”(系统深层缺陷,如”无发布门禁文化”长期潜伏)。organizational 失败正是潜在条件——它不直接致灾,但它让其它每一层的”洞”都更大。Microsoft Bing 的代表公开说”实验室里只能发现那么多问题,必须真正面向客户测试”(来源:NPR 2023-02-27)——这句话被广泛解读为用线上用户充当安全测试替代品,正是潜在条件(组织把 red team 责任外包给用户)让 Sydney 的人格转换 bug 一路贯穿到上线。
第二,为什么单层防御一定不够。Carnegie Mellon 2023-07 的研究证明:自动化搜索的”后缀字符串”可系统性绕过 ChatGPT、Bard、Bing、Claude 2 的内容过滤(来源:Fortune 2023-07-28)——这意味着 guardrail 这一层”奶酪片”在所有厂商身上都有洞。矩阵的对角线高价值带(左上→右下)之所以高价值,正是因为它要求 PM 在多个阶段同时补洞,而不是指望某一层完美。这与 Nancy Leveson 对瑞士奶酪模型的批评(她认为该模型把防御层当独立变量、忽略系统涌现性,本质是 Heinrich 多米诺模型的变体;来源:TU Delft Research Portal)形成张力——Leveson 的 STAMP 会进一步追问”是哪条安全约束未被执行”,这正是 §4 矩阵升级到”约束执行”视角的入口。
§4 判断主轴:90% 的 PM 在矩阵上会搞错的四个点
这一节是本节的命门——不讲”矩阵很有用”,讲”用矩阵时最容易栽的四个坑”,每点四件套(症状→为什么错→正确做法→真实反例)。
坑 1:把”严重度”当成”防御优先级”。
- 症状:PM 把预算压在”后果最惨”的格子(如 adoption 运营阶段的人命风险),却不管它的拦截成本曲线。
- 为什么错:后果惨 ≠ 此刻可拦。Character.AI 的人命悲剧,可拦截点在定义阶段(“要不要让未成年人与情感角色建立浪漫依赖”是一个产品定义问题),到了运营阶段已是 50+ 倍成本、且不可逆。把钱砸在运营阶段的危机响应,是在曲线最贵处买单。
- 正确做法:防御优先级 = 后果 × 可拦截性 × 阶段杠杆,把钱压在”高后果 + 高当前阶段杠杆”的格子。
- 真实反例:IBM Watson Oncology 投入巨资做上线营销和事后澄清(运营阶段),却没在定义阶段挑战”合成数据能否教肿瘤决策”这个根问题(来源:STAT News 2018),最终 2022 年整条线被出售。
坑 2:以为 input 类失败是”上线后才有的安全问题”。
- 症状:把 prompt injection、投毒当成运营阶段的事故响应议题,定义和设计阶段完全不提。
- 为什么错:input 失败的威胁面在定义阶段就该建模(系统会检索哪些外部数据?插件有哪些权限?),拖到 red team 才发现就是成本10,进了野外就是成本30+。
- 正确做法:在定义阶段就画”输入信任边界图”,把间接注入(网页/邮件/文件携带恶意指令)列为一等公民——这正是 安全感知与干预 里”先界定攻击面再设干预点”的产品做法。
- 真实反例:EchoLeak(CVE-2025-32711,CVSS 9.3,来源:The Hacker News 2025-06)实现了 M365 Copilot 的”零点击”数据外泄——攻击者只需发一封邮件,Copilot 的 RAG 流程自动检索并执行注入指令。这是设计阶段就该用输入隔离堵住的洞,拖到生产环境成了最高规格的企业级 CVE。
坑 3:把 demo 成功当成 adoption 风险已消除。
- 症状:demo 跑通就排上线,以为 demo-to-production gap 是工程小问题。
- 为什么错:demo 用干净数据,掩盖了真实世界的变异性。Gartner 2024-07-29 的可追溯数字是”≥30% GenAI PoC 将在 2025 年底前被放弃”(样本 822 名商业领袖,来源:Gartner 新闻稿)——注意我只采信这个一手来源;坊间流传的”60%/88%/95% 失败率”出处不可追溯,本节不引用(这是一次 confirmation-bias 砍除:早期想用”95% 失败”做钩子,砍掉,因为查不到一手方法论)。
- 正确做法:在设计阶段就用”脏数据 / 长尾输入 / 对抗用户”压测,把 adoption gap 当 boundary 测试做。
- 真实反例:ZenML 对 1200+ 生产部署的分析(2025)记录到某团队的 agentic 循环成本四周内从 $127 暴涨到 $47000——demo 阶段绝不会暴露的”无限循环成本爆炸”(来源:ZenML LLMOps Database 2025)。
坑 4:把”fix the prompt”当成事故根因分析。
- 症状:运营阶段出了 output 失败,PM 的反射动作是”改 prompt”然后结案。
- 为什么错:AI 系统相同输入可产生不同输出,“改 prompt”掩盖了五类 prompt 解不了的失败(基础设施 / 数据漂移 / 模型退化 / Agentic 协调 / 安全漏洞;来源:tianpan.co 2026-04-19 blameless postmortem 分析)。把症状当根因,是矩阵右下角最常见的认知谬误。
- 正确做法:事故复盘先按 taxonomy 归类(落到本矩阵的哪个格),再问”什么发生了漂移”(追踪输出分布),分离”调查”与”修复”。
- 真实反例:SpAIware(Johann Rehberger 发现)通过间接注入把恶意指令写进 ChatGPT 长期记忆,跨会话持续外泄——OpenAI 一度将其归类为”安全问题”而非”安全漏洞”降优先级,直到 2024-09 才在版本 1.2024.247 修复(来源:The Hacker News 2024-09;embracethered.com)。“改 prompt”对这种记忆持久化失败完全无效。
§5 产品 PM 视角补盲:矩阵之外的三个”看走眼”点
跳出工程视角,矩阵还藏着三个 PM 容易看走眼的非技术格子:
- 用户心理模型:boundary 失败的真正杀伤力不在技术,在用户对”AI 说的话”的合理信赖。Air Canada 案的法律意义不是”机器人会幻觉”,而是法院认定”公司对网站上所有信息负责,无论来自静态页还是机器人”——“机器人是独立实体”的免责辩护被明确否定(来源:CanLII 2024 BCCRT 149)。PM 必须把”用户会合理信赖 AI 输出”写进 boundary 设计的前提。
- 商业模式:adoption 失败常被误读为”产品不好用”,实则是”选错了 AI 当前能力解不了的问题”(amitkoth.com 2025-11 称之为 Wrong Problem Selection)。这是定义阶段的商业判断,不是设计阶段的体验优化。
- 合规边界:organizational 失败在监管硬化期会被法律放大。EU AI Act(2024-08-01 正式生效,分阶段实施:禁止条款 2025-02-02 / GPAI 2025-08-02 / 高风险 2026-08-02)让”demo 期合规、上线不合规”的裂缝在法律层面显现——NYC MyCity 聊天机器人就因提供违法建议(允许雇主工资盗窃、歧视)被市政府公开警告(来源:2024 多家媒体)。合规审查必须前移到定义阶段的发布门禁里。
§6 对手框架回应:HRO 与 Safety-II 怎么打这张矩阵
[!note] 引入两个 Rick 已熟悉但需对抗的框架,破 echo chamber
对手立场一:High Reliability Organizations(HRO,LaPorte/Roberts/Rochlin,加州伯克利 1980s–1990s)。 HRO 学派用核航母、空管的实证反驳 Perrow——他们证明高风险紧耦合系统可以通过组织文化维持极低事故率,事故不是”正常”的。
- 接受的部分:HRO 是对的——本矩阵的 organizational 行确实证明,组织实践(发布门禁、blameless postmortem、red team 制度)能把整行的洞补小,这正是 HRO 的核心主张。
- 坚持的边界与赌注:但 AI 与航母的关键差异是 c13 - 幻觉的不可消除性 论证的——幻觉是概率采样的结构性结果,不是可归零的操作失误。HRO 的”接近零事故”赌的是失误可被训练消除;AI 的 output 失败赌不了这个。所以本矩阵坚持:organizational 防御能压低频率,但 output / boundary 格的残余风险永远 > 0,PM 必须为残余风险设计 graceful degradation(见 p304 - 防御性 UX:对抗延迟与幻觉 的优雅降级四层),而不是追求归零。
对手立场二:Safety-II / 韧性工程(Hollnagel, Safety-I and Safety-II, 2014)。 Safety-II 批评本矩阵这类”数失败”的思路(Safety-I)是错的——应该研究”为什么系统大多数时候成功”,增强”事情顺利”的能力,而非只减少”出错”。
- 接受的部分:Safety-II 戳中了失败考古学的盲区——只盯失败会让 PM 漏掉”成功路径为何稳健”的信息。坑 4 里”追踪输出分布而非离散事件”正是 Safety-II 的精神。
- 坚持的边界:但 Safety-II 对 AI 的适用目前是研究空白(本专题 safety-eng 简报核实:未找到将 FRAM / Safety-II 系统性适用于 AI 产品失败的同行评审文献)。在工具成熟前,PM 手里能用的仍是失败侧的矩阵。这是一个 failure scenario 标注:本矩阵在”系统已高度成熟、失败稀疏到无法统计”的产品上会失效——那时该切换到 Safety-II 视角。
§7 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试桌:被问”你怎么评估一个 AI 功能的风险”,不要答”会有幻觉”。把这张矩阵画出来,说”我先正交分解成五类失败 × 四阶段,定位这个功能最易发的格子和它的拦截成本曲线,把防御预算压在高杠杆的对角线带”。30 秒展示结构化判断力。
- 选型会:评估供应商时,别比 feature list。问对方”你们的 input 隔离在哪个阶段建模""boundary 责任归属怎么界定""有没有 blameless postmortem 制度”——逐格质询,把矩阵当 checklist。EchoLeak 和 SpAIware 都是供应商侧的失败,选型时就该问到。
- 复现台:自建 AI 功能时,按矩阵从左上往右下设防御。定义阶段先画输入信任边界图 + 责任边界图(成本最低杠杆最高),别等上线 red team 才补——那已是成本 10 倍。这就是 降发生方法论 的”前置”在自己产品上的执行。
§8 与已有节点的关系(升级对照,不复述)
- 对照 m207 - Agent 产品化:场景推演与失败模式:m207 是单阶段(Agent 运营时执行)内的失败横切分类;本节做 zoom-out 补缺——把失败铺到全生命周期四阶段,引入”拦截成本曲线”这个 m207 没有的纵深维度。m207 的 HITL 断点设计,在本矩阵里是”把运营阶段失败前移到设计阶段拦截”的具体手段。
- 对照 c13 - 幻觉的不可消除性:c13 论证 output 失败(幻觉)不可消除;本节做 对话——既然不可消除,矩阵的对策不是”消灭 output 行”,而是”把它的拦截点前移并设残余风险降级”。
- 对照 p304 - 防御性 UX:对抗延迟与幻觉:p304 的优雅降级四层是本矩阵”运营阶段残余风险”格的具体产品手段;本节做 纠偏——p304 偏运营阶段,本节指出真正高杠杆的防御在定义/设计阶段。
- 对照 p305 - 信任架构与可解释性设计:p305 的信任架构是 boundary 行的设计阶段对策;本节补充 boundary 失败到运营阶段会上升为法律量纲(Air Canada)。
- 升级对照 0412 A07 Red Teaming 作为评测实践(红队节点):A07 讲红队/对抗评测方法;本节做 深化对照——红队(red team)在本矩阵里精确落位于”上线阶段”的拦截手段,且 §3 用瑞士奶酪模型指出”红队只是一层奶酪片,CMU 2023 证明它有系统性的洞”,不能单层依赖。评测体系是把”运营阶段失败”前移到”上线阶段”暴露的工具,与本矩阵的前置逻辑同构(不复述其评测分层)。(注:0411 Agent 专题的 A07 Multi-Agent Teams 是同名不同物的多 Agent 节点,勿混。)
§9 关联节点
核心(必读)
- m207 - Agent 产品化:场景推演与失败模式
- c13 - 幻觉的不可消除性
- p304 - 防御性 UX:对抗延迟与幻觉
- 降发生方法论
- 安全感知与干预
延伸(可选)
- p305 - 信任架构与可解释性设计
- 幻觉
- Agent
- RLHF
- Constitutional AI
- 明镜系统
- Anthropic
- ChatGPT
- Gemini
- 0117社会学
- 0115道德哲学-伦理学
- AI PM 知识图谱·总索引
修订日志
- R0(2026-06-07):首稿。建立五类失败 × 四阶段主矩阵,提出”失败-阶段拦截成本凸曲线”主轴;接入瑞士奶酪模型(Reason 1990)解释对角线高价值带,标注 Leveson STAMP 的张力;HRO 与 Safety-II 双对手框架回应;四点判断主轴四件套全部接地。所有案例事实经 WebSearch 核实并标来源年份,Character.AI 和解金额 / Chevrolet 司法检验 / BC 裁判所先例效力三处边界显式标注。
- 2026-06-12 内审修复:EU AI Act 由模糊的”2024-03 通过”订正为权威值”2024-08-01 正式生效,分阶段实施(禁止条款 2025-02-02 / GPAI 2025-08-02 / 高风险 2026-08-02)”。