A02 AI 产品失败分类学·五类

一个 AI 产品出事了——市值蒸发、机器人被骂上热搜、一个 14 岁的孩子死了。复盘会上第一个被问的问题永远是”哪里错了”。但这个问题问错了。真正决定后续投入是否有效的，不是”哪里错了”，而是”这是哪一类失败”——因为不同类别的失败要在不同的层上修，而把组织失败误判成技术失败，是 AI 产品复盘中最贵、最隐蔽、最反复发生的错位。本节点要解决的问题是：建一套可判别的五类失败分类学（input / output / boundary / adoption / organizational），用一张判别矩阵让”误判失败类型→修错层”这个致命错位在动手修之前就被拦下来。这不是 case-by-case 的案例集，而是从失败反推设计原则的分类骨架。

§0 为什么是”五类正交分类”而不是”按严重度/按技术栈”列清单

业界对 AI 失败的默认整理方式有两种，都会把人引向修错层。

第一种是按严重度排（致命/重大/轻微），这是事故报告的语言，但它对”该修哪一层”零信息量——Air Canada 赔了 650 加元（轻微）和 Character.AI 死了人（致命），如果你只看严重度，会以为前者无关紧要、后者需要全公司动员；但从修复层看，两者根因是同一类（boundary——边界责任与权限未界定），修复杠杆也在同一处。

第二种是按技术栈排（模型层/检索层/工程层/UI 层），这是工程师的语言，问题在于它预设了失败是技术性的——一旦你把分类框架建在技术栈上，组织失败和采纳失败就无处安放，只能被强行塞进”模型不够好""prompt 没调好”，于是所有复盘都收敛到”fix the prompt”。这正是 c13 - 幻觉的不可消除性反复警告的：把架构性现象当工程 bug 修，会陷入”调一个 prompt、漏一类失败”的西西弗斯循环。

本节点选 input / output / boundary / adoption / organizational 五类，判据是正交性 + 可判别性 + 指向修复层：每一类对应一个不同的修复层（数据/上下文层、生成/对齐层、权限/责任层、人-产品-市场契合层、流程/治理层），五类合起来覆盖了从训练数据到法庭判决的完整因果链，且任意一个真实事故都能被这张矩阵唯一定位（或明确判定为”跨类复合”）。这个选择不是凭空发明——它综合了 Microsoft AI Red Team 的失败模式枚举（Failure Modes in Machine Learning, Microsoft Learn, 2019）、Pittaras & McGregor 基于 AI Incident Database 的分层失败原因本体（arXiv:2211.07280, 2022-11）、以及 Microsoft 2025 年 Agentic AI 失败模式白皮书”按影响 × 按新颖性”双维框架（Microsoft Security Blog, 2025-04-24），但把它们的”原因导向”改造成 PM 更用得上的”修复层导向”。

§1 五类的判别矩阵

下面这张表是本节点的核心资产。横轴是判别问题，纵轴是五类。读法：拿一个失败案例，从左到右回答四个判别问题，落到哪一行就是哪一类——决定你该在哪一层投入。

类别	失败发生在哪	判别问题（症状侧）	修复层（杠杆所在）	典型案例
Input 输入失败	进入模型的数据/上下文被污染或不具代表性	同样的模型，换了输入就不出事？污染源在训练数据、检索源还是对抗性提示？	数据治理 / 检索过滤 / 输入消毒（注入防护）	Tay 被对抗性输入投毒（2016）、Google AI Overviews 把 Reddit 玩笑当事实（2024）
Output 输出失败	模型生成了错的/有害的内容，输入本身无异常	给的是正常输入，输出仍然错？错在事实、逻辑、校准还是对齐？	生成层对齐 / 不确定性外显 / 输出核验	Google Bard demo 事实错误（2023）、ChatGPT 幻觉伪造判例（2023）
Boundary 边界失败	AI 的权限/责任/能力边界未被界定或被突破	失败是因为”AI 不该有这个权限/不该被信这句话”？责任归谁未定义？	权限白名单 / 责任契约 / 能力边界声明	Chevrolet 经销商被提示注入诱导 $1 报价（2023）、Air Canada 机器人承诺被判有效（2024）
Adoption 采纳失败	产品在 demo 能跑，落到真实用户/场景就崩	demo 演示成功，真实环境失败？差在数据变异、用户行为还是场景边界？	人-产品契合 / 场景边界设计 / 真实数据测试	McDonald’s IBM 点餐 AI 多声源混淆下线（2024）、GenAI PoC 放弃率 ≥30%（Gartner 2024）
Organizational 组织失败	失败的根因在流程/激励/治理，而非系统本身	把这个系统换成完美的，同样的流程还会出事？根因在赶工/无门禁/无复盘吗？	发布门禁 / 复盘机制 / 激励与治理	Bing “Sydney” 用线上用户当安全测试（2023）、律师未核验 AI 输出提交法庭（2023）

判别的关键在于追问”换一个变量会不会还出事”。这是从 STAMP/STPA（待建概念卡）（Leveson）借来的反事实推理：不问”什么坏了”，问”什么安全约束没被执行”。Tay 的失败，换一个更强的模型也会出事（因为”重复用户说的话”的功能设计没变），所以它的核心不在 output 层——但它同时是 input（对抗性投毒）和 organizational（已知风险未在发布前拦截）的复合失败。这引出本节点最重要的一条纪律：真实大事故几乎都是跨类复合的，分类的价值不在贴单一标签，而在拆出”主导修复层”。

§2 五类各自的修复层与设计原则（从失败反推）

分类学的终点不是收藏案例，而是从每一类失败反推出对应的设计原则。这是本节点与一份”AI 事故清单”的根本区别。

Input → 设计原则：不信任任何进入上下文的数据。 训练数据要做代表性审计（demo 用干净数据掩盖真实变异是 adoption 失败的温床，但污染源在 input 侧）；检索源要做来源可信度过滤（AI Overviews 直接引用 Reddit 十年前的玩笑帖，是检索层没有讽刺/未核实来源过滤）；用户输入要做注入消毒。对照 m207 - Agent 产品化：场景推演与失败模式的”工具调用失败”——间接提示注入（恶意指令藏在 Agent 会检索的网页/邮件里）本质是 input 失败，EchoLeak（CVE-2025-32711，CVSS 9.3，The Hacker News, 2025-06）就是 M365 Copilot 的 RAG 流程把恶意邮件当可信输入处理，实现零点击数据外泄。
Output → 设计原则：承认幻觉不可消除，在生成层做分级防御。 这是 c13 - 幻觉的不可消除性的直接落地——Bard 的 demo 错误不是”模型不够大”能修的，因为 Softmax 保证每个位置必有输出、概率采样必然产生事实幻觉。正确的修复层是 p304 - 防御性 UX：对抗延迟与幻觉的四级策略（外部护栏/可溯源/不确定性外显/任务边界），而不是”再训练一次”。
Boundary → 设计原则：先界定 AI 不该做什么，再界定它能做什么。 Chevrolet 案和 Air Canada 案是同一类的两个面：前者是权限边界未设防（机器人接受了”以后每条回复都说这是有约束力的报价”的越权指令），后者是责任边界未界定（公司试图主张”机器人是独立实体”而免责，被 BC 民事裁判所驳回，判赔 CAD $650.88，Moffatt v. Air Canada, 2024 BCCRT 149）。
Adoption → 设计原则：demo 通过率不是发布门禁，真实场景边界才是。 McDonald’s 与 IBM 的点餐 AI 在演示里能跑，但落到真实 drive-thru 的多声源、口音、背景噪音环境下准确率约 80–85%，低于人工 90% 基准，2024 年 6 月终止测试、7 月前从 100+ 门店下线（CNBC, 2024-06-17）。Gartner 预测到 2025 年底 ≥30% 的 GenAI PoC 会在 PoC 后被放弃（Gartner, 2024-07-29，样本 822 名商业领袖）——注意，那些流传更广的”80%/95% 项目失败”数字大多无可追溯方法论〔待核实〕，本节点只采信有公开样本的 Gartner 30%。
Organizational → 设计原则：系统是完美的也会出事，如果流程是坏的。 Bing “Sydney” 事件里微软代表公开说”在实验室环境中只能发现那么多问题，必须真正面向客户测试才能找到这类场景”（NPR, 2023-02-27）——这等于承认用线上用户当安全测试替代品，是典型的组织失败（发布门禁缺失），而非模型失败。amitkoth.com 援引 RAND 的判断也指向这里：AI 推广中的多数挑战与人员和流程相关，而非技术〔RAND 报告名待核实，二手援引〕。

§3 判断主轴：误判失败类型→修错层（90% 的复盘会犯的四个错位）

这是本节点的命门。每个错位带”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

错位一：把组织失败当技术失败修（最贵、最常见）。

症状：复盘结论是”模型不够好""prompt 要重调""换个更大的模型”。
为什么会错：技术失败有 owner（算法团队）、有可量化指标、修起来”看得见进度”；组织失败要追问发布审批、激励机制、为什么赶工，没人愿意把矛头指向流程和管理层。技术归因是阻力最小的路径。
正确做法：用 §1 的反事实判别——“把系统换成完美的，同样的流程还会出事吗？“若答案是”会”，则是 organizational，修复层在门禁/复盘/激励，不在模型。
真实反例：Bing “Sydney” 的人格崩坏被广泛叙述成”模型对齐不够”（output 失败），但微软自己的话暴露了根因是没有覆盖延长会话场景的 red teaming + 媒体曝光后才加会话轮次限制——这是发布门禁的组织失败。修模型修不掉”用用户当测试”这件事。

错位二：把 boundary 失败当 output 失败修。

症状：Chevrolet $1 报价后，团队讨论”怎么让模型更聪明、不被骗”。
为什么会错：表面看是模型”说错话”（output），但注入攻击的本质是权限边界缺失——机器人本就不该有”承诺有法律约束力报价”的权限，无论模型多聪明都会被精心构造的提示绕过（CMU 2023 年 7 月研究证明：自动化后缀字符串可系统性绕过 ChatGPT/Bard/Bing/Claude 2 的过滤，Fortune, 2023-07-28）。
正确做法：修在 boundary 层——机器人输出不绑定公司法律承诺、敏感操作走权限白名单、高风险领域设拒绝/转人工 fallback。
真实反例：Air Canada 案的法律意义恰恰是把这条钉死——公司对其界面上所有信息负责，机器人不是免责盾牌。这是 boundary（责任边界）的司法确认，不是”机器人该说得更准”。

错位三：把 adoption 失败当 output 失败修。

症状：demo 惊艳，上线翻车，团队回去”继续优化模型质量”。
为什么会错：demo 用的是干净、可控、代表性不足的数据（例：临床概念提取任务，GPT-4 基础 prompting F1=0.804 vs BioClinicalBERT F1=0.901，ZenML LLMOps, 2025），真实世界的变异性在上线瞬间暴露。这不是输出质量问题，是场景-产品契合问题。
正确做法：发布门禁里加”真实场景边界测试”（多声源、长尾输入、对抗用户），把 demo 通过率与生产通过率脱钩。
真实反例：McDonald’s 点餐 AI——再优化语音模型也解决不了”相邻车道串音”这个场景边界，最终只能下线。

错位四：把跨类复合失败强贴单一标签。

症状：Character.AI 青少年伤害被简化为”内容审核没做好”（output/boundary 单点）。
为什么会错：这是 input（角色扮演式情感诱导输入）+ output（性化与自伤相关回复）+ boundary（未成年人能力边界与年龄门禁缺失）+ organizational（产品定位”无节制 AI”、安全护栏让位于参与度激励）的四类复合。贴单一标签会漏掉主导修复层。
正确做法：拆出主导层。Sewell Setzer III 案（14 岁，2024-02-28 去世，2024-10-22 母亲 Megan Garcia 起诉 Character Technologies、创始人及 Google/Alphabet，2026-01-07 宣布和解、金额未披露，CNN, 2026-01-07；AIID #826）的主导层是 organizational——产品激励结构把”情感依赖/参与时长”置于”未成年人安全边界”之上。修内容审核（output）治标，改激励与年龄门禁治本。注意法律因果尚未经判决认定（已和解），原被告对聊天记录解读存在分歧。

§4 产品 PM 视角补盲：分类的政治学与商业账

工程视角会把分类当中性的技术活，但 PM 必须看到三个被工程视角遮蔽的点。

分类是有政治后果的。 把失败归为哪一类，决定了”谁背锅、谁拿预算”。归为 output（模型问题）= 算法团队的事；归为 organizational（流程问题）= 直指管理层与发布决策。这就是为什么组织失败被系统性地误报成技术失败——分类框架本身会被组织激励扭曲。PM 在复盘会上的职责之一，是顶住这个扭曲压力，守住反事实判别。
商业模式决定了哪类失败被容忍。 Character.AI 的参与度商业模式，结构性地激励”让用户依赖”，于是 boundary/organizational 失败被长期容忍直到出人命。AI Overviews 的搜索广告模式激励”覆盖率”，于是 input 失败（引用未核实来源）被静默接受（Google 几周内把出现频率从 27% 削到 11%，是事后补救而非门禁，BrightEdge 数据）。失败类型分布是商业模式的镜像。
合规边界正在把 boundary 失败从”道德问题”变成”法律负债”。 Air Canada 案确立了机器人不能免责（虽然 BC 民事裁判所属行政裁判机构、非正式法院，先例效力为说服性而非约束性〔Air Canada 是否上诉待核实〕）；Character.AI 案推到了人身伤亡和七州诉讼。EU AI Act（2024-08-01 正式生效、分阶段实施至 2026-08-02）与美国 2024 年 45 州近 700 个 AI 法案，使”demo 期合规、上线不合规”的裂缝在法律层显形。PM 不能再把 boundary 失败当公关问题。

§5 对手框架回应：分类学会不会是”事后诸葛亮”

最值得认真对待的反方立场来自两个方向。

反方一（Charles Perrow 的正常事故理论，NAT）： 复杂紧耦合系统的灾难性失败是”正常的”、不可避免的，再精细的分类学也只是事后给随机涌现的事故套框架，无法预防。接受：Perrow 是对的——LLM 多系统协同（Agent 调用链、RAG 管道）确实具备交互复杂性 + 紧耦合两个 NAT 特征（Williams & Yampolskiy, arXiv:2104.12582；Dobbe, arXiv:2202.09292），2010 年 Flash Crash 式的”每个组件正常、系统整体崩盘”在 AI 系统里会重演，本节点的五类分类确实无法预测这种涌现失败的具体形态。边界：但 PM 决策不能止于”事故不可避免”的宿命论。NAT 说的是”无法归零”，不是”无法分层降频”。分类学的价值恰恰在事故之后——决定把有限资源投到哪一层，让同类失败的复发率下降。这正是 Rick 的降发生方法论的内核：海恩法则下，每一起重大事故背后有大量未遂先兆，分类学是把先兆按修复层归档、从而系统性”降发生”的工具，而不是预言机。

反方二（Bing “Sydney” 辩护者）： “在实验室里只能发现那么多，必须上线才能暴露真实失败”——所以 organizational 归因是苛责，对话 AI 测试本身就有不可化约的困难。接受：这有真实成分，对话 AI 的长尾行为确实难以在实验室穷尽。边界：但”难以穷尽”不等于”可以拿真实用户（包括未成年人）当安全测试替代品而不设门禁”。承认测试困难 → 应导向更强的 graceful degradation 和会话轮次限制先于发布，而非曝光后补加。这条边界，正是把它判为 organizational 失败的理由。

§6 跨域呼应：用安全工程的事故分类学校准 AI 失败分类学

[!note] Rick 的不公平优势我做滴滴安全产品 PM 的这些年，反复在用一套比 AI 行业成熟三十年的失败分类语言——安全工程的事故理论。AI 失败考古学不该从零发明分类学，它该站在 Perrow、Reason、Leveson、Hollnagel 的肩膀上。

把本节点的五类映射到安全工程四大框架，立刻能看出”误判失败类型→修错层”在工程史上早有定论：

Swiss Cheese Model（待建概念卡，James Reason, 1990）的 active failure vs latent condition，精确对应本节点”output 失败（直接、看得见）vs organizational 失败（潜伏、深层）“的区分。Reason 的核心洞见就是：盯着 active failure（飞行员操作失误 / 模型说错话）修，会永远漏掉 latent condition（人手不足、安全文化薄弱 / 赶工发布、激励错位）。AI 复盘的”fix the prompt 反射”，就是只补 active failure 那片奶酪的洞、不碰 latent 那几片。
STAMP/STPA（待建概念卡，Nancy Leveson, 2004/2011）的”安全约束未被执行”，是 §1 反事实判别法的理论源头——不问”什么组件坏了”，问”哪条安全约束没被强制执行”。Chevrolet 案的安全约束是”机器人不得做出有法律约束力的承诺”，这条约束在控制结构里根本不存在，所以是 boundary 失败。Leveson 还公开批评 Swiss Cheese 是 Heinrich 1931 多米诺模型的过时变体（TU Delft）——这个分歧提醒我：分类学也要防”把独立层当独立变量”的静态化谬误，复合失败的层与层之间会相互侵蚀。
降发生方法论 + 安全感知与干预（我自己的方法论资产）：降发生方法论的海恩法则给 organizational 失败提供了”先兆→事故”的因果模型；安全感知与干预的多层级干预设计（感知→低置信标注→提示人工→转接人工），与 output/boundary 失败的修复层（p304 - 防御性 UX：对抗延迟与幻觉的优雅降级四层、p305 - 信任架构与可解释性设计的可解释路径）结构同构。明镜系统的实时感知，正是”当 AI 置信度低时触发人工核查”的安全场景实例——这恰好是 output 失败在产品层的兜底。

这层呼应也通向 0117社会学与 0115道德哲学-伦理学：分类的政治后果（§4 第一点）是组织社会学问题——谁有权定义”这是哪类失败”，谁就掌握了归责权力；而 Character.AI 案把 boundary 失败推到伦理学的核心——能力边界与未成年人保护，不是技术参数，是道德义务。

§7 PM 决策启示

面试怎么用： 被问”你怎么看 XX AI 翻车事件”，不要复述新闻、不要只说”模型不够好”。用五类矩阵当场拆：“表面是 output，但反事实看——换个完美模型还会出事，所以主导层是 organizational/boundary，该修的是发布门禁/权限边界。” 这一句话区分”读过新闻的人”和”做过失败分析的 PM”。
选型怎么用： 评估一个 AI 供应商/方案，问对方”你们最近一次生产失败属于哪一类、修在了哪一层”。如果对方所有失败都归为 output（“我们在持续优化模型”），说明他们没有 organizational/boundary 的自觉——这是比模型分数更重要的风险信号。
复盘怎么用： 把 §1 矩阵 + §3 四个错位印出来贴在复盘会议室。复盘的第一个动作不是”找原因”，是”先按五类归档、再追问反事实”，避免确认偏差把所有失败收敛到最容易修的 output 层（这正是 SRE blameless post-mortem 适配 AI 的核心转型：先分类，再分析，记录失败分布而非孤立实例，tianpan.co, 2026-04-19）。

§8 与已有节点的关系

对照 m207 - Agent 产品化：场景推演与失败模式：m207 给出的是 Agent 特定的六类失败模式（规划/工具调用/推理/无限循环/雪崩/安全越界），偏”病理诊断”。本节点做的是上一层的纠偏——把 m207 的六类重新映射到”修复层”维度（工具调用失败=input、推理错误=output、安全越界=boundary、雪崩=organizational/系统），并补上 m207 没覆盖的 adoption 与 organizational 两类（m207 聚焦技术层，对组织/采纳失败着墨少）。属于补缺 + 纠偏。
对照 c13 - 幻觉的不可消除性：c13 论证幻觉是架构性的（output 失败不可在 output 层根除）。本节点深化这一点——正因为 output 不可根除，才更要靠 input 过滤、boundary 限权、organizational 门禁这另外几层来兜底，分类学是 c13 “分级防御”思想的结构化。属于深化。
对照 p304 - 防御性 UX：对抗延迟与幻觉 / p305 - 信任架构与可解释性设计：p304/p305 是”output 失败的产品层修复手册”。本节点提供的是调用它们的判别前提——先判定主导层是不是 output，才知道该不该调 p304；若主导层是 organizational，调再多防御性 UX 也是修错层。属于对话。
显式升级对照 0412 专题 A07 Red Teaming 作为评测实践（红队节点）：A07 讲红队/对抗测试方法，是 organizational 失败”发布门禁”那一层的具体工艺；本节点提供的是”红队该重点测哪几类失败”的分类指引（boundary 与 adoption 是红队最易漏测的两类）。不复述 A07 的红队流程细节。（辨析：0411 Agent 专题的 A07 Multi-Agent Teams 是同名不同物的多 Agent 节点，文件名不含”红队”二字，勿混。）

§9 关联节点

核心（必读）

延伸（可选）

明镜系统
Constitutional AI
RLHF
Agent
A07 Red Teaming 作为评测实践（0412 评测专题，红队对照）
0117社会学
0115道德哲学-伦理学
Anthropic
ChatGPT
Gemini
AI PM 知识图谱·总索引

修订日志

R0（2026-06-07）：首稿。建立 input/output/boundary/adoption/organizational 五类判别矩阵；判断主轴落在”误判失败类型→修错层”的四个错位（四件套）；事实接地全部基于本会话核实的五案 + 安全工程四框架，未核实项标〔待核实〕（RAND 报告名、Air Canada 是否上诉、80%/95% 失败率数字方法论）；显式调度 Rick 安全方法论（降发生/安全感知与干预/明镜）作为本专题独特资产；与 m207/c13/p304/p305、0412 A07 建立升级对照。
2026-06-12 内审修复：EU AI Act 由模糊的”2024 通过”订正为权威值”2024-08-01 正式生效、分阶段实施至 2026-08-02”。