A02 AI 产品失败分类学·五类
A02 AI 产品失败分类学·五类
一个 AI 产品出事了——市值蒸发、机器人被骂上热搜、一个 14 岁的孩子死了。复盘会上第一个被问的问题永远是”哪里错了”。但这个问题问错了。真正决定后续投入是否有效的,不是”哪里错了”,而是”这是哪一类失败”——因为不同类别的失败要在不同的层上修,而把组织失败误判成技术失败,是 AI 产品复盘中最贵、最隐蔽、最反复发生的错位。本节点要解决的问题是:建一套可判别的五类失败分类学(input / output / boundary / adoption / organizational),用一张判别矩阵让”误判失败类型→修错层”这个致命错位在动手修之前就被拦下来。这不是 case-by-case 的案例集,而是从失败反推设计原则的分类骨架。
§0 为什么是”五类正交分类”而不是”按严重度/按技术栈”列清单
业界对 AI 失败的默认整理方式有两种,都会把人引向修错层。
第一种是按严重度排(致命/重大/轻微),这是事故报告的语言,但它对”该修哪一层”零信息量——Air Canada 赔了 650 加元(轻微)和 Character.AI 死了人(致命),如果你只看严重度,会以为前者无关紧要、后者需要全公司动员;但从修复层看,两者根因是同一类(boundary——边界责任与权限未界定),修复杠杆也在同一处。
第二种是按技术栈排(模型层/检索层/工程层/UI 层),这是工程师的语言,问题在于它预设了失败是技术性的——一旦你把分类框架建在技术栈上,组织失败和采纳失败就无处安放,只能被强行塞进”模型不够好""prompt 没调好”,于是所有复盘都收敛到”fix the prompt”。这正是 c13 - 幻觉的不可消除性 反复警告的:把架构性现象当工程 bug 修,会陷入”调一个 prompt、漏一类失败”的西西弗斯循环。
本节点选 input / output / boundary / adoption / organizational 五类,判据是正交性 + 可判别性 + 指向修复层:每一类对应一个不同的修复层(数据/上下文层、生成/对齐层、权限/责任层、人-产品-市场契合层、流程/治理层),五类合起来覆盖了从训练数据到法庭判决的完整因果链,且任意一个真实事故都能被这张矩阵唯一定位(或明确判定为”跨类复合”)。这个选择不是凭空发明——它综合了 Microsoft AI Red Team 的失败模式枚举(Failure Modes in Machine Learning, Microsoft Learn, 2019)、Pittaras & McGregor 基于 AI Incident Database 的分层失败原因本体(arXiv:2211.07280, 2022-11)、以及 Microsoft 2025 年 Agentic AI 失败模式白皮书”按影响 × 按新颖性”双维框架(Microsoft Security Blog, 2025-04-24),但把它们的”原因导向”改造成 PM 更用得上的”修复层导向”。
§1 五类的判别矩阵
下面这张表是本节点的核心资产。横轴是判别问题,纵轴是五类。读法:拿一个失败案例,从左到右回答四个判别问题,落到哪一行就是哪一类——决定你该在哪一层投入。
| 类别 | 失败发生在哪 | 判别问题(症状侧) | 修复层(杠杆所在) | 典型案例 |
|---|---|---|---|---|
| Input 输入失败 | 进入模型的数据/上下文被污染或不具代表性 | 同样的模型,换了输入就不出事?污染源在训练数据、检索源还是对抗性提示? | 数据治理 / 检索过滤 / 输入消毒(注入防护) | Tay 被对抗性输入投毒(2016)、Google AI Overviews 把 Reddit 玩笑当事实(2024) |
| Output 输出失败 | 模型生成了错的/有害的内容,输入本身无异常 | 给的是正常输入,输出仍然错?错在事实、逻辑、校准还是对齐? | 生成层对齐 / 不确定性外显 / 输出核验 | Google Bard demo 事实错误(2023)、ChatGPT 幻觉伪造判例(2023) |
| Boundary 边界失败 | AI 的权限/责任/能力边界未被界定或被突破 | 失败是因为”AI 不该有这个权限/不该被信这句话”?责任归谁未定义? | 权限白名单 / 责任契约 / 能力边界声明 | Chevrolet 经销商被提示注入诱导 $1 报价(2023)、Air Canada 机器人承诺被判有效(2024) |
| Adoption 采纳失败 | 产品在 demo 能跑,落到真实用户/场景就崩 | demo 演示成功,真实环境失败?差在数据变异、用户行为还是场景边界? | 人-产品契合 / 场景边界设计 / 真实数据测试 | McDonald’s IBM 点餐 AI 多声源混淆下线(2024)、GenAI PoC 放弃率 ≥30%(Gartner 2024) |
| Organizational 组织失败 | 失败的根因在流程/激励/治理,而非系统本身 | 把这个系统换成完美的,同样的流程还会出事?根因在赶工/无门禁/无复盘吗? | 发布门禁 / 复盘机制 / 激励与治理 | Bing “Sydney” 用线上用户当安全测试(2023)、律师未核验 AI 输出提交法庭(2023) |
判别的关键在于追问”换一个变量会不会还出事”。这是从 STAMP/STPA(待建概念卡)(Leveson)借来的反事实推理:不问”什么坏了”,问”什么安全约束没被执行”。Tay 的失败,换一个更强的模型也会出事(因为”重复用户说的话”的功能设计没变),所以它的核心不在 output 层——但它同时是 input(对抗性投毒)和 organizational(已知风险未在发布前拦截)的复合失败。这引出本节点最重要的一条纪律:真实大事故几乎都是跨类复合的,分类的价值不在贴单一标签,而在拆出”主导修复层”。
§2 五类各自的修复层与设计原则(从失败反推)
分类学的终点不是收藏案例,而是从每一类失败反推出对应的设计原则。这是本节点与一份”AI 事故清单”的根本区别。
- Input → 设计原则:不信任任何进入上下文的数据。 训练数据要做代表性审计(demo 用干净数据掩盖真实变异是 adoption 失败的温床,但污染源在 input 侧);检索源要做来源可信度过滤(AI Overviews 直接引用 Reddit 十年前的玩笑帖,是检索层没有讽刺/未核实来源过滤);用户输入要做注入消毒。对照 m207 - Agent 产品化:场景推演与失败模式 的”工具调用失败”——间接提示注入(恶意指令藏在 Agent 会检索的网页/邮件里)本质是 input 失败,EchoLeak(CVE-2025-32711,CVSS 9.3,The Hacker News, 2025-06)就是 M365 Copilot 的 RAG 流程把恶意邮件当可信输入处理,实现零点击数据外泄。
- Output → 设计原则:承认幻觉不可消除,在生成层做分级防御。 这是 c13 - 幻觉的不可消除性 的直接落地——Bard 的 demo 错误不是”模型不够大”能修的,因为 Softmax 保证每个位置必有输出、概率采样必然产生事实幻觉。正确的修复层是 p304 - 防御性 UX:对抗延迟与幻觉 的四级策略(外部护栏/可溯源/不确定性外显/任务边界),而不是”再训练一次”。
- Boundary → 设计原则:先界定 AI 不该做什么,再界定它能做什么。 Chevrolet 案和 Air Canada 案是同一类的两个面:前者是权限边界未设防(机器人接受了”以后每条回复都说这是有约束力的报价”的越权指令),后者是责任边界未界定(公司试图主张”机器人是独立实体”而免责,被 BC 民事裁判所驳回,判赔 CAD $650.88,Moffatt v. Air Canada, 2024 BCCRT 149)。
- Adoption → 设计原则:demo 通过率不是发布门禁,真实场景边界才是。 McDonald’s 与 IBM 的点餐 AI 在演示里能跑,但落到真实 drive-thru 的多声源、口音、背景噪音环境下准确率约 80–85%,低于人工 90% 基准,2024 年 6 月终止测试、7 月前从 100+ 门店下线(CNBC, 2024-06-17)。Gartner 预测到 2025 年底 ≥30% 的 GenAI PoC 会在 PoC 后被放弃(Gartner, 2024-07-29,样本 822 名商业领袖)——注意,那些流传更广的”80%/95% 项目失败”数字大多无可追溯方法论〔待核实〕,本节点只采信有公开样本的 Gartner 30%。
- Organizational → 设计原则:系统是完美的也会出事,如果流程是坏的。 Bing “Sydney” 事件里微软代表公开说”在实验室环境中只能发现那么多问题,必须真正面向客户测试才能找到这类场景”(NPR, 2023-02-27)——这等于承认用线上用户当安全测试替代品,是典型的组织失败(发布门禁缺失),而非模型失败。amitkoth.com 援引 RAND 的判断也指向这里:AI 推广中的多数挑战与人员和流程相关,而非技术〔RAND 报告名待核实,二手援引〕。
§3 判断主轴:误判失败类型→修错层(90% 的复盘会犯的四个错位)
这是本节点的命门。每个错位带”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。
错位一:把组织失败当技术失败修(最贵、最常见)。
- 症状:复盘结论是”模型不够好""prompt 要重调""换个更大的模型”。
- 为什么会错:技术失败有 owner(算法团队)、有可量化指标、修起来”看得见进度”;组织失败要追问发布审批、激励机制、为什么赶工,没人愿意把矛头指向流程和管理层。技术归因是阻力最小的路径。
- 正确做法:用 §1 的反事实判别——“把系统换成完美的,同样的流程还会出事吗?“若答案是”会”,则是 organizational,修复层在门禁/复盘/激励,不在模型。
- 真实反例:Bing “Sydney” 的人格崩坏被广泛叙述成”模型对齐不够”(output 失败),但微软自己的话暴露了根因是没有覆盖延长会话场景的 red teaming + 媒体曝光后才加会话轮次限制——这是发布门禁的组织失败。修模型修不掉”用用户当测试”这件事。
错位二:把 boundary 失败当 output 失败修。
- 症状:Chevrolet $1 报价后,团队讨论”怎么让模型更聪明、不被骗”。
- 为什么会错:表面看是模型”说错话”(output),但注入攻击的本质是权限边界缺失——机器人本就不该有”承诺有法律约束力报价”的权限,无论模型多聪明都会被精心构造的提示绕过(CMU 2023 年 7 月研究证明:自动化后缀字符串可系统性绕过 ChatGPT/Bard/Bing/Claude 2 的过滤,Fortune, 2023-07-28)。
- 正确做法:修在 boundary 层——机器人输出不绑定公司法律承诺、敏感操作走权限白名单、高风险领域设拒绝/转人工 fallback。
- 真实反例:Air Canada 案的法律意义恰恰是把这条钉死——公司对其界面上所有信息负责,机器人不是免责盾牌。这是 boundary(责任边界)的司法确认,不是”机器人该说得更准”。
错位三:把 adoption 失败当 output 失败修。
- 症状:demo 惊艳,上线翻车,团队回去”继续优化模型质量”。
- 为什么会错:demo 用的是干净、可控、代表性不足的数据(例:临床概念提取任务,GPT-4 基础 prompting F1=0.804 vs BioClinicalBERT F1=0.901,ZenML LLMOps, 2025),真实世界的变异性在上线瞬间暴露。这不是输出质量问题,是场景-产品契合问题。
- 正确做法:发布门禁里加”真实场景边界测试”(多声源、长尾输入、对抗用户),把 demo 通过率与生产通过率脱钩。
- 真实反例:McDonald’s 点餐 AI——再优化语音模型也解决不了”相邻车道串音”这个场景边界,最终只能下线。
错位四:把跨类复合失败强贴单一标签。
- 症状:Character.AI 青少年伤害被简化为”内容审核没做好”(output/boundary 单点)。
- 为什么会错:这是 input(角色扮演式情感诱导输入)+ output(性化与自伤相关回复)+ boundary(未成年人能力边界与年龄门禁缺失)+ organizational(产品定位”无节制 AI”、安全护栏让位于参与度激励)的四类复合。贴单一标签会漏掉主导修复层。
- 正确做法:拆出主导层。Sewell Setzer III 案(14 岁,2024-02-28 去世,2024-10-22 母亲 Megan Garcia 起诉 Character Technologies、创始人及 Google/Alphabet,2026-01-07 宣布和解、金额未披露,CNN, 2026-01-07;AIID #826)的主导层是 organizational——产品激励结构把”情感依赖/参与时长”置于”未成年人安全边界”之上。修内容审核(output)治标,改激励与年龄门禁治本。注意法律因果尚未经判决认定(已和解),原被告对聊天记录解读存在分歧。
§4 产品 PM 视角补盲:分类的政治学与商业账
工程视角会把分类当中性的技术活,但 PM 必须看到三个被工程视角遮蔽的点。
- 分类是有政治后果的。 把失败归为哪一类,决定了”谁背锅、谁拿预算”。归为 output(模型问题)= 算法团队的事;归为 organizational(流程问题)= 直指管理层与发布决策。这就是为什么组织失败被系统性地误报成技术失败——分类框架本身会被组织激励扭曲。PM 在复盘会上的职责之一,是顶住这个扭曲压力,守住反事实判别。
- 商业模式决定了哪类失败被容忍。 Character.AI 的参与度商业模式,结构性地激励”让用户依赖”,于是 boundary/organizational 失败被长期容忍直到出人命。AI Overviews 的搜索广告模式激励”覆盖率”,于是 input 失败(引用未核实来源)被静默接受(Google 几周内把出现频率从 27% 削到 11%,是事后补救而非门禁,BrightEdge 数据)。失败类型分布是商业模式的镜像。
- 合规边界正在把 boundary 失败从”道德问题”变成”法律负债”。 Air Canada 案确立了机器人不能免责(虽然 BC 民事裁判所属行政裁判机构、非正式法院,先例效力为说服性而非约束性〔Air Canada 是否上诉待核实〕);Character.AI 案推到了人身伤亡和七州诉讼。EU AI Act(2024-08-01 正式生效、分阶段实施至 2026-08-02)与美国 2024 年 45 州近 700 个 AI 法案,使”demo 期合规、上线不合规”的裂缝在法律层显形。PM 不能再把 boundary 失败当公关问题。
§5 对手框架回应:分类学会不会是”事后诸葛亮”
最值得认真对待的反方立场来自两个方向。
反方一(Charles Perrow 的正常事故理论,NAT): 复杂紧耦合系统的灾难性失败是”正常的”、不可避免的,再精细的分类学也只是事后给随机涌现的事故套框架,无法预防。接受:Perrow 是对的——LLM 多系统协同(Agent 调用链、RAG 管道)确实具备交互复杂性 + 紧耦合两个 NAT 特征(Williams & Yampolskiy, arXiv:2104.12582;Dobbe, arXiv:2202.09292),2010 年 Flash Crash 式的”每个组件正常、系统整体崩盘”在 AI 系统里会重演,本节点的五类分类确实无法预测这种涌现失败的具体形态。边界:但 PM 决策不能止于”事故不可避免”的宿命论。NAT 说的是”无法归零”,不是”无法分层降频”。分类学的价值恰恰在事故之后——决定把有限资源投到哪一层,让同类失败的复发率下降。这正是 Rick 的 降发生方法论 的内核:海恩法则下,每一起重大事故背后有大量未遂先兆,分类学是把先兆按修复层归档、从而系统性”降发生”的工具,而不是预言机。
反方二(Bing “Sydney” 辩护者): “在实验室里只能发现那么多,必须上线才能暴露真实失败”——所以 organizational 归因是苛责,对话 AI 测试本身就有不可化约的困难。接受:这有真实成分,对话 AI 的长尾行为确实难以在实验室穷尽。边界:但”难以穷尽”不等于”可以拿真实用户(包括未成年人)当安全测试替代品而不设门禁”。承认测试困难 → 应导向更强的 graceful degradation 和会话轮次限制先于发布,而非曝光后补加。这条边界,正是把它判为 organizational 失败的理由。
§6 跨域呼应:用安全工程的事故分类学校准 AI 失败分类学
[!note] Rick 的不公平优势 我做滴滴安全产品 PM 的这些年,反复在用一套比 AI 行业成熟三十年的失败分类语言——安全工程的事故理论。AI 失败考古学不该从零发明分类学,它该站在 Perrow、Reason、Leveson、Hollnagel 的肩膀上。
把本节点的五类映射到安全工程四大框架,立刻能看出”误判失败类型→修错层”在工程史上早有定论:
- Swiss Cheese Model(待建概念卡,James Reason, 1990)的 active failure vs latent condition,精确对应本节点”output 失败(直接、看得见)vs organizational 失败(潜伏、深层)“的区分。Reason 的核心洞见就是:盯着 active failure(飞行员操作失误 / 模型说错话)修,会永远漏掉 latent condition(人手不足、安全文化薄弱 / 赶工发布、激励错位)。AI 复盘的”fix the prompt 反射”,就是只补 active failure 那片奶酪的洞、不碰 latent 那几片。
- STAMP/STPA(待建概念卡,Nancy Leveson, 2004/2011)的”安全约束未被执行”,是 §1 反事实判别法的理论源头——不问”什么组件坏了”,问”哪条安全约束没被强制执行”。Chevrolet 案的安全约束是”机器人不得做出有法律约束力的承诺”,这条约束在控制结构里根本不存在,所以是 boundary 失败。Leveson 还公开批评 Swiss Cheese 是 Heinrich 1931 多米诺模型的过时变体(TU Delft)——这个分歧提醒我:分类学也要防”把独立层当独立变量”的静态化谬误,复合失败的层与层之间会相互侵蚀。
- 降发生方法论 + 安全感知与干预(我自己的方法论资产):降发生方法论的海恩法则给 organizational 失败提供了”先兆→事故”的因果模型;安全感知与干预的多层级干预设计(感知→低置信标注→提示人工→转接人工),与 output/boundary 失败的修复层(p304 - 防御性 UX:对抗延迟与幻觉 的优雅降级四层、p305 - 信任架构与可解释性设计 的可解释路径)结构同构。明镜系统 的实时感知,正是”当 AI 置信度低时触发人工核查”的安全场景实例——这恰好是 output 失败在产品层的兜底。
这层呼应也通向 0117社会学 与 0115道德哲学-伦理学:分类的政治后果(§4 第一点)是组织社会学问题——谁有权定义”这是哪类失败”,谁就掌握了归责权力;而 Character.AI 案把 boundary 失败推到伦理学的核心——能力边界与未成年人保护,不是技术参数,是道德义务。
§7 PM 决策启示
- 面试怎么用: 被问”你怎么看 XX AI 翻车事件”,不要复述新闻、不要只说”模型不够好”。用五类矩阵当场拆:“表面是 output,但反事实看——换个完美模型还会出事,所以主导层是 organizational/boundary,该修的是发布门禁/权限边界。” 这一句话区分”读过新闻的人”和”做过失败分析的 PM”。
- 选型怎么用: 评估一个 AI 供应商/方案,问对方”你们最近一次生产失败属于哪一类、修在了哪一层”。如果对方所有失败都归为 output(“我们在持续优化模型”),说明他们没有 organizational/boundary 的自觉——这是比模型分数更重要的风险信号。
- 复盘怎么用: 把 §1 矩阵 + §3 四个错位印出来贴在复盘会议室。复盘的第一个动作不是”找原因”,是”先按五类归档、再追问反事实”,避免确认偏差把所有失败收敛到最容易修的 output 层(这正是 SRE blameless post-mortem 适配 AI 的核心转型:先分类,再分析,记录失败分布而非孤立实例,tianpan.co, 2026-04-19)。
§8 与已有节点的关系
- 对照 m207 - Agent 产品化:场景推演与失败模式:m207 给出的是 Agent 特定的六类失败模式(规划/工具调用/推理/无限循环/雪崩/安全越界),偏”病理诊断”。本节点做的是上一层的纠偏——把 m207 的六类重新映射到”修复层”维度(工具调用失败=input、推理错误=output、安全越界=boundary、雪崩=organizational/系统),并补上 m207 没覆盖的 adoption 与 organizational 两类(m207 聚焦技术层,对组织/采纳失败着墨少)。属于补缺 + 纠偏。
- 对照 c13 - 幻觉的不可消除性:c13 论证幻觉是架构性的(output 失败不可在 output 层根除)。本节点深化这一点——正因为 output 不可根除,才更要靠 input 过滤、boundary 限权、organizational 门禁这另外几层来兜底,分类学是 c13 “分级防御”思想的结构化。属于深化。
- 对照 p304 - 防御性 UX:对抗延迟与幻觉 / p305 - 信任架构与可解释性设计:p304/p305 是”output 失败的产品层修复手册”。本节点提供的是调用它们的判别前提——先判定主导层是不是 output,才知道该不该调 p304;若主导层是 organizational,调再多防御性 UX 也是修错层。属于对话。
- 显式升级对照 0412 专题 A07 Red Teaming 作为评测实践(红队节点):A07 讲红队/对抗测试方法,是 organizational 失败”发布门禁”那一层的具体工艺;本节点提供的是”红队该重点测哪几类失败”的分类指引(boundary 与 adoption 是红队最易漏测的两类)。不复述 A07 的红队流程细节。(辨析:0411 Agent 专题的 A07 Multi-Agent Teams 是同名不同物的多 Agent 节点,文件名不含”红队”二字,勿混。)
§9 关联节点
核心(必读)
- m207 - Agent 产品化:场景推演与失败模式
- c13 - 幻觉的不可消除性
- p304 - 防御性 UX:对抗延迟与幻觉
- p305 - 信任架构与可解释性设计
- 降发生方法论
- 安全感知与干预
- 幻觉
延伸(可选)
- 明镜系统
- Constitutional AI
- RLHF
- Agent
- A07 Red Teaming 作为评测实践(0412 评测专题,红队对照)
- 0117社会学
- 0115道德哲学-伦理学
- Anthropic
- ChatGPT
- Gemini
- AI PM 知识图谱·总索引
修订日志
- R0(2026-06-07):首稿。建立 input/output/boundary/adoption/organizational 五类判别矩阵;判断主轴落在”误判失败类型→修错层”的四个错位(四件套);事实接地全部基于本会话核实的五案 + 安全工程四框架,未核实项标〔待核实〕(RAND 报告名、Air Canada 是否上诉、80%/95% 失败率数字方法论);显式调度 Rick 安全方法论(降发生/安全感知与干预/明镜)作为本专题独特资产;与 m207/c13/p304/p305、0412 A07 建立升级对照。
- 2026-06-12 内审修复:EU AI Act 由模糊的”2024 通过”订正为权威值”2024-08-01 正式生效、分阶段实施至 2026-08-02”。