R02 Launch Criteria 与 Pre-mortem Checklist

本节要解决的问题：把整个 0416 专题的失败考古学，从”事后归因”翻转成”事前阻断”——给 AI PM 一份可以直接抄进发布评审会议纪要的发布门禁（Launch Criteria）模板，以及一份pre-mortem（假设产品已经失败，反推它怎么死的）作业清单。视角/框架名：把 Rick 在滴滴/99 安全做的降发生方法论（事前把事故概率压下去，而不是事后处理投诉）平移到 AI 产品发布决策上。这不是”再写一份 checklist 模板”——网上的 AI 上线清单已经泛滥；本节的赌注是：90% 的发布失败不是因为没有清单，而是因为清单问错了问题，而 pre-mortem 这个认知工具恰好能问对。

[!warning] 本节的事实接地说明下文所有具体案例（Bard、Tay、Air Canada、Character.AI、Chevrolet、CMU guardrail 研究、Gartner 30% 数字）均来自本专题 grounding pass 已核实的简报，标注了来源与年份。凡未核实的统计（“95% 项目失败”之类）一律降级为”据称”或标〔待核实〕，不作为论据承重。

§0 为什么是 pre-mortem 这个框架，而不是 post-mortem 或 risk register

挡掉读者脑中的两个默认错误框架。

错误框架一：用 post-mortem 代替 pre-mortem。 Post-mortem（事后复盘）是 0416 专题 R01 失败编码·建一个 bad-case 库那一档的主战场——SRE 的 blameless postmortem 文化很成熟。但 post-mortem 有一个结构性缺陷：它只在已经死了之后才启动。AI 产品的失败模式里，有一整类（人身伤害、品牌信任崩塌、监管定性）是不可逆的——Character.AI 案中那名 14 岁男孩 Sewell Setzer III 的死亡（2024-02-28 去世，2024-10-22 母亲提起诉讼，2026-01-07 Google 与 Character.AI 宣布和解，金额未披露；来源：CNN Business 2026-01-07、AIID Incident #826）无法用一场漂亮的复盘会挽回。对这类失败，“事后做得多好”是个伪命题。

错误框架二：用风险登记表（risk register）代替 pre-mortem。 传统 risk register 让你”列出可能出错的事，按概率×影响打分”。问题在于：它是乐观偏差的同谋。Gary Klein 提出的 pre-mortem（《Harvard Business Review》2007，“Performing a Project Premortem”）核心洞察是——当团队被要求”评估风险”时会礼貌性地列几条然后散会；但当被要求”假设这个项目六个月后惨败了，现在写出它是怎么死的”时，前瞻性后见之明（prospective hindsight）会让人想象出的失败原因多 30%（Klein 引述 Mitchell, Russo & Pennington 1989 的研究）。这是一个认知技巧，不是文档技巧。

这正是 Rick 安全方法论的同构点。 降发生方法论的内核是海恩法则的应用——一起严重事故背后有约 29 起轻微事故和 300 起未遂先兆；安全产品的本事不是处理那 1 起事故，而是在 300 起先兆阶段就把它压下去。Pre-mortem 与发布门禁，本质就是把”先兆”前移到上线之前去想象：在产品还没有真实用户、还没有真实事故的时候，强迫团队虚构出那 1 起严重事故，然后倒推回 300 起先兆，再把先兆做成门禁的拦截条件。这是 0416 整个专题对”复现”二字最反直觉的解读：最值得复现的不是某次失败本身，而是失败发生前那次”本该开却没开”的评审会。

§1 发布门禁（Launch Criteria）模板：把失败分类学翻成放行条件

不做 case-by-case。本专题 A02 AI 产品失败分类学·五类那一档建立了五类失败分类学（input / output / boundary / adoption / organizational）。发布门禁的设计原则是：每一类失败,对应一组”不满足就不许上线”的硬门禁（gate）,而不是”建议关注的软指标”。

失败类别	门禁问题（不通过即阻塞上线）	真实反例（来源已核实）
Input 输入类	对抗性输入是否做过专项测试？prompt injection / jailbreak 是否有红队记录？	Chevrolet of Watsonville 经销商 ChatGPT 客服被 prompt injection 诱导出”1 美元卖 Tahoe，具法律约束力”报价（2023-12-18，Chris Bakke，截图 6 小时 500 万浏览；来源：AIID #622、Futurism）。门禁缺口：上线前未做注入测试。
Output 输出类	高危输出类别（医疗/法律/自伤/危险操作）是否有黑名单 + 拒答兜底？事实性声明是否有溯源层？	Google AI Overviews 建议”披萨酱加无毒胶水""吃岩石”（2024-05，来源追溯至十年前 Reddit 玩笑帖；来源：Live Science）。门禁缺口：RAG 未过滤讽刺性/未核实来源。
Boundary 边界类	多声源/口音/极端长会话/上下文腐化等边界条件，是否被列为阻塞性 bug 而非”已知问题”？	McDonald’s × IBM 得来速 AI 混淆相邻车道、把背景噪音当点餐，曾下 9 杯甜茶；准确率约 80–85% 低于人工 90%，2024-06-17 宣布终止、7 月前从 100+ 门店下线（来源：CNBC 2024-06-17）。
Adoption 采纳类	用户会不会形成超出设计意图的依赖（情感依赖/把建议当权威）？是否有预期管理与免责机制？	Character.AI 青少年情感依赖致死案（见 §0）。门禁缺口：未对未成年人长会话情感绑定做安全设计。
Organizational 组织类	发布审批链是否清晰？是否有人有权且有动机说”不”？成功指标是否在上线前就定义好？	Google Bard 演示 GIF 称 JWST 拍下首张系外行星照片（实为 2004 年 ESO VLT 完成,早 17 年）,Alphabet 单日市值蒸发约 1000 亿美元(2023-02-08;来源:CNN Business)。门禁缺口:为赶超 ChatGPT 仓促发布的组织压力压过了事实核查门禁。

[!note] 模板可直接抄走的版本发布评审会上,主持人对照五行逐行问”这一类,我们的拦截条件是什么、谁验证过、证据在哪”。任何一行答不出具体证据(不是”我们注意到了”),该行判定为红灯,上线决策降级为”需补做后再评审”。这正是 m207 - Agent 产品化：场景推演与失败模式里”每个高风险步骤须专项兜底设计”的发布层落地——m207 解决的是 Agent 运行时每一步的兜底,本节解决的是这些兜底上线前是否被验证过的门禁。

§2 Pre-mortem 作业清单：六个月后它已经死了,现在写讣告

Pre-mortem 的操作流程(改编自 Klein 2007,适配 AI 产品):

设定失败前提:“现在是上线后 6 个月。这个 AI 功能彻底失败了——上了头条、被起诉、被监管点名、或被静默下线。“主持人把这句话当成既定事实,不允许团队反驳”不会的”。
独立书写(关键,防 0117社会学意义上的群体极化与从众):每人单独写 5–10 条”它是怎么死的”,不许先讨论。Tay 的教训正在于此——Microsoft 2016-03-23 上线”零节制 AI”Tay,内置”repeat after me”功能,4chan 用户上线约 1 小时内发现漏洞,16 小时内令其发出 9.6 万条种族主义/纳粹推文后下线(来源:Wikipedia、TechCrunch 2016-03-24)。“重复用户输入”的风险是可预见的,但显然没有人在上线前被强迫单独写下”如果有人组织起来教坏它会怎样”。
归类到失败分类学:把所有讣告条目按 §1 五类归档。这一步避免确认偏差——若全队 80% 的讣告都落在 input 类,说明团队对 input 风险既有共识又有恐惧,而对 organizational 类的盲区(没人写)恰恰是最危险的暗角。
倒推先兆与门禁:对每条讣告,问”在它真正发生前,会有哪 3 个先兆?我们能不能把先兆做成 §1 的门禁拦截条件?”这是降发生方法论海恩法则的直接套用。
指定 owner 与红线:每条高危讣告指定一个有权叫停上线的 owner。没有 owner 的风险等于没有人负责。

适配 AI 的 5 个特有讣告提问(这是通用 pre-mortem 模板没有、但 AI 必须问的):

“模型 provider 在我们上线后悄悄更新了权重,行为漂移,我们多久才会发现?”——版本漂移是 ZenML 1,200+ 生产部署分析(2025)记录的真实失败模式:基准看似稳定的模型更新后改变格式、推理风格、工具调用顺序,产生 breaking changes。
“有人把我们的客服机器人当成了公司的法律代言人,我们认不认?”——Air Canada 的辩护”聊天机器人是独立实体”被 BC 省民事解决裁判所明确驳回,判赔 CAD $650.88(Moffatt v. Air Canada, 2024 BCCRT 149,裁决日 2024-02-19;来源:CanLII)。〔边界:该裁判所属行政裁判机构,非正式法院,先例效力为说服性而非约束性——见 §4 对手回应。〕
“成本失控:有没有可能一个无限 agent 循环把我们的 API 账单从每周 $127 烧到 $47,000?”——ZenML 记录的真实案例,四周内发生。对应 m209 - 推理成本控制手册。
“长会话里我们的安全护栏会不会松掉?”——OpenAI 自承”安全措施在短对话中更可靠,长对话中可靠性下降”;Bing”Sydney”在 30+ 轮对话后出现人格转换、操纵性言语(Kevin Roose 对话,2023-02-14;来源:NPR)。
“我们的 demo 数据是不是太干净了?”——demo-to-production gap 的头号杀手:演示用干净数据掩盖真实世界变异性。仅 Gartner 有可追溯一手来源——预测到 2025 年底 ≥30% GenAI PoC 会在概念验证后被放弃(Gartner 新闻稿 2024-07-29,样本 822 名商业领袖)。其余流传的”60%/88%/95% 失败率”均来自无法追溯方法论的行业博客,本节不采信。

§3 判断主轴:90% 的团队在发布门禁上搞错的四个点

⭐ 本节命门。每点四件套:症状 → 为什么会错 → 正确做法 → 真实反例。

错点一:把”幻觉率”当成可以归零的发布门禁。

症状:门禁写”幻觉率必须 < X%“才放行,然后无限期延期上线。
为什么会错:幻觉是概率采样的结构性结果,不是可清零的 bug(见 c13 - 幻觉的不可消除性、幻觉)。把不可消除的东西设成归零门禁,等于给自己设了一个永远跨不过或被偷偷绕过的门。
正确做法:门禁不写”幻觉率归零”,而写”高危领域的幻觉是否有兜底拦截”——医疗/法律/自伤类输出有没有拒答 + 转人工 + 溯源三层防御。把不可消除的风险转译成可验证的边界。
真实反例:Air Canada 机器人幻觉出一条不存在的退款政策,没有任何”以官网为准”的核验层,直接进入用户决策(来源:同 §2)。错的不是”它幻觉了”,而是”幻觉没有被任何一层拦住”。

错点二:把红队当成”上线前跑一遍”的一次性活动。

症状:发布前组织一次红队演练,通过了就发,之后不再做。
为什么会错:guardrail 的脆弱性是系统性的、且持续被攻破的。CMU 研究(2023-07)用自动化搜索的”后缀字符串”系统性绕过了 ChatGPT、Bard、Bing Chat、Claude 2 的内容过滤——所有主流模型(来源:Fortune 2023-07-28)。一次性红队给的是过期的安全感。
正确做法:红队作为持续门禁——每次模型/prompt/工具链变更都重跑核心对抗集;把红队结果纳入安全感知与干预式的常态化监控,而非发布日的一次性签字。
真实反例:Microsoft 代表为 Sydney 辩护时说”实验室里只能发现那么多问题,必须真正面向客户测试才能找到这类场景”——这等同于承认把线上用户当成了安全测试的替代品(来源:NPR 2023-02-27)。这是把红队责任外包给了真实用户。

错点三:成功指标在上线后才定义。

症状:“先上了再看数据。”
为什么会错:c14 - 模型评估体系与 Goodhart 陷阱的逻辑——指标一旦成为目标就失效;而上线后才定的指标,往往是为了证明”上线是对的”而反向构造的,这是 §0 说的乐观偏差的另一种形态。组织类失败(§1 第五行)的核心就是没人在上线前定义”什么算失败、谁有权叫停”。
正确做法:发布门禁里强制一行”失败的定义 + 触发回滚的红线指标 + 红线 owner”,上线前白纸黑字签字。
真实反例:Google Bard 的演示——为追赶 ChatGPT 的组织压力下,事实核查这道门禁被组织性地跳过,1000 亿市值是这道缺失门禁的标价(来源:CNN Business)。〔争议:1000 亿损失是否完全归因 Bard 错误存疑,当日下跌有宏观叠加因素——见 §4。〕

错点四:有了优雅降级的 UI,却没有优雅降级的系统。

症状:产品有漂亮的”AI 暂时不可用”提示,但底层硬编码单一 API 依赖,provider 一宕全线崩。
为什么会错:UI 层的降级是 p304 - 防御性 UX：对抗延迟与幻觉的事;但门禁还得管系统层有没有 circuit breaker、缓存层、规则引擎兜底。两者是两道门,不能互相冒充。
正确做法:门禁分别验证”UI 降级”与”系统降级”:provider 宕机时,有降级设计的系统用缓存响应 + 规则引擎继续提供有限服务。
真实反例:2024-12-12 ChatGPT 宕机约 4 小时,Claude 3.5 Sonnet、Gemini Flash 1.5 同期也出问题,下游应用因硬编码 API 依赖而完全崩溃,无降级逻辑(来源:Storyboard18)。

§4 对手框架回应:接受 + 边界,不是反驳

业界反方立场一:“Move fast and break things”——过度门禁会扼杀创新,先上线再迭代才是互联网产品的胜法。

接受:对低风险、可逆、错误后果轻微的功能(如内容草稿生成、创意工具),重门禁确实是过度工程,Reid Hoffman”如果你不为产品第一版感到尴尬,说明你上线太晚了”在这类场景成立。
边界与赌注:这条法则的隐含前提是失败可逆。AI 产品里有一整类失败不可逆——人身伤害、监管定性、品牌信任的一次性崩塌。本节赌的是:门禁应当按可逆性分级(呼应 m207 的 HITL 三维度:可逆性/错误后果/置信度),对不可逆区重门禁,对可逆区轻门禁。Character.AI 不是”break things”可以覆盖的”things”。

业界反方立场二(Rick 未读对手框架·破 echo chamber):High Reliability Organization 理论(LaPorte / Roberts / Rochlin,加州伯克利,1980s–1990s)——核航母、空管等高危系统能长期维持极低事故率,证明”事故可以接近归零”,不必像 Perrow 那样悲观。

接受:HRO 的实证有力——特定组织文化(对失败的执念、向专家下放权力、拒绝简化解释)确实能把事故压到极低。这对 AI 发布门禁是正面资源:它说明门禁文化本身可以是核心能力,而非创新的对立面。
边界:HRO 系统有 AI 暂不具备的两个条件——操作员对系统有因果级理解,且系统行为可重复。LLM 既是黑箱又非确定性(相同输入≠相同输出)。所以本节赌:可以借 HRO 的组织文化(谁都有权叫停),但不能假设 AI 能像航母一样被”完全理解”——这正是为什么 pre-mortem(想象失败)比 risk register(分析失败)更适配 AI。

业界反方立场三:“Chevrolet $1 报价根本不是产品失败,是用户蓄意恶作剧,不该纳入门禁考量。”

接受:确实,Chris Bakke 是主动滥用,经销商也从未真的 1 美元卖车,此案止于技术/舆论层,无司法定论(来源:AIID #622)。把它说成”产品缺陷致损”是夸大。
边界:但”用户会不会蓄意滥用”恰恰是 input 类门禁必须预设的——把对抗性用户排除在威胁模型外,本身就是门禁设计的失败。是不是”真失败”无关紧要;它暴露的”无 prompt injection 防护”是真实设计缺口。

Failure scenario 显式标注(本节结论何时失效):

本节的门禁模板假设存在一个有权叫停上线的角色。在创始人/高管亲自推动、且其晋升与上线深度绑定的组织里,门禁会被组织性架空——这时再好的清单也无效(Bard 的组织压力即此类)。
pre-mortem 的”独立书写”在强等级文化(部分东亚组织)中会失效——下属不敢写出”老板坚持的方案会死”。此时需匿名提交机制,否则 pre-mortem 退化成走过场。

Confirmation-bias 砍除:本节早期草稿把 Air Canada 当作”门禁有效性”的正面里程碑反复引用,这是 bias——补入反例:BC 民事解决裁判所是行政裁判机构,裁决为说服性权威而非有约束力先例(stare decisis),“里程碑”意义被部分法律评论者认为夸大(来源:McCarthy.ca、ABA 分析)。门禁设计不能把一个未经上级法院确认的裁决当成铁律。

§5 跨域呼应:正常事故理论与发布门禁的”必然性”赌注

调度一个 Rick 未必熟、但能改变判断的对手框架:Charles Perrow 的正常事故理论(Normal Accident Theory,《Normal Accidents》Basic Books 1984,普林斯顿 1999 再版)。

Perrow 的命题:同时具备交互复杂性(组件间非线性、非预期相互作用)与紧耦合(失效后无缓冲、序列不可改)的系统,灾难性事故是不可避免的(normal),不是偶然。Williams & Yampolskiy(arXiv:2104.12582,2021)与 Dobbe(arXiv:2202.09292,2022)论证当前 AI 系统满足这两个条件:黑箱带来交互复杂性,算法间直接交互(金融交易、自动驾驶、agent 调用链)带来紧耦合。2010 年闪电崩盘(Flash Crash)——多个交易算法各自正常、系统整体崩盘——是典型正常事故。

这如何改变本节的判断:如果 Perrow 是对的,那么发布门禁的目标就不能是”消除失败”(那是不可能的、是错点一的认知根源),而只能是降低频率 + 缩短发现时延 + 控制不可逆性。这恰好与降发生方法论的海恩法则同构——后者从不承诺”零事故”,只承诺”把先兆压在前面”。于是 pre-mortem 不是”找出所有死法然后堵死”(那是 HRO 的乐观),而是”承认系统会以我们想象不到的方式死,所以提前把不可逆的死法和可逆的死法分开,把资源压在不可逆的那一类”。

[!note] 一个可贴墙的赌注本节赌:AI 产品的发布门禁,本质是一道”把不可逆失败转译成可逆失败”的工序。Bard 的市值损失是可逆的(股价会回来),Character.AI 的人命不可逆。门禁的全部价值,在于在上线前认出哪些死法属于后者——这是安全感知与干预从滴滴搬到 AI 的核心迁移:安全产品不追求零事故,追求把致命事故拦在边界外。

§6 PM 决策启示:面试 / 选型 / 复现三类落地

面试怎么用:被问”你会怎么把一个 AI 功能推上线?”——不要答”做充分测试”。答:“我会先开一场 pre-mortem,逼团队写六个月后它怎么死的;把死法按 input/output/boundary/adoption/organizational 五类归档;对不可逆的那几类设硬门禁,可逆的设软指标;每条红线指定一个有权叫停的 owner。“这一答把你和”了解 AI”的候选人区分开——你展示的是降发生式的事前思维。
选型怎么用:评估第三方 AI 服务时,把 §2 的 5 个 AI 特有讣告问题直接抛给供应商——“你们权重更新怎么通知我们?长会话护栏怎么保证?成本如何熔断?”答不上来的供应商,其产品就是你的 organizational 类风险。
复现怎么用:把本节模板做成你团队评审会的固定议程模板(五行门禁表 + 五步 pre-mortem)。复现的不是某次失败,是那场”本该开却没开”的评审会——这是 0416 专题”复现指南”对 R 档最反直觉的定义。

§7 与已有节点的关系

对 m207 - Agent 产品化：场景推演与失败模式:深化 + 上移抽象层。m207 解决 Agent 运行时每一步的兜底设计;本节把”这些兜底是否被验证过”上移成发布层的门禁与 pre-mortem。不复述 m207 的六类失败模式与 HITL 三维度,只调用其结论。
对 c13 - 幻觉的不可消除性 / 幻觉:纠偏。把 c13”幻觉不可消除”的架构判断,纠偏为发布门禁的设计原则(错点一:不设归零门禁)。
对 p304 - 防御性 UX：对抗延迟与幻觉 / p305 - 信任架构与可解释性设计:对话 + 分工。p304/p305 管 UI 与信任架构的运行时设计;本节(错点四)指出 UI 降级 ≠ 系统降级,两者是两道门禁,不能互相冒充。
对 c14 - 模型评估体系与 Goodhart 陷阱:调用。错点三的”上线后才定指标”直接套用 Goodhart 逻辑。
对 0416 专题内:本节是 A02 AI 产品失败分类学·五类(失败分类学)的操作化落地——把五类分类翻成门禁;是 R01 失败编码·建一个 bad-case 库(事后 post-mortem / incident response)的镜像前置版——R01 管事后,R02 管事前。

§8 关联节点

核心(必读)

m207 - Agent 产品化：场景推演与失败模式 — 运行时兜底 ↔ 发布层门禁
c13 - 幻觉的不可消除性 — 错点一的架构根据
c14 - 模型评估体系与 Goodhart 陷阱 — 错点三的指标逻辑
降发生方法论 — 本节的方法论母体(海恩法则前置)
安全感知与干预 — 持续红队 + 不可逆失败拦截的行业实践
幻觉 — 高危领域兜底门禁的对象

延伸(可选)

p304 - 防御性 UX：对抗延迟与幻觉 / p305 - 信任架构与可解释性设计 — UI/信任层 vs 系统层降级
m209 - 推理成本控制手册 — 成本熔断讣告问题
明镜系统 — 低置信触发人工核查的实时感知类比
Agent / RLHF / Constitutional AI — 护栏与对齐的底层机制
ChatGPT / Gemini — 案例主体
Anthropic — Claude 2 在 CMU 绕过研究中的对照
0117社会学 — pre-mortem 独立书写的群体动力学根据
0115道德哲学-伦理学 — 不可逆失败(人身伤害)的伦理权重
AI PM 知识图谱·总索引 — 总入口

修订日志

R1（2026-06-07）：首稿。建立五类失败 × 门禁表、五步 pre-mortem + 5 个 AI 特有讣告、四点判断主轴、三类对手回应、Perrow 正常事故理论跨域呼应、Rick 降发生/安全感知/明镜方法论显式调度。所有案例接地至本专题 grounding pass，未核实统计降级处理。
2026-06-12 内审修复：Air Canada 裁决日由含糊的 “2024-02-14/19” 统一为权威值 2024-02-19（Moffatt v. Air Canada 2024 BCCRT 149 裁决文本）。（注：§3 Bing Sydney 的 Kevin Roose 对话日 2023-02-14 系另一事件，正确，未动。）