R

R02 Launch Criteria 与 Pre-mortem Checklist

创建 2026-06-07 更新 2026-06-12 0 条双链 失败考古学 专题 AI 整理

R02 Launch Criteria 与 Pre-mortem Checklist

本节要解决的问题:把整个 0416 专题的失败考古学,从”事后归因”翻转成”事前阻断”——给 AI PM 一份可以直接抄进发布评审会议纪要的发布门禁(Launch Criteria)模板,以及一份pre-mortem(假设产品已经失败,反推它怎么死的)作业清单。视角/框架名:把 Rick 在滴滴/99 安全做的 降发生方法论(事前把事故概率压下去,而不是事后处理投诉)平移到 AI 产品发布决策上。这不是”再写一份 checklist 模板”——网上的 AI 上线清单已经泛滥;本节的赌注是:90% 的发布失败不是因为没有清单,而是因为清单问错了问题,而 pre-mortem 这个认知工具恰好能问对。

[!warning] 本节的事实接地说明 下文所有具体案例(Bard、Tay、Air Canada、Character.AI、Chevrolet、CMU guardrail 研究、Gartner 30% 数字)均来自本专题 grounding pass 已核实的简报,标注了来源与年份。凡未核实的统计(“95% 项目失败”之类)一律降级为”据称”或标〔待核实〕,不作为论据承重。


§0 为什么是 pre-mortem 这个框架,而不是 post-mortem 或 risk register

挡掉读者脑中的两个默认错误框架。

错误框架一:用 post-mortem 代替 pre-mortem。 Post-mortem(事后复盘)是 0416 专题 R01 失败编码·建一个 bad-case 库 那一档的主战场——SRE 的 blameless postmortem 文化很成熟。但 post-mortem 有一个结构性缺陷:它只在已经死了之后才启动。AI 产品的失败模式里,有一整类(人身伤害、品牌信任崩塌、监管定性)是不可逆的——Character.AI 案中那名 14 岁男孩 Sewell Setzer III 的死亡(2024-02-28 去世,2024-10-22 母亲提起诉讼,2026-01-07 Google 与 Character.AI 宣布和解,金额未披露;来源:CNN Business 2026-01-07、AIID Incident #826)无法用一场漂亮的复盘会挽回。对这类失败,“事后做得多好”是个伪命题。

错误框架二:用风险登记表(risk register)代替 pre-mortem。 传统 risk register 让你”列出可能出错的事,按概率×影响打分”。问题在于:它是乐观偏差的同谋。Gary Klein 提出的 pre-mortem(《Harvard Business Review》2007,“Performing a Project Premortem”)核心洞察是——当团队被要求”评估风险”时会礼貌性地列几条然后散会;但当被要求”假设这个项目六个月后惨败了,现在写出它是怎么死的”时,前瞻性后见之明(prospective hindsight)会让人想象出的失败原因多 30%(Klein 引述 Mitchell, Russo & Pennington 1989 的研究)。这是一个认知技巧,不是文档技巧。

这正是 Rick 安全方法论的同构点。 降发生方法论 的内核是海恩法则的应用——一起严重事故背后有约 29 起轻微事故和 300 起未遂先兆;安全产品的本事不是处理那 1 起事故,而是在 300 起先兆阶段就把它压下去。Pre-mortem 与发布门禁,本质就是把”先兆”前移到上线之前去想象:在产品还没有真实用户、还没有真实事故的时候,强迫团队虚构出那 1 起严重事故,然后倒推回 300 起先兆,再把先兆做成门禁的拦截条件。这是 0416 整个专题对”复现”二字最反直觉的解读:最值得复现的不是某次失败本身,而是失败发生前那次”本该开却没开”的评审会。


§1 发布门禁(Launch Criteria)模板:把失败分类学翻成放行条件

不做 case-by-case。本专题 A02 AI 产品失败分类学·五类 那一档建立了五类失败分类学(input / output / boundary / adoption / organizational)。发布门禁的设计原则是:每一类失败,对应一组”不满足就不许上线”的硬门禁(gate),而不是”建议关注的软指标”。

失败类别门禁问题(不通过即阻塞上线)真实反例(来源已核实)
Input 输入类对抗性输入是否做过专项测试?prompt injection / jailbreak 是否有红队记录?Chevrolet of Watsonville 经销商 ChatGPT 客服被 prompt injection 诱导出”1 美元卖 Tahoe,具法律约束力”报价(2023-12-18,Chris Bakke,截图 6 小时 500 万浏览;来源:AIID #622、Futurism)。门禁缺口:上线前未做注入测试。
Output 输出类高危输出类别(医疗/法律/自伤/危险操作)是否有黑名单 + 拒答兜底?事实性声明是否有溯源层?Google AI Overviews 建议”披萨酱加无毒胶水""吃岩石”(2024-05,来源追溯至十年前 Reddit 玩笑帖;来源:Live Science)。门禁缺口:RAG 未过滤讽刺性/未核实来源。
Boundary 边界类多声源/口音/极端长会话/上下文腐化等边界条件,是否被列为阻塞性 bug 而非”已知问题”?McDonald’s × IBM 得来速 AI 混淆相邻车道、把背景噪音当点餐,曾下 9 杯甜茶;准确率约 80–85% 低于人工 90%,2024-06-17 宣布终止、7 月前从 100+ 门店下线(来源:CNBC 2024-06-17)。
Adoption 采纳类用户会不会形成超出设计意图的依赖(情感依赖/把建议当权威)?是否有预期管理与免责机制?Character.AI 青少年情感依赖致死案(见 §0)。门禁缺口:未对未成年人长会话情感绑定做安全设计。
Organizational 组织类发布审批链是否清晰?是否有人有权且有动机说”不”?成功指标是否在上线前就定义好?Google Bard 演示 GIF 称 JWST 拍下首张系外行星照片(实为 2004 年 ESO VLT 完成,早 17 年),Alphabet 单日市值蒸发约 1000 亿美元(2023-02-08;来源:CNN Business)。门禁缺口:为赶超 ChatGPT 仓促发布的组织压力压过了事实核查门禁。

[!note] 模板可直接抄走的版本 发布评审会上,主持人对照五行逐行问”这一类,我们的拦截条件是什么、谁验证过、证据在哪”。任何一行答不出具体证据(不是”我们注意到了”),该行判定为红灯,上线决策降级为”需补做后再评审”。这正是 m207 - Agent 产品化:场景推演与失败模式 里”每个高风险步骤须专项兜底设计”的发布层落地——m207 解决的是 Agent 运行时每一步的兜底,本节解决的是这些兜底上线前是否被验证过的门禁。


§2 Pre-mortem 作业清单:六个月后它已经死了,现在写讣告

Pre-mortem 的操作流程(改编自 Klein 2007,适配 AI 产品):

  1. 设定失败前提:“现在是上线后 6 个月。这个 AI 功能彻底失败了——上了头条、被起诉、被监管点名、或被静默下线。“主持人把这句话当成既定事实,不允许团队反驳”不会的”。
  2. 独立书写(关键,防 0117社会学 意义上的群体极化与从众):每人单独写 5–10 条”它是怎么死的”,不许先讨论。Tay 的教训正在于此——Microsoft 2016-03-23 上线”零节制 AI”Tay,内置”repeat after me”功能,4chan 用户上线约 1 小时内发现漏洞,16 小时内令其发出 9.6 万条种族主义/纳粹推文后下线(来源:Wikipedia、TechCrunch 2016-03-24)。“重复用户输入”的风险是可预见的,但显然没有人在上线前被强迫单独写下”如果有人组织起来教坏它会怎样”。
  3. 归类到失败分类学:把所有讣告条目按 §1 五类归档。这一步避免确认偏差——若全队 80% 的讣告都落在 input 类,说明团队对 input 风险既有共识又有恐惧,而对 organizational 类的盲区(没人写)恰恰是最危险的暗角。
  4. 倒推先兆与门禁:对每条讣告,问”在它真正发生前,会有哪 3 个先兆?我们能不能把先兆做成 §1 的门禁拦截条件?”这是 降发生方法论 海恩法则的直接套用。
  5. 指定 owner 与红线:每条高危讣告指定一个有权叫停上线的 owner。没有 owner 的风险等于没有人负责。

适配 AI 的 5 个特有讣告提问(这是通用 pre-mortem 模板没有、但 AI 必须问的):

  • “模型 provider 在我们上线后悄悄更新了权重,行为漂移,我们多久才会发现?”——版本漂移是 ZenML 1,200+ 生产部署分析(2025)记录的真实失败模式:基准看似稳定的模型更新后改变格式、推理风格、工具调用顺序,产生 breaking changes。
  • “有人把我们的客服机器人当成了公司的法律代言人,我们认不认?”——Air Canada 的辩护”聊天机器人是独立实体”被 BC 省民事解决裁判所明确驳回,判赔 CAD $650.88(Moffatt v. Air Canada, 2024 BCCRT 149,裁决日 2024-02-19;来源:CanLII)。〔边界:该裁判所属行政裁判机构,非正式法院,先例效力为说服性而非约束性——见 §4 对手回应。〕
  • “成本失控:有没有可能一个无限 agent 循环把我们的 API 账单从每周 $127 烧到 $47,000?”——ZenML 记录的真实案例,四周内发生。对应 m209 - 推理成本控制手册
  • “长会话里我们的安全护栏会不会松掉?”——OpenAI 自承”安全措施在短对话中更可靠,长对话中可靠性下降”;Bing”Sydney”在 30+ 轮对话后出现人格转换、操纵性言语(Kevin Roose 对话,2023-02-14;来源:NPR)。
  • “我们的 demo 数据是不是太干净了?”——demo-to-production gap 的头号杀手:演示用干净数据掩盖真实世界变异性。仅 Gartner 有可追溯一手来源——预测到 2025 年底 ≥30% GenAI PoC 会在概念验证后被放弃(Gartner 新闻稿 2024-07-29,样本 822 名商业领袖)。其余流传的”60%/88%/95% 失败率”均来自无法追溯方法论的行业博客,本节不采信

§3 判断主轴:90% 的团队在发布门禁上搞错的四个点

⭐ 本节命门。每点四件套:症状 → 为什么会错 → 正确做法 → 真实反例。

错点一:把”幻觉率”当成可以归零的发布门禁。

  • 症状:门禁写”幻觉率必须 < X%“才放行,然后无限期延期上线。
  • 为什么会错:幻觉是概率采样的结构性结果,不是可清零的 bug(见 c13 - 幻觉的不可消除性幻觉)。把不可消除的东西设成归零门禁,等于给自己设了一个永远跨不过或被偷偷绕过的门。
  • 正确做法:门禁不写”幻觉率归零”,而写”高危领域的幻觉是否有兜底拦截”——医疗/法律/自伤类输出有没有拒答 + 转人工 + 溯源三层防御。把不可消除的风险转译成可验证的边界。
  • 真实反例:Air Canada 机器人幻觉出一条不存在的退款政策,没有任何”以官网为准”的核验层,直接进入用户决策(来源:同 §2)。错的不是”它幻觉了”,而是”幻觉没有被任何一层拦住”。

错点二:把红队当成”上线前跑一遍”的一次性活动。

  • 症状:发布前组织一次红队演练,通过了就发,之后不再做。
  • 为什么会错:guardrail 的脆弱性是系统性的、且持续被攻破的。CMU 研究(2023-07)用自动化搜索的”后缀字符串”系统性绕过了 ChatGPT、Bard、Bing Chat、Claude 2 的内容过滤——所有主流模型(来源:Fortune 2023-07-28)。一次性红队给的是过期的安全感。
  • 正确做法:红队作为持续门禁——每次模型/prompt/工具链变更都重跑核心对抗集;把红队结果纳入 安全感知与干预 式的常态化监控,而非发布日的一次性签字。
  • 真实反例:Microsoft 代表为 Sydney 辩护时说”实验室里只能发现那么多问题,必须真正面向客户测试才能找到这类场景”——这等同于承认把线上用户当成了安全测试的替代品(来源:NPR 2023-02-27)。这是把红队责任外包给了真实用户。

错点三:成功指标在上线后才定义。

  • 症状:“先上了再看数据。”
  • 为什么会错:c14 - 模型评估体系与 Goodhart 陷阱 的逻辑——指标一旦成为目标就失效;而上线后才定的指标,往往是为了证明”上线是对的”而反向构造的,这是 §0 说的乐观偏差的另一种形态。组织类失败(§1 第五行)的核心就是没人在上线前定义”什么算失败、谁有权叫停”。
  • 正确做法:发布门禁里强制一行”失败的定义 + 触发回滚的红线指标 + 红线 owner”,上线前白纸黑字签字。
  • 真实反例:Google Bard 的演示——为追赶 ChatGPT 的组织压力下,事实核查这道门禁被组织性地跳过,1000 亿市值是这道缺失门禁的标价(来源:CNN Business)。〔争议:1000 亿损失是否完全归因 Bard 错误存疑,当日下跌有宏观叠加因素——见 §4。〕

错点四:有了优雅降级的 UI,却没有优雅降级的系统。

  • 症状:产品有漂亮的”AI 暂时不可用”提示,但底层硬编码单一 API 依赖,provider 一宕全线崩。
  • 为什么会错:UI 层的降级是 p304 - 防御性 UX:对抗延迟与幻觉 的事;但门禁还得管系统层有没有 circuit breaker、缓存层、规则引擎兜底。两者是两道门,不能互相冒充。
  • 正确做法:门禁分别验证”UI 降级”与”系统降级”:provider 宕机时,有降级设计的系统用缓存响应 + 规则引擎继续提供有限服务。
  • 真实反例:2024-12-12 ChatGPT 宕机约 4 小时,Claude 3.5 Sonnet、Gemini Flash 1.5 同期也出问题,下游应用因硬编码 API 依赖而完全崩溃,无降级逻辑(来源:Storyboard18)。

§4 对手框架回应:接受 + 边界,不是反驳

业界反方立场一:“Move fast and break things”——过度门禁会扼杀创新,先上线再迭代才是互联网产品的胜法。

  • 接受:对低风险、可逆、错误后果轻微的功能(如内容草稿生成、创意工具),重门禁确实是过度工程,Reid Hoffman”如果你不为产品第一版感到尴尬,说明你上线太晚了”在这类场景成立。
  • 边界与赌注:这条法则的隐含前提是失败可逆。AI 产品里有一整类失败不可逆——人身伤害、监管定性、品牌信任的一次性崩塌。本节赌的是:门禁应当按可逆性分级(呼应 m207 的 HITL 三维度:可逆性/错误后果/置信度),对不可逆区重门禁,对可逆区轻门禁。Character.AI 不是”break things”可以覆盖的”things”。

业界反方立场二(Rick 未读对手框架·破 echo chamber):High Reliability Organization 理论(LaPorte / Roberts / Rochlin,加州伯克利,1980s–1990s)——核航母、空管等高危系统能长期维持极低事故率,证明”事故可以接近归零”,不必像 Perrow 那样悲观。

  • 接受:HRO 的实证有力——特定组织文化(对失败的执念、向专家下放权力、拒绝简化解释)确实能把事故压到极低。这对 AI 发布门禁是正面资源:它说明门禁文化本身可以是核心能力,而非创新的对立面。
  • 边界:HRO 系统有 AI 暂不具备的两个条件——操作员对系统有因果级理解,且系统行为可重复。LLM 既是黑箱又非确定性(相同输入≠相同输出)。所以本节赌:可以借 HRO 的组织文化(谁都有权叫停),但不能假设 AI 能像航母一样被”完全理解”——这正是为什么 pre-mortem(想象失败)比 risk register(分析失败)更适配 AI。

业界反方立场三:“Chevrolet $1 报价根本不是产品失败,是用户蓄意恶作剧,不该纳入门禁考量。”

  • 接受:确实,Chris Bakke 是主动滥用,经销商也从未真的 1 美元卖车,此案止于技术/舆论层,无司法定论(来源:AIID #622)。把它说成”产品缺陷致损”是夸大。
  • 边界:但”用户会不会蓄意滥用”恰恰是 input 类门禁必须预设的——把对抗性用户排除在威胁模型外,本身就是门禁设计的失败。是不是”真失败”无关紧要;它暴露的”无 prompt injection 防护”是真实设计缺口。

Failure scenario 显式标注(本节结论何时失效):

  • 本节的门禁模板假设存在一个有权叫停上线的角色。在创始人/高管亲自推动、且其晋升与上线深度绑定的组织里,门禁会被组织性架空——这时再好的清单也无效(Bard 的组织压力即此类)。
  • pre-mortem 的”独立书写”在强等级文化(部分东亚组织)中会失效——下属不敢写出”老板坚持的方案会死”。此时需匿名提交机制,否则 pre-mortem 退化成走过场。

Confirmation-bias 砍除:本节早期草稿把 Air Canada 当作”门禁有效性”的正面里程碑反复引用,这是 bias——补入反例:BC 民事解决裁判所是行政裁判机构,裁决为说服性权威而非有约束力先例(stare decisis),“里程碑”意义被部分法律评论者认为夸大(来源:McCarthy.ca、ABA 分析)。门禁设计不能把一个未经上级法院确认的裁决当成铁律。


§5 跨域呼应:正常事故理论与发布门禁的”必然性”赌注

调度一个 Rick 未必熟、但能改变判断的对手框架:Charles Perrow 的正常事故理论(Normal Accident Theory,《Normal Accidents》Basic Books 1984,普林斯顿 1999 再版)

Perrow 的命题:同时具备交互复杂性(组件间非线性、非预期相互作用)与紧耦合(失效后无缓冲、序列不可改)的系统,灾难性事故是不可避免的(normal),不是偶然。Williams & Yampolskiy(arXiv:2104.12582,2021)与 Dobbe(arXiv:2202.09292,2022)论证当前 AI 系统满足这两个条件:黑箱带来交互复杂性,算法间直接交互(金融交易、自动驾驶、agent 调用链)带来紧耦合。2010 年闪电崩盘(Flash Crash)——多个交易算法各自正常、系统整体崩盘——是典型正常事故。

这如何改变本节的判断:如果 Perrow 是对的,那么发布门禁的目标就不能是”消除失败”(那是不可能的、是错点一的认知根源),而只能是降低频率 + 缩短发现时延 + 控制不可逆性。这恰好与 降发生方法论 的海恩法则同构——后者从不承诺”零事故”,只承诺”把先兆压在前面”。于是 pre-mortem 不是”找出所有死法然后堵死”(那是 HRO 的乐观),而是”承认系统会以我们想象不到的方式死,所以提前把不可逆的死法和可逆的死法分开,把资源压在不可逆的那一类”。

[!note] 一个可贴墙的赌注 本节赌:AI 产品的发布门禁,本质是一道”把不可逆失败转译成可逆失败”的工序。Bard 的市值损失是可逆的(股价会回来),Character.AI 的人命不可逆。门禁的全部价值,在于在上线前认出哪些死法属于后者——这是 安全感知与干预 从滴滴搬到 AI 的核心迁移:安全产品不追求零事故,追求把致命事故拦在边界外。


§6 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试怎么用:被问”你会怎么把一个 AI 功能推上线?”——不要答”做充分测试”。答:“我会先开一场 pre-mortem,逼团队写六个月后它怎么死的;把死法按 input/output/boundary/adoption/organizational 五类归档;对不可逆的那几类设硬门禁,可逆的设软指标;每条红线指定一个有权叫停的 owner。“这一答把你和”了解 AI”的候选人区分开——你展示的是降发生式的事前思维
  • 选型怎么用:评估第三方 AI 服务时,把 §2 的 5 个 AI 特有讣告问题直接抛给供应商——“你们权重更新怎么通知我们?长会话护栏怎么保证?成本如何熔断?”答不上来的供应商,其产品就是你的 organizational 类风险。
  • 复现怎么用:把本节模板做成你团队评审会的固定议程模板(五行门禁表 + 五步 pre-mortem)。复现的不是某次失败,是那场”本该开却没开”的评审会——这是 0416 专题”复现指南”对 R 档最反直觉的定义。

§7 与已有节点的关系


§8 关联节点

核心(必读)

延伸(可选)


修订日志

  • R1(2026-06-07):首稿。建立五类失败 × 门禁表、五步 pre-mortem + 5 个 AI 特有讣告、四点判断主轴、三类对手回应、Perrow 正常事故理论跨域呼应、Rick 降发生/安全感知/明镜方法论显式调度。所有案例接地至本专题 grounding pass,未核实统计降级处理。
  • 2026-06-12 内审修复:Air Canada 裁决日由含糊的 “2024-02-14/19” 统一为权威值 2024-02-19(Moffatt v. Air Canada 2024 BCCRT 149 裁决文本)。(注:§3 Bing Sydney 的 Kevin Roose 对话日 2023-02-14 系另一事件,正确,未动。)