README · 多视图阅读指南

这是 0416「失败考古学系统化」专题的导航器，不是又一篇内容节点。它解决三件事：(1) 你是哪种读者、该走哪条路径、读多久、读完产出什么；(2) 读完后用 ≥10 道自测题验自己到没到判断力门槛（每题给及格线 / 优秀线 / 反例）；(3) 在面试桌/选型会上，反方会怎么打你这套”失败考古学”——本指南给一套反方对话训练，让你提前把脸打过一遍。

配套的内容地图（为什么建库、由什么组成、跨域调度、SABCD 自评）在 _失败考古学系统化专题·总览；本 README 与总览互为正反面——总览回答”这库是什么”，README 回答”你怎么用它”。

§0 怎么用这份指南

这个专题有 17 个原子节点，不要从头读到尾。失败考古学的方法论本身就反对”线性遍历”:你不是要把所有事故都背一遍（那是 case-by-case 的覆盖率幻觉），而是先拿到坐标系（A02 AI 产品失败分类学·五类），再按你当下的身份模式切入。下面三条路径互不替代:

路径 A 求职速通——你在准备 AI PM 面试，要的是 30 秒答出判断框架的话术。
路径 B 决策链——你在岗，要把分类学落成可执行的发布门禁与防御设计。
路径 C 紧迫度——你只有碎片时间，哪疼治哪，从当下风险点反向切入。

每条路径下面标了预计时长和前置产出（读完该路径你手里应该多出来一样什么东西）。读完任意一条路径后，回到 §4 做自测；自测掉链子的题，按题号回对应节点补读。

§1 路径 A：求职速通（转型 AI PM·准备面试）

预计时长：90–120 分钟（深读 3 篇 + 速览 2 篇）。 前置产出：一段可背诵的「分类→定位→反推原则」面试话术（≤90 秒）＋ 1 个能讲 3 分钟的事故故事（你的”血弹药”）。

步	节点	读法	这一步要拿走什么
1	A01 失败考古学方法论	精读 §1–§3	为什么研究失败 > 研究成功（幸存者偏差）；case-by-case 的三个失效（覆盖率幻觉 / 确认偏差 / “fix the prompt”反射）。这是你回答”你怎么看 AI 风险”时第一句话的底气。
2	A02 AI 产品失败分类学·五类	精读全篇 + 背判别矩阵	input / output / boundary / adoption / organizational 五类的判别矩阵。这是整套话术的坐标系——拿到任意事故先归类。
3	★S01 失败归因分层剖面	精读 §3（六层）+ §5（耦合）；§6 场景速览	L1 输入 / L2 检索 / L3 模型 / L4 输出 / L5 边界权限 / L6 组织流程，加三个层间致命耦合。这是”定位注入层”那一步的工具。
4	任选 1 篇 E 系列做故事弹药	精读 1 篇	E02 Air Canada 与 Chevrolet 剖解·边界与法律失败（最好背的面试故事:表面 output、主导层 boundary+organizational）或 E01 Tay 与 Bard 剖解·输入与输出失败或 E03 Character.ai 与情感依赖剖解·伦理边界失败。
5	G01 AI 失败模式代际演化总图	速览 §1–§2	一句反共识断言:失败不是被新一代消灭的，是被叠加+变形+升维的。挡掉面试官”现在模型强了这些都过时了”的追问（见 §5 反方训练 Q1）。

话术骨架（把它当模板，填进你自己挑的案例）:

“我不做 case-by-case。我用一套五类失败分类学（input/output/boundary/adoption/organizational），先把事故归入结构性位置，再到六层剖面里定位它注入在哪一层，再反推它否定了哪条设计原则。比如 [你的案例]，表面是 [表层类别]，但反事实地问’换个完美模型还会不会出事’——[会/不会]，因为 [真正没被执行的约束]，所以主导层是 [主导类别]，该修的是 [对应层的修复] 而不是 [表层误修]。“

§2 路径 B：决策链（在岗 PM·做方案/门禁/防御评审）

预计时长：150–180 分钟（深读 4 篇 + 上手 1 份清单）。 前置产出：一份可挂到你产品的发布门禁草稿（launch criteria + pre-mortem）＋一张”失败类型×阶段”的拦截成本表。

步	节点	读法	这一步要拿走什么
1	A02 AI 产品失败分类学·五类	精读 + 对着自己产品填一遍五类	把你产品当前已知的 bad case 先归类，看哪一类是空白（盲区往往在 adoption / organizational）。
2	S03 失败防御体系全景	精读全篇	red team / guardrail / HITL / launch 门禁 / graceful degradation / incident response 六层纵深防御，挂到事故时间轴（发布前/运行中/事故后）。这是你做防御评审的检查表。
3	S02 失败类型 × 产品阶段对照矩阵	精读 + 标你产品当前阶段	五类失败 × 产品阶段（定义/设计/上线/运营），各阶段最易发失败与拦截成本。越晚拦越贵——把它当排期优先级依据。
4	R02 Launch Criteria 与 Pre-mortem Checklist	上手写	AI 产品发布门禁 + pre-mortem（假设已失败，反推原因）清单。这一步要真的产出文件，不是读完就走。
5	R03 Red-team 一个 Agent 找失败模式	精读 + 跑一遍 worksheet	对一个 agent 做系统化 red team（注入/越权/边界），用五类分类学归类发现。如果你产品有 agent 形态，这步直接出可执行的红队清单。

补充深读（做防御设计时回查）:

S01 失败归因分层剖面——评审时用六层剖面给每条防御措施定位”它堵的是哪一层的洞、那一层是不是穿透终点”。
p304 - 防御性 UX：对抗延迟与幻觉（既有节点）——本专题把它的”交互内降级”升级到”系统级 graceful degradation”，做 UX 防御时对照读。

§3 路径 C：紧迫度（碎片时间·按当下风险点切入）

预计时长：20–40 分钟（单点切入，读 1–2 篇）。 前置产出：对你当下最痛的那一类失败，一个可立刻执行的下一步动作。

不走全流程，按你此刻的痛点直接跳进对应节点:

你现在的痛点	直接进	然后（可选）回到
用户在故意诱导/注入我的 AI（对抗用户、prompt injection、数据投毒）	A03 输入侧失败·对抗用户与注入	S01 失败归因分层剖面 L1/L2
我的 AI 说错话/编事实/输出有法律风险	A04 输出侧失败·幻觉与法律约束	c13 - 幻觉的不可消除性（根因）+ S01 L4
我的 AI 越权/做出公司要担责的承诺/用户产生情感依赖	A05 边界侧失败·权限承诺与情感	S01 失败归因分层剖面 L5
demo 很好但上线就崩 / launch criteria 缺陷 / 组织压力扭曲判断	A06 采纳与组织侧失败	S01 失败归因分层剖面 L6 + R02 Launch Criteria 与 Pre-mortem Checklist
我想搞清自己产品在哪一代、失败预算该押哪层	G01 AI 失败模式代际演化总图	G02 失败模式代际演化详解 → 对应 E 系列 → 回 S01 定位
我手上一堆散的 bad case，想结构化管起来	R01 失败编码·建一个 bad-case 库	A02 AI 产品失败分类学·五类（编码用的分类学）

紧迫度路径的纪律:哪疼治哪可以，但不要停在单类。读完单类后至少回 S01 失败归因分层剖面定位一次——否则你只是修了表层（“fix the prompt”反射），没碰到真正的注入层。

§4 自测题（≥10 题·每题及格线/优秀线/反例）

读完任意路径后做这一节。自测不是背诵检验，是判断力检验——每题给三档:及格线（说明你抓到了核心）、优秀线（说明你能反方拷问下站住）、反例（说明你掉进了哪个常见坑）。掉档的题，按括号里的节点回去补读。

Q1. 为什么研究失败比研究成功更有价值？（→ A01 失败考古学方法论）

及格线:点出幸存者偏差——只看成功产品会把”侥幸没踩雷”误当”设计正确”。
优秀线:进一步说明失败是可证伪的负面证据，能直接否定一条设计原则；而成功无法区分”因为对”还是”因为运气”。
反例（不及格）:“失败案例更有戏剧性/更吸引眼球”——这是把方法论价值降级成传播价值。

Q2. case-by-case 地积累失败清单有什么问题？（→ A01 失败考古学方法论）

及格线:说出三个失效中的至少两个——覆盖率幻觉、确认偏差、“fix the prompt”反射。
优秀线:能解释三者的内在联系:无分类学 → 不知道还有哪类没覆盖（覆盖率幻觉）→ 只统计自己熟悉的那类（确认偏差）→ 永远在修表层而非结构（fix the prompt）。
反例:“清单越长越好，多记几个就行”——正是被否定的那个直觉。

Q3. 五类失败分类学是哪五类？给一个 boundary 类的例子。（→ A02 AI 产品失败分类学·五类）

及格线:input / output / boundary / adoption / organizational 五类齐全；boundary 举出 Chevrolet $1 报价或 Character.ai 情感依赖。
优秀线:说清 boundary 类的判别——失败不在”模型答错”，而在”模型在不该承诺/不该越权/不该建立情感关系的边界上越界”。
反例:把 Chevrolet $1 归成 output（幻觉）——这是 §5 要训练你识破的典型误判（表层 output，主导层 boundary）。

Q4. 用反事实判别法分析 Air Canada：换一个”完美不幻觉”的模型，还会不会出事？（→ A02 AI 产品失败分类学·五类 / E02 Air Canada 与 Chevrolet 剖解·边界与法律失败）

及格线:答”还会”，因为真正没被执行的约束是”公司对其渠道信息负责”，与模型准确度无关。
优秀线:据此判定主导层是 boundary + organizational，该修的是责任契约与发布门禁，不是再训一次模型；并能引”法院判 AI 承诺对公司有约束力”作为这条约束被司法确认的证据。
反例:答”不会，换个好模型就不幻觉了”——掉进 output 单层归因，正是这套方法论要纠正的。

Q5. AI 失败模式是被新一代技术”消灭”了吗？（→ G01 AI 失败模式代际演化总图）

及格线:不是;失败是被叠加 + 变形 + 升维的，老失败沉入栈底被新一代继承（如幻觉从 LLM 代沉入 Agent 代）。
优秀线:能说出代际地层——规则 bot（Tay）→ ML → LLM（Bard/Sydney）→ Agent（自主行动失败），并指出后果上限随代际单调上升（从”说错话”到”做错事”到人身伤亡）。
反例:“一代更比一代强，现在基本不会犯老错误了”——线性进步史叙事，本专题明确反对（也是面试反方 Q1）。

Q6. 六层失败注入剖面是哪六层？“层间致命耦合”指什么？（→ S01 失败归因分层剖面）

及格线:L1 输入 / L2 检索 / L3 模型 / L4 输出 / L5 边界权限 / L6 组织流程;耦合指上游层的洞会穿透到下游层显现。
优秀线:举出一个具体耦合——如 L4 输出失败常是上游（L1 注入或 L3 模型）穿透的终点而非起点，所以在 L4 打补丁治标不治本。
反例:把六层当独立的 checklist 逐项排查——丢掉了”耦合/穿透”这个剖面的真正价值。

Q7. 五类失败 × 产品阶段，为什么”越晚拦越贵”？（→ S02 失败类型 × 产品阶段对照矩阵）

及格线:定义/设计阶段拦截成本低，上线/运营阶段拦截成本高（含用户已受损、品牌/法律代价）。
优秀线:能把它用成排期优先级——把高拦截成本的失败类型前移到设计阶段的门禁里。
反例:“上线后出了再修就行，敏捷迭代嘛”——忽略 AI 失败的不可逆后果（法律、人身、信任崩塌）。

Q8. 纵深防御六层（red team / guardrail / HITL / launch 门禁 / graceful degradation / incident response）里，哪些作用在”发布前”、哪些在”运行中”、哪些在”事故后”？（→ S03 失败防御体系全景）

及格线:发布前=red team + launch 门禁;运行中=guardrail + HITL + graceful degradation;事故后=incident response。
优秀线:能指出这是纵深而非并列——任一层都会有洞（瑞士奶酪），价值在多层洞不对齐;并能说”门禁不是技术配置，是对抗组织压力下安全边界漂移的政治装置”。
反例:“有了 guardrail 就够了”——单层防御幻觉。

Q9. 用 Perrow 正常事故理论（NAT），“Agent 会不会出事”这个问题该怎么重构？（→ A01 失败考古学方法论 / S01 失败归因分层剖面）

及格线:不该问”会不会”，而问”出事时缓冲层在哪”——系统性失败在概率意义上是”正常的”，目标是降频非归零。
优秀线:能把它接到 Rick 的降发生方法论（海恩法则、降频非归零）做同构迁移，说明这不是空引用而是改变了防御目标的设定。
反例:“用了 NAT 就说明 AI 不可控、别上线了”——把”预设失败”误读成”放弃防御”。

Q10. 瑞士奶酪模型怎么解释 Air Canada？它的局限是什么？（→ A01 失败考古学方法论 / S01 失败归因分层剖面）

及格线:Air Canada = 无核验层 + 无免责提示 + 无转介，三层洞对齐才出事;区分 active failure 与 latent condition。
优秀线:能引 Leveson 对瑞士奶酪的批评（防御层并非独立变量，是 Heinrich 多米诺的过时变体），并据此提出”故障模式去相关”的设计要求——接受批评但保留它作为可教脚手架的价值。
反例:把瑞士奶酪当”加够层数就安全”的论证——恰恰忽略了”洞会相关对齐”这个核心。

Q11.（进阶）分层归因框架的盲区在哪？举一个六层剖面定位不到的失败。（→ S01 失败归因分层剖面 §6）

及格线:举出 Character.AI——失败在”用户心理模型层/情感寄托”，六层剖面定位不到。
优秀线:能列第二个盲区——EchoLeak 注入点在 L1/L2 之间、SpAIware 横跨 L2/L5，强行归层会丢信息;说明分层是脚手架不是本体。
反例:坚持”任何失败都能塞进六层之一”——这正是本专题在 failure scenario 清单里自我砍除的过度自信。

Q12.（进阶）“AI 失败的最大真实威胁是对抗攻击”——这个判断有什么问题？（→ A01 失败考古学方法论 / R03 Red-team 一个 Agent 找失败模式）

及格线:指出有实证反驳——AAAI/AIES 对 133 个 AIID incidents 的分析显示真实最大威胁是误用与不可靠输出，不是对抗攻击。
优秀线:能两面接住——注入类频率低但后果上限高（CVSS 9.3 级），所以”不该过度押注，但也不能因频率低就不防”，并承认本专题早期对 L1/L2 注入有过度倾斜（confirmation-bias 砍除）。
反例:“红队就是测注入攻击”——把红队窄化成对抗攻击，漏掉误用/不可靠输出这个真实大头。

§5 反方对话训练（失败领域的六个追问）

用法：这一节是”用反对的声音建造”的落地（SHARED_CONTEXT §7）。每个追问都是面试官/资深同行真的会抛的，先给他对的部分（接受），再给你坚守的边界（不是反驳）。把这六轮在脑子里过一遍，面试桌上才不会被打懵。

Q1.「这些都是老案例了，现在模型强了，这套失败清单还有用吗？」

接受:对，单看 input 端，规则 bot/早期 LLM 那类”说脏话/编事实”的低级失败确实在收敛，模型确实更强了。
边界:但失败不是被消灭，是被升维的（G01 AI 失败模式代际演化总图）。重心已从”模型说错话”迁到”系统做错事”——零点击数据外泄（EchoLeak）、自主烧钱循环、首次进入人身伤亡 + 司法和解层级（Character.AI 2026-01 和解）。收敛的是频次，不是后果上限;后果上限随代际单调上升。所以这套分类学不仅没过时，恰恰是新一代 Agent 失败更需要它——因为新失败更难直觉识别。
一句话回敬:“模型更强让 L1/L3 的洞变小，但把 L5/L6 的洞放大了——你愿意赌哪个的代价更高？”

Q2.「失败分类学是不是事后诸葛？出了事谁都会归类，对预测有什么用？」

接受:对，分类学本身是回溯性的（这正是”考古学”这个名字承认的事），它不直接预测”下一个事故是什么”。
边界:但它把回溯结构化成可前移的资产——(1) R02 Launch Criteria 与 Pre-mortem Checklist 的 pre-mortem 正是”假设已失败、反推原因”，用分类学保证 5 类都被预想到，堵住覆盖率幻觉;(2) S02 失败类型 × 产品阶段对照矩阵把”哪类失败最该在哪个阶段拦”变成排期依据。事后诸葛的反面不是”预测水晶球”，是”系统化地不重复犯同一类错”。
一句话回敬:“我不预测下一次出什么事，我保证我们不会在已经付过学费的那五类里再交一次。”

Q3.「红队是不是浪费资源？真实用户的攻击花样根本测不完，投入产出比太低。」

接受:对，对话/Agent 的攻击面是长尾，红队不可能穷尽——Bing Sydney 就证明了实验室测不全（未测延长会话/情感操纵）。HRO 理论也提醒我们别高估”测得完”的自信。
边界:但”测不完”不等于”不该测”——红队的目标不是归零，是降频 + 暴露已知的高后果路径（R03 Red-team 一个 Agent 找失败模式）。而且 ROI 不能只算”拦住几次攻击”，要算”一次没拦住的 L5 越权/数据外泄的尾部代价”（CVSS 9.3 级 + 法律责任）。更关键:绝不能拿真实用户（尤其未成年人）当红队的替代品——那是把测试成本转嫁成用户的人身风险。
一句话回敬:“红队测不完是真的，但它换一个角度看是’在你的实验室里以低成本提前撞墙，而不是在用户身上以法律和人命的代价撞’。”

Q4.「Air Canada 是孤例吗？一个加拿大小额裁判庭的判决，能推出什么普遍结论？」

接受:对，这一点必须诚实——BC Civil Resolution Tribunal 是行政性质的小额纠纷裁判机构，不是高等法院;它的裁决作为先例只有说服力（persuasive）而非约束力（binding）。把它吹成”AI 法律责任的里程碑判例”是夸大（本专题已在 bias 砍除清单里砍掉这个夸张）。
边界:但它的价值不在判例位阶，在它确认了一条本就存在的约束——“公司对其面向用户的渠道所发布的信息负责”，这条在 AI 出现前就成立，AI 只是换了个出口。所以重点不是”这个判决多权威”，而是”它示范了反事实判别法:责任真空（‘机器人是独立实体’的免责主张被否）是 organizational 层的结构性洞，与模型无关”。它是一个清晰的教学样本，不是一个普适的法律结论。
一句话回敬:“我不靠它当判例援引，我靠它当一面镜子——它照出的是责任契约缺失，那个洞在你下一个 AI 产品里大概率也在。”

Q5.「你这套安全工程的类比（Perrow/Reason/Leveson）是从核电站、航空搬来的，AI 是统计系统不是物理因果系统，硬套不会水土不服吗？」

接受:这是最该接受的一刀——对。Perrow/Reason 诞生于物理因果系统（阀门坏了、信号灯没亮），因果链清晰可追;而 LLM 的 output 类失败（幻觉/谄媚）是统计推断的内生属性，没有”哪个组件坏了”可指（A01 失败考古学方法论 §4 已把这列为本专题的 failure scenario）。在 output 这一类上，安全工程的因果模型确实部分失效。
边界:但类比的适用域是分层的——在 L1/L2/L5/L6（输入、检索、权限、组织）这些确有因果链和可执行约束的层上，安全工程框架高度适用（Air Canada 的责任真空、Bard 的组织漂移都是教科书式的 latent condition）。我不主张整套硬套，我主张按层选工具:因果性强的层用安全工程，统计性强的 L3/L4 用”按后果分层设防 + graceful degradation”。承认边界本身就是这套方法论的一部分。
一句话回敬:“我借的不是核电站的结论，是它’先问哪条安全约束没被执行、再问哪个组件坏了’的提问顺序——这个顺序对统计系统照样成立。”

Q6.「Safety-II 的人会说你整套都是 Safety-I：只解剖失败，从不解释 AI 系统为什么大多数时候是成功的。你不觉得这套框架本身就是片面的吗？」

接受:完全接受——这是本专题自己列出的、Rick 此前未读的对手框架（Hollnagel 韧性工程 / Safety-II，破 echo chamber）。六层剖面是彻底的 Safety-I:它解剖洞、不解释韧性，确实回答不了”为什么同一个模型大多数时候没出事”。这是已知的盲区，不是被追问才承认的。
边界:但有两条理由让 Safety-I 在当下仍是 PM 的正确起点:(1) Safety-II 对 AI 工具化的应用至今基本空白——它告诉你”要研究成功的可变性”，但没给出 AI 场景下可操作的方法，PM 等不起一个还没成熟的范式;(2) 当下 AI 失败的后果上限正在快速抬高（人身伤亡级），优先把已知的洞堵上，比研究”为什么没塌”的边际收益更高、更紧迫。我把 Safety-II 标为”已知的未完成边疆”，而不是假装它不存在。
一句话回敬:“Safety-II 是对的方向，但它现在给不了我一份能挂上线的门禁清单;等它给得出，我第一个换。”

[!note] 反方训练的元规则上面六轮没有一轮是”反驳对方”——全是”先给他对的部分，再划我的边界与赌注”。这是 SHARED_CONTEXT §7「用反对的声音建造」的实操:面试桌上真正显出判断力的不是你能不能赢一场辩论，而是你清楚自己这套方法论在哪失效、为什么仍值得用。如果某一轮你只会硬怼、给不出”接受”的那一半，回对应节点的 §对手框架回应段落补读。

§6 关联节点

专题入口 / 配套导航

_失败考古学系统化专题·总览（内容地图,本 README 的正面）

自测/反方训练直接依赖的核心节点

升级对照的既有 AI 节点 / Rick 方法论资产

跨专题 / 概念 / 总入口

A07 Red Teaming 作为评测实践（0412 评测专题,红队对照）
A07 Multi-Agent Teams（0411 Agent 专题,同名不同物的多 Agent 节点,辨析勿混）
幻觉
Agent
0117社会学
0115道德哲学-伦理学
AI PM 知识图谱·总索引

§7 修订日志

R0（2026-06-07）：综合 Agent 终轮产出。基于 _失败考古学系统化专题·总览与 17 节点节点索引写成多视图阅读指南。确立 §0 用法（反线性遍历、按身份模式切入）、§1–§3 三条路径（A 求职速通 90–120min / B 决策链 150–180min / C 紧迫度 20–40min，各标预计时长 + 前置产出 + 分步表 + 该步拿走什么）、§4 共 12 道自测题（每题及格线/优秀线/反例三档 + 回查节点）、§5 失败领域六轮反方对话训练（“老案例了模型强了”/“事后诸葛”/“红队浪费资源”/“Air Canada 孤例”/“安全工程类比水土不服”/“Safety-II 片面性”，每轮接受+边界+一句话回敬）、§6 双链 ≥20 全真实 basename、§7 日志。与总览互为正反面（总览=这库是什么,README=你怎么用）。