R

README·0416·多视图阅读指南

创建 2026-06-07 更新 2026-06-11 1 条双链 失败考古学 专题 AI 整理

README · 多视图阅读指南

这是 0416「失败考古学系统化」专题的导航器,不是又一篇内容节点。它解决三件事:(1) 你是哪种读者、该走哪条路径、读多久、读完产出什么;(2) 读完后用 ≥10 道自测题验自己到没到判断力门槛(每题给及格线 / 优秀线 / 反例);(3) 在面试桌/选型会上,反方会怎么打你这套”失败考古学”——本指南给一套反方对话训练,让你提前把脸打过一遍。

配套的内容地图(为什么建库、由什么组成、跨域调度、SABCD 自评)在 _失败考古学系统化专题·总览;本 README 与总览互为正反面——总览回答”这库是什么”,README 回答”你怎么用它”。


§0 怎么用这份指南

这个专题有 17 个原子节点,不要从头读到尾。失败考古学的方法论本身就反对”线性遍历”:你不是要把所有事故都背一遍(那是 case-by-case 的覆盖率幻觉),而是先拿到坐标系(A02 AI 产品失败分类学·五类),再按你当下的身份模式切入。下面三条路径互不替代:

  • 路径 A 求职速通——你在准备 AI PM 面试,要的是 30 秒答出判断框架的话术。
  • 路径 B 决策链——你在岗,要把分类学落成可执行的发布门禁与防御设计。
  • 路径 C 紧迫度——你只有碎片时间,哪疼治哪,从当下风险点反向切入。

每条路径下面标了预计时长前置产出(读完该路径你手里应该多出来一样什么东西)。读完任意一条路径后,回到 §4 做自测;自测掉链子的题,按题号回对应节点补读。


§1 路径 A:求职速通(转型 AI PM·准备面试)

预计时长:90–120 分钟(深读 3 篇 + 速览 2 篇)。 前置产出:一段可背诵的「分类→定位→反推原则」面试话术(≤90 秒)+ 1 个能讲 3 分钟的事故故事(你的”血弹药”)。

节点读法这一步要拿走什么
1A01 失败考古学方法论精读 §1–§3为什么研究失败 > 研究成功(幸存者偏差);case-by-case 的三个失效(覆盖率幻觉 / 确认偏差 / “fix the prompt”反射)。这是你回答”你怎么看 AI 风险”时第一句话的底气。
2A02 AI 产品失败分类学·五类精读全篇 + 背判别矩阵input / output / boundary / adoption / organizational 五类的判别矩阵。这是整套话术的坐标系——拿到任意事故先归类。
3S01 失败归因分层剖面精读 §3(六层)+ §5(耦合);§6 场景速览L1 输入 / L2 检索 / L3 模型 / L4 输出 / L5 边界权限 / L6 组织流程,加三个层间致命耦合。这是”定位注入层”那一步的工具。
4任选 1 篇 E 系列做故事弹药精读 1 篇E02 Air Canada 与 Chevrolet 剖解·边界与法律失败(最好背的面试故事:表面 output、主导层 boundary+organizational)或 E01 Tay 与 Bard 剖解·输入与输出失败E03 Character.ai 与情感依赖剖解·伦理边界失败
5G01 AI 失败模式代际演化总图速览 §1–§2一句反共识断言:失败不是被新一代消灭的,是被叠加+变形+升维的。挡掉面试官”现在模型强了这些都过时了”的追问(见 §5 反方训练 Q1)。

话术骨架(把它当模板,填进你自己挑的案例):

“我不做 case-by-case。我用一套五类失败分类学(input/output/boundary/adoption/organizational),先把事故归入结构性位置,再到六层剖面里定位它注入在哪一层,再反推它否定了哪条设计原则。比如 [你的案例],表面是 [表层类别],但反事实地问’换个完美模型还会不会出事’——[会/不会],因为 [真正没被执行的约束],所以主导层是 [主导类别],该修的是 [对应层的修复] 而不是 [表层误修]。“


§2 路径 B:决策链(在岗 PM·做方案/门禁/防御评审)

预计时长:150–180 分钟(深读 4 篇 + 上手 1 份清单)。 前置产出:一份可挂到你产品的发布门禁草稿(launch criteria + pre-mortem)+ 一张”失败类型×阶段”的拦截成本表。

节点读法这一步要拿走什么
1A02 AI 产品失败分类学·五类精读 + 对着自己产品填一遍五类把你产品当前已知的 bad case 先归类,看哪一类是空白(盲区往往在 adoption / organizational)。
2S03 失败防御体系全景精读全篇red team / guardrail / HITL / launch 门禁 / graceful degradation / incident response 六层纵深防御,挂到事故时间轴(发布前/运行中/事故后)。这是你做防御评审的检查表。
3S02 失败类型 × 产品阶段对照矩阵精读 + 标你产品当前阶段五类失败 × 产品阶段(定义/设计/上线/运营),各阶段最易发失败与拦截成本。越晚拦越贵——把它当排期优先级依据。
4R02 Launch Criteria 与 Pre-mortem Checklist上手写AI 产品发布门禁 + pre-mortem(假设已失败,反推原因)清单。这一步要真的产出文件,不是读完就走。
5R03 Red-team 一个 Agent 找失败模式精读 + 跑一遍 worksheet对一个 agent 做系统化 red team(注入/越权/边界),用五类分类学归类发现。如果你产品有 agent 形态,这步直接出可执行的红队清单。

补充深读(做防御设计时回查):


§3 路径 C:紧迫度(碎片时间·按当下风险点切入)

预计时长:20–40 分钟(单点切入,读 1–2 篇)。 前置产出:对你当下最痛的那一类失败,一个可立刻执行的下一步动作。

不走全流程,按你此刻的痛点直接跳进对应节点:

你现在的痛点直接进然后(可选)回到
用户在故意诱导/注入我的 AI(对抗用户、prompt injection、数据投毒)A03 输入侧失败·对抗用户与注入S01 失败归因分层剖面 L1/L2
我的 AI 说错话/编事实/输出有法律风险A04 输出侧失败·幻觉与法律约束c13 - 幻觉的不可消除性(根因)+ S01 L4
我的 AI 越权/做出公司要担责的承诺/用户产生情感依赖A05 边界侧失败·权限承诺与情感S01 失败归因分层剖面 L5
demo 很好但上线就崩 / launch criteria 缺陷 / 组织压力扭曲判断A06 采纳与组织侧失败S01 失败归因分层剖面 L6 + R02 Launch Criteria 与 Pre-mortem Checklist
我想搞清自己产品在哪一代、失败预算该押哪层G01 AI 失败模式代际演化总图G02 失败模式代际演化详解 → 对应 E 系列 → 回 S01 定位
我手上一堆散的 bad case,想结构化管起来R01 失败编码·建一个 bad-case 库A02 AI 产品失败分类学·五类(编码用的分类学)

紧迫度路径的纪律:哪疼治哪可以,但不要停在单类。读完单类后至少回 S01 失败归因分层剖面 定位一次——否则你只是修了表层(“fix the prompt”反射),没碰到真正的注入层。


§4 自测题(≥10 题·每题及格线/优秀线/反例)

读完任意路径后做这一节。自测不是背诵检验,是判断力检验——每题给三档:及格线(说明你抓到了核心)、优秀线(说明你能反方拷问下站住)、反例(说明你掉进了哪个常见坑)。掉档的题,按括号里的节点回去补读。

Q1. 为什么研究失败比研究成功更有价值?(→ A01 失败考古学方法论

  • 及格线:点出幸存者偏差——只看成功产品会把”侥幸没踩雷”误当”设计正确”。
  • 优秀线:进一步说明失败是可证伪的负面证据,能直接否定一条设计原则;而成功无法区分”因为对”还是”因为运气”。
  • 反例(不及格):“失败案例更有戏剧性/更吸引眼球”——这是把方法论价值降级成传播价值。

Q2. case-by-case 地积累失败清单有什么问题?(→ A01 失败考古学方法论

  • 及格线:说出三个失效中的至少两个——覆盖率幻觉、确认偏差、“fix the prompt”反射。
  • 优秀线:能解释三者的内在联系:无分类学 → 不知道还有哪类没覆盖(覆盖率幻觉)→ 只统计自己熟悉的那类(确认偏差)→ 永远在修表层而非结构(fix the prompt)。
  • 反例:“清单越长越好,多记几个就行”——正是被否定的那个直觉。

Q3. 五类失败分类学是哪五类?给一个 boundary 类的例子。(→ A02 AI 产品失败分类学·五类

  • 及格线:input / output / boundary / adoption / organizational 五类齐全;boundary 举出 Chevrolet $1 报价或 Character.ai 情感依赖。
  • 优秀线:说清 boundary 类的判别——失败不在”模型答错”,而在”模型在不该承诺/不该越权/不该建立情感关系的边界上越界”。
  • 反例:把 Chevrolet $1 归成 output(幻觉)——这是 §5 要训练你识破的典型误判(表层 output,主导层 boundary)。

Q4. 用反事实判别法分析 Air Canada:换一个”完美不幻觉”的模型,还会不会出事?(→ A02 AI 产品失败分类学·五类 / E02 Air Canada 与 Chevrolet 剖解·边界与法律失败

  • 及格线:答”还会”,因为真正没被执行的约束是”公司对其渠道信息负责”,与模型准确度无关。
  • 优秀线:据此判定主导层是 boundary + organizational,该修的是责任契约与发布门禁,不是再训一次模型;并能引”法院判 AI 承诺对公司有约束力”作为这条约束被司法确认的证据。
  • 反例:答”不会,换个好模型就不幻觉了”——掉进 output 单层归因,正是这套方法论要纠正的。

Q5. AI 失败模式是被新一代技术”消灭”了吗?(→ G01 AI 失败模式代际演化总图

  • 及格线:不是;失败是被叠加 + 变形 + 升维的,老失败沉入栈底被新一代继承(如幻觉从 LLM 代沉入 Agent 代)。
  • 优秀线:能说出代际地层——规则 bot(Tay)→ ML → LLM(Bard/Sydney)→ Agent(自主行动失败),并指出后果上限随代际单调上升(从”说错话”到”做错事”到人身伤亡)。
  • 反例:“一代更比一代强,现在基本不会犯老错误了”——线性进步史叙事,本专题明确反对(也是面试反方 Q1)。

Q6. 六层失败注入剖面是哪六层?“层间致命耦合”指什么?(→ S01 失败归因分层剖面

  • 及格线:L1 输入 / L2 检索 / L3 模型 / L4 输出 / L5 边界权限 / L6 组织流程;耦合指上游层的洞会穿透到下游层显现。
  • 优秀线:举出一个具体耦合——如 L4 输出失败常是上游(L1 注入或 L3 模型)穿透的终点而非起点,所以在 L4 打补丁治标不治本。
  • 反例:把六层当独立的 checklist 逐项排查——丢掉了”耦合/穿透”这个剖面的真正价值。

Q7. 五类失败 × 产品阶段,为什么”越晚拦越贵”?(→ S02 失败类型 × 产品阶段对照矩阵

  • 及格线:定义/设计阶段拦截成本低,上线/运营阶段拦截成本高(含用户已受损、品牌/法律代价)。
  • 优秀线:能把它用成排期优先级——把高拦截成本的失败类型前移到设计阶段的门禁里。
  • 反例:“上线后出了再修就行,敏捷迭代嘛”——忽略 AI 失败的不可逆后果(法律、人身、信任崩塌)。

Q8. 纵深防御六层(red team / guardrail / HITL / launch 门禁 / graceful degradation / incident response)里,哪些作用在”发布前”、哪些在”运行中”、哪些在”事故后”?(→ S03 失败防御体系全景

  • 及格线:发布前=red team + launch 门禁;运行中=guardrail + HITL + graceful degradation;事故后=incident response。
  • 优秀线:能指出这是纵深而非并列——任一层都会有洞(瑞士奶酪),价值在多层洞不对齐;并能说”门禁不是技术配置,是对抗组织压力下安全边界漂移的政治装置”。
  • 反例:“有了 guardrail 就够了”——单层防御幻觉。

Q9. 用 Perrow 正常事故理论(NAT),“Agent 会不会出事”这个问题该怎么重构?(→ A01 失败考古学方法论 / S01 失败归因分层剖面

  • 及格线:不该问”会不会”,而问”出事时缓冲层在哪”——系统性失败在概率意义上是”正常的”,目标是降频非归零。
  • 优秀线:能把它接到 Rick 的 降发生方法论(海恩法则、降频非归零)做同构迁移,说明这不是空引用而是改变了防御目标的设定。
  • 反例:“用了 NAT 就说明 AI 不可控、别上线了”——把”预设失败”误读成”放弃防御”。

Q10. 瑞士奶酪模型怎么解释 Air Canada?它的局限是什么?(→ A01 失败考古学方法论 / S01 失败归因分层剖面

  • 及格线:Air Canada = 无核验层 + 无免责提示 + 无转介,三层洞对齐才出事;区分 active failure 与 latent condition。
  • 优秀线:能引 Leveson 对瑞士奶酪的批评(防御层并非独立变量,是 Heinrich 多米诺的过时变体),并据此提出”故障模式去相关”的设计要求——接受批评但保留它作为可教脚手架的价值。
  • 反例:把瑞士奶酪当”加够层数就安全”的论证——恰恰忽略了”洞会相关对齐”这个核心。

Q11.(进阶)分层归因框架的盲区在哪?举一个六层剖面定位不到的失败。(→ S01 失败归因分层剖面 §6)

  • 及格线:举出 Character.AI——失败在”用户心理模型层/情感寄托”,六层剖面定位不到。
  • 优秀线:能列第二个盲区——EchoLeak 注入点在 L1/L2 之间、SpAIware 横跨 L2/L5,强行归层会丢信息;说明分层是脚手架不是本体。
  • 反例:坚持”任何失败都能塞进六层之一”——这正是本专题在 failure scenario 清单里自我砍除的过度自信。

Q12.(进阶)“AI 失败的最大真实威胁是对抗攻击”——这个判断有什么问题?(→ A01 失败考古学方法论 / R03 Red-team 一个 Agent 找失败模式

  • 及格线:指出有实证反驳——AAAI/AIES 对 133 个 AIID incidents 的分析显示真实最大威胁是误用与不可靠输出,不是对抗攻击。
  • 优秀线:能两面接住——注入类频率低但后果上限高(CVSS 9.3 级),所以”不该过度押注,但也不能因频率低就不防”,并承认本专题早期对 L1/L2 注入有过度倾斜(confirmation-bias 砍除)。
  • 反例:“红队就是测注入攻击”——把红队窄化成对抗攻击,漏掉误用/不可靠输出这个真实大头。

§5 反方对话训练(失败领域的六个追问)

用法:这一节是”用反对的声音建造”的落地(SHARED_CONTEXT §7)。每个追问都是面试官/资深同行真的会抛的,先给他对的部分(接受),再给你坚守的边界(不是反驳)。把这六轮在脑子里过一遍,面试桌上才不会被打懵。

Q1.「这些都是老案例了,现在模型强了,这套失败清单还有用吗?」

  • 接受:对,单看 input 端,规则 bot/早期 LLM 那类”说脏话/编事实”的低级失败确实在收敛,模型确实更强了。
  • 边界:但失败不是被消灭,是被升维的(G01 AI 失败模式代际演化总图)。重心已从”模型说错话”迁到”系统做错事”——零点击数据外泄(EchoLeak)、自主烧钱循环、首次进入人身伤亡 + 司法和解层级(Character.AI 2026-01 和解)。收敛的是频次,不是后果上限;后果上限随代际单调上升。所以这套分类学不仅没过时,恰恰是新一代 Agent 失败更需要它——因为新失败更难直觉识别。
  • 一句话回敬:“模型更强让 L1/L3 的洞变小,但把 L5/L6 的洞放大了——你愿意赌哪个的代价更高?”

Q2.「失败分类学是不是事后诸葛?出了事谁都会归类,对预测有什么用?」

  • 接受:对,分类学本身是回溯性的(这正是”考古学”这个名字承认的事),它不直接预测”下一个事故是什么”。
  • 边界:但它把回溯结构化成可前移的资产——(1) R02 Launch Criteria 与 Pre-mortem Checklist 的 pre-mortem 正是”假设已失败、反推原因”,用分类学保证 5 类都被预想到,堵住覆盖率幻觉;(2) S02 失败类型 × 产品阶段对照矩阵 把”哪类失败最该在哪个阶段拦”变成排期依据。事后诸葛的反面不是”预测水晶球”,是”系统化地不重复犯同一类错”。
  • 一句话回敬:“我不预测下一次出什么事,我保证我们不会在已经付过学费的那五类里再交一次。”

Q3.「红队是不是浪费资源?真实用户的攻击花样根本测不完,投入产出比太低。」

  • 接受:对,对话/Agent 的攻击面是长尾,红队不可能穷尽——Bing Sydney 就证明了实验室测不全(未测延长会话/情感操纵)。HRO 理论也提醒我们别高估”测得完”的自信。
  • 边界:但”测不完”不等于”不该测”——红队的目标不是归零,是降频 + 暴露已知的高后果路径R03 Red-team 一个 Agent 找失败模式)。而且 ROI 不能只算”拦住几次攻击”,要算”一次没拦住的 L5 越权/数据外泄的尾部代价”(CVSS 9.3 级 + 法律责任)。更关键:绝不能拿真实用户(尤其未成年人)当红队的替代品——那是把测试成本转嫁成用户的人身风险。
  • 一句话回敬:“红队测不完是真的,但它换一个角度看是’在你的实验室里以低成本提前撞墙,而不是在用户身上以法律和人命的代价撞’。”

Q4.「Air Canada 是孤例吗?一个加拿大小额裁判庭的判决,能推出什么普遍结论?」

  • 接受:对,这一点必须诚实——BC Civil Resolution Tribunal 是行政性质的小额纠纷裁判机构,不是高等法院;它的裁决作为先例只有说服力(persuasive)而非约束力(binding)。把它吹成”AI 法律责任的里程碑判例”是夸大(本专题已在 bias 砍除清单里砍掉这个夸张)。
  • 边界:但它的价值不在判例位阶,在它确认了一条本就存在的约束——“公司对其面向用户的渠道所发布的信息负责”,这条在 AI 出现前就成立,AI 只是换了个出口。所以重点不是”这个判决多权威”,而是”它示范了反事实判别法:责任真空(‘机器人是独立实体’的免责主张被否)是 organizational 层的结构性洞,与模型无关”。它是一个清晰的教学样本,不是一个普适的法律结论
  • 一句话回敬:“我不靠它当判例援引,我靠它当一面镜子——它照出的是责任契约缺失,那个洞在你下一个 AI 产品里大概率也在。”

Q5.「你这套安全工程的类比(Perrow/Reason/Leveson)是从核电站、航空搬来的,AI 是统计系统不是物理因果系统,硬套不会水土不服吗?」

  • 接受:这是最该接受的一刀——对。Perrow/Reason 诞生于物理因果系统(阀门坏了、信号灯没亮),因果链清晰可追;而 LLM 的 output 类失败(幻觉/谄媚)是统计推断的内生属性,没有”哪个组件坏了”可指(A01 失败考古学方法论 §4 已把这列为本专题的 failure scenario)。在 output 这一类上,安全工程的因果模型确实部分失效。
  • 边界:但类比的适用域是分层的——在 L1/L2/L5/L6(输入、检索、权限、组织)这些确有因果链和可执行约束的层上,安全工程框架高度适用(Air Canada 的责任真空、Bard 的组织漂移都是教科书式的 latent condition)。我不主张整套硬套,我主张按层选工具:因果性强的层用安全工程,统计性强的 L3/L4 用”按后果分层设防 + graceful degradation”。承认边界本身就是这套方法论的一部分。
  • 一句话回敬:“我借的不是核电站的结论,是它’先问哪条安全约束没被执行、再问哪个组件坏了’的提问顺序——这个顺序对统计系统照样成立。”

Q6.「Safety-II 的人会说你整套都是 Safety-I:只解剖失败,从不解释 AI 系统为什么大多数时候是成功的。你不觉得这套框架本身就是片面的吗?」

  • 接受:完全接受——这是本专题自己列出的、Rick 此前未读的对手框架(Hollnagel 韧性工程 / Safety-II,破 echo chamber)。六层剖面是彻底的 Safety-I:它解剖洞、不解释韧性,确实回答不了”为什么同一个模型大多数时候没出事”。这是已知的盲区,不是被追问才承认的。
  • 边界:但有两条理由让 Safety-I 在当下仍是 PM 的正确起点:(1) Safety-II 对 AI 工具化的应用至今基本空白——它告诉你”要研究成功的可变性”,但没给出 AI 场景下可操作的方法,PM 等不起一个还没成熟的范式;(2) 当下 AI 失败的后果上限正在快速抬高(人身伤亡级),优先把已知的洞堵上,比研究”为什么没塌”的边际收益更高、更紧迫。我把 Safety-II 标为”已知的未完成边疆”,而不是假装它不存在。
  • 一句话回敬:“Safety-II 是对的方向,但它现在给不了我一份能挂上线的门禁清单;等它给得出,我第一个换。”

[!note] 反方训练的元规则 上面六轮没有一轮是”反驳对方”——全是”先给他对的部分,再划我的边界与赌注”。这是 SHARED_CONTEXT §7「用反对的声音建造」的实操:面试桌上真正显出判断力的不是你能不能赢一场辩论,而是你清楚自己这套方法论在哪失效、为什么仍值得用。如果某一轮你只会硬怼、给不出”接受”的那一半,回对应节点的 §对手框架回应段落补读。


§6 关联节点

专题入口 / 配套导航

自测/反方训练直接依赖的核心节点

升级对照的既有 AI 节点 / Rick 方法论资产

跨专题 / 概念 / 总入口


§7 修订日志

  • R0(2026-06-07):综合 Agent 终轮产出。基于 _失败考古学系统化专题·总览 与 17 节点节点索引写成多视图阅读指南。确立 §0 用法(反线性遍历、按身份模式切入)、§1–§3 三条路径(A 求职速通 90–120min / B 决策链 150–180min / C 紧迫度 20–40min,各标预计时长 + 前置产出 + 分步表 + 该步拿走什么)、§4 共 12 道自测题(每题及格线/优秀线/反例三档 + 回查节点)、§5 失败领域六轮反方对话训练(“老案例了模型强了”/“事后诸葛”/“红队浪费资源”/“Air Canada 孤例”/“安全工程类比水土不服”/“Safety-II 片面性”,每轮接受+边界+一句话回敬)、§6 双链 ≥20 全真实 basename、§7 日志。与总览互为正反面(总览=这库是什么,README=你怎么用)。