R

_失败考古学系统化专题·总览

创建 2026-06-07 更新 2026-06-12 1 条双链 失败考古学 专题 AI 整理

_失败考古学系统化专题 · 总览(MOC)

这是 0416「失败考古学系统化」专题的总入口(MOC)。17 个原子节点分布在六模块;下面九节告诉你为什么建这个库、它由什么组成、怎么读、以及它经得起什么样的反方拷问。


§0 序:面试桌上那堵墙

面试官问:“你怎么看 AI 产品的风险?“——我曾经的答法是泛泛背原则:“要重视测试、要做对齐、要有 guardrail、AI 不靠谱所以要 human-in-the-loop。“说完我自己都知道这是废话:它对任何 AI 产品都成立,因此对任何一个都没用。对面那位但凡读过两篇 AI 安全博客,也能说出一模一样的话。这就是那堵墙——当人人都能背原则,原则就不再是判断力

后来我换了一种答法:“我不做 case-by-case。我用一套五类失败分类学(input / output / boundary / adoption / organizational),先把一个事故归入它的结构性位置,再从失败反推它否定了哪条设计原则。比如 Air Canada 被判赔,表面是机器人幻觉(output),但反事实地问’换个完美模型还会不会出事’——会,因为’公司对其渠道信息负责’这条约束根本没被执行,所以主导层是 boundary 与 organizational,该修的是责任契约和发布门禁,不是再训练一次模型。这套方法论我接的不是 AI 圈 2019 年后从零摸索的失败清单,而是安全工程锤炼了四十年的事故分析——Perrow 的正常事故理论、Reason 的瑞士奶酪、Leveson 的 STAMP。”

两种答法的差距,就是这个专题存在的理由。本专题的反共识立场:失败比成功更值得研究(幸存者偏差),而研究失败的正确单位不是案例,是分类学。 读完它,你能在面试桌、选型会、复盘室里 30 秒内做到:拿到任意一个 AI 翻车事件,先归类(五类里的哪一类、是否跨类复合),再定位注入层(六层剖面图的哪一层),再反推被否定的设计原则——而不是复述一个你在新闻里读过的故事。


§1 专题定位:为什么”失败”配独立建一个专题号

用 SHARED_CONTEXT §2 的四条选题判据逐条验证(满足前 3 条中的 ≥2 条 + 第 4 条为真):

判据是否满足论证
① 中心性(影响 ≥3 个 PM 决策链节点)失败分析直接命中 M1 需求定义(从失败反推需求)、M2 方案设计(防御体系)、M3 上线门禁(launch criteria / pre-mortem)、M4 风险伦理(责任边界)——四个决策节点,超过门槛。
② 误解深度(业界定义互相矛盾)“AI 失败”的整理方式系统性互斥:媒体按”十大翻车”清单,工程师按技术栈,安全圈按 OWASP,学术界过度押注对抗攻击(而 133 个 AIID incidents 实证显示真实最大威胁是误用与不可靠输出)。连”什么算一个 incident”两大事故库(AIID 1,516 条 vs AIAAIC)都 schema 不兼容。
③ 速变性(24 个月内 ≥1 次格式塔切换)2024–2026 发生了不可通约的范式转移:失败从”模型说错话”(Bard/Sydney)跃迁到”系统做错事”(EchoLeak 零点击、$47,000 烧钱循环),并首次进入人身伤亡 + 司法和解层级(Character.AI,2026-01 和解)。失败的重心从 input 端迁向 boundary/organizational 端。
④ 学了就能用见 §0:从”背原则”到”分类→定位→反推原则”,是面试/选型/复盘里立即可观测的判断力提升。

升高了哪一个抽象层? 既有的单维节点——m207 - Agent 产品化:场景推演与失败模式(Agent 失败模式的前瞻推演)、c13 - 幻觉的不可消除性(output 失败的架构根因)、p304 - 防御性 UX:对抗延迟与幻觉(output 失败的 UX 修复)——各自只覆盖一类失败、一个层。本专题升高的抽象层是:把零散的”某类失败的某个修复”升维成一套贯穿 input→organizational 五类、L1→L6 六层、四代演化的统一失败本体(ontology)+ 安全工程归因引擎。这是从”病理切片”到”病理学”的升高。


§2 模块全景:六模块依赖矩阵

graph TB
    subgraph M1["01 概念辨析 (A)"]
        A01["A01 失败考古学方法论"]
        A02["A02 五类失败分类学"]
        A03["A03 输入侧失败"]
        A04["A04 输出侧失败"]
        A05["A05 边界侧失败"]
        A06["A06 采纳与组织侧失败"]
    end
    subgraph M2["02 代际演化 (G) · 横切"]
        G01["G01 代际演化总图"]
        G02["G02 代际演化详解"]
    end
    subgraph M3["03 架构剖面 (S)"]
        S01["★S01 失败归因分层剖面"]
        S02["S02 失败×阶段矩阵"]
        S03["S03 失败防御体系全景"]
    end
    subgraph M4["04 实例剖解 (E)"]
        E01["E01 Tay & Bard"]
        E02["E02 Air Canada & Chevrolet"]
        E03["E03 Character.ai 情感依赖"]
    end
    subgraph M5["05 复现指南 (R)"]
        R01["R01 bad-case 库"]
        R02["R02 Launch & Pre-mortem"]
        R03["R03 Red-team Agent"]
    end
    A01 --> A02
    A02 --> A03 & A04 & A05 & A06
    A02 --> S01
    S01 --> S02 & S03
    S01 --> E01 & E02 & E03
    S03 --> R01 & R02 & R03
    G01 -.横切时间维.-> A02
    G01 --> G02
    G02 -.贯穿.-> E01 & E02 & E03
    E01 & E02 & E03 -.归位.-> S01

矩阵含义:依赖主链是 概念(A)→ 架构(S)→ 实例(E)→ 复现(R)代际演化(G)横切,给五类分类学加一条时间轴(“每一代各类失败如何变形”);阅读指南(本总览 + README)反向编织成三条可读路径。核心枢纽是 A02 五类分类学(所有节点的坐标系)与 ★S01 六层剖面(所有 E 系列实例都要回到它上面定位)。注意:实例层(E)不是叙事终点,它们用虚线”归位”回 S01——剖面是归因的起点,实例是它的弹药。


§3 六模块逐一介绍

01 概念辨析(A01–A06)|收录什么 / 解决什么 / 何时读

  • A01 失败考古学方法论:方法论地基。幸存者偏差(为什么研究失败 > 研究成功)、case-by-case 的三个失效(覆盖率幻觉 / 确认偏差 / “fix the prompt”反射)、从失败反推设计原则的逆向动作。入门第一篇。
  • A02 AI 产品失败分类学·五类:全专题的坐标系。input/output/boundary/adoption/organizational 五类判别矩阵 + “误判失败类型→修错层”的四个错位。所有人必读,决定你之后看一切事故的眼睛。
  • A03 输入侧失败·对抗用户与注入:adversarial users、prompt injection、数据投毒(Tay)。
  • A04 输出侧失败·幻觉与法律约束:hallucination 事实错误(Bard)、AI 输出的法律约束力(Air Canada)。
  • A05 边界侧失败·权限承诺与情感:权限/承诺边界(Chevrolet $1)、情感依赖边界(Character.ai)。
  • A06 采纳与组织侧失败:demo-to-production gap、launch criteria 缺陷、组织 pressure 扭曲产品判断。
  • 何时读:求职/转型者先读 A01→A02,建立判断框架;按需深挖 A03–A06 单类。

02 代际演化(G01–G02)|横切时间维

  • G01 AI 失败模式代际演化总图:反共识断言——失败不是被新一代消灭的,而是被”叠加+变形+升维”的。规则 bot(Tay)→ ML(Watson)→ LLM(Bard/Sydney)→ Agent(EchoLeak)四代地层图。想反驳”我们在变好”的线性进步叙事时读。
  • G02 失败模式代际演化详解:逐代展开代表失败、成因、被如何缓解、残留什么。
  • 何时读:判断”我的产品在哪一代、失败预算该押哪一层”时读。

03 架构剖面(S01–S03)|解剖学骨架

  • S01 失败归因分层剖面(旗舰最厚):六层失败注入剖面(L1 输入 / L2 检索 / L3 模型 / L4 输出 / L5 边界权限 / L6 组织流程)+ 三个层间致命耦合,用 Reason 瑞士奶酪 + Perrow 紧耦合驱动。复盘会上打印贴墙的那张图。
  • S02 失败类型 × 产品阶段对照矩阵:五类失败 × 产品阶段(定义/设计/上线/运营),标各阶段最易发失败与拦截成本。
  • S03 失败防御体系全景:red team / guardrail / HITL / launch 门禁 / graceful degradation / incident response 六层纵深防御,挂到事故时间轴(发布前/运行中/事故后)。
  • 何时读:做方案设计、防御体系评审时读。

04 实例剖解(E01–E03)|病理学

05 复现指南(R01–R03)|操作手册


§4 与现有节点关系:升级对照表

本专题的硬约束是 不做孤岛、不复述旧节点事实基础,对每个既有节点显式标”做了哪种升级”(补缺 / 纠偏 / 对话 / 深化):

旧节点(精确名)升级类型本专题哪些节点接住升了什么
m207 - Agent 产品化:场景推演与失败模式对话 + 纠偏 + 抽象升高A01 / A02 / S01 / G01 / R03m207 是前瞻式推演 Agent 六类失败(规划/工具调用/推理/无限循环/雪崩/安全越界)+ HITL 三维断点;本专题是回溯式从已发生事故反推原则,把 m207 六类重映射到”修复层/六层剖面”,并补上 m207 弱覆盖的 adoption 与 organizational 两类。m207 提供假设,本专题提供证伪。
c13 - 幻觉的不可消除性深化 + 时间编织A01 / A02 / S01 / G01 / R03c13 论证幻觉是 Softmax 概率采样的结构性结果(output 层不可根除);本专题把它接入安全工程的”事故必然性”(Perrow NAT),升出”不可消除 ≠ 不可治理,要按后果分层设防”,并沿代际轴解释它如何沉入栈底被 G3 继承。
p304 - 防御性 UX:对抗延迟与幻觉定位纠偏 + 系统级升级A02 / S01 / S03 / R03p304 是 L4 输出层的交互内防御手册(溯源/置信度外显/优雅降级四层);本专题指出 L4 失败常是上游穿透的终点而非起点,并把”交互内降级”升级到”系统级 graceful degradation”(circuit breaker + 缓存兜底,对照 2024-12-12 ChatGPT 宕机下游全崩)。
p305 - 信任架构与可解释性设计纠偏 + 补缺S01 / S03 / R03p305 讲如何建信任;本专题补其反面——代际越高用户越过度信任(Character.AI),信任的崩塌往往发生在 L6 责任真空(Air Canada”机器人独立”免责被否),可解释性要解释的是”哪层失败、谁负责”。
A07 Red Teaming 作为评测实践(0412 评测专题的红队节点)显式升级对照A01 / A02 / S01 / S03 / G010412 语境下 A07 把红队当评测剖面/对抗测试方法;本专题从事故回溯角度把”红队”定位为 L6 的一片奶酪——Bing Sydney 证明红队覆盖盲区(未测延长会话/情感操纵)会让 L6 出现可预测的洞。评测侧”测得出什么” vs 失败侧”测不到会怎么塌”。(辨析:0411 Agent 专题另有 A07 Multi-Agent Teams,是同名不同物的多 Agent 节点,勿混。)
降发生方法论(Rick 安全方法论)同构迁移(Rick 不公平优势)A01 / A02 / S01 / S03 / G01 / R03海恩法则”严重事故背后有大量未遂先兆”= 失败考古学”记录失败分布而非孤立实例”;降发生”降频非归零”= Perrow NAT 下纵深防御的目标。直接给本专题的方法论母体。

[!note] 这一表是 D 维(可演进性)与 E 维(对手拷问)的兑现入口 升级对照不是装饰——它保证本专题”长在既有图谱上”。每条都对应某个节点 §7/§8/§10 里可追溯的具体段落,不是空喊”相关”。


§5 三条阅读起点(详表在 README)

  1. 求职速通路径(转型 AI PM,准备面试):A01 → A02 → ★S01 → E01/E02/E03(挑一个当故事弹药)→ G01。目标:30 秒答出”分类→定位→反推原则”,而非背原则。
  2. 决策链路径(在岗 PM,做方案/门禁):A02 → S03(防御体系)→ S02(阶段矩阵)→ R02(launch 门禁)→ R03(红队)。目标:把分类学变成可执行的发布门禁与防御设计。
  3. 紧迫度路径(碎片时间,按当下风险点切入):直接进 A03–A06 单类失败,或按你产品所在代际进 G01 → 对应 E 系列实例 → 回 S01 定位。目标:哪疼治哪。

§6 跨域思想资源调度表(不留空 invocation)

每个资源都在对应节点的”跨域呼应”段落具体改变了某个技术判断,下表给出调度位置 + 作用,可点进核验:

跨域资源调度位置它具体改变了什么判断
Perrow 正常事故理论(NAT, 1984)A01 / S01 §5 / G01 §3 / S03 §6 / R03 §7把”Agent 会不会出事”重构为”出事时缓冲层在哪”——系统性失败在概率意义上是”正常的”,应预设而非只预防(降频非归零)。
Reason 瑞士奶酪模型(1990)A01 / S01 §3 / S03 §0–§4解释为什么 AI 事故几乎从不是单点失效(Air Canada = 无核验层 + 无免责提示 + 无转介 三层洞对齐),并区分 active failure vs latent condition。
Leveson STAMP/STPA(2004/2011)A02 §1 反事实判别 / S01 §3 / S03 §0 / R03 §7提供”不问什么组件坏了,问哪条安全约束没被执行”的反事实判别法——这是五类分类学判别矩阵的理论源头;同时以 Leveson 对瑞士奶酪的批评(防御层非独立变量)作为对手框架,逼出”故障模式去相关”的设计要求。
Hollnagel 韧性工程 / Safety-II(2014)(Rick 未读,破 echo chamber)S01 §5 对手③ / S03 §6逼问本专题盲点:六层剖面是彻底的 Safety-I(只解剖失败),不解释 AI 系统为何大多数时候成功;标注 Safety-II 对 AI 适用至今基本空白,列为”已知的未完成边疆”。
阿伦特(Hannah Arendt)“平庸之恶”/责任结构(伦理学入口)A02 §6 / E03 / 0115道德哲学-伦理学把 organizational 失败从”技术疏忽”升维到”无人负责的责任真空”——Character.AI 的激励结构让每个环节都”只是做本职”,恶在系统而非个人,正是平庸之恶在 AI 产品组织里的镜像。
Rasmussen 边界迁移(1997)S01 §4 / S03 §5商业/竞争压力下系统系统性地、可预测地漂向安全边界(Bard 赶超 ChatGPT 仓促发布)——门禁不是技术配置,是对抗组织漂移的政治装置。
Rick 降发生方法论 / 安全感知与干预 / 明镜系统(Rick 不公平优势)A01 §4 / A02 §6 / S01 §1·§5 / S03 §3 / R03 §7海恩法则给 organizational 失败的”先兆→事故”因果模型;多层级干预链(感知→低置信标注→提示人工→转接人工)与 graceful degradation 四层同构;明镜系统的实时感知 = “低置信触发人工核查”的安全场景实例。

破 echo chamber 的两个 Rick 未读对手框架:Hollnagel Safety-II / 韧性工程HRO 高可靠性组织理论(LaPorte/Roberts/Rochlin),均在 S01/G01/S03 用来逼问”AI 红队/分层防御凭什么以为自己测得完/防得住”。


§7 验收档案:多轮评议流程 + SABCD 自评 + 三清单

评议流程(照搬 0411 工程化流水线,详见 _topic_factory/0416-failure/): Round 0 并行起草(6 模块分工)→ Round N 批评 Agent 按六维 + 事实接地逐节点找茬 → Round N+1 写作 Agent 按 issue 单修订(每节追加修订日志)→ 独立 grounding 校验 pass(逐条事实判定已接地/需接地/疑似编造)→ 终轮综合(本总览 + README + 双链编织 + 自评)

SABCD 六维自评(成型口径)

维度出版线本专题自评依据
S 结构≥8.08.0六模块互补、依赖链清晰(A→S→E→R + G 横切)、双枢纽(A02 坐标系 / S01 剖面)、三条阅读路径可导航。
A 判断密度≥8.08.2每节有反共识可证伪判断(“失败不是被消灭是被叠加”、“L4 是穿透终点非起点”、“分类是政治装置”),带数字(96,000 推文 / $47,000 烧钱 / CAD 650.88 / CVSS 9.3)。
B 边界含量≥7.57.8每个旗舰节点配 failure scenario(“安全工程类比过度”、“分层框架覆盖盲区:Character.AI 在剖面图之外”)与显式赌注(“我赌未来 2–3 年 AI 产品 L6 撑不起 HRO 级可靠性”)。
C 认识论自觉≥8.08.0全程区分事实/推测/赌注;争议与待核实清单齐(Bard 1000 亿归因叠加宏观、Air Canada 赔偿 650.88 vs 812.02、84% 注入成功率单一来源、80%/95% 失败率无方法论均标〔待核实〕);引用全部带年份+机构线索。
D 可演进性≥8.58.0双链密度达标、修订日志齐全、改稿档案留痕在 _topic_factory/扣分项:三处草稿内部链接名待统一(见下”已知 issue”),未达 8.5。
E 对手拷问能力≥7.08.0对手立场接入 ≥8 处真实人物/机构(Perrow / Leveson / Hollnagel / HRO / AAAI 误用研究 / 乐观工程派 / Bing 辩护者),每处”接受+边界”而非反驳。

综合 ≈ 7.97/10(诚实综合分 ≥7.8 出版线达标;A/E 维超线,D 维因待统一的内部链接名略低于自身高标准)。

三清单

① 对手立场显式回应清单(≥8 处,均可追溯)

  1. Perrow NAT:事故不可避免 → 接受”无法归零”,边界”可分层降频”(A01/S01/G01/S03/R03)。
  2. Leveson 批评瑞士奶酪是 Heinrich 多米诺过时变体 → 接受”防御层非独立”,边界”作为可教脚手架仍高价值”(A01/S01/S03)。
  3. Hollnagel Safety-II:别只数失败 → 接受”只看失败漏掉成功可变性”,边界”Safety-II 对 AI 工具化空白,PM 等不起”(S01/S03)。
  4. HRO 高可靠性组织:高风险系统可维持极低事故率 → 接受”组织能力是变量”,边界”AI 缺强制报告+可中止机制,当下更接近 Perrow”(G01/S03)。
  5. AAAI AIES 133 incidents 实证:真实最大威胁是误用非对抗攻击 → 接受”本专题 L1/L2 对注入有过度倾斜”,边界”注入频率低但后果上限高(CVSS 9.3)“(S01/R03)。
  6. 乐观工程派(LLMOps 厂商):失败是可收敛的工程问题 → 接受”频次在收敛”,边界”收敛的是频次不是后果上限”(G01/S03)。
  7. Bing Sydney 辩护者:实验室测不全必须上线暴露 → 接受”对话 AI 长尾难穷尽”,边界”不等于可拿真实用户(含未成年人)当安全测试替代品”(A02/S01)。
  8. STPA + ChatGPT 辅助偏保守、无监督不可靠(arXiv:2304.01246)→ 接受 STAMP 强于组件归因,边界”自动化 STPA 覆盖不全,需人工”(R03)。

② failure scenario 显式标注清单(≥5 处)

  1. 安全工程类比过度:Perrow/Reason 诞生于物理因果系统,LLM 是统计推断系统,在 output 类(幻觉/谄媚)上安全工程因果模型水土不服(A01 §4)。
  2. 分层框架覆盖盲区:Character.AI 失败在”用户心理模型层”,六层剖面定位不到(S01 §6 场景 B)。
  3. 层间边界模糊:EchoLeak 注入点在 L1/L2 之间、SpAIware 横跨 L2/L5,强行归层丢信息(S01 §6 场景 C)。
  4. 可观测性不足时分层退化:无 per-step trace 则归因永远止步 L3(S01 §6 场景 D)。
  5. 模型内生失败跨层不可消除:L3 某些洞是物理性质,分层会误导”换层能修”(S01 §6 场景 A)。

③ confirmation-bias 砍除清单(≥5 处)

  1. 早期草稿反复用 prompt injection 案例做”分层多有用”的正面论证(注入案例天然适合分层叙事)→ 补入反例 Character.AI(无法被六层剖面定位)(S01 §5)。
  2. 把 Bard 1000 亿美元市值损失当确证后果 → 标注叠加宏观因素的归因争议(G01/S01/E01)。
  3. 学术界(含早期草稿)过度押注对抗攻击 → 补入 AAAI 实证:真实最大威胁是误用(A01/S01/R03)。
  4. 把”失败减少”当”风险下降”的进步主义偏好 → 补入”后果上限随代际单调上升”反例(Character.AI 人身伤亡)(G01 §2)。
  5. 偏好引用”机器人独立免责被否”为里程碑 → 砍除夸大,标注 BC 民事裁判所为行政机构、先例仅说服力非约束力(A02/S01/G01/E02)。

已知 issue(待 Rick 审阅后修复,不影响出版线)

  • 草稿内部链接名不统一:G01 §8 / R03 §11 使用了 F01 五类失败分类学 / T01 五类失败分类学 / R02 写一份 AI 事故 Pre-mortem 等占位名,与真实文件名 A02 AI 产品失败分类学·五类 / R02 Launch Criteria 与 Pre-mortem Checklist 不一致——move 到 final_path 时需统一改写为真实 basename,否则断链(这是 D 维扣分的主因,SHARED_CONTEXT §8 死链纪律)。

§8 关联节点(双链密度 ≥20)

专题内 17 节点(全部真实文件名)

升级对照的既有 AI 节点

Rick 安全方法论资产(不公平优势)

  • 降发生方法论
  • 安全感知与干预
  • 明镜系统
  • 顺风车安全
  • 疲劳驾驶合规
  • PAX-Premium实名徽章

跨专题 / 概念 / 入口