README · 多视图阅读指南

[!warning] 防御导向声明（贯穿全专题）本专题是防御导向的安全知识库（Rick 安全 PM / Trust&Safety 求职用）。讲攻击机理，是为了设计产品防御、权限边界与检测；不产出可直接武器化的 exploit 代码、越狱 payload 或具体绕过串。复现（R）节点一律用公开基准（HarmBench / AdvBench / AgentDojo 引用）与防御方视角（检测 / 评测 / 缓解），不提供可照搬实施攻击的操作步骤。

本文件是 0435 专题的编织层：把 15 个已落盘原子节点织成几条可按身份模式选读的路径，并提供自测题与反方对话训练，让你读完不是”了解了”，而是”在面试桌 / 选型会 / 复现台上当场能用”。

[!note] 怎么用这份 README

不要从头到尾顺读专题。先在 §1 选一条与你当前身份匹配的路径（求职 / 决策 / 紧迫度），按路径读。

读完一条路径，做 §2 的自测题——不看笔记能答出”及格线”才算读懂。

把自己想象成被面试官 / CTO / 安全总监拷问，过一遍 §3 的反方对话训练。能顶住六个追问，这个专题对你才算”长进了判断力”。

全专题的总览（MOC、模块全景、升级对照、SABCD 自评、跨域调度）在 [_AI 红队与攻防系统化专题·总览](/kb/专题-安全对齐与失败/_ai-红队与攻防系统化专题-总览/)；本文件是它的”读法”侧。

§0 一张总图：15 节点与三条路径

flowchart TD
    subgraph 概念["01 概念辨析"]
        A01[A01 三词分治]
        A02[A02 攻击分类学]
        A03[A03 直接 vs 间接注入]
        A04[A04 Guardrail 能力与谎言]
    end
    subgraph 演化["02 代际演化"]
        G01[G01 军备竞赛谱系]
        G02[G02 代际演化详解]
    end
    subgraph 架构["03 架构剖面"]
        S01["S01 纵深防御六层栈 ★"]
        S02[S02 训练侧 vs 系统侧]
        S03[S03 Agent 权限与最小权限]
    end
    subgraph 实例["04 实例剖解"]
        E01[E01 Chevrolet & Air Canada]
        E02[E02 间接注入真实案例]
        E03[E03 红队报告反推原则]
    end
    subgraph 复现["05 复现指南"]
        R01[R01 越狱评测·防御视角]
        R02[R02 自动化红队流水线]
        R03[R03 注入防御 + 权限沙箱]
    end

    A01 -.求职.-> A04 -.求职.-> E01 -.求职.-> R01
    A03 决策> S01 决策> S02 决策> R03
    S01 -.承重墙.-> S03 -.承重墙.-> R03
    G01 -.紧迫.-> E03 -.紧迫.-> R02
    A03 -.实例.-> E02

    style A01 fill:#e3f2fd
    style A03 fill:#fff3e0
    style S01 fill:#ffe8cc
    style G01 fill:#fce4ec

✅ 专题计划 15 节点，当前 15 节点全部落盘。原缺的 [S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)、[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/) 两节经 0435 收尾整合轮二次 Bash find 复核，正文已在 staging 落盘、内容完整且带防御导向 banner，已恢复为可点双链并正式纳入下文路径与自测；专题达”15 节点齐备”交付线。

✅ phantom 复核（2026-06-11 P3.4 校链更新）：全专题去重后活双链已逐一 Bash find 对照主库 04AI/——结论：0 phantom、0 疑似死链；专题内 WITHIN 链全部在本专题内 resolve，MAIN 既有 AI 节点全部主库确证。兄弟专题 0412/0415/0416/0419/0430/0431 现已落盘主库（各有 NNNN 总览 别名），指向它们的跨专题链已恢复为真 NNNN 总览 链；唯 0436 整专题仍在 staging（待补完入库），主库零落盘，指向它的链暂作普通文本。自测：合上本节，应能复述”为何 0416/0430/0412 系列现在能作真双链、而 0436 仍须降级”（答：前者整专题已落盘主库、同库 resolve；后者整专题仍在 99Archive/_ai_review staging、主库零落盘）。

§1 三条阅读路径（各标时长 · 前置 · 产出）

每条路径标注：预计时长、读前要带的问题（前置）、读完该拿到的可验证产出。三条路径共享 A01 作为元前提——无论走哪条，A01 都建议先读 10 分钟，它是全专题的”挡掉错误框架”地基。

路径一 · 求职速通（面向 Safety / Trust&Safety 求职）

预计时长：约 70–90 分钟（4 节点） 适合谁：要去面 AI Safety / Trust&Safety / 安全 PM 岗，需要在面试桌当场把”怎么保证 AI 产品安全”答出层次的人。 前置（读前带着这个问题进）：“如果面试官问我’你们怎么防 AI 客服被攻击’，我现在的答案会不会停在’加内容审核’？“

顺序	节点	读它拿什么	时长
1	`[A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)`	把”AI 安全”拆成 safety / security / alignment 三轨，学会一句话分治线。这是面试桌上拉开与其他候选人差距的第一刀。	~20 min
2	`[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)`	拿到反”安全剧场”的硬数字（绕过率 8%–47%、92% 拦截 + 13.1% 假阳性的代价），学会把”加了护栏所以安全”当场证伪。	~20 min
3	`[E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/)`	拿到两个能讲故事的真实事故，把抽象机理钉进具体案例（Chevrolet = prompt injection 驱动的 privilege escalation）。面试讲案例比讲概念更有说服力。	~20 min
4	`[R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)`	拿到”我会做评测”的可信度：拒答率 / 绕过率 / 误拒率三件套，以及”只报 ASR 是自欺”这条判断。Trust&Safety 岗位极看重”能不能度量安全”。	~20 min

路径产出（可验证）：合上笔记，面对”你们怎么保证这个 AI 产品安全”这个问题，能给出三段式答案——①先分治（这是 security 还是 safety 问题？）→ ②确定性边界优先于概率性过滤（护栏只抬成本不设边界）→ ③评测≠保证（我会用公开基准跑出带误差棒的数字，而且会报误拒率）。这就是把”了解一下”升级成”面试官记得住的回答”。

求职话术锚点：Rick 的滴滴/99 安全方法论是这条路径的不公平优势——降发生方法论（海恩法则：先兆层级多道拦截、降发生率而非追零事故）与纵深防御字面同构，面试时可主动把”我在物理世界把对抗治理做成了方法论”迁移成 AI 红队的设计语言。

路径二 · 决策链（架构师 / 选型负责人）

预计时长：约 110–150 分钟（核心 4 节点含 1 旗舰长节点 + 建议插读 E02 实例、S03 权限深读两节） 适合谁：要在选型会 / 架构评审上拍板”防御预算怎么分、训练侧还是系统侧、Agent 权限怎么切”的人。 前置（读前带着这个问题进）：“给我 100 块安全预算，我现在能不能说清哪 20 块花在确定性边界、哪 80 块花在概率性补强，还是只会说’都加上’？“

顺序	节点	读它拿什么	时长
1	`[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)`	学会一条架构判断：一旦产品形态是会读外部内容的 Agent，间接注入就不是”可能发生的事故”，而是”架构里写死的入口”。这决定你的产品能不能”在输入端设防”。	~20 min
1.5（建议）	`[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)`	紧接 A03 的概念，拿四个真实生产事故把”间接注入是架构入口”钉进现实——EchoLeak（CVSS 9.3 零点击）证明出站监控是最后防线、Slack AI 证明检索范围必须绑权限、ChatGPT Memory 证明写持久层比读外部更危险、MCP Tool Poisoning 证明注入战场已前移到工具注册阶段。判断主轴：“信任边界一旦外移到 Agent 触及的整个外部世界，没有一个事故能靠’再加一层内容过滤’治好。“	~20 min
2	`[S01 纵深防御可替换栈·输入模型输出权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)` ★旗舰最厚	拿到六层栈（输入过滤 / 指令-数据分离 / 模型对齐 / 输出过滤 / 权限最小化 / 监控审计）+ 瑞士奶酪层间耦合。核心判断：安全高低不取决于最强那层多强，取决于各层孔洞的相关性。	~35 min
3	`[S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)`	把”训练得更安全 vs 套一圈过滤权限”从单选题纠正成”概率性 × 确定性正交组合”，拿到一棵选型会当场可用的决策树。	~25 min
4	`[R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/)`	拿到可落地的四层防御组合（指令-数据分离 + 工具权限白名单 + 执行沙箱 + HITL），每层诚实标注在哪被击穿。结语：“纵深防御不是认输，是唯一诚实的答案。“	~25 min

路径产出（可验证）：在选型会上能区分”概率性补强”与”确定性边界”，排出防御预算优先级——确定性承重墙（指令-数据分离 ②、权限最小化 ⑤）先建，再用概率性层（① ③ ④ 过滤/对齐 + ⑥ 监控）补强。能对”我们加了护栏就够了”当场回一句：“护栏是概率性补强，不是承重墙；爆炸半径上限由权限边界决定，不由过滤决定。”

★ 权限层深读（强烈建议插在第 2、3 步之间）：[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)——S01 §2 的 ⑤ 权限层、R03 §2 的白名单实现都以它为概念承重墙。它把”最小权限”拆成四个可操作设计原语（能力清单按任务下发 / 副作用 L0–L4 分级 / 确认门 / 能力降级 fail-closed），并给选型四问（任务级白名单？副作用分级分流？可配置确认门？授权与执行分离防 bootstrap？）。判断主轴一句话：“防不住注入时，权限边界决定损失上限。“读完再看 S01 ⑤ 与 R03 第二、四层会从”知道有这层”升级到”知道这层怎么设计”。

路径三 · 紧迫度（已上线 Agent，要立刻降险）

预计时长：约 60–75 分钟（3 节点） 适合谁：手上已经有一个跑在生产的 LLM / Agent 产品，刚出过险情或被合规追问，要立刻把红队从”一次性体检”升格为”带回归门禁的持续治理”的人。 前置（读前带着这个问题进）：“我现在的红队是不是只做了’跑过一次、贴个分数’，没有回归、没有发版门禁？“

顺序	节点	读它拿什么	时长
1	`[G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)`	拿到”安全是第一性约束”的结构性论据：攻击面不是攻击者发明的，是产品方为产品力（多轮记忆、API 化、工具调用）亲手扩张的——每加一个工具就加一个注入入口。	~20 min
2	`[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)`	学会把红队报告倒过来读：从”逐条找到的失败”反推”本该有的第一性设计约束”。判断主轴：红队真正价值不是发现 bug，是把”可能失败”前置成设计约束。	~25 min
3	`[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)`	拿到把一次性探测工程化的五段流水线（Gen-Run-Judge-Regress-Metric），可上 CI、可阻断发版。判断密度：没有回归与门禁的红队不是 CI，是 demo。	~25 min

路径产出（可验证）：能把团队现有的红队从”跑一次贴分数”升级为”每次发版自动跑 + 回归基线 + 发版门禁”，并且读得懂任何一份红队报告里”哪条失败对应哪条缺失的设计约束”，而不是只挑几条 bug 去修。能对老板回一句：“我们不该问’修完这 12 条就能上线吗’，该问’这 12 条失败暴露了我们哪几条架构原则缺位’。”

Rick 资产迁移：明镜系统（态势感知）对应这条路径缺的”运行时监控层”；R02 的”未遂事件捕捞网”与降发生方法论的隐患前置探测同构——紧迫度路径恰是把物理世界的常态化监测流迁移到 AI 系统。

路径选择速查

你是谁 / 你要解决什么	走哪条
要去面 Safety / Trust&Safety / 安全 PM	路径一 · 求职速通
要在选型会 / 架构评审拍板防御预算与架构	路径二 · 决策链
已上线 Agent，要立刻降险、制度化红队	路径三 · 紧迫度
想完整建立攻防世界观（时间够）	顺读 A01→A02→A03→A04→G01→G02→S01→S02→S03→E01→E02→E03→R01→R02→R03（15 节点全程）

§2 自测题（≥10 题 · 每题给”及格线 / 优秀线 / 反例”）

用法：先合上所有笔记答一遍。能答出”及格线”算读懂；能答出”优秀线”算能用；如果你的答案掉进”反例”，说明这个专题对你白读了——回去重读对应节点。

Q1 · safety / security / alignment 三词怎么分治？（对应 [A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)）

及格线：safety 防系统自己作恶（内部、非对抗），security 防外部攻击者（对抗），alignment 防目标偏差。
优秀线：三者威胁来源、失败模式、防御工具箱都不同；关键差异是 security 有一部分可做成确定性硬边界（权限/沙箱），而 safety/alignment 本质是概率性的（再多 RLHF 也只降概率不归零）。用”防火 vs 防盗”类比：防火没有敌人，防盗有会适应你防御的敌手。
反例（白读了）：“这三个词差不多，都是让 AI 更安全。“——把三轴当成同一根轴上的刻度，正是 90% 事故复盘的根因。

Q2 · “我们加了内容过滤，所以注入攻击解决了”——错在哪？（对应 [A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)、[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)）

及格线：内容过滤是概率性控制，有假阴性，挡不住所有注入。
优秀线：这是”拿门锁去防火 / 拿 safety 工具堵 security 洞”的门类错位——内容过滤学的是”这段话有没有害”，不是”这段话是不是攻击者注入的指令”。硬证据：EchoLeak（CVE-2025-32711, CVSS 9.3）专门绕过了微软自己的 XPIA 注入过滤层，零点击把内部文件外泄；护栏在，攻击照样得手。
反例：“那就再加一层更强的过滤器。“——叠同质概率层是瑞士奶酪孔洞对齐，STACK 攻击对组合防御流水线仍达 71% 黑盒成功率。

Q3 · 直接注入和间接注入，机理同源，为什么产品含义天差地别？（对应 [A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)）

及格线：直接注入是用户自己键入，能在输入端设防；间接注入藏在工具/检索/邮件/网页内容里，难在输入端拦。
优秀线：根因相同（指令-数据不分离），但威胁模型不同——直接注入里攻击者≈受害者（用户自己作死），间接注入里攻击者是数据源污染者、受害者是信任 Agent 的另一个无辜用户，是供应链式攻击。一旦产品会读外部内容，间接注入就是”架构里写死的入口”，不是可选事故。
反例：“间接注入很罕见，先不管。“——只要 Agent 读外部世界，攻击面就随工具调用次数线性扩张。

Q4 · 一个 LLM 产品的安全高低，由什么决定？（对应 [S01 纵深防御可替换栈·输入模型输出权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)）

及格线：由多层防御叠成的纵深，不是单层强弱。
优秀线：不取决于最强那层多强，取决于各层孔洞的相关性（瑞士奶酪模型）。叠两个相似的概率性过滤器几乎无用（孔洞对齐成通孔）；确定性层（指令-数据分离 ②、权限最小化 ⑤）与概率性层异质叠加才是真纵深。确定性控制是承重墙，概率性控制是补强。
反例：“把最强的那个分类器装上就行。“——这是把六层全押同一种控制类型，没有真正的下限。

Q5 · 训练侧 vs 系统侧防御，该选哪个？（对应 [S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)）

及格线：不是单选，两侧要组合。
优秀线：这是概率性控制 × 确定性控制的正交组合，不是替代关系。训练侧（对齐/CAI/对抗训练）几乎全是概率性的；系统侧横跨两者——guardrail 是概率性的，沙箱和权限是确定性的。只押一侧（哪怕是”加了 guardrail”）都没有确定性地板。 用 Ashby 必要多样性定律：单一防御的状态多样性 < 攻击空间多样性，结构性必须组合。
反例：“我们做了 RLHF 安全微调，模型很乖，所以安全。“——标准 RLHF 移不掉预训练后门，对 security 后门无效。

Q6 · 为什么 LLM 攻防是”军备竞赛”，不是”补丁打完就收敛”？（对应 [G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)、[G02 攻防代际演化详解·从单轮越狱到 Agent 注入](/kb/专题-安全对齐与失败/g02-攻防代际演化详解-从单轮越狱到-agent-注入/)）

及格线：攻击会迭代变异，防御总滞后。
优秀线：根因是架构性的语义不可分性——LLM 在注意力层无法原生区分”可信指令”与”待处理数据”，补丁堵得住具体 payload，堵不住”自然语言既是数据又是指令”的地基。更关键：攻击面是产品方为产品力亲手扩张的（聊天框→API化→自主 Agent 三代产品形态对应三代攻击面），所以安全必须是第一性架构约束，不能后置审核。防御响应还会反过来定义下一代攻击（攻防共演）。
反例：“等模型更强 / 等下一代防御出来就好了。“——这是把军备竞赛误读成线性进步史；每代防御都有失效反例。

Q7 · 衡量安全投入 ROI，该用什么标准？（对应 [G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)、红皇后假说）

及格线：不能只看”还剩多少漏洞”。
优秀线：用红皇后赛跑框架——投入只买”不掉队”不买”领先”。ROI 该用”攻击成本提升几倍 + 爆炸半径缩小多少”来算，而不是”漏洞清零率”。因为概率性防御的 0% ASR 是时间快照不是稳态。
反例：“我们这季度把已知漏洞清零了，所以安全达标。“——把动态军备竞赛用静态基准发了安全证书。

Q8 · 一份红队报告，PM 该怎么读？（对应 [E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)）

及格线：不是只挑 bug 去修，要看出系统性问题。
优秀线：红队真正价值不是发现 bug，是把”可能失败”前置成设计约束。正确动作是把每条”发现”翻译成”缺失的设计约束”——一条”客服 Agent 被诱导报价”不该读成”修这个 prompt”，而该读成”我缺一条’高后果动作不可达 LLM’的架构原则”，于是下一百种诱导报价一起失效。这与 降发生方法论 同构（前置约束压发生率，而非事后救火）。
反例：“修完报告里这 12 条就能上线了。“——逐条修补永远落后攻击演化一拍；把战略信号读成战术工单。

Q9 · 给 bot 跑安全评测，只报 ASR / 绕过率够吗？（对应 [R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)、[c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/)）

及格线：还要看误拒率（假阳性）。
优秀线：要同时报拒答率 / 绕过率 / 误拒率三件套——只报 ASR 是评测里最常见的自欺，因为调高灵敏度能压绕过率，代价是误拒率飙升（A04 的平台 3：92% 拦截 = 13.1% 假阳性）。而且 ASR 是代理指标，真实残余风险才是目标（Goodhart：安全指标造假的后果是真实伤害，不只是排行榜失真）。评测是”必要不充分的体检”，不是安全保证。
反例：“我们 ASR 压到 0% 了，安全。“——基准会被刷满，0% ASR 不反映真实威胁（评测怀疑派立场）。

Q10 · 怎么把红队从”跑一次”变成”持续治理”？（对应 [R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)）

及格线：把评测自动化、定期重跑。
优秀线：工程化成 Gen-Run-Judge-Regress-Metric 五段流水线，可上 CI、可阻断发版。关键是后两段——回归（改 system prompt / 升基座 / 加 RAG 源都可能悄悄打开旧洞，没有回归基线就只能从线上事故学）和门禁（gating，把红队挂进升级门禁，因为”更强模型反而更易被注入”的 inverse scaling 意味着每次升级都要假设安全姿态变差）。没有回归与门禁的红队不是 CI，是 demo。
反例：“我们拿 HarmBench 跑了个分贴在发版说明里。“——把流水线退化成一次性跑分。

Q11 · 怎么把 Agent 注入的爆炸半径压到可接受？（对应 [R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/)）

及格线：用多层防御组合。
优秀线：四层组合——指令-数据分离 + 工具权限白名单 + 执行沙箱 + 人工断点（HITL），并诚实标注每层在哪被击穿；核心不是追求单层完备，是”假设已被攻破（assume breach）“，把攻击成功代价抬高、损害范围收窄。把”报价/转账/外发”这类高后果动作从 LLM 可达动作集物理移除——这是确定性控制，与模型聪明不聪明无关。
反例：“找到对的正则/分类器就能挡住注入。“——过滤器是被训练的模型不是形式化验证，有假阴性、对抗盲点、泛化缺口。

Q12 · 为什么”更对齐的模型”反而可能更危险？（对应 [A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)、[E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/)）

及格线：对齐解决的是 safety/alignment，不解决 security。
优秀线：Chevrolet 案里模型”对齐良好、乐于助人”——它忠实执行了被注入的指令，这正是 alignment 与 security 的撕裂处：一个越对齐（越服从）的模型，越容易被注入指令劫持。所以”把模型调得更乖”不是注入的解药，方向上可能是反的。再叠加 inverse scaling（更强模型更易被注入），“升级模型 = 更安全”是危险假设。
反例：“我们用最强最对齐的模型，所以最安全。”

Q13 · “最小权限”是不是”权限越少越安全”？怎么把它做成工程而非口号？（对应 [S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)）

及格线：不是越少越好，要给任务必需的权限，否则任务完成率崩、用户关防护。
优秀线：最小权限是相对当前任务的最小、动态收缩、与模型行为无关的确定性边界——它不”理解”攻击，因此不参与军备竞赛，只回答”即使模型被完全攻陷，物理上能造成的最大损害是多少”。落地为四个设计原语：①能力清单（任务级按需下发、默认拒绝）→ ②副作用分级（给每个动作贴可逆性×后果标签 L0–L4）→ ③确认门（只在 L3/L4 触发、避免确认疲劳）→ ④能力降级（置信度下降时 fail-closed 收权而非放行）。判断主轴：“防不住注入时，权限边界决定损失上限”——损害 = 注入成功率 × 被注入 Agent 的权限上限，检测管前一个因子（有 8%–47% 漏网），权限管后一个因子且确定。
反例（白读了）：“我们把工具全删了，最安全。“——任务做不成，用户换产品，安全归零；或反面：“先给全权限，事后再收”——权限是乘数，一次漏网就删库/转账，且生产环境收权极难、永远被推迟。

Q14 · 间接注入有哪些真实生产案例？它们的共同根因和防线在哪？（对应 [E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)、[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)）

及格线：举得出至少一个真实案例（如 EchoLeak），知道间接注入藏在 Agent 读的外部内容里。
优秀线：四案各教一条防线——EchoLeak（CVE-2025-32711, CVSS 9.3）零点击外泄证明内容过滤（XPIA）会被绕、出站监控是最后防线；Slack AI 证明检索范围必须严格绑用户权限；ChatGPT Memory（spAIware）证明写持久层比读外部内容更危险（一次写入、长期外泄）；MCP Tool Poisoning（CVE-2025-54136）证明注入战场已前移到工具注册阶段（boot-time），所有运行时分离防御都管不到。共同根因是指令-数据不分离 + 信任边界外移到”Agent 触及的整个外部世界”，所以没有一个能靠”再加一层内容过滤”治好；防线是权限最小化 + 持久层来源验证 + 出站监控 + 工具静态验证的异质纵深。判断锚点：“基准会高估 ASR，但真实 CVE 不会撒谎。”
反例：“间接注入是理论风险/实验室里才有。“——EchoLeak 是首个生产级零点击 CVE，四案全是已分配 CVE 或公开披露的真实事故，不是基准产物。

§3 反方对话训练（安全领域 6 追问）

用法：把自己放在被拷问的位置（面试官 / CTO / 安全总监 / 投资人）。每个追问先给反方为什么这么问（它对的部分），再给你的回应（接受 + 边界，不是硬刚）。能顶住这六问，你才真正吃透了”用反对的声音建造”。

追问 1 ·「加个 guardrail / 内容过滤不就行了？」

反方对的部分：guardrail 确实有用——它覆盖已知攻击类别、可独立于基座部署、与对齐协同能提升覆盖率。Unit42 同份数据里，对齐+护栏阻断了 109/123 个日常越狱。对低水平攻击，护栏高度有效。
你的回应（接受 + 边界）：接受护栏是纵深防御里有价值的一层概率性控制；但它不是确定性边界。硬数字：最好的平台仍有 8% 绕过率（最差 47%），且 92% 拦截的代价是 13.1% 假阳性（每 8 个正常请求误拦 1 个）。对一个只需成功一次的高价值攻击者，8% 几乎等于无效。把”绕过率约等于零”当真，就是安全剧场的第一性错误。 护栏抬高攻击成本，确定性控制（权限/沙箱/HITL）才设定不可逾越的边界。详见 [A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)。

追问 2 ·「越狱是模型问题，跟产品架构无关吧？模型厂商修就行了。」

反方对的部分：单轮越狱（第一代）确实主要在模型侧，安全微调和拒绝训练能压住一大批；模型厂商持续在补。
你的回应（接受 + 边界）：接受”模型侧越狱”这一代靠训练侧能缓解；但攻击面已经从”用户输入”位移到”Agent 消费的整个外部世界”再到工具协议层（间接注入、MCP Tool Poisoning）。这些是产品方为产品力亲手扩张的攻击面——每加一个工具就加一个注入入口，模型厂商修不了你的权限模型和工具白名单。根因是架构性的指令-数据不可分（ICLR 2025 已证实），不是某个模型的 bug。所以安全是产品架构的第一性约束，不是等模型厂商修。详见 [G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)、[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)。

追问 3 ·「间接注入很罕见吧？真实世界里有几个案例？我们先上线再说。」

反方对的部分：相比直接越狱，间接注入的公开生产级案例确实较少被报道，且要求攻击者能污染数据源、被害产品要会读外部内容——门槛看起来高。对一个”全栈自研、数据全自采、不读任何外部内容”的封闭产品，间接注入优先级确实可降（威胁模型决定）。
你的回应（接受 + 边界）：接受威胁模型决定优先级；但 2025 起生产级案例已经出现且后果严重——EchoLeak（CVE-2025-32711, CVSS 9.3）是首例生产级 LLM 系统的零点击间接注入数据外泄，A03 还铺了 Slack AI、ChatGPT Memory 多个间接注入面。关键判断：只要你的产品是会读邮件/网页/检索文档的 Agent，间接注入就不是”罕见事故”，而是”架构里写死的入口”，攻击面随工具调用次数线性扩张。 “先上线再说”对不可逆/高后果场景 = 拿用户当小白鼠。详见 [A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)。

追问 4 ·「红队是不是浪费资源？我们是创业公司，快速上线用真实流量暴露问题更划算。」

反方对的部分：接受精益创业派的立场——对低后果、可逆的场景，真实流量确实是最快的反馈，红队对小团队可能是奢侈品；而且红队不能替代线上监测。
你的回应（接受 + 边界）：边界在”可逆性 × 后果”。对不可逆/高后果失败（转账、法律承诺、数据外泄、声誉事件），用真实流量暴露 = 拿用户当小白鼠，一次事故的代价远超红队成本。更重要的是红队的真正价值不是”找 bug”这种一次性消耗，是把”可能失败”前置成设计约束（降发生），一条发现能让一类攻击一起失效——这是高 ROI 的杠杆而非浪费。而且红队可工程化成自动流水线（R02），边际成本随版本摊薄。详见 [E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)、[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)。

追问 5 ·「我们花大价钱做了对抗训练，模型很 robust 了，纵深防御那套是不是过度设计？」

反方对的部分：对抗训练/安全微调确实能显著压低已知攻击的成功率（Constitutional Classifiers 把通用越狱从 86% 压到 4.4%），训练侧是 safety/alignment 的主力，值得投。
你的回应（接受 + 边界）：接受训练侧的价值；但它全是概率性控制——86%→4.4% 是大幅降低不是归零，bug bounty 阶段仍有人实现通用越狱，且对 security（注入/后门）基本无效（标准 RLHF 移不掉预训练后门，CAI 对间接注入无效）。Williams-King/Bengio（arXiv:2501.11183）直接诊断：“当前安全微调=打补丁的军备竞赛而非原则性设计。” 所以护栏和对齐是补丁层，确定性边界（权限/沙箱）才是架构层——纵深防御不是过度设计，是用确定性控制收缩问题空间、再用概率控制调节剩余空间的结构性必然（Ashby 必要多样性）。详见 [S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)、[S01 纵深防御可替换栈·输入模型输出权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)。

追问 6 ·「我们 ASR 压到 0%、红队报告全绿了，是不是可以发安全合格证了？」

反方对的部分：接受合规视角——EU AI Act 对系统性风险 GPAI 确实强制要求”进行并记录对抗性测试（红队）“，报告达标是上线许可的一部分；有基线总比没有强。
你的回应（接受 + 边界）：接受红队是合规必需；但**“分数过线”≠“安全了”。三层边界：① 0% ASR 是时间快照不是稳态**——攻击只会越来越好（Schneier：security is a process not a product），今天的 0% 是给动态军备竞赛发的静态证书；② ASR 是代理指标，真实残余风险是目标（Goodhart：指标越被用于决策越被腐蚀，门禁指标和”指标健康度指标”必须分开 owner）；③ 基准会被刷满，STACK 证明对单层测出 0% 的攻击在组合流水线上重新有效（71%）。正确说法是”这是必要不充分的体检”，而不是”安全合格证”。详见 [R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)、[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)、[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)。

[!note] 反方训练的元方法注意这六问的回应模板全是”接受它对的部分 + 标注你坚持的边界”，不是反驳。这是宪章 §7「用反对的声音建造，而不是用赞同的声音装饰」的落地——面试桌和选型会上，能说出”对方哪里对、我的边界在哪”，比单方面输出结论更显判断力。

§4 读完之后：三个可继续追问的开放问题

读完全专题，下面三个问题没有定论，是这个领域最前沿的赌注（详见总览 §9）：

Multi-Agent 横向传播何时出首批真实 CVE？ G02 赌 2026–2027 出现首批 Multi-Agent 跨信任边界 CVE——这是本专题最大的前瞻性赌注，可持续追踪验证/证伪。
表征级指令-数据分离（如 ASIDE 类）能否真正终结攻防共演？ 这是”补丁 vs 架构”之争的实证关口——硬核始终是”LLM 无法区分指令与数据”，能终结共演的不是更聪明的过滤器，而是表征层分清”数据 vs 命令”。但大规模可部署性尚未验证。
Rick 降发生方法论的”上报率元指标”如何映射到红队门禁的”指标健康度”？ R02 §6 已点出同构，可深挖成一篇独立的方法论迁移笔记——把物理世界的对抗治理资产正式迁移成 AI 红队的设计语言。

§5 关联节点（双链密度 ≥20，全部真实名）

专题内已落盘 15 节点（齐备）

[A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)
[A02 攻击分类学·注入越狱投毒抽取](/kb/专题-安全对齐与失败/a02-攻击分类学-注入-越狱-投毒-抽取/)
[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)
[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)
[G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)
[G02 攻防代际演化详解·从单轮越狱到 Agent 注入](/kb/专题-安全对齐与失败/g02-攻防代际演化详解-从单轮越狱到-agent-注入/)
[S01 纵深防御可替换栈·输入模型输出权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)（★旗舰）
[S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)
[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)
[E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/)
[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)
[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)
[R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)
[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)
[R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/)

总览（MOC）

[_AI 红队与攻防系统化专题·总览](/kb/专题-安全对齐与失败/_ai-红队与攻防系统化专题-总览/)

升级对照的既有 AI 节点（真实全名，已核实存在）

[m207 - Agent 产品化：场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/)
[Constitutional AI](/kb/基础知识库/constitutional-ai/)
[c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/)
[c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/)
[RLHF](/kb/基础知识库/rlhf/)

跨专题

[_Agent 系统化专题·总览](/kb/专题-安全对齐与失败/_agent-系统化专题-总览/)（0411 Agent 系统化专题，已核实存在）
失败考古专题 的 Air Canada/Chevrolet 边界与法律失败节点（E01 镜像源；2026-06-11 校验已落盘主库，恢复真链）

Rick 滴滴安全方法论（求职独特资产，已核实存在）

降发生方法论
明镜系统
安全感知与干预

总图入口

[AI PM 知识图谱·总索引](/kb/ai-pm-知识图谱/ai-pm-知识图谱-总索引/)

跨专题链状态（2026-06-11 P3.4 校链复核）：0412 评测系统化专题、0415 后训练即产品专题（红队作为产品实践）、0416 失败考古专题、0419 对齐哲学专题（间接注入防御架构）、0430 AI 作为制度现象专题（安全规范制定）、0431 AI 认识论中介专题（verification）现均已落盘主库，对应跨专题引用已回填为真 NNNN 总览 链。仅 0436 Agent 权限边界仍在 staging（待补完入库），指向它的链暂作普通文本，已登记 _待建概念清单.md，绝不在主库建 stub。（S03/E02 已落盘，前轮已恢复为真双链。）

§6 修订日志

R0（2026-06-07）综合 README 首稿：综合 Agent 基于宪章 §4/§5/§12 + 已落盘 13 节点正文写就。六节齐备——§0 总图（Mermaid，13 节点 × 三路径）/ §1 三条阅读路径各标”时长 + 前置 + 可验证产出”（路径一显式面向 Safety/Trust&Safety 求职，含 Rick 安全方法论求职话术锚点）/ §2 十二道自测题（超 ≥10 题要求，每题给”及格线 / 优秀线 / 反例”三档，并标注对应节点双链）/ §3 安全领域六追问反方对话训练（含命题要求的”加个 guardrail 不就行了""越狱是模型问题跟产品无关吧""间接注入很罕见吧""红队是不是浪费资源”四问 + 对抗训练误读、ASR 合格证误读两问，全部用”接受+边界”模板）/ §4 三个开放追问 / §5 双链 ≥30 真实名 / §6 本日志。
诚实标注：⚠️ S03、E02 两节点尚未落盘，README 中凡指向处一律降级为普通文本并标”〔待落盘/尚未落盘〕“，不作可点双链；待建/待核实链已登记 _待建概念清单.md，绝不在主库建 stub。所有专题内双链 basename 经 staging 目录文件名逐一核对一致（A01–A04 / G01–G02 / S01–S02 / E01·E03 / R01–R03 共 13 个），既有 AI 节点（m207/CAI/c13/c14/RLHF/降发生方法论/明镜系统/安全感知与干预/0411 总览·S01 Agent 六层架构剖面·S03 Harness Engineering 全景/范式/0117社会学/Anthropic/AI PM 知识图谱·总索引）经 0435 终审 QC 逐一 Bash find 复核均在主库 04AI/（非 staging）确证存在；原稿误把”0416 E02 镜像源”列入”已核实存在”清单——经核验该节点及整个 0416 失败考古专题仍在 staging、主库不存在，已剔除并降级普通文本。
防御导向合规：全文为防御方视角，所有”绕过率/ASR/CVSS”数字均引自公开基准与漏洞披露（Unit42 8%–47%、EchoLeak CVSS 9.3、Constitutional Classifiers 86%→4.4%、AgentDojo 57.7%→6.8%、STACK 71%/33%、109/123），用于论证防御能力边界，未提供任何可照搬实施的 payload、越狱串或绕过步骤。
0435 终审 QC 轮（2026-06-07 · 历史留痕）：(1) 该轮初查时 S03/E02 在 staging 尚不存在，遂维持 13 节点、未伪建 stub；(2) phantom 终审：全专题活双链逐一 find 主库核对，0 phantom / 0 疑似死链，剔除原稿”0416 E02 已核实存在”的误述并降级；(3) R03 §11 旧命名内链（S01 注入机理剖面/S03 Agent 攻击面剖面）前轮已校正为真实标题、复检无残留。
0435 收尾整合轮（2026-06-07，Opus 级 · 本轮）：(1) S03/E02 已落盘、正式纳入路径与自测——Bash find 二次实证两节点正文在 staging 存在、内容完整。据此把 README 全面更新为 15 节点版：§0 标题/Mermaid（加 S03、E02 两节点及”承重墙""实例”两条边）/落盘状态从〔待落盘〕改为✅齐备并恢复可点双链；§1 路径二加入 S03 权限深读与 E02 实例插读（时长上调至 110–150 分钟）、路径选择速查全程序列补入 S03/E02；§2 新增 Q13（S03 最小权限四原语）、Q14（E02 间接注入四案防线）两道自测；§5 双链清单恢复 S03/E02 真链、关闭其降级、降级清单仅留仍在 staging 的兄弟专题。(2) phantom 复核重做：全专题去重 34 个活双链逐一 find 实证——WITHIN 14（含 S03/E02）/ MAIN 20 / phantom 0 / 疑似死链 0；指向兄弟专题（0412/0415/0416/0419/0430/0431/0436）的链经核仍 staging-only，全部维持降级普通文本，无一谎称已核实。(3) phantom 修正数 = 0（唯一误述上一轮已剔除）。(4) 安全复核维持通过（S03/E02 均带防御导向 banner、无可武器化内容）。全程仅在 staging 操作，未触碰主库、未建 stub。
2026-06-11 P3.4 校链：跨专题 staging 降级复核——兄弟专题 0412/0415/0416/0419/0430/0431 经主库 find 实证现已全部落盘（各有 NNNN 总览 别名），原”仍在 staging / 降级普通文本”注解删除，§5 双链清单及全文指向它们的跨专题引用恢复为真 可读名 链。唯 0436 仍只在 99Archive/_ai_review staging、主库零落盘，其引用保留普通文本、注解更新为”0436 待补完入库”。“已核实存在”声明全部实证为真（m207/CAI/c13/c14/RLHF/0411 总览/降发生方法论/明镜系统/安全感知与干预/AI PM 知识图谱·总索引均在主库），无幻影；上轮已剔除的”0416 E02 已核实存在”误述维持不复发。历史 QC 留痕（上列各轮）按 append-only 保留。