README·0435·多视图阅读指南
README · 多视图阅读指南
[!warning] 防御导向声明(贯穿全专题) 本专题是防御导向的安全知识库(Rick 安全 PM / Trust&Safety 求职用)。讲攻击机理,是为了设计产品防御、权限边界与检测;不产出可直接武器化的 exploit 代码、越狱 payload 或具体绕过串。复现(R)节点一律用公开基准(HarmBench / AdvBench / AgentDojo 引用)与防御方视角(检测 / 评测 / 缓解),不提供可照搬实施攻击的操作步骤。
本文件是 0435 专题的编织层:把 15 个已落盘原子节点织成几条可按身份模式选读的路径,并提供自测题与反方对话训练,让你读完不是”了解了”,而是”在面试桌 / 选型会 / 复现台上当场能用”。
[!note] 怎么用这份 README
- 不要从头到尾顺读专题。先在 §1 选一条与你当前身份匹配的路径(求职 / 决策 / 紧迫度),按路径读。
- 读完一条路径,做 §2 的自测题——不看笔记能答出”及格线”才算读懂。
- 把自己想象成被面试官 / CTO / 安全总监拷问,过一遍 §3 的反方对话训练。能顶住六个追问,这个专题对你才算”长进了判断力”。
- 全专题的总览(MOC、模块全景、升级对照、SABCD 自评、跨域调度)在
[_AI 红队与攻防系统化专题·总览](/kb/专题-安全对齐与失败/_ai-红队与攻防系统化专题-总览/);本文件是它的”读法”侧。
§0 一张总图:15 节点与三条路径
flowchart TD
subgraph 概念["01 概念辨析"]
A01[A01 三词分治]
A02[A02 攻击分类学]
A03[A03 直接 vs 间接注入]
A04[A04 Guardrail 能力与谎言]
end
subgraph 演化["02 代际演化"]
G01[G01 军备竞赛谱系]
G02[G02 代际演化详解]
end
subgraph 架构["03 架构剖面"]
S01["S01 纵深防御六层栈 ★"]
S02[S02 训练侧 vs 系统侧]
S03[S03 Agent 权限与最小权限]
end
subgraph 实例["04 实例剖解"]
E01[E01 Chevrolet & Air Canada]
E02[E02 间接注入真实案例]
E03[E03 红队报告反推原则]
end
subgraph 复现["05 复现指南"]
R01[R01 越狱评测·防御视角]
R02[R02 自动化红队流水线]
R03[R03 注入防御 + 权限沙箱]
end
A01 -.求职.-> A04 -.求职.-> E01 -.求职.-> R01
A03 决策> S01 决策> S02 决策> R03
S01 -.承重墙.-> S03 -.承重墙.-> R03
G01 -.紧迫.-> E03 -.紧迫.-> R02
A03 -.实例.-> E02
style A01 fill:#e3f2fd
style A03 fill:#fff3e0
style S01 fill:#ffe8cc
style G01 fill:#fce4ec
✅ 专题计划 15 节点,当前 15 节点全部落盘。原缺的
[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)、[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)两节经 0435 收尾整合轮二次 Bashfind复核,正文已在 staging 落盘、内容完整且带防御导向 banner,已恢复为可点双链并正式纳入下文路径与自测;专题达”15 节点齐备”交付线。✅ phantom 复核(2026-06-11 P3.4 校链更新):全专题去重后活双链已逐一 Bash
find对照主库 04AI/——结论:0 phantom、0 疑似死链;专题内 WITHIN 链全部在本专题内 resolve,MAIN 既有 AI 节点全部主库确证。兄弟专题 0412/0415/0416/0419/0430/0431 现已落盘主库(各有NNNN 总览别名),指向它们的跨专题链已恢复为真NNNN 总览链;唯 0436 整专题仍在 staging(待补完入库),主库零落盘,指向它的链暂作普通文本。自测:合上本节,应能复述”为何 0416/0430/0412 系列现在能作真双链、而 0436 仍须降级”(答:前者整专题已落盘主库、同库 resolve;后者整专题仍在99Archive/_ai_reviewstaging、主库零落盘)。
§1 三条阅读路径(各标时长 · 前置 · 产出)
每条路径标注:预计时长、读前要带的问题(前置)、读完该拿到的可验证产出。三条路径共享 A01 作为元前提——无论走哪条,A01 都建议先读 10 分钟,它是全专题的”挡掉错误框架”地基。
路径一 · 求职速通(面向 Safety / Trust&Safety 求职)
预计时长:约 70–90 分钟(4 节点) 适合谁:要去面 AI Safety / Trust&Safety / 安全 PM 岗,需要在面试桌当场把”怎么保证 AI 产品安全”答出层次的人。 前置(读前带着这个问题进):“如果面试官问我’你们怎么防 AI 客服被攻击’,我现在的答案会不会停在’加内容审核’?“
| 顺序 | 节点 | 读它拿什么 | 时长 |
|---|---|---|---|
| 1 | [A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/) | 把”AI 安全”拆成 safety / security / alignment 三轨,学会一句话分治线。这是面试桌上拉开与其他候选人差距的第一刀。 | ~20 min |
| 2 | [A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/) | 拿到反”安全剧场”的硬数字(绕过率 8%–47%、92% 拦截 + 13.1% 假阳性的代价),学会把”加了护栏所以安全”当场证伪。 | ~20 min |
| 3 | [E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/) | 拿到两个能讲故事的真实事故,把抽象机理钉进具体案例(Chevrolet = prompt injection 驱动的 privilege escalation)。面试讲案例比讲概念更有说服力。 | ~20 min |
| 4 | [R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/) | 拿到”我会做评测”的可信度:拒答率 / 绕过率 / 误拒率三件套,以及”只报 ASR 是自欺”这条判断。Trust&Safety 岗位极看重”能不能度量安全”。 | ~20 min |
路径产出(可验证):合上笔记,面对”你们怎么保证这个 AI 产品安全”这个问题,能给出三段式答案——①先分治(这是 security 还是 safety 问题?)→ ②确定性边界优先于概率性过滤(护栏只抬成本不设边界)→ ③评测≠保证(我会用公开基准跑出带误差棒的数字,而且会报误拒率)。这就是把”了解一下”升级成”面试官记得住的回答”。
求职话术锚点:Rick 的滴滴/99 安全方法论是这条路径的不公平优势——
降发生方法论(海恩法则:先兆层级多道拦截、降发生率而非追零事故)与纵深防御字面同构,面试时可主动把”我在物理世界把对抗治理做成了方法论”迁移成 AI 红队的设计语言。
路径二 · 决策链(架构师 / 选型负责人)
预计时长:约 110–150 分钟(核心 4 节点含 1 旗舰长节点 + 建议插读 E02 实例、S03 权限深读两节) 适合谁:要在选型会 / 架构评审上拍板”防御预算怎么分、训练侧还是系统侧、Agent 权限怎么切”的人。 前置(读前带着这个问题进):“给我 100 块安全预算,我现在能不能说清哪 20 块花在确定性边界、哪 80 块花在概率性补强,还是只会说’都加上’?“
| 顺序 | 节点 | 读它拿什么 | 时长 |
|---|---|---|---|
| 1 | [A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/) | 学会一条架构判断:一旦产品形态是会读外部内容的 Agent,间接注入就不是”可能发生的事故”,而是”架构里写死的入口”。这决定你的产品能不能”在输入端设防”。 | ~20 min |
| 1.5(建议) | [E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/) | 紧接 A03 的概念,拿四个真实生产事故把”间接注入是架构入口”钉进现实——EchoLeak(CVSS 9.3 零点击)证明出站监控是最后防线、Slack AI 证明检索范围必须绑权限、ChatGPT Memory 证明写持久层比读外部更危险、MCP Tool Poisoning 证明注入战场已前移到工具注册阶段。判断主轴:“信任边界一旦外移到 Agent 触及的整个外部世界,没有一个事故能靠’再加一层内容过滤’治好。“ | ~20 min |
| 2 | [S01 纵深防御可替换栈·输入 模型 输出 权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/) ★旗舰最厚 | 拿到六层栈(输入过滤 / 指令-数据分离 / 模型对齐 / 输出过滤 / 权限最小化 / 监控审计)+ 瑞士奶酪层间耦合。核心判断:安全高低不取决于最强那层多强,取决于各层孔洞的相关性。 | ~35 min |
| 3 | [S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/) | 把”训练得更安全 vs 套一圈过滤权限”从单选题纠正成”概率性 × 确定性正交组合”,拿到一棵选型会当场可用的决策树。 | ~25 min |
| 4 | [R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/) | 拿到可落地的四层防御组合(指令-数据分离 + 工具权限白名单 + 执行沙箱 + HITL),每层诚实标注在哪被击穿。结语:“纵深防御不是认输,是唯一诚实的答案。“ | ~25 min |
路径产出(可验证):在选型会上能区分”概率性补强”与”确定性边界”,排出防御预算优先级——确定性承重墙(指令-数据分离 ②、权限最小化 ⑤)先建,再用概率性层(① ③ ④ 过滤/对齐 + ⑥ 监控)补强。能对”我们加了护栏就够了”当场回一句:“护栏是概率性补强,不是承重墙;爆炸半径上限由权限边界决定,不由过滤决定。”
★ 权限层深读(强烈建议插在第 2、3 步之间):
[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)——S01 §2 的 ⑤ 权限层、R03 §2 的白名单实现都以它为概念承重墙。它把”最小权限”拆成四个可操作设计原语(能力清单按任务下发 / 副作用 L0–L4 分级 / 确认门 / 能力降级 fail-closed),并给选型四问(任务级白名单?副作用分级分流?可配置确认门?授权与执行分离防 bootstrap?)。判断主轴一句话:“防不住注入时,权限边界决定损失上限。“读完再看 S01 ⑤ 与 R03 第二、四层会从”知道有这层”升级到”知道这层怎么设计”。
路径三 · 紧迫度(已上线 Agent,要立刻降险)
预计时长:约 60–75 分钟(3 节点) 适合谁:手上已经有一个跑在生产的 LLM / Agent 产品,刚出过险情或被合规追问,要立刻把红队从”一次性体检”升格为”带回归门禁的持续治理”的人。 前置(读前带着这个问题进):“我现在的红队是不是只做了’跑过一次、贴个分数’,没有回归、没有发版门禁?“
| 顺序 | 节点 | 读它拿什么 | 时长 |
|---|---|---|---|
| 1 | [G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/) | 拿到”安全是第一性约束”的结构性论据:攻击面不是攻击者发明的,是产品方为产品力(多轮记忆、API 化、工具调用)亲手扩张的——每加一个工具就加一个注入入口。 | ~20 min |
| 2 | [E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/) | 学会把红队报告倒过来读:从”逐条找到的失败”反推”本该有的第一性设计约束”。判断主轴:红队真正价值不是发现 bug,是把”可能失败”前置成设计约束。 | ~25 min |
| 3 | [R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/) | 拿到把一次性探测工程化的五段流水线(Gen-Run-Judge-Regress-Metric),可上 CI、可阻断发版。判断密度:没有回归与门禁的红队不是 CI,是 demo。 | ~25 min |
路径产出(可验证):能把团队现有的红队从”跑一次贴分数”升级为”每次发版自动跑 + 回归基线 + 发版门禁”,并且读得懂任何一份红队报告里”哪条失败对应哪条缺失的设计约束”,而不是只挑几条 bug 去修。能对老板回一句:“我们不该问’修完这 12 条就能上线吗’,该问’这 12 条失败暴露了我们哪几条架构原则缺位’。”
Rick 资产迁移:
明镜系统(态势感知)对应这条路径缺的”运行时监控层”;R02 的”未遂事件捕捞网”与降发生方法论的隐患前置探测同构——紧迫度路径恰是把物理世界的常态化监测流迁移到 AI 系统。
路径选择速查
| 你是谁 / 你要解决什么 | 走哪条 |
|---|---|
| 要去面 Safety / Trust&Safety / 安全 PM | 路径一 · 求职速通 |
| 要在选型会 / 架构评审拍板防御预算与架构 | 路径二 · 决策链 |
| 已上线 Agent,要立刻降险、制度化红队 | 路径三 · 紧迫度 |
| 想完整建立攻防世界观(时间够) | 顺读 A01→A02→A03→A04→G01→G02→S01→S02→S03→E01→E02→E03→R01→R02→R03(15 节点全程) |
§2 自测题(≥10 题 · 每题给”及格线 / 优秀线 / 反例”)
用法:先合上所有笔记答一遍。能答出”及格线”算读懂;能答出”优秀线”算能用;如果你的答案掉进”反例”,说明这个专题对你白读了——回去重读对应节点。
Q1 · safety / security / alignment 三词怎么分治?(对应 [A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/))
- 及格线:safety 防系统自己作恶(内部、非对抗),security 防外部攻击者(对抗),alignment 防目标偏差。
- 优秀线:三者威胁来源、失败模式、防御工具箱都不同;关键差异是 security 有一部分可做成确定性硬边界(权限/沙箱),而 safety/alignment 本质是概率性的(再多 RLHF 也只降概率不归零)。用”防火 vs 防盗”类比:防火没有敌人,防盗有会适应你防御的敌手。
- 反例(白读了):“这三个词差不多,都是让 AI 更安全。“——把三轴当成同一根轴上的刻度,正是 90% 事故复盘的根因。
Q2 · “我们加了内容过滤,所以注入攻击解决了”——错在哪?(对应 [A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)、[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/))
- 及格线:内容过滤是概率性控制,有假阴性,挡不住所有注入。
- 优秀线:这是”拿门锁去防火 / 拿 safety 工具堵 security 洞”的门类错位——内容过滤学的是”这段话有没有害”,不是”这段话是不是攻击者注入的指令”。硬证据:EchoLeak(CVE-2025-32711, CVSS 9.3)专门绕过了微软自己的 XPIA 注入过滤层,零点击把内部文件外泄;护栏在,攻击照样得手。
- 反例:“那就再加一层更强的过滤器。“——叠同质概率层是瑞士奶酪孔洞对齐,STACK 攻击对组合防御流水线仍达 71% 黑盒成功率。
Q3 · 直接注入和间接注入,机理同源,为什么产品含义天差地别?(对应 [A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/))
- 及格线:直接注入是用户自己键入,能在输入端设防;间接注入藏在工具/检索/邮件/网页内容里,难在输入端拦。
- 优秀线:根因相同(指令-数据不分离),但威胁模型不同——直接注入里攻击者≈受害者(用户自己作死),间接注入里攻击者是数据源污染者、受害者是信任 Agent 的另一个无辜用户,是供应链式攻击。一旦产品会读外部内容,间接注入就是”架构里写死的入口”,不是可选事故。
- 反例:“间接注入很罕见,先不管。“——只要 Agent 读外部世界,攻击面就随工具调用次数线性扩张。
Q4 · 一个 LLM 产品的安全高低,由什么决定?(对应 [S01 纵深防御可替换栈·输入 模型 输出 权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/))
- 及格线:由多层防御叠成的纵深,不是单层强弱。
- 优秀线:不取决于最强那层多强,取决于各层孔洞的相关性(瑞士奶酪模型)。叠两个相似的概率性过滤器几乎无用(孔洞对齐成通孔);确定性层(指令-数据分离 ②、权限最小化 ⑤)与概率性层异质叠加才是真纵深。确定性控制是承重墙,概率性控制是补强。
- 反例:“把最强的那个分类器装上就行。“——这是把六层全押同一种控制类型,没有真正的下限。
Q5 · 训练侧 vs 系统侧防御,该选哪个?(对应 [S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/))
- 及格线:不是单选,两侧要组合。
- 优秀线:这是概率性控制 × 确定性控制的正交组合,不是替代关系。训练侧(对齐/CAI/对抗训练)几乎全是概率性的;系统侧横跨两者——guardrail 是概率性的,沙箱和权限是确定性的。只押一侧(哪怕是”加了 guardrail”)都没有确定性地板。 用 Ashby 必要多样性定律:单一防御的状态多样性 < 攻击空间多样性,结构性必须组合。
- 反例:“我们做了 RLHF 安全微调,模型很乖,所以安全。“——标准 RLHF 移不掉预训练后门,对 security 后门无效。
Q6 · 为什么 LLM 攻防是”军备竞赛”,不是”补丁打完就收敛”?(对应 [G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)、[G02 攻防代际演化详解·从单轮越狱到 Agent 注入](/kb/专题-安全对齐与失败/g02-攻防代际演化详解-从单轮越狱到-agent-注入/))
- 及格线:攻击会迭代变异,防御总滞后。
- 优秀线:根因是架构性的语义不可分性——LLM 在注意力层无法原生区分”可信指令”与”待处理数据”,补丁堵得住具体 payload,堵不住”自然语言既是数据又是指令”的地基。更关键:攻击面是产品方为产品力亲手扩张的(聊天框→API化→自主 Agent 三代产品形态对应三代攻击面),所以安全必须是第一性架构约束,不能后置审核。防御响应还会反过来定义下一代攻击(攻防共演)。
- 反例:“等模型更强 / 等下一代防御出来就好了。“——这是把军备竞赛误读成线性进步史;每代防御都有失效反例。
Q7 · 衡量安全投入 ROI,该用什么标准?(对应 [G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)、红皇后假说)
- 及格线:不能只看”还剩多少漏洞”。
- 优秀线:用红皇后赛跑框架——投入只买”不掉队”不买”领先”。ROI 该用”攻击成本提升几倍 + 爆炸半径缩小多少”来算,而不是”漏洞清零率”。因为概率性防御的 0% ASR 是时间快照不是稳态。
- 反例:“我们这季度把已知漏洞清零了,所以安全达标。“——把动态军备竞赛用静态基准发了安全证书。
Q8 · 一份红队报告,PM 该怎么读?(对应 [E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/))
- 及格线:不是只挑 bug 去修,要看出系统性问题。
- 优秀线:红队真正价值不是发现 bug,是把”可能失败”前置成设计约束。正确动作是把每条”发现”翻译成”缺失的设计约束”——一条”客服 Agent 被诱导报价”不该读成”修这个 prompt”,而该读成”我缺一条’高后果动作不可达 LLM’的架构原则”,于是下一百种诱导报价一起失效。这与
降发生方法论同构(前置约束压发生率,而非事后救火)。 - 反例:“修完报告里这 12 条就能上线了。“——逐条修补永远落后攻击演化一拍;把战略信号读成战术工单。
Q9 · 给 bot 跑安全评测,只报 ASR / 绕过率够吗?(对应 [R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)、[c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/))
- 及格线:还要看误拒率(假阳性)。
- 优秀线:要同时报拒答率 / 绕过率 / 误拒率三件套——只报 ASR 是评测里最常见的自欺,因为调高灵敏度能压绕过率,代价是误拒率飙升(A04 的平台 3:92% 拦截 = 13.1% 假阳性)。而且 ASR 是代理指标,真实残余风险才是目标(Goodhart:安全指标造假的后果是真实伤害,不只是排行榜失真)。评测是”必要不充分的体检”,不是安全保证。
- 反例:“我们 ASR 压到 0% 了,安全。“——基准会被刷满,0% ASR 不反映真实威胁(评测怀疑派立场)。
Q10 · 怎么把红队从”跑一次”变成”持续治理”?(对应 [R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/))
- 及格线:把评测自动化、定期重跑。
- 优秀线:工程化成 Gen-Run-Judge-Regress-Metric 五段流水线,可上 CI、可阻断发版。关键是后两段——回归(改 system prompt / 升基座 / 加 RAG 源都可能悄悄打开旧洞,没有回归基线就只能从线上事故学)和门禁(gating,把红队挂进升级门禁,因为”更强模型反而更易被注入”的 inverse scaling 意味着每次升级都要假设安全姿态变差)。没有回归与门禁的红队不是 CI,是 demo。
- 反例:“我们拿 HarmBench 跑了个分贴在发版说明里。“——把流水线退化成一次性跑分。
Q11 · 怎么把 Agent 注入的爆炸半径压到可接受?(对应 [R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/))
- 及格线:用多层防御组合。
- 优秀线:四层组合——指令-数据分离 + 工具权限白名单 + 执行沙箱 + 人工断点(HITL),并诚实标注每层在哪被击穿;核心不是追求单层完备,是”假设已被攻破(assume breach)“,把攻击成功代价抬高、损害范围收窄。把”报价/转账/外发”这类高后果动作从 LLM 可达动作集物理移除——这是确定性控制,与模型聪明不聪明无关。
- 反例:“找到对的正则/分类器就能挡住注入。“——过滤器是被训练的模型不是形式化验证,有假阴性、对抗盲点、泛化缺口。
Q12 · 为什么”更对齐的模型”反而可能更危险?(对应 [A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)、[E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/))
- 及格线:对齐解决的是 safety/alignment,不解决 security。
- 优秀线:Chevrolet 案里模型”对齐良好、乐于助人”——它忠实执行了被注入的指令,这正是 alignment 与 security 的撕裂处:一个越对齐(越服从)的模型,越容易被注入指令劫持。所以”把模型调得更乖”不是注入的解药,方向上可能是反的。再叠加 inverse scaling(更强模型更易被注入),“升级模型 = 更安全”是危险假设。
- 反例:“我们用最强最对齐的模型,所以最安全。”
Q13 · “最小权限”是不是”权限越少越安全”?怎么把它做成工程而非口号?(对应 [S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/))
- 及格线:不是越少越好,要给任务必需的权限,否则任务完成率崩、用户关防护。
- 优秀线:最小权限是相对当前任务的最小、动态收缩、与模型行为无关的确定性边界——它不”理解”攻击,因此不参与军备竞赛,只回答”即使模型被完全攻陷,物理上能造成的最大损害是多少”。落地为四个设计原语:①能力清单(任务级按需下发、默认拒绝)→ ②副作用分级(给每个动作贴可逆性×后果标签 L0–L4)→ ③确认门(只在 L3/L4 触发、避免确认疲劳)→ ④能力降级(置信度下降时 fail-closed 收权而非放行)。判断主轴:“防不住注入时,权限边界决定损失上限”——损害 = 注入成功率 × 被注入 Agent 的权限上限,检测管前一个因子(有 8%–47% 漏网),权限管后一个因子且确定。
- 反例(白读了):“我们把工具全删了,最安全。“——任务做不成,用户换产品,安全归零;或反面:“先给全权限,事后再收”——权限是乘数,一次漏网就删库/转账,且生产环境收权极难、永远被推迟。
Q14 · 间接注入有哪些真实生产案例?它们的共同根因和防线在哪?(对应 [E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)、[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/))
- 及格线:举得出至少一个真实案例(如 EchoLeak),知道间接注入藏在 Agent 读的外部内容里。
- 优秀线:四案各教一条防线——EchoLeak(CVE-2025-32711, CVSS 9.3)零点击外泄证明内容过滤(XPIA)会被绕、出站监控是最后防线;Slack AI 证明检索范围必须严格绑用户权限;ChatGPT Memory(spAIware)证明写持久层比读外部内容更危险(一次写入、长期外泄);MCP Tool Poisoning(CVE-2025-54136)证明注入战场已前移到工具注册阶段(boot-time),所有运行时分离防御都管不到。共同根因是指令-数据不分离 + 信任边界外移到”Agent 触及的整个外部世界”,所以没有一个能靠”再加一层内容过滤”治好;防线是权限最小化 + 持久层来源验证 + 出站监控 + 工具静态验证的异质纵深。判断锚点:“基准会高估 ASR,但真实 CVE 不会撒谎。”
- 反例:“间接注入是理论风险/实验室里才有。“——EchoLeak 是首个生产级零点击 CVE,四案全是已分配 CVE 或公开披露的真实事故,不是基准产物。
§3 反方对话训练(安全领域 6 追问)
用法:把自己放在被拷问的位置(面试官 / CTO / 安全总监 / 投资人)。每个追问先给反方为什么这么问(它对的部分),再给你的回应(接受 + 边界,不是硬刚)。能顶住这六问,你才真正吃透了”用反对的声音建造”。
追问 1 ·「加个 guardrail / 内容过滤不就行了?」
- 反方对的部分:guardrail 确实有用——它覆盖已知攻击类别、可独立于基座部署、与对齐协同能提升覆盖率。Unit42 同份数据里,对齐+护栏阻断了 109/123 个日常越狱。对低水平攻击,护栏高度有效。
- 你的回应(接受 + 边界):接受护栏是纵深防御里有价值的一层概率性控制;但它不是确定性边界。硬数字:最好的平台仍有 8% 绕过率(最差 47%),且 92% 拦截的代价是 13.1% 假阳性(每 8 个正常请求误拦 1 个)。对一个只需成功一次的高价值攻击者,8% 几乎等于无效。把”绕过率约等于零”当真,就是安全剧场的第一性错误。 护栏抬高攻击成本,确定性控制(权限/沙箱/HITL)才设定不可逾越的边界。详见
[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)。
追问 2 ·「越狱是模型问题,跟产品架构无关吧?模型厂商修就行了。」
- 反方对的部分:单轮越狱(第一代)确实主要在模型侧,安全微调和拒绝训练能压住一大批;模型厂商持续在补。
- 你的回应(接受 + 边界):接受”模型侧越狱”这一代靠训练侧能缓解;但攻击面已经从”用户输入”位移到”Agent 消费的整个外部世界”再到工具协议层(间接注入、MCP Tool Poisoning)。这些是产品方为产品力亲手扩张的攻击面——每加一个工具就加一个注入入口,模型厂商修不了你的权限模型和工具白名单。根因是架构性的指令-数据不可分(ICLR 2025 已证实),不是某个模型的 bug。所以安全是产品架构的第一性约束,不是等模型厂商修。详见
[G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)、[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)。
追问 3 ·「间接注入很罕见吧?真实世界里有几个案例?我们先上线再说。」
- 反方对的部分:相比直接越狱,间接注入的公开生产级案例确实较少被报道,且要求攻击者能污染数据源、被害产品要会读外部内容——门槛看起来高。对一个”全栈自研、数据全自采、不读任何外部内容”的封闭产品,间接注入优先级确实可降(威胁模型决定)。
- 你的回应(接受 + 边界):接受威胁模型决定优先级;但 2025 起生产级案例已经出现且后果严重——EchoLeak(CVE-2025-32711, CVSS 9.3)是首例生产级 LLM 系统的零点击间接注入数据外泄,A03 还铺了 Slack AI、ChatGPT Memory 多个间接注入面。关键判断:只要你的产品是会读邮件/网页/检索文档的 Agent,间接注入就不是”罕见事故”,而是”架构里写死的入口”,攻击面随工具调用次数线性扩张。 “先上线再说”对不可逆/高后果场景 = 拿用户当小白鼠。详见
[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)。
追问 4 ·「红队是不是浪费资源?我们是创业公司,快速上线用真实流量暴露问题更划算。」
- 反方对的部分:接受精益创业派的立场——对低后果、可逆的场景,真实流量确实是最快的反馈,红队对小团队可能是奢侈品;而且红队不能替代线上监测。
- 你的回应(接受 + 边界):边界在”可逆性 × 后果”。对不可逆/高后果失败(转账、法律承诺、数据外泄、声誉事件),用真实流量暴露 = 拿用户当小白鼠,一次事故的代价远超红队成本。更重要的是红队的真正价值不是”找 bug”这种一次性消耗,是把”可能失败”前置成设计约束(降发生),一条发现能让一类攻击一起失效——这是高 ROI 的杠杆而非浪费。而且红队可工程化成自动流水线(R02),边际成本随版本摊薄。详见
[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)、[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)。
追问 5 ·「我们花大价钱做了对抗训练,模型很 robust 了,纵深防御那套是不是过度设计?」
- 反方对的部分:对抗训练/安全微调确实能显著压低已知攻击的成功率(Constitutional Classifiers 把通用越狱从 86% 压到 4.4%),训练侧是 safety/alignment 的主力,值得投。
- 你的回应(接受 + 边界):接受训练侧的价值;但它全是概率性控制——86%→4.4% 是大幅降低不是归零,bug bounty 阶段仍有人实现通用越狱,且对 security(注入/后门)基本无效(标准 RLHF 移不掉预训练后门,CAI 对间接注入无效)。Williams-King/Bengio(arXiv:2501.11183)直接诊断:“当前安全微调=打补丁的军备竞赛而非原则性设计。” 所以护栏和对齐是补丁层,确定性边界(权限/沙箱)才是架构层——纵深防御不是过度设计,是用确定性控制收缩问题空间、再用概率控制调节剩余空间的结构性必然(Ashby 必要多样性)。详见
[S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)、[S01 纵深防御可替换栈·输入 模型 输出 权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)。
追问 6 ·「我们 ASR 压到 0%、红队报告全绿了,是不是可以发安全合格证了?」
- 反方对的部分:接受合规视角——EU AI Act 对系统性风险 GPAI 确实强制要求”进行并记录对抗性测试(红队)“,报告达标是上线许可的一部分;有基线总比没有强。
- 你的回应(接受 + 边界):接受红队是合规必需;但**“分数过线”≠“安全了”。三层边界:① 0% ASR 是时间快照不是稳态**——攻击只会越来越好(Schneier:security is a process not a product),今天的 0% 是给动态军备竞赛发的静态证书;② ASR 是代理指标,真实残余风险是目标(Goodhart:指标越被用于决策越被腐蚀,门禁指标和”指标健康度指标”必须分开 owner);③ 基准会被刷满,STACK 证明对单层测出 0% 的攻击在组合流水线上重新有效(71%)。正确说法是”这是必要不充分的体检”,而不是”安全合格证”。详见
[R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)、[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)、[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)。
[!note] 反方训练的元方法 注意这六问的回应模板全是”接受它对的部分 + 标注你坚持的边界”,不是反驳。这是宪章 §7「用反对的声音建造,而不是用赞同的声音装饰」的落地——面试桌和选型会上,能说出”对方哪里对、我的边界在哪”,比单方面输出结论更显判断力。
§4 读完之后:三个可继续追问的开放问题
读完全专题,下面三个问题没有定论,是这个领域最前沿的赌注(详见总览 §9):
- Multi-Agent 横向传播何时出首批真实 CVE? G02 赌 2026–2027 出现首批 Multi-Agent 跨信任边界 CVE——这是本专题最大的前瞻性赌注,可持续追踪验证/证伪。
- 表征级指令-数据分离(如 ASIDE 类)能否真正终结攻防共演? 这是”补丁 vs 架构”之争的实证关口——硬核始终是”LLM 无法区分指令与数据”,能终结共演的不是更聪明的过滤器,而是表征层分清”数据 vs 命令”。但大规模可部署性尚未验证。
- Rick 降发生方法论的”上报率元指标”如何映射到红队门禁的”指标健康度”? R02 §6 已点出同构,可深挖成一篇独立的方法论迁移笔记——把物理世界的对抗治理资产正式迁移成 AI 红队的设计语言。
§5 关联节点(双链密度 ≥20,全部真实名)
专题内已落盘 15 节点(齐备)
[A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)[A02 攻击分类学·注入 越狱 投毒 抽取](/kb/专题-安全对齐与失败/a02-攻击分类学-注入-越狱-投毒-抽取/)[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)[G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)[G02 攻防代际演化详解·从单轮越狱到 Agent 注入](/kb/专题-安全对齐与失败/g02-攻防代际演化详解-从单轮越狱到-agent-注入/)[S01 纵深防御可替换栈·输入 模型 输出 权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)(★旗舰)[S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)[E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/)[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)[R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)[R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/)
总览(MOC)
[_AI 红队与攻防系统化专题·总览](/kb/专题-安全对齐与失败/_ai-红队与攻防系统化专题-总览/)
升级对照的既有 AI 节点(真实全名,已核实存在)
[m207 - Agent 产品化:场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/)[Constitutional AI](/kb/基础知识库/constitutional-ai/)[c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/)[c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/)[RLHF](/kb/基础知识库/rlhf/)
跨专题
[_Agent 系统化专题·总览](/kb/专题-安全对齐与失败/_agent-系统化专题-总览/)(0411 Agent 系统化专题,已核实存在)失败考古专题的 Air Canada/Chevrolet 边界与法律失败节点(E01 镜像源;2026-06-11 校验已落盘主库,恢复真链)
Rick 滴滴安全方法论(求职独特资产,已核实存在)
降发生方法论明镜系统安全感知与干预
总图入口
[AI PM 知识图谱·总索引](/kb/ai-pm-知识图谱/ai-pm-知识图谱-总索引/)
跨专题链状态(2026-06-11 P3.4 校链复核):0412 评测系统化专题、0415 后训练即产品专题(红队作为产品实践)、0416 失败考古专题、0419 对齐哲学专题(间接注入防御架构)、0430 AI 作为制度现象专题(安全规范制定)、0431 AI 认识论中介专题(verification)现均已落盘主库,对应跨专题引用已回填为真
NNNN 总览链。仅 0436 Agent 权限边界仍在 staging(待补完入库),指向它的链暂作普通文本,已登记_待建概念清单.md,绝不在主库建 stub。(S03/E02 已落盘,前轮已恢复为真双链。)
§6 修订日志
- R0(2026-06-07)综合 README 首稿:综合 Agent 基于宪章 §4/§5/§12 + 已落盘 13 节点正文写就。六节齐备——§0 总图(Mermaid,13 节点 × 三路径)/ §1 三条阅读路径各标”时长 + 前置 + 可验证产出”(路径一显式面向 Safety/Trust&Safety 求职,含 Rick 安全方法论求职话术锚点)/ §2 十二道自测题(超 ≥10 题要求,每题给”及格线 / 优秀线 / 反例”三档,并标注对应节点双链)/ §3 安全领域六追问反方对话训练(含命题要求的”加个 guardrail 不就行了""越狱是模型问题跟产品无关吧""间接注入很罕见吧""红队是不是浪费资源”四问 + 对抗训练误读、ASR 合格证误读两问,全部用”接受+边界”模板)/ §4 三个开放追问 / §5 双链 ≥30 真实名 / §6 本日志。
- 诚实标注:⚠️ S03、E02 两节点尚未落盘,README 中凡指向处一律降级为普通文本并标”〔待落盘/尚未落盘〕“,不作可点双链;待建/待核实链已登记
_待建概念清单.md,绝不在主库建 stub。所有专题内双链 basename 经 staging 目录文件名逐一核对一致(A01–A04 / G01–G02 / S01–S02 / E01·E03 / R01–R03 共 13 个),既有 AI 节点(m207/CAI/c13/c14/RLHF/降发生方法论/明镜系统/安全感知与干预/0411 总览·S01 Agent 六层架构剖面·S03 Harness Engineering 全景/范式/0117社会学/Anthropic/AI PM 知识图谱·总索引)经 0435 终审 QC 逐一 Bashfind复核均在主库 04AI/(非 staging)确证存在;原稿误把”0416 E02 镜像源”列入”已核实存在”清单——经核验该节点及整个 0416 失败考古专题仍在 staging、主库不存在,已剔除并降级普通文本。 - 防御导向合规:全文为防御方视角,所有”绕过率/ASR/CVSS”数字均引自公开基准与漏洞披露(Unit42 8%–47%、EchoLeak CVSS 9.3、Constitutional Classifiers 86%→4.4%、AgentDojo 57.7%→6.8%、STACK 71%/33%、109/123),用于论证防御能力边界,未提供任何可照搬实施的 payload、越狱串或绕过步骤。
- 0435 终审 QC 轮(2026-06-07 · 历史留痕):(1) 该轮初查时 S03/E02 在 staging 尚不存在,遂维持 13 节点、未伪建 stub;(2) phantom 终审:全专题活双链逐一
find主库核对,0 phantom / 0 疑似死链,剔除原稿”0416 E02 已核实存在”的误述并降级;(3) R03 §11 旧命名内链(S01 注入机理剖面/S03 Agent 攻击面剖面)前轮已校正为真实标题、复检无残留。 - 0435 收尾整合轮(2026-06-07,Opus 级 · 本轮):(1) S03/E02 已落盘、正式纳入路径与自测——Bash
find二次实证两节点正文在 staging 存在、内容完整。据此把 README 全面更新为 15 节点版:§0 标题/Mermaid(加 S03、E02 两节点及”承重墙""实例”两条边)/落盘状态从〔待落盘〕改为✅齐备并恢复可点双链;§1 路径二加入 S03 权限深读与 E02 实例插读(时长上调至 110–150 分钟)、路径选择速查全程序列补入 S03/E02;§2 新增 Q13(S03 最小权限四原语)、Q14(E02 间接注入四案防线)两道自测;§5 双链清单恢复 S03/E02 真链、关闭其降级、降级清单仅留仍在 staging 的兄弟专题。(2) phantom 复核重做:全专题去重 34 个活双链逐一find实证——WITHIN 14(含 S03/E02)/ MAIN 20 / phantom 0 / 疑似死链 0;指向兄弟专题(0412/0415/0416/0419/0430/0431/0436)的链经核仍 staging-only,全部维持降级普通文本,无一谎称已核实。(3) phantom 修正数 = 0(唯一误述上一轮已剔除)。(4) 安全复核维持通过(S03/E02 均带防御导向 banner、无可武器化内容)。全程仅在 staging 操作,未触碰主库、未建 stub。 - 2026-06-11 P3.4 校链:跨专题 staging 降级复核——兄弟专题 0412/0415/0416/0419/0430/0431 经主库
find实证现已全部落盘(各有NNNN 总览别名),原”仍在 staging / 降级普通文本”注解删除,§5 双链清单及全文指向它们的跨专题引用恢复为真可读名链。唯 0436 仍只在99Archive/_ai_reviewstaging、主库零落盘,其引用保留普通文本、注解更新为”0436 待补完入库”。“已核实存在”声明全部实证为真(m207/CAI/c13/c14/RLHF/0411 总览/降发生方法论/明镜系统/安全感知与干预/AI PM 知识图谱·总索引 均在主库),无幻影;上轮已剔除的”0416 E02 已核实存在”误述维持不复发。历史 QC 留痕(上列各轮)按 append-only 保留。