_AI 红队与攻防系统化专题·总览
AI 红队与攻防系统化专题 · 总览(MOC)
[!warning] 防御导向声明(贯穿全专题) 本专题是防御导向的安全知识库(Rick 安全 PM / Trust&Safety 求职用)。讲攻击机理,是为了设计产品防御、权限边界与检测;不产出可直接武器化的 exploit 代码、越狱 payload 或具体绕过串。复现(R)节点一律用公开基准(HarmBench / AdvBench / AgentDojo 引用)与防御方视角(检测 / 评测 / 缓解),不提供可照搬实施攻击的操作步骤。
§0 序:那堵墙
Rick 第一次在选型会上被这句话噎住——“我们加了个内容过滤,所以注入攻击不用担心了。” 听起来天经地义:有害的话拦掉,安全不就有了?但只要产品形态从”聊天框”变成”会读邮件、抓网页、调工具的 Agent”,这句话就会在某个深夜以一封零点击邮件的形式爆炸:M365 Copilot 的 EchoLeak(CVE-2025-32711,CVSS 9.3)专门绕过了微软自己的 XPIA 注入过滤层,过滤器在,攻击照样把内部文件外泄。
这堵墙的名字叫”安全是第一性设计约束,不是后置审核”。攻击面不是攻击者发明的,是产品方为了产品力(多轮记忆、API 化、工具调用)亲手扩张的——每加一个工具,就加一个注入入口。本专题的反共识立场只有一句:概率性控制(过滤、对齐)只能抬高攻击成本,确定性控制(权限、沙箱、HITL)才能设定不可逾越的边界;把过滤当边界,是一切 LLM 安全事故复盘里最常见的那行根因。
读完本专题,你能在面试桌 / 选型会 / 复现台上,30 秒说清三件事:为什么”加个过滤就安全”是系统性滑变;为什么注入是架构问题不是内容问题;以及一套防御该怎么按”概率层 + 确定性承重墙 + 监控兜底”组装。
§1 专题定位:为什么 0435 配独立建库
用宪章 §2 的四条选题判据逐一论证(满足前 3 条全部,且第 4 条为真):
| 判据 | 0435 的论证 |
|---|---|
| ① 中心性(影响 ≥3 个 PM 决策链节点) | 直击 M1 模型选型(更强模型反而更易被注入,inverse scaling)、M2 架构设计(权限边界=爆炸半径上限)、M4 上线门禁(红队作为合规义务)、M5 风险治理(纵深防御预算分配)——四个决策链全覆盖。 |
| ② 误解深度(定义互相矛盾) | “AI 安全”在内容审核团队、信息安全团队、对齐研究者口中是三个不可通约的语言游戏(safety / security / alignment),招聘 JD 与白皮书把它们一锅端,标准差极大。这是 A01 整节要拆的滑变。 |
| ③ 速变性(24 个月内格式塔切换) | 攻击面在 2024–2026 发生质变:从”用户输入”(直接注入)位移到”Agent 消费的整个外部世界”(间接注入),再到工具协议层(MCP Tool Poisoning, CVE-2025-54136)。这是不可通约的范式位移,不是量变。 |
| ④ 学了就能用 | 读完即获得可观测的判断力跃迁:被问”怎么防 AI 客服被攻击”,从”加内容审核”升级到”把高后果动作从 LLM 可达动作集物理移除 + 出站监控”。求职面试桌当场可验证。 |
升高了哪个抽象层:单维节点([c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/)、[m207 - Agent 产品化:场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/)、[Constitutional AI](/kb/基础知识库/constitutional-ai/))各自讲”一个失败/一种防御”;本专题升高一层,把它们重组进**“威胁来源 × 失败模式 × 防御工具箱”的对抗治理坐标系**——攻防不是 m207”安全越界”那一格失败模式,而是塑造整个 Agent 架构的设计约束。
Rick 的独特资产:滴滴/99 安全产品方法论是本专题的不公平优势。降发生方法论(海恩法则:在先兆层级建多道拦截、降低发生概率而非追求零事故)与纵深防御字面同构;明镜系统(态势感知)对应注入防御缺的”运行时监控”层;安全感知与干预(分级干预)对应 Agent 的 HITL 分级断点。Rick 在物理世界把”对抗治理”做成了方法论,这套资产可直接迁移成 AI 红队的设计语言——这是纯技术红队不具备的。
§2 模块全景(Mermaid 矩阵)
flowchart TD
subgraph M01["01 概念辨析 · 横向「是什么」"]
A01[A01 三词分治<br/>safety/security/alignment]
A02[A02 攻击分类学<br/>注入·越狱·投毒·抽取]
A03[A03 直接 vs 间接注入]
A04[A04 Guardrail 能力与谎言]
end
subgraph M02["02 代际演化 · 纵向「从哪来」"]
G01[G01 军备竞赛谱系]
G02[G02 代际演化详解]
end
subgraph M03["03 架构剖面 · 解剖「由什么组成」"]
S01["S01 纵深防御六层栈 ★旗舰"]
S02[S02 训练侧 vs 系统侧]
S03["S03 Agent 权限与最小权限"]
end
subgraph M04["04 实例剖解 · 病理「怎么走样」"]
E01[E01 Chevrolet & Air Canada]
E02["E02 间接注入真实案例"]
E03[E03 红队报告反推产品原则]
end
subgraph M05["05 复现指南 · 操作「自己怎么动手」"]
R01[R01 越狱评测·防御视角]
R02[R02 自动化红队流水线]
R03[R03 注入防御 + 权限沙箱]
end
M01 -->|概念地基| M03
M03 -->|架构落到现实| M04
M04 -->|失败反推操作| M05
M02 -.横切·提供时间维度.-> M01 & M03 & M04 & M05
M05 -.验收手段反向验证.-> M03
style S01 fill:#ffe8cc
矩阵读法:依赖链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南;代际演化(02)横切全栈,提供”攻防为何不收敛”的时间维度;复现指南(05)反向作为架构(03)的验收手段——S01/S02/S03 给防御栈,R01/R02/R03 给”如何证明这层防御真的有效”。✅ S03、E02 两节点已落盘并正式纳入(2026-06-07 终审整合 QC 经 Bash find 二次实证 [S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)、[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/) 正文均在 staging 存在、内容完整且带防御导向 banner,已恢复为真实双链、矩阵中作正式节点)——15 节点齐备:S03 补齐 03 架构剖面的权限承重墙(“防不住注入时权限边界决定损失上限”),E02 补齐 04 实例剖解的间接注入单案深剖(EchoLeak/Slack AI/ChatGPT Memory/MCP Tool Poisoning 四案)。
§3 六模块逐一介绍(15 节点 · 收录什么 / 解决什么 / 何时读)
01 概念辨析(A 系列 · 横向)—— 挡掉脑中的默认错误框架
[A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)| 用”威胁来源 × 失败模式 × 防御工具箱”三轴,把被一锅端译成”安全/对齐”的三个词切成正交三块。核心判断:90% 的事故复盘错在”用错门类的防御去堵另一门类的洞”。何时读:所有人的第一篇,是全专题的元前提。[A02 攻击分类学·注入 越狱 投毒 抽取](/kb/专题-安全对齐与失败/a02-攻击分类学-注入-越狱-投毒-抽取/)| 用”攻击面 × 生命周期阶段 × 防御层”分类四大攻击,证明”一个通用过滤器挡不住任何一类的全部变体”。投毒发生在训练阶段,推理入口的过滤器物理上看不到它。何时读:建威胁模型前。[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)| 同根因(指令-数据不分离)、不对称产品含义:直接注入可在输入端设防,间接注入一旦产品会读外部内容就是”架构里写死的入口”。何时读:做 Agent 产品架构决策时。[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)| 护栏是纵深防御里的一层概率性控制,不是确定性边界;把”绕过率约等于零”当真是”安全剧场”的第一性错误(Unit42 实测绕过率 8%–47%)。何时读:被供应商”全面安全”话术包围时。
02 代际演化(G 系列 · 纵向横切)—— 攻击面随产品能力同步扩张
[G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)| 三代谱系总图(单轮越狱 → 自动化越狱 → Agent 工具链注入)+ 攻击面扩张律:分界线由产品能力边界划定,不由攻击技术划定。何时读:要给”安全是第一性约束”找结构性论据时。[G02 攻防代际演化详解·从单轮越狱到 Agent 注入](/kb/专题-安全对齐与失败/g02-攻防代际演化详解-从单轮越狱到-agent-注入/)| G01 的纵向展开,逐代追问”代表攻击类 / 防御响应 / 瓶颈 / 被下代超越”,每代配防御失效反例,破”一代更比一代强”的线性进步史。何时读:想理解某代防御为何注定被超越时。
03 架构剖面(S 系列 · 解剖)—— 防御栈怎么组装
[S01 纵深防御可替换栈·输入 模型 输出 权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)| ★旗舰最厚。六层栈(输入过滤 / 指令-数据分离 / 模型对齐 / 输出过滤 / 权限最小化 / 监控审计)+ 三个层间致命耦合(瑞士奶酪孔洞对齐)。判断主轴:安全高低不取决于最强那层多强,取决于各层孔洞的相关性。何时读:设计防御预算优先级时。[S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)| 把”该不该训练得更安全 vs 该不该套一圈过滤权限”从单选题,纠正成”概率性 × 确定性”正交组合;给一棵选型会可当场用的决策树。何时读:在”训练侧 vs 系统侧”预算之间纠结时。[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)| Agent 攻击的最后一道防线:注入已成功之后,权限边界决定损失上限。框架 = 最小权限原则 + 副作用分级 + 确认门 + 能力降级;判断主轴”防不住注入时,权限边界决定损失上限”。何时读:S01 ⑤ 权限层、R03 §2 白名单实现要找概念承重墙时。
04 实例剖解(E 系列 · 病理)—— 真实事故怎么走样
[E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/)| 从 security 攻防视角重读两案:Chevrolet $1 报价 = prompt injection 驱动的 privilege escalation;Air Canada = improper output handling。两案共享同一条缺失防线(高后果输出无权限阀门)。与 失败考古专题 的 Air Canada/Chevrolet 边界与法律失败节点(镜像源)做视角升级,不复述其事实。何时读:要把抽象机理钉进真实事故时。[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)| 把 EchoLeak / Slack AI / ChatGPT Memory / MCPoison 等已公开披露的间接注入事故做单案深剖(防御视角,不复刻攻击)。判断主轴:Agent 一旦读外部内容,信任边界就从”用户输入框”外移到”它触及的整个外部世界”,这些事故没有一个能靠”再加一层内容过滤”治好。何时读:A03 铺完间接注入三案后,要把机理钉进真实事故时。[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)| 把红队报告倒过来读——从”逐条找到的失败”反推”本该有的第一性设计约束”,按 L1 架构 / L2 通道 / L3 概率三层聚合。判断主轴:红队真正价值不是发现 bug,是把”可能失败”前置成设计约束。何时读:拿到一份红队/安全评测报告时。
05 复现指南(R 系列 · 操作 · 全防御方视角)
[R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)| 用公开基准(HarmBench/AdvBench 引用)对一个 bot 跑可复现、可对比的安全评测,度量拒答率 / 绕过率 / 误拒率——只报 ASR 是评测里最常见的自欺。何时读:要回答老板”它安全吗”时。[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)| 把一次性探测工程化成 Gen-Run-Judge-Regress-Metric 五段流水线,可上 CI、可阻断发版。判断密度:90% 团队只做前三段、跳过回归与门禁,“没有回归与门禁的红队不是 CI,是 demo”。何时读:要把红队制度化时。[R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/)| 可落地的四层防御组合(指令-数据分离 + 工具权限白名单 + 执行沙箱 + HITL)+ 设计模板,诚实标注每层在哪被击穿。结语:“纵深防御不是认输,是唯一诚实的答案。“何时读:动手实现 Agent 防御时。
§4 与现有节点关系:升级对照表
本专题不复述既有节点的事实基础,只做坐标定位与升级。每条标注升级类型(补缺 / 纠偏 / 对话 / 深化)。
| 旧节点(真实全名) | 本专题哪些节点升级它 | 升级类型与内容 |
|---|---|---|
[m207 - Agent 产品化:场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/) | A01·A02·A03·G01·G02·S01·S02·E01·E03·R01·R02·R03(全专题最密对照) | 纠偏 + 深化:m207 的”安全越界 / 雪崩效应”失败模式被重新定位为对抗性攻击的产物而非随机故障;m207 的 HITL 是防”Agent 自己犯错”,本专题的 HITL 是防”Agent 被外部内容操纵”——攻防是其机理层。共享”HITL 断点三维判断(可逆性 × 后果 × 置信度)“但威胁模型不同。 |
[Constitutional AI](/kb/基础知识库/constitutional-ai/) | A01·A04·G01·G02·S01·S02·R02 | 纠偏 + 对话:把 CAI 从”安全的终极解”重新定位到军备竞赛谱系里的具体一代(G1 概率性防御);CAI 的”过度拒绝”争议=对齐税;Constitutional Classifiers 86%→4.4% 仍非 100%、对 G3 间接注入(security)基本无效——印证”对齐 ≠ security”。 |
[c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/) | A01·R01·R02·E03 | 深化:把 Goodhart 从”模型能力评测”扩展到”模型安全评测”——后者更危险,因为安全指标造假的后果是真实伤害不只是排行榜失真。“ASR 是代理,真实残余风险是目标”。 |
[c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/) | A04·G01·G02·S01·S02·R03 | 同构对照:幻觉不可消除 ↔ 注入/护栏不可完备,是同一条认识论命题(概率性系统无法给出确定性保证)在”生成”与”判别/安全”侧的投影。 |
[RLHF](/kb/基础知识库/rlhf/) | A01·G01·G02·S01·S02 | 定位:RLHF 是 safety/alignment 主力训练手段,但对 security 后门无效(标准 RLHF 移不掉预训练后门)。 |
| 失败考古专题 的 Air Canada/Chevrolet 边界与法律失败节点 | E01(镜像源) | 视角升级:0416 站失败病理学(哪层失败、谁负责),本专题站 security 攻防(是哪类攻击、防御建在哪层);0416 把攻防当失败的机理层,本专题把它升格为塑造架构的设计约束。 |
0411 Agent 系统化专题 [_Agent 系统化专题·总览](/kb/专题-安全对齐与失败/_agent-系统化专题-总览/)(含 [S01 Agent 六层架构剖面](/kb/专题-安全对齐与失败/s01-agent-六层架构剖面/)、[Function Calling](/kb/基础知识库/function-calling/)、[Agent](/kb/基础知识库/agent/)) | A02·G01·S01·E01·E03·R03 | 纠偏 + 深化:0411 讲”工具调用即能力”,本专题讲”每个工具返回都是注入入口”——能力面与攻击面是同一枚硬币。0411 的能力六层 ⊥ 本专题的防御六层(正交)。 |
§5 三条阅读起点(详表见 README)
- 求职速通路径(面试桌当场可验证):
A01 三词分治→A04 Guardrail 能力与谎言→E01 Chevrolet & Air Canada→R01 越狱评测·防御视角。读完能把”怎么保证 AI 产品安全”从”加内容审核”答成”分治三轨 + 确定性边界 + 评测≠保证”。 - 决策链路径(架构师/选型):
A03 直接 vs 间接注入→S01 纵深防御六层栈 ★→S02 训练侧 vs 系统侧→R03 注入防御 + 权限沙箱。读完能在选型会区分概率性补强与确定性边界,排出预算优先级 ⑤②>①③④。 - 紧迫度路径(已上线 Agent、要立刻降险):
G01 军备竞赛谱系→E03 红队报告反推原则→R02 自动化红队流水线。读完能把红队从一次性体检升格为带回归门禁的持续治理。
§6 跨域思想资源调度(不留空 invocation)
| 跨域资源 | 调度位置 | 在该节点具体改变了什么技术判断 |
|---|---|---|
维特根斯坦 · 语言游戏(0117社会学 入口) | A01 §6 | ”安全”在三个团队口中是三个不可通约的语言游戏,表面共识掩盖底层不可通约——PM 跨团队评审第一动作应是逼问”你说的’安全’是哪个语言游戏”。把术语分治从洁癖升格为防御第一道防线。 |
| 福柯 · 分类即权力 | A02 §8 | 把攻击切成四格不是中立分类,它决定组织内谁负责防御;落在分类缝隙里的攻击(越狱/注入交叉)会无人认领。安全分类学的第一性约束是”接缝有人守”而非”分得全”。 |
| B.C. Smith · 判断 vs 计算(Rick 未读对手框架) | A03 §6 | 注入可能因为 LLM 做的是机械 reckoning 而非有承诺的 judgment——它计算下一个 token,但不判断”这是指令还是数据”。把”为什么过滤治标不治本”提升到认识论层,论证 ASIDE 类表征级分离的动机。 |
| Williams-King/Bengio · 安全微调即军备竞赛(Rick 未读,arXiv:2501.11183) | A04·G01·G02·S01·S02·R01·R02 | 当前安全微调=打补丁的军备竞赛而非原则性设计。逼问本专题盲点”纵深防御会不会也只是叠补丁”,据此修正立场:护栏是补丁层,确定性边界(权限/沙箱)才是架构层。 |
| 红皇后假说(演化生物学,Van Valen 1973) | G01 §8 | 防御投入更像红皇后赛跑——投入只买”不掉队”不买”领先”。改变 ROI 衡量法:安全投入不能用”还剩多少漏洞”算,要用”攻击成本提升几倍 + 爆炸半径缩小多少”算。 |
库恩范式 vs 拉卡托斯研究纲领(范式,拉卡托斯=Rick 未读对手框架) | G02 §8 | 攻防是库恩式范式革命还是拉卡托斯式同一纲领?硬核始终是”LLM 无法区分指令与数据”,保护带(手法)在变。判断:真正能终结共演的不是更聪明的过滤器,而是表征层分清”数据 vs 命令”。 |
| James Reason · 瑞士奶酪模型 | S01 §2 | 安全高低不取决于最强层多强,取决于各层孔洞的相关性。论证”叠两个相似过滤器几乎无用,确定性层+概率层异质叠加才是真纵深”;三个层间耦合全是设计端潜在失效,必须前置排查。 |
| Ashby · 必要多样性定律(控制论) | S02 §7 | 任何单一防御的状态多样性 < 攻击空间多样性,结构性无法完全调节。把”两侧必须组合”从经验建议升级为结构性必然:用确定性控制收缩问题空间,再用概率控制调节剩余空间。 |
| Lessig · Code is Law(Rick 未读对手框架) | E01 §5 | 架构(代码)本身就是规制力量,比事后合规更早更硬地决定”什么可能发生”。逼问:设 security 边界的人是否意识到他写的不是配置、是规制?把边界设定权交给没立法意识的人=把立法权下放。 |
| Rasmussen · 边界迁移 | E01·E03 | 系统在成本/效率压力下向危险边界漂移。红队的工作定义:不是”找一个 bug”,是”测量系统漂移到离危险边界还有多远”。 |
| Taleb · 反脆弱(Rick 未读对手框架) | E03 §5 | 多数团队把红队当强韧性测试,真正价值是把产品做成反脆弱——每次红队发现都让设计原则库变更强。与降发生有张力也有互补(消除风险源 vs 从风险中获益)。 |
| Campbell 定律 / Goodhart(社会学/经济学) | R01·R02 | 量化指标越被用于决策越被腐蚀。门禁指标(ASR)与”指标健康度指标”(用例覆盖/judge 判准率/基线新鲜度)必须分开 owner、分开汇报,让博弈门禁的成本可见。 |
| Schneier · security is a process not a product(Rick 未读对手框架) | R03 §7 | ”攻击只会越来越好”给纵深防御泼冷水:今天的 0% ASR 是时间快照不是稳态。逼问”我们是否在用静态基准给动态军备竞赛发安全证书”。 |
Rick 滴滴安全方法论(降发生方法论·明镜系统·安全感知与干预,本专题不公平优势) | A01·A03·A04·G01·S01·E01·E03·R01·R02·R03(全专题) | 降发生(海恩法则,先兆层级多道拦截、降发生率而非追零事故)= 纵深防御字面同构;明镜系统(态势感知)= 注入防御缺的运行时监控层;安全感知与干预(分级干预)= Agent HITL 分级断点。物理世界的对抗治理方法论可直接迁移成 AI 红队设计语言。 |
§7 验收档案
多轮批判性同行评议流程(照搬 0411 工程化流程)
Round 0 并行起草:各写作 Agent 按宪章 §4 骨架产出节点首稿
Round N 批评:批评 Agent 按 S/A/B/C/D/E 六维 + 事实接地逐节点打分提 issue
Round N+1 修订:写作 Agent 按 issue 修订,每节追加修订日志
… 迭代至收敛 + 独立 grounding 校验 pass(逐条抽取事实声明判定接地/需接地/疑似编造)
终轮 综合:本总览 + README + 跨节点双链编织 + SABCD 自评 + 三清单
✅ 落盘状态(15 节点齐备)
本专题计划 15 节点,当前 staging 15 节点全部落盘,含原缺的 2 节已补齐:
| 节点 | 模块 | 状态 | 补齐后的承重作用 |
|---|---|---|---|
[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/) | 03 架构剖面 | ✅ 已落盘 | S01 §2 耦合 A 的”⑤ 权限层”、R03 §2 的白名单实现都以 S03 为概念落点;S03 是 03 模块的承重墙——四设计原语(能力清单/副作用分级/确认门/能力降级)+ Saltzer & Schroeder 最小权限血脉,补齐后架构剖面完整。 |
[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/) | 04 实例剖解 | ✅ 已落盘 | A03 §3 铺的 EchoLeak/Slack AI/ChatGPT Memory 三案在 E02 做单案深剖、并补入 MCP Tool Poisoning(boot-time);04 模块由 E01(边界失效)+ E02(间接注入实例)+ E03(报告反推)三翼齐备。 |
结论:专题已达到”15 节点齐备”的最终交付线。 S03/E02 经 Bash find 二次实证正文在 staging 存在、内容完整(各含防御导向 banner、修订日志、grounding pass),§2 矩阵、§3 介绍、§8 双链清单均已恢复为正式双链。
[!note] 0435 终审整合 QC 实况确认(2026-06-07,Opus 级) 上游编排说明称”S03/E02 已补全落盘”。本轮以 Bash
find二次实证:03 架构剖面/S03 Agent 权限边界与最小权限设计.md、04 实例剖解/E02 间接注入真实案例复盘.md均在 staging 存在、正文完整。据此把两节从〔尚未落盘〕正式纳入,恢复为真实双链(§2/§3/§8),节点数上调为 15 已落盘 / 15 规划。phantom 复核(见下)证实恢复后无新增死链。
SABCD 六维自评(综合分以”15 节点齐备”为基准)
| 维度 | 含义 | 出版线 | 本专题自评 | 依据与扣分点 |
|---|---|---|---|---|
| S 结构 | 六模块互补、依赖清晰、入口可导航 | ≥8 | 8.5 | 六模块骨架完整、依赖链+横切清晰、三路径入口齐;S03/E02 落盘后 03 架构剖面(S01/S02/S03 三层承重栈)与 04 实例剖解(E01/E02/E03 三翼)结构空洞填实,可达 8.5。 |
| A 判断密度 | 反共识、可证伪、带数字 | ≥8 | 8.3 | 每节有判断主轴四件套 + 硬数字(EchoLeak CVSS 9.3、护栏绕过率 8%–47%、AgentDojo 57.7%→6.8%/Progent 41.2%→2.2%、250 文档后门化、STACK 71%)。 |
| B 边界含量 | 显式标注判断在哪失效/赌注 | ≥7.5 | 8.0 | 每节有 failure scenario + “我赌的是”;如 A02 投毒边界(自托管 vs 开放供应链)、S01/S03 三场景失效(攻防工具重叠/Multi-Agent 横向/boot-time + 确认疲劳被武器化 + bootstrap 未斩断)。 |
| C 认识论自觉 | 区分事实/推测/赌注、引用可追溯 | ≥8 | 8.0 | 事实接地纪律严:核心 arXiv/CVE 多经 WebFetch/WebSearch 核实并留痕,未核实项一律标〔待核实〕并降级,死链登记 _待建概念清单.md;2026 系列 arXiv ID 显式标”部分疑似未来日期待复核”。 |
| D 可演进性 | 双链密度、修订日志、改稿档案 | ≥8.5 | 8.5 | 双链密度高、每节有修订日志、grounding pass 留痕;S03/E02 落盘后专题内全部 34 个活双链 100% resolve(phantom 复核 0 死链);R03 §11 旧链名(S01 注入机理剖面/S03 Agent 攻击面剖面)前轮已校正为真实标题、本轮无残留。 |
| E 对手拷问能力 | 对业界反方给具体证据回应 | ≥7 | 8.2 | 每节”接受+边界”接入真实对手立场(Simon Willison、数据投毒位置论文 arXiv:2502.14182、架构派 OpenClaw/ASIDE、Williams-King 军备竞赛论、Schneier”security is a process”),非反驳式装饰。 |
综合自评 ≈ 8.2/10(已过 7.8 出版线;S03/E02 落盘补齐结构与可演进性两维后,由原 13 节点基准的 7.97 上修至 ≈8.2,对手立场 / failure / bias 三维持续超线)。
[!note] 关于”上修至 ≈8.2”的诚实裁定(0435 终审整合 QC) 8.2 的上修前提是两件事同时成立:① R03 链名校正、② S03/E02 落盘补齐。终审复核:①已成立(R03 §11 已用真实标题、phantom 复核 0 死链);②本轮亦已成立(S03/E02 经二次
find实证正文在 staging 存在、内容完整,已恢复真双链)。两前提兼备,S→8.5、D→8.5,综合分据实上修至 ≈8.2。把”链已校净”与”节点已齐备”分开记:两者本轮均已兑现,故非据未兑现前提上修,而是据已兑现事实上修。
[!note] 诚实说明 综合分按”15 节点齐备的内在质量 + 全活双链 resolve”计。按”15 节点齐备”的交付完整度严格判,本专题当前状态为”已达最终交付线”——内容质量与交付完整性均达标。兄弟专题 0412/0415/0416/0419/0430/0431 现已落盘主库,指向它们的跨专题链已回填为真
NNNN 总览链;仅 0436 仍在 staging(待补完入库),指向它的链暂作普通文本。
对手立场接入清单(≥8 处,点名真实人物/机构/论文,可追溯)
- Simon Willison:“prompt injection 目前无可靠解,与其堆防御不如限制 LLM 能力面”(S01 §4)——接受”没银弹”,边界:他的”限制能力面”恰是 ⑤ 权限最小化。
- 数据投毒位置论文 arXiv:2502.14182:“投毒风险被夸大,攻击者进入训练流程门槛高”(A02·G01·G02·R03)——接受闭源自托管场景,边界:开放供应链门槛骤降。
- 架构派(StruQ/ASIDE/Instruction Hierarchy 作者):“根治在架构级指令-数据分离”(S01·S02)——接受 ② 是承重墙,边界:单层独扛使瑞士奶酪退化为单片 + MCP boot-time 盲区。
- Williams-King/Bengio et al. arXiv:2501.11183:“安全微调=打补丁军备竞赛,应从网络安全史学架构级原则”(A04·G01·G02·S01·S02·R01·R02)——全盘采纳诊断,边界:架构级方案尚无大规模可部署方案,PM 不能等。
- Lin/Sun/Shroff arXiv:2506.18932:“safety 与 security 存在级联耦合,应协同研究而非割裂”(A01 §6)——接受会级联(EchoLeak 即 security→safety 级联),边界:耦合不等于可混用,须先分清再研究耦合。
- inverse scaling 质疑派:“更强模型更易被攻击是评测假象(更忠实执行任何指令)“(A03·G01·S01)——接受机理未定论,边界:无论规律还是副作用,升级模型不能假设更安全。
- 评测怀疑派 arXiv:2510.05244(Firewall/Minimize&Sanitize):“现有基准被刷满,0% ASR 不反映真实威胁”(A04·S01·R01·R02·E03·R03)——接受基准饱和,边界:价值在纵向回归与底线兜底,定位为”必要不充分体检”。
- 自动化乐观派 arXiv:2504.19855(Mulla et al.):“红队可全自动化,人工是手工作坊”(E03·R02)——接受自动化覆盖优(69.5% vs 47.6%),边界:人工在直觉创造性攻击 5× 更快,配比而非二选一。
- 法律实务界:“CRT 裁决先例效力有限、Chevrolet 无判决,别夸大”(E01 §5)——接受先例效力,边界:对 security 决策先例不是重点、威胁信号才是。
- 精益创业派:“红队是大公司奢侈品,创业应快速上线用真实流量暴露”(E03 §5)——接受低后果场景,边界:不可逆/高后果失败用真实流量暴露=拿用户当小白鼠。
failure scenario 显式清单(≥5 处)
- A02:投毒部分对”全栈自研、数据全自采”产品优先级可降(威胁模型决定)。
- A04 / S01:若攻击者是国家级持续投入对手,“成本提升器”的概率层近乎无效,安全完全押确定性层。
- S01:核心结论”建好 ②⑤ 即可钳制爆炸半径”在三场景失效——攻防工具完全重叠 / Multi-Agent 同权限横向传播 / MCP boot-time 注入。
- G02:代际”位移”框架在”攻击面不位移、只在同层加深”(纯文本越狱封闭模型长期军备竞赛)时失效,此时”军备竞赛”叙事更贴切。
- R02:流水线对零日新颖攻击天然盲,必须靠人工红队 + 线上监测兜底,绝不能因”CI 绿了”关掉人工探测。
- R03:审批疲劳——高频 Agent 场景全量 HITL 不可行,频繁低风险审批降低人对真高危的警觉(业界共识、无定论)。
confirmation-bias 砍除清单(≥5 处)
- A04:早期反复引”绕过率 8%–47%“证明护栏不可靠(选择性取证);补入反例——同份 Unit42 数据显示对齐+护栏阻断 109/123 个日常越狱。结论收敛为”对低水平攻击高度有效、对高级定向攻击不可靠”。
- G01 / G02:早期把”Guard 模型+对抗训练”当 G2 解药正面案例(bias);补入 SoK 综述 arXiv:2506.10597——普遍性不足,针对特定攻击训练的防御无法覆盖新类型。
- G02:早期以”几百份文档即可后门化”渲染恐慌(bias);补入 arXiv:2502.14182——真实风险取决于威胁模型,不能照搬”低样本量”恐慌到所有场景。
- S01:早期反复引 AgentDojo 工具过滤器 57.7%→6.8% 作”⑤ 最有效”正面案例(bias);补入 arXiv:2510.05244——AgentDojo 自身有系统性测量偏差,所有量化对比带折扣读。
- A02 R0 纠错:原稿把”250 文档近常数后门化”误标 arXiv:2510.05159(实为 Malice in Agentland),已纠正归 arXiv:2510.07192。
- G02 R1-grounding 纠错:同一处误归 arXiv:2510.05159,已改归 2510.07192,具体文档数与参数区间标〔待核实〕。
§8 关联节点(双链密度 ≥20,全部真实名)
本专题内(已落盘 15 · 齐备)
[A01 Safety vs Security vs Alignment 三词分治](/kb/专题-安全对齐与失败/a01-safety-vs-security-vs-alignment-三词分治/)[A02 攻击分类学·注入 越狱 投毒 抽取](/kb/专题-安全对齐与失败/a02-攻击分类学-注入-越狱-投毒-抽取/)[A03 直接注入 vs 间接注入的产品含义](/kb/专题-安全对齐与失败/a03-直接注入-vs-间接注入的产品含义/)[A04 Guardrail 的能力与谎言](/kb/专题-安全对齐与失败/a04-guardrail-的能力与谎言/)[G01 对抗攻防军备竞赛谱系](/kb/专题-安全对齐与失败/g01-对抗攻防军备竞赛谱系/)[G02 攻防代际演化详解·从单轮越狱到 Agent 注入](/kb/专题-安全对齐与失败/g02-攻防代际演化详解-从单轮越狱到-agent-注入/)[S01 纵深防御可替换栈·输入 模型 输出 权限](/kb/专题-安全对齐与失败/s01-纵深防御可替换栈-输入-模型-输出-权限/)(★旗舰)[S02 训练侧 vs 系统侧防御对照](/kb/专题-安全对齐与失败/s02-训练侧-vs-系统侧防御对照/)[S03 Agent 权限边界与最小权限设计](/kb/专题-安全对齐与失败/s03-agent-权限边界与最小权限设计/)[E01 Chevrolet 与 Air Canada·边界失效剖解](/kb/专题-安全对齐与失败/e01-chevrolet-与-air-canada-边界失效剖解/)[E02 间接注入真实案例复盘](/kb/专题-安全对齐与失败/e02-间接注入真实案例复盘/)[E03 红队报告反推产品原则](/kb/专题-安全对齐与失败/e03-红队报告反推产品原则/)[R01 给 Bot 跑一轮越狱评测(防御视角)](/kb/专题-安全对齐与失败/r01-给-bot-跑一轮越狱评测-防御视角/)[R02 自动化红队流水线](/kb/专题-安全对齐与失败/r02-自动化红队流水线/)[R03 注入防御 + 权限沙箱](/kb/专题-安全对齐与失败/r03-注入防御-+-权限沙箱/)
升级对照的既有 AI 节点(真实全名,0435 终审 QC 逐一 Bash find 确证在主库 04AI/,非 staging)
[m207 - Agent 产品化:场景推演与失败模式](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/)[Constitutional AI](/kb/基础知识库/constitutional-ai/)[c14 - 模型评估体系与 Goodhart 陷阱](/kb/基础知识库/c14-模型评估体系与-goodhart-陷阱/)[c13 - 幻觉的不可消除性](/kb/基础知识库/c13-幻觉的不可消除性/)[RLHF](/kb/基础知识库/rlhf/)[Function Calling](/kb/基础知识库/function-calling/)[Agent](/kb/基础知识库/agent/)[幻觉](/kb/基础知识库/幻觉/)[Anthropic](/kb/ai-公司与产品/anthropic/)
跨专题(0435 终审 QC 确证在主库 04AI/0411,非 staging)
[_Agent 系统化专题·总览](/kb/专题-安全对齐与失败/_agent-系统化专题-总览/)(0411 Agent 系统化专题)[S01 Agent 六层架构剖面](/kb/专题-安全对齐与失败/s01-agent-六层架构剖面/)(0411,能力六层 ⊥ 本专题防御六层;已确证主库存在)[S03 Harness Engineering 全景](/kb/专题-安全对齐与失败/s03-harness-engineering-全景/)(0411,R03 引用的工具/harness 安全对偶;已确证主库存在)失败考古专题的 Air Canada/Chevrolet 边界与法律失败节点(E01 镜像源;2026-06-11 校验 0416 已落盘主库,恢复真链)
Rick 滴滴安全方法论(求职独特资产,已核实存在)
降发生方法论明镜系统安全感知与干预
跨域思想资源(已核实存在)
范式(库恩 vs 拉卡托斯,0110哲学)0117社会学(维特根斯坦语言游戏 / 福柯分类即权力入口)
总图入口
[AI PM 知识图谱·总索引](/kb/ai-pm-知识图谱/ai-pm-知识图谱-总索引/)
跨专题链状态(2026-06-11 校链复核):0416 失败考古、0430 安全规范制定(AI 作为制度现象专题)、0419 间接注入防御架构(对齐哲学专题)、0415 红队作为产品实践(后训练即产品专题)、0412 评测系统化专题、0431 verification(AI 认识论中介专题)现均已落盘主库,对应跨专题引用已回填为真 NNNN 总览 链。仅 0436 Agent 权限边界仍在 staging(待补完入库),指向它的链暂作普通文本,已登记 _待建概念清单.md,绝不在主库建 stub。另:2026 系列 arXiv ID(2602.20708/2602.22724/2603.13424/2603.22489/2604.18510,曾标”疑似未来日期待复核”)已于 2026-06-12 内审逐条 WebFetch,全部存在,待复核标记已清。