S02 训练侧 vs 系统侧防御对照
S02 训练侧 vs 系统侧防御对照
一个 PM 在选型会上最常踩的坑,不是”该不该防 prompt injection”,而是误以为防御是一道单选题——要么”把模型训得更安全”(训练侧:对齐、Constitutional AI、对抗训练),要么”在模型外面套一圈过滤和权限”(系统侧:guardrail、权限最小化、沙箱、HITL)。本节点要解决的问题是:这两侧分别能防住什么、各自在哪里必然失效、一个具体的攻击面到底该落到哪一层——并给出一棵可在选型会上当场用的决策树。本节的核心立场是:训练侧与系统侧不是替代关系,而是概率性控制 × 确定性控制的正交组合;任何只押一侧的架构,都在系统层面犯了”加个内容过滤就安全了”的滑变错误。
§0 为什么是”训练侧 vs 系统侧”这个切法,而不是”输入侧 vs 输出侧”
业界谈防御常用的默认框架是”输入过滤 / 输出过滤”(OWASP LLM01 的缓解清单就是这么列的),或者”七层防御栈”那种从上到下的分层图。这两种切法对 PM 决策有害,因为它们把防御能力的根本差异藏起来了。
真正决定一个防御”能不能信”的,不是它装在管道的哪个位置,而是它属于哪一类控制:
- 概率性控制(probabilistic):本质是一个被训练出来的模型或分类器——对齐微调、Constitutional AI、对抗训练、guardrail 分类器、prompt injection detector。它们降低攻击成功率,但有不可消除的假阴性率和对抗盲点,永远在和攻击者打军备竞赛。
- 确定性控制(deterministic):本质是与模型行为无关的硬边界——权限最小化、工具白名单、沙箱、输出硬阻断、高危操作 HITL。它们不”理解”攻击,但能保证”即使模型被完全攻陷,爆炸半径也被框死”。
“训练侧 vs 系统侧”这个切法,恰好让概率/确定的分界线浮出水面:训练侧几乎全是概率性的,系统侧则横跨两者(guardrail 是概率性的,沙箱和权限是确定性的)。这正是本节点要逼 PM 看清的事——你以为加了 guardrail 就有了”系统侧防御”,其实你只是在模型外面又叠了一个概率性控制,确定性的硬边界一个都没有。OWASP Top 10 for LLM Applications 2025 自己也承认,对 prompt injection 可能不存在万无一失的预防方案,策略重心须从”完全阻断”转向”降低爆炸半径”(来源:OWASP Top 10 for LLM Applications 2025,via toxsec.com “LLM Defense in Depth: Assume Breach”)——这句话翻译过来就是:别指望任何概率性控制兜底,确定性控制才是地板。
§1 训练侧防御:覆盖广、可绕过、难维护
训练侧防御把安全”烧进”模型权重,代表方案与实测数据:
| 方案 | 机制 | 实测效果 | 来源 |
|---|---|---|---|
| RLHF / 安全微调 | 用人类偏好把有害输出概率压低 | Unit42 实测对齐在 109/123 个 jailbreak 提示上成功阻断 | Unit42 Palo Alto, 2025 |
| Constitutional AI | 模型按明文原则自我批评+改写,再 RLAIF | 见 Constitutional AI | Anthropic |
| Constitutional Classifiers | 训练专用分类器守在 I/O 两端 | 越狱成功率 86% → 4.4%,过度拒绝仅 +0.38%,算力 +23.7% | Anthropic, arXiv:2501.18837 |
| 对抗训练 / 潜空间对抗训练 | 把对抗样本喂进训练分布 | 提升鲁棒性,但与攻击者军备竞赛 | 潜空间对抗训练 LAT,Yi et al., arXiv:2501.10639,已核实(2026-06-12) |
| 指令层级 Instruction Hierarchy | 训练模型按 system>user>tool 优先级服从 | 已部署 GPT-4o;AgentDojo 显示可被部分绕过 | Wallace et al., arXiv:2404.13208 |
| 数据-指令分离 StruQ / ASIDE | 结构化角色分离 / 数据 token 正交旋转 | ASIDE 在注入基准上显著提升鲁棒性、不降基线 | arXiv:2503.10566 (ICLR 2026) |
训练侧的四维画像:
- 覆盖(广):一次训练改变模型在所有输入分布上的默认倾向,无需为每个下游应用单独配置。这是它最大的优势——它是模型”出厂自带”的安全底座。
- 成本(高且前置):需要标注数据、算力、训练流水线。Constitutional Classifiers 推理算力 +23.7% 是持续成本;而对抗训练每加一类攻击就要重训。最隐蔽的成本是”对齐税”——见下文争议。
- 可绕过(结构性可绕过):这是训练侧的命门。ICLR 2025 论文 “Can LLMs Separate Instructions from Data?” 给出能力边界的硬结论——LLM 在架构层面缺乏”被动数据 vs 主动指令”的原则性分离,Transformer attention 同等对待所有 token(来源:ICLR 2025 proceedings)。这意味着指令层级、StruQ 这类训练侧方案是在”教”模型一个它架构上不天然具备的区分,必然有泄漏。Unit42 实测里,平台1未检测的 51 个恶意提示中 42 个来自角色扮演/虚构场景——这正是训练侧分布外泛化失败的典型。
- 可维护(差):模型一旦训完,发现新攻击类型只能等下一轮重训;攻击者的提示有效期是天级,模型重训周期是周到月级。这个时间差结构性地让训练侧永远慢一拍。
§2 系统侧防御:边界硬、覆盖窄、可维护
系统侧把安全做在模型外面,代表方案与实测数据:
| 方案 | 类型 | 机制 | 实测效果 | 来源 |
|---|---|---|---|---|
| Guardrail 分类器 | 概率性 | LlamaGuard / ShieldGemma 等独立审核 I/O | 主流平台输入拦截 53%–92%,绕过率 8%–47% | Unit42, 2025 |
| 工具过滤 Tool Filter | 确定性 | 只给当前任务所需工具 | GPT-4o ASR 57.7%→6.8%,效用保 73.1% | AgentDojo, arXiv:2406.13352 |
| 权限最小化 Progent | 确定性 | SMT solver 校验工具调用策略,扩权需人批 | 间接注入 ASR 41.2%→2.2%,自主 agent 70.3%→7.3% | arXiv:2504.11703 |
| 权限分离 OpenClaw | 确定性 | 低权限 agent 处理外部输入,高权限 agent 不接触不可信数据 | 双 agent 隔离+JSON 格式化全流水线 0% ASR;隔离单用 0.31%(323× 优于基线) | arXiv:2603.13424 |
| 沙箱执行 | 确定性 | 工具/代码在最小权限环境运行 | 纵深防御,限制实际操作范围 | OWASP LLM06 |
| HITL 高危审批 | 确定性 | 不可逆操作前强制人工确认 | 对灾难性错误的最后防线 | OWASP LLM01:2025 |
| 推理时检测 SecInfer/ICON | 概率性 | 推理阶段额外算检测信号 | ICON 检测注意力坍缩、推理时矫正,需白盒 | SecInfer arXiv:2509.24967; ICON arXiv:2602.20708 |
系统侧的四维画像:
- 覆盖(窄但精准):每个 guardrail、每条权限策略只管它配置到的那个面。工具过滤只在”任务工具≠攻击工具”的场景有效——AgentDojo 明说,对于”读邮件既是任务也是攻击路径”的工具重叠场景,过滤器无效。系统侧不会”出厂自带”,每个应用都要重新配。
- 成本(中且分散):guardrail 部署成本低(黑盒可挂任意模型),但权限粒度越细、维护成本越高(Okta 关于 AI agent 最小权限的工程文章明确指出粒度与复杂度的正相关)。HITL 的隐性成本是”审批疲劳”——高频低风险审批降低人类对真实高危事件的警觉。
- 可绕过(确定性部分不可绕过,概率性部分可绕过):这是系统侧最关键的内部分化。沙箱、权限边界是确定性的——攻击者即使完全控制了模型,也调不出没被授权的工具。但 guardrail 是个模型不是形式化验证,仍有对抗盲点:Unit42 实测输入层绕过率高达 47%,STACK 攻击(McKenzie et al., arXiv:2506.24068, UK AISI)更证明针对防御流水线本身设计的分阶段攻击,能让此前单层测出 ASR=0% 的攻击重新有效(ClearHarm 数据集黑盒 71% 成功率,零访问迁移 33%)。
- 可维护(好):发现新攻击改一条权限策略、加一个白名单条目即可,不用重训模型;与攻击者的响应速度匹配。
§3 决策树:这个攻击面到底该落哪一层
把上面两节合成一棵可当场用的树。输入是一个具体威胁,输出是该用哪侧、用哪层。
flowchart TD
A[一个具体威胁] --> B{这个操作不可逆/高后果吗?<br/>删数据·转账·外发·改权限}
B -->|是| C[确定性控制优先<br/>权限最小化+HITL+沙箱<br/>不可单靠任何概率控制]
B -->|否| D{攻击载荷来自外部数据吗?<br/>网页·文档·RAG·工具返回}
D -->|是 间接注入| E[系统侧权限分离+工具过滤<br/>训练侧指令层级辅助<br/>见 0419]
D -->|否 直接输入| F{是已知攻击类别吗?<br/>有害内容·PII·越狱模式}
F -->|是 模式清晰| G[训练侧对齐打底<br/>+系统侧guardrail兜一道]
F -->|否 新型/对抗| H[训练侧覆盖+系统侧确定边界<br/>+自动红队主动发现 见0415]
C --> Z[两侧必组合:<br/>训练侧降发生概率<br/>系统侧框死爆炸半径]
E --> Z
G --> Z
H --> Z
三条决策铁律(树的落地版):
- 凡高后果/不可逆操作,确定性控制是地板,概率控制不许兜底。 这是 EchoLeak(CVE-2025-32711)和 Slack AI 泄露事件的共同教训——它们都绕过了概率性过滤(EchoLeak 专门绕过 Microsoft 的 XPIA 注入过滤器),唯一能挡住的是”AI 检索范围与用户权限严格绑定 + 出站数据流审批”这类确定性边界。
- 覆盖靠训练侧,边界靠系统侧——两条腿缺一不可。 训练侧给你一个在所有输入上都”默认更安全”的模型(覆盖广),系统侧给你”即使模型失守也炸不大”的硬边界(边界硬)。只押训练侧 = 赌模型永不被绕过(已被证伪);只押系统侧 = 每个新面都要手工配,且 guardrail 那半截仍可绕。
- 可维护性决定响应速度的分工。 把”需要快速响应新攻击”的职责交给系统侧(改策略快),把”提升默认安全基线”的职责交给训练侧(重训慢但根本)。
§4 判断主轴:90% 的人在这里会搞错的四个点
① 把”加 guardrail”当成”有了系统侧防御”。
- 症状:选型会上有人说”我们挂了 LlamaGuard,系统侧搞定了”。
- 为什么会错:guardrail 是概率性控制,和对齐训练同属”可绕过”那一类。挂 guardrail 只是又叠了一层过滤,确定性硬边界(权限/沙箱/HITL)一个没加。
- 正确做法:区分系统侧内部的概率/确定两半,确认你真正部署了至少一项确定性控制。
- 真实反例:EchoLeak 攻击专门绕过了 Microsoft XPIA 注入过滤器和 Copilot 链接脱敏机制——纯概率防御被零点击攻破,CVSS 9.3。
② 用”对齐做得好”替代”权限做得严”。
- 症状:“我们用的是 Claude,对齐很强,agent 给全权限没事”。
- 为什么会错:对齐降低的是有害生成概率,管不住有害操作。OWASP LLM06 Excessive Agency 正是这个坑——过度权限让被注入的模型执行真实破坏。
- 正确做法:对齐再强也按最小权限分配工具,处理外部数据的子 agent 不授予高危工具。
- 真实反例:ChatGPT 插件 “Chat with Code” 案例中,网页注入可让插件把私有 GitHub 仓库改为公开,无需用户确认——“权限过宽+无审批”组合,对齐救不了。
③ 以为 0% ASR 的防御就是安全的。
- 症状:拿着论文里”ASR=0%“的防御方案就敢上线。
- 为什么会错:很多 0% ASR 是单层、静态基准下测的;STACK 证明针对组合防御流水线的分阶段攻击能让这些防御重新失效,且攻击可零访问迁移(33%)——“防御靠不透明”行不通。
- 正确做法:用自适应攻击和自动红队(见 后训练即产品专题 的红队作为产品实践)持续重测,把 0% 当”当前未被攻破”而非”不可被攻破”。
- 真实反例:STACK 论文(arXiv:2506.24068)黑盒 71% 攻破含 few-shot 分类器的防御流水线——Anthropic/OpenAI 正用此类流水线守护 Opus 4 / GPT-5。
④ 把训练侧和系统侧当成”二选一的成本权衡”。
- 症状:“训练侧太贵,我们先只做系统侧 guardrail” 或反之。
- 为什么会错:两者覆盖的失效模式正交——训练侧管”默认倾向”,系统侧管”越界后果”。省掉任一侧都留下整类无人防守的攻击面。
- 正确做法:把它当”必须组合”的两层,争论的不是”用哪个”而是”各投多少”。
- 真实反例:Progent(确定性权限)把间接注入 ASR 压到 2.2%,但论文自承”策略生成依赖 LLM,存在策略生成本身被注入的 bootstrap 问题”——确定性控制也需训练侧把生成策略的模型先做可靠,反之亦然。
§5 产品 PM 视角补盲
工程视角只盯 ASR,但 PM 要看三个工程师常漏的点:
- 用户心理模型 × 假阳性:Unit42 实测某平台假阳性率高达 13.1%。对 to C 产品,过度拒绝直接伤口碑——2023–2024 年 Claude 相对 ChatGPT 的口碑差距,主因就是过度拒绝(见 Constitutional AI)。系统侧 guardrail 调严一档,留存可能掉一截。这是训练侧”对齐税”在产品层的现金账单。
- HITL 的商业可扩展性:HITL 是确定性防御共识,但在每分钟数百次工具调用的高频 agent 场景里,全审批不可行。PM 要设计”分级 HITL”——只在不可逆/高后果操作上断点,且参照 m207 - Agent 产品化:场景推演与失败模式 的”上线初期全设断点、通过率>95% 后逐步取消”。审批疲劳本身是产品风险。
- 合规驱动的最低配置:EU AI Act 第 55 条对 GPAI 系统性风险模型(训练算力 ≥10^25 FLOP)强制要求”进行并记录对抗性测试(红队)“,已自 2025 年 8 月 2 日适用,2026 年 8 月起全面执法(罚款至 1500 万欧元或营业额 3%)(来源:EU AI Act Article 55;European Commission GPAI Code of Practice)。这意味着系统侧的红队/审计不只是技术选项,对足够大的模型是法律义务(见 AI 作为制度现象专题 的安全规范制定)。
§6 对手框架回应
接受 + 边界,不是反驳。
- 回应”对齐就够了”派(部分主流实验室立场):接受——Unit42 数据显示对齐在 109/123 个 jailbreak 上成功阻断,对齐确实是高性价比的覆盖层,日常有害输出大多被它挡住。但坚持边界——对齐是概率控制,高级对抗攻击可绕过 RLHF,且 ICLR 2025 证明 LLM 架构层面无法原则性区分指令与数据。对齐降低发生概率,但不能作为不可逆操作的唯一防线。 这与 Rick 滴滴安全的”降发生方法论”同构:降发生是必要的概率治理,但安全干预(确定性兜底)不能省。
- 引入 Rick 未读的对手框架——Williams-King、Bengio 等(NeurIPS Safe GenAI Workshop 2024, arXiv:2501.11183)的”安全微调即军备竞赛”批判:他们引用网络安全史上”临时打补丁屡屡失败”的教训,主张安全应从架构层面内嵌原则,而非事后附加。这逼问本节点的盲点——我把训练侧和系统侧都当”可叠加的层”,但他们指出”叠加补丁”本身可能是错误范式,ASIDE 那种”在 embedding 层做正交旋转”的架构内嵌方案才是出路。本节点接受这个批判作为长期方向,但坚持短期边界:架构级方案(ASIDE)尚需专项安全训练、大规模可部署性未验证,PM 决策无法等待,当下仍须用”概率+确定”组合兜底。
§7 跨域呼应
调度控制论的”requisite variety”(必要多样性定律,Ashby):一个控制系统要稳定调节一个扰动源,其自身的状态多样性必须 ≥ 扰动的多样性。攻击者的攻击空间(角色扮演、编码混淆、多轮累积、多模态、间接注入、工具投毒……)是高度多样的;任何单一防御机制的”状态多样性”都远低于攻击空间,因此结构性地无法完全调节——这从控制论给出了”为什么单层防御必然漏”的第一性解释,而非工程经验谈。
[!note] 跨域呼应改变了什么判断 没有 Ashby,“两侧必须组合”只是一句经验建议;有了必要多样性定律,它升级为结构性必然:训练侧(覆盖广=高 variety 但概率性)+ 系统侧确定性边界(降低需要被调节的 variety 总量,把无限攻击空间压成有限权限空间)的组合,本质是”用确定性控制收缩问题空间,再用概率控制调节剩余空间”。这正是为什么 OpenClaw 的权限分离比再强的 guardrail 更根本——它不是在调节攻击,而是在削减攻击空间的维度。
§8 PM 决策启示
- 面试怎么用:被问”怎么防 prompt injection”时,别背 OWASP 清单。先反问”是高后果操作还是普通生成?载荷来自用户还是外部数据?“,再用 §3 决策树给出”训练侧降概率 + 系统侧框边界”的组合答案,并点出”加 guardrail≠系统侧防御”这个常见误区——展示你区分概率/确定控制的判断力。
- 选型怎么用:评估任一 AI agent 平台时,列两张表——训练侧它继承了哪些(指令层级?对齐版本?)、系统侧它提供了哪些确定性控制(工具白名单粒度?权限分离?沙箱?HITL 断点配置能力?)。只有概率性控制的平台,对高后果场景不合格。
- 复现怎么用:用公开基准做防御方验证——AgentDojo(多步多工具)测系统侧工具过滤效果,HarmBench/AdvBench〔基准名引用〕测训练侧对齐鲁棒性,且必须用自适应攻击复测(STACK 的教训),不信单层静态 0% ASR。
§9 与已有节点的关系
- 对照 m207 - Agent 产品化:场景推演与失败模式:m207 给出”六类失败模式 + HITL 断点三维判断 + 自主性需质量数据支撑”的产品方法论;本节点做”深化”——把 m207 的”安全越界”失败模式拆成训练侧/系统侧两类防御的对照决策树,补上 m207 未展开的”为什么 HITL(确定性)不能被对齐(概率性)替代”的机理。不复述 m207 的失败模式分类。
- 对照 Constitutional AI:CAI 是本节点训练侧的核心实例之一;本节点做”定位纠偏”——CAI 节点讲机制与”对齐税/过度拒绝”争议,本节点把它**降格为”训练侧防御的一个方案”**并对照其系统侧替代,强调 CAI 再强也是概率控制、不能独立兜底。不复述 CAI 两阶段机制。
- 与 c13 - 幻觉的不可消除性〔确认存在〕呼应:幻觉不可消除 ↔ 对齐/注入防御的”可绕过”不可消除,是同一类”概率系统无完备保证”的认识论结论。
§10 关联节点
核心(必读)
- m207 - Agent 产品化:场景推演与失败模式
- Constitutional AI
- RLHF
- Agent
- Function Calling
- c13 - 幻觉的不可消除性
- 本专题 03 架构剖面同级节点(S01 等)〔同级全名待核实,暂作普通文本,已登记待建清单〕
延伸(可选)
- Anthropic
- 幻觉
- m207 - Agent 产品化:场景推演与失败模式 关联的 c14 - 模型评估体系与 Goodhart 陷阱
- 0117社会学
- AI PM 知识图谱·总索引
- 对齐哲学专题(间接注入防御架构)、后训练即产品专题(红队作为产品实践)、AI 作为制度现象专题(安全规范制定)——跨专题,已落盘主库;0436(Agent 权限边界)仍在 staging,0436 待补完入库、暂作普通文本
修订日志
- R1(2026-06-07):首稿。建立”概率性控制 × 确定性控制”作为训练侧/系统侧的本质分界;四维对照(覆盖/成本/可绕过/可维护);§3 决策树 + 三条铁律;§4 四个致命误区;Ashby 必要多样性定律作为”单层必漏”的第一性解释。
- R1.1(2026-06-07):grounding 校验。WebSearch 核实并解除以下〔待核实〕标记——STACK arXiv:2506.24068(McKenzie et al., UK AISI,ClearHarm 黑盒 71%/迁移 33% 已确认)、ICON arXiv:2602.20708、OpenClaw arXiv:2603.13424(补正精确数字:全流水线 0% ASR、隔离单用 0.31%/323×、JSON 单用 14.18%)、SecInfer arXiv:2509.24967;EU AI Act 第 55 条 10^25 FLOP 阈值与对抗性测试义务(2025-08-02 适用)已确认。剩余待核实项:潜空间对抗训练具体 arXiv ID、本专题同级节点全名(S01 等,暂降级为普通文本并登记 _待建概念清单.md)。
- 2026-06-11 P3.4 校链:0419/0415/0430 三兄弟专题经主库
find实证已落盘,§4/§5/§10 指向它们的降级文本恢复为真NNNN 总览链并删 staging 注解;仅 0436 仍在 staging,改标”0436 待补完入库”保留普通文本。 - 2026-06-12 内审·arXiv 联网核实:清了 1 个 / 存疑 0 个。R1.1 遗留”潜空间对抗训练具体 arXiv ID 待核实”——经 WebFetch 锁定为《Latent-space adversarial training with post-aware calibration…》(Yi et al., arXiv:2501.10639,与 G02 已引同源),§1 训练侧对照表该行〔具体 arXiv ID 待核实〕补为真实编号并标”已核实(2026-06-12)“。本节点正文 arXiv 引用现 0 待核实。