A02 攻击分类学·注入越狱投毒抽取

四类对 LLM 系统的攻击——提示注入、越狱、数据投毒、模型抽取——常被招聘 JD、安全白皮书和媒体笼统打包成”AI 安全风险”，再用一句”我们加了内容过滤”草草交代。本节点要解决的问题是：这四类攻击的攻击面、生效阶段、威胁主体、所需防御层根本不同，一个”通用过滤器”挡不住其中任何一类的全部变体。判断主轴就是这句反共识——不同攻击需要不同防御层，没有单点银弹。本节用”攻击面 × 生命周期阶段 × 防御层”三轴做分类学，而不是按”攻击名字”罗列。本专题是防御导向：讲机理是为了设计产品的权限边界与检测，不给可直接照搬的武器化步骤或越狱串。

[!warning] 防御视角声明下文所有”机理”只讲到”为什么这类攻击在架构上成立”这一层，复现/评测一律引用公开基准（HarmBench / AdvBench / AgentDojo）的防御方用法，不提供可实施的 payload。

§0 为什么用”攻击面×阶段×防御层”三轴，而不是按攻击名罗列

最常见的错误框架，是把这四类摊平成一份并列清单——好像它们是同一种东西的四个品种，于是顺理成章地推出”上一道过滤就都防了”。这是 §11 反模式里”工程 PM 窄化”的典型：把异构风险压成同构清单。

真实的结构是：这四类攻击落在 LLM 系统生命周期的不同阶段，因此暴露的攻击面不同，威胁主体不同，能拦住它的控制层也不同。 投毒发生在”训练/数据供应”阶段，威胁主体是数据供应链；注入与越狱发生在”推理/运行时”阶段，威胁主体是终端用户或被消费的外部内容；抽取发生在”部署后查询”阶段，威胁主体是有 API 访问权的对手。把它们按阶段铺开，“通用过滤防不住”立刻变成结构性事实而非观点——一个部署在推理入口的内容过滤器，物理上看不到训练数据里的后门样本，也无法阻止 API 查询累积出的代理模型。

这套三轴分类直接对照 OWASP LLM Top 10（2025 版，官方 PDF v2025）的风险编号：注入=LLM01、投毒=LLM04、抽取相关=LLM10（Unbounded Consumption，含未授权复制）与 LLM02（敏感信息泄露）。越狱在 OWASP 里没有独立编号，因为它是 LLM01 与”对齐绕过”的交叉——这本身就说明分类边界并非天然清晰，下文 §5 专门处理这种错位。

§1 提示注入（Prompt Injection · LLM01）——指令与数据的同源原罪

机理（确证）：LLM 在架构上无法原生区分”被信任的系统指令”与”待处理的数据”——系统提示、用户输入、工具返回值全部折叠进同一个上下文窗口，以同等优先级的 token 呈现（来源：OWASP LLM01:2025）。注入分两个子形态：

子类	攻击面	威胁主体
直接注入	用户输入框	终端用户
间接注入（Indirect PI）	Agent 消费的外部内容：网页、文档、RAG 检索块、邮件、工具返回值	任何能影响这些数据源的人

间接注入由 Greshake 等（2023，Black Hat USA whitepaper “Not what you’ve signed up for”）系统化定义，是本专题的”速变”核心：随 Agent 工具调用爆发，攻击面从”用户输入”一个点，扩展到 Agent 访问的所有外部数据源。已证实的真实事件：M365 Copilot 的 EchoLeak（CVE-2025-32711，CVSS 9.3）——一封零点击恶意邮件即可让 Copilot 检索内部文件并外泄，且专门绕过了 Microsoft 的 XPIA 注入过滤层（来源：Aim Security 披露；arXiv:2509.10540）。这一条就是”加个过滤器就安全”的反例：过滤器存在，攻击照样成功。

防御层（注意：没有一层够用）：

训练级——指令层级（Instruction Hierarchy，OpenAI，Wallace et al., arXiv:2404.13208，已部署于 GPT-4o）：系统 > 用户 > 工具返回，冲突时优先高权限。必要非充分。
输入级——数据-指令结构化分离（StruQ 类）：给外部内容打”不可信”来源标签。
架构级——权限分离（见 0436 Agent 权限边界，0436 待补完入库）：处理不可信输入的低权 Agent 不被授予高危工具。
执行级——工具调用过滤 + 高危操作 HITL。AgentDojo（Debenedetti et al., arXiv:2406.13352）实测：工具过滤器在攻防工具可区分的场景把 GPT-4o 攻击成功率从 57.7% 降至 6.8%，但攻防工具重叠时无效。

§2 越狱（Jailbreak）——绕过对齐策略，不动权限

机理（确证）：越狱通过角色扮演、虚构场景、编码混淆、多轮语境操控等手段，使模型忽略其对齐训练建立的安全策略。注意它与注入的根本区别——越狱攻击的是”模型该不该说”（对齐边界），注入攻击的是”模型听谁的”（指令来源）。二者常被混为一谈，但防御层完全不同：越狱靠对齐训练 + Guard 模型，注入靠权限隔离 + 来源标记。

实测成功率（来源：Jailbreaking LLMs 综述 2026，TechRxiv）：自动化攻击在开源模型 90–99%，黑盒商业模型 80–94%。Anthropic 的 Constitutional Classifiers（arXiv:2501.18837）将 Claude 3.5 Sonnet 的越狱成功率从无防护的 86% 压到 4.4%，过度拒绝仅增加 0.38%，但计算开销增加 23.7%——这是”安全税”的具体量纲，且 Bug Bounty 阶段仍被 1 人攻破通用越狱（Anthropic 已确认）。

防御层：Guard 模型（Llama-Guard、WildGuard）做 I/O 审核；策略层强化（分离拒绝训练，arXiv:2407.09121）；对抗训练。共同局限：与对抗样本的军备竞赛，语义等价变形可绕过。

§3 数据投毒（Data Poisoning · LLM04）——攻击在训练阶段就完成了

机理（确证）：在预训练、微调或 RLHF 偏好数据中混入构造样本，使模型在特定触发条件下产生攻击者期望的行为，正常情况下与干净模型难以区分。这是与注入/越狱最锋利的对照点：投毒发生在训练阶段，任何部署在推理入口的过滤器物理上看不到它。

关键数字（已 WebSearch 核实）：Anthropic/UK AISI/Alan Turing Institute 联合研究（2025，arXiv:2510.07192，“Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples”）显示 250 份恶意文档即可后门化 6 亿至 130 亿参数模型——后门样本的绝对数量近乎常数，不随模型规模上升（在 13B 模型上仅占训练数据约 0.00016%）。该论文挑战了”攻击者需控制一定比例训练数据”的常识假设。更严峻的是后门持久性：ICLR 2025 论文证实标准 RLHF 和对抗训练不能可靠移除预训练后门，甚至可能使其更难检测。

防御层：数据溯源 / SBOM（供应链物料清单，对应 OWASP LLM03 Supply Chain）；训练期异常检测；差分隐私训练（与性能权衡）；红队测试触发边界。共同局限：干净标签攻击（clean-label）与隐蔽触发词难以枚举。

§4 模型抽取（Model Extraction · LLM10/LLM02）——把”查询”本身变成攻击

机理（确证）：攻击者通过 API 查询，用输入-输出对训练代理模型，复制目标功能、窃取训练数据或还原系统提示（来源：Model Extraction 综述，KDD 2025，arXiv:2506.22521）。三个子目标：功能提取、训练数据提取（PII/罕见序列）、Prompt 窃取（对应 OWASP 2025 新增的 LLM07 System Prompt Leakage）。综述引用的实证：2024 年有团队通过客户 API 提取医疗 LLM，代理模型达原模型 94% 性能，成本低于 1000 美元。

防御层：访问监控（异常查询模式检测、速率限制）；输出控制（限制 logit、加噪）；架构级水印；训练级差分隐私。共同局限：合法高频用户的误报、水印可被统计攻击削弱、安全-效用权衡无法完全消除。

§5 判断主轴：90% 的人会在这四个点搞错

#	症状	为什么会错	正确做法	真实反例
1	”加个内容过滤就安全了”	把四类异构攻击当成同构、当成”模型会不会说脏话”	按阶段分别部署：训练级溯源 + 运行时隔离 + 部署后监控	EchoLeak 绕过 XPIA 过滤层照样外泄（CVE-2025-32711）
2	把越狱和注入混为一谈	都”让模型干了不该干的事”，表面相似	区分”该不该说”(对齐)与”听谁的”(指令来源)；防御层不同	越狱靠 Guard 模型，注入靠权限分离——互不替代
3	以为投毒是”小概率供应链事件”	直觉上”污染训练数据门槛很高”	按威胁模型评估：自托管 vs 第三方数据集风险天差地别	250 文档即可后门化 13B 模型（arXiv:2510.07192）
4	把抽取当”知识产权问题”丢给法务	不认为”正常 API 查询”是攻击面	在产品设计期就把速率限制/异常检测纳入威胁模型	94% 性能代理模型,成本<$1000(arXiv:2506.22521)

致命耦合点：这四类攻击的防御层互不覆盖，但它们的误报代价会相互挤压可用性预算。Unit42（Palo Alto，2025-06-02）实测：一个把越狱拦截率做到 92% 的平台，假阳性率高达 13.1%——你为防越狱加的过滤，会误杀大量合法请求,而它对投毒和抽取毫无帮助。安全不是叠过滤器,是按攻击面分配确定性控制(权限/沙箱/HITL)与概率性控制(过滤/对齐)的预算。

§6 产品 PM 视角补盲

工程视角只看”攻击能不能成功”,PM 还要看三件被工程忽略的事:

用户心理模型:HITL 是确定性防线,但”审批疲劳”会让人对高频低风险审批麻木,真正高危事件反被点过。防御设计必须分级——只在不可逆/高影响操作设断点(同构于 m207 - Agent 产品化：场景推演与失败模式的 HITL 断点三维判断:可逆性×后果×置信度)。
商业模式:抽取攻击直接威胁”模型即资产”的商业护城河,但加强防抽取会损害正常高频用户体验——这是定价/SLA 层面的产品决策,不是纯安全决策。
合规边界:投毒/抽取涉及训练数据来源与 PII,落在 EU AI Act 与各地数据法的管辖内,属于上线前必须过的红队义务,不能事后补。

§7 对手框架回应(接受+边界)

业界反方立场(数据投毒”危言耸听”派):arXiv:2502.14182(2025 位置论文)主张重审数据投毒研究,认为现实攻击面临重大实施障碍——攻击者要先进入训练流程本身,门槛很高;且此类研究可正向服务于发现模型偏见。

接受:对闭源、自有数据、自托管全栈的厂商,投毒确实是低概率事件——对手够不着你的训练管道。位置论文对”把每个投毒 PoC 都当成迫在眉睫的生产威胁”的批评是对的。

边界与赌注:但这个反方立场默认了一个越来越站不住的前提——“训练数据来源可控”。在 RAG + 第三方数据集 + 开源基座微调 + Agent 消费外部内容成为主流的 2025-2026,威胁模型已从”自有训练管道”滑向”开放数据供应链”。我赌的是:对绝大多数构建在他人基座/数据上的应用层 PM,投毒风险被低估而非高估。这个判断的失效场景:如果你的产品全栈自研、数据全自采,则本节投毒部分对你优先级可降。

Rick 未读的对手框架引入(破 echo chamber):

形式化验证学派(对照 §4/§1 防御):AquilaX 等提出”Guardrails 是被训练的模型,不是 formal verification,有不可消除的假阴性率”——这逼问本专题一个盲点:我们列的所有防御层全是概率性或工程性的,没有一层提供形式化保证。STACK 攻击(arXiv:2506.24068)证明:对单层测得 ASR=0% 的攻击,在组合防御流水线上因层间语义间隙重新生效,黑盒 71% 成功率。这是对”叠加防御层”这一思路本身的釜底抽薪。

§8 跨域呼应:从”边界划定”看分类学的政治

调度福柯的”分类即权力”(对照 0117社会学)。把攻击切成”注入/越狱/投毒/抽取”四格,不是中立的自然分类——它决定了组织内谁该负责防御:投毒归数据团队、注入归 Agent 架构团队、抽取归基础设施团队、越狱归对齐团队。分类边界一旦固化,落在边界缝隙里的攻击(如 §5 的越狱/注入交叉、抽取里的 Prompt 窃取)就会无人认领——这正是 OWASP 把越狱不设独立编号、却把 System Prompt Leakage 单列 LLM07 的张力来源。

对 Rick 的产品意义:这与他在滴滴降发生方法论的对抗治理思维同构——海恩法则下,真正的事故往往发生在职责分类的接缝处。红队的价值恰在于跨越分类边界做端到端攻击,逼出组织防御图上的无人区。安全分类学的第一性约束,不是”分得全”,而是”接缝有人守”。

§9 PM 决策启示

面试:被问”如何保障 AI 产品安全”,不要答”加内容审核”。答”先按攻击面×生命周期阶段建威胁模型,投毒在训练级管控供应链,注入在架构级做权限分离,抽取在部署级做访问监控,越狱在对齐级做 Guard,四层预算分开算”——这一句区分 T&S PM 与外行。
选型:评估供应商安全能力时,用本节四类逐一拷问,而不是看”有没有安全功能”这个布尔值。重点问对方能否区分这四类、各自的防御层在哪。
复现(防御方):用 HarmBench(arXiv:2402.04249,18 红队方法×33 模型,ICML 2024)做越狱防御评测、AgentDojo 做注入防御评测、PoisonBench 做投毒评测——分别基准,不混测。

§10 与已有节点的关系

对照失败考古专题(攻防是其机理层):失败考古讲”系统为何走样”,本节点提供其安全维度的攻击机理,做深化——攻击分类是失败的一种结构化来源。
对照 0411 Agent 系统化专题的工具调用节点(工具调用即攻击面):0411 讲 Agent 怎么调用工具实现能力,本节点接着讲每个工具返回都是注入入口,做纠偏——能力面与攻击面是同一枚硬币。
对照 m207 - Agent 产品化：场景推演与失败模式:m207 的”安全越界”失败模式 + HITL 断点,本节给出其对应的攻击分类与确定性控制设计,做对话。
对照 0436 Agent 权限边界(0436 待补完入库):权限分离是注入/越狱的架构级防御层,本节点提供分类学坐标,0436 提供权限设计细节,做互补。
对照 AI 作为制度现象专题”安全规范制定”:安全规范须按本节四类分别立条款(如 OWASP/NIST 映射),本节是其分类学底座,做升级——从”写一条安全规范”升到”按攻击分类学组织规范条款”。
不复述上述节点的事实基础,只做坐标定位与升级对照。

§11 关联节点

核心(必读):

m207 - Agent 产品化：场景推演与失败模式
Agent
Function Calling
0436 Agent 权限边界（0436 待补完入库，暂作普通文本）
AI 作为制度现象专题”安全规范制定”
失败考古专题

延伸(可选):

§12 修订日志

2026-06-07 R0:首稿。三轴分类(攻击面×阶段×防御层),四类攻击逐一(注入/越狱/投毒/抽取)+判断主轴四件套×4 + 对手框架(投毒”危言耸听”派接受+边界 + 形式化验证学派/STACK 破 echo chamber)+ 福柯”分类即权力”跨域呼应 + 与 0416/0411/m207/0436/0430 升级对照。关键数字接地:CVE-2025-32711/CVSS 9.3(WebSearch 确证,arXiv:2509.10540)、250文档近常数后门化(WebSearch 确证,arXiv:2510.07192——R0 originally 误标 2510.05159 即”Malice in Agentland”,已纠正)、Constitutional Classifiers 86%→4.4%(arXiv:2501.18837)、Unit42 假阳性 13.1%、抽取94%/$1000(arXiv:2506.22521)、AgentDojo 57.7%→6.8%(arXiv:2406.13352)。剩余 arXiv ID(2404.13208/2407.09121/2406.13352/2506.22521/2502.14182/2402.04249/2501.18837/2506.24068)由上游研究简报标注为已核实,本节点未逐一二次 fetch,标〔待核实〕计 8 项。
2026-06-11 P3.4 校链:0416/0430 已落盘主库,§9 缓解层、§10 关系、§11 关联里指向它们的降级文本恢复为真 NNNN 总览 链并删 staging 注解;0436 仍在 staging,改标”0436 待补完入库”保留普通文本。
2026-06-12 内审·arXiv 联网核实:清了 8 个 / 存疑 0 个。R0 修订日志结尾”剩余 arXiv ID(2404.13208/2407.09121/2406.13352/2506.22521/2502.14182/2402.04249/2501.18837/2506.24068)…标〔待核实〕计 8 项”——本轮逐一 WebFetch arxiv.org/abs 直查 abstract,8 项全部存在且与正文引述吻合:2404.13208=Instruction Hierarchy(Wallace et al.)、2407.09121=Decoupled Refusal Training/分离拒绝训练(Yuan et al.)、2406.13352=AgentDojo(Debenedetti et al.)、2506.22521=Model Extraction 综述(Zhao et al.)、2502.14182=Multi-Faceted Studies on Data Poisoning(He et al.)、2402.04249=HarmBench(Mazeika et al.)、2501.18837=Constitutional Classifiers(Sharma et al.)、2506.24068=STACK(McKenzie et al.)。本节点正文内引用均为已核实编号,0 存疑。(R0 历史”计 8 项”留痕按 append-only 保留。)

A02 攻击分类学·注入 越狱 投毒 抽取