R

A02 攻击分类学·注入 越狱 投毒 抽取

创建 2026-06-07 更新 2026-06-12 0 条双链 AI 红队与攻防 专题 AI 整理

四类对 LLM 系统的攻击——提示注入、越狱、数据投毒、模型抽取——常被招聘 JD、安全白皮书和媒体笼统打包成”AI 安全风险”,再用一句”我们加了内容过滤”草草交代。本节点要解决的问题是:这四类攻击的攻击面、生效阶段、威胁主体、所需防御层根本不同,一个”通用过滤器”挡不住其中任何一类的全部变体。判断主轴就是这句反共识——不同攻击需要不同防御层,没有单点银弹。本节用”攻击面 × 生命周期阶段 × 防御层”三轴做分类学,而不是按”攻击名字”罗列。本专题是防御导向:讲机理是为了设计产品的权限边界与检测,不给可直接照搬的武器化步骤或越狱串

[!warning] 防御视角声明 下文所有”机理”只讲到”为什么这类攻击在架构上成立”这一层,复现/评测一律引用公开基准(HarmBench / AdvBench / AgentDojo)的防御方用法,不提供可实施的 payload。

§0 为什么用”攻击面×阶段×防御层”三轴,而不是按攻击名罗列

最常见的错误框架,是把这四类摊平成一份并列清单——好像它们是同一种东西的四个品种,于是顺理成章地推出”上一道过滤就都防了”。这是 §11 反模式里”工程 PM 窄化”的典型:把异构风险压成同构清单。

真实的结构是:这四类攻击落在 LLM 系统生命周期的不同阶段,因此暴露的攻击面不同,威胁主体不同,能拦住它的控制层也不同。 投毒发生在”训练/数据供应”阶段,威胁主体是数据供应链;注入与越狱发生在”推理/运行时”阶段,威胁主体是终端用户或被消费的外部内容;抽取发生在”部署后查询”阶段,威胁主体是有 API 访问权的对手。把它们按阶段铺开,“通用过滤防不住”立刻变成结构性事实而非观点——一个部署在推理入口的内容过滤器,物理上看不到训练数据里的后门样本,也无法阻止 API 查询累积出的代理模型。

这套三轴分类直接对照 OWASP LLM Top 10(2025 版,官方 PDF v2025)的风险编号:注入=LLM01、投毒=LLM04、抽取相关=LLM10(Unbounded Consumption,含未授权复制)与 LLM02(敏感信息泄露)。越狱在 OWASP 里没有独立编号,因为它是 LLM01 与”对齐绕过”的交叉——这本身就说明分类边界并非天然清晰,下文 §5 专门处理这种错位。

§1 提示注入(Prompt Injection · LLM01)——指令与数据的同源原罪

机理(确证):LLM 在架构上无法原生区分”被信任的系统指令”与”待处理的数据”——系统提示、用户输入、工具返回值全部折叠进同一个上下文窗口,以同等优先级的 token 呈现(来源:OWASP LLM01:2025)。注入分两个子形态:

子类攻击面威胁主体
直接注入用户输入框终端用户
间接注入(Indirect PI)Agent 消费的外部内容:网页、文档、RAG 检索块、邮件、工具返回值任何能影响这些数据源的人

间接注入由 Greshake 等(2023,Black Hat USA whitepaper “Not what you’ve signed up for”)系统化定义,是本专题的”速变”核心:随 Agent 工具调用爆发,攻击面从”用户输入”一个点,扩展到 Agent 访问的所有外部数据源。已证实的真实事件:M365 Copilot 的 EchoLeak(CVE-2025-32711,CVSS 9.3)——一封零点击恶意邮件即可让 Copilot 检索内部文件并外泄,且专门绕过了 Microsoft 的 XPIA 注入过滤层(来源:Aim Security 披露;arXiv:2509.10540)。这一条就是”加个过滤器就安全”的反例:过滤器存在,攻击照样成功。

防御层(注意:没有一层够用)

  • 训练级——指令层级(Instruction Hierarchy,OpenAI,Wallace et al., arXiv:2404.13208,已部署于 GPT-4o):系统 > 用户 > 工具返回,冲突时优先高权限。必要非充分。
  • 输入级——数据-指令结构化分离(StruQ 类):给外部内容打”不可信”来源标签。
  • 架构级——权限分离(见 0436 Agent 权限边界,0436 待补完入库):处理不可信输入的低权 Agent 不被授予高危工具。
  • 执行级——工具调用过滤 + 高危操作 HITL。AgentDojo(Debenedetti et al., arXiv:2406.13352)实测:工具过滤器在攻防工具可区分的场景把 GPT-4o 攻击成功率从 57.7% 降至 6.8%,但攻防工具重叠时无效。

§2 越狱(Jailbreak)——绕过对齐策略,不动权限

机理(确证):越狱通过角色扮演、虚构场景、编码混淆、多轮语境操控等手段,使模型忽略其对齐训练建立的安全策略。注意它与注入的根本区别——越狱攻击的是”模型该不该说”(对齐边界),注入攻击的是”模型听谁的”(指令来源)。二者常被混为一谈,但防御层完全不同:越狱靠对齐训练 + Guard 模型,注入靠权限隔离 + 来源标记。

实测成功率(来源:Jailbreaking LLMs 综述 2026,TechRxiv):自动化攻击在开源模型 90–99%,黑盒商业模型 80–94%。Anthropic 的 Constitutional Classifiers(arXiv:2501.18837)将 Claude 3.5 Sonnet 的越狱成功率从无防护的 86% 压到 4.4%,过度拒绝仅增加 0.38%,但计算开销增加 23.7%——这是”安全税”的具体量纲,且 Bug Bounty 阶段仍被 1 人攻破通用越狱(Anthropic 已确认)。

防御层:Guard 模型(Llama-Guard、WildGuard)做 I/O 审核;策略层强化(分离拒绝训练,arXiv:2407.09121);对抗训练。共同局限:与对抗样本的军备竞赛,语义等价变形可绕过。

§3 数据投毒(Data Poisoning · LLM04)——攻击在训练阶段就完成了

机理(确证):在预训练、微调或 RLHF 偏好数据中混入构造样本,使模型在特定触发条件下产生攻击者期望的行为,正常情况下与干净模型难以区分。这是与注入/越狱最锋利的对照点:投毒发生在训练阶段,任何部署在推理入口的过滤器物理上看不到它。

关键数字(已 WebSearch 核实):Anthropic/UK AISI/Alan Turing Institute 联合研究(2025,arXiv:2510.07192,“Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples”)显示 250 份恶意文档即可后门化 6 亿至 130 亿参数模型——后门样本的绝对数量近乎常数,不随模型规模上升(在 13B 模型上仅占训练数据约 0.00016%)。该论文挑战了”攻击者需控制一定比例训练数据”的常识假设。更严峻的是后门持久性:ICLR 2025 论文证实标准 RLHF 和对抗训练不能可靠移除预训练后门,甚至可能使其更难检测。

防御层:数据溯源 / SBOM(供应链物料清单,对应 OWASP LLM03 Supply Chain);训练期异常检测;差分隐私训练(与性能权衡);红队测试触发边界。共同局限:干净标签攻击(clean-label)与隐蔽触发词难以枚举。

§4 模型抽取(Model Extraction · LLM10/LLM02)——把”查询”本身变成攻击

机理(确证):攻击者通过 API 查询,用输入-输出对训练代理模型,复制目标功能、窃取训练数据或还原系统提示(来源:Model Extraction 综述,KDD 2025,arXiv:2506.22521)。三个子目标:功能提取、训练数据提取(PII/罕见序列)、Prompt 窃取(对应 OWASP 2025 新增的 LLM07 System Prompt Leakage)。综述引用的实证:2024 年有团队通过客户 API 提取医疗 LLM,代理模型达原模型 94% 性能,成本低于 1000 美元。

防御层:访问监控(异常查询模式检测、速率限制);输出控制(限制 logit、加噪);架构级水印;训练级差分隐私。共同局限:合法高频用户的误报、水印可被统计攻击削弱、安全-效用权衡无法完全消除。

§5 判断主轴:90% 的人会在这四个点搞错

#症状为什么会错正确做法真实反例
1”加个内容过滤就安全了”把四类异构攻击当成同构、当成”模型会不会说脏话”按阶段分别部署:训练级溯源 + 运行时隔离 + 部署后监控EchoLeak 绕过 XPIA 过滤层照样外泄(CVE-2025-32711)
2把越狱和注入混为一谈都”让模型干了不该干的事”,表面相似区分”该不该说”(对齐)与”听谁的”(指令来源);防御层不同越狱靠 Guard 模型,注入靠权限分离——互不替代
3以为投毒是”小概率供应链事件”直觉上”污染训练数据门槛很高”按威胁模型评估:自托管 vs 第三方数据集风险天差地别250 文档即可后门化 13B 模型(arXiv:2510.07192)
4把抽取当”知识产权问题”丢给法务不认为”正常 API 查询”是攻击面在产品设计期就把速率限制/异常检测纳入威胁模型94% 性能代理模型,成本<$1000(arXiv:2506.22521)

致命耦合点:这四类攻击的防御层互不覆盖,但它们的误报代价会相互挤压可用性预算。Unit42(Palo Alto,2025-06-02)实测:一个把越狱拦截率做到 92% 的平台,假阳性率高达 13.1%——你为防越狱加的过滤,会误杀大量合法请求,而它对投毒和抽取毫无帮助。安全不是叠过滤器,是按攻击面分配确定性控制(权限/沙箱/HITL)与概率性控制(过滤/对齐)的预算。

§6 产品 PM 视角补盲

工程视角只看”攻击能不能成功”,PM 还要看三件被工程忽略的事:

  1. 用户心理模型:HITL 是确定性防线,但”审批疲劳”会让人对高频低风险审批麻木,真正高危事件反被点过。防御设计必须分级——只在不可逆/高影响操作设断点(同构于 m207 - Agent 产品化:场景推演与失败模式 的 HITL 断点三维判断:可逆性×后果×置信度)。
  2. 商业模式:抽取攻击直接威胁”模型即资产”的商业护城河,但加强防抽取会损害正常高频用户体验——这是定价/SLA 层面的产品决策,不是纯安全决策。
  3. 合规边界:投毒/抽取涉及训练数据来源与 PII,落在 EU AI Act 与各地数据法的管辖内,属于上线前必须过的红队义务,不能事后补。

§7 对手框架回应(接受+边界)

业界反方立场(数据投毒”危言耸听”派):arXiv:2502.14182(2025 位置论文)主张重审数据投毒研究,认为现实攻击面临重大实施障碍——攻击者要先进入训练流程本身,门槛很高;且此类研究可正向服务于发现模型偏见。

接受:对闭源、自有数据、自托管全栈的厂商,投毒确实是低概率事件——对手够不着你的训练管道。位置论文对”把每个投毒 PoC 都当成迫在眉睫的生产威胁”的批评是对的。

边界与赌注:但这个反方立场默认了一个越来越站不住的前提——“训练数据来源可控”。在 RAG + 第三方数据集 + 开源基座微调 + Agent 消费外部内容成为主流的 2025-2026,威胁模型已从”自有训练管道”滑向”开放数据供应链”。我赌的是:对绝大多数构建在他人基座/数据上的应用层 PM,投毒风险被低估而非高估。这个判断的失效场景:如果你的产品全栈自研、数据全自采,则本节投毒部分对你优先级可降。

Rick 未读的对手框架引入(破 echo chamber):

  • 形式化验证学派(对照 §4/§1 防御):AquilaX 等提出”Guardrails 是被训练的模型,不是 formal verification,有不可消除的假阴性率”——这逼问本专题一个盲点:我们列的所有防御层全是概率性或工程性的,没有一层提供形式化保证。STACK 攻击(arXiv:2506.24068)证明:对单层测得 ASR=0% 的攻击,在组合防御流水线上因层间语义间隙重新生效,黑盒 71% 成功率。这是对”叠加防御层”这一思路本身的釜底抽薪。

§8 跨域呼应:从”边界划定”看分类学的政治

调度福柯的”分类即权力”(对照 0117社会学)。把攻击切成”注入/越狱/投毒/抽取”四格,不是中立的自然分类——它决定了组织内谁该负责防御:投毒归数据团队、注入归 Agent 架构团队、抽取归基础设施团队、越狱归对齐团队。分类边界一旦固化,落在边界缝隙里的攻击(如 §5 的越狱/注入交叉、抽取里的 Prompt 窃取)就会无人认领——这正是 OWASP 把越狱不设独立编号、却把 System Prompt Leakage 单列 LLM07 的张力来源。

对 Rick 的产品意义:这与他在滴滴 降发生方法论 的对抗治理思维同构——海恩法则下,真正的事故往往发生在职责分类的接缝处。红队的价值恰在于跨越分类边界做端到端攻击,逼出组织防御图上的无人区。安全分类学的第一性约束,不是”分得全”,而是”接缝有人守”。

§9 PM 决策启示

  • 面试:被问”如何保障 AI 产品安全”,不要答”加内容审核”。答”先按攻击面×生命周期阶段建威胁模型,投毒在训练级管控供应链,注入在架构级做权限分离,抽取在部署级做访问监控,越狱在对齐级做 Guard,四层预算分开算”——这一句区分 T&S PM 与外行。
  • 选型:评估供应商安全能力时,用本节四类逐一拷问,而不是看”有没有安全功能”这个布尔值。重点问对方能否区分这四类、各自的防御层在哪。
  • 复现(防御方):用 HarmBench(arXiv:2402.04249,18 红队方法×33 模型,ICML 2024)做越狱防御评测、AgentDojo 做注入防御评测、PoisonBench 做投毒评测——分别基准,不混测。

§10 与已有节点的关系

  • 对照 失败考古专题(攻防是其机理层):失败考古讲”系统为何走样”,本节点提供其安全维度的攻击机理,做深化——攻击分类是失败的一种结构化来源。
  • 对照 0411 Agent 系统化专题 的工具调用节点(工具调用即攻击面):0411 讲 Agent 怎么调用工具实现能力,本节点接着讲每个工具返回都是注入入口,做纠偏——能力面与攻击面是同一枚硬币。
  • 对照 m207 - Agent 产品化:场景推演与失败模式:m207 的”安全越界”失败模式 + HITL 断点,本节给出其对应的攻击分类与确定性控制设计,做对话
  • 对照 0436 Agent 权限边界(0436 待补完入库):权限分离是注入/越狱的架构级防御层,本节点提供分类学坐标,0436 提供权限设计细节,做互补
  • 对照 AI 作为制度现象专题”安全规范制定”:安全规范须按本节四类分别立条款(如 OWASP/NIST 映射),本节是其分类学底座,做升级——从”写一条安全规范”升到”按攻击分类学组织规范条款”。
  • 不复述上述节点的事实基础,只做坐标定位与升级对照。

§11 关联节点

核心(必读):

延伸(可选):

§12 修订日志

  • 2026-06-07 R0:首稿。三轴分类(攻击面×阶段×防御层),四类攻击逐一(注入/越狱/投毒/抽取)+判断主轴四件套×4 + 对手框架(投毒”危言耸听”派 接受+边界 + 形式化验证学派/STACK 破 echo chamber)+ 福柯”分类即权力”跨域呼应 + 与 0416/0411/m207/0436/0430 升级对照。关键数字接地:CVE-2025-32711/CVSS 9.3(WebSearch 确证,arXiv:2509.10540)、250文档近常数后门化(WebSearch 确证,arXiv:2510.07192——R0 originally 误标 2510.05159 即”Malice in Agentland”,已纠正)、Constitutional Classifiers 86%→4.4%(arXiv:2501.18837)、Unit42 假阳性 13.1%、抽取94%/$1000(arXiv:2506.22521)、AgentDojo 57.7%→6.8%(arXiv:2406.13352)。剩余 arXiv ID(2404.13208/2407.09121/2406.13352/2506.22521/2502.14182/2402.04249/2501.18837/2506.24068)由上游研究简报标注为已核实,本节点未逐一二次 fetch,标〔待核实〕计 8 项。
  • 2026-06-11 P3.4 校链:0416/0430 已落盘主库,§9 缓解层、§10 关系、§11 关联里指向它们的降级文本恢复为真 NNNN 总览 链并删 staging 注解;0436 仍在 staging,改标”0436 待补完入库”保留普通文本。
  • 2026-06-12 内审·arXiv 联网核实:清了 8 个 / 存疑 0 个。R0 修订日志结尾”剩余 arXiv ID(2404.13208/2407.09121/2406.13352/2506.22521/2502.14182/2402.04249/2501.18837/2506.24068)…标〔待核实〕计 8 项”——本轮逐一 WebFetch arxiv.org/abs 直查 abstract,8 项全部存在且与正文引述吻合:2404.13208=Instruction Hierarchy(Wallace et al.)、2407.09121=Decoupled Refusal Training/分离拒绝训练(Yuan et al.)、2406.13352=AgentDojo(Debenedetti et al.)、2506.22521=Model Extraction 综述(Zhao et al.)、2502.14182=Multi-Faceted Studies on Data Poisoning(He et al.)、2402.04249=HarmBench(Mazeika et al.)、2501.18837=Constitutional Classifiers(Sharma et al.)、2506.24068=STACK(McKenzie et al.)。本节点正文内引用均为已核实编号,0 存疑。(R0 历史”计 8 项”留痕按 append-only 保留。)