G02 攻防代际演化详解·从单轮越狱到 Agent 注入 · 知识库

本节点要解决的问题：LLM 攻防不是一张静态的”威胁清单”，而是一部攻方与防方互相塑形、防御响应反过来定义下一代攻击的演化史。 G01 给出了攻防代际的总谱系图（横向”是什么”），本节是它的纵向展开——逐代追问：这一代的代表攻击类是什么？防方如何响应？响应触到了什么瓶颈？瓶颈如何被下一代攻击翻越？框架取自库恩式范式演替：每一代不是上一代的”加强版”，而是攻击面发生了不可通约的位移（从”输入”到”数据”再到”工具调用链”）。反共识立场：把每一代写成”防御越来越强”是对这个领域最危险的误读——真实的曲线是”攻击面随产品能力同步扩张，旧防御在新形态下系统性失效”。

§0 为什么用”攻防共演”框架，而不是”漏洞清单”框架

读者脑中的默认框架是 OWASP LLM Top 10 那样的漏洞清单：把 prompt injection、jailbreak、data poisoning 当成并列的十个格子。这个框架对审计有用，但对 PM 的架构决策有害——它暗示”逐格打补丁就能收敛”。

正确框架是攻防共演（co-evolution）：防御响应本身会重新定义攻击面。这不是修辞。三个硬证据：

OpenAI 部署”指令层级”训练（Wallace et al., arXiv:2404.13208, 2024）后，直接覆盖系统提示的攻击成功率下降——于是攻击位移到”让注入内容看起来像系统指令”（AgentDojo 实测此绕过仍部分有效）。防御催生了伪装。
Microsoft 部署 XPIA 注入过滤器后，EchoLeak（CVE-2025-32711，CVSS 9.3）专门设计了绕过 XPIA 的载荷。过滤器的存在，定义了”如何绕过过滤器”这个新攻击类。
STACK 攻击（McKenzie et al., arXiv:2506.24068, 2025/2026）直接以防御流水线本身为靶——此前对单层防御 ASR=0% 的攻击，在分阶段攻击组合防御时重新有效（黑盒 71% 成功率）。

[!note] 框架级断言在攻防共演框架下，“防御覆盖率”是个会骗人的指标。一个防御把已知攻击的 ASR 压到 0%，常常只是把攻击挤到了下一个形态。PM 该问的不是”我们挡住了多少已知攻击”，而是”我们的防御把攻击挤到了哪里，那个新位置我们看得见吗”。这一点与失败考古专题的”攻防是失败机理层”一脉相承：失败不是 bug 列表，是结构性演化。

下面逐代展开。代际划分以攻击面所在的层为轴（输入层 → 训练数据层 → 工具调用层），不以年份硬切——年份只标定”该形态被首次系统化记录”的时点。

§1 第一代：单轮直接越狱（攻击面 = 用户输入）

时点：2022 下半年 ChatGPT 公开后爆发，2023 形成方法学。

代表攻击类：单轮提示操控。角色扮演（“你现在是 DAN，没有任何限制”）、虚构场景包装、低资源语言/编码混淆（Base64、密文）。机理：模型的安全策略由 RLHF（见 RLHF）在表层对齐，单轮语境可把请求”重新框定”为对齐训练未覆盖的分布。

防御响应：

守卫模型（Guard Models）：Meta LlamaGuard、Google ShieldGemma——独立分类器审核 I/O。
拒绝训练强化：在 RLHF 阶段加入更多拒绝样本。

瓶颈：

守卫模型是被训练的模型，不是形式验证——有不可消除的假阴性率。Unit42（Palo Alto, 2025-06-02）实测三个主流平台，输入过滤绕过率 8%–47%；其中一个平台未检测的 51 个恶意提示里 42 个来自角色扮演/虚构场景。
泛化性差：针对已知攻击训练的守卫，对新变体迁移性弱（SoK: Evaluating Jailbreak Guardrails, arXiv:2506.10597, IEEE S&P 2026 录用）。

被下一代超越的方式：守卫只看”用户输入”这一个口子。当 RAG / 浏览 / 文档处理把外部数据引入上下文，攻击不再需要用户亲自输入恶意串——它藏进模型要读的网页里。攻击面从”用户”位移到”所有被模型消费的数据”。第一代守卫对此结构性失明。

[!warning] 防御失效反例（第一代） DAN 类越狱并未”被解决”，只是被新闻周期遗忘。 TechRxiv 2026 越狱综述给出实测：先进自动化攻击在开源模型上成功率 90%–99%，黑盒商业模型 80%–94%。把”现在没人玩 DAN 了”误读成”单轮越狱已被防住”，是典型的幸存者偏差——它只是不再是最前沿的攻击，绝非失效。

§2 第一代半：多轮与多模态越狱（攻击面仍在输入，但维度展开）

时点：2023–2024。

代表攻击类：

多轮累积：逐步建立恶意语境，单轮看似无害，绕过单轮检测器。
多模态载体：图像/音频中嵌入指令，绕过纯文本过滤。Enkrypt AI 对 Gemini 的独立红队（2025）发现视觉模态的安全绕过尤其显著。

防御响应：

对话级（而非单轮级）监控：守卫看完整历史。
分离拒绝训练（Decoupled Refusal Training, arXiv:2407.09121）：让模型在任意生成步骤都能切换到安全输出，对抗”先诱导半句再续写”。
潜在空间对抗训练（arXiv:2501.10639）。

瓶颈：与对抗样本的军备竞赛格局——语义等价变形可绕过。更深的问题：对齐税（The Jailbreak Tax, OpenReview 2025）争议——强化安全训练是否以牺牲模型总体能力为代价？该研究提出”越狱输出实用性”指标，结论尚无共识。2026 一项研究（arXiv:2604.18510）进一步质疑：拒绝机制可能涉及多个独立方向而非单一可操控维度，这意味着”调一个安全旋钮”的防御设计可能从根上就建错了模型。

被下一代超越的方式：多模态/多轮仍假设”攻击者在和模型对话”。下一代根本不需要对话——攻击者把模型行为写进训练数据，在模型出厂前就埋好后门。攻击面从”推理时”位移到”训练时”。

[!warning] 防御失效反例（第一代半） Constitutional Classifiers（Constitutional AI 的产品化防御）号称把越狱率从 86% 压到 4.4%（Anthropic, arXiv:2501.18837, 2025），但人工红队 Bug Bounty 阶段（339 名参与者、30 万次交互）仍有 1 人实现通用越狱，且多模态场景仍脆弱。这恰好印证攻防共演：一个高强度防御把单轮文本越狱挤到接近 0，攻击就涌向多模态和对话长程——0% 从来不是终点，是迁移信号。

§3 第二代：训练时投毒与后门（攻击面 = 训练/微调/RLHF 数据）

时点：2024–2025 形成系统化威胁模型。

代表攻击类：

预训练投毒：0.01% 毒化样本即可对特定 prompt 改变答案（ICLR 2024）；医疗领域 0.001% 错误信息即可显著倾斜输出（Nature Medicine 引用研究）。
微调/供应链后门：投毒近似常数量级的样本即可植入后门，不随模型规模线性增长，颠覆”大模型更难投毒”的直觉（“Poisoning LLMs requires a near-constant number of samples”, arXiv:2510.07192, 2025；该研究系 Anthropic / UK AISI / Alan Turing Institute 方向工作，报道的量级为数百份文档级〔具体数字与参数区间待入库前 WebFetch 复核〕）。Agentic 供应链层面，少量演示数据即可使 Agent 泄露信息成功率 >80%（“Malice in Agentland”, arXiv:2510.05159, Boisvert et al., 2025，已核实）。
RLHF 投毒：PoisonBench（2024）区分对齐退化攻击与内容注入攻击。

防御响应：

异常检测（BERT embedding 距离）、数据集清洗、数据溯源/SBOM（供应链物料清单）、差分隐私训练。

瓶颈（这是本代最尖锐的发现）：标准 RLHF/SFT/DPO 对齐不能可靠移除预训练后门——污染 0.1% 预训练数据即可让后门穿透对齐持续生效（《Persistent Pre-Training Poisoning of LLMs》，Zhang et al., ICLR 2025, arXiv:2410.13722，已核实(2026-06-12)；原稿误把 ICLR 论文集 PDF 哈希 4dade38… 当作 arXiv 编号，已订正）。“对抗训练可能使后门更难检测”的子论断另出自 Sleeper Agents（arXiv:2401.05566）。也就是说，下游对齐无法洗掉上游的毒。干净标签（clean-label）攻击可绕过异常检测；隐蔽触发词难以枚举。

与第一代的本质区别：第一代防御部署在推理时（输入/输出过滤）。但投毒发生在训练时——等模型部署，所有推理时守卫面对的已是一个”看起来正常、特定触发下变节”的模型。这是推理时防御的盲区：你过滤的是输入，但后门在权重里。

[!warning] 防御失效反例（第二代） “我们清洗了数据集”≠ 安全。 干净标签投毒的样本在人类和分类器看来都”正常”，分布外检测对它失效。更糟的是后门持久性：近常数量级样本即可植入后门（arXiv:2510.07192），攻击成本极低，而 ICLR 2025（预训练后门持久性研究）表明对齐训练洗不掉它——投毒的进攻经济学远好于防御。

但这里要做一次 confirmation-bias 砍除：本领域早期反复以”几百份文档即可后门化”渲染恐慌，这是 bias。补入反例——arXiv:2502.14182（2025 位置论文）主张：实际攻击者进入训练流程本身门槛很高（自托管场景 ≠ 主流闭源模型供应链），且此类研究可服务于发现模型偏见的正向目标。真实风险取决于威胁模型：自托管开源 vs 闭源供应链，二者差异巨大。PM 不能照搬”低样本量”的恐慌叙事到所有场景。

被下一代超越的方式：投毒和越狱都还在攻击模型本身。当 LLM 被装进 Agent、获得工具调用能力，攻击者发现了更省力的路径——不必投毒训练、不必越狱对齐，只需在 Agent 将要读取的外部数据里藏一句指令。攻击面从”模型”位移到”模型 + 工具 + 外部数据源”的整个回路。

§4 第三代：间接与跨工具 Prompt Injection（攻击面 = Agent 工具调用回路）

时点：2023 由 Greshake 等定义雏形（Bing Chat PoC, Black Hat 2023），2025–2026 随 Agent 工具化爆发。这是当前的前沿代际。

代表攻击类：间接 Prompt Injection（IPI）。攻击载荷不来自用户，而嵌入 Agent 处理的外部内容——网页、邮件、文档、RAG 检索块、工具返回值。机理（与幻觉的不可消除性同构）：LLM 在架构上无法原生区分”可信指令”与”待处理数据”——系统提示、用户输入、工具返回全部折叠进同一上下文窗口，获得同等优先级。这是 c13 - 幻觉的不可消除性揭示的同一类结构性缺陷在安全维度的投影。

Agent 控制循环 规划 → 工具调用 → 工具返回 → 更新状态 每迭代一轮，每个”工具返回”节点都是注入入口，攻击面随工具调用次数线性扩大。这正是 m207 - Agent 产品化：场景推演与失败模式所说”工具调用即攻击面”的安全代价——m207 从产品兜底角度讲六类失败模式，本节从攻防角度讲：工具调用环节的失败模式，其机理层就是 IPI。

真实事件（均已有 CVE / 公开披露）：

EchoLeak / CVE-2025-32711（M365 Copilot, CVSS 9.3）：一封特制邮件零点击触发 Copilot 检索内部文件、编码外泄——并绕过 Microsoft XPIA 过滤器与链接脱敏，滥用 CSP 白名单中的微软自有域完成外泄。
Slack AI 私有频道泄露（PromptArmor, 2024-08）：public 频道注入操控 Slack AI 把受害者私有频道数据附加到外链。
MCP Tool Poisoning / CVE-2025-54136 “MCPoison”：恶意 MCP 服务器在工具描述里嵌指令，在工具发现/注册阶段（boot time）注入，比运行时 IPI 更隐蔽。7 个主流客户端测评 5/7 缺静态验证，DREAD 评分 46.5/50。

防御响应（本代防御谱系）：

防御	机制	实测
指令层级（Instruction Hierarchy, arXiv:2404.13208）	system > user > tool，冲突时优先高权限	已部署 GPT-4o；可被”伪装成系统指令”部分绕过
数据-指令分离（StruQ / ASIDE, arXiv:2503.10566）	结构化标记 / embedding 正交旋转	ASIDE ICLR 2026；需专项安全训练
权限分离（OpenClaw, arXiv:2603.13424）	低权限 Agent 处理不可信输入，高权限 Agent 隔离	同权限层级横向传播仍无解
工具过滤器（AgentDojo）	移除攻击所需工具	GPT-4o ASR 57.7%→6.8%，效用保 73.1%
Progent（arXiv:2504.11703）	SMT solver 确定性验证工具调用策略	IPI ASR 41.2%→2.2%

瓶颈：

白盒防御的部署鸿沟：AgentSentry（arXiv:2602.22724）、ICON（arXiv:2602.20708）等推理时检测可达 0%–0.4% ASR，但需访问注意力权重——闭源 API 部署不了。
基准饱和：arXiv:2510.05244 实证现有基准有系统性测量偏差（ASB 强制注入攻击工具使 ASR 虚高约 8×；AgentDojo 部分任务无论防御与否都失败）。很多被报告的”0% ASR”反映的是基准缺陷，不是真实防御力。
HITL 不可扩展：高风险操作人工审批是共识，但高频 Agent 场景（每分钟数百次工具调用）下不可行，且有审批疲劳——频繁低风险审批会降低人对真实高风险事件的判断力。

[!warning] 防御失效反例（第三代） EchoLeak 是”加了过滤器就安全”这一系统性滑变的活教材。 Microsoft 部署了 XPIA 注入过滤器、部署了链接脱敏——EchoLeak 把这两层逐一专门绕过。这印证 §0 的共演断言：防御层的存在定义了绕过它的攻击类。“加个内容过滤就安全了”在 Agent 时代是致命错觉——过滤器是攻击成本提升器，不是攻击阻断器（AquilaX 表述）。

被下一代超越的征兆（已在显现）：Multi-Agent 跨信任边界传播——orchestrator 处理被注入的 subagent 输出，恶意指令向上游”合法”传播（OpenClaw 称”同权限横向传播”，当前架构无法防御）；动态工具更新的”rug pull”（已批准工具被换成注入版）。攻击面正从”单 Agent 回路”位移到”多 Agent 协作拓扑”。

§5 判断主轴：攻防代际演化里 90% 的人会搞错的四个点

这是本节点的命门——四个最常见的代际误读，每个带”症状 → 为什么会错 → 正确做法 → 真实反例”。

误读一：把代际看成”防御进步史”。

症状：“新模型更安全了，旧攻击不用管了。”
为什么会错：攻击面在位移不在消失。新一代攻击翻越的是旧防御的结构盲区，不是和旧防御正面更强。
正确做法：把每代防御理解为”把攻击挤到下一层”，持续监控被挤去的新位置。
真实反例：单轮越狱（第一代）从未失效（开源 90%–99% 成功率, TechRxiv 2026），只是不再是头条。

误读二：把”安全”等同于”加过滤器”。

症状：“我们上了内容审核 API，安全闭环了。”
为什么会错：守卫是被训练的模型，有不可消除假阴性；过滤器存在反而定义了绕过它的攻击类。
正确做法：纵深防御——概率性控制（过滤、对齐）+ 确定性控制（权限隔离、沙箱、HITL）组合；策略重心从”完全阻断”转向”降低爆炸半径”（OWASP LLM Top 10 2025）。
真实反例：EchoLeak 专门绕过 XPIA 过滤器（CVE-2025-32711）；STACK 黑盒 71% 攻破含分类器的防御流水线（arXiv:2506.24068）。

误读三：把 safety、security、alignment 混为一谈。

症状：“模型对齐做好了就安全了。”
为什么会错：三者威胁来源不同——safety 防系统自身非故意伤害（幻觉/偏见），security 防外部对抗攻击（注入/投毒），alignment 防目标偏差。对齐不是安全机制，只降低概率。
正确做法：分层归因。Unit42 数据：模型对齐在 109/123 个 jailbreak 上成功阻断，但这是”概率降低”非”边界保证”——高级对抗攻击仍绕过 RLHF 对齐。
真实反例：一个完美对齐（追求人类意图）的 Agent，仍可被 IPI 劫持去执行外部数据里的恶意指令——对齐与否不改变”模型无法区分指令与数据”这个架构事实。

误读四：把 benchmark 上的 0% ASR 当成安全证明。

症状：“我们在 AgentDojo 上 0% 攻击成功率。”
为什么会错：基准有系统性测量偏差，部分 0% 反映基准缺陷（任务本身失败、攻击工具被强制注入虚高基线）而非真实防御。
正确做法：用自适应攻击评测，区分”基准内 0%“与”真实威胁下 0%“；引用基准时核对其已知缺陷。
真实反例：arXiv:2510.05244 修正 AgentDojo 任务设计缺陷后效用提升 >18%，说明原基准测的不是它声称测的东西。

§6 产品 PM 视角补盲

工程视角只看”攻击成功率”，PM 必须补三个看走眼点：

零点击 = 用户心理模型崩塌。EchoLeak 的”零点击”意味着用户没有任何操作就受害——这击穿了所有”提示用户谨慎点击”的安全教育。Agent 产品的安全感知不能再依赖用户行为，必须前移到架构（呼应 Rick 滴滴”安全感知与干预”的”降发生”思路：不是事后追责，是结构上降低事件发生概率）。
审批疲劳是商业模式问题，不只是 UX 问题。HITL 是防御共识，但每分钟数百次审批的 Agent 不可能逐次确认。“哪些操作真正需要人工”是产品分级决策（参考 m207 的 HITL 断点三维判断：可逆性 × 后果 × 置信度），错误的分级要么放穿攻击，要么用审批疲劳逼用户全部放行。
供应链信任是 GTM 边界。MCP Tool Poisoning 意味着 Agent 产品集成第三方工具时，工具描述本身是攻击面。对 B 端客户，“我们集成了 100 个工具”是卖点也是 100 个注入入口——供应链审计能力会成为企业采购的硬门槛。

§7 对手框架回应

接受 + 边界，不做反驳式装饰：

对手立场一（数据投毒怀疑论, arXiv:2502.14182）：接受——闭源主流模型的供应链投毒门槛确实远高于”250 文档”叙事暗示的；该研究警惕安全圈的危言耸听是对的。边界：这只在”闭源供应链”威胁模型下成立；自托管/开源微调场景（Rick 若在 99/滴滴自训模型）门槛低得多，不能照搬乐观结论。我赌的是：随着企业自托管开源模型增多，投毒的现实攻击面在扩大而非缩小。
对手立场二（架构级防御乐观派：OpenClaw 权限分离、ASIDE embedding 旋转）：接受——确定性的权限分离比概率性过滤强得多，是正确方向。边界：OpenClaw 自己承认”同权限横向传播”无解，ASIDE 需专项安全训练且未验证多跳注入。我赌的是：架构级防御能压住单 Agent 回路，但 Multi-Agent 拓扑会是下一个失守点，2026–2027 会出现首批 Multi-Agent 跨信任边界的真实 CVE。
对手立场三（Williams-King et al., arXiv:2501.11183，Rick 未读的对手框架）：他们用网络安全史逼问 AI 安全——当前安全微调形同”打补丁的军备竞赛”而非原则性设计，重复了网络安全早期临时修补的失败教训，呼吁架构层内嵌安全原则。接受：本节”攻防共演”叙事其实印证了他们——逐代打补丁确实没收敛。边界：他们呼吁的”原则性架构设计”至今无大规模可部署方案；PM 决策无法等待理论成熟，只能在补丁与架构之间做纵深组合。这是清醒的妥协，不是认输。
failure scenario 标注：本节”代际位移”框架在攻击面不位移、只在同层加深的场景会失效——例如纯文本越狱在某个封闭模型上的长期军备竞赛，并无”换层”，此时”共演位移”叙事不如”军备竞赛”叙事贴切。

§8 跨域呼应：库恩范式演替 vs 拉卡托斯研究纲领

调度范式（库恩）作为本节代际划分的方法论骨架，但必须引入一个对手框架来逼问它的盲点——拉卡托斯（Imre Lakatos，Rick 0411 已引入的对手框架）的”研究纲领”。

库恩式读法把攻防演化读成不可通约的范式更替：输入层 → 训练层 → 工具层，每代攻击面位移到不同的”层”，旧防御在新层失明。这解释了为什么”逐格打补丁”不收敛——格子之间不可通约。

但拉卡托斯会反问：这真是”范式革命”，还是同一个研究纲领的硬核未变、保护带在调整？攻防双方的”硬核”始终是那一句——LLM 无法在架构层区分指令与数据。从 DAN 到 EchoLeak 到 MCPoison，攻击的”保护带”（具体手法）在变，但硬核命题从未被推翻。

[!note] 跨域呼应如何改变技术判断这个张力直接改变 PM 的判断：如果是库恩式范式革命，防御策略该是”为每一代准备一套新防御栈”；如果是拉卡托斯式同一纲领，防御策略该是”攻击硬核本身”——即从根上做指令-数据分离（ASIDE/StruQ 方向），而非追着每代手法打补丁。本节的赌注偏向后者：真正能终结这场共演的，不是更聪明的过滤器，而是让模型在表征层就分得清”这是数据”还是”这是命令”。在那之前，攻防共演不会收敛——这与 c13 - 幻觉的不可消除性是同一个认识论结论：源于架构的缺陷，无法靠后置审核消除。

§9 PM 决策启示

面试怎么用：被问”如何保障 AI Agent 安全”时，不说”加内容过滤”，而说”安全不是 safety/security/alignment 的混淆，注入攻击是 security，过滤器是概率控制有不可消除假阴性，真正的防御是权限分离 + 数据指令分离 + 降爆炸半径”。直接用 EchoLeak 绕过 XPIA 做证据。30 秒立判候选人是否真懂。
选型怎么用：评估 Agent 框架/MCP 工具时，问三个共演问题——“工具返回值如何与系统指令隔离？""第三方工具描述是否做静态验证（防 MCPoison）？""高风险操作的 HITL 分级策略是什么？“答不上来的方案，安全是后置贴的。
复现怎么用：用公开基准做防御方评测——HarmBench（arXiv:2402.04249）、AgentDojo（arXiv:2406.13352）跑 ASR，但务必核对基准已知缺陷（arXiv:2510.05244），区分”基准内 0%“与”真实 0%“。只做检测/评测/缓解，不复现可武器化的攻击串。

§10 与已有节点的关系

对 m207 - Agent 产品化：场景推演与失败模式：深化 + 机理补缺。m207 从产品兜底讲”工具调用失败”是六类失败模式之一；本节补上它的安全机理层——工具调用失败的对抗版本就是 IPI，且攻击面随工具调用线性扩张。不复述 m207 的失败模式分类。
对 c13 - 幻觉的不可消除性：同构对照。幻觉源于架构（模型无法验证自身输出真值），IPI 源于同类架构缺陷（模型无法区分指令与数据）。两者都是”后置审核无法消除的结构性缺陷”。
对 Constitutional AI / RLHF：纠偏。本节指出对齐（CAI/RLHF）是 safety/alignment 机制，不是 security 机制——Constitutional Classifiers 把越狱率压到 4.4% 仍被攻破 1 例，对齐降低概率不提供边界。
对失败考古专题：机理层供给。攻防是失败考古的机理层——本节的代际共演为失败考古提供”失败为何反复发生”的结构解释。
对本专题 G01 对抗攻防军备竞赛谱系：纵向展开。G01 给攻防代际总图（横向），本节逐代深化攻击类/防御响应/瓶颈/被超越的链条（纵向）。
对 0436 Agent 权限边界（0436 待补完入库）/ AI 作为制度现象专题”安全规范制定”：升级对照。本节论证了”为何需要权限边界”（IPI 攻击面）与”为何需要制度化安全规范”（共演不收敛，需流程而非一次性防御），为那两个节点提供攻防动机层。

§11 关联节点

核心（必读）

延伸（可选）

幻觉
范式
Anthropic
0117社会学
AI PM 知识图谱·总索引
AI 作为制度现象专题”安全规范制定”；0436 Agent 权限边界（0436 待补完入库，暂作普通文本）

注（2026-06-11 P3.4 校链）：0416 失败考古专题、0430 安全规范制定经主库 find 实证现已落盘，原降级文本恢复为真 NNNN 总览 链；0436 Agent 权限边界仍在 staging（待补完入库），暂作普通文本，已登记 _待建概念清单.md，不在主库建 stub。同名陷阱已校正（前轮）：原稿 G01 Agent 代际谱系总图 会误链到 0411 专题里真实存在的同名节点，已改为本专题真实同级 G01 对抗攻防军备竞赛谱系。

修订日志

R1（2026-06-07）：首稿。建立”攻防共演”框架对抗”漏洞清单”框架；逐代展开四代（输入层单轮 → 输入层多模态/多轮 → 训练层投毒 → 工具层 IPI），每代含代表攻击类/防御响应/瓶颈/被超越方式 + 防御失效反例；判断主轴四误读四件套；引入库恩 vs 拉卡托斯跨域对照与 Williams-King 对手框架；与 m207/c13/CAI/0416 显式升级对照。
R1-grounding（2026-06-07）：WebFetch 复核四个核心锚点全部确证——Instruction Hierarchy（arXiv:2404.13208, Wallace et al.）、AgentDojo（arXiv:2406.13352, Debenedetti et al.，实为 97 任务/629 安全测试用例，本节未误用”949”数字）、HarmBench（arXiv:2402.04249, Mazeika et al.，18 方法×33 模型确证）、EchoLeak/CVE-2025-32711（CVSS 9.3、绕过 XPIA、滥用 CSP 中微软 Teams 代理域，全部确证）；ASIDE（arXiv:2503.10566, Zverev et al.，正交旋转 data token embedding 确证）。纠错一处：原稿把”近常数量级样本后门化、不随规模增长”误归于 arXiv:2510.05159（实为 “Malice in Agentland” 的 agentic 供应链后门，>80% 泄露），已改归 arXiv:2510.07192（near-constant samples 方向），并将具体文档数与参数区间标〔待核实〕。2026 系列 arXiv ID（2601/2602/2603/2604）及 Unit42/TechRxiv/Anthropic Constitutional Classifiers 量化数字仍待入库前逐条 WebFetch 复核。
2026-06-11 P3.4 校链：0416/0430 已落盘主库，§9/§10/§11 三处跨专题降级文本恢复为真 NNNN 总览 链并删 staging 注解；0436 仍在 staging，改标”0436 待补完入库”保留普通文本。
2026-06-12 内审·arXiv 联网核实：清了 1 个 / 存疑 0 个。§4 第二代”瓶颈”段原稿误把 ICLR 论文集 PDF 哈希 4dade38… 当作 arXiv 编号，经 WebSearch+WebFetch 锁定真身《Persistent Pre-Training Poisoning of LLMs》（Zhang et al., ICLR 2025, arXiv:2410.13722），订正编号并补正 0.1% 数据穿透 SFT/DPO 的核心论断，“更难检测”子论断归 Sleeper Agents(2401.05566)。另：R1-grounding 留痕中”2026 系列 arXiv ID（2601/2602/2603/2604）待入库前逐条复核”——本轮已对全专题用到的 2602.20708(ICON)/2602.22724(AgentSentry)/2603.13424(OpenClaw)/2603.22489(MCP Threat Modeling)/2604.18510 逐一 WebFetch，全部存在，无未来日期占位虚构。