R

G02 攻防代际演化详解·从单轮越狱到 Agent 注入

创建 2026-06-07 更新 2026-06-12 0 条双链 AI 红队与攻防 专题 AI 整理

本节点要解决的问题:LLM 攻防不是一张静态的”威胁清单”,而是一部攻方与防方互相塑形、防御响应反过来定义下一代攻击的演化史。 G01 给出了攻防代际的总谱系图(横向”是什么”),本节是它的纵向展开——逐代追问:这一代的代表攻击类是什么?防方如何响应?响应触到了什么瓶颈?瓶颈如何被下一代攻击翻越?框架取自库恩式范式演替:每一代不是上一代的”加强版”,而是攻击面发生了不可通约的位移(从”输入”到”数据”再到”工具调用链”)。反共识立场:把每一代写成”防御越来越强”是对这个领域最危险的误读——真实的曲线是”攻击面随产品能力同步扩张,旧防御在新形态下系统性失效”。

§0 为什么用”攻防共演”框架,而不是”漏洞清单”框架

读者脑中的默认框架是 OWASP LLM Top 10 那样的漏洞清单:把 prompt injection、jailbreak、data poisoning 当成并列的十个格子。这个框架对审计有用,但对 PM 的架构决策有害——它暗示”逐格打补丁就能收敛”。

正确框架是攻防共演(co-evolution):防御响应本身会重新定义攻击面。这不是修辞。三个硬证据:

  • OpenAI 部署”指令层级”训练(Wallace et al., arXiv:2404.13208, 2024)后,直接覆盖系统提示的攻击成功率下降——于是攻击位移到”让注入内容看起来像系统指令”(AgentDojo 实测此绕过仍部分有效)。防御催生了伪装。
  • Microsoft 部署 XPIA 注入过滤器后,EchoLeak(CVE-2025-32711,CVSS 9.3)专门设计了绕过 XPIA 的载荷。过滤器的存在,定义了”如何绕过过滤器”这个新攻击类。
  • STACK 攻击(McKenzie et al., arXiv:2506.24068, 2025/2026)直接以防御流水线本身为靶——此前对单层防御 ASR=0% 的攻击,在分阶段攻击组合防御时重新有效(黑盒 71% 成功率)。

[!note] 框架级断言 在攻防共演框架下,“防御覆盖率”是个会骗人的指标。一个防御把已知攻击的 ASR 压到 0%,常常只是把攻击挤到了下一个形态。PM 该问的不是”我们挡住了多少已知攻击”,而是”我们的防御把攻击挤到了哪里,那个新位置我们看得见吗”。这一点与 失败考古专题 的”攻防是失败机理层”一脉相承:失败不是 bug 列表,是结构性演化。

下面逐代展开。代际划分以攻击面所在的层为轴(输入层 → 训练数据层 → 工具调用层),不以年份硬切——年份只标定”该形态被首次系统化记录”的时点。


§1 第一代:单轮直接越狱(攻击面 = 用户输入)

时点:2022 下半年 ChatGPT 公开后爆发,2023 形成方法学。

代表攻击类:单轮提示操控。角色扮演(“你现在是 DAN,没有任何限制”)、虚构场景包装、低资源语言/编码混淆(Base64、密文)。机理:模型的安全策略由 RLHF(见 RLHF)在表层对齐,单轮语境可把请求”重新框定”为对齐训练未覆盖的分布。

防御响应

  • 守卫模型(Guard Models):Meta LlamaGuard、Google ShieldGemma——独立分类器审核 I/O。
  • 拒绝训练强化:在 RLHF 阶段加入更多拒绝样本。

瓶颈

  1. 守卫模型是被训练的模型,不是形式验证——有不可消除的假阴性率。Unit42(Palo Alto, 2025-06-02)实测三个主流平台,输入过滤绕过率 8%–47%;其中一个平台未检测的 51 个恶意提示里 42 个来自角色扮演/虚构场景
  2. 泛化性差:针对已知攻击训练的守卫,对新变体迁移性弱(SoK: Evaluating Jailbreak Guardrails, arXiv:2506.10597, IEEE S&P 2026 录用)。

被下一代超越的方式:守卫只看”用户输入”这一个口子。当 RAG / 浏览 / 文档处理把外部数据引入上下文,攻击不再需要用户亲自输入恶意串——它藏进模型要读的网页里。攻击面从”用户”位移到”所有被模型消费的数据”。第一代守卫对此结构性失明

[!warning] 防御失效反例(第一代) DAN 类越狱并未”被解决”,只是被新闻周期遗忘。 TechRxiv 2026 越狱综述给出实测:先进自动化攻击在开源模型上成功率 90%–99%,黑盒商业模型 80%–94%。把”现在没人玩 DAN 了”误读成”单轮越狱已被防住”,是典型的幸存者偏差——它只是不再是最前沿的攻击,绝非失效。


§2 第一代半:多轮与多模态越狱(攻击面仍在输入,但维度展开)

时点:2023–2024。

代表攻击类

  • 多轮累积:逐步建立恶意语境,单轮看似无害,绕过单轮检测器。
  • 多模态载体:图像/音频中嵌入指令,绕过纯文本过滤。Enkrypt AI 对 Gemini 的独立红队(2025)发现视觉模态的安全绕过尤其显著

防御响应

  • 对话级(而非单轮级)监控:守卫看完整历史。
  • 分离拒绝训练(Decoupled Refusal Training, arXiv:2407.09121):让模型在任意生成步骤都能切换到安全输出,对抗”先诱导半句再续写”。
  • 潜在空间对抗训练(arXiv:2501.10639)。

瓶颈:与对抗样本的军备竞赛格局——语义等价变形可绕过。更深的问题:对齐税(The Jailbreak Tax, OpenReview 2025)争议——强化安全训练是否以牺牲模型总体能力为代价?该研究提出”越狱输出实用性”指标,结论尚无共识。2026 一项研究(arXiv:2604.18510)进一步质疑:拒绝机制可能涉及多个独立方向而非单一可操控维度,这意味着”调一个安全旋钮”的防御设计可能从根上就建错了模型。

被下一代超越的方式:多模态/多轮仍假设”攻击者在和模型对话”。下一代根本不需要对话——攻击者把模型行为写进训练数据,在模型出厂前就埋好后门。攻击面从”推理时”位移到”训练时”。

[!warning] 防御失效反例(第一代半) Constitutional Classifiers(Constitutional AI 的产品化防御)号称把越狱率从 86% 压到 4.4%(Anthropic, arXiv:2501.18837, 2025),但人工红队 Bug Bounty 阶段(339 名参与者、30 万次交互)仍有 1 人实现通用越狱,且多模态场景仍脆弱。这恰好印证攻防共演:一个高强度防御把单轮文本越狱挤到接近 0,攻击就涌向多模态和对话长程——0% 从来不是终点,是迁移信号


§3 第二代:训练时投毒与后门(攻击面 = 训练/微调/RLHF 数据)

时点:2024–2025 形成系统化威胁模型。

代表攻击类

  • 预训练投毒:0.01% 毒化样本即可对特定 prompt 改变答案(ICLR 2024);医疗领域 0.001% 错误信息即可显著倾斜输出(Nature Medicine 引用研究)。
  • 微调/供应链后门:投毒近似常数量级的样本即可植入后门,不随模型规模线性增长,颠覆”大模型更难投毒”的直觉(“Poisoning LLMs requires a near-constant number of samples”, arXiv:2510.07192, 2025;该研究系 Anthropic / UK AISI / Alan Turing Institute 方向工作,报道的量级为数百份文档级〔具体数字与参数区间待入库前 WebFetch 复核〕)。Agentic 供应链层面,少量演示数据即可使 Agent 泄露信息成功率 >80%(“Malice in Agentland”, arXiv:2510.05159, Boisvert et al., 2025,已核实)。
  • RLHF 投毒:PoisonBench(2024)区分对齐退化攻击与内容注入攻击。

防御响应

  • 异常检测(BERT embedding 距离)、数据集清洗、数据溯源/SBOM(供应链物料清单)、差分隐私训练。

瓶颈(这是本代最尖锐的发现)标准 RLHF/SFT/DPO 对齐不能可靠移除预训练后门——污染 0.1% 预训练数据即可让后门穿透对齐持续生效(《Persistent Pre-Training Poisoning of LLMs》,Zhang et al., ICLR 2025, arXiv:2410.13722,已核实(2026-06-12);原稿误把 ICLR 论文集 PDF 哈希 4dade38… 当作 arXiv 编号,已订正)。“对抗训练可能使后门更难检测”的子论断另出自 Sleeper Agents(arXiv:2401.05566)。也就是说,下游对齐无法洗掉上游的毒。干净标签(clean-label)攻击可绕过异常检测;隐蔽触发词难以枚举。

与第一代的本质区别:第一代防御部署在推理时(输入/输出过滤)。但投毒发生在训练时——等模型部署,所有推理时守卫面对的已是一个”看起来正常、特定触发下变节”的模型。这是推理时防御的盲区:你过滤的是输入,但后门在权重里。

[!warning] 防御失效反例(第二代) “我们清洗了数据集”≠ 安全。 干净标签投毒的样本在人类和分类器看来都”正常”,分布外检测对它失效。更糟的是后门持久性:近常数量级样本即可植入后门(arXiv:2510.07192),攻击成本极低,而 ICLR 2025(预训练后门持久性研究)表明对齐训练洗不掉它——投毒的进攻经济学远好于防御

但这里要做一次 confirmation-bias 砍除:本领域早期反复以”几百份文档即可后门化”渲染恐慌,这是 bias。补入反例——arXiv:2502.14182(2025 位置论文)主张:实际攻击者进入训练流程本身门槛很高(自托管场景 ≠ 主流闭源模型供应链),且此类研究可服务于发现模型偏见的正向目标。真实风险取决于威胁模型:自托管开源 vs 闭源供应链,二者差异巨大。PM 不能照搬”低样本量”的恐慌叙事到所有场景。

被下一代超越的方式:投毒和越狱都还在攻击模型本身。当 LLM 被装进 Agent、获得工具调用能力,攻击者发现了更省力的路径——不必投毒训练、不必越狱对齐,只需在 Agent 将要读取的外部数据里藏一句指令。攻击面从”模型”位移到”模型 + 工具 + 外部数据源”的整个回路。


§4 第三代:间接与跨工具 Prompt Injection(攻击面 = Agent 工具调用回路)

时点:2023 由 Greshake 等定义雏形(Bing Chat PoC, Black Hat 2023),2025–2026 随 Agent 工具化爆发。这是当前的前沿代际。

代表攻击类间接 Prompt Injection(IPI)。攻击载荷不来自用户,而嵌入 Agent 处理的外部内容——网页、邮件、文档、RAG 检索块、工具返回值。机理(与 幻觉 的不可消除性同构):LLM 在架构上无法原生区分”可信指令”与”待处理数据”——系统提示、用户输入、工具返回全部折叠进同一上下文窗口,获得同等优先级。这是 c13 - 幻觉的不可消除性 揭示的同一类结构性缺陷在安全维度的投影。

Agent 控制循环 规划 → 工具调用 → 工具返回 → 更新状态 每迭代一轮,每个”工具返回”节点都是注入入口,攻击面随工具调用次数线性扩大。这正是 m207 - Agent 产品化:场景推演与失败模式 所说”工具调用即攻击面”的安全代价——m207 从产品兜底角度讲六类失败模式,本节从攻防角度讲:工具调用环节的失败模式,其机理层就是 IPI

真实事件(均已有 CVE / 公开披露)

  • EchoLeak / CVE-2025-32711(M365 Copilot, CVSS 9.3):一封特制邮件零点击触发 Copilot 检索内部文件、编码外泄——并绕过 Microsoft XPIA 过滤器与链接脱敏,滥用 CSP 白名单中的微软自有域完成外泄。
  • Slack AI 私有频道泄露(PromptArmor, 2024-08):public 频道注入操控 Slack AI 把受害者私有频道数据附加到外链。
  • MCP Tool Poisoning / CVE-2025-54136 “MCPoison”:恶意 MCP 服务器在工具描述里嵌指令,在工具发现/注册阶段(boot time)注入,比运行时 IPI 更隐蔽。7 个主流客户端测评 5/7 缺静态验证,DREAD 评分 46.5/50。

防御响应(本代防御谱系)

防御机制实测
指令层级(Instruction Hierarchy, arXiv:2404.13208)system > user > tool,冲突时优先高权限已部署 GPT-4o;可被”伪装成系统指令”部分绕过
数据-指令分离(StruQ / ASIDE, arXiv:2503.10566)结构化标记 / embedding 正交旋转ASIDE ICLR 2026;需专项安全训练
权限分离(OpenClaw, arXiv:2603.13424)低权限 Agent 处理不可信输入,高权限 Agent 隔离同权限层级横向传播仍无解
工具过滤器(AgentDojo)移除攻击所需工具GPT-4o ASR 57.7%→6.8%,效用保 73.1%
Progent(arXiv:2504.11703)SMT solver 确定性验证工具调用策略IPI ASR 41.2%→2.2%

瓶颈

  1. 白盒防御的部署鸿沟:AgentSentry(arXiv:2602.22724)、ICON(arXiv:2602.20708)等推理时检测可达 0%–0.4% ASR,但需访问注意力权重——闭源 API 部署不了。
  2. 基准饱和:arXiv:2510.05244 实证现有基准有系统性测量偏差(ASB 强制注入攻击工具使 ASR 虚高约 8×;AgentDojo 部分任务无论防御与否都失败)。很多被报告的”0% ASR”反映的是基准缺陷,不是真实防御力
  3. HITL 不可扩展:高风险操作人工审批是共识,但高频 Agent 场景(每分钟数百次工具调用)下不可行,且有审批疲劳——频繁低风险审批会降低人对真实高风险事件的判断力。

[!warning] 防御失效反例(第三代) EchoLeak 是”加了过滤器就安全”这一系统性滑变的活教材。 Microsoft 部署了 XPIA 注入过滤器、部署了链接脱敏——EchoLeak 把这两层逐一专门绕过。这印证 §0 的共演断言:防御层的存在定义了绕过它的攻击类。“加个内容过滤就安全了”在 Agent 时代是致命错觉——过滤器是攻击成本提升器,不是攻击阻断器(AquilaX 表述)。

被下一代超越的征兆(已在显现):Multi-Agent 跨信任边界传播——orchestrator 处理被注入的 subagent 输出,恶意指令向上游”合法”传播(OpenClaw 称”同权限横向传播”,当前架构无法防御);动态工具更新的”rug pull”(已批准工具被换成注入版)。攻击面正从”单 Agent 回路”位移到”多 Agent 协作拓扑”。


§5 判断主轴:攻防代际演化里 90% 的人会搞错的四个点

这是本节点的命门——四个最常见的代际误读,每个带”症状 → 为什么会错 → 正确做法 → 真实反例”。

误读一:把代际看成”防御进步史”。

  • 症状:“新模型更安全了,旧攻击不用管了。”
  • 为什么会错:攻击面在位移不在消失。新一代攻击翻越的是旧防御的结构盲区,不是和旧防御正面更强。
  • 正确做法:把每代防御理解为”把攻击挤到下一层”,持续监控被挤去的新位置。
  • 真实反例:单轮越狱(第一代)从未失效(开源 90%–99% 成功率, TechRxiv 2026),只是不再是头条。

误读二:把”安全”等同于”加过滤器”。

  • 症状:“我们上了内容审核 API,安全闭环了。”
  • 为什么会错:守卫是被训练的模型,有不可消除假阴性;过滤器存在反而定义了绕过它的攻击类。
  • 正确做法:纵深防御——概率性控制(过滤、对齐)+ 确定性控制(权限隔离、沙箱、HITL)组合;策略重心从”完全阻断”转向”降低爆炸半径”(OWASP LLM Top 10 2025)。
  • 真实反例:EchoLeak 专门绕过 XPIA 过滤器(CVE-2025-32711);STACK 黑盒 71% 攻破含分类器的防御流水线(arXiv:2506.24068)。

误读三:把 safety、security、alignment 混为一谈。

  • 症状:“模型对齐做好了就安全了。”
  • 为什么会错:三者威胁来源不同——safety 防系统自身非故意伤害(幻觉/偏见),security 防外部对抗攻击(注入/投毒),alignment 防目标偏差。对齐不是安全机制,只降低概率。
  • 正确做法:分层归因。Unit42 数据:模型对齐在 109/123 个 jailbreak 上成功阻断,但这是”概率降低”非”边界保证”——高级对抗攻击仍绕过 RLHF 对齐。
  • 真实反例:一个完美对齐(追求人类意图)的 Agent,仍可被 IPI 劫持去执行外部数据里的恶意指令——对齐与否不改变”模型无法区分指令与数据”这个架构事实。

误读四:把 benchmark 上的 0% ASR 当成安全证明。

  • 症状:“我们在 AgentDojo 上 0% 攻击成功率。”
  • 为什么会错:基准有系统性测量偏差,部分 0% 反映基准缺陷(任务本身失败、攻击工具被强制注入虚高基线)而非真实防御。
  • 正确做法:用自适应攻击评测,区分”基准内 0%“与”真实威胁下 0%“;引用基准时核对其已知缺陷。
  • 真实反例:arXiv:2510.05244 修正 AgentDojo 任务设计缺陷后效用提升 >18%,说明原基准测的不是它声称测的东西。

§6 产品 PM 视角补盲

工程视角只看”攻击成功率”,PM 必须补三个看走眼点:

  1. 零点击 = 用户心理模型崩塌。EchoLeak 的”零点击”意味着用户没有任何操作就受害——这击穿了所有”提示用户谨慎点击”的安全教育。Agent 产品的安全感知不能再依赖用户行为,必须前移到架构(呼应 Rick 滴滴”安全感知与干预”的”降发生”思路:不是事后追责,是结构上降低事件发生概率)。
  2. 审批疲劳是商业模式问题,不只是 UX 问题。HITL 是防御共识,但每分钟数百次审批的 Agent 不可能逐次确认。“哪些操作真正需要人工”是产品分级决策(参考 m207 的 HITL 断点三维判断:可逆性 × 后果 × 置信度),错误的分级要么放穿攻击,要么用审批疲劳逼用户全部放行。
  3. 供应链信任是 GTM 边界。MCP Tool Poisoning 意味着 Agent 产品集成第三方工具时,工具描述本身是攻击面。对 B 端客户,“我们集成了 100 个工具”是卖点也是 100 个注入入口——供应链审计能力会成为企业采购的硬门槛。

§7 对手框架回应

接受 + 边界,不做反驳式装饰:

  • 对手立场一(数据投毒怀疑论, arXiv:2502.14182):接受——闭源主流模型的供应链投毒门槛确实远高于”250 文档”叙事暗示的;该研究警惕安全圈的危言耸听是对的。边界:这只在”闭源供应链”威胁模型下成立;自托管/开源微调场景(Rick 若在 99/滴滴自训模型)门槛低得多,不能照搬乐观结论。我赌的是:随着企业自托管开源模型增多,投毒的现实攻击面在扩大而非缩小。

  • 对手立场二(架构级防御乐观派:OpenClaw 权限分离、ASIDE embedding 旋转):接受——确定性的权限分离比概率性过滤强得多,是正确方向。边界:OpenClaw 自己承认”同权限横向传播”无解,ASIDE 需专项安全训练且未验证多跳注入。我赌的是:架构级防御能压住单 Agent 回路,但 Multi-Agent 拓扑会是下一个失守点,2026–2027 会出现首批 Multi-Agent 跨信任边界的真实 CVE。

  • 对手立场三(Williams-King et al., arXiv:2501.11183,Rick 未读的对手框架):他们用网络安全史逼问 AI 安全——当前安全微调形同”打补丁的军备竞赛”而非原则性设计,重复了网络安全早期临时修补的失败教训,呼吁架构层内嵌安全原则。接受:本节”攻防共演”叙事其实印证了他们——逐代打补丁确实没收敛。边界:他们呼吁的”原则性架构设计”至今无大规模可部署方案;PM 决策无法等待理论成熟,只能在补丁与架构之间做纵深组合。这是清醒的妥协,不是认输。

  • failure scenario 标注:本节”代际位移”框架在攻击面不位移、只在同层加深的场景会失效——例如纯文本越狱在某个封闭模型上的长期军备竞赛,并无”换层”,此时”共演位移”叙事不如”军备竞赛”叙事贴切。


§8 跨域呼应:库恩范式演替 vs 拉卡托斯研究纲领

调度 范式(库恩)作为本节代际划分的方法论骨架,但必须引入一个对手框架来逼问它的盲点——拉卡托斯(Imre Lakatos,Rick 0411 已引入的对手框架)的”研究纲领”。

库恩式读法把攻防演化读成不可通约的范式更替:输入层 → 训练层 → 工具层,每代攻击面位移到不同的”层”,旧防御在新层失明。这解释了为什么”逐格打补丁”不收敛——格子之间不可通约。

但拉卡托斯会反问:这真是”范式革命”,还是同一个研究纲领的硬核未变、保护带在调整?攻防双方的”硬核”始终是那一句——LLM 无法在架构层区分指令与数据。从 DAN 到 EchoLeak 到 MCPoison,攻击的”保护带”(具体手法)在变,但硬核命题从未被推翻。

[!note] 跨域呼应如何改变技术判断 这个张力直接改变 PM 的判断:如果是库恩式范式革命,防御策略该是”为每一代准备一套新防御栈”;如果是拉卡托斯式同一纲领,防御策略该是”攻击硬核本身”——即从根上做指令-数据分离(ASIDE/StruQ 方向),而非追着每代手法打补丁。本节的赌注偏向后者:真正能终结这场共演的,不是更聪明的过滤器,而是让模型在表征层就分得清”这是数据”还是”这是命令”。在那之前,攻防共演不会收敛——这与 c13 - 幻觉的不可消除性 是同一个认识论结论:源于架构的缺陷,无法靠后置审核消除。


§9 PM 决策启示

  • 面试怎么用:被问”如何保障 AI Agent 安全”时,不说”加内容过滤”,而说”安全不是 safety/security/alignment 的混淆,注入攻击是 security,过滤器是概率控制有不可消除假阴性,真正的防御是权限分离 + 数据指令分离 + 降爆炸半径”。直接用 EchoLeak 绕过 XPIA 做证据。30 秒立判候选人是否真懂。
  • 选型怎么用:评估 Agent 框架/MCP 工具时,问三个共演问题——“工具返回值如何与系统指令隔离?""第三方工具描述是否做静态验证(防 MCPoison)?""高风险操作的 HITL 分级策略是什么?“答不上来的方案,安全是后置贴的。
  • 复现怎么用:用公开基准做防御方评测——HarmBench(arXiv:2402.04249)、AgentDojo(arXiv:2406.13352)跑 ASR,但务必核对基准已知缺陷(arXiv:2510.05244),区分”基准内 0%“与”真实 0%“。只做检测/评测/缓解,不复现可武器化的攻击串。

§10 与已有节点的关系

  • m207 - Agent 产品化:场景推演与失败模式深化 + 机理补缺。m207 从产品兜底讲”工具调用失败”是六类失败模式之一;本节补上它的安全机理层——工具调用失败的对抗版本就是 IPI,且攻击面随工具调用线性扩张。不复述 m207 的失败模式分类。
  • c13 - 幻觉的不可消除性同构对照。幻觉源于架构(模型无法验证自身输出真值),IPI 源于同类架构缺陷(模型无法区分指令与数据)。两者都是”后置审核无法消除的结构性缺陷”。
  • Constitutional AI / RLHF纠偏。本节指出对齐(CAI/RLHF)是 safety/alignment 机制,不是 security 机制——Constitutional Classifiers 把越狱率压到 4.4% 仍被攻破 1 例,对齐降低概率不提供边界。
  • 对 失败考古专题:机理层供给。攻防是失败考古的机理层——本节的代际共演为失败考古提供”失败为何反复发生”的结构解释。
  • 对本专题 G01 对抗攻防军备竞赛谱系纵向展开。G01 给攻防代际总图(横向),本节逐代深化攻击类/防御响应/瓶颈/被超越的链条(纵向)。
  • 对 0436 Agent 权限边界(0436 待补完入库)/ AI 作为制度现象专题”安全规范制定”:升级对照。本节论证了”为何需要权限边界”(IPI 攻击面)与”为何需要制度化安全规范”(共演不收敛,需流程而非一次性防御),为那两个节点提供攻防动机层。

§11 关联节点

核心(必读)

延伸(可选)

注(2026-06-11 P3.4 校链):0416 失败考古专题、0430 安全规范制定经主库 find 实证现已落盘,原降级文本恢复为真 NNNN 总览 链;0436 Agent 权限边界仍在 staging(待补完入库),暂作普通文本,已登记 _待建概念清单.md,不在主库建 stub。同名陷阱已校正(前轮):原稿 G01 Agent 代际谱系总图 会误链到 0411 专题里真实存在的同名节点,已改为本专题真实同级 G01 对抗攻防军备竞赛谱系

修订日志

  • R1(2026-06-07):首稿。建立”攻防共演”框架对抗”漏洞清单”框架;逐代展开四代(输入层单轮 → 输入层多模态/多轮 → 训练层投毒 → 工具层 IPI),每代含代表攻击类/防御响应/瓶颈/被超越方式 + 防御失效反例;判断主轴四误读四件套;引入库恩 vs 拉卡托斯跨域对照与 Williams-King 对手框架;与 m207/c13/CAI/0416 显式升级对照。
  • R1-grounding(2026-06-07):WebFetch 复核四个核心锚点全部确证——Instruction Hierarchy(arXiv:2404.13208, Wallace et al.)、AgentDojo(arXiv:2406.13352, Debenedetti et al.,实为 97 任务/629 安全测试用例,本节未误用”949”数字)、HarmBench(arXiv:2402.04249, Mazeika et al.,18 方法×33 模型确证)、EchoLeak/CVE-2025-32711(CVSS 9.3、绕过 XPIA、滥用 CSP 中微软 Teams 代理域,全部确证);ASIDE(arXiv:2503.10566, Zverev et al.,正交旋转 data token embedding 确证)。纠错一处:原稿把”近常数量级样本后门化、不随规模增长”误归于 arXiv:2510.05159(实为 “Malice in Agentland” 的 agentic 供应链后门,>80% 泄露),已改归 arXiv:2510.07192(near-constant samples 方向),并将具体文档数与参数区间标〔待核实〕。2026 系列 arXiv ID(2601/2602/2603/2604)及 Unit42/TechRxiv/Anthropic Constitutional Classifiers 量化数字仍待入库前逐条 WebFetch 复核。
  • 2026-06-11 P3.4 校链:0416/0430 已落盘主库,§9/§10/§11 三处跨专题降级文本恢复为真 NNNN 总览 链并删 staging 注解;0436 仍在 staging,改标”0436 待补完入库”保留普通文本。
  • 2026-06-12 内审·arXiv 联网核实:清了 1 个 / 存疑 0 个。§4 第二代”瓶颈”段原稿误把 ICLR 论文集 PDF 哈希 4dade38… 当作 arXiv 编号,经 WebSearch+WebFetch 锁定真身《Persistent Pre-Training Poisoning of LLMs》(Zhang et al., ICLR 2025, arXiv:2410.13722),订正编号并补正 0.1% 数据穿透 SFT/DPO 的核心论断,“更难检测”子论断归 Sleeper Agents(2401.05566)。另:R1-grounding 留痕中”2026 系列 arXiv ID(2601/2602/2603/2604)待入库前逐条复核”——本轮已对全专题用到的 2602.20708(ICON)/2602.22724(AgentSentry)/2603.13424(OpenClaw)/2603.22489(MCP Threat Modeling)/2604.18510 逐一 WebFetch,全部存在,无未来日期占位虚构。