R

A01 Safety vs Security vs Alignment 三词分治

创建 2026-06-07 更新 2026-06-12 0 条双链 AI 红队与攻防 专题 AI 整理

A01 Safety vs Security vs Alignment 三词分治

本节要解决的问题:英文的 safety、security、alignment 在中文里被一锅端译成”安全/对齐”,于是在产品评审会上出现了一种特定的、可证伪的灾难——用对齐手段去防攻击,用过滤手段去防失效,用安全规范去当对齐目标。这不是术语洁癖,而是防御资源错配的根因。本节用”威胁来源 × 失败模式 × 对应防御栈”三轴,把三个词切成互不重叠又彼此耦合的三块,给出一条可在面试桌和架构评审会上 30 秒说清的分治线:safety 防系统自己作恶,security 防外部攻击者,alignment 防目标偏差——三者各有不同的防御工具箱,混用即错位。

判断主轴(先给结论,后面拆):90% 的 LLM 安全事故复盘,错的不是”没做防御”,而是”用错门类的防御去堵另一门类的洞”——典型是”我们加了内容过滤(safety 工具),所以 prompt injection(security 问题)就解决了”。 这是一句在 2025-2026 年 Agent 爆发后被反复证伪的判断。


§0 为什么是”三词分治”而不是”AI 安全一锅端”

读者脑中的默认框架通常是二分的:要么”AI 安全 = 不让它说坏话”(内容安全视角),要么”AI 安全 = 防黑客”(传统信息安全视角)。这两种框架都会漏掉一整类问题。

更糟的默认框架是把三者当成同一件事的不同强度——以为”对齐做得好 = 安全 = 抗攻击”,是一条单调上升的曲线。这是本节要挡掉的核心错误。三者不是同一根轴上的刻度,而是三根正交的轴,威胁来源不同、失败模式不同、防御工具箱不同:

维度Safety(安全性)Security(信息安全)Alignment(对齐)
威胁来源内部——系统行为本身外部——对抗性攻击者内部——目标设定偏差
核心关切不造成非故意伤害CIA 三元组(机密/完整/可用)追求人类真实意图而非代理目标
典型失败幻觉、偏见、过度自动化数据投毒、模型窃取、prompt injection目标错配、奖励黑客、欺骗性对齐
防御工具箱RLHF、Constitutional AI、可解释性权限隔离、沙箱、差分隐私、对抗训练RICE(鲁棒/可解释/可控/合伦理)、价值学习
数学结构概率性降低有害输出一部分可做确定性硬边界目标函数与真实意图的差距

[!note] 一个干净的类比(来源:Lin, Sun, Shroff, “AI Safety vs. AI Security: Demystifying the Distinction and Boundaries”, 2025, arXiv:2506.18932) Security 像防盗——假设有一个主动的、会适应你防御的敌手;Safety 像防火——没有敌人,是系统在正常运行中自己可能烧起来。防盗装监控和门锁,防火装烟感和喷淋;你不会用门锁去防火,也不会用喷淋去防盗。LLM 防御错位的本质,就是”拿门锁去防火”。

这个分治的实践含义:security 有一部分可以做成确定性硬边界(权限不给就是不给,沙箱跑不出去就是跑不出去),而 safety 和 alignment 本质是概率性的(再多 RLHF 也只是降低有害概率,不是归零)。 把概率性手段(内容过滤、对齐微调)当成确定性边界来依赖,是系统性滑变的起点。


§1 Safety:防系统自己作恶(内部 · 非对抗)

Safety 关注的是没有攻击者时,系统在正常使用中是否会自己造成伤害。幻觉就是最纯粹的 safety 问题——没有人攻击模型,它只是自信地编了个不存在的判例、把剂量算错了一个数量级。

关键特征:safety 失败是统计性的、非对抗的。它的对手不是聪明的人类,而是分布外输入、训练数据的偏差、以及”被赋予过多自主性”的产品设计。OWASP LLM Top 10 (2025) 里的 LLM09(Misinformation/幻觉)、LLM06(Excessive Agency/过度代理权限)本质都是 safety 范畴——它们在零攻击者的情况下也会触发。

Safety 的防御工具箱以概率性控制为主:RLHF、Constitutional AI(让模型依宪法自我批评修正)、安全微调、可解释性研究。这些手段的共同特征是——它们改变的是模型输出有害内容的概率分布,而不是建立一道不可逾越的墙。Anthropic 的 Constitutional Classifiers(Sharma et al., 2025, arXiv:2501.18837)数据可以量化这一点:部署分类器把通用越狱成功率从 86% 降到 4.4%(来源:Anthropic Research, “Constitutional Classifiers”)——是大幅降低(拦截 >95%),不是归零,且 Bug Bounty 阶段仍有 1 人实现通用越狱。“降低到很小但非零”正是 safety 类防御的数学签名。

[!warning] 致命错位 #1:把 safety 工具当 security 边界 症状:架构评审上有人说”我们接了 LlamaGuard 做内容过滤,所以注入攻击不用担心”。 为什么会错:内容过滤是 safety 分类器,它学的是”这段话有没有害”,不是”这段话是不是攻击者注入的指令”。Palo Alto Unit42 (2025) 实测三个主流平台的护栏,输入层绕过率高达 8%-47%〔来源:Unit42, “Comparing LLM Guardrails Across GenAI Platforms”, 2025-06-02;数字待二次核实〕。 正确做法:security 问题(注入)要用 security 手段(指令-数据分离、权限隔离、沙箱),不能指望 safety 分类器兜底。 真实反例:M365 Copilot 的 EchoLeak(CVE-2025-32711, CVSS 9.3)专门绕过了 Microsoft 的 XPIA(Cross Prompt Injection Attempt)注入过滤层——过滤器在,攻击照样零点击得手(来源:CVE-2025-32711;EchoLeak, arXiv:2509.10540;首例生产级 LLM 系统的零点击注入数据外泄)。


§2 Security:防外部攻击者(外部 · 对抗)

Security 关注的是有一个会适应你防御的智能敌手时,系统的机密性、完整性、可用性能否守住。这是传统信息安全的 CIA 三元组在 AI 系统上的投影,但攻击面是全新的:prompt injection(攻击完整性——劫持模型行为)、model extraction(攻击机密性——窃取模型/训练数据/系统提示)、unbounded consumption(攻击可用性——拖垮服务)。

关键特征:security 失败是对抗性的、有意图的。敌手会迭代、会迁移、会专门针对你的防御设计绕过路径。这就是为什么 security 防御必须假设”防御会被针对”——STACK 攻击(McKenzie et al., “STACK: Adversarial Attacks on LLM Safeguard Pipelines”, 2025, arXiv:2506.24068)证明:单独测试 ASR=0% 的防御层,组合成流水线后被分阶段绕过,ClearHarm 上黑盒成功率 71%、零访问迁移攻击 33%。“在基准上有效”和”对抗自适应攻击有效”是两件事,这是 security 区别于 safety 的认识论核心。

Security 的防御工具箱里才有真正的确定性控制:权限最小化(不给的工具就是调不到)、执行沙箱(跑不出去的进程就是跑不出去)、Agent 权限分离(m207 - Agent 产品化:场景推演与失败模式 里的 HITL 断点)、出站流量监控。AgentDojo(Debenedetti et al., “AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents”, 2024, arXiv:2406.13352)的工具过滤器数据最能说明 security 手段的威力:在攻防工具可区分的场景下,GPT-4o 的攻击成功率从 57.7% 降到 6.8%——这是用 security 手段(限制工具可见性)打 security 问题(注入劫持工具调用)的正确配对

[!warning] 致命错位 #2:用对齐/safety 训练去防攻击 症状:“我们的模型对齐做得很好,注入攻击它会拒绝。” 为什么会错:对齐让模型”愿意听话”,而注入攻击恰恰利用”听话”——AgentDojo 发现更强的模型反而更易被注入(inverse scaling),因为它更忠实地执行任何看起来像指令的内容,包括注入的指令。对齐越好,对”伪装成系统指令的注入”越服从。 正确做法:注入是架构问题(模型无法区分指令与数据),要在架构层解(指令层级、StruQ 数据-指令分离、权限隔离),不能靠把模型训得更”乖”。 真实反例:OpenAI 团队的 Instruction Hierarchy(Wallace, Xiao, Leike, Weng et al., “The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions”, 2024, arXiv:2404.13208)已是训练级手段,但 AgentDojo 仍证明可通过让注入”看起来像系统指令”部分绕过——训练是必要非充分条件


§3 Alignment:防目标偏差(内部 · 目标层)

Alignment 关注的是一个更底层的问题:即使没有攻击者、即使模型不”作恶”,它追求的目标是不是我们真正想要的? 一个对齐失败的系统可能既”安全”(不输出有害内容)又”安全防护到位”(抗住了注入),但它优化的是奖励代理(reward proxy)而非人类真实意图——奖励黑客、Goodhart 陷阱(见 c14 - 模型评估体系与 Goodhart 陷阱)、乃至理论上的欺骗性对齐都属此类。

Ji 等(“AI Alignment: A Comprehensive Survey”, 2023, arXiv:2310.19852)的对齐综述把它定义为”使 AI 系统行为与人类意图和价值观一致”,并拆成 RICE 框架(Robustness/Interpretability/Controllability/Ethicality),分 Forward Alignment(通过训练实现)与 Backward Alignment(通过评估治理检验)。注意:alignment 是”目标”,safety 是”结果”——CSA(2024)的表述很精确:可对齐但不安全的系统理论上存在(目标对了但执行出了伤害),不安全但对齐的也存在。三者的逻辑关系不是包含,是交叉。

为什么 alignment 要单列、而不是塞进 safety?因为它的失败模式在另一个抽象层:safety 问”输出有没有害”,alignment 问”我们有没有设错优化目标”。Constitutional AI 之所以有趣,正是因为它试图同时触碰两层——用明文宪法把”目标”显性化、可审计,再用自我批评把目标落到输出上。但即便如此,“谁来写宪法、宪法即政治”这个问题恰恰是 alignment 层的、而非 safety 层的争议。

[!warning] 致命错位 #3:把 alignment 当成 safety+security 的总和 症状:“我们对齐做好了,安全和攻防自然就解决了。” 为什么会错:三根轴正交。对齐解决”目标对不对”,解决不了”架构能不能区分指令与数据”(security),也解决不了”分布外输入会不会触发幻觉”(safety)。data poisoning 甚至可以在对齐阶段(RLHF 偏好数据)下毒——PoisonBench(2024〔待核实〕)区分了对齐退化攻击与内容注入攻击,说明对齐过程本身就是一个 security 攻击面。 正确做法:三套防御并行建栈,不互相替代。 真实反例:ICLR 2025 论文《Persistent Pre-Training Poisoning of LLMs》(Zhang et al., arXiv:2410.13722,已核实(2026-06-12))证实预训练阶段下毒只需污染 0.1% 数据即可在 SFT/DPO 对齐后依然持续生效,标准对齐无法可靠清除预训练后门——对齐手段对 security 后门基本无效。(“对抗训练可能使后门更难检测”这一子论断另出自 Sleeper Agents,arXiv:2401.05566,见 E01/E03。原稿误把 ICLR 会议论文集 PDF 哈希 4dade38… 当作 arXiv 编号,已订正。)


§4 判断主轴:三词混用导致的四类防御错位

这是本节命门。把上面三个 warning 收敛成一张可贴墙的错位诊断表,每条带”症状 → 为什么错 → 正确做法 → 真实反例”四件套:

错位症状(评审会原话)为什么会错正确做法真实反例
过滤≈安全”加了内容过滤,注入就解决了”过滤是 safety 分类器,学”有没有害”不学”是不是注入指令”;有 8-47% 绕过率注入用 security 架构手段(指令-数据分离/权限隔离/沙箱)EchoLeak 绕过 XPIA 过滤层零点击得手(CVE-2025-32711, CVSS 9.3)
对齐≈防攻击”模型很乖,攻击会被拒绝”注入利用”听话”;inverse scaling——越强越易被注入架构层解注入,训练只是必要非充分AgentDojo:GPT-4o 无防御 ASR 57.7%(arXiv:2406.13352)
对齐≈总和”对齐好了,安全和攻防自然解决”三轴正交;RLHF 偏好数据本身是攻击面三套防御栈并行,不互相替代标准对齐无法清除预训练后门(arXiv:2410.13722,已核实(2026-06-12))
safety 手段做确定性边界”护栏拦住了,可以放心自动执行”safety 是概率性控制(降低非归零),不是硬墙高风险/不可逆操作上确定性控制(HITL/权限不给/沙箱)Constitutional Classifiers 4.4% 残余越狱率+1 例通用越狱(arXiv:2501.18837)

[!note] 一句话记忆法 概率性控制(过滤、对齐微调)只能”提高攻击成本”,确定性控制(权限、沙箱、HITL)才能”设定不可逾越的边界”。 灾难性、不可逆的操作只能押在确定性控制上——这正是 OWASP LLM Top 10 (2025) 从”完全阻断”转向”降低爆炸半径(blast radius reduction)“的原因〔来源:OWASP LLM Top 10 2025,待核实〕。


§5 产品 PM 视角补盲:三词分治怎么进路线图

工程视角到此为止,但 PM 还要补三个看走眼的点:

  1. 组织错位 = 防御错位的镜像。在公司里,safety 常归”内容/合规/Trust&Safety”团队,security 归”信息安全/红队”团队,alignment 往往无主(或被塞进算法团队)。三词混用的产品事故,根因常常是三个团队都以为对方在管那个洞。PM 的职责是把三轴在 PRD 里显式拆开,标清每条威胁的归属和防御门类。

  2. “安全感知”是 safety 还是 security? Rick 在滴滴的 安全感知与干预 是个绝佳的同构案例:它既要防系统漏判(safety——非对抗的检测失效),又要防黑产对抗绕过(security——对抗性攻击者刷单/伪造)。降发生方法论(降发生方法论)的对抗治理思维,本质就是 security 视角——假设有一个会适应你规则的敌手,而不是假设用户都善意。这套思维直接同构于 LLM 红队:红队就是给 AI 产品配一个”假想黑产”。

  3. 合规边界落在哪一词上? EU AI Act 的对抗性测试(红队)义务、NIST AI RMF 的 Measure 功能,跨越了三个词——它既要求测 safety(有害内容)、也要求测 security(注入/投毒)、还触及 alignment(能力评估)。PM 做合规映射时若只认”内容安全”一词,会系统性漏掉 security 与 alignment 两类审计要求。


§6 对手框架回应:三词该不该统一?

业界反方立场(接受 + 边界):Lin、Sun、Shroff(2025, arXiv:2506.18932)主张 safety 与 security 存在级联耦合——security 漏洞可引发 safety 失效(注入导致幻觉式有害输出),反之亦然,因此应协同研究而非割裂。

接受:这个批评对。三轴正交不等于三轴独立——它们会级联。一次成功的 prompt injection(security)可以诱导模型输出有害内容(safety 失效)或暴露其真实目标偏差(alignment 失效)。把三者完全隔离成三个老死不相往来的团队,确实会漏掉跨界攻击链。EchoLeak 就是 security 漏洞(注入)导致 safety 后果(数据泄露)的级联典型。

边界(本专题坚持的赌注)耦合不等于可混用。 承认三者会级联,恰恰是先把它们分清、再研究耦合的理由——你必须先有三套独立的防御工具箱,才谈得上”在交界处协同”。把三词混为一谈的实际后果不是”协同”,而是”每一类都防不到位”。本专题的赌注是:对一个正在做架构决策的 PM 而言,“分治后协同”比”一锅端”可操作性高一个数量级——分治给出明确的归属和工具配对,一锅端只给出焦虑。这条赌注在”研究者写综述”的场景下可能过于实用主义(研究者确实需要看整体耦合),这是它的失效边界。

[!note] 跨域呼应:维特根斯坦的”语言游戏”与术语滑变 三词混用不是翻译懒惰,而是不同语言游戏被强行塞进同一个词。维特根斯坦提醒:一个词的意义在于它的用法(use),而不在于它指向的”本质”。“安全”在内容审核团队、信息安全团队、对齐研究者口中是三个不同的语言游戏,各有各的判定标准、各有各的”正确动作”。当三方在同一张评审桌上用同一个词”安全”对话,表面共识掩盖了底层的不可通约——每个人以为达成了一致,实际各说各话。这正是 §4 四类错位的认识论根源:错位不是因为有人犯蠢,而是因为同形异义的词制造了虚假的相互理解。PM 在跨团队评审时的第一个动作,应该是逼问”你说的’安全’是哪一个语言游戏”——这是用维特根斯坦的工具做防御。


§7 PM 决策启示

  • 面试怎么用:被问”你怎么理解 AI 安全”,不要答”防止 AI 说坏话”。答”我会先分治 safety/security/alignment 三个词——它们威胁来源不同、防御工具箱不同,混用会导致用对齐手段防攻击的资源错配”,再举 EchoLeak 绕过过滤器的例子。这一答立刻把你从”内容审核思维”拉到”安全架构思维”。
  • 选型怎么用:评估任何 AI 安全方案/供应商,先问”你这个方案解的是三轴里的哪一轴?” 一个 guardrail 产品声称”全面安全”时,逼它说清是 safety 分类器、security 隔离、还是 alignment 训练——多数会暴露它只是个内容过滤器。
  • 复现怎么用:用公开基准评测时,按三轴分别选基准——HarmBench/AdvBench 测 safety+越狱、AgentDojo/InjecAgent 测 security 注入、对齐用 RICE 维度的能力评估。一个基准不可能同时覆盖三轴,混用基准会得出”我们很安全”的虚假结论。

§8 与已有节点的关系

  • 对照 Constitutional AI(深化):CAI 是 safety + alignment 双层手段的代表;本节点不复述 CAI 机制,而是把它定位到三轴坐标系里,指出它的能力边界——CAI 对 security 后门基本无效(RLHF 移不掉预训练后门)。
  • 对照 m207 - Agent 产品化:场景推演与失败模式(纠偏 + 对话):m207 的”安全越界”失败模式与 HITL 断点,在本节点被重新归类为 security 的确定性控制;本节点为 m207 的兜底设计提供了”为什么 HITL 不可被对齐替代”的第一性解释。
  • 对照 c14 - 模型评估体系与 Goodhart 陷阱(呼应):Goodhart 陷阱是 alignment 层的核心失败模式(优化代理目标而非真实意图),本节点把它锚定为 alignment 轴的典型病理。
  • 跨域升级:本节点把 0117社会学 / 维特根斯坦的”语言游戏”从认识论工具升级为防御工具——术语分治是产品安全的第一道防线。

§9 关联节点

核心(必读)

延伸(可选)


修订日志

  • R0(2026-06-07):首稿。建立”威胁来源 × 失败模式 × 防御工具箱”三轴分治框架;四类错位诊断表(§4);维特根斯坦语言游戏跨域呼应(§6);接入 Lin/Sun/Shroff 的”防火 vs 防盗”反方耦合论并标边界。多处事实声明标〔待核实〕,待 grounding pass 用 WebSearch/WebFetch 核实 arXiv ID 与具体数字。
  • 2026-06-12 内审·arXiv 联网核实:清了 1 个 / 存疑 0 个。§3 warning#3 与 §4 诊断表两处”ICLR 2025 论文”引用——原稿误把 ICLR 会议论文集 PDF 哈希 4dade38… 当作 arXiv 编号,经 WebSearch+WebFetch 锁定真身为《Persistent Pre-Training Poisoning of LLMs》(Zhang/Rando/Carlini/Tramèr et al., arXiv:2410.13722,ICLR 2025),订正编号并补正核心论断(污染 0.1% 预训练数据即可穿透 SFT/DPO 持续生效);“对抗训练使后门更难检测”子论断另归 Sleeper Agents(arXiv:2401.05566)。PoisonBench(2024) 与 OWASP LLM Top 10 2025 两处〔待核实〕属书目/规范来源、无内联 arXiv ID,本轮不动。