A01 Safety vs Security vs Alignment 三词分治
A01 Safety vs Security vs Alignment 三词分治
本节要解决的问题:英文的 safety、security、alignment 在中文里被一锅端译成”安全/对齐”,于是在产品评审会上出现了一种特定的、可证伪的灾难——用对齐手段去防攻击,用过滤手段去防失效,用安全规范去当对齐目标。这不是术语洁癖,而是防御资源错配的根因。本节用”威胁来源 × 失败模式 × 对应防御栈”三轴,把三个词切成互不重叠又彼此耦合的三块,给出一条可在面试桌和架构评审会上 30 秒说清的分治线:safety 防系统自己作恶,security 防外部攻击者,alignment 防目标偏差——三者各有不同的防御工具箱,混用即错位。
判断主轴(先给结论,后面拆):90% 的 LLM 安全事故复盘,错的不是”没做防御”,而是”用错门类的防御去堵另一门类的洞”——典型是”我们加了内容过滤(safety 工具),所以 prompt injection(security 问题)就解决了”。 这是一句在 2025-2026 年 Agent 爆发后被反复证伪的判断。
§0 为什么是”三词分治”而不是”AI 安全一锅端”
读者脑中的默认框架通常是二分的:要么”AI 安全 = 不让它说坏话”(内容安全视角),要么”AI 安全 = 防黑客”(传统信息安全视角)。这两种框架都会漏掉一整类问题。
更糟的默认框架是把三者当成同一件事的不同强度——以为”对齐做得好 = 安全 = 抗攻击”,是一条单调上升的曲线。这是本节要挡掉的核心错误。三者不是同一根轴上的刻度,而是三根正交的轴,威胁来源不同、失败模式不同、防御工具箱不同:
| 维度 | Safety(安全性) | Security(信息安全) | Alignment(对齐) |
|---|---|---|---|
| 威胁来源 | 内部——系统行为本身 | 外部——对抗性攻击者 | 内部——目标设定偏差 |
| 核心关切 | 不造成非故意伤害 | CIA 三元组(机密/完整/可用) | 追求人类真实意图而非代理目标 |
| 典型失败 | 幻觉、偏见、过度自动化 | 数据投毒、模型窃取、prompt injection | 目标错配、奖励黑客、欺骗性对齐 |
| 防御工具箱 | RLHF、Constitutional AI、可解释性 | 权限隔离、沙箱、差分隐私、对抗训练 | RICE(鲁棒/可解释/可控/合伦理)、价值学习 |
| 数学结构 | 概率性降低有害输出 | 一部分可做确定性硬边界 | 目标函数与真实意图的差距 |
[!note] 一个干净的类比(来源:Lin, Sun, Shroff, “AI Safety vs. AI Security: Demystifying the Distinction and Boundaries”, 2025, arXiv:2506.18932) Security 像防盗——假设有一个主动的、会适应你防御的敌手;Safety 像防火——没有敌人,是系统在正常运行中自己可能烧起来。防盗装监控和门锁,防火装烟感和喷淋;你不会用门锁去防火,也不会用喷淋去防盗。LLM 防御错位的本质,就是”拿门锁去防火”。
这个分治的实践含义:security 有一部分可以做成确定性硬边界(权限不给就是不给,沙箱跑不出去就是跑不出去),而 safety 和 alignment 本质是概率性的(再多 RLHF 也只是降低有害概率,不是归零)。 把概率性手段(内容过滤、对齐微调)当成确定性边界来依赖,是系统性滑变的起点。
§1 Safety:防系统自己作恶(内部 · 非对抗)
Safety 关注的是没有攻击者时,系统在正常使用中是否会自己造成伤害。幻觉就是最纯粹的 safety 问题——没有人攻击模型,它只是自信地编了个不存在的判例、把剂量算错了一个数量级。
关键特征:safety 失败是统计性的、非对抗的。它的对手不是聪明的人类,而是分布外输入、训练数据的偏差、以及”被赋予过多自主性”的产品设计。OWASP LLM Top 10 (2025) 里的 LLM09(Misinformation/幻觉)、LLM06(Excessive Agency/过度代理权限)本质都是 safety 范畴——它们在零攻击者的情况下也会触发。
Safety 的防御工具箱以概率性控制为主:RLHF、Constitutional AI(让模型依宪法自我批评修正)、安全微调、可解释性研究。这些手段的共同特征是——它们改变的是模型输出有害内容的概率分布,而不是建立一道不可逾越的墙。Anthropic 的 Constitutional Classifiers(Sharma et al., 2025, arXiv:2501.18837)数据可以量化这一点:部署分类器把通用越狱成功率从 86% 降到 4.4%(来源:Anthropic Research, “Constitutional Classifiers”)——是大幅降低(拦截 >95%),不是归零,且 Bug Bounty 阶段仍有 1 人实现通用越狱。“降低到很小但非零”正是 safety 类防御的数学签名。
[!warning] 致命错位 #1:把 safety 工具当 security 边界 症状:架构评审上有人说”我们接了 LlamaGuard 做内容过滤,所以注入攻击不用担心”。 为什么会错:内容过滤是 safety 分类器,它学的是”这段话有没有害”,不是”这段话是不是攻击者注入的指令”。Palo Alto Unit42 (2025) 实测三个主流平台的护栏,输入层绕过率高达 8%-47%〔来源:Unit42, “Comparing LLM Guardrails Across GenAI Platforms”, 2025-06-02;数字待二次核实〕。 正确做法:security 问题(注入)要用 security 手段(指令-数据分离、权限隔离、沙箱),不能指望 safety 分类器兜底。 真实反例:M365 Copilot 的 EchoLeak(CVE-2025-32711, CVSS 9.3)专门绕过了 Microsoft 的 XPIA(Cross Prompt Injection Attempt)注入过滤层——过滤器在,攻击照样零点击得手(来源:CVE-2025-32711;EchoLeak, arXiv:2509.10540;首例生产级 LLM 系统的零点击注入数据外泄)。
§2 Security:防外部攻击者(外部 · 对抗)
Security 关注的是有一个会适应你防御的智能敌手时,系统的机密性、完整性、可用性能否守住。这是传统信息安全的 CIA 三元组在 AI 系统上的投影,但攻击面是全新的:prompt injection(攻击完整性——劫持模型行为)、model extraction(攻击机密性——窃取模型/训练数据/系统提示)、unbounded consumption(攻击可用性——拖垮服务)。
关键特征:security 失败是对抗性的、有意图的。敌手会迭代、会迁移、会专门针对你的防御设计绕过路径。这就是为什么 security 防御必须假设”防御会被针对”——STACK 攻击(McKenzie et al., “STACK: Adversarial Attacks on LLM Safeguard Pipelines”, 2025, arXiv:2506.24068)证明:单独测试 ASR=0% 的防御层,组合成流水线后被分阶段绕过,ClearHarm 上黑盒成功率 71%、零访问迁移攻击 33%。“在基准上有效”和”对抗自适应攻击有效”是两件事,这是 security 区别于 safety 的认识论核心。
Security 的防御工具箱里才有真正的确定性控制:权限最小化(不给的工具就是调不到)、执行沙箱(跑不出去的进程就是跑不出去)、Agent 权限分离(m207 - Agent 产品化:场景推演与失败模式 里的 HITL 断点)、出站流量监控。AgentDojo(Debenedetti et al., “AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents”, 2024, arXiv:2406.13352)的工具过滤器数据最能说明 security 手段的威力:在攻防工具可区分的场景下,GPT-4o 的攻击成功率从 57.7% 降到 6.8%——这是用 security 手段(限制工具可见性)打 security 问题(注入劫持工具调用)的正确配对。
[!warning] 致命错位 #2:用对齐/safety 训练去防攻击 症状:“我们的模型对齐做得很好,注入攻击它会拒绝。” 为什么会错:对齐让模型”愿意听话”,而注入攻击恰恰利用”听话”——AgentDojo 发现更强的模型反而更易被注入(inverse scaling),因为它更忠实地执行任何看起来像指令的内容,包括注入的指令。对齐越好,对”伪装成系统指令的注入”越服从。 正确做法:注入是架构问题(模型无法区分指令与数据),要在架构层解(指令层级、StruQ 数据-指令分离、权限隔离),不能靠把模型训得更”乖”。 真实反例:OpenAI 团队的 Instruction Hierarchy(Wallace, Xiao, Leike, Weng et al., “The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions”, 2024, arXiv:2404.13208)已是训练级手段,但 AgentDojo 仍证明可通过让注入”看起来像系统指令”部分绕过——训练是必要非充分条件。
§3 Alignment:防目标偏差(内部 · 目标层)
Alignment 关注的是一个更底层的问题:即使没有攻击者、即使模型不”作恶”,它追求的目标是不是我们真正想要的? 一个对齐失败的系统可能既”安全”(不输出有害内容)又”安全防护到位”(抗住了注入),但它优化的是奖励代理(reward proxy)而非人类真实意图——奖励黑客、Goodhart 陷阱(见 c14 - 模型评估体系与 Goodhart 陷阱)、乃至理论上的欺骗性对齐都属此类。
Ji 等(“AI Alignment: A Comprehensive Survey”, 2023, arXiv:2310.19852)的对齐综述把它定义为”使 AI 系统行为与人类意图和价值观一致”,并拆成 RICE 框架(Robustness/Interpretability/Controllability/Ethicality),分 Forward Alignment(通过训练实现)与 Backward Alignment(通过评估治理检验)。注意:alignment 是”目标”,safety 是”结果”——CSA(2024)的表述很精确:可对齐但不安全的系统理论上存在(目标对了但执行出了伤害),不安全但对齐的也存在。三者的逻辑关系不是包含,是交叉。
为什么 alignment 要单列、而不是塞进 safety?因为它的失败模式在另一个抽象层:safety 问”输出有没有害”,alignment 问”我们有没有设错优化目标”。Constitutional AI 之所以有趣,正是因为它试图同时触碰两层——用明文宪法把”目标”显性化、可审计,再用自我批评把目标落到输出上。但即便如此,“谁来写宪法、宪法即政治”这个问题恰恰是 alignment 层的、而非 safety 层的争议。
[!warning] 致命错位 #3:把 alignment 当成 safety+security 的总和 症状:“我们对齐做好了,安全和攻防自然就解决了。” 为什么会错:三根轴正交。对齐解决”目标对不对”,解决不了”架构能不能区分指令与数据”(security),也解决不了”分布外输入会不会触发幻觉”(safety)。data poisoning 甚至可以在对齐阶段(RLHF 偏好数据)下毒——PoisonBench(2024〔待核实〕)区分了对齐退化攻击与内容注入攻击,说明对齐过程本身就是一个 security 攻击面。 正确做法:三套防御并行建栈,不互相替代。 真实反例:ICLR 2025 论文《Persistent Pre-Training Poisoning of LLMs》(Zhang et al., arXiv:2410.13722,已核实(2026-06-12))证实预训练阶段下毒只需污染 0.1% 数据即可在 SFT/DPO 对齐后依然持续生效,标准对齐无法可靠清除预训练后门——对齐手段对 security 后门基本无效。(“对抗训练可能使后门更难检测”这一子论断另出自 Sleeper Agents,arXiv:2401.05566,见 E01/E03。原稿误把 ICLR 会议论文集 PDF 哈希
4dade38…当作 arXiv 编号,已订正。)
§4 判断主轴:三词混用导致的四类防御错位
这是本节命门。把上面三个 warning 收敛成一张可贴墙的错位诊断表,每条带”症状 → 为什么错 → 正确做法 → 真实反例”四件套:
| 错位 | 症状(评审会原话) | 为什么会错 | 正确做法 | 真实反例 |
|---|---|---|---|---|
| 过滤≈安全 | ”加了内容过滤,注入就解决了” | 过滤是 safety 分类器,学”有没有害”不学”是不是注入指令”;有 8-47% 绕过率 | 注入用 security 架构手段(指令-数据分离/权限隔离/沙箱) | EchoLeak 绕过 XPIA 过滤层零点击得手(CVE-2025-32711, CVSS 9.3) |
| 对齐≈防攻击 | ”模型很乖,攻击会被拒绝” | 注入利用”听话”;inverse scaling——越强越易被注入 | 架构层解注入,训练只是必要非充分 | AgentDojo:GPT-4o 无防御 ASR 57.7%(arXiv:2406.13352) |
| 对齐≈总和 | ”对齐好了,安全和攻防自然解决” | 三轴正交;RLHF 偏好数据本身是攻击面 | 三套防御栈并行,不互相替代 | 标准对齐无法清除预训练后门(arXiv:2410.13722,已核实(2026-06-12)) |
| safety 手段做确定性边界 | ”护栏拦住了,可以放心自动执行” | safety 是概率性控制(降低非归零),不是硬墙 | 高风险/不可逆操作上确定性控制(HITL/权限不给/沙箱) | Constitutional Classifiers 4.4% 残余越狱率+1 例通用越狱(arXiv:2501.18837) |
[!note] 一句话记忆法 概率性控制(过滤、对齐微调)只能”提高攻击成本”,确定性控制(权限、沙箱、HITL)才能”设定不可逾越的边界”。 灾难性、不可逆的操作只能押在确定性控制上——这正是 OWASP LLM Top 10 (2025) 从”完全阻断”转向”降低爆炸半径(blast radius reduction)“的原因〔来源:OWASP LLM Top 10 2025,待核实〕。
§5 产品 PM 视角补盲:三词分治怎么进路线图
工程视角到此为止,但 PM 还要补三个看走眼的点:
-
组织错位 = 防御错位的镜像。在公司里,safety 常归”内容/合规/Trust&Safety”团队,security 归”信息安全/红队”团队,alignment 往往无主(或被塞进算法团队)。三词混用的产品事故,根因常常是三个团队都以为对方在管那个洞。PM 的职责是把三轴在 PRD 里显式拆开,标清每条威胁的归属和防御门类。
-
“安全感知”是 safety 还是 security? Rick 在滴滴的 安全感知与干预 是个绝佳的同构案例:它既要防系统漏判(safety——非对抗的检测失效),又要防黑产对抗绕过(security——对抗性攻击者刷单/伪造)。降发生方法论(降发生方法论)的对抗治理思维,本质就是 security 视角——假设有一个会适应你规则的敌手,而不是假设用户都善意。这套思维直接同构于 LLM 红队:红队就是给 AI 产品配一个”假想黑产”。
-
合规边界落在哪一词上? EU AI Act 的对抗性测试(红队)义务、NIST AI RMF 的 Measure 功能,跨越了三个词——它既要求测 safety(有害内容)、也要求测 security(注入/投毒)、还触及 alignment(能力评估)。PM 做合规映射时若只认”内容安全”一词,会系统性漏掉 security 与 alignment 两类审计要求。
§6 对手框架回应:三词该不该统一?
业界反方立场(接受 + 边界):Lin、Sun、Shroff(2025, arXiv:2506.18932)主张 safety 与 security 存在级联耦合——security 漏洞可引发 safety 失效(注入导致幻觉式有害输出),反之亦然,因此应协同研究而非割裂。
接受:这个批评对。三轴正交不等于三轴独立——它们会级联。一次成功的 prompt injection(security)可以诱导模型输出有害内容(safety 失效)或暴露其真实目标偏差(alignment 失效)。把三者完全隔离成三个老死不相往来的团队,确实会漏掉跨界攻击链。EchoLeak 就是 security 漏洞(注入)导致 safety 后果(数据泄露)的级联典型。
边界(本专题坚持的赌注):耦合不等于可混用。 承认三者会级联,恰恰是先把它们分清、再研究耦合的理由——你必须先有三套独立的防御工具箱,才谈得上”在交界处协同”。把三词混为一谈的实际后果不是”协同”,而是”每一类都防不到位”。本专题的赌注是:对一个正在做架构决策的 PM 而言,“分治后协同”比”一锅端”可操作性高一个数量级——分治给出明确的归属和工具配对,一锅端只给出焦虑。这条赌注在”研究者写综述”的场景下可能过于实用主义(研究者确实需要看整体耦合),这是它的失效边界。
[!note] 跨域呼应:维特根斯坦的”语言游戏”与术语滑变 三词混用不是翻译懒惰,而是不同语言游戏被强行塞进同一个词。维特根斯坦提醒:一个词的意义在于它的用法(use),而不在于它指向的”本质”。“安全”在内容审核团队、信息安全团队、对齐研究者口中是三个不同的语言游戏,各有各的判定标准、各有各的”正确动作”。当三方在同一张评审桌上用同一个词”安全”对话,表面共识掩盖了底层的不可通约——每个人以为达成了一致,实际各说各话。这正是 §4 四类错位的认识论根源:错位不是因为有人犯蠢,而是因为同形异义的词制造了虚假的相互理解。PM 在跨团队评审时的第一个动作,应该是逼问”你说的’安全’是哪一个语言游戏”——这是用维特根斯坦的工具做防御。
§7 PM 决策启示
- 面试怎么用:被问”你怎么理解 AI 安全”,不要答”防止 AI 说坏话”。答”我会先分治 safety/security/alignment 三个词——它们威胁来源不同、防御工具箱不同,混用会导致用对齐手段防攻击的资源错配”,再举 EchoLeak 绕过过滤器的例子。这一答立刻把你从”内容审核思维”拉到”安全架构思维”。
- 选型怎么用:评估任何 AI 安全方案/供应商,先问”你这个方案解的是三轴里的哪一轴?” 一个 guardrail 产品声称”全面安全”时,逼它说清是 safety 分类器、security 隔离、还是 alignment 训练——多数会暴露它只是个内容过滤器。
- 复现怎么用:用公开基准评测时,按三轴分别选基准——HarmBench/AdvBench 测 safety+越狱、AgentDojo/InjecAgent 测 security 注入、对齐用 RICE 维度的能力评估。一个基准不可能同时覆盖三轴,混用基准会得出”我们很安全”的虚假结论。
§8 与已有节点的关系
- 对照 Constitutional AI(深化):CAI 是 safety + alignment 双层手段的代表;本节点不复述 CAI 机制,而是把它定位到三轴坐标系里,指出它的能力边界——CAI 对 security 后门基本无效(RLHF 移不掉预训练后门)。
- 对照 m207 - Agent 产品化:场景推演与失败模式(纠偏 + 对话):m207 的”安全越界”失败模式与 HITL 断点,在本节点被重新归类为 security 的确定性控制;本节点为 m207 的兜底设计提供了”为什么 HITL 不可被对齐替代”的第一性解释。
- 对照 c14 - 模型评估体系与 Goodhart 陷阱(呼应):Goodhart 陷阱是 alignment 层的核心失败模式(优化代理目标而非真实意图),本节点把它锚定为 alignment 轴的典型病理。
- 跨域升级:本节点把 0117社会学 / 维特根斯坦的”语言游戏”从认识论工具升级为防御工具——术语分治是产品安全的第一道防线。
§9 关联节点
核心(必读)
- Constitutional AI — safety+alignment 双层手段的代表,本节定位其能力边界
- m207 - Agent 产品化:场景推演与失败模式 — security 确定性控制(HITL/权限分离)的落地
- c14 - 模型评估体系与 Goodhart 陷阱 — alignment 轴的核心病理
- RLHF — safety/alignment 的主力训练手段,对 security 后门无效
- 降发生方法论 — Rick 滴滴对抗治理思维,同构于 security 红队视角
- 安全感知与干预 — safety(漏判)与 security(黑产对抗)双重属性的真实案例
延伸(可选)
- Anthropic — Constitutional Classifiers 数据来源
- 幻觉 — 最纯粹的 safety(非对抗)失败模式
- c13 - 幻觉的不可消除性 — safety 概率性本质的根证据
- Function Calling — security 注入的主要攻击面(工具调用)
- Agent — 三轴耦合在 Agent 场景集中爆发
- 0117社会学 — 维特根斯坦语言游戏的跨域入口
- AI PM 知识图谱·总索引 — 回到总图
修订日志
- R0(2026-06-07):首稿。建立”威胁来源 × 失败模式 × 防御工具箱”三轴分治框架;四类错位诊断表(§4);维特根斯坦语言游戏跨域呼应(§6);接入 Lin/Sun/Shroff 的”防火 vs 防盗”反方耦合论并标边界。多处事实声明标〔待核实〕,待 grounding pass 用 WebSearch/WebFetch 核实 arXiv ID 与具体数字。
- 2026-06-12 内审·arXiv 联网核实:清了 1 个 / 存疑 0 个。§3 warning#3 与 §4 诊断表两处”ICLR 2025 论文”引用——原稿误把 ICLR 会议论文集 PDF 哈希
4dade38…当作 arXiv 编号,经 WebSearch+WebFetch 锁定真身为《Persistent Pre-Training Poisoning of LLMs》(Zhang/Rando/Carlini/Tramèr et al., arXiv:2410.13722,ICLR 2025),订正编号并补正核心论断(污染 0.1% 预训练数据即可穿透 SFT/DPO 持续生效);“对抗训练使后门更难检测”子论断另归 Sleeper Agents(arXiv:2401.05566)。PoisonBench(2024) 与 OWASP LLM Top 10 2025 两处〔待核实〕属书目/规范来源、无内联 arXiv ID,本轮不动。