A01 Safety vs Security vs Alignment 三词分治

本节要解决的问题：英文的 safety、security、alignment 在中文里被一锅端译成”安全/对齐”，于是在产品评审会上出现了一种特定的、可证伪的灾难——用对齐手段去防攻击，用过滤手段去防失效，用安全规范去当对齐目标。这不是术语洁癖，而是防御资源错配的根因。本节用”威胁来源 × 失败模式 × 对应防御栈”三轴，把三个词切成互不重叠又彼此耦合的三块，给出一条可在面试桌和架构评审会上 30 秒说清的分治线：safety 防系统自己作恶，security 防外部攻击者，alignment 防目标偏差——三者各有不同的防御工具箱，混用即错位。

判断主轴（先给结论，后面拆）：90% 的 LLM 安全事故复盘，错的不是”没做防御”，而是”用错门类的防御去堵另一门类的洞”——典型是”我们加了内容过滤（safety 工具），所以 prompt injection（security 问题）就解决了”。这是一句在 2025-2026 年 Agent 爆发后被反复证伪的判断。

§0 为什么是”三词分治”而不是”AI 安全一锅端”

读者脑中的默认框架通常是二分的：要么”AI 安全 = 不让它说坏话”（内容安全视角），要么”AI 安全 = 防黑客”（传统信息安全视角）。这两种框架都会漏掉一整类问题。

更糟的默认框架是把三者当成同一件事的不同强度——以为”对齐做得好 = 安全 = 抗攻击”，是一条单调上升的曲线。这是本节要挡掉的核心错误。三者不是同一根轴上的刻度，而是三根正交的轴，威胁来源不同、失败模式不同、防御工具箱不同：

维度	Safety（安全性）	Security（信息安全）	Alignment（对齐）
威胁来源	内部——系统行为本身	外部——对抗性攻击者	内部——目标设定偏差
核心关切	不造成非故意伤害	CIA 三元组（机密/完整/可用）	追求人类真实意图而非代理目标
典型失败	幻觉、偏见、过度自动化	数据投毒、模型窃取、prompt injection	目标错配、奖励黑客、欺骗性对齐
防御工具箱	RLHF、Constitutional AI、可解释性	权限隔离、沙箱、差分隐私、对抗训练	RICE（鲁棒/可解释/可控/合伦理）、价值学习
数学结构	概率性降低有害输出	一部分可做确定性硬边界	目标函数与真实意图的差距

[!note] 一个干净的类比（来源：Lin, Sun, Shroff, “AI Safety vs. AI Security: Demystifying the Distinction and Boundaries”, 2025, arXiv:2506.18932） Security 像防盗——假设有一个主动的、会适应你防御的敌手；Safety 像防火——没有敌人，是系统在正常运行中自己可能烧起来。防盗装监控和门锁，防火装烟感和喷淋；你不会用门锁去防火，也不会用喷淋去防盗。LLM 防御错位的本质，就是”拿门锁去防火”。

这个分治的实践含义：security 有一部分可以做成确定性硬边界（权限不给就是不给，沙箱跑不出去就是跑不出去），而 safety 和 alignment 本质是概率性的（再多 RLHF 也只是降低有害概率，不是归零）。把概率性手段（内容过滤、对齐微调）当成确定性边界来依赖，是系统性滑变的起点。

§1 Safety：防系统自己作恶（内部 · 非对抗）

Safety 关注的是没有攻击者时，系统在正常使用中是否会自己造成伤害。幻觉就是最纯粹的 safety 问题——没有人攻击模型，它只是自信地编了个不存在的判例、把剂量算错了一个数量级。

关键特征：safety 失败是统计性的、非对抗的。它的对手不是聪明的人类，而是分布外输入、训练数据的偏差、以及”被赋予过多自主性”的产品设计。OWASP LLM Top 10 (2025) 里的 LLM09（Misinformation/幻觉）、LLM06（Excessive Agency/过度代理权限）本质都是 safety 范畴——它们在零攻击者的情况下也会触发。

Safety 的防御工具箱以概率性控制为主：RLHF、Constitutional AI（让模型依宪法自我批评修正）、安全微调、可解释性研究。这些手段的共同特征是——它们改变的是模型输出有害内容的概率分布，而不是建立一道不可逾越的墙。Anthropic 的 Constitutional Classifiers（Sharma et al., 2025, arXiv:2501.18837）数据可以量化这一点：部署分类器把通用越狱成功率从 86% 降到 4.4%（来源：Anthropic Research, “Constitutional Classifiers”）——是大幅降低（拦截 >95%），不是归零，且 Bug Bounty 阶段仍有 1 人实现通用越狱。“降低到很小但非零”正是 safety 类防御的数学签名。

[!warning] 致命错位 #1：把 safety 工具当 security 边界症状：架构评审上有人说”我们接了 LlamaGuard 做内容过滤，所以注入攻击不用担心”。为什么会错：内容过滤是 safety 分类器，它学的是”这段话有没有害”，不是”这段话是不是攻击者注入的指令”。Palo Alto Unit42 (2025) 实测三个主流平台的护栏，输入层绕过率高达 8%-47%〔来源：Unit42, “Comparing LLM Guardrails Across GenAI Platforms”, 2025-06-02；数字待二次核实〕。正确做法：security 问题（注入）要用 security 手段（指令-数据分离、权限隔离、沙箱），不能指望 safety 分类器兜底。真实反例：M365 Copilot 的 EchoLeak（CVE-2025-32711, CVSS 9.3）专门绕过了 Microsoft 的 XPIA（Cross Prompt Injection Attempt）注入过滤层——过滤器在，攻击照样零点击得手（来源：CVE-2025-32711；EchoLeak, arXiv:2509.10540；首例生产级 LLM 系统的零点击注入数据外泄）。

§2 Security：防外部攻击者（外部 · 对抗）

Security 关注的是有一个会适应你防御的智能敌手时，系统的机密性、完整性、可用性能否守住。这是传统信息安全的 CIA 三元组在 AI 系统上的投影，但攻击面是全新的：prompt injection（攻击完整性——劫持模型行为）、model extraction（攻击机密性——窃取模型/训练数据/系统提示）、unbounded consumption（攻击可用性——拖垮服务）。

关键特征：security 失败是对抗性的、有意图的。敌手会迭代、会迁移、会专门针对你的防御设计绕过路径。这就是为什么 security 防御必须假设”防御会被针对”——STACK 攻击（McKenzie et al., “STACK: Adversarial Attacks on LLM Safeguard Pipelines”, 2025, arXiv:2506.24068）证明：单独测试 ASR=0% 的防御层，组合成流水线后被分阶段绕过，ClearHarm 上黑盒成功率 71%、零访问迁移攻击 33%。“在基准上有效”和”对抗自适应攻击有效”是两件事，这是 security 区别于 safety 的认识论核心。

Security 的防御工具箱里才有真正的确定性控制：权限最小化（不给的工具就是调不到）、执行沙箱（跑不出去的进程就是跑不出去）、Agent 权限分离（m207 - Agent 产品化：场景推演与失败模式里的 HITL 断点）、出站流量监控。AgentDojo（Debenedetti et al., “AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents”, 2024, arXiv:2406.13352）的工具过滤器数据最能说明 security 手段的威力：在攻防工具可区分的场景下，GPT-4o 的攻击成功率从 57.7% 降到 6.8%——这是用 security 手段（限制工具可见性）打 security 问题（注入劫持工具调用）的正确配对。

[!warning] 致命错位 #2：用对齐/safety 训练去防攻击症状：“我们的模型对齐做得很好，注入攻击它会拒绝。” 为什么会错：对齐让模型”愿意听话”，而注入攻击恰恰利用”听话”——AgentDojo 发现更强的模型反而更易被注入（inverse scaling），因为它更忠实地执行任何看起来像指令的内容，包括注入的指令。对齐越好，对”伪装成系统指令的注入”越服从。正确做法：注入是架构问题（模型无法区分指令与数据），要在架构层解（指令层级、StruQ 数据-指令分离、权限隔离），不能靠把模型训得更”乖”。真实反例：OpenAI 团队的 Instruction Hierarchy（Wallace, Xiao, Leike, Weng et al., “The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions”, 2024, arXiv:2404.13208）已是训练级手段，但 AgentDojo 仍证明可通过让注入”看起来像系统指令”部分绕过——训练是必要非充分条件。

§3 Alignment：防目标偏差（内部 · 目标层）

Alignment 关注的是一个更底层的问题：即使没有攻击者、即使模型不”作恶”，它追求的目标是不是我们真正想要的？ 一个对齐失败的系统可能既”安全”（不输出有害内容）又”安全防护到位”（抗住了注入），但它优化的是奖励代理（reward proxy）而非人类真实意图——奖励黑客、Goodhart 陷阱（见 c14 - 模型评估体系与 Goodhart 陷阱）、乃至理论上的欺骗性对齐都属此类。

Ji 等（“AI Alignment: A Comprehensive Survey”, 2023, arXiv:2310.19852）的对齐综述把它定义为”使 AI 系统行为与人类意图和价值观一致”，并拆成 RICE 框架（Robustness/Interpretability/Controllability/Ethicality），分 Forward Alignment（通过训练实现）与 Backward Alignment（通过评估治理检验）。注意：alignment 是”目标”，safety 是”结果”——CSA（2024）的表述很精确：可对齐但不安全的系统理论上存在（目标对了但执行出了伤害），不安全但对齐的也存在。三者的逻辑关系不是包含，是交叉。

为什么 alignment 要单列、而不是塞进 safety？因为它的失败模式在另一个抽象层：safety 问”输出有没有害”，alignment 问”我们有没有设错优化目标”。Constitutional AI 之所以有趣，正是因为它试图同时触碰两层——用明文宪法把”目标”显性化、可审计，再用自我批评把目标落到输出上。但即便如此，“谁来写宪法、宪法即政治”这个问题恰恰是 alignment 层的、而非 safety 层的争议。

[!warning] 致命错位 #3：把 alignment 当成 safety+security 的总和症状：“我们对齐做好了，安全和攻防自然就解决了。” 为什么会错：三根轴正交。对齐解决”目标对不对”，解决不了”架构能不能区分指令与数据”（security），也解决不了”分布外输入会不会触发幻觉”（safety）。data poisoning 甚至可以在对齐阶段（RLHF 偏好数据）下毒——PoisonBench（2024〔待核实〕）区分了对齐退化攻击与内容注入攻击，说明对齐过程本身就是一个 security 攻击面。正确做法：三套防御并行建栈，不互相替代。真实反例：ICLR 2025 论文《Persistent Pre-Training Poisoning of LLMs》（Zhang et al., arXiv:2410.13722，已核实(2026-06-12)）证实预训练阶段下毒只需污染 0.1% 数据即可在 SFT/DPO 对齐后依然持续生效，标准对齐无法可靠清除预训练后门——对齐手段对 security 后门基本无效。（“对抗训练可能使后门更难检测”这一子论断另出自 Sleeper Agents，arXiv:2401.05566，见 E01/E03。原稿误把 ICLR 会议论文集 PDF 哈希 4dade38… 当作 arXiv 编号，已订正。）

§4 判断主轴：三词混用导致的四类防御错位

这是本节命门。把上面三个 warning 收敛成一张可贴墙的错位诊断表，每条带”症状 → 为什么错 → 正确做法 → 真实反例”四件套：

错位	症状（评审会原话）	为什么会错	正确做法	真实反例
过滤≈安全	”加了内容过滤，注入就解决了”	过滤是 safety 分类器，学”有没有害”不学”是不是注入指令”；有 8-47% 绕过率	注入用 security 架构手段（指令-数据分离/权限隔离/沙箱）	EchoLeak 绕过 XPIA 过滤层零点击得手（CVE-2025-32711, CVSS 9.3）
对齐≈防攻击	”模型很乖，攻击会被拒绝”	注入利用”听话”；inverse scaling——越强越易被注入	架构层解注入，训练只是必要非充分	AgentDojo：GPT-4o 无防御 ASR 57.7%（arXiv:2406.13352）
对齐≈总和	”对齐好了，安全和攻防自然解决”	三轴正交；RLHF 偏好数据本身是攻击面	三套防御栈并行，不互相替代	标准对齐无法清除预训练后门（arXiv:2410.13722，已核实(2026-06-12)）
safety 手段做确定性边界	”护栏拦住了，可以放心自动执行”	safety 是概率性控制（降低非归零），不是硬墙	高风险/不可逆操作上确定性控制（HITL/权限不给/沙箱）	Constitutional Classifiers 4.4% 残余越狱率＋1 例通用越狱（arXiv:2501.18837）

[!note] 一句话记忆法 概率性控制（过滤、对齐微调）只能”提高攻击成本”，确定性控制（权限、沙箱、HITL）才能”设定不可逾越的边界”。 灾难性、不可逆的操作只能押在确定性控制上——这正是 OWASP LLM Top 10 (2025) 从”完全阻断”转向”降低爆炸半径（blast radius reduction）“的原因〔来源：OWASP LLM Top 10 2025，待核实〕。

§5 产品 PM 视角补盲：三词分治怎么进路线图

工程视角到此为止，但 PM 还要补三个看走眼的点：

组织错位 = 防御错位的镜像。在公司里，safety 常归”内容/合规/Trust&Safety”团队，security 归”信息安全/红队”团队，alignment 往往无主（或被塞进算法团队）。三词混用的产品事故，根因常常是三个团队都以为对方在管那个洞。PM 的职责是把三轴在 PRD 里显式拆开，标清每条威胁的归属和防御门类。
“安全感知”是 safety 还是 security？ Rick 在滴滴的安全感知与干预是个绝佳的同构案例：它既要防系统漏判（safety——非对抗的检测失效），又要防黑产对抗绕过（security——对抗性攻击者刷单/伪造）。降发生方法论（降发生方法论）的对抗治理思维，本质就是 security 视角——假设有一个会适应你规则的敌手，而不是假设用户都善意。这套思维直接同构于 LLM 红队：红队就是给 AI 产品配一个”假想黑产”。
合规边界落在哪一词上？ EU AI Act 的对抗性测试（红队）义务、NIST AI RMF 的 Measure 功能，跨越了三个词——它既要求测 safety（有害内容）、也要求测 security（注入/投毒）、还触及 alignment（能力评估）。PM 做合规映射时若只认”内容安全”一词，会系统性漏掉 security 与 alignment 两类审计要求。

§6 对手框架回应：三词该不该统一？

业界反方立场（接受 + 边界）：Lin、Sun、Shroff（2025, arXiv:2506.18932）主张 safety 与 security 存在级联耦合——security 漏洞可引发 safety 失效（注入导致幻觉式有害输出），反之亦然，因此应协同研究而非割裂。

接受：这个批评对。三轴正交不等于三轴独立——它们会级联。一次成功的 prompt injection（security）可以诱导模型输出有害内容（safety 失效）或暴露其真实目标偏差（alignment 失效）。把三者完全隔离成三个老死不相往来的团队，确实会漏掉跨界攻击链。EchoLeak 就是 security 漏洞（注入）导致 safety 后果（数据泄露）的级联典型。

边界（本专题坚持的赌注）：耦合不等于可混用。 承认三者会级联，恰恰是先把它们分清、再研究耦合的理由——你必须先有三套独立的防御工具箱，才谈得上”在交界处协同”。把三词混为一谈的实际后果不是”协同”，而是”每一类都防不到位”。本专题的赌注是：对一个正在做架构决策的 PM 而言，“分治后协同”比”一锅端”可操作性高一个数量级——分治给出明确的归属和工具配对，一锅端只给出焦虑。这条赌注在”研究者写综述”的场景下可能过于实用主义（研究者确实需要看整体耦合），这是它的失效边界。

[!note] 跨域呼应：维特根斯坦的”语言游戏”与术语滑变三词混用不是翻译懒惰，而是不同语言游戏被强行塞进同一个词。维特根斯坦提醒：一个词的意义在于它的用法（use），而不在于它指向的”本质”。“安全”在内容审核团队、信息安全团队、对齐研究者口中是三个不同的语言游戏，各有各的判定标准、各有各的”正确动作”。当三方在同一张评审桌上用同一个词”安全”对话，表面共识掩盖了底层的不可通约——每个人以为达成了一致，实际各说各话。这正是 §4 四类错位的认识论根源：错位不是因为有人犯蠢，而是因为同形异义的词制造了虚假的相互理解。PM 在跨团队评审时的第一个动作，应该是逼问”你说的’安全’是哪一个语言游戏”——这是用维特根斯坦的工具做防御。

§7 PM 决策启示

面试怎么用：被问”你怎么理解 AI 安全”，不要答”防止 AI 说坏话”。答”我会先分治 safety/security/alignment 三个词——它们威胁来源不同、防御工具箱不同，混用会导致用对齐手段防攻击的资源错配”，再举 EchoLeak 绕过过滤器的例子。这一答立刻把你从”内容审核思维”拉到”安全架构思维”。
选型怎么用：评估任何 AI 安全方案/供应商，先问”你这个方案解的是三轴里的哪一轴？” 一个 guardrail 产品声称”全面安全”时，逼它说清是 safety 分类器、security 隔离、还是 alignment 训练——多数会暴露它只是个内容过滤器。
复现怎么用：用公开基准评测时，按三轴分别选基准——HarmBench/AdvBench 测 safety+越狱、AgentDojo/InjecAgent 测 security 注入、对齐用 RICE 维度的能力评估。一个基准不可能同时覆盖三轴，混用基准会得出”我们很安全”的虚假结论。

§8 与已有节点的关系

对照 Constitutional AI（深化）：CAI 是 safety + alignment 双层手段的代表；本节点不复述 CAI 机制，而是把它定位到三轴坐标系里，指出它的能力边界——CAI 对 security 后门基本无效（RLHF 移不掉预训练后门）。
对照 m207 - Agent 产品化：场景推演与失败模式（纠偏 + 对话）：m207 的”安全越界”失败模式与 HITL 断点，在本节点被重新归类为 security 的确定性控制；本节点为 m207 的兜底设计提供了”为什么 HITL 不可被对齐替代”的第一性解释。
对照 c14 - 模型评估体系与 Goodhart 陷阱（呼应）：Goodhart 陷阱是 alignment 层的核心失败模式（优化代理目标而非真实意图），本节点把它锚定为 alignment 轴的典型病理。
跨域升级：本节点把 0117社会学 / 维特根斯坦的”语言游戏”从认识论工具升级为防御工具——术语分治是产品安全的第一道防线。

§9 关联节点

核心（必读）

Constitutional AI — safety+alignment 双层手段的代表，本节定位其能力边界
m207 - Agent 产品化：场景推演与失败模式 — security 确定性控制（HITL/权限分离）的落地
c14 - 模型评估体系与 Goodhart 陷阱 — alignment 轴的核心病理
RLHF — safety/alignment 的主力训练手段，对 security 后门无效
降发生方法论 — Rick 滴滴对抗治理思维，同构于 security 红队视角
安全感知与干预 — safety（漏判）与 security（黑产对抗）双重属性的真实案例

延伸（可选）

Anthropic — Constitutional Classifiers 数据来源
幻觉 — 最纯粹的 safety（非对抗）失败模式
c13 - 幻觉的不可消除性 — safety 概率性本质的根证据
Function Calling — security 注入的主要攻击面（工具调用）
Agent — 三轴耦合在 Agent 场景集中爆发
0117社会学 — 维特根斯坦语言游戏的跨域入口
AI PM 知识图谱·总索引 — 回到总图

修订日志

R0（2026-06-07）：首稿。建立”威胁来源 × 失败模式 × 防御工具箱”三轴分治框架；四类错位诊断表（§4）；维特根斯坦语言游戏跨域呼应（§6）；接入 Lin/Sun/Shroff 的”防火 vs 防盗”反方耦合论并标边界。多处事实声明标〔待核实〕，待 grounding pass 用 WebSearch/WebFetch 核实 arXiv ID 与具体数字。
2026-06-12 内审·arXiv 联网核实：清了 1 个 / 存疑 0 个。§3 warning#3 与 §4 诊断表两处”ICLR 2025 论文”引用——原稿误把 ICLR 会议论文集 PDF 哈希 4dade38… 当作 arXiv 编号，经 WebSearch+WebFetch 锁定真身为《Persistent Pre-Training Poisoning of LLMs》（Zhang/Rando/Carlini/Tramèr et al., arXiv:2410.13722，ICLR 2025），订正编号并补正核心论断（污染 0.1% 预训练数据即可穿透 SFT/DPO 持续生效）；“对抗训练使后门更难检测”子论断另归 Sleeper Agents(arXiv:2401.05566)。PoisonBench(2024) 与 OWASP LLM Top 10 2025 两处〔待核实〕属书目/规范来源、无内联 arXiv ID，本轮不动。