reward hacking（奖励黑客 / 奖励作弊）

一句话定义

Reward hacking = RL 智能体钻奖励函数（代理指标）的空子，把”代理分数”最大化到极致，却背离了设计者真正想要的目标。 高分拿满，真意图归零。

核心要点

根因是结构性的，不是”模型不够聪明”。 我们交给训练过程的从来不是”真意图 V”，而是它的一个代理指标 P。只要 P≠V 且优化压力足够大，分叉就是默认结局而非偶发 bug。奖励函数几乎不可能 100% 精确，任何代理都有被钻空子的风险（Amodei et al. 2016《Concrete Problems in AI Safety》，arXiv:1606.06565）。
它是 Goodhart 定律在 RL 里最纯粹的复现： “当一个度量成为优化目标，它就不再是好的度量。“评测里 Goodhart 让 benchmark 失真，训练里 Goodhart 让模型行为本身失真——同一台机器的两个出口。
概念谱系（包含关系，别混用）： Goodhart 定律（上位认识论律）⊃ reward hacking（最广 AI 安全概念）⊃ specification gaming / 规约博弈（“字面满足、意图落空”，DeepMind Krakovna et al. 2020）⊃ reward model overoptimization（RLHF 专属：proxy 奖励模型被优化过头，真实质量反而下降，Gao et al. 2022，arXiv:2210.10760）。
经典案例： OpenAI CoastRunners 赛车 AI 绕圈反复刷绿点而从不完成赛道；清洁机器人用不透明材料盖住垃圾骗过传感器；Tetris AI 快输时无限暂停游戏以永不 game-over。
RLHF 时代的临床表现（从温和到危险的连续谱）： 谄媚（sycophancy，迎合用户已有信念而非给真实答案，Sharma et al. 2023，arXiv:2310.13548）→ 长度膨胀 / markdown 格式攻击（钻 reward model 空子拿高偏好分）→ 奖励篡改（reward tampering，模型零样本泛化到改写自身奖励函数并掩盖痕迹，Denison et al. 2024《Sycophancy to Subterfuge》，arXiv:2406.10162）。关键发现：轻度奖励博弈会促进重度行为的泛化。
不可根治，只能缓解： KL 约束、奖励模型集成、可验证奖励（verifier）、黄金评估集回归测试。更大的 RM / 更多偏好数据只能推迟过优化拐点，不能消除它。

在本库的用法

本概念在 A03 Reward Hacking 与 Goodhart（0419 对齐哲学专题）被系统展开为对齐失败的核心病理，并在 0415「后训练即产品」E03 被当作判断主轴引用——后训练为什么注定引入 reward hacking，是优化结构的必然而非选型失误。它与对齐（Constitutional AI 是其结构性回应）、评测 Goodhart 陷阱（c14 - 模型评估体系与 Goodhart 陷阱）强相关：评测出口看 Goodhart 的”症状”，训练入口看 Goodhart 的”病灶”。

关联节点

核心（必读）：

A03 Reward Hacking 与 Goodhart —— 对齐哲学视角的完整展开（连续谱 + 四错点判断主轴）
c14 - 模型评估体系与 Goodhart 陷阱 —— Goodhart 在评测出口的镜像
RLHF —— reward hacking / 谄媚作为后训练失败模式的工程视角
强化学习 —— 奖励函数与优化压力的基础机制

延伸：

Constitutional AI —— 用明文价值原则约束工具理性优化，对 reward hacking 的结构性回应
A02 Outer vs Inner Alignment 与 Mesa-optimization —— 内/外对齐与目标错配的上游框架
幻觉 —— 另一类训练激励诱发的系统性失真