Goodhart 定律
Goodhart 定律
一句话定义:当一个指标成为优化目标,它就不再是一个好指标——因为压力会让人/系统去优化指标本身,而非指标原本想衡量的东西。
核心要点
-
Goodhart 原始表述(1975):英国经济学家 Charles Goodhart 在货币政策论文中写道——“任何被观测到的统计规律,一旦因调控目的而被施加压力,就趋于崩塌”(Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes)。原意针对货币供应量调控。
-
Strathern 通俗化版本(1997):人类学家 Marilyn Strathern 提炼出今天最广为流传的口语版——“当一个指标成为目标,它就不再是好指标”(When a measure becomes a target, it ceases to be a good measure)。这句”名言”严格说是 Strathern 的措辞,而非 Goodhart 原文。
-
与坎贝尔定律(Campbell’s Law)的关系:社会心理学家 Donald Campbell 1979 年独立提出近义命题——“一个定量社会指标越是被用于社会决策,它就越容易受腐蚀压力,也越容易扭曲它本应监测的社会过程”。两者常并称;近来 AI 对齐文献进一步区分二者:Goodhart 区指优化代理指标导致真实目标偏移(改进评测系统可缓解),Campbell 区指智能体主动降低评测系统的有效辨别力(评测越改越被反超,更危险)。
-
在 AI 里的体现:是 reward hacking / 刷榜 / 指标失效的统一解释框架。RLHF 中表现为 reward model 过优化——真实质量随优化代理奖励先升后降(gold reward 见顶回落,OpenAI Scaling Laws for Reward Model Overoptimization, 2022);评测层表现为模型/团队针对 benchmark 刷分,榜单分数与真实能力脱钩。
在本库的用法
本卡是判断主轴而非孤立词条。0412 评测系统化专题 用它解释”为什么单一指标必然失效、为什么需要多指标 + 持续换题”(见 A06 Goodhart 与指标失效);0427 信息检索专题 用它警惕检索/排序指标被过优化;0419 对齐哲学专题 用它界定 reward hacking 的边界(见 A03 Reward Hacking 与 Goodhart)。凡涉及”用一个数衡量、再拿这个数当目标”的场景,先过一遍本定律。
关联节点
- c14 - 模型评估体系与 Goodhart 陷阱 —— 评测语境的深入:评估体系如何被 Goodhart 陷阱侵蚀、以及缓解手段,本卡不重复
- A03 Reward Hacking 与 Goodhart —— reward hacking 与本定律的概念辨析(专题节点)
- RLHF —— reward model 过优化是本定律在后训练中的直接实例
出处
- Goodhart’s law — Wikipedia(1975 原始表述、Strathern 1997 通俗化)
- Campbell’s law — Wikipedia(Campbell 1979 原文)
- Goodhart’s Law in Reinforcement Learning (ICLR 2024)(Goodhart 与 reward gaming 的形式化关系)
- Scaling Laws for Reward Model Overoptimization (OpenAI, 2022)(代理奖励过优化的实证曲线)