R

Goodhart 定律

创建 2026-06-12 更新 2026-06-12 3 条双链 共创

Goodhart 定律

一句话定义:当一个指标成为优化目标,它就不再是一个好指标——因为压力会让人/系统去优化指标本身,而非指标原本想衡量的东西。

核心要点

  • Goodhart 原始表述(1975):英国经济学家 Charles Goodhart 在货币政策论文中写道——“任何被观测到的统计规律,一旦因调控目的而被施加压力,就趋于崩塌”(Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes)。原意针对货币供应量调控。

  • Strathern 通俗化版本(1997):人类学家 Marilyn Strathern 提炼出今天最广为流传的口语版——“当一个指标成为目标,它就不再是好指标”(When a measure becomes a target, it ceases to be a good measure)。这句”名言”严格说是 Strathern 的措辞,而非 Goodhart 原文。

  • 与坎贝尔定律(Campbell’s Law)的关系:社会心理学家 Donald Campbell 1979 年独立提出近义命题——“一个定量社会指标越是被用于社会决策,它就越容易受腐蚀压力,也越容易扭曲它本应监测的社会过程”。两者常并称;近来 AI 对齐文献进一步区分二者:Goodhart 区指优化代理指标导致真实目标偏移(改进评测系统可缓解),Campbell 区指智能体主动降低评测系统的有效辨别力(评测越改越被反超,更危险)。

  • 在 AI 里的体现:是 reward hacking / 刷榜 / 指标失效的统一解释框架。RLHF 中表现为 reward model 过优化——真实质量随优化代理奖励先升后降(gold reward 见顶回落,OpenAI Scaling Laws for Reward Model Overoptimization, 2022);评测层表现为模型/团队针对 benchmark 刷分,榜单分数与真实能力脱钩。

在本库的用法

本卡是判断主轴而非孤立词条。0412 评测系统化专题 用它解释”为什么单一指标必然失效、为什么需要多指标 + 持续换题”(见 A06 Goodhart 与指标失效);0427 信息检索专题 用它警惕检索/排序指标被过优化;0419 对齐哲学专题 用它界定 reward hacking 的边界(见 A03 Reward Hacking 与 Goodhart)。凡涉及”用一个数衡量、再拿这个数当目标”的场景,先过一遍本定律。

关联节点


出处