14. 模型评估体系的重构与 Goodhart 陷阱

衡量 AI 质量比衡量传统软件质量困难一个量级。没有评估体系，模型迭代就是盲飞。而错误的评估体系比没有评估更危险——它会让你在错误方向上越跑越快。

14.1 Benchmark 通胀与 Goodhart 陷阱

Goodhart 定律：当一个指标成为目标，它就不再是好指标。

MMLU、GSM8K、HumanEval 在 2022–2023 年是有效的能力分界线。但当这些 benchmark 成为”军备竞赛”的战场后：

数据污染（Data Contamination）：训练数据中直接或间接包含 benchmark 题目。模型”做过题”，分数虚高。

针对性 SFT 优化：在 SFT 阶段专门强化 benchmark 相关能力，但这不代表真实任务的泛化能力提升——这是过拟合到考试，而非学会了知识。

结果：当前主流 benchmark 的区分度已大幅下降。MMLU 90+ 的模型，在某些实际业务任务上仍然表现糟糕。

当前相对可信的评估：

用另一个 LLM（GPT-4、Claude Opus 等）评价模型输出，已成为规模化评估的标配。相比人工评估，成本低 100 倍，速度快 1000 倍。但存在系统性偏见：

三大已知偏见：

最佳实践：

系统性地尝试让模型产生有害、错误、偏见或不当输出。对 B 端产品尤其关键——企业客户关注的不是平均表现，而是最差情况（“能不能在生产环境闯祸”）。

红队测试的 PM 责任：

模型指标终究要服务于业务指标。如果幻觉率从 5% 降到 3%，但用户留存没有变化——要么存在阈值效应（3% 对用户无感），要么指标定义本身就错了。

核心业务指标矩阵：

指标间的因果链：模型指标 → 产品体验指标 → 业务结果指标。三层指标必须同时追踪，并建立归因链条。否则你不知道”幻觉率下降了，为什么留存没变”。

自建黄金评估集：针对实际业务场景，人工标注 500–1000 条”黄金样本”（输入 + 标准答案）。每次模型迭代都跑这个测试集。这比任何公开 benchmark 都更能反映真实业务需求。

回归测试自动化：模型升级后，自动检验旧场景是否出现退化（regression）。AI 产品最常见的问题：解决了一个问题，悄悄破坏了另一个功能。

黄金法则：评估体系的终极目标，不是让模型的分数好看，而是让用户真的少花时间、少出错、多完成事情。

相关概念卡：幻觉与校准、Scaling Laws、SFT 模块二延伸：m205 RAGAS 框架 — RAG 产品的四维生产级评估体系 | m207 §2.4.5 Agent 评估体系 — Agent 的多维度评估指标上一章：c13 幻觉下一章：c15 数据墙