R

c14 - 模型评估体系与 Goodhart 陷阱

创建 2026-05-13 更新 2026-05-16 14 条双链 共创

14. 模型评估体系的重构与 Goodhart 陷阱

衡量 AI 质量比衡量传统软件质量困难一个量级。没有评估体系,模型迭代就是盲飞。而错误的评估体系比没有评估更危险——它会让你在错误方向上越跑越快。

14.1 Benchmark 通胀与 Goodhart 陷阱

Goodhart 定律:当一个指标成为目标,它就不再是好指标。

MMLU、GSM8K、HumanEval 在 2022–2023 年是有效的能力分界线。但当这些 benchmark 成为”军备竞赛”的战场后:

数据污染(Data Contamination):训练数据中直接或间接包含 benchmark 题目。模型”做过题”,分数虚高。

针对性 SFT 优化:在 SFT 阶段专门强化 benchmark 相关能力,但这不代表真实任务的泛化能力提升——这是过拟合到考试,而非学会了知识。

结果:当前主流 benchmark 的区分度已大幅下降。MMLU 90+ 的模型,在某些实际业务任务上仍然表现糟糕。

当前相对可信的评估

  • LMSYS Chatbot Arena:真实用户盲测投票,人类偏好驱动,难以刷榜
  • LiveBench:题目定期更新,避免训练数据污染
  • 专项 benchmark:针对特定业务场景自建的评估集(最可信,因为与实际业务最相关)

14.2 LLM-as-a-Judge:有用但有偏

用另一个 LLM(GPT-4、Claude Opus 等)评价模型输出,已成为规模化评估的标配。相比人工评估,成本低 100 倍,速度快 1000 倍。但存在系统性偏见:

三大已知偏见

偏见类型表现缓解方案
位置偏见(Position Bias)倾向于选择第一个或第二个呈现的答案随机交换 A/B 顺序,取两次结果的一致性
冗长偏见(Verbosity Bias)更长的回答被评为更好,即使信息密度低明确要求 Judge 按简洁性单独打分
自我偏见(Self-Enhancement)GPT-4 更倾向于认为 GPT-4 的输出更好用多个不同厂商的 Judge 交叉验证

最佳实践

  • 要求 Judge 输出打分理由,而非只给分数(可人工抽查理由是否合理)
  • 用人工评估结果校准 Judge 的打分偏差(bias calibration)
  • LLM-as-a-Judge 不应是唯一评估手段,是规模化筛选工具,最终决策仍需人工确认

14.3 红队测试(Red-Teaming):评估安全边界

系统性地尝试让模型产生有害、错误、偏见或不当输出。对 B 端产品尤其关键——企业客户关注的不是平均表现,而是最差情况(“能不能在生产环境闯祸”)。

红队测试的 PM 责任

  • 定义场景清单(基于产品的真实用户行为和边界 case)——不只是让工程师自由发挥
  • 设定”可接受的失败率”:什么场景绝对不能出错(0 容忍),什么场景有一定失败率可以接受
  • 将红队结果直接转化为 SFT 训练数据和护栏规则,形成闭环

14.4 业务体验指标:评估的最终标准

模型指标终究要服务于业务指标。如果幻觉率从 5% 降到 3%,但用户留存没有变化——要么存在阈值效应(3% 对用户无感),要么指标定义本身就错了。

核心业务指标矩阵

指标含义适用场景
任务完成率(Task Completion Rate)用户的请求是否被正确执行Agent、问答、生成类产品
人工接管率(Human Takeover Rate)幻觉率和可靠性的业务映射客服、专业工具
采纳率(Acceptance Rate)用户是否使用了 AI 的建议写作辅助、代码补全
编辑距离(Edit Distance)用户对 AI 输出做了多少修改内容生成、文档撰写
重试率(Retry Rate)用户触发”重新生成”的频率所有生成类产品
逃逸率(Escape Rate)放弃 AI,转手动完成的比例AI 替代工作流场景

指标间的因果链:模型指标 → 产品体验指标 → 业务结果指标。三层指标必须同时追踪,并建立归因链条。否则你不知道”幻觉率下降了,为什么留存没变”。

14.5 Goodhart 陷阱的产品级防御

自建黄金评估集:针对实际业务场景,人工标注 500–1000 条”黄金样本”(输入 + 标准答案)。每次模型迭代都跑这个测试集。这比任何公开 benchmark 都更能反映真实业务需求。

回归测试自动化:模型升级后,自动检验旧场景是否出现退化(regression)。AI 产品最常见的问题:解决了一个问题,悄悄破坏了另一个功能。

黄金法则:评估体系的终极目标,不是让模型的分数好看,而是让用户真的少花时间、少出错、多完成事情。

相关概念卡:幻觉与校准Scaling LawsSFT 模块二延伸:m205 RAGAS 框架 — RAG 产品的四维生产级评估体系 | m207 §2.4.5 Agent 评估体系 — Agent 的多维度评估指标 上一章:c13 幻觉 下一章:c15 数据墙