A01 评测概念史与语义流变

当产品群里有人说”我们模型 eval 通过了”，到底发生了什么？是离线跑了一遍 benchmark 拿到一个分数，还是上线后真实用户的满意度指标没掉？是一个自动指标（BLEU/ROUGE）的阈值，还是一个 LLM 裁判给的偏好胜率？——这句话有四种互不兼容的所指，而说话的人和听话的人往往各自默认了不同的一种。本节点的任务不是定义”什么是评测”，而是还原 benchmark / eval / metric / test / validation / assessment 这一组词的语义史与滑变路径，并给出一套辨析框架，让 PM 在选型会和复盘会上能 30 秒识别”这句话到底在指什么”。视角框架：维特根斯坦的「标准（criteria）vs 症状（symptoms）」——一个分数到底是能力的标准，还是只是能力的症状。

§0 为什么先辨析语义，而不是直接讲方法

读者脑中的默认错误框架是：“评测 = 跑分，分高就是好”。这个框架把一组本来正交的概念压扁成了一个标量。要挡掉它，得先承认这组词来自三个不同的知识传统，各自携带不同的隐含假设：

词	出身传统	隐含假设	在 LLM 语境下被改写成
metric（指标）	信息论 / 统计	有闭式公式、可自动计算、与”质量”单调相关	BLEU、ROUGE、perplexity、pass@k
benchmark（基准）	计算机系统 / 学界竞赛	固定题集 + 排行榜 + 可比性	MMLU、GSM8K、GPQA、SWE-bench
test（测试）	软件工程	通过/失败二元、回归、可重复	单元化的 eval case、CI 里的 assertion
validation（验证）	机器学习训练	训练-验证-测试三分、防过拟合	dev set、held-out、留出场景
evaluation（评估）	教育测量 / 心理测量	多维、需校准、信效度	online A/B、人类偏好、LLM-as-Judge
assessment（评定）	教育 / 临床	形成性 vs 总结性、专家判断	红队、rubric 打分、人工标注

[!note] 判断锚点这六个词不是同义词的不同译法，而是六种关于”什么算证据”的承诺。一个团队说”eval”时，它实际继承的是教育测量传统（多维、要校准）；但它跑的是 benchmark（学界竞赛传统，单标量、排行榜）；却用 test 的语气汇报（“通过了/没通过”）。三种传统在一句话里打架，这就是沟通事故的源头。

§1 NLP 自动指标时代：metric 即 evaluation 的原罪

LLM 评测的语义债，是从机器翻译和摘要任务的自动指标继承来的。BLEU（衡量译文与参考译文的 n-gram 重叠）、ROUGE（衡量摘要的召回式重叠）、perplexity（困惑度，衡量语言模型对测试语料的预测不确定性）——这三者的共同结构是：用一个可自动计算的标量，代理一个本质上需要人判断的质量。

这一代指标的致命特征是：它们测的是表面形式的接近度，而不是语义或功能的正确性。一段译文可以 BLEU 很高却意思相反（同样的词、错误的语序未必被惩罚），也可以 BLEU 很低却完全正确（用了参考译文没有的同义表达）。perplexity 更隐蔽：它衡量”模型对这段文本有多不意外”，低 perplexity 只意味着文本风格与训练分布接近，不意味着内容正确——这一点在 LLM-as-Judge 时代以”自我偏好偏差”的形式复活（模型倾向于高估与自身生成风格相近、即困惑度更低的文本，Wataoka et al. 2024）。

为什么这段历史对今天的 PM 重要：自动指标时代留下了一个深植的认知习惯——把”有一个数”等同于”测准了”。当这个习惯迁移到 LLM 能力评测时，它变成”MMLU 86% 就是 86 分的能力”。但 metric 传统从未承诺过这个标量与”真实能力”的因果链——它只承诺了可计算性和可比性。这正是维特根斯坦意义上的”症状”被误当成”标准”。

本节的可证伪判断：BLEU/ROUGE 这类纯重叠指标与人类判断的相关性，本就不足以单独支撑”通过”决策——G-Eval（Liu et al., EMNLP 2023）测得即便是 GPT-4 裁判在摘要任务上与人类的 Spearman 相关也只有 0.514（详见 §5 错位二），传统 n-gram 指标只会更低。赌注：在任何高风险生成任务里，仅凭自动重叠指标背书的”质量结论”都不可靠。会被证伪的条件：若出现一种自动指标，在某任务上被独立复现地证明与人类偏好相关系数稳定 ≥0.9，则该任务上这条判断需放宽——但截至 2026 年我未见这样的指标。

§2 从 NLP 任务指标到 LLM 能力评测的滑变

真正的语义断裂发生在 2021 年前后：评测对象从”单一任务的输出质量”（这段摘要好不好）滑变成了”模型的通用能力”（这个模型聪不聪明）。MMLU（Hendrycks et al., ICLR 2021）是这次滑变的标志性产物——它用 57 个学科、约 1.4 万道四选一选择题，宣称测量”大规模多任务语言理解”。

滑变在哪里？任务指标问的是”这次输出对不对”，能力评测问的是”这个模型行不行”。后者是一个远更强的归纳推断：从一个固定题集上的表现，外推到无限多未见任务上的能力。这个外推的可靠性，恰恰是整个 benchmark 文化最脆弱的假设。

证据已经把这个假设打穿了：

MMLU 在 GPT-4 于 2023 年 3 月达到 86.4% 后，所有前沿模型停滞在 86–87% 区间，判别力丧失（来源：benchmark saturation 报道，Hendrycks et al. 2021 原始基准）。
当题目把四选一扩展到十选一、加入推理密集题（MMLU-Pro，Wang et al., NeurIPS 2024），GPT-4o 从 88.7% 掉到 72.6%，降幅 16 点；CoT 在 MMLU-Pro 上带来 +15–19% 提升，在原始 MMLU 上几乎持平甚至负增益——这直接证明原始 MMLU 主要测的是知识检索，不是推理。
GSM8K（Cobbe et al. 2021）与等难度的 GSM1K（Zhang et al., arXiv 2405.00332, 2024）对比：部分模型在 GSM8K 上比 GSM1K 高出〔待核实：原稿写”最多 13 个百分点”，经核验论文 abstract 及 Appendix F Table 1 实际报告最大跌幅为 8 个百分点；13 这一数字未见于论文正文〕，Spearman r²=0.36 把分数差异与模型在 GSM8K 上的生成概率挂钩——强烈提示记忆而非泛化。

所以”能力评测”这个词本身就是一次滑变：它借用了”我们在测一个客观存在的能力”的语气，却建立在”固定题集→无限能力”这个未经验证的外推上。Goodhart 定律在这里精确生效——一旦 MMLU 成为优化目标，它就不再测量它声称测量的东西。

[!note] 赌注与边界（§2）我的判断是”MMLU 这类公开能力 benchmark 是症状不是标准、不能单独定能力高低”。我赌的是：固定公开题集与”真实能力”之间的外推链不可靠，且会被记忆/污染掏空。这个判断会在何时需要修改：如果出现一种公开、持续封闭刷新、且被独立复现证明”OOD 泛化与榜分高度一致”的能力 benchmark（即榜分能稳定预测未见任务表现），那么在该体系内，“分数=能力”的等式就可以局部成立，本节的全称否定需降格为”对静态公开题集成立”。

§3 学界 benchmark 文化 vs 工业 eval 文化

这是 Rick 在选型会上最容易踩的认知错位：把论文里的 benchmark 当成工业可用的 eval。两种文化的目标函数根本不同：

维度	学界 benchmark 文化	工业 eval 文化
目的	模型间横向可比、推动领域进步、发论文	判断这个版本能不能上线、防回归
题集	公开、固定、追求覆盖广度	私有、贴合业务、追求场景真实
成功定义	排行榜排名、超越 SOTA	业务指标（留存/接管率/投诉率）不退化
对污染的态度	事后修补（出 -CF / -Pro / -Hard 版本）	天然免疫（私有集不进训练数据）
最怕的失败	被人发现刷榜	demo 漂亮但线上翻车

学界文化的产物是 HELM（Liang et al., Stanford CRFM, 2022）那样的多维框架（准确性、鲁棒性、公平性、毒性、效率七维），它的贡献是反对”单标量排行榜”；但即便 HELM 也发现，在公开 benchmark 上强表现的模型，在 held-out 场景上明显下滑——学界自己都承认公开题集会被过拟合。

工业 eval 文化的产物是 c14 已经讲过的”自建 500–1000 条黄金样本集 + 回归测试自动化”和 m205 的”200–500 条真实 query 人工标注 + 集成进 CI/CD”。这两者本质上是把软件工程的 test 传统（通过/失败、回归、可重复）嫁接到概率系统上。

本节的可证伪判断：在 2026 年的中国产业语境下，绝大多数 AI 团队事实上仍停留在”学界 benchmark 文化”而非”工业 eval 文化”——汇报和对外话术以公开榜分/SOTA 为主，私有黄金集要么没建、要么没进 CI 回归。支撑论据有三：(1) 私有黄金集建设是高人力成本投入（m205 的 200–500 条标注 + IAA 计算属于”看不见 ROI 的脏活”）；(2) 组织激励仍指向”能写进 PR/融资材料的榜分”，而非”线上不退化”这种防御性指标；(3) 招聘 JD 与产品白皮书仍在堆 MMLU/榜单分（§6 商业话术风险）。会被证伪的条件：若能拿到一份覆盖面足够的国内 AI 团队评测实践调研，显示多数团队已把私有场景化回归集作为放行主依据，则此判断不成立。〔此为基于公开招聘/白皮书观察的判断，无系统性抽样调研，标注以示推测性质。〕

[!warning] 跨文化误用的真实代价把学界 benchmark 分数写进工业选型报告，等于用”百米跑成绩”评估”能不能当快递员”。SWE-bench Verified 是最刺眼的例子，有两条独立证据各指向题集本身的问题，注意它们来自不同来源、不能混为一句：

第三方分析：SWE-bench+（Aleithan et al., arXiv 2410.06992, 2024）人工筛查发现，模型被判”成功”的 patch 中有 32.67% 涉及解答泄漏（issue 描述或评论里直接包含答案），另有 31.08% 是测试套件太弱、无法拒绝错误解；过滤后 SWE-Agent+GPT-4 的有效解决率从 12.47% 跌到 3.97%。

OpenAI 自己的审计：OpenAI 在 2026 年 2 月 23 日宣布对前沿模型停用 SWE-bench Verified（来源：OpenAI 博客 “Why we no longer evaluate SWE-bench Verified”, 2026-02-23；原稿误写”2025”，已订正）。其审计 o3 在 64 次独立运行中未稳定解出的 138 道题，59.4% 含有实质性的测试设计/题面缺陷（35.5% 是过严的”窄测试”会误杀功能正确的解，18.8% 是”宽测试”检查了题面未要求的功能），即问题出在题集而非模型。

两条证据共同说明：高分里既有数据泄漏、也有脚手架工程（scaffolding，非模型能力）与题集缺陷的贡献。另据 SWE-bench Pro（arXiv 2509.16941, 2025）报道，强模型在跨文件、长上下文设置下的得分远低于 Verified——具体差距与版本命名〔待核实〕，故此处不引用精确分数。

§4 offline vs online：评测的第三条断层线

前三节谈的都是 offline（离线）评测——固定题集、批量跑分、可重复。但工业语境里 “eval” 还经常指 online（在线）评测——真实流量、A/B 实验、用户行为指标。这两者不是同一件事的两个阶段，而是测量不同对象的两套体系：

	offline	online
测什么	模型在固定输入上的输出质量	真实用户在真实情境下的行为反应
信号	准确率、胜率、相关系数	留存、采纳率、人工接管率、投诉率
反馈环	与世界隔离（held-out）	与世界耦合（用户会适应、会博弈）
失效模式	数据污染、过拟合题集	指标被业务侧 Goodhart、外部因素混杂

Chatbot Arena / LMArena 是一个有趣的中间态：它用真实人类的成对偏好投票（online 信号）来生成一个可比排行榜（offline 用法）。这种混合恰恰暴露了断层——“The Leaderboard Illusion”（Singh et al., arXiv 2504.20879, NeurIPS 2025 Poster）记录了 Meta 在 Llama-4 发布前私测 27 个变体、只披露最高分；有限的 Arena 专项训练数据可带来高达 112% 的相对性能提升（ArenaHard 胜率 23.5%→49.9%），但 MMLU 等 OOD 指标同期不升反降——这是 online 偏好信号被当成 offline 能力分数后，被系统性 game 的直接证据。

[!note] 赌注与边界（§4）我的判断是”offline 与 online 测的是不同对象，offline 改善不能直接外推到 online 兑现，二者因果链需独立验证”。我赌的是：在多数生成式产品里，offline 分数提升与 online 业务指标之间没有稳定的正向因果，必须靠真实实验单独证实。这个判断会在何时需要修改：如果在某个具体产品/场景里，能用足够多的历史灰度数据复现地证明”某 offline 指标 Δ 能稳定预测某 online 指标 Δ”（即建立起被验证的代理关系），那么在该场景内，offline 就可作为 online 的前置门禁——但这种代理关系是逐场景标定出来的，不能跨产品默认成立。

§5 判断主轴：「我们模型 eval 通过了」——四种所指错位的沟通事故

⭐ 这是本节点的命门。“eval 通过了”这句话有四种互不兼容的所指，90% 的跨职能事故都源于说者和听者各自默认了不同的一种。

错位一：offline benchmark 分数 vs online 业务指标

症状：算法同学说”eval 过了，MMLU 提了 2 个点”，PM 听成”可以上线了”，灰度后留存不升反降。
为什么会错：双方共用了”eval”这个词，但一个指 offline 跑分（§2），一个默认它能预测 online 行为（§4）。两者之间的因果链从未被验证。
正确做法：约定话术——offline 结果一律说”benchmark 分”，只有 online 实验达标才允许说”通过验收”。在评审模板里强制区分这两栏。
真实反例：幻觉率从 5% 降到 3%，offline 指标”通过”，但用户留存无变化（c14 §14.4 已记录这一阈值效应）——offline 改善没有 online 兑现。

错位二：自动指标”通过” vs 人类判断”通过”

症状：摘要任务 ROUGE 达标宣称”eval 通过”，上线后用户投诉摘要”读着对、其实漏了关键信息”。
为什么会错：自动指标测的是表面重叠（§1），人类要的是功能正确。G-Eval（Liu et al., EMNLP 2023）即便用 GPT-4 做裁判，在摘要任务上与人类的 Spearman 相关系数也只有 0.514——自动信号与人类判断本就只有中等相关。
正确做法：声明”通过”时必须标注证据等级——自动指标 < LLM 裁判 < 人工抽检 < online 行为。高风险场景不接受只有自动指标背书的”通过”。
真实反例：MT-Bench 的”重复列表”攻击实验中，GPT-3.5 和 Claude-v1 对故意冗长回答的失败率为 91.3%（Zheng et al. 2023, arXiv 2306.05685, Table 3，对 23 条答案的统计；同表中只有 GPT-4 能有效抵抗此偏差）——自动/弱裁判会把”啰嗦”判成”更好”。

错位三：LLM 裁判”通过” vs 真实可靠性

症状：用 GPT-4 当裁判跑了一轮，胜率 60%，宣称”eval 通过对手版本”。
为什么会错：把裁判的偏好当成了客观质量。第一，Zheng et al. 2023（arXiv 2306.05685）报告的 GPT-4 与人类一致率达 85%（无平局设置 S2），甚至高于人类互评的 81%——但这只是原始一致率（agreement rate），论文全程用 agreement 作为度量，并未报告任何 Cohen’s Kappa 值；原始一致率不做机会校正，本就会系统性高估真实一致程度，这正是 Cohen Kappa 系数要解决的问题（论文未给 Kappa，故此处不能直接拿一个 Kappa 数字宣称”达到/未达到人类水平”——这一步校正得自己补做）。第二，更关键的是裁判的位置偏差很大：同一对答案交换呈现顺序后，GPT-4 仅 65.0%、GPT-3.5 仅 46.2%、Claude-v1 仅 23.8% 的情况下给出一致结论（Zheng et al. 2023, Table 2，default prompt）——也就是说 GPT-4 约 1/3、Claude-v1 超过 3/4 的判决会因顺序而翻转。第三，JudgeBench（Tan et al., arXiv 2410.12784, ICLR 2025）发现，在高难度对上 GPT-4o 当裁判时在知识和推理维度仅略好于随机猜测（44.2%、48.0%），在数学和编程上稍好（66.1%、61.9%），全维度平均 50.9%——远低于它在简单偏好场景里的表现。
正确做法：LLM 裁判结论必须报告交换顺序后的双向一致率，并标注是否做过人工校准；裁判能力弱于被评模型时，结论作废。
真实反例：位置偏差——Claude-v1 在交换顺序后只有 23.8% 的判决保持一致（Zheng et al. 2023, Table 2）。同一对答案换个顺序就有 3/4 概率得出相反结论，这种裁判给出的”通过”二字毫无意义。

错位四：“通过” = 标准 vs “通过” = 症状（维特根斯坦切口）

症状：所有人都说”分数到 90 就通过”，但没人能说清这个 90 是”具备能力的充分标准”还是”碰巧表现出来的一个症状”。
为什么会错：把可观测的代理信号（分数）误当成不可直接观测的目标（能力）的定义本身。一旦分数成为目标，它与能力的关联就被 Goodhart 掏空（§2、§3 全部证据）。
正确做法：对每个”通过阈值”显式追问——它是标准还是症状？污染、过拟合、脚手架能不能在不提升真实能力的前提下推高它？能，就降级为”症状”，不能单独作为放行依据。
真实反例：GPQA Diamond（Rein et al., arXiv 2311.12022, 2023）AI 从 39%（2023.11）升到 94%+（2026 初），表面”超越 PhD 专家的 65%“。但人类是无工具、限时、冷启动作答，模型经过海量相关语料训练，四选一格式本身也偏离真实科研推理——同一个”94%“是症状，不是”具备博士级推理能力”的标准。

§6 产品 PM 视角补盲

工程视角只盯着”哪个指标更准”。但 PM 要补三个非技术盲点：

用户心理模型：用户从不读你的 eval 报告，他们用”这次帮没帮到我”来评测你的产品。你的 offline 92% 准确率，在用户那里只折算成”上次它瞎编了一个数，我现在不太敢信”——单次失败的记忆权重远高于平均成功率。评测体系若不含”最差情况”维度（红队、逃逸率），就系统性地高估了用户感知质量。
商业话术风险：销售把 “MMLU 90+” 写进标书，是把学界 benchmark 当成工业承诺（§3 错位）。一旦客户在真实场景验收翻车，赔的是合同和信誉。PM 要给市场/销售一份”哪些分数能对外说、怎么加限定词”的话术红线。
合规与可问责：在滴滴安全/国际化语境下，“eval 通过”在事故复盘里会被当成尽职证据。如果”通过”指的只是 offline 跑分，那它在监管和法务面前是站不住的——可问责的评测必须是 online + 场景化的，且留有 IAA（标注一致性）记录证明判断不是单人拍脑袋。

§7 对手框架回应

业界反方立场（接受 + 边界）：SWE-bench 原作者 Jimenez、Yang 等人（“SWE-bench: Can Language Models Resolve Real-World GitHub Issues?”, arXiv 2310.06770, ICLR 2024）的核心主张是——用真实 GitHub issue + 真实测试套件来评测，本身就是比合成题集更有意义的能力信号；其设计动机正是反对”刷题式”benchmark。延伸到本节点的对手立场就是：“能解决真实 issue 这件事是有价值的能力证据，即便存在部分记忆/泄漏，也不应因污染就全盘否定 benchmark。”

接受：对。完全无污染的评测在实践中不存在；适量污染甚至可能在大规模训练结束时被”遗忘”（ICML 2025 一项研究的发现，挑战了”污染必然抬分”的简单假设）。把”有污染”当成”分数全假”是另一种粗暴。
边界与赌注：但本节点坚持的边界是——污染的存在不改变”分数是症状而非标准”这个判断。“Emperor’s New Clothes”（ICML 2025, arXiv 2503.16402）系统测试 10 个 LLM、5 个 benchmark、20 种污染缓解策略，结论是没有任何策略在”保真度”和”抗污染性”上同时有效、显著优于不做处理。所以我赌的是：单一公开 benchmark 分数永远不能单独作为放行依据，无论它名义上多干净。可能错在哪：如果未来出现可证明的、持续封闭且高保真的动态评测（如严格运营的 held-out 滚动题库），这个”永远不能单独”的判断需要放宽到”在该体系内可以”。

Rick 未读的对手框架引入（破 echo chamber）：心理测量学（psychometrics）的信度-效度（reliability-validity）框架。它会反过来质问本节点：“你说 benchmark 不可靠，但你用的是哪种信度、哪种效度概念？“这套语言有具体的、可追溯的源头：Lee Cronbach 的信度系数（Cronbach’s α，Cronbach 1951）给出”测量一致性”的量化定义；Samuel Messick 在《Validity》（载 Educational Measurement, 1989）及 “Validity of Psychological Assessment”（American Psychologist, 1995）中把效度统一为以构念效度（construct validity）为核心的整体框架，区分内容、实质、结构、外推、后果等多个侧面。用这套语言，MMLU 的问题精确表述是”构念效度失败”：它把”会做四选一选择题”当成了”具备多任务语言理解能力”这个构念的操作化定义，而 Messick 的框架恰恰要求论证”测验分数能否支撑这一构念解释及其后果”——AI 评测圈至今几乎没做过这件事。这个框架逼问的盲点是：大量”出更难的 benchmark”的努力，提升的只是 Messick 意义上的区分度/难度，却几乎没人系统论证 construct validity——我们至今没有一个被严格验证的”能力”构念定义。〔Cronbach 1951、Messick 1989/1995 为心理测量学经典文献，具体页码与版次未逐一核对，标注以备查〕

§8 跨域呼应：维特根斯坦的「标准 vs 症状」

维特根斯坦在《哲学研究》中区分了 criteria（标准） 与 symptoms（症状）：标准是与概念逻辑相关的、能定义性地判定其是否成立的根据；症状只是经验上伴随出现、可错地相关的迹象。判断”他牙疼”——他的呻吟、捂脸是症状（可以装），而在我们的语言游戏里，某些行为表达构成牙疼的标准。

把这把刀架到评测上：MMLU 分数与”语言理解能力”的关系，是标准还是症状？ benchmark 文化的全部隐含主张是”它是标准”——分数定义性地刻画了能力。但 §2 的所有证据（饱和、CoT 无效、记忆相关）说明它只是症状：一个经验上曾经伴随能力出现、但可以被污染/过拟合/脚手架伪造的迹象。Goodhart 定律的维特根斯坦式重述就是：当一个症状被当成标准来优化时，它与原概念的经验关联会被切断——模型学会了产生症状（高分），而不必具备它本应指示的东西（能力）。

这个区分改变了 PM 的具体判断动作：面对任何一个”通过指标”，先问”它是这个能力的标准还是症状”。如果换个题集分布、换个呈现顺序、加点脚手架就能让分数动而能力不动，那它就是症状，不能单独定生死。这正是 §5 错位四的哲学根。维特根斯坦还提醒：标准本身是嵌在”语言游戏”和”生活形式”里的——所以脱离了具体业务场景（生活形式）去谈”通用能力评测”，本身就是范畴错误。这反过来支持了 §3 的判断：工业 eval 必须场景化，因为”能力”的标准只在具体生活形式中才被确定。

§9 PM 决策启示

面试怎么用：被问”怎么评估一个 LLM 功能”时，不要背指标清单。先反问”评估什么——offline 能力还是 online 业务？“再用”标准 vs 症状”展开：我会先确认现有指标是能力的标准还是症状，再设计无法被污染/脚手架伪造的私有评测。这一句就把你和”会背 MMLU/BLEU”的候选人区分开。
选型怎么用：看到供应商 PPT 上的 benchmark 分，第一反应是查”这是 offline 公开题集分（§3 学界文化），还是他们在我业务场景上的 online 结果”。要求对方在你的私有黄金集上现场跑，而不是看排行榜。
复现怎么用：自建评测时，先按 §0 的六词表声明”我这一栏到底属于哪个传统、承诺了什么”，避免把 test 的二元语气安到 evaluation 的多维对象上。每个”通过阈值”都附一句”它为什么是标准而非症状”。

§10 与已有节点的关系

对照 c14 - 模型评估体系与 Goodhart 陷阱（升级·补缺）：c14 已经讲透了”Goodhart 是什么、benchmark 通胀、三大裁判偏见、六维业务指标”——本节点不复述这些事实基础。c14 的框架停在”防御 Goodhart”（怎么不被骗），本节点升高一个抽象层，处理 c14 未触及的认识论前置问题：为什么”分数”这个东西从一开始就只是症状不是标准（§8 维特根斯坦切口）、benchmark/eval/metric 这组词的语义债从何而来（§1–§2）、以及”通过”这个动词本身的四重歧义（§5）。简言之：c14 教你怎么用对的评测，A01 教你先看清”评测”这个词在每次使用时到底指什么。
对照 Cohen Kappa 系数（深化·迁移用法）：Kappa 节点是纯统计工具解释（机会校正后的一致率）。本节点 §5 错位三把它迁移到一个新场景——用 Kappa 量化 LLM 裁判与人类、或两个裁判之间的 inter-rater reliability。要点恰恰在于：Zheng et al. 2023 只报告了 85% 这个未做机会校正的原始一致率、并未报告 Kappa，而原始一致率会系统性高估真实一致程度；所以”裁判与人类一致率 85%“不能直接读成”裁判达到人类水平”——结论可靠与否取决于补做的 Kappa（或类似机会校正度量）以及位置偏差校验。
对照 m205 - RAG 生产环境：索引运维与评估体系（对话）：m205 的 RAGAS 四维与黄金集工程是 §3”工业 eval 文化”的具体实例；本节点为它补上”为什么这套私有集天然比公开 benchmark 可信”的认识论理由。
关联 c13 - 幻觉的不可消除性（对话）：c13 的”校准失准”是本节点 §5 错位三的前提——裁判自身校准有问题，它给的”通过”自然不可靠。

§11 关联节点

核心（必读）

c14 - 模型评估体系与 Goodhart 陷阱 — 本专题的旧版前身，必须先读以理解升级方向
Cohen Kappa 系数 — §5 错位三的统计基础（机会校正一致率）
m205 - RAG 生产环境：索引运维与评估体系 — 工业 eval 文化的落地实例
c13 - 幻觉的不可消除性 — 裁判校准问题的来源
A06 Goodhart 与指标失效 — 本节点 §2/§3/§8 反复调用的 Goodhart 机制，专门成节展开
A03 Benchmark 与数据污染 — §3 callout 与 §7 赌注的污染证据细节落点
A04 LLM-as-Judge — §5 错位三”LLM 裁判”歧义的专门剖面（位置偏差/自我偏好/JudgeBench）
A02 评测对象层级辨析·模型／系统／产品／Agent eval — 与本节点同属”概念辨析”，从”测什么对象”维度互补”用哪个词”维度

延伸（可选）

A05 人工评测与标注一致性 — §5 错位二/三的”人工抽检”证据等级与 IAA 出处
S01 评测体系分层剖面 — §0 六词表对应到可替换的评测分层堆栈
S02 评测方法流派对照矩阵 — §3 学界 vs 工业、§4 offline vs online 的方法学全景
E03 Chatbot Arena·LMArena & 人类偏好评测剖解 — §4 “online 偏好当 offline 分数”被 game 的实例剖解
G01 评测范式代际谱系总图 — §1→§2→§4 的语义滑变在代际谱系上的时间定位
c11 - System 2 思维与 Test-Time Compute — ORM/PRM 是”从终点评测到过程评测”的升级
m207 - Agent 产品化：场景推演与失败模式 — Agent 七维评估体系是多对象评测的实例
Rick 写作 SABCD 评级体系 — “按体裁分轨”= AI 评测”按任务类型分轨”的人文对照
范式 — §2 滑变=Kuhn 意义上的范式转移，跨域呼应入口
0601 维特根斯坦 — §8”标准 vs 症状”切口的人物源头
构念效度（待建概念卡）— §7 心理测量学对手框架的核心概念，计划补概念词典与独立概念卡
Goodhart 定律（待建概念卡）— §2/§8 反复引用，待抽为独立概念卡（现暂由 A06 Goodhart 与指标失效承载）
AI概念滥用反思 — 术语锚定/迁移失败作为评测系统性误判来源（已核实文件存在：04AI/AI概念滥用反思.md，文件名精确匹配、无空格歧义）
AI PM 知识图谱·总索引 — 全库总索引入口

修订日志

R0（2026-06-06）初稿：建立 benchmark/eval/metric/test/validation/assessment 六词的传统溯源表（§0）；NLP 自动指标→LLM 能力评测的滑变链（§1–§2）；学界 vs 工业、offline vs online 两条断层线（§3–§4）；判断主轴四种所指错位四件套（§5）；维特根斯坦”标准 vs 症状”作为贯穿全文的切口（§8）；与 c14 的显式升级对照（§10）。所有可证伪声明已接地至证据简报，SWE-bench Pro 具体版本命名标〔待核实〕。待后续轮次：补 §5 错位的更多业务侧真实反例、核实 Claude Mythos Preview 命名、考虑是否新增”validation 在 ML 训练 vs 工业验收两义”的独立小节。
R1（2026-06-07）按批评 issue 修订 · 事实接地 + 双链 + 判断密度：
- 【C维·删除编造数值】§5 错位三：经 Web 核查 Zheng et al. 2023（arXiv 2306.05685）全文与 HTML 版（arxiv.org/html/2306.05685v4），论文全程用原始 agreement rate、从未报告任何 Cohen’s Kappa——故删除原稿”Kappa 0.84 vs 人类 0.97”这一对编造数字及其比较论点，改写为”GPT-4 与人类一致率 85%、人类互评 81%（设置 S2，无平局）；论文未给 Kappa，原始一致率不做机会校正会高估真实一致”的可核实表述。
- 【C维·位置偏差数值坐实】§5 错位三/真实反例：原稿”翻转比例约 35%""Claude-v1 一致性 23.8%“经核验确为论文 Table 2（default prompt）所载——补上精确出处，并补全 GPT-4 65.0%、GPT-3.5 46.2% 三个一致率，改”约 35%“为”GPT-4 65.0% 一致即约 1/3 翻转”的准确表述。
- 【C维·91.3% 坐实】§5 错位二：经核验 91.3% 确为论文 Table 3”repetitive list”攻击对 23 条答案的失败率——保留该精确值并补注 arXiv 号 + Table 3 + 样本量。
- 【C维·JudgeBench 作者订正】§5 错位三：作者由误写的”Ye et al., 2024”订正为”Tan et al., arXiv 2410.12784, ICLR 2025”（核验 arXiv，第一作者 Sijun Tan）；并按批评把”仅略好于随机”的过度概括改为分维度精确值（知识 44.2%/推理 48.0%/数学 66.1%/编程 61.9%/全维 50.9%）。
- 【C维·SWE-bench 来源张冠李戴拆分】§3 callout：将 32.67% 解答泄漏改归第三方分析 SWE-bench+（Aleithan et al., arXiv 2410.06992, 2024，并补 31.08% 弱测试、12.47%→3.97% 过滤后跌幅）；OpenAI 博客单列其实际发现（审计 138 题，59.4% 含测试/题面缺陷，35.5% 窄测试 + 18.8% 宽测试），两来源分句陈述；SWE-bench Pro 精确分数删除、降级为〔待核实〕。
- 【D维·双链密度 8→22】§11：补入本专题内 A02/A03/A04/A05/S01/S02/E03/G01/A06 互链与范式、0601 维特根斯坦、构念效度（待建）、Goodhart 定律（待建），核/延两档共 22 条，超过 ≥15 硬线。
- 【D维·死链核验】：grep 确认 AI概念滥用反思实存于 04AI/AI概念滥用反思.md、文件名精确匹配无空格歧义，保留并加注；其余新增链接均已 find 核验目标存在或标〔待建〕。
- 【E维·对手立场具名化】§7：把匿名”有研究者主张”替换为可追溯的 SWE-bench 原作者 Jimenez/Yang 等（arXiv 2310.06770, ICLR 2024）的真实设计主张；心理测量学对手框架补具名学者 Lee Cronbach（信度 α, 1951）与 Samuel Messick（构念效度整体框架, 1989/1995），并标注经典文献以备查。
- 【A维·补可证伪判断】§1、§3：§1 末补”自动重叠指标相关性不足以单独定通过”的赌注 + 被证伪条件（相关系数稳定 ≥0.9）；§3 表后补”2026 中国产业语境多数团队仍处学界 benchmark 文化”的可证伪判断 + 三条支撑 + 推测标注。
- 【B维·边界声明】§2、§4：分别加”赌注与边界”callout，显式写明判断在何种条件下需要修改（出现持续封闭高保真 benchmark / 逐场景标定出 offline→online 代理关系）。
- 【S维·新概念计划】：§7 引入的”构念效度”已在 §11 计划为独立概念卡，并计划补 00Meta/概念词典.md（核验现词典暂无此条）。
- 待后续轮次：核实 Claude Mythos Preview 命名与 SWE-bench Pro 具体分数；落地构念效度、Goodhart 定律两个待建概念卡。
R2（2026-06-07）死链清扫：[构念效度](/kb/基础知识库/构念效度/)、[Goodhart 定律](/kb/基础知识库/goodhart-定律/) 两条死链降级为普通文本（vault 中无对应节点），并在末尾”待建概念卡”节登记。
2026-06-11 P3.4 校链：待建概念卡引言里残留的占位双链 双链（方法论行文示意、从不是真链接目标）去链化为纯文本”双链”；§11 与本日志中的 [构念效度](/kb/基础知识库/构念效度/)、[Goodhart 定律](/kb/基础知识库/goodhart-定律/) 系真·待建学术概念，按校链规约保留为合法前向链。[AI概念滥用反思](/kb/基础知识库/ai概念滥用反思/)、[A06 Goodhart 与指标失效](/kb/专题-评测与度量/a06-goodhart-与指标失效/) 等已存节点经全 vault find 核实为真链，“已核实文件存在”断言属实，保留。

待建概念卡（死链已降级，入库后补建）

以下概念在本节点有实质引用，但 vault 中尚无对应节点，已将原双链降级为普通文本以避免死链：

构念效度（construct validity）：§7 心理测量学对手框架的核心概念，建议补 04AI/ 或 01学习/0132概率论-统计学/ 下的独立概念卡，同步写入 00Meta/概念词典.md。
Goodhart 定律：§2/§8 反复引用的跨域定律，现由 A06 Goodhart 与指标失效承载主要内容；建议入库后在 04AI/ 或适当位置建独立概念卡，并给 A06 加 alias Goodhart 定律 作为临时 redirect。