R

A01 评测概念史与语义流变

创建 2026-06-06 更新 2026-06-11 10 条双链 评测 专题 AI 整理

A01 评测概念史与语义流变

当产品群里有人说”我们模型 eval 通过了”,到底发生了什么?是离线跑了一遍 benchmark 拿到一个分数,还是上线后真实用户的满意度指标没掉?是一个自动指标(BLEU/ROUGE)的阈值,还是一个 LLM 裁判给的偏好胜率?——这句话有四种互不兼容的所指,而说话的人和听话的人往往各自默认了不同的一种。本节点的任务不是定义”什么是评测”,而是还原 benchmark / eval / metric / test / validation / assessment 这一组词的语义史与滑变路径,并给出一套辨析框架,让 PM 在选型会和复盘会上能 30 秒识别”这句话到底在指什么”。视角框架:维特根斯坦的「标准(criteria)vs 症状(symptoms)」——一个分数到底是能力的标准,还是只是能力的症状

§0 为什么先辨析语义,而不是直接讲方法

读者脑中的默认错误框架是:“评测 = 跑分,分高就是好”。这个框架把一组本来正交的概念压扁成了一个标量。要挡掉它,得先承认这组词来自三个不同的知识传统,各自携带不同的隐含假设:

出身传统隐含假设在 LLM 语境下被改写成
metric(指标)信息论 / 统计有闭式公式、可自动计算、与”质量”单调相关BLEU、ROUGE、perplexity、pass@k
benchmark(基准)计算机系统 / 学界竞赛固定题集 + 排行榜 + 可比性MMLU、GSM8K、GPQA、SWE-bench
test(测试)软件工程通过/失败二元、回归、可重复单元化的 eval case、CI 里的 assertion
validation(验证)机器学习训练训练-验证-测试三分、防过拟合dev set、held-out、留出场景
evaluation(评估)教育测量 / 心理测量多维、需校准、信效度online A/B、人类偏好、LLM-as-Judge
assessment(评定)教育 / 临床形成性 vs 总结性、专家判断红队、rubric 打分、人工标注

[!note] 判断锚点 这六个词不是同义词的不同译法,而是六种关于”什么算证据”的承诺。一个团队说”eval”时,它实际继承的是教育测量传统(多维、要校准);但它跑的是 benchmark(学界竞赛传统,单标量、排行榜);却用 test 的语气汇报(“通过了/没通过”)。三种传统在一句话里打架,这就是沟通事故的源头。

§1 NLP 自动指标时代:metric 即 evaluation 的原罪

LLM 评测的语义债,是从机器翻译和摘要任务的自动指标继承来的。BLEU(衡量译文与参考译文的 n-gram 重叠)、ROUGE(衡量摘要的召回式重叠)、perplexity(困惑度,衡量语言模型对测试语料的预测不确定性)——这三者的共同结构是:用一个可自动计算的标量,代理一个本质上需要人判断的质量

这一代指标的致命特征是:它们测的是表面形式的接近度,而不是语义或功能的正确性。一段译文可以 BLEU 很高却意思相反(同样的词、错误的语序未必被惩罚),也可以 BLEU 很低却完全正确(用了参考译文没有的同义表达)。perplexity 更隐蔽:它衡量”模型对这段文本有多不意外”,低 perplexity 只意味着文本风格与训练分布接近,不意味着内容正确——这一点在 LLM-as-Judge 时代以”自我偏好偏差”的形式复活(模型倾向于高估与自身生成风格相近、即困惑度更低的文本,Wataoka et al. 2024)。

为什么这段历史对今天的 PM 重要:自动指标时代留下了一个深植的认知习惯——把”有一个数”等同于”测准了”。当这个习惯迁移到 LLM 能力评测时,它变成”MMLU 86% 就是 86 分的能力”。但 metric 传统从未承诺过这个标量与”真实能力”的因果链——它只承诺了可计算性和可比性。这正是维特根斯坦意义上的”症状”被误当成”标准”。

本节的可证伪判断:BLEU/ROUGE 这类纯重叠指标与人类判断的相关性,本就不足以单独支撑”通过”决策——G-Eval(Liu et al., EMNLP 2023)测得即便是 GPT-4 裁判在摘要任务上与人类的 Spearman 相关也只有 0.514(详见 §5 错位二),传统 n-gram 指标只会更低。赌注:在任何高风险生成任务里,仅凭自动重叠指标背书的”质量结论”都不可靠。会被证伪的条件:若出现一种自动指标,在某任务上被独立复现地证明与人类偏好相关系数稳定 ≥0.9,则该任务上这条判断需放宽——但截至 2026 年我未见这样的指标。

§2 从 NLP 任务指标到 LLM 能力评测的滑变

真正的语义断裂发生在 2021 年前后:评测对象从”单一任务的输出质量”(这段摘要好不好)滑变成了”模型的通用能力”(这个模型聪不聪明)。MMLU(Hendrycks et al., ICLR 2021)是这次滑变的标志性产物——它用 57 个学科、约 1.4 万道四选一选择题,宣称测量”大规模多任务语言理解”。

滑变在哪里?任务指标问的是”这次输出对不对”,能力评测问的是”这个模型行不行”。后者是一个远更强的归纳推断:从一个固定题集上的表现,外推到无限多未见任务上的能力。这个外推的可靠性,恰恰是整个 benchmark 文化最脆弱的假设。

证据已经把这个假设打穿了:

  • MMLU 在 GPT-4 于 2023 年 3 月达到 86.4% 后,所有前沿模型停滞在 86–87% 区间,判别力丧失(来源:benchmark saturation 报道,Hendrycks et al. 2021 原始基准)。
  • 当题目把四选一扩展到十选一、加入推理密集题(MMLU-Pro,Wang et al., NeurIPS 2024),GPT-4o 从 88.7% 掉到 72.6%,降幅 16 点;CoT 在 MMLU-Pro 上带来 +15–19% 提升,在原始 MMLU 上几乎持平甚至负增益——这直接证明原始 MMLU 主要测的是知识检索,不是推理
  • GSM8K(Cobbe et al. 2021)与等难度的 GSM1K(Zhang et al., arXiv 2405.00332, 2024)对比:部分模型在 GSM8K 上比 GSM1K 高出〔待核实:原稿写”最多 13 个百分点”,经核验论文 abstract 及 Appendix F Table 1 实际报告最大跌幅为 8 个百分点;13 这一数字未见于论文正文〕,Spearman r²=0.36 把分数差异与模型在 GSM8K 上的生成概率挂钩——强烈提示记忆而非泛化

所以”能力评测”这个词本身就是一次滑变:它借用了”我们在测一个客观存在的能力”的语气,却建立在”固定题集→无限能力”这个未经验证的外推上。Goodhart 定律在这里精确生效——一旦 MMLU 成为优化目标,它就不再测量它声称测量的东西

[!note] 赌注与边界(§2) 我的判断是”MMLU 这类公开能力 benchmark 是症状不是标准、不能单独定能力高低”。我赌的是:固定公开题集与”真实能力”之间的外推链不可靠,且会被记忆/污染掏空。这个判断会在何时需要修改:如果出现一种公开、持续封闭刷新、且被独立复现证明”OOD 泛化与榜分高度一致”的能力 benchmark(即榜分能稳定预测未见任务表现),那么在该体系内,“分数=能力”的等式就可以局部成立,本节的全称否定需降格为”对静态公开题集成立”。

§3 学界 benchmark 文化 vs 工业 eval 文化

这是 Rick 在选型会上最容易踩的认知错位:把论文里的 benchmark 当成工业可用的 eval。两种文化的目标函数根本不同:

维度学界 benchmark 文化工业 eval 文化
目的模型间横向可比、推动领域进步、发论文判断这个版本能不能上线、防回归
题集公开、固定、追求覆盖广度私有、贴合业务、追求场景真实
成功定义排行榜排名、超越 SOTA业务指标(留存/接管率/投诉率)不退化
对污染的态度事后修补(出 -CF / -Pro / -Hard 版本)天然免疫(私有集不进训练数据)
最怕的失败被人发现刷榜demo 漂亮但线上翻车

学界文化的产物是 HELM(Liang et al., Stanford CRFM, 2022)那样的多维框架(准确性、鲁棒性、公平性、毒性、效率七维),它的贡献是反对”单标量排行榜”;但即便 HELM 也发现,在公开 benchmark 上强表现的模型,在 held-out 场景上明显下滑——学界自己都承认公开题集会被过拟合

工业 eval 文化的产物是 c14 已经讲过的”自建 500–1000 条黄金样本集 + 回归测试自动化”和 m205 的”200–500 条真实 query 人工标注 + 集成进 CI/CD”。这两者本质上是把软件工程的 test 传统(通过/失败、回归、可重复)嫁接到概率系统上。

本节的可证伪判断:在 2026 年的中国产业语境下,绝大多数 AI 团队事实上仍停留在”学界 benchmark 文化”而非”工业 eval 文化”——汇报和对外话术以公开榜分/SOTA 为主,私有黄金集要么没建、要么没进 CI 回归。支撑论据有三:(1) 私有黄金集建设是高人力成本投入(m205 的 200–500 条标注 + IAA 计算属于”看不见 ROI 的脏活”);(2) 组织激励仍指向”能写进 PR/融资材料的榜分”,而非”线上不退化”这种防御性指标;(3) 招聘 JD 与产品白皮书仍在堆 MMLU/榜单分(§6 商业话术风险)。会被证伪的条件:若能拿到一份覆盖面足够的国内 AI 团队评测实践调研,显示多数团队已把私有场景化回归集作为放行主依据,则此判断不成立。〔此为基于公开招聘/白皮书观察的判断,无系统性抽样调研,标注以示推测性质。〕

[!warning] 跨文化误用的真实代价 把学界 benchmark 分数写进工业选型报告,等于用”百米跑成绩”评估”能不能当快递员”。SWE-bench Verified 是最刺眼的例子,有两条独立证据各指向题集本身的问题,注意它们来自不同来源、不能混为一句:

  • 第三方分析:SWE-bench+(Aleithan et al., arXiv 2410.06992, 2024)人工筛查发现,模型被判”成功”的 patch 中有 32.67% 涉及解答泄漏(issue 描述或评论里直接包含答案),另有 31.08% 是测试套件太弱、无法拒绝错误解;过滤后 SWE-Agent+GPT-4 的有效解决率从 12.47% 跌到 3.97%。
  • OpenAI 自己的审计:OpenAI 在 2026 年 2 月 23 日宣布对前沿模型停用 SWE-bench Verified(来源:OpenAI 博客 “Why we no longer evaluate SWE-bench Verified”, 2026-02-23;原稿误写”2025”,已订正)。其审计 o3 在 64 次独立运行中未稳定解出的 138 道题,59.4% 含有实质性的测试设计/题面缺陷(35.5% 是过严的”窄测试”会误杀功能正确的解,18.8% 是”宽测试”检查了题面未要求的功能),即问题出在题集而非模型。

两条证据共同说明:高分里既有数据泄漏、也有脚手架工程(scaffolding,非模型能力)与题集缺陷的贡献。另据 SWE-bench Pro(arXiv 2509.16941, 2025)报道,强模型在跨文件、长上下文设置下的得分远低于 Verified——具体差距与版本命名〔待核实〕,故此处不引用精确分数。

§4 offline vs online:评测的第三条断层线

前三节谈的都是 offline(离线)评测——固定题集、批量跑分、可重复。但工业语境里 “eval” 还经常指 online(在线)评测——真实流量、A/B 实验、用户行为指标。这两者不是同一件事的两个阶段,而是测量不同对象的两套体系

offlineonline
测什么模型在固定输入上的输出质量真实用户在真实情境下的行为反应
信号准确率、胜率、相关系数留存、采纳率、人工接管率、投诉率
反馈环与世界隔离(held-out)与世界耦合(用户会适应、会博弈)
失效模式数据污染、过拟合题集指标被业务侧 Goodhart、外部因素混杂

Chatbot Arena / LMArena 是一个有趣的中间态:它用真实人类的成对偏好投票(online 信号)来生成一个可比排行榜(offline 用法)。这种混合恰恰暴露了断层——“The Leaderboard Illusion”(Singh et al., arXiv 2504.20879, NeurIPS 2025 Poster)记录了 Meta 在 Llama-4 发布前私测 27 个变体、只披露最高分;有限的 Arena 专项训练数据可带来高达 112% 的相对性能提升(ArenaHard 胜率 23.5%→49.9%),但 MMLU 等 OOD 指标同期不升反降——这是 online 偏好信号被当成 offline 能力分数后,被系统性 game 的直接证据

[!note] 赌注与边界(§4) 我的判断是”offline 与 online 测的是不同对象,offline 改善不能直接外推到 online 兑现,二者因果链需独立验证”。我赌的是:在多数生成式产品里,offline 分数提升与 online 业务指标之间没有稳定的正向因果,必须靠真实实验单独证实。这个判断会在何时需要修改:如果在某个具体产品/场景里,能用足够多的历史灰度数据复现地证明”某 offline 指标 Δ 能稳定预测某 online 指标 Δ”(即建立起被验证的代理关系),那么在该场景内,offline 就可作为 online 的前置门禁——但这种代理关系是逐场景标定出来的,不能跨产品默认成立。

§5 判断主轴:「我们模型 eval 通过了」——四种所指错位的沟通事故

⭐ 这是本节点的命门。“eval 通过了”这句话有四种互不兼容的所指,90% 的跨职能事故都源于说者和听者各自默认了不同的一种。

错位一:offline benchmark 分数 vs online 业务指标

  • 症状:算法同学说”eval 过了,MMLU 提了 2 个点”,PM 听成”可以上线了”,灰度后留存不升反降。
  • 为什么会错:双方共用了”eval”这个词,但一个指 offline 跑分(§2),一个默认它能预测 online 行为(§4)。两者之间的因果链从未被验证。
  • 正确做法:约定话术——offline 结果一律说”benchmark 分”,只有 online 实验达标才允许说”通过验收”。在评审模板里强制区分这两栏。
  • 真实反例:幻觉率从 5% 降到 3%,offline 指标”通过”,但用户留存无变化(c14 §14.4 已记录这一阈值效应)——offline 改善没有 online 兑现。

错位二:自动指标”通过” vs 人类判断”通过”

  • 症状:摘要任务 ROUGE 达标宣称”eval 通过”,上线后用户投诉摘要”读着对、其实漏了关键信息”。
  • 为什么会错:自动指标测的是表面重叠(§1),人类要的是功能正确。G-Eval(Liu et al., EMNLP 2023)即便用 GPT-4 做裁判,在摘要任务上与人类的 Spearman 相关系数也只有 0.514——自动信号与人类判断本就只有中等相关
  • 正确做法:声明”通过”时必须标注证据等级——自动指标 < LLM 裁判 < 人工抽检 < online 行为。高风险场景不接受只有自动指标背书的”通过”。
  • 真实反例:MT-Bench 的”重复列表”攻击实验中,GPT-3.5 和 Claude-v1 对故意冗长回答的失败率为 91.3%(Zheng et al. 2023, arXiv 2306.05685, Table 3,对 23 条答案的统计;同表中只有 GPT-4 能有效抵抗此偏差)——自动/弱裁判会把”啰嗦”判成”更好”。

错位三:LLM 裁判”通过” vs 真实可靠性

  • 症状:用 GPT-4 当裁判跑了一轮,胜率 60%,宣称”eval 通过对手版本”。
  • 为什么会错:把裁判的偏好当成了客观质量。第一,Zheng et al. 2023(arXiv 2306.05685)报告的 GPT-4 与人类一致率达 85%(无平局设置 S2),甚至高于人类互评的 81%——但这只是原始一致率(agreement rate),论文全程用 agreement 作为度量,并未报告任何 Cohen’s Kappa 值;原始一致率不做机会校正,本就会系统性高估真实一致程度,这正是 Cohen Kappa 系数 要解决的问题(论文未给 Kappa,故此处不能直接拿一个 Kappa 数字宣称”达到/未达到人类水平”——这一步校正得自己补做)。第二,更关键的是裁判的位置偏差很大:同一对答案交换呈现顺序后,GPT-4 仅 65.0%、GPT-3.5 仅 46.2%、Claude-v1 仅 23.8% 的情况下给出一致结论(Zheng et al. 2023, Table 2,default prompt)——也就是说 GPT-4 约 1/3、Claude-v1 超过 3/4 的判决会因顺序而翻转。第三,JudgeBench(Tan et al., arXiv 2410.12784, ICLR 2025)发现,在高难度对上 GPT-4o 当裁判时在知识和推理维度仅略好于随机猜测(44.2%、48.0%),在数学和编程上稍好(66.1%、61.9%),全维度平均 50.9%——远低于它在简单偏好场景里的表现。
  • 正确做法:LLM 裁判结论必须报告交换顺序后的双向一致率,并标注是否做过人工校准;裁判能力弱于被评模型时,结论作废。
  • 真实反例:位置偏差——Claude-v1 在交换顺序后只有 23.8% 的判决保持一致(Zheng et al. 2023, Table 2)。同一对答案换个顺序就有 3/4 概率得出相反结论,这种裁判给出的”通过”二字毫无意义。

错位四:“通过” = 标准 vs “通过” = 症状(维特根斯坦切口)

  • 症状:所有人都说”分数到 90 就通过”,但没人能说清这个 90 是”具备能力的充分标准”还是”碰巧表现出来的一个症状”。
  • 为什么会错:把可观测的代理信号(分数)误当成不可直接观测的目标(能力)的定义本身。一旦分数成为目标,它与能力的关联就被 Goodhart 掏空(§2、§3 全部证据)。
  • 正确做法:对每个”通过阈值”显式追问——它是标准还是症状?污染、过拟合、脚手架能不能在不提升真实能力的前提下推高它?能,就降级为”症状”,不能单独作为放行依据。
  • 真实反例:GPQA Diamond(Rein et al., arXiv 2311.12022, 2023)AI 从 39%(2023.11)升到 94%+(2026 初),表面”超越 PhD 专家的 65%“。但人类是无工具、限时、冷启动作答,模型经过海量相关语料训练,四选一格式本身也偏离真实科研推理——同一个”94%“是症状,不是”具备博士级推理能力”的标准。

§6 产品 PM 视角补盲

工程视角只盯着”哪个指标更准”。但 PM 要补三个非技术盲点:

  1. 用户心理模型:用户从不读你的 eval 报告,他们用”这次帮没帮到我”来评测你的产品。你的 offline 92% 准确率,在用户那里只折算成”上次它瞎编了一个数,我现在不太敢信”——单次失败的记忆权重远高于平均成功率。评测体系若不含”最差情况”维度(红队、逃逸率),就系统性地高估了用户感知质量。
  2. 商业话术风险:销售把 “MMLU 90+” 写进标书,是把学界 benchmark 当成工业承诺(§3 错位)。一旦客户在真实场景验收翻车,赔的是合同和信誉。PM 要给市场/销售一份”哪些分数能对外说、怎么加限定词”的话术红线。
  3. 合规与可问责:在滴滴安全/国际化语境下,“eval 通过”在事故复盘里会被当成尽职证据。如果”通过”指的只是 offline 跑分,那它在监管和法务面前是站不住的——可问责的评测必须是 online + 场景化的,且留有 IAA(标注一致性)记录证明判断不是单人拍脑袋。

§7 对手框架回应

业界反方立场(接受 + 边界):SWE-bench 原作者 Jimenez、Yang 等人(“SWE-bench: Can Language Models Resolve Real-World GitHub Issues?”, arXiv 2310.06770, ICLR 2024)的核心主张是——用真实 GitHub issue + 真实测试套件来评测,本身就是比合成题集更有意义的能力信号;其设计动机正是反对”刷题式”benchmark。延伸到本节点的对手立场就是:“能解决真实 issue 这件事是有价值的能力证据,即便存在部分记忆/泄漏,也不应因污染就全盘否定 benchmark。”

  • 接受:对。完全无污染的评测在实践中不存在;适量污染甚至可能在大规模训练结束时被”遗忘”(ICML 2025 一项研究的发现,挑战了”污染必然抬分”的简单假设)。把”有污染”当成”分数全假”是另一种粗暴。
  • 边界与赌注:但本节点坚持的边界是——污染的存在不改变”分数是症状而非标准”这个判断。“Emperor’s New Clothes”(ICML 2025, arXiv 2503.16402)系统测试 10 个 LLM、5 个 benchmark、20 种污染缓解策略,结论是没有任何策略在”保真度”和”抗污染性”上同时有效、显著优于不做处理。所以我赌的是:单一公开 benchmark 分数永远不能单独作为放行依据,无论它名义上多干净。可能错在哪:如果未来出现可证明的、持续封闭且高保真的动态评测(如严格运营的 held-out 滚动题库),这个”永远不能单独”的判断需要放宽到”在该体系内可以”。

Rick 未读的对手框架引入(破 echo chamber):心理测量学(psychometrics)的信度-效度(reliability-validity)框架。它会反过来质问本节点:“你说 benchmark 不可靠,但你用的是哪种信度、哪种效度概念?“这套语言有具体的、可追溯的源头:Lee Cronbach 的信度系数(Cronbach’s α,Cronbach 1951)给出”测量一致性”的量化定义;Samuel Messick 在《Validity》(载 Educational Measurement, 1989)及 “Validity of Psychological Assessment”(American Psychologist, 1995)中把效度统一为以构念效度(construct validity)为核心的整体框架,区分内容、实质、结构、外推、后果等多个侧面。用这套语言,MMLU 的问题精确表述是”构念效度失败”:它把”会做四选一选择题”当成了”具备多任务语言理解能力”这个构念的操作化定义,而 Messick 的框架恰恰要求论证”测验分数能否支撑这一构念解释及其后果”——AI 评测圈至今几乎没做过这件事。这个框架逼问的盲点是:大量”出更难的 benchmark”的努力,提升的只是 Messick 意义上的区分度/难度,却几乎没人系统论证 construct validity——我们至今没有一个被严格验证的”能力”构念定义。〔Cronbach 1951、Messick 1989/1995 为心理测量学经典文献,具体页码与版次未逐一核对,标注以备查〕

§8 跨域呼应:维特根斯坦的「标准 vs 症状」

维特根斯坦在《哲学研究》中区分了 criteria(标准)symptoms(症状):标准是与概念逻辑相关的、能定义性地判定其是否成立的根据;症状只是经验上伴随出现、可错地相关的迹象。判断”他牙疼”——他的呻吟、捂脸是症状(可以装),而在我们的语言游戏里,某些行为表达构成牙疼的标准。

把这把刀架到评测上:MMLU 分数与”语言理解能力”的关系,是标准还是症状? benchmark 文化的全部隐含主张是”它是标准”——分数定义性地刻画了能力。但 §2 的所有证据(饱和、CoT 无效、记忆相关)说明它只是症状:一个经验上曾经伴随能力出现、但可以被污染/过拟合/脚手架伪造的迹象。Goodhart 定律的维特根斯坦式重述就是:当一个症状被当成标准来优化时,它与原概念的经验关联会被切断——模型学会了产生症状(高分),而不必具备它本应指示的东西(能力)。

这个区分改变了 PM 的具体判断动作:面对任何一个”通过指标”,先问”它是这个能力的标准还是症状”。如果换个题集分布、换个呈现顺序、加点脚手架就能让分数动而能力不动,那它就是症状,不能单独定生死。这正是 §5 错位四的哲学根。维特根斯坦还提醒:标准本身是嵌在”语言游戏”和”生活形式”里的——所以脱离了具体业务场景(生活形式)去谈”通用能力评测”,本身就是范畴错误。这反过来支持了 §3 的判断:工业 eval 必须场景化,因为”能力”的标准只在具体生活形式中才被确定。

§9 PM 决策启示

  • 面试怎么用:被问”怎么评估一个 LLM 功能”时,不要背指标清单。先反问”评估什么——offline 能力还是 online 业务?“再用”标准 vs 症状”展开:我会先确认现有指标是能力的标准还是症状,再设计无法被污染/脚手架伪造的私有评测。这一句就把你和”会背 MMLU/BLEU”的候选人区分开。
  • 选型怎么用:看到供应商 PPT 上的 benchmark 分,第一反应是查”这是 offline 公开题集分(§3 学界文化),还是他们在我业务场景上的 online 结果”。要求对方在你的私有黄金集上现场跑,而不是看排行榜。
  • 复现怎么用:自建评测时,先按 §0 的六词表声明”我这一栏到底属于哪个传统、承诺了什么”,避免把 test 的二元语气安到 evaluation 的多维对象上。每个”通过阈值”都附一句”它为什么是标准而非症状”。

§10 与已有节点的关系

  • 对照 c14 - 模型评估体系与 Goodhart 陷阱(升级·补缺):c14 已经讲透了”Goodhart 是什么、benchmark 通胀、三大裁判偏见、六维业务指标”——本节点不复述这些事实基础。c14 的框架停在”防御 Goodhart”(怎么不被骗),本节点升高一个抽象层,处理 c14 未触及的认识论前置问题:为什么”分数”这个东西从一开始就只是症状不是标准(§8 维特根斯坦切口)、benchmark/eval/metric 这组词的语义债从何而来(§1–§2)、以及”通过”这个动词本身的四重歧义(§5)。简言之:c14 教你怎么用对的评测,A01 教你先看清”评测”这个词在每次使用时到底指什么。
  • 对照 Cohen Kappa 系数(深化·迁移用法):Kappa 节点是纯统计工具解释(机会校正后的一致率)。本节点 §5 错位三把它迁移到一个新场景——用 Kappa 量化 LLM 裁判与人类、或两个裁判之间的 inter-rater reliability。要点恰恰在于:Zheng et al. 2023 只报告了 85% 这个未做机会校正的原始一致率、并未报告 Kappa,而原始一致率会系统性高估真实一致程度;所以”裁判与人类一致率 85%“不能直接读成”裁判达到人类水平”——结论可靠与否取决于补做的 Kappa(或类似机会校正度量)以及位置偏差校验。
  • 对照 m205 - RAG 生产环境:索引运维与评估体系(对话):m205 的 RAGAS 四维与黄金集工程是 §3”工业 eval 文化”的具体实例;本节点为它补上”为什么这套私有集天然比公开 benchmark 可信”的认识论理由。
  • 关联 c13 - 幻觉的不可消除性(对话):c13 的”校准失准”是本节点 §5 错位三的前提——裁判自身校准有问题,它给的”通过”自然不可靠。

§11 关联节点

核心(必读)

延伸(可选)


修订日志

  • R0(2026-06-06)初稿:建立 benchmark/eval/metric/test/validation/assessment 六词的传统溯源表(§0);NLP 自动指标→LLM 能力评测的滑变链(§1–§2);学界 vs 工业、offline vs online 两条断层线(§3–§4);判断主轴四种所指错位四件套(§5);维特根斯坦”标准 vs 症状”作为贯穿全文的切口(§8);与 c14 的显式升级对照(§10)。所有可证伪声明已接地至证据简报,SWE-bench Pro 具体版本命名标〔待核实〕。待后续轮次:补 §5 错位的更多业务侧真实反例、核实 Claude Mythos Preview 命名、考虑是否新增”validation 在 ML 训练 vs 工业验收两义”的独立小节。
  • R1(2026-06-07)按批评 issue 修订 · 事实接地 + 双链 + 判断密度
    • 【C维·删除编造数值】§5 错位三:经 Web 核查 Zheng et al. 2023(arXiv 2306.05685)全文与 HTML 版(arxiv.org/html/2306.05685v4),论文全程用原始 agreement rate、从未报告任何 Cohen’s Kappa——故删除原稿”Kappa 0.84 vs 人类 0.97”这一对编造数字及其比较论点,改写为”GPT-4 与人类一致率 85%、人类互评 81%(设置 S2,无平局);论文未给 Kappa,原始一致率不做机会校正会高估真实一致”的可核实表述。
    • 【C维·位置偏差数值坐实】§5 错位三/真实反例:原稿”翻转比例约 35%""Claude-v1 一致性 23.8%“经核验确为论文 Table 2(default prompt)所载——补上精确出处,并补全 GPT-4 65.0%、GPT-3.5 46.2% 三个一致率,改”约 35%“为”GPT-4 65.0% 一致即约 1/3 翻转”的准确表述。
    • 【C维·91.3% 坐实】§5 错位二:经核验 91.3% 确为论文 Table 3”repetitive list”攻击对 23 条答案的失败率——保留该精确值并补注 arXiv 号 + Table 3 + 样本量。
    • 【C维·JudgeBench 作者订正】§5 错位三:作者由误写的”Ye et al., 2024”订正为”Tan et al., arXiv 2410.12784, ICLR 2025”(核验 arXiv,第一作者 Sijun Tan);并按批评把”仅略好于随机”的过度概括改为分维度精确值(知识 44.2%/推理 48.0%/数学 66.1%/编程 61.9%/全维 50.9%)。
    • 【C维·SWE-bench 来源张冠李戴拆分】§3 callout:将 32.67% 解答泄漏改归第三方分析 SWE-bench+(Aleithan et al., arXiv 2410.06992, 2024,并补 31.08% 弱测试、12.47%→3.97% 过滤后跌幅);OpenAI 博客单列其实际发现(审计 138 题,59.4% 含测试/题面缺陷,35.5% 窄测试 + 18.8% 宽测试),两来源分句陈述;SWE-bench Pro 精确分数删除、降级为〔待核实〕。
    • 【D维·双链密度 8→22】§11:补入本专题内 A02/A03/A04/A05/S01/S02/E03/G01/A06 互链与 范式、0601 维特根斯坦、构念效度(待建)、Goodhart 定律(待建),核/延两档共 22 条,超过 ≥15 硬线。
    • 【D维·死链核验】grep 确认 AI概念滥用反思 实存于 04AI/AI概念滥用反思.md、文件名精确匹配无空格歧义,保留并加注;其余新增链接均已 find 核验目标存在或标〔待建〕。
    • 【E维·对手立场具名化】§7:把匿名”有研究者主张”替换为可追溯的 SWE-bench 原作者 Jimenez/Yang 等(arXiv 2310.06770, ICLR 2024)的真实设计主张;心理测量学对手框架补具名学者 Lee Cronbach(信度 α, 1951)与 Samuel Messick(构念效度整体框架, 1989/1995),并标注经典文献以备查。
    • 【A维·补可证伪判断】§1、§3:§1 末补”自动重叠指标相关性不足以单独定通过”的赌注 + 被证伪条件(相关系数稳定 ≥0.9);§3 表后补”2026 中国产业语境多数团队仍处学界 benchmark 文化”的可证伪判断 + 三条支撑 + 推测标注。
    • 【B维·边界声明】§2、§4:分别加”赌注与边界”callout,显式写明判断在何种条件下需要修改(出现持续封闭高保真 benchmark / 逐场景标定出 offline→online 代理关系)。
    • 【S维·新概念计划】:§7 引入的”构念效度”已在 §11 计划为独立概念卡,并计划补 00Meta/概念词典.md(核验现词典暂无此条)。
    • 待后续轮次:核实 Claude Mythos Preview 命名与 SWE-bench Pro 具体分数;落地构念效度、Goodhart 定律两个待建概念卡。
  • R2(2026-06-07)死链清扫[构念效度](/kb/基础知识库/构念效度/)[Goodhart 定律](/kb/基础知识库/goodhart-定律/) 两条死链降级为普通文本(vault 中无对应节点),并在末尾”待建概念卡”节登记。
  • 2026-06-11 P3.4 校链:待建概念卡引言里残留的占位双链 双链(方法论行文示意、从不是真链接目标)去链化为纯文本”双链”;§11 与本日志中的 [构念效度](/kb/基础知识库/构念效度/)[Goodhart 定律](/kb/基础知识库/goodhart-定律/) 系真·待建学术概念,按校链规约保留为合法前向链。[AI概念滥用反思](/kb/基础知识库/ai概念滥用反思/)[A06 Goodhart 与指标失效](/kb/专题-评测与度量/a06-goodhart-与指标失效/) 等已存节点经全 vault find 核实为真链,“已核实文件存在”断言属实,保留。

待建概念卡(死链已降级,入库后补建)

以下概念在本节点有实质引用,但 vault 中尚无对应节点,已将原双链降级为普通文本以避免死链:

  • 构念效度(construct validity):§7 心理测量学对手框架的核心概念,建议补 04AI/01学习/0132概率论-统计学/ 下的独立概念卡,同步写入 00Meta/概念词典.md
  • Goodhart 定律:§2/§8 反复引用的跨域定律,现由 A06 Goodhart 与指标失效 承载主要内容;建议入库后在 04AI/ 或适当位置建独立概念卡,并给 A06 加 alias Goodhart 定律 作为临时 redirect。