A03 Benchmark 与数据污染
当一个 PM 在选型会上听到”这个模型 MMLU 88、GPQA 92、SWE-bench Verified 93.9”时,他要解决的真正问题不是”哪个分数更高”,而是这些数字到底在测量什么、还能不能信、信到第几位小数。本节点用”构念效度三重打击”(构念效度失守 + 数据污染 + leaderboard 过拟合)这个框架,论证静态 benchmark 分数为什么会系统性地、可预测地虚高,以及一个 PM 应该如何把”读榜”降级为”读榜的元数据”。这是一个问题陈述:榜单不是中立的测量仪,而是一个被优化目标、数据泄漏和披露策略共同污染的社会装置。
§0 为什么是”构念效度”这个框架,而不是”分数高低”框架
最自然的默认框架是把 benchmark 当温度计:模型是被测物,分数是读数,读数越高能力越强。这个框架在 2021 年大致够用,今天会让你在选型会上被带沟里。
更准的框架来自心理测量学(psychometrics)的构念效度(construct validity):任何测验测的都不是”能力”本身,而是一个可操作化的代理(operationalized proxy)。MMLU 测的不是”大规模多任务理解力”这个构念,而是”在 57 个学科的四选一选择题上选对的概率”这个指标。两者之间隔着一条效度鸿沟。Benchmark 失信不是因为模型作弊,而是因为这条鸿沟被三股力量同时撕开:
- 构念效度本身就薄:四选一选择题与”真实科研推理”之间存在格式鸿沟(GPQA 的争议正在此)。
- 数据污染(contamination):测试题进了预训练语料,温度计被预先告知了答案。
- leaderboard 过拟合 + Goodhart:一旦榜单成为优化目标,厂商会针对榜单分布特化,而非提升通用能力。
选”构念效度三重打击”而不是”分数高低”,是因为前者能解释一个”分数高低”框架解释不了的怪现象:为什么一批前沿模型会在 MMLU 86–87% 区间集体停滞却仍号称在进步(GPT-4 技术报告记录其 5-shot MMLU 为 86.4%,来源:OpenAI, “GPT-4 Technical Report”, arXiv 2303.08774, 2023;此后多个前沿模型在 86–87% 区间难分高下,判别力衰减——具体停滞时长与覆盖模型范围〔待核实〕)。温度计框架会说”它们都到顶了”;效度框架会说”温度计的刻度在这一段已经失灵了”。这是两个完全不同的 PM 决策。
§1 静态基准全景:你在读的到底是什么榜
先把”benchmark”这个词拆开。同样叫”分数”,测量的构念天差地别。
| 基准 | 出处 | 构念(声称测什么) | 实际形态 | 当前状态 |
|---|---|---|---|---|
| MMLU | Hendrycks et al., ICLR 2021 | 大规模多任务知识 | 57 学科四选一 | 饱和(86–87% 停滞),判别力丧失 |
| MMLU-Pro | Wang et al. (TIGER-AI Lab), NeurIPS 2024 | 推理密集型理解 | 10 选一 + 更难推理题 | GPT-4o 从 88.7% 跌至 72.6% |
| GSM8K | Cobbe et al. 2021 | 小学数学推理 | 自然语言应用题 | 前沿模型 >90%,GPT-5 系列近 99%,饱和 |
| GPQA Diamond | Rein et al., arXiv 2311.12022, 2023 | 博士级 google-proof 推理 | Diamond 子集 198 道四选一(生/物/化;GPQA main set 共 448 题,full set 546 题) | Diamond 子集已超人类专家基线(前沿模型 94%+ vs 领域 PhD 约 65%) |
| SWE-bench Verified | Jimenez et al. 2024(Verified 子集 500 题) | 真实编程能力 | Python 仓库 issue 修复 | OpenAI 2025 已停止汇报 |
关键判断:这五个榜测的不是同一种东西,把它们加权成一个”综合能力分”是构念上的混类(category error)。MMLU 测知识检索,GSM8K 测数值链式推理,SWE-bench 测的是”模型 + agent 脚手架”的联合产物。一个 PM 把它们排成一行做选型,等于把体温、血压、视力加权成一个”健康分”。
[!note] 关键反例:CoT 的诊断价值 思维链(CoT)在 MMLU-Pro 上带来显著提升(论文报告 GPT-4o +19.1%、GPT-4-Turbo +15.3%),而在原始 MMLU 上几乎持平甚至负增益(来源:Wang et al., “MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark”, NeurIPS 2024, arXiv 2406.01574,查阅 2026-06-07)。这是构念效度的直接探针:如果”加推理”几乎不改变分数,说明这个测验主要测的是检索而非推理。MMLU 的高分大部分是记忆,不是它声称的”理解”。
§2 三重打击之一:数据污染(contamination)
污染指测试题(或其改写、其答案)出现在了模型的训练语料里。证据不是猜测,是可证伪的实验:
- 缺失选项猜测实验(Zhao et al., 2024,即微软 MMLU-CF 工作链路):让模型在不给题干的情况下”猜”MMLU 的缺失选项,ChatGPT 和 GPT-4 的精确匹配率分别达 52% 和 57%。一个没见过原题的模型不可能记住特定选项的排布——这是污染的近乎直接的指纹。
- MMLU-CF(Microsoft Research, ACL 2025, arXiv 2412.15194):构造”污染无关”封闭测试集后测 40+ 主流 LLM,不仅分数大幅下滑,排名也显著改变。排名改变比分数下滑更致命——它意味着你基于旧榜做的选型结论本身是错的。
- GSM1K(Scale AI, Zhang et al., “A Careful Examination of Large Language Model Performance on Grade School Arithmetic”, arXiv 2405.00332, 2024):构造与 GSM8K 等难度、保证未进预训练的 1000 道新题。结果:部分模型 GSM8K 比 GSM1K 高出最多 13 个百分点,且分数差与模型在 GSM8K 上的文本生成概率呈正相关——论文同时报告三个相关量:Spearman r=0.36(秩相关系数,约解释 13% 方差)、Pearson r²=0.26、Kendall τ=0.29(来源:arXiv 2405.00332,查阅 2026-06-07)。注意是相关系数 r=0.36,不是决定系数 r²;分数差越大,越像”背过原题”。Phi 和 Mistral 系列过拟合最严重(持续损失 10–13 点)。
[!warning] failure scenario:污染不是单调抬分 有研究发现适量的数据污染在训练结束时会被”遗忘”,中等程度的数据重叠未必持续抬高测试分(据称为 2025 年一项关于污染影响非单调性的研究,原始出处〔待核实〕,措辞已降级为”有研究称”)。所以”污染 ⇒ 分数虚高”是一阶近似,不是定律——污染的影响因训练规模、数据比例而异。PM 的正确表述是”污染使分数不可信”,而非”污染使分数必然偏高”。把不确定性误报成确定性偏差,是另一种 overclaim。
[!warning] failure scenario:私有 holdout 被复用就失效 本节点反复推荐”自建私有 holdout 黄金集”作为抗污染解药——但这条建议有一个隐含前提:holdout 必须严格隔离于任何训练/调参循环。一旦内部工程师把 holdout 用于超参调优、prompt 迭代或模型选择,它就从”独立测量集”退化为”被优化目标”,本节点的 holdout 建议随即失效——你只是把公开榜的 Goodhart 搬进了自家流水线。私有不等于干净,隔离纪律才是。
§3 三重打击之二:leaderboard 过拟合与 Goodhart
第二股力量不在数据层,在激励层。古德哈特定律(Goodhart’s Law):“当一个指标成为优化目标,它就不再是好指标。” Benchmark 一旦变成发布会 PPT 上的数字、融资 deck 里的曲线,厂商的理性行为就是针对它特化。
- 过拟合的硬证据(Singh et al., ‘The Leaderboard Illusion’, arXiv 2504.20879, 2025-04-29 上传;已被 NeurIPS 2025 接收为 Poster,neurips.cc 有会议页面,2026-06-07 查证):把 Chatbot Arena 数据的训练比例从 0% 提到 70%,ArenaHard 胜率从 23.5% 升至 49.9%(相对提升 112%),但 MMLU 等 OOD 指标同期略降。这就是过拟合的定义——专项分暴涨、泛化分不涨甚至下降。
- 披露策略污染:同一篇 Singh et al.(arXiv 2504.20879)记录,Meta 在 Llama-4 发布前私测了 27 个变体,可选择性只公布最高分的那个。你看到的”一个分数”,背后可能是 27 次抽样的极大值。(LMArena 反驳:实际私测增益约 +11 Elo,且政策自 2024 年 3 月已公开——争议未平息,见 §6。)
- 饱和即失效:BIG-Bench Hard(BBH)被 Claude 3.5 于 2024 年 6 月以 3-shot 达到 93.1%,超过 90% 后判别力消失,社区不得不造 BIG-Bench Extra Hard(BBEH, ACL 2025)替换全部 23 个子任务。GPQA 同理——从 2023 年 11 月的 39% 爬到 2026 年初的 94%+,创建者本人承认其局限。饱和不是”AI 变强了”,是”尺子被磨平了”。
§4 判断主轴 · 致命耦合点:90% 的人在 benchmark 上会搞错的 4 个点
这一节是本节点的命门。每点配【症状 → 为什么会错 → 正确做法 → 真实反例】。
错点 1:把”分数高”等同于”能力强”(构念效度盲区)
- 症状:选型会上比 MMLU 小数点后第几位;“它 GPQA 92 超过博士了,肯定能做我们的科研助手。”
- 为什么会错:混淆了指标(四选一选对率)与构念(真实推理力)。GPQA 原论文报告领域专家在 GPQA 上的准确率约 65%(Diamond 子集),且该基线是在**限时、可联网检索但难以快速找到答案(“google-proof”)**的条件下取得的(来源:Rein et al., “GPQA: A Graduate-Level Google-Proof Q&A Benchmark”, arXiv 2311.12022, 2023);模型则经过海量相关领域语料训练,且四选一格式与真实科研推理存在本质差异。94% vs 65% 的”超越人类”是不等价比较的产物。
- 正确做法:先问”这个分数的构念效度成立吗?“——CoT 是否改变分数(不变=测检索)、换格式是否崩盘(崩=过拟合格式)、人类基线的取得条件是否可比。
- 真实反例:GPT-4o 在 MMLU 上 88.7%,换到 MMLU-Pro(同样的”多任务理解”构念,只是 10 选一 + 推理题)立刻跌到 72.6%,降幅 16 点;其他模型降幅 16–33 点。同一个”能力”,换一把尺子掉 30 分——说明掉的不是能力,是格式红利。
错点 2:相信”前沿闭源模型没污染”
- 症状:“GPT-4、Claude、Gemini 的 GSM8K-GSM1K 差距最小,所以它们没过拟合,可以放心信它们的榜。”
- 为什么会错:Scale AI 的 GSM1K 研究确实发现前沿闭源模型(GPT-4、Claude、Gemini 系列)GSM8K–GSM1K 差距最小(来源:arXiv 2405.00332)——但闭源模型无法验证训练数据组成,低差距可能只反映数据不透明而非无污染。你无法用”看不见污染”证明”没有污染”。
- 正确做法:把”差距小”读作”在这把特定的尺子上暂时没露馅”,而非”清白”,并把这条不可证伪风险转成可执行的供应商动作:(1) 要求供应商在你提供的私有 holdout 上跑同题型并回传逐题结果;(2) 在采购合同里写入 SLA 条款,禁止供应商在测试窗口内将你的评估集用于任何训练/微调;(3) 把”闭源污染不可证伪”写进选型风险登记表作为开放风险项持有,而非停留在口头”相信它干净”。
- 真实反例:SWE-bench Verified 上,OpenAI 内审发现每个主流前沿模型都有逐字复现 gold patch 的案例——包括那些在 GSM1K 上”差距最小”的闭源前沿模型。“看不见”不等于”不存在”。
错点 3:以为”造更难的 benchmark”就能解决污染
- 症状:“MMLU 饱和了?换 MMLU-Pro / GPQA / BBEH 就行了,难度上去污染就没影响了。”
- 为什么会错:难度提升 ≠ 污染免疫。‘The Emperor’s New Clothes in Benchmarking’(Wang et al., arXiv 2503.16402, 2025;发表于 ICLR 2025 第 2 届 DATA-FM 研讨会,2026-06-07 查证)系统测试多个 LLM、benchmark 与一组污染缓解策略,结论是:没有任何策略能同时兼顾”保真度”(新题与原题等难度)和”抗污染性”,且没有一种显著优于”什么都不做”。
- 正确做法:把”更难的榜”当作临时延寿而非治本。任何公开静态基准,发布即开始被污染倒计时;真正抗污染的是私有 holdout、动态生成、和你自己业务分布的黄金集。
- 真实反例:连号称”博士级、google-proof”的 GPQA 都在两年内从 39% 被刷到 94%+ 饱和。难度是缓冲,不是免疫。
错点 4:把 SWE-bench Verified 当”真实编程能力”
- 症状:“这个模型 SWE-bench Verified 90%+,几乎能解决所有真实 GitHub issue 了。”
- 为什么会错:三个耦合污染源叠加。其一,第三方研究 SWE-Bench+(Aleithan/Ni et al., “SWE-Bench+: Enhanced Coding Benchmark for LLMs”, arXiv 2410.06992, 2024)通过人工筛查发现 32.67% 的成功 patch 涉及答案泄漏(解答直接出现在 issue 文本或评论里)——注意这是独立第三方论文的结论,不是任何厂商的官方内审报告;剔除问题样本后,SWE-Agent+GPT-4 解决率从 12.47% 跌到 3.97%。其二,脚手架工程(agent scaffolding)对分数贡献巨大,模型能力与 harness 工程难以解耦。其三,2024 年中之后用 GitHub 数据训练的模型都可能见过部分解答——这与 OpenAI 后续转向 SWE-bench Pro 汇报口径的动机一致。
- 正确做法:要求看同一模型在更难/未污染变体上的分数作为 sanity check。Verified 高分 + Pro 低分 = 强烈的过拟合/污染信号。
- 真实反例:Claude Opus 4.5 在 SWE-bench Verified 上约 80.9%,在 SWE-bench Pro(更长上下文、跨文件、商业级仓库)上仅约 45.9%,同一模型差距约 35 点(来源:Scale AI SWE-bench Pro 公开榜 labs.scale.com/leaderboard/swe_bench_pro_public、morphllm.com/swe-bench-pro,查阅 2026-06-07)。同一个”编程能力”,换一把更接近真实工程的尺子掉三分之一——证明 Verified 的高分有相当部分是榜单红利而非工程能力。〔注:早期初稿曾把 45.9% 误记为 Claude Mythos Preview、并推出”约 48 点差距”,二者均为事实错误,R1 已订正——45.9% 属 Claude Opus 4.5,Mythos Preview 在 Pro 上约 77.8%。〕
§5 产品 PM 视角补盲:榜单是商业装置,不只是技术工具
跳出工程视角,benchmark 的三个非技术陷阱:
- 采购心理学:销售拿榜单做锚定(anchoring)。当对方递来”我们 SWE-bench 93.9”,他卖的是数字制造的确定性幻觉。PM 的反制不是比更高的数字,而是把对话从”分数”拉到”在你的数据分布上的 holdout 表现”。
- 数据访问的权力不对称:‘The Leaderboard Illusion’ 报告 Arena 对战数据高度集中于少数大厂——少数专有厂商(如 Google、OpenAI 等)合计获得显著高于开源模型群的对战与采样份额,并存在大厂可私测多变体、择优公布的不对称(来源:Singh et al., arXiv 2504.20879, 2025;具体百分比与采样率倍数〔待核实〕,此处不硬编精确数字)。榜单不是中立竞技场,是有结构性优势分配的市场。你读到的排名部分是数据特权的排名。
- 合规边界:在滴滴这类安全/国际化场景,“GPQA 92”对”识别一条恶意客诉是否构成人身威胁”的预测力几乎为零——构念完全不匹配。把通用榜当合规能力证据,是会出人命的混类。给监管或安委会汇报时,用业务 holdout 集的指标,绝不用公开榜分数背书安全能力。
§6 对手框架回应:接受 + 边界
对手立场(Chatbot Arena 阵营 / LMArena 团队,2025):人类盲测偏好是最接近真实使用质量的信号,比静态选择题更抗污染;‘The Leaderboard Illusion’ 的指控被夸大——LMArena 官方回应称实际私测增益仅约 +11 Elo(50 次测试/3000 票后),分数差异在统计置信区间内,且私测政策自 2024 年 3 月已公开。
接受:这是对的。Arena 的人类成对偏好确实绕开了”选择题被背原题”这一最直接的污染路径,动态、持续、难以一次性泄漏。对”哪个模型用起来更顺手”,Arena 比 MMLU 强得多。Singh et al. 的 50–100 分虚高估计基于 Gaussian 模拟,与 LMArena 基于真实数据的 +11 Elo 不可直接比较——指控确有方法论可质疑处。
边界(本节点坚持的赌注):Arena 把污染问题换成了偏好 ≠ 质量问题。一个值得诚实标明方向的数据:Chatbot Arena 原始论文(Zheng et al., “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”, arXiv 2306.05685, 2023)报告:MT-bench 人类评估员之间的一致率为 81%(排除平局,setup S2);GPT-4 作为裁判与人类评估员的一致率为 85%(MT-bench S2)和 87%(Arena S2);GPT-3.5/Claude 与人类的一致率约 83–84%(Arena S2)。——原文是把这些数字当作 Arena 投票可靠性的正面证据(LLM 裁判与人类评估员高度一致)。本节点把它反转引用为边界依据:换个角度看,Arena 在 S1(含平局)条件下 GPT-4 与人类一致率仅 72%,约 15–20% 的投票与人类判断不符;而 81% 的人类评估员间一致率本身就是”Arena 这把尺子自身的误差上限”——不是”Arena vs 客观事实”的差距,而是”连人类评估员彼此都未必一致”。〔R2 订正:原稿”72–83%“系混用两个不同实验条件(S1 与 S2)的数值范围,“79–89% 专家间一致率”无文献依据,均已订正为原文具体数字;来源:arXiv 2306.05685 Table 5–6,查阅 2026-06-07。〕再叠加 LMSYS 自己的 Style Control 实验(2024-08-28):一旦控制回答长度与 markdown 格式,排名剧变——GPT-4o-mini 从第 6 跌至第 11,长度系数(0.249)远大于 markdown 各项(0.019–0.031)。也就是说,Arena 高分有可观一部分来自冗长偏差和格式偏差,而非实质质量。我赌的是:Arena 是更好的尺子,但它把”测量构念是否成立”的问题从内容层转移到了风格层,没有消灭它。对一个要为安全决策负责的 PM,任何单一公开榜——选择题也好、人类偏好也好——都只能作为弱先验,强证据只能来自你自己的 holdout。
第二个对手立场(“更大、更新、组合评估”阵营,如 Epoch AI / Frontier Math 一派,2024–2025):问题不在”静态 benchmark”这个范式本身,而在题库太小、太旧、太单一。解药是持续扩张题库、引入抗背诵的高难原创题(如 Epoch AI 的 FrontierMath)、并用一组互补 benchmark 的组合画像取代单一分数——污染是工程问题,不是认识论绝症。
接受:这一派很大程度上是对的,而且方向务实。组合评估确实比单榜稳健;FrontierMath 这类”专家原创、未公开、答案需多步推导”的题目,显著抬高了背诵门槛;持续换题也确实能延缓饱和。本节点 §8 推荐的”业务 holdout + 定期换题”本质上就是这套思路的私有化版本。
边界(本节点坚持的赌注):但”更大更新的组合”只是把效度上限推后,没有取消它。§4 错点3 引的 ‘Emperor’s New Clothes’ 实证恰恰说明:没有缓解策略能同时兼顾保真度与抗污染,且组合多个有污染的榜不会自动抵消污染,只会平均化它。更关键的是,组合评估仍是用聚合分数掩盖构念混类(§1 的 category error)——把数学、知识、编程的分数组合成一个画像,方便了营销,但对”它能不能做我这条安全客诉的判断”仍然零预测力。我赌的是:组合评估能改善信噪比,但救不了构念错配;对要为后果负责的决策,唯一的强证据仍是你为自己的构念建的尺子。
§7 跨域呼应:构念效度(construct validity)如何改变技术判断
构念效度是 20 世纪心理测量学的核心概念(Cronbach & Meehl, 1955 的经典框架),它要回答的问题正是 benchmark 时代被遗忘的那个:一个测验的分数,在多大程度上反映了它声称测量的那个理论构念,而不是别的东西?
把这个透镜架到 benchmark 上,至少改变三个具体判断:
- 它把”分数下降”重新解释为”效度暴露”。当 MMLU→MMLU-Pro 让 GPT-4o 掉 16 分,温度计框架说”难度变高了”。构念效度框架说:原 MMLU 的方差里有一大块来自与构念无关的格式便利(四选一可蒙、可消去),这叫 construct-irrelevant variance(构念无关方差)——MMLU-Pro 挤掉了这块水分。掉的不是能力,是污染进分数的噪声。
- 它给”超越人类专家”判了无效。心理测量学有个铁律:跨群体比较分数,前提是测验对两个群体测的是同一个构念。GPQA 对 AI(训练过海量语料、可反复采样)和对 PhD(无工具、限时、冷启动)测的根本不是同一个构念——这是 measurement invariance(测量不变性)失守。94% vs 65% 因此不可比,“超越博士”是一个统计学上无定义的陈述。
- 它解释了为什么没有”终极 benchmark”。构念效度永远是程度问题、永远依赖具体使用情境(Messick, 1989 的”效度是统一的、情境依赖的判断”)。所以”造一个一劳永逸的硬榜”在认识论上就是错的方向——这正是 ‘Emperor’s New Clothes’ 实证结论(无策略普适有效)的理论根源。
[!warning] failure scenario:构念效度批判在高度标准化任务上会反噬 本节点的核心赌注是”指标 ≠ 构念,效度鸿沟普遍存在”。但这条判断在任务本身高度标准化、构念与指标几乎重合的场景下会失效——典型如代码单元测试的通过/失败:当一个 issue 的”正确”有客观、可执行、二值的判定(测试跑过就是过),指标与构念的鸿沟趋近于零,此时再坚持”分数测不了真实能力”反而是过度怀疑。换言之,构念效度批判的力量与任务的”答案开放度”成正比;对开放性科研推理(GPQA)它锋利,对封闭性可验证任务(部分单元测试)它钝化。PM 用这把刀时要先判断手里的任务落在谱系哪一端——否则会把”可信的客观指标”也一并否定掉。
这不是装饰性引用:构念效度框架把”benchmark 失信”从一个工程 bug(污染了、修一下)重新诊断为一个测量哲学的结构性事实(任何代理指标都有效度上限,污染只是让上限提前撞顶)。PM 的行动因此从”等更好的榜”变成”为自己的构念建自己的尺子”。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试:当被问”怎么评估一个 LLM”,不要背榜。先反问”测什么构念、给谁用”,再用三重打击框架拆解”为什么我不直接信 MMLU/SWE-bench”,最后落到”我会建一个 200–500 条的业务 holdout 黄金集 + 定期换题防污染”。一句话杀手锏:“公开静态基准发布即开始被污染倒计时,我只把它当弱先验。”
- 选型:拿到供应商榜分,做三个 sanity check——(1) 同模型在更难变体上的分数(Verified vs Pro);(2) CoT 是否改变分数(测检索还是推理);(3) 要求在你的 holdout 上跑一遍。差距越大,榜分水分越大。
- 复现 / 自建评估:永远自己持有 holdout,永远不把测试集进任何训练/调参循环(否则你自己制造污染);定期轮换题目;同时报告原始一致率与机会校正指标——这条直接对接 Cohen Kappa 系数 的用法。
§9 与已有节点的关系(升级对照,不复述旧节点事实)
- 对照 c14 - 模型评估体系与 Goodhart 陷阱(深化 + 认识论补缺):c14 已点出”benchmark 通胀机制(污染 + 针对性 SFT 失去区分度)“和 Goodhart 防御(自建黄金集)。本节点做两件 c14 没做的事——(1) 把”为什么不可信”从一句结论升格为可证伪的实证三重打击(MMLU-CF 排名改变、GSM1K 的 Spearman r=0.36、Emperor’s New Clothes 多策略无效),每条带论文 + 年份;(2) 补上 c14 缺的认识论层——用构念效度解释”为什么没有终极榜”,回答了 c14 留白的”为什么是这些指标而不是别的”。c14 停在”防御 Goodhart”,本节点上升到”测量本身的效度上限”。
- 对照 m205 - RAG 生产环境:索引运维与评估体系(横向对话):m205 讲”如何测”(RAGAS 四维 + 黄金集工程)。本节点讲”测出来的公开分数为什么不能信”,为 m205 的”自建 200–500 条黄金集”提供了认识论辩护:不是因为公开榜不够细,而是公开榜在构念上有结构性效度上限。
- 对照 m207 - Agent 产品化:场景推演与失败模式(纠偏):m207 把 SWE-bench/WebArena/GAIA 列为”标准化评估基准”。本节点对 SWE-bench Verified 做了纠偏——SWE-Bench+(arXiv 2410.06992)发现的 32.67% 答案泄漏 + 脚手架不可解耦 + OpenAI 转向 Pro 汇报口径,意味着 m207 引用它时需要附上”同一模型 Verified vs Pro 差距可达约 35 点(如 Claude Opus 4.5 80.9% vs 45.9%)“这条边界。
- 对照 Cohen Kappa 系数 / 幻觉(工具衔接):Kappa 是”机会校正”思想在 IAA 上的体现,本节点把同一思想用在”GSM8K-GSM1K 差值作为污染探针”;幻觉 的校准失准问题,是 benchmark 之外评测工具自身可靠性的另一面。
§10 关联节点
核心(必读)
- c14 - 模型评估体系与 Goodhart 陷阱 — 本节点的直接上游,Goodhart 防御与黄金集
- m205 - RAG 生产环境:索引运维与评估体系 — 黄金集工程与 RAGAS 四维
- m207 - Agent 产品化:场景推演与失败模式 — Agent 评估基准(SWE-bench 等)的纠偏对象
- Cohen Kappa 系数 — 机会校正思想,污染探针的方法论近邻
- 范式 — Kuhn 范式:benchmark 饱和 = 旧范式尺子失效
延伸(可选)
- c11 - System 2 思维与 Test-Time Compute — CoT 改变分数的诊断价值,ORM/PRM 评测升级
- c13 - 幻觉的不可消除性 — 评测工具自身的校准问题
- 幻觉 — 校准失准作为评测前提性挑战
- Agent 产品评估的五个具体问题 — 评估方法论的 PM 工作版
- 0114认识论 — 构念效度、测量不变性的哲学入口
- Scaling Laws — “停滞在 86–87%“与 scaling 边际收益的对照
- SFT / RLHF — 针对性微调如何污染榜单
修订日志
- R0(2026-06-06,初稿):建立”构念效度三重打击”主框架;§4 判断主轴四件套(构念效度盲区 / 闭源不可证伪污染 / 难度≠免疫 / SWE-bench 脚手架耦合)全部接地至 evidence brief(MMLU-CF、GSM1K r²=0.36、Emperor’s New Clothes 20 策略、SWE-bench 32.67% 泄漏、Verified vs Pro 48 点差距);§6 对手框架接入 LMArena 真实反方立场(+11 Elo 回应)做”接受+边界”;§7 跨域弹药构念效度具体展开三处技术判断改变(construct-irrelevant variance / measurement invariance / 无终极榜);§9 与 c14/m205/m207/Kappa 写显式升级对照。待办:R1 grounding 校验 pass 逐条复核数字;补 frontmatter aliases 进
00Meta/概念词典.md;确认 范式 链接在 Kuhn 语义下的精确指向。 - R1(2026-06-07,第一轮批评修订):本轮以 grounding 校验为核心,重点订正 C 维事实错误并清除”evidence brief”内部底稿引用。
- 【严重事实错误·已修】§4 错点4:原稿把 SWE-bench Pro 45.9% 的主语误记为 Claude Mythos Preview,并据此推出”约 48 点差距”——经 WebSearch 核实(Scale AI 公开榜、morphllm.com),45.9% 实属 Claude Opus 4.5(Verified 80.9% vs Pro 45.9%,差距约 35 点,非 48 点);Mythos Preview 在 Pro 上约 77.8%。已整段重写为 Claude Opus 4.5 的真实数据并注明来源与查阅日期,正文末加订正注。§9 m207 对照中的”48 点”同步改为”约 35 点(80.9% vs 45.9%)”。
- 【统计概念混用·已修】§2:原”Spearman r²=0.36”改为 Spearman r=0.36(秩相关系数),并补全论文同时报告的 Pearson r²=0.26、Kendall τ=0.29,注明 r=0.36 约解释 13% 方差、与 r² 含义不同(来源:arXiv 2405.00332)。§9 c14 对照中的”r²=0.36”同步改为”Spearman r=0.36”。
- 【错误归因·已修】§4 错点4:把 32.67% 答案泄漏的来源由暗示的”OpenAI 内审”订正为第三方论文 SWE-Bench+(Aleithan/Ni et al., arXiv 2410.06992, 2024),明确标注”非厂商官方内审”,并补充剔除问题样本后解决率 12.47%→3.97%。
- 【会议归属降级·已修】§3:‘The Leaderboard Illusion’(Singh et al., arXiv 2504.20879)由”NeurIPS 2025 Poster”降级为”已提交 NeurIPS 2025,正式接收状态〔待核实〕,以 arXiv 为引用源”。
- 【引用来源循环·已修】:全文 7 处”evidence brief”内部底稿引用逐条替换为可外部查证的原始来源——§0 MMLU 86–87% 停滞改引 GPT-4 Technical Report(arXiv 2303.08774)并对停滞时长/覆盖范围标〔待核实〕;§1 CoT 提升改引 MMLU-Pro 论文(Wang et al., NeurIPS 2024, arXiv 2406.01574,GPT-4o +19.1%/GPT-4-Turbo +15.3%);§2 污染遗忘研究改为”有研究称…原始出处〔待核实〕“并降级措辞;§4 错点1 GPQA 基线改引 Rein et al.(arXiv 2311.12022);§4 错点3 Emperor’s New Clothes 标明 arXiv 2503.16402、会议归属〔待核实〕;§5 Arena 数据集中度百分比无法独立坐实,改为定性表述 + 具体数字〔待核实〕,不硬编。
- 【shouldFix·GPQA 题数·已修】§1 表格:明确标为 GPQA Diamond 子集(198 题),并注 main set 448 / full set 546,避免读者误以为 94%+ 是全量结果。
- 【shouldFix·错点2 可操作性·已修】:把原认识论式”正确做法”改写为 PM 可执行的三步——holdout 让供应商跑同题型回传逐题、SLA 禁用测试集训练、把不可证伪污染写入选型风险登记表。
- 【shouldFix·Arena 72–83% 方向·已修】§6:标明该数字来自 Arena 自身论文(Zheng et al., arXiv 2306.05685)作为正面可靠性证据,本节点为反转引用;补充专家间一致率 79–89% 即”Arena 尺子自身误差上限”。〔R2 进一步订正:72–83% 系混用两实验条件的数值范围,“79–89% 专家间一致率”无文献依据,均订正为原文具体数字(见§6 正文)。〕
- 【shouldFix·E 维对手框架·已补】§6:新增第二个对手立场”更大/更新/组合评估”阵营(Epoch AI / FrontierMath 一派),给出接受 + 边界回应。
- 【shouldFix·B 维 failure scenario·已补】:由 1 处增至 3 处——新增 §2”私有 holdout 被复用于超参调优即失效”、§7”构念效度批判在高度标准化任务(如单元测试)上反噬”。
- 【shouldFix·D 维死链校验·已查】:对 Agent 产品评估的五个具体问题、Scaling Laws、范式、0114认识论 及全部核心/延伸链接做文件系统校验,11/11 全部 resolve,无死链(校验方式:vault 内
find -iname,2026-06-07)。 - 残留待办:§0 MMLU 停滞时长/覆盖范围、§2 污染遗忘研究出处、§5 Arena 集中度精确百分比等数项仍标〔待核实〕,留待后续 grounding pass 坐实或保持降级措辞;frontmatter aliases 补入
00Meta/概念词典.md仍待入库时执行。
- R2(2026-06-07,第二轮 grounding 校验):
- 【Arena 一致率数字·已修】§6:原”72–83% 人类投票与专家事实核查一致率”系混用 S1/S2 两实验条件且归因失误(实为 LLM 裁判 vs 人类评估员,非”人类 vs 专家事实核查”);原”79–89% 专家间一致率”无文献依据。订正为原文精确数字:人类评估员间 81%、GPT-4 vs 人类 85%(MT-bench S2)/ 87%(Arena S2)、S1 含平局条件 GPT-4 vs 人类 72%(来源:arXiv 2306.05685 Table 5–6)。
- 【会议归属·已坐实】§3:‘The Leaderboard Illusion’(arXiv 2504.20879)NeurIPS 2025 Poster 已由 neurips.cc 会议页面确认,删除〔待核实〕标注。‘Emperor’s New Clothes’(arXiv 2503.16402)确认发表于 ICLR 2025 DATA-FM 研讨会,更新引注。
- 【其余数字复核·通过】:GSM1K 三相关系数(Spearman r=0.36、Pearson r²=0.26、Kendall τ=0.29)经 arXiv 2405.00332 v4 HTML 确认;ArenaHard 23.5%→49.9%(112%)经 arXiv 2504.20879 确认;SWE-Bench+ 32.67% 泄漏 / 12.47%→3.97% 经 arXiv 2410.06992 确认;GPQA Diamond 198 题 / main 448 / full 546 经原始论文确认;MMLU-CF ACL 2025 接收确认;BIG-Bench Hard Claude 3.5 93.1% 确认;Style Control GPT-4o-mini 6→11 及系数(长度 0.249、markdown 0.019–0.031)确认;Claude Opus 4.5 SWE-bench Verified 80.9% / Pro 45.9% 经 Scale AI 公开榜确认。