A03 Benchmark 与数据污染 · 知识库

当一个 PM 在选型会上听到”这个模型 MMLU 88、GPQA 92、SWE-bench Verified 93.9”时，他要解决的真正问题不是”哪个分数更高”，而是这些数字到底在测量什么、还能不能信、信到第几位小数。本节点用”构念效度三重打击”（构念效度失守 + 数据污染 + leaderboard 过拟合）这个框架，论证静态 benchmark 分数为什么会系统性地、可预测地虚高，以及一个 PM 应该如何把”读榜”降级为”读榜的元数据”。这是一个问题陈述：榜单不是中立的测量仪，而是一个被优化目标、数据泄漏和披露策略共同污染的社会装置。

§0 为什么是”构念效度”这个框架，而不是”分数高低”框架

最自然的默认框架是把 benchmark 当温度计：模型是被测物，分数是读数，读数越高能力越强。这个框架在 2021 年大致够用，今天会让你在选型会上被带沟里。

更准的框架来自心理测量学（psychometrics）的构念效度（construct validity）：任何测验测的都不是”能力”本身，而是一个可操作化的代理（operationalized proxy）。MMLU 测的不是”大规模多任务理解力”这个构念，而是”在 57 个学科的四选一选择题上选对的概率”这个指标。两者之间隔着一条效度鸿沟。Benchmark 失信不是因为模型作弊，而是因为这条鸿沟被三股力量同时撕开：

构念效度本身就薄：四选一选择题与”真实科研推理”之间存在格式鸿沟（GPQA 的争议正在此）。
数据污染（contamination）：测试题进了预训练语料，温度计被预先告知了答案。
leaderboard 过拟合 + Goodhart：一旦榜单成为优化目标，厂商会针对榜单分布特化，而非提升通用能力。

选”构念效度三重打击”而不是”分数高低”，是因为前者能解释一个”分数高低”框架解释不了的怪现象：为什么一批前沿模型会在 MMLU 86–87% 区间集体停滞却仍号称在进步（GPT-4 技术报告记录其 5-shot MMLU 为 86.4%，来源：OpenAI, “GPT-4 Technical Report”, arXiv 2303.08774, 2023；此后多个前沿模型在 86–87% 区间难分高下，判别力衰减——具体停滞时长与覆盖模型范围〔待核实〕）。温度计框架会说”它们都到顶了”；效度框架会说”温度计的刻度在这一段已经失灵了”。这是两个完全不同的 PM 决策。

§1 静态基准全景：你在读的到底是什么榜

先把”benchmark”这个词拆开。同样叫”分数”,测量的构念天差地别。

基准	出处	构念（声称测什么）	实际形态	当前状态
MMLU	Hendrycks et al., ICLR 2021	大规模多任务知识	57 学科四选一	饱和（86–87% 停滞），判别力丧失
MMLU-Pro	Wang et al. (TIGER-AI Lab), NeurIPS 2024	推理密集型理解	10 选一 + 更难推理题	GPT-4o 从 88.7% 跌至 72.6%
GSM8K	Cobbe et al. 2021	小学数学推理	自然语言应用题	前沿模型 >90%，GPT-5 系列近 99%，饱和
GPQA Diamond	Rein et al., arXiv 2311.12022, 2023	博士级 google-proof 推理	Diamond 子集 198 道四选一（生/物/化；GPQA main set 共 448 题，full set 546 题）	Diamond 子集已超人类专家基线（前沿模型 94%+ vs 领域 PhD 约 65%）
SWE-bench Verified	Jimenez et al. 2024（Verified 子集 500 题）	真实编程能力	Python 仓库 issue 修复	OpenAI 2025 已停止汇报

关键判断：这五个榜测的不是同一种东西，把它们加权成一个”综合能力分”是构念上的混类（category error）。MMLU 测知识检索，GSM8K 测数值链式推理，SWE-bench 测的是”模型 + agent 脚手架”的联合产物。一个 PM 把它们排成一行做选型，等于把体温、血压、视力加权成一个”健康分”。

[!note] 关键反例：CoT 的诊断价值思维链（CoT）在 MMLU-Pro 上带来显著提升（论文报告 GPT-4o +19.1%、GPT-4-Turbo +15.3%），而在原始 MMLU 上几乎持平甚至负增益（来源：Wang et al., “MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark”, NeurIPS 2024, arXiv 2406.01574，查阅 2026-06-07）。这是构念效度的直接探针：如果”加推理”几乎不改变分数，说明这个测验主要测的是检索而非推理。MMLU 的高分大部分是记忆，不是它声称的”理解”。

§2 三重打击之一：数据污染（contamination）

污染指测试题（或其改写、其答案）出现在了模型的训练语料里。证据不是猜测，是可证伪的实验：

缺失选项猜测实验（Zhao et al., 2024，即微软 MMLU-CF 工作链路）：让模型在不给题干的情况下”猜”MMLU 的缺失选项，ChatGPT 和 GPT-4 的精确匹配率分别达 52% 和 57%。一个没见过原题的模型不可能记住特定选项的排布——这是污染的近乎直接的指纹。
MMLU-CF（Microsoft Research, ACL 2025, arXiv 2412.15194）：构造”污染无关”封闭测试集后测 40+ 主流 LLM，不仅分数大幅下滑，排名也显著改变。排名改变比分数下滑更致命——它意味着你基于旧榜做的选型结论本身是错的。
GSM1K（Scale AI, Zhang et al., “A Careful Examination of Large Language Model Performance on Grade School Arithmetic”, arXiv 2405.00332, 2024）：构造与 GSM8K 等难度、保证未进预训练的 1000 道新题。结果：部分模型 GSM8K 比 GSM1K 高出最多 13 个百分点，且分数差与模型在 GSM8K 上的文本生成概率呈正相关——论文同时报告三个相关量：Spearman r=0.36（秩相关系数，约解释 13% 方差）、Pearson r²=0.26、Kendall τ=0.29（来源：arXiv 2405.00332，查阅 2026-06-07）。注意是相关系数 r=0.36，不是决定系数 r²；分数差越大，越像”背过原题”。Phi 和 Mistral 系列过拟合最严重（持续损失 10–13 点）。

[!warning] failure scenario：污染不是单调抬分有研究发现适量的数据污染在训练结束时会被”遗忘”，中等程度的数据重叠未必持续抬高测试分（据称为 2025 年一项关于污染影响非单调性的研究，原始出处〔待核实〕，措辞已降级为”有研究称”）。所以”污染 ⇒ 分数虚高”是一阶近似，不是定律——污染的影响因训练规模、数据比例而异。PM 的正确表述是”污染使分数不可信”，而非”污染使分数必然偏高”。把不确定性误报成确定性偏差，是另一种 overclaim。

[!warning] failure scenario：私有 holdout 被复用就失效本节点反复推荐”自建私有 holdout 黄金集”作为抗污染解药——但这条建议有一个隐含前提：holdout 必须严格隔离于任何训练/调参循环。一旦内部工程师把 holdout 用于超参调优、prompt 迭代或模型选择，它就从”独立测量集”退化为”被优化目标”，本节点的 holdout 建议随即失效——你只是把公开榜的 Goodhart 搬进了自家流水线。私有不等于干净，隔离纪律才是。

§3 三重打击之二：leaderboard 过拟合与 Goodhart

第二股力量不在数据层，在激励层。古德哈特定律（Goodhart’s Law）：“当一个指标成为优化目标，它就不再是好指标。” Benchmark 一旦变成发布会 PPT 上的数字、融资 deck 里的曲线，厂商的理性行为就是针对它特化。

过拟合的硬证据（Singh et al., ‘The Leaderboard Illusion’, arXiv 2504.20879, 2025-04-29 上传；已被 NeurIPS 2025 接收为 Poster，neurips.cc 有会议页面，2026-06-07 查证）：把 Chatbot Arena 数据的训练比例从 0% 提到 70%，ArenaHard 胜率从 23.5% 升至 49.9%（相对提升 112%），但 MMLU 等 OOD 指标同期略降。这就是过拟合的定义——专项分暴涨、泛化分不涨甚至下降。
披露策略污染：同一篇 Singh et al.（arXiv 2504.20879）记录，Meta 在 Llama-4 发布前私测了 27 个变体，可选择性只公布最高分的那个。你看到的”一个分数”，背后可能是 27 次抽样的极大值。（LMArena 反驳：实际私测增益约 +11 Elo，且政策自 2024 年 3 月已公开——争议未平息，见 §6。）
饱和即失效：BIG-Bench Hard（BBH）被 Claude 3.5 于 2024 年 6 月以 3-shot 达到 93.1%，超过 90% 后判别力消失，社区不得不造 BIG-Bench Extra Hard（BBEH, ACL 2025）替换全部 23 个子任务。GPQA 同理——从 2023 年 11 月的 39% 爬到 2026 年初的 94%+，创建者本人承认其局限。饱和不是”AI 变强了”，是”尺子被磨平了”。

§4 判断主轴 · 致命耦合点：90% 的人在 benchmark 上会搞错的 4 个点

这一节是本节点的命门。每点配【症状 → 为什么会错 → 正确做法 → 真实反例】。

错点 1：把”分数高”等同于”能力强”（构念效度盲区）

症状：选型会上比 MMLU 小数点后第几位；“它 GPQA 92 超过博士了，肯定能做我们的科研助手。”
为什么会错：混淆了指标（四选一选对率）与构念（真实推理力）。GPQA 原论文报告领域专家在 GPQA 上的准确率约 65%（Diamond 子集），且该基线是在**限时、可联网检索但难以快速找到答案（“google-proof”）**的条件下取得的（来源：Rein et al., “GPQA: A Graduate-Level Google-Proof Q&A Benchmark”, arXiv 2311.12022, 2023）；模型则经过海量相关领域语料训练，且四选一格式与真实科研推理存在本质差异。94% vs 65% 的”超越人类”是不等价比较的产物。
正确做法：先问”这个分数的构念效度成立吗？“——CoT 是否改变分数（不变=测检索）、换格式是否崩盘（崩=过拟合格式）、人类基线的取得条件是否可比。
真实反例：GPT-4o 在 MMLU 上 88.7%，换到 MMLU-Pro（同样的”多任务理解”构念，只是 10 选一 + 推理题）立刻跌到 72.6%，降幅 16 点；其他模型降幅 16–33 点。同一个”能力”，换一把尺子掉 30 分——说明掉的不是能力，是格式红利。

错点 2：相信”前沿闭源模型没污染”

症状：“GPT-4、Claude、Gemini 的 GSM8K-GSM1K 差距最小，所以它们没过拟合，可以放心信它们的榜。”
为什么会错：Scale AI 的 GSM1K 研究确实发现前沿闭源模型（GPT-4、Claude、Gemini 系列）GSM8K–GSM1K 差距最小（来源：arXiv 2405.00332）——但闭源模型无法验证训练数据组成，低差距可能只反映数据不透明而非无污染。你无法用”看不见污染”证明”没有污染”。
正确做法：把”差距小”读作”在这把特定的尺子上暂时没露馅”，而非”清白”，并把这条不可证伪风险转成可执行的供应商动作：(1) 要求供应商在你提供的私有 holdout 上跑同题型并回传逐题结果；(2) 在采购合同里写入 SLA 条款，禁止供应商在测试窗口内将你的评估集用于任何训练/微调；(3) 把”闭源污染不可证伪”写进选型风险登记表作为开放风险项持有，而非停留在口头”相信它干净”。
真实反例：SWE-bench Verified 上，OpenAI 内审发现每个主流前沿模型都有逐字复现 gold patch 的案例——包括那些在 GSM1K 上”差距最小”的闭源前沿模型。“看不见”不等于”不存在”。

错点 3：以为”造更难的 benchmark”就能解决污染

症状：“MMLU 饱和了？换 MMLU-Pro / GPQA / BBEH 就行了，难度上去污染就没影响了。”
为什么会错：难度提升 ≠ 污染免疫。‘The Emperor’s New Clothes in Benchmarking’（Wang et al., arXiv 2503.16402, 2025；发表于 ICLR 2025 第 2 届 DATA-FM 研讨会，2026-06-07 查证）系统测试多个 LLM、benchmark 与一组污染缓解策略，结论是：没有任何策略能同时兼顾”保真度”（新题与原题等难度）和”抗污染性”，且没有一种显著优于”什么都不做”。
正确做法：把”更难的榜”当作临时延寿而非治本。任何公开静态基准，发布即开始被污染倒计时；真正抗污染的是私有 holdout、动态生成、和你自己业务分布的黄金集。
真实反例：连号称”博士级、google-proof”的 GPQA 都在两年内从 39% 被刷到 94%+ 饱和。难度是缓冲，不是免疫。

错点 4：把 SWE-bench Verified 当”真实编程能力”

症状：“这个模型 SWE-bench Verified 90%+，几乎能解决所有真实 GitHub issue 了。”
为什么会错：三个耦合污染源叠加。其一，第三方研究 SWE-Bench+（Aleithan/Ni et al., “SWE-Bench+: Enhanced Coding Benchmark for LLMs”, arXiv 2410.06992, 2024）通过人工筛查发现 32.67% 的成功 patch 涉及答案泄漏（解答直接出现在 issue 文本或评论里）——注意这是独立第三方论文的结论，不是任何厂商的官方内审报告；剔除问题样本后，SWE-Agent+GPT-4 解决率从 12.47% 跌到 3.97%。其二，脚手架工程（agent scaffolding）对分数贡献巨大，模型能力与 harness 工程难以解耦。其三，2024 年中之后用 GitHub 数据训练的模型都可能见过部分解答——这与 OpenAI 后续转向 SWE-bench Pro 汇报口径的动机一致。
正确做法：要求看同一模型在更难/未污染变体上的分数作为 sanity check。Verified 高分 + Pro 低分 = 强烈的过拟合/污染信号。
真实反例：Claude Opus 4.5 在 SWE-bench Verified 上约 80.9%，在 SWE-bench Pro（更长上下文、跨文件、商业级仓库）上仅约 45.9%，同一模型差距约 35 点（来源：Scale AI SWE-bench Pro 公开榜 labs.scale.com/leaderboard/swe_bench_pro_public、morphllm.com/swe-bench-pro，查阅 2026-06-07）。同一个”编程能力”，换一把更接近真实工程的尺子掉三分之一——证明 Verified 的高分有相当部分是榜单红利而非工程能力。〔注：早期初稿曾把 45.9% 误记为 Claude Mythos Preview、并推出”约 48 点差距”，二者均为事实错误，R1 已订正——45.9% 属 Claude Opus 4.5，Mythos Preview 在 Pro 上约 77.8%。〕

§5 产品 PM 视角补盲：榜单是商业装置，不只是技术工具

跳出工程视角，benchmark 的三个非技术陷阱：

采购心理学：销售拿榜单做锚定（anchoring）。当对方递来”我们 SWE-bench 93.9”，他卖的是数字制造的确定性幻觉。PM 的反制不是比更高的数字，而是把对话从”分数”拉到”在你的数据分布上的 holdout 表现”。
数据访问的权力不对称：‘The Leaderboard Illusion’ 报告 Arena 对战数据高度集中于少数大厂——少数专有厂商（如 Google、OpenAI 等）合计获得显著高于开源模型群的对战与采样份额，并存在大厂可私测多变体、择优公布的不对称（来源：Singh et al., arXiv 2504.20879, 2025；具体百分比与采样率倍数〔待核实〕，此处不硬编精确数字）。榜单不是中立竞技场，是有结构性优势分配的市场。你读到的排名部分是数据特权的排名。
合规边界：在滴滴这类安全/国际化场景，“GPQA 92”对”识别一条恶意客诉是否构成人身威胁”的预测力几乎为零——构念完全不匹配。把通用榜当合规能力证据，是会出人命的混类。给监管或安委会汇报时，用业务 holdout 集的指标，绝不用公开榜分数背书安全能力。

§6 对手框架回应：接受 + 边界

对手立场（Chatbot Arena 阵营 / LMArena 团队，2025）：人类盲测偏好是最接近真实使用质量的信号，比静态选择题更抗污染；‘The Leaderboard Illusion’ 的指控被夸大——LMArena 官方回应称实际私测增益仅约 +11 Elo（50 次测试/3000 票后），分数差异在统计置信区间内，且私测政策自 2024 年 3 月已公开。

接受：这是对的。Arena 的人类成对偏好确实绕开了”选择题被背原题”这一最直接的污染路径，动态、持续、难以一次性泄漏。对”哪个模型用起来更顺手”，Arena 比 MMLU 强得多。Singh et al. 的 50–100 分虚高估计基于 Gaussian 模拟，与 LMArena 基于真实数据的 +11 Elo 不可直接比较——指控确有方法论可质疑处。

边界（本节点坚持的赌注）：Arena 把污染问题换成了偏好 ≠ 质量问题。一个值得诚实标明方向的数据：Chatbot Arena 原始论文（Zheng et al., “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”, arXiv 2306.05685, 2023）报告：MT-bench 人类评估员之间的一致率为 81%（排除平局，setup S2）；GPT-4 作为裁判与人类评估员的一致率为 85%（MT-bench S2）和 87%（Arena S2）；GPT-3.5/Claude 与人类的一致率约 83–84%（Arena S2）。——原文是把这些数字当作 Arena 投票可靠性的正面证据（LLM 裁判与人类评估员高度一致）。本节点把它反转引用为边界依据：换个角度看，Arena 在 S1（含平局）条件下 GPT-4 与人类一致率仅 72%，约 15–20% 的投票与人类判断不符；而 81% 的人类评估员间一致率本身就是”Arena 这把尺子自身的误差上限”——不是”Arena vs 客观事实”的差距，而是”连人类评估员彼此都未必一致”。〔R2 订正：原稿”72–83%“系混用两个不同实验条件（S1 与 S2）的数值范围，“79–89% 专家间一致率”无文献依据，均已订正为原文具体数字；来源：arXiv 2306.05685 Table 5–6，查阅 2026-06-07。〕再叠加 LMSYS 自己的 Style Control 实验（2024-08-28）：一旦控制回答长度与 markdown 格式，排名剧变——GPT-4o-mini 从第 6 跌至第 11，长度系数（0.249）远大于 markdown 各项（0.019–0.031）。也就是说，Arena 高分有可观一部分来自冗长偏差和格式偏差，而非实质质量。我赌的是：Arena 是更好的尺子，但它把”测量构念是否成立”的问题从内容层转移到了风格层，没有消灭它。对一个要为安全决策负责的 PM，任何单一公开榜——选择题也好、人类偏好也好——都只能作为弱先验，强证据只能来自你自己的 holdout。

第二个对手立场（“更大、更新、组合评估”阵营，如 Epoch AI / Frontier Math 一派，2024–2025）：问题不在”静态 benchmark”这个范式本身，而在题库太小、太旧、太单一。解药是持续扩张题库、引入抗背诵的高难原创题（如 Epoch AI 的 FrontierMath）、并用一组互补 benchmark 的组合画像取代单一分数——污染是工程问题，不是认识论绝症。

接受：这一派很大程度上是对的，而且方向务实。组合评估确实比单榜稳健；FrontierMath 这类”专家原创、未公开、答案需多步推导”的题目，显著抬高了背诵门槛；持续换题也确实能延缓饱和。本节点 §8 推荐的”业务 holdout + 定期换题”本质上就是这套思路的私有化版本。

边界（本节点坚持的赌注）：但”更大更新的组合”只是把效度上限推后，没有取消它。§4 错点3 引的 ‘Emperor’s New Clothes’ 实证恰恰说明：没有缓解策略能同时兼顾保真度与抗污染，且组合多个有污染的榜不会自动抵消污染，只会平均化它。更关键的是，组合评估仍是用聚合分数掩盖构念混类（§1 的 category error）——把数学、知识、编程的分数组合成一个画像，方便了营销，但对”它能不能做我这条安全客诉的判断”仍然零预测力。我赌的是：组合评估能改善信噪比，但救不了构念错配；对要为后果负责的决策，唯一的强证据仍是你为自己的构念建的尺子。

§7 跨域呼应：构念效度（construct validity）如何改变技术判断

构念效度是 20 世纪心理测量学的核心概念（Cronbach & Meehl, 1955 的经典框架），它要回答的问题正是 benchmark 时代被遗忘的那个：一个测验的分数，在多大程度上反映了它声称测量的那个理论构念，而不是别的东西？

把这个透镜架到 benchmark 上，至少改变三个具体判断：

它把”分数下降”重新解释为”效度暴露”。当 MMLU→MMLU-Pro 让 GPT-4o 掉 16 分，温度计框架说”难度变高了”。构念效度框架说：原 MMLU 的方差里有一大块来自与构念无关的格式便利（四选一可蒙、可消去），这叫 construct-irrelevant variance（构念无关方差）——MMLU-Pro 挤掉了这块水分。掉的不是能力，是污染进分数的噪声。
它给”超越人类专家”判了无效。心理测量学有个铁律：跨群体比较分数，前提是测验对两个群体测的是同一个构念。GPQA 对 AI（训练过海量语料、可反复采样）和对 PhD（无工具、限时、冷启动）测的根本不是同一个构念——这是 measurement invariance（测量不变性）失守。94% vs 65% 因此不可比，“超越博士”是一个统计学上无定义的陈述。
它解释了为什么没有”终极 benchmark”。构念效度永远是程度问题、永远依赖具体使用情境（Messick, 1989 的”效度是统一的、情境依赖的判断”）。所以”造一个一劳永逸的硬榜”在认识论上就是错的方向——这正是 ‘Emperor’s New Clothes’ 实证结论（无策略普适有效）的理论根源。

[!warning] failure scenario：构念效度批判在高度标准化任务上会反噬本节点的核心赌注是”指标 ≠ 构念，效度鸿沟普遍存在”。但这条判断在任务本身高度标准化、构念与指标几乎重合的场景下会失效——典型如代码单元测试的通过/失败：当一个 issue 的”正确”有客观、可执行、二值的判定（测试跑过就是过），指标与构念的鸿沟趋近于零，此时再坚持”分数测不了真实能力”反而是过度怀疑。换言之，构念效度批判的力量与任务的”答案开放度”成正比；对开放性科研推理（GPQA）它锋利，对封闭性可验证任务（部分单元测试）它钝化。PM 用这把刀时要先判断手里的任务落在谱系哪一端——否则会把”可信的客观指标”也一并否定掉。

这不是装饰性引用：构念效度框架把”benchmark 失信”从一个工程 bug（污染了、修一下）重新诊断为一个测量哲学的结构性事实（任何代理指标都有效度上限，污染只是让上限提前撞顶）。PM 的行动因此从”等更好的榜”变成”为自己的构念建自己的尺子”。

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试：当被问”怎么评估一个 LLM”，不要背榜。先反问”测什么构念、给谁用”，再用三重打击框架拆解”为什么我不直接信 MMLU/SWE-bench”，最后落到”我会建一个 200–500 条的业务 holdout 黄金集 + 定期换题防污染”。一句话杀手锏：“公开静态基准发布即开始被污染倒计时，我只把它当弱先验。”
选型：拿到供应商榜分，做三个 sanity check——(1) 同模型在更难变体上的分数（Verified vs Pro）；(2) CoT 是否改变分数（测检索还是推理）；(3) 要求在你的 holdout 上跑一遍。差距越大，榜分水分越大。
复现 / 自建评估：永远自己持有 holdout，永远不把测试集进任何训练/调参循环（否则你自己制造污染）；定期轮换题目；同时报告原始一致率与机会校正指标——这条直接对接 Cohen Kappa 系数的用法。

§9 与已有节点的关系（升级对照，不复述旧节点事实）

对照 c14 - 模型评估体系与 Goodhart 陷阱（深化 + 认识论补缺）：c14 已点出”benchmark 通胀机制（污染 + 针对性 SFT 失去区分度）“和 Goodhart 防御（自建黄金集）。本节点做两件 c14 没做的事——(1) 把”为什么不可信”从一句结论升格为可证伪的实证三重打击（MMLU-CF 排名改变、GSM1K 的 Spearman r=0.36、Emperor’s New Clothes 多策略无效），每条带论文 + 年份；(2) 补上 c14 缺的认识论层——用构念效度解释”为什么没有终极榜”，回答了 c14 留白的”为什么是这些指标而不是别的”。c14 停在”防御 Goodhart”，本节点上升到”测量本身的效度上限”。
对照 m205 - RAG 生产环境：索引运维与评估体系（横向对话）：m205 讲”如何测”（RAGAS 四维 + 黄金集工程）。本节点讲”测出来的公开分数为什么不能信”，为 m205 的”自建 200–500 条黄金集”提供了认识论辩护：不是因为公开榜不够细，而是公开榜在构念上有结构性效度上限。
对照 m207 - Agent 产品化：场景推演与失败模式（纠偏）：m207 把 SWE-bench/WebArena/GAIA 列为”标准化评估基准”。本节点对 SWE-bench Verified 做了纠偏——SWE-Bench+（arXiv 2410.06992）发现的 32.67% 答案泄漏 + 脚手架不可解耦 + OpenAI 转向 Pro 汇报口径，意味着 m207 引用它时需要附上”同一模型 Verified vs Pro 差距可达约 35 点（如 Claude Opus 4.5 80.9% vs 45.9%）“这条边界。
对照 Cohen Kappa 系数 / 幻觉（工具衔接）：Kappa 是”机会校正”思想在 IAA 上的体现，本节点把同一思想用在”GSM8K-GSM1K 差值作为污染探针”；幻觉的校准失准问题，是 benchmark 之外评测工具自身可靠性的另一面。

§10 关联节点

核心（必读）

c14 - 模型评估体系与 Goodhart 陷阱 — 本节点的直接上游，Goodhart 防御与黄金集
m205 - RAG 生产环境：索引运维与评估体系 — 黄金集工程与 RAGAS 四维
m207 - Agent 产品化：场景推演与失败模式 — Agent 评估基准（SWE-bench 等）的纠偏对象
Cohen Kappa 系数 — 机会校正思想，污染探针的方法论近邻
范式 — Kuhn 范式：benchmark 饱和 = 旧范式尺子失效

延伸（可选）

c11 - System 2 思维与 Test-Time Compute — CoT 改变分数的诊断价值，ORM/PRM 评测升级
c13 - 幻觉的不可消除性 — 评测工具自身的校准问题
幻觉 — 校准失准作为评测前提性挑战
Agent 产品评估的五个具体问题 — 评估方法论的 PM 工作版
0114认识论 — 构念效度、测量不变性的哲学入口
Scaling Laws — “停滞在 86–87%“与 scaling 边际收益的对照
SFT / RLHF — 针对性微调如何污染榜单

修订日志

R0（2026-06-06，初稿）：建立”构念效度三重打击”主框架；§4 判断主轴四件套（构念效度盲区 / 闭源不可证伪污染 / 难度≠免疫 / SWE-bench 脚手架耦合）全部接地至 evidence brief（MMLU-CF、GSM1K r²=0.36、Emperor’s New Clothes 20 策略、SWE-bench 32.67% 泄漏、Verified vs Pro 48 点差距）；§6 对手框架接入 LMArena 真实反方立场（+11 Elo 回应）做”接受+边界”；§7 跨域弹药构念效度具体展开三处技术判断改变（construct-irrelevant variance / measurement invariance / 无终极榜）；§9 与 c14/m205/m207/Kappa 写显式升级对照。待办：R1 grounding 校验 pass 逐条复核数字；补 frontmatter aliases 进 00Meta/概念词典.md；确认范式链接在 Kuhn 语义下的精确指向。
R1（2026-06-07，第一轮批评修订）：本轮以 grounding 校验为核心，重点订正 C 维事实错误并清除”evidence brief”内部底稿引用。
- 【严重事实错误·已修】§4 错点4：原稿把 SWE-bench Pro 45.9% 的主语误记为 Claude Mythos Preview，并据此推出”约 48 点差距”——经 WebSearch 核实（Scale AI 公开榜、morphllm.com），45.9% 实属 Claude Opus 4.5（Verified 80.9% vs Pro 45.9%，差距约 35 点，非 48 点）；Mythos Preview 在 Pro 上约 77.8%。已整段重写为 Claude Opus 4.5 的真实数据并注明来源与查阅日期，正文末加订正注。§9 m207 对照中的”48 点”同步改为”约 35 点（80.9% vs 45.9%）”。
- 【统计概念混用·已修】§2：原”Spearman r²=0.36”改为 Spearman r=0.36（秩相关系数），并补全论文同时报告的 Pearson r²=0.26、Kendall τ=0.29，注明 r=0.36 约解释 13% 方差、与 r² 含义不同（来源：arXiv 2405.00332）。§9 c14 对照中的”r²=0.36”同步改为”Spearman r=0.36”。
- 【错误归因·已修】§4 错点4：把 32.67% 答案泄漏的来源由暗示的”OpenAI 内审”订正为第三方论文 SWE-Bench+（Aleithan/Ni et al., arXiv 2410.06992, 2024），明确标注”非厂商官方内审”，并补充剔除问题样本后解决率 12.47%→3.97%。
- 【会议归属降级·已修】§3：‘The Leaderboard Illusion’（Singh et al., arXiv 2504.20879）由”NeurIPS 2025 Poster”降级为”已提交 NeurIPS 2025，正式接收状态〔待核实〕，以 arXiv 为引用源”。
- 【引用来源循环·已修】：全文 7 处”evidence brief”内部底稿引用逐条替换为可外部查证的原始来源——§0 MMLU 86–87% 停滞改引 GPT-4 Technical Report（arXiv 2303.08774）并对停滞时长/覆盖范围标〔待核实〕；§1 CoT 提升改引 MMLU-Pro 论文（Wang et al., NeurIPS 2024, arXiv 2406.01574，GPT-4o +19.1%/GPT-4-Turbo +15.3%）；§2 污染遗忘研究改为”有研究称…原始出处〔待核实〕“并降级措辞；§4 错点1 GPQA 基线改引 Rein et al.（arXiv 2311.12022）；§4 错点3 Emperor’s New Clothes 标明 arXiv 2503.16402、会议归属〔待核实〕；§5 Arena 数据集中度百分比无法独立坐实，改为定性表述 + 具体数字〔待核实〕，不硬编。
- 【shouldFix·GPQA 题数·已修】§1 表格：明确标为 GPQA Diamond 子集（198 题），并注 main set 448 / full set 546，避免读者误以为 94%+ 是全量结果。
- 【shouldFix·错点2 可操作性·已修】：把原认识论式”正确做法”改写为 PM 可执行的三步——holdout 让供应商跑同题型回传逐题、SLA 禁用测试集训练、把不可证伪污染写入选型风险登记表。
- 【shouldFix·Arena 72–83% 方向·已修】§6：标明该数字来自 Arena 自身论文（Zheng et al., arXiv 2306.05685）作为正面可靠性证据，本节点为反转引用；补充专家间一致率 79–89% 即”Arena 尺子自身误差上限”。〔R2 进一步订正：72–83% 系混用两实验条件的数值范围，“79–89% 专家间一致率”无文献依据，均订正为原文具体数字（见§6 正文）。〕
- 【shouldFix·E 维对手框架·已补】§6：新增第二个对手立场”更大/更新/组合评估”阵营（Epoch AI / FrontierMath 一派），给出接受 + 边界回应。
- 【shouldFix·B 维 failure scenario·已补】：由 1 处增至 3 处——新增 §2”私有 holdout 被复用于超参调优即失效”、§7”构念效度批判在高度标准化任务（如单元测试）上反噬”。
- 【shouldFix·D 维死链校验·已查】：对 Agent 产品评估的五个具体问题、Scaling Laws、范式、0114认识论及全部核心/延伸链接做文件系统校验，11/11 全部 resolve，无死链（校验方式：vault 内 find -iname，2026-06-07）。
- 残留待办：§0 MMLU 停滞时长/覆盖范围、§2 污染遗忘研究出处、§5 Arena 集中度精确百分比等数项仍标〔待核实〕，留待后续 grounding pass 坐实或保持降级措辞；frontmatter aliases 补入 00Meta/概念词典.md 仍待入库时执行。
R2（2026-06-07，第二轮 grounding 校验）：
- 【Arena 一致率数字·已修】§6：原”72–83% 人类投票与专家事实核查一致率”系混用 S1/S2 两实验条件且归因失误（实为 LLM 裁判 vs 人类评估员，非”人类 vs 专家事实核查”）；原”79–89% 专家间一致率”无文献依据。订正为原文精确数字：人类评估员间 81%、GPT-4 vs 人类 85%（MT-bench S2）/ 87%（Arena S2）、S1 含平局条件 GPT-4 vs 人类 72%（来源：arXiv 2306.05685 Table 5–6）。
- 【会议归属·已坐实】§3：‘The Leaderboard Illusion’（arXiv 2504.20879）NeurIPS 2025 Poster 已由 neurips.cc 会议页面确认，删除〔待核实〕标注。‘Emperor’s New Clothes’（arXiv 2503.16402）确认发表于 ICLR 2025 DATA-FM 研讨会，更新引注。
- 【其余数字复核·通过】：GSM1K 三相关系数（Spearman r=0.36、Pearson r²=0.26、Kendall τ=0.29）经 arXiv 2405.00332 v4 HTML 确认；ArenaHard 23.5%→49.9%（112%）经 arXiv 2504.20879 确认；SWE-Bench+ 32.67% 泄漏 / 12.47%→3.97% 经 arXiv 2410.06992 确认；GPQA Diamond 198 题 / main 448 / full 546 经原始论文确认；MMLU-CF ACL 2025 接收确认；BIG-Bench Hard Claude 3.5 93.1% 确认；Style Control GPT-4o-mini 6→11 及系数（长度 0.249、markdown 0.019–0.031）确认；Claude Opus 4.5 SWE-bench Verified 80.9% / Pro 45.9% 经 Scale AI 公开榜确认。