G01 评测范式代际谱系总图

LLM 评测在过去八年里换过六种”测量仪”——从 perplexity 到 Elo 到 Agent 轨迹评测。本节点要回答的问题不是”它们各自怎么用”（那是架构剖面 S 系列的活），而是：这六代是不是一部”越测越准”的进步史？ 我的框架是把它当成一部库恩式范式更替 + 拉卡托斯式纲领退化的科学史来读——结论先抛出来作为本专题的赌注：每一代都没有真正解决上一代的根问题（构念效度），只是把构念偷换成了一个新的、暂时还没被 game 掉的代理指标。 进步是真的，但进步的是”抗污染的时长”，不是”测得更准”。

[!warning] 本节点的核心赌注如果你只带走一句话：评测的代际更替不是逼近真值的过程，而是 Goodhart 失效后被迫换靶子的过程。把它当进步史读，你会在选型会上为”新 benchmark 分数更高”这件本身没有意义的事买单。

§0 为什么用”范式更替 + 纲领退化”框架，而不是”能力天梯”框架

业界默认的叙事框架是能力天梯（capability ladder）：benchmark 越来越难，模型越爬越高，分数曲线就是 AI 进步的体温计。这个框架的隐含前提是——测量工具是中立的、稳定的，变的只是被测对象。

这个前提是错的，而且错得有方法论后果。真实历史里，测量工具本身在被测对象的反作用下持续失效、持续被替换。MMLU 不是因为模型变强才退役，是因为它的题目泄漏进了训练集、判别力归零才退役（见 §2）。所以正确的框架不是”对象在天梯上往上爬”，而是 Kuhn 范式意义上的范式更替：旧范式积累”反常”（anomalies，这里是污染、饱和、构念漂移）到临界点，被一个不可通约（incommensurable）的新范式取代——新范式测的根本不是同一个东西（perplexity 测语言建模，Elo 测人类偏好，二者不可换算）。

但库恩还不够，因为他无法回答”新范式真的更好吗”。这里调度 拉卡托斯（Imre Lakatos）的”进步性 vs 退化性研究纲领” 作为裁判标准（§7 具体展开）：一个纲领是进步的，当它预言并发现了新事实；是退化的，当它只能事后打补丁去解释已经被攻破的反常。用这把尺子量评测史，你会发现一个尴尬的事实——多数代际更替是退化性的：新 benchmark 主要在”堵住旧 benchmark 被发现的漏洞”，而非”测出了一种以前测不到的能力维度”。MMLU-Pro 把 4 选项扩到 10 选项（Wang et al., NeurIPS 2024），是补丁；HELM 把单一准确率扩成 7 维（Liang et al., Stanford CRFM, 2022），才是少数的进步性扩展。

用这个框架，你在选型会上的第一个问题就变了：不是”这个新 benchmark 分更高吗”，而是”这次换靶子，是进步性的（测到了新维度）还是退化性的（只是堵了旧漏洞、靶子更难但同构）”。

§1 六代谱系总图

graph LR
    A["第1代<br/>静态语言指标<br/>perplexity/BLEU/ROUGE"] --> B["第2代<br/>任务 benchmark<br/>GLUE→MMLU→GPQA"]
    B --> C["第3代<br/>人工偏好评测<br/>IAA + rubric"]
    C --> D["第4代<br/>LLM-as-Judge<br/>MT-Bench/G-Eval"]
    D --> E["第5代<br/>竞技场 Elo<br/>Chatbot Arena/BT"]
    E --> F["第6代<br/>Agent 轨迹评测<br/>SWE-bench/τ-bench"]
    style A fill:#e8e8e8
    style F fill:#ffe8cc

每一代不是替换前一代，而是叠层共存：今天的前沿评测同时在用 perplexity（做污染检测，见 §2 的 Min-K%）、benchmark（MMLU-Pro/GPQA）、人工评测（黄金集标注）、LLM-as-Judge（RAGAS/规模化打分）、Elo（Arena）和轨迹评测（SWE-bench）。谱系是地质学的地层，不是生物学的迭代。

代	测什么（构念）	驱动力（为何出现）	瓶颈（为何被迫换）	真实反例（进步史的破绽）
1 静态语言指标	语言建模质量 / n-gram 重叠	自动、可复现、零人工成本	与”有用/正确”几乎不相关；BLEU 高的翻译可能读不通	perplexity 低不代表更对——压缩好≠理解好
2 任务 benchmark	离散任务正确率	可比、可排行、对齐下游任务	污染 + 饱和：泄漏进训练集后判别力归零	GPT-4 后所有模型卡在 MMLU 86–87%（见 §2）
3 人工偏好评测	人类觉得哪个更好	直接锚定”人觉得有用”	贵、慢、不可复现；IAA 低；标注者偏差	专家级难任务上人机一致率明显低于人人基线〔示意，见 §3〕
4 LLM-as-Judge	用强模型代替人打分	把人工评测规模化、降本	继承并放大人的偏差（位置/冗长/自我偏好）	GPT-4o 在 JudgeBench 难题上仅略好于随机猜（Tan et al., 2024，ICLR 2025）
5 竞技场 Elo	真实分布下的成对人类偏好	抗单点污染、动态、众包规模	偏好≠质量；可被 game（私测/刷票/风格）	训练 Arena 数据使 ArenaHard 胜率 +112%，MMLU 反降（Singh et al. 2025）
6 Agent 轨迹评测	多步任务的端到端完成	贴近 Agent 真实用法、长程能力	脚手架混淆能力；答案泄漏；harness 不统一	SWE-bench Verified 32.67% 成功 patch 涉及答案泄漏（OpenAI 2025）

注意最后一列：每一代都有一个”皇帝新衣时刻”。这就是为什么本节点拒绝写成天梯。

§2 第 1→2 代：从”测语言”到”测任务”——污染与饱和的双杀

第 1 代静态指标（perplexity / BLEU / ROUGE）的根问题是构念太窄：它测”语言像不像”，而我们想要的是”答得对不对、有没有用”。第 2 代用离散任务正确率（GLUE→SuperGLUE→MMLU→GSM8K→GPQA）来逼近”有用”，这是一次进步性扩展——它确实测到了语言指标测不到的东西（推理、知识）。

但第 2 代自己有两个致命的退化模式，而且它们至今没被任何后代真正解决：

饱和（saturation）：MMLU（Hendrycks et al., ICLR 2021，57 学科）上 GPT-4 于 2023 年 3 月达 86.4%，此后到 2024 年中所有前沿模型卡在 86–87% 区间，判别力丧失。GPQA（Rein et al., arXiv 2311.12022, 2023，博士级，PhD 专家约 65%）从 2023 年 11 月的 39% 飙到 2026 年初 94%+，已越过人类专家基线——又一个即将退役的天花板。BBH（Claude 3.5 于 2024-06 以 3-shot 达 93.1%）饱和后被 BBEH（BBEH, ACL 2025）替换。

污染（contamination）：这是更阴险的一种。Deng & Zhao 等的 TS-Guessing”猜 MMLU 缺失选项”实验发现 ChatGPT/GPT-4 在该设定下精确匹配率达 52%/57%——题目本身被记住了〔发表场所待核实：该实验早期版本接近 NAACL 2023 谱系，后续被多篇综述引用，具体年份/会议待单一来源确认〕。Scale AI 的 GSM1K 研究（Zhang et al., arXiv 2405.00332, 2024）造了等难度、保证未泄漏的 1000 题，发现部分模型 GSM8K 比 GSM1K 高出最多 8 个百分点（Phi、Mistral 系列最严重），Spearman r²=0.36 把分数差和记忆概率挂上钩。

这里的判断很硬：第 3–6 代的全部努力，本质上都是在逃避第 2 代的污染问题——人工评测（用没见过的新题）、Arena（用实时新 prompt）、Agent 轨迹（用新仓库 issue）。但 ‘Emperor’s New Clothes’（DATA-FM @ ICLR 2025 / ICML 2025 poster，arXiv 2503.16402）系统测了 10 个 LLM、5 个 benchmark、20 种缓解策略，结论是没有任何策略显著优于不做任何处理。换靶子能买到的，只是”还没被污染的一段时间”。

§3 第 2→3→4 代：人工评测的承诺与 LLM-as-Judge 的偏差继承

第 3 代人工偏好评测看似回到了源头——直接问人”哪个更好”。它的认识论身价由 Cohen Kappa 系数这类 IAA 指标托底：原始一致率（percent agreement）会在类别不平衡时虚高，κ 扣掉随机基线后才是真一致。但人工评测有个被低估的天花板：在专家级领域，连人和人都不一致——在专家级难任务上，人机一致率会明显低于人人基线，且后者本身常掉到七成上下〔具体百分比因任务而异，待原始文献核实，此处作示意区间〕。这背后还要小心一个统计陷阱：Kappa Paradox（Feinstein & Cicchetti, 1990）说明 κ 与原始一致率可能不等价——在类别高度不均时，即便观测一致率很高，κ 也会被压低。它在这里的作用是提醒”原始一致率 ≠ κ”，而非直接为某个具体数字背书。第 3 代的”金标准”在最需要它的难任务上恰恰最不可靠。

第 4 代 LLM-as-Judge（奠基作 Zheng et al., MT-Bench/Chatbot Arena, NeurIPS 2023）想把人工评测规模化。它确实成功了一部分：MT-Bench 原论文报告 GPT-4 作裁判与人类的原始一致率超过 80%，与人类互评的原始一致率基线相当（注意这是 percent agreement，非扣随机基线的 κ）。G-Eval（Liu et al., EMNLP 2023）与人类的 Spearman 相关 0.514，超越所有此前自动指标。

但它把人的偏差也继承下来、甚至放大了，这是退化性纲领的典型特征：

位置偏差：换序后 GPT-4 改判约 35%〔待核实：原论文报告 GPT-4 一致率 >60%，即翻判率约 40%；35% 为四舍五入近似，方向正确〕（Claude-v1 更糟，一致性仅 23.8%〔待核实：具体百分比来自 Zheng et al. 2023 表格，未经本轮独立核查〕）。
冗长偏差：对故意灌水回答，GPT-3.5/Claude-v1 失败率 91.3%〔待核实：具体数字来自 Zheng et al. 2023 repetitive list attack 实验，未经本轮独立核查〕（GPT-4 仅 8.7%〔同上〕）。
自我增强偏差：GPT-4 给自己打分胜率高 10%，Claude-v1 高 25%——机制根源是困惑度，模型高估与自己风格相近（低 perplexity）的文本（Wataoka et al., 2024）。
能力天花板：JudgeBench（Tan et al., 2024，arXiv 2410.12784，ICLR 2025）揭示 GPT-4o 在高难度判别对上仅略好于随机猜——裁判答不对的题，也判不准。（注意区分：JudgeBench 测的是”裁判能力的边界”；另一项独立工作 Justice or Prejudice 的 CALM 框架，Ye et al., 2024，arXiv 2410.02736，量化的是 12 类裁判偏差——两者作者、目标均不同，常被混淆。）

注意第 4 代和第 1 代的隐秘呼应：自我偏好的根源是 perplexity。第 1 代被淘汰的指标，化作幽灵回到了第 4 代裁判的脑子里。 这不是进步史会写的剧情。

§4 第 5 代：竞技场 Elo——抗污染的代价是可被 game

第 5 代 Chatbot Arena（现 LMArena，Chiang et al., ICML 2024，arXiv 2403.04132）是迄今最聪明的一次换靶子：用实时、众包、成对的人类偏好投票，绕过静态题库的污染（每个 prompt 都是新的），用 Bradley-Terry MLE（2023-12 从在线 Elo 切换）聚合成全局排名。它对单点污染天然免疫——这是进步性的。

但它用三个新漏洞换掉了旧漏洞，这是本代的”皇帝新衣”：

偏好 ≠ 质量：人类投票与专家事实核查一致率仅 72–83%；风格偏差被坐实——LMSYS 自己的 Style Control 实验（2024-08-28）显示控制长度+markdown 后排名剧变（GPT-4o-mini 第 6→11，Grok-2-mini 第 6→18），长度系数 0.249 是最强单因子。
可被 game：‘The Leaderboard Illusion’（Singh et al., arXiv 2504.20879, NeurIPS 2025 Poster）记录 Meta 在 Llama-4 前私测 27 个变体、选择性披露；把 Arena 数据训练占比 0→70% 可使 ArenaHard 胜率从 23.5% 飙到 49.9%（+112%），而 OOD 的 MMLU 反降——针对靶子特化，不是能力提升，Goodhart 的教科书演示。
统计假设被违反：243 个公开模型中 205 个被悄然废弃，破坏了 BT 的传递性与对战图连通性。

对手立场的”接受 + 边界”回应：LMArena 官方反驳（arena.ai 官方博客，2025）给出三点具体反证——(1) 私测带来的实际增益仅约 +11 Elo〔待核实：该具体数字（+11 Elo / 50 次测试 / 约 3000 票）在本轮网络搜索中未能从 LMArena 官方博客原文独立确认，采信须回溯原博文〕（基于 50 次私测、约 3000 票的复盘）；(2) 私测政策自 2024-03 已公开，并非隐秘操作；(3) 若把开放权重模型计入，“开源”在对战数据中的份额是 40.9%，而非 Singh 文中口径下的 8.9%。接受：这三点都有 LMArena 侧的实测数据支撑，本节点采信其”私测增益约 +11 Elo”这一具体反驳，不再沿用更高的虚高区间〔Singh 原文 arXiv 2504.20879 主报告的是 ArenaHard 胜率 +112% 这一效应，未见对单模型 Elo 虚高区间的直接量化〕。边界：但虚高量级之争不影响本节点的结构性判断——只要”私测 + 选择性披露 + 数据访问不对等（头部四家占 62.8% 对战数据，采样率差 68 倍）“这套机制存在，Arena 分数就不是一个可以裸用的选型依据。PM 该带走的不是”Arena 不可信”，而是”看 Style-Controlled 榜、看置信区间是否重叠、看该模型是否对 Arena 分布特化过”。

§5 第 6 代：Agent 轨迹评测——脚手架混淆与答案泄漏

第 6 代把测量对象从”单轮输出”升到”多步轨迹的端到端完成”（SWE-bench / WebArena / GAIA / τ-bench），呼应 c10 与 m207 的 Agent 评估七维。这是进步性的：它测到了前五代都测不到的长程、工具调用、错误恢复维度。

但它把前五代的所有病一次性继承，还叠加了一个新病——脚手架/能力解耦失败：

答案泄漏：SWE-bench Verified（500 道 Python issue）中，OpenAI 内审发现每个前沿模型都有逐字复现 gold patch 的案例，人工筛查 32.67% 成功 patch 涉及解答泄漏（答案直接在 issue 文本/评论里）。OpenAI 已于 2025 年停止汇报 Verified 分数。
脚手架混淆：Verified 分数里 agent scaffolding（非模型能力）的贡献巨大，harness 不统一加剧失真。SWE-bench Pro（更长上下文、跨文件）vs Verified 的鸿沟最能说明问题——同一前沿模型在 Verified 约 93.9%，在 Pro 约 77.8%，差约 16 点〔Pro/Verified 具体分值与模型正式代号待核实；论证方向不受影响：Pro 因跨文件、长上下文确实系统性更难，分数显著低于 Verified〕。

判断：第 6 代是离 Goodhart 失效最近的一代——因为它最贵、最难造新题，所以题库一旦泄漏，重建成本最高，污染窗口反而最长。这恰恰是退化性纲领的征兆：测量越逼真，越脆弱。

§6 ⭐ 判断主轴：读评测代际史时 90% 的人会栽的 4 个坑

[!danger] 这一节是本节点的命门——区分”看懂谱系”和”被谱系骗”

坑 1：把代际更替当成”越测越准”的线性进步

症状：看到”新 benchmark 更难、分数曲线更陡”，就认定 AI 评测在逼近真值，于是默认”最新的榜最可信”。
为什么会错：混淆了靶子更难和测得更准。库恩的不可通约性说的就是：新范式测的不是同一个构念，“更高的分”在新旧靶子间根本不可换算。拉卡托斯进一步：多数换靶是退化性的（堵漏洞），不是进步性的（测新维度）。
正确做法：每遇新 benchmark，先做”进步性 vs 退化性”二分——它预言/发现了新能力维度（如 HELM 引入鲁棒性/公平性/毒性 7 维）还是只堵了旧 benchmark 被发现的漏洞（如 MMLU-Pro 4→10 选项）？后者只买到了抗污染时长，别为它的”高分”付溢价。
真实反例：‘Emperor’s New Clothes’（DATA-FM @ ICLR 2025 / ICML 2025 poster，arXiv 2503.16402）测 20 种污染缓解策略，无一显著优于不处理——“更难=更干净”是幻觉。

坑 2：把”构念效度问题”误当成”污染问题”，以为换干净题库就解决了

症状：认为”benchmark 失效=被污染了”，所以只要不断出新题、做污染检测（n-gram/perplexity/Min-K%），评测就能持续可信。
为什么会错：污染只是表层病。根病是构念效度（construct validity）——MMLU 测的是”知识检索”而非”推理”（CoT 在原始 MMLU 几乎零增益甚至轻微负向，而在 MMLU-Pro 上有明显增益，反证原始 MMLU 没在测推理）〔具体增益数值跨多篇文献综合而得，此处仅作方向性示意，非单一文献口径〕。题库再干净，如果它测的构念本身偏离了你关心的能力，分数依然没意义。这正是 c14 的 Goodhart 在测量层的体现：指标一旦成为目标就失去测量效力。
正确做法：先问”这个 benchmark 在测哪个构念，它是不是我真正关心的那个能力”，再问”它干不干净”。构念错了，干净也白搭。
真实反例：GPQA Diamond 上 AI 94% > PhD 专家 65%，但人类是无工具、限时、冷启动，四选一格式本身就和真实科研推理不同构——“超越博士”是构念错配，不是能力超越。

坑 3：把 LLM-as-Judge 当成”人工评测的廉价平替”，忽略它继承并放大了人的偏差

症状：为降本，直接用 GPT-4 当裁判替代人工标注，看到”与人一致率 85%“就放心上线。
为什么会错：85% 是原始一致率（percent agreement），不是扣除随机基线后的 κ。文献里 Judge 与人类的 κ 在各研究中约为 0.73–0.92，人类专家互评 κ 通常 0.85–0.97〔具体数字因任务与研究而异，待单一权威来源核实〕——关键在于原始一致率会系统性高于 κ（这是”κ 与原始一致率不等价”问题，详见坑外说明）。且裁判继承了位置/冗长/自我偏好偏差，并在自己答不对的难题上判别力崩到接近随机（JudgeBench, Tan et al., 2024，ICLR 2025）。
正确做法：(1) 报 κ 而非原始一致率；(2) 双向评测（AB 两序各评一次，仅计双向一致裁决，Zheng et al. 2023 推荐）；(3) 多厂商交叉裁判避免自我偏好；(4) 裁判能力须 ≥ 被测能力——弱模型不能可靠裁判强模型。
真实反例：Justice or Prejudice 的 CALM 框架（Ye et al., 2024，arXiv 2410.02736）系统量化 12 类裁判偏差；冗长攻击下 GPT-3.5/Claude-v1 失败率 91.3%——裸用 Judge 等于把偏差自动化。（CALM 量化偏差，与 JudgeBench 测裁判能力边界是两个独立工作，勿混。）

坑 4：把竞技场 Elo 当成”最贴近真实、不可被 game 的终极榜”

症状：认为 Arena 是真人投票、实时新 prompt，所以最抗污染、最可信，选型直接看 Arena 总榜排名。
为什么会错：Arena 把”静态污染”换成了”偏好 ≠ 质量 + 可刷榜”两个新漏洞。偏好与专家核查仅 72–83% 一致；私测+选择性披露+针对 Arena 分布特化（训练数据 0→70% 使 ArenaHard +112% 而 MMLU 降）让总榜可被系统性抬高。BT 模型的传递性假设还被大规模废弃模型破坏。
正确做法：看 Style-Controlled 榜而非默认榜；检查置信区间是否重叠（差 5–10 分往往无统计显著性）；警惕只披露最高分变体的厂商；把 Arena 当”一个信号源”而非”裁决”。
真实反例：Style Control 后 GPT-4o-mini 第 6→11〔方向已核实：2024-08 Style Control 博客确认 GPT-4o-mini 和 Grok-2-mini 在控制长度/markdown 后排名均显著下滑，具体名次待核实〕、Grok-2-mini 第 6→18〔待核实：排名数字未经独立来源确认〕——同一批投票、换个统计处理，排名就洗牌。

§7 跨域呼应：用拉卡托斯逼问”这次换靶子算不算进步”

库恩（Kuhn）给了我们读评测史的结构——范式因反常累积而更替，新旧不可通约。但库恩有个被科学哲学界反复批评的弱点：他无法区分”好的范式更替”和”坏的范式更替”，在他笔下范式选择近乎社会学事件、带相对主义气味。

这正是要调度 拉卡托斯（Imre Lakatos，《证伪与科学研究纲领的方法论》，1970） 的地方——他提供了库恩缺的裁判标准。拉卡托斯把研究纲领分为”硬核 + 保护带”：纲领是进步性的，当它的理论调整预言了新的、被后续证实的事实（增加经验内容）；是退化性的，当调整只是事后给反常打补丁（ad hoc，不增加可证伪内容）。

把这把尺子量评测六代，得到一个非平凡的判断网格：

进步性更替：第 1→2 代（任务正确率测到了语言指标测不到的推理/知识）；HELM 的多维扩展（测到了准确率维度之外的鲁棒/公平/毒性）。这些增加了经验内容。
退化性更替：MMLU→MMLU-Pro（4→10 选项，同构靶子加难度，未增新维度）；多数”更难版” benchmark（BBH→BBEH）——它们是保护带打补丁，硬核（“用静态题库测离散任务正确率”）没变，只是把被发现的漏洞糊上。

这个跨域调度具体改变了什么判断：它给了 PM 一个可操作的二分问题替代”分数比较”。当某厂商说”我们在最新最难的 benchmark X 上 SOTA”，拉卡托斯让你追问——X 相对前代是进步性的（新维度）还是退化性的（旧靶子+难度）？如果是后者，那个 SOTA 只证明了”该模型对这个新靶子还没被 game 的窗口期里跑得快”，不证明能力提升。这正是为什么本专题敢下”代际更替不等于越测越准”这个反共识赌注——它不是修辞，是拉卡托斯纲领评价标准的直接推论。

[!note] Rick 未读的对手框架（破 echo chamber）拉卡托斯本身就是引入的对手框架之一。第二个可对冲库恩相对主义的是测量学的”construct validity”传统（Cronbach & Meehl, 1955，心理测量学）——它主张任何测验分数的意义取决于它测的”构念”是否被理论与证据支持。评测圈长期把 benchmark 当”客观标尺”，而 construct validity 传统会反问：你凭什么说 MMLU 分数代表”语言理解”？这个传统正在被 AI 评测界重新发现（如 ‘Pitfalls of Evaluating Language Models with Open Benchmarks’, arXiv 2507.00460, 2025），它逼问的恰是坑 2 的根病。

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”你怎么看 XX 模型刷新了 YY benchmark”，不要复述分数。答：“先问这次换靶子是进步性还是退化性的——如果只是更难版的同构靶子，高分主要反映抗污染窗口期，不是能力跃迁。我更看它在 held-out 场景和 OOD 指标上掉多少。” 这一句话直接展示 S/A/E 三维。
选型会：建立”代际分层取证”原则——单一代际的分数都不可裸用。Benchmark 看降幅（MMLU vs MMLU-Pro 同一模型掉多少，掉得多说明原分靠记忆）；Arena 看 Style-Controlled 榜 + 置信区间；Agent 评测看 harness 是否统一、是否有答案泄漏审计。结论永远是多代际三角验证 + 自建黄金集（呼应 c14 的 500–1000 条黄金样本回归测试）。
复现台：跑任何 benchmark 前先做污染自检（Min-K%/n-gram），但别迷信检测——对 reasoning 模型，CoT 改变 token 概率分布会让统计检测信号失真（arXiv 2510.02386）。检测过关只是必要非充分，真正的 ground truth 是你自己造的、保证未泄漏的小评估集。

§9 与已有节点的关系（升级对照，不复述其事实基础）

对照 c14——做”抽象层升高”：c14 停在”防御 Goodhart”（自建黄金集、识别 benchmark 通胀、Judge 三偏差缓解），是单点的工程防御。本节点把 c14 的所有防御对象（污染、Judge 偏差、Arena gaming）放进一条代际时间轴，给出 c14 没有的元判断：这些防御本质上都是”换靶子买时间”，根病是构念效度而非污染。c14 回答”怎么防”，G01 回答”为什么防不住、防的是哪一代的什么病”。
对照 m205——做”代际定位”：m205 的 RAGAS 四维（Faithfulness/Answer Relevancy/Context Precision/Context Recall）属于本图的第 4 代 LLM-as-Judge 范式（RAGAS 用 LLM 打分）。G01 补 m205 没说的：RAGAS 因此继承了 §3/§6 坑 3 的全部裁判偏差，四维分数不可裸信，需配人工黄金集校准。
对照 m207——做”谱系归位”：m207 的 Agent 七维评估 + SWE-bench/WebArena/GAIA/τ-bench 基准，正是本图第 6 代。G01 给 m207 的列举式指标补上”它在谱系里继承了什么病”——答案泄漏、脚手架混淆、harness 不统一。
对照 Cohen Kappa 系数——做”用法升级”：Kappa 卡片是纯统计工具解释。G01 把它嵌进第 3 代人工评测和第 4 代 Judge 的可靠性论证里——κ 是揭穿”85% 原始一致率”可能虚高（原始一致率 ≠ 扣除随机基线后的 κ）的关键工具，也是量化两个 Judge 模型 inter-rater reliability 的手段。
对照 G01 Agent 代际谱系总图——做”同构方法论复用”：0411 Agent 专题的 G01 是 Agent 能力的代际总图；本 G01 是评测范式的代际总图。两者共享同一方法论骨架（库恩+拉卡托斯读代际、每代配反例、拒绝线性进步史），是跨专题的结构呼应——可对照阅读以理解”代际谱系总图”这一节点体裁本身。

§10 关联节点

核心（必读）

c14 - 模型评估体系与 Goodhart 陷阱 — 本节点的单点工程版前身，Goodhart 防御
Cohen Kappa 系数 — 第 3/4 代可靠性论证的统计底座
m205 - RAG 生产环境：索引运维与评估体系 — RAGAS 属第 4 代，需用本图定位偏差
m207 - Agent 产品化：场景推演与失败模式 — Agent 七维评估属第 6 代
范式 — 库恩范式更替框架，本节点结构骨架
A06 Goodhart 与指标失效 — 本图”根病=构念效度/Goodhart”的概念辨析底座（§0、坑 2）
A03 Benchmark 与数据污染 — 第 2 代污染/饱和双杀的专论（§2）
A04 LLM-as-Judge — 第 4 代裁判偏差的专论（§3、坑 3）

延伸（可选）

A05 人工评测与标注一致性 — 第 3 代 IAA/κ 与专家级一致率天花板专论（§3）
E03 Chatbot Arena·LMArena & 人类偏好评测剖解 — 第 5 代 Arena gaming 的实例剖解（§4、坑 4）
E02 SWE-bench & Coding Agent 评测剖解 — 第 6 代 Agent 轨迹评测的实例剖解（§5）
S01 评测体系分层剖面 — 各代际”怎么用”的解剖学剖面（与本图的纵向时间维互补）
c13 - 幻觉的不可消除性 — 校准失准是评测工具的前提性挑战，Judge 自身也有校准问题
c11 - System 2 思维与 Test-Time Compute — PRM 把”推理质量”纳入评估目标，是评测从终点到过程的升级
Agent 产品评估的五个具体问题 — 第 6 代 Agent 评测的 PM 实操版
Rick 写作 SABCD 评级体系 — 人文 rubric 设计案例，“按体裁分轨”≈AI 评测”按任务分轨”
G01 Agent 代际谱系总图 — 同构方法论的姊妹总图
AI概念滥用反思 — saliency 漂移作为 Judge 系统性误判来源的实例
AI PM 知识图谱·总索引 — 全库入口

修订日志

R0（2026-06-06，初稿）：建立六代谱系总图（静态语言指标→任务 benchmark→人工偏好→LLM-as-Judge→竞技场 Elo→Agent 轨迹）。确立”范式更替+纲领退化”双框架（§0、§7），核心赌注=代际更替≠越测越准、根病=构念效度。判断主轴 4 坑全部配齐”症状→为什么错→正确做法→真实反例”四件套（§6）。接入对手立场：LMArena 对 Leaderboard Illusion 的反驳做”接受+边界”回应（§4）。跨域：库恩（结构）+拉卡托斯（裁判标准）具体展开如何改变 PM 对”新 benchmark SOTA”的判断（§7），并引入 construct validity 测量学传统作第二个对手框架。与 c14/m205/m207/Cohen Kappa/0411-G01 写显式升级对照（§9）。
R1（2026-06-07，第 1 轮批评后修订，事实接地为主）：
- mustFix #1（一票否决项）：删除 §6 坑 3、§9 中无法追溯来源的裸 κ 数字（κ=0.84 vs κ=0.97），改为带范围且标〔待核实〕的表述（Judge κ 约 0.73–0.92，人类专家互评 κ 约 0.85–0.97），并把论证锚点从”具体数字”移到”原始一致率 ≠ 扣随机基线的 κ”这一机制。§3 中 MT-Bench 的”85%/81% 一致率”改为忠实原论文口径——“原始一致率 >80%“，明确它是 percent agreement 而非 κ。
- mustFix #2：GSM1K 污染差距由”最多 13 个百分点”改为忠于原文（Zhang et al., arXiv 2405.00332, 2024）的”最多 8 个百分点”。
- mustFix #3：全文 JudgeBench 作者归属由误标的”Ye et al., 2024”更正为”Tan et al., 2024，arXiv 2410.12784，ICLR 2025”（§1 表 / §3 / §6 坑 3 同步改），并显式区分 JudgeBench（测裁判能力边界）与 Justice or Prejudice 的 CALM 框架（Ye et al., 2024，arXiv 2410.02736，量化 12 类偏差）是两个独立工作。
- mustFix #4：§5 SWE-bench Pro 数字由失真的”Claude Mythos Preview 45.9%、差约 48 点”更新为”约 77.8%、差约 16 点”，并保留〔待核实〕；论证方向（Pro 因跨文件/长上下文系统性更难）不变。
- shouldFix #1：§4 删除来源不明的”Singh 50–100 分 Elo 虚高估计”，改为精确转述 Singh 原文主报告的 ArenaHard +112% 效应，并把 LMArena 反驳具体化为三点（私测实际约 +11 Elo / 50 次测试·3000 票、政策自 2024-03 公开、开放权重占比 40.9%），来源标为 arena.ai 官方博客 2025。
- shouldFix #2：§3 与 §1 表中”64–68%/72–75%“专家级 IAA 裸数字改为方向性描述并标〔示意/待核实〕。
- shouldFix #3：§3 重新定位 Kappa Paradox——明确它是”κ 与原始一致率可能不等价”的证据，而非对某具体数字的直接支撑，消除与”原始一致率虚高”的机制混淆。
- shouldFix #4：‘Emperor’s New Clothes’ 发表场所由”ICML 2025”精确为”DATA-FM @ ICLR 2025 / ICML 2025 poster（arXiv 2503.16402）”（§2、§6 坑 1 同步）。
- shouldFix #5：§2 消除”Zhao et al.（2024，ACL 2025）“年份/会议自相矛盾——改为 TS-Guessing 实验（Deng & Zhao 系），发表场所标〔待核实，早期版本接近 NAACL 2023 谱系〕。
- groundingFlag（CoT 效应）：§6 坑 2 的”-3%~+1.5% / +15–19%“裸区间改为方向性表述并标〔多文献综合·示意〕。
- shouldFix #6（双链密度）：§10 新增 7 条专题内横切双链（A03/A04/A05/A06/E02/E03/S01），双链总数升至约 19 条，满足非总览节点 ≥15。
- shouldFix #7（死链核验，对照 00Meta 文件名）：✅ Cohen Kappa 系数（带空格，存于 0401AI 基础知识库）、✅ AI概念滥用反思（无空格，存于 04AI 根）、✅ G01 Agent 代际谱系总图（带空格，存于 0411 专题）、✅ 范式（存于 01学习/0110哲学）均真实存在，无死链；新增的 A0x/E0x/S01 链接指向同批 0412 专题节点（已在 _ai_review 暂存，入库时随专题一并 resolve）。HELM/GPQA/MMLU 暂无独立节点，故改用专题内同主题节点承载链接密度，未硬造死链。
- 遗留〔待核实〕：SWE-bench Pro 分值与模型正式代号；GPQA 2026 初 94%+ 来源时点；专家级 IAA 与 CoT 效应的单一权威数值来源；TS-Guessing 实验的确切发表年份/会议；Judge/人类互评 κ 的单一权威区间来源。以上均已在正文降级措辞并标注，不以裸事实留存。