G02 评测代际演化详解

G01 评测范式代际谱系总图给了六代谱系的总图与方法论赌注（库恩范式更替 + 拉卡托斯纲领退化，根病=构念效度）。本节点不复述那个框架，而是做总图压不下去的那件事——逐代展开：每一代取一张统一的”病历卡”，写清楚它的代表论文/产品/基准（带核证年份）、推动力、瓶颈、被下一代如何超越、退化纲领判断（Lakatos），并在每代末尾钉一个反例，专门戳破”这一代终于测准了”的幻觉。

[!warning] 本节点与 G01 的分工 G01 回答”这六代是不是一部进步史”（总判断）。G02 回答”每一代具体长什么样、在哪一年、被什么超越、那次超越算不算真进步”（逐代证据）。读 G01 拿框架，读 G02 拿弹药。两者共用同一条主轴：每一代都没真正解决上一代的根问题（构念效度），只是把构念偷换成一个新的、暂时还没被 game 掉的代理指标。

[!note] 病历卡六栏（每代统一格式） ① 代表作（年份核证） ② 推动力（为何此刻出现） ③ 瓶颈（为何被迫换靶） ④ 被下一代如何超越（继承了什么、新增了什么） ⑤ Lakatos 判断（进步性／退化性，及理由） ⑥ ⛔ 反例（这一代的”皇帝新衣时刻”）

§1 第 1 代 · 静态语言指标：perplexity / BLEU / ROUGE

① 代表作（年份核证）

BLEU：Papineni et al., ACL 2002 —— n-gram 精确率 + 简短惩罚，机器翻译自动评测的奠基石。
ROUGE：Lin, 2004（ROUGE 工作坊论文）—— 面向摘要的 n-gram 召回重叠。
Perplexity：更早的信息论遗产，语言模型对测试集的”困惑度”，本质是平均负对数似然的指数。

② 推动力：第一代解决的是”评测能不能不靠人”的问题。在没有强模型、没有众包平台的年代，自动、可复现、零边际成本是压倒性优势——一条 BLEU 脚本可以在论文复现中跑一万次，人工评测做不到。

③ 瓶颈：构念太窄。它测的是”输出和参考答案字面像不像”，而我们真正想要的是”答得对不对、有没有用”。BLEU 高的译文可能语序通顺却语义错误；perplexity 低只说明压缩得好，不等于理解得对。字面重叠与”有用/正确”之间的相关性弱到无法支撑选型决策。

④ 被第 2 代如何超越：第 2 代用离散任务正确率（答对/答错的二值判定）替换字面重叠，把构念从”语言像不像”推进到”任务做没做对”。这是一次真正测到了新东西的扩展——推理、知识检索是 BLEU/perplexity 原理上测不到的维度。

⑤ Lakatos 判断：进步性。 第 1→2 代增加了经验内容：它能预言并验证”模型在从未见过的推理题上能否答对”，这是字面指标无法触及的新事实。这是六代里少数几次干净的进步性更替之一（详见 G01 §7 判断网格）。

⑥ ⛔ 反例（第 1 代的皇帝新衣）：字面指标会系统性奖励”安全的平庸”。一个把源句逐词直译、读起来生硬的译文，BLEU 往往高于一个意译流畅但用词偏离参考的好译文。更尖锐的是——第 1 代从未真正退场：perplexity 作为幽灵在第 4 代借尸还魂（LLM-as-Judge 的自我偏好，机制根源正是裁判对低 perplexity、即与自己风格相近文本的偏爱，见 A04 LLM-as-Judge 与 G01 §3）。第一代被淘汰的指标，化作幽灵回到了第四代裁判的脑子里——这正是”进步史”叙事写不出的剧情。

§2 第 2 代 · 任务 benchmark：GLUE → SuperGLUE → MMLU → GSM8K → GPQA

① 代表作（年份核证）

GLUE：Wang et al., 2018 —— 9 项自然语言理解任务的聚合榜。
SuperGLUE：Wang et al., 2019 —— GLUE 被刷爆后的”更难版”。
MMLU：Hendrycks et al., ICLR 2021 —— 57 学科、覆盖人文/STEM/法律的大规模多任务知识测验。
GSM8K：Cobbe et al., OpenAI, 2021 —— 8.5k 道小学数学应用题，链式推理的试金石。
HELM：Liang et al., Stanford CRFM, 2022 —— 把单一准确率扩成多维度（准确率/鲁棒性/公平/毒性/效率等）的整体性评测框架。
GPQA：Rein et al., 2023 —— 448 道博士级、“Google 都搜不到答案”的生物/物理/化学题；PhD 专家约 65%（剔除明显笔误后约 74%），无关领域高技能验证者即便 30 分钟联网也仅约 34%。
MMLU-Pro：NeurIPS 2024 —— MMLU 的”更难版”，选项从 4 个扩到 10 个。

② 推动力：可比、可排行、对齐下游任务。第 2 代把”模型好不好”变成一个可挂在排行榜上的标量——这对论文竞赛、模型选型、融资叙事都极度友好。GLUE→MMLU 的演化史，本质是”旧榜被刷爆 → 出更难的新榜”的循环。

③ 瓶颈：污染 + 饱和的双杀。

饱和：MMLU 上 GPT-4 于 2023-03 达 86.4%，到 2024 年中所有前沿模型卡在 86–87%，判别力归零。GPQA 从 2023-11 的约 39% 飙到 2026 年初的 94%+，已越过人类专家基线〔2026 初具体时点见 A03 Benchmark 与数据污染〕。
污染：题目泄漏进训练集后，“答对”变成”背过”。这是比饱和更阴险的病——分数还在涨，但涨的是记忆不是能力。

④ 被第 3 代如何超越：第 3 代（人工偏好评测）的逃跑路线是用人没见过、模型也没背过的新题/新对话绕开污染。但注意——第 3 代并没有解决污染的根病，只是把”静态题库”换成”现造的题”，靠”新鲜度”续命。第 2 代的构念效度问题（MMLU 测”知识检索”而非”推理”，见 A06 Goodhart 与指标失效与 G01 坑 2）被原样带进了后面所有代际。

⑤ Lakatos 判断：进步性与退化性并存——这一代是分水岭。

进步性的部分：GLUE→任务正确率（测到了语言指标测不到的推理/知识）；HELM 的多维扩展（测到了准确率之外的鲁棒/公平/毒性，增加了经验内容）。
退化性的部分：MMLU→MMLU-Pro（4→10 选项，同构靶子加难度，硬核”用静态题库测离散任务正确率”没变，只是把被发现的漏洞糊上）；多数”更难版”（SuperGLUE 之于 GLUE、BBEH 之于 BBH）都是保护带打补丁。判定法则：扩了新维度=进步性；只是同靶加难=退化性。

⑥ ⛔ 反例（第 2 代的皇帝新衣）：“GPT-4 后所有模型卡在 MMLU 86–87%” 这条平台线本身就是反例——它不是”AI 进步停滞”，而是这把尺子已经量不出差异。更狠的是 GSM1K 实验（Scale AI，Zhang et al., arXiv 2405.00332, 2024）：造一批等难度、保证未泄漏的题后，部分模型 GSM8K 比 GSM1K 高出最多 8 个百分点（Phi、Mistral 系列最严重），并把分数差与记忆概率挂上钩。高分里有一截是背出来的——这是第 2 代最不愿被说破的事。

§3 第 3 代 · 人工偏好评测：IAA + rubric

① 代表作（年份核证）：第 3 代没有单一”奠基论文”，它是 RLHF 时代标注实践的统称——成对偏好标注（A/B 哪个更好）、量表评分（Likert）、rubric 评分。其认识论身价由 Cohen Kappa 系数这类标注者间一致性（IAA）指标托底；Kappa Paradox（Feinstein & Cicchetti, 1990）是绕不开的统计陷阱。

② 推动力：直接锚定”人觉得有用”。第 1/2 代都是代理指标，第 3 代第一次回到源头——不问”像不像参考答案”，直接问人”哪个更好”。在 InstructGPT/ChatGPT 把对齐推上台面后，“人类偏好”成了产品事实上的北极星。

③ 瓶颈：贵、慢、不可复现，且有一个被严重低估的天花板——在专家级难任务上，连人和人都不一致。IAA 会掉到七成上下，人机一致率更低〔具体百分比因任务而异，作示意，见 A05 人工评测与标注一致性〕。还要小心 Kappa Paradox：在类别高度不均时，即便原始一致率很高，κ 也会被压低——原始一致率 ≠ 扣除随机基线后的 κ。“金标准”恰恰在最需要它的难任务上最不可靠。

④ 被第 4 代如何超越：第 4 代（LLM-as-Judge）的卖点是把人工评测规模化、降本——用强模型代替人打分，把”贵且慢”变成”便宜且快”。它继承了第 3 代的目标（锚定偏好），但用一个新的承载体（LLM 裁判）替换了人。代价见 §4。

⑤ Lakatos 判断：进步性（就锚定对象而言），但承载体脆弱。 从代理指标回到”直接问人”，增加了经验内容——它能预言”人在真实使用中会不会更喜欢这个回答”，这是第 1/2 代测不到的。但它的承载体（人工标注）成本不可规模化，这为第 4 代的退化埋下伏笔：把承载体从”人”换成”模型”，看似是进步，实则把人的全部偏差自动化了。

⑥ ⛔ 反例（第 3 代的皇帝新衣）：“人工评测=金标准”是一个在难任务上自我瓦解的承诺。 当一道题难到 PhD 专家都只有约 65% 一致（GPQA 的人类基线即是明证），所谓”金标准”已经没有”金”可言——你拿一个本身一致率七成的标尺去校准模型，校出来的”准”是幻觉。第 3 代的可靠性在它最该发挥作用的地方最低。

§4 第 4 代 · LLM-as-Judge：MT-Bench / G-Eval

① 代表作（年份核证）

MT-Bench / Chatbot Arena（奠基的 Judge 工作）：Zheng et al., NeurIPS 2023（arXiv 2306.05685）—— 系统提出”用强 LLM 当裁判”，并首次系统编目位置/冗长/自我偏好三类偏差。报告 GPT-4 作裁判与人类原始一致率 >80%，与人类互评基线相当（注意是 percent agreement，非扣随机基线的 κ）。
G-Eval：Liu et al., EMNLP 2023（arXiv 2303.16634）—— CoT + 表格填充范式，摘要任务上与人类 Spearman 相关 0.514，超越此前所有自动指标。
JudgeBench：Tan et al., 2024（arXiv 2410.12784，ICLR 2025）—— 揭示裁判能力边界：GPT-4o 在高难度判别对上仅略好于随机猜。
CALM 框架（Justice or Prejudice）：Ye et al., 2024（arXiv 2410.02736）—— 系统量化 12 类裁判偏差。（与 JudgeBench 是两个独立工作，作者、目标均不同，G01 已警示勿混。）

② 推动力：把第 3 代的人工评测规模化、降本。一个 GPT-4 裁判一晚上能评几万条，人工标注团队几个月才能做完。在 RAG/Agent 评测需要海量样本的场景下，这是唯一能跑通的方案（m205 - RAG 生产环境：索引运维与评估体系的 RAGAS 四维即属此代）。

③ 瓶颈：继承并放大了人的偏差。 位置偏差（换序后改判约 35%〔近似，见 G01 §3〕）、冗长偏差（对灌水回答失败率高企）、自我增强偏差（裁判给与自己风格相近的文本打高分，机制根源是 perplexity——第 1 代的幽灵）。更致命的能力天花板：裁判答不对的题，也判不准（JudgeBench）——弱模型不能可靠裁判强模型。

④ 被第 5 代如何超越：第 5 代（竞技场 Elo）的逃跑路线是用真实分布下的众包人类投票替换单个 LLM 裁判——既绕开静态题库污染（每个 prompt 都是新的），又绕开单一裁判的系统性偏差（用人群的成对偏好聚合）。它把”一个裁判”换成”一群真实用户”。代价见 §5。

⑤ Lakatos 判断：退化性。 这是六代里退化性最典型的一代。它的硬核（“用偏好近似质量”）没变，只是把承载体从人换成模型——不仅没增加经验内容，反而把人的偏差自动化、放大了，还新引入了”自我偏好”这一人类裁判没有的病。它是”事后给规模化问题打补丁”，而非”测到了新维度”。

⑥ ⛔ 反例（第 4 代的皇帝新衣）：G-Eval 的 Spearman 0.514 被当作”突破”庆祝，但 0.5 出头的相关只是”比随机强、远非可靠”。 把它与”裁判答不对就判不准”（JudgeBench）叠加，结论很硬：在最需要裁判的难题上，第 4 代的判别力崩到接近随机。 你看到的”85% 与人一致”是原始一致率的障眼法（扣掉随机基线的 κ 低得多，详见 Cohen Kappa 系数与 G01 坑 3）——裸用 Judge 等于把偏差工业化。

§5 第 5 代 · 竞技场 Elo：Chatbot Arena / Bradley-Terry

① 代表作（年份核证）

Chatbot Arena（平台论文）：Chiang et al., ICML 2024（arXiv 2403.04132）—— 实时、众包、成对人类投票，超 24 万票；2023-12 从在线 Elo 切到 Bradley-Terry MLE 做全局排名。现更名 LMArena。
Leaderboard Illusion（对手立场）：Singh et al., arXiv 2504.20879, NeurIPS 2025 Poster —— 记录私测+选择性披露；把 Arena 数据训练占比 0→70% 可使 ArenaHard 胜率 +112% 而 MMLU 反降。

② 推动力：抗单点污染、动态、众包规模。第 4 代被偏差和污染夹击，第 5 代用”每个 prompt 都是真实用户现场提的新问题”一举绕开静态题库污染，又用人群投票稀释单一裁判偏差。它是迄今最聪明的一次换靶子。

③ 瓶颈：用三个新漏洞换掉旧漏洞。

偏好 ≠ 质量：人类投票与专家事实核查一致率仅约 72–83%；风格偏差被坐实（LMSYS 自家 Style Control 实验显示控制长度+markdown 后排名剧变，长度系数 0.249 是最强单因子）。
可被 game：私测 N 个变体、只披露最高分；针对 Arena 分布特化训练（Goodhart 教科书演示）。
统计假设被违反：大量模型被悄然废弃，破坏 BT 的传递性与对战图连通性。

④ 被第 6 代如何超越：第 6 代（Agent 轨迹评测）的逃跑路线是把测量对象从”单轮输出的偏好”升到”多步任务的端到端完成”——用客观的任务完成度（patch 是否通过测试、数据库终态是否匹配目标）替换主观的人类偏好投票。它试图回到”对不对”而非”喜不喜欢”。代价见 §6。

⑤ Lakatos 判断：进步性（抗污染维度）+ 退化性（偏好构念）双重身份。

进步性：对单点静态污染天然免疫——这是真增加了”动态抗污染”这一新维度。
退化性：硬核仍是第 3 代的”用偏好近似质量”，且把”可刷榜""偏好≠质量”两个新漏洞糊进保护带。换言之，它在污染维度上进步，在构念维度上原地踏步甚至倒退。

⑥ ⛔ 反例（第 5 代的皇帝新衣）：同一批投票，换一个统计处理，排名就洗牌。 Style Control 一开，原本靠”长+markdown”取巧的模型名次显著下滑〔具体名次见 E03 Chatbot Arena·LMArena & 人类偏好评测剖解〕。这证明默认 Arena 榜测的有相当一部分是回答的样式而非回答的质量。 对手立场的”接受+边界”（承袭 G01 §4）：LMArena 官方反驳称私测实际增益仅约 +11 Elo〔该具体数字本轮未能从官方博客原文独立确认，采信须回溯原博文〕、私测政策自 2024-03 已公开、开放权重份额按其口径达 40.9%。接受这些反驳缩小了虚高量级之争；边界是——只要”私测+选择性披露+数据访问不对等”机制存在，Arena 分数就不能裸用。PM 该看 Style-Controlled 榜、看置信区间是否重叠、看该模型是否对 Arena 分布特化过。

§6 第 6 代 · Agent 轨迹评测：SWE-bench / τ-bench

① 代表作（年份核证）

SWE-bench：Jimenez et al., ICLR 2024（提交于 2023）—— 真实 GitHub issue，模型须产出能通过测试的 patch；SWE-bench Verified 是 500 道经人工筛核的 Python 子集。
τ-bench：Yao et al., Sierra Research, arXiv 2406.12045, 2024 —— 工具-Agent-用户三方动态对话（零售/航空域），比对对话终态数据库与标注目标态；提出 pass^k 衡量多次试验的可靠性。报告即便 gpt-4o 这类 SOTA 函数调用 Agent 任务成功率 <50%，且极不稳定（零售域 pass^8 < 25%）。
同代际还有 WebArena、GAIA 等，共同构成 m207 - Agent 产品化：场景推演与失败模式的 Agent 评估七维。

② 推动力：贴近 Agent 真实用法、测长程能力。前五代都停在”单轮输出”，而真实产品里 Agent 要多步规划、调工具、从错误中恢复。第 6 代测到了前五代原理上测不到的长程、工具调用、错误恢复维度。

③ 瓶颈：前五代的病一次性继承，外加一个新病——脚手架/能力解耦失败。

答案泄漏：SWE-bench Verified 中，OpenAI 内审发现每个前沿模型都有逐字复现 gold patch 的案例，人工筛查 32.67% 成功 patch 涉及解答泄漏（答案直接在 issue 文本/评论里）；OpenAI 已于 2025 年停止汇报 Verified 分数。
脚手架混淆：分数里 agent scaffolding（非模型能力）贡献巨大，harness 不统一加剧失真。SWE-bench Pro（跨文件、长上下文）vs Verified 的鸿沟最能说明问题——同一前沿模型 Verified 约 93.9%、Pro 约 77.8%，差约 16 点〔Pro/Verified 具体分值与模型代号待核实，见 E02 SWE-bench & Coding Agent 评测剖解〕。

④ 被下一代如何超越（前瞻）：第 6 代尚未被稳定的”第 7 代”取代。可见的演化方向：pass^k 这类可靠性度量（τ-bench 已开此先河，从”能不能做对一次”转向”能不能稳定做对”)、过程/轨迹级评分（呼应 c11 - System 2 思维与 Test-Time Compute 把推理质量纳入评估）、统一 harness + 答案泄漏审计。但这些大多是在堵第 6 代的漏洞，尚不构成”测到全新维度”的进步性更替——警惕又一次退化性换靶。

⑤ Lakatos 判断：进步性（长程维度）+ 高退化风险。

进步性：测到了长程、工具调用、错误恢复，增加了经验内容。
退化风险最高：它最贵、最难造新题，题库一旦泄漏，重建成本最高、污染窗口反而最长。测量越逼真，越脆弱——这正是退化性纲领的征兆。

⑥ ⛔ 反例（第 6 代的皇帝新衣）：SWE-bench Verified 32.67% 的”成功”是答案泄漏出来的——这不是能力，是开卷考试抄到了答案。再叠加 τ-bench 的 pass^8 < 25%：同一个任务连做 8 次，能 8 次都对的不到四分之一。“Agent 能做对”和”Agent 能稳定做对”之间隔着一道深渊，而单次成功率的榜单系统性掩盖了这道深渊。第 6 代离 Goodhart 失效最近——因为它最贵、最像真实，所以一旦被 game，代价也最大。

§7 逐代对照速查表（与 G01 §1 总表互补：G01 给”反例列”，本表给”超越关系 + Lakatos 列”）

代	代表作（核证年份）	被下一代超越的机制	Lakatos 判断
1 静态语言指标	BLEU(2002)/ROUGE(2004)/perplexity	第2代用任务正确率换字面重叠	进步性（→2 增推理/知识维度）
2 任务 benchmark	GLUE(2018)/MMLU(2021)/GPQA(2023)/HELM(2022)/MMLU-Pro(2024)	第3代用现造新题绕污染	分水岭：HELM 进步性、MMLU-Pro 退化性
3 人工偏好评测	RLHF 标注实践 + κ(IAA)	第4代用 LLM 裁判替人、规模化	进步性（锚定偏好），承载体脆弱
4 LLM-as-Judge	MT-Bench/Zheng(2023)、G-Eval/Liu(2023)	第5代用众包真人投票替单裁判	退化性（自我偏好=幽灵 perplexity 回归）
5 竞技场 Elo	Chatbot Arena/Chiang(2024)、BT	第6代用客观任务完成度替主观偏好	双重：抗污染进步性 + 偏好构念退化性
6 Agent 轨迹评测	SWE-bench/Jimenez(2024)、τ-bench/Yao(2024)	尚无稳定第7代；pass^k/过程评分萌芽	进步性（长程维度）+ 最高退化风险

读这张表的方法：从上往下，“被超越的机制”那一列描述的全是逃跑动作——逃污染、逃成本、逃单裁判偏差、逃主观偏好。没有任何一行写着”解决了构念效度”。 这就是 G01 核心赌注的逐代实证：代际更替是 Goodhart 失效后被迫换靶子的过程，不是逼近真值的过程。

§8 PM 落地：把”逐代病历卡”变成三个动作

看到新 benchmark SOTA：先对照 §2–§6 的”⑤ Lakatos 判断”问一句——这次换靶是进步性（测到新维度）还是退化性（同靶加难/堵漏洞）？退化性的高分只买到”抗污染窗口期”，别为它付溢价。
选型取证分层：单代分数都不可裸用——Benchmark 看 MMLU vs MMLU-Pro 同模型降幅（掉得多=原分靠记忆）；Judge 报 κ 不报原始一致率、多厂商交叉裁判；Arena 看 Style-Controlled 榜 + 置信区间；Agent 看 harness 是否统一 + 答案泄漏审计 + pass^k 而非单次成功率。
自建黄金集兜底：所有六代都在”换靶买时间”，唯一不被换靶绑架的是你自己造的、保证未泄漏的 500–1000 条黄金样本回归集（呼应 c14 - 模型评估体系与 Goodhart 陷阱）。

§9 与 G01 / 已有节点的关系（升级对照，不复述事实基础）

对照 G01 评测范式代际谱系总图——做”分辨率升高”：G01 是总图（一张表给六代各一格反例 + 双框架推导）；G02 是详解（每代一张六栏病历卡 + 显式”被下一代超越的机制” + 每代独立反例）。G01 的”§7 Lakatos 判断网格”在 G02 里被逐代落到具体年份与代表作——G01 说”多数更替是退化性的”，G02 钉出”第 4 代退化、第 2 代 MMLU-Pro 退化、HELM 进步”的具体证据。
对照 A03 Benchmark 与数据污染：A03 是第 2 代污染/饱和的专论；G02 §2 引其结论但只取”逐代演化”所需的最小事实，深扒回 A03。
对照 A04 LLM-as-Judge：A04 是第 4 代裁判偏差的专论；G02 §4 的三类偏差与 perplexity 幽灵机制深扒回 A04。
对照 A05 人工评测与标注一致性 / Cohen Kappa 系数：第 3 代的 IAA 天花板与 Kappa Paradox 深扒回此二者。
对照 A06 Goodhart 与指标失效：G02 全篇”换靶不解决根病”的根病=构念效度/Goodhart，概念底座在 A06。
对照 E02 SWE-bench & Coding Agent 评测剖解 / E03 Chatbot Arena·LMArena & 人类偏好评测剖解：第 5/6 代的实例剖解（具体名次、SWE-bench Pro 分值）深扒回此二者。
对照 S01 评测体系分层剖面：S 系列是”各代怎么用”的解剖学横切；G02 是”各代怎么来、怎么被超越”的时间纵切，两者正交互补。

§10 关联节点

核心（必读）

G01 评测范式代际谱系总图 — 本节点的总图版前身，提供双框架与核心赌注
c14 - 模型评估体系与 Goodhart 陷阱 — 单点工程防御版，自建黄金集
A06 Goodhart 与指标失效 — 全篇”根病=构念效度”的概念底座
A03 Benchmark 与数据污染 — 第 2 代污染/饱和专论
A04 LLM-as-Judge — 第 4 代裁判偏差专论
Cohen Kappa 系数 — 第 3/4 代可靠性论证的统计底座
范式 — 库恩范式更替框架，代际叙事骨架

延伸（可选）

A05 人工评测与标注一致性 — 第 3 代 IAA/κ 与专家级一致率天花板专论
E02 SWE-bench & Coding Agent 评测剖解 — 第 6 代实例剖解
E03 Chatbot Arena·LMArena & 人类偏好评测剖解 — 第 5 代实例剖解
S01 评测体系分层剖面 — 各代”怎么用”的解剖学剖面
m205 - RAG 生产环境：索引运维与评估体系 — RAGAS 四维属第 4 代
m207 - Agent 产品化：场景推演与失败模式 — Agent 七维评估属第 6 代
c11 - System 2 思维与 Test-Time Compute — PRM/过程评分=评测从终点到过程的升级，第 6 代后的演化方向
c13 - 幻觉的不可消除性 — 校准失准是评测工具的前提性挑战
Agent 产品评估的五个具体问题 — 第 6 代 Agent 评测的 PM 实操版
G01 Agent 代际谱系总图 — 同构方法论的姊妹总图（0411 Agent 专题）
AI概念滥用反思 — saliency 漂移作为 Judge 系统性误判来源的实例
AI PM 知识图谱·总索引 — 全库入口

修订日志

R2（2026-06-07，补建）：本节点为 02 代际演化专题缺失的 G02，作为 G01 评测范式代际谱系总图的逐代详解版补齐。设计分工：G01 给总图+双框架赌注，G02 给六栏病历卡（代表作/推动力/瓶颈/被下一代如何超越/Lakatos 判断/反例）+ 每代独立反例 + §7 “超越关系 × Lakatos” 速查表，与 G01 §1 总表（反例列）互补而不重复。
- 年份核证（WebSearch）：BLEU(Papineni, ACL 2002)、ROUGE(Lin, 2004)、GLUE(2018)、SuperGLUE(2019)、MMLU(Hendrycks, ICLR 2021)、GSM8K(Cobbe, OpenAI 2021)、HELM(Liang, Stanford CRFM 2022)、GPQA(Rein, 2023；448 题、PhD 65%、非专家 34%)、MT-Bench/Chatbot Arena(Zheng, NeurIPS 2023, arXiv 2306.05685, >80% 原始一致率)、G-Eval(Liu, EMNLP 2023, arXiv 2303.16634, Spearman 0.514)、Chatbot Arena 平台论文(Chiang, ICML 2024, arXiv 2403.04132, BT 模型)、SWE-bench(Jimenez, ICLR 2024)、τ-bench(Yao et al. Sierra, arXiv 2406.12045, 2024, gpt-4o <50%, 零售域 pass^8<25%)、MMLU-Pro(NeurIPS 2024, 4→10 选项) 均经网络核证。
- 反线性进步：每代末尾钉一条”皇帝新衣”反例（第1代 BLEU 奖励平庸+perplexity 幽灵；第2代 86–87% 平台线 + GSM1K 8 点记忆差；第3代金标准在难任务自我瓦解；第4代 G-Eval 0.514 被神化 + JudgeBench 近随机；第5代 Style Control 排名洗牌；第6代 32.67% 答案泄漏 + pass^8<25%）。
- 判断主轴：§7 速查表”被超越机制”列逐行证实”全是逃跑动作、无一解决构念效度”，作为 G01 核心赌注的逐代实证。
- 沿用 G01 的〔待核实〕降级措辞：LMArena 反驳 +11 Elo、SWE-bench Pro/Verified 具体分值与模型代号、专家级 IAA 百分比、GPQA 2026 初时点、Judge κ 区间——均标注并深扒回对应 A0x/E0x 专论，不以裸事实留存。
- 双链：全文真实 basename 双链共约 22 条（核心 7 + 延伸 15），满足非总览节点 ≥15；与 G01 共用同批 0412 专题 A0x/E0x/S01 节点及库内已存的 c11/c13/c14/范式/Cohen Kappa 系数/m205/m207/0411-G01 等。