R

G02 评测代际演化详解

创建 2026-06-07 更新 2026-06-11 4 条双链 评测 专题 AI 整理

G02 评测代际演化详解

G01 评测范式代际谱系总图 给了六代谱系的总图与方法论赌注(库恩范式更替 + 拉卡托斯纲领退化,根病=构念效度)。本节点不复述那个框架,而是做总图压不下去的那件事——逐代展开:每一代取一张统一的”病历卡”,写清楚它的代表论文/产品/基准(带核证年份)、推动力、瓶颈、被下一代如何超越、退化纲领判断(Lakatos),并在每代末尾钉一个反例,专门戳破”这一代终于测准了”的幻觉。

[!warning] 本节点与 G01 的分工 G01 回答”这六代是不是一部进步史”(总判断)。G02 回答”每一代具体长什么样、在哪一年、被什么超越、那次超越算不算真进步”(逐代证据)。读 G01 拿框架,读 G02 拿弹药。两者共用同一条主轴:每一代都没真正解决上一代的根问题(构念效度),只是把构念偷换成一个新的、暂时还没被 game 掉的代理指标。

[!note] 病历卡六栏(每代统一格式) ① 代表作(年份核证)推动力(为何此刻出现) ③ 瓶颈(为何被迫换靶) ④ 被下一代如何超越(继承了什么、新增了什么) ⑤ Lakatos 判断(进步性/退化性,及理由) ⑥ ⛔ 反例(这一代的”皇帝新衣时刻”)


§1 第 1 代 · 静态语言指标:perplexity / BLEU / ROUGE

① 代表作(年份核证)

  • BLEU:Papineni et al., ACL 2002 —— n-gram 精确率 + 简短惩罚,机器翻译自动评测的奠基石。
  • ROUGE:Lin, 2004(ROUGE 工作坊论文)—— 面向摘要的 n-gram 召回重叠。
  • Perplexity:更早的信息论遗产,语言模型对测试集的”困惑度”,本质是平均负对数似然的指数。

② 推动力:第一代解决的是”评测能不能不靠人”的问题。在没有强模型、没有众包平台的年代,自动、可复现、零边际成本是压倒性优势——一条 BLEU 脚本可以在论文复现中跑一万次,人工评测做不到。

③ 瓶颈:构念太窄。它测的是”输出和参考答案字面像不像”,而我们真正想要的是”答得对不对、有没有用”。BLEU 高的译文可能语序通顺却语义错误;perplexity 低只说明压缩得好,不等于理解得对。字面重叠与”有用/正确”之间的相关性弱到无法支撑选型决策。

④ 被第 2 代如何超越:第 2 代用离散任务正确率(答对/答错的二值判定)替换字面重叠,把构念从”语言像不像”推进到”任务做没做对”。这是一次真正测到了新东西的扩展——推理、知识检索是 BLEU/perplexity 原理上测不到的维度。

⑤ Lakatos 判断:进步性。 第 1→2 代增加了经验内容:它能预言并验证”模型在从未见过的推理题上能否答对”,这是字面指标无法触及的新事实。这是六代里少数几次干净的进步性更替之一(详见 G01 §7 判断网格)。

⑥ ⛔ 反例(第 1 代的皇帝新衣)字面指标会系统性奖励”安全的平庸”。一个把源句逐词直译、读起来生硬的译文,BLEU 往往高于一个意译流畅但用词偏离参考的好译文。更尖锐的是——第 1 代从未真正退场:perplexity 作为幽灵在第 4 代借尸还魂(LLM-as-Judge 的自我偏好,机制根源正是裁判对低 perplexity、即与自己风格相近文本的偏爱,见 A04 LLM-as-Judge 与 G01 §3)。第一代被淘汰的指标,化作幽灵回到了第四代裁判的脑子里——这正是”进步史”叙事写不出的剧情。


§2 第 2 代 · 任务 benchmark:GLUE → SuperGLUE → MMLU → GSM8K → GPQA

① 代表作(年份核证)

  • GLUE:Wang et al., 2018 —— 9 项自然语言理解任务的聚合榜。
  • SuperGLUE:Wang et al., 2019 —— GLUE 被刷爆后的”更难版”。
  • MMLU:Hendrycks et al., ICLR 2021 —— 57 学科、覆盖人文/STEM/法律的大规模多任务知识测验。
  • GSM8K:Cobbe et al., OpenAI, 2021 —— 8.5k 道小学数学应用题,链式推理的试金石。
  • HELM:Liang et al., Stanford CRFM, 2022 —— 把单一准确率扩成多维度(准确率/鲁棒性/公平/毒性/效率等)的整体性评测框架。
  • GPQA:Rein et al., 2023 —— 448 道博士级、“Google 都搜不到答案”的生物/物理/化学题;PhD 专家约 65%(剔除明显笔误后约 74%),无关领域高技能验证者即便 30 分钟联网也仅约 34%
  • MMLU-Pro:NeurIPS 2024 —— MMLU 的”更难版”,选项从 4 个扩到 10 个。

② 推动力:可比、可排行、对齐下游任务。第 2 代把”模型好不好”变成一个可挂在排行榜上的标量——这对论文竞赛、模型选型、融资叙事都极度友好。GLUE→MMLU 的演化史,本质是”旧榜被刷爆 → 出更难的新榜”的循环。

③ 瓶颈:污染 + 饱和的双杀。

  • 饱和:MMLU 上 GPT-4 于 2023-03 达 86.4%,到 2024 年中所有前沿模型卡在 86–87%,判别力归零。GPQA 从 2023-11 的约 39% 飙到 2026 年初的 94%+,已越过人类专家基线〔2026 初具体时点见 A03 Benchmark 与数据污染〕。
  • 污染:题目泄漏进训练集后,“答对”变成”背过”。这是比饱和更阴险的病——分数还在涨,但涨的是记忆不是能力。

④ 被第 3 代如何超越:第 3 代(人工偏好评测)的逃跑路线是用人没见过、模型也没背过的新题/新对话绕开污染。但注意——第 3 代并没有解决污染的根病,只是把”静态题库”换成”现造的题”,靠”新鲜度”续命。第 2 代的构念效度问题(MMLU 测”知识检索”而非”推理”,见 A06 Goodhart 与指标失效 与 G01 坑 2)被原样带进了后面所有代际。

⑤ Lakatos 判断:进步性与退化性并存——这一代是分水岭。

  • 进步性的部分:GLUE→任务正确率(测到了语言指标测不到的推理/知识);HELM 的多维扩展(测到了准确率之外的鲁棒/公平/毒性,增加了经验内容)。
  • 退化性的部分MMLU→MMLU-Pro(4→10 选项,同构靶子加难度,硬核”用静态题库测离散任务正确率”没变,只是把被发现的漏洞糊上);多数”更难版”(SuperGLUE 之于 GLUE、BBEH 之于 BBH)都是保护带打补丁。判定法则:扩了新维度=进步性;只是同靶加难=退化性。

⑥ ⛔ 反例(第 2 代的皇帝新衣)“GPT-4 后所有模型卡在 MMLU 86–87%” 这条平台线本身就是反例——它不是”AI 进步停滞”,而是这把尺子已经量不出差异。更狠的是 GSM1K 实验(Scale AI,Zhang et al., arXiv 2405.00332, 2024):造一批等难度、保证未泄漏的题后,部分模型 GSM8K 比 GSM1K 高出最多 8 个百分点(Phi、Mistral 系列最严重),并把分数差与记忆概率挂上钩。高分里有一截是背出来的——这是第 2 代最不愿被说破的事。


§3 第 3 代 · 人工偏好评测:IAA + rubric

① 代表作(年份核证):第 3 代没有单一”奠基论文”,它是 RLHF 时代标注实践的统称——成对偏好标注(A/B 哪个更好)、量表评分(Likert)、rubric 评分。其认识论身价由 Cohen Kappa 系数 这类标注者间一致性(IAA)指标托底;Kappa Paradox(Feinstein & Cicchetti, 1990)是绕不开的统计陷阱。

② 推动力:直接锚定”人觉得有用”。第 1/2 代都是代理指标,第 3 代第一次回到源头——不问”像不像参考答案”,直接问人”哪个更好”。在 InstructGPT/ChatGPT 把对齐推上台面后,“人类偏好”成了产品事实上的北极星。

③ 瓶颈:贵、慢、不可复现,且有一个被严重低估的天花板——在专家级难任务上,连人和人都不一致。IAA 会掉到七成上下,人机一致率更低〔具体百分比因任务而异,作示意,见 A05 人工评测与标注一致性〕。还要小心 Kappa Paradox:在类别高度不均时,即便原始一致率很高,κ 也会被压低——原始一致率 ≠ 扣除随机基线后的 κ。“金标准”恰恰在最需要它的难任务上最不可靠。

④ 被第 4 代如何超越:第 4 代(LLM-as-Judge)的卖点是把人工评测规模化、降本——用强模型代替人打分,把”贵且慢”变成”便宜且快”。它继承了第 3 代的目标(锚定偏好),但用一个新的承载体(LLM 裁判)替换了人。代价见 §4。

⑤ Lakatos 判断:进步性(就锚定对象而言),但承载体脆弱。 从代理指标回到”直接问人”,增加了经验内容——它能预言”人在真实使用中会不会更喜欢这个回答”,这是第 1/2 代测不到的。但它的承载体(人工标注)成本不可规模化,这为第 4 代的退化埋下伏笔:把承载体从”人”换成”模型”,看似是进步,实则把人的全部偏差自动化了。

⑥ ⛔ 反例(第 3 代的皇帝新衣)“人工评测=金标准”是一个在难任务上自我瓦解的承诺。 当一道题难到 PhD 专家都只有约 65% 一致(GPQA 的人类基线即是明证),所谓”金标准”已经没有”金”可言——你拿一个本身一致率七成的标尺去校准模型,校出来的”准”是幻觉。第 3 代的可靠性在它最该发挥作用的地方最低。


§4 第 4 代 · LLM-as-Judge:MT-Bench / G-Eval

① 代表作(年份核证)

  • MT-Bench / Chatbot Arena(奠基的 Judge 工作):Zheng et al., NeurIPS 2023(arXiv 2306.05685)—— 系统提出”用强 LLM 当裁判”,并首次系统编目位置/冗长/自我偏好三类偏差。报告 GPT-4 作裁判与人类原始一致率 >80%,与人类互评基线相当(注意是 percent agreement,非扣随机基线的 κ)。
  • G-Eval:Liu et al., EMNLP 2023(arXiv 2303.16634)—— CoT + 表格填充范式,摘要任务上与人类 Spearman 相关 0.514,超越此前所有自动指标。
  • JudgeBench:Tan et al., 2024(arXiv 2410.12784,ICLR 2025)—— 揭示裁判能力边界:GPT-4o 在高难度判别对上仅略好于随机猜。
  • CALM 框架(Justice or Prejudice):Ye et al., 2024(arXiv 2410.02736)—— 系统量化 12 类裁判偏差。(与 JudgeBench 是两个独立工作,作者、目标均不同,G01 已警示勿混。)

② 推动力:把第 3 代的人工评测规模化、降本。一个 GPT-4 裁判一晚上能评几万条,人工标注团队几个月才能做完。在 RAG/Agent 评测需要海量样本的场景下,这是唯一能跑通的方案(m205 - RAG 生产环境:索引运维与评估体系 的 RAGAS 四维即属此代)。

③ 瓶颈:继承并放大了人的偏差。 位置偏差(换序后改判约 35%〔近似,见 G01 §3〕)、冗长偏差(对灌水回答失败率高企)、自我增强偏差(裁判给与自己风格相近的文本打高分,机制根源是 perplexity——第 1 代的幽灵)。更致命的能力天花板:裁判答不对的题,也判不准(JudgeBench)——弱模型不能可靠裁判强模型。

④ 被第 5 代如何超越:第 5 代(竞技场 Elo)的逃跑路线是用真实分布下的众包人类投票替换单个 LLM 裁判——既绕开静态题库污染(每个 prompt 都是新的),又绕开单一裁判的系统性偏差(用人群的成对偏好聚合)。它把”一个裁判”换成”一群真实用户”。代价见 §5。

⑤ Lakatos 判断:退化性。 这是六代里退化性最典型的一代。它的硬核(“用偏好近似质量”)没变,只是把承载体从人换成模型——不仅没增加经验内容,反而把人的偏差自动化、放大了,还新引入了”自我偏好”这一人类裁判没有的病。它是”事后给规模化问题打补丁”,而非”测到了新维度”。

⑥ ⛔ 反例(第 4 代的皇帝新衣)G-Eval 的 Spearman 0.514 被当作”突破”庆祝,但 0.5 出头的相关只是”比随机强、远非可靠”。 把它与”裁判答不对就判不准”(JudgeBench)叠加,结论很硬:在最需要裁判的难题上,第 4 代的判别力崩到接近随机。 你看到的”85% 与人一致”是原始一致率的障眼法(扣掉随机基线的 κ 低得多,详见 Cohen Kappa 系数 与 G01 坑 3)——裸用 Judge 等于把偏差工业化。


§5 第 5 代 · 竞技场 Elo:Chatbot Arena / Bradley-Terry

① 代表作(年份核证)

  • Chatbot Arena(平台论文):Chiang et al., ICML 2024(arXiv 2403.04132)—— 实时、众包、成对人类投票,超 24 万票;2023-12 从在线 Elo 切到 Bradley-Terry MLE 做全局排名。现更名 LMArena
  • Leaderboard Illusion(对手立场):Singh et al., arXiv 2504.20879, NeurIPS 2025 Poster —— 记录私测+选择性披露;把 Arena 数据训练占比 0→70% 可使 ArenaHard 胜率 +112% 而 MMLU 反降。

② 推动力:抗单点污染、动态、众包规模。第 4 代被偏差和污染夹击,第 5 代用”每个 prompt 都是真实用户现场提的新问题”一举绕开静态题库污染,又用人群投票稀释单一裁判偏差。它是迄今最聪明的一次换靶子

③ 瓶颈:用三个新漏洞换掉旧漏洞。

  • 偏好 ≠ 质量:人类投票与专家事实核查一致率仅约 72–83%;风格偏差被坐实(LMSYS 自家 Style Control 实验显示控制长度+markdown 后排名剧变,长度系数 0.249 是最强单因子)。
  • 可被 game:私测 N 个变体、只披露最高分;针对 Arena 分布特化训练(Goodhart 教科书演示)。
  • 统计假设被违反:大量模型被悄然废弃,破坏 BT 的传递性与对战图连通性。

④ 被第 6 代如何超越:第 6 代(Agent 轨迹评测)的逃跑路线是把测量对象从”单轮输出的偏好”升到”多步任务的端到端完成”——用客观的任务完成度(patch 是否通过测试、数据库终态是否匹配目标)替换主观的人类偏好投票。它试图回到”对不对”而非”喜不喜欢”。代价见 §6。

⑤ Lakatos 判断:进步性(抗污染维度)+ 退化性(偏好构念)双重身份。

  • 进步性:对单点静态污染天然免疫——这是真增加了”动态抗污染”这一新维度。
  • 退化性:硬核仍是第 3 代的”用偏好近似质量”,且把”可刷榜""偏好≠质量”两个新漏洞糊进保护带。换言之,它在污染维度上进步,在构念维度上原地踏步甚至倒退

⑥ ⛔ 反例(第 5 代的皇帝新衣)同一批投票,换一个统计处理,排名就洗牌。 Style Control 一开,原本靠”长+markdown”取巧的模型名次显著下滑〔具体名次见 E03 Chatbot Arena·LMArena & 人类偏好评测剖解〕。这证明默认 Arena 榜测的有相当一部分是回答的样式而非回答的质量对手立场的”接受+边界”(承袭 G01 §4):LMArena 官方反驳称私测实际增益仅约 +11 Elo〔该具体数字本轮未能从官方博客原文独立确认,采信须回溯原博文〕、私测政策自 2024-03 已公开、开放权重份额按其口径达 40.9%。接受这些反驳缩小了虚高量级之争;边界是——只要”私测+选择性披露+数据访问不对等”机制存在,Arena 分数就不能裸用。PM 该看 Style-Controlled 榜、看置信区间是否重叠、看该模型是否对 Arena 分布特化过。


§6 第 6 代 · Agent 轨迹评测:SWE-bench / τ-bench

① 代表作(年份核证)

  • SWE-bench:Jimenez et al., ICLR 2024(提交于 2023)—— 真实 GitHub issue,模型须产出能通过测试的 patch;SWE-bench Verified 是 500 道经人工筛核的 Python 子集。
  • τ-bench:Yao et al., Sierra Research, arXiv 2406.12045, 2024 —— 工具-Agent-用户三方动态对话(零售/航空域),比对对话终态数据库与标注目标态;提出 pass^k 衡量多次试验的可靠性。报告即便 gpt-4o 这类 SOTA 函数调用 Agent 任务成功率 <50%,且极不稳定(零售域 pass^8 < 25%)。
  • 同代际还有 WebArena、GAIA 等,共同构成 m207 - Agent 产品化:场景推演与失败模式 的 Agent 评估七维。

② 推动力:贴近 Agent 真实用法、测长程能力。前五代都停在”单轮输出”,而真实产品里 Agent 要多步规划、调工具、从错误中恢复。第 6 代测到了前五代原理上测不到的长程、工具调用、错误恢复维度。

③ 瓶颈:前五代的病一次性继承,外加一个新病——脚手架/能力解耦失败

  • 答案泄漏:SWE-bench Verified 中,OpenAI 内审发现每个前沿模型都有逐字复现 gold patch 的案例,人工筛查 32.67% 成功 patch 涉及解答泄漏(答案直接在 issue 文本/评论里);OpenAI 已于 2025 年停止汇报 Verified 分数。
  • 脚手架混淆:分数里 agent scaffolding(非模型能力)贡献巨大,harness 不统一加剧失真。SWE-bench Pro(跨文件、长上下文)vs Verified 的鸿沟最能说明问题——同一前沿模型 Verified 约 93.9%、Pro 约 77.8%,差约 16 点〔Pro/Verified 具体分值与模型代号待核实,见 E02 SWE-bench & Coding Agent 评测剖解〕。

④ 被下一代如何超越(前瞻):第 6 代尚未被稳定的”第 7 代”取代。可见的演化方向:pass^k 这类可靠性度量(τ-bench 已开此先河,从”能不能做对一次”转向”能不能稳定做对”)、过程/轨迹级评分(呼应 c11 - System 2 思维与 Test-Time Compute 把推理质量纳入评估)、统一 harness + 答案泄漏审计。但这些大多是在堵第 6 代的漏洞,尚不构成”测到全新维度”的进步性更替——警惕又一次退化性换靶。

⑤ Lakatos 判断:进步性(长程维度)+ 高退化风险。

  • 进步性:测到了长程、工具调用、错误恢复,增加了经验内容
  • 退化风险最高:它最贵、最难造新题,题库一旦泄漏,重建成本最高、污染窗口反而最长。测量越逼真,越脆弱——这正是退化性纲领的征兆。

⑥ ⛔ 反例(第 6 代的皇帝新衣)SWE-bench Verified 32.67% 的”成功”是答案泄漏出来的——这不是能力,是开卷考试抄到了答案。再叠加 τ-bench 的 pass^8 < 25%:同一个任务连做 8 次,能 8 次都对的不到四分之一。“Agent 能做对”和”Agent 能稳定做对”之间隔着一道深渊,而单次成功率的榜单系统性掩盖了这道深渊。第 6 代离 Goodhart 失效最近——因为它最贵、最像真实,所以一旦被 game,代价也最大。


§7 逐代对照速查表(与 G01 §1 总表互补:G01 给”反例列”,本表给”超越关系 + Lakatos 列”)

代表作(核证年份)被下一代超越的机制Lakatos 判断
1 静态语言指标BLEU(2002)/ROUGE(2004)/perplexity第2代用任务正确率换字面重叠进步性(→2 增推理/知识维度)
2 任务 benchmarkGLUE(2018)/MMLU(2021)/GPQA(2023)/HELM(2022)/MMLU-Pro(2024)第3代用现造新题绕污染分水岭:HELM 进步性、MMLU-Pro 退化性
3 人工偏好评测RLHF 标注实践 + κ(IAA)第4代用 LLM 裁判替人、规模化进步性(锚定偏好),承载体脆弱
4 LLM-as-JudgeMT-Bench/Zheng(2023)、G-Eval/Liu(2023)第5代用众包真人投票替单裁判退化性(自我偏好=幽灵 perplexity 回归)
5 竞技场 EloChatbot Arena/Chiang(2024)、BT第6代用客观任务完成度替主观偏好双重:抗污染进步性 + 偏好构念退化性
6 Agent 轨迹评测SWE-bench/Jimenez(2024)、τ-bench/Yao(2024)尚无稳定第7代;pass^k/过程评分萌芽进步性(长程维度)+ 最高退化风险

读这张表的方法:从上往下,“被超越的机制”那一列描述的全是逃跑动作——逃污染、逃成本、逃单裁判偏差、逃主观偏好。没有任何一行写着”解决了构念效度”。 这就是 G01 核心赌注的逐代实证:代际更替是 Goodhart 失效后被迫换靶子的过程,不是逼近真值的过程。


§8 PM 落地:把”逐代病历卡”变成三个动作

  • 看到新 benchmark SOTA:先对照 §2–§6 的”⑤ Lakatos 判断”问一句——这次换靶是进步性(测到新维度)还是退化性(同靶加难/堵漏洞)?退化性的高分只买到”抗污染窗口期”,别为它付溢价。
  • 选型取证分层:单代分数都不可裸用——Benchmark 看 MMLU vs MMLU-Pro 同模型降幅(掉得多=原分靠记忆);Judge 报 κ 不报原始一致率、多厂商交叉裁判;Arena 看 Style-Controlled 榜 + 置信区间;Agent 看 harness 是否统一 + 答案泄漏审计 + pass^k 而非单次成功率
  • 自建黄金集兜底:所有六代都在”换靶买时间”,唯一不被换靶绑架的是你自己造的、保证未泄漏的 500–1000 条黄金样本回归集(呼应 c14 - 模型评估体系与 Goodhart 陷阱)。

§9 与 G01 / 已有节点的关系(升级对照,不复述事实基础)

  • 对照 G01 评测范式代际谱系总图——做”分辨率升高”:G01 是总图(一张表给六代各一格反例 + 双框架推导);G02 是详解(每代一张六栏病历卡 + 显式”被下一代超越的机制” + 每代独立反例)。G01 的”§7 Lakatos 判断网格”在 G02 里被逐代落到具体年份与代表作——G01 说”多数更替是退化性的”,G02 钉出”第 4 代退化、第 2 代 MMLU-Pro 退化、HELM 进步”的具体证据。
  • 对照 A03 Benchmark 与数据污染:A03 是第 2 代污染/饱和的专论;G02 §2 引其结论但只取”逐代演化”所需的最小事实,深扒回 A03。
  • 对照 A04 LLM-as-Judge:A04 是第 4 代裁判偏差的专论;G02 §4 的三类偏差与 perplexity 幽灵机制深扒回 A04。
  • 对照 A05 人工评测与标注一致性 / Cohen Kappa 系数:第 3 代的 IAA 天花板与 Kappa Paradox 深扒回此二者。
  • 对照 A06 Goodhart 与指标失效:G02 全篇”换靶不解决根病”的根病=构念效度/Goodhart,概念底座在 A06。
  • 对照 E02 SWE-bench & Coding Agent 评测剖解 / E03 Chatbot Arena·LMArena & 人类偏好评测剖解:第 5/6 代的实例剖解(具体名次、SWE-bench Pro 分值)深扒回此二者。
  • 对照 S01 评测体系分层剖面:S 系列是”各代怎么用”的解剖学横切;G02 是”各代怎么来、怎么被超越”的时间纵切,两者正交互补。

§10 关联节点

核心(必读)

延伸(可选)


修订日志

  • R2(2026-06-07,补建):本节点为 02 代际演化专题缺失的 G02,作为 G01 评测范式代际谱系总图逐代详解版补齐。设计分工:G01 给总图+双框架赌注,G02 给六栏病历卡(代表作/推动力/瓶颈/被下一代如何超越/Lakatos 判断/反例)+ 每代独立反例 + §7 “超越关系 × Lakatos” 速查表,与 G01 §1 总表(反例列)互补而不重复。
    • 年份核证(WebSearch):BLEU(Papineni, ACL 2002)、ROUGE(Lin, 2004)、GLUE(2018)、SuperGLUE(2019)、MMLU(Hendrycks, ICLR 2021)、GSM8K(Cobbe, OpenAI 2021)、HELM(Liang, Stanford CRFM 2022)、GPQA(Rein, 2023;448 题、PhD 65%、非专家 34%)、MT-Bench/Chatbot Arena(Zheng, NeurIPS 2023, arXiv 2306.05685, >80% 原始一致率)、G-Eval(Liu, EMNLP 2023, arXiv 2303.16634, Spearman 0.514)、Chatbot Arena 平台论文(Chiang, ICML 2024, arXiv 2403.04132, BT 模型)、SWE-bench(Jimenez, ICLR 2024)、τ-bench(Yao et al. Sierra, arXiv 2406.12045, 2024, gpt-4o <50%, 零售域 pass^8<25%)、MMLU-Pro(NeurIPS 2024, 4→10 选项) 均经网络核证。
    • 反线性进步:每代末尾钉一条”皇帝新衣”反例(第1代 BLEU 奖励平庸+perplexity 幽灵;第2代 86–87% 平台线 + GSM1K 8 点记忆差;第3代金标准在难任务自我瓦解;第4代 G-Eval 0.514 被神化 + JudgeBench 近随机;第5代 Style Control 排名洗牌;第6代 32.67% 答案泄漏 + pass^8<25%)。
    • 判断主轴:§7 速查表”被超越机制”列逐行证实”全是逃跑动作、无一解决构念效度”,作为 G01 核心赌注的逐代实证。
    • 沿用 G01 的〔待核实〕降级措辞:LMArena 反驳 +11 Elo、SWE-bench Pro/Verified 具体分值与模型代号、专家级 IAA 百分比、GPQA 2026 初时点、Judge κ 区间——均标注并深扒回对应 A0x/E0x 专论,不以裸事实留存。
    • 双链:全文真实 basename 双链共约 22 条(核心 7 + 延伸 15),满足非总览节点 ≥15;与 G01 共用同批 0412 专题 A0x/E0x/S01 节点及库内已存的 c11/c13/c14/范式/Cohen Kappa 系数/m205/m207/0411-G01 等。