评测系统化专题 · 总览（MOC）

本页是 0412 评测系统化专题 的导航中枢（MOC）。它不复述各节点的事实，只回答四件事：这个专题为什么存在、由什么组成、与你已有的知识网络怎么对接、以及它对自己有多诚实。 想直接进正文，跳到 §5 三条阅读起点。

§0 序：那堵叫”eval”的墙

2025 年到 2026 年，Rick 在面试桌和选型会上反复撞同一堵墙：“eval”这个词，每个人指的都不一样。 算法同学说”eval 过了”，指 MMLU 提了两个点；产品同学听成”可以上线了”；销售把”SWE-bench 93.9%“写进标书，客户在真实工单上验收只剩四成。同一个词，在一句话里同时背着学界竞赛、软件测试、教育测量三套互相打架的传统，而说话的人和听话的人各自默认了不同的一种——事故就发生在这条缝里。

业界的默认止血方案是”换个更难、更新的 benchmark”。本专题的反共识立场正相反：评测的根病不是”题不够难”，而是”评测从没被当成一个有治理、有归因、有版本、会随时间腐烂的系统来维护”。 换题只是把饱和时钟往后拨几个月。Goodhart 在治理层、污染在数据集×评判器的接口上、bad case 无法复盘在归因层——这些病换十个 benchmark 也修不掉。

读完这个专题，你应当能在 30 秒内做到三件事：(1) 听到”eval 通过了”立刻反问”哪一层、什么集、谁评的、带区间吗”;(2) 拿到任何一个漂亮分数，说清”为什么我不信它”;(3) 给自己的产品搭一套”腐烂得足够慢、且你能监测腐烂速度”的评测组合。这不是”了解一下”,是面试桌、选型会、复现台上立即可观测的判断力。

§1 专题定位：为什么单独建 0412

按宪章 §2 的四条选题判据逐条论证——前三条满足 ≥2 即可，第四条须为真。评测四条全中，这是它配独立建库、而非塞进某个 c/m 章节的硬理由。

判据	评测命中情况	证据
① 中心性（影响 ≥3 个 PM 决策链节点）	✅ 命中	选型（信哪个分）、上线验收（什么算通过）、迭代（bad case 回灌）、对外宣称（话术红线）、合规举证——五个决策链节点全被评测穿过
② 误解深度（业界定义互相矛盾、系统性滑变）	✅ 命中（最强）	benchmark/eval/metric/test/validation/assessment 来自三个不同知识传统，“eval 通过了”有四种互不兼容所指（见 A01）
③ 速变性（24 个月内 ≥1 次格式塔切换）	✅ 命中	从 LLM-as-Judge 普及（2023）→ Arena Elo 成事实标准（2024）→ Agent 轨迹评测（2025）→ OpenAI 2026-02 主动弃用 SWE-bench Verified，两年内换了三次”测量仪”
④ 学了就能用（面试/选型/复现立即获判断力）	✅ 为真	每个节点都落”面试怎么用/选型怎么用/复现怎么用”三类，复现模块直接给可跑代码

它升高了哪个抽象层？ 现有的 c14 / m205 / m207 都是单维节点——c14 讲”怎么防 Goodhart”、m205 讲”怎么测 RAG”、m207 讲”Agent 七维指标”。它们各自正确，但都停在”用哪些指标、怎么测”这一层。0412 升高一个抽象层：把评测本身当成一个有接口契约、有责任边界、会腐烂的系统来解剖——从”用对的尺子”升到”尺子从哪来、由什么组成、什么时候会坏、谁为它负责”。这是从工具使用者到工具治理者的视角跃迁。

[!note] 与 0411 Agent 专题的关系 0412 是 0411 的评测层姊妹专题。0411 的 S01（六层架构）、A04 Reflexion（自我评判）、0411 G01 都在”Agent 能力”维度；0412 提供评判这些能力的尺子。两个专题的 G01（代际谱系）共享同一方法论骨架（库恩+拉卡托斯读代际、每代配反例、拒绝线性进步史），可对照阅读。

§2 模块全景：六模块矩阵与依赖

本专题 20 个节点（19 内容节点 + 本总览）分布在宪章规定的六模块骨架上。下图是六模块的依赖与横切关系。

flowchart TB
    subgraph M01["01 概念辨析（横向·是什么）"]
        A01[A01 概念史与语义流变]
        A02[A02 评测对象四层]
        A03[A03 Benchmark 与污染]
        A04[A04 LLM-as-Judge]
        A05[A05 人工评测与 IAA]
        A06[A06 Goodhart 与指标失效 ★主轴]
        A07[A07 Red Teaming]
        A08[A08 Eval-driven Development]
    end
    subgraph M02["02 代际演化（纵向·从哪来）"]
        G01[G01 评测范式代际谱系总图 ★总图]
        G02[G02 评测代际演化详解 逐代病历卡]
        G01 --> G02
    end
    subgraph M03["03 架构剖面（解剖·由什么组成）"]
        S01[S01 评测体系分层剖面 ★旗舰]
        S02[S02 评测方法流派对照矩阵]
        S03[S03 Eval-Ops 全景]
    end
    subgraph M04["04 实例剖解（病理·怎么走样）"]
        E01[E01 RAGAS & RAG 评测]
        E02[E02 SWE-bench & Coding Agent]
        E03[E03 Chatbot Arena/LMArena]
    end
    subgraph M05["05 复现指南（操作·自己怎么动手）"]
        R01[R01 100 行 LLM-as-Judge]
        R02[R02 建 benchmark+标注+IAA]
        R03[R03 Agent 轨迹评测模板]
    end

    M01 ==>|概念支撑| M03
    M03 ==>|框架落地| M04
    M04 ==>|动手验证| M05
    M02 -.横切时间维.-> M01
    M02 -.横切时间维.-> M03
    M02 -.横切时间维.-> M04
    A06 -.判断主轴贯穿全专题.-> M03
    A06 -.判断主轴贯穿全专题.-> M04

矩阵含义：依赖主链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南（先懂概念、再看结构、再看真实病例、最后动手）。代际演化（G01 总图 + G02 逐代详解）横切所有模块，提供时间维度——任何一个概念/架构/实例都能在六代谱系里定位；G01 给框架与方法论赌注，G02 逐代展开代表/推动力/瓶颈/Hype Cycle 定位并钉反例。A06 Goodhart 是判断主轴，它不是普通概念卡，而是统辖整个专题的元判断（“任何 eval 被纳入优化目标就开始失效”），向架构与实例两个模块渗透。阅读指南（本总览 + README）反向编织，把这张网拆成多条可读路径。

[!note] 02 模块结构说明宪章 §3 建议代际演化模块 2–3 个节点；本专题 02 模块现有 G01（总图）+ G02（逐代演化详解）两个节点，满足下限。G01 把六代谱系 + 库恩/拉卡托斯框架 + 四个判断坑写厚（拿框架）；G02 逐代展开代表/推动力/瓶颈/被下一代如何超越/退化纲领判断，并在每代末尾钉一个反例（拿弹药）。原先标注的”G02 未落稿缺口”已于 2026-06-12 内审复核为实为满稿（27477 字节），缺口表述作废。

§3 六模块逐一介绍

01 概念辨析（A01–A08）—— 横向：先看清”评测”这个词在每次使用时到底指什么

收录什么：八个把单一概念讲透的原子节点。A01（六词语义史 + 维特根斯坦”标准 vs 症状”）、A02（模型/系统/产品/结果四层错配事故）、A03（饱和+污染+构念效度）、A04（位置/冗长/自我偏差）、A05（IAA/Kappa/黄金集治理）、A06（★判断主轴）、A07（对抗性评测）、A08（评测前置到产品定义）。 解决什么问题：挡掉”评测=跑分，分高就好”这个把正交概念压成标量的默认错误框架。 何时读：被一个分数/术语绕晕、或要在选型会上拆穿话术时——这是全专题的”词典层”。

02 代际演化（G01 + G02）—— 纵向：评测不是越测越准，是 Goodhart 失效后被迫换靶子

收录什么：G01（总图）——六代谱系（静态语言指标→任务 benchmark→人工偏好→LLM-as-Judge→竞技场 Elo→Agent 轨迹评测）+ 库恩/拉卡托斯方法论赌注；G02（逐代详解）——每代取一张统一”病历卡”，写清代表论文/产品/基准（带核证年份）、推动力、瓶颈、被下一代如何超越、退化纲领判断，并在每代末尾钉一个反例戳破”这一代终于测准了”的幻觉。读 G01 拿框架，读 G02 拿弹药。 解决什么问题：用库恩范式更替 + 拉卡托斯纲领退化两把尺，破除”能力天梯”式线性进步史，让你在选型会上把”新 benchmark 分更高”读成”进步性（测到新维度）还是退化性（只是堵旧漏洞）”。 何时读：看到厂商宣称”在最新最难的 benchmark 上 SOTA”、想判断该不该为这个”高分”付溢价时。

03 架构剖面（S01–S03）—— 解剖学：评测系统由什么可替换组件组成

收录什么：S01（★旗舰节点，最厚——六层堆栈：数据集/指标/评判器/流程/归因/治理 + 接口契约表 + 三个致命耦合点）、S02（规则/参考/语义/LLM-judge/人评/Arena 六法 × 六维取舍矩阵 + 决策树）、S03（把评测当生产系统运维——对 eval 做 eval 的四种死法）。 解决什么问题：把散落在 c14/m205/m207 的评测知识拉到”评测作为可分层、可定位责任、会腐烂的系统”这一更高抽象层。 何时读：要从零搭一套评测体系、或要给一个失真的分数做责任定位时——这是全专题的”承重梁”。

04 实例剖解（E01–E03）—— 病理学：三具真实标本怎么走样

收录什么：E01（RAGAS 四指标的构念效度审计——全绿≠好用）、E02（榜单政治经济学——分数是生产关系产物）、E03（偏好聚合机器 + 社会选择理论）。 解决什么问题：把架构剖面的抽象框架钉进三个你天天会遇到的真实评测系统，证明那些”裂缝”不是泛泛之论。 何时读：正在用 RAGAS / 看 SWE-bench 榜 / 引用 Arena 排名做决策时——对症查阅。

05 复现指南（R01–R03）—— 操作手册：从论文百分比到肉身确认

收录什么：R01（亲手复现位置偏差，把数字变成”原来真会变”的肉身确认）、R02（一周造一个信得过、能追责的小评测集 + 跑 Cohen’s Kappa）、R03（τ-bench 风格轨迹评测——区分”做对的”和”蒙对的”轨迹）。 解决什么问题：把概念辨析里的判断变成可贴进 PR、可在选型会摊开的具体数字。 何时读：读完概念想动手、或要在面试里证明”我真搭过”时。

§4 与现有节点关系：升级对照表

本专题不复述旧节点的事实，而是在更高抽象层做”补缺/纠偏/对话/深化”。下表是逐对照应（详见各节点”与已有节点的关系”段）。

旧节点	本专题哪些节点升级了它	升级类型	升级了什么
c14	S01 / A01 / A06 / G01 / S02 / E01 / E02	抽象层升高 + 纠偏	c14 停在”防御 Goodhart”（自建黄金集）；S01 把 Goodhart 重定位为 L2×L6 接口病；A06 把它升格为统辖全专题的判断主轴 + 动态指标组合；G01 把所有防御对象放进代际时间轴；E03/E02 纠偏 c14 对”Arena 盲测相对可信”的乐观（Arena 自有 WEIRD/gaming/BT 传递性脆弱一整套偏差）
m205	S01 / E01 / A02 / S03 / S02	抽象化 + 纠偏	m205 的 RAGAS 四维属 L2、分层诊断属 L5；S01 抽象成”任何评测都要有归因层闭环”;E01 给 RAGAS 加构念效度审计并纠偏”检索诊断不该交给 LLM”（应用 recall@k/nDCG）;S03 把”Embedding Drift”泛化为 eval drift
m207	S01 / A02 / G01 / E02 / R03	映射 + 归因升级	m207 的 Agent 七维 + 六类失败模式是 S01 的 L5 失败聚类、L2 指标的具体落地；A02 指出其共同盲区”系统层→结果层不传递”;R03 把它落成可跑的轨迹评测模板
Cohen Kappa 系数	S01 / A01 / A05 / A06 / E01 / R02	定位 + 用法升级	Kappa 卡是纯统计工具（L2 组件）；本专题给”何时该选 κ”的决策入口 + 把它用作 LLM-judge inter-rater reliability、评测可信度熔断信号（κ<0.6 停采信）
Agent 产品评估的五个具体问题	S01 / E02 / G01	骨架化	五问是评估方法论的 PM 工作版，多落 L5/L6；S01 给五问提供”挂在哪一层”的骨架；E02 用其复合错误数学解释 Pro 长程任务为何回落
c13	A01 / E01 / E03	对话	c13 的”校准失准”是裁判不可靠的前提；E01 补”RAGAS faithfulness 高分≠无幻觉”;E03 接”谄媚幻觉使用户偏好作为优化目标失真”
c11	A01 / A06 / G01	对话	ORM/PRM 是”从终点评测到过程评测”的升级，也是新的 Goodhart 面

§5 三条阅读起点

按身份模式选入口（完整路径表与自测题在 README）：

求职速通（面试桌）：A01（“eval 通过了”四种所指）→ S01（六层堆栈，被追问任何一层都能展开）→ A06（判断主轴一句话）→ E02（一个能讲 5 分钟的真实案例）。目标：30 秒说清”我怎么评估一个 AI 产品”。
决策链（选型会/在岗）：A02（先定层）→ S02（任务×约束选方法）→ S03（搭可运维的体系）→ 对症查 E01 / E02 / E03。目标：拿任何分数都能逐层质询。
紧迫度/动手（复现台）：A04 → R01（亲手复现偏差）→ A05 → R02（造自己的评测集）→ R03。目标：把判断变成可贴 PR 的数字。

§6 跨域思想资源调度表

宪章 §6 硬约束：跨域资源只在”能反对一个术语滑变或权力盲点”时调度，且必须在对应节点具体展开、不留空 invocation。下表是全专题的调度地图，每行的”作用”都已在对应节点落地（非装饰）。加 ★ 的两个是 Rick 未读的对手框架，用来破 echo chamber、逼问本专题自己的盲点。

跨域资源	调度位置	在该节点具体改变了什么判断
维特根斯坦「标准 vs 症状」	A01 §8	把”分数是不是能力”的问题，改写成”它是能力的标准（逻辑相关）还是症状（可被污染/脚手架伪造）“——给每个”通过阈值”一个可操作的追问
Goodhart / Campbell 定律	A06 全节	把”指标失效”从”题不够难”的测量问题，重诊为”指标被纳入优化即失效”的治理问题——评测变成投资组合管理
★ Marilyn Strathern 审计社会学	S01 §11	把 Goodhart 升级为”度量与权力的耦合”——解释”为什么换更难的指标也没用”：问题不在指标难度，在度量与晋升/预算/对外宣称的挂钩本身
构念效度（Cronbach & Meehl 1955 / Messick）	A01 §7、A03、E01 §7、G01 §7	”高信度可以掩盖低效度”——RAGAS faithfulness 与人工高相关却仍不可信，因为二者共享同一个被窄化的操作定义，一起偏离了真正的构念
★ 心理测量学信度-效度框架（含 Messick 构念效度整体观）	A01 §7	反问”你说 benchmark 不可靠，用的是哪种信度、哪种效度”——MMLU 的问题精确表述为”构念效度失败”
库恩范式更替 + 拉卡托斯纲领退化	G01 §0/§7	给 PM 一个可操作二分替代”分数比较”：这次换靶是进步性（测到新维度）还是退化性（只堵旧漏洞）；多数代际更替是退化性的
软件工程 OSI 分层 + 接口契约	S01 §11	把”评测事故”从模糊的”模型不行”，变成可定位到具体接口违约的工程问题（“L1→L4 的污染状态字段被省略了”）
多准则决策分析 MCDA	S02 §7	取消”最好的评测法”这个病态问题——只有”给定约束（权重）下最合适的方法组合”;把约束从事后妥协提升为决策输入
★ Weizenbaum《Computer Power and Human Reason》(1976)	S02 §6	”用可量化悄悄重定义好”——任何评测法都是对质量的有损投影，PM 责任是知道每种投影丢了什么、为丢掉的部分单独留一道人的判断
★ 离线评测无用论（精益创业/持续部署谱系）	S02 §6	作为对手立场 B 接入——承认线上 A/B 是最高效度偏好信号，但用三条边界（延迟归因/不可枚举尾部失败/伦理不可逆）把它挡在”唯一答案”之外
SRE / 可观测性	S03 §6	不止”借光”——它绷断的四个地方（真值不客观/探针不中立/失准不报错/跨时间不可比）恰好标出 Eval-Ops 的特殊性，必须重建而非照搬
确定性→概率系统	S03 §6	拒绝用”SLO 绿/红”二元门禁替代概率性衰减监控——CI 绿灯只是”上次校准窗口内尺子尚未飘”的条件概率声明
政治经济学（生产关系/定价权）	E02 §0/§7	把”标准化 harness 缺失”从技术疏漏重诊为权力问题——榜单是由谁出题、谁建 harness、谁有数据特权、谁汇报共同决定的利益链产物
★ STS benchmark 批判（Raji et al. 2021）	E02 §7	逼问本专题自己的盲点——“用业务 holdout 替代公开榜”时，我的 holdout 同样是”什么算成功”的价值选择，只是利益对齐到我而非厂商
★ 社会选择理论（Arrow 1951 / Condorcet 1785）	E03 §7	把”Arena 排名不够客观”从经验抱怨升级为数学必然——Arrow 证明任何偏好聚合都必然牺牲某条合理性质；BT 牺牲的恰是 IIA，所以废弃模型会扰动排名、几百张票能撬动全局

§7 验收档案

评议流程

本专题套用 0411 的工程化多轮评议流程（宪章 §10）：Round 0 并行起草 → Round N 对抗式批评（六维 + 事实接地）→ Round N+1 按 issue 单修订并追加修订日志 → grounding 校验 pass → 终轮综合（本总览 + README + 双链编织 + SABCD 自评 + 三清单）。截至本总览写作时，全部 19 个内容节点已完成 R0 → R1（多数 R1 是事实接地为主的批评修订，逐条删除/坐实了编造数字，详见各节点修订日志）。

SABCD 六维自评表（诚实）

按宪章 §1 六维（S 结构 / A 判断密度 / B 边界含量 / C 认识论自觉 / D 可演进性 / E 对手拷问能力）打分。出版线：综合 ≥7.8。

维度	出版线	本专题自评	依据与扣分项
S 结构	≥8	8.0	六模块互补、依赖链清晰、三条阅读起点 + MOC 可导航；02 代际演化 G01（总图）+ G02（逐代详解）配齐，满足宪章下限。扣分：模块节点数仍不均（01 有 8 个、02 有 2 个）
A 判断密度	≥8	8.3	每节点都有反共识、带数字、可证伪判断（S01 三耦合点、G01 退化纲领、A06 指标即消耗品、E02 政治经济学），判断主轴四件套齐全
B 边界含量	≥7.5	8.0	大量”赌注与边界""failure scenario”callout（S01 MVP 勿建六层、A02 做题型应用四层坍缩、G01 若出现高保真动态题库则降级）；显式承担每个赌注的失效条件
C 认识论自觉	≥8	7.8	R1 大规模事实接地是亮点——多处删除编造数字（如 Zheng 2023 从未用 Cohen’s Kappa、SWE-bench 跨模型分数嫁接）、区分事实/推测/赌注。扣分：仍有相当数量〔待核实〕未落地（见下方”残留待核实”）
D 可演进性	≥8.5	7.9（低于出版线）	双链密度足、修订日志详尽、改稿档案留痕；README（三路径 + 12 自测题）与 G02（逐代详解）均已落稿，former G02 缺口已闭合。扣分：仍处 `_ai_review` 待审区未入库，专题内 A0x/S0x 互链要等 move 到 final_path 才全 resolve
E 对手拷问能力	≥7	8.2	强项——对手立场具名、可追溯、“接受+边界”而非反驳（E02 四个具名对手、S02 两个对手、G01 LMArena 反驳、A06 Kambhampati 三分支质疑），引入 ≥2 个 Rick 未读对手框架

综合自评：约 8.0 / 10（六维加权均值，D 维与 C 维是主要拖累）。达到出版线（≥7.8），但诚实标注两处低于单维出版线：D 维 7.9（README + G02 已落稿，唯余未入库 _ai_review 待审）、C 维 7.8（〔待核实〕未清零）。距离 0411 标杆（≈7.85）持平略高，但 0411 已入库且经 5 轮人工评议，本专题目前是 2 轮 agent 评议 + 待审，成熟度仍有差距。

[!warning] 综合分的诚实校准 8.0 这个数字本身要小心读。它建立在”各节点 R1 修订日志所声称的接地都已落实”这一假设上。终轮综合没有逐节点重跑 grounding pass，若独立校验发现仍有编造数字残留，综合分应下调。这正是本专题自己讲的 Goodhart——别把”自评分”当成”被验证的质量”。

2026-06-12 内审·arXiv 联网核实补记：已对全专题被引的 24 个独立 arXiv 编号逐个 WebFetch 核验存在性与标题/作者吻合度，24/24 全部坐实存在且引述大体吻合，0 个无法解析。订正 1 处作者归属（A05 的 arXiv:2601.09065 由误署”Basile et al.”改为实际作者 Xu & Jurgens 2026）。注意：这只核了 arXiv 引文身份；正文残留的〔待核实〕绝大多数是行业数字、百分比、会议归属、博客标题/日期、推文措辞等非 arXiv 项，本轮未触碰，C 维扣分依然成立。

对手立场接入清单（宪章要求 ≥8 处具名回应，全专题汇总）

LeCun 路线 / 换更难 benchmark 派（S01 §10）：接受难度提升能临时恢复判别力，但只动 L1、治不了另五层（接 ICML 2025 ‘Emperor’s New Clothes’）。
SWE-bench 原作者 Jimenez/Yang”难度与污染时间不相关”（E02 对手1 / A01 §7）：接受其时间切分实证认真，但已被 OpenAI 2026 gold-patch 复现证据击穿。
Scale AI SEAL”标准化脚手架可解耦模型能力”（E02 对手2）：接受方向对，但把问题挪到”谁当裁判”（私有策展方利益冲突，Bansal & Maini 2025）。
HELM / 学术公开评测派（E02 对手3）：接受公开可复现是私有 holdout 给不了的公共品，但透明 vs 抗污染是真实 trade-off。
LLM-as-Judge / Prometheus 阵营（S02 对手A）：接受专用评判模型把自动评测从最贵闭源解放，但裁判质量换成了裁判泛化问题，根约束未变。
离线评测无用论（精益创业谱系）（S02 对手B）：接受线上 A/B 是最高效度偏好信号，但三条边界把它挡在”唯一答案”外。
LMArena 对 ‘Leaderboard Illusion’ 的官方反驳（G01 §4 / E03 §3/§6）：接受其”私测增益仅 +11 Elo”用实测、比 Singh 的模拟可信，但机制性偏差不因虚高量级之争而消失。
“偏好就是终极目标”派 / RLHF 直觉（E03 对手B）：接受消费级场景偏好≈产品价值，但高风险场景即时偏好与长期价值系统性背离。
Scale AI”前沿模型未过拟合 benchmark”（A06 §5）：接受 GSM1K 低落差是事实，但闭源模型应默认”污染状态不可知”。
技术社区（Kambhampati 等）“社会学定律不能平移到 LLM”（A06 §5）：接受博弈主体是实验室不是模型，但 Goodhart 结论不要求被优化者有意图。
模型 benchmark 派”信榜单跟前沿走”（A02 §6）：接受粗筛尺度强相关，但决赛/验收尺度层间相关性会塌。
RAGAS 团队 / 无参考评估拥护者 + ARES + RAG Triad（E01 §6）：接受无参考评估的工程价值，但更深的根在”用 LLM 当尺子本身”，两个对手都没拔除。

failure scenario 清单（宪章要求 ≥5 处，全专题汇总）

S01：六层都建的主张在早期/小团队 MVP 阶段失效——强搭六层会拖死迭代，应只建 L1+L5 最简版。
A02：做题型应用（纯知识问答、与 benchmark 同分布）里四层坍缩成一层，分层开销纯浪费。
G01：若出现”可证明抗污染且保真”的动态题库生成技术，L1 自动化或可替代大部分 L6 治理工作。
S03：≤5 人团队、产品早期探索期，meta-eval 搭建成本超过信号价值，vibe check 是更优解。
E02：32.67% 泄漏数字本身要小心读——不等于”32.67% 分数是假的”，且一手出处未坐实。
A06：若未来出现”原理上免疫优化压力”的评测机制（私有/一次性/即时销毁），则测量框架重新占上风、“生命周期管理”立场需降级。
S02：安全/合规人评是唯一 gold 的硬规则，在”法规提供明确可枚举映射”时失效——可枚举的合规走规则法终判。

confirmation-bias 砍除清单（宪章要求 ≥5 处，全专题汇总）

“Cohen’s Kappa 0.84 vs 人类 0.97” —— 多个节点早期反复引此对数字作为”LLM-judge 接近人类”的正面/反面案例，R1 经核 Zheng 2023 原文通篇未用 Cohen’s Kappa，全部删除（S01/S02/A06/S03/A02 同步）。
“SWE-bench 93.9%→45.9% 差 48 点” —— 早期把 Opus 4.5 的 Pro 分（45.9%）错安在 Mythos Preview（Verified 93.9%）头上，伪造”普遍腰斩”叙事；R1 拆成两个模型分写，纠正为”落差因模型而异、且是质量判别器”（E02/E01/S03/A06 同步）。
“OpenAI 弃用 SWE-bench Verified 在 2025” —— 早期误写年份，R1 订正为 2026-02-23，并补技术理由（59.4% 失败子集有测试缺陷），不再单用政治经济学解释。
“JudgeBench 仅略好于随机”过度概括 —— 早期笼统下结论，R1 改为分维度精确值（知识 44.2%/推理 48.0%/数学 66.1%/编程 61.9%），并区分 JudgeBench（测裁判能力）与 CALM（量化偏差）两个常被混淆的独立工作。
“Arena 与 SWE-bench 数据特权同构” —— 早期把两类不对称当同一回事，R1 加机制辨析：Arena 是采样/披露特权、SWE-bench 是训练覆盖+工程资源特权，结论一致但机制不同，+112% 是 Arena 数字不能搬用。
“换更难 benchmark 就解决污染” —— 这是全专题反复回灌的反例（A06/G01/S01/E02），用 ICML 2025 ‘Emperor’s New Clothes’ 20 策略无一显著优于不处理来砍除”难度=免疫”的乐观。

§8 关联节点（双链密度 ≥20）

本专题 19 节点（依赖链导航）

概念辨析：A01 评测概念史与语义流变、A02 评测对象层级辨析·模型／系统／产品／Agent eval、A03 Benchmark 与数据污染、A04 LLM-as-Judge、A05 人工评测与标注一致性、A06 Goodhart 与指标失效、A07 Red Teaming 作为评测实践、A08 Eval-driven Development
代际演化：G01 评测范式代际谱系总图、G02 评测代际演化详解
架构剖面：S01 评测体系分层剖面（★旗舰）、S02 评测方法流派对照矩阵、S03 Eval-Ops 全景
实例剖解：E01 RAGAS & RAG 评测体系剖解、E02 SWE-bench & Coding Agent 评测剖解、E03 Chatbot Arena·LMArena & 人类偏好评测剖解
复现指南：R01 最小可运行·100 行 LLM-as-Judge、R02 中型·建 benchmark + 标注指南 + IAA 计算、R03 Agent trajectory eval 模板

升级对照的既有节点（不复述、只升级）

c14 - 模型评估体系与 Goodhart 陷阱、m205 - RAG 生产环境：索引运维与评估体系、m207 - Agent 产品化：场景推演与失败模式、Cohen Kappa 系数、Agent 产品评估的五个具体问题

对话/延伸的既有节点

c13 - 幻觉的不可消除性、c11 - System 2 思维与 Test-Time Compute、c09 - RAG 架构、c10 - Agent 技术栈与工具调用、c01 - 认知重构：从确定性系统到概率系统、幻觉、RAG、Embedding、SFT、RLHF、强化学习、Test-Time Compute

跨专题互链（0411 Agent 系统化）

_Agent 系统化专题·总览、S01 Agent 六层架构剖面、G01 Agent 代际谱系总图、A04 Reflexion、E02 通用 Agent·Manus & Devin、m209 - 推理成本控制手册

跨域/方法论 + 总索引

AI概念滥用反思、Rick 写作 SABCD 评级体系、范式、AI PM 知识图谱·总索引

[!note] 双链解析说明专题内 A0x/G01/S0x/E0x/R0x 互链目前指向 99Archive/_ai_review/0412-eval/ 待审区，入库 move 到 04AI/0412 评测系统化专题/ 后随专题一并 resolve。跨专题链（0411）与既有节点链均已在各节点 R1 经 find/grep 核验真实存在。E03 文件名用 · 代 /（原 / 被文件系统拆成目录），别名已含旧 basename LMArena & 人类偏好评测剖解 作兜底。

_评测系统化专题·总览