README · 多视图阅读指南

这是 0412 评测系统化专题 的操作台，不是目录复述。总览（MOC）回答”这个专题为什么存在、由什么组成、对自己有多诚实”;本页只回答一件事——你现在是哪种身份、有多少时间、要拿到什么，应该按什么顺序读、读完怎么自测、上桌怎么扛住反方拷问。 三类人会从这扇门进来：在准备面试的人、在选型会/上线评审上要做决定的人、被一个分数绕晕了想就地拆穿的人。三条路径分别为这三种人铺好。

一句话使用法：先在 §1 三条路径里对号入座选一条走完，再用 §2 的 ≥10 道自测题量一次自己到了哪条线，最后把 §3 反方对话训练当成”上桌前的最后一次陪练”。

§0 怎么用这张地图

这个专题是一张网，不是一条线。20 个节点（19 内容 + 总览）分布在六个模块上，依赖主链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南，代际演化（G01 总图 + G02 逐代详解）横切提供时间维度，A06 Goodhart 作为判断主轴贯穿全专题。你不需要、也不应该从 A01 顺着读到 R03——那是把网读成线，浪费它的结构。

下面三条路径是为三种真实场景预编译好的遍历顺序：

路径	给谁	入口问题	一句话产出
A 求职速通	准备 AI PM 面试的人	”30 秒说清你怎么评估一个 AI 产品”	一套能扛追问的评测话术 + 一个能讲 5 分钟的真实案例
B 决策链（M1–M5）	在选型会/验收评审上要拍板的人	”拿到这个分数，我该不该信、该不该上”	按决策链节点逐层质询任何分数的能力
C 紧迫度（红橙黄蓝）	时间有限、想按”会被坑的概率”排序的人	”我手上的活儿，最先该补哪一块评测知识”	按风险敞口排序的阅读队列

[!note] 三条路径不是互斥的它们是同一张网的三种切法。A 是”为说话准备”,B 是”为决策准备”,C 是”为止血准备”。建议：求职阶段走 A，入职后走 B，遇到具体事故时用 C 定位。三条都把 S01 和 A06 当必经枢纽——前者是承重梁，后者是判断主轴。

§1 三条阅读路径

路径 A：求职速通（面试桌）

给谁：正在准备 AI PM 面试、需要在白板和追问下当场展开的人。前置：无硬前置。有 c14 的底子更顺，但不读也能进。 总时长：约 2.5–3.5 小时（精读 4 个节点 + 背熟话术骨架）。产出：30 秒说清”我怎么评估一个 AI 产品”，且被面试官往任何一层追问都能展开；外加一个能讲 5 分钟、有具名证据的真实案例。

步骤	读什么	时长	你要带走的”一句话弹药”
A1	A01 概念史与语义流变	30–40 min	”eval 通过了”有四种互不兼容的所指——先反问”哪一层、什么集、谁评的、带区间吗”
A2	S01 分层剖面（★旗舰，最厚）	50–70 min	评测是六层堆栈（数据集/指标/评判器/流程/归因/治理），被追问任何一层都能展开；事故能定位到具体接口违约
A3	A06 Goodhart（判断主轴）	25–35 min	”任何 eval 被纳入优化目标就开始失效”——评测要当投资组合管理，不是一次性达标
A4	E02 SWE-bench	30–40 min	一个能讲 5 分钟的真实案例：93.9% 的 Verified 分到真实工单只剩四成，落差本身是质量判别器；榜单是政治经济学产物

走完 A 的周节奏（一周冲刺版）：

天	任务	自检信号
周一	精读 A01，写下”eval 四种所指”卡片	能不看笔记复述四种所指及各自的验收含义
周二	精读 S01 上半（六层 + 接口契约表）	能在白板上默画六层，说出每层的输入输出
周三	精读 S01 下半（三个致命耦合点 + 跨域呼应）	能说清”为什么换更难的 benchmark 没用”——病在治理层不在数据集层
周四	精读 A06，把 Goodhart 接到 S01 的 L2×L6 接口	能用一句话把”指标失效”重诊为治理问题而非测量难度
周五	精读 E02，整理成 5 分钟案例脚本	能脱稿讲完案例，且回答”那你会怎么验收”——业务 holdout
周末	用 §2 自测题前 6 题给自己打分；做一次 §3 反方对话陪练	自测 ≥4 题到”及格线”以上，反方追问能接住 ≥4 个

每周面试问题（用专题节点回答，自检话术成型度）：

“你会怎么评估一个 RAG 产品？”→ 先用 A02 定层（你问的是检索系统还是用户结果），再用 E01 给指标，强调”RAGAS 全绿≠好用”。
“benchmark 分数高就代表模型好吗？”→ 用 A03（饱和+污染+构念效度）+ A06 回答。
“你怎么知道一个评测靠不靠谱？”→ 用 A01 的维特根斯坦”标准 vs 症状” + 构念效度框架。
“上线前的验收标准你怎么定？”→ A08（eval 前置到 PRD）+ S03（CI 回归门禁）。
“如果只能搭一套最简评测，你先搭什么？”→ S01 的 failure scenario：早期只建 L1（数据集）+ L5（归因），别上来铺六层。

路径 B：按 M1–M5 决策链跳转（选型会/在岗）

给谁：手上有真实决策、要在评审桌上拍板”信不信这个分、上不上这个版本”的人。前置：建议先扫过路径 A 的 A01 + S01（约 1.5h），建立词典层与承重梁；否则跳读时会缺骨架。 总时长：非线性，按你当前卡在哪个决策节点对症查阅，单节点 30–50 min。产出：拿到任何一个分数，都能沿决策链逐层质询、说清”为什么我信/不信、上/不上”。

这条路径按总索引的 M1–M5 决策链组织——评测穿过其中五个节点（这正是它配独立建库的中心性证据）：

决策链节点	你的真实问题	主读	辅读	产出
M1 选型（信哪个分）	“三个模型，榜单各有高低，信谁？“	A02 对象四层 → S02 流派矩阵	G01（这次换靶是进步还是退化）、A03	按”任务×约束”选出方法组合，不被单一榜单牵着走
M2 验收（什么算通过）	“算法说 eval 过了，能上线吗？“	A08 → S03	A02（别拿模型 benchmark 当产品验收）、A05	一套”哪一层、什么集、谁评的、带区间吗”的验收门禁
M3 迭代（bad case 怎么回灌）	“线上出问题了，怎么归因、怎么不再犯？“	S03（归因聚类 + eval drift）	S01（L5 归因层）、A07	把 bad case 变成可回归的评测样本，建腐烂监测
M4 对外宣称（话术红线）	“销售要把 SWE-bench 分写进标书，拦不拦？“	E02 → E03	A06、A01	知道每个对外数字”丢了什么”，划出不可宣称的红线
M5 合规举证（安全怎么证）	“监管/客户要安全证据，拿什么交？“	A07	A05（人评是 gold）、S02	一套对抗性评测 + 可枚举合规走规则法的举证组合

[!tip] B 路径的通用动作不管卡在哪个 M，都先做同一件事：用 A02 定层（你评的是模型能力、RAG/Agent 系统、产品体验、还是用户结果？），再用 S01 把分数挂到具体某一层。四层混用、层级错配，是选型/验收事故的根源。

路径 C：按红橙黄蓝紧迫度（复现台/止血）

给谁：时间有限，想按”踩坑概率”而不是”知识完整度”来排序的人。前置：无。每个紧迫度档位都是自包含的就地止血。 总时长：红档单读约 1–1.5h，全档跑完约同路径 A。产出：按风险敞口排序的阅读队列——先补最可能让你当场翻车的那块。

档	含义	触发场景	先读	时长	产出
🔴 红·立即	不补就会当场出事	你正在用一个分数做决定/写进标书/当验收线	A01 + A06	1–1.5h	立刻能反问”哪一层、谁评的、被优化过吗”，挡住最常见的滑变事故
🟠 橙·本周	近期一定会撞上	你要搭/接手一套评测体系	S01 + S03	2–2.5h	能把评测当可分层、可定位责任、会腐烂的系统来搭，而非堆指标
🟡 黄·本月	会影响判断质量但不致命	你在判断某个具体评测系统可不可信	对症选 E01 / E02 / E03	1–1.5h/篇	对你天天用的那套评测做构念效度审计
🔵 蓝·有空	长期内功，不急但提升上限	你想从”会用评测”升到”会造评测”	R01 → R02 → R03 + G01 → G02	4–6h	把判断变成可贴 PR 的数字 + 在代际谱系里定位任何新范式（G02 逐代病历卡）

[!warning] 紧迫度不等于重要度蓝档（复现指南 + 代际谱系）紧迫度最低，但它是把”嘴上会说”变成”手上真做过”的唯一通道——面试里区分”读过”和”搭过”就靠这块。别因为它”不急”就永远不读。红档解决”今天别翻车”，蓝档决定”半年后你的判断上限”。

§2 自测题（每题：及格线 / 优秀线 / 反例）

读完不等于学会。下面 12 道题覆盖六个模块，每题给三条线——及格线（基本判断力到位）、优秀线（能扛追问、带证据）、反例（错答会怎样、会被反方怎么打）。建议：路径 A 走完测前 6 题，全专题读完测全部。自评 ≥9 题到及格线、≥5 题到优秀线，才算这专题”读进去了”。

Q1（A01）“eval 通过了”到底意味着什么？

及格线：能指出”eval”一词有多种所指，不能直接等于”可以上线”。
优秀线：能列出四种互不兼容所指（学界竞赛分提升 / 软件测试通过 / 产品体验达标 / 用户结果改善），并指出说话人与听话人各默认了不同一种、事故发生在缝里；能反问”哪一层、什么集、谁评的、带区间吗”。
反例（错答会怎样）：把”eval 过了”直接理解成”可以上线”——这正是 §0 序里销售把 SWE-bench 分写进标书、客户验收只剩四成的同款事故。

Q2（A06）为什么”换一个更难的 benchmark”治不了评测失效？

及格线：能说出 Goodhart——“当指标成为目标即不再是好指标”。
优秀线：能把它从”题不够难”的测量问题，重诊为”指标被纳入优化即失效”的治理问题；能定位到 L2×L6 接口（指标层与治理层的耦合），并引 ICML 2025 ‘Emperor’s New Clothes’（20 种去污染策略无一显著优于不处理）。
反例：回答”那就用最新最难的 benchmark”——把饱和时钟往后拨几个月而已，Goodhart 在治理层、污染在数据集×评判器接口上，换十个 benchmark 也修不掉。

Q3（A02）“模型 benchmark 分高的就是好产品”错在哪？

及格线：能区分”评模型能力”和”评产品体验”不是一回事。
优秀线：能讲清四层（模型 / 系统 / 产品 / 用户结果）及”系统层→结果层不传递”的盲区；能举”拿模型 benchmark 当产品验收”为典型错配事故。
反例：直接拿 MMLU/榜单分给产品上线开绿灯——粗筛尺度相关，但决赛/验收尺度层间相关性会塌。

Q4（A03）静态 benchmark 最致命的三个问题是什么？

及格线：能说出污染（contamination）这一项。
优秀线：能讲饱和（saturation）、数据污染、过拟合 leaderboard 三者，并补构念效度——“高信度可以掩盖低效度”，MMLU 的问题精确表述为”构念效度失败”。
反例：只会说”benchmark 会被刷分”，说不清污染发生在 L1→L4 哪个接口、也分不清污染与过拟合。

Q5（A04）LLM-as-Judge 什么时候不能信？

及格线：能指出它有系统性偏差，不能无条件信。
优秀线：能点名 position / verbosity / self-preference 三种 bias，说清”用 judge 评 judge”的循环风险，并给缓解（顺序交换缓解位置偏差、rubric 化打分、与人工小样本比对）。
反例：“LLM 打分客观高效，可以全量替代人工”——这恰是 §3 反方追问 R2 要打的点。

Q6（A05）“两个标注员都说好”就够了吗？

及格线：知道要看标注一致性，不能只看单人。
优秀线：能讲 IAA、Cohen’s Kappa/Fleiss/Krippendorff alpha，给出可操作熔断信号（如 κ<0.6 停采信），并强调黄金集治理 + 标注指南是前提。
反例：直接平均两人打分当 ground truth，不算 κ——一致性可能只是偶然，黄金集本身不可信。

Q7（S01）请在白板上画出评测体系的分层。

及格线：能画出 3 层以上，区分”数据/指标/流程”。
优秀线：能默画六层（数据集 / 指标 / 评判器 / 流程 / 归因 / 治理），说出每层输入输出 + 至少一个致命耦合点（如 L2 指标×L6 治理 = Goodhart、L1 数据×L4 评判器 = 污染），并标 failure scenario（MVP 别建六层，先 L1+L5）。
反例：把评测说成”就是跑个分”——无法给失真分数做责任定位，事故只能归咎”模型不行”。

Q8（S02）“哪种评测方法最好？”

及格线：能说”看场景，没有绝对最好”。
优秀线：能用六法 × 六维矩阵（规则/参考/语义/LLM-judge/人评/Arena × 成本/可扩展/可靠性/可解释/抗污染/适用对象）回答，并用 MCDA 框架指出”最好的评测法”是病态问题——只有给定约束下最合适的组合。
反例：脱口而出”LLM-as-Judge 最好，又快又便宜”——忽略它把”裁判质量”换成了”裁判泛化”问题。

Q9（E03）Chatbot Arena 排名能直接当选型依据吗？

及格线：知道 Arena 排名有偏差，不能盲信。
优秀线：能讲 Bradley-Terry/Elo、style/length bias 与 style-control 争议，并用社会选择理论（Arrow 不可能定理）说明任何偏好聚合都必然牺牲某条性质（BT 牺牲 IIA，故废弃模型会扰动排名）；能补”偏好≠质量”。
反例：“Arena 是真人盲投，最可信”——这正是本专题对 c14 乐观的纠偏点（Arena 自带 WEIRD 样本 / gaming / BT 传递性脆弱）。

Q10（E02）SWE-bench 高分等于工程能力强吗？

及格线：知道榜单分数与真实工程能力有 gap。
优秀线：能讲 SWE-bench / Verified 的设计、污染与 gaming，把”标准化 harness 缺失”重诊为权力问题（谁出题、谁建 harness、谁有数据特权），并知道 OpenAI 2026-02-23 弃用 Verified 的技术理由（59.4% 失败子集有测试缺陷）。
反例：把 93.9% 直接安到自己产品上、或编造”普遍腰斩 48 点”叙事（这正是 §7 砍除清单里被纠正的 confirmation bias——落差因模型而异）。

Q11（G01/G02）评测是不是越测越准、一代更比一代强？

及格线：知道不是简单的线性进步。
优秀线：能用库恩范式更替 + 拉卡托斯纲领退化两把尺（G01 拿框架、G02 拿逐代病历卡与反例），区分这次换靶是进步性（测到新维度）还是退化性（只堵旧漏洞），并指出多数代际更替是退化性的、每一代都配反例。
反例：把六代谱系讲成”能力天梯”线性进步史——这是宪章明令的反模式，会被问”那 perplexity 时代测不到的、现在也测不到的是什么”当场卡住。

Q12（R01/R03）你”亲手”搭过评测吗？

及格线：能描述一个最小评测流程（取样本 / 定指标 / 打分 / 比对人工）。
优秀线：能讲清亲手复现位置偏差（R01：pairwise judge + 顺序交换看分数真会变）、或 τ-bench 风格轨迹评测（R03：step-level + outcome-level，区分”做对的”和”蒙对的”轨迹、silent drift detection）。
反例：只会复述论文百分比、说不出任何一行自己跑过的东西——面试里”读过”和”搭过”就在这里分野。

§3 反方对话训练（评测领域 6 个高频反方追问）

原则（接宪章 §7）：用反对的声音陪练，不是用赞同的声音壮胆。 下面 6 个是评测领域最常被甩到 PM 脸上的反方追问。每个给”反方在说什么 + 答题要点（接受+边界，不是反驳）+ 弹药节点”。上桌前把这 6 个过一遍——它们就是会真打你的那些拳。

R1. “benchmark 不都被污染了吗，你还信那个分数？”

反方在说什么：既然训练数据可能包含测试集、leaderboard 又能被过拟合，那任何 benchmark 分数都是注水的，谈评测没意义。
答题要点：
- 接受：污染是真问题，闭源模型应默认”污染状态不可知”（接 A03）；连”换更难的 benchmark”也治不了（ICML 2025 ‘Emperor’s New Clothes’：20 种去污染策略无一显著优于不处理）。
- 边界：但”分数没用”是过度推论。第一，污染是接口问题（L1 数据×L4 评判器），可以靠私有 holdout / 业务集隔离来缓解，不是无解；第二，承认 Scale AI 的 GSM1K 低落差是事实（前沿模型未普遍过拟合）。
- 反打：真正该换的不是”信不信分数”,而是”信哪一层的分数”——公开榜做粗筛、私有 holdout 做验收，两层分开（接 A02）。
弹药：A03 + E02 + A06

R2. “LLM-as-judge 不就是 AI 自己给自己打分吗，这能信？”

反方在说什么：用一个模型评另一个模型（甚至评自己），既有自我偏好、又是循环论证，本质是左手评右手。
答题要点：
- 接受：偏差是真的——position bias、verbosity bias、self-preference bias 都有实证；“用 judge 评 judge”确实有循环风险（接 A04）。
- 边界：但”不能信”太绝对。第一，偏差可缓解可量化（顺序交换缓解位置偏差、rubric 化打分、与人工小样本比对求一致性）；第二，关键是把它放在对的位置——judge 适合大规模初筛、不适合高风险终判，安全/合规仍以人评为 gold（接 S02 / A05）。
- 反打：根问题不是”AI 评 AI”,而是”用任何单一尺子当唯一裁判”。正确做法是 judge + 人评小样本校准 + κ 熔断（κ<0.6 停采信），把 judge 当传感器不当法官。
弹药：A04 + A05 + R01（亲手复现偏差）

R3. “Arena 排名有 style bias，你还拿它做决策？”

反方在说什么：Chatbot Arena 的真人投票被回答长度、排版、语气这些风格因素带偏，排名反映的是”讨人喜欢”不是”质量”,不能用。
答题要点：
- 接受：style/length bias 是实证存在的，LMArena 自己上了 style-control 就是承认；更深一层，社会选择理论（Arrow 1951）证明任何偏好聚合都必然牺牲某条合理性质，BT/Elo 牺牲的恰是 IIA——所以废弃模型会扰动排名、几百张票能撬动全局（接 E03）。
- 边界：但这不是”扔掉 Arena”,而是”知道它测的是什么”。Arena 测的是人类即时偏好，在消费级对话场景里偏好≈产品价值，是有效信号；它失效在高风险场景（即时偏好与长期价值系统性背离）。
- 反打：用 style-control 后的排名、且只用作”是否进入候选池”的粗筛，不用作终审；终审回到业务 holdout（接 A02）。这也是对 c14”Arena 盲测相对可信”乐观立场的纠偏。
弹药：E03 + A04（偏好≠质量）

R4. “线上 A/B 才是真理，离线评测都是自嗨，你搞这一套有什么用？”

反方在说什么（精益创业 / 持续部署谱系）：用户真实行为才是最高效度的信号，离线 benchmark 和黄金集都是闭门造车，不如直接上线跑 A/B。
答题要点：
- 接受：线上 A/B 确实是最高效度的偏好信号，这点不争（接 S02 对手立场 B）。
- 边界：但它有三条硬边界把它挡在”唯一答案”之外——① 延迟归因（线上看到掉点时已经伤了用户，且不知道哪一步坏的）；② 不可枚举的尾部失败（A/B 测不出低频但致命的 case，比如安全/合规事故）；③ 伦理不可逆（有些失败不能拿真实用户当试验品）。离线评测的价值正是在上线前拦住这三类。
- 反打：两者不是替代是接力——离线评测做上线门禁（拦尾部失败），线上 A/B 做上线后校准（修偏好漂移）。S03 讲的就是这条 offline→online 闭环 + eval drift 监测。
弹药：S02 + S03 + A07（不可枚举的尾部 = 对抗性评测的战场）

R5. “你定的这些指标，团队照着优化几个月不就刷上去了？那评测还有意义吗？”

反方在说什么：只要指标公开、又进了 OKR，团队自然会针对指标优化，分数涨了能力没涨，评测自我瓦解。
答题要点：
- 接受：这正是 Goodhart——指标一旦成为优化目标就开始失效，这不是 bug 是规律（接 A06）；甚至 Strathern 的审计社会学说得更狠：问题不在指标难度，在度量与晋升/预算/对外宣称的挂钩本身。
- 边界：但结论不是”评测无意义”,而是”评测要当投资组合管理，不是一次性达标”。具体三招：① 指标轮换/保鲜（把 eval set 当消耗品，定期换血）；② 私有 + 一次性集做关键验收（用过即弃，免疫优化压力）；③ 指标与激励解耦（评测结果不直接进个人 KPI）。
- 反打：承认一个 failure scenario——若未来出现”原理上免疫优化压力”的评测机制（私有/一次性/即时销毁），则”生命周期管理”立场要降级，测量难度框架重新占上风。这是我赌的边界。
弹药：A06 + A08 + G01

R6. “Agent 这种多步任务，结果对了不就行了，还分什么过程评测，是不是过度工程？”

反方在说什么：只要 Agent 最后把活干成了（outcome 对），中间怎么走的不重要，搞 step-level 轨迹评测是 PM 没事找事。
答题要点：
- 接受：outcome-level 是最终标准，结果错了过程再漂亮也没用，这点对（接 R03）。
- 边界：但”只看结果”会漏两类致命情况——① 蒙对（错误路径偶然得到对的结果，下次就翻车，无法区分”做对的”和”蒙对的”轨迹）；② silent drift（结果暂时还对，但工具调用已经开始悄悄退化，结果掉点是滞后信号）。所以要 step-level（工具调用正确性）+ outcome-level 双轨。
- 反打：这不是过度工程，是归因前置——m207 的六类失败模式，只有在轨迹层才能聚类归因；只看结果，bad case 永远复盘不出根因（接 S01 的 L5 归因层）。
弹药：R03 + S01 + m207

[!tip] 反方训练的元规则这 6 个回答全部遵循同一个工艺：先接受反方对的部分，再用”边界/赌注”划出本专题坚持的地方，最后给一个可操作的”那应该怎么做”。 这比”直接反驳”强，因为面试官/评审甩反方追问，考的从来不是”你能不能赢这场辩论”,而是”你知不知道自己判断的边界在哪”。这也是 SABCD 里 E 维（对手拷问能力）的核心——用反对的声音建造。

§4 关联节点

本专题入口（必经枢纽）

_评测系统化专题·总览（MOC，先读它建立全局）、S01 评测体系分层剖面（★承重梁）、A06 Goodhart 与指标失效（★判断主轴）

概念辨析（路径 A/C 词典层）

A01 评测概念史与语义流变、A02 评测对象层级辨析·模型／系统／产品／Agent eval、A03 Benchmark 与数据污染、A04 LLM-as-Judge、A05 人工评测与标注一致性、A07 Red Teaming 作为评测实践、A08 Eval-driven Development

代际演化 / 架构剖面 / 实例剖解 / 复现指南

升级对照 / 对话的既有节点

c14 - 模型评估体系与 Goodhart 陷阱、m205 - RAG 生产环境：索引运维与评估体系、m207 - Agent 产品化：场景推演与失败模式、Cohen Kappa 系数、Agent 产品评估的五个具体问题、c13 - 幻觉的不可消除性、c11 - System 2 思维与 Test-Time Compute

跨专题 + 方法论 + 总索引

_Agent 系统化专题·总览、S01 Agent 六层架构剖面、G01 Agent 代际谱系总图、AI概念滥用反思、Rick 写作 SABCD 评级体系、AI PM 知识图谱·总索引

§5 修订日志

R0（2026-06-06，综合初稿）：基于总览与全部 17 个内容节点的节点索引，按宪章 §4/§12 README 规格写成。含 §0 用法说明；§1 三条路径（A 求职速通含一周冲刺周节奏表 + 5 道每周面试问题、B 按 M1–M5 决策链跳转含五节点主读/辅读/产出表、C 红橙黄蓝紧迫度含触发场景/时长/产出表），每条标时长/前置/产出；§2 12 道自测题（覆盖六模块，每题及格线/优秀线/反例三线）；§3 评测领域 6 个高频反方追问的对话训练（污染/LLM-as-judge 自评/Arena style bias/线上 A/B 派/Goodhart 刷分/Agent 过程评测），每个走”接受+边界+反打”工艺并挂弹药节点；§4 关联节点（双链密度 ≈40，全部用真实节点名）；§5 本日志。待后续轮次：①入库 move 到 final_path 后复检全部专题内双链 resolve；②若 G02 落稿，路径 C 蓝档与 §2 Q11 补 G02 链接；③终轮 grounding pass 复核 §2/§3 引用的具体数字（ICML 2025 ‘Emperor’s New Clothes’、GSM1K、OpenAI 2026-02-23 弃用 Verified、59.4% 失败子集）是否与各节点 R1 接地一致。
2026-06-12 内审修复：G02《评测代际演化详解》已落稿（27477 字节），兑现 R0 待办②③——(1) §0 导语节点计数 18 个节点（17 内容）→20 个节点（19 内容），并把代际演化补成”G01 总图 + G02 逐代详解”；(2) 路径 C 蓝档读链补 G01 → [G02](/kb/专题-评测与度量/g02-评测代际演化详解/)；(3) §2 Q11 标题改 G01/G02、答案补 G02 链与”G01 拿框架、G02 拿病历卡反例”分工；(4) §4 关联节点代际演化行补 G02 评测代际演化详解。此前 G02 为全库零入链孤儿，本次补链消灭之。R0 日志内历史”17”按 append-only 保留。

README·0412·多视图阅读指南