README·0412·多视图阅读指南
README · 多视图阅读指南
这是
0412 评测系统化专题的操作台,不是目录复述。总览(MOC)回答”这个专题为什么存在、由什么组成、对自己有多诚实”;本页只回答一件事——你现在是哪种身份、有多少时间、要拿到什么,应该按什么顺序读、读完怎么自测、上桌怎么扛住反方拷问。 三类人会从这扇门进来:在准备面试的人、在选型会/上线评审上要做决定的人、被一个分数绕晕了想就地拆穿的人。三条路径分别为这三种人铺好。一句话使用法:先在 §1 三条路径里对号入座选一条走完,再用 §2 的 ≥10 道自测题量一次自己到了哪条线,最后把 §3 反方对话训练当成”上桌前的最后一次陪练”。
§0 怎么用这张地图
这个专题是一张网,不是一条线。20 个节点(19 内容 + 总览)分布在六个模块上,依赖主链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南,代际演化(G01 总图 + G02 逐代详解)横切提供时间维度,A06 Goodhart 作为判断主轴贯穿全专题。你不需要、也不应该从 A01 顺着读到 R03——那是把网读成线,浪费它的结构。
下面三条路径是为三种真实场景预编译好的遍历顺序:
| 路径 | 给谁 | 入口问题 | 一句话产出 |
|---|---|---|---|
| A 求职速通 | 准备 AI PM 面试的人 | ”30 秒说清你怎么评估一个 AI 产品” | 一套能扛追问的评测话术 + 一个能讲 5 分钟的真实案例 |
| B 决策链(M1–M5) | 在选型会/验收评审上要拍板的人 | ”拿到这个分数,我该不该信、该不该上” | 按决策链节点逐层质询任何分数的能力 |
| C 紧迫度(红橙黄蓝) | 时间有限、想按”会被坑的概率”排序的人 | ”我手上的活儿,最先该补哪一块评测知识” | 按风险敞口排序的阅读队列 |
[!note] 三条路径不是互斥的 它们是同一张网的三种切法。A 是”为说话准备”,B 是”为决策准备”,C 是”为止血准备”。建议:求职阶段走 A,入职后走 B,遇到具体事故时用 C 定位。三条都把 S01 和 A06 当必经枢纽——前者是承重梁,后者是判断主轴。
§1 三条阅读路径
路径 A:求职速通(面试桌)
给谁:正在准备 AI PM 面试、需要在白板和追问下当场展开的人。 前置:无硬前置。有 c14 的底子更顺,但不读也能进。 总时长:约 2.5–3.5 小时(精读 4 个节点 + 背熟话术骨架)。 产出:30 秒说清”我怎么评估一个 AI 产品”,且被面试官往任何一层追问都能展开;外加一个能讲 5 分钟、有具名证据的真实案例。
| 步骤 | 读什么 | 时长 | 你要带走的”一句话弹药” |
|---|---|---|---|
| A1 | A01 概念史与语义流变 | 30–40 min | ”eval 通过了”有四种互不兼容的所指——先反问”哪一层、什么集、谁评的、带区间吗” |
| A2 | S01 分层剖面(★旗舰,最厚) | 50–70 min | 评测是六层堆栈(数据集/指标/评判器/流程/归因/治理),被追问任何一层都能展开;事故能定位到具体接口违约 |
| A3 | A06 Goodhart(判断主轴) | 25–35 min | ”任何 eval 被纳入优化目标就开始失效”——评测要当投资组合管理,不是一次性达标 |
| A4 | E02 SWE-bench | 30–40 min | 一个能讲 5 分钟的真实案例:93.9% 的 Verified 分到真实工单只剩四成,落差本身是质量判别器;榜单是政治经济学产物 |
走完 A 的周节奏(一周冲刺版):
| 天 | 任务 | 自检信号 |
|---|---|---|
| 周一 | 精读 A01,写下”eval 四种所指”卡片 | 能不看笔记复述四种所指及各自的验收含义 |
| 周二 | 精读 S01 上半(六层 + 接口契约表) | 能在白板上默画六层,说出每层的输入输出 |
| 周三 | 精读 S01 下半(三个致命耦合点 + 跨域呼应) | 能说清”为什么换更难的 benchmark 没用”——病在治理层不在数据集层 |
| 周四 | 精读 A06,把 Goodhart 接到 S01 的 L2×L6 接口 | 能用一句话把”指标失效”重诊为治理问题而非测量难度 |
| 周五 | 精读 E02,整理成 5 分钟案例脚本 | 能脱稿讲完案例,且回答”那你会怎么验收”——业务 holdout |
| 周末 | 用 §2 自测题前 6 题给自己打分;做一次 §3 反方对话陪练 | 自测 ≥4 题到”及格线”以上,反方追问能接住 ≥4 个 |
每周面试问题(用专题节点回答,自检话术成型度):
- “你会怎么评估一个 RAG 产品?”→ 先用 A02 定层(你问的是检索系统还是用户结果),再用 E01 给指标,强调”RAGAS 全绿≠好用”。
- “benchmark 分数高就代表模型好吗?”→ 用 A03(饱和+污染+构念效度)+ A06 回答。
- “你怎么知道一个评测靠不靠谱?”→ 用 A01 的维特根斯坦”标准 vs 症状” + 构念效度框架。
- “上线前的验收标准你怎么定?”→ A08(eval 前置到 PRD)+ S03(CI 回归门禁)。
- “如果只能搭一套最简评测,你先搭什么?”→ S01 的 failure scenario:早期只建 L1(数据集)+ L5(归因),别上来铺六层。
路径 B:按 M1–M5 决策链跳转(选型会/在岗)
给谁:手上有真实决策、要在评审桌上拍板”信不信这个分、上不上这个版本”的人。 前置:建议先扫过路径 A 的 A01 + S01(约 1.5h),建立词典层与承重梁;否则跳读时会缺骨架。 总时长:非线性,按你当前卡在哪个决策节点对症查阅,单节点 30–50 min。 产出:拿到任何一个分数,都能沿决策链逐层质询、说清”为什么我信/不信、上/不上”。
这条路径按 总索引 的 M1–M5 决策链组织——评测穿过其中五个节点(这正是它配独立建库的中心性证据):
| 决策链节点 | 你的真实问题 | 主读 | 辅读 | 产出 |
|---|---|---|---|---|
| M1 选型(信哪个分) | “三个模型,榜单各有高低,信谁?“ | A02 对象四层 → S02 流派矩阵 | G01(这次换靶是进步还是退化)、A03 | 按”任务×约束”选出方法组合,不被单一榜单牵着走 |
| M2 验收(什么算通过) | “算法说 eval 过了,能上线吗?“ | A08 → S03 | A02(别拿模型 benchmark 当产品验收)、A05 | 一套”哪一层、什么集、谁评的、带区间吗”的验收门禁 |
| M3 迭代(bad case 怎么回灌) | “线上出问题了,怎么归因、怎么不再犯?“ | S03(归因聚类 + eval drift) | S01(L5 归因层)、A07 | 把 bad case 变成可回归的评测样本,建腐烂监测 |
| M4 对外宣称(话术红线) | “销售要把 SWE-bench 分写进标书,拦不拦?“ | E02 → E03 | A06、A01 | 知道每个对外数字”丢了什么”,划出不可宣称的红线 |
| M5 合规举证(安全怎么证) | “监管/客户要安全证据,拿什么交?“ | A07 | A05(人评是 gold)、S02 | 一套对抗性评测 + 可枚举合规走规则法的举证组合 |
[!tip] B 路径的通用动作 不管卡在哪个 M,都先做同一件事:用 A02 定层(你评的是模型能力、RAG/Agent 系统、产品体验、还是用户结果?),再用 S01 把分数挂到具体某一层。四层混用、层级错配,是选型/验收事故的根源。
路径 C:按红橙黄蓝紧迫度(复现台/止血)
给谁:时间有限,想按”踩坑概率”而不是”知识完整度”来排序的人。 前置:无。每个紧迫度档位都是自包含的就地止血。 总时长:红档单读约 1–1.5h,全档跑完约同路径 A。 产出:按风险敞口排序的阅读队列——先补最可能让你当场翻车的那块。
| 档 | 含义 | 触发场景 | 先读 | 时长 | 产出 |
|---|---|---|---|---|---|
| 🔴 红·立即 | 不补就会当场出事 | 你正在用一个分数做决定/写进标书/当验收线 | A01 + A06 | 1–1.5h | 立刻能反问”哪一层、谁评的、被优化过吗”,挡住最常见的滑变事故 |
| 🟠 橙·本周 | 近期一定会撞上 | 你要搭/接手一套评测体系 | S01 + S03 | 2–2.5h | 能把评测当可分层、可定位责任、会腐烂的系统来搭,而非堆指标 |
| 🟡 黄·本月 | 会影响判断质量但不致命 | 你在判断某个具体评测系统可不可信 | 对症选 E01 / E02 / E03 | 1–1.5h/篇 | 对你天天用的那套评测做构念效度审计 |
| 🔵 蓝·有空 | 长期内功,不急但提升上限 | 你想从”会用评测”升到”会造评测” | R01 → R02 → R03 + G01 → G02 | 4–6h | 把判断变成可贴 PR 的数字 + 在代际谱系里定位任何新范式(G02 逐代病历卡) |
[!warning] 紧迫度不等于重要度 蓝档(复现指南 + 代际谱系)紧迫度最低,但它是把”嘴上会说”变成”手上真做过”的唯一通道——面试里区分”读过”和”搭过”就靠这块。别因为它”不急”就永远不读。红档解决”今天别翻车”,蓝档决定”半年后你的判断上限”。
§2 自测题(每题:及格线 / 优秀线 / 反例)
读完不等于学会。下面 12 道题覆盖六个模块,每题给三条线——及格线(基本判断力到位)、优秀线(能扛追问、带证据)、反例(错答会怎样、会被反方怎么打)。建议:路径 A 走完测前 6 题,全专题读完测全部。自评 ≥9 题到及格线、≥5 题到优秀线,才算这专题”读进去了”。
Q1(A01)“eval 通过了”到底意味着什么?
- 及格线:能指出”eval”一词有多种所指,不能直接等于”可以上线”。
- 优秀线:能列出四种互不兼容所指(学界竞赛分提升 / 软件测试通过 / 产品体验达标 / 用户结果改善),并指出说话人与听话人各默认了不同一种、事故发生在缝里;能反问”哪一层、什么集、谁评的、带区间吗”。
- 反例(错答会怎样):把”eval 过了”直接理解成”可以上线”——这正是 §0 序里销售把 SWE-bench 分写进标书、客户验收只剩四成的同款事故。
Q2(A06)为什么”换一个更难的 benchmark”治不了评测失效?
- 及格线:能说出 Goodhart——“当指标成为目标即不再是好指标”。
- 优秀线:能把它从”题不够难”的测量问题,重诊为”指标被纳入优化即失效”的治理问题;能定位到 L2×L6 接口(指标层与治理层的耦合),并引 ICML 2025 ‘Emperor’s New Clothes’(20 种去污染策略无一显著优于不处理)。
- 反例:回答”那就用最新最难的 benchmark”——把饱和时钟往后拨几个月而已,Goodhart 在治理层、污染在数据集×评判器接口上,换十个 benchmark 也修不掉。
Q3(A02)“模型 benchmark 分高的就是好产品”错在哪?
- 及格线:能区分”评模型能力”和”评产品体验”不是一回事。
- 优秀线:能讲清四层(模型 / 系统 / 产品 / 用户结果)及”系统层→结果层不传递”的盲区;能举”拿模型 benchmark 当产品验收”为典型错配事故。
- 反例:直接拿 MMLU/榜单分给产品上线开绿灯——粗筛尺度相关,但决赛/验收尺度层间相关性会塌。
Q4(A03)静态 benchmark 最致命的三个问题是什么?
- 及格线:能说出污染(contamination)这一项。
- 优秀线:能讲饱和(saturation)、数据污染、过拟合 leaderboard 三者,并补构念效度——“高信度可以掩盖低效度”,MMLU 的问题精确表述为”构念效度失败”。
- 反例:只会说”benchmark 会被刷分”,说不清污染发生在 L1→L4 哪个接口、也分不清污染与过拟合。
Q5(A04)LLM-as-Judge 什么时候不能信?
- 及格线:能指出它有系统性偏差,不能无条件信。
- 优秀线:能点名 position / verbosity / self-preference 三种 bias,说清”用 judge 评 judge”的循环风险,并给缓解(顺序交换缓解位置偏差、rubric 化打分、与人工小样本比对)。
- 反例:“LLM 打分客观高效,可以全量替代人工”——这恰是 §3 反方追问 R2 要打的点。
Q6(A05)“两个标注员都说好”就够了吗?
- 及格线:知道要看标注一致性,不能只看单人。
- 优秀线:能讲 IAA、Cohen’s Kappa/Fleiss/Krippendorff alpha,给出可操作熔断信号(如 κ<0.6 停采信),并强调黄金集治理 + 标注指南是前提。
- 反例:直接平均两人打分当 ground truth,不算 κ——一致性可能只是偶然,黄金集本身不可信。
Q7(S01)请在白板上画出评测体系的分层。
- 及格线:能画出 3 层以上,区分”数据/指标/流程”。
- 优秀线:能默画六层(数据集 / 指标 / 评判器 / 流程 / 归因 / 治理),说出每层输入输出 + 至少一个致命耦合点(如 L2 指标×L6 治理 = Goodhart、L1 数据×L4 评判器 = 污染),并标 failure scenario(MVP 别建六层,先 L1+L5)。
- 反例:把评测说成”就是跑个分”——无法给失真分数做责任定位,事故只能归咎”模型不行”。
Q8(S02)“哪种评测方法最好?”
- 及格线:能说”看场景,没有绝对最好”。
- 优秀线:能用六法 × 六维矩阵(规则/参考/语义/LLM-judge/人评/Arena × 成本/可扩展/可靠性/可解释/抗污染/适用对象)回答,并用 MCDA 框架指出”最好的评测法”是病态问题——只有给定约束下最合适的组合。
- 反例:脱口而出”LLM-as-Judge 最好,又快又便宜”——忽略它把”裁判质量”换成了”裁判泛化”问题。
Q9(E03)Chatbot Arena 排名能直接当选型依据吗?
- 及格线:知道 Arena 排名有偏差,不能盲信。
- 优秀线:能讲 Bradley-Terry/Elo、style/length bias 与 style-control 争议,并用社会选择理论(Arrow 不可能定理)说明任何偏好聚合都必然牺牲某条性质(BT 牺牲 IIA,故废弃模型会扰动排名);能补”偏好≠质量”。
- 反例:“Arena 是真人盲投,最可信”——这正是本专题对 c14 乐观的纠偏点(Arena 自带 WEIRD 样本 / gaming / BT 传递性脆弱)。
Q10(E02)SWE-bench 高分等于工程能力强吗?
- 及格线:知道榜单分数与真实工程能力有 gap。
- 优秀线:能讲 SWE-bench / Verified 的设计、污染与 gaming,把”标准化 harness 缺失”重诊为权力问题(谁出题、谁建 harness、谁有数据特权),并知道 OpenAI 2026-02-23 弃用 Verified 的技术理由(59.4% 失败子集有测试缺陷)。
- 反例:把 93.9% 直接安到自己产品上、或编造”普遍腰斩 48 点”叙事(这正是 §7 砍除清单里被纠正的 confirmation bias——落差因模型而异)。
Q11(G01/G02)评测是不是越测越准、一代更比一代强?
- 及格线:知道不是简单的线性进步。
- 优秀线:能用库恩范式更替 + 拉卡托斯纲领退化两把尺(G01 拿框架、G02 拿逐代病历卡与反例),区分这次换靶是进步性(测到新维度)还是退化性(只堵旧漏洞),并指出多数代际更替是退化性的、每一代都配反例。
- 反例:把六代谱系讲成”能力天梯”线性进步史——这是宪章明令的反模式,会被问”那 perplexity 时代测不到的、现在也测不到的是什么”当场卡住。
Q12(R01/R03)你”亲手”搭过评测吗?
- 及格线:能描述一个最小评测流程(取样本 / 定指标 / 打分 / 比对人工)。
- 优秀线:能讲清亲手复现位置偏差(R01:pairwise judge + 顺序交换看分数真会变)、或 τ-bench 风格轨迹评测(R03:step-level + outcome-level,区分”做对的”和”蒙对的”轨迹、silent drift detection)。
- 反例:只会复述论文百分比、说不出任何一行自己跑过的东西——面试里”读过”和”搭过”就在这里分野。
§3 反方对话训练(评测领域 6 个高频反方追问)
原则(接宪章 §7):用反对的声音陪练,不是用赞同的声音壮胆。 下面 6 个是评测领域最常被甩到 PM 脸上的反方追问。每个给”反方在说什么 + 答题要点(接受+边界,不是反驳)+ 弹药节点”。上桌前把这 6 个过一遍——它们就是会真打你的那些拳。
R1. “benchmark 不都被污染了吗,你还信那个分数?”
R2. “LLM-as-judge 不就是 AI 自己给自己打分吗,这能信?”
- 反方在说什么:用一个模型评另一个模型(甚至评自己),既有自我偏好、又是循环论证,本质是左手评右手。
- 答题要点:
- 接受:偏差是真的——position bias、verbosity bias、self-preference bias 都有实证;“用 judge 评 judge”确实有循环风险(接 A04)。
- 边界:但”不能信”太绝对。第一,偏差可缓解可量化(顺序交换缓解位置偏差、rubric 化打分、与人工小样本比对求一致性);第二,关键是把它放在对的位置——judge 适合大规模初筛、不适合高风险终判,安全/合规仍以人评为 gold(接 S02 / A05)。
- 反打:根问题不是”AI 评 AI”,而是”用任何单一尺子当唯一裁判”。正确做法是 judge + 人评小样本校准 + κ 熔断(κ<0.6 停采信),把 judge 当传感器不当法官。
- 弹药:A04 + A05 + R01(亲手复现偏差)
R3. “Arena 排名有 style bias,你还拿它做决策?”
- 反方在说什么:Chatbot Arena 的真人投票被回答长度、排版、语气这些风格因素带偏,排名反映的是”讨人喜欢”不是”质量”,不能用。
- 答题要点:
- 接受:style/length bias 是实证存在的,LMArena 自己上了 style-control 就是承认;更深一层,社会选择理论(Arrow 1951)证明任何偏好聚合都必然牺牲某条合理性质,BT/Elo 牺牲的恰是 IIA——所以废弃模型会扰动排名、几百张票能撬动全局(接 E03)。
- 边界:但这不是”扔掉 Arena”,而是”知道它测的是什么”。Arena 测的是人类即时偏好,在消费级对话场景里偏好≈产品价值,是有效信号;它失效在高风险场景(即时偏好与长期价值系统性背离)。
- 反打:用 style-control 后的排名、且只用作”是否进入候选池”的粗筛,不用作终审;终审回到业务 holdout(接 A02)。这也是对 c14”Arena 盲测相对可信”乐观立场的纠偏。
- 弹药:E03 + A04(偏好≠质量)
R4. “线上 A/B 才是真理,离线评测都是自嗨,你搞这一套有什么用?”
- 反方在说什么(精益创业 / 持续部署谱系):用户真实行为才是最高效度的信号,离线 benchmark 和黄金集都是闭门造车,不如直接上线跑 A/B。
- 答题要点:
- 弹药:S02 + S03 + A07(不可枚举的尾部 = 对抗性评测的战场)
R5. “你定的这些指标,团队照着优化几个月不就刷上去了?那评测还有意义吗?”
- 反方在说什么:只要指标公开、又进了 OKR,团队自然会针对指标优化,分数涨了能力没涨,评测自我瓦解。
- 答题要点:
- 接受:这正是 Goodhart——指标一旦成为优化目标就开始失效,这不是 bug 是规律(接 A06);甚至 Strathern 的审计社会学说得更狠:问题不在指标难度,在度量与晋升/预算/对外宣称的挂钩本身。
- 边界:但结论不是”评测无意义”,而是”评测要当投资组合管理,不是一次性达标”。具体三招:① 指标轮换/保鲜(把 eval set 当消耗品,定期换血);② 私有 + 一次性集做关键验收(用过即弃,免疫优化压力);③ 指标与激励解耦(评测结果不直接进个人 KPI)。
- 反打:承认一个 failure scenario——若未来出现”原理上免疫优化压力”的评测机制(私有/一次性/即时销毁),则”生命周期管理”立场要降级,测量难度框架重新占上风。这是我赌的边界。
- 弹药:A06 + A08 + G01
R6. “Agent 这种多步任务,结果对了不就行了,还分什么过程评测,是不是过度工程?”
[!tip] 反方训练的元规则 这 6 个回答全部遵循同一个工艺:先接受反方对的部分,再用”边界/赌注”划出本专题坚持的地方,最后给一个可操作的”那应该怎么做”。 这比”直接反驳”强,因为面试官/评审甩反方追问,考的从来不是”你能不能赢这场辩论”,而是”你知不知道自己判断的边界在哪”。这也是 SABCD 里 E 维(对手拷问能力)的核心——用反对的声音建造。
§4 关联节点
本专题入口(必经枢纽)
- _评测系统化专题·总览(MOC,先读它建立全局)、S01 评测体系分层剖面(★承重梁)、A06 Goodhart 与指标失效(★判断主轴)
概念辨析(路径 A/C 词典层)
- A01 评测概念史与语义流变、A02 评测对象层级辨析·模型/系统/产品/Agent eval、A03 Benchmark 与数据污染、A04 LLM-as-Judge、A05 人工评测与标注一致性、A07 Red Teaming 作为评测实践、A08 Eval-driven Development
代际演化 / 架构剖面 / 实例剖解 / 复现指南
- G01 评测范式代际谱系总图、G02 评测代际演化详解
- S02 评测方法流派对照矩阵、S03 Eval-Ops 全景
- E01 RAGAS & RAG 评测体系剖解、E02 SWE-bench & Coding Agent 评测剖解、E03 Chatbot Arena·LMArena & 人类偏好评测剖解
- R01 最小可运行·100 行 LLM-as-Judge、R02 中型·建 benchmark + 标注指南 + IAA 计算、R03 Agent trajectory eval 模板
升级对照 / 对话的既有节点
- c14 - 模型评估体系与 Goodhart 陷阱、m205 - RAG 生产环境:索引运维与评估体系、m207 - Agent 产品化:场景推演与失败模式、Cohen Kappa 系数、Agent 产品评估的五个具体问题、c13 - 幻觉的不可消除性、c11 - System 2 思维与 Test-Time Compute
跨专题 + 方法论 + 总索引
- _Agent 系统化专题·总览、S01 Agent 六层架构剖面、G01 Agent 代际谱系总图、AI概念滥用反思、Rick 写作 SABCD 评级体系、AI PM 知识图谱·总索引
§5 修订日志
- R0(2026-06-06,综合初稿):基于 总览 与全部 17 个内容节点的节点索引,按宪章 §4/§12 README 规格写成。含 §0 用法说明;§1 三条路径(A 求职速通含一周冲刺周节奏表 + 5 道每周面试问题、B 按 M1–M5 决策链跳转含五节点主读/辅读/产出表、C 红橙黄蓝紧迫度含触发场景/时长/产出表),每条标时长/前置/产出;§2 12 道自测题(覆盖六模块,每题及格线/优秀线/反例三线);§3 评测领域 6 个高频反方追问的对话训练(污染/LLM-as-judge 自评/Arena style bias/线上 A/B 派/Goodhart 刷分/Agent 过程评测),每个走”接受+边界+反打”工艺并挂弹药节点;§4 关联节点(双链密度 ≈40,全部用真实节点名);§5 本日志。待后续轮次:①入库 move 到 final_path 后复检全部专题内双链 resolve;②若 G02 落稿,路径 C 蓝档与 §2 Q11 补 G02 链接;③终轮 grounding pass 复核 §2/§3 引用的具体数字(ICML 2025 ‘Emperor’s New Clothes’、GSM1K、OpenAI 2026-02-23 弃用 Verified、59.4% 失败子集)是否与各节点 R1 接地一致。
- 2026-06-12 内审修复:G02《评测代际演化详解》已落稿(27477 字节),兑现 R0 待办②③——(1) §0 导语节点计数 18 个节点(17 内容)→20 个节点(19 内容),并把代际演化补成”G01 总图 + G02 逐代详解”;(2) 路径 C 蓝档读链补
G01 → [G02](/kb/专题-评测与度量/g02-评测代际演化详解/);(3) §2 Q11 标题改 G01/G02、答案补 G02 链与”G01 拿框架、G02 拿病历卡反例”分工;(4) §4 关联节点代际演化行补 G02 评测代际演化详解。此前 G02 为全库零入链孤儿,本次补链消灭之。R0 日志内历史”17”按 append-only 保留。