A02 评测对象层级辨析·模型/系统/产品/Agent eval
A02 评测对象层级辨析·模型/系统/产品/Agent eval
一句话定义:当有人说”这个东西的 eval 怎么样”,他到底在评模型本身的原子能力、RAG/Agent 系统的端到端表现、产品交付给用户的体验,还是用户最终拿到的业务结果?这是四个不同的层、用四套不同的指标、由四类不同的人负责验收。本节点提供一张四层对照矩阵,并论证:层级错配——拿模型 benchmark 当产品验收线——是 AI 选型与上线事故里最高发、也最隐蔽的一类。
一、为什么是”四层评测对象”,而不是”一套通用 eval 指标”
业界默认的错误框架是:把 eval 当成一件事——“找几个 benchmark 跑分,分高就好”。这个框架在 2021 年模型即产品的时代勉强能用;到了 RAG / Agent / 复合系统时代,它会系统性骗人。
正确的框架是先分层,再选指标。判断一个 eval 数字有没有意义,第一步永远是问”它测的是哪一层”。四层自底向上:
┌──────────────────────────────────────────────┐
│ 4. 结果层 Outcome 用户/业务的真实改变 │ ← 钱、留存、人效
├──────────────────────────────────────────────┤
│ 3. 产品层 Product 用户在真实界面里的体验 │ ← 采纳率、接管率、满意度
├──────────────────────────────────────────────┤
│ 2. 系统层 System RAG/Agent 端到端编排表现 │ ← 任务完成率、检索命中、步骤效率
├──────────────────────────────────────────────┤
│ 1. 模型层 Model 基础模型的原子能力 │ ← MMLU/GPQA/SWE-bench
└──────────────────────────────────────────────┘
四层的关键区别不在”难度递增”,而在测量对象、可控变量、归因边界、负责人全都不同。下层分数高是上层的必要非充分条件:模型层满分不保证系统层能用,系统层达标不保证产品层有人用,产品层好评不保证结果层赚钱。每跨一层,都引入新的、不属于模型的变量——检索质量、脚手架工程、UI、用户预期、市场。
[!note] 抽象层级的镜像(手法层) 这张表与本工厂 0411 A02 是同一手法的镜像:0411 A02 把 Harness/Framework/Agent/Skill 钉到六层抽象上,治”组件名混用”;本节点把评测对象钉到四层上,治”指标层混用”。背后是同一个操作——先确定你在哪一层说话,再判断这句话对不对。至于这个”分层”在认识论上凭什么成立、以及它怎样反过来改写”该测什么”的操作结论,见本节点第七节末的「跨域呼应」段落(链入 0114认识论)。
二、四层对照矩阵(贴墙版)
| 维度 | ① 模型层 Model | ② 系统层 System | ③ 产品层 Product | ④ 结果层 Outcome |
|---|---|---|---|---|
| 测的是 | 模型孤立的原子能力 | RAG/Agent 端到端管线 | 用户在真实界面的体验 | 业务/用户的真实改变 |
| 典型指标 | MMLU、GPQA、SWE-bench、GSM8K | RAGAS 四维、任务完成率、检索命中率、步骤效率、错误恢复率 | 采纳率、人工接管率、编辑距离、重试率、CSAT | 收入、留存、人效、客诉率、单位经济 |
| 可控变量 | 仅模型权重 | 模型+检索+脚手架+Prompt+工具 | 上述+UI/UX+默认值+引导 | 上述+定价+GTM+市场 |
| 归因边界 | 干净(单一对象) | 中等(已耦合多组件) | 模糊(混入产品设计) | 极模糊(混入商业全局) |
| 谁出的分 | 模型厂/学术榜 | 系统团队/MLE | 产品团队/数据分析 | 业务/财务/增长 |
| 变化频率 | 换模型才变 | 改任一组件就变 | 每次产品迭代都变 | 季度级滞后 |
| 可被主动作弊 | 高(数据污染、刷榜) | 中(脚手架灌水) | 低(真实用户难批量造假) | 最低(钱不会撒谎) |
| PM 该怎么用 | 圈定候选模型 | 选型决赛+回归门禁 | 上线验收+灰度 | 续投/砍项目决策 |
[!warning] 别把两件事说成一件——“可被作弊”≠“归因脏” 上表”可被主动作弊”这一行讲的是作弊难度(有没有人能主动把分数刷上去),它从模型层到结果层递减:钱最难假,所以结果层最难作弊。但第四节会反复强调”结果层归因最脏”,讲的是另一个维度——因果归因难度(这个数字到底是谁的功劳)。两者方向相反且互不蕴含:结果层既最难主动造假、又最难干净归因。R0 把这两个维度混用一句话带过,是个错误;这里拆清楚——下面”对角线规律”只就作弊/可比/语境干净度这一组说,不涉及因果归因。
矩阵的实战读法:越往下越脏(语境耦合越多)、越不可比、但也越难主动作弊;越往上越干净(单一对象)、越可比、却越容易被刷。 这解释了为什么模型 benchmark 满天飞而结果层数据稀缺——前者便宜可比但离钱远、且易被污染,后者贵且滞后但离钱近、难造假。PM 的核心手艺是别让前者冒充后者,也别因为结果层”最真”就以为它能告诉你因果。
三、每一层各自的”信号失真”陷阱
分完层不等于能用——每一层都有自己的失真源,PM 要知道每个数字在它那一层是怎么被污染的:
- 模型层:数据污染与刷榜。MMLU 在 GPT-4 于 2023 年 3 月达到 86.4% 后,到 2024 年所有前沿模型停滞在 86–87% 区间,判别力丧失(Hendrycks et al., MMLU, ICLR 2021;饱和数据见证据简报)。SWE-bench Verified 经 OpenAI 内审发现每个前沿模型都有逐字复现 gold patch 的案例,人工筛查显示 32.67% 的成功 patch 存在解答泄漏,OpenAI 已于 2025 年停止汇报该分数(OpenAI 博客 ‘Why SWE-bench Verified no longer measures frontier coding capabilities’, 2025)。模型层的高分越来越多是”测过了”而非”会做”。
- 系统层:脚手架污染与归因丢失。同一个模型,换个 agent scaffold 分数能差几十分——Claude Mythos Preview 在 SWE-bench Verified 上 93.9%,在更难的 SWE-bench Pro 上仅 45.9%,差距约 48 点(SWE-bench Pro, Scale AI + OpenAI, arXiv 2509.16941, 2025)。这意味着系统层分数里”模型贡献”和”工程贡献”已经无法干净拆分。
- 产品层:偏好≠质量。产品层常用人类偏好/满意度,但人类投票与专家事实核查的一致率只有 72–83%(Chatbot Arena, Chiang et al., arXiv 2403.04132, ICML 2024)。冗长、谄媚、格式漂亮都会抬高满意度而不抬高真实质量——产品层好评里混着风格红利。
- 结果层:滞后与混杂。结果层最真,但归因最难——这个季度留存涨了,是模型变好、还是营销发力、还是竞品自爆?结果层的”干净”是统计意义上的(钱不撒谎),不是因果意义上的(说不清谁的功劳)。
四、判断主轴 · 层级错配的三类高发事故 ⭐
这是本节点的命门。层级错配不是抽象的方法论问题,它是 AI 项目翻车的具体病因。三类最高发:
事故一:拿模型 benchmark 当产品验收线
症状:选型会上拍板”这模型 SWE-bench 70 分,比那个 60 分的强,就它了”,上线后客户投诉解决率不到三成。
为什么会错:把模型层指标(孤立能力)直接当成了系统层/产品层结论。SWE-bench Verified 的分数里裹着脚手架工程的巨大贡献,且 32.67% 涉及解答泄漏(OpenAI, 2025)——它压根不是”放进你的产品里能解决多少真实工单”的预测器。同一模型从 Verified 到 Pro 掉 48 点(SWE-bench Pro, 2025)就是铁证:换个更接近生产的测法,分数立刻塌方。
正确做法:模型 benchmark 只用于圈定候选(把明显不行的刷掉),决赛必须用自建的、贴你业务的系统层黄金集重测。参照 m205 的做法:200–500 条真实 query 人工标注,进 CI/CD。
真实反例:OpenAI 自己 2025 年宣布停止汇报 SWE-bench Verified 分数、改用 SWE-bench Pro——连出题方都承认 Verified 分数已不能代表前沿编码能力。一个连厂商都弃用的模型层数字,更不该被 PM 当产品验收线。
事故二:拿系统层指标当结果层承诺,向上汇报”任务完成率 90%”
症状:向老板汇报”Agent 任务完成率 90%“,老板据此承诺给客户,三个月后业务数据没动,项目被砍。
为什么会错:系统层的”任务完成率”和结果层的”业务改变”之间隔着产品采纳、用户信任、流程嵌入三道墙。90% 完成率在离线测试集上成立,不代表用户会真的把任务交给它(产品层采纳率可能只有 20%),更不代表完成的任务带来了增量价值(结果层)。把系统层数字当结果层承诺,是 demo 阶段最常见的过度承诺来源。
正确做法:系统层与结果层之间显式补上产品层桥梁指标——采纳率、人工接管率、编辑距离(参照 c14 的三层因果链:模型指标 → 产品体验指标 → 业务结果指标)。汇报时永远标清楚数字是哪一层、在什么集上测的。
真实反例:Arena 数据过拟合实验显示,把训练数据里 Arena 数据比例从 0% 提到 70%,ArenaHard 胜率从 23.5% 升到 49.9%(相对 +112%),但 MMLU 等分布外指标反而略降(‘The Leaderboard Illusion’, Singh et al., arXiv 2504.20879, NeurIPS 2025)。系统能在一个层(榜单分布)上猛涨而在另一层(通用能力)上不动甚至倒退——层间不传递是常态,不是例外。
事故三:层内”测对象”混淆——把 LLM-as-Judge 的裁判分当被测系统的真实质量
症状:用 GPT-4 当裁判给自家 RAG 输出打分,分数漂亮,但裁判本身的可靠性从未被验收。
为什么会错:这是更隐蔽的同层错配——评测工具(judge)和评测对象(被测系统)被混为一谈,工具的偏差被算进了对象的成绩。LLM-as-Judge 存在系统性偏差:交换回答顺序后 GPT-4 改变裁决的比例约 35%(位置偏差);GPT-4 给自身输出的胜率高出 10%、Claude-v1 高出 25%(自我增强偏差);对故意冗长回答,GPT-3.5/Claude-v1 的”上当”失败率达 91.3%(冗余偏差)(均见 Zheng et al., ‘Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena’, NeurIPS 2023, arXiv 2306.05685)。更狠的是 JudgeBench(Ye/Tan et al., arXiv 2410.12784, 2024)发现:在高难度知识/推理/数学/编程对上,GPT-4o 当裁判的表现仅略好于随机猜测。
正确做法:先验收裁判,再用裁判验收系统。标准动作是双向评测(同一对以两种顺序各评一次,只计双向一致的裁决,Zheng et al. 2023 推荐),并用 Cohen’s Kappa 量化裁判与人工金标的一致性——注意原始一致率会高估,GPT-4 的 Kappa 只有 0.84 而人类互评是 0.97(Eugene Yan 综述, 2024)。把 judge 的偏差当被测系统的能力,等于用一把没校准的尺子量身高还四舍五入往高了报。
真实反例:‘The Leaderboard Illusion’(Singh et al., 2025)揭露 Meta 在 Llama-4 发布前私测 27 个变体、只公布最高分——这正是”评测工具/平台本身被博弈”的产业级版本:当裁判(榜单)可被操纵,被测对象的排名就失真。LMArena 回应称实际私测增益约 +11 Elo、政策自 2024 年 3 月已公开,争议未平息——但无论增益多大,“裁判可被博弈”这一点双方都不否认。
五、产品 PM 视角补盲
跳出工程视角,层级错配在三处非技术维度上还会咬人:
- 用户心理模型:用户不在任何一层”做题”,他们形成的是信任曲线。第一次接管/纠错的体验,权重远高于第 100 次成功——这是产品层指标(首次接管率)必须独立于系统层平均完成率单独看的原因。一个平均 90% 但首单翻车的 Agent,留存可能比平均 80% 但首单稳的更差。
- 商业模式:结果层指标决定计价方式能不能成立。按结果付费(per resolved ticket)只有在你能干净度量结果层时才敢签;度量不了就只能按 token / 按席位收费——eval 能力直接约束商业模式选择。
- 合规边界:在 Rick 的安全/国际化场景里,结果层还有一条隐藏轴——误伤的不对称代价。一个把”任务完成率”最大化的 Agent,可能在跨境合规审查里把该拦的放过(漏报代价远高于误报)。这类场景的验收线不能用对称的完成率,必须按 m207 的”可接受失败率 + HITL 断点”逐场景定义。
六、对手框架回应(接受 + 边界)
反方立场(强形式):模型 benchmark 派会说——“分层太学究了。前沿模型 benchmark 和真实能力其实强相关,GPQA 都到 94%+ 超过 PhD 专家了,与其搞一堆自建评估集,不如信榜单、跟前沿模型走,省时省力。“(这是大量 PM 的真实默认操作。)
接受:这个立场有对的部分——在圈定候选这一步,模型 benchmark 确实是最便宜、最可比的过滤器;而且对于能力差距极大的两个模型,所有层的结论大概率一致(Arena 数据也显示候选差距极大时位置偏差近乎消失,一致性 98.8%,Zheng et al. 2023),这时分层确实是过度工程。强相关在”粗筛”尺度上成立。
边界与赌注:但我赌的是——决赛和验收尺度上,层间相关性会塌。GPQA 的 94% vs 65% 不能直接读成”AI 超过博士”:人类是无工具、限时、冷启动作答,模型经过海量相关语料训练,四选一格式本身也与真实科研推理不等价(GPQA 争议点,证据简报)。把粗筛尺度的强相关外推到验收尺度,正是事故一的成因。我的边界:当两个候选模型 benchmark 差距在 5 分以内、或应用场景与 benchmark 分布差异大时,榜单失去决赛资格,必须落到系统层自建集——这条边界之外,反方是对的。
failure scenario:如果你的产品恰好就是”做题型”应用(如纯知识问答、与 benchmark 同分布的任务),那么模型层 ≈ 系统层 ≈ 产品层,四层会坍缩成一层,本节点的分层开销纯属浪费。分层的价值与”应用分布偏离 benchmark 分布的程度”成正比。
七、PM 决策启示
- 面试怎么用:被问”你怎么评估一个 AI 功能”,先反问”评哪一层”,再画四层矩阵——这一下就把你和”背了几个 benchmark 名字”的候选人区分开。点出”拿模型 benchmark 当产品验收是最高发事故”是高判断密度的信号。
- 选型怎么用:建立”benchmark 圈定候选 → 自建系统层黄金集决赛 → 灰度看产品层 → 季度看结果层”的四道闸;任何环节想跳级(拿模型分直接上线)就是事故一在敲门。
- 复现怎么用:搭 eval 管线时,先在文档里写明”本指标属于哪一层、测量对象是什么、归因边界在哪”——这一行注释能挡掉后续 80% 的”这个数字到底说明什么”的扯皮。
八、与已有节点的关系(升级对照)
本节点对三个旧节点做的是升高抽象层,不复述它们的事实基础:
- 对照 c14:深化 + 前置。c14 给了”模型指标 → 产品体验指标 → 业务结果指标”三层因果链,但它从”模型层”起步、聚焦防 Goodhart。本节点在 c14 下方补了更细的”模型/系统”二分(c14 把 RAG/Agent 系统笼统归入”模型”),在上方把”产品/结果”拆成两层,并把 c14 的”防 Goodhart”重新定位为”层内信号失真的一个特例”。读 c14 之前先读本节点定层,c14 的因果链会更稳。
- 对照 m205:层位归档。m205 的 RAGAS 四维、检索命中率、分层诊断逻辑,在本矩阵里被明确归为”系统层”指标。本节点不重复 m205 怎么测,而是回答 m205 没处理的”系统层数字向上(产品/结果)能不能直接外推”——答案是不能(事故二)。
- 对照 m207:归因升级。m207 的 Agent 七维评估(任务完成率、步骤效率等)全部是系统层指标;本节点指出这些指标的共同盲区是”系统层→结果层不传递”,并把 m207 的”可接受失败率/HITL”接到了产品层与结果层(事故二、补盲三)。
九、关联节点
核心(必读)
- c14 - 模型评估体系与 Goodhart 陷阱 — 模型→产品→业务三层因果链与防 Goodhart,本节点的直接母题
- m205 - RAG 生产环境:索引运维与评估体系 — 系统层指标(RAGAS)的工程落地
- m207 - Agent 产品化:场景推演与失败模式 — 系统层 Agent 评估七维 + HITL
- A02 抽象层级辨析·Harness Framework Agent Skill Orchestrator — 抽象层级手法的姊妹篇(0411)
- Cohen Kappa 系数 — 量化裁判一致性、避免原始一致率高估
延伸(可选)
- 幻觉 — 校准失准是评测工具的前提性挑战(裁判自身也会幻觉)
- Agent 产品评估的五个具体问题 — 系统层评估的 PM 实操清单
- m209 - 推理成本控制手册 — 结果层”单位经济”的成本侧
- Rick 写作 SABCD 评级体系 — “按体裁分轨”= 按任务类型分层评测的人文版
- AI PM 知识图谱·总索引 — 全库总入口
十、修订日志
- R0(2026-06-06)初稿:建立四层评测对象矩阵(模型/系统/产品/结果);判断主轴写”层级错配三类高发事故”四件套;接 benchmark-contamination / LLM-as-Judge / arena-elo 三域证据接地;与 c14/m205/m207 写显式升级对照;与 0411 A02 做抽象层级跨域呼应;对手框架回应”信榜单走前沿”派(接受粗筛强相关 + 边界=决赛尺度塌相关)。待 grounding pass 复核 SWE-bench Pro 具体分数与 OpenAI 弃用声明措辞。
- R1(2026-06-07)文件名修复:原文件名含 ”/“(
A02 评测对象层级辨析·模型/系统/产品/Agent eval.md)被文件系统拆成「目录A02 评测对象层级辨析·模型/→系统/→产品/+ 文件Agent eval.md」四段(三层嵌套目录,比 E03 的单层更严重),导致 Obsidian 链接 basename 退化为Agent eval、丢失A02前缀编号与几乎整个标题,违反宪章 §3 命名规范<前缀><序号> <标题>。修复:合并为单一文件A02 评测对象层级辨析·模型/系统/产品/Agent eval.md——因标题已用·作”前缀↔标题”分隔符,四层斜杠改用全角斜杠/(U+FF0F) 而非·(避免与既有分隔符歧义;/文件系统安全且阅读自然),放回01 概念辨析/,删除残留空目录产品、系统、A02 评测对象层级辨析·模型(删前确认无.DS_Store等残留文件);同步把final_path改为新名。全库 6 处入链(4 文件) 全部改指新 basename:A01「§九 关联节点」、S01「关联节点」、_总览「§收录什么 / §决策链 / §全索引」三处;其中 S02「导言 callout」那条A02 评测对象层级辨析·模型原本指向首层目录段、是一条死链,一并修正为新 basename。旧 basenameA02 评测对象层级辨析·模型/系统/产品/Agent eval与退化名Agent eval已加入aliases作兜底,确保历史/外部链接不产生死链。(注:本专题尚在99Archive/_ai_review/待审区、未进00Meta/索引.md,已 grep 确认零引用,按宪章原则二无需改索引。)