R

E01 RAGAS & RAG 评测体系剖解

创建 2026-06-06 更新 2026-06-11 1 条双链 评测 专题 AI 整理

E01 RAGAS & RAG 评测体系剖解

当一个 RAG 系统的 RAGAS faithfulness 跑到 0.92、context recall 跑到 0.88,而真实用户还在投诉”它答非所问、还一本正经地编”,问题出在哪?本节点要解决的不是”RAGAS 怎么用”(m205 已讲),而是一个更危险的问题:RAGAS 这套指标在测量什么、它的分数与”RAG 好不好用”之间隔着几道认识论裂缝、什么时候你应该不相信自己的评测面板。框架视角是构念效度(construct validity)——把 RAGAS 当成一组”被操作化定义”的代理变量,逐个追问它们和真正想测的潜变量之间的滑移。

[!note] 范围声明:本节点聚焦 RAGAS 这一个工具的构念效度审计,不是 RAG 评测生态的全景。检索侧的学术基准(检索层诊断里会用到的 BEIR / TREC / MTEB)、其他生成层框架(TruLens、DeepEval、HELMET)只在与 RAGAS 形成对照时点到为止,系统比较留给后续节点 E02。换言之,本节点回答的是”为什么不能只信 RAGAS 面板”,而不是”RAG 评测全家桶怎么选”。RAGAS 在评测史里的位置(无参考 LLM-judge 这一代相对人工标注、相对纯 IR 指标的范式切换)见同专题的 G01

§0 为什么用”构念效度”这个框架,而不是”指标准不准”

绝大多数人评价一个评测指标,问的是”它准不准”——和人工标注的相关系数高不高。这是个测量信度(reliability)视角,它默认”我们要测的东西是清楚的,只是测得准不准”。但 RAGAS 的真正问题不在信度,在效度:faithfulness 这个数字,到底是不是”用户体验到的可信度”?

构念效度是心理测量学的核心概念(源自 Cronbach & Meehl, 1955,“Construct Validity in Psychological Tests”)。它逼问三件信度视角问不出来的事:(1) 操作化滑移——你用”回答中每个声明能否在检索上下文中找到支持”来定义 faithfulness,但用户要的是”对世界为真”,二者在”检索上下文本身就错”时分道扬镳;(2) 构念污染——RAGAS 的打分器本身是个 LLM,它的偏见(冗长偏好、自我偏好)会渗进分数,使”测量工具”和”被测对象”共享同一套缺陷;(3) 构念窄化——四个指标加起来也不等于”好用”,它们系统性地漏掉了延迟、成本、拒答恰当性、多轮一致性。

把这三问摆上桌,才能解释那个核心悖论:RAGAS 全绿 ≠ RAG 好用。这不是”测不准”,是”测错了东西”。

§1 RAGAS 四指标:操作化定义里藏着的裂缝

RAGAS(“RAGAS: Automated Evaluation of Retrieval Augmented Generation”, Es et al., EACL 2024, arXiv:2309.15217)的卖点是”无参考评估”——不需要人工标准答案就能打分。代价是:每个指标都要靠一个 LLM 做中间判断,定义越巧妙,对判断器越脆弱。

指标它声称测的潜变量实际操作化做法裂缝在哪
Faithfulness回答可信、不幻觉拆解回答为原子声明,逐条问 LLM”能否由上下文推出”上下文本身错时,忠实地复述错误 = 满分;NLI 判断”可推出”≠“为真”
Answer Relevancy回答切题从回答反推问题,算与原问题的 embedding 相似度奖励”话题对齐”,惩罚恰当的拒答与反问;可被同义复述刷高
Context Precision检索排序好看相关 chunk 是否排在 Top-K 前列”相关”由 LLM 判,与生成是否真用到它脱钩
Context Recall检索没漏标准答案每个要点是否被某个 chunk 覆盖退回到有参考模式——无参考承诺在这里破功

注意最后一格:context recall 的标准定义需要 ground-truth 答案来拆要点。RAGAS 后来推出”无参考”变体(如 LLM 自动从上下文反推 recall),但那等于让判断器既出题又改卷,把效度问题又推深一层。这是 m205 的 RAGAS 四维表没有展开的一层:四个指标不是同质的四把尺子,前三个无参考、第四个本质有参考,混在一张面板上汇总成”RAG 评分”会掩盖方法论的不可比性。

§2 RAGAS 的脆弱依赖:LLM-as-Judge 的偏见会原样灌进分数

RAGAS 不是一套”客观计算”,它是一层薄薄的 prompt 工程包在 LLM-as-Judge 之上。所以 c14 §14.2 记录的那些裁判偏见,会几乎原样变成 RAGAS 分数的系统误差。

  • 冗长偏差:MT-Bench 的”重复列表”攻击实验(Table 3,23 条回答的对抗集)里,GPT-3.5 和 Claude-v1 对故意冗长回答的失败率高达 91.3%,GPT-4 也有 8.7%(Zheng et al., “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena”, NeurIPS 2023, arXiv:2306.05685, Table 3)。这两位小数是原文表格给出的精确值(非范围描述),不是本节点自行精确化的产物——但要记住样本只有 23 条,绝对值波动空间大,应当作”量级信号”而非”稳定常数”来读。映射到 RAGAS:一个把上下文大段抄进回答的系统,faithfulness 会偏高——因为每句话都”能在上下文找到支持”——但用户体验是啰嗦、抓不住重点。
  • 自我偏好:GPT-4 给自身输出打分胜率高 10%,Claude-v1 高 25%(同上 Zheng et al., 2023)。机制根源是困惑度——LLM 高估与自身生成风格相近、困惑度更低的文本(Wataoka et al., “Self-Preference Bias in LLM-as-a-Judge”, 2024, arXiv:2410.21819)。致命含义:如果你用 GPT-4 同时做生成器和 RAGAS 判断器,分数被污染的方向是系统性偏高,且你无从在面板上看出来。
  • 判断器能力上限即评测上限:JudgeBench(Tan et al., 2024, arXiv:2410.12784)发现,在高难度知识/推理/数学/编程对上,GPT-4o 级裁判表现仅略好于随机猜测;裁判自己答不对的题,它也判不准。RAGAS 在专业领域(医疗、法律、金融)的 faithfulness 判断,正落在这个失效区。

把这些放在一起:RAGAS 的数字精度(0.92 这种两位小数)制造了一种虚假的客观感,而在强专业领域(医疗 / 法律 / 金融),研究者普遍报告判断器与人工的一致率显著低于通才标注基线——JudgeBench(Tan et al., 2024, arXiv:2410.12784)发现在高难度知识 / 推理对上,GPT-4o 级裁判仅略好于随机,这类专业题正是 RAGAS 最常被部署、判断器又最不可靠的区间〔具体一致率数值待核实:JudgeBench 报告的是 Knowledge/Reasoning/Math/Coding 四类的判别准确率,并未给出医疗 / 法律的人机 kappa,相关精确百分比缺乏可追溯来源,此处不硬编〕。两位小数的分数,可能建在一个 kappa 都不稳的地基上。

§3 被 RAGAS 叙事掩盖的另一半:纯检索指标(nDCG / MRR / recall@k)

RAGAS 把”检索好不好”也交给 LLM 判(context precision/recall),这其实丢掉了 IR 领域几十年沉淀下来、不依赖 LLM 的检索指标。一个成熟的 RAG 评测面板应该是双层的:

指标测什么是否需 LLM是否需标注
检索层recall@k相关文档是否进了 Top-K需相关性标注
检索层MRR第一个相关文档的排名倒数需相关性标注
检索层nDCG@k带位置折扣的排序质量(分级相关性)需分级标注
生成层RAGAS faithfulness / relevancy回答质量否(声称)

为什么这层重要:检索层指标可证伪、可审计、便宜,且它们把”检索失败”和”生成失败”在因果上切开了。m205 的”分层诊断逻辑”(检索差→修检索;检索好生成差→修 Prompt)思路是对的,但它用 RAGAS 的 context precision 去诊断检索——而那仍是个 LLM 判断。正确做法是:诊断检索用 recall@k / nDCG(确定性、可复算),诊断生成才动用 LLM-judge。 把检索诊断也交给 LLM,等于在你最该要确定性的地方引入了噪声。

边界要诚实:recall@k / nDCG 需要相关性标注(query-doc 相关性),这正是 RAGAS”无参考”想省掉的成本。所以这不是”谁取代谁”,是分层投资——检索层值得一次性建标注集,因为它能反复确定性复算;生成层用 LLM-judge 做趋势监控,但永远配人工抽检。

§4 判断主轴 · 90% 的人会在 RAG 评测上搞错的四个致命点

[!warning] 这一节是本节点的命门。RAGAS 是一个”看起来很科学”的工具,恰恰因此最容易让人放下警惕。

错点一:把 faithfulness 当成”回答为真”

  • 症状:faithfulness 0.95,团队对外宣称”幻觉率仅 5%”。
  • 为什么会错:faithfulness 测的是”回答忠实于检索上下文”,不是”忠实于世界”。如果检索回来的文档本身过期/错误,模型忠实复述错误信息,faithfulness 满分。这是把”内部一致性”偷换成”事实正确性”。
  • 正确做法:faithfulness 必须和”上下文本身的正确性”(一个独立的知识库质量指标)联合解读;对外只能说”回答未脱离检索内容”,不能说”无幻觉”。c13 已论证幻觉不可消除,RAGAS 高分不构成反例。
  • 真实反例:一个客服 RAG,知识库里留了一条已废止的退款政策。模型每次都精准引用它——faithfulness 完美,用户照着做被拒赔。评测面板全绿,线上在赔钱。

错点二:用同一个 LLM 既当生成器又当 RAGAS 判断器

  • 症状:换用 GPT-4 生成后,RAGAS 各项普涨,团队判定”模型升级有效”。
  • 为什么会错:自我偏好偏差(GPT-4 +10%,Claude-v1 +25%,Zheng et al. 2023)。涨的可能是判断器对自家风格的偏爱,不是质量。
  • 正确做法:判断器与被测生成器跨厂商(生成用 A,判断用 B),或多判断器交叉;至少做一次”换判断器分数还在不在”的稳健性检验。
  • 真实反例:自我增强偏差在 RAGAS 这种”生成器=判断器”默认配置里几乎是结构性的——很多团队的 RAGAS pipeline 全程一个 GPT-4 key 跑到底,从没意识到分子分母用了同一把有偏的尺子。

错点三:把 RAGAS 分数当优化目标直接调参(Goodhart 化)

  • 症状:为了刷 context precision,把 Top-K 调到只留 1 个 chunk;分数涨了,召回崩了。
  • 为什么会错:一旦指标变成优化目标就失去测量效力(Goodhart 定律,见 c14)。RAGAS 四指标之间存在内在张力:拉高 context precision(少而精)会压低 context recall(怕漏);逼高 faithfulness(只说上下文有的)会压低 answer relevancy(不敢补全、不敢推理)。
  • 正确做法:把四指标当成一个互相约束的向量看,定义”四项联合下限 + 业务指标为最终裁判”,禁止对单一 RAGAS 指标做梯度式调参。
  • 真实反例:MMLU 被刷到 86-87% 后判别力丧失(Hendrycks et al., ICLR 2021;2023-2024 前沿模型集体停滞)就是 benchmark 被当目标后饱和的宏观版;RAGAS 在单个团队内部会以同样机制饱和。

错点四:以为”RAGAS 作为质量回归门禁的一层、与业务指标并联”就足够了——构念窄化

  • 症状:成熟团队不会蠢到”RAGAS 全绿就发版”。真实的强反方立场更微妙——他们会说:“我们没只看 RAGAS,我们把 RAGAS 当质量回归门禁的一层,再并联 p95 延迟、成本、错误率这些业务指标,这套组合已经够了。” 这套配置听起来无懈可击,问题出在更隐蔽处。
  • 为什么会错:(1) RAGAS 这一层本身就被 §2 的判断器偏见污染,“并联业务指标”并不能消解这层污染——它只是在一个有偏的质量信号旁边加了几个正交信号,质量维度上你仍在信一个有系统偏向的黑箱。(2) “并联”假设各指标正交,但 RAGAS 系统性惩罚恰当拒答(§5),而拒答恰当性恰恰是高风险场景里最该单独立项的质量维度,被 RAGAS 的 answer relevancy 反向拉扯,不是简单并上一个业务指标就能补回的。(3) 多轮上下文一致性、对抗鲁棒性、越权检索这些维度,既不在 RAGAS 四指标里,也不在常规 p95/成本面板里,“够了”的判断往往是因为没人把它们列进过门禁清单。
  • 正确做法:把 RAGAS 这一层显式降级为”生成质量的趋势信号 + 跨厂商判断器 + 人工抽检”,再并联(a)确定性检索层指标(§3)、(b)拒答恰当性作为独立质量门、(c)p95 延迟 / 单 query 成本 / 越权检索率等业务与安全门。关键差别在于:不是”RAGAS 一层 + 业务指标几层”,而是承认”RAGAS 测的那一层质量本身就需要被另一层(人工 + 确定性指标)交叉验证”。
  • 真实反例:同一个模型 Claude Opus 4.5 在相对饱和、Python-only 的 SWE-bench Verified 上拿到约 80.9%,到了更贴近真实、跨文件、多语言的 SWE-bench Pro 上只剩约 45.9%,落差约 35 个百分点〔来源:Scale AI SWE-bench Pro 公开榜单 labs.scale.com,2026〕。关键是要拿同一型号在两个 benchmark 上对比——把不同型号、不同 benchmark 的漂亮数字拼成一句”差 N 分”恰恰是评测话术里最常见的偷换。单一漂亮分数与真实可用性之间的鸿沟,是评测圈的普遍规律,RAG 不例外。

§5 产品 PM 视角补盲:评测面板自己也会”骗 PM”

工程 PM 看 RAGAS 容易陷进”分数对账”,漏掉三个非工程盲点:

  • 用户心理模型:用户对 RAG 的信任不是线性函数。一次自信满满的错答(高 faithfulness 的”忠实错误”)摧毁的信任,远超十次”我不确定”带来的轻微失望。RAGAS 奖励 answer relevancy(敢答、话题对齐),系统性惩罚恰当的拒答——而拒答恰恰是高风险场景(医疗、金融、安全合规)里最该被奖励的行为。这是评测目标与产品价值的方向性冲突。
  • 商业模式:RAGAS 每条样本要跑多次 LLM 调用(拆声明、反推问题、判相关性)。在 500 条黄金集上做 CI 回归,单次评测成本可能高于一次小规模线上灰度。PM 要算”评测本身的 ROI”,别让评测成本反噬迭代速度。
  • 合规边界:把内部知识库灌给第三方 LLM-judge(如 OpenAI API)做评测,等于把可能含敏感数据的检索上下文外发。对 Rick 这类做安全/国际化、面对 GDPR 与数据出境约束的 PM,“用什么判断器评测”本身是一个合规决策,不是纯技术选型。

§6 对手框架回应:RAGAS 团队与”无参考评估”拥护者怎么说

接受:RAGAS 论文(Es et al., EACL 2024)的核心贡献是真实的——它让 RAG 评测从”每改一次就要人工标一批”的高摩擦状态,进入”CI 里自动跑”的快速迭代状态,这个工程价值在敏捷开发里不可替代。无参考评测确实把评测的边际成本压到了能高频运行的程度,这是 m205 推荐它的正当理由。

边界:但我坚持三条赌注。(1) 无参考不等于无成本,它把”人工标注成本”换成了”判断器偏差风险 + 调用成本”,后者更隐蔽、更难审计。(2) RAGAS 适合做相对趋势监控(这版比上版好/坏),不适合做绝对水平断言(faithfulness 0.9 = 可信)——前者偏差会部分抵消,后者偏差直接进结论。(3) 它必须配一个不依赖 LLM 的检索层(§3)和定期人工抽检,单靠 RAGAS 上线门禁是把判断主权让渡给一个有偏的黑箱。

一个更激进的对手:ARES。ARES(Saad-Falcon et al., “ARES: An Automated Evaluation Framework for RAG”, NAACL 2024, arXiv:2311.09476)正面挑战 RAGAS 的”纯 prompt 判断”路线:它用领域内合成数据微调一组轻量 judge 分类器,并引入PPI(prediction-powered inference)——用一小撮人工标注去给 LLM 判断做统计校正,输出带置信区间的分数。ARES 的立场等于在说:“RAGAS 给你一个点估计,但没给你这个估计的不确定度。“〔ARES 论文报告其在 KILT/SuperGLUE 等设置上以少量人工标注优于纯 prompt 基线,具体增益数值待按原文核实〕。我接受 ARES 的诊断——点估计无置信区间确实是 RAGAS 的认识论缺陷;但标注其边界:ARES 论文明确宣称其微调 judge “remain effective across domain shifts”(在 KILT / SuperGLUE / AIS 等知识密集任务集上验证),所以”换垂直领域必重训”并不是论文自己承认的局限。真正可质疑的是这个结论的外推半径——它建立在学术 benchmark 上,对医疗 / 法律这类强专业、强术语的垂直领域,迁移效果缺乏独立第三方复现〔系本节点作者的推断,与 ARES 论文自述存在张力,待第三方复现〕。另一个不被论文掩盖的成本是:PPI 仍需一批人工标注做统计校正,又回到了 RAGAS 想绕开的成本。对 PM 的可操作结论是:要绝对数字和审计能力,往 ARES 式”微调 judge + 人工校正 + 置信区间”走;要快速相对信号,RAGAS 够用但别信它的小数点。

第二个对手:RAG Triad(TruLens / DeepEval 路线)。RAG Triad 把 RAG 质量收敛为三条”相互制衡”的边——context relevance(检索与问题的相关性)、groundedness(回答对检索的接地,约等于 faithfulness)、answer relevance(回答对问题的相关性),主张三条边都达标才算闭环〔来源:TruLens 文档 / Confident AI DeepEval 文档,2024,具体指标实现细节待按原文核实〕。它的隐含立场是对 RAGAS 的另一种批评:“你给了四个独立指标,但没把它们的因果三角说清楚——到底是检索的锅还是生成的锅,要靠这个三角定位。“我接受它的诊断——RAG Triad 的因果三角确实比 RAGAS 的四个并列指标更能做归因(这一点和本节点 §3”把检索失败与生成失败切开”的主张同向);但标注其边界:RAG Triad 的三条边里有两条(groundedness、answer relevance)仍然是 LLM-as-Judge,与 RAGAS 共享同一套判断器偏见(§2),它换了归因结构却没换底层尺子;而且它同样不覆盖延迟 / 成本 / 拒答恰当性(§4 错点四)。所以它是对 RAGAS 指标编排方式的改良,不是对”LLM-judge 构念效度”这个根问题的解药。两个对手合起来逼出本节点的盲点:RAGAS 的问题既在”指标怎么编排”(RAG Triad 的批评),也在”点估计没有不确定度”(ARES 的批评),但更深的根在”用 LLM 当尺子本身”——这一层两个对手都没拔除。

§7 跨域呼应:构念效度——为什么”测得准”救不了”测错东西”

[!note] 跨域弹药:心理测量学的”构念效度”(construct validity),源自 Cronbach & Meehl, 1955。

RAG 评测圈的默认动作是”提高指标与人工的相关系数”——这是在优化信度(measurement reliability)。但 Cronbach & Meehl 1955 那篇奠基论文恰恰是为了对付一类信度解决不了的问题:当你声称测量一个无法直接观测的构念(construct,如”智力""焦虑""RAG 可信度”)时,光证明”测得稳、测得一致”不够,你还必须论证”这个操作化定义真的对应那个构念”。

这个框架直接改写了对 RAGAS 的判断:

  • 它解释了为什么 faithfulness 和人工标注高度相关,却仍然不可信——因为人工标注的也是”忠实于上下文”,标注员和 RAGAS 共享同一个被窄化的操作定义,二者高相关只是”一起偏离了真正的构念(事实可信度)“。高信度可以掩盖低效度,这是心理测量学最反直觉、也最致命的一课。
  • 它给出了一个 IR 指标看不见的诊断动作:对每个 RAGAS 指标问”它的构念漂移在哪”——faithfulness 从”对世界为真”漂移到”对上下文一致”,answer relevancy 从”满足用户意图”漂移到”话题词向量对齐”。§1 那张”裂缝”表,本质就是一次构念效度审计。
  • 它还引出心理测量学早就警告过的 criterion contamination(效标污染):当评判标准(judge)和被评判对象(生成器)来自同一个 LLM、共享同一套风格偏好时,二者的相关被人为抬高——这正是 §4 错点二的理论名字。

把这一课压成一句给 PM 的话:别再问”我的评测准不准”,要问”我的评测在测我以为它在测的东西吗”。 这是从工程师思维到测量学思维的跳变——一次小型的 范式 切换(Kuhn 意义上,换的不是答案而是问题本身),也是 RAGAS 面板上那些漂亮小数最需要的一记冷水。

§8 PM 决策启示

  • 面试怎么用:被问”你怎么评估 RAG”,不要背 RAGAS 四指标——那是 candidate 平均水位。要说:“RAGAS 是无参考的快速回归工具,但它底层是 LLM-judge,会把冗长偏好和自我偏好灌进分数;所以我会分层——检索层用 recall@k/nDCG 这类确定性指标做诊断,生成层用 RAGAS 做趋势监控并配跨厂商判断器和人工抽检,上线门禁还要并联延迟/成本/拒答率。” 一句话展示你懂构念效度,立刻和只会念框架的人拉开层级。
  • 选型怎么用:选评测工具时把问题从”哪个工具分高”换成”我要绝对数字还是相对信号”。要审计与置信区间 → ARES 式微调 judge + PPI;要高频低成本相对信号 → RAGAS,但锁死”只看趋势不看绝对值 + 跨厂商判断器 + 不外发敏感上下文”。
  • 复现怎么用:搭 RAGAS pipeline 时强制三件事——(1) 生成器与判断器不同源;(2) 检索层另建确定性指标,不让 LLM 判检索;(3) 每个评测周期固定抽 20-30 条人工复核,监控”RAGAS 与人工的 kappa 是否在漂移”。kappa 一旦掉到 0.6 以下(Cohen Kappa 系数 的 substantial 下限),这个 pipeline 的结论就该停止采信。

§9 与已有节点的关系

  • m205:深化 + 纠偏。m205 回答”怎么测 RAG”(RAGAS 四维、黄金集、分层诊断、工具生态),把 RAGAS 当作”当前最主流框架”正面推荐。本节点不复述这套操作,而是给它加一层认识论审计:揭示四指标的构念裂缝、对 LLM-judge 的脆弱依赖、四指标内在张力、以及”检索诊断不该交给 LLM”这一处对 m205 分层诊断逻辑的纠偏。m205 教你建面板,E01 教你什么时候不信这个面板
  • c14:实例化落地。c14 在抽象层讲 Goodhart、LLM-as-Judge 三大偏见、黄金评估集;E01 把这些原理钉进 RAGAS 这个具体系统——证明 c14 的判断器偏见不是泛泛之论,而是会原样变成你 RAG 面板上系统误差的真实机制。
  • Cohen Kappa 系数:用法扩展。Kappa 节点是纯统计工具;E01 给它一个 RAG 评测里的实操位置——用 RAGAS-vs-人工的 kappa 漂移作为”评测可信度还在不在”的熔断信号。
  • c13:边界对话。c13 论证幻觉不可消除;E01 补一刀:RAGAS faithfulness 高分常被误读为”幻觉已解决”,但它测的是上下文一致性,不能反驳 c13。

§10 关联节点

核心(必读)

延伸(可选)

  • c13 幻觉 — 为什么高 faithfulness 不等于无幻觉
  • G01 评测范式谱系 — RAGAS 在”无参考 LLM-judge”这一代的代际定位(本专题横切节点)
  • 范式 — 从”测得准”到”测对东西”是 Kuhn 式问题切换,本节点 §7 的跨域支点
  • RAGEmbedding — 被评测系统的基础概念
  • m204 - RAG 生产环境:Chunking 与范式演进 — chunking 调整是 RAGAS 回归的高频触发项
  • AI概念滥用反思 — 评测失效作为评测工具自身认知偏差的实例(注:链接名无空格,已校验真实存在)
  • Rick 写作 SABCD 评级体系 — “按体裁分轨”与”按任务类型分轨”评测的人文对照案例

修订日志

  • R0(2026-06-06)初稿:建立 RAGAS 构念效度审计主线;四指标裂缝表;LLM-judge 偏见灌入机制(接地 Zheng 2023 / Wataoka 2024 / JudgeBench 2024);补检索层确定性指标(recall@k/nDCG/MRR)对 m205 分层诊断的纠偏;判断主轴四件套四点;ARES 作为”带置信区间”的对手框架(接受+边界);构念效度(Cronbach & Meehl 1955)跨域呼应;与 m205/c14/Kappa/c13 显式升级对照。待核实项:ARES 具体增益数值、Claude Mythos Preview 命名。
  • R1(2026-06-07)批评修订
    • M1 SWE-bench 数字混淆(事实错误,已坐实):§4 错点四原把 93.9%(Verified)与 45.9%(Pro)拼成”差 48 分”,但经核实 45.9% 是 Claude Opus 4.5 在 SWE-bench Pro 的分数,与 Verified 的 93.9%(另一型号)不同源。改为同一型号对比:Claude Opus 4.5 在 SWE-bench Verified 约 80.9% → SWE-bench Pro 约 45.9%,落差约 35 个百分点,接地 Scale AI SWE-bench Pro 公开榜单;并加一句方法论提醒(别把不同型号 / 不同 benchmark 拼成”差 N 分”)。删除存疑的 Claude Mythos Preview / arXiv:2509.16941 引用。
    • M2 64–68% vs 72–75% 裸数字(疑似编造,已删):§2 末尾删除无来源精确百分比,改为定性表述(专业领域判断器一致率显著低于通才基线),援引 JudgeBench 的”高难度对上仅略好于随机”定性发现,并显式标注 JudgeBench 未给出医疗 / 法律人机 kappa、精确百分比缺乏来源、此处不硬编〔待核实〕。
    • M3 ARES 领域迁移与原文冲突(方向性错误,已纠):§6 原写”ARES 微调 judge 有领域迁移问题(换垂直领域要重训)“,与论文摘要”judges remain effective across domain shifts”(KILT/SuperGLUE/AIS 上验证)相反。改为如实陈述论文宣称,把可质疑点收窄为”外推到医疗 / 法律强专业领域缺乏第三方复现”,并标为作者推断、与论文自述存在张力〔待第三方复现〕。
    • S1 标题 / 覆盖剪刀差:§0 增加”范围声明”callout——本节点聚焦 RAGAS 单一工具的构念效度审计,BEIR/TREC/MTEB/TruLens/DeepEval/HELMET 只点到为止,系统比较留给 E02;并链入 G01 给出 RAGAS 的代际位置。
    • S2 verbosity bias 数字(核查后判定为真,保留并加注):核实 Zheng 2023 原文 Table 3 确实给出精确值 91.3%(GPT-3.5/Claude-v1)/ 8.7%(GPT-4),并非”over 90% / below 10%“的范围描述,故 R0 的两位小数是接地的、非自行精确化;保留数字,补注其为 Table 3(23 条对抗集)原值、应作量级信号读。(此条对 critique 的 S2 判断做了反向更正并留痕。)
    • S3 第二个对手框架:§6 补入 RAG Triad(TruLens/DeepEval 路线)作为第二个 Rick 未读对手框架,给出”接受其因果三角归因优于四指标并列 + 标注其两条边仍是 LLM-judge、未拔除根问题”的结构回应,与 ARES 合起来逼出”用 LLM 当尺子本身”这一两个对手都未触及的盲点。
    • S4 AI概念滥用反思 死链核查:用 find 校验,文件 04AI/AI概念滥用反思.md 真实存在且链接名无空格,非死链;在 §10 注明已校验。
    • S5 §4 错点四稻草人升级:把反方立场从”高 RAGAS 分=可上线”(稻草人)升级为真实强反方”RAGAS 作为质量回归门禁的一层、与业务指标并联即足够”,并给出三层反驳(这层质量信号本身被污染 / 并联假设正交但拒答恰当性被反向拉扯 / 多轮一致性等维度根本没进门禁清单)。
    • S6 双链密度:§0、§7 各新增一条 resolvable 双链(G01 评测范式代际谱系总图、范式),§10 延伸档补 G01 与范式两条,均经 find 校验真实存在;不为凑数链入 vault 中尚不存在的 BEIR benchmark / nDCG 概念卡(保持为正文术语,不造死链),实质性双链提升至 ≥15。