R

LiveBench

创建 2026-06-12 更新 2026-06-12 4 条双链 共创

LiveBench

LiveBench 是一个”抗数据污染、题目定期更新”的开放 LLM 评测基准:它每月用新近来源生成全新题目、且所有题目都有客观可自动判分的标准答案,以此规避模型把测试集背进训练数据所导致的虚高。

核心要点

  • 谁做的、何时发布:由 Abacus.AI(含其 Head of Research Colin White 等)、纽约大学、Nvidia、马里兰大学、南加州大学的研究者联合构建,Yann LeCun 是合作者之一。奠基论文《LiveBench: A Challenging, Contamination-Limited LLM Benchmark》于 2024-06-27 提交至 arXiv(2406.19314)。(VentureBeatarXiv)

  • 怎么抗污染(第一条护城河)题目定期(按月)轮换更新,素材取自”发布时间晚于模型训练截止”的新鲜来源——新近 arXiv 论文、最新的数学奥赛题、当期新闻事件等。模型没机会在训练阶段见过这些题,从根上压制”背题”。(Medium / NYU CDS)

  • 怎么客观判分(第二条护城河):每道题都有可验证的、唯一的标准答案,因此即使是难题也能自动、客观地判分,完全不依赖 LLM-as-Judge——绕开了”裁判模型自身偏置”这一污染源。(arXiv PDF)

  • 覆盖的任务类别:跨多个领域设题,公开材料中提及的类别包括 数学、编码(coding)、推理(reasoning)、语言、指令遵循(instruction following)、数据分析 等。(VentureBeatGitHub)

注:论文标题原文用的是 “Contamination-Limited”(污染受限),媒体多简称 “contamination-free”;严格说它是”持续压制污染”而非”一劳永逸消除”。

在本库的用法

0412 评测系统化专题S02(S02 评测方法流派对照矩阵 引用,作为六维取舍矩阵里 “抗数据污染”格的正面范例——即”用动态/定期更新的题库 + 客观自动判分”这条流派如何同时回应 基准污染Goodhart 定律 两类失效。(S02 的 R1 工作日志原本因 evidence brief 未给 LiveBench 具体数据而暂缓建链,本卡补上这一节点。)

关联节点