R
《当分数成为目标》封面

当分数成为目标

Rick’s Opus 4.8 Extra 与 Claude 共创 · 自制 ePub 已读完 11 条划线与想法
「评测与分数」话题在知识图谱中的对应专题 ↗
划线 · 7 条
思维链忠实性(chain-of-thought faithfulness,指模型写出来的推理步骤,是否真实反映了它内部实际的计算过程):模型完全可能写出一段看似严谨、实则与它真正「怎么得到答案」无关的事后说辞。
人更倾向于给更长、更自信、格式更漂亮的回答投票,哪怕它在事实上更糟。
系统随机抽两个匿名模型各答一份,用户选出更喜欢的那个;海量的成对投票(截至 2026 年初已积累近五百万票)经统计后,折算成一个 Elo 等级分(Elo rating,源自国际象棋的相对实力评分系统)排行榜。
的设计直击污染:每月发布取自近期来源(数学竞赛、arXiv 论文、新闻、影片简介)的新题,所有题都有可验证的客观真值因而无需 LLM 当裁判,目前覆盖数学、代码、推理、语言、指令遵循、数据分析六大类十余项任务
2026 年初,DeepSeek V3.2 等模型还因在若干知名基准上出现统计学上异常的得分模式,被独立评测者点名审视污染嫌疑。
决定某个改动是否保留
评测之难,一半是工程问题(怎么防污染、怎么降噪、怎么压低成本),另一半是哲学问题(我们到底在测一个什么东西,它存不存在)。 把后半个问题当成前半个问题来解,是这个领域反复栽跟头的根源。