当分数成为目标

Rick’s Opus 4.8 Extra 与 Claude 共创 · 自制 ePub 已读完 11 条划线与想法

划线 · 7 条

思维链忠实性（chain-of-thought faithfulness，指模型写出来的推理步骤，是否真实反映了它内部实际的计算过程）：模型完全可能写出一段看似严谨、实则与它真正「怎么得到答案」无关的事后说辞。

人更倾向于给更长、更自信、格式更漂亮的回答投票，哪怕它在事实上更糟。

系统随机抽两个匿名模型各答一份，用户选出更喜欢的那个；海量的成对投票（截至 2026 年初已积累近五百万票）经统计后，折算成一个 Elo 等级分（Elo rating，源自国际象棋的相对实力评分系统）排行榜。

的设计直击污染：每月发布取自近期来源（数学竞赛、arXiv 论文、新闻、影片简介）的新题，所有题都有可验证的客观真值因而无需 LLM 当裁判，目前覆盖数学、代码、推理、语言、指令遵循、数据分析六大类十余项任务

2026 年初，DeepSeek V3.2 等模型还因在若干知名基准上出现统计学上异常的得分模式，被独立评测者点名审视污染嫌疑。

决定某个改动是否保留

评测之难，一半是工程问题（怎么防污染、怎么降噪、怎么压低成本），另一半是哲学问题（我们到底在测一个什么东西，它存不存在）。把后半个问题当成前半个问题来解，是这个领域反复栽跟头的根源。