E03 数学代码强开放任务弱的能力剖面
reasoning 模型不是”全面更聪明”,而是”在一类特定任务上更聪明”——这一节要解决的问题是:reasoning 的收益曲线沿哪条轴上升? 答案不是”难度”,也不是”重要性”,而是任务的可验证性(verifiability)。本节用”可验证性梯度”这个框架,剖开 o1/o3/R1 那批耀眼 benchmark 分数背后的能力剖面,并给 PM 一条选型时的硬判据:当你看到一个任务能被自动判对错,reasoning 大概率有用;当对错只能由人主观裁定,reasoning 的边际收益迅速塌缩,甚至为负。
§0 为什么是”可验证性梯度”而不是”难度梯度”
业界最常见的默认框架是:reasoning 模型适合”难任务”,普通模型适合”简单任务”,所以一切照难度分流。这个框架是错的,会直接误导选型。
反例就在数字里。AIME(美国数学邀请赛)对人类是极难的——大多数高中生拿不到几分。但 o3 在 AIME 2024 上拿到 96.7%(来源:OpenAI「Introducing o3 and o4-mini」2025-04 + ARC Prize o3 突破报告),o4-mini 在 AIME 2025 配 Python 工具甚至到 99.5%。与此同时,“写一封得体的安慰信""判断这段产品文案够不够打动用户”——对人类是举手之劳,对 reasoning 模型却没有任何可观测的稳定增益。难度高的数学被打穿,难度低的共情写作纹丝不动。 难度这条轴解释不了这个落差。
真正解释它的是另一条轴:这个任务的答案能不能被一个不比模型本身更聪明的程序,自动判定对错?
- AIME:答案是 0–999 的整数,字符串比对即可判对错。可验证。
- 代码题(Codeforces / SWE-bench):跑测试用例,通过与否是二元的。可验证。
- GPQA Diamond(博士级科学选择题):有标准答案。可验证。
- “这篇文案好不好""这个安慰信得体吗""这个产品定位准不准”:没有 ground truth,对错由人的主观偏好裁定。不可验证,或只能弱验证。
reasoning 模型的训练机制决定了它只能沿可验证性这条轴变强。这是下一节的核心。
§1 训练机制锁死了能力剖面:RLVR 只在有验证器处生长
o1/R1 这代 reasoning 模型的能力来自强化学习(见 强化学习),而它们用的是一种特定变体——RLVR(Reinforcement Learning with Verifiable Rewards,带可验证奖励的强化学习)。
DeepSeek-R1 的论文(arXiv:2501.12948,「Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」,DeepSeek-AI,2025-01)把这一点写得很直白:R1-Zero 的奖励信号仅基于最终答案是否正确(数学题答案对、代码题测试通过),不约束推理过程,用 GRPO(Group Relative Policy Optimization)做组内相对打分。也就是说,训练这台机器的”老师”,本身就是一个自动判对错的验证器。
这条机制有一个不可回避的推论:奖励信号只能存在于”有验证器”的地方。 数学有答案、代码有测试,于是 RL 能给出密集、廉价、客观的信号,模型在这条轴上被反复打磨到极致。而”写得动不动人""答得体不体面”没有自动验证器——你没法给一封安慰信打一个客观的 0/1 奖励,于是这条轴上根本没有训练信号在生长。
[!note] 一句话锚点 reasoning 不是”通用变聪明”,而是”在能自动判对错的地方,用强化学习把那部分能力刷爆”。能力剖面的形状,是奖励信号可达性的形状。
R1-Zero 在纯 RL 中自发涌现自我反思、验证、自适应策略选择(论文称之为”aha moment”),这是真实且惊人的——但它涌现在数学/代码这种可验证场域里。把同一套机制搬到开放任务,没有可验证奖励,涌现也就无从谈起。这是”数学代码强、开放任务弱”剖面的根因,不是工程细节,是机制约束。
§2 强项侧的数字:可验证任务上的代际跃迁是真的
先承认强项有多强,否则后面谈边界会被当成酸葡萄。这些数字都经接地核实(来源见文末),不是 hype:
| 基准 | 任务性质 | o1 | o3 | R1 |
|---|---|---|---|---|
| AIME 2024 (pass@1) | 数学·强可验证 | 74.3% | 96.7% | 79.8% |
| GPQA Diamond | 科学选择·可验证 | 78.0% | 87.7% | 71.5% |
| SWE-bench Verified | 软件工程·可验证 | 48.9% | 71.7% | — |
| Codeforces Elo | 竞赛编程·可验证 | 1,891 | 2,727 | 2,029 |
| FrontierMath | 前沿数学·可验证 | ~2% | 25.2% | — |
| MATH-500 | 数学·可验证 | ~97% | — | 97.3% |
(o1/o3 来源:OpenAI o1 博客 + o3/o4-mini 发布页 + ARC Prize 报告;R1 来源:arXiv:2501.12948)
FrontierMath 从 o1 的约 2% 跳到 o3 的 25.2%——这是一个数量级的真实跃迁,不是测试污染能解释的(这套题专为抗记忆设计)。GPQA Diamond 上 o1 首次明确超过人类 PhD 专家基线 69.7%(来源:OpenAI o1 博客 + GPQA 排行榜)。在可验证场域里,reasoning 确实把曲线抬到了新高度。
注意:上表里没有一栏是”创意写作""情感共情""品牌策略""谈判说服”。 不是我故意漏,而是这类任务没有公认的量化 benchmark——因为它们本质上不可自动验证。能力剖面的边界,在 benchmark 的版图上就是一片空白。
§3 弱项侧的反线性证据:开放/知识任务上 reasoning 会掉点
这是本节最反共识、也最该被 PM 记住的部分。reasoning 不是免费午餐,在某些任务上更多推理会主动伤害结果。
证据一:知识密集型任务,增加推理时计算不持续提升、且常增加幻觉。 arXiv:2509.06861(2025-09)测了 14 个推理模型,结论是:在知识密集型基准上,增加 test-time compute 并不持续提升准确率,且经常增加幻觉。机制解释很关键——test-time compute 是对一个已固定的模型做后处理,无法增加模型权重里没编码的信息;延长推理反而诱发确认偏误(confirmation bias),把不存在的”知识”越想越像真的,变成过自信的幻觉(呼应 幻觉)。可验证任务里,验证器能把这种瞎想砍掉;开放/知识任务里没有验证器兜底,瞎想就直接进了输出。
证据二:简单任务上,强推理模型可能不如非推理版。 推理模型平均生成约 6,780 个 thinking token,而标准 Phi-4 只用约 378.6 个,但 Phi-4-reasoning-plus 在常规数学任务上准确率 69.54% 反而低于标准 Phi-4 的 78.92%(来源:arXiv:2507.04023「Do LLMs Overthink Basic Math Reasoning?」Srivastava et al., Table 2/§5.3)。这就是 overthinking(过度思考):在不需要深推理的任务上烧掉海量 token,换来的是”分析瘫痪”——反复审查一个本已正确的答案,直到被某条错误路径覆盖。
证据三:开放/创意任务的增益缺乏证据——这是诚实的留白。 我必须显式承认:WebSearch 没有找到针对创意/开放任务”reasoning 是否带来稳定增益”的高质量对照实验〔待核实〕。学界对 overthinking 的量化几乎全集中在数学、代码、agentic 任务,因为只有这些任务有可自动计算的”正确率”作为因变量。创意任务连”对不对”都无法被脚本判定,自然也无法被严格测量增益。 这个测量空白本身,恰恰是”开放任务弱”最深的注脚:连衡量它好坏的尺子都不存在。
[!warning] 反线性提醒 “开了 reasoning / 调高 effort = 结果更好”是错的直觉。在简单任务、知识任务、开放任务三类场景里,它分别表现为 overthinking 掉点、幻觉增多、和零增益但延迟成本暴涨。
§4 判断主轴 · 90% 的人在能力剖面上会踩的四个坑
每点带:症状 → 为什么会错 → 正确做法 → 真实反例。
坑 1:按”任务难度”而非”任务可验证性”决定要不要上 reasoning。
- 症状:PM 把”重要、复杂、老板很关注”的任务一律分给 reasoning 模型,把”简单”的给便宜模型。
- 为什么会错:难度和可验证性是两条正交的轴。难且可验证(AIME)reasoning 强;易且可验证(2+3=?)reasoning 浪费;难且不可验证(写一份打动 CEO 的愿景稿)reasoning 没有训练过的增益。
- 正确做法:第一刀切”这个任务的输出能不能被程序自动判对错”,再切难度。
- 真实反例:把品牌 slogan 创作交给 o3 高 effort,期待”它这么强一定写得更好”——实际它在一个没有 RLVR 信号的场域里只是更慢更贵,质量与普通模型无显著差异。
坑 2:把 benchmark 高分当成”通用智能”的证据。
- 症状:看到 o3 在 ARC-AGI-1 高算力档拿 87.5%,就推断它”接近 AGI / 什么都强”。
- 为什么会错:高分可能反映对该 benchmark 分布的优化(benchmark overfitting),而非通用推理跃迁。
- 正确做法:看同族但抗刷分的新基准上的表现。
- 真实反例:同一个 o3,ARC-AGI-1 高算力 87.5%,但在 ARC-AGI-2 上只有 2.9%(人类基线约 60%)(来源:ARC Prize o3 突破报告)。一个数量级的崩塌,说明那 87.5% 不能外推到”通用强”。
坑 3:以为”可验证”是个二元开关,其实是连续梯度。
- 症状:把”代码”整体当成可验证任务,于是认定 reasoning 对所有编程任务都强。
- 为什么会错:可验证性是连续的。“通过单元测试”强可验证;“这段代码可维护性好不好、架构合不合理”是弱/不可验证。SWE-bench Verified 测的是前者。
- 正确做法:在代码任务内部再分层——能跑测试判对错的子任务给 reasoning,代码审美/架构权衡这类主观子任务别迷信它。
- 真实反例:agentic 编程里识别出三种 overthinking 失败模式——分析瘫痪、跳到错误操作、推理疲劳过早放弃,且 overthinking 分数与任务成功率负相关(来源:arXiv:2502.08235「The Danger of Overthinking」Cuadron et al. 2025)。即便在”代码”这个貌似可验证的大类里,越界到不可验证的决策环节,reasoning 就开始反噬。
坑 4:用”延长思考”去抢救开放任务的质量。
- 症状:开放任务输出不满意,PM 的本能是”让它想久一点 / 调到 max effort”。
- 为什么会错:开放任务没有验证器,延长思考只会放大确认偏误和 overthinking,不会逼近一个不存在的”正确答案”。
- 正确做法:开放任务该优化的是 prompt、上下文、人类反馈样例,而不是 effort 旋钮(成本控制见 m209 - 推理成本控制手册)。
- 真实反例:R1-32B 在 AIME 上准确率随推理预算先升后降——12K token 处见顶 55.8%、16K 回落到 54.9%,且推理超过约 7,000 token 后”负向翻转(把对的改错)“开始超过”正向翻转”(来源:arXiv:2604.10739「When More Thinking Hurts」2026,已 WebFetch 核实)——更多思考主动让模型放弃了已经正确的答案。〔注:早期草稿曾误引”87.3%→70.3%“,经核实与原文不符,已统一替换为该论文真实数据,与 E02 一致。〕
§5 产品 PM 视角补盲
工程视角只看”哪类任务跑分高”,PM 必须多看三层:
-
用户心理模型错配。 用户看到产品里有”深度思考”开关,会默认”开了一定更好”,对所有任务都开。但在开放/简单任务上这只换来更长的等待和更高的账单,用户体验反而变差。PM 要做的不是把旋钮丢给用户,而是按任务类型在后台自动路由——可验证任务才默认上 reasoning。
-
商业模式的成本结构。 reasoning 的 token 按 output 费率计费(通常比 input 贵数倍),一条复杂 query 可烧到一万级 thinking token。如果你的产品大量请求是开放/主观任务(客服话术、营销文案、陪聊),对它们启用 reasoning 是在为零增益付数倍成本。能力剖面直接决定单位经济模型。
-
合规与可问责边界。 在安全/风控这类 Rick 熟悉的场景里,“可验证”还意味着”可审计”。一个规则能判对错的决策(是否触发拦截)适合 reasoning + 验证器留痕;而”这条内容是否冒犯某文化群体”是弱可验证的,reasoning 给出的长篇”论证”容易制造一种虚假的客观性——看起来推理得很严谨,实则在一个没有 ground truth 的问题上自说自话。PM 要警惕把主观判断包装成”模型推理过的所以可信”。
§6 对手框架回应
对手立场(OpenAI 路线的乐观叙事): o3 在 ARC-AGI、FrontierMath 上的跃迁说明 reasoning 正在逼近通用推理,“可验证 vs 不可验证”的边界会随模型变强而消融——今天不可验证的任务,明天会找到验证器(如用更强的模型当 judge)。
接受的部分: 这条边界确实在移动,不是铁板。LLM-as-judge、用强模型给弱模型的开放输出打分,正在把一部分”弱可验证”任务拉进可训练范围;o3 的 FrontierMath 跃迁也证明”可验证”场域内还有大量空间没吃完。我不赌”reasoning 永远只会数学代码”。
坚持的边界与赌注: 但用模型当 judge 不消除问题,只是把验证器的偏差换了个位置——judge 模型自己在开放任务上同样没有 ground truth,它的偏好就是新的奖励,于是 reward hacking 风险(模型学会迎合 judge 而非真的更好)原样保留(参见 强化学习 的 reward hacking 讨论)。ARC-AGI-2 的 2.9% 崩塌也说明”边界消融”远未到来。我的赌注是:在未来 12–24 个月的 PM 决策窗口内,“先判任务可验证性”仍是比”赌模型会全面变强”更稳的选型纪律。 如果某天开放任务上 reasoning 出现了像 FrontierMath 那样可复现的数量级增益,这条判断就该被推翻——但那个证据现在不存在。
§7 跨域呼应:Polanyi 默会知识与”不可验证即不可奖励”
调度一个 Rick 熟悉的框架:Michael Polanyi 的默会知识(tacit knowledge)——“我们知道的比我们能言说的多”。
reasoning 的能力剖面,在认识论上正是默会/明述知识之分的技术投影。可验证任务 = 可被明述为规则、可被程序裁定的知识:数学有公理化的对错,代码有可执行的规范。RLVR 能在这里建立奖励,恰恰因为这类知识是”可言说、可形式化”的。而开放任务——什么是好的安慰、得体的措辞、动人的叙事——大量依赖默会知识:它能被熟练者识别(“这封信写得对”)却难以被明述为一条可计算的规则。
Polanyi 的洞见给了我们一个更深的判断:reasoning 的边界不是工程临时局限,而是与”哪些知识能被形式化”这个古老问题同构。 凡是默会的、只能在情境中被识别而无法被规则裁定的能力,就缺少 RLVR 所需的奖励信号,reasoning 也就生长不出来。这把”数学强开放弱”从一个 benchmark 现象,升格为一个认识论结构——也提醒 PM:当有人承诺”reasoning 会很快攻克创意/共情”,本质上是在承诺”把默会知识完全形式化”,而这是一个几百年悬而未决的难题,不是一个版本号能解决的。
§8 PM 决策启示
- 面试怎么用: 被问”你怎么判断一个任务该不该用 reasoning 模型”,不要答”看难度”。答:“先看可验证性——能不能程序判对错。可验证的(数学、代码、规则化判断)上 reasoning,并配自动验证器;不可验证的(创意、共情、主观策略)别迷信它,省下的钱投到 prompt 和人类反馈上。” 再补一句 ARC-AGI-1 87.5% / ARC-AGI-2 2.9% 的对照,证明你不被 benchmark 唬住。
- 选型怎么用: 建一张”任务可验证性分级表”,把产品里每类 AI 任务标成”强可验证 / 弱可验证 / 不可验证”,按这条轴而非难度做模型路由(实现对接 m209 - 推理成本控制手册 的路由决策树)。
- 复现怎么用: 评测 reasoning 模型时,必须同时纳入一个简单任务集和一个知识密集集,专门测 overthinking 掉点和幻觉增多,而不是只跑 AIME 这种它天然擅长的榜——否则你只会确认自己想看到的(confirmation bias)。
§9 与已有节点的关系
- 对照 c11 - System 2 思维与 Test-Time Compute:c11 给出 System 1/2 框架与”适合/不适合 System 2 的场景表”,但其分类隐含以”任务复杂度/结构化程度”为轴。本节点做纠偏 + 深化:把分流的第一判据从”复杂度”换成”可验证性”,并补上 c11 缺失的反线性证据(知识任务掉点、overthinking 掉点的具体 arXiv 数字)。不复述 c11 的 System 1/2 定义。
- 对照 m209 - 推理成本控制手册:m209 从成本侧给出路由决策树;本节点从能力剖面侧为那棵树提供分支判据——“可验证→reasoning,不可验证→别上”正是路由的第一个分叉。两者是”成本×能力”的互补面。
- 与本专题其它节点:承接训练机制层(RLVR/GRPO 的机制由专题内 RL 相关节点详述,本节只用其结论),为复现指南节点提供”评测必须含简单集+知识集”的设计约束。
§10 关联节点
核心(必读)
延伸(可选)
[!note] 待建概念清单(本节点引用但尚未在主库建卡,降级为普通文本,不建 stub)
- RLVR(Reinforcement Learning with Verifiable Rewards):本节核心机制术语,目前主库无独立卡,作普通文本处理,登记待建。
- Polanyi 默会知识:跨域呼应所用框架,主库 0114认识论/0117社会学 暂未确认有对应节点,作普通文本,登记待建。
接地来源(均经 WebSearch/WebFetch 在 SHARED_CONTEXT 简报阶段核实;arXiv ID 见下)
- DeepSeek-R1:arXiv:2501.12948「Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」DeepSeek-AI, 2025-01
- o1:OpenAI「Learning to reason with LLMs」博客 + o1 System Card (arXiv:2412.16720)
- o3 / o4-mini:OpenAI「Introducing o3 and o4-mini」2025-04 + ARC Prize「o3 Breakthrough」报告(ARC-AGI-1 87.5% / ARC-AGI-2 2.9%)
- 知识任务掉点+幻觉:arXiv:2509.06861, 2025-09
- overthinking(推理模型 ~6,780 vs Phi-4 ~378.6 token;Phi-4-reasoning-plus 69.54% vs Phi-4 78.92%):arXiv:2507.04023「Do LLMs Overthink Basic Math Reasoning?」Table 2/§5.3
- agentic overthinking 三失败模式:arXiv:2502.08235「The Danger of Overthinking」Cuadron et al. 2025
- 更多思考导致掉点(R1-32B AIME:12K token 见顶 55.8%、16K 回落 54.9%;约 7,000 token 后负向翻转超过正向翻转):arXiv:2604.10739「When More Thinking Hurts」2026(已 WebFetch 核实,旧稿”87.3%→70.3%“系误引、已更正)
- GPQA Diamond 人类 PhD 基线 69.7%:OpenAI o1 博客 + GPQA 排行榜
- 〔待核实〕:开放/创意任务 reasoning 增益的高质量对照实验——WebSearch 未找到,文中已显式标注为测量空白
修订日志
- R0 (2026-06-07):首稿。确立”可验证性梯度”为判断主轴;强项/弱项双向数字接地;四坑判断主轴;Polanyi 默会知识跨域呼应;与 c11/m209 升级对照。1 处显式〔待核实〕(开放任务增益缺乏对照实验)。
- 2026-06-12 内审修复:overthinking 反例(正文 + 接地表)的 Phi-4 数字来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3(Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token),补全准确率分数。依据:WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。(注:开放/创意任务增益缺对照实验那处〔待核实〕属真实研究空白,不在本次修复范围、保留。)