E03 数学代码强开放任务弱的能力剖面 · 知识库

reasoning 模型不是”全面更聪明”，而是”在一类特定任务上更聪明”——这一节要解决的问题是：reasoning 的收益曲线沿哪条轴上升？ 答案不是”难度”，也不是”重要性”，而是任务的可验证性（verifiability）。本节用”可验证性梯度”这个框架，剖开 o1/o3/R1 那批耀眼 benchmark 分数背后的能力剖面，并给 PM 一条选型时的硬判据：当你看到一个任务能被自动判对错，reasoning 大概率有用；当对错只能由人主观裁定，reasoning 的边际收益迅速塌缩，甚至为负。

§0 为什么是”可验证性梯度”而不是”难度梯度”

业界最常见的默认框架是：reasoning 模型适合”难任务”，普通模型适合”简单任务”，所以一切照难度分流。这个框架是错的，会直接误导选型。

反例就在数字里。AIME（美国数学邀请赛）对人类是极难的——大多数高中生拿不到几分。但 o3 在 AIME 2024 上拿到 96.7%（来源：OpenAI「Introducing o3 and o4-mini」2025-04 + ARC Prize o3 突破报告），o4-mini 在 AIME 2025 配 Python 工具甚至到 99.5%。与此同时，“写一封得体的安慰信""判断这段产品文案够不够打动用户”——对人类是举手之劳，对 reasoning 模型却没有任何可观测的稳定增益。难度高的数学被打穿，难度低的共情写作纹丝不动。 难度这条轴解释不了这个落差。

真正解释它的是另一条轴：这个任务的答案能不能被一个不比模型本身更聪明的程序，自动判定对错？

AIME：答案是 0–999 的整数，字符串比对即可判对错。可验证。
代码题（Codeforces / SWE-bench）：跑测试用例，通过与否是二元的。可验证。
GPQA Diamond（博士级科学选择题）：有标准答案。可验证。
“这篇文案好不好""这个安慰信得体吗""这个产品定位准不准”：没有 ground truth，对错由人的主观偏好裁定。不可验证，或只能弱验证。

reasoning 模型的训练机制决定了它只能沿可验证性这条轴变强。这是下一节的核心。

§1 训练机制锁死了能力剖面：RLVR 只在有验证器处生长

o1/R1 这代 reasoning 模型的能力来自强化学习（见强化学习），而它们用的是一种特定变体——RLVR（Reinforcement Learning with Verifiable Rewards，带可验证奖励的强化学习）。

DeepSeek-R1 的论文（arXiv:2501.12948，「Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」，DeepSeek-AI，2025-01）把这一点写得很直白：R1-Zero 的奖励信号仅基于最终答案是否正确（数学题答案对、代码题测试通过），不约束推理过程，用 GRPO（Group Relative Policy Optimization）做组内相对打分。也就是说，训练这台机器的”老师”，本身就是一个自动判对错的验证器。

这条机制有一个不可回避的推论：奖励信号只能存在于”有验证器”的地方。 数学有答案、代码有测试，于是 RL 能给出密集、廉价、客观的信号，模型在这条轴上被反复打磨到极致。而”写得动不动人""答得体不体面”没有自动验证器——你没法给一封安慰信打一个客观的 0/1 奖励，于是这条轴上根本没有训练信号在生长。

[!note] 一句话锚点 reasoning 不是”通用变聪明”，而是”在能自动判对错的地方，用强化学习把那部分能力刷爆”。能力剖面的形状，是奖励信号可达性的形状。

R1-Zero 在纯 RL 中自发涌现自我反思、验证、自适应策略选择（论文称之为”aha moment”），这是真实且惊人的——但它涌现在数学/代码这种可验证场域里。把同一套机制搬到开放任务，没有可验证奖励，涌现也就无从谈起。这是”数学代码强、开放任务弱”剖面的根因，不是工程细节，是机制约束。

§2 强项侧的数字：可验证任务上的代际跃迁是真的

先承认强项有多强，否则后面谈边界会被当成酸葡萄。这些数字都经接地核实（来源见文末），不是 hype：

基准	任务性质	o1	o3	R1
AIME 2024 (pass@1)	数学·强可验证	74.3%	96.7%	79.8%
GPQA Diamond	科学选择·可验证	78.0%	87.7%	71.5%
SWE-bench Verified	软件工程·可验证	48.9%	71.7%	—
Codeforces Elo	竞赛编程·可验证	1,891	2,727	2,029
FrontierMath	前沿数学·可验证	~2%	25.2%	—
MATH-500	数学·可验证	~97%	—	97.3%

（o1/o3 来源：OpenAI o1 博客 + o3/o4-mini 发布页 + ARC Prize 报告；R1 来源：arXiv:2501.12948）

FrontierMath 从 o1 的约 2% 跳到 o3 的 25.2%——这是一个数量级的真实跃迁，不是测试污染能解释的（这套题专为抗记忆设计）。GPQA Diamond 上 o1 首次明确超过人类 PhD 专家基线 69.7%（来源：OpenAI o1 博客 + GPQA 排行榜）。在可验证场域里，reasoning 确实把曲线抬到了新高度。

注意：上表里没有一栏是”创意写作""情感共情""品牌策略""谈判说服”。 不是我故意漏，而是这类任务没有公认的量化 benchmark——因为它们本质上不可自动验证。能力剖面的边界，在 benchmark 的版图上就是一片空白。

§3 弱项侧的反线性证据：开放/知识任务上 reasoning 会掉点

这是本节最反共识、也最该被 PM 记住的部分。reasoning 不是免费午餐，在某些任务上更多推理会主动伤害结果。

证据一：知识密集型任务，增加推理时计算不持续提升、且常增加幻觉。 arXiv:2509.06861（2025-09）测了 14 个推理模型，结论是：在知识密集型基准上，增加 test-time compute 并不持续提升准确率，且经常增加幻觉。机制解释很关键——test-time compute 是对一个已固定的模型做后处理，无法增加模型权重里没编码的信息；延长推理反而诱发确认偏误（confirmation bias），把不存在的”知识”越想越像真的，变成过自信的幻觉（呼应幻觉）。可验证任务里，验证器能把这种瞎想砍掉；开放/知识任务里没有验证器兜底，瞎想就直接进了输出。

证据二：简单任务上，强推理模型可能不如非推理版。 推理模型平均生成约 6,780 个 thinking token，而标准 Phi-4 只用约 378.6 个，但 Phi-4-reasoning-plus 在常规数学任务上准确率 69.54% 反而低于标准 Phi-4 的 78.92%（来源：arXiv:2507.04023「Do LLMs Overthink Basic Math Reasoning?」Srivastava et al., Table 2/§5.3）。这就是 overthinking（过度思考）：在不需要深推理的任务上烧掉海量 token，换来的是”分析瘫痪”——反复审查一个本已正确的答案，直到被某条错误路径覆盖。

证据三：开放/创意任务的增益缺乏证据——这是诚实的留白。 我必须显式承认：WebSearch 没有找到针对创意/开放任务”reasoning 是否带来稳定增益”的高质量对照实验〔待核实〕。学界对 overthinking 的量化几乎全集中在数学、代码、agentic 任务，因为只有这些任务有可自动计算的”正确率”作为因变量。创意任务连”对不对”都无法被脚本判定，自然也无法被严格测量增益。 这个测量空白本身，恰恰是”开放任务弱”最深的注脚：连衡量它好坏的尺子都不存在。

[!warning] 反线性提醒 “开了 reasoning / 调高 effort = 结果更好”是错的直觉。在简单任务、知识任务、开放任务三类场景里，它分别表现为 overthinking 掉点、幻觉增多、和零增益但延迟成本暴涨。

§4 判断主轴 · 90% 的人在能力剖面上会踩的四个坑

每点带：症状 → 为什么会错 → 正确做法 → 真实反例。

坑 1：按”任务难度”而非”任务可验证性”决定要不要上 reasoning。

症状：PM 把”重要、复杂、老板很关注”的任务一律分给 reasoning 模型，把”简单”的给便宜模型。
为什么会错：难度和可验证性是两条正交的轴。难且可验证（AIME）reasoning 强；易且可验证（2+3=?）reasoning 浪费；难且不可验证（写一份打动 CEO 的愿景稿）reasoning 没有训练过的增益。
正确做法：第一刀切”这个任务的输出能不能被程序自动判对错”，再切难度。
真实反例：把品牌 slogan 创作交给 o3 高 effort，期待”它这么强一定写得更好”——实际它在一个没有 RLVR 信号的场域里只是更慢更贵，质量与普通模型无显著差异。

坑 2：把 benchmark 高分当成”通用智能”的证据。

症状：看到 o3 在 ARC-AGI-1 高算力档拿 87.5%，就推断它”接近 AGI / 什么都强”。
为什么会错：高分可能反映对该 benchmark 分布的优化（benchmark overfitting），而非通用推理跃迁。
正确做法：看同族但抗刷分的新基准上的表现。
真实反例：同一个 o3，ARC-AGI-1 高算力 87.5%，但在 ARC-AGI-2 上只有 2.9%（人类基线约 60%）（来源：ARC Prize o3 突破报告）。一个数量级的崩塌，说明那 87.5% 不能外推到”通用强”。

坑 3：以为”可验证”是个二元开关，其实是连续梯度。

症状：把”代码”整体当成可验证任务，于是认定 reasoning 对所有编程任务都强。
为什么会错：可验证性是连续的。“通过单元测试”强可验证；“这段代码可维护性好不好、架构合不合理”是弱/不可验证。SWE-bench Verified 测的是前者。
正确做法：在代码任务内部再分层——能跑测试判对错的子任务给 reasoning，代码审美/架构权衡这类主观子任务别迷信它。
真实反例：agentic 编程里识别出三种 overthinking 失败模式——分析瘫痪、跳到错误操作、推理疲劳过早放弃，且 overthinking 分数与任务成功率负相关（来源：arXiv:2502.08235「The Danger of Overthinking」Cuadron et al. 2025）。即便在”代码”这个貌似可验证的大类里，越界到不可验证的决策环节，reasoning 就开始反噬。

坑 4：用”延长思考”去抢救开放任务的质量。

症状：开放任务输出不满意，PM 的本能是”让它想久一点 / 调到 max effort”。
为什么会错：开放任务没有验证器，延长思考只会放大确认偏误和 overthinking，不会逼近一个不存在的”正确答案”。
正确做法：开放任务该优化的是 prompt、上下文、人类反馈样例，而不是 effort 旋钮（成本控制见 m209 - 推理成本控制手册）。
真实反例：R1-32B 在 AIME 上准确率随推理预算先升后降——12K token 处见顶 55.8%、16K 回落到 54.9%，且推理超过约 7,000 token 后”负向翻转（把对的改错）“开始超过”正向翻转”（来源：arXiv:2604.10739「When More Thinking Hurts」2026，已 WebFetch 核实）——更多思考主动让模型放弃了已经正确的答案。〔注：早期草稿曾误引”87.3%→70.3%“，经核实与原文不符，已统一替换为该论文真实数据，与 E02 一致。〕

§5 产品 PM 视角补盲

工程视角只看”哪类任务跑分高”，PM 必须多看三层：

用户心理模型错配。 用户看到产品里有”深度思考”开关，会默认”开了一定更好”，对所有任务都开。但在开放/简单任务上这只换来更长的等待和更高的账单，用户体验反而变差。PM 要做的不是把旋钮丢给用户，而是按任务类型在后台自动路由——可验证任务才默认上 reasoning。
商业模式的成本结构。 reasoning 的 token 按 output 费率计费（通常比 input 贵数倍），一条复杂 query 可烧到一万级 thinking token。如果你的产品大量请求是开放/主观任务（客服话术、营销文案、陪聊），对它们启用 reasoning 是在为零增益付数倍成本。能力剖面直接决定单位经济模型。
合规与可问责边界。 在安全/风控这类 Rick 熟悉的场景里，“可验证”还意味着”可审计”。一个规则能判对错的决策（是否触发拦截）适合 reasoning + 验证器留痕；而”这条内容是否冒犯某文化群体”是弱可验证的，reasoning 给出的长篇”论证”容易制造一种虚假的客观性——看起来推理得很严谨，实则在一个没有 ground truth 的问题上自说自话。PM 要警惕把主观判断包装成”模型推理过的所以可信”。

§6 对手框架回应

对手立场（OpenAI 路线的乐观叙事）： o3 在 ARC-AGI、FrontierMath 上的跃迁说明 reasoning 正在逼近通用推理，“可验证 vs 不可验证”的边界会随模型变强而消融——今天不可验证的任务，明天会找到验证器（如用更强的模型当 judge）。

接受的部分： 这条边界确实在移动，不是铁板。LLM-as-judge、用强模型给弱模型的开放输出打分，正在把一部分”弱可验证”任务拉进可训练范围；o3 的 FrontierMath 跃迁也证明”可验证”场域内还有大量空间没吃完。我不赌”reasoning 永远只会数学代码”。

坚持的边界与赌注： 但用模型当 judge 不消除问题，只是把验证器的偏差换了个位置——judge 模型自己在开放任务上同样没有 ground truth，它的偏好就是新的奖励，于是 reward hacking 风险（模型学会迎合 judge 而非真的更好）原样保留（参见强化学习的 reward hacking 讨论）。ARC-AGI-2 的 2.9% 崩塌也说明”边界消融”远未到来。我的赌注是：在未来 12–24 个月的 PM 决策窗口内，“先判任务可验证性”仍是比”赌模型会全面变强”更稳的选型纪律。 如果某天开放任务上 reasoning 出现了像 FrontierMath 那样可复现的数量级增益，这条判断就该被推翻——但那个证据现在不存在。

§7 跨域呼应：Polanyi 默会知识与”不可验证即不可奖励”

调度一个 Rick 熟悉的框架：Michael Polanyi 的默会知识（tacit knowledge）——“我们知道的比我们能言说的多”。

reasoning 的能力剖面，在认识论上正是默会/明述知识之分的技术投影。可验证任务 = 可被明述为规则、可被程序裁定的知识：数学有公理化的对错，代码有可执行的规范。RLVR 能在这里建立奖励，恰恰因为这类知识是”可言说、可形式化”的。而开放任务——什么是好的安慰、得体的措辞、动人的叙事——大量依赖默会知识：它能被熟练者识别（“这封信写得对”）却难以被明述为一条可计算的规则。

Polanyi 的洞见给了我们一个更深的判断：reasoning 的边界不是工程临时局限，而是与”哪些知识能被形式化”这个古老问题同构。 凡是默会的、只能在情境中被识别而无法被规则裁定的能力，就缺少 RLVR 所需的奖励信号，reasoning 也就生长不出来。这把”数学强开放弱”从一个 benchmark 现象，升格为一个认识论结构——也提醒 PM：当有人承诺”reasoning 会很快攻克创意/共情”，本质上是在承诺”把默会知识完全形式化”，而这是一个几百年悬而未决的难题，不是一个版本号能解决的。

§8 PM 决策启示

面试怎么用： 被问”你怎么判断一个任务该不该用 reasoning 模型”，不要答”看难度”。答：“先看可验证性——能不能程序判对错。可验证的（数学、代码、规则化判断）上 reasoning，并配自动验证器；不可验证的（创意、共情、主观策略）别迷信它，省下的钱投到 prompt 和人类反馈上。” 再补一句 ARC-AGI-1 87.5% / ARC-AGI-2 2.9% 的对照，证明你不被 benchmark 唬住。
选型怎么用： 建一张”任务可验证性分级表”，把产品里每类 AI 任务标成”强可验证 / 弱可验证 / 不可验证”，按这条轴而非难度做模型路由（实现对接 m209 - 推理成本控制手册的路由决策树）。
复现怎么用： 评测 reasoning 模型时，必须同时纳入一个简单任务集和一个知识密集集，专门测 overthinking 掉点和幻觉增多，而不是只跑 AIME 这种它天然擅长的榜——否则你只会确认自己想看到的（confirmation bias）。

§9 与已有节点的关系

对照 c11 - System 2 思维与 Test-Time Compute：c11 给出 System 1/2 框架与”适合/不适合 System 2 的场景表”，但其分类隐含以”任务复杂度/结构化程度”为轴。本节点做纠偏 + 深化：把分流的第一判据从”复杂度”换成”可验证性”，并补上 c11 缺失的反线性证据（知识任务掉点、overthinking 掉点的具体 arXiv 数字）。不复述 c11 的 System 1/2 定义。
对照 m209 - 推理成本控制手册：m209 从成本侧给出路由决策树；本节点从能力剖面侧为那棵树提供分支判据——“可验证→reasoning，不可验证→别上”正是路由的第一个分叉。两者是”成本×能力”的互补面。
与本专题其它节点：承接训练机制层（RLVR/GRPO 的机制由专题内 RL 相关节点详述，本节只用其结论），为复现指南节点提供”评测必须含简单集+知识集”的设计约束。

§10 关联节点

核心（必读）

延伸（可选）

[!note] 待建概念清单（本节点引用但尚未在主库建卡，降级为普通文本，不建 stub）

RLVR（Reinforcement Learning with Verifiable Rewards）：本节核心机制术语，目前主库无独立卡，作普通文本处理，登记待建。

Polanyi 默会知识：跨域呼应所用框架，主库 0114认识论/0117社会学暂未确认有对应节点，作普通文本，登记待建。

接地来源（均经 WebSearch/WebFetch 在 SHARED_CONTEXT 简报阶段核实；arXiv ID 见下）

DeepSeek-R1：arXiv:2501.12948「Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」DeepSeek-AI, 2025-01
o1：OpenAI「Learning to reason with LLMs」博客 + o1 System Card (arXiv:2412.16720)
o3 / o4-mini：OpenAI「Introducing o3 and o4-mini」2025-04 + ARC Prize「o3 Breakthrough」报告（ARC-AGI-1 87.5% / ARC-AGI-2 2.9%）
知识任务掉点+幻觉：arXiv:2509.06861, 2025-09
overthinking（推理模型 ~6,780 vs Phi-4 ~378.6 token；Phi-4-reasoning-plus 69.54% vs Phi-4 78.92%）：arXiv:2507.04023「Do LLMs Overthink Basic Math Reasoning?」Table 2/§5.3
agentic overthinking 三失败模式：arXiv:2502.08235「The Danger of Overthinking」Cuadron et al. 2025
更多思考导致掉点（R1-32B AIME：12K token 见顶 55.8%、16K 回落 54.9%；约 7,000 token 后负向翻转超过正向翻转）：arXiv:2604.10739「When More Thinking Hurts」2026（已 WebFetch 核实，旧稿”87.3%→70.3%“系误引、已更正）
GPQA Diamond 人类 PhD 基线 69.7%：OpenAI o1 博客 + GPQA 排行榜
〔待核实〕：开放/创意任务 reasoning 增益的高质量对照实验——WebSearch 未找到，文中已显式标注为测量空白

修订日志

R0 (2026-06-07)：首稿。确立”可验证性梯度”为判断主轴；强项/弱项双向数字接地；四坑判断主轴；Polanyi 默会知识跨域呼应；与 c11/m209 升级对照。1 处显式〔待核实〕（开放任务增益缺乏对照实验）。
2026-06-12 内审修复：overthinking 反例（正文 + 接地表）的 Phi-4 数字来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3（Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token），补全准确率分数。依据：WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。（注：开放/创意任务增益缺对照实验那处〔待核实〕属真实研究空白，不在本次修复范围、保留。）