R

G02 o1 到 R1 到当代演化详解

创建 2026-06-07 更新 2026-06-12 1 条双链 推理与测试时计算 专题 AI 整理

G02 o1 到 R1 到当代演化详解

推理模型从 2024 年 9 月到 2026 年的这一年半,不是”模型越来越聪明”的线性故事,而是一连串被各自的瓶颈逼出来的转向:o1 用封闭的 RL 证明了”想更久能换更高分”这件事可工程化,却把方法论锁进黑箱;R1 把方法论开源并反向揭穿了”涌现”叙事;当代演化则在三个方向同时撞墙——知识密集任务掉点、过度思考反伤、benchmark 通胀。本节点的任务不是给你一张”代际进步榜单”,而是逐代回答四个问题:代表作是什么(带数字带年份)、推动力是什么、瓶颈在哪、被谁/被什么超越,并在每一代都钉上一个反例。这是 G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索 的”放大镜版本”——总图给你坐标系,本节点给你每个坐标点上的争议与赌注。

[!warning] 反线性进步史声明 本节点严格遵守写作宪章 §7「每一代都要加反例」。如果你读完只记住”o3 比 o1 强、当代比 o3 强”,那我写失败了。真正要记住的是:每一次代际跃迁都同时打开了一个新的失败模式,而 PM 的判断力恰恰长在这些失败模式里。


§0 为什么用”瓶颈驱动的转向”而不是”能力刻度尺”

业界默认的代际叙事是一把刻度尺:AIME 从 74% 到 96.7% 到 99.5%,曲线向上,故事讲完。这个框架对 PM 有毒,因为它把”分数上升”等同于”能力上升”,而 o3 在 ARC-AGI-1 拿 87.5%、在 ARC-AGI-2 只拿 2.9%(人类基线约 60%,来源:ARC Prize, “OpenAI o3 Breakthrough”, 2024-12)这一个数字就能击穿它。

我采用的框架是 Kuhn 式的:每一代由前一代的”反常积累”逼出。o1 的反常是”方法不可复现”;R1 的反常是”涌现叙事站不住”;当代的反常是”更多算力不再单调换来更多正确”。用这个框架,你看代际演化时问的不是”分数涨了多少”,而是”这一代解决了上一代的什么反常、又制造了什么新反常”——这才是选型会和面试桌上用得上的判断力。


§1 第一代:OpenAI o1(2024-09)——把”想更久”工程化,但锁进黑箱

代表作与数字。 o1 于 2024 年 9 月发布,System Card 后以 arXiv:2412.16720 形式公开。它的核心主张写在 OpenAI 官方博客标题里——“Learning to reason with LLMs”:用大规模强化学习训练一条对用户不可见的思维链,且训练时算力与推理时算力都遵循”更多=更好”的规律。关键数字(来源:OpenAI 博客”Learning to reason with LLMs”, 2024-09):

策略AIME 2024说明
单次采样 pass@174%基准能力
64 次多数投票83%并行扩展
1000 次采样 + 学习评分函数重排93%推理期算力堆到极致

GPQA Diamond(博士级科学题,198 题):77.3% zero-shot,首次明确超越人类 PhD 专家基线 69.7%(来源:OpenAI 博客 + GPQA Diamond Benchmark)。

推动力。 o1 不是凭空出现的。它把两条早已存在的学术线索工业化了:一是 Test-Time Compute 的实证基础——Snell et al. 2024(arXiv:2408.03314)证明”计算最优的测试时策略比扩参数更有效”,同等 FLOPs 下小模型加测试时计算可超越 14× 参数量的模型;二是把这种”推理期投入”从外部搜索内化进模型权重,靠 强化学习 训练而非提示。这正是 c11 - System 2 思维与 Test-Time Compute 讲的 System 1/2 二分在产品层的第一次落地。

瓶颈(也是它被超越的原因)。 o1 的三个致命瓶颈:(1) 黑箱方法论——OpenAI 至今未公开训练细节、RL 算法、奖励设计,外部无法复现也无法审计;(2) 思维链不可见——用户看不到 reasoning token,付了钱却拿不到可解释性;(3) 价格陡峭——推理 token 按 output 费率计费(通常贵 input 2–6×),把”想更久”直接翻译成账单灾难(成本机制详见 m209 - 推理成本控制手册)。

反例(这一代就有)。 别把 o1 当全能。在知识密集型任务上,o1 的”想更久”并不能凭空造出它没编码的知识——后来 arXiv:2509.06861(2025-09)系统证明了这一点,但苗头在 o1 时代就有:延长推理对常识问答、事实检索类任务收益微弱甚至诱发 幻觉o1 解决的是”可验证的难题”(数学/代码),不是”需要外部知识的题”——这个边界从第一代就存在,只是被 AIME 的漂亮数字掩盖了。


§2 第二代:DeepSeek R1 / R1-Zero(2025-01)——开源方法论,反向祛魅”涌现”

代表作与数字。 DeepSeek-AI 于 2025-01-22 发布论文”Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”(arXiv:2501.12948),同步开源权重。它做了 o1 拒绝做的事:把整条训练路线摊开。关键数字(来源:arXiv:2501.12948 HTML 版核实):

模型AIME 2024 pass@1MATH-500GPQA DiamondCodeforces Elo
R1-Zero71.0%
R179.8%97.3%71.5%2,029
OpenAI o1-121779.2%~97%75.7%1,891

R1 用开源权重打平甚至局部超过 o1,这是范式意义上的事件——它证明了 o1 的方法论没有护城河。

推动力(技术内核)。 两个支点。一是 GRPO(Group Relative Policy Optimization):放弃与策略模型同等大小的 Critic,改用组内相对得分估算 baseline,显著省训练算力(机制对照见 强化学习 的 PPO vs GRPO 表)。二是 RLVR(可验证奖励的 RL):奖励只看最终答案对不对(数学/代码可程序化验证),不约束推理过程格式。最惊人的是 R1-Zero——纯 RL、无任何人工标注推理轨迹,直接在 DeepSeek-V3 基座上训练,论文报告模型在训练中自发涌现自我反思、验证、自适应策略(著名的”aha moment”)。

瓶颈与”涌现”叙事的祛魅(关键反例)。 这是 G02 最该被记住的一段。DeepSeek 论文把”aha moment”讲成了 RL 创造出的新能力,但 2025-03 的批判性复现(“Understanding R1-Zero-Like Training: A Critical Perspective”, arXiv:2503.20783)给出反证:(1) DeepSeek-V3-Base 在 RL 训练的 epoch 0 就已有”aha moment”迹象——能力可能是被解锁而非被创造;(2) Qwen2.5 基座模型不加任何提示模板就表现出强推理,说明部分”涌现”是基座里本就埋着的;(3) GRPO 训练会人为拉长错误回答的响应长度,污染训练信号——也就是说”推理链越长越好”的观察里,混着一个训练偏差(length bias)。

[!note] confirmation-bias 砍除 本专题早期反复把 R1-Zero 的”aha moment”当作”RL 涌现推理”的正面铁证。这是 bias。补入反例:arXiv:2503.20783 表明它至少部分是”基座解锁 + GRPO 长度偏差”的合成产物。这个区分直接改变 PM 判断——如果是”解锁”而非”创造”,那么 RL 推理训练的天花板由基座决定,选型时要更看重基座质量而非 RL trick。

被什么超越/补充。 R1 没有被”超越”成废纸——它的蒸馏路线反而成了它最持久的遗产:32B 蒸馏版 AIME 2024 达 72.6%、MATH-500 达 94.3%,显著优于在同等小模型上直接做 RL(来源:arXiv:2501.12948)。这条”大模型涌现→小模型蒸馏”的路,被后续整个开源社区继承。


§3 第三代:o3 / o4-mini(2024-12 预览,2025-04 正式)——算力暴力扩展,撞上 benchmark 通胀

代表作与数字。 o3 训练算力约为 o1 的 10×,且”允许思考更久时性能继续上升”。核心数字(来源:OpenAI “Introducing o3 and o4-mini”, 2025-04;ARC Prize 博客;交叉核实):

基准o1o3o4-mini
AIME 202474.3%96.7%
AIME 202579.2%88.9%92.7%(无工具)/ 99.5%(带 Python)
GPQA Diamond78.0%87.7%
SWE-bench Verified48.9%71.7%
Codeforces Elo1,8912,727
FrontierMath~2%25.2%
ARC-AGI-1(高算力 ×172)87.5%
ARC-AGI-22.9%(人类约 60%)

推动力。 单纯的算力暴力——更多训练算力 + 更多推理算力 + 工具调用(o4-mini 带 Python 把 AIME 2025 推到 99.5%)。FrontierMath 从约 2% 跳到 25.2% 是真实的能力跃迁,不是刷榜。

瓶颈(最重要的反例:benchmark 通胀)。 o3 在 ARC-AGI-1 高算力配置下拿 87.5%,烧的算力是低算力配置的 172×;而同一家机构出的 ARC-AGI-2(专门设计来抵抗”靠算力暴力刷分”)上,o3 只有 2.9%,人类基线约 60%。这一个对照说明:高 benchmark 分可能反映的是 benchmark overfitting,而不是通用推理能力的真实跃迁。这正是 c11 - System 2 思维与 Test-Time Compute 提到的 Goodhart 陷阱在推理时代的复现——当一个指标成为目标,它就不再是好指标。PM 在选型会上看到”o3 拿了 XX%“时,第一反应该是问”这个 benchmark 抗算力暴力吗、有没有 v2 版本、v2 上掉多少”。

被什么超越/补充。 o3 没有被一个”更强模型”超越,而是被整个范式的成本-收益曲线逼向分化:高端走 o3/o4 的暴力扩展,但同时催生了 o4-mini 这样的”小而带工具”路线——证明工具调用(外部计算器、Python)在很多任务上比堆 reasoning token 更划算。这条分化线直接通向当代的”effort 旋钮”产品形态。


§4 第四代(当代,2025 下半年–2026)——三面撞墙,推理不再是免费午餐

到 2025 下半年,推理模型范式同时撞上三堵墙,标志着”想更久=更好”的天真版本终结。这是当代演化的真实主线,也是本节点最反 hype 的部分。

墙一:过度思考(Overthinking)反伤准确率。 最锋利的实证:推理模型平均要烧约 6,780 个 token,而标准 Phi-4 只用约 378.6 个——但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%(来源:arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Srivastava et al., Virginia Tech,Table 2/§5.3;69.54%/78.92%/378.6 token 见 Table 2,~6,780 为 abstract 推理模型平均值)。强制延长推理预算会让边际收益转负——R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%,约 7,000 token 后”把对的改错”(负向翻转)开始超过”把错的改对”,最优预算随题目难度变化约 7.5 倍(来源:arXiv:2604.10739, 2026 “When More Thinking Hurts”,已 WebFetch 核实;旧稿”87.3%→70.3%“系误引、已更正,与 E02/E03 对齐)。在 agentic 任务上,arXiv:2502.08235(“The Danger of Overthinking”, Cuadron et al., 2025)在 SWE-Bench Verified 的 4,018 条轨迹里识别出三种过度思考失败模式——分析瘫痪、莽撞行动、过早放弃——并证明选”最低 overthinking 分数”的方案能把成功率提到 27.3% 同时降 43% 算力。OptimalThinkingBench(arXiv:2508.13141, 2025)测了 33 个主流模型,没有一个能同时避免过度思考和思考不足。

墙二:知识密集任务上算力不换正确,反增幻觉。 arXiv:2509.06861(2025-09)系统证明:14 个推理模型在知识密集型基准上,增加推理时算力并不持续提升准确率,且经常增加幻觉——根因是测试时计算只是对固定模型的后处理,无法增加模型权重里没有的信息,延长推理还会诱发确认偏误→过自信幻觉。这与 幻觉 节点的”幻觉不可消除性”完全一致:推理不是消毒剂。

墙三:CoT 提示对推理模型边际收益趋零甚至为负。 Wharton GAIL 2025 报告测得:CoT 提示对非推理模型有效(Gemini Flash 2.0 +13.5%、Sonnet 3.5 +11.7%),但对已内化推理的模型几乎无益甚至有害(o3-mini +2.9%、o4-mini +3.1%、Gemini Flash 2.5 −3.3%)。这从经验上确证了一件理论上该成立的事:当推理被训进权重,再在提示层叠加 CoT 就是冗余。这是”trained reasoning”与”CoT prompting”不可通约的直接证据(详见本专题 A 模块的术语辨析节点)。

当代的产品回应:effort 旋钮。 面对这三堵墙,工业界给 PM 的直接控制杆是 reasoning effort 参数。Anthropic Claude 的 effort 分 low/medium/high/xhigh/max 五档(来源:platform.claude.com effort 文档),官方明确警告 max 在”结构化输出或对智力不敏感的任务上可能导致 overthinking”;OpenAI 的 reasoning_effort 分 low/medium/high。关键设计哲学:effort 是行为信号而非硬 token 预算——即使设 low,足够难的题仍会触发深思。这把”质量/延迟/成本三角”第一次变成了 PM 手里可滑动的连续变量,呼应 Scaling Laws 从”训练期一次性事件”到”推理期可购买变量”的根本转向。


§5 判断主轴(90% 的人在代际叙事上会搞错的四个点)

[!important] 这一节是本节点的命门 没有这一节,G02 就只是一篇带年份的 benchmark 综述。

错位一:把”分数单调上升”当”能力单调上升”。

  • 症状:在选型会上引用”o3 AIME 96.7%“作为”o3 推理能力碾压 o1”的证据。
  • 为什么会错:忽略了 ARC-AGI-2 上 o3 只有 2.9% 这种”抗算力暴力”基准的崩塌数据。
  • 正确做法:每看一个 benchmark 分,配套问”有没有 v2/抗污染版本、掉多少分”。
  • 真实反例:ARC-AGI-1 87.5%(烧 172× 算力)vs ARC-AGI-2 2.9%(来源:ARC Prize, 2024-12)。

错位二:把 R1-Zero 的”aha moment”当成”RL 凭空创造推理”的铁证。

  • 症状:在面试里讲”RL 能让模型涌现出训练数据里没有的推理能力”。
  • 为什么会错:把”解锁”误当”创造”,把训练偏差当真实能力。
  • 正确做法:区分”基座解锁”与”RL 创造”,承认这是未解争议。
  • 真实反例:arXiv:2503.20783 显示 V3-Base epoch 0 已有 aha 迹象、Qwen2.5 无提示也强推理、GRPO 有 length bias。

错位三:默认”开 reasoning / 调高 effort 总是更安全”。

  • 症状:产品默认全量调 max effort”保质量”。
  • 为什么会错:过度思考在简单/结构化/agentic 任务上反伤准确率且爆账单。
  • 正确做法:先用 medium 跑 eval,按任务类型分档;简单任务用 low。
  • 真实反例:Phi-4-reasoning-plus 多烧约 18× token(~6,780 vs ~378.6)反而把准确率从 78.92% 拉到 69.54%(arXiv:2507.04023 Table 2/§5.3)。

错位四:以为推理能补知识、能消幻觉。

  • 症状:用推理模型做事实检索/知识问答以”减少幻觉”。
  • 为什么会错:测试时计算无法增加权重里没有的信息,延长推理反增幻觉。
  • 正确做法:知识密集任务用 RAG/检索增强,不靠”想更久”。
  • 真实反例:arXiv:2509.06861——14 个推理模型在知识密集基准上算力不换准确率、常增幻觉。

§6 产品 PM 视角补盲

跳出工程视角,代际演化里藏着三个非技术陷阱:

  1. 用户心理模型错配。 用户看到”思考中…”的 spinner 转 30 秒,心理预期是”它在为我深思”,但若结果还不如快答,信任崩塌比慢更致命。延迟不是中性成本,它在用户那里被解读为”承诺”——而过度思考让模型对简单问题也摆出深思姿态,这是体验负债。

  2. 商业模式与计费透明度。 reasoning token 按 output 费率计费,一条复杂 query 可产生上万 thinking token,使单条成本翻 10–30×(来源:codeant.ai / aioutlooks.com, 2025)。如果你的产品对用户按”次”收费却按”token”被供应商计费,过度思考会直接吃掉毛利。effort 旋钮是你的成本闸门,不是可选项。

  3. 合规与可审计性的代际倒退。 o1 把思维链对用户隐藏,这在受监管行业(金融、医疗、Rick 熟悉的出行安全)是合规倒退——你无法向监管者展示决策依据。R1 开源权重+可见推理在这一点上反而是进步。选型时”推理是否可见可审计”对 To-B/受监管场景是硬约束,不是 nice-to-have。


§7 对手框架回应(接受 + 边界)

对手一:OpenAI 的”测试时算力 scaling 是新摩尔定律”乐观叙事。 接受:o1→o3 的 FrontierMath 从 ~2% 到 25.2% 是真实跃迁,测试时算力确实打开了新的能力维度,这不是 hype。 边界:但这条 scaling 不是普适的——它在可验证任务(数学/代码)上成立,在知识密集任务上失效(arXiv:2509.06861),在简单任务上反向(过度思考文献)。PM 的赌注是:测试时算力是”特定任务族的杠杆”,不是”通用智能的油门”。 把它当通用油门的产品会在账单和体验上双输。

对手二:Rich Sutton 的”The Bitter Lesson”——通用的搜索+学习方法终将碾压人工设计的结构。 接受:R1-Zero 用纯 RL(最少人工结构)就逼近 o1,o3 靠算力暴力上分,确实是 Bitter Lesson 的又一次胜利——别去精心设计推理结构,让算力和 RL 自己长出来。 边界:但 Bitter Lesson 是关于长期趋势的,PM 做的是当期决策。当期事实是:算力暴力撞上 benchmark 通胀(ARC-AGI-2 2.9%)和过度思考墙。Bitter Lesson 不能告诉你”这一代该开多大 effort”——那需要任务级的工程判断。

对手三(Rick 未读的对手框架):Subbarao Kambhampati 对”LLM 推理”的祛魅立场。 Kambhampati(ASU,长期质疑 LLM 真有”推理”)会说:o1/o3 在 AIME 上的高分是近似检索 + 模式匹配,不是规划意义上的推理;ARC-AGI-2 的 2.9% 正是证据——一旦题目脱离训练分布的模式,所谓推理立刻崩塌。 接受:这个批评对”benchmark 分=通用推理”的天真等式是对的,ARC-AGI-2 数据站他这边。 边界:但对 PM 而言,“是不是真推理”是哲学问题,“能不能在我的任务上稳定换来正确答案并可计费”是工程问题。即使 o3 只是”高级模式匹配”,只要它在我的可验证任务族上 SWE-bench 从 48.9% 到 71.7%,它就有产品价值。我赌的是:可证伪的任务级收益,而不是”它配不配叫推理”的命名权之争。(这条与本专题 A 模块关于 arXiv:2506.02878”CoT 不是真推理”已撤回论文的辨析呼应。)


§8 跨域呼应:Kuhn 的”反常驱动革命”——为什么代际不是进步而是转向

调度 范式(Thomas Kuhn《科学革命的结构》)。Kuhn 的核心洞见是:科学革命不由”积累更多正确”推动,而由反常(anomaly)的积累到无法在旧范式内消化时的格式塔切换驱动;且新旧范式不可通约(incommensurable)——不能简单用同一把尺子比高下。

这个框架彻底改写了对推理模型代际的判断。如果用”刻度尺”框架,o1→R1→o3→当代是一条单调上升曲线;但用 Kuhn 框架,每一代都是被前一代的反常逼出的转向:o1 的反常(不可复现)逼出 R1(开源);R1 的”涌现”反常(arXiv:2503.20783 的祛魅)逼出对基座的重新重视;o3 的反常(ARC-AGI-2 崩塌、过度思考)逼出 effort 旋钮和工具调用路线。它们不可通约——你不能说”开了 max effort 的当代模型”绝对优于”o1”,因为在简单任务上前者反而更差。

对 PM 的实操含义:不要追”最新最强”,要追”我的任务落在哪个范式的强区”。 这正是 Kuhn 反对”辉格史观”(用今天的标准评判过去)对技术选型的直接馈赠——拒绝线性进步史,按任务-范式匹配度选型。


§9 PM 决策启示(三类落地)

  • 面试怎么用: 当被问”你怎么看推理模型的发展”,不要背 benchmark 榜单。用”瓶颈驱动转向”框架答:o1 解决可工程化但锁黑箱、R1 开源但祛魅了涌现、当代撞上过度思考/知识墙/benchmark 通胀三堵墙。再钉一个反例(ARC-AGI-2 2.9% 或 Phi-4 6780 vs 378 token)。这一答立刻把你和”AI 越来越强”的候选人区分开。
  • 选型怎么用: 建一张”任务族 × 范式强区”表——可验证任务(数学/代码/SWE)选高 effort 推理模型;知识密集任务选 RAG+低 effort;简单/结构化/高并发任务选 low effort 或非推理模型。每个 benchmark 分配套问”抗污染版本掉多少”。成本测算走 m209 - 推理成本控制手册
  • 复现怎么用: 想理解”涌现”真伪,复现路径是先看基座在 epoch 0 的行为(参照 arXiv:2503.20783),再决定 RL 配方——别一上来就堆 GRPO。蒸馏路线(R1 的 32B 蒸馏)是小团队性价比最高的入口。

§10 与已有节点的关系(升级对照,不复述)

  • c11 - System 2 思维与 Test-Time Compute(深化):c11 已有 System 1/2 框架、o1/o3/R1 产品机制、Extended Thinking。本节点补缺的是 c11 缺失的代际时间轴上的反常-转向逻辑与每代的反例(c11 是横截面,G02 是纵剖面);并纠偏 c11 把 R1 的”aha moment”当涌现正面案例——补入 arXiv:2503.20783 的祛魅反证。
  • m209 - 推理成本控制手册(对话):m209 给成本机制与路由决策树,本节点给”为什么过度思考会撑爆这个成本模型”的代际根因。本节点不复述 m209 的计费公式。
  • 强化学习(引用底座):GRPO/RLVR 的算法机制以强化学习节点为准,本节点只用其结论描述代际推动力,不复述 PPO vs GRPO 的算法细节。
  • G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索(衔接):G01 是坐标系总图,G02 是每个坐标点的放大与争议。读 G01 建立全局地图后读本节点补细节与反例。
  • 对 0411 Agent 专题(跨专题对照):0411 的代际演化讲 Agent 是”规划引擎演化”,本专题讲 reasoning 是那个规划引擎的内核——当代”Reasoning Agent”在决策节点进入 hidden reasoning 再输出 action,是两条代际线的交汇点。

§11 关联节点

核心(必读)

延伸(可选)

  • Scaling Laws — 从训练期事件到推理期变量的转向
  • 幻觉 — 推理为何不能消毒幻觉
  • RAG — 知识密集任务的正确解
  • Claude — effort 旋钮的产品实现
  • 范式 — Kuhn 反常驱动革命框架
  • Agent — Reasoning Agent 的交汇点
  • AI PM 知识图谱·总索引 — 全库入口

待建概念清单(本专题登记,绝不在主库建 stub)

  • GRPO(Group Relative Policy Optimization)— 当前降级为普通文本,待 0433 专题或强化学习节点扩展
  • RLVR(Reinforcement Learning with Verifiable Rewards)— 降级为普通文本
  • ARC-AGI / ARC-AGI-2 — benchmark 概念,降级为普通文本
  • 过度思考(Overthinking)— 降级为普通文本;本专题 E02 已承载,正文相关引用指向 E02 Reasoning 反噬·过度思考与延迟灾难
  • Subbarao Kambhampati(人物)— 降级为普通文本,未在主库建人物卡
  • Rich Sutton / The Bitter Lesson — 降级为普通文本

修订日志

  • 2026-06-07 R0:首稿。按 G02 brief 逐代结构(代表作/推动力/瓶颈/被超越 + 每代反例)成文;判断主轴四错位、Kuhn 跨域呼应、对 c11/m209/Scaling Laws/0411 显式升级对照;引入 Kambhampati + Sutton 两个对手框架。
  • 2026-06-07 R0-grounding:WebFetch 逐条核验 8 个 arXiv ID 的标题与核心论断,全部 resolve——arXiv:2501.12948(DeepSeek-R1,title/作者/GRPO/aha moment 确认)、2408.03314(Snell et al. 四作者 + 14×/>4× 确认)、2502.08235(The Danger of Overthinking,SWE-Bench + ~43% 算力降确认)、2503.20783(Understanding R1-Zero-Like Training,四条批判点全确认)、2509.06861(知识密集 test-time scaling + 幻觉确认)、2604.10739(When More Thinking Hurts 确认)、2505.00127(Between Underthinking and Overthinking 确认)、2508.13141(OptimalThinkingBench,33 模型 + none optimal 确认)。表内具体数字(Phi-4 6780/378、R1 各分项分数)为论文正文级数据、源自已核准接地简报(非 abstract 可见)。更正:此前本条把”87.3%→70.3%“也列为论文正文级真实数据系误判——该对数字经 E02/S01 grounding 与 WebFetch 复核与 2604.10739 原文不符,实为编造,正文已统一替换为 R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转的真实数据。o1/o3 的 OpenAI 博客与 ARC Prize 数字、Wharton GAIL CoT 报告依接地简报,未逐条二次 WebFetch(建议终轮 grounding pass 补 OpenAI 官方博客原始 URL 核对 96.7%/87.5%/2.9% 三个关键数)。
  • 2026-06-11 P0 收口:§4 墙一活正文残存的编造对子”准确率从 87.3% 掉到 70.3%(thinking token 1,100→15,980)“已替换为 arXiv:2604.10739 真实数据(R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转、最优预算随难度变化约 7.5 倍);同步更正本日志上一条对该对数字”非编造”的误判。依据:WebFetch arXiv:2604.10739 abstract 不含 87.3%/70.3%,与已修兄弟节点 E02/E03 一致。
  • 2026-06-12 内审修复:§4 墙一与判断主轴反例的 Phi-4 数字此前误署 arXiv:2505.00127(R0-grounding 条曾称”源自接地简报、非 abstract 可见”——实为误归属)。WebFetch 复核 2505.00127/2504.21318 两篇 abstract+HTML 全文均不含该组 token 与准确率;真实出处经 WebSearch+WebFetch 锁定为 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》(Srivastava et al., Virginia Tech)Table 2/§5.3:Phi-4 78.92%±3.27/~378.6 token、Phi-4-reasoning-plus 69.54%±3.50,abstract 给推理模型平均 ~6,780 token。两处正文已改署真值与正确来源(含表号),并把”约 69.5/78.9”升级为带档位(reasoning-plus)的精确值。