G02 o1 到 R1 到当代演化详解

推理模型从 2024 年 9 月到 2026 年的这一年半，不是”模型越来越聪明”的线性故事，而是一连串被各自的瓶颈逼出来的转向：o1 用封闭的 RL 证明了”想更久能换更高分”这件事可工程化，却把方法论锁进黑箱；R1 把方法论开源并反向揭穿了”涌现”叙事；当代演化则在三个方向同时撞墙——知识密集任务掉点、过度思考反伤、benchmark 通胀。本节点的任务不是给你一张”代际进步榜单”，而是逐代回答四个问题：代表作是什么（带数字带年份）、推动力是什么、瓶颈在哪、被谁/被什么超越，并在每一代都钉上一个反例。这是 G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索的”放大镜版本”——总图给你坐标系，本节点给你每个坐标点上的争议与赌注。

[!warning] 反线性进步史声明本节点严格遵守写作宪章 §7「每一代都要加反例」。如果你读完只记住”o3 比 o1 强、当代比 o3 强”，那我写失败了。真正要记住的是：每一次代际跃迁都同时打开了一个新的失败模式，而 PM 的判断力恰恰长在这些失败模式里。

§0 为什么用”瓶颈驱动的转向”而不是”能力刻度尺”

业界默认的代际叙事是一把刻度尺：AIME 从 74% 到 96.7% 到 99.5%，曲线向上，故事讲完。这个框架对 PM 有毒，因为它把”分数上升”等同于”能力上升”，而 o3 在 ARC-AGI-1 拿 87.5%、在 ARC-AGI-2 只拿 2.9%（人类基线约 60%，来源：ARC Prize, “OpenAI o3 Breakthrough”, 2024-12）这一个数字就能击穿它。

我采用的框架是 Kuhn 式的：每一代由前一代的”反常积累”逼出。o1 的反常是”方法不可复现”；R1 的反常是”涌现叙事站不住”；当代的反常是”更多算力不再单调换来更多正确”。用这个框架，你看代际演化时问的不是”分数涨了多少”，而是”这一代解决了上一代的什么反常、又制造了什么新反常”——这才是选型会和面试桌上用得上的判断力。

§1 第一代：OpenAI o1（2024-09）——把”想更久”工程化，但锁进黑箱

代表作与数字。 o1 于 2024 年 9 月发布，System Card 后以 arXiv:2412.16720 形式公开。它的核心主张写在 OpenAI 官方博客标题里——“Learning to reason with LLMs”：用大规模强化学习训练一条对用户不可见的思维链，且训练时算力与推理时算力都遵循”更多=更好”的规律。关键数字（来源：OpenAI 博客”Learning to reason with LLMs”, 2024-09）：

策略	AIME 2024	说明
单次采样 pass@1	74%	基准能力
64 次多数投票	83%	并行扩展
1000 次采样 + 学习评分函数重排	93%	推理期算力堆到极致

GPQA Diamond（博士级科学题，198 题）：77.3% zero-shot，首次明确超越人类 PhD 专家基线 69.7%（来源：OpenAI 博客 + GPQA Diamond Benchmark）。

推动力。 o1 不是凭空出现的。它把两条早已存在的学术线索工业化了：一是 Test-Time Compute 的实证基础——Snell et al. 2024（arXiv:2408.03314）证明”计算最优的测试时策略比扩参数更有效”，同等 FLOPs 下小模型加测试时计算可超越 14× 参数量的模型；二是把这种”推理期投入”从外部搜索内化进模型权重，靠强化学习训练而非提示。这正是 c11 - System 2 思维与 Test-Time Compute 讲的 System 1/2 二分在产品层的第一次落地。

瓶颈（也是它被超越的原因）。 o1 的三个致命瓶颈：(1) 黑箱方法论——OpenAI 至今未公开训练细节、RL 算法、奖励设计，外部无法复现也无法审计；(2) 思维链不可见——用户看不到 reasoning token，付了钱却拿不到可解释性；(3) 价格陡峭——推理 token 按 output 费率计费（通常贵 input 2–6×），把”想更久”直接翻译成账单灾难（成本机制详见 m209 - 推理成本控制手册）。

反例（这一代就有）。 别把 o1 当全能。在知识密集型任务上，o1 的”想更久”并不能凭空造出它没编码的知识——后来 arXiv:2509.06861（2025-09）系统证明了这一点，但苗头在 o1 时代就有：延长推理对常识问答、事实检索类任务收益微弱甚至诱发幻觉。o1 解决的是”可验证的难题”（数学/代码），不是”需要外部知识的题”——这个边界从第一代就存在，只是被 AIME 的漂亮数字掩盖了。

§2 第二代：DeepSeek R1 / R1-Zero（2025-01）——开源方法论，反向祛魅”涌现”

代表作与数字。 DeepSeek-AI 于 2025-01-22 发布论文”Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”（arXiv:2501.12948），同步开源权重。它做了 o1 拒绝做的事：把整条训练路线摊开。关键数字（来源：arXiv:2501.12948 HTML 版核实）：

模型	AIME 2024 pass@1	MATH-500	GPQA Diamond	Codeforces Elo
R1-Zero	71.0%	—	—	—
R1	79.8%	97.3%	71.5%	2,029
OpenAI o1-1217	79.2%	~97%	75.7%	1,891

R1 用开源权重打平甚至局部超过 o1，这是范式意义上的事件——它证明了 o1 的方法论没有护城河。

推动力（技术内核）。 两个支点。一是 GRPO（Group Relative Policy Optimization）：放弃与策略模型同等大小的 Critic，改用组内相对得分估算 baseline，显著省训练算力（机制对照见强化学习的 PPO vs GRPO 表）。二是 RLVR（可验证奖励的 RL）：奖励只看最终答案对不对（数学/代码可程序化验证），不约束推理过程格式。最惊人的是 R1-Zero——纯 RL、无任何人工标注推理轨迹，直接在 DeepSeek-V3 基座上训练，论文报告模型在训练中自发涌现自我反思、验证、自适应策略（著名的”aha moment”）。

瓶颈与”涌现”叙事的祛魅（关键反例）。 这是 G02 最该被记住的一段。DeepSeek 论文把”aha moment”讲成了 RL 创造出的新能力，但 2025-03 的批判性复现（“Understanding R1-Zero-Like Training: A Critical Perspective”, arXiv:2503.20783）给出反证：(1) DeepSeek-V3-Base 在 RL 训练的 epoch 0 就已有”aha moment”迹象——能力可能是被解锁而非被创造；(2) Qwen2.5 基座模型不加任何提示模板就表现出强推理，说明部分”涌现”是基座里本就埋着的；(3) GRPO 训练会人为拉长错误回答的响应长度，污染训练信号——也就是说”推理链越长越好”的观察里，混着一个训练偏差（length bias）。

[!note] confirmation-bias 砍除本专题早期反复把 R1-Zero 的”aha moment”当作”RL 涌现推理”的正面铁证。这是 bias。补入反例：arXiv:2503.20783 表明它至少部分是”基座解锁 + GRPO 长度偏差”的合成产物。这个区分直接改变 PM 判断——如果是”解锁”而非”创造”，那么 RL 推理训练的天花板由基座决定，选型时要更看重基座质量而非 RL trick。

被什么超越/补充。 R1 没有被”超越”成废纸——它的蒸馏路线反而成了它最持久的遗产：32B 蒸馏版 AIME 2024 达 72.6%、MATH-500 达 94.3%，显著优于在同等小模型上直接做 RL（来源：arXiv:2501.12948）。这条”大模型涌现→小模型蒸馏”的路，被后续整个开源社区继承。

§3 第三代：o3 / o4-mini（2024-12 预览，2025-04 正式）——算力暴力扩展，撞上 benchmark 通胀

代表作与数字。 o3 训练算力约为 o1 的 10×，且”允许思考更久时性能继续上升”。核心数字（来源：OpenAI “Introducing o3 and o4-mini”, 2025-04；ARC Prize 博客；交叉核实）：

基准	o1	o3	o4-mini
AIME 2024	74.3%	96.7%	—
AIME 2025	79.2%	88.9%	92.7%（无工具）/ 99.5%（带 Python）
GPQA Diamond	78.0%	87.7%	—
SWE-bench Verified	48.9%	71.7%	—
Codeforces Elo	1,891	2,727	—
FrontierMath	~2%	25.2%	—
ARC-AGI-1（高算力 ×172）	—	87.5%	—
ARC-AGI-2	—	2.9%（人类约 60%）	—

推动力。 单纯的算力暴力——更多训练算力 + 更多推理算力 + 工具调用（o4-mini 带 Python 把 AIME 2025 推到 99.5%）。FrontierMath 从约 2% 跳到 25.2% 是真实的能力跃迁，不是刷榜。

瓶颈（最重要的反例：benchmark 通胀）。 o3 在 ARC-AGI-1 高算力配置下拿 87.5%，烧的算力是低算力配置的 172×；而同一家机构出的 ARC-AGI-2（专门设计来抵抗”靠算力暴力刷分”）上，o3 只有 2.9%，人类基线约 60%。这一个对照说明：高 benchmark 分可能反映的是 benchmark overfitting，而不是通用推理能力的真实跃迁。这正是 c11 - System 2 思维与 Test-Time Compute 提到的 Goodhart 陷阱在推理时代的复现——当一个指标成为目标，它就不再是好指标。PM 在选型会上看到”o3 拿了 XX%“时，第一反应该是问”这个 benchmark 抗算力暴力吗、有没有 v2 版本、v2 上掉多少”。

被什么超越/补充。 o3 没有被一个”更强模型”超越，而是被整个范式的成本-收益曲线逼向分化：高端走 o3/o4 的暴力扩展，但同时催生了 o4-mini 这样的”小而带工具”路线——证明工具调用（外部计算器、Python）在很多任务上比堆 reasoning token 更划算。这条分化线直接通向当代的”effort 旋钮”产品形态。

§4 第四代（当代，2025 下半年–2026）——三面撞墙，推理不再是免费午餐

到 2025 下半年，推理模型范式同时撞上三堵墙，标志着”想更久=更好”的天真版本终结。这是当代演化的真实主线，也是本节点最反 hype 的部分。

墙一：过度思考（Overthinking）反伤准确率。 最锋利的实证：推理模型平均要烧约 6,780 个 token，而标准 Phi-4 只用约 378.6 个——但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%（来源：arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Srivastava et al., Virginia Tech，Table 2/§5.3；69.54%/78.92%/378.6 token 见 Table 2，~6,780 为 abstract 推理模型平均值）。强制延长推理预算会让边际收益转负——R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%，约 7,000 token 后”把对的改错”（负向翻转）开始超过”把错的改对”，最优预算随题目难度变化约 7.5 倍（来源：arXiv:2604.10739, 2026 “When More Thinking Hurts”，已 WebFetch 核实；旧稿”87.3%→70.3%“系误引、已更正，与 E02/E03 对齐）。在 agentic 任务上，arXiv:2502.08235（“The Danger of Overthinking”, Cuadron et al., 2025）在 SWE-Bench Verified 的 4,018 条轨迹里识别出三种过度思考失败模式——分析瘫痪、莽撞行动、过早放弃——并证明选”最低 overthinking 分数”的方案能把成功率提到 27.3% 同时降 43% 算力。OptimalThinkingBench（arXiv:2508.13141, 2025）测了 33 个主流模型，没有一个能同时避免过度思考和思考不足。

墙二：知识密集任务上算力不换正确，反增幻觉。 arXiv:2509.06861（2025-09）系统证明：14 个推理模型在知识密集型基准上，增加推理时算力并不持续提升准确率，且经常增加幻觉——根因是测试时计算只是对固定模型的后处理，无法增加模型权重里没有的信息，延长推理还会诱发确认偏误→过自信幻觉。这与幻觉节点的”幻觉不可消除性”完全一致：推理不是消毒剂。

墙三：CoT 提示对推理模型边际收益趋零甚至为负。 Wharton GAIL 2025 报告测得：CoT 提示对非推理模型有效（Gemini Flash 2.0 +13.5%、Sonnet 3.5 +11.7%），但对已内化推理的模型几乎无益甚至有害（o3-mini +2.9%、o4-mini +3.1%、Gemini Flash 2.5 −3.3%）。这从经验上确证了一件理论上该成立的事：当推理被训进权重，再在提示层叠加 CoT 就是冗余。这是”trained reasoning”与”CoT prompting”不可通约的直接证据（详见本专题 A 模块的术语辨析节点）。

当代的产品回应：effort 旋钮。 面对这三堵墙，工业界给 PM 的直接控制杆是 reasoning effort 参数。Anthropic Claude 的 effort 分 low/medium/high/xhigh/max 五档（来源：platform.claude.com effort 文档），官方明确警告 max 在”结构化输出或对智力不敏感的任务上可能导致 overthinking”；OpenAI 的 reasoning_effort 分 low/medium/high。关键设计哲学：effort 是行为信号而非硬 token 预算——即使设 low，足够难的题仍会触发深思。这把”质量/延迟/成本三角”第一次变成了 PM 手里可滑动的连续变量，呼应 Scaling Laws 从”训练期一次性事件”到”推理期可购买变量”的根本转向。

§5 判断主轴（90% 的人在代际叙事上会搞错的四个点）

[!important] 这一节是本节点的命门没有这一节，G02 就只是一篇带年份的 benchmark 综述。

错位一：把”分数单调上升”当”能力单调上升”。

症状：在选型会上引用”o3 AIME 96.7%“作为”o3 推理能力碾压 o1”的证据。
为什么会错：忽略了 ARC-AGI-2 上 o3 只有 2.9% 这种”抗算力暴力”基准的崩塌数据。
正确做法：每看一个 benchmark 分，配套问”有没有 v2/抗污染版本、掉多少分”。
真实反例：ARC-AGI-1 87.5%（烧 172× 算力）vs ARC-AGI-2 2.9%（来源：ARC Prize, 2024-12）。

错位二：把 R1-Zero 的”aha moment”当成”RL 凭空创造推理”的铁证。

症状：在面试里讲”RL 能让模型涌现出训练数据里没有的推理能力”。
为什么会错：把”解锁”误当”创造”，把训练偏差当真实能力。
正确做法：区分”基座解锁”与”RL 创造”，承认这是未解争议。
真实反例：arXiv:2503.20783 显示 V3-Base epoch 0 已有 aha 迹象、Qwen2.5 无提示也强推理、GRPO 有 length bias。

错位三：默认”开 reasoning / 调高 effort 总是更安全”。

症状：产品默认全量调 max effort”保质量”。
为什么会错：过度思考在简单/结构化/agentic 任务上反伤准确率且爆账单。
正确做法：先用 medium 跑 eval，按任务类型分档；简单任务用 low。
真实反例：Phi-4-reasoning-plus 多烧约 18× token（~6,780 vs ~378.6）反而把准确率从 78.92% 拉到 69.54%（arXiv:2507.04023 Table 2/§5.3）。

错位四：以为推理能补知识、能消幻觉。

症状：用推理模型做事实检索/知识问答以”减少幻觉”。
为什么会错：测试时计算无法增加权重里没有的信息，延长推理反增幻觉。
正确做法：知识密集任务用 RAG/检索增强，不靠”想更久”。
真实反例：arXiv:2509.06861——14 个推理模型在知识密集基准上算力不换准确率、常增幻觉。

§6 产品 PM 视角补盲

跳出工程视角，代际演化里藏着三个非技术陷阱：

用户心理模型错配。 用户看到”思考中…”的 spinner 转 30 秒，心理预期是”它在为我深思”，但若结果还不如快答，信任崩塌比慢更致命。延迟不是中性成本，它在用户那里被解读为”承诺”——而过度思考让模型对简单问题也摆出深思姿态，这是体验负债。
商业模式与计费透明度。 reasoning token 按 output 费率计费，一条复杂 query 可产生上万 thinking token，使单条成本翻 10–30×（来源：codeant.ai / aioutlooks.com, 2025）。如果你的产品对用户按”次”收费却按”token”被供应商计费，过度思考会直接吃掉毛利。effort 旋钮是你的成本闸门，不是可选项。
合规与可审计性的代际倒退。 o1 把思维链对用户隐藏，这在受监管行业（金融、医疗、Rick 熟悉的出行安全）是合规倒退——你无法向监管者展示决策依据。R1 开源权重+可见推理在这一点上反而是进步。选型时”推理是否可见可审计”对 To-B/受监管场景是硬约束，不是 nice-to-have。

§7 对手框架回应（接受 + 边界）

对手一：OpenAI 的”测试时算力 scaling 是新摩尔定律”乐观叙事。 接受：o1→o3 的 FrontierMath 从 ~2% 到 25.2% 是真实跃迁，测试时算力确实打开了新的能力维度，这不是 hype。边界：但这条 scaling 不是普适的——它在可验证任务（数学/代码）上成立，在知识密集任务上失效（arXiv:2509.06861），在简单任务上反向（过度思考文献）。PM 的赌注是：测试时算力是”特定任务族的杠杆”，不是”通用智能的油门”。 把它当通用油门的产品会在账单和体验上双输。

对手二：Rich Sutton 的”The Bitter Lesson”——通用的搜索+学习方法终将碾压人工设计的结构。 接受：R1-Zero 用纯 RL（最少人工结构）就逼近 o1，o3 靠算力暴力上分，确实是 Bitter Lesson 的又一次胜利——别去精心设计推理结构，让算力和 RL 自己长出来。边界：但 Bitter Lesson 是关于长期趋势的，PM 做的是当期决策。当期事实是：算力暴力撞上 benchmark 通胀（ARC-AGI-2 2.9%）和过度思考墙。Bitter Lesson 不能告诉你”这一代该开多大 effort”——那需要任务级的工程判断。

对手三（Rick 未读的对手框架）：Subbarao Kambhampati 对”LLM 推理”的祛魅立场。 Kambhampati（ASU，长期质疑 LLM 真有”推理”）会说：o1/o3 在 AIME 上的高分是近似检索 + 模式匹配，不是规划意义上的推理；ARC-AGI-2 的 2.9% 正是证据——一旦题目脱离训练分布的模式，所谓推理立刻崩塌。接受：这个批评对”benchmark 分=通用推理”的天真等式是对的，ARC-AGI-2 数据站他这边。边界：但对 PM 而言，“是不是真推理”是哲学问题，“能不能在我的任务上稳定换来正确答案并可计费”是工程问题。即使 o3 只是”高级模式匹配”，只要它在我的可验证任务族上 SWE-bench 从 48.9% 到 71.7%，它就有产品价值。我赌的是：可证伪的任务级收益，而不是”它配不配叫推理”的命名权之争。（这条与本专题 A 模块关于 arXiv:2506.02878”CoT 不是真推理”已撤回论文的辨析呼应。）

§8 跨域呼应：Kuhn 的”反常驱动革命”——为什么代际不是进步而是转向

调度范式（Thomas Kuhn《科学革命的结构》）。Kuhn 的核心洞见是：科学革命不由”积累更多正确”推动，而由反常（anomaly）的积累到无法在旧范式内消化时的格式塔切换驱动；且新旧范式不可通约（incommensurable）——不能简单用同一把尺子比高下。

这个框架彻底改写了对推理模型代际的判断。如果用”刻度尺”框架，o1→R1→o3→当代是一条单调上升曲线；但用 Kuhn 框架，每一代都是被前一代的反常逼出的转向：o1 的反常（不可复现）逼出 R1（开源）；R1 的”涌现”反常（arXiv:2503.20783 的祛魅）逼出对基座的重新重视；o3 的反常（ARC-AGI-2 崩塌、过度思考）逼出 effort 旋钮和工具调用路线。它们不可通约——你不能说”开了 max effort 的当代模型”绝对优于”o1”，因为在简单任务上前者反而更差。

对 PM 的实操含义：不要追”最新最强”，要追”我的任务落在哪个范式的强区”。 这正是 Kuhn 反对”辉格史观”（用今天的标准评判过去）对技术选型的直接馈赠——拒绝线性进步史，按任务-范式匹配度选型。

§9 PM 决策启示（三类落地）

面试怎么用： 当被问”你怎么看推理模型的发展”，不要背 benchmark 榜单。用”瓶颈驱动转向”框架答：o1 解决可工程化但锁黑箱、R1 开源但祛魅了涌现、当代撞上过度思考/知识墙/benchmark 通胀三堵墙。再钉一个反例（ARC-AGI-2 2.9% 或 Phi-4 6780 vs 378 token）。这一答立刻把你和”AI 越来越强”的候选人区分开。
选型怎么用： 建一张”任务族 × 范式强区”表——可验证任务（数学/代码/SWE）选高 effort 推理模型；知识密集任务选 RAG+低 effort；简单/结构化/高并发任务选 low effort 或非推理模型。每个 benchmark 分配套问”抗污染版本掉多少”。成本测算走 m209 - 推理成本控制手册。
复现怎么用： 想理解”涌现”真伪，复现路径是先看基座在 epoch 0 的行为（参照 arXiv:2503.20783），再决定 RL 配方——别一上来就堆 GRPO。蒸馏路线（R1 的 32B 蒸馏）是小团队性价比最高的入口。

§10 与已有节点的关系（升级对照，不复述）

对 c11 - System 2 思维与 Test-Time Compute（深化）：c11 已有 System 1/2 框架、o1/o3/R1 产品机制、Extended Thinking。本节点补缺的是 c11 缺失的代际时间轴上的反常-转向逻辑与每代的反例（c11 是横截面，G02 是纵剖面）；并纠偏 c11 把 R1 的”aha moment”当涌现正面案例——补入 arXiv:2503.20783 的祛魅反证。
对 m209 - 推理成本控制手册（对话）：m209 给成本机制与路由决策树，本节点给”为什么过度思考会撑爆这个成本模型”的代际根因。本节点不复述 m209 的计费公式。
对强化学习（引用底座）：GRPO/RLVR 的算法机制以强化学习节点为准，本节点只用其结论描述代际推动力，不复述 PPO vs GRPO 的算法细节。
对 G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索（衔接）：G01 是坐标系总图，G02 是每个坐标点的放大与争议。读 G01 建立全局地图后读本节点补细节与反例。
对 0411 Agent 专题（跨专题对照）：0411 的代际演化讲 Agent 是”规划引擎演化”，本专题讲 reasoning 是那个规划引擎的内核——当代”Reasoning Agent”在决策节点进入 hidden reasoning 再输出 action，是两条代际线的交汇点。

§11 关联节点

核心（必读）

G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索 — 本节点的坐标系总图
c11 - System 2 思维与 Test-Time Compute — 被本节点深化的旧节点
Test-Time Compute — 推理期算力的原子概念
强化学习 — GRPO/RLVR 算法底座
m209 - 推理成本控制手册 — 过度思考的成本后果
DeepSeek — R1 的出品方
OpenAI — o1/o3 的出品方

延伸（可选）

Scaling Laws — 从训练期事件到推理期变量的转向
幻觉 — 推理为何不能消毒幻觉
RAG — 知识密集任务的正确解
Claude — effort 旋钮的产品实现
范式 — Kuhn 反常驱动革命框架
Agent — Reasoning Agent 的交汇点
AI PM 知识图谱·总索引 — 全库入口

待建概念清单（本专题登记，绝不在主库建 stub）

GRPO（Group Relative Policy Optimization）— 当前降级为普通文本，待 0433 专题或强化学习节点扩展
RLVR（Reinforcement Learning with Verifiable Rewards）— 降级为普通文本
ARC-AGI / ARC-AGI-2 — benchmark 概念，降级为普通文本
过度思考（Overthinking）— 降级为普通文本；本专题 E02 已承载，正文相关引用指向 E02 Reasoning 反噬·过度思考与延迟灾难
Subbarao Kambhampati（人物）— 降级为普通文本，未在主库建人物卡
Rich Sutton / The Bitter Lesson — 降级为普通文本

修订日志

2026-06-07 R0：首稿。按 G02 brief 逐代结构（代表作/推动力/瓶颈/被超越 + 每代反例）成文；判断主轴四错位、Kuhn 跨域呼应、对 c11/m209/Scaling Laws/0411 显式升级对照；引入 Kambhampati + Sutton 两个对手框架。
2026-06-07 R0-grounding：WebFetch 逐条核验 8 个 arXiv ID 的标题与核心论断，全部 resolve——arXiv:2501.12948（DeepSeek-R1，title/作者/GRPO/aha moment 确认）、2408.03314（Snell et al. 四作者 + 14×/>4× 确认）、2502.08235（The Danger of Overthinking，SWE-Bench + ~43% 算力降确认）、2503.20783（Understanding R1-Zero-Like Training，四条批判点全确认）、2509.06861（知识密集 test-time scaling + 幻觉确认）、2604.10739（When More Thinking Hurts 确认）、2505.00127（Between Underthinking and Overthinking 确认）、2508.13141（OptimalThinkingBench，33 模型 + none optimal 确认）。表内具体数字（Phi-4 6780/378、R1 各分项分数）为论文正文级数据、源自已核准接地简报（非 abstract 可见）。更正：此前本条把”87.3%→70.3%“也列为论文正文级真实数据系误判——该对数字经 E02/S01 grounding 与 WebFetch 复核与 2604.10739 原文不符，实为编造，正文已统一替换为 R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转的真实数据。o1/o3 的 OpenAI 博客与 ARC Prize 数字、Wharton GAIL CoT 报告依接地简报，未逐条二次 WebFetch（建议终轮 grounding pass 补 OpenAI 官方博客原始 URL 核对 96.7%/87.5%/2.9% 三个关键数）。
2026-06-11 P0 收口：§4 墙一活正文残存的编造对子”准确率从 87.3% 掉到 70.3%（thinking token 1,100→15,980）“已替换为 arXiv:2604.10739 真实数据（R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转、最优预算随难度变化约 7.5 倍）；同步更正本日志上一条对该对数字”非编造”的误判。依据：WebFetch arXiv:2604.10739 abstract 不含 87.3%/70.3%，与已修兄弟节点 E02/E03 一致。
2026-06-12 内审修复：§4 墙一与判断主轴反例的 Phi-4 数字此前误署 arXiv:2505.00127（R0-grounding 条曾称”源自接地简报、非 abstract 可见”——实为误归属）。WebFetch 复核 2505.00127/2504.21318 两篇 abstract+HTML 全文均不含该组 token 与准确率；真实出处经 WebSearch+WebFetch 锁定为 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》（Srivastava et al., Virginia Tech）Table 2/§5.3：Phi-4 78.92%±3.27/~378.6 token、Phi-4-reasoning-plus 69.54%±3.50，abstract 给推理模型平均 ~6,780 token。两处正文已改署真值与正确来源（含表号），并把”约 69.5/78.9”升级为带档位（reasoning-plus）的精确值。