R

E01 o3 vs R1 vs Claude Extended Thinking 设计哲学

创建 2026-06-07 更新 2026-06-12 1 条双链 推理与测试时计算 专题 AI 整理

同样是”让模型多想一会儿再回答”,OpenAI o3、DeepSeek R1、Claude Extended Thinking 三家做出了三种互相不兼容的产品——本节点要解决的问题是:当三家的 benchmark 分数挤在同一张表的同一档位时,PM 凭什么判断它们的差异?答案不在分数里,在设计哲学里。本节用”三种哲学 = 三种产品赌注”这个框架,把”思考过程藏还是露、effort 旋钮给不给、权重开还是闭”三条设计轴,还原成三家公司对用户信任来源、推理时计算的定价权、谁来承担推理风险这三个商业问题下的不同赌注。

[!warning] 这不是一篇”谁更强”的评测 如果你想要”o3 在 AIME 上 96.7%、R1 在 MATH-500 上 97.3%、谁赢了”——那是 评测系统化专题 的活,而且分数会过期。本节点关心的是结构性差异:为什么 o3 永远不让你看真实思考链、R1 把权重直接扔给你、Claude 给你一个叫 effort 的旋钮。这些选择不会随版本号过期,它们是公司战略的化石。

§0 为什么是”三种产品赌注”这个框架,而不是”功能对比表”

最容易犯的错误,是把三家产品拉进一张 feature 矩阵:思考可见性(✓/✗)、effort 控制(有/无)、开源(是/否)、价格($X/$Y)。这张表能填满,但它误导——它假设这些功能是可以自由组合的菜单项,仿佛 OpenAI 哪天想开源 o3 的思考链就能开源。

真实情况是:这三条轴互相锁死。OpenAI 隐藏思考链,不是因为做不到显示,而是因为它的整个 RL-for-reasoning 护城河就建立在”对手看不到我的推理轨迹”上——一旦显示,竞争对手可以蒸馏(distill)你的思考过程。DeepSeek R1 开源权重,逼着它必须显示思考链(你都开源了藏什么),而开源又逼着它放弃推理时计算的定价权(用户自己部署,OpenAI 收不到的钱 DeepSeek 也收不到)。Claude 的 effort 旋钮,前提是闭源(旋钮的具体行为不公开)+ 半透明思考(让你看到 summary 但不暴露全部轨迹)。

所以正确的框架不是”三个功能维度”,而是”三个不可分割的产品姿态(product posture)“,每个姿态背后是一个对”推理这件事的钱从哪来、信任从哪来、风险归谁”的整体赌注。下面三节,一家一个姿态。

§1 OpenAI o3:把思考链当商业机密的”黑箱推理引擎”

事实接地:o1 于 2024 年 9 月发布(OpenAI 博客《Learning to reason with LLMs》),o3 于 2024 年 12 月预览、2025 年 4 月与 o4-mini 正式发布(《Introducing o3 and o4-mini》)。OpenAI 声明 o3 的训练计算量约为 o1 的 10×。核实数字:o3 在 AIME 2024 达 96.7%,GPQA Diamond 87.7%,SWE-bench Verified 71.7%,Codeforces Elo 2,727;在 ARC-AGI-1 高算力(×172 配置)下达 87.5%,但在 ARC-AGI-2 上仅 2.9%(人类基线约 60%,来源:ARC Prize《o3 Breakthrough》)。

o3 的核心产品姿态是黑箱:用户提交 query,模型在内部消耗大量不可见的 reasoning token,只吐出最终答案(早期 o1 连思考过程的 summary 都不给,后期才提供经过改写的摘要)。OpenAI 在 o1 System Card(arXiv:2412.16720)中明确说明,出于安全监控与”保持竞争优势”的考虑,原始思维链对用户不可见。

设计轴o3 的选择背后的赌注
思考可见性隐藏(仅给改写后摘要)赌”推理轨迹是可蒸馏的资产”——露出去就被对手白嫖
effort 控制有(reasoning_effort: low/medium/high)赌”PM 愿意为质量按档付费”,把推理量做成定价杠杆
权重闭源赌”API 即护城河”,推理时计算的钱必须经过我的服务器

这个赌注的精髓:o3 把”推理时可用算力”做成了一个只能向 OpenAI 购买的连续变量。你想让模型多想,就调高 effort、付更多 output token 的钱(reasoning token 按 output 费率计费,通常比 input 贵数倍)。OpenAI 赌的是:推理质量足够领先,用户就接受”看不见内部、按档付费、永远租不到所有权”这套条件。

反线性提醒:o3 的高分不等于通用智能跃迁。ARC-AGI-2 的 2.9% 是刺眼的反例——同一个模型在 ARC-AGI-1 拿 87.5%,换到为”抗 benchmark 过拟合”设计的 ARC-AGI-2 上几乎归零。这说明黑箱里发生的”推理”,有相当部分是对特定 benchmark 分布的优化,而非可迁移的通用能力。PM 别把 o3 的 AIME 96.7% 当成”它会替你做任何难题”。

§2 DeepSeek R1:把推理能力当公共品的”开源涌现实验”

事实接地:DeepSeek-R1 论文《Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》(arXiv:2501.12948,2025 年 1 月 22 日)。核实数字:R1 在 AIME 2024 pass@1 达 79.8%,MATH-500 97.3%,GPQA Diamond 71.5%,Codeforces Elo 2,029(对标 o1-1217 的 AIME 79.2%、Codeforces 1,891)。R1-Zero(纯 RL、无 SFT 冷启动)在 AIME 2024 pass@1 达 71.0%、多数投票 86.7%。技术核心是 GRPO(Group Relative Policy Optimization):放弃与策略模型同等大小的 Critic,用组内相对得分估算基线,显著降低训练算力。

R1 的产品姿态是公共品:权重、技术报告、思考链全部公开。它不是一个 API 产品,而是一份可下载、可自部署、可蒸馏的资产。论文里那个被反复引用的”aha moment”——R1-Zero 在纯 RL 训练中自发涌现自我反思、验证、自适应策略切换,无需任何人工标注的推理轨迹——是开源姿态的直接收益:因为公开,整个研究社区都能验证、复现、批判这个发现。

设计轴R1 的选择背后的赌注
思考可见性完全显示(原始 CoT)赌”透明度即信任”,也因为开源后无密可保
effort 控制无内置旋钮(社区可自行加搜索层)赌”把控制权交给部署者”,模型只管涌现能力
权重开源(MIT 协议级开放)赌”生态位 > 单点利润”,用免费冲击闭源定价

这个赌注的精髓:R1 把 o3 想卖钱的东西——推理能力本身——变成了免费的公共品。它不靠卖 reasoning token 赚钱(你自己部署,token 成本归你),它赌的是改变整个市场的定价基线:当一个能力对标 o1 的模型可以免费下载,OpenAI 的 effort 旋钮定价就失去了垄断溢价的合法性。这是典型的”商品化对手核心资产”(commoditize your complement)战略。

反线性提醒 + confirmation-bias 砍除:早期叙事(包括本专题草稿)爱把 R1-Zero 的”aha moment”当成”RL 凭空创造了推理能力”的铁证。这是 bias。补入反例:arXiv:2503.20783《Understanding R1-Zero-Like Training: A Critical Perspective》指出,DeepSeek-V3-Base 在 RL 训练的 epoch 0 就已显露”aha moment”迹象,Qwen2.5 基座模型不加任何提示模板也表现出强推理——这说明 RL 可能是在解锁基座里已有的能力,而非从零创造。同一篇还发现 GRPO 会人为拉长错误回答的响应长度(length bias),污染训练信号。所以 R1 的开源透明也把它的缺陷一并公开了——这恰恰是开源姿态的代价与诚实。

§3 Claude Extended Thinking:把推理量当可调旋钮的”半透明协作引擎”

事实接地:Claude 的 effort 参数行为来自 Anthropic 官方文档(platform.claude.com/docs/en/build-with-claude/effort)。文档明示 effort 分 low / medium / high(默认)/ xhigh / max 五档,支持型号包括 Claude Opus 4.8 / 4.7 / 4.6 / 4.5 与 Sonnet 4.6(核实日期 2026-06-07);关键设计细节:effort 是行为信号而非硬性 token 预算(即使设 low,足够难的问题仍会触发 thinking);budget_tokens 参数在 Opus 4.6 / Sonnet 4.6 上仍被接受但已弃用、将在未来版本移除,由 effort + adaptive thinking 取代;文档对 max 档明确警告”在某些结构化输出或对智力不敏感的任务上可能导致 overthinking”。

Claude 的产品姿态是半透明协作:它既不像 o3 那样完全黑箱,也不像 R1 那样全裸开源。它给你看一个 thinking 区块(让你理解模型在推理什么、建立信任),但不暴露可被蒸馏的全部训练痕迹;它给你一个 effort 旋钮,但把旋钮做成”行为建议”而非”算力配额”——你说 low,模型保留在难题上加码的自由裁量权。

设计轴Claude 的选择背后的赌注
思考可见性半透明(可见 thinking 区块,非全部轨迹)赌”可解释性建立协作信任”,又保留竞争资产
effort 控制有,但是”行为信号”非”硬预算”赌”模型比 PM 更懂该想多久”,旋钮是建议不是命令
权重闭源与 o3 同——API 护城河

这个赌注的精髓:Claude 把 effort 旋钮的语义从”算力配额”重新定义成”协作意图”。o3 的 effort 更像油门(high = 烧更多算力),Claude 的 effort 更像对一个下属说”这件事值得多花心思”——但下属(模型)保留判断权。这背后的赌注是 控制论 意义上的控制权再分配:Anthropic 赌”把最后的 thinking budget 决策权留给模型的 adaptive 机制,整体效果好于让 PM 用硬预算去管”。budget_tokens 的弃用就是这个赌注的物证——他们主动收回了”PM 设死预算”这个控制杆。

反线性提醒:半透明 + 自适应不是免费午餐。effort=max 在 Anthropic 自己文档里就带”可能 overthinking”的警告,呼应整个 E02 Reasoning 反噬·过度思考与延迟灾难文献——arXiv:2507.04023(《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3)显示推理模型平均生成约 6,780 token(vs 标准 Phi-4 的约 378.6),但 Phi-4-reasoning-plus 准确率 69.54% 反低于标准 Phi-4 的 78.92%。“模型自己决定想多久”这个赌注,在简单/结构化任务上会变成”模型想太多、延迟翻倍、成本翻数倍”。Anthropic 的对策是文档里直接劝退(“结构化任务别用 max”),但这等于承认旋钮设计没法在产品层根治 overthinking。

§4 判断主轴 · 三个 90% 的人会搞错的点

[!important] 这一节是本节点的命门——三个产品判断陷阱

陷阱一:把”思考可见性”理解成透明度高低,而不是商业资产保护策略

  • 症状:PM 选型时说”R1 能看到思考过程,所以更可信/更适合医疗等需要可解释的场景”。
  • 为什么会错:把可见性当成一个可解释性指标,没意识到它首先是个资产保护决策。o3 隐藏不是因为不可解释,R1 显示不是因为更负责——两者都是被各自的开源/闭源姿态锁死的结果。
  • 正确做法:先问”这家公司靠什么赚钱”,再推可见性。靠 API 卖 token 的(o3/Claude)必然藏住可蒸馏部分;靠生态位的(R1)必然全开。
  • 真实反例:o3 的”可见摘要”是 OpenAI 改写过的——它给你可解释性的体感,但保护了真实轨迹(o1 System Card 明示)。你以为看到了它的思考,其实看到的是公关稿。

陷阱二:把 effort 旋钮当成统一的算力油门

  • 症状:PM 写一份跨模型路由文档,假设”effort=high 在 o3 和 Claude 上是一回事”。
  • 为什么会错:o3 的 reasoning_effort 更接近硬性档位(low/medium/high 对应不同推理预算);Claude 的 effort 是行为信号——设 low 不保证省 token,难题仍会触发深度思考。两者语义不可通约。
  • 正确做法:路由层对每家单独标定 effort 的实际 token/延迟曲线,别假设语义统一。Claude 的 low 不是 o3 的 low。
  • 真实反例:Anthropic 文档原话——effort 即使设 low,“足够困难的问题仍会触发 thinking”;而 budget_tokens(真正的硬预算)已被弃用。你以为关掉了思考,其实只是发了个被无视的建议。

陷阱三:把开源 R1 的”免费”理解成”成本为零”

  • 症状:PM 的成本模型写”R1 开源所以推理成本 = 0,碾压 o3/Claude”。
  • 为什么会错:开源消除的是许可费与 API 溢价,不是推理时计算成本。R1 的长 CoT 同样烧 GPU——自部署意味着这笔算力账从 API 账单转移到了你的基础设施账单,加上运维、显存、扩缩容的隐性成本。
  • 正确做法:对照 m209 - 推理成本控制手册 做总拥有成本(TCO)估算,把”自部署省下的 API 溢价”和”自部署新增的基础设施/运维成本”放在同一张表里比。
  • 真实反例:R1 这类推理模型单条复杂 query 可产生上万 reasoning token;这笔算力你自部署一样要付,只是付给云厂商而非 DeepSeek。“开源”省的是 markup,不是 FLOPs。

§5 产品 PM 视角补盲

工程视角看到的是”三种架构选择”;PM 视角要看到三种信任契约风险归属

  • 用户心理模型:黑箱(o3)让用户产生”魔法盒子”心智——好处是不必理解推理就敢用,坏处是出错时用户无从判断该不该信。半透明(Claude)让用户产生”看着同事干活”心智——能建立协作信任,但也会暴露推理里的尴尬(用户看到模型”想歪了又拐回来”,可能反而焦虑)。全透明(R1)让用户产生”我能审计”心智——对技术用户是信任来源,对普通用户是信息过载。选型时要问:你的用户是想要魔法、想要协作、还是想要审计?
  • 风险归属:闭源(o3/Claude)把推理失败的风险留在供应商侧——模型推错了是 OpenAI/Anthropic 的问题,你换个 API 就行。开源自部署(R1)把风险全部转移到你侧——推理出错、安全对齐失效、reward hacking 的锅都是你自己的。对受监管行业(Rick 的滴滴/99 安全场景)这是个真问题:开源的可控性优势和风险自担的合规负担,是一枚硬币的两面。
  • 合规与数据主权:R1 开源的隐藏卖点是数据不出域——自部署意味着 query 不经过第三方 API,这对数据主权敏感的国际化业务(GDPR、数据本地化要求)可能是决定性的,远比 benchmark 高几个点重要。

§6 对手框架回应

接受 + 边界,不是反驳。

回应 Yann LeCun 一派(“自回归 LLM 的推理是假的、是检索拼接”):接受——o3 在 ARC-AGI-2 上的 2.9% 确实支持”benchmark 高分 ≠ 通用推理”的批评,三家产品的推理都有相当部分是对特定分布的优化。但坚持本节点的边界:对 PM 而言,产品哲学差异是真实且可决策的,无论底层是不是”真推理”。LeCun 的 JEPA 路线至今无可调 effort、可部署的推理产品;PM 选型不能等一个更纯粹的范式,只能在 o3/R1/Claude 这三个真实存在的赌注里选。

引入 Rick 未读的对手框架——Stuart Russell 的”可纠正性”(corrigibility)视角:Russell 在 AI 安全工作中强调系统必须保留”被人类纠正、被关停”的能力。用这个框架逼问三家:o3 的黑箱削弱可纠正性(你看不见它怎么想,难以中途干预);R1 的全透明增强可纠正性(能审计能改);Claude 的 effort”行为信号而非硬命令”设计,恰恰是在可纠正性上做了个微妙妥协——它主动收回了 PM 的硬预算控制权(弃用 budget_tokens),把决策权交给模型的 adaptive 机制。Russell 的框架会质疑这个选择:当模型自己决定想多久,人类用 effort 旋钮发出的”少想点”指令可以被无视,这在控制论上是把方向盘部分交给了被控对象。这是 Claude 半透明哲学里一个值得 PM 警惕的盲点。

§7 跨域呼应 · 前台/后台的戈夫曼之眼

调度跨域资源:欧文·戈夫曼(Erving Goffman)《日常生活中的自我呈现》的**前台/后台(front stage / back stage)**框架。

戈夫曼说,社会行动者在”前台”做表演给观众看,在”后台”做不愿被观众看到的准备。三家推理产品恰好是对”思考这个后台该不该让观众进”的三种回答:

  • o3= 后台彻底封死:观众只见前台(最终答案),连”摘要”都是为前台重新表演过的(OpenAI 改写过的思考摘要)。戈夫曼会说这是最经典的”印象管理”——后台的混乱(试错、走偏)被严密遮蔽,以维持”它很可靠”的前台印象。
  • R1= 拆掉前后台之墙:把后台直接搬到前台,观众看见全部的犹豫、自我修正、aha moment。戈夫曼会指出这有”去神秘化”的代价——当观众看见后台的混乱(length bias、错误推理被拉长),表演的权威性会被削弱。这正是开源透明的双刃。
  • Claude= 设计了一个”可参观的后台”:让你进后台(看 thinking 区块),但这是个被布置过的后台——不是全部轨迹,是经过取舍的展示。戈夫曼对此最有话说:这是”后台的前台化”,一种更高级的印象管理——给你”我很透明”的体感,同时仍保留真正的后台。

这个跨域呼应改变了一个技术判断:“思考可见性”不是一个透明度刻度,而是一个印象管理光谱。PM 不该问”谁更透明”,该问”谁的前后台分割策略,最匹配我的用户对’可信’的定义”。〔注:戈夫曼框架链入 0117社会学。〕

§8 PM 决策启示

  • 面试怎么用:被问”怎么看 o3/R1/Claude 的差异”,别背 benchmark。答:“三种产品姿态——黑箱卖 token、开源冲定价、半透明做协作;分别赌信任来自魔法、来自审计、来自看着干活;推理风险分别归供应商、归自己、归供应商。” 30 秒展示你看到的是战略不是分数。
  • 选型怎么用:建一张”姿态 × 你的约束”决策表。数据主权硬约束 → R1 自部署优先;要快速试错、风险外包 → o3/Claude API;要可解释性建立用户信任又不想运维 → Claude 半透明。先定姿态,再比分数。
  • 复现怎么用:想自己跑推理模型,R1 是唯一选项(另两家闭源)。但记住 §4 陷阱三——复现”免费”的代价是把算力账搬到自己服务器,先按 m209 - 推理成本控制手册 算 TCO 再动手。

§9 与已有节点的关系

  • 对照 c11 - System 2 思维与 Test-Time Compute(深化):c11 已介绍 o1/o3/R1 的产品机制(hidden thinking token)与三大产品形态(异步工作流/白盒化/差异化定价),但停留在”机制是什么”。本节点深化到”为什么三家做出不可互换的选择”——把 c11 列举的产品形态,还原成三个被开源/闭源姿态锁死的整体赌注。不复述 c11 的 hidden token 机制定义。
  • 对照 m209 - 推理成本控制手册(对话):m209 给出推理成本的工程控制手段(路由、缓存、effort 调度)。本节点 §4 陷阱三、§8 与之对话:开源 R1 的”免费”必须用 m209 的 TCO 框架才能正确估值。不复述 m209 的计费公式。
  • 对照 控制论(引用):§3、§6 用控制论的”控制权分配”解读 Claude 弃用 budget_tokens 的设计——这是采样-验证回路里”谁握方向盘”的再分配。

§10 关联节点

核心(必读)

延伸(可选)


修订日志

  • 2026-06-12 内审修复:反线性提醒里的 Phi-4 反例来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3(Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token),补全准确率分数。依据:WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。
  • 2026-06-11 P3.4 校链:0412 评测 / 0420 控制论现已入库,§0 钩子、§3/§6 引用、升级对照与延伸入口处的”(待建专题,未发布)“降级文本恢复为真链(0412 因别名 “0412 总览” 在 0427 专题被重复占用,改用唯一 basename _评测系统化专题·总览;0420 用 0420 总览);待建清单同步更新。
  • 2026-06-07 R0:首稿。建立”三种哲学=三种产品赌注”主框架;三家各一姿态(黑箱/公共品/半透明协作);判断主轴三陷阱;戈夫曼前台后台跨域呼应;Russell 可纠正性对手框架;c11/m209/0420 升级对照。
  • 2026-06-07 R0.1:WebSearch 核实 Claude effort 五档与支持型号(Opus 4.8/4.7/4.6/4.5、Sonnet 4.6)、budget_tokens 弃用状态,移除型号版本号待核实标记。o3/R1 benchmark 数字沿用 brief 接地包(已 WebFetch 验证)。

待建概念清单(死链登记,勿在主库建 stub)

  • (2026-06-11 已入库回链)0412 评测、0420 控制论两专题现已在主库发布,正文引用已回链至 评测系统化专题 / 控制论系统化专题,不再降级。
  • (已确认存在,无需降级)0117社会学:社会学入口,主库实体文件 01学习/0110哲学/0117社会学.md,双链有效。
  • (已修复)起草期占位内链 reasoning 的反面 实指本专题 E02,已校正为 E02 Reasoning 反噬·过度思考与延迟灾难