E01 o3 vs R1 vs Claude Extended Thinking 设计哲学 · 知识库

同样是”让模型多想一会儿再回答”，OpenAI o3、DeepSeek R1、Claude Extended Thinking 三家做出了三种互相不兼容的产品——本节点要解决的问题是：当三家的 benchmark 分数挤在同一张表的同一档位时，PM 凭什么判断它们的差异？答案不在分数里，在设计哲学里。本节用”三种哲学 = 三种产品赌注”这个框架，把”思考过程藏还是露、effort 旋钮给不给、权重开还是闭”三条设计轴，还原成三家公司对用户信任来源、推理时计算的定价权、谁来承担推理风险这三个商业问题下的不同赌注。

[!warning] 这不是一篇”谁更强”的评测如果你想要”o3 在 AIME 上 96.7%、R1 在 MATH-500 上 97.3%、谁赢了”——那是评测系统化专题的活，而且分数会过期。本节点关心的是结构性差异：为什么 o3 永远不让你看真实思考链、R1 把权重直接扔给你、Claude 给你一个叫 effort 的旋钮。这些选择不会随版本号过期，它们是公司战略的化石。

§0 为什么是”三种产品赌注”这个框架，而不是”功能对比表”

最容易犯的错误，是把三家产品拉进一张 feature 矩阵：思考可见性（✓/✗）、effort 控制（有/无）、开源（是/否）、价格（$X/$Y）。这张表能填满，但它误导——它假设这些功能是可以自由组合的菜单项，仿佛 OpenAI 哪天想开源 o3 的思考链就能开源。

真实情况是：这三条轴互相锁死。OpenAI 隐藏思考链，不是因为做不到显示，而是因为它的整个 RL-for-reasoning 护城河就建立在”对手看不到我的推理轨迹”上——一旦显示，竞争对手可以蒸馏（distill）你的思考过程。DeepSeek R1 开源权重，逼着它必须显示思考链（你都开源了藏什么），而开源又逼着它放弃推理时计算的定价权（用户自己部署，OpenAI 收不到的钱 DeepSeek 也收不到）。Claude 的 effort 旋钮，前提是闭源（旋钮的具体行为不公开）+ 半透明思考（让你看到 summary 但不暴露全部轨迹）。

所以正确的框架不是”三个功能维度”，而是”三个不可分割的产品姿态（product posture）“，每个姿态背后是一个对”推理这件事的钱从哪来、信任从哪来、风险归谁”的整体赌注。下面三节，一家一个姿态。

§1 OpenAI o3：把思考链当商业机密的”黑箱推理引擎”

事实接地：o1 于 2024 年 9 月发布（OpenAI 博客《Learning to reason with LLMs》），o3 于 2024 年 12 月预览、2025 年 4 月与 o4-mini 正式发布（《Introducing o3 and o4-mini》）。OpenAI 声明 o3 的训练计算量约为 o1 的 10×。核实数字：o3 在 AIME 2024 达 96.7%，GPQA Diamond 87.7%，SWE-bench Verified 71.7%，Codeforces Elo 2,727；在 ARC-AGI-1 高算力（×172 配置）下达 87.5%，但在 ARC-AGI-2 上仅 2.9%（人类基线约 60%，来源：ARC Prize《o3 Breakthrough》）。

o3 的核心产品姿态是黑箱：用户提交 query，模型在内部消耗大量不可见的 reasoning token，只吐出最终答案（早期 o1 连思考过程的 summary 都不给，后期才提供经过改写的摘要）。OpenAI 在 o1 System Card（arXiv:2412.16720）中明确说明，出于安全监控与”保持竞争优势”的考虑，原始思维链对用户不可见。

设计轴	o3 的选择	背后的赌注
思考可见性	隐藏（仅给改写后摘要）	赌”推理轨迹是可蒸馏的资产”——露出去就被对手白嫖
effort 控制	有（`reasoning_effort`: low/medium/high）	赌”PM 愿意为质量按档付费”，把推理量做成定价杠杆
权重	闭源	赌”API 即护城河”，推理时计算的钱必须经过我的服务器

这个赌注的精髓：o3 把”推理时可用算力”做成了一个只能向 OpenAI 购买的连续变量。你想让模型多想，就调高 effort、付更多 output token 的钱（reasoning token 按 output 费率计费，通常比 input 贵数倍）。OpenAI 赌的是：推理质量足够领先，用户就接受”看不见内部、按档付费、永远租不到所有权”这套条件。

反线性提醒：o3 的高分不等于通用智能跃迁。ARC-AGI-2 的 2.9% 是刺眼的反例——同一个模型在 ARC-AGI-1 拿 87.5%，换到为”抗 benchmark 过拟合”设计的 ARC-AGI-2 上几乎归零。这说明黑箱里发生的”推理”，有相当部分是对特定 benchmark 分布的优化，而非可迁移的通用能力。PM 别把 o3 的 AIME 96.7% 当成”它会替你做任何难题”。

§2 DeepSeek R1：把推理能力当公共品的”开源涌现实验”

事实接地：DeepSeek-R1 论文《Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》（arXiv:2501.12948，2025 年 1 月 22 日）。核实数字：R1 在 AIME 2024 pass@1 达 79.8%，MATH-500 97.3%，GPQA Diamond 71.5%，Codeforces Elo 2,029（对标 o1-1217 的 AIME 79.2%、Codeforces 1,891）。R1-Zero（纯 RL、无 SFT 冷启动）在 AIME 2024 pass@1 达 71.0%、多数投票 86.7%。技术核心是 GRPO（Group Relative Policy Optimization）：放弃与策略模型同等大小的 Critic，用组内相对得分估算基线，显著降低训练算力。

R1 的产品姿态是公共品：权重、技术报告、思考链全部公开。它不是一个 API 产品，而是一份可下载、可自部署、可蒸馏的资产。论文里那个被反复引用的”aha moment”——R1-Zero 在纯 RL 训练中自发涌现自我反思、验证、自适应策略切换，无需任何人工标注的推理轨迹——是开源姿态的直接收益：因为公开，整个研究社区都能验证、复现、批判这个发现。

设计轴	R1 的选择	背后的赌注
思考可见性	完全显示（原始 CoT）	赌”透明度即信任”，也因为开源后无密可保
effort 控制	无内置旋钮（社区可自行加搜索层）	赌”把控制权交给部署者”，模型只管涌现能力
权重	开源（MIT 协议级开放）	赌”生态位 > 单点利润”，用免费冲击闭源定价

这个赌注的精髓：R1 把 o3 想卖钱的东西——推理能力本身——变成了免费的公共品。它不靠卖 reasoning token 赚钱（你自己部署，token 成本归你），它赌的是改变整个市场的定价基线：当一个能力对标 o1 的模型可以免费下载，OpenAI 的 effort 旋钮定价就失去了垄断溢价的合法性。这是典型的”商品化对手核心资产”（commoditize your complement）战略。

反线性提醒 + confirmation-bias 砍除：早期叙事（包括本专题草稿）爱把 R1-Zero 的”aha moment”当成”RL 凭空创造了推理能力”的铁证。这是 bias。补入反例：arXiv:2503.20783《Understanding R1-Zero-Like Training: A Critical Perspective》指出，DeepSeek-V3-Base 在 RL 训练的 epoch 0 就已显露”aha moment”迹象，Qwen2.5 基座模型不加任何提示模板也表现出强推理——这说明 RL 可能是在解锁基座里已有的能力，而非从零创造。同一篇还发现 GRPO 会人为拉长错误回答的响应长度（length bias），污染训练信号。所以 R1 的开源透明也把它的缺陷一并公开了——这恰恰是开源姿态的代价与诚实。

§3 Claude Extended Thinking：把推理量当可调旋钮的”半透明协作引擎”

事实接地：Claude 的 effort 参数行为来自 Anthropic 官方文档（platform.claude.com/docs/en/build-with-claude/effort）。文档明示 effort 分 low / medium / high（默认）/ xhigh / max 五档，支持型号包括 Claude Opus 4.8 / 4.7 / 4.6 / 4.5 与 Sonnet 4.6（核实日期 2026-06-07）；关键设计细节：effort 是行为信号而非硬性 token 预算（即使设 low，足够难的问题仍会触发 thinking）；budget_tokens 参数在 Opus 4.6 / Sonnet 4.6 上仍被接受但已弃用、将在未来版本移除，由 effort + adaptive thinking 取代；文档对 max 档明确警告”在某些结构化输出或对智力不敏感的任务上可能导致 overthinking”。

Claude 的产品姿态是半透明协作：它既不像 o3 那样完全黑箱，也不像 R1 那样全裸开源。它给你看一个 thinking 区块（让你理解模型在推理什么、建立信任），但不暴露可被蒸馏的全部训练痕迹；它给你一个 effort 旋钮，但把旋钮做成”行为建议”而非”算力配额”——你说 low，模型保留在难题上加码的自由裁量权。

设计轴	Claude 的选择	背后的赌注
思考可见性	半透明（可见 thinking 区块，非全部轨迹）	赌”可解释性建立协作信任”，又保留竞争资产
effort 控制	有，但是”行为信号”非”硬预算”	赌”模型比 PM 更懂该想多久”，旋钮是建议不是命令
权重	闭源	与 o3 同——API 护城河

这个赌注的精髓：Claude 把 effort 旋钮的语义从”算力配额”重新定义成”协作意图”。o3 的 effort 更像油门（high = 烧更多算力），Claude 的 effort 更像对一个下属说”这件事值得多花心思”——但下属（模型）保留判断权。这背后的赌注是控制论意义上的控制权再分配：Anthropic 赌”把最后的 thinking budget 决策权留给模型的 adaptive 机制，整体效果好于让 PM 用硬预算去管”。budget_tokens 的弃用就是这个赌注的物证——他们主动收回了”PM 设死预算”这个控制杆。

反线性提醒：半透明 + 自适应不是免费午餐。effort=max 在 Anthropic 自己文档里就带”可能 overthinking”的警告，呼应整个 E02 Reasoning 反噬·过度思考与延迟灾难文献——arXiv:2507.04023（《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3）显示推理模型平均生成约 6,780 token（vs 标准 Phi-4 的约 378.6），但 Phi-4-reasoning-plus 准确率 69.54% 反低于标准 Phi-4 的 78.92%。“模型自己决定想多久”这个赌注，在简单/结构化任务上会变成”模型想太多、延迟翻倍、成本翻数倍”。Anthropic 的对策是文档里直接劝退（“结构化任务别用 max”），但这等于承认旋钮设计没法在产品层根治 overthinking。

§4 判断主轴 · 三个 90% 的人会搞错的点

[!important] 这一节是本节点的命门——三个产品判断陷阱

陷阱一：把”思考可见性”理解成透明度高低，而不是商业资产保护策略

症状：PM 选型时说”R1 能看到思考过程，所以更可信/更适合医疗等需要可解释的场景”。
为什么会错：把可见性当成一个可解释性指标，没意识到它首先是个资产保护决策。o3 隐藏不是因为不可解释，R1 显示不是因为更负责——两者都是被各自的开源/闭源姿态锁死的结果。
正确做法：先问”这家公司靠什么赚钱”，再推可见性。靠 API 卖 token 的（o3/Claude）必然藏住可蒸馏部分；靠生态位的（R1）必然全开。
真实反例：o3 的”可见摘要”是 OpenAI 改写过的——它给你可解释性的体感，但保护了真实轨迹（o1 System Card 明示）。你以为看到了它的思考，其实看到的是公关稿。

陷阱二：把 effort 旋钮当成统一的算力油门

症状：PM 写一份跨模型路由文档，假设”effort=high 在 o3 和 Claude 上是一回事”。
为什么会错：o3 的 reasoning_effort 更接近硬性档位（low/medium/high 对应不同推理预算）；Claude 的 effort 是行为信号——设 low 不保证省 token，难题仍会触发深度思考。两者语义不可通约。
正确做法：路由层对每家单独标定 effort 的实际 token/延迟曲线，别假设语义统一。Claude 的 low 不是 o3 的 low。
真实反例：Anthropic 文档原话——effort 即使设 low，“足够困难的问题仍会触发 thinking”；而 budget_tokens（真正的硬预算）已被弃用。你以为关掉了思考，其实只是发了个被无视的建议。

陷阱三：把开源 R1 的”免费”理解成”成本为零”

症状：PM 的成本模型写”R1 开源所以推理成本 = 0，碾压 o3/Claude”。
为什么会错：开源消除的是许可费与 API 溢价，不是推理时计算成本。R1 的长 CoT 同样烧 GPU——自部署意味着这笔算力账从 API 账单转移到了你的基础设施账单，加上运维、显存、扩缩容的隐性成本。
正确做法：对照 m209 - 推理成本控制手册做总拥有成本（TCO）估算，把”自部署省下的 API 溢价”和”自部署新增的基础设施/运维成本”放在同一张表里比。
真实反例：R1 这类推理模型单条复杂 query 可产生上万 reasoning token；这笔算力你自部署一样要付，只是付给云厂商而非 DeepSeek。“开源”省的是 markup，不是 FLOPs。

§5 产品 PM 视角补盲

工程视角看到的是”三种架构选择”；PM 视角要看到三种信任契约与风险归属。

用户心理模型：黑箱（o3）让用户产生”魔法盒子”心智——好处是不必理解推理就敢用，坏处是出错时用户无从判断该不该信。半透明（Claude）让用户产生”看着同事干活”心智——能建立协作信任，但也会暴露推理里的尴尬（用户看到模型”想歪了又拐回来”，可能反而焦虑）。全透明（R1）让用户产生”我能审计”心智——对技术用户是信任来源，对普通用户是信息过载。选型时要问：你的用户是想要魔法、想要协作、还是想要审计？
风险归属：闭源（o3/Claude）把推理失败的风险留在供应商侧——模型推错了是 OpenAI/Anthropic 的问题，你换个 API 就行。开源自部署（R1）把风险全部转移到你侧——推理出错、安全对齐失效、reward hacking 的锅都是你自己的。对受监管行业（Rick 的滴滴/99 安全场景）这是个真问题：开源的可控性优势和风险自担的合规负担，是一枚硬币的两面。
合规与数据主权：R1 开源的隐藏卖点是数据不出域——自部署意味着 query 不经过第三方 API，这对数据主权敏感的国际化业务（GDPR、数据本地化要求）可能是决定性的，远比 benchmark 高几个点重要。

§6 对手框架回应

接受 + 边界，不是反驳。

回应 Yann LeCun 一派（“自回归 LLM 的推理是假的、是检索拼接”）：接受——o3 在 ARC-AGI-2 上的 2.9% 确实支持”benchmark 高分 ≠ 通用推理”的批评，三家产品的推理都有相当部分是对特定分布的优化。但坚持本节点的边界：对 PM 而言，产品哲学差异是真实且可决策的，无论底层是不是”真推理”。LeCun 的 JEPA 路线至今无可调 effort、可部署的推理产品；PM 选型不能等一个更纯粹的范式，只能在 o3/R1/Claude 这三个真实存在的赌注里选。

引入 Rick 未读的对手框架——Stuart Russell 的”可纠正性”（corrigibility）视角：Russell 在 AI 安全工作中强调系统必须保留”被人类纠正、被关停”的能力。用这个框架逼问三家：o3 的黑箱削弱可纠正性（你看不见它怎么想，难以中途干预）；R1 的全透明增强可纠正性（能审计能改）；Claude 的 effort”行为信号而非硬命令”设计，恰恰是在可纠正性上做了个微妙妥协——它主动收回了 PM 的硬预算控制权（弃用 budget_tokens），把决策权交给模型的 adaptive 机制。Russell 的框架会质疑这个选择：当模型自己决定想多久，人类用 effort 旋钮发出的”少想点”指令可以被无视，这在控制论上是把方向盘部分交给了被控对象。这是 Claude 半透明哲学里一个值得 PM 警惕的盲点。

§7 跨域呼应 · 前台/后台的戈夫曼之眼

调度跨域资源：欧文·戈夫曼（Erving Goffman）《日常生活中的自我呈现》的**前台/后台（front stage / back stage）**框架。

戈夫曼说，社会行动者在”前台”做表演给观众看，在”后台”做不愿被观众看到的准备。三家推理产品恰好是对”思考这个后台该不该让观众进”的三种回答：

o3= 后台彻底封死：观众只见前台（最终答案），连”摘要”都是为前台重新表演过的（OpenAI 改写过的思考摘要）。戈夫曼会说这是最经典的”印象管理”——后台的混乱（试错、走偏）被严密遮蔽，以维持”它很可靠”的前台印象。
R1= 拆掉前后台之墙：把后台直接搬到前台，观众看见全部的犹豫、自我修正、aha moment。戈夫曼会指出这有”去神秘化”的代价——当观众看见后台的混乱（length bias、错误推理被拉长），表演的权威性会被削弱。这正是开源透明的双刃。
Claude= 设计了一个”可参观的后台”：让你进后台（看 thinking 区块），但这是个被布置过的后台——不是全部轨迹，是经过取舍的展示。戈夫曼对此最有话说：这是”后台的前台化”，一种更高级的印象管理——给你”我很透明”的体感，同时仍保留真正的后台。

这个跨域呼应改变了一个技术判断：“思考可见性”不是一个透明度刻度，而是一个印象管理光谱。PM 不该问”谁更透明”，该问”谁的前后台分割策略，最匹配我的用户对’可信’的定义”。〔注：戈夫曼框架链入 0117社会学。〕

§8 PM 决策启示

面试怎么用：被问”怎么看 o3/R1/Claude 的差异”，别背 benchmark。答：“三种产品姿态——黑箱卖 token、开源冲定价、半透明做协作；分别赌信任来自魔法、来自审计、来自看着干活；推理风险分别归供应商、归自己、归供应商。” 30 秒展示你看到的是战略不是分数。
选型怎么用：建一张”姿态 × 你的约束”决策表。数据主权硬约束 → R1 自部署优先；要快速试错、风险外包 → o3/Claude API；要可解释性建立用户信任又不想运维 → Claude 半透明。先定姿态，再比分数。
复现怎么用：想自己跑推理模型，R1 是唯一选项（另两家闭源）。但记住 §4 陷阱三——复现”免费”的代价是把算力账搬到自己服务器，先按 m209 - 推理成本控制手册算 TCO 再动手。

§9 与已有节点的关系

对照 c11 - System 2 思维与 Test-Time Compute（深化）：c11 已介绍 o1/o3/R1 的产品机制（hidden thinking token）与三大产品形态（异步工作流/白盒化/差异化定价），但停留在”机制是什么”。本节点深化到”为什么三家做出不可互换的选择”——把 c11 列举的产品形态，还原成三个被开源/闭源姿态锁死的整体赌注。不复述 c11 的 hidden token 机制定义。
对照 m209 - 推理成本控制手册（对话）：m209 给出推理成本的工程控制手段（路由、缓存、effort 调度）。本节点 §4 陷阱三、§8 与之对话：开源 R1 的”免费”必须用 m209 的 TCO 框架才能正确估值。不复述 m209 的计费公式。
对照控制论（引用）：§3、§6 用控制论的”控制权分配”解读 Claude 弃用 budget_tokens 的设计——这是采样-验证回路里”谁握方向盘”的再分配。

§10 关联节点

核心（必读）

c11 - System 2 思维与 Test-Time Compute — 本节点的机制底座
Test-Time Compute — 推理时计算的原子概念
强化学习 — GRPO/RLVR 训练层
m209 - 推理成本控制手册 — 开源 TCO 估算依据
DeepSeek · OpenAI · Claude — 三家公司主体
控制论系统化专题 — effort 旋钮的控制权分配视角

延伸（可选）

Scaling Laws — o3 训练算力 10× 的扩展背景
Agent — 三家推理引擎作为 Agent 规划核心的差异
幻觉 — 黑箱推理与可审计推理对幻觉处置的不同
0117社会学 — 戈夫曼前台/后台框架入口
评测系统化专题 — benchmark 分数的正确读法（本节点刻意不做）
E02 Reasoning 反噬·过度思考与延迟灾难 — overthinking 与 effort=max 的代价
AI PM 知识图谱·总索引 — 全局入口

修订日志

2026-06-12 内审修复：反线性提醒里的 Phi-4 反例来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3（Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token），补全准确率分数。依据：WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。
2026-06-11 P3.4 校链：0412 评测 / 0420 控制论现已入库，§0 钩子、§3/§6 引用、升级对照与延伸入口处的”（待建专题，未发布）“降级文本恢复为真链（0412 因别名 “0412 总览” 在 0427 专题被重复占用，改用唯一 basename _评测系统化专题·总览；0420 用 0420 总览）；待建清单同步更新。
2026-06-07 R0：首稿。建立”三种哲学=三种产品赌注”主框架；三家各一姿态（黑箱/公共品/半透明协作）；判断主轴三陷阱；戈夫曼前台后台跨域呼应；Russell 可纠正性对手框架；c11/m209/0420 升级对照。
2026-06-07 R0.1：WebSearch 核实 Claude effort 五档与支持型号（Opus 4.8/4.7/4.6/4.5、Sonnet 4.6）、budget_tokens 弃用状态，移除型号版本号待核实标记。o3/R1 benchmark 数字沿用 brief 接地包（已 WebFetch 验证）。

待建概念清单（死链登记，勿在主库建 stub）

（2026-06-11 已入库回链）0412 评测、0420 控制论两专题现已在主库发布，正文引用已回链至评测系统化专题 / 控制论系统化专题，不再降级。
（已确认存在，无需降级）0117社会学：社会学入口，主库实体文件 01学习/0110哲学/0117社会学.md，双链有效。
（已修复）起草期占位内链 reasoning 的反面 实指本专题 E02，已校正为 E02 Reasoning 反噬·过度思考与延迟灾难。