E02 Reasoning 反噬·过度思考与延迟灾难

一个本该秒回的”2+3=？“被某些推理模型用掉数千个 thinking token，准确率却没动；一个本该 200 字给出方案的客服意图分类，被默认开了 high-reasoning，单条延迟从 0.4 秒涨到 8 秒、成本翻 20 倍、用户流失。这一节要解决的问题是：把”模型变聪明”当成”无脑往上拨 reasoning 旋钮”，为什么是体验与成本的双杀？ 视角是把 overthinking / underthinking 当成测试时计算 scaling 的两个对称失效边界——当前没有任何主流模型能同时避开这两端，PM 的工作不是”开不开思考”，而是为每一类 query 选对 effort 档位。

§0 为什么是”双边界失效”框架，而不是”思考越多越好”框架

读者脑中默认的框架是一条单调上升曲线：reasoning token 越多 → 模型想得越深 → 答案越好，无非是贵一点慢一点。这个框架在专题前面几节（c11 - System 2 思维与 Test-Time Compute、Test-Time Compute）讲 Snell et al. 2024 的 test-time scaling law 时被反复强化——它对难题确实成立。但它有一个致命的隐含假设：边际收益恒为正。

正确的框架是一条倒 U 形（甚至对简单题是单调下降）曲线，且最优点的位置随任务难度漂移。Snell et al.（arXiv:2408.03314）自己就给了这个框架的种子：计算最优策略依任务难度动态变化——简单题偏好并行采样+验证，难题才偏好迭代精化。把这条洞见翻过来读，就是：在简单题上加深推理，是在最优点右侧爬反向的坡。 OptimalThinkingBench（arXiv:2508.13141，测了 33 个模型）把这个框架钉死了——它同时测 overthinking（简单题浪费）和 underthinking（难题不足），结论是没有一个模型能在两个方向上都做到最优。

所以本节点拒绝”思考越多越好”的单调框架，采用双边界失效框架：reasoning 是一个有上界也有下界的资源分配问题，PM 要管理的是分配策略，不是分配总量。

§1 Overthinking：把简单问题复杂化的实证证据

Overthinking 的实证定义来自 arXiv:2412.21187（“Do NOT Think That Much for 2+3=?”，2024）：“excessive computational resources are allocated for simple problems with minimal benefit”——为简单问题分配过量算力却几乎无收益。这不是工程吐槽，是被多篇论文量化的现象。

最锋利的单一数字：推理模型在常规数学任务上平均生成约 6,780 个推理 token，而标准 Phi-4 只需约 378.6 个——多了近 18 倍——但准确率反而更低：Phi-4-reasoning-plus 仅 69.54%，低于标准 Phi-4 的 78.92%。〔出处已核实（2026-06-12）：arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models》（Srivastava, Hussain, Srinivasan, Wang，Virginia Tech），Table 2 给出 78.92%±3.27/~378.6 token 与 69.54%±3.50，abstract 给推理模型平均 ~6,780 token。早前误署 arXiv:2505.00127 / 2504.21318——经 WebFetch 复核两篇全文均不含该组数字，已更正。〕这条与 arXiv:2505.00127（“Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and Correctness in LLMs”）的核心结论一致：模型误判题目难度，对简单题 overthink、对难题 underthink，无法按难度校准推理长度。

机制层面，overthinking 不是”想得太多但无害”，而是主动把对的答案改错。arXiv:2502.08235（“The Danger of Overthinking”，Cuadron et al., 2025）和 arXiv:2604.10739（“When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling”，2026-04，已核实）共同刻画了”分析瘫痪”（Analysis Paralysis）：模型反复审查一个已经正确的答案，直到被某条错误推理路径覆盖。arXiv:2604.10739 给出了边际收益转负的直接、可量化的证据：R1-32B 在 AIME 上的准确率随推理预算先升后降，12K token 处见顶 55.8%，到 16K 反而回落到 54.9%；更关键的是它用”答案翻转”度量直接观测到病理机制——当推理长度超过约 7,000 token，负向翻转（把对的改错）开始超过正向翻转，即模型在持续”思考”中越来越多地推翻自己正确的直觉。该工作还报告最优预算随题目难度变化 7.5 倍（Level 1 约 1,000 token，Level 5 约 7,500 token），印证 §0 的”最优点随难度漂移”。

[!warning] 反线性锚点 reasoning 不是免费午餐的”加量不加价反而更好”。在简单题上，它是加量加价且掉点——三杀。这正是本专题”反线性”主轴在病理学层面的落点：与 c11 - System 2 思维与 Test-Time Compute 早期版本”System 2 适合复杂任务”的定性判断相比，本节点补上了反向边界的量化证据——不只是”简单任务不必开”，而是”简单任务开了会更差”。

§2 延迟灾难：三种成本同时爆炸

Overthinking 的产品代价不是单一维度，是质量、延迟、成本三角同时塌陷。前两节（m209 - 推理成本控制手册）讲过推理 token 按 output 费率计费（通常比 input 贵 2–6 倍），这里把它推到病理极端。

维度	正常单条 query	无脑 high-reasoning 的复杂 query	倍数
Thinking token	~0（不思考）或数百	可达 10,000	—
成本（按 output 费率）	可见答案 ~$0.006	thinking 部分 ~$0.30（@$30/M token）	总成本 ×10–30
延迟	0.x 秒	数秒到数十秒	体感断崖

（来源：codeant.ai / aioutlooks.com 2025 的 token 成本拆解；具体单价随模型版本变动，此处为量级示意而非某一模型当前报价。）

延迟灾难对面向 C 端、对话式、高并发的产品尤其致命。Rick 在 DiDi/99 的安全与国际化场景里，意图分类、风险打分、内容审核这类 query 占绝大多数——它们要的是 P99 延迟稳定，不是单题质量极限。在这种场景默认开 high-reasoning，等于用 SWE-bench 的配置去跑客服分类：每一条都付前沿推理的税，换不来用户感知的质量。

Vellum 的 LLM Parameter Guide（2025）给了一个值得贴墙上的经验值：高 effort 下”最后 20% 的思考时间通常带来少于 5% 的质量提升”。这是延迟灾难的经济学本质——边际质量收益早已逼近零，边际延迟与成本仍在线性甚至超线性增长。

§3 Effort 旋钮：工业界给 PM 的直接控制杆（与它的不透明）

2025–2026 的产品形态把”分配多少推理”做成了一个显式参数。这是本专题核心命题——“推理期可用算力按需购买的连续变量”——在 API 层的兑现，PM 第一次能在质量/延迟/成本三角上拨滑杆。

Claude（Anthropic）的 effort 参数（来源：platform.claude.com/docs/en/build-with-claude/effort，2025 官方文档）：

级别	行为	适用场景
`low`	最少 token，可能跳过 thinking	简单分类、高并发低延迟、子 agent
`medium`	均衡，moderate token 节省	agentic 工作流、代码生成
`high`（默认）	几乎总是深度思考	复杂推理、困难代码、nuanced 分析
`xhigh`	扩展能力	长时 agentic、>30 分钟任务
`max`	无上限 token	真正前沿问题

OpenAI 的 reasoning_effort（low / medium / high，o1、o3-mini 系列；o1-mini 不支持）是同构设计。

但旋钮有两个 PM 必须知道的”不透明”陷阱：

effort 是行为信号，不是硬 token 预算。 即使设 low，足够难的问题仍会触发 thinking；即使设 max，简单题也未必被填满。这意味着 PM 不能靠 effort 做精确成本上限——预算控制要另配机制（见 m209 - 推理成本控制手册的路由与缓存）。这是对”budget forcing 能精确控成本”这一早期直觉的纠偏：显式提示约束（“思考不超过 100 token”）通常被模型忽略，或导致准确率下降〔具体来源待核实——多篇 overthinking 文献提及，未锁定单一可引论文〕。
max 在结构化任务上官方明示会 overthink。 Anthropic 文档对 Opus 4.7 的 max 档原文警告：“on some structured-output or less intelligence-sensitive tasks it can lead to overthinking”。厂商自己把”无脑开最高档=反噬”写进了文档——这是本节点判断主轴最硬的官方背书。

§4 判断主轴·90% 的人会在这里搞错的四个点

这是本节点的命门。每点配”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

错位一：默认开 high/max，以为”反正更聪明不亏”。

症状：所有 query 走同一个高 effort 档，eval 分数好看，上线后延迟与账单爆炸、简单题反而掉点。
为什么会错：把 reasoning 当成单调收益的免费午餐，没意识到 §1 的反向边界。
正确做法：先用 medium 跑全量 eval，按 query 类型分桶，只对”高难度且对质量敏感”的桶升档。
真实反例：Phi-4-reasoning-plus 在常规数学任务上烧约 6,780 token 却把准确率从 78.92% 拉到 69.54%（arXiv:2507.04023 Table 2/§5.3）——“更聪明”在简单题上是负的。

错位二：把 thinking token 当成可见答案那样廉价。

症状：成本模型只算 output 答案的 token，账单超预算数倍才发现。
为什么会错：thinking token 隐藏在最终答案之前，但全额按 output 费率计费。
正确做法：成本建模时把 thinking token 单独建一列；高 effort 场景按 ×10–30 上限做压力测试。
真实反例：单条复杂 query 可产生 10,000 thinking token，thinking 成本（~~$0.30）远超可见答案（~~$0.006）（codeant.ai 2025）。

错位三：以为 overthinking 只发生在数学/简单题，agentic 任务安全。

症状：把推理模型直接换进 coding agent / 工具调用循环，期待”想得多=做得好”，结果 agent 卡死或乱动。
为什么会错：agentic 任务的 overthinking 表现为行为失败，比静态题更隐蔽。
正确做法：监控 overthinking score 与任务成功率的相关性；为长 agent 循环设推理-行动配比上限。
真实反例：SWE-Bench Verified 上 4,018 条轨迹识别出三种 overthinking 失败模式——Analysis Paralysis（推理无限延伸不行动）、Rogue Actions（过度推理后跳到错误操作）、Premature Disengagement（推理疲劳过早放弃）；overthinking score 与成功率负相关（arXiv:2502.08235）。反向证据更有力：选”最低 overthinking 分数”的方案，成功率提升到 27.3%、成本降 43%。

错位四：以为 effort 旋钮是精确的成本闸门。

症状：把成本预算硬绑到 effort=low，结果难题仍触发深度思考，预算照样穿。
为什么会错：effort 是行为信号不是 token cap（§3）。
正确做法：成本硬上限用 token 限制 / 路由 / 超时熔断实现，effort 只做”倾向性”调节。
真实反例：Anthropic 文档明示”即使设 low，足够困难的问题仍会触发 thinking”。

§5 产品 PM 视角补盲：用户心理、商业模式、合规

工程视角只看 token 和延迟；产品视角要看三件被工程 PM 看走眼的事。

用户心理模型：用户对”等待”的容忍度不是线性的，且与他对任务难度的预期绑定。让用户看着 spinner 等 8 秒去做一个他认为”应该秒回”的简单分类，挫败感远超等同样时间做一个他知道很难的研究任务。延迟灾难的真正伤害不在毫秒数，在预期违背。对策：UI 要么把”深度思考”显式化（让等待有正当性，见 p304 - 防御性 UX：对抗延迟与幻觉），要么对简单 query 走低 effort 保证秒回——绝不能让简单任务背负深度推理的延迟却不给用户任何解释。
商业模式：thinking token 全额计费意味着”无脑开高档”会结构性侵蚀毛利，尤其是定价为订阅/包月的产品——成本是变量、收入是定量，overthinking 直接吃掉单位经济。对话式产品如果不做 effort 分桶，规模越大亏越多。
合规边界：推理链可能包含模型对用户输入的推断与中间假设。在 Rick 的安全/国际化场景，这些中间推理若被日志留存或暴露，可能涉及对用户的画像推断——是隐私合规的灰区。高 effort 产生更长推理链 = 更大的合规面。低 effort 在这里不只是省钱，也是收敛合规暴露面。

§6 对手框架回应：接受 + 边界

对手立场一（test-time scaling 乐观派，Snell et al. 2024 的主流读法）：测试时计算可让小模型胜过 14× 大模型，“想更久”是被验证的 scaling law。

接受：这在有可验证奖励、难度足够高的任务（竞赛数学、定理证明、复杂编码）上确证，本专题不否认。
边界与赌注：scaling law 是条件性的，不是普适的。它的前提是任务落在最优点左侧。本节点赌的是——真实产品流量里绝大多数 query 落在最优点右侧（简单意图、常规客服、结构化抽取），对这部分流量，test-time scaling 是负的。Snell 自己的”难度自适应”结论支持这个边界，只是被乐观派选择性忽略了。

对手立场二（厂商默认派）：模型厂商把 high 设为默认（如 Claude 的 high 即默认），暗示”默认开深度思考是安全选择”。

接受：对未知难度分布的通用 chat 场景，默认 high 是合理的保守选择，避免 underthinking。
边界：一旦 PM 知道自己的 query 分布（绝大多数产品都知道），继续吃默认值就是失职。厂商默认是为最坏情况兜底，不是为你的具体场景优化。

对手立场三（Rick 未读的对手框架·引入以破 echo chamber）：Herbert Simon 的”satisficing”（满意即止）理论——有限理性下，最优解不是”穷尽搜索找全局最优”，而是”达到满意阈值即停止”。这恰好是 overthinking 的反命题：模型缺的不是更强的搜索，而是知道何时停止的元认知。arXiv:2505.23480 把 overthinking 的机制归因于”自我怀疑驱动的反复验证”——这正是 satisficing 失效的工程表现：模型没有”够好了”的停止准则。这个框架逼问本专题的盲点：我们一直在讨论”给多少算力”，但真正的前沿问题可能是”如何让模型学会 satisfice”——而这至今无成熟解。

§7 跨域呼应：控制论的”过调”与负反馈缺失

调度一个 Rick 控制论底子里的核心概念——过调（overshoot）与振荡。一个没有恰当阻尼的负反馈系统，在追求目标值时会冲过头、再修正、再冲过头，形成振荡而非收敛。overthinking 的”分析瘫痪”在控制论上就是阻尼不足的振荡：模型每次”验证”都是一次反馈修正，但缺少一个判定”已收敛、停止”的阻尼项，于是在正确答案附近反复振荡，最终被一次过冲甩到错误区。

这改变了一个技术判断：overthinking 的解法不是”减少推理”（等于降低系统增益，会引入 underthinking），而是补上缺失的阻尼/停止准则——一个能判断”答案已足够稳定”的元控制器。这与本专题 Test-Time Compute 里”采样-验证回路”的视角呼应，但补了一个反向的洞见：验证回路如果没有终止条件，本身就是过度思考的发动机。控制论告诉我们，开环加大算力（更多采样、更长推理）在缺阻尼时只会放大振荡——这是”无脑开 high”为什么会掉点的系统论解释。

§8 PM 决策启示：面试 / 选型 / 复现

面试：被问”推理模型怎么用”，不要答”开思考让它更准”。答：“reasoning 是有双边界的资源分配——简单题 overthinking 会掉点（Phi-4-reasoning 6,780 vs 378 token 反而更差）、延迟成本爆炸（×10–30），难题 underthinking 又不足，当前没有模型能两端都对（OptimalThinkingBench 33 模型无一达标）。我的工作是按 query 难度分桶、配 effort 档位，并且知道 effort 不是硬预算。“30 秒说清”为什么不无脑开 high”。
选型：评估推理模型时，不要只看 benchmark 峰值分数，要问三个延伸指标——(1) 不同 effort 档的延迟/成本曲线；(2) 在你的简单 query 子集上是否掉点；(3) effort 控制的可观测性（能否监控实际 thinking token）。把 OptimalThinkingBench 式的”双向”评测纳入选型。
复现：搭推理产品的第一步不是接最高档模型，是按难度分桶 + 路由。简单桶走低 effort 或非推理模型，难桶才升档；监控每桶的 overthinking 指标。参考 m209 - 推理成本控制手册的 cascade 决策树落地。

§9 与已有节点的关系

对 c11 - System 2 思维与 Test-Time Compute：深化 + 反向补缺。c11 给了”哪些任务适合 System 2”的正向场景表；本节点补上对称的反向病理——适合的任务开过头也会失效，并给出量化边界（Phi-4、SWE-bench、过调机制）。不复述 c11 的 System 1/2 框架与 CoT/ToT 原理。
对 m209 - 推理成本控制手册：对话 + 病理化。m209 给了成本控制的工程手段（路由、缓存、计费公式）；本节点解释这些手段为什么必要——overthinking 是 m209 所有成本机制要对抗的那个病理根源。m209 的”Extended Thinking 开启 output token 增加 5–20 倍”在这里被推到延迟灾难的极端形态。
对 Test-Time Compute：纠偏。该卡建立”测试时计算可替代更大模型”的乐观范式；本节点标注其失效边界——test-time scaling 是条件性的，在简单题与知识密集型任务上反噬（呼应 arXiv:2509.06861 关于知识密集任务增加推理反增幻觉的发现）。
与本专题同级：与 E01（reasoning 的正面实例剖解）构成”正/反”对照；与 R01/R02 复现指南构成”病理→对策”链。

§10 关联节点

核心（必读）

c11 - System 2 思维与 Test-Time Compute — 本节点的正向母题，双边界的”上界”在此
Test-Time Compute — 测试时计算范式，本节点标注其失效边界
m209 - 推理成本控制手册 — 延迟灾难的工程对策总集
Scaling Laws — test-time scaling 的乐观叙事来源，本节点给条件
p304 - 防御性 UX：对抗延迟与幻觉 — 延迟灾难的 UX 层对策
强化学习 — overthinking 的训练根源（length bias / self-doubt）线索

延伸（可选）

幻觉 — 知识密集任务上延长推理反增幻觉（arXiv:2509.06861）
Agent — agentic overthinking 的三种失败模式落点
OpenAI / Claude / DeepSeek — effort 旋钮的产品实现对照
0117社会学 — 用户对”等待”的容忍非线性，预期违背的社会心理
AI PM 知识图谱·总索引 — 回到总图

待建概念清单（本专题登记，不在主库建 stub）

OptimalThinkingBench（arXiv:2508.13141）— 双向思考评测基准，暂作普通文本
Overthinking Score（arXiv:2502.08235）— agentic 过度思考度量，暂作普通文本
Effort 参数 / reasoning_effort — 产品层推理旋钮，可考虑升级为概念卡（待 Rick 决定）
Satisficing（Herbert Simon） — 跨域对手框架，若入库归 0114认识论/决策理论
过调 Overshoot / 阻尼 Damping — 控制论概念，若入库归 0420控制论

修订日志

2026-06-07 R0：首稿。建立”双边界失效”框架；落地四错位判断主轴；接入 Snell 乐观派 / 厂商默认派 / Simon satisficing 三组对手框架；控制论过调跨域呼应；与 c11/m209/Test-Time Compute 三向升级对照。
2026-06-07 R0.1：grounding 二次核实。纠正一处疑似编造数字——原引 arXiv:2604.10739”准确率 87.3%→70.3%“经 WebFetch 全文核实不符，该论文实际为 R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%，且”负向翻转超过正向翻转”发生在约 7,000 token、最优预算随难度变化 7.5 倍——已替换为这组真实数字。arXiv:2604.10739（When More Thinking Hurts，2026-04）与 2505.00127（Between Underthinking and Overthinking）两个 ID 均经 WebSearch 确认真实存在。Phi-4 token 数（6,780 vs 378）精确归属与准确率分数仍标〔待核实〕；budget-forcing 被忽略的单一可引来源未锁定，降级标注。
2026-06-12 内审修复：Phi-4 对照的〔待核实〕已解除并升级为带表号真值。 WebFetch 复核确认其早前误署的 arXiv:2505.00127 与 2504.21318 两篇全文均不含 6,780/378/69.54/78.92 任何一个数；经 WebSearch+WebFetch 锁定真实出处为 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》（Srivastava et al., Virginia Tech）Table 2/§5.3——Phi-4 78.92%±3.27/~378.6 token、Phi-4-reasoning-plus 69.54%±3.50、abstract 推理模型平均 ~6,780 token。§3 与判断主轴反例两处正文已改署真值与正确来源，删去 token 数”〔待核实〕“标注（准确率分数同步补全为 69.54%/78.92%）。注：本组数字此前在 A01/A03/R02/G02 被当真值、在 E02/A04 标〔待核实〕，四态并存；本次内审统一为 2507.04023 真值口径。