S02 训练侧 vs 推理侧 Reasoning 可替换栈

本节要回答的问题：当一个 PM 面对”我们的模型在某类任务上推理不够好”这件事，他面前其实摆着两个不同的预算池——一次性的训练算力（把推理能力烧进权重）和按 query 重复支付的推理期算力（让模型当场多想、多采、多搜）。这两个池子在很多任务上部分可替换：能用推理期搞定的不必去训练，反之亦然。本节用一张”可替换栈”的剖面图，给出什么时候该往哪个池子投钱的工程判断框架——这正是本专题核心命题（“模型变聪明从一次性预训练事件，重构成推理期可按需购买的连续变量”)在架构层的落地。

[!note] 与同级节点的分工 S01 测试时计算的三种花法·采样验证搜索拆的是”推理期内部”三条路（并行/顺序/内化）；本节 S02 拆的是更高一层的二选一：训练期 vs 推理期这两个不可通约的算力池如何互替。S01 是推理侧的内部解剖，S02 是两侧之间的”汇率表”。

§0 为什么是”可替换栈”这个框架，而不是”训练 vs 推理二分法”

读者脑中最容易蹦出的默认框架是一条非此即彼的对立线：要么花钱训练一个更强的推理模型，要么花钱让现有模型多想。这个二分法是错的，错在三点：

它假设两者互斥。实际上 o1/o3/R1 都是”训练侧把会推理的能力烧进权重 + 推理侧再叠加 thinking token / 多采样”的叠加体——训练侧决定了推理侧的边际收益曲线，两者是乘法不是加法。
它假设有一个全局最优解。Snell et al. 2024（arXiv:2408.03314）的核心发现恰恰是：最优分配依任务难度动态变化——简单题推理侧更划算，难到超出模型知识边界时两侧都救不了。没有”训练派 vs 推理派”的站队，只有逐任务的边际计算。
它忽略了”可替换性本身是有方向和有上限的”。推理侧能换回一部分训练侧的钱（小模型 + 测试时搜索可顶 14× 大模型，Snell et al. 2024），但反过来——训练侧能不能完全省掉推理侧？不能，因为有些能力（自我反思、回溯）必须在推理期当场展开。

所以本节用**“可替换栈”：把同一个推理目标拆成”训练侧投入”与”推理侧投入”两层可滑动的预算，画出它们之间的替换汇率与汇率失效的边界**。这比二分法多了一个维度——它不问”选哪派”，而问”在这个具体任务上，下一块钱投训练还是投推理，谁的边际回报高”。

§1 两个算力池的物理区别（先把账算清）

维度	训练侧 Reasoning	推理侧 Reasoning
算力支付时点	一次性（预训练后的 RL/SFT 阶段）	每条 query 重复支付
改变的对象	模型权重（永久）	当前上下文的生成过程（per-query）
典型手段	RL（GRPO/PPO/RLVR）、推理轨迹 SFT、蒸馏	长 CoT thinking token、Best-of-N、self-consistency、树搜索、verifier 重排
成本结构	固定成本，摊薄到所有调用	边际成本，随调用量线性放大
代表系统	DeepSeek-R1（GRPO，arXiv:2501.12948）、o1 训练（大规模 RL）	o1 推理期 1000 次采样 + 学习评分重排（AIME 74%→93%，OpenAI 博客）、Snell et al. 验证器搜索
可迁移性	需重训或蒸馏才能换模型	搜索策略模型无关，可跨模型迁移

[!warning] PM 必须记住的一个非对称训练侧是资本支出（CapEx），推理侧是运营支出（OpEx）。把推理能力烧进权重 = 一次烧钱、长期摊薄；开 Extended Thinking = 每条 query 都付费。一个日活百万的产品，把 reasoning 从推理侧”前移”到训练侧（蒸馏出小推理模型），可能是这个产品最大的单项降本动作——这正是 m209 - 推理成本控制手册路由决策树（小模型→大模型→推理模型）的底层经济学。

§2 替换汇率：推理侧能换回多少训练侧的钱

这是本节最硬的一组数字，全部经接地核实：

小模型 + 测试时搜索 ≈ 14× 大模型：在 FLOPs 匹配的对比中，一个小模型配上计算最优的测试时计算，可超越参数量大 14 倍的模型（Snell et al. 2024，arXiv:2408.03314）。这意味着推理侧的钱可以”买回”约一个数量级的参数规模。
计算最优搜索比 Best-of-N 高效 >4×：同样的推理侧预算，把”无脑多采”换成”按难度自适应分配 + 验证器引导”，效率提升 4 倍以上（同上）。说明推理侧内部也有巨大的”花得聪明 vs 花得多”的差距。
小模型 + 树搜索 > 大模型 + 多数投票：Wu et al. 2024（arXiv:2408.00724，ICLR 2025）发现 Llemma-7B 配树搜索，在全 FLOPs 预算范围内持续优于 Llemma-34B + 标准多数投票。

[!note] 反方向的汇率：训练侧能换回多少推理侧的钱 DeepSeek-R1 的蒸馏实验给了一个干净的反向证据：把大模型涌现的推理模式蒸馏进 32B 小模型，AIME 2024 达 72.6%、MATH-500 达 94.3%，显著优于在同等小模型上直接做 RL（arXiv:2501.12948）。换言之——训练侧的”蒸馏”操作，能把昂贵的推理期能力固化进权重，让小模型在零额外推理预算下就达到接近的效果。这是”训练侧买回推理侧”的最佳样本。

这两个方向合起来，就是”可替换栈”的核心论断：reasoning 是一个可在训练侧与推理侧之间滑动的连续变量，PM 第一次能在质量/延迟/成本三角上做显式滑杆决策。

§3 判断主轴：可替换性的四条边界（90% 的人会在这里搞错）

可替换不等于无限可替换。下面四条是”能用推理期搞定的别去训练，反之亦然”这条判断主轴的失效边界——每条带症状→为什么会错→正确做法→真实反例。

错位一：以为”加推理期算力总能补上能力缺口”

症状：模型在知识密集型任务上答不准，PM 第一反应是”开 Extended Thinking / 多采几次”。
为什么会错：测试时计算是对固定权重模型的后处理，无法增加超出模型已编码知识范围的信息。
正确做法：知识缺口要么走训练侧（继续训练/微调），要么走检索（RAG），不要往推理侧砸钱。
真实反例：arXiv:2509.06861（2025-09）对 14 个推理模型测试——在知识密集型基准上，增加推理时计算并不持续提升准确率，且经常增加幻觉；延长推理诱发确认偏误 → 过自信的幻觉。

错位二：以为”训练侧烧得够狠，推理侧就能省掉”

症状：“我们训了个超强推理模型，单次输出就够好，不需要多采样/搜索。”
为什么会错：自我反思、回溯、验证这类能力本质是推理期当场展开的过程——训练侧只能让模型”倾向于”这么做，不能替它在某条具体 query 上完成搜索。
正确做法：训练侧负责”会推理的倾向性”，推理侧负责”在这条 query 上把搜索跑够”，两者乘法叠加。
真实反例：o1 在 AIME 2024 上单次 pass@1 是 74%，64 次多数投票升到 83%，1000 次 + 学习评分重排升到 93%（OpenAI 博客）。即便是训练得最好的推理模型，推理侧的边际收益依然存在且巨大——训练侧没法把这 19 个百分点省掉。

错位三：以为”推理侧的钱花得越多越好”（reasoning 不是免费午餐）

症状：默认把 effort 拉到 max、把 thinking budget 拉满。
为什么会错：推理侧存在 overthinking——简单题上多想会掉点，且延迟/成本灾难。
正确做法：推理侧投入要按任务难度自适应；先用 medium 跑 eval 再决定是否升档。
真实反例：推理模型平均生成约 6,780 tokens vs 标准 Phi-4 的约 378.6 tokens，但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%（arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3）；arXiv:2604.10739 实测 R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%，约 7,000 token 后负向翻转超过正向翻转——增加推理 budget 导致模型放弃已正确的答案（已 WebFetch 核实；旧稿”87.3%→70.3%“系误引、已更正，与 E02/E03 对齐）。详见 E02 Reasoning 反噬·过度思考与延迟灾难。

错位四：以为”benchmark 分数高 = 这个替换在我的任务上也成立”

症状：看到 o3 在 ARC-AGI 高算力下 87.5%，就认为”加推理期算力能通用地买回推理能力”。
为什么会错：高基准分可能是 benchmark overfitting，不代表分布外/新任务上替换汇率同样成立。
正确做法：在自己的任务分布上测替换曲线，别外推别人的 benchmark。
真实反例：同一个 o3，ARC-AGI-1 高算力 87.5%，到 ARC-AGI-2 上仅 2.9%（人类基线约 60%，ARC Prize）。推理侧算力在一个 benchmark 上买回的能力，换个 benchmark 直接清零。

§4 一张可操作的替换决策表

把判断主轴压成 PM 可以贴墙上的决策规则：

任务特征	往哪侧投钱	理由
高频、简单、可验证（分类、抽取）	训练侧（蒸馏出小模型）+ 推理侧 low/关闭	OpEx 摊薄；推理侧在简单题上 overthink 掉点
低频、难、可验证（竞赛数学、代码）	推理侧加码（长 CoT + 验证器搜索）	边际收益巨大且可验证；训练成本不划算覆盖长尾
知识密集（事实问答、专业领域）	都不是推理侧——走训练/微调或 RAG	推理侧补不了知识缺口且增幻觉（arXiv:2509.06861）
大规模稳定需求、有可验证奖励	训练侧（RLVR/GRPO 固化）+ 蒸馏	把能力前移到权重，长期最省；R1 蒸馏 32B 即例证
开放/创意任务	谨慎，缺系统证据	推理侧对创意任务是否有益至今无高质量对照实验〔待核实〕

[!note] 与 m209 - 推理成本控制手册的对接 m209 §2.6.3 的路由决策树（小模型→大模型→推理模型）是本表在推理侧内部的细化；本表多了一层”要不要把这个能力前移到训练侧（蒸馏）“的判断。两者合起来才是完整的成本滑杆。

§5 产品 PM 视角补盲

工程视角只看 FLOPs 和准确率，PM 还要看三件工程师常看走眼的事：

用户心理模型：推理侧的”多想”是可感知延迟，训练侧的能力是”瞬时聪明”。同样的准确率，用户对”等了 8 秒才答对”和”秒答对”的体验评价完全不同。把能力从推理侧前移到训练侧（蒸馏），不只是降本，还是延迟体验的产品决策。
商业模式：推理侧是 OpEx，可以做差异化定价（Pro 用户开 high effort，免费用户 low）；训练侧是 CapEx，定价上无法逐 query 切分。可替换栈给了 PM 一个把成本结构映射到定价分层的杠杆。
合规边界：训练侧把推理烧进权重后，推理过程对用户不可见（o1 的 hidden CoT）；推理侧的搜索过程则相对可审计。在需要可解释性/可审计的场景（金融、医疗、安全），推理侧的”过程可见”反而是合规资产——这对 Rick 的安全产品场景尤其相关。

§6 对手框架回应：接受 + 边界

对手立场（推理派强主张，Snell et al. 2024 的乐观读法）：“测试时计算可以系统性替代参数规模扩展，小模型 + 推理期算力是更优的 scaling 路线。”

接受：在可验证、难度适中的推理任务上，这个替换确实成立且数字漂亮（14× 参数、>4× 效率）。本专题完全采纳”推理侧是一个真实的、可购买的 scaling 维度”这一范式切换。
边界与赌注：但这个替换有三道天花板——(1) 知识边界：推理侧补不了知识缺口（arXiv:2509.06861）；(2) 验证器边界：Yu et al. 2025（arXiv:2502.00271）发现验证器引导搜索在大样本下边际优势消退、困难/分布外题上甚至不如重复采样，因为验证器不完美会误杀有效路径；(3) scaling 真实性边界：arXiv:2502.12215 质疑部分 o1-like 模型声称的测试时扩展在高预算下曲线平坦化，是”虚假扩展”。我赌的是：可替换栈在”可验证 + 难度适中 + 有好验证器”的交集里稳健，出了这个交集，替换汇率会迅速恶化甚至反向。

[!note] 引入一个 Rick 未读的对手视角（破 echo chamber）把这套”训练 CapEx vs 推理 OpEx 可替换”的语言对照 Herbert Simon 的”有限理性 / 计算成本” 传统：Simon 早在 1950s 就主张”理性不是无成本的，搜索本身要消耗资源，最优解是带搜索成本的满意解（satisficing）“。这正是可替换栈的认识论祖先——reasoning 从来不是”想得越多越对”，而是带成本的搜索，存在一个满意即停的边界。Overthinking 文献（§3 错位三）本质上是 Simon “satisficing > maximizing” 命题在 LLM 上的当代重演：当搜索成本（thinking token）超过边际收益，继续推理就是非理性的。这给本专题一个 Rick 熟悉框架之外的批判工具——它提醒我们，“可替换”的真正约束不是技术，而是搜索成本的经济学。

§7 跨域呼应：控制论的”采样—验证回路”

可替换栈的推理侧，本质是一个控制论意义上的反馈回路：生成（采样）→ 验证（verifier/reward）→ 选择/回溯 → 再生成。训练侧则是把这个回路的”控制律”固化进权重。用控制论的语言看，两侧的可替换性就变成一个清晰的工程问题：

推理侧 = 在线闭环控制（每条 query 当场跑采样-验证回路），灵活但每次都付计算税；
训练侧 = 离线把控制策略学进系统（权重），上线后开环执行，省在线算力但缺乏当场纠偏。

控制论的核心洞见在此发力：回路的质量上限由验证器（反馈信号）的质量决定。这就解释了为什么 §6 的”验证器边界”是可替换栈最硬的约束——当反馈信号不可靠（PRM reward hacking、ORM 长链失效、验证器误杀有效路径），无论你在推理侧砸多少采样算力，闭环都会发散而非收敛。这与控制论的采样-验证回路视角是同一回事：可替换性 = 你能在多大程度上用离线学到的控制律，替代在线的反馈纠偏——而这个程度，恰恰被反馈信号的质量卡死。

§8 PM 决策启示（面试 / 选型 / 复现）

面试怎么用：被问”如何降低推理模型成本”时，不要只答”prompt 优化/缓存”。答出可替换栈：“先判断能力缺口属于知识型还是推理型——知识型走 RAG/微调别砸推理算力；推理型再判断频次——高频用蒸馏前移到训练侧，长尾难题才在推理侧加搜索。” 这是一个”两个预算池 + 替换汇率 + 三道边界”的结构化回答。
选型怎么用：评估一个推理模型供应商，不只看 benchmark 分，要看它是否提供蒸馏小模型（让你把推理侧前移到训练侧）+ 是否提供 effort 旋钮（让你在推理侧做难度自适应）。两者都有，才支持完整的成本滑杆。
复现怎么用：自建推理能力时，先在自己任务分布上画替换曲线（固定准确率目标，分别测”训练侧蒸馏到 N 参数”和”推理侧加 K 次搜索”的成本），找到本任务的替换汇率拐点，再决定投哪侧。别外推别人的 benchmark（§3 错位四）。

§9 与已有节点的关系（升级对照，不复述）

对 c11 - System 2 思维与 Test-Time Compute：c11 在概念层建立了 System 1/2 框架与 TTC 的产品形态；本节点做架构层的纠偏与深化——c11 把训练侧与推理侧当成两个并列话题分别讲，本节点显式建立两者的可替换汇率与边界，并补入 c11 缺失的”知识边界/验证器边界/scaling 真实性边界”三道失效线。
对 m209 - 推理成本控制手册：m209 在推理侧内部给了路由决策树（成本侧的 OpEx 优化）；本节点升高一层，把”要不要把能力前移到训练侧”也纳入成本决策，与 m209 形成”训练侧 CapEx ↔ 推理侧 OpEx”的完整对照。
对 0411 Agent 系统化专题（已发布，入口 _Agent 系统化专题·总览）的 reasoning 部分：Agent 把 reasoning 当规划引擎；本节点提供其底层——Agent 在哪些决策节点该用训练侧固化的推理倾向、哪些该当场跑推理侧搜索，是规划引擎的算力分配剖面。
对评测系统化专题：评测决定了验证器（reward signal）的质量，而验证器质量正是本节点 §7 指出的可替换性硬上限——对照评测专题，说明reasoning 的可替换性下限由评测/验证能力锚定。
对认知科学系统化专题（System 2 祛魅）：认知科学专题对”机器 System 2 = 人类慢思考”做了祛魅；本节点承接这一祛魅，进一步指出机器的”训练侧推理倾向”与”推理侧当场搜索”在人类认知里没有干净对应物——可替换栈是工程构造，不是认知科学事实。
对控制论系统化专题：见 §7，提供采样-验证回路的视角作为可替换性的形式化语言。

§10 关联节点

核心（必读）

延伸（可选）

修订日志

R0（2026-06-07）：首稿。建立”可替换栈”框架（训练侧 CapEx vs 推理侧 OpEx 两个算力池 + 双向替换汇率 + 四道失效边界）；接地 Snell 2024(14×/>4×)、Wu 2024、R1 蒸馏 32B、o1 AIME 74→83→93、Phi-4-reasoning overthinking、arXiv:2509.06861 知识边界、ARC-AGI-2 崩塌、Yu 2025 验证器缺陷、arXiv:2502.12215 虚假扩展;跨域调度 Simon 有限理性(破 echo chamber)+ 控制论采样-验证回路;升级对照 c11/m209/0411/0412/0426/0420。
2026-06-12 内审修复：失效边界一的 Phi-4 反例来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3（Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token），并补全准确率分数。依据：WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。

[!todo] 本专题待建概念清单（死链降级登记，勿在主库建 stub）

（已修复）起草期内链 S01 三种推理期计算范式·并行顺序内化 实指本专题 S01，已校正为 S01 测试时计算的三种花法·采样验证搜索。

（已修复）起草期内链 T01 Overthinking 与延迟灾难·Reasoning 的反面 实指本专题 E02，已校正为 E02 Reasoning 反噬·过度思考与延迟灾难。

（已修复）0411 Agent 系统化专题 已在主库发布，入口校正为 _Agent 系统化专题·总览。

（2026-06-11 P3.4 已修复）0412 评测、0426 认知科学、0420 控制论三专题现均已入库发布，§8/§10 引用已恢复为真链（0412 用唯一 basename _评测系统化专题·总览，因别名 “0412 总览” 被 0427 专题重复占用；0426/0420 用 0426 总览 / 0420 总览），不再降级。

2026-06-11 P0 收口：错位三活正文残存的编造对子”准确率从 87.3% 跌到 70.3%（thinking token 1,100→15,980）“已替换为 arXiv:2604.10739 真实数据（R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转）。依据：WebFetch arXiv:2604.10739 abstract 不含 87.3%/70.3%，与已修兄弟节点 E02/E03 一致。