R

S02 训练侧 vs 推理侧 Reasoning 可替换栈

创建 2026-06-07 更新 2026-06-12 2 条双链 推理与测试时计算 专题 AI 整理

S02 训练侧 vs 推理侧 Reasoning 可替换栈

本节要回答的问题:当一个 PM 面对”我们的模型在某类任务上推理不够好”这件事,他面前其实摆着两个不同的预算池——一次性的训练算力(把推理能力烧进权重)和按 query 重复支付的推理期算力(让模型当场多想、多采、多搜)。这两个池子在很多任务上部分可替换:能用推理期搞定的不必去训练,反之亦然。本节用一张”可替换栈”的剖面图,给出什么时候该往哪个池子投钱的工程判断框架——这正是本专题核心命题(“模型变聪明从一次性预训练事件,重构成推理期可按需购买的连续变量”)在架构层的落地。

[!note] 与同级节点的分工 S01 测试时计算的三种花法·采样 验证 搜索 拆的是”推理期内部”三条路(并行/顺序/内化);本节 S02 拆的是更高一层的二选一:训练期 vs 推理期这两个不可通约的算力池如何互替。S01 是推理侧的内部解剖,S02 是两侧之间的”汇率表”。


§0 为什么是”可替换栈”这个框架,而不是”训练 vs 推理二分法”

读者脑中最容易蹦出的默认框架是一条非此即彼的对立线:要么花钱训练一个更强的推理模型,要么花钱让现有模型多想。这个二分法是错的,错在三点:

  1. 它假设两者互斥。实际上 o1/o3/R1 都是”训练侧把会推理的能力烧进权重 + 推理侧再叠加 thinking token / 多采样”的叠加体——训练侧决定了推理侧的边际收益曲线,两者是乘法不是加法。
  2. 它假设有一个全局最优解。Snell et al. 2024(arXiv:2408.03314)的核心发现恰恰是:最优分配依任务难度动态变化——简单题推理侧更划算,难到超出模型知识边界时两侧都救不了。没有”训练派 vs 推理派”的站队,只有逐任务的边际计算。
  3. 它忽略了”可替换性本身是有方向和有上限的”。推理侧能换回一部分训练侧的钱(小模型 + 测试时搜索可顶 14× 大模型,Snell et al. 2024),但反过来——训练侧能不能完全省掉推理侧?不能,因为有些能力(自我反思、回溯)必须在推理期当场展开。

所以本节用**“可替换栈”:把同一个推理目标拆成”训练侧投入”与”推理侧投入”两层可滑动的预算,画出它们之间的替换汇率汇率失效的边界**。这比二分法多了一个维度——它不问”选哪派”,而问”在这个具体任务上,下一块钱投训练还是投推理,谁的边际回报高”。


§1 两个算力池的物理区别(先把账算清)

维度训练侧 Reasoning推理侧 Reasoning
算力支付时点一次性(预训练后的 RL/SFT 阶段)每条 query 重复支付
改变的对象模型权重(永久)当前上下文的生成过程(per-query)
典型手段RL(GRPO/PPO/RLVR)、推理轨迹 SFT、蒸馏长 CoT thinking token、Best-of-N、self-consistency、树搜索、verifier 重排
成本结构固定成本,摊薄到所有调用边际成本,随调用量线性放大
代表系统DeepSeek-R1(GRPO,arXiv:2501.12948)、o1 训练(大规模 RL)o1 推理期 1000 次采样 + 学习评分重排(AIME 74%→93%,OpenAI 博客)、Snell et al. 验证器搜索
可迁移性需重训或蒸馏才能换模型搜索策略模型无关,可跨模型迁移

[!warning] PM 必须记住的一个非对称 训练侧是资本支出(CapEx),推理侧是运营支出(OpEx)。把推理能力烧进权重 = 一次烧钱、长期摊薄;开 Extended Thinking = 每条 query 都付费。一个日活百万的产品,把 reasoning 从推理侧”前移”到训练侧(蒸馏出小推理模型),可能是这个产品最大的单项降本动作——这正是 m209 - 推理成本控制手册 路由决策树(小模型→大模型→推理模型)的底层经济学。


§2 替换汇率:推理侧能换回多少训练侧的钱

这是本节最硬的一组数字,全部经接地核实:

  • 小模型 + 测试时搜索 ≈ 14× 大模型:在 FLOPs 匹配的对比中,一个小模型配上计算最优的测试时计算,可超越参数量大 14 倍的模型(Snell et al. 2024,arXiv:2408.03314)。这意味着推理侧的钱可以”买回”约一个数量级的参数规模
  • 计算最优搜索比 Best-of-N 高效 >4×:同样的推理侧预算,把”无脑多采”换成”按难度自适应分配 + 验证器引导”,效率提升 4 倍以上(同上)。说明推理侧内部也有巨大的”花得聪明 vs 花得多”的差距。
  • 小模型 + 树搜索 > 大模型 + 多数投票:Wu et al. 2024(arXiv:2408.00724,ICLR 2025)发现 Llemma-7B 配树搜索,在全 FLOPs 预算范围内持续优于 Llemma-34B + 标准多数投票。

[!note] 反方向的汇率:训练侧能换回多少推理侧的钱 DeepSeek-R1 的蒸馏实验给了一个干净的反向证据:把大模型涌现的推理模式蒸馏进 32B 小模型,AIME 2024 达 72.6%、MATH-500 达 94.3%,显著优于在同等小模型上直接做 RL(arXiv:2501.12948)。换言之——训练侧的”蒸馏”操作,能把昂贵的推理期能力固化进权重,让小模型在零额外推理预算下就达到接近的效果。这是”训练侧买回推理侧”的最佳样本。

这两个方向合起来,就是”可替换栈”的核心论断:reasoning 是一个可在训练侧与推理侧之间滑动的连续变量,PM 第一次能在质量/延迟/成本三角上做显式滑杆决策


§3 判断主轴:可替换性的四条边界(90% 的人会在这里搞错)

可替换不等于无限可替换。下面四条是”能用推理期搞定的别去训练,反之亦然”这条判断主轴的失效边界——每条带症状→为什么会错→正确做法→真实反例。

错位一:以为”加推理期算力总能补上能力缺口”

  • 症状:模型在知识密集型任务上答不准,PM 第一反应是”开 Extended Thinking / 多采几次”。
  • 为什么会错:测试时计算是对固定权重模型的后处理,无法增加超出模型已编码知识范围的信息。
  • 正确做法:知识缺口要么走训练侧(继续训练/微调),要么走检索(RAG),不要往推理侧砸钱。
  • 真实反例:arXiv:2509.06861(2025-09)对 14 个推理模型测试——在知识密集型基准上,增加推理时计算并不持续提升准确率,且经常增加幻觉;延长推理诱发确认偏误 → 过自信的 幻觉

错位二:以为”训练侧烧得够狠,推理侧就能省掉”

  • 症状:“我们训了个超强推理模型,单次输出就够好,不需要多采样/搜索。”
  • 为什么会错:自我反思、回溯、验证这类能力本质是推理期当场展开的过程——训练侧只能让模型”倾向于”这么做,不能替它在某条具体 query 上完成搜索。
  • 正确做法:训练侧负责”会推理的倾向性”,推理侧负责”在这条 query 上把搜索跑够”,两者乘法叠加。
  • 真实反例:o1 在 AIME 2024 上单次 pass@1 是 74%,64 次多数投票升到 83%,1000 次 + 学习评分重排升到 93%(OpenAI 博客)。即便是训练得最好的推理模型,推理侧的边际收益依然存在且巨大——训练侧没法把这 19 个百分点省掉。

错位三:以为”推理侧的钱花得越多越好”(reasoning 不是免费午餐)

  • 症状:默认把 effort 拉到 max、把 thinking budget 拉满。
  • 为什么会错:推理侧存在 overthinking——简单题上多想会掉点,且延迟/成本灾难。
  • 正确做法:推理侧投入要按任务难度自适应;先用 medium 跑 eval 再决定是否升档。
  • 真实反例:推理模型平均生成约 6,780 tokens vs 标准 Phi-4 的约 378.6 tokens,但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%(arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3);arXiv:2604.10739 实测 R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%,约 7,000 token 后负向翻转超过正向翻转——增加推理 budget 导致模型放弃已正确的答案(已 WebFetch 核实;旧稿”87.3%→70.3%“系误引、已更正,与 E02/E03 对齐)。详见 E02 Reasoning 反噬·过度思考与延迟灾难

错位四:以为”benchmark 分数高 = 这个替换在我的任务上也成立”

  • 症状:看到 o3 在 ARC-AGI 高算力下 87.5%,就认为”加推理期算力能通用地买回推理能力”。
  • 为什么会错:高基准分可能是 benchmark overfitting,不代表分布外/新任务上替换汇率同样成立。
  • 正确做法:在自己的任务分布上测替换曲线,别外推别人的 benchmark。
  • 真实反例:同一个 o3,ARC-AGI-1 高算力 87.5%,到 ARC-AGI-2 上仅 2.9%(人类基线约 60%,ARC Prize)。推理侧算力在一个 benchmark 上买回的能力,换个 benchmark 直接清零。

§4 一张可操作的替换决策表

把判断主轴压成 PM 可以贴墙上的决策规则:

任务特征往哪侧投钱理由
高频、简单、可验证(分类、抽取)训练侧(蒸馏出小模型)+ 推理侧 low/关闭OpEx 摊薄;推理侧在简单题上 overthink 掉点
低频、难、可验证(竞赛数学、代码)推理侧加码(长 CoT + 验证器搜索)边际收益巨大且可验证;训练成本不划算覆盖长尾
知识密集(事实问答、专业领域)都不是推理侧——走训练/微调或 RAG推理侧补不了知识缺口且增幻觉(arXiv:2509.06861)
大规模稳定需求、有可验证奖励训练侧(RLVR/GRPO 固化)+ 蒸馏把能力前移到权重,长期最省;R1 蒸馏 32B 即例证
开放/创意任务谨慎,缺系统证据推理侧对创意任务是否有益至今无高质量对照实验〔待核实〕

[!note] 与 m209 - 推理成本控制手册 的对接 m209 §2.6.3 的路由决策树(小模型→大模型→推理模型)是本表在推理侧内部的细化;本表多了一层”要不要把这个能力前移到训练侧(蒸馏)“的判断。两者合起来才是完整的成本滑杆。


§5 产品 PM 视角补盲

工程视角只看 FLOPs 和准确率,PM 还要看三件工程师常看走眼的事:

  • 用户心理模型:推理侧的”多想”是可感知延迟,训练侧的能力是”瞬时聪明”。同样的准确率,用户对”等了 8 秒才答对”和”秒答对”的体验评价完全不同。把能力从推理侧前移到训练侧(蒸馏),不只是降本,还是延迟体验的产品决策
  • 商业模式:推理侧是 OpEx,可以做差异化定价(Pro 用户开 high effort,免费用户 low);训练侧是 CapEx,定价上无法逐 query 切分。可替换栈给了 PM 一个把成本结构映射到定价分层的杠杆。
  • 合规边界:训练侧把推理烧进权重后,推理过程对用户不可见(o1 的 hidden CoT);推理侧的搜索过程则相对可审计。在需要可解释性/可审计的场景(金融、医疗、安全),推理侧的”过程可见”反而是合规资产——这对 Rick 的安全产品场景尤其相关。

§6 对手框架回应:接受 + 边界

对手立场(推理派强主张,Snell et al. 2024 的乐观读法):“测试时计算可以系统性替代参数规模扩展,小模型 + 推理期算力是更优的 scaling 路线。”

  • 接受:在可验证、难度适中的推理任务上,这个替换确实成立且数字漂亮(14× 参数、>4× 效率)。本专题完全采纳”推理侧是一个真实的、可购买的 scaling 维度”这一范式切换。
  • 边界与赌注:但这个替换有三道天花板——(1) 知识边界:推理侧补不了知识缺口(arXiv:2509.06861);(2) 验证器边界:Yu et al. 2025(arXiv:2502.00271)发现验证器引导搜索在大样本下边际优势消退、困难/分布外题上甚至不如重复采样,因为验证器不完美会误杀有效路径;(3) scaling 真实性边界:arXiv:2502.12215 质疑部分 o1-like 模型声称的测试时扩展在高预算下曲线平坦化,是”虚假扩展”。我赌的是:可替换栈在”可验证 + 难度适中 + 有好验证器”的交集里稳健,出了这个交集,替换汇率会迅速恶化甚至反向。

[!note] 引入一个 Rick 未读的对手视角(破 echo chamber) 把这套”训练 CapEx vs 推理 OpEx 可替换”的语言对照 Herbert Simon 的”有限理性 / 计算成本” 传统:Simon 早在 1950s 就主张”理性不是无成本的,搜索本身要消耗资源,最优解是带搜索成本的满意解(satisficing)“。这正是可替换栈的认识论祖先——reasoning 从来不是”想得越多越对”,而是带成本的搜索,存在一个满意即停的边界。Overthinking 文献(§3 错位三)本质上是 Simon “satisficing > maximizing” 命题在 LLM 上的当代重演:当搜索成本(thinking token)超过边际收益,继续推理就是非理性的。这给本专题一个 Rick 熟悉框架之外的批判工具——它提醒我们,“可替换”的真正约束不是技术,而是搜索成本的经济学


§7 跨域呼应:控制论的”采样—验证回路”

可替换栈的推理侧,本质是一个控制论意义上的反馈回路:生成(采样)→ 验证(verifier/reward)→ 选择/回溯 → 再生成。训练侧则是把这个回路的”控制律”固化进权重。用控制论的语言看,两侧的可替换性就变成一个清晰的工程问题:

  • 推理侧 = 在线闭环控制(每条 query 当场跑采样-验证回路),灵活但每次都付计算税;
  • 训练侧 = 离线把控制策略学进系统(权重),上线后开环执行,省在线算力但缺乏当场纠偏。

控制论的核心洞见在此发力:回路的质量上限由验证器(反馈信号)的质量决定。这就解释了为什么 §6 的”验证器边界”是可替换栈最硬的约束——当反馈信号不可靠(PRM reward hacking、ORM 长链失效、验证器误杀有效路径),无论你在推理侧砸多少采样算力,闭环都会发散而非收敛。这与 控制论 的采样-验证回路视角是同一回事:可替换性 = 你能在多大程度上用离线学到的控制律,替代在线的反馈纠偏——而这个程度,恰恰被反馈信号的质量卡死。


§8 PM 决策启示(面试 / 选型 / 复现)

  • 面试怎么用:被问”如何降低推理模型成本”时,不要只答”prompt 优化/缓存”。答出可替换栈:“先判断能力缺口属于知识型还是推理型——知识型走 RAG/微调别砸推理算力;推理型再判断频次——高频用蒸馏前移到训练侧,长尾难题才在推理侧加搜索。” 这是一个”两个预算池 + 替换汇率 + 三道边界”的结构化回答。
  • 选型怎么用:评估一个推理模型供应商,不只看 benchmark 分,要看它是否提供蒸馏小模型(让你把推理侧前移到训练侧)+ 是否提供 effort 旋钮(让你在推理侧做难度自适应)。两者都有,才支持完整的成本滑杆。
  • 复现怎么用:自建推理能力时,先在自己任务分布上画替换曲线(固定准确率目标,分别测”训练侧蒸馏到 N 参数”和”推理侧加 K 次搜索”的成本),找到本任务的替换汇率拐点,再决定投哪侧。别外推别人的 benchmark(§3 错位四)。

§9 与已有节点的关系(升级对照,不复述)

  • c11 - System 2 思维与 Test-Time Compute:c11 在概念层建立了 System 1/2 框架与 TTC 的产品形态;本节点做架构层的纠偏与深化——c11 把训练侧与推理侧当成两个并列话题分别讲,本节点显式建立两者的可替换汇率与边界,并补入 c11 缺失的”知识边界/验证器边界/scaling 真实性边界”三道失效线。
  • m209 - 推理成本控制手册:m209 在推理侧内部给了路由决策树(成本侧的 OpEx 优化);本节点升高一层,把”要不要把能力前移到训练侧”也纳入成本决策,与 m209 形成”训练侧 CapEx ↔ 推理侧 OpEx”的完整对照。
  • 对 0411 Agent 系统化专题(已发布,入口 _Agent 系统化专题·总览)的 reasoning 部分:Agent 把 reasoning 当规划引擎;本节点提供其底层——Agent 在哪些决策节点该用训练侧固化的推理倾向、哪些该当场跑推理侧搜索,是规划引擎的算力分配剖面。
  • 评测系统化专题:评测决定了验证器(reward signal)的质量,而验证器质量正是本节点 §7 指出的可替换性硬上限——对照评测专题,说明reasoning 的可替换性下限由评测/验证能力锚定
  • 对 认知科学系统化专题(System 2 祛魅):认知科学专题对”机器 System 2 = 人类慢思考”做了祛魅;本节点承接这一祛魅,进一步指出机器的”训练侧推理倾向”与”推理侧当场搜索”在人类认知里没有干净对应物——可替换栈是工程构造,不是认知科学事实。
  • 对 控制论系统化专题:见 §7,提供采样-验证回路的视角作为可替换性的形式化语言。

§10 关联节点

核心(必读)

延伸(可选)


修订日志

  • R0(2026-06-07):首稿。建立”可替换栈”框架(训练侧 CapEx vs 推理侧 OpEx 两个算力池 + 双向替换汇率 + 四道失效边界);接地 Snell 2024(14×/>4×)、Wu 2024、R1 蒸馏 32B、o1 AIME 74→83→93、Phi-4-reasoning overthinking、arXiv:2509.06861 知识边界、ARC-AGI-2 崩塌、Yu 2025 验证器缺陷、arXiv:2502.12215 虚假扩展;跨域调度 Simon 有限理性(破 echo chamber)+ 控制论采样-验证回路;升级对照 c11/m209/0411/0412/0426/0420。
  • 2026-06-12 内审修复:失效边界一的 Phi-4 反例来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3(Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token),并补全准确率分数。依据:WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。

[!todo] 本专题待建概念清单(死链降级登记,勿在主库建 stub)

  • 2026-06-11 P0 收口:错位三活正文残存的编造对子”准确率从 87.3% 跌到 70.3%(thinking token 1,100→15,980)“已替换为 arXiv:2604.10739 真实数据(R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转)。依据:WebFetch arXiv:2604.10739 abstract 不含 87.3%/70.3%,与已修兄弟节点 E02/E03 一致。