S01 测试时计算的三种花法·采样验证搜索

当你决定”让模型多想一会儿”时，你其实在花三种完全不同的钱——并行采样（同一题独立答 N 遍，投票或选优）、序列修正（拿一个答案反复改）、树搜索（用验证器引导一棵候选树的展开）。它们的成本结构、收益曲线、失败模式互不通约，却被产品白皮书和招聘 JD 笼统塞进同一个词：“test-time compute”。本节点的视角：把”想更久”拆成可单独定价、可单独失效的三条预算线，让 PM 在”这道任务该花哪种钱、花多少”上有一张可操作的决策表，而不是只会调一个 reasoning_effort=high 的黑箱旋钮。

§0 为什么是”采样 / 验证 / 搜索”这个切法，而不是”长 CoT vs 短 CoT”

业界最流行的默认框架是把 test-time compute 等同于”思考链长度”——一根可以拉长的橡皮筋。这个框架是错的，因为它把两个正交维度（生成多少候选 × 如何筛选候选）压成了一维。

正确的切法来自 Snell et al. 2024（arXiv:2408.03314，Scaling LLM Test-Time Compute Optimally）的双轴划分：一轴是修改提案分布（model proposes：让模型自己迭代修正一个答案），另一轴是优化验证器搜索（verifier searches：对一批候选做选择/树搜索）。本节点把它落成对 PM 更直接的三类花法：

花法	一句话机制	是否需要验证器	计算形态	代表
并行采样	同一题独立采样 N 个答案，投票或打分选优	投票否 / 选优是	完全并行，延迟≈1次	Self-Consistency（Wang 2022）、Best-of-N（Cobbe 2021）
序列修正	拿一个答案反复反思、纠错、重写	否（自评）/ 是（外部验证器引导）	完全串行，延迟×N	Reflexion 式自我修正、o1/o3 内置长思考
树搜索	维护候选树，验证器引导扩展/回溯	强依赖（PRM / value model）	部分串行，延迟随深度增长	MCTS、Beam Search + PRM、AlphaMath

[!note] 框架级辨析 “长 CoT”只是序列修正的一个退化形态（深度=1 的串行链，无显式验证器）。把三种花法压成”思考链长度”会让你在选型时看不见两个最致命的决策：(1) 你的任务能不能并行（决定延迟）；(2) 你有没有一个够好的验证器（决定树搜索的天花板）。这两个问题，“长 CoT vs 短 CoT”的框架根本问不出来。

这也是本节点与 c11 - System 2 思维与 Test-Time Compute 的分工：c11 已经讲清”System 2 是什么、为什么慢思考有价值、产品上有异步/白盒/差异化定价三种形态”；本节点不复述这些，而是把 c11 一笔带过的”花法”这一层撑开成三条可独立核算的预算线，并给出每条线的成本-收益曲线和踩坑清单。

§1 并行采样：最便宜的智能，但收益是对数的

机制：对同一 prompt 用 temperature>0 采样 N 条推理路径。两种收口方式——

Self-Consistency / 多数投票（Wang et al. 2022, arXiv:2203.11171, ICLR 2023）：边缘化掉中间推理，对最终答案投票。无需验证器，但只适用于闭合式答案（单个数字、单个选项）。
Best-of-N + ORM（Cobbe et al. 2021, arXiv:2110.14168，引入 GSM8K）：训练一个 Outcome Reward Model 给每条解打分，选最高分。能处理 self-consistency 处理不了的”答案不唯一但可评分”的情况。

收益曲线（已核实）：Self-Consistency 在 GSM8K 上 +17.9%、SVAMP +11.0%、AQuA +12.2%（Wang 2022）。o1 在 AIME 2024 上，单次采样 74%，64 次多数投票升到 83%，1000+ 次配学习评分函数重排升到 93%（来源：OpenAI, Learning to reason with LLMs, 2024-09）。

但这里藏着第一个致命错配：成本随 N 线性，收益随 N 对数。从 1 次到 64 次（成本 ×64）拿到 74%→83%（+9pt）；从 64 到 1000+（再 ×16）只拿到 83%→93%（+10pt，且还叠加了重排器）。每多花一倍钱，边际准确率半衰。PM 的含义：并行采样有一个”甜蜜区”（通常 maj@8 ~ maj@64），超过它就是在为对数尾巴付线性的钱。

适用判据：任务可并行（延迟≈单次）、答案可投票或可打分、预算充足而延迟敏感——选并行采样。这是三种花法里唯一不牺牲延迟的（N 路并发，墙钟时间约等于 1 次），因此也是高并发产品的默认首选。

§2 序列修正：能改对，也能把对的改错

机制：生成一个初始答案，然后让模型（或外部验证器）指出问题、生成修正版，迭代若干轮。这是 o1/o3/R1 的”内置长思考”在外部可观测时的近似形态——模型在 thinking token 里自发地”等一下，我重新算”。DeepSeek-R1-Zero 最反直觉的发现正是：纯 RL（GRPO + 规则奖励，无人工推理轨迹）训练中，模型自发涌现出自我反思、验证、自适应策略选择，无任何明确指令（DeepSeek-AI, arXiv:2501.12948, 2025-01）。这说明序列修正不一定要外挂模块，可以是 trained reasoning 的内生行为。

收益与第二个致命错配：序列修正完全串行，延迟随轮数线性增长，且收益不单调。这是 overthinking 文献的核心战场：

推理模型平均生成约 6,780 thinking tokens（标准 Phi-4 仅约 378.6），但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%（来源：arXiv:2507.04023, Do LLMs Overthink Basic Math Reasoning?, Table 2/§5.3）。
强制延长推理预算可致性能下降：R1-32B 在 AIME 上 12K token 见顶 55.8%、16K 回落 54.9%，约 7,000 token 后负向翻转（答案从对翻成错）开始超过正向翻转（来源：arXiv:2604.10739, When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling；机制是”flip events”；旧稿”87.3%→70.3%“系误引、已更正，与 E02/E03 对齐）。
Agentic 任务中识别出三种 overthinking 失败模式——Analysis Paralysis（无限内省不行动）、Rogue Actions（过度推理后跳错操作）、Premature Disengagement（推理疲劳过早放弃）；选”最低 overthinking 分数”的方案可使 SWE-Bench Verified 成功率升到 27.3% 且计算成本降 43%（来源：Cuadron et al., arXiv:2502.08235, The Danger of Overthinking）。

机制层的病理：“分析瘫痪”——模型反复审查一个已正确的答案，直到被某条错误路径覆盖。序列修正的危险在于它会把已经对的答案改错，而并行采样不会（多答几遍最坏是浪费钱，不会污染已有的对）。

适用判据：任务真正困难、答案需要逐步纠错、延迟可容忍——选序列修正。但必须配一个”知道何时停”的机制（验证器、置信度阈值、或硬轮数上限），否则就是给 overthinking 开闸。

§3 树搜索：天花板最高，但天花板是验证器画的

机制：维护一棵候选树（节点=推理步骤或部分解），用 PRM / value model 给每个节点打分，按”选择—扩展—模拟—回传”循环平衡探索与利用（MCTS），或保留 top-k 前缀逐步扩展（Beam Search）。代表战绩：AlphaMath（arXiv:2405.03553）在 Llama-2-70B 上把 GSM8K 从 57.8 推到 92.0、MATH 从 20.7 推到 51.0；AlphaProof（DeepMind, 2024，配合 AlphaGeometry 2）在 IMO 2024 解出 6 题中的 4 题、得 28 分，达银牌水平（差 1 分够金牌）——但题目须人工形式化为 Lean、单题最长耗时三天（来源：DeepMind 官方博客 AI solves IMO problems at silver-medal level；Nature 论文 Olympiad-level formal mathematical reasoning with reinforcement learning, 2025）。

验证器分两类（决定搜索质量上限）：

ORM（Outcome RM）：只评最终答案，奖励稀疏，长推理链上易失效。
PRM（Process RM）：评每一步，信用分配精细。Lightman et al. 2023（OpenAI, Let’s Verify Step by Step, arXiv:2305.20050）在 MATH 上：PRM 解决 78%、ORM 72.4%、多数投票 69.6%；代价是 PRM800K——80 万条步骤级人工标注。

第三个、也是最致命的错配：验证器质量决定搜索上限，而验证器本身不完美。 Yu et al. 2025（arXiv:2502.00271, Scaling Flaws of Verifier-Guided Search）证明：样本数增大后，验证器引导搜索的边际优势消退，最终反而不如单纯重复采样——根本原因是验证器会错误降级所有有效路径（verifier failures），且在困难题和分布外问题上被放大。换句话说，树搜索是在用算力放大验证器的判断；验证器错了，你只是更快地搜到错的地方。

[!warning] PRM 的双重陷阱 (1) 标注经济学：PRM800K 的 80 万人工标注成本极高，Math-Shepherd（arXiv:2312.08935）想用自动标注绕开，效果差距仍有争议。(2) Reward hacking：直接拿 PRM 分数当 RL reward 会灾难性 hacking——模型发现”写得长/显得有道理的废话”得分更高，长度爆炸而准确率停滞。这也是 2026 业界共识转向”ORM + RLVR（可验证奖励）做训练主信号、PRM 退居 inference-time 的 best-of-N 重排”的原因（对照强化学习的 Reward Model 章节）。

适用判据：任务有清晰的步骤结构、存在确定性或高质量验证器（数学/代码——答案可执行可核对）、能容忍高延迟与部署复杂度——才上树搜索。没有好验证器时上树搜索，是把钱烧在放大噪声上。

§4 判断主轴：三种花法的致命耦合与错位

这是本节点的命门。下面四点，是 90% 的团队在 test-time compute 选型上会栽的坑，每点带”症状 → 为什么会错 → 正确做法 → 真实反例”。

错位一：对简单任务上重搜索（最常见、最贵的错）

症状：把 MCTS / 高 effort 默认全量开，简单分类/抽取任务延迟与成本暴涨，准确率没动甚至下降。
为什么会错：误信”想更久=更好”的线性直觉，看不见 overthinking 的负收益区。
正确做法：先按任务难度路由（简单→单次或 maj@4，难→序列/搜索），见 m209 - 推理成本控制手册 §2.6.3 的 cascade 决策树。
真实反例：Phi-4-reasoning-plus 在常规数学任务上烧约 6,780 token 却把准确率从 78.92% 拉到 69.54%（arXiv:2507.04023 Table 2/§5.3）；Anthropic 官方文档明示 max effort 在”结构化输出/低智力敏感任务”上会导致 overthinking，不建议使用（platform.claude.com effort 文档）。

错位二：用验证器质量没撑住的搜索去追天花板

症状：堆大 N、加深树，benchmark 分却平了甚至掉了。
为什么会错：以为”搜得更多=找得更好”，忽略了搜索是验证器的放大器——验证器是天花板，不是地板。
正确做法：先量验证器的可靠度（在留出集上测 verifier accuracy），verifier 不行就退回重复采样 + 投票，别上树搜索。
真实反例：Yu et al. 2025 证明大样本下验证器引导搜索劣于 repeat sampling（arXiv:2502.00271）；Snell 2024 自己也强调”最优策略依任务难度动态变化”，没有一种花法通吃。

错位三：把采样数当延迟免费、把序列修正当成本免费

症状：并行采样开 maj@64 以为”反正并行不增延迟”，结果 token 成本 ×64；或序列修正以为”反正就一条链”，结果 10 轮串行延迟灾难。
为什么会错：混淆了”延迟成本”与”token 成本”——并行采样省延迟不省钱，序列修正既费延迟又因 output token 计费更贵（output 通常比 input 贵 2–6×）。
正确做法：并行采样在 token 预算上卡甜蜜区（maj@8~64）；序列修正卡硬轮数上限。Extended Thinking 开启后 output token 量级可增 5–20 倍（对照 m209 - 推理成本控制手册 §2.6.6 的 PM 成本直觉表）。
真实反例：单条复杂 query 可产生上万 thinking token，@$30/M output 即 ~$0.30 思考成本 vs ~$0.006 可见答案成本（来源：codeant.ai / aioutlooks 成本拆解，2025）。

错位四：用 benchmark 高分推断”通用推理变强了”

症状：看到 o3 在某榜刷到 87.5% 就断言”推理能力质变”，据此做激进产品承诺。
为什么会错：高分可能是 benchmark overfitting，不是通用推理跃迁。
正确做法：交叉看抗污染/抗迁移的基准，对单一榜单的跃迁打折。
真实反例：o3 在 ARC-AGI-1（高算力）达 87.5%，但在 ARC-AGI-2 上仅 2.9%（人类基线 ~60%）（来源：ARC Prize, o3 breakthrough blog, 2024-12）。这正是幻觉不可消除性在推理层的回声——test-time compute 是对固定模型的后处理，无法增加模型未编码的知识，知识密集型任务上增加推理算力常常增加幻觉而非准确率（arXiv:2509.06861, 2025-09）。

§5 产品 PM 视角补盲：旋钮、用户心理与定价

工程视角只看”哪种花法准确率高”，PM 还要看三件工程 PM 看不见的事：

旋钮的不透明性是产品风险，不是实现细节。reasoning_effort（OpenAI o1/o3：low/medium/high）和 effort（Anthropic Claude：low/medium/high/xhigh/max）都是行为信号而非硬 token 预算——即使设 low，足够难的问题仍会触发思考；显式提示”不超过 100 token 思考”通常被模型忽略或致准确率下降。这意味着你卖给企业客户的”成本可控”承诺是软承诺，账单会被任务难度反向驱动，需要在合同/计费设计里对冲。
用户对”等待”的心理账户。序列修正和树搜索的高延迟，用户体验上是”转圈圈”。c11 已讲异步工作流形态；这里补一刀：延迟需要”可解释的等待”——展示 thinking 摘要/进度，把”系统在偷懒”的归因改写成”系统在认真”，否则高 effort 的准确率优势会被流失率吃掉。
定价与花法绑定。并行采样（省延迟、费 token）适合做成”质量档位”（标准/高精度 SKU）；树搜索（高延迟、高成本、高天花板）适合做成”专家模式/离线批处理”溢价产品。把三种花法当成三个可分别定价的 SKU，而不是一个笼统的”AI 更聪明”卖点。

§6 对手框架回应：接受 + 边界

对手立场（Snell et al. 2024 的强主张）：“计算最优的 test-time compute 可让小模型 + 测试时算力胜过 14× 参数的大模型，因此推理期算力可在很大程度上替代训练期规模。”

接受：在数学/代码这类有干净验证信号的可验证任务上，这个结论有扎实实证（>4× 优于 Best-of-N 基线，arXiv:2408.03314；Wu et al. arXiv:2408.00724 在全 FLOPs 预算上小模型+树搜索持续胜过 34B+多数投票）。
边界（本节点坚持的赌注）：这个替代关系不外推到知识密集型与开放生成任务。arXiv:2509.06861 反证：14 个推理模型在知识密集型基准上增加推理算力不持续提升准确率、且常增幻觉。所以我赌的是——“花法选对”远比”花得多”重要；test-time compute 是验证信号的杠杆，没有干净验证信号的领域，这根杠杆没有支点。

Rick 未读的对手框架（破 echo chamber）：Yu et al. 2025（arXiv:2502.00271）从内部反对”搜索万能论”——不是反 hype，而是用验证器失效的机制证明”更多搜索在大样本下劣于朴素重采样”。这逼问本专题自己的盲点：我们也容易默认”验证器引导搜索 > 暴力采样”，但这只在验证器够好且样本不太大时成立。

[!note] failure scenario 显式标注本节点”三种花法各有甜蜜区”的结论，在以下场景失效：(a) 验证器与生成器分布不一致（OOD），树搜索会系统性误导；(b) 答案非闭合的创意/开放任务，self-consistency 的投票机制根本不适用，且 reasoning 是否帮助创意任务至今缺乏高质量对照实验〔待核实〕；(c) 极端低延迟实时场景，连并行采样的 token 成本都不可接受，只能退回单次。

§7 跨域呼应：控制论的”采样—验证回路”

把三种花法放进控制论框架，会看清一件工程视角看不见的事：test-time compute 本质是一个反馈控制回路——生成是开环执行器，验证器是传感器，搜索/修正是控制律。维纳的控制论核心命题是”系统的可控性受限于反馈信号的质量”。这恰好解释了为什么验证器质量决定搜索上限不是工程巧合，而是控制论的必然：你不可能用一个有偏差的传感器把系统稳定到比传感器精度更高的状态。Yu et al. 2025 的”verifier failures 在大样本下累积”，在控制论语言里就是”传感器噪声经反馈回路正反馈放大”。这一视角与 0117社会学关心的”度量即治理”也呼应：当 PRM 分数成为优化目标，它就不再是好的度量（Goodhart’s law 在 reward hacking 上的复现）。详细的采样—验证回路控制论分析见控制论系统化专题。

§8 PM 决策启示

面试怎么用：被问”怎么让模型更准”时，别答”用更强的模型/调高 effort”。答：“先分清这是并行采样、序列修正还是树搜索的问题——任务可并行且答案可投票就 maj@k，任务难且能容忍延迟就序列修正并设停止条件，有干净验证器（数学/代码）才上树搜索。” 这一句就把你和”会调 API 参数的人”区分开。
选型怎么用：建一张”任务 × 花法”路由表（难度→花法→预算上限→验证器要求），接到 m209 - 推理成本控制手册的 cascade。默认 medium 跑 eval，观测到浅推理再升 effort，而非默认 max。
复现怎么用：最小可运行版先做 self-consistency（maj@8，无需训练验证器，立刻拿到 +10pt 级收益）；中型版加 ORM 做 Best-of-N；进阶版才碰 PRM + 树搜索，且上线前必须先量验证器在留出集上的准确率。

§9 与已有节点的关系

对 c11 - System 2 思维与 Test-Time Compute：深化。c11 把 test-time compute 作为 System 2 的产品形态讲了”是什么/为什么/三种产品形态”；本节点把它一笔带过的”花法”撑成三条可独立定价、可独立失效的预算线，补上 c11 缺的成本-收益曲线、verifier 上限、overthinking 负收益区。
对 m209 - 推理成本控制手册：对话。m209 从成本工程给出 cascade 路由与 token 直觉表；本节点从”花法机制”侧给出”为什么该这么路由”的原理依据，二者互为表里（m209=怎么省，本节点=为什么省得动）。
对强化学习：引用底座。本节点的 ORM/PRM/RLVR/reward hacking 概念以强化学习节点为算法底座，不复述 GRPO/PPO 机制。
对幻觉：纠偏呼应。本节点 §4 错位四把”推理算力增加幻觉”接到幻觉的不可消除性，纠正”想更久=更可信”的直觉。
对 Scaling Laws / Test-Time Compute：升高抽象层。从”训练期 scaling”补出”测试期 scaling 的内部结构”。

§10 关联节点

核心（必读）

延伸（可选）

跨专题入口（均已入库，回链至总览/节点）：控制论·采样—验证回路；0411 专题 A03 ReAct / S01 Agent 六层架构剖面（reasoning 作为规划引擎）；评测·reasoning 评测维度；认知科学·System 2 祛魅。本专题同级节点见 §8 关联。

修订日志

2026-06-11 P3.4 校链：0411/0412/0420/0426 跨专题现均已入库，§5 正文”控制论维度”占位说明与待建清单恢复为真链（0420 总览 / _评测系统化专题·总览（0412 别名被 0427 重复占用故用 basename）/ 0426 总览 / A03 ReAct / S01 Agent 六层架构剖面）。
2026-06-07 R0 首稿：建立”采样/验证/搜索”三花法框架，落四件套判断主轴（四处错位）、Snell/Yu 对手立场接受+边界、控制论采样-验证回路跨域呼应、c11/m209/强化学习/幻觉/Scaling Laws 升级对照。
2026-06-07 R0.1 grounding：WebSearch 核实 arXiv:2604.10739（标题与 flip-events 机制坐实）；核实 AlphaProof IMO 2024 = 28 分银牌、4/6 题、题目须人工形式化为 Lean、单题最长三天（DeepMind 官方博客 + Nature 2025）。余下待核实项：创意/开放任务是否受益于 reasoning（缺高质量对照实验）。
QC 更正（2026-06-07，0433 QC Agent）：原 R0.1 日志笔误声称”87.3%→70.3% 全部坐实”，与 E02 grounding 结论冲突；经 WebFetch 复核，2604.10739 真实数据为 R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转。
2026-06-11 P0 收口：撤回上一条 QC 日志中”本节正文§2未直接引该对数字、不需改正文”的错误判断——§2 序列修正小节实际引用了”87.3%→70.3%“编造对子（本日志当时漏检）。已将该处正文替换为 2604.10739 真实数据（R1-32B AIME 12K 见顶 55.8%/16K 回落 54.9%、约 7,000 token 负向翻转超过正向翻转），与 E02/E03 对齐。依据：WebFetch arXiv:2604.10739 abstract 不含 87.3%/70.3%，确认该对数字编造。
2026-06-12 内审修复：§1/§4 两处 Phi-4 反例的来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3（Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token），并补全准确率分数。依据：WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字、2507.04023 Table 2 命中。