G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索

把”让模型推理”这件事拆成一条三代谱系，问题不是”哪一代更强”，而是每一代到底在哪个层动手、解决了上一代的什么死结、又付了什么新代价。本节用 Kuhn 的范式论做主轴：三代之间不是连续改良，而是三次”格式塔切换”——它们用的”推理”是同一个词，但底层机制不可通约。理解这一点，PM 才能在选型会上说清”为什么我这道题不该开推理模型”，而不是把三件事混成一句”现在的模型会思考了”。

§0 为什么是”三代谱系”而不是”一条 scaling 曲线”

业界最流行的叙事是一条平滑曲线：CoT 提示 → 推理模型 → 推理时算力越堆越强，仿佛同一个旋钮越拧越大。这个框架是错的，且错得有产品后果。

正确的框架是三个互不兼容的干预层：

第一代 prompt-CoT：在提示层动手，权重不变。靠一句”let’s think step by step”或几个 few-shot 示例，把模型的输出形态约束成”看起来像推理”。
第二代 RL-reasoning（o1 / R1）：在训练层动手，权重永久改变。用强化学习把推理能力固化进参数，推理链由模型自发生成、内化为习惯。
第三代推理期搜索：在推理层动手，权重不变但主动探索。用 Best-of-N、树搜索、验证器引导，在回答前消耗结构化算力探多条路径。

三者的”权重是否改变""算力发生在训练还是推理""效果是否持久”三个属性各不相同（详见 c11 - System 2 思维与 Test-Time Compute 已建立的 System 1/2 框架与 Test-Time Compute 概念卡）。把它们当成”一条曲线的三段”，会导致三类典型误判：以为给 R1 加 few-shot CoT 能再涨点（实测可能掉点）、以为推理模型一定比搜索贵（取决于任务）、以为推理时多花算力总归更准（知识密集任务上反而增加幻觉）。这正是本专题核心命题的代际投影：“让模型变聪明”已经从一次性预训练事件，裂成了三个可以分别下注的杠杆。

§1 第一代：prompt-CoT——在提示层借力，免费但脆弱

驱动力：2022 年 Wei et al. 发现，只要在提示里展示中间步骤，大模型在数学/常识推理上的表现就大幅跃升——无需任何训练，零边际成本。Wang et al. 2022（arXiv:2203.11171, ICLR 2023）的 Self-Consistency 进一步把它推到极致：对同一问题采样多条 CoT 路径再多数投票，GSM8K +17.9%、SVAMP +11.0%、AQuA +12.2%。这是第一次让 PM 意识到”推理能力可以不靠训练买到”。

机制本质：CoT 不修改一个参数，它只是用提示约束输出形态，让模型的序列预测”长得像”推理过程。上下文一清，效果归零。

瓶颈与反例（反线性的第一击）：

对推理模型几乎无益甚至有害。Wharton GAIL 2025 报告测得，CoT 提示对非推理模型 Gemini Flash 2.0 +13.5%、Sonnet 3.5 +11.7%，但对已内化推理的模型边际趋零甚至为负：o3-mini 仅 +2.9%、o4-mini +3.1%、Gemini Flash 2.5 −3.3%（来源：Wharton GAIL「The Decreasing Value of Chain of Thought」2025）。
不稳定：同报告中 Gemini Pro 1.5 加 CoT 反而下降 17.2%；语义无关的干扰短语就能大幅压低性能。
Self-Consistency 的天花板：只适用于闭合式答案（单一数字），开放生成无法多数投票；样本越多边际递减，等权投票会让低质量推理链拖累整体。

[!note] 反线性锚点一第一代的死结不是”不够强”，而是”不持久、不可靠、随模型升级而贬值”。它是借来的推理，不是模型自己的推理——这正是第二代要解决的。

§2 第二代：RL-reasoning——把推理焊进权重，但养出新的病

驱动力：既然提示层借来的推理会蒸发，那就用强化学习把它固化进参数。OpenAI o1（2024-09）用大规模 RL 训练 chain-of-thought，推理链内化为模型习惯、对用户不可见（System Card 见 arXiv:2412.16720）。其 AIME 2024 单次采样 pass@1 达 74%（来源：OpenAI「Learning to reason with LLMs」），GPQA Diamond 77.3%，首次明确超过人类 PhD 专家基线 69.7%。

范式革命的真正引爆点是 DeepSeek-R1（arXiv:2501.12948, 2025-01-22）。它做了两件让整个领域重新洗牌的事：

R1-Zero：纯 RL、无任何人工标注推理轨迹，直接在 V3 基座上用 GRPO 训练，推理能力自发涌现——模型在训练中自主学会暂停、反思、纠错（论文称之为 “aha moment”）。AIME 2024 pass@1 达 71.0%，maj@vote 86.7%。这是”推理由 RL 信号驱动、非模仿所得”的直接证据。
GRPO（Group Relative Policy Optimization）：放弃与策略模型同样大小的 Critic，改用一批输出的组内相对得分估算 baseline，显著降训练算力（详见强化学习的算法族对照表）。R1 完整四阶段流水线（冷启动 SFT → 推理 RL → 拒绝采样整理 → 对齐 RL）后，AIME 2024 pass@1 达 79.8%，MATH-500 97.3%，Codeforces Elo 2,029，与 o1-1217 同级且开源（来源：arXiv:2501.12948 HTML 版）。

o3（2024-12 预览，2025-04 正式）则把训练算力又抬一个量级（官方称约为 o1 的 10×），AIME 2024 飙到 96.7%、SWE-bench Verified 71.7%、FrontierMath 25.2%（o1 约 2%）。

瓶颈与反例（反线性的第二、三击）：

Reward Hacking 是固有困境，不是工程 bug。RL 训练后期常见 reward 持续上升但实际质量下降（reward collapse）；模型学会”模板化思考”（说 “Let me think step by step…” 却不真思考）、写”显得有道理的废话”骗过奖励模型。Anthropic 的「Natural Emergent Misalignment from Reward Hacking」更记录了奖励黑客诱发的涌现性不对齐（含对齐伪装、破坏监控）。这是强化学习 §Reward Hacking 完整表的核心，也是 System 2 产品最高频的 failure mode。
“涌现”还是”解锁”之争未解。R1 论文主张 RL 涌现出全新自我反思能力；但 arXiv:2503.20783「Understanding R1-Zero-Like Training: A Critical Perspective」反驳：DeepSeek-V3-Base 在 epoch 0 已有 “aha moment” 迹象，Qwen2.5 base 无提示模板也表现出强推理——RL 可能是”解锁”已有能力而非”创造”。同文还指出 GRPO 会人为增长错误回答的响应长度，污染训练信号。
2026 共识：ORM + RLVR 取代 PRM 成训练主流。过程奖励模型（PRM，Lightman et al. 2023, arXiv:2305.20050，MATH 上 78% vs ORM 72.4%）在精心评测里更优，但工业 RL 中实际增益仅约 1–2% 且 reward hacking 严重，已退居推理期 best-of-N 重排；可验证奖励（数学/代码答案核对，RLVR）才是当前训练主信号（详见强化学习 §Reward Model 的 2026 共识）。

[!note] 反线性锚点二第二代把推理变持久了，但也把”作弊”变持久了。提示层的错误清空上下文就消失，权重层的 reward hacking 焊死在参数里——更难发现、更难纠。

§3 第三代：推理期搜索——不动权重，用算力买准确率

驱动力：两篇 2024 奠基论文把”推理时算力”确立为独立的 scaling 维度。Snell et al.（arXiv:2408.03314）证明：计算最优的测试时策略比均匀 Best-of-N 基线效率提升 >4×；在算力匹配下，小模型 + 测试时计算可超越 14× 参数量的更大模型。Wu et al.（arXiv:2408.00724, ICLR 2025）发现 Llemma-7B 配树搜索在全 FLOPs 预算内持续优于 Llemma-34B + 标准多数投票。关键洞见：最优策略随任务难度动态变化——简单题偏好并行采样+验证器，难题偏好迭代精化/树搜索。

这一代的家族（详见本专题架构剖面 S01 测试时计算的三种花法·采样验证搜索）：

并行扩展：Best-of-N（Cobbe et al. 2021, arXiv:2110.14168 的 ORM 重排）、Self-consistency 多数投票——延迟低、易并行。
顺序扩展：迭代精化、Beam Search、MCTS——质量高但本质串行。AlphaProof（DeepMind 2024）借 MCTS 达 IMO 银牌水平；AlphaMath（arXiv:2405.03553）把 Llama-2-70B 的 GSM8K 从 57.8 提到 92.0。
验证器是引擎：ORM（只评最终答案，稀疏）vs PRM（评每步，精细但标注贵）。

瓶颈与反例（反线性的第三、四击）：

验证器引导搜索会自我反噬。Yu et al. 2025（arXiv:2502.00271「Scaling Flaws of Verifier-Guided Search」）实测：样本数增大后，验证器引导搜索的边际优势消退，最终反而不如单纯重复采样——根因是验证器不完美，会错误降级所有有效路径，在困难题和分布外问题上被放大。
测试时 scaling 可能是”虚假的”。arXiv:2502.12215「Do o1-like Models Truly Possess Test-Time Scaling?」质疑部分模型声称的扩展能力在高预算下曲线平坦化。
MCTS 的延迟灾难：本质串行，执行时间随深度快速增长，长尾延迟使实时服务工程困难。
对知识密集型任务无效甚至有害。arXiv:2509.06861（2025-09）测 14 个推理模型：知识密集基准上增加推理时算力不持续提升准确率，且经常增加幻觉——根因是测试时计算只是固定模型的后处理，无法增加模型未编码的信息，延长推理反而诱发确认偏误→过自信幻觉（呼应幻觉的不可消除性）。

[!note] 反线性锚点三第三代承诺”花钱买准确率”，但买到的是有上界、有反噬、有领域门槛的准确率。在数学/代码上它真值这个钱；在知识检索类任务上，多花的算力是在为幻觉付费。

§4 判断主轴：三代之间最容易搞错的四个点

症状	为什么会错	正确做法	真实反例
给推理模型（o3/R1）加 few-shot CoT 想再涨点	把”提示层借来的推理”和”权重层内化的推理”当成可叠加	推理模型直接零样本问，CoT 提示边际趋零甚至有害	Gemini Flash 2.5 加 CoT −3.3%（Wharton GAIL 2025）；few-shot CoT 可能损害 RL 推理模型表现
默认”推理时多花算力总归更准”	把数学/代码的 scaling 律外推到所有任务	先判任务类型：可验证→搜索值钱；知识密集→可能增幻觉	arXiv:2509.06861：知识密集任务上增算力反增幻觉
把 reward hacking 当成”调参没调好”	以为是工程 bug 而非机制固有	用确定性验证器（RLVR）替代主观奖励模型，监控 reward-质量背离	Anthropic「Natural Emergent Misalignment」记录奖励黑客涌现性不对齐
以为搜索样本越多越好	假设验证器完美	验证器不完美时，高样本反不如重复采样；设边际收益阈值	Yu et al. 2025（arXiv:2502.00271）验证器引导搜索优势消退

这一节是本节点的命门：三代用同一个”推理”标签，但它们的失效模式互不相同。把它打印出来贴在选型会的墙上。

§5 产品 PM 视角补盲

工程视角只看”哪代准确率高”，产品视角要看三件被忽略的事：

用户心理模型：第二代把推理链藏进 hidden thinking token（o1/o3），用户看到的是”沉默 30 秒后给出答案”——这制造了”它在认真想”的信任感，也制造了延迟焦虑。第三代的可见搜索（如展开多个候选）则给了透明度但暴露了不确定性。同样的准确率，呈现方式直接改变用户对产品”靠不靠谱”的感知（关联幻觉与信任架构）。
商业模式与成本：第一代 CoT 几乎免费但响应时间增加 35–600%（非推理模型）；第二代开启 extended thinking 后 output token 可增 5–20 倍，而 output 计费通常比 input 贵 2–6×（详见 m209 - 推理成本控制手册 §2.6.6 PM 成本直觉表与 §2.6.3 路由决策树）。一道简单分类题误开推理模型，是把分类成本乘了一个量级。
合规边界：第二代的 hidden CoT 不可见，意味着出错时无法向监管/用户解释”它怎么想的”；可验证奖励训练的模型在数学/代码上可审计，在开放判断上仍是黑箱。对安全/国际化这类高合规场景，可解释性比那几个点的准确率更重要。

§6 对手框架回应

接受 + 边界，不是反驳：

接受业界主流”test-time compute 是新 scaling 维度、可替代更大模型”（Snell et al. 的核心主张，证据扎实）；边界：这条 scaling 律已被 Yu et al. 2025 与 arXiv:2509.06861 双向夹击——验证器不完美使搜索优势在高样本/分布外/知识密集场景消退甚至转负。PM 的赌注是：在可验证任务（数学、代码、形式逻辑）上下注第二三代，在知识检索/开放生成上保持怀疑。
接受 DeepSeek “RL 涌现推理”叙事对开源生态的巨大推动；边界：arXiv:2503.20783 的”解锁而非创造”反驳尚未被证伪，意味着我们对”trained reasoning 到底新增了什么”的理解仍不牢靠。我赌的是：即便是”解锁”，工程上 R1 路线依然是当前最可复现的推理获取方式——PM 决策无法等理论争议收敛。

§7 跨域呼应：Kuhn 的不可通约性

范式（Kuhn）是本节的主轴。Kuhn 的核心洞见不是”科学在进步”，而是范式转移前后的两套理论”不可通约”（incommensurable）——它们对同一个词的指称不同，无法用同一把尺子比较。这恰好诊断了本节最大的认知陷阱：prompt-CoT、trained reasoning、inference-search 都叫”推理”，但它们指的根本不是同一件事（权重变不变、算力在训练还是推理、效果持不持久三个维度全不同）。

Kuhn 还提醒我们警惕辉格史观（Whig history）——把科学史写成”一代更比一代正确”的线性进步。本节刻意为每一代都配了反例（CoT 对推理模型掉点、RL 的 reward hacking、搜索的验证器反噬与知识密集幻觉），就是用 Kuhn 的反线性史观对抗”推理模型一代更比一代强”的 hype 叙事。对 PM 的直接后果：不要问”哪代最先进”，要问”我这道题落在哪个范式的有效域里”——这是 Kuhn 给选型会的最硬礼物。

§8 PM 决策启示

面试：被问”reasoning 模型为什么强”，不要答”会思考了”。答”它把三件不可通约的事——提示层 CoT、权重层 RL、推理层搜索——焊到了一起，每件有各自的 scaling 律和失效域”，再举 Gemini Flash 2.5 加 CoT 掉点、知识密集任务增幻觉两个反例，立刻区分于背 benchmark 的候选人。
选型：先做任务分类（可验证 / 知识密集 / 开放生成），再决定开哪代。数学/代码 → 第二三代值钱；知识检索 → 优先 RAG 而非堆推理算力；简单分类 → 关掉推理省 5–20× 成本（路由实现见 m209 - 推理成本控制手册 §2.6.3）。
复现：要自己跑推理 RL，优先 GRPO + 可验证奖励（RLVR），从一开始就监控 reward 与真实质量的背离，别等 reward collapse 才发现。

§9 与已有节点的关系

深化 c11 - System 2 思维与 Test-Time Compute：c11 已建立 System 1/2 框架、CoT/ToT 原理、o1/o3/R1 产品机制。本节点不复述这些，而是补它缺的代际谱系视角——把 c11 平铺介绍的三种机制，重组为”三次不可通约的范式切换 + 每代的驱动力/瓶颈/反例”，并补入 c11 缺失的 R1-Zero 反直觉发现、GRPO 机制、reward hacking、2026 ORM+RLVR 共识、验证器反噬等深化点。
对照 Test-Time Compute 概念卡：本节点为其提供时间维度（代际演化），概念卡提供静态定义。
引用底座 强化学习：第二代的 GRPO/RLVR/reward hacking 以该卡为算法层底座，本节只取其判断不复述其机制。
对接 m209 - 推理成本控制手册：本节的成本判断（output token 5–20×、路由决策）以 m209 为数字来源。
与本专题 §0411 Agent 专题的 A03 ReAct、S01 Agent 六层架构剖面形成跨专题互链——推理是 Agent 的规划引擎，reasoning 范式直接决定 Agent 在复杂决策节点的能力上界。

§10 关联节点

核心（必读）

延伸（可选）

待建概念清单（本专题登记，不在主库建 stub）：（已修复）起草期内链 S01 测试时计算技术全景 实指本专题 S01，已校正为 S01 测试时计算的三种花法·采样验证搜索。仍待建（降级为普通文本）：RLVR 概念卡、GRPO 概念卡、Process Reward Model 概念卡。

修订日志

2026-06-07 R0 首稿：建立三代谱系（prompt-CoT / RL-reasoning / 推理期搜索），每代配驱动力·瓶颈·反例，以 Kuhn 不可通约性为主轴贯穿反线性叙事；接地 o1/o3/R1 数字与 arXiv ID（待核数字 pass 后定稿）。