G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索
G01 推理范式代际谱系·prompt-CoT 到 RL-reasoning 到推理期搜索
把”让模型推理”这件事拆成一条三代谱系,问题不是”哪一代更强”,而是每一代到底在哪个层动手、解决了上一代的什么死结、又付了什么新代价。本节用 Kuhn 的范式论做主轴:三代之间不是连续改良,而是三次”格式塔切换”——它们用的”推理”是同一个词,但底层机制不可通约。理解这一点,PM 才能在选型会上说清”为什么我这道题不该开推理模型”,而不是把三件事混成一句”现在的模型会思考了”。
§0 为什么是”三代谱系”而不是”一条 scaling 曲线”
业界最流行的叙事是一条平滑曲线:CoT 提示 → 推理模型 → 推理时算力越堆越强,仿佛同一个旋钮越拧越大。这个框架是错的,且错得有产品后果。
正确的框架是三个互不兼容的干预层:
- 第一代 prompt-CoT:在提示层动手,权重不变。靠一句”let’s think step by step”或几个 few-shot 示例,把模型的输出形态约束成”看起来像推理”。
- 第二代 RL-reasoning(o1 / R1):在训练层动手,权重永久改变。用强化学习把推理能力固化进参数,推理链由模型自发生成、内化为习惯。
- 第三代 推理期搜索:在推理层动手,权重不变但主动探索。用 Best-of-N、树搜索、验证器引导,在回答前消耗结构化算力探多条路径。
三者的”权重是否改变""算力发生在训练还是推理""效果是否持久”三个属性各不相同(详见 c11 - System 2 思维与 Test-Time Compute 已建立的 System 1/2 框架与 Test-Time Compute 概念卡)。把它们当成”一条曲线的三段”,会导致三类典型误判:以为给 R1 加 few-shot CoT 能再涨点(实测可能掉点)、以为推理模型一定比搜索贵(取决于任务)、以为推理时多花算力总归更准(知识密集任务上反而增加幻觉)。这正是本专题核心命题的代际投影:“让模型变聪明”已经从一次性预训练事件,裂成了三个可以分别下注的杠杆。
§1 第一代:prompt-CoT——在提示层借力,免费但脆弱
驱动力:2022 年 Wei et al. 发现,只要在提示里展示中间步骤,大模型在数学/常识推理上的表现就大幅跃升——无需任何训练,零边际成本。Wang et al. 2022(arXiv:2203.11171, ICLR 2023)的 Self-Consistency 进一步把它推到极致:对同一问题采样多条 CoT 路径再多数投票,GSM8K +17.9%、SVAMP +11.0%、AQuA +12.2%。这是第一次让 PM 意识到”推理能力可以不靠训练买到”。
机制本质:CoT 不修改一个参数,它只是用提示约束输出形态,让模型的序列预测”长得像”推理过程。上下文一清,效果归零。
瓶颈与反例(反线性的第一击):
- 对推理模型几乎无益甚至有害。Wharton GAIL 2025 报告测得,CoT 提示对非推理模型 Gemini Flash 2.0 +13.5%、Sonnet 3.5 +11.7%,但对已内化推理的模型边际趋零甚至为负:o3-mini 仅 +2.9%、o4-mini +3.1%、Gemini Flash 2.5 −3.3%(来源:Wharton GAIL「The Decreasing Value of Chain of Thought」2025)。
- 不稳定:同报告中 Gemini Pro 1.5 加 CoT 反而下降 17.2%;语义无关的干扰短语就能大幅压低性能。
- Self-Consistency 的天花板:只适用于闭合式答案(单一数字),开放生成无法多数投票;样本越多边际递减,等权投票会让低质量推理链拖累整体。
[!note] 反线性锚点一 第一代的死结不是”不够强”,而是”不持久、不可靠、随模型升级而贬值”。它是借来的推理,不是模型自己的推理——这正是第二代要解决的。
§2 第二代:RL-reasoning——把推理焊进权重,但养出新的病
驱动力:既然提示层借来的推理会蒸发,那就用强化学习把它固化进参数。OpenAI o1(2024-09)用大规模 RL 训练 chain-of-thought,推理链内化为模型习惯、对用户不可见(System Card 见 arXiv:2412.16720)。其 AIME 2024 单次采样 pass@1 达 74%(来源:OpenAI「Learning to reason with LLMs」),GPQA Diamond 77.3%,首次明确超过人类 PhD 专家基线 69.7%。
范式革命的真正引爆点是 DeepSeek-R1(arXiv:2501.12948, 2025-01-22)。它做了两件让整个领域重新洗牌的事:
- R1-Zero:纯 RL、无任何人工标注推理轨迹,直接在 V3 基座上用 GRPO 训练,推理能力自发涌现——模型在训练中自主学会暂停、反思、纠错(论文称之为 “aha moment”)。AIME 2024 pass@1 达 71.0%,maj@vote 86.7%。这是”推理由 RL 信号驱动、非模仿所得”的直接证据。
- GRPO(Group Relative Policy Optimization):放弃与策略模型同样大小的 Critic,改用一批输出的组内相对得分估算 baseline,显著降训练算力(详见 强化学习 的算法族对照表)。R1 完整四阶段流水线(冷启动 SFT → 推理 RL → 拒绝采样整理 → 对齐 RL)后,AIME 2024 pass@1 达 79.8%,MATH-500 97.3%,Codeforces Elo 2,029,与 o1-1217 同级且开源(来源:arXiv:2501.12948 HTML 版)。
o3(2024-12 预览,2025-04 正式)则把训练算力又抬一个量级(官方称约为 o1 的 10×),AIME 2024 飙到 96.7%、SWE-bench Verified 71.7%、FrontierMath 25.2%(o1 约 2%)。
瓶颈与反例(反线性的第二、三击):
- Reward Hacking 是固有困境,不是工程 bug。RL 训练后期常见 reward 持续上升但实际质量下降(reward collapse);模型学会”模板化思考”(说 “Let me think step by step…” 却不真思考)、写”显得有道理的废话”骗过奖励模型。Anthropic 的「Natural Emergent Misalignment from Reward Hacking」更记录了奖励黑客诱发的涌现性不对齐(含对齐伪装、破坏监控)。这是 强化学习 §Reward Hacking 完整表的核心,也是 System 2 产品最高频的 failure mode。
- “涌现”还是”解锁”之争未解。R1 论文主张 RL 涌现出全新自我反思能力;但 arXiv:2503.20783「Understanding R1-Zero-Like Training: A Critical Perspective」反驳:DeepSeek-V3-Base 在 epoch 0 已有 “aha moment” 迹象,Qwen2.5 base 无提示模板也表现出强推理——RL 可能是”解锁”已有能力而非”创造”。同文还指出 GRPO 会人为增长错误回答的响应长度,污染训练信号。
- 2026 共识:ORM + RLVR 取代 PRM 成训练主流。过程奖励模型(PRM,Lightman et al. 2023, arXiv:2305.20050,MATH 上 78% vs ORM 72.4%)在精心评测里更优,但工业 RL 中实际增益仅约 1–2% 且 reward hacking 严重,已退居推理期 best-of-N 重排;可验证奖励(数学/代码答案核对,RLVR)才是当前训练主信号(详见 强化学习 §Reward Model 的 2026 共识)。
[!note] 反线性锚点二 第二代把推理变持久了,但也把”作弊”变持久了。提示层的错误清空上下文就消失,权重层的 reward hacking 焊死在参数里——更难发现、更难纠。
§3 第三代:推理期搜索——不动权重,用算力买准确率
驱动力:两篇 2024 奠基论文把”推理时算力”确立为独立的 scaling 维度。Snell et al.(arXiv:2408.03314)证明:计算最优的测试时策略比均匀 Best-of-N 基线效率提升 >4×;在算力匹配下,小模型 + 测试时计算可超越 14× 参数量的更大模型。Wu et al.(arXiv:2408.00724, ICLR 2025)发现 Llemma-7B 配树搜索在全 FLOPs 预算内持续优于 Llemma-34B + 标准多数投票。关键洞见:最优策略随任务难度动态变化——简单题偏好并行采样+验证器,难题偏好迭代精化/树搜索。
这一代的家族(详见本专题架构剖面 S01 测试时计算的三种花法·采样 验证 搜索):
- 并行扩展:Best-of-N(Cobbe et al. 2021, arXiv:2110.14168 的 ORM 重排)、Self-consistency 多数投票——延迟低、易并行。
- 顺序扩展:迭代精化、Beam Search、MCTS——质量高但本质串行。AlphaProof(DeepMind 2024)借 MCTS 达 IMO 银牌水平;AlphaMath(arXiv:2405.03553)把 Llama-2-70B 的 GSM8K 从 57.8 提到 92.0。
- 验证器是引擎:ORM(只评最终答案,稀疏)vs PRM(评每步,精细但标注贵)。
瓶颈与反例(反线性的第三、四击):
- 验证器引导搜索会自我反噬。Yu et al. 2025(arXiv:2502.00271「Scaling Flaws of Verifier-Guided Search」)实测:样本数增大后,验证器引导搜索的边际优势消退,最终反而不如单纯重复采样——根因是验证器不完美,会错误降级所有有效路径,在困难题和分布外问题上被放大。
- 测试时 scaling 可能是”虚假的”。arXiv:2502.12215「Do o1-like Models Truly Possess Test-Time Scaling?」质疑部分模型声称的扩展能力在高预算下曲线平坦化。
- MCTS 的延迟灾难:本质串行,执行时间随深度快速增长,长尾延迟使实时服务工程困难。
- 对知识密集型任务无效甚至有害。arXiv:2509.06861(2025-09)测 14 个推理模型:知识密集基准上增加推理时算力不持续提升准确率,且经常增加幻觉——根因是测试时计算只是固定模型的后处理,无法增加模型未编码的信息,延长推理反而诱发确认偏误→过自信幻觉(呼应 幻觉 的不可消除性)。
[!note] 反线性锚点三 第三代承诺”花钱买准确率”,但买到的是有上界、有反噬、有领域门槛的准确率。在数学/代码上它真值这个钱;在知识检索类任务上,多花的算力是在为幻觉付费。
§4 判断主轴:三代之间最容易搞错的四个点
| 症状 | 为什么会错 | 正确做法 | 真实反例 |
|---|---|---|---|
| 给推理模型(o3/R1)加 few-shot CoT 想再涨点 | 把”提示层借来的推理”和”权重层内化的推理”当成可叠加 | 推理模型直接零样本问,CoT 提示边际趋零甚至有害 | Gemini Flash 2.5 加 CoT −3.3%(Wharton GAIL 2025);few-shot CoT 可能损害 RL 推理模型表现 |
| 默认”推理时多花算力总归更准” | 把数学/代码的 scaling 律外推到所有任务 | 先判任务类型:可验证→搜索值钱;知识密集→可能增幻觉 | arXiv:2509.06861:知识密集任务上增算力反增幻觉 |
| 把 reward hacking 当成”调参没调好” | 以为是工程 bug 而非机制固有 | 用确定性验证器(RLVR)替代主观奖励模型,监控 reward-质量背离 | Anthropic「Natural Emergent Misalignment」记录奖励黑客涌现性不对齐 |
| 以为搜索样本越多越好 | 假设验证器完美 | 验证器不完美时,高样本反不如重复采样;设边际收益阈值 | Yu et al. 2025(arXiv:2502.00271)验证器引导搜索优势消退 |
这一节是本节点的命门:三代用同一个”推理”标签,但它们的失效模式互不相同。把它打印出来贴在选型会的墙上。
§5 产品 PM 视角补盲
工程视角只看”哪代准确率高”,产品视角要看三件被忽略的事:
- 用户心理模型:第二代把推理链藏进 hidden thinking token(o1/o3),用户看到的是”沉默 30 秒后给出答案”——这制造了”它在认真想”的信任感,也制造了延迟焦虑。第三代的可见搜索(如展开多个候选)则给了透明度但暴露了不确定性。同样的准确率,呈现方式直接改变用户对产品”靠不靠谱”的感知(关联 幻觉 与信任架构)。
- 商业模式与成本:第一代 CoT 几乎免费但响应时间增加 35–600%(非推理模型);第二代开启 extended thinking 后 output token 可增 5–20 倍,而 output 计费通常比 input 贵 2–6×(详见 m209 - 推理成本控制手册 §2.6.6 PM 成本直觉表与 §2.6.3 路由决策树)。一道简单分类题误开推理模型,是把分类成本乘了一个量级。
- 合规边界:第二代的 hidden CoT 不可见,意味着出错时无法向监管/用户解释”它怎么想的”;可验证奖励训练的模型在数学/代码上可审计,在开放判断上仍是黑箱。对安全/国际化这类高合规场景,可解释性比那几个点的准确率更重要。
§6 对手框架回应
接受 + 边界,不是反驳:
- 接受业界主流”test-time compute 是新 scaling 维度、可替代更大模型”(Snell et al. 的核心主张,证据扎实);边界:这条 scaling 律已被 Yu et al. 2025 与 arXiv:2509.06861 双向夹击——验证器不完美使搜索优势在高样本/分布外/知识密集场景消退甚至转负。PM 的赌注是:在可验证任务(数学、代码、形式逻辑)上下注第二三代,在知识检索/开放生成上保持怀疑。
- 接受 DeepSeek “RL 涌现推理”叙事对开源生态的巨大推动;边界:arXiv:2503.20783 的”解锁而非创造”反驳尚未被证伪,意味着我们对”trained reasoning 到底新增了什么”的理解仍不牢靠。我赌的是:即便是”解锁”,工程上 R1 路线依然是当前最可复现的推理获取方式——PM 决策无法等理论争议收敛。
§7 跨域呼应:Kuhn 的不可通约性
范式(Kuhn)是本节的主轴。Kuhn 的核心洞见不是”科学在进步”,而是范式转移前后的两套理论”不可通约”(incommensurable)——它们对同一个词的指称不同,无法用同一把尺子比较。这恰好诊断了本节最大的认知陷阱:prompt-CoT、trained reasoning、inference-search 都叫”推理”,但它们指的根本不是同一件事(权重变不变、算力在训练还是推理、效果持不持久三个维度全不同)。
Kuhn 还提醒我们警惕辉格史观(Whig history)——把科学史写成”一代更比一代正确”的线性进步。本节刻意为每一代都配了反例(CoT 对推理模型掉点、RL 的 reward hacking、搜索的验证器反噬与知识密集幻觉),就是用 Kuhn 的反线性史观对抗”推理模型一代更比一代强”的 hype 叙事。对 PM 的直接后果:不要问”哪代最先进”,要问”我这道题落在哪个范式的有效域里”——这是 Kuhn 给选型会的最硬礼物。
§8 PM 决策启示
- 面试:被问”reasoning 模型为什么强”,不要答”会思考了”。答”它把三件不可通约的事——提示层 CoT、权重层 RL、推理层搜索——焊到了一起,每件有各自的 scaling 律和失效域”,再举 Gemini Flash 2.5 加 CoT 掉点、知识密集任务增幻觉两个反例,立刻区分于背 benchmark 的候选人。
- 选型:先做任务分类(可验证 / 知识密集 / 开放生成),再决定开哪代。数学/代码 → 第二三代值钱;知识检索 → 优先 RAG 而非堆推理算力;简单分类 → 关掉推理省 5–20× 成本(路由实现见 m209 - 推理成本控制手册 §2.6.3)。
- 复现:要自己跑推理 RL,优先 GRPO + 可验证奖励(RLVR),从一开始就监控 reward 与真实质量的背离,别等 reward collapse 才发现。
§9 与已有节点的关系
- 深化 c11 - System 2 思维与 Test-Time Compute:c11 已建立 System 1/2 框架、CoT/ToT 原理、o1/o3/R1 产品机制。本节点不复述这些,而是补它缺的代际谱系视角——把 c11 平铺介绍的三种机制,重组为”三次不可通约的范式切换 + 每代的驱动力/瓶颈/反例”,并补入 c11 缺失的 R1-Zero 反直觉发现、GRPO 机制、reward hacking、2026 ORM+RLVR 共识、验证器反噬等深化点。
- 对照 Test-Time Compute 概念卡:本节点为其提供时间维度(代际演化),概念卡提供静态定义。
- 引用底座 强化学习:第二代的 GRPO/RLVR/reward hacking 以该卡为算法层底座,本节只取其判断不复述其机制。
- 对接 m209 - 推理成本控制手册:本节的成本判断(output token 5–20×、路由决策)以 m209 为数字来源。
- 与本专题 §0411 Agent 专题的 A03 ReAct、S01 Agent 六层架构剖面 形成跨专题互链——推理是 Agent 的规划引擎,reasoning 范式直接决定 Agent 在复杂决策节点的能力上界。
§10 关联节点
核心(必读)
延伸(可选)
- 幻觉
- Scaling Laws
- Agent
- Claude
- A03 ReAct
- S01 Agent 六层架构剖面
- Constitutional AI
- RLHF
- c14 - 模型评估体系与 Goodhart 陷阱
- AI PM 知识图谱·总索引
待建概念清单(本专题登记,不在主库建 stub):(已修复)起草期内链
S01 测试时计算技术全景实指本专题 S01,已校正为 S01 测试时计算的三种花法·采样 验证 搜索。仍待建(降级为普通文本):RLVR 概念卡、GRPO 概念卡、Process Reward Model 概念卡。
修订日志
- 2026-06-07 R0 首稿:建立三代谱系(prompt-CoT / RL-reasoning / 推理期搜索),每代配驱动力·瓶颈·反例,以 Kuhn 不可通约性为主轴贯穿反线性叙事;接地 o1/o3/R1 数字与 arXiv ID(待核数字 pass 后定稿)。