11. System 2 思维、强化学习与产品范式重构

Test-Time Compute 代表 AI 发展的第二条 Scaling 轴线：与其训练更大的模型（参数 Scaling），不如在推理时让模型”多想一会儿”（算力 Scaling）。这一转变彻底改变了 AI 产品的质量上限和成本结构。

11.1 System 1 vs System 2 的产品含义

借用 Kahneman 的双系统框架：

System 1（直觉快思）：传统 LLM 的默认模式——直接将 prompt 映射为回答，速度快、成本低
System 2（慢思熟虑）：在输出答案前进行显式的步骤化推理，速度慢、成本高、质量更高

对 AI 产品而言，这对应一个根本性的产品决策：用户的这个任务值得让模型多思考吗？

闲聊、简单问答 → System 1，低延迟低成本
复杂代码调试、数学证明、多步规划 → System 2，用更多算力换更高质量

11.2 思维链（CoT）与思维树（ToT）

Chain of Thought（CoT）：引导模型在生成最终答案之前，逐步写出推理步骤（“让我一步步想”）。

关键洞察：中间推理步骤的 token 不只是给用户看的解释——它们本身就是有效计算，帮助模型在隐含的隐空间中正确规划下一步。Scratchpad（草稿本）这个比喻非常准确：让模型”写草稿”能显著提升复杂任务的准确率。

Tree of Thought（ToT）：在每个推理节点生成多个分支，用评分函数（PRM 或 LLM-as-Judge）选择最优路径继续展开。本质上是在 token 空间做搜索，类似棋类 AI 的 MCTS（蒙特卡洛树搜索）。计算量远高于 CoT，但在需要”搜索正确路径”的问题（数学、代码、规划）上效果显著。

11.3 过程奖励 vs 结果奖励

传统训练只看最终答案对不对（ORM，结果奖励模型）——正确给 +1，错误给 -1。问题：很多严谨的推理过程因运气给出错误答案，而很多跳步的错误推理偶尔蒙对答案，两者都得到了错误的奖励信号。

PRM（过程奖励模型）：对每一个推理步骤打分，将”思考质量”本身纳入优化目标。这让模型学会了”推理规范”，而非只是”答案记忆”。

DeepSeek-R1 的突破：用 GRPO（Group Relative Policy Optimization）绕开了人工标注 PRM 的高成本。核心方法：在数学、代码等可自动验证答案的领域，让模型生成多个解题路径，以最终答案的正确性为信号反向推断哪些推理步骤是好的。不需要人工标注中间步骤，实现了低成本的 PRM 训练。

11.4 o1 / o3 / R1：产品机制拆解

OpenAI o1 系列和 DeepSeek-R1 的用户体验背后的机制：

用户输入 prompt
模型在隐藏的 thinking token 空间中进行大量推理（用户不可见的草稿）
将推理结论压缩为可见的思考摘要 + 最终答案输出

用户看到的是简洁的推理过程和答案，模型实际消耗的 token 可能是输出的 5–20 倍。

Budget Forcing（算力预算控制）：让用户或系统控制”模型可以想多久”。低预算 → 快速回答（可能较浅）；高预算 → 深度推理（更准确但更慢更贵）。

Anthropic Claude 的 Extended Thinking 已落地此特性，允许在 API 层指定最大 thinking token 数。这是将推理算力转化为产品差异化定价的直接机制。

11.5 什么问题适合 System 2，什么不适合

适合 System 2	不适合 System 2
数学证明、竞赛题	简单事实查询
复杂代码调试	闲聊、情感支持
多步规划（旅行、项目）	风格创作（创意需要发散，非深度推理）
逻辑谜题、法律分析	实时语音对话（延迟无法接受）

判断标准：任务是否有客观的对错之分（可验证性）？步骤是否需要互相依赖？如果是，System 2 有价值；如果需要的是发散创意，System 2 反而会让输出更”保守正确”。

11.6 产品形态重构

Test-Time Compute 带来的三个产品设计变化：

异步工作流：深度推理任务可能需要 30 秒 ~ 数分钟。不能让用户同步等待空白屏幕，需要后台执行 + 完成通知 + 中间进度展示。

思维过程白盒化：推理链是信任建立的关键载体——用户能看到”AI 为什么这么推断”，才能判断是否可信、在哪步出了问题。这是 AI 产品从”黑盒神谕”走向”透明协作者”的体验跃迁。

差异化定价：快速回答 vs 深度推理对应不同成本，可以也应该对应不同定价层级（如 Claude 基础版 vs Opus + Extended Thinking）。

相关概念卡：System 2 / Test-Time Compute、强化学习、Agent 模块二延伸：m201 §2.1.1 CoT/ToT 实战 — 思维链在 Prompt Engineering 中的配置策略 | m209 §2.6.3 — Extended Thinking 开启后的成本量化估算上一章：c10 Agent 下一章：c12 多模态

c11 - System 2 思维与 Test-Time Compute