c11 - System 2 思维与 Test-Time Compute
11. System 2 思维、强化学习与产品范式重构
Test-Time Compute 代表 AI 发展的第二条 Scaling 轴线:与其训练更大的模型(参数 Scaling),不如在推理时让模型”多想一会儿”(算力 Scaling)。这一转变彻底改变了 AI 产品的质量上限和成本结构。
11.1 System 1 vs System 2 的产品含义
借用 Kahneman 的双系统框架:
- System 1(直觉快思):传统 LLM 的默认模式——直接将 prompt 映射为回答,速度快、成本低
- System 2(慢思熟虑):在输出答案前进行显式的步骤化推理,速度慢、成本高、质量更高
对 AI 产品而言,这对应一个根本性的产品决策:用户的这个任务值得让模型多思考吗?
- 闲聊、简单问答 → System 1,低延迟低成本
- 复杂代码调试、数学证明、多步规划 → System 2,用更多算力换更高质量
11.2 思维链(CoT)与思维树(ToT)
Chain of Thought(CoT):引导模型在生成最终答案之前,逐步写出推理步骤(“让我一步步想”)。
关键洞察:中间推理步骤的 token 不只是给用户看的解释——它们本身就是有效计算,帮助模型在隐含的隐空间中正确规划下一步。Scratchpad(草稿本)这个比喻非常准确:让模型”写草稿”能显著提升复杂任务的准确率。
Tree of Thought(ToT):在每个推理节点生成多个分支,用评分函数(PRM 或 LLM-as-Judge)选择最优路径继续展开。本质上是在 token 空间做搜索,类似棋类 AI 的 MCTS(蒙特卡洛树搜索)。计算量远高于 CoT,但在需要”搜索正确路径”的问题(数学、代码、规划)上效果显著。
11.3 过程奖励 vs 结果奖励
传统训练只看最终答案对不对(ORM,结果奖励模型)——正确给 +1,错误给 -1。问题:很多严谨的推理过程因运气给出错误答案,而很多跳步的错误推理偶尔蒙对答案,两者都得到了错误的奖励信号。
PRM(过程奖励模型):对每一个推理步骤打分,将”思考质量”本身纳入优化目标。这让模型学会了”推理规范”,而非只是”答案记忆”。
DeepSeek-R1 的突破:用 GRPO(Group Relative Policy Optimization)绕开了人工标注 PRM 的高成本。核心方法:在数学、代码等可自动验证答案的领域,让模型生成多个解题路径,以最终答案的正确性为信号反向推断哪些推理步骤是好的。不需要人工标注中间步骤,实现了低成本的 PRM 训练。
11.4 o1 / o3 / R1:产品机制拆解
OpenAI o1 系列和 DeepSeek-R1 的用户体验背后的机制:
- 用户输入 prompt
- 模型在隐藏的 thinking token 空间中进行大量推理(用户不可见的草稿)
- 将推理结论压缩为可见的思考摘要 + 最终答案输出
用户看到的是简洁的推理过程和答案,模型实际消耗的 token 可能是输出的 5–20 倍。
Budget Forcing(算力预算控制):让用户或系统控制”模型可以想多久”。低预算 → 快速回答(可能较浅);高预算 → 深度推理(更准确但更慢更贵)。
Anthropic Claude 的 Extended Thinking 已落地此特性,允许在 API 层指定最大 thinking token 数。这是将推理算力转化为产品差异化定价的直接机制。
11.5 什么问题适合 System 2,什么不适合
| 适合 System 2 | 不适合 System 2 |
|---|---|
| 数学证明、竞赛题 | 简单事实查询 |
| 复杂代码调试 | 闲聊、情感支持 |
| 多步规划(旅行、项目) | 风格创作(创意需要发散,非深度推理) |
| 逻辑谜题、法律分析 | 实时语音对话(延迟无法接受) |
判断标准:任务是否有客观的对错之分(可验证性)?步骤是否需要互相依赖?如果是,System 2 有价值;如果需要的是发散创意,System 2 反而会让输出更”保守正确”。
11.6 产品形态重构
Test-Time Compute 带来的三个产品设计变化:
异步工作流:深度推理任务可能需要 30 秒 ~ 数分钟。不能让用户同步等待空白屏幕,需要后台执行 + 完成通知 + 中间进度展示。
思维过程白盒化:推理链是信任建立的关键载体——用户能看到”AI 为什么这么推断”,才能判断是否可信、在哪步出了问题。这是 AI 产品从”黑盒神谕”走向”透明协作者”的体验跃迁。
差异化定价:快速回答 vs 深度推理对应不同成本,可以也应该对应不同定价层级(如 Claude 基础版 vs Opus + Extended Thinking)。
相关概念卡:System 2 / Test-Time Compute、强化学习、Agent 模块二延伸:m201 §2.1.1 CoT/ToT 实战 — 思维链在 Prompt Engineering 中的配置策略 | m209 §2.6.3 — Extended Thinking 开启后的成本量化估算 上一章:c10 Agent 下一章:c12 多模态