R

c11 - System 2 思维与 Test-Time Compute

创建 2026-05-13 更新 2026-05-16 15 条双链 共创

11. System 2 思维、强化学习与产品范式重构

Test-Time Compute 代表 AI 发展的第二条 Scaling 轴线:与其训练更大的模型(参数 Scaling),不如在推理时让模型”多想一会儿”(算力 Scaling)。这一转变彻底改变了 AI 产品的质量上限和成本结构。

11.1 System 1 vs System 2 的产品含义

借用 Kahneman 的双系统框架:

  • System 1(直觉快思):传统 LLM 的默认模式——直接将 prompt 映射为回答,速度快、成本低
  • System 2(慢思熟虑):在输出答案前进行显式的步骤化推理,速度慢、成本高、质量更高

对 AI 产品而言,这对应一个根本性的产品决策:用户的这个任务值得让模型多思考吗?

  • 闲聊、简单问答 → System 1,低延迟低成本
  • 复杂代码调试、数学证明、多步规划 → System 2,用更多算力换更高质量

11.2 思维链(CoT)与思维树(ToT)

Chain of Thought(CoT):引导模型在生成最终答案之前,逐步写出推理步骤(“让我一步步想”)。

关键洞察:中间推理步骤的 token 不只是给用户看的解释——它们本身就是有效计算,帮助模型在隐含的隐空间中正确规划下一步。Scratchpad(草稿本)这个比喻非常准确:让模型”写草稿”能显著提升复杂任务的准确率。

Tree of Thought(ToT):在每个推理节点生成多个分支,用评分函数(PRM 或 LLM-as-Judge)选择最优路径继续展开。本质上是在 token 空间做搜索,类似棋类 AI 的 MCTS(蒙特卡洛树搜索)。计算量远高于 CoT,但在需要”搜索正确路径”的问题(数学、代码、规划)上效果显著。

11.3 过程奖励 vs 结果奖励

传统训练只看最终答案对不对(ORM,结果奖励模型)——正确给 +1,错误给 -1。问题:很多严谨的推理过程因运气给出错误答案,而很多跳步的错误推理偶尔蒙对答案,两者都得到了错误的奖励信号。

PRM(过程奖励模型):对每一个推理步骤打分,将”思考质量”本身纳入优化目标。这让模型学会了”推理规范”,而非只是”答案记忆”。

DeepSeek-R1 的突破:用 GRPO(Group Relative Policy Optimization)绕开了人工标注 PRM 的高成本。核心方法:在数学、代码等可自动验证答案的领域,让模型生成多个解题路径,以最终答案的正确性为信号反向推断哪些推理步骤是好的。不需要人工标注中间步骤,实现了低成本的 PRM 训练。

11.4 o1 / o3 / R1:产品机制拆解

OpenAI o1 系列和 DeepSeek-R1 的用户体验背后的机制:

  1. 用户输入 prompt
  2. 模型在隐藏的 thinking token 空间中进行大量推理(用户不可见的草稿)
  3. 将推理结论压缩为可见的思考摘要 + 最终答案输出

用户看到的是简洁的推理过程和答案,模型实际消耗的 token 可能是输出的 5–20 倍。

Budget Forcing(算力预算控制):让用户或系统控制”模型可以想多久”。低预算 → 快速回答(可能较浅);高预算 → 深度推理(更准确但更慢更贵)。

Anthropic Claude 的 Extended Thinking 已落地此特性,允许在 API 层指定最大 thinking token 数。这是将推理算力转化为产品差异化定价的直接机制。

11.5 什么问题适合 System 2,什么不适合

适合 System 2不适合 System 2
数学证明、竞赛题简单事实查询
复杂代码调试闲聊、情感支持
多步规划(旅行、项目)风格创作(创意需要发散,非深度推理)
逻辑谜题、法律分析实时语音对话(延迟无法接受)

判断标准:任务是否有客观的对错之分(可验证性)?步骤是否需要互相依赖?如果是,System 2 有价值;如果需要的是发散创意,System 2 反而会让输出更”保守正确”。

11.6 产品形态重构

Test-Time Compute 带来的三个产品设计变化:

异步工作流:深度推理任务可能需要 30 秒 ~ 数分钟。不能让用户同步等待空白屏幕,需要后台执行 + 完成通知 + 中间进度展示。

思维过程白盒化:推理链是信任建立的关键载体——用户能看到”AI 为什么这么推断”,才能判断是否可信、在哪步出了问题。这是 AI 产品从”黑盒神谕”走向”透明协作者”的体验跃迁。

差异化定价:快速回答 vs 深度推理对应不同成本,可以也应该对应不同定价层级(如 Claude 基础版 vs Opus + Extended Thinking)。

相关概念卡:System 2 / Test-Time Compute强化学习Agent 模块二延伸:m201 §2.1.1 CoT/ToT 实战 — 思维链在 Prompt Engineering 中的配置策略 | m209 §2.6.3 — Extended Thinking 开启后的成本量化估算 上一章:c10 Agent 下一章:c12 多模态