System 2 / Test-Time Compute

范式转移

将算力从预训练阶段转移到推理阶段（Test-Time Compute）。

通过强化学习 (RL) 训练模型在推理时进行树搜索 (MCTS)、试错与回溯。

方案	机制	局限
ORM (Outcome Reward Model)	只看最终结果 0/1	无法区分”推理正确但计算失误”和”方向错误”
PRM (Process Reward Model)	对每一步推理打分	让”思考质量”本身成为可优化的目标

PRM 对应人类认知中 System 1（快速直觉）→ System 2（慢速深度推理）的切换。

Agent 遇到复杂决策节点时，不是一步 ReAct 就输出 Action，而是先进入长时间的 hidden reasoning，再输出经过深度推理的行动。