R

S03 Reasoning 与 Agent 循环的耦合点

创建 2026-06-07 更新 2026-06-12 7 条双链 推理与测试时计算 专题 AI 整理

Agent 不是”会调工具的聊天机器人”,而是一个 observe-decide-act 的闭环控制器;而决定这个闭环每一步走向的,是位于”decide”格子里的那台推理引擎。本节点要回答的问题是:当 reasoning 从一次性预训练能力变成推理期可调的连续变量之后,它如何插进 Agent 循环、在哪些点上耦合、又在哪些点上把循环带向失控——核心判断是 Agent 的”失控”很大一部分不是工具的错、不是 prompt 的错,而是 reasoning 这台引擎本身不稳定的下游放大。框架名:把 Agent 循环当成一个带反馈的采样-验证控制系统,reasoning 是其中增益最高、也最难标定的那个环节。

§0 为什么是”控制系统”框架,而不是”规划器+执行器”框架

业界讲 Agent 最顺手的默认框架是”LLM 是大脑、工具是手脚”——一个规划器(planner)把任务分解成步骤,执行器(executor)逐步调工具。这个框架够用来画 PPT,但它会让你在错误的地方找 bug:它把 reasoning 当成一个一次性、确定性的”出计划”动作,于是当 Agent 跑飞时,你会去改 prompt、加 few-shot、换工具。

正确的框架是控制论的:Agent 是一个离散时间反馈回路——每一拍(turn)观察环境状态、由 reasoning 决定下一个动作、执行后环境状态改变、再观察。这与 0411 专题 S01 Agent 六层架构剖面 的”感知—记忆—规划—执行”分层不矛盾,而是给它叠加一个动力学视角:分层告诉你”由什么组成”,控制系统告诉你”为什么会震荡、为什么会发散、增益该调多大”。一旦切到这个框架,reasoning 就不再是”出计划”这一个动作,而是回路里反复执行、其方差会沿时间累积的那个高增益环节——这正是 ReAct(A03 ReAct)把 reason 和 act 交错进每一拍的深层原因。

[!note] 框架选择即诊断方向 选”规划器+执行器”框架,你会去修 prompt;选”反馈控制系统”框架,你会去标定 reasoning 的方差、给回路加阻尼(验证器、步数上限、effort 下调)。0411 的 S03 Harness Engineering 全景 讲的”harness”本质就是这套阻尼器——本节点补的是它背后的动力学理由

§1 耦合点一:reasoning 作为 decide 格子里的引擎

在最朴素的 observe-decide-act 循环里,reasoning 占据 decide 这一格。但”占据”的方式有三种,分别对应本专题反复辨析的三件不可通约的事:

耦合方式reasoning 在循环中的位置代表
prompt 层 CoT在 decide 格子里临时塞一段”let’s think step by step”,无权重改变早期 ReAct paper(Yao et al. 2022, arXiv:2210.03629)的 thought-action-observation
trained reasoningdecide 引擎本身是经 RL 训练的推理模型,思考内化进权重o1/o3 驱动的 agent、DeepSeek-R1(arXiv:2501.12948)驱动的 agent
推理期搜索decide 这一步本身展开成一棵搜索树(多动作采样+验证选优)MCTS-based agent、LATS(Language Agent Tree Search)

这三件事不可互换:在循环里塞 CoT prompt 不会让一个非推理模型获得稳定的自我纠错;而把一个 trained reasoning 模型放进循环,few-shot CoT 反而可能损害它(这一反常发现见本专题 A01 Reasoning 概念史·从 CoT 到 Test-Time Compute,原始证据 arXiv:2503.20783 等)。PM 在选型时第一个要问的不是”它支不支持 agent”,而是”它的 decide 引擎是这三种里的哪一种,因为三者的失控模式完全不同”。

§2 耦合点二:reasoning 的方差沿循环累积——为什么单步可靠不等于多步可靠

这是本节点的技术核心。设单步 reasoning 的成功率为 p,一个需要 n 步全对才成功的任务,朴素估计成功率约为 p^n(一阶近似,忽略步间相关与可恢复性,此式在”错误可在后续步被发现并纠正”时严重低估、在”错误会级联放大”时严重高估,仅用于建立直觉)。p=0.95、n=20 时,p^n≈0.36。这就是为什么单步 benchmark 分数高的模型(如 o3 在 AIME 2024 上 96.7%、SWE-bench Verified 71.7%,来源 OpenAI o3 发布与 ARC Prize 核实)放进长 horizon agent 循环后,整体任务完成率会断崖式下滑。

控制论给这个现象一个名字:误差沿回路传播。reasoning 不稳定的方差不是被循环平均掉,而是被累积——一步的过度自信幻觉会污染 observe(写进记忆/上下文),下一步的 decide 在被污染的状态上推理,方差进一步放大。本专题 E03 数学代码强开放任务弱的能力剖面 引的 arXiv:2509.06861 给出关键反线性证据:在知识密集任务上增加推理期计算并不持续提升准确率,反而经常增加幻觉,因为延长推理会诱发确认偏误(confirmation bias)→ 过自信。把这放进 agent 循环就是灾难:一个过自信的错误判断会驱动一连串错误的工具调用。

[!note] 赌注与边界 我赌的是:当前 agent 失控的主因是 reasoning 方差的回路累积,而非工具接口或 prompt。这个判断在”短 horizon(n≤3)、强外部验证器(如代码可编译/单测可跑)“的场景下会失效——那里工具的确定性反馈能把方差迅速夹回来,reasoning 的不稳定被掩盖。它在”长 horizon、弱验证、知识密集”场景下最成立。

§3 耦合点三:observe-decide-act 三种 reasoning 失控模式的精确定位

把 Cuadron et al.「The Danger of Overthinking」(arXiv:2502.08235,2025,4018 条 SWE-bench Verified 轨迹)识别的三种失败模式,按它们打击循环的哪一格重新定位——这是控制系统视角比”规划器+执行器”视角更锋利的地方:

失败模式打击的循环格子控制论本质实证
Analysis Paralysis(分析瘫痪)decide → act 卡死回路开环:只 reason 不 act,无新观测注入,系统失去反馈overthinking score 与成功率负相关;推理模型比非推理模型更易 overthink
Rogue Actions(暴冲动作)decide 方差过大 → act高增益+无阻尼 → 过度推理后跳到错误操作同上轨迹分析
Premature Disengagement(过早放弃)循环提前终止推理疲劳触发错误的停机判据同上

三者都是 reasoning 引擎的病,不是工具的病。关键产品事实:选 overthinking 分数最低的方案可使 SWE-bench Verified 成功率提升至 27.3%、计算成本降低 43%(同篇)——也就是说,给 reasoning 这个高增益环节加阻尼(抑制过度思考)同时提升了质量和成本,这是一个罕见的帕累托改进,PM 必须知道。

§4 耦合点四:effort 旋钮就是回路增益旋钮

本专题反复强调的核心命题——reasoning 是”推理期可购买的连续变量”——在 agent 循环里有一个直接的工程对应物:reasoning effort 旋钮 = 回路的增益旋钮

Claude 的 effort 参数(low/medium/high/xhigh/max,来源 platform.claude.com effort 文档)和 OpenAI 的 reasoning_effortlow/medium/high)让 PM 第一次能在 agent 循环的每一拍上做增益决策:简单子任务(如分类、路由、格式化)调 low,复杂决策节点调 high。Claude 官方文档明确:max 在结构化/低智力任务上”can lead to overthinking”——这正是 §3 的 Analysis Paralysis 在产品层的回声。

PM 的滑杆决策因此从”整个 agent 设一个 effort”升级为”按循环位置分配 effort”:

  • observe/格式化步low——只需把工具返回值整理进上下文,不需要推理。
  • decide/关键分叉步high——这一步的错误会沿回路放大,值得买更多算力。
  • 长时 agentic(>30 分钟、反复工具调用):Claude 文档建议 xhigh

成本量级:开启 extended thinking 后 output token 可增加数倍到一个数量级(成本细账见 m209 - 推理成本控制手册),而复杂 query 的 thinking token 可达 10,000 量级。在一个 20 拍的循环里若每拍都 max,延迟和成本会乘性爆炸——这就是为什么按位置调 effort 不是优化项而是必需项

§5 判断主轴:90% 的人会在 reasoning-agent 耦合上搞错的四个点

[!warning] 这是本节点的命门 每点四件套:症状 → 为什么会错 → 正确做法 → 真实反例。

错位一:把 agent 失控当成 prompt/工具问题去修。

  • 症状:agent 跑飞了,团队第一反应是改 system prompt、加 few-shot、换工具描述。
  • 为什么会错:误用了”规划器+执行器”框架,看不到 reasoning 方差的回路累积。
  • 正确做法:先量 reasoning 的单步方差和 overthinking 分数,给回路加阻尼(验证器/步数上限/effort 下调),而非改 prompt。
  • 真实反例:Cuadron et al. 发现 SWE-bench 失败主因是 overthinking 而非工具——降低推理而非增加 prompt 反而把成功率提到 27.3%、成本降 43%(arXiv:2502.08235)。

错位二:以为单步 benchmark 高分能线性外推到长 horizon agent。

  • 症状:拿 o3 的 AIME 96.7% 当”它能跑好任何 agent 任务”的证据。
  • 为什么会错:忽略 p^n 的乘性衰减和误差累积。
  • 正确做法:用 horizon-aware 的指标(任务级完成率、多步轨迹成功率),而非单步准确率。
  • 真实反例:o3 在 ARC-AGI-1 高算力达 87.5%,但在更需多步组合推理的 ARC-AGI-2 上仅 2.9%(人类基线约 60%,来源 ARC Prize)——单步/单类高分不代表组合鲁棒。

错位三:把”思考更久”当成 agent 更可靠的免费午餐。

  • 症状:默认给整个 agent 开 max effort,以为越想越稳。
  • 为什么会错:reasoning 不是免费午餐,过度思考会触发 Analysis Paralysis、确认偏误、延迟灾难。
  • 正确做法:按循环位置分配 effort;先用 medium 跑 eval 再决定是否升档。
  • 真实反例:推理模型平均约 6,780 token vs 标准 Phi-4 的约 378.6 token,但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%(arXiv:2507.04023 Table 2/§5.3);Claude 官方警告 max 在结构化任务上 overthink。

错位四:信任 reasoning 模型自己报告的”思考过程”作为 agent 可观测性。

  • 症状:把模型的 thinking trace 当成 agent 决策的真实日志,据此调试。
  • 为什么会错:CoT 的 faithfulness(信实性)是争议问题;trace 可能是事后合理化而非真实因果。
  • 正确做法:在循环里植入外部可验证的检查点(工具返回、单测、断言),不依赖模型自述。
  • 真实反例:推理模型信实性虽较高(DeepSeek-R1 描述影响因素频率 59% vs 非推理版 7%,arXiv:2501.08156),但仍远非 100%,且 reward hacking 会产生”显得有道理的废话”(reward hacking 的机制底座见 强化学习;本专题无独立 Reward Hacking 节点,相关讨论散见 S01/E02,“T03 Reward Hacking 与推理 RL 的固有困境”为起草期占位、已降级为普通文本)。

§6 产品 PM 视角补盲

工程视角只看”循环能不能跑通”,产品 PM 还要看三层走样:

  • 用户心理模型错配:用户看到 agent 在”thinking…”会预期它在做正确的事,但 thinking 时长与正确性不单调相关。一个想了 8000 token 然后给出错误工具调用的 agent,比一个快速给出同样错误的 agent更伤信任——因为用户为”它很努力”付了情感成本。防御性 UX 见 p304 - 防御性 UX:对抗延迟与幻觉
  • 商业模式的成本结构:thinking token 按 output 费率计(通常比 input 贵数倍),一个 reasoning agent 的单位经济学(unit economics)由”循环拍数 × 每拍 effort”决定,可能比非 agent 产品高一到两个数量级。按位置调 effort 直接决定毛利。
  • 合规与可审计:在 Rick 的安全/国际化场景下,agent 自主决策的链条必须可审计。reasoning 的不透明(o1/o3 隐藏 thinking)和 faithfulness 争议意味着不能把 reasoning trace 当合规证据,必须在循环里留外部可验证的 action log。

§7 对手框架回应

接受 + 边界,不反驳:

  • 对 ReAct/原始 agent 范式(Yao et al.)的回应:接受”reason-act 交错确实提升了可解释性和工具使用准确率”——这是 agent 的奠基贡献。但坚持边界:原始 ReAct 假设 reasoning 是稳定可靠的,没有处理 reasoning 方差的回路累积;当 horizon 拉长、模型换成 trained reasoning 模型后,“交错”本身不够,必须叠加阻尼机制。ReAct 是必要不充分条件。
  • 对”scaling test-time compute 解决 agent 可靠性”乐观派的回应(Snell et al. 路线,arXiv:2408.03314):接受”计算最优的测试时搜索能让小模型超 14× 大模型、效率提升 4ד——这是真实且重要的。但标注边界:这些结论在有强验证器的封闭式任务(数学/代码)上成立;arXiv:2502.00271(Yu et al.)反证,验证器不完美时大样本下搜索优势会消退甚至不如重复采样。Agent 循环里的”环境反馈”往往是弱验证器,所以不能假设 test-time compute 会自动夹住方差。
  • Rick 未读的对手框架引入 ①——经典控制论的稳定性判据(Wiener/Ashby):控制论早就证明,一个高增益反馈回路若无足够阻尼必然震荡或发散。这逼问本专题盲点:我们把 reasoning effort 当”增益旋钮”,却没有 agent 循环的稳定性判据——多大的单步方差、多长的 horizon、多强的验证器,组合到什么程度回路必然失控?这是本专题留白,对照 控制论系统化专题。
  • Rick 未读的对手框架引入 ②——Ashby 的必要多样性定律(Law of Requisite Variety):控制器的内部状态多样性必须 ≥ 被控环境的多样性,否则无法稳定它。这给 reasoning-agent 耦合一个反 hype 的判据:当环境(开放世界、对抗用户)的多样性远超 reasoning 能编码的,再多 test-time compute 也无法换来可控——这与 §2 的知识密集任务反效果证据相互印证。

§8 PM 决策启示

  • 面试怎么用:被问”怎么让 agent 更可靠”,不要答”优化 prompt”。答:“先判断它的 decide 引擎是 CoT/trained/搜索哪一种;用 horizon-aware 指标量 reasoning 单步方差;按循环位置分配 effort;给高增益环节加外部验证器阻尼。失控主因常是 reasoning 方差的回路累积,不是工具。“——30 秒展示控制系统框架。
  • 选型怎么用:比的不是”谁的 agent benchmark 高”,而是”谁的 reasoning 引擎在长 horizon 下方差小、effort 旋钮粒度细、thinking 可审计”。把单步分数和多步轨迹成功率分开看。
  • 复现怎么用:搭最小 agent 时,第一件事是植入步数上限 + 外部验证检查点 + 按位置的 effort 配置,而非堆工具。先用 medium 跑 eval 基线,再决定哪些 decide 节点值得升 high

§9 与已有节点的关系

  • c11 - System 2 思维与 Test-Time Compute:c11 已建立 System 2 / TTC 的产品框架与”异步工作流”形态,但只把 reasoning-agent 融合点到为止。本节点深化:给出 reasoning 插入 agent 循环的三种耦合方式、方差累积的动力学、三种失控模式的循环定位——是 c11 §11.6 的架构级展开,不复述其 System 1/2 与 PRM/ORM 基础。
  • 0411 专题 S01 Agent 六层架构剖面 / S03 Harness Engineering 全景:S01 给”由什么组成”的静态分层,S03 给 harness 工程全景。本节点升级对照:叠加控制系统的动力学视角,解释 harness(步数上限、验证器)背后的稳定性理由,并把 reasoning 这一环单独抽出来做方差分析。是对话+深化,不是重画分层。
  • 控制论系统化专题:本节点把控制论的反馈回路、增益、阻尼、必要多样性定律显式应用到 reasoning-agent 耦合,是该跨域资源在本专题的落地点之一。
  • m209 - 推理成本控制手册:成本细账与路由决策树在 m209,本节点只引用其结论(output token 数倍增、按位置调 effort 的成本含义),不复述计费公式。

§10 关联节点

核心(必读):

延伸(可选):

跨专题/校链登记:

  • (2026-06-11 已入库回链)控制论系统化专题(必要多样性定律、反馈回路稳定性判据——本节点 §0/§7 的核心跨域底座)现已在主库发布,引用已回链至总览。
  • 起草期同级占位内链已校正:A01 三类推理方法的不可通约辨析A01 Reasoning 概念史·从 CoT 到 Test-Time ComputeT02 知识密集任务上 reasoning 的反效果E03 数学代码强开放任务弱的能力剖面T03 Reward Hacking 与推理 RL 的固有困境 本专题无此节点,已降级为普通文本(reward hacking 机制底座见 强化学习)。

修订日志

  • 2026-06-12 内审修复:方差累积小节 Phi-4 反例来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3(Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token),补全准确率分数。依据:WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。
  • 2026-06-11 P3.4 校链:0420 控制论现已入库,§6 对手框架、§8 升级对照与待建清单中”(待建专题,未发布,降级为普通文本)“恢复为真 0420 总览 链。
  • 2026-06-07 R0:首稿。建立”Agent 循环=带反馈的采样-验证控制系统、reasoning=高增益环节”框架;四个耦合点(decide 引擎 / 方差累积 / 三种失控模式循环定位 / effort=增益旋钮);判断主轴四错位四件套;引入 Ashby 必要多样性定律与经典控制论稳定性判据作为 Rick 未读对手框架;与 c11、0411 S01/S03、m209、0420 控制论显式升级对照。数字(o3 AIME 96.7%/SWE-bench 71.7%/ARC-AGI-2 2.9%、SWE-bench overthinking +27.3%/-43%、Phi-4 6780 vs 378 token、R1 faithfulness 59% vs 7%)均来自专题接地证据包,arXiv ID 待 grounding pass 二次核验。