S03 Reasoning 与 Agent 循环的耦合点
Agent 不是”会调工具的聊天机器人”,而是一个 observe-decide-act 的闭环控制器;而决定这个闭环每一步走向的,是位于”decide”格子里的那台推理引擎。本节点要回答的问题是:当 reasoning 从一次性预训练能力变成推理期可调的连续变量之后,它如何插进 Agent 循环、在哪些点上耦合、又在哪些点上把循环带向失控——核心判断是 Agent 的”失控”很大一部分不是工具的错、不是 prompt 的错,而是 reasoning 这台引擎本身不稳定的下游放大。框架名:把 Agent 循环当成一个带反馈的采样-验证控制系统,reasoning 是其中增益最高、也最难标定的那个环节。
§0 为什么是”控制系统”框架,而不是”规划器+执行器”框架
业界讲 Agent 最顺手的默认框架是”LLM 是大脑、工具是手脚”——一个规划器(planner)把任务分解成步骤,执行器(executor)逐步调工具。这个框架够用来画 PPT,但它会让你在错误的地方找 bug:它把 reasoning 当成一个一次性、确定性的”出计划”动作,于是当 Agent 跑飞时,你会去改 prompt、加 few-shot、换工具。
正确的框架是控制论的:Agent 是一个离散时间反馈回路——每一拍(turn)观察环境状态、由 reasoning 决定下一个动作、执行后环境状态改变、再观察。这与 0411 专题 S01 Agent 六层架构剖面 的”感知—记忆—规划—执行”分层不矛盾,而是给它叠加一个动力学视角:分层告诉你”由什么组成”,控制系统告诉你”为什么会震荡、为什么会发散、增益该调多大”。一旦切到这个框架,reasoning 就不再是”出计划”这一个动作,而是回路里反复执行、其方差会沿时间累积的那个高增益环节——这正是 ReAct(A03 ReAct)把 reason 和 act 交错进每一拍的深层原因。
[!note] 框架选择即诊断方向 选”规划器+执行器”框架,你会去修 prompt;选”反馈控制系统”框架,你会去标定 reasoning 的方差、给回路加阻尼(验证器、步数上限、effort 下调)。0411 的 S03 Harness Engineering 全景 讲的”harness”本质就是这套阻尼器——本节点补的是它背后的动力学理由。
§1 耦合点一:reasoning 作为 decide 格子里的引擎
在最朴素的 observe-decide-act 循环里,reasoning 占据 decide 这一格。但”占据”的方式有三种,分别对应本专题反复辨析的三件不可通约的事:
| 耦合方式 | reasoning 在循环中的位置 | 代表 |
|---|---|---|
| prompt 层 CoT | 在 decide 格子里临时塞一段”let’s think step by step”,无权重改变 | 早期 ReAct paper(Yao et al. 2022, arXiv:2210.03629)的 thought-action-observation |
| trained reasoning | decide 引擎本身是经 RL 训练的推理模型,思考内化进权重 | o1/o3 驱动的 agent、DeepSeek-R1(arXiv:2501.12948)驱动的 agent |
| 推理期搜索 | decide 这一步本身展开成一棵搜索树(多动作采样+验证选优) | MCTS-based agent、LATS(Language Agent Tree Search) |
这三件事不可互换:在循环里塞 CoT prompt 不会让一个非推理模型获得稳定的自我纠错;而把一个 trained reasoning 模型放进循环,few-shot CoT 反而可能损害它(这一反常发现见本专题 A01 Reasoning 概念史·从 CoT 到 Test-Time Compute,原始证据 arXiv:2503.20783 等)。PM 在选型时第一个要问的不是”它支不支持 agent”,而是”它的 decide 引擎是这三种里的哪一种,因为三者的失控模式完全不同”。
§2 耦合点二:reasoning 的方差沿循环累积——为什么单步可靠不等于多步可靠
这是本节点的技术核心。设单步 reasoning 的成功率为 p,一个需要 n 步全对才成功的任务,朴素估计成功率约为 p^n(一阶近似,忽略步间相关与可恢复性,此式在”错误可在后续步被发现并纠正”时严重低估、在”错误会级联放大”时严重高估,仅用于建立直觉)。p=0.95、n=20 时,p^n≈0.36。这就是为什么单步 benchmark 分数高的模型(如 o3 在 AIME 2024 上 96.7%、SWE-bench Verified 71.7%,来源 OpenAI o3 发布与 ARC Prize 核实)放进长 horizon agent 循环后,整体任务完成率会断崖式下滑。
控制论给这个现象一个名字:误差沿回路传播。reasoning 不稳定的方差不是被循环平均掉,而是被累积——一步的过度自信幻觉会污染 observe(写进记忆/上下文),下一步的 decide 在被污染的状态上推理,方差进一步放大。本专题 E03 数学代码强开放任务弱的能力剖面 引的 arXiv:2509.06861 给出关键反线性证据:在知识密集任务上增加推理期计算并不持续提升准确率,反而经常增加幻觉,因为延长推理会诱发确认偏误(confirmation bias)→ 过自信。把这放进 agent 循环就是灾难:一个过自信的错误判断会驱动一连串错误的工具调用。
[!note] 赌注与边界 我赌的是:当前 agent 失控的主因是 reasoning 方差的回路累积,而非工具接口或 prompt。这个判断在”短 horizon(n≤3)、强外部验证器(如代码可编译/单测可跑)“的场景下会失效——那里工具的确定性反馈能把方差迅速夹回来,reasoning 的不稳定被掩盖。它在”长 horizon、弱验证、知识密集”场景下最成立。
§3 耦合点三:observe-decide-act 三种 reasoning 失控模式的精确定位
把 Cuadron et al.「The Danger of Overthinking」(arXiv:2502.08235,2025,4018 条 SWE-bench Verified 轨迹)识别的三种失败模式,按它们打击循环的哪一格重新定位——这是控制系统视角比”规划器+执行器”视角更锋利的地方:
| 失败模式 | 打击的循环格子 | 控制论本质 | 实证 |
|---|---|---|---|
| Analysis Paralysis(分析瘫痪) | decide → act 卡死 | 回路开环:只 reason 不 act,无新观测注入,系统失去反馈 | overthinking score 与成功率负相关;推理模型比非推理模型更易 overthink |
| Rogue Actions(暴冲动作) | decide 方差过大 → act | 高增益+无阻尼 → 过度推理后跳到错误操作 | 同上轨迹分析 |
| Premature Disengagement(过早放弃) | 循环提前终止 | 推理疲劳触发错误的停机判据 | 同上 |
三者都是 reasoning 引擎的病,不是工具的病。关键产品事实:选 overthinking 分数最低的方案可使 SWE-bench Verified 成功率提升至 27.3%、计算成本降低 43%(同篇)——也就是说,给 reasoning 这个高增益环节加阻尼(抑制过度思考)同时提升了质量和成本,这是一个罕见的帕累托改进,PM 必须知道。
§4 耦合点四:effort 旋钮就是回路增益旋钮
本专题反复强调的核心命题——reasoning 是”推理期可购买的连续变量”——在 agent 循环里有一个直接的工程对应物:reasoning effort 旋钮 = 回路的增益旋钮。
Claude 的 effort 参数(low/medium/high/xhigh/max,来源 platform.claude.com effort 文档)和 OpenAI 的 reasoning_effort(low/medium/high)让 PM 第一次能在 agent 循环的每一拍上做增益决策:简单子任务(如分类、路由、格式化)调 low,复杂决策节点调 high。Claude 官方文档明确:max 在结构化/低智力任务上”can lead to overthinking”——这正是 §3 的 Analysis Paralysis 在产品层的回声。
PM 的滑杆决策因此从”整个 agent 设一个 effort”升级为”按循环位置分配 effort”:
- observe/格式化步:
low——只需把工具返回值整理进上下文,不需要推理。 - decide/关键分叉步:
high——这一步的错误会沿回路放大,值得买更多算力。 - 长时 agentic(>30 分钟、反复工具调用):Claude 文档建议
xhigh。
成本量级:开启 extended thinking 后 output token 可增加数倍到一个数量级(成本细账见 m209 - 推理成本控制手册),而复杂 query 的 thinking token 可达 10,000 量级。在一个 20 拍的循环里若每拍都 max,延迟和成本会乘性爆炸——这就是为什么按位置调 effort 不是优化项而是必需项。
§5 判断主轴:90% 的人会在 reasoning-agent 耦合上搞错的四个点
[!warning] 这是本节点的命门 每点四件套:症状 → 为什么会错 → 正确做法 → 真实反例。
错位一:把 agent 失控当成 prompt/工具问题去修。
- 症状:agent 跑飞了,团队第一反应是改 system prompt、加 few-shot、换工具描述。
- 为什么会错:误用了”规划器+执行器”框架,看不到 reasoning 方差的回路累积。
- 正确做法:先量 reasoning 的单步方差和 overthinking 分数,给回路加阻尼(验证器/步数上限/effort 下调),而非改 prompt。
- 真实反例:Cuadron et al. 发现 SWE-bench 失败主因是 overthinking 而非工具——降低推理而非增加 prompt 反而把成功率提到 27.3%、成本降 43%(arXiv:2502.08235)。
错位二:以为单步 benchmark 高分能线性外推到长 horizon agent。
- 症状:拿 o3 的 AIME 96.7% 当”它能跑好任何 agent 任务”的证据。
- 为什么会错:忽略 p^n 的乘性衰减和误差累积。
- 正确做法:用 horizon-aware 的指标(任务级完成率、多步轨迹成功率),而非单步准确率。
- 真实反例:o3 在 ARC-AGI-1 高算力达 87.5%,但在更需多步组合推理的 ARC-AGI-2 上仅 2.9%(人类基线约 60%,来源 ARC Prize)——单步/单类高分不代表组合鲁棒。
错位三:把”思考更久”当成 agent 更可靠的免费午餐。
- 症状:默认给整个 agent 开
maxeffort,以为越想越稳。 - 为什么会错:reasoning 不是免费午餐,过度思考会触发 Analysis Paralysis、确认偏误、延迟灾难。
- 正确做法:按循环位置分配 effort;先用
medium跑 eval 再决定是否升档。 - 真实反例:推理模型平均约 6,780 token vs 标准 Phi-4 的约 378.6 token,但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%(arXiv:2507.04023 Table 2/§5.3);Claude 官方警告
max在结构化任务上 overthink。
错位四:信任 reasoning 模型自己报告的”思考过程”作为 agent 可观测性。
- 症状:把模型的 thinking trace 当成 agent 决策的真实日志,据此调试。
- 为什么会错:CoT 的 faithfulness(信实性)是争议问题;trace 可能是事后合理化而非真实因果。
- 正确做法:在循环里植入外部可验证的检查点(工具返回、单测、断言),不依赖模型自述。
- 真实反例:推理模型信实性虽较高(DeepSeek-R1 描述影响因素频率 59% vs 非推理版 7%,arXiv:2501.08156),但仍远非 100%,且 reward hacking 会产生”显得有道理的废话”(reward hacking 的机制底座见 强化学习;本专题无独立 Reward Hacking 节点,相关讨论散见 S01/E02,“T03 Reward Hacking 与推理 RL 的固有困境”为起草期占位、已降级为普通文本)。
§6 产品 PM 视角补盲
工程视角只看”循环能不能跑通”,产品 PM 还要看三层走样:
- 用户心理模型错配:用户看到 agent 在”thinking…”会预期它在做正确的事,但 thinking 时长与正确性不单调相关。一个想了 8000 token 然后给出错误工具调用的 agent,比一个快速给出同样错误的 agent更伤信任——因为用户为”它很努力”付了情感成本。防御性 UX 见 p304 - 防御性 UX:对抗延迟与幻觉。
- 商业模式的成本结构:thinking token 按 output 费率计(通常比 input 贵数倍),一个 reasoning agent 的单位经济学(unit economics)由”循环拍数 × 每拍 effort”决定,可能比非 agent 产品高一到两个数量级。按位置调 effort 直接决定毛利。
- 合规与可审计:在 Rick 的安全/国际化场景下,agent 自主决策的链条必须可审计。reasoning 的不透明(o1/o3 隐藏 thinking)和 faithfulness 争议意味着不能把 reasoning trace 当合规证据,必须在循环里留外部可验证的 action log。
§7 对手框架回应
接受 + 边界,不反驳:
- 对 ReAct/原始 agent 范式(Yao et al.)的回应:接受”reason-act 交错确实提升了可解释性和工具使用准确率”——这是 agent 的奠基贡献。但坚持边界:原始 ReAct 假设 reasoning 是稳定可靠的,没有处理 reasoning 方差的回路累积;当 horizon 拉长、模型换成 trained reasoning 模型后,“交错”本身不够,必须叠加阻尼机制。ReAct 是必要不充分条件。
- 对”scaling test-time compute 解决 agent 可靠性”乐观派的回应(Snell et al. 路线,arXiv:2408.03314):接受”计算最优的测试时搜索能让小模型超 14× 大模型、效率提升 4ד——这是真实且重要的。但标注边界:这些结论在有强验证器的封闭式任务(数学/代码)上成立;arXiv:2502.00271(Yu et al.)反证,验证器不完美时大样本下搜索优势会消退甚至不如重复采样。Agent 循环里的”环境反馈”往往是弱验证器,所以不能假设 test-time compute 会自动夹住方差。
- Rick 未读的对手框架引入 ①——经典控制论的稳定性判据(Wiener/Ashby):控制论早就证明,一个高增益反馈回路若无足够阻尼必然震荡或发散。这逼问本专题盲点:我们把 reasoning effort 当”增益旋钮”,却没有 agent 循环的稳定性判据——多大的单步方差、多长的 horizon、多强的验证器,组合到什么程度回路必然失控?这是本专题留白,对照 控制论系统化专题。
- Rick 未读的对手框架引入 ②——Ashby 的必要多样性定律(Law of Requisite Variety):控制器的内部状态多样性必须 ≥ 被控环境的多样性,否则无法稳定它。这给 reasoning-agent 耦合一个反 hype 的判据:当环境(开放世界、对抗用户)的多样性远超 reasoning 能编码的,再多 test-time compute 也无法换来可控——这与 §2 的知识密集任务反效果证据相互印证。
§8 PM 决策启示
- 面试怎么用:被问”怎么让 agent 更可靠”,不要答”优化 prompt”。答:“先判断它的 decide 引擎是 CoT/trained/搜索哪一种;用 horizon-aware 指标量 reasoning 单步方差;按循环位置分配 effort;给高增益环节加外部验证器阻尼。失控主因常是 reasoning 方差的回路累积,不是工具。“——30 秒展示控制系统框架。
- 选型怎么用:比的不是”谁的 agent benchmark 高”,而是”谁的 reasoning 引擎在长 horizon 下方差小、effort 旋钮粒度细、thinking 可审计”。把单步分数和多步轨迹成功率分开看。
- 复现怎么用:搭最小 agent 时,第一件事是植入步数上限 + 外部验证检查点 + 按位置的 effort 配置,而非堆工具。先用
medium跑 eval 基线,再决定哪些 decide 节点值得升high。
§9 与已有节点的关系
- 对 c11 - System 2 思维与 Test-Time Compute:c11 已建立 System 2 / TTC 的产品框架与”异步工作流”形态,但只把 reasoning-agent 融合点到为止。本节点深化:给出 reasoning 插入 agent 循环的三种耦合方式、方差累积的动力学、三种失控模式的循环定位——是 c11 §11.6 的架构级展开,不复述其 System 1/2 与 PRM/ORM 基础。
- 对 0411 专题 S01 Agent 六层架构剖面 / S03 Harness Engineering 全景:S01 给”由什么组成”的静态分层,S03 给 harness 工程全景。本节点升级对照:叠加控制系统的动力学视角,解释 harness(步数上限、验证器)背后的稳定性理由,并把 reasoning 这一环单独抽出来做方差分析。是对话+深化,不是重画分层。
- 对 控制论系统化专题:本节点把控制论的反馈回路、增益、阻尼、必要多样性定律显式应用到 reasoning-agent 耦合,是该跨域资源在本专题的落地点之一。
- 对 m209 - 推理成本控制手册:成本细账与路由决策树在 m209,本节点只引用其结论(output token 数倍增、按位置调 effort 的成本含义),不复述计费公式。
§10 关联节点
核心(必读):
- c11 - System 2 思维与 Test-Time Compute
- S01 Agent 六层架构剖面
- A03 ReAct
- Test-Time Compute
- 强化学习
- Agent
- 幻觉
- m209 - 推理成本控制手册
延伸(可选):
- S03 Harness Engineering 全景
- A04 Reflexion
- A05 Plan-and-Execute
- A06 Orchestrator 编排器
- p304 - 防御性 UX:对抗延迟与幻觉
- p305 - 信任架构与可解释性设计
- p307 - Copilot 到 Autopilot 光谱
- DeepSeek
- OpenAI
- Claude
- Scaling Laws
- AI PM 知识图谱·总索引
跨专题/校链登记:
- (2026-06-11 已入库回链)控制论系统化专题(必要多样性定律、反馈回路稳定性判据——本节点 §0/§7 的核心跨域底座)现已在主库发布,引用已回链至总览。
- 起草期同级占位内链已校正:
A01 三类推理方法的不可通约辨析→A01 Reasoning 概念史·从 CoT 到 Test-Time Compute;T02 知识密集任务上 reasoning 的反效果→E03 数学代码强开放任务弱的能力剖面;T03 Reward Hacking 与推理 RL 的固有困境本专题无此节点,已降级为普通文本(reward hacking 机制底座见 强化学习)。
修订日志
- 2026-06-12 内审修复:方差累积小节 Phi-4 反例来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3(Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token),补全准确率分数。依据:WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。
- 2026-06-11 P3.4 校链:0420 控制论现已入库,§6 对手框架、§8 升级对照与待建清单中”(待建专题,未发布,降级为普通文本)“恢复为真 0420 总览 链。
- 2026-06-07 R0:首稿。建立”Agent 循环=带反馈的采样-验证控制系统、reasoning=高增益环节”框架;四个耦合点(decide 引擎 / 方差累积 / 三种失控模式循环定位 / effort=增益旋钮);判断主轴四错位四件套;引入 Ashby 必要多样性定律与经典控制论稳定性判据作为 Rick 未读对手框架;与 c11、0411 S01/S03、m209、0420 控制论显式升级对照。数字(o3 AIME 96.7%/SWE-bench 71.7%/ARC-AGI-2 2.9%、SWE-bench overthinking +27.3%/-43%、Phi-4 6780 vs 378 token、R1 faithfulness 59% vs 7%)均来自专题接地证据包,arXiv ID 待 grounding pass 二次核验。