S03 Reasoning 与 Agent 循环的耦合点 · 知识库

Agent 不是”会调工具的聊天机器人”，而是一个 observe-decide-act 的闭环控制器；而决定这个闭环每一步走向的，是位于”decide”格子里的那台推理引擎。本节点要回答的问题是：当 reasoning 从一次性预训练能力变成推理期可调的连续变量之后，它如何插进 Agent 循环、在哪些点上耦合、又在哪些点上把循环带向失控——核心判断是 Agent 的”失控”很大一部分不是工具的错、不是 prompt 的错，而是 reasoning 这台引擎本身不稳定的下游放大。框架名：把 Agent 循环当成一个带反馈的采样-验证控制系统，reasoning 是其中增益最高、也最难标定的那个环节。

§0 为什么是”控制系统”框架，而不是”规划器+执行器”框架

业界讲 Agent 最顺手的默认框架是”LLM 是大脑、工具是手脚”——一个规划器（planner）把任务分解成步骤，执行器（executor）逐步调工具。这个框架够用来画 PPT，但它会让你在错误的地方找 bug：它把 reasoning 当成一个一次性、确定性的”出计划”动作，于是当 Agent 跑飞时，你会去改 prompt、加 few-shot、换工具。

正确的框架是控制论的：Agent 是一个离散时间反馈回路——每一拍（turn）观察环境状态、由 reasoning 决定下一个动作、执行后环境状态改变、再观察。这与 0411 专题 S01 Agent 六层架构剖面的”感知—记忆—规划—执行”分层不矛盾，而是给它叠加一个动力学视角：分层告诉你”由什么组成”，控制系统告诉你”为什么会震荡、为什么会发散、增益该调多大”。一旦切到这个框架，reasoning 就不再是”出计划”这一个动作，而是回路里反复执行、其方差会沿时间累积的那个高增益环节——这正是 ReAct（A03 ReAct）把 reason 和 act 交错进每一拍的深层原因。

[!note] 框架选择即诊断方向选”规划器+执行器”框架，你会去修 prompt；选”反馈控制系统”框架，你会去标定 reasoning 的方差、给回路加阻尼（验证器、步数上限、effort 下调）。0411 的 S03 Harness Engineering 全景讲的”harness”本质就是这套阻尼器——本节点补的是它背后的动力学理由。

§1 耦合点一：reasoning 作为 decide 格子里的引擎

在最朴素的 observe-decide-act 循环里，reasoning 占据 decide 这一格。但”占据”的方式有三种，分别对应本专题反复辨析的三件不可通约的事：

耦合方式	reasoning 在循环中的位置	代表
prompt 层 CoT	在 decide 格子里临时塞一段”let’s think step by step”，无权重改变	早期 ReAct paper（Yao et al. 2022, arXiv:2210.03629）的 thought-action-observation
trained reasoning	decide 引擎本身是经 RL 训练的推理模型，思考内化进权重	o1/o3 驱动的 agent、DeepSeek-R1（arXiv:2501.12948）驱动的 agent
推理期搜索	decide 这一步本身展开成一棵搜索树（多动作采样+验证选优）	MCTS-based agent、LATS（Language Agent Tree Search）

这三件事不可互换：在循环里塞 CoT prompt 不会让一个非推理模型获得稳定的自我纠错；而把一个 trained reasoning 模型放进循环，few-shot CoT 反而可能损害它（这一反常发现见本专题 A01 Reasoning 概念史·从 CoT 到 Test-Time Compute，原始证据 arXiv:2503.20783 等）。PM 在选型时第一个要问的不是”它支不支持 agent”，而是”它的 decide 引擎是这三种里的哪一种，因为三者的失控模式完全不同”。

§2 耦合点二：reasoning 的方差沿循环累积——为什么单步可靠不等于多步可靠

这是本节点的技术核心。设单步 reasoning 的成功率为 p，一个需要 n 步全对才成功的任务，朴素估计成功率约为 p^n（一阶近似，忽略步间相关与可恢复性，此式在”错误可在后续步被发现并纠正”时严重低估、在”错误会级联放大”时严重高估，仅用于建立直觉）。p=0.95、n=20 时，p^n≈0.36。这就是为什么单步 benchmark 分数高的模型（如 o3 在 AIME 2024 上 96.7%、SWE-bench Verified 71.7%，来源 OpenAI o3 发布与 ARC Prize 核实）放进长 horizon agent 循环后，整体任务完成率会断崖式下滑。

控制论给这个现象一个名字：误差沿回路传播。reasoning 不稳定的方差不是被循环平均掉，而是被累积——一步的过度自信幻觉会污染 observe（写进记忆/上下文），下一步的 decide 在被污染的状态上推理，方差进一步放大。本专题 E03 数学代码强开放任务弱的能力剖面引的 arXiv:2509.06861 给出关键反线性证据：在知识密集任务上增加推理期计算并不持续提升准确率，反而经常增加幻觉，因为延长推理会诱发确认偏误（confirmation bias）→ 过自信。把这放进 agent 循环就是灾难：一个过自信的错误判断会驱动一连串错误的工具调用。

[!note] 赌注与边界我赌的是：当前 agent 失控的主因是 reasoning 方差的回路累积，而非工具接口或 prompt。这个判断在”短 horizon（n≤3）、强外部验证器（如代码可编译/单测可跑）“的场景下会失效——那里工具的确定性反馈能把方差迅速夹回来，reasoning 的不稳定被掩盖。它在”长 horizon、弱验证、知识密集”场景下最成立。

§3 耦合点三：observe-decide-act 三种 reasoning 失控模式的精确定位

把 Cuadron et al.「The Danger of Overthinking」（arXiv:2502.08235，2025，4018 条 SWE-bench Verified 轨迹）识别的三种失败模式，按它们打击循环的哪一格重新定位——这是控制系统视角比”规划器+执行器”视角更锋利的地方：

失败模式	打击的循环格子	控制论本质	实证
Analysis Paralysis（分析瘫痪）	decide → act 卡死	回路开环：只 reason 不 act，无新观测注入，系统失去反馈	overthinking score 与成功率负相关；推理模型比非推理模型更易 overthink
Rogue Actions（暴冲动作）	decide 方差过大 → act	高增益+无阻尼 → 过度推理后跳到错误操作	同上轨迹分析
Premature Disengagement（过早放弃）	循环提前终止	推理疲劳触发错误的停机判据	同上

三者都是 reasoning 引擎的病，不是工具的病。关键产品事实：选 overthinking 分数最低的方案可使 SWE-bench Verified 成功率提升至 27.3%、计算成本降低 43%（同篇）——也就是说，给 reasoning 这个高增益环节加阻尼（抑制过度思考）同时提升了质量和成本，这是一个罕见的帕累托改进，PM 必须知道。

§4 耦合点四：effort 旋钮就是回路增益旋钮

本专题反复强调的核心命题——reasoning 是”推理期可购买的连续变量”——在 agent 循环里有一个直接的工程对应物：reasoning effort 旋钮 = 回路的增益旋钮。

Claude 的 effort 参数（low/medium/high/xhigh/max，来源 platform.claude.com effort 文档）和 OpenAI 的 reasoning_effort（low/medium/high）让 PM 第一次能在 agent 循环的每一拍上做增益决策：简单子任务（如分类、路由、格式化）调 low，复杂决策节点调 high。Claude 官方文档明确：max 在结构化/低智力任务上”can lead to overthinking”——这正是 §3 的 Analysis Paralysis 在产品层的回声。

PM 的滑杆决策因此从”整个 agent 设一个 effort”升级为”按循环位置分配 effort”：

observe/格式化步：low——只需把工具返回值整理进上下文，不需要推理。
decide/关键分叉步：high——这一步的错误会沿回路放大，值得买更多算力。
长时 agentic（>30 分钟、反复工具调用）：Claude 文档建议 xhigh。

成本量级：开启 extended thinking 后 output token 可增加数倍到一个数量级（成本细账见 m209 - 推理成本控制手册），而复杂 query 的 thinking token 可达 10,000 量级。在一个 20 拍的循环里若每拍都 max，延迟和成本会乘性爆炸——这就是为什么按位置调 effort 不是优化项而是必需项。

§5 判断主轴：90% 的人会在 reasoning-agent 耦合上搞错的四个点

[!warning] 这是本节点的命门每点四件套：症状 → 为什么会错 → 正确做法 → 真实反例。

错位一：把 agent 失控当成 prompt/工具问题去修。

症状：agent 跑飞了，团队第一反应是改 system prompt、加 few-shot、换工具描述。
为什么会错：误用了”规划器+执行器”框架，看不到 reasoning 方差的回路累积。
正确做法：先量 reasoning 的单步方差和 overthinking 分数，给回路加阻尼（验证器/步数上限/effort 下调），而非改 prompt。
真实反例：Cuadron et al. 发现 SWE-bench 失败主因是 overthinking 而非工具——降低推理而非增加 prompt 反而把成功率提到 27.3%、成本降 43%（arXiv:2502.08235）。

错位二：以为单步 benchmark 高分能线性外推到长 horizon agent。

症状：拿 o3 的 AIME 96.7% 当”它能跑好任何 agent 任务”的证据。
为什么会错：忽略 p^n 的乘性衰减和误差累积。
正确做法：用 horizon-aware 的指标（任务级完成率、多步轨迹成功率），而非单步准确率。
真实反例：o3 在 ARC-AGI-1 高算力达 87.5%，但在更需多步组合推理的 ARC-AGI-2 上仅 2.9%（人类基线约 60%，来源 ARC Prize）——单步/单类高分不代表组合鲁棒。

错位三：把”思考更久”当成 agent 更可靠的免费午餐。

症状：默认给整个 agent 开 max effort，以为越想越稳。
为什么会错：reasoning 不是免费午餐，过度思考会触发 Analysis Paralysis、确认偏误、延迟灾难。
正确做法：按循环位置分配 effort；先用 medium 跑 eval 再决定是否升档。
真实反例：推理模型平均约 6,780 token vs 标准 Phi-4 的约 378.6 token，但 Phi-4-reasoning-plus 准确率 69.54% 反而低于标准 Phi-4 的 78.92%（arXiv:2507.04023 Table 2/§5.3）；Claude 官方警告 max 在结构化任务上 overthink。

错位四：信任 reasoning 模型自己报告的”思考过程”作为 agent 可观测性。

症状：把模型的 thinking trace 当成 agent 决策的真实日志，据此调试。
为什么会错：CoT 的 faithfulness（信实性）是争议问题；trace 可能是事后合理化而非真实因果。
正确做法：在循环里植入外部可验证的检查点（工具返回、单测、断言），不依赖模型自述。
真实反例：推理模型信实性虽较高（DeepSeek-R1 描述影响因素频率 59% vs 非推理版 7%，arXiv:2501.08156），但仍远非 100%，且 reward hacking 会产生”显得有道理的废话”（reward hacking 的机制底座见强化学习；本专题无独立 Reward Hacking 节点，相关讨论散见 S01/E02，“T03 Reward Hacking 与推理 RL 的固有困境”为起草期占位、已降级为普通文本）。

§6 产品 PM 视角补盲

工程视角只看”循环能不能跑通”，产品 PM 还要看三层走样：

用户心理模型错配：用户看到 agent 在”thinking…”会预期它在做正确的事，但 thinking 时长与正确性不单调相关。一个想了 8000 token 然后给出错误工具调用的 agent，比一个快速给出同样错误的 agent更伤信任——因为用户为”它很努力”付了情感成本。防御性 UX 见 p304 - 防御性 UX：对抗延迟与幻觉。
商业模式的成本结构：thinking token 按 output 费率计（通常比 input 贵数倍），一个 reasoning agent 的单位经济学（unit economics）由”循环拍数 × 每拍 effort”决定，可能比非 agent 产品高一到两个数量级。按位置调 effort 直接决定毛利。
合规与可审计：在 Rick 的安全/国际化场景下，agent 自主决策的链条必须可审计。reasoning 的不透明（o1/o3 隐藏 thinking）和 faithfulness 争议意味着不能把 reasoning trace 当合规证据，必须在循环里留外部可验证的 action log。

§7 对手框架回应

接受 + 边界，不反驳：

对 ReAct/原始 agent 范式（Yao et al.）的回应：接受”reason-act 交错确实提升了可解释性和工具使用准确率”——这是 agent 的奠基贡献。但坚持边界：原始 ReAct 假设 reasoning 是稳定可靠的，没有处理 reasoning 方差的回路累积；当 horizon 拉长、模型换成 trained reasoning 模型后，“交错”本身不够，必须叠加阻尼机制。ReAct 是必要不充分条件。
对”scaling test-time compute 解决 agent 可靠性”乐观派的回应（Snell et al. 路线，arXiv:2408.03314）：接受”计算最优的测试时搜索能让小模型超 14× 大模型、效率提升 4×“——这是真实且重要的。但标注边界：这些结论在有强验证器的封闭式任务（数学/代码）上成立；arXiv:2502.00271（Yu et al.）反证，验证器不完美时大样本下搜索优势会消退甚至不如重复采样。Agent 循环里的”环境反馈”往往是弱验证器，所以不能假设 test-time compute 会自动夹住方差。
Rick 未读的对手框架引入 ①——经典控制论的稳定性判据（Wiener/Ashby）：控制论早就证明，一个高增益反馈回路若无足够阻尼必然震荡或发散。这逼问本专题盲点：我们把 reasoning effort 当”增益旋钮”，却没有 agent 循环的稳定性判据——多大的单步方差、多长的 horizon、多强的验证器，组合到什么程度回路必然失控？这是本专题留白，对照控制论系统化专题。
Rick 未读的对手框架引入 ②——Ashby 的必要多样性定律（Law of Requisite Variety）：控制器的内部状态多样性必须 ≥ 被控环境的多样性，否则无法稳定它。这给 reasoning-agent 耦合一个反 hype 的判据：当环境（开放世界、对抗用户）的多样性远超 reasoning 能编码的，再多 test-time compute 也无法换来可控——这与 §2 的知识密集任务反效果证据相互印证。

§8 PM 决策启示

面试怎么用：被问”怎么让 agent 更可靠”，不要答”优化 prompt”。答：“先判断它的 decide 引擎是 CoT/trained/搜索哪一种；用 horizon-aware 指标量 reasoning 单步方差；按循环位置分配 effort；给高增益环节加外部验证器阻尼。失控主因常是 reasoning 方差的回路累积，不是工具。“——30 秒展示控制系统框架。
选型怎么用：比的不是”谁的 agent benchmark 高”，而是”谁的 reasoning 引擎在长 horizon 下方差小、effort 旋钮粒度细、thinking 可审计”。把单步分数和多步轨迹成功率分开看。
复现怎么用：搭最小 agent 时，第一件事是植入步数上限 + 外部验证检查点 + 按位置的 effort 配置，而非堆工具。先用 medium 跑 eval 基线，再决定哪些 decide 节点值得升 high。

§9 与已有节点的关系

对 c11 - System 2 思维与 Test-Time Compute：c11 已建立 System 2 / TTC 的产品框架与”异步工作流”形态，但只把 reasoning-agent 融合点到为止。本节点深化：给出 reasoning 插入 agent 循环的三种耦合方式、方差累积的动力学、三种失控模式的循环定位——是 c11 §11.6 的架构级展开，不复述其 System 1/2 与 PRM/ORM 基础。
对 0411 专题 S01 Agent 六层架构剖面 / S03 Harness Engineering 全景：S01 给”由什么组成”的静态分层，S03 给 harness 工程全景。本节点升级对照：叠加控制系统的动力学视角，解释 harness（步数上限、验证器）背后的稳定性理由，并把 reasoning 这一环单独抽出来做方差分析。是对话+深化，不是重画分层。
对 控制论系统化专题：本节点把控制论的反馈回路、增益、阻尼、必要多样性定律显式应用到 reasoning-agent 耦合，是该跨域资源在本专题的落地点之一。
对 m209 - 推理成本控制手册：成本细账与路由决策树在 m209，本节点只引用其结论（output token 数倍增、按位置调 effort 的成本含义），不复述计费公式。

§10 关联节点

核心（必读）：

延伸（可选）：

跨专题/校链登记：

（2026-06-11 已入库回链）控制论系统化专题（必要多样性定律、反馈回路稳定性判据——本节点 §0/§7 的核心跨域底座）现已在主库发布，引用已回链至总览。
起草期同级占位内链已校正：A01 三类推理方法的不可通约辨析→A01 Reasoning 概念史·从 CoT 到 Test-Time Compute；T02 知识密集任务上 reasoning 的反效果→E03 数学代码强开放任务弱的能力剖面；T03 Reward Hacking 与推理 RL 的固有困境 本专题无此节点，已降级为普通文本（reward hacking 机制底座见强化学习）。

修订日志

2026-06-12 内审修复：方差累积小节 Phi-4 反例来源由误署的 arXiv:2505.00127 改为真实出处 arXiv:2507.04023《Do LLMs Overthink Basic Math Reasoning?》Table 2/§5.3（Phi-4 78.92%/~378.6 token、Phi-4-reasoning-plus 69.54%、abstract 推理模型平均 ~6,780 token），补全准确率分数。依据：WebFetch 复核 2505.00127/2504.21318 全文均不含该组数字。
2026-06-11 P3.4 校链：0420 控制论现已入库，§6 对手框架、§8 升级对照与待建清单中”（待建专题，未发布，降级为普通文本）“恢复为真 0420 总览链。
2026-06-07 R0：首稿。建立”Agent 循环=带反馈的采样-验证控制系统、reasoning=高增益环节”框架；四个耦合点（decide 引擎 / 方差累积 / 三种失控模式循环定位 / effort=增益旋钮）；判断主轴四错位四件套；引入 Ashby 必要多样性定律与经典控制论稳定性判据作为 Rick 未读对手框架；与 c11、0411 S01/S03、m209、0420 控制论显式升级对照。数字（o3 AIME 96.7%/SWE-bench 71.7%/ARC-AGI-2 2.9%、SWE-bench overthinking +27.3%/-43%、Phi-4 6780 vs 378 token、R1 faithfulness 59% vs 7%）均来自专题接地证据包，arXiv ID 待 grounding pass 二次核验。