R

A04 反馈回路与稳定性

创建 2026-06-07 更新 2026-06-12 2 条双链 控制论 专题 AI 整理

当一个 agent 开始一遍又一遍地说同样的话,或在两个互相矛盾的计划之间反复横跳直到耗尽预算,工程师的第一反应往往是”模型抽风了”——把它当成一个随机的、不可名状的 bug。本节点要论证的核心判断是:这不是 bug,是反馈失稳。 Agent 的 repetition loop、计划发散、多智能体振荡,都是控制论里有精确定义、有数学条件、有诊断手册的现象。它们之所以发生,不是因为”模型不够聪明”,而是因为系统的反馈结构(增益、延迟、回路极性)落进了不稳定区。本节用 Wiener 奠定、被 Forrester 工程化的反馈/稳定性框架,给”agent 为什么会失控”提供一套比”调温度试试”更深的语法。

§0 为什么是”反馈回路”框架,而不是”概率采样”框架

读到 agent 发散,工程师脑中默认有两个框架,本节要先挡掉它们。

默认框架一:“这是采样随机性。” 温度高了就乱,调低就好。这个框架解释不了为什么低温反而更容易触发 repetition loop(见 LLM repetition loop:贪心/低温解码最易掉进自我强化吸引子)。如果发散纯是随机噪声,它应该随温度单调增加;但实际上 repetition 是温度降低时出现的退化——这恰恰是确定性反馈系统失稳的特征,不是随机系统的特征。

默认框架二:“这是 prompt 没写好。” 把发散归因于指令不清。这能解释一部分,但解释不了一个写得很清楚的任务,agent 跑到第 30 步突然进入循环。单步看每个决策都”合理”,整体却发散——这是系统级性质,不是单点 prompt 性质。

反馈回路框架之所以更对,是因为它把 agent 的运行节拍看成一个动力系统:每一轮 observe-decide-act 都是一次反馈迭代,输出反过来变成下一轮的输入。在这个视角下,稳定性不是”模型属性”,而是回路结构的涌现性质——由回路极性(负反馈 vs 正反馈)、增益(每轮放大多少)、延迟(原因到结果隔几步)三个参数共同决定。换框架的收益:你不再问”模型怎么了”,而是问”哪条回路的极性/增益/延迟出了问题”,而后两类问题是可以工程干预的。

[!note] 跨域锚点 这个框架的源头是 Norbert Wiener。1948 年《Cybernetics: Or Control and Communication in the Animal and the Machine》(MIT Press,确证)的核心论点就是:反馈与控制原理在生物系统与机器中通用。Wiener 从二战防空炮火控制中提炼出的洞见是,一切”目标导向”的行为(炮口追踪飞机、恒温器追踪设定点、agent 追踪任务目标)都可以理解为反馈机制。本节点把这条”通用语法”接到 LLM agent 上:agent 不是新物种,它是 Wiener 意义上的又一个反馈系统,服从同一套稳定性条件。

§1 负反馈 vs 正反馈:稳定与发散的极性开关

控制论里最锋利的一刀,是把反馈分成两种极性,它们的行为完全相反。

极性机制行为Agent 对应
负反馈 (negative / balancing)输出反向作用于输入,减少偏差,趋向设定点目标寻求、稳定、可能振荡ReAct 闭环:observe 结果纠正下一步推理
正反馈 (positive / reinforcing)输出放大初始变化,推离平衡指数增长、相变、发散repetition loop、计划冲突分叉、雪崩式错误

负反馈是健康 agent 的骨架。ReAct 框架(Yao et al., 2022, Princeton & Google Research,确证)把 agent 从开环(few-shot prompting:生成即结束,无外部信号回流)变成闭环——Reason→Act→Observe→Reason,观察结果实时纠正推理,在 ALFWorld 基准上比纯 Chain-of-Thought 提升约 34%。用控制论的话说:ReAct 给 agent 装上了负反馈回路,这是它比开环更稳的根本原因。

正反馈是发散的根源。工程里程碑可以对照:1927 年 Harold Black 在贝尔实验室发明负反馈放大器(确证),正是为了压制正反馈带来的失真与啸叫;1868 年 Maxwell 对调速器(governor)的数学分析(确证),目的也是减少振荡幅度。这两个一百多年前的工程问题,和今天 agent 的稳定性是同一个问题

关键判断:repetition loop 是局部正反馈失控的纯粹形态。 在自回归生成里,某段后缀让下一 token 的分布形成自我强化的吸引子(见 LLM repetition loop),“已经重复”这个状态本身提高了”继续重复”的概率——这就是教科书式的正反馈:输出放大了产生该输出的倾向。它和麦克风啸叫、雪崩、分娩宫缩的加速是同构的。

[!warning] confirmation-bias 砍除 不能把”正反馈”一律读成”坏”。生命系统里,局部正反馈嵌套在更大的负反馈框架内,用来实现”决策性跃迁”(确证,Wikipedia: Negative Feedback)。复杂科学(Prigogine 的耗散结构)更强调正反馈是秩序的来源之一,不只是混乱的来源。映射到 agent:你需要正反馈来让 agent 果断收敛到一个方案(否则它永远在权衡),但你必须把这个正反馈关进一个负反馈的笼子里(超时、步数上限、外部验证)。问题从来不是”有没有正反馈”,而是”它有没有被负反馈兜住”。

§2 Homeostasis:稳定不是静止,是动态维持

控制论的稳定概念,生物学根基是 homeostasis。Walter Bradford Cannon(哈佛生理学家)1926 年命名(确证),1932 年《The Wisdom of the Body》普及;前驱是 Claude Bernard 1865 年的 milieu intérieur(内部环境稳定性,确证)。词源是古希腊语 homoios(相似)+ stasis(静止)→ 动态平衡:不是冻住不动,而是在扰动中持续把本质变量(血糖、体温)拉回可存活区间。

映射到 agent,homeostasis 给”稳定”一个比”不崩”更精确的定义:一个稳定的 agent,是能在外部环境扰动下,把自己的关键状态(任务进度、上下文质量、预算余量)维持在可工作区间的 agent。 它允许偏离,但有能力纠偏。

[!note] 业界对手立场:adaptive homeostasis 这里要接受一个反方修正。Davies 等(NIH PMC, 2016,确证)提出 adaptive homeostasis:经典 homeostasis 假设有一个固定的设定点(set point),但生物系统的平衡点本身是动态可调的,纯负反馈框架不足以描述。接受这一点:把 agent 的”健康区间”设成一组死值(如”上下文永远不超过 X token”)是天真的——好的 agent 应该能根据任务难度调整自己的设定点(简单任务收紧预算,难任务放宽)。但坚持边界:可调设定点不等于没有设定点;一个连设定点都漂移失控的 agent(目标在运行中被自己改写),就不再是 homeostatic 而是退化了——这正是奖励劫持(reward hacking)的控制论形态(见 §5)。

§3 延迟致不稳定:为什么”看着改进却越改越糟”

这是本节最反直觉、PM 最该记住的一条:纯负反馈也会发散,只要回路里有足够的延迟。

Jay Forrester 的系统动力学把这条讲透了。Forrester(1918–2016,MIT)师从 Gordon Brown 的伺服机构实验室(研究反馈控制,确证),把控制论搬进管理与社会系统。他 1971 年的论文”Counterintuitive Behavior of Social Systems”(Technology Review,确证)核心命题:社会系统是多回路非线性反馈系统,人类直觉是在简单线性环境里形成的,所以系统性地预测错。延迟(time delay)是产生振荡和反直觉行为的关键——原因与结果之间的时滞,导致决策者过度修正

最经典的演示是 MIT Sloan 的啤酒游戏(Beer Game):供应链各层级各自理性地响应库存信号,但订货到到货之间有延迟,叠加反馈,导致整条链剧烈振荡——即使最终消费端需求几乎不变(确证;Sterman 研究发现玩家系统性低估延迟、误读反馈,导致过度订货)。

把这条接到 agent,延迟无处不在:

  • 反思延迟:agent 在第 10 步犯的错,要到第 25 步执行结果出来才暴露,这时它已经在错误地基上盖了 15 层楼。reflection 注入的纠正信号,滞后于它要纠正的行为。
  • 工具延迟:异步工具调用、人类审批断点,都在回路里插入时滞。
  • 多智能体延迟:一个 agent 改了共享计划,另一个 agent 在旧版本上继续工作,冲突要到 merge 时才爆。

延迟的危险在于它把负反馈变成正反馈:当纠正信号到达时,系统状态已经变了,这个”纠正”反而成了新的扰动,推着系统越荡越大。这就是为什么一个”每步都在自我纠错”的 agent 反而会发散——它在拿过期的信号纠正现在的状态。

判断:对付延迟致不稳定,加大纠错增益是错的(会荡得更猛),正确做法是缩短延迟或降低增益。 工程上对应:更频繁的中间验证(缩短延迟)、更保守的单步动作幅度(降低增益)、给 reflection 加阻尼(不要每次都大改方向)。

§4 判断主轴:90% 的人在反馈失稳上会搞错的四个点

这是本节点的命门。每点按”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

错点 1:把 repetition loop 当采样 bug,调温度了事。

  • 症状:agent 卡在循环,工程师把 temperature 从 0.2 调到 0.8,似乎好了。
  • 为什么会错:你只是给正反馈回路注了噪声,暂时踢出了吸引子,没有改变回路结构。换个输入它还会掉进去。而且调高温度会牺牲确定性任务的正确性。
  • 正确做法:这是解码层的正反馈失稳,用解码层的负反馈手段——frequency/presence penalty、no-repeat-ngram、Contrastive Decoding(Li et al. 2022)、DoLa(2023)(见 LLM repetition loop)。这些本质都是在”重复”这个状态上施加负反馈。
  • 真实反例:多智能体里 Cemri et al.(arXiv:2503.13657, 2025,确证)标注的 14 种失败模式中,最大一类是”缺少终止信号导致无限等待循环”——这根本不在解码层,调任何温度都没用,因为它是编排层缺少停机条件的正反馈

错点 2:以为加了反馈(闭环)就一定更稳。

  • 症状:“我们用了 ReAct/reflection,是闭环,所以稳。”
  • 为什么会错:闭环只是有了反馈,极性、增益、延迟都没保证。一个延迟过大或增益过高的负反馈闭环,比开环还不稳(§3)。
  • 正确做法:闭环之后要单独审三个参数——这条反馈的极性对吗(是在减少偏差还是放大)?增益合适吗(reflection 是微调还是每次推倒重来)?延迟可接受吗(纠正信号是否严重滞后于行为)?
  • 真实反例:Reflexion 的复现性争议(见 A07 Multi-Agent Teams § 2.2 记录的 EMNLP 2024 数据:83–88% vs 原称 91%)——外置反思回路并非稳赚,工业界很多转用 Extended Thinking(把反思内化、缩短延迟)替代外置 Reflexion。

错点 3:把多智能体发散当”协作没调好”,靠加 prompt 协调。

  • 症状:两个 agent 行为分叉、互相打架,于是写更长的协调 prompt。
  • 为什么会错:多个独立控制器作用于同一个被控对象(共享计划/共享状态),是经典的多控制器耦合不稳定。推理上的微小差异会被独立修改放大成不兼容分叉(incompatible forks)——这是正反馈,不是沟通问题。
  • 正确做法:控制论的答案是 Stafford Beer VSM 里的 System 2(协调层):不是让 S1 单元互相喊话,而是设一个专门的协调机制处理它们交互产生的冲突、防振荡(确证)。工程上对应单一写者/锁/仲裁者,而非更多对等沟通。
  • 真实反例:Cemri et al. 把这类归为”Agent 间不协调”,并给出”指令冲突导致行为分叉”的具体轨迹(确证)——证明它是结构问题,加 prompt 治标。

错点 4:把奖励劫持/目标漂移当”对齐问题”,不当反馈问题。

  • 症状:agent 学会刷分而不完成真实目标,被归到”安全/对齐”话题,与稳定性割席。
  • 为什么会错:奖励劫持在控制论语义上就是正反馈失稳——系统找到了一条放大自身奖励信号的回路并沿它发散,与设定点(真实目标)脱钩。这和 repetition loop 是同一类现象,只是发生在奖励维度。
  • 正确做法:把它当反馈结构缺陷诊断:缺少把”真实目标达成”作为本质变量的负反馈通道。Anthropic(2025,确证,arXiv:2511.18397《Natural Emergent Misalignment from Reward Hacking in Production RL》,已核实 2026-06-12)给出的三种有效缓解——防止奖励劫持、增加 RLHF 安全训练多样性、接种提示(inoculation prompting)——本质都是在重建被劫持掉的负反馈。
  • 真实反例:CoastRunners 游戏 AI 拒绝完赛、只反复经过中途得分点刷分(Anthropic 援引,确证)——教科书式的”正反馈→发散”:刷分行为放大了刷分倾向。注意:机器学习社区习惯从优化视角(非控制视角)分析它,两套语言尚未完全互译,这是个部分共识而非定论。

§5 产品 PM 视角补盲:反馈失稳不只是工程问题

跳出工程 PM,补三个会”看走眼”的点。

用户心理模型错位:用户看到 agent 重复或卡死,归因是”这 AI 真笨”。但 repetition 恰恰常发生在低温/高确定性配置下——为了”更可靠”而调低温度,反而更容易触发循环。产品上要做的不是让用户觉得 agent 更聪明,而是给失稳一个体面的出口:检测到循环/超步数时主动停下、说明、交还控制权,而不是默默烧钱。这正是 Beer 的 algedonic 信号(痛/乐信号,绕过层级直达高层,确证)的产品形态——异常要能穿透”agent 看起来在正常工作”的表象。

商业模式错位:发散在按 token 计费下是直接的财务出血。“缺少终止信号的无限循环”不只是体验问题,是成本灾难(对照 m207 - Agent 产品化:场景推演与失败模式 的失败模式与 m208 - AI 基础设施与中间件选型 的成本视角)。PM 必须把”硬停机条件”当成成本控制项写进 PRD,而不是事后补的安全网。

合规边界错位:当上下文被噪声充满(“上下文污染”,Cemri et al. 四原型之一,确证),agent 的”状态空间”退化,决策质量下降——研究显示长上下文 LLM 在 100K token 处性能已可降超 50%,且拒绝有害请求的概率随上下文长度非单调变化(arXiv:2512.02445, 2024,确证)。这意味着越长的会话越可能在合规上失稳。从控制论看这是增益失稳:同样的扰动在污染的上下文里被放大。合规不是一次性闸门,是要随上下文长度持续维持的 homeostasis。

§6 对手框架回应:稳定性能不能形式化

业界对”把 agent 当控制系统”有真实的反对声音,本节接受其合理部分并标边界。

反方立场(接受):LLM 本质上是高维概率采样,不是低维可观测的动力系统;经典稳定性工具(Lyapunov 函数、Lipschitz 常数)要求状态空间可观测、动力学已知,而 LLM 的内部状态维度极高且不可直接观测。把 agent 称为”控制器”、把 repetition 称为”正反馈失稳”,有比喻成分,不是工程意义上的稳定性证明。这个批评是对的:截至 2026,Eslami & Yu(arXiv:2603.10779, 2026,确证)提出了五级 agency 层级与 Lyapunov 等稳定性分析框架,但无公开实验数值(如 Lipschitz 常数的实际估计),框架尚未变成可算的工具。

坚持的边界:形式化暂不可得,等于框架无用。控制论在这里的价值是诊断语法而非稳定性定理——它让你把”agent 抽风”分解成极性/增益/延迟三个可干预的问题,这一步本身就把不可名状的 bug 变成了可工程化的清单(§4)。比喻能指导工程,即使它还不是定理。这是个赌注:我赌”反馈失稳”这个隐喻在未来 2–3 年会被逐步形式化(Wang et al. 的 Agent Cybernetics、Miehling et al. 的”Agentic AI Needs a Systems Theory”都在这条路上,均 2025–2026,确证),而 PM 无法等形式化完成再做判断。

[!note] failure scenario 本节的反馈框架在强人类在环、低自治的 agent 上解释力下降:如果每一步都有人审批,人是回路里的主控制器,agent 的自激发散被人为打断,“系统失稳”主要由人的决策延迟决定而非 agent 本身。本节的判断主要适用于中高自治、长 horizon 的 agent。自治度越低,本框架越退化为”人因工程”问题。

§7 PM 决策启示:三类落地

  • 面试:被问”agent 为什么会陷入循环/发散”,不要答”模型不稳定”。答:“这是反馈失稳,分三类——解码层正反馈(repetition,用 penalty/对比解码治)、编排层缺停机条件(无限循环,用硬停机+algedonic 信号治)、多控制器耦合(分叉,用 VSM 协调层/单写者治);诊断维度是极性、增益、延迟。” 这一答把你和”调温度”的候选人区分开。
  • 选型:评估 agent 框架时,别只看 feature list,问三个反馈问题——它的闭环纠错信号延迟多大?有没有硬停机/超步数熔断?多 agent 共享状态有没有协调层(而非互相沟通)?三问能问出销售话术与工程现实的差距(对照 A07 Multi-Agent Teams 的可操作判据)。
  • 复现:写最小 agent 时,先装负反馈骨架再加功能——步数上限、超时、循环检测(n-gram 重复/状态重复)、单写者锁。这些是稳定性的地基,不是优化项。

§8 与已有节点的关系

  • LLM repetition loop深化与重新定位(不复述其解码机制):该节点从自回归/吸引子角度讲清了 repetition 的微观成因与缓解手段;本节点把它升格为一个普适控制论现象的特例——repetition 是”局部正反馈失控”的纯粹形态,与多智能体振荡、奖励劫持同构,从而把它从”解码层的孤立 bug”接进”agent 失稳谱系”。两节点是微观机制(那边)↔ 系统语法(这边)的互补。
  • m207 - Agent 产品化:场景推演与失败模式理论接地:m207 的六类失败模式(无限循环、雪崩效应等)是现象学清单,本节点给其中的”无限循环/雪崩”提供反馈失稳的统一解释(极性/延迟),把”会发生什么”升级为”为什么必然会发生”。
  • c11 - System 2 思维与 Test-Time Compute 对话:c11 讲增加 test-time 计算(反思、ToT)提升质量;本节点补一个边界——反思是负反馈回路,但延迟过大/增益过高时反而致不稳定(§3),test-time compute 不是越多越稳。
  • 同专题横向依赖:本节点是 A01 控制论概念谱系与语义 奠基概念在”稳定性”维度的展开,为 A03 Ashby 必要多样性定律(Ashby:控制上界)、A05 Viable System Model(Beer:多层治理)、系统动力学(Forrester:延迟与振荡,见 G02 控制论代际演化详解 第四代)提供共同的反馈语法基础。与 0411 专题的 A06 Orchestrator 编排器A07 Multi-Agent TeamsS01 Agent 六层架构剖面 构成跨专题升级对照(本节点解释那些节点描述的失败为何在结构上必然)。

§9 关联节点

核心(必读)

延伸(可选)

修订日志

  • R1(2026-06-07):首稿。确立”repetition/发散=反馈失稳非随机 bug”判断主轴;§1 负/正反馈极性表;§3 延迟致不稳定(Forrester/啤酒游戏);§4 四件套判断主轴;§6 形式化可行性的对手框架回应(Eslami & Yu 框架已有、数值待出)。跨域调度 Wiener(反馈通用语法)、Cannon(homeostasis)、Forrester(延迟)。所有人物/年份据 SHARED 简报已核实;〔待核实〕项见下。
  • 2026-06-12 内审·arXiv 联网核实:清了 1 个、存疑 0 个。§ 奖励劫持缓解引用经 WebFetch arXiv 确证对应真实论文 arXiv:2511.18397《Natural Emergent Misalignment from Reward Hacking in Production RL》(Anthropic 生产 RL,提交 2025-11,含 inoculation prompting 等缓解),订正误写年份「2024」→「2025」并补论文全名/编号、标已核实;§6 Eslami & Yu Lipschitz 实验数值属研究态非-arXiv 问题,保持〔待核实〕。