E01 Orchestrator 失控的控制论解释 · 知识库

当一个 orchestrator-worker 系统在复杂任务上”失控”——子 agent 行为分叉、计划被反复改写、循环停不下来、成本失控却没产出——业界的第一反应几乎总是同一句:“换个更强的模型试试。“本节点要论证的是:这是一个框架性的误诊。多 Agent 系统本质是一个控制系统,orchestrator 是它的控制器(regulator);而一个控制器能否压住一个环境,不是由它”聪明不聪明”决定的,是由 W. Ross Ashby 在 1956 年写下的一条结构性不等式决定的。看清这条不等式,你就会明白:大多数 orchestrator 失控不是模型能力问题,是控制器多样性配不上环境多样性的必然结果——而它的解药,几乎从来不是”更强的模型”。

§0 为什么用 Ashby variety,而不是”prompt 没写好 / 模型不够强”

读者脑子里关于 agent 失控的默认框架有两个,都不够用。

默认框架一:“模型不够聪明”。 这是 scaling 信仰的副产品——既然能力随参数/数据增长,那失控就是能力没到位,等下一代模型。问题是:这个框架无法解释为什么同一个模型在简单任务上稳如磐石、在复杂任务上必然崩。如果是”不够聪明”,难度应该是连续退化的;但实际观察到的是相变式崩溃——任务复杂度越过某个阈值后,系统行为质变(分叉、振荡、死循环),这是连续的能力曲线无法解释的。

默认框架二:“prompt 没写好 / 上下文工程没做好”。 这个框架对了一半——它确实指向 context,但它把问题降维成”措辞技巧”,看不到 context 不足背后的信息论刚性约束。

Ashby 的必要多样性定律(Law of Requisite Variety)提供了第三个、也是最深层的语法。它说的不是”努力一点就能控制好”,而是”控制能力有一个由信息容量决定的硬上界”。把 orchestrator 当 regulator、把任务环境当被调对象、把 context window 当控制器的信道,失控立刻从”玄学”变成”可推导”:控制器的可表征状态多样性配不上环境的扰动多样性,失控就是结构必然,跟模型 IQ 无关。这一节用 variety 这把尺子量 orchestrator,正因为它能给出可证伪的失效边界,而前两个框架只能给出”再努力一点”。

[!note] 本节判断主轴 Orchestrator 失控的解药不是更强的模型,而是二选一:要么降低环境 variety(把任务切小、收窄工具空间、约束子 agent 自由度),要么升高控制器 variety(给足 context、给对结构、给反馈回路)。第三条路——“用更聪明的模型硬扛环境复杂度”——在 Ashby 不等式面前是数学上没有保证的。

§1 把 orchestrator 翻译成控制论对象

先做一次精确翻译,否则后面的不等式无处落脚。

控制论对象	Agent 系统对应物	说明
被调系统 / 环境	任务空间 + 工具返回 + 子 agent 输出	orchestrator 要”压住”的对象
扰动 V(D)	任务可能走向的状态数	每个分支、每种工具报错、每个边缘 case 都是一种扰动
调节器 / regulator	orchestrator 本身	observe-decide-act 的控制回路
调节器多样性 V(R)	orchestrator 在 context 内能区分并分别响应的状态数	受 context window 容量上界约束
本质变量 V(E)	任务必须满足的成功判据	允许漂移的剩余多样性
信道容量	context window 的有效 token 容量	Ashby 把调节直接等同于信息传输

这张翻译表不是比喻,是同构。Ashby 在《An Introduction to Cybernetics》(1956)10/1 节明确把调节器能力锚定在信道容量上:“The quantity of regulation that can be achieved is bounded by the quantity of information that can be transmitted in a certain channel.”(可达成的调节量,受限于某条信道能传输的信息量。)对 orchestrator 而言,这条信道就是它的 context——它能”看见”并”记住”的世界状态。看不见的状态,它无法分别响应;无法分别响应的扰动,它无法吸收。

§2 必要多样性不等式:失控的硬下界

Ashby 的定律一句话:“Only variety can destroy variety.”(只有多样性能消除多样性。后被 Stafford Beer 普及为更软的版本 “absorb”——见 §6 的措辞争议。)其不等式形式(已核实,1956,11/11 节):

V(R) ≥ V(D) / V(E)

即:要把本质变量的漂移压到可接受范围,调节器多样性必须不小于扰动多样性除以允许的剩余漂移。简化即 V(R) ≥ V(D):控制器的可区分状态数,必须 ≥ 环境的扰动状态数。

把它读进 orchestrator:

V(D) 随任务复杂度组合爆炸。 一个 5 步任务,每步 3 种可能走向、每个工具 2 种报错模式,扰动空间是乘法叠加的——V(D) 不是线性增长,是指数增长。
V(R) 被 context 容量硬卡住。 orchestrator 能分别响应的状态数,上界是它 context 里能有效表征的世界状态数。即便名义 window 是 1M token,有效区分容量远低于此(见 §3 的”中段坍缩”证据)。
当 V(D) 超过 V(R),不等式被破坏。 此时不存在任何控制策略能压住环境——这是信息论意义上的不可能,不是模型努不努力的问题。

这就是相变式崩溃的解释:任务复杂度爬升时,V(D) 指数涨、V(R) 基本不动,两条曲线必然在某点交叉。交叉点之前控制器游刃有余,交叉点之后必然失控——曲线交叉是离散事件,所以崩溃看起来是”突然”的。“换更强模型”能不能救?只有当新模型显著扩大有效 context 区分容量时才有用;如果它只是知识更多、推理更准但有效 V(R) 没涨,Ashby 不等式纹丝不动,失控照旧。

§3 四种真实失控模式,逐一用 variety 解剖

抽象不等式必须落到工程可观测的失败上。下面四种是 multi-agent 系统反复出现的失败原型(Cemri et al., Why Do Multi-Agent LLM Systems Fail?, arXiv:2503.13657, 2025;1600+ 标注轨迹,14 种失败模式,κ=0.88),每一种都是 Ashby 不等式被破坏的一个面。

模式一:无限循环(缺停机条件的正反馈)。 Cemri 等发现的最大失败类之一是”缺少终止信号导致无限等待/循环”。控制论解读:这是一个没有负反馈闭环的回路——orchestrator 发指令、worker 返回、orchestrator 再发,但没有一个”误差归零即停”的负反馈检测器,系统退化为正反馈自激(类比麦克风啸叫)。variety 视角:控制器没有一个能表征”已完成”状态的变量,即 V(R) 在”终止判据”这一维上等于 1(分不清完成与未完成),于是无法吸收”任务可能已经做完”这个扰动。这正是 LLM repetition loop 在 agent 编排层的同构放大版——前者是 token 分布退化为自我强化吸引子,后者是控制回路退化为自我强化循环。

模式二:子 agent 行为分叉(微小差异被正反馈放大)。 多个 worker 独立修改共享计划,推理上的微小分歧被各自的后续动作放大,形成”不兼容分叉(incompatible forks)“。控制论解读:这是经典的正反馈失稳——局部理性决策通过反馈耦合在系统层产生剧烈发散,与系统动力学里的”啤酒游戏”牛鞭效应同构。variety 视角:orchestrator 作为协调器(对应 Stafford Beer VSM 的 System 2——专门处理 S1 单元间冲突、防振荡)的多样性不足,无法对每一种分叉组合分别给出收敛指令,V(R) < V(D_分叉)。

模式三:上下文污染(信道被噪声填满,有效 V(R) 暴跌)。 长上下文 LLM 在 100K token 处性能已可下降超 50%(arXiv:2512.02445 报道长上下文下行为非单调变化);agent 跑久了,context 被中间产物、报错、无关历史塞满,名义容量在涨、有效区分容量在跌。这是 Ashby 框架最锋利的一刀:V(R) 不等于 context window 的物理大小,而等于其中能被有效区分利用的信息量。污染让信道信噪比崩塌,有效 V(R) 暴跌,于是原本压得住的任务突然压不住了——表面看是”模型变笨了”,本质是信道容量被噪声吃掉。

模式四:过早行动 / 过度帮助(控制器丢了被控对象的模型)。 Cemri 等列出的”premature action / over-helpfulness”:agent 在状态还没看清时就动手,或自作主张扩大任务。控制论解读:这违反 Conant-Ashby Good Regulator 定理(1970,Int. J. Systems Science)——“Every good regulator of a system must be a model of that system.”(每个好调节器必须是被调系统的模型。)orchestrator 若没有维持一个准确的”任务当前状态模型”,它的动作就不是基于状态的调节,而是基于先验的开环猜测。variety 视角:控制器不仅要有足够多的状态(数量),这些状态还必须与环境状态形成同态映射(homomorphism)——丢了映射,V(R) 再大也是”瞎调”。

[!note] 四模式的统一诊断模式一二是负反馈缺失 → 正反馈失稳;模式三是信道污染 → 有效 V(R) 暴跌;模式四是控制器丢失被控对象模型 → 调节退化为开环。四者无一是”模型不够聪明”,全是控制结构层面的 variety 失配。这就是为什么”换更强模型”经常无效——它没碰到任何一个真正的病灶。

§4 解药:降环境 variety 或升控制器 variety

Ashby 不等式 V(R) ≥ V(D) 给出的工程动作只有两类——要么压左边的右半(降 V(D)),要么抬左边(升 V(R))。这是本节点最硬的 PM 判断。

降环境 variety(让世界变简单):

任务分解收敛而非发散。 把一个 V(D) 指数爆炸的大任务,切成多个 V(D) 各自可控的小任务——这正是 orchestrator-worker 模式的真正价值:不是”多个 agent 更聪明”,是把环境多样性切片到每个 worker 都满足 V(R) ≥ V(D_子)。(对照 A06 Orchestrator 编排器对编排器职责的界定;对照 m207 - Agent 产品化：场景推演与失败模式的”逐步放宽自动化”——只在通过率 >95% 的步骤类型取消断点,本质是只在 V(R)≥V(D) 被验证成立的子空间里放手。)
收窄工具空间与子 agent 自由度。 工具越多、自由度越大,环境扰动维度越高。给 worker 5 个工具而非 50 个,是直接砍 V(D)。
约束输出结构(schema 化)。 让 worker 返回结构化结果而非自由文本,等于把它的输出 variety 钉死在可枚举集合内,orchestrator 才有可能逐状态响应。

升控制器 variety(让控制器变强,但不是”更聪明”):

给足且给对 context(扩有效信道容量)。 注意是有效——清污染、做 context 压缩/检索、隔离子 agent 的 context 防交叉污染,比单纯堆 token 更能抬 V(R)。
建负反馈闭环(给停机与纠偏)。 显式的成功判据检测、终止条件、误差回传——把开环变闭环。这正是 ReAct(Yao et al., 2022)把 agent 从开环 prompting 变成 observe→decide→act 闭环的控制论意义(对照 Test-Time Compute:推理时算力本质是给控制器更多”思考状态”,抬 V(R) 的另一条路,见 c11 - System 2 思维与 Test-Time Compute)。
让控制器持有被控对象的模型(Good Regulator)。 维持显式的任务状态追踪/世界模型,让动作基于状态而非先验。

PM 该记住的一句话:面对失控,先问”是 V(D) 太大还是 V(R) 太小”,再决定切任务还是修控制器——“换模型”只在它真能抬有效 V(R) 时才属于第二类,且通常是最贵的一条路。

§5 产品 PM 视角补盲:用户心理模型与成本的 variety 账

跳出工程视角,有两个 PM 必须看见的盲点。

用户心理模型错位:用户感知的 variety ≠ 系统能吸收的 variety。 一个号称”全自动”的 agent 产品,用户会按”它什么都能处理”的心理模型往里扔任意复杂的任务——即用户行为的 V(D) 是开放无界的。但系统的 V(R) 是有限的。这个落差不是 bug,是产品定位与控制能力的结构性错配:要么用 UI/onboarding 主动收窄用户输入的 variety(降 V(D)),要么诚实地暴露能力边界。把”全自动”卖给一个 V(R) 配不上的系统,失控是 GTM 决策的后果,不是工程的后果。

成本的 variety 账:抬 V(R) 是要花钱的,且边际递增。 升控制器 variety 的每条路都烧 token——给足 context、加反馈轮次、维持世界模型,全是 token 成本(对照 m208 - AI 基础设施与中间件选型的选型成本、m206 - Agent 产品化：记忆机制与技术进展的记忆机制开销)。IBM 研究者 Gorelkin(2024-2025)把 Beer 的 VSM 应用于企业 agentic 系统时就坦承:完整的多层 variety 调控架构,在按 token 计费下成本可能高到劝退。PM 的真实决策不是”V(R) 越高越好”,而是在”降 V(D)(限制产品能力)“与”升 V(R)(烧钱)“之间找成本最优的那个点——这是一道经济学题,不是工程题。

§6 对手框架回应:控制论比喻的边界在哪

接受:把 LLM orchestrator 称为”控制器”是比喻,不是工程意义上的稳定性证明。 反方(机器学习社区的主流视角)有理:LLM 本质是概率采样,不是有明确状态方程的动力系统;经典控制论的 Lyapunov 稳定性分析要求可观测、低维、有动力学模型的状态空间,而 LLM 内部状态维度极高且不可直接观测。把 Ashby 不等式套上去,V(R)、V(D) 都难以精确量化——这正是 variety 概念长期被批评的软肋(批评者如 Graham Berrisford 指出该定律逻辑严密但难以操作化:现实系统的 variety 没有标准测量法)。

边界与赌注:不能量化,不等于不能用作诊断语法。 我坚持的是:即使 V(R)/V(D) 算不出精确数字,Ashby 框架仍给出正确的失效方向与正确的干预类别——它告诉你失控是结构约束而非能力不足,告诉你解药是”切任务/收工具/给 context/建闭环”而非”等下一代模型”。这个判断已被失败模式学的经验证据侧面支持(Cemri 2025 的 14 种失败模式,绝大多数落在控制结构而非模型知识层)。我赌的是:作为诊断与干预的语法,控制论的方向性指导,比”提升模型能力”的默认叙事更可靠、更可操作——哪怕它给不出微分方程级的精确解。学界也在补这块:Eslami & Yu(A Control-Theoretic Foundation for Agentic Systems, arXiv:2603.10779, 2026)正尝试为 agentic 系统提供形式化稳定性工具,虽暂无公开数值结果。

失效场景(本节结论会在哪里失效): 当任务本身 V(D) 极低(简单、封闭、确定性),控制论框架是高射炮打蚊子,直接 prompt 就够,谈 variety 是过度工程化。当系统不是多 agent、不是长程任务时,失控风险本就不来自 variety 失配。本节的诊断只在”复杂、开放、长程、多组件”的场景里有信息量。

措辞争议(诚实标注): Ashby 原文是 “destroy” variety(调节器消除扰动),Stafford Beer 普及版是 “absorb” variety(通过增加自身复杂度匹配环境)。两者方向微妙不同——前者是压制,后者是适应。本节在”降 V(D)“处用 Ashby 的压制义,在”升 V(R)“处用 Beer 的适应义,是有意混用两个解读,因为工程上两条路都成立。

§7 跨域呼应:Conant-Ashby 与”控制器必须是世界模型”

调度一个跨域思想资源,具体落地:Good Regulator 定理(Conant & Ashby, 1970)如何改变我们对 orchestrator 该长什么样的判断。

定理原话:“Every good regulator of a system must be a model of that system.” 技术精确版:最优且最简约的调节器,与被调系统之间必存在一个同态映射 h: S → R(注意是同态 homomorphism,不是同构 isomorphism——模型允许丢信息;Conant-Ashby 原论文措辞说 isomorphic 但实际只证了 homomorphism,这是该定理被批评的焦点之一,见 Goker Erdogan 2021 的批评性分析)。

这条定理直接改写了 orchestrator 的设计哲学:一个 orchestrator 的质量上限,等于它对任务状态建模的质量上限。它不需要、也不可能完整复刻环境(同态而非同构允许有损),但它持有的那个”任务进行到哪、子 agent 在干什么、还差什么”的内部模型,如果与真实状态脱钩,它的所有调度都是开环瞎猜(回到 §3 模式四)。这把 variety 的”数量约束”补上了”结构约束”:V(R) 够大只是必要条件,这些状态还得映射到真实环境状态才有用。现代 agent 工程里的”世界模型""状态追踪""scratchpad”,在认识论上都是 Good Regulator 定理的工程实例——它们不是锦上添花,是控制可能性的前提(这条线索可链入 0114认识论:控制器对世界的可控性,以它对世界的可表征性为先决;呼应幻觉的不可消除性——当控制器的世界模型本身带幻觉,Good Regulator 的前提就被腐蚀)。

需要诚实标注的边界:Good Regulator 定理的证明存在公认缺口(Erdogan 2021 指出”model”定义不清、目标函数可认可无意义行为、已有 Artificial Life 系统在无明显内部模型下完成调节)。所以本节用它作设计直觉与诊断方向,不作定理级保证。

§8 PM 决策启示:面试 / 选型 / 复现三类落地

面试桌上: 当被问”agent 为什么会失控、怎么修”,不要答”模型不够强/prompt 再调调”。答:“这是控制系统的 variety 失配——orchestrator 的可控状态多样性配不上任务的扰动多样性,是 Ashby 必要多样性定律的结构性约束,不是模型 IQ 问题。修法只有两类:降环境 variety(切任务、收工具、约束输出)或升控制器 variety(给有效 context、建负反馈闭环、维持世界模型)。“——这一句话立刻把你和”换模型派”区分开。

选型会上: 评估一个多 agent 框架/产品,别比 feature list,比它对 variety 的处理能力:它怎么切任务降 V(D)?它有没有负反馈闭环(终止判据/纠偏)防正反馈失稳?它怎么防 context 污染保住有效 V(R)?它有没有显式的任务状态模型(Good Regulator)?这四问比”支持多少种工具”有判断力得多。

复现台上: 自己搭 orchestrator 时,把”是 V(D) 太大还是 V(R) 太小”当默认 debug 入口。失控了先量两边:任务是不是该再切?工具是不是该再砍?context 是不是被污染了?有没有停机条件?——按 Ashby 不等式逐项排查,比盲目换模型/调 prompt 收敛快得多。

§9 与已有节点的关系

对照 A06 Orchestrator 编排器(深化 + 纠偏):A06 从 0411 Agent 专题界定编排器的职责与架构,本节点不复述其架构定义,而是补上一层 A06 没有的诊断语法——为什么编排器会失控、失控的硬下界在哪。这是从”编排器是什么/怎么搭”到”编排器为什么会崩”的升维。
对照 m207 - Agent 产品化：场景推演与失败模式(对话 + 升维):m207 给出六类失败模式(规划/工具/推理/无限循环/雪崩/越界)与 HITL 经验判据,本节点不复述其失败清单,而是给这些经验性失败模式一个统一的控制论解释——它们不是六个孤立现象,是 variety 失配在不同切面的投影。m207 是病征学,本节是病理学。
对照 LLM repetition loop(同构放大):repetition loop 是 token 层的自我强化吸引子,本节的”无限循环”是控制回路层的同构现象——同一种正反馈失稳,在不同抽象层重现。
对照 c11 - System 2 思维与 Test-Time Compute / Test-Time Compute(补缺):推理时算力是”升 V(R)“的一条具体路径(给控制器更多思考状态),本节把它放进 Ashby 框架定位,补上 c11 未展开的控制论坐标。
与 0416 失败显式升级对照专题的关系:本节点是控制论视角的失控解释,与 0416 的失败升级框架是不同语法对同一现象的互补描述,不复述其内容。

§10 关联节点

核心(必读):

A06 Orchestrator 编排器 — 本节诊断的对象;编排器职责与架构定义
m207 - Agent 产品化：场景推演与失败模式 — 失败模式经验清单,本节给其统一解释
LLM repetition loop — token 层的正反馈失稳,本节”无限循环”的同构源
Agent — 概念基底
c11 - System 2 思维与 Test-Time Compute — “升 V(R)“的推理时算力路径

延伸(可选):

Test-Time Compute — 控制器思考状态的扩展
m206 - Agent 产品化：记忆机制与技术进展 — 记忆即抬 V(R) 的另一条路与其成本
m208 - AI 基础设施与中间件选型 — 升 V(R) 的基础设施成本账
幻觉 — 腐蚀 Good Regulator 世界模型前提的因素
0114认识论 — 可控性以可表征性为先决
0117社会学 — 多控制器耦合的组织治理类比(VSM)
强化学习 — 奖励劫持作为正反馈失稳的对照
AI PM 知识图谱·总索引 — 全库入口

修订日志

R1(2026-06-07):首稿。建立”orchestrator = 控制器”翻译表,以 Ashby 必要多样性不等式 V(R)≥V(D)/V(E) 为判断主轴,用四种真实失败模式(Cemri 2025)逐一做 variety 解剖,落地”降 V(D) / 升 V(R)“双解药,跨域呼应 Conant-Ashby Good Regulator 定理。事实接地:Ashby 1956、Conant-Ashby 1970、Cemri 2503.13657、arXiv:2512.02445、Eslami & Yu 2603.10779、Gorelkin VSM 应用、Erdogan 2021 批评均依接地简报核实;措辞争议(destroy vs absorb)、Good Regulator 证明缺口已显式标注。