A03 Ashby 必要多样性定律
当你的 multi-agent 系统又一次在复杂任务上崩盘,第一反应几乎总是”模型不够聪明”——换更大的模型、加更长的 CoT、再 fine-tune 一轮。这一节要论证:在相当一部分失控里,这是误诊。真正的病因是一条 1956 年就被写下的结构性定律——W. Ross Ashby 的必要多样性定律(Law of Requisite Variety)。它给出的不是”如何更聪明”的建议,而是一个控制能力的上界:任何控制器(orchestrator)能压制的环境扰动多样性,不可能超过它自身能表征的状态多样性。换句话说,当 context 装不下环境的复杂度时,失控不是模型的道德缺陷,而是信息论意义上的必然。本节用 Ashby 这把尺子,把”agent 为什么会失控”从玄学拉回工程。
§0 为什么是”必要多样性”而不是”能力/智能”这个框架
PM 脑中默认的失败归因框架是能力框架:把 agent 想成一个”智力水平”标量,任务失败 = 智力不够 = 加大模型。这个框架的吸引力在于它把责任外包给了模型供应商,但它系统性地解释不了几类现象:为什么 GPT-5 级模型在简单但状态空间巨大的任务上仍然崩;为什么同一个模型,给它更结构化的工具/记忆/子任务分解就突然能做了;为什么 multi-agent 比单 agent 更容易振荡而不是更强。
Ashby 提供的是一个正交的框架——多样性框架。它不问”控制器多聪明”,只问”控制器能区分多少种状态(variety)“。Ashby 在《An Introduction to Cybernetics》(1956, Chapman & Hall)里把 variety 定义为极朴素的计数概念:
“a set of possible states that a system may take”(系统可能处于的状态的数目)
这是可数的、可工程化的,不是隐喻。一台能拍 20 种效果的相机,variety = 20。一个能区分 1000 种环境状态的 orchestrator,variety = 1000。把失败从”智力标量”换成”状态计数”,整个诊断逻辑就变了:你不再问”模型够不够强”,而是问”控制器能表征的状态数,够不够覆盖环境抛来的扰动数”。这就是为什么要用这个框架——它把一个无法操作的形容词(“聪明”)换成了一个可以测量、可以设计、可以预测失效的数量约束。
§1 定律本体:控制器的能力上界是它的多样性
Ashby 的原始表述(1956,第 11 章)只有一句话:
“Only variety can destroy variety.”(只有多样性能消灭多样性)
后来 Stafford Beer 在管理控制论里把它普及为更顺口的 “Only variety can absorb variety.”(只有多样性能吸收多样性)。两句差一个动词,但含义有微妙分叉(见 §4),这里先取其交集:调节器要中和扰动,自身的多样性必须不低于扰动的多样性。
数学形式(Ashby 原文,确证):
V(R) ≥ V(D) / V(E)
- V(D):扰动(Disturbances)的多样性——环境能抛出多少种状况
- V(R):调节器(Regulator)的多样性——控制器能做出多少种区分/响应
- V(E):允许传到本质变量(Essential variables)的剩余多样性——你能容忍多少失控
简化形式 V(R) ≥ V(D):控制器的多样性必须 ≥ 扰动的多样性,否则一部分扰动在原理上无法被中和——不是”难”,是”不可能”。
更关键的是 Ashby 把这条定律直接挂到了 Shannon 信息论上(原文 10/1 节):
“The quantity of regulation that can be achieved is bounded by the quantity of information that can be transmitted in a certain channel.”
调节行为本质上是信息传输:控制器要”消灭”一份扰动多样性,就得通过它这条”信道”传输等量的信息。信道容量不够,调节就封顶。这给了”失控”一个精确的信息论判据,而不是”模型笨”这种心理学判据。
§2 翻译到 agent 工程:variety 在哪里,失控就在哪里
把抽象的 V(R)、V(D) 落到具体的 agent 系统,对照表如下:
| Ashby 术语 | agent 工程对应物 | 多样性的物理载体 |
|---|---|---|
| V(D) 扰动多样性 | 任务+环境能产生的状态数 | 网页 DOM、API 返回、用户意图、工具报错的组合爆炸 |
| V(R) 调节器多样性 | orchestrator 能表征/区分的状态数 | context window 里实际装下的、被模型有效注意到的状态 |
| 信道容量 | 有效 context 的可用带宽 | 不是名义 token 数,是”被有效利用”的部分(见下) |
| V(E) 可容忍失控 | HITL 断点 / 可逆性预算 | 允许多少步在无监督下偏离 |
核心命题落地为一句 PM 能用的话:orchestrator 的控制能力上界 = 它能在 context 里有效表征的状态多样性。 当 V(R) < V(D),失控是结构性的,与模型聪明程度无关。
这里要锚定一个关键的工程事实,避免把 “context 够大就行” 当成解药:名义 context ≠ 有效 variety。长上下文 LLM 在 100K token 处性能已可下降超 50%(参见 幻觉 与上下文退化相关讨论;长上下文性能衰减是被反复观测的现象),这意味着把 1M token 塞满,V(R) 并不会线性增长——超过某个点,新加的 token 不增加可区分状态,反而引入噪声,让 V(R) 实质下降。这正是 Ashby 信道容量约束的现代版本:信道有上限,硬灌只会降信噪比。所以”context 工程”不是锦上添花,它就是在调控 V(R) 这个变量本身。这条线索直接连到 m208 - AI 基础设施与中间件选型 的检索/记忆中间件选型,以及 m206 - Agent 产品化:记忆机制与技术进展——记忆机制的本质,是在用外部存储扩展 V(R) 而不撑爆信道。
§3 与”模型不够聪明”的正面交锋:误诊的代价
为什么”加大模型”在很多 variety 不足的场景里是南辕北辙?
因为模型规模主要扩的是单步推理的质量(在已表征的状态上做更好的判断),而 variety 不足是状态根本没进入控制器的问题。一个区分不出”这个 API 返回的 error code 500 和 503 要走不同分支”的 agent,你把它从 70B 换成 700B,它依然区分不出——因为这两个状态压根没被结构化进它的决策空间。这是 V(R) 的维度问题,不是单点精度问题。Conant & Ashby 1970 年的 Good Regulator Theorem(“Every good regulator of a system must be a model of that system”,Int. J. Systems Science 1(2): 89–97)把这一点推到极致:好的调节器必须内含被控系统的模型。两条定律互补——必要多样性管”控制器要有足够的状态数”(数量约束),Good Regulator 管”这些状态必须与被控对象形成映射”(结构约束)。合起来直指现代 agent 的世界模型(world model):没有对环境的结构化表征,再大的模型也只是在错误的状态空间里做高质量决策。
把这条诊断接到本专题的失败模式语料(m207 - Agent 产品化:场景推演与失败模式 的六类失败):
- “无限循环”(缺终止信号):控制器无法区分”已完成”与”未完成”两个状态,V(R) 在终止判定维度上 = 1,扰动 V(D) ≥ 2,定律预言必然卡死。
- “雪崩效应”:多 agent 各自修改共享计划产生不兼容分叉——这是多个控制器耦合后,系统 V(D) 暴涨而协调层 V(R) 没跟上(正反馈放大,见 LLM repetition loop 的吸引子机制在系统层的同构版本)。
- “上下文污染”:noise 挤占有效 context,V(R) 实质下降到 V(D) 之下。
[!note] 判断主轴 · 把失控归为”模型不够聪明” = 误诊 症状:任务失败 → 第一反应换更大模型 / 加 CoT / 再 fine-tune,换完没好转或好转极微。 为什么会错:能力框架把失败当成”单步精度不足”,但绝大多数复杂任务失控是状态多样性不足——环境的 V(D) 超过了控制器能表征的 V(R),这是信道容量约束,加参数加不出新的可区分状态维度。 正确做法:先做 variety 审计——列出环境能抛出的状态类别(V(D) 的粗估),对照 context 里实际被结构化、被有效注意的状态(V(R)),找缺口。缺口往往靠结构化分解 / 工具化 / 外部记忆 / HITL 降 V(D) 来补,而不是靠换模型。 真实反例:同一个 base 模型,裸跑 ReAct 在 ALFWorld 类任务上挣扎;给它结构化的环境观察接口(把 V(D) 显式映射进 V(R))后大幅改善——改的是 variety 匹配,不是智力。(ReAct 闭环带来的提升,本身就是”把 observation 纳入控制器状态”即扩 V(R) 的工程证据;参见 c11 - System 2 思维与 Test-Time Compute 对 Test-Time Compute 扩展决策空间的讨论。)
§4 对手框架回应:接受 + 边界
对手立场一(可操作性批评,Graham Berrisford 等):必要多样性定律逻辑上严密,但”无法操作化”——现实系统的 variety 没有标准量法,定律也不告诉你该用哪种结构去匹配复杂性。 接受:这条批评是对的,我不假装能精确算出某个 agent 的 V(R)。本节给的是诊断方向(去查 variety 缺口),不是精确公式。 边界与赌注:即便只能做序数级比较(这个设计比那个设计 variety 更高/更低),定律仍提供了”加大模型治不了 variety 病”这个可证伪的工程判断——这比无框架的”再调调 prompt”强得多。我赌的是:在 PM 选型层面,方向性的 variety 审计比精确测量更有 ROI。
对手立场二(Good Regulator 定理的证明缺口,Goker Erdogan 2021 等):Conant-Ashby 原文存在问题——形式证明只构建了同态(homomorphism)而非标题宣称的”是一个模型”;论文里的”model”更接近 RL 的 policy 而非 transition model;且有 Artificial Life 系统在无明显内部模型时也能调节,暗示定理不易泛化。 接受:定理的哲学强主张(“必须是模型”)确实超出了形式证明能支撑的范围,引用时不该把它当铁律。 边界:本节用 Good Regulator 只取其弱版——“调节器与被控系统之间需存在状态映射”。这个弱版对 agent 工程已足够:它解释了为什么没有环境表征的 agent 会盲目。我不依赖它的强哲学主张,所以这条批评不动摇本节的核心论证。
对手立场三(把 LLM 称作”控制器”是比喻而非工程):LLM 本质是概率采样,不是经典动力系统,套控制论术语缺乏稳定性保证(这是控制论-agent 类比的开放争议)。 接受:严格的 Lyapunov 式稳定性分析在 LLM 高维不可观状态空间上确实尚未成熟(2026 年仍是开放问题)。 边界:必要多样性定律恰恰是控制论里最不依赖连续动力学的部分——它只需要”状态可数”和”信道有容量”,这两条对 LLM agent 成立。所以即便完整稳定性理论还没法平移,variety 这把尺子是可以用的。这是我刻意只调度 Ashby 而非整套控制律的原因。
§5 跨域呼应:Ashby 作为认识论约束,而非工程技巧
把 Ashby 接到 0114认识论 会得到一个比工程更深的判断:必要多样性定律本质上是一条认识论的不可能性定理,和它在控制工程里的身份是一体两面。
控制一个系统,前提是能区分这个系统的状态;能区分多少状态,就是这个观察者-控制器的认知分辨率上界。这与维特根斯坦”语言的界限即世界的界限”、与 Polanyi 默会知识里”我们能控制的不超过我们能清晰表征的”是同构的命题(参见 Polanyi 默会知识与提示工程的认识论张力 若存在;此处取其精神)。落到 agent:orchestrator 对环境的认知分辨率,就是它的控制能力天花板。这就把”agent 失控”从一个工程 bug 升格为一个认识论事实——你不可能控制你无法表征的东西,无论你的模型多大。
这个跨域呼应改变了什么具体判断?它让 PM 在评估一个 agent 产品时,问题从”模型多强”变成”这个系统对其目标环境的状态空间,认知分辨率有多高,以及它如何获取/维持这个分辨率”。Cybersyn(Stafford Beer 在智利的 VSM 实践,1971–1973)的实时 telex 网络,本质上就是一套为决策者扩 V(R) 的认知基础设施——它把工厂状态实时编码进控制室的可表征空间。今天给 agent 配检索、记忆、工具,做的是同一件事:扩认知分辨率。控制论提供的不是”让 agent 更聪明”的语法,而是”理解 agent 为什么会盲、会失控”的最深层语法。
§6 产品 PM 视角补盲
工程视角只看 V(R)/V(D) 的技术匹配,但 PM 要补三个看走眼点:
- 用户心理模型错位(隐性 V(D) 暴涨):用户的真实意图分布远比 PRD 里枚举的场景多样。你以为环境 V(D) = 20 种任务,实际用户会用 200 种没想到的方式表达同一意图。降 V(D) 的产品手段(收窄输入、引导式 UI、明确能力边界声明)往往比扩 V(R) 的工程手段更便宜——这是 PM 的杠杆点,工程师容易忽略。
- 商业模式与 variety 成本的冲突:扩 V(R)(更多检索、更长 context、更多 agent 层)在按 token 计费下直接抬高单任务成本。Gorelkin(2024, Medium)把 Beer 的 VSM 用于企业 agentic 系统时就指出:完整 VSM 架构在前沿模型 token 定价下”成本可能令人望而却步”。所以 PM 的真问题不是”V(R) 越大越好”,而是”在成本约束下,把 V(R) 花在哪个维度回报最高”——这和 m208 - AI 基础设施与中间件选型 的选型逻辑直接咬合。
- 合规边界即强制 V(E):监管要求某些状态必须经人确认(高风险操作),等于强制把这部分 V(D) 挡在自动化之外、塞给 HITL。这不是”控制能力不足”,而是主动收窄 V(D) 来换合规安全——PM 要把它当设计选择,而非缺陷。
§7 PM 决策启示
- 面试怎么用:被问”你们 agent 为什么有时会失控”,别答”模型还不够强”。答:“我们先做 variety 审计——区分是单步推理质量问题(换模型可能有用)还是状态多样性不足(换模型无用,得补结构化/记忆/工具/HITL)。Ashby 必要多样性定律给了这个判断的硬边界。“一句话把你和”无脑加参数”的候选人区分开。
- 选型怎么用:对比两个 agent 框架,别比 feature list,比它们各自如何扩 V(R) 且不撑爆信道——检索质量、记忆压缩、子任务分解粒度、终止判定的状态区分能力。把这四项做成评分表。
- 复现怎么用:debug 失控时,先画出”环境能抛出的状态类别”(V(D) 粗估)对照”context 里实际被结构化的状态”(V(R)),缺口处就是失控点。优先用降 V(D)(收窄任务)或结构化扩 V(R)(工具/记忆),把”换大模型”放到最后。
§8 与已有节点的关系
- 对 m207 - Agent 产品化:场景推演与失败模式:做纠偏 + 深化。m207 列出了六类失败模式(规划/工具/推理/无限循环/雪崩/越界)的”是什么”;本节提供其统一的控制论病因——绝大多数可归约为 V(R) < V(D)。不复述 m207 的失败模式清单,只给上游解释。
- 对 c11 - System 2 思维与 Test-Time Compute:做对话。c11 说”值不值得多想”;本节补充——Test-Time Compute 扩的是单步决策空间(在已表征状态上多想),它缓解但不解决 variety 不足;若状态根本没进控制器,想再久也想不出来。两者是正交的两个旋钮。
- 对 m206 - Agent 产品化:记忆机制与技术进展 / m208 - AI 基础设施与中间件选型:做升级对照。把记忆与中间件重新诠释为”在信道容量约束下扩 V(R) 的工程手段”,给这两个节点一个统一的控制论判据,不复述其技术细节。
- 对 0411 Agent 专题(本节点不复述其内容,只对照):本节是 A06 Orchestrator 编排器 的上游约束——orchestrator 的控制上界由其 variety 决定;也是 A07 Multi-Agent Teams”对等式是陷阱”判断的控制论证明——多控制器耦合使 V(D) 暴涨而协调 V(R) 难跟上。本节与本专题”0416 失败显式升级对照”是互补而非复述关系:那里讲失败的现象分类,这里讲失败的结构性根因(variety 不足)。
§9 关联节点
核心(必读)
- Agent —— 被本定律约束的对象
- m207 - Agent 产品化:场景推演与失败模式 —— 失败现象 ← 本节给病因
- c11 - System 2 思维与 Test-Time Compute —— 正交的另一个旋钮
- m206 - Agent 产品化:记忆机制与技术进展 —— 扩 V(R) 的记忆手段
- m208 - AI 基础设施与中间件选型 —— 扩 V(R) 的中间件手段
- LLM repetition loop —— 控制器状态退化的微观同构
- 0114认识论 —— 必要多样性作为认知分辨率上界
延伸(可选)
- 幻觉 —— 与 variety 不足并列的另一类失效(分布够散但内容错)
- Test-Time Compute —— 单步决策空间扩展
- 强化学习 —— policy 即 Good Regulator 弱版意义上的”模型”
- 0117社会学 —— variety 在组织治理(VSM)中的社会学含义
- AI PM 知识图谱·总索引 —— 全局入口
§10 修订日志
- R1(2026-06-07):首稿。确立”把失控归为模型不够聪明 = 误诊”为判断主轴;Ashby variety 定义 / V(R)≥V(D)/V(E) 公式 / Shannon 信道联系 / Good Regulator 弱版均接地至 1956《Introduction to Cybernetics》与 Conant-Ashby 1970;接入三个对手立场(可操作性批评 Berrisford、Good Regulator 证明缺口 Erdogan 2021、控制论-LLM 类比开放争议)各带接受+边界;跨域呼应落到 0114 认识论(认知分辨率上界);PM 补盲三点(用户心理模型隐性 V(D)、token 成本 vs V(R)、合规即强制 V(E))。长上下文性能衰减”100K 处下降超 50%“取通行观测,精确数值随专题语料核定。