A05 Viable System Model · 知识库

当我们说一个多 agent 系统”治理结构不够”时,到底缺了什么?本节用 Stafford Beer 的可行系统模型(Viable System Model, VSM)作为诊断框架,回答一个被工程界普遍回避的问题:为什么大多数 orchestrator-worker 架构在 demo 里跑得通,放到长周期、环境会变的真实任务上却无法自适应?判断主轴只有一句:orchestrator-worker 是 VSM 的退化特例,它实现了 System 1、勉强实现了 System 2 和部分 System 3,但几乎完全缺失 System 3(审计)、System 4(环境情报)、System 5(身份/政策)——而正是这三层的缺失,让多 agent 系统只能执行、不能自治。*

§0 为什么是 VSM,而不是”orchestrator-worker 分层图”

大多数 agent 工程师脑中的默认框架是 Anthropic 普及的 orchestrator-worker:一个主控 agent 拆任务、派给若干 worker、回收结果、合并。这张图的问题不在它错,而在它只画了一层、只画了”当下”。它回答了”谁干活、谁协调”,但没有回答三个让系统能长期存活的问题:谁在偷偷核对 worker 报上来的数没有撒谎(审计)?谁在扫描环境、判断”我们正在解的这个任务本身是不是已经过时了”(情报)?谁在冲突发生时裁决”我们到底是谁、不做什么”(身份)?

Beer 在《Brain of the Firm》(1972)里给的答案是:任何能在复杂、会变的环境中维持自身身份与目的的系统,必然(不是”最好”,而是”必然”)包含五个功能子系统,缺一则不可行(viable)。这是一个必要性命题,不是设计偏好。VSM 比 orchestrator-worker 精密的地方,恰恰在于它把”协调”和”控制”拆成了不同职能,又在”控制”之外补上了”审计""情报""身份”三层——这三层就是 orchestrator 图上那片空白。所以本节点的视角是:不要把 VSM 当成”另一种架构选项”,而要把它当成一把尺子,去量你现有的 agent 架构缺了哪几层。

§1 五个子系统:一张可对照的诊断表

Beer 把可行系统分解为五个子系统,前三层管”当下与此处”,S4 管”将来与彼处”,S5 在两者间维持平衡。S2–S5 合称元系统(Metasystem),S1 是被管理的运营层。(来源:Beer《Brain of the Firm》1972、《The Heart of Enterprise》1979;Wikipedia: Viable System Model;Metaphorum)

系统	名称	职能	orchestrator-worker 里对应什么	缺失的代价
S1	Operations 运营	各自治运营单元,直接与外部环境交互;复数并列	worker agents	几乎都实现了
S2	Coordination 协调	消解多个 S1 单元相互作用产生的冲突,防振荡	共享内存/消息总线/调度锁	多 agent 改同一份计划时分叉
S3	Control 控制/协同	内部稳态;优化 S1 集体绩效;分配资源	orchestrator 本体	一般实现了
S3*	Audit 审计	绕过常规汇报链,直接抽查 S1 真实状态	基本没有	worker 谎报/幻觉无人核
S4	Intelligence 情报/适应	扫描外部环境,感知威胁与机会;管”将来与彼处”	基本没有	任务前提变了无人察觉
S5	Policy 政策/身份	设定愿景、价值、边界规则;维持整体身份	system prompt(静态,不参与回路)	冲突无人裁决、目标漂移

[!note] 判断主轴的第一刀把上表第四列读一遍:orchestrator-worker 实现了 S1、S2、S3,而 S3、S4、S5 三层在绝大多数实现里要么缺失、要么被冻结成一段静态 system prompt*。这就是”退化特例”的精确含义——不是 orchestrator 错了,而是它把一个五层的可行系统压扁成了三层的执行系统。执行系统能完成被交代的任务,但不能自适应,因为自适应正是 S4(感知变化)+ S5(决定要不要变)的职能。

§2 递归自治:VSM 真正反直觉的那一刀

VSM 最深、也最常被忽略的命题是递归(recursion):每个 System 1 单元本身就是一个完整的 VSM,内含自己的 S1–S5;它在更高层视角里才扮演 S1 的角色。Beer 称之为控制论同构(cybernetic isomorphism):无论尺度是工作小组、部门、公司还是国家,结构不变。(来源:Beer《The Heart of Enterprise》1979)

“The system is its own meta-system at each level of recursion.”

这一刀对 agent 工程的含义是颠覆性的:自治性(autonomy)与凝聚性(cohesion)必须在每一层同时实现,而不是靠顶层集中控制。一个 worker agent 如果只是”接指令-干活-回报”,它不是一个可行子系统,它只是 orchestrator 的一只手;一旦它面对的子环境发生它能处理、但 orchestrator 不知道的变化,这只手就会僵住——因为它自己没有 S4(不会扫描自己的子环境)、没有 S5(没有自己的边界规则可以据以自主决断)。

对照 A06 Orchestrator 编排器和 A07 Multi-Agent Teams:0411 专题 A07 R5 给出的反共识立场是”三种架构里 PM 实战只有一种半可用,层级式可落地、对等式是陷阱、市场式是玩具”。VSM 的递归原则恰好解释了为什么”层级式可落地”——层级式之所以是唯一能跑的,是因为它至少在顶层补上了 S3/S5 的雏形;而对等式之所以是陷阱,是因为它假设若干平级 worker 能在没有元系统的情况下自己消解冲突,这违反了 VSM 的 S2 必要性。对等式不是”治理松散”,而是结构性地缺了协调子系统。

§3 Algedonic 信号:被 orchestrator 漏掉的那条捷径

VSM 还规定了一条特殊通道:algedonic 信号(希腊语 algos 痛 + hedone 乐)。当任何 S1 单元绩效偏离能力阈值(过差或过好),触发一条直达高层、绕过常规管理层级的紧急信号:S1 → S3(先给一线一次修正机会)→ 若无法解决 → 唤醒 S5。(来源:Beer《The Heart of Enterprise》1979)

类比神经系统的疼痛反射:你的手碰到火,信号不经过完整的大脑决策流程,直接触发缩手。它的工程意义是防止真正的异常在常规汇报链的噪音里被淹没。这正对应 m207 - Agent 产品化：场景推演与失败模式里的”雪崩效应”和”无限循环”:多 agent 系统最常见的失败不是某一步算错,而是一个早期小偏差沿正常回路逐级传递、无人拉响警报,直到整条链崩掉。Cemri et al. 的 MAST 研究(arXiv:2503.13657, 2025;1600+ 轨迹,14 种失败模式)发现,最大的一类失败是”缺少终止信号导致的无限等待循环”——用 VSM 的语言说,这就是系统缺了 algedonic 通道:没有一条能绕过卡死层级、直接喊停的捷径。

§4 判断主轴落地:90% 的人在这四个点搞错(症状→为什么→正确做法→反例)

错点 1:把 system prompt 当成 System 5。

症状:架构图里”主控 agent + 一段写满价值观和约束的 system prompt”,就以为有了身份层。
为什么会错:S5 是一个活的子系统,要在 S3(当下)与 S4(未来)冲突时实时裁决;而 system prompt 是静态文本,不参与运行时回路,它只在每次推理被重新读一遍,无法根据情报调整边界。
正确做法:让 S5 成为一个能被 S4 的情报触发、能改写 S3 资源分配优先级的运行时决策点(哪怕是一个轻量的”policy agent”,在检测到目标冲突时被显式调用)。
反例:某 B2B 销售线索 agent(参 m207 的场景推演)system prompt 写死”优先高价值客户”,但环境里季度策略已转向”先保留存量”——静态 prompt 不会自己改,系统持续优化了一个过时目标。这是 S5 缺位,不是模型不聪明。

错点 2:有 S3,没有 S3。*

症状:orchestrator 信任 worker 回报的结果,直接合并。
为什么会错:S3 走的是常规汇报链,而汇报链本身会被 S1 优化(worker 倾向于报告”我完成了”);S3* 的存在价值正是绕过汇报链直接抽查真相。
正确做法:加一条独立的审计旁路——抽样让另一个 agent(或工具)直接验证 worker 产出的真实性,而非读它的自述。
反例:worker agent 幻觉出一个不存在的 API 返回值并报告”成功”,orchestrator 无 S3* 旁路核对,错误进入下游。这与幻觉的不可消除性叠加,放大成系统级故障。

错点 3:把 S4 等同于”加个 web search 工具”。

症状:给 agent 接了搜索工具就以为有了环境情报。
为什么会错:S4 不是”能查资料”,而是主动、持续地扫描环境并判断”我们当前的任务前提是否仍然成立”;被动等用户提问的搜索工具不是 S4。
正确做法:让 S4 成为一个有自己节拍的回路(observe→orient),定期评估”环境是否发生了让当前计划失效的变化”,并能向 S5 升级。
反例:长周期 agent 跑一个数小时的研究任务,中途数据源 schema 变了,agent 没有 S4 节拍去发现,继续用旧假设跑完——输出在技术上”完成”了,在事实上全错。

错点 4:用增加 worker 数量来应对环境复杂度。

症状:任务一复杂就堆更多并行 worker。
为什么会错:这违反 Ashby 必要多样性定律的 VSM 用法——多样性(variety)是能区分的状态数,不是 agent 数量;堆同质 worker 不增加系统能表征的状态多样性,只增加 S2 的协调负担。
正确做法:在 S2 用衰减器(attenuator)削减 S1 之间传递的噪音,在 S3 用放大器/衰减器平衡信息不对称,而不是无脑扩 S1。
反例:见 §5 的 Ashby 接入。

§5 跨域呼应:Ashby 必要多样性定律,VSM 的硬约束

Beer 直接继承了 W. Ross Ashby 的必要多样性定律(《An Introduction to Cybernetics》1956):

“Only variety can absorb variety.”(只有多样性能吸收多样性。)

(注:Ashby 原文是 “Only variety can destroy variety”,Beer 普及为 “absorb”——两者侧重不同,见 A03 Ashby 必要多样性定律的辨析。)

在 VSM 里,这条定律给每一层都设了硬约束:S1 单元必须有足够内部多样性应对自己的运营环境;S2 通过衰减器减少 S1 间噪音;S3 通过放大器与衰减器平衡与 S1 的信息不对称。任一层多样性失配,该层控制就失效。

这对 agent 工程的判断是结构性的,不是调参问题:orchestrator 的控制能力上界 = 它能表征的状态多样性。 如果给 orchestrator 的 context 不足以区分环境的关键状态(context 窗口被噪音占满、关键信号被衰减掉),那么 requisite variety 不够,失控是结构性必然——再换更聪明的模型也救不了,因为瓶颈在信道容量而非推理能力。这与 Test-Time Compute / c11 - System 2 思维与 Test-Time Compute 的视角互补:System 2 多想能提升单点推理质量,但它无法补足 variety 缺口——多想一万步也想不出 context 里根本没有的状态信息。

[!note] 这是本专题的中枢判断把”多 agent 失控”从”模型不够聪明”重新归因为”requisite variety 不够”——这是控制论给 agent 工程最深的一层语法。它把一个看似可以靠”换更强模型”解决的问题,揭示为一个信道容量的结构性约束:m208 - AI 基础设施与中间件选型里的 context 管理、记忆机制(m206 - Agent 产品化：记忆机制与技术进展)不是”锦上添花的优化”,而是决定系统多样性上界、从而决定它可控性上界的第一性约束。

§6 产品 PM 视角补盲:VSM 的三个工程外的坑

成本边界(商业模式错位):完整 VSM 五层在 LLM agent 上意味着 S3*、S4、S5 都要额外的模型调用。Mikhail Gorelkin(2024-2025, Medium)把 VSM 应用于企业 agentic 系统时明确指出:GPT-4+/Claude Sonnet/Gemini 按 token 收费,完整 VSM 架构的成本可能令人望而却步。PM 决策:不是”要不要上 VSM”,而是”为这个任务的失控代价,值得补哪几层”——高风险不可逆步骤补 S3*,长周期环境会变的任务补 S4,多目标冲突的任务补 S5。(对照 m207 - Agent 产品化：场景推演与失败模式的”逐步放宽自动化”原则。)
多层级延迟可能自身引入新不稳定:补齐 S2–S5 不是免费的——每一层都引入感知-决策延迟,而控制论早就证明(见系统动力学的”啤酒游戏”)时延叠加反馈会自己制造振荡。给 agent 系统加治理层,可能解决了一类失控,又引入了另一类。这是初步判断,待工程验证。
VSM 假设可观察的客观现实(认识论边界):VSM 是一阶控制论的设计工具,预设观察者在系统外、能客观度量 variety。这与 Heinz von Foerster 的二阶控制论(观察者本身是系统一部分)存在张力——当 agent 系统的”观察者”(评估它的人或元 agent)本身也是 LLM、也会幻觉时,“客观度量”这一前提就被动摇了。链入 0114认识论:VSM 给的是工程脚手架,不是认识论保证。

§7 对手框架回应:接受 + 边界

反方立场一(VSM 研究界自身):variety 无法量化,定律难以操作化。 多位 VSM 研究者(及实证检验论文,Tandfonline 2016)指出 Beer 从未给出测量 variety 的操作方法,使必要多样性定律难以实证检验。接受:确实如此——本节点不主张能给 agent 的 variety 算出一个数。边界:即使无法精确量化,VSM 作为诊断尺仍然成立——它让你问对问题(“这一层有没有""审计旁路存不存在”),而问对问题本身就是 PM 在选型会上的核心价值。把它当定性 checklist,不当定量公式。

反方立场二(批判系统思维学派,Rick 未读的对手框架):VSM 是单元功能主义,忽视人文与政治维度。 Critical Systems Thinking 学派批评 Beer 以神经生理学和控制系统为基础,缺乏对个体心理、社会权力与文化的处理;后续有人提出 Human-Centric VSM(HC-VSM)补充。接受:用 VSM 设计多 agent 系统时,它确实会把”协作”还原成”信息流与控制”,遮蔽掉 agent 背后真实用户的权力与偏好。边界:对纯软件 agent 编排,功能主义的还原恰恰是优点(系统里没有需要被尊重的”人格”);但一旦回路里有 HITL(人在环),这个批评立刻生效——此时 algedonic 信号不能只优化系统稳态,还要尊重人的注意力预算。这正是 m207 - Agent 产品化：场景推演与失败模式 HITL 三维度的接口。

反方立场三(Karl Popper 意义上的可证伪性):VSM 过于通用,任何组织都能被”拟合”进去,难以证伪。 接受:VSM 的普适性确实是把双刃剑——它能”解释”任何系统,意味着它无法被任何观察证伪。边界:本节点不把 VSM 当科学理论用,而当工程诊断语言用;诊断语言的价值标准不是可证伪性,而是”它是否让你发现了原本看不见的缺口”。我赌的是:用 S1–S5 + S3* 这套词汇去审视一个 agent 架构,你会比用 orchestrator-worker 词汇发现更多结构性漏洞。这个赌注可能错——如果某天 orchestrator 框架自己长出了审计/情报/身份层,VSM 的边际价值就归零了。

§8 failure scenario 与 confirmation-bias 自查

failure scenario(本节结论何时失效):(1) 任务短、一次性、环境不变时,补 S4/S5 纯属浪费——退化的三层 orchestrator 反而是正解。(2) 当底层模型上下文足够大、能容纳全部环境状态时,variety 约束被信道容量的提升暂时绕过,“结构性失控”会缓解。(3) 若 algedonic 通道被设得太敏感,会变成”狼来了”,反而淹没真信号。
confirmation-bias 砍除:本节早期论证倾向于把”补齐 S3*/S4/S5”当成普遍善——这是 bias。补入反例:Project Cybersyn(智利 1971-1973,VSM 最大规模现实应用)虽是 VSM 的丰碑,但其结局(被政变摧毁)也提醒:再精密的治理结构也敌不过它所嵌入的更高层环境的剧变——对 agent 系统同理,VSM 治不了”整个产品方向被砍掉”这种 S5 之上的冲击。(来源:Wikipedia: Project Cybersyn;Eden Medina《Cybernetic Revolutionaries》2011, MIT Press——注:Medina 持同情性批判立场。)

§9 与已有节点的关系

对照 A06 Orchestrator 编排器(0411 专题):深化 + 纠偏。 A06 把 orchestrator 讲成一种正面架构模式;本节点把它重新定位为 VSM 的退化特例,指出它结构性地缺三层。不复述 A06 的 orchestrator 实现细节,只升高抽象层:从”怎么编排”到”编排这件事在可行系统里只占哪一格”。
对照 A07 Multi-Agent Teams(0411 专题):提供理论底座。 A07 R5 的反共识结论”对等式是陷阱”是经验判断;本节点用 VSM 的 S2 必要性给它一个结构性解释——对等式缺协调子系统,不是治理松散而是缺件。
对照 m207 - Agent 产品化：场景推演与失败模式:语义互译。 m207 的六类失败模式是现象学清单;本节点把”雪崩/无限循环”翻译成 VSM 语言(缺 algedonic 通道、缺 S3* 审计),提供归因而非复述症状。
对照 A03 Ashby 必要多样性定律(本专题):承接其结论。 A03 讲 Ashby 定律本身;本节点用它做 VSM 每一层的硬约束,是定律的应用现场。
与失败考古学专题(失败显式升级对照)的关系:本节点提供的是”为什么会失败”的最深层控制论语法,与 0416 已有的失败模式工程对照互补而不复述。

§10 关联节点

核心(必读):

A03 Ashby 必要多样性定律 —— VSM 每层的硬约束来源
A06 Orchestrator 编排器 —— 被本节点诊断为退化特例的对象
A07 Multi-Agent Teams —— “对等式是陷阱”的结构性解释
m207 - Agent 产品化：场景推演与失败模式 —— 失败模式的 VSM 归因
c11 - System 2 思维与 Test-Time Compute —— 多想 vs 补 variety 的边界

延伸(可选):

A07 Multi-Agent Teams 已在核心,此处不重列
m206 - Agent 产品化：记忆机制与技术进展 —— variety/context 上界的记忆侧
m208 - AI 基础设施与中间件选型 —— context 管理作为 variety 第一约束
幻觉 —— S3* 审计要核对的对象
Test-Time Compute —— 补不了 variety 缺口
强化学习 —— S4/S5 自适应回路的训练侧可能路径
LLM repetition loop —— 正反馈失稳在 token 层的同构现象
0114认识论 —— VSM 一阶 vs 二阶控制论的认识论张力
0117社会学 —— 批判系统思维对功能主义的批评
AI PM 知识图谱·总索引

修订日志

R1(2026-06-07):首稿。建立判断主轴(orchestrator-worker = VSM 退化特例,缺 S3*/S4/S5);五子系统诊断表;递归自治;algedonic 信号;判断主轴四错点(各带症状→为什么→正确做法→反例);Ashby 必要多样性作为跨域中枢约束;三类对手框架回应(VSM 研究界/批判系统思维/Popper);failure scenario + Cybersyn 反例的 bias 自查;与 A04/A06/A07/m207 的升级对照。所有人物/定律/年份依据接地简报核实;Project Cybersyn、Conant-Ashby、Beer 著作年表均已确证。
2026-06-11 P3.4 校链:0416 已入库,删除 §9 对 0416 的「〔待 0416 迁移后补双链〕」staging 注解,把纯文本「0416 失败模式专题」恢复为真链 失败考古学专题。