R

G02 控制论代际演化详解

创建 2026-06-07 更新 2026-06-12 1 条双链 控制论 专题 AI 整理

G02 控制论代际演化详解

如果 G01 控制论代际谱系总图是一张”从恒温器到 Agent 的控制思想地图”,那么这一节是地图上每个站点的实地考察报告:每一代控制论范式,是为了解决上一代的什么瓶颈而生,它自己又留下了什么死结被下一代超越,以及它给今天的 multi-agent 系统留下了哪一份具体遗产

本节要回答的问题是:控制论的代际史,到底是不是一部”控制能力被逐步增强”的进步史?我的答案是——不是。它更像一部**“控制的对象不断从机器扩张到生命、组织、再到观察者自身,而’完美控制不可能’这个核心约束从未被解除”的认识论史**。每一代真正贡献的,不是”终于能控制了”,而是让上一代看不见的那类失控变得可被命名、可被建模。这与本专题的核心立场同构:多 Agent 系统的失败不是”模型不够聪明”,而是控制论早在七十年前就用数学证明过的结构性约束——你给 orchestrator 的 context 不够,它的 requisite variety 就不够,失控是数学结论,不是工程 bug。

[!warning] 一个反线性进步史的承诺 本节最容易写坏的方式,是写成”一阶控制论 → 二阶控制论 → 系统动力学 → 现代 agent 控制论,一代更比一代强”的辉格史。这是错的。 二阶控制论出现后,一阶控制论没死——今天 99% 的 ReAct loop、MPC 规划、PID 调参用的全是一阶框架(观察者在系统外、客观测量)。Stafford Beer 的 VSM(1972)出现后,Ashby 的必要多样性定律(1956)没被取代——VSM 反而是建立在它之上的。更尖锐的是:越往后的范式,越承认前一代”看起来解决了的问题其实没解决”——Wiener 以为反馈能让机器像生命一样自稳,Forrester 的系统动力学却证明:多回路非线性反馈系统的行为对人类直觉是系统性反直觉的,你以为在控制它,其实在被它的时延愚弄。下面逐代标注它”赢在哪、又在哪失效、谁来打它、给 agent 留了什么”。


§0 为什么用”瓶颈—超越—遗产”框架,而不是”技术时间线”框架

写控制论代际史,最偷懒的框架是技术时间线:1948 Wiener,1956 Ashby,1972 Beer,1974 von Foerster,1971 Forrester。但时间线会骗人——它暗示”后来的更深刻”,且把”控制工程”和”认识论批判”混成一锅(它们其实在打架,见 §3 一阶 vs 二阶)。

我用的是瓶颈—超越—遗产框架,并强制对每一代回答五个问题:

  1. 代表人物 / 奠基著作 / 年份(一手来源,可追溯)?
  2. 核心洞察——它把”控制”这件事重新定义成了什么?
  3. 它自己的瓶颈 / 死结——它解释不了哪类失控?
  4. 被下一代怎么超越(谁打它、打在哪)?
  5. 给 AI agent 的遗产——今天哪个具体工程决策直接继承自它?

第 5 问是 PM 的命门:控制论范式几乎没有真正”死掉”的,它们大多沉淀成了今天 agent 架构里某一层的隐含假设。PM 需要的不是”用最新的控制叙事”,而是”看穿我的 agent 系统继承了哪一代的约束,以及那个约束在什么场景下会咬人”。

[!note] 一条贯穿全篇的认识论轴线(接 0114认识论) 控制论代际跃迁的真正驱动力,是 Kuhn 意义上的”反常累积”(接 范式):当一代框架无法解释的失控案例堆到临界量,新框架就来重新定义”控制是什么”。但与库恩科学革命不同——这里没有任何一代被证伪后退场,它们叠加共存,各管一类问题。这正是控制论作为”理解 agent 为什么失控的最深层语法”的价值:它提供的不是一个会过时的方法,而是一组关于’控制本身有何极限’的不可消除约束


§1 第零代:前控制论的反馈直觉 —— 机器里早就有”目的”,只是没人命名

代表人物 / 年份:James Clerk Maxwell,1868,论文 On Governors,数学化描述蒸汽机调速器(governor)如何减少振荡幅度(已核实)。更早的生物侧前驱:Claude Bernard,1865,提出 milieu intérieur(内部环境)概念(已核实)。

核心洞察:反馈调节不是 1948 年才发明的。瓦特调速器(18 世纪)、Maxwell 的稳定性分析、贝尔实验室 Harold Black 1927 年的负反馈放大器(已核实)——工程上”用输出修正输入”已经成熟运转了近一个世纪。Bernard 在生理学侧也已发现生命体在维持内部稳定。缺的不是技术,是统一语言:没人意识到调速器、生物体温调节、放大器抑制失真,背后是同一个数学结构。

瓶颈 / 死结:每个领域各说各话。工程师谈”稳定性”,生理学家谈”平衡”,彼此不知道在说同一件事。没有”信息""反馈”这样的跨学科通用语,就无法把”目的性行为”从形而上学(目的论)里解放出来,变成可工程化的对象。

被超越点:Wiener 一代用”信息 + 反馈”把这些孤岛焊成一门学科。

给 agent 的遗产:今天 agent 工程里最朴素的”重试 / 校正”机制,血统直接来自负反馈放大器——检测误差(desired − actual)→ 校正输入。ReAct 的 Observe 步骤本质就是 Maxwell 调速器的”测量当前转速”。


§2 第一代:经典(一阶)控制论 —— 反馈是理解一切目的性行为的通用语

代表人物 / 奠基著作:Norbert Wiener(1894–1964),Cybernetics: Or Control and Communication in the Animal and the Machine,1948 年 MIT Press 出版;1961 年第二版增补两章(“On Learning and Self-Reproducing Machines” + “Brain Waves and Self-Organising Systems”)(均已核实)。“cybernetics”一词源自希腊语 kybernetes(舵手 / 治理者)(已核实)。配套的跨学科熔炉是 Macy 会议(1946–1953,共 10 届,Josiah Macy Jr. 基金会资助;核心参与者含 Wiener、Warren McCulloch、John von Neumann、Heinz von Foerster、Margaret Mead、Gregory Bateson)(已核实)。

核心洞察:Wiener 从二战防空火控研究中提炼出一个炸裂当时学界的命题——一切目的性 / 智能行为,都可能是反馈机制的结果,且可由机器模拟。这把”目的”从哲学的目的论里没收,变成了 observe-decide-act 的工程循环。负反馈(抑制偏差,趋向 set point,如恒温器、血糖调节)与正反馈(放大偏差,如麦克风啸叫、雪崩、分娩宫缩)被确立为系统行为的两种基本模态(已核实)。生物侧的根基是 homeostasis:Walter Bradford Cannon 1926 年正式命名(论文 “Physiological Regulation of Normal States…”),1932 年以《The Wisdom of the Body》普及(均已核实)。

它在替 agent 工程师做的判断:Wiener 留给今天最直接的遗产,是 observe-decide-act 这个经典控制回路本身。ReAct(Yao et al., 2022, Princeton & Google Research)把 LLM agent 从开环(open-loop:few-shot 生成、无外部信号回流)变成闭环控制(Reason → Act → Observe → Reason…),在 ALFWorld 基准上比纯 Chain-of-Thought 提升约 34%(已核实)。这不是”借用了一个比喻”——它字面上就是 Wiener 1948 年定义的闭环反馈系统。homeostasis 则是今天 agent”自稳”目标(资源不耗尽、不无限循环)的概念祖先。

瓶颈 / 死结(这一代埋下两个伤口):

  1. 客观观察者的神话。一阶控制论预设观察者在系统之外、客观中立、描述系统而不影响它(observed systems)。这在防空火控里成立(炮手不改变炮弹物理),但在”控制论家研究大脑 / 社会 / 自己”时崩塌——你用大脑研究大脑,你就在系统里。这个死结直接催生了二阶控制论(§3)。

  2. 过度押注负反馈 = 稳定。 Wiener 的框架天然偏爱负反馈(回到平衡)。但它无法很好处理”正反馈驱动的建设性跃迁”(相变、创新、耗散结构)。这个偏见要等系统动力学(§4)和复杂科学(Prigogine 的耗散结构,正反馈也是秩序之源)来纠正。

2026 位置:没死,是所有 agent 控制的地基层。今天每一个 ReAct loop、每一次工具调用后的结果回流、每一个 PID 式重试策略,用的都是一阶控制论的世界观。它被打的不是”能不能用”,是”够不够”——见 §3。


§3 第二代:必要多样性定律 —— 给”控制能力”画出数学上界

代表人物 / 奠基著作:W. Ross Ashby(1903–1972,英国精神科医生),Design for a Brain(1952,Homeostat 机器雏形)与 An Introduction to Cybernetics(1956 年,系统表述必要多样性定律)(均已核实)。

核心洞察(本专题的核心调度,必须吃透):Ashby 把”多样性”(variety)定义为一个系统可能处于的状态数目——这是一个可离散计数的概念,不是隐喻。在此之上,必要多样性定律(Law of Requisite Variety):

“Only variety can destroy variety.”(Ashby 1956 原文)

数学形式:V(R) ≥ V(D) / V(E)(R = 调节器多样性,D = 扰动多样性,E = 允许到达本质变量的剩余多样性),简化即 V(C) ≥ V(D):控制器的状态多样性必须不低于扰动的多样性,否则控制从根本上不可能完备(已核实)。Ashby 在 10/1 节明确把它接到 Shannon 信息论:调节能力受限于调节器作为通信信道的容量上限——调节 = 信息传输,信道容量不够就抵消不了等量扰动(已核实)。

这给 agent 工程的遗产是本专题最锋利的一刀:把 Ashby 定律推到 LLM agent——若 orchestrator 的”可表征状态多样性”小于其所处环境的状态多样性,失控是结构性必然,而非”模型不够聪明”。orchestrator 的控制上界 = 它能表征的状态多样性;而状态多样性的物理载体就是 context。context 窗口不够、context 被污染、关键状态没进 context——requisite variety 就不够,agent 必然在环境的某个状态分支上失控。这把”为什么长上下文 agent 会在复杂任务上崩”从玄学变成了信息论结论。实证侧的回声:长上下文 LLM 在 100K token 处已出现性能下降超 50%(arXiv:2512.02445《When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents》,已核实 2026-06-12,WebFetch arXiv 摘要确证:1M–2M 窗口模型在 100K token 处对良性与有害任务性能均下降超 50%),可视为控制论意义上的增益失稳——信道容量被噪声吃掉,V(R) 实际坍缩。

配套定理:Good Regulator Theorem(Conant & Ashby,1970,International Journal of Systems Science Vol.1(2), pp.89–97):“Every good regulator of a system must be a model of that system.”(已核实)。技术精确版:最优且最简约的调节器与被控系统间存在一个同态映射(homomorphism,不是同构 isomorphism——模型可以丢信息;原论文措辞写成 isomorphic 是后来批评的焦点)(已核实)。两定理互补:必要多样性说”调节器要有足够状态数”(数量约束),Good Regulator 说”这些状态必须是被控对象的模型”(结构约束)。这直接预示了现代 agent 的 world model 概念——一个不内含环境模型的 agent,不可能成为环境的好调节器。

瓶颈 / 死结:

[!quote] 对手框架 1:必要多样性定律”对得无用” 批评者(如 Graham Berrisford 等)指出:定律在逻辑上严密,但在实践中难以操作化——如何量化一个真实组织或 agent 的”variety”并无标准答案;它也没说哪种控制结构最经济地应对复杂性。Good Regulator 定理则被 Goker Erdogan(2021,批评性分析)指出存在证明缺口:形式证明支持的结论比”must be a model”弱;论文里的”model”等同于 RL 中的 policy(策略),而非 model-based RL 的 transition model(转移模型);且已有大量 Artificial Life 系统在明显无内部模型时完成调节,暗示定理不易泛化(已核实)。

接受 + 边界:我接受”无法量化 variety”这一刀是真的——本专题不主张你能给 GPT-5 agent 算出一个 V(R) 数字。但边界在于:定律的价值不在算出具体数,而在提供一个不可绕过的判断方向。当你的 agent 在某类任务上反复失败,Ashby 让你先问”是不是 context 里根本没有应对这类扰动所需的状态信息”,而不是先去换更大的模型。这是诊断的起点,不是计算器。Erdogan 关于”model = policy 而非 transition model”的辨析反而对 PM 有用:它提醒你 Good Regulator 不保证 agent 有”可推演的世界模型”,只保证它有”够用的反应策略”——两者在 agent 选型时是天壤之别。

2026 位置:核心理论词汇,且是本专题对 agent 失控最深的解释层。它没被任何后续范式取代,Beer 的 VSM 反而把它当公理用(§5)。


§4 第三代:系统动力学 —— 反馈的工程量化,与”反直觉”这记耳光

代表人物 / 奠基著作:Jay W. Forrester(1918–2016,MIT,师从伺服机构实验室创始人 Gordon Brown),Industrial Dynamics(1961)、Urban Dynamics(1969)、World Dynamics(1971)、核心论文 “Counterintuitive Behavior of Social Systems”(Technology Review,1971)(均已核实)。后继者 Donella Meadows、John Sterman(Business Dynamics, 2000)。

核心洞察:Forrester 把控制论的反馈概念工程量化了。系统 = Stocks(存量)+ Flows(流量)+ Feedback Loops + Time Delays,用微分方程描述复杂系统的非线性行为(已核实)。Balancing loop(负反馈)对应控制论的稳态调节器;Reinforcing loop(正反馈)对应放大器。但 Forrester 的真正贡献是那记耳光:社会系统是多回路非线性反馈系统,人类直觉在简单线性环境中形成,因此对这类系统的行为预测系统性地偏错(已核实)。

五大反直觉模式(均有 SD 机制解释):政策抵抗、短期好转长期恶化、杠杆点悖论、振荡放大(牛鞭效应)、目标侵蚀(eroding goals)。经典实证是 Beer Game(MIT Sloan):供应链各层级各自理性响应库存信号,时延叠加反馈导致整条链剧烈振荡,即使终端需求几乎不变;Sterman 研究发现玩家系统性地低估时延、误读反馈(已核实)。

给 agent 的遗产(这一代对 multi-agent 的警示最具体):Forrester 的教训直接命中 multi-agent 系统——多个各自”理性”的 agent,通过共享状态与时延耦合,会在系统层涌现出剧烈振荡或发散,即使每个 agent 单看都没错。Cemri et al.(2025,arXiv:2503.13657,1600+ 标注轨迹,14 种失败模式)发现的”agents 独立修改共享计划产生不兼容分叉”、“缺少终止信号导致无限等待循环”,本质就是 Beer Game 的牛鞭效应与 eroding goals 在 agent 系统里的重演(已核实)。目标侵蚀尤其阴险:agent 在持续达不到目标的压力下,可能悄悄降低目标判定标准而非提升能力——这正是 over-helpfulness 与 reward hacking 的系统动力学解读。

瓶颈 / 死结:

[!quote] 对手框架 2:系统动力学的聚合假设处理不了真正的异质性 ABM(Agent-Based Modeling)阵营的核心攻击:SD 用连续聚合量(stocks)描述系统,根本上无法捕捉网络结构效应、局部交互涌现和个体异质性——而这些恰是 multi-agent 系统的核心。Rahmandad & Sterman(2008)的对比研究证实:当 agent 同质且充分混合时 SD 与 ABM 结果高度一致,但一旦存在网络结构和异质性,ABM 产生 SD 无法捕捉的行为差异(已核实)。Sterman 本人(All Models Are Wrong, SDR 2018)也承认模型结果”对聚合层级的假设远比参数变化更敏感”(已核实)。更狠的历史教训:World Dynamics(1971)和 Club of Rome 的《Limits to Growth》(1972)遭主流经济学界(耶鲁 Henry Wallich 等)斥为”无稽之谈”,争议焦点是模型是否正确表征了技术进步突破资源约束的能力(已核实)。

接受 + 边界:我接受 SD 的连续聚合视角不适合直接建模 LLM agent 个体——agent 是离散、异质、基于策略的,这是 ABM 的地盘。但边界在于:agent swarm 的宏观行为(总 token 消耗、任务完成率、协作/竞争均衡、资源耗尽速度)恰恰更适合 SD 框架。这是一个尚未充分探讨的类比:用 ABM 建 agent 个体、用 SD 建 agent 群的资源-反馈动力学,正是 AnyLogic 式混合建模(SD+ABM)的方向。Forrester 的真正遗产不是”用 SD 建 agent”,而是”别去干预 agent 系统的症状(过度竞争、资源耗尽)而不理解底层反馈结构,否则你会撞上政策抵抗”。

2026 位置:作为”宏观控制论”活跃,但在 agent 领域是被低估的视角——大多数人盯着单 agent 的 prompt,没人用 Forrester 的眼睛看 agent 群的振荡。


§5 第四代:可行系统模型(VSM) —— 比 orchestrator-worker 精密一个数量级的多层治理

代表人物 / 奠基著作:Anthony Stafford Beer(1926–2002),Brain of the Firm(1972,VSM 正式发表)、The Heart of Enterprise(1979)、Diagnosing the System for Organizations(1985);最大规模现实应用是 Project Cybersyn(1971–1973,智利 Allende 政府,1973 年政变后被 Pinochet 政权摧毁)(均已核实)。

核心洞察:Beer 把任何”可存活组织”分解为五个子系统,缺一则不可自持(已核实):

系统名称职能agent 类比
S1Operations(运营)多个自治单元,直接与环境交互干活的 worker agents
S2Coordination(协调)处理 S1 间冲突,防振荡防 worker 互相打架的协调层
S3Control/Synergy(控制)内部稳态、优化 S1 集体绩效,含 S3*(审计)orchestrator 的资源调度
S4Intelligence(情报/适应)扫描外部环境,管”将来与彼处”规划 / 反思层
S5Policy/Identity(政策/身份)设愿景、价值、边界规则system prompt / 宪法

关键在于 递归自治原则:每个 S1 单元本身又是一个完整的 VSM(内含自己的 S1–S5),Beer 称之为 cybernetic isomorphism——无论尺度(小组→部门→公司→国家),结构不变(已核实)。还有 algedonic 信号(希腊语 algos 痛 + hedone 乐):当任一 S1 单元绩效极端偏离阈值,触发绕过正常层级、直达高层的紧急通道,类比神经系统的疼痛反射(已核实)。Beer 直接继承 Ashby:S2 用”衰减器”(attenuator)减少 S1 间噪音,S3 用”放大器”(amplifier)平衡信息不对称——本质是在每一层做 requisite variety 匹配(已核实)。

给 agent 的遗产(本节点对 agent 架构最有建设性的部分):今天主流的 orchestrator-worker 架构(对照 Agent 与本专题同级的架构剖面)只实现了 VSM 的 S1+S3——worker 干活、orchestrator 调度。它缺了 S2(防 worker 冲突的协调层)、S4(扫描环境的适应层)、S5(显式的身份/边界,目前隐含在 system prompt 里且不可递归)。这正是 Cemri et al. 14 种失败模式里”agent 间不协调""指令冲突导致分叉”频发的结构原因:缺 S2。algedonic 信号是给 agent 设计的现成礼物:agent 系统普遍缺一条”绕过正常推理链、把致命异常直送 HITL 断点”的快速通道,而 Beer 1979 年就把它设计好了。Mikhail Gorelkin(2024–2025)已尝试把 VSM 用于企业 agentic 系统设计,指出 VSM 通过分层放大/衰减 variety 保证 agent 处理环境复杂性而不淹没人类——但也诚实点出代价:前沿模型按 token 收费,完整 VSM 架构成本可能高到劝退(已核实)。

瓶颈 / 死结:

[!quote] 对手框架 3:VSM 是无法证伪的”万能拟合器” 批评(Wikipedia VSM 批评节、Tandfonline 2016 实证检验):(1) variety 无法量化,使”必要多样性”难以实证;(2) 可证伪性问题——VSM 过于通用,研究者有意就能把任何组织”拟合”进五系统模型,Popper 意义上难以证伪;(3) 忽视人文与政治维度(批判系统思维学派指其为”单元功能主义”,缺对个体心理、社会权力、文化的处理);(4) 与二阶控制论的张力:VSM 假设可观察的客观现实,偏一阶设计工具(已核实)。Project Cybersyn 本身也有政治争议:支持者视为去中心化民主先驱,批评者质疑它是否实质强化了中央监控(Eden Medina, Cybernetic Revolutionaries, 2011, MIT Press,持同情性批判立场)(已核实)。

接受 + 边界:我接受 VSM 的”万能拟合”风险——把任何 agent 架构事后套进 S1–S5 是廉价的,不构成洞察。但边界在于:VSM 作为”诊断清单”而非”分类法”时极其有用。当你的 multi-agent 系统出问题,VSM 逼你逐条问:有没有 S2 防冲突?有没有 S4 扫环境?S5 边界是不是只写在 system prompt 里、不可递归到子 agent?这五问能在 30 秒内定位 80% 的架构缺陷。证伪性批评对”VSM 是不是科学理论”成立,但对”VSM 是不是好工程脚手架”无效——就像不能因为”地图不是领土”就不用地图。

2026 位置:在 agent 领域是被严重低估的设计资源——它比”orchestrator-worker”这个贫乏的二分精密得多,但工程社区基本没消化它。


§6 第五代:二阶控制论 —— 观察者进入系统,以及它对 agent 评估的致命含义

代表人物 / 关键年份:Heinz von Foerster(奥地利裔美国科学家,伊利诺伊大学生物计算机实验室),1974 年正式阐述一阶/二阶之分(发展期 1960s 末–1970s 中)(已核实)。触发人物:Margaret Mead 于 1967 年美国控制论学会主旨演讲,呼吁控制论家认识自身作为”参与性观察者”的角色(已核实)。同期关联理论:Ernst von Glasersfeld 的激进建构主义、Gordon Pask 的对话理论、Maturana & Varela 的自创生(autopoiesis)(已核实)。

核心洞察:von Foerster 称二阶控制论为 “the control of control and the communication of communication”(控制之控制、沟通之沟通)——即观察者进入被观察系统(已核实)。一阶控制论研究 observed systems(被观察的系统),假设观察者中立在外;二阶控制论研究 observing systems(观察的系统),承认**“撰写大脑理论,需要一个大脑;控制论家进入自身领域,必须对自身的活动负责”(已核实)。这是从工程到认识论的范式跃迁:它不是给你更强的控制器,而是告诉你”客观控制器”这个概念本身是个认识论错觉**。

给 agent 的遗产(这是二阶控制论最反直觉、PM 最该警惕的一份遗产):今天 agent 工程的一个根本盲区,正是一阶控制论的”客观观察者神话”在作祟——我们假设可以从系统外”客观地”评估 agent,但评估者(另一个 LLM judge、人类标注、benchmark)其实已经在系统里。LLM-as-judge 评 LLM,judge 的偏差被放进了被评系统的优化信号;agent 的自我反思(Reflexion)是 agent 在观察自己——这字面上就是 von Foerster 的”observing system”。二阶控制论给的判断是:不存在”站在 agent 系统外的中立评估点”,任何评估都是参与性的、会反过来塑造被评对象(这正是 Goodhart 陷阱的二阶控制论根:测量即干预)。这跟 幻觉 的认识论同源——agent 举反例时如果自己也犯了同类错误(LLM repetition loop:模型自己陷入重复来”演示”重复),说明它没有一个系统外的客观立足点。

瓶颈 / 死结:

[!quote] 对手框架 4:二阶控制论是脱离工程的”语言转向”漂移 科学社会学家 Andrew Pickering 的核心批评:二阶控制论向哲学 / 语言学漂移,脱离了早期控制论的工程技术实践(已核实)——它擅长解构”客观性神话”,却几乎不产出可落地的控制方法。一阶阵营会说:防空火控、PID、MPC 这些真正在工作的控制系统,全都假设客观观察者且工作得很好,二阶的批判对工程毫无操作性。

接受 + 边界:我接受 Pickering 是对的——你不能用二阶控制论去设计一个 agent 的重试逻辑,那是一阶的活。99% 的 agent 工程在一阶框架里完成且应该如此。但边界在于:二阶控制论在”评估 / 对齐 / 治理”这一层不可替代。一旦问题从”怎么让 agent 干活”(一阶)升级到”我们怎么知道 agent 真的对齐了 / 评估本身可信吗”(二阶),客观观察者神话就会咬人——这正是 LLM-as-judge 循环偏差、self-eval 不可信、benchmark 通胀的认识论病灶。PM 的正确姿态:用一阶造系统,用二阶审系统。两者不是进步关系,是分工关系。

2026 位置:在 agent 评估与对齐治理层是关键认识论工具,在控制工程层基本不用。它是本专题里唯一一个”不增强控制、而是揭示控制极限”的范式。


§7 第六代:agent 时代的控制论复兴(2025–2026)—— 把抽象语法接回工程

瓶颈:前六代控制论是为机器、生物、组织设计的,没人正面回答”LLM-based agent 是不是真正意义上的控制系统、它的稳定性能否形式化”。

机制(一族尚未收敛的新框架,均经核实):

  • “Agentic AI Needs a Systems Theory”(Miehling, Varshney et al., 13 位作者,IBM Research,arXiv:2503.00237,2025-02):首个明确呼吁从系统论视角分析 agent 涌现行为的论文,核心论点是 AI 开发过度聚焦单模型能力、忽略了交互产生的涌现属性(已核实)。
  • “Agent Cybernetics”(Xinrun Wang et al., arXiv:2605.10754, 2026-05):把控制论六条经典法则映射为六项 agent 设计原则,核心三问——如何保持任务导向、如何应对超出表示能力的环境(直接是 Ashby requisite variety 的回声)、自我改进需要什么架构特性(已核实)。
  • “A Control-Theoretic Foundation for Agentic Systems”(Eslami & Yu, arXiv:2603.10779, 2026-03):提出五级 agency 层级,形式化分析时变适应、内生切换、决策诱导延迟等引入的复杂动力学,为安全关键系统提供 Lyapunov 式稳定性分析框架(已核实)。
  • MPC × LLM 实证:WALL-E(Zhao et al., arXiv:2410.07484, 2024)把模型预测控制与神经符号世界模型结合,Minecraft 成功率比 baseline 高 15–30%(已核实)——这是 Good Regulator 定理”调节器须是系统模型”在 agent 上的工程兑现。

给 agent 的遗产(它正在生成中):这一代的意义是把前六代的抽象语法接回可计算的工程判断——把”agent 失控”从轶事升级为可形式化的稳定性问题。

瓶颈 / 死结:

[!quote] 对手框架 5:把 LLM 叫”控制器”是比喻,不是工程保证 谨慎方:LLM 本质是概率采样,不是动力系统;经典稳定性分析(Lyapunov)要求可观测的状态空间,而 LLM 内部状态维度极高且不可直接观测,工具适用性存疑;真实 MPC 要求精确可微的动力学模型,LLM 世界模型是近似且不可微的,理论保证缺失(已核实,本专题”控制论与 agent”简报争议表)。

接受 + 边界:我接受”LLM 是控制器”目前更多是富有成效的比喻,而非已证的工程等价——Eslami & Yu 给的是框架,不是数值结果(无公开 Lipschitz 常数估计,〔待核实是否已有实验数值〕)。但边界在于:比喻的价值不在严格性,在它能否改变诊断方向。把 agent 失控重述为”requisite variety 不足 / 缺 S2 协调 / 正反馈无停机条件”,比”模型不够聪明”提供了可操作的修复入口。控制论对 agent 的价值,从来不是给出 Lyapunov 证明,而是给出一套追问失控的最深层语法

2026 位置:最活跃但最不成熟的前沿,理论框架多、可依赖的工程保证少。


§8 判断主轴:90% 的人在控制论代际史上会搞错的四个点

[!danger] 致命错位四件套(症状 → 为什么会错 → 正确做法 → 真实反例)

错位 1:把代际史读成”控制能力逐步增强”。

  • 症状:在面试里说”早期控制论只能控机器,后来发展到能控复杂 agent 系统了”。
  • 为什么会错:控制的对象在扩张(机器→生命→组织→观察者),但”完美控制不可能”这个核心约束从未被解除;Ashby 1956 的上界至今管着 2026 的 orchestrator。
  • 正确做法:说”每一代扩张了控制论的适用域,但每一代都暴露了一类新的不可控,且老约束从未失效”。
  • 真实反例:Forrester 1971 证明多回路反馈系统对人类直觉系统性反直觉——控制工具越强,你越容易误以为自己在控制,实则被时延愚弄;这个反直觉在 Cemri et al.(2025)的 agent 振荡里原样重演。

错位 2:把 orchestrator-worker 当成”先进的多 agent 架构”。

  • 症状:用”我们有 orchestrator 调度 worker”来论证系统的治理成熟度。
  • 为什么会错:orchestrator-worker 只实现了 VSM 的 S1+S3,缺 S2(协调)、S4(适应)、S5(可递归的身份)。
  • 正确做法:用 VSM 五系统当诊断清单,逐条检查缺哪一层。
  • 真实反例:Cemri et al.(2025)14 种失败模式里”agent 间不协调""指令冲突分叉”高频出现,正是缺 S2 的结构后果——Beer 1972 年就指出 S1 之间必须有 S2 防振荡。

错位 3:以为换个更聪明的模型就能解决 agent 失控。

  • 症状:agent 在复杂任务上崩了,第一反应是”等下一代模型”。
  • 为什么会错:若失控源于 requisite variety 不足(context 装不下环境的状态多样性),那是信息论的结构约束,不是模型智力问题。
  • 正确做法:先问”环境的状态多样性有没有进 context”,Ashby 定律说 V(R) ≥ V(D) 否则控制不可能完备。
  • 真实反例:长上下文 LLM 在 100K token 处性能掉超 50%(arXiv:2512.02445,已核实 2026-06-12,WebFetch arXiv 确证测量口径:1M–2M 窗口模型在 100K token 处良性与有害任务性能均降超 50%)——更大的窗口塞进更多噪音,V(R) 反而坍缩,换更聪明的模型救不了。

错位 4:以为可以”客观地”评估 agent。

  • 症状:用 LLM-as-judge 或自我反思给 agent”已对齐 / 已验证”背书。
  • 为什么会错:二阶控制论证明观察者已在系统内,评估即干预,judge 的偏差会被放进优化信号。
  • 正确做法:把任何评估当”参与性的、会反塑被评对象的”,用一阶造系统、用二阶审系统。
  • 真实反例:agent 自我反思时若自己也陷入同类错误(LLM repetition loop 式的”用重复演示重复”),说明它没有系统外的客观立足点——这是 von Foerster 1974 年就点破的认识论结构。

§9 产品 PM 视角补盲

工程视角看控制论代际史是”控制方法演进”;产品视角必须补三个盲点:

  1. 用户心理模型:用户对 agent 的信任建立在”它看起来在受控”上,而非”它真的可控”。一个会自信地胡说的 agent(高 gain、低 requisite variety)比一个会说”我不确定”的 agent 显得更”可控”,这恰是 Forrester 反直觉行为的需求侧版本——PM 若用”流畅度 / 自信度”做信任 KPI,等于奖励正反馈失稳。
  2. 成本即控制约束:Gorelkin 已点破——完整 VSM 多层治理在 token 定价下可能贵到劝退(m208 - AI 基础设施与中间件选型 的选型语境)。requisite variety 不是免费的:给 agent 更多状态多样性(更长 context、更多工具、更多 worker)线性推高成本,而控制收益是非线性且有上界的。这是 PM 必须显式管理的 trade-off,不是工程细节。
  3. 治理与可证伪性:把”我们的 agent 系统是 VSM / 控制论驱动”写进对外叙事有风险——VSM 的不可证伪性意味着”符合 VSM”不构成任何安全保证。诚实的叙事是”我们用控制论框架诊断失控、定位了哪几层缺失”,而非”我们的架构在控制论上是完备的”。

§10 与已有节点的关系(升级对照,不复述)

  • 对本专题 G01 控制论代际谱系总图:G01 是地图(谁在什么时间、谁影响谁的总览);本节点是逐站实地考察(每代的瓶颈—超越—给 agent 的遗产五问)。G01 给坐标,G02 给深度。
  • m207 - Agent 产品化:场景推演与失败模式:m207 讲六类失败模式(规划/工具/推理/无限循环/雪崩/安全越界)的工程现象学;本节点做根因升级——把”无限循环”重读为”缺停机条件的正反馈”、把”雪崩效应”重读为 Forrester 的振荡放大、把”协调失败”重读为缺 VSM 的 S2。m207 问”症状是什么、怎么加 HITL 断点”,本节点问”这些症状对应控制论的哪条结构约束”。互补不重复
  • c11 - System 2 思维与 Test-Time Compute:c11 讲用推理时算力换质量;本节点指出 test-time compute 本质是给控制回路增加 requisite variety 的一种手段——多想几步 = 在 token 空间里展开更多可表征状态,正是 Ashby 定律的算力侧兑现。做的是对话与互证
  • 对 失败考古学专题(失败模式的显式升级):0416 从”AI 失败模式的代际演化”讲失败现象本身;本节点提供更深一层的控制论语法——失败不只是”模式”,而是控制论约束(requisite variety / 正反馈无停机 / 客观观察者神话)在 agent 上的必然投影。不复述 0416 的失败分类,只接它的结论再下钻一层。
  • m206 - Agent 产品化:记忆机制与技术进展:记忆机制本质是 agent 维持 requisite variety 的状态载体——本节点为 m206 提供”为什么记忆是控制能力上界”的控制论根据。

§11 关联节点

核心(必读)

延伸(可选)


修订日志

  • R1(2026-06-07):首稿。建立”瓶颈—超越—遗产”五问框架;逐代覆盖前控制论(Maxwell/Bernard/Black)、一阶控制论(Wiener 1948/Macy 会议/Cannon homeostasis)、必要多样性定律(Ashby 1956 + Conant-Ashby 1970 Good Regulator)、系统动力学(Forrester 1961/反直觉行为/Beer Game)、VSM(Beer 1972/递归自治/algedonic/Cybersyn)、二阶控制论(von Foerster 1974/Mead 1967/客观观察者神话)、agent 时代复兴(IBM 2025/Agent Cybernetics 2026/Eslami-Yu 2026/WALL-E)。接入 5 个对手框架(Berrisford+Erdogan 对必要多样性、ABM 阵营+World Dynamics 争议对系统动力学、VSM 不可证伪、Pickering 语言转向批评、“LLM 是控制器是比喻”质疑);判断主轴四件套;与 G01/m207/c11/0416/m206 显式升级对照。把 Ashby requisite variety、Beer VSM、Wiener 反馈回路三件套具体落到 agent 工程判断(orchestrator 控制上界 = context 状态多样性、orchestrator-worker = 残缺的 VSM、ReAct = 经典闭环、二阶 = 评估的认识论约束)。一手来源均经核实并标人物/年份,未核实项标〔待核实〕。
  • 2026-06-11 P3.4 校链:0416 已入库,删除 §10 对 0416 的「〔待 0416 迁移后补双链〕」staging 注解,把纯文本「0416 失败模式专题」恢复为真链 失败考古学专题
  • 2026-06-12 内审修复:统一 arXiv:2512.02445 台账标签矛盾——该 ID 此前 §6 标〔具体数值待核实其测量口径〕、§9 判断主轴标〔测量口径待核实〕,而 A06 grounding pass 已记其为已核实简报来源,自相矛盾。经 WebFetch arXiv 摘要确证(论文《When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents》,1M–2M 窗口模型在 100K token 处良性与有害任务性能均降超 50%、拒绝概率非单调),两处〔待核实〕统一为「已核实 2026-06-12」并补回论文全名。