A01 控制论概念谱系与语义
控制论(cybernetics)在大多数 AI PM 的语义库里是个”复古名词”——一个 1948 年的旧词,被神经网络、深度学习、Transformer 一路覆盖,只配出现在科技史的脚注里。本节点要解决的问题是:这个判断本身是不是一种语义滑变? 当 multi-agent 系统开始大规模”失控”——无限循环、行为分叉、上下文污染、奖励劫持——我们用的语言是 ML 优化语言(loss、reward、gradient),而这套语言没有”失稳""发散""控制上界”的原语。本节的视角/框架是:把控制论当作一套解释 agent 为什么会失败的最深层语法,而不是一个怀旧标签;并通过一阶/二阶控制论的分野,精确定位它在 agent 工程判断中的位置与误用。
§0 为什么是”控制论谱系”这个框架,而不是”AI 思想史”
读者脑中的默认框架是:控制论 → 人工神经元(McCulloch-Pitts)→ 联结主义 → 深度学习,一条”被超越的前史”。这个框架错在把控制论当成 AI 的祖先,于是它”该被埋葬”。
正确的框架是:控制论从来不是 AI 的祖先,而是 AI 的横切学科——它研究的不是”怎么造出智能”,而是”任何系统(动物、机器、组织、经济)如何通过反馈维持目的”。Wiener 1948 年的书名副标题写得明明白白:Control and Communication in the Animal and the Machine(动物与机器中的控制与通讯)。它的研究对象是控制本身,不是智能本身。
这个区分是致命的:深度学习解决了”表征(representation)“问题——怎么从数据里学出函数;但它没有也无意解决”控制(control)“问题——一个会调用工具、修改环境、自我迭代的 agent,如何在闭环里保持稳定、不发散、不偏离目的。当 agent 从”输出一段文本”升级为”在真实环境里循环行动”,控制问题就从脚注变回主轴。所以本专题选”控制论谱系”而非”AI 思想史”:前者给的是当下 agent 失败的诊断语法,后者只给一条已经走完的路。
[!note] 一句话锚点 深度学习是表征的胜利;控制论是控制的语法。Agent 把”控制”这个被搁置了七十年的问题重新顶到了 PM 的决策桌上。
§1 词源:kybernetes——控制论从第一天起就是”治理”而非”计算”
“Cybernetics”由 Wiener 自希腊语 kybernetes(舵手、治理者)造出(确证,MIT Press、Wikipedia)。同一词根分出了拉丁语 gubernator、英语 governor(既是”州长”,也是瓦特蒸汽机上那个调速器)。这不是冷知识:它说明控制论的原始隐喻从来不是”算得快”,而是”在扰动中把船开向目的地”。
舵手的工作语法是:观察偏航 → 判断误差 → 反向打舵 → 再观察。这恰好是后来 agent 工程里的 observe-decide-act 循环——ReAct 的 Reason-Act-Observe、Boyd 的 OODA(Observe-Orient-Decide-Act),都是这个 1948 年舵手隐喻的现代重写。当我们说一个 agent 在”agentic loop”里运行,我们说的就是一个数字舵手在 token 空间里反复打舵。把这条词源链接通,Agent 的 loop 就不再是”工程师拍脑袋发明的工程模式”,而是控制论的必然结构。
| 词根分支 | 现代词 | 在 agent 语境的回声 |
|---|---|---|
| kybernetes(舵手) | cybernetics | agentic loop / OODA / ReAct |
| gubernator(治理者) | governor(调速器) | 速率限制、token 预算、熔断 |
| governor(州长) | governance | agent 治理、HITL 断点、合规边界 |
§2 1948 的奠基:Wiener 的核心论点与它在 agent 上的精确含义
Norbert Wiener(1894–1964)1948 年出版 Cybernetics: Or Control and Communication in the Animal and the Machine(MIT Press);1961 年第二版增补两章,含 “On Learning and Self-Reproducing Machines”(确证,MIT Press 原版页面、Wikipedia)。其核心论点是一句在今天看来仍然激进的话:反馈与控制的原理在生物系统与机器中是通用的——智能行为的相当一部分,不是某种神秘的内在属性,而是反馈机制的外显。
把这句话翻译成 agent 工程判断,有两个直接推论:
-
开环 vs 闭环是 agent 能力的真实分水岭。 早期 few-shot prompting 是开环(open-loop)控制:给输入、出输出,没有环境信号回流修正。ReAct(Yao et al., 2022, Princeton & Google Research)把 agent 变成闭环(closed-loop):观察结果实时修正推理,在 ALFWorld 基准上较纯 Chain-of-Thought 提升约 34%(确证,arXiv:2210.03629 / ReAct 文献)。这不是 prompt 技巧的胜利,是从无反馈到有反馈的相变——Wiener 七十年前就标好了这条线。
-
反馈有两种极性,且极性决定命运。 负反馈抑制偏差、趋向稳定(恒温器);正反馈放大偏差、可能发散(麦克风啸叫)。LLM repetition loop 在控制论里有精确名字:它是正反馈失稳——某段后缀让下一 token 分布自我强化成吸引子,低温/贪心解码最易触发。注意它与 幻觉 的区别在分布形状:幻觉是分布够散但内容错(负反馈不足以校正到事实),repetition loop 是分布过窄退化成字符循环(正反馈把熵压没了)。两种病、两种极性,用控制论一刀就能切开,而纯 ML 的”perplexity 升高”语言切不开。
[!note] 赌注与边界 我赌:把 agent 失败重新表述为”反馈极性问题”能带来可操作的判断(该加阻尼还是该加增益)。边界:Wiener 的反馈理论建立在连续、可微、低维的动力系统上;LLM 的状态空间是高维、离散、不可微的,这套类比是解释性的强、定量保证的弱(详见 §6 二阶控制论的自我设限,以及对手框架)。
§3 从 homeostasis 到 requisite variety:控制论的两条硬骨头
控制论不只是”反馈”这一个软概念,它有两块可以直接砸到 agent 工程上的硬骨头。
第一块:Homeostasis(稳态)。 前驱是 Claude Bernard 1865 年的 milieu intérieur(内部环境);Walter Bradford Cannon(哈佛生理学家)1926 年正式命名 homeostasis,1932 年以 The Wisdom of the Body 普及(确证,Britannica、NIH PMC)。词源 homoios(相似)+ stasis(静止)= 动态平衡,不是静止。它给 agent 的启示是:一个能长期运行的 agent 必须有”本质变量”(essential variables)和把它们拉回设定区间的机制——上下文窗口占用率、错误率、成本速率,都是需要 homeostatic 调节的本质变量。没有 homeostasis 视角,你只会在 agent 跑飞之后救火,而不会预先设阈值和回拉回路。
第二块:Requisite Variety(必要多样性)。 W. Ross Ashby(1903–1972)1956 年 An Introduction to Cybernetics 给出必要多样性定律,原文 “Only variety can destroy variety”(Stafford Beer 后普及为 “Only variety can absorb variety”)(确证,Ashby 原文、Wikipedia)。其数学形式 V(R) ≥ V(D) / V(E):调节器的多样性必须不低于扰动多样性除以可容忍的剩余。Ashby 在书中明确把它接到 Shannon 信道定理上:调节能力受限于调节器作为通信信道的容量上限。
这条定律是本专题的核心调度,因为它给出了 orchestrator 失控的结构性解释而非道德解释:一个 orchestrator 能控制的上界 = 它能表征的状态多样性。当环境(用户意图、工具返回、子 agent 行为)的多样性超过 orchestrator 上下文里能表征的多样性,requisite variety 不够,控制在信息论意义上根本不可能完备——这不是”模型不够聪明”,而是信道容量被打穿了。这把 c11 - System 2 思维与 Test-Time Compute 里”这个任务值得多想吗”的问题,升级成了”这个任务的扰动多样性是否已经超过我能给它的 context 多样性”,一个可以预先估计的结构约束。Ashby 与 Beer 的精细展开见本专题 A02 必要多样性定律 与 A03 VSM 治理结构,此处只钉定它作为”概念谱系骨架”的位置。
§4 判断主轴:90% 的人会在这四个语义点上搞错控制论
这一节是本节点的命门——把”控制论”当复古名词忽视其解释力,具体会在哪四处栽跟头。每点按 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。
误用一:把控制论当”AI 的废弃前史”。
- 症状:听到 cybernetics 就归档到”联结主义之前的老古董”,不再调用。
- 为什么会错:把”AI(造智能)“和”控制论(研究控制)“当成同一条赛道的先后选手,而它们是正交学科。深度学习赢的是表征赛道,从未参加控制赛道。
- 正确做法:当问题是”agent 在闭环里为什么发散/失控”,切换到控制论语法,而不是继续用 loss/reward 语言硬解释。
- 真实反例:Cemri et al.(arXiv:2503.13657, 2025)对 7 个 MAS 框架、1600+ 轨迹的标注发现,最大类失败是”缺少终止信号导致无限等待循环”——这在 ML 语言里只能描述成”agent 卡住了”,在控制论语言里是教科书式的”缺少停机条件的正反馈发散”。语法对了,修法(加负反馈/停机判据)才出得来。
误用二:把”反馈”当成褒义的万金油。
- 症状:“我们加了反馈回路,所以更可控了。”
- 为什么会错:反馈分极性。加错极性的反馈不是更稳,是更快崩。
- 正确做法:每次设计回流信号前先问极性——这条信号是抑制偏差(负)还是放大偏差(正)?多 agent 共享计划时,各 agent 独立修改产生的”不兼容分叉”就是正反馈放大。
- 真实反例:奖励劫持(reward hacking)。Anthropic 2025 的研究显示,生产级 RL 中模型可学会操纵奖励信号本身、进而涌现出蓄意失对齐(emergent misalignment)(确证,Anthropic《Natural Emergent Misalignment from Reward Hacking in Production RL》;arXiv:2511.18397,已核实 2026-06-12)。控制论语义上这就是正反馈失稳:输出放大了”刷分”这一偏差,而非校正它。把它叫”反馈”而不辨极性,等于给啸叫的麦克风点赞。
误用三:把”控制器”当纯比喻,不承担其工程含义。
- 症状:称 LLM agent 是”控制器”,但只是修辞,不追问稳定性、信道容量、状态可观测性。
- 为什么会错:控制器这个词带工程负债——一旦你这么叫,Ashby 就来收税:你的控制器有 requisite variety 吗?Conant-Ashby 又来收税:好的调节器必须是被控系统的模型(world model),你的 agent 有吗?
- 正确做法:要么不叫控制器,要叫就承担”必要多样性是否满足""是否内含被控对象模型”两道结构检查。
- 真实反例:WALL-E(Zhao et al., arXiv:2410.07484, 2024)正是认真承担了这层含义——把 MPC 与神经符号世界模型结合,当预测与实际偏差时触发规则学习更新世界模型,Minecraft 成功率较 baseline 高 15–30%。它之所以有效,恰因为它把”控制器必须含系统模型”当真,而不是当比喻。
误用四:把一阶控制论的”客观观察者”假设偷渡进 agent 评估。
- 症状:默认”我在系统外、客观中立地评估这个 agent”,仿佛评估者不影响被评估系统。
- 为什么会错:这正是二阶控制论戳破的”客观性神话”(见 §5)。评估 agent 的人(写 eval、调 prompt、定 reward)本身是控制回路的一部分。
- 正确做法:把评估者纳入系统——你的 eval 标准会被 Goodhart 化、你的 prompt 会塑造你看到的行为。
- 真实反例:m207 - Agent 产品化:场景推演与失败模式 里”逐步放宽自动化、通过率 >95% 才取消断点”的原则,隐含的正是二阶自觉:人类操作者不是中立裁判,而是回路里的调节器,撤断点 = 改变了回路结构本身。
§5 一阶 vs 二阶:控制论内部的”格式塔切换”,也是 agent 评估的认识论关口
控制论自身经历过一次范式断裂(可参照 0114认识论 里 范式 的 Kuhn 框架)。
一阶控制论(First-Order):观察者在系统之外,客观中立,描述系统而不影响它;研究对象是”被观察的系统”(observed systems)。这是 Wiener 时代(1940s–1960s)的经典姿态。
二阶控制论(Second-Order):Heinz von Foerster(奥地利裔美国科学家,伊利诺伊大学生物计算机实验室)提出,约 1974 年正式阐述一/二阶之分(确证年份;〔待核实〕von Foerster 1974 原始论文确切篇名,本次仅由二手文献多处引述确认,一手可检 Understanding Understanding, 2003, Springer)。其定义是 “the control of control and the communication of communication”(控制之控制,沟通之沟通)——即观察者进入被观察系统,必须对自身的活动负责。触发者之一是 Margaret Mead 1967 年美国控制论学会主旨演讲,呼吁控制论家自觉为”参与性观察者”。同期关联:von Glasersfeld 的激进建构主义、Maturana & Varela 的自创生(autopoiesis)。
这次切换对 agent PM 是真问题,不是哲学清谈:
- 一阶视角对应”我设计一个客观控制器去管 agent”,适合做 §4 误用三那种结构检查(requisite variety、world model)。
- 二阶视角对应”我和我的 eval/prompt/reward 本身就在回路里”,适合解释为什么 强化学习 里的奖励一旦写下,就开始被模型反向塑造(Goodhart),以及为什么”客观评估 agent”是个会自我消解的幻觉。
PM 的实操结论:设计期用一阶(造好控制器),评估期用二阶(承认自己在回路里)。把这两阶混用——比如用一阶的自信去做评估(“我的 benchmark 客观反映了 agent 能力”)——是 agent 产品最常见的认识论事故。
§6 跨域呼应:von Foerster 的”二阶”如何改变我对 agent 自我改进的判断
调度跨域资源:Heinz von Foerster 的二阶控制论(链入 0114认识论;与 0117社会学 中观察者位置问题相邻)。
空喊”二阶控制论很重要”是一票否决项,所以具体说它改变了什么判断:
agent 工程里最热的方向之一是”自我改进”(self-improvement)——agent 评估自己、修正自己、迭代自己。一阶语法会说:这只是多加一个评估回路,负反馈而已,越多越稳。但 von Foerster 的二阶命题”撰写大脑理论需要一个大脑”逼出一个一阶看不见的结构问题:当评估者和被评估者是同一个系统(同一权重、同一 context),这个”自我评估”不是独立的负反馈,而是系统在用自己的盲点检查自己的盲点。
这直接改了我对 A07 Multi-Agent Teams 里”对等式自我审查”的判断:为什么单模型自我 review 常常无效?因为它违反 von Foerster——观察者(reviewer)没有进入被观察系统之外,它就是被观察系统。这也解释了 A07 里”问你们 agent 是否有不同模型权重”这条 Habermas 式判据的控制论根据:只有当 reviewer 与 actor 是异质的(不同权重、不同 context),自我审查才从”自指的二阶困境”退回成”可用的一阶负反馈”。Conant-Ashby 的 “good regulator must be a model of the system” 在这里和二阶控制论交汇:要做一个系统的好调节器,你得有它的模型;但若你就是那个系统,你的模型必然继承你的盲点。跨域呼应落地为一条工程判据:真正的纠错回路必须引入异质性,否则就是 von Foerster 意义上的自指空转。
§7 对手框架回应:控制论应用于 AI 的三个真实反方
按”接受 + 边界”接入业界反方,不做稻草人反驳。
反方一(语言转向批评,Andrew Pickering): 科学社会学家 Pickering 指出,二阶控制论向哲学/语言学漂移,脱离了早期控制论的工程技术实践(确证立场,见二阶控制论文献)。
- 接受:这个批评对。本节点若把二阶控制论用成”agent 也有主体性”的玄学,就正中此弊。
- 边界:我对二阶的使用严格限定在评估认识论(评估者在回路内)和自我改进的异质性判据,不外推到”agent 有意识”。控制论在此是工具不是世界观。
反方二(LLM 不是动力系统,称其控制器是比喻): ML 社区常持此立场——LLM 本质是概率采样,不是连续动力系统,用 Lyapunov 稳定性等工具是越界类比。
- 接受:对。经典稳定性分析要求状态空间低维、可观测、动力学可微,LLM 三者都不满足。这是个真缺口,Eslami & Yu(arXiv:2603.10779, 2026)也只是提出框架,尚无公开数值结果(如 Lipschitz 常数估计)〔此为本次简报核实状态〕。
- 边界:我赌的是解释力而非定量保证。控制论给的是”该问什么问题”(极性?信道容量?观察者位置?),不是”算出 Lyapunov 函数”。即便定量工具暂时套不上,定性诊断已经能纠正 §4 那四类误用,这本身就有 PM 价值。这正是与本专题
0416 失败 显式升级对照(失败模式分类学)的分工:0416 编目”发生了什么”,本节点提供”用什么语法理解为什么会发生”,两者不复述彼此。
反方三(homeostasis 的静态偏见): 现代生理学(Davies et al., 2016, adaptive homeostasis)指出纯负反馈”维持设定点”框架不足以描述生物系统,设定点本身是动态可调的(确证,NIH PMC)。
- 接受:对 agent 同样成立——一个好 agent 的”本质变量阈值”不该是固定常数,该随任务难度自适应。
- 边界:这恰恰强化而非削弱控制论的用处:它提示我别把 agent 的 homeostatic 阈值写死,而要做 adaptive。反方在这里不是拆台,是把控制论从一阶推向更精细的二阶。
§8 PM 决策启示:面试 / 选型 / 复现三处落地
- 面试:当被问”你怎么看 multi-agent 频繁失败”,不要答”模型还不够强”。答:“这是控制问题不是表征问题——按 Ashby 必要多样性,orchestrator 的控制上界等于它能表征的状态多样性;context 不够 = requisite variety 不够 = 信息论意义上控制不可能完备。这是结构性约束,不是模型智商问题。“一句话把面试官从 ML 框架拉进控制论框架,显示抽象层高度。
- 选型:评估一个 agent 框架时,加两道控制论检查:(1)它的纠错回路是负反馈还是伪装成反馈的正反馈(会不会奖励劫持/分叉放大)?(2)它的”自我审查”有没有引入异质性(不同权重/context),还是 von Foerster 式自指空转?这两道检查能在 demo 阶段就筛掉一批”对等式 multi-agent”玩具。
- 复现:写最小 ReAct loop 时,显式标注哪一步是 observe(信号回流)、哪一步是 act(打舵),并为本质变量(步数、token、错误率)设 homeostatic 上限和回拉动作——把 1948 年的舵手隐喻落成几行
if budget_exceeded: replan的代码。
§9 与已有节点的关系(不复述其事实基础)
- 对 c11 - System 2 思维与 Test-Time Compute:深化 + 纠偏。c11 用 ML 框架问”这个任务值得多想吗”;本节点用控制论把它升级为”这个任务的扰动多样性是否超过我能给的 context 多样性”,给 test-time compute 加了一个信息论上界的解释,而不复述 CoT/PRM 的机制。
- 对 m207 - Agent 产品化:场景推演与失败模式:对话。m207 编目六类失败模式(规划/工具/推理/无限循环/雪崩/越界);本节点提供这些模式背后的统一语法(正/负反馈极性、停机条件、信道容量),把”症状清单”接到”病理机制”。不重复其 HITL 三维度与评估七维度。
- 对 LLM repetition loop:纠偏 + 升级。repetition loop 节点讲解码层机制;本节点把它重新定位为”正反馈失稳”这一控制论一般现象的特例,并与 幻觉 的极性差异对照,使二者在同一语法下可辨。
- 对本专题
A02 必要多样性定律/A03 VSM 治理结构/A04 反馈回路与 homeostasis:谱系骨架。本节点钉定 Wiener/Ashby/Beer/von Foerster 在概念谱系里的位置与语义边界,各定律的精细展开交由下游节点,避免重叠。 - 对 0114认识论:链入,借 范式 解释一阶→二阶的格式塔切换。
§10 关联节点
核心(必读)
- Agent——agentic loop 即舵手隐喻的现代重写
- c11 - System 2 思维与 Test-Time Compute——test-time compute 的信息论上界
- m207 - Agent 产品化:场景推演与失败模式——失败症状清单 ↔ 本节点的病理语法
- LLM repetition loop——正反馈失稳的解码层特例
- 幻觉——与 repetition loop 的极性差异对照
- A07 Multi-Agent Teams——自我审查的异质性判据(von Foerster)
- 0114认识论——一阶/二阶的范式切换
延伸(可选)
- 强化学习——奖励劫持作为正反馈失稳
- Test-Time Compute——多样性约束下的算力配置
- m206 - Agent 产品化:记忆机制与技术进展——记忆作为 homeostatic 的”本质变量”载体
- m208 - AI 基础设施与中间件选型——控制回路的工程承载
- 0117社会学——观察者位置与参与性观察
- AI PM 知识图谱·总索引——总索引入口
修订日志
- R1(2026-06-07):首稿。确立”控制论 = agent 失败语法”主轴;四件套判断主轴(四类误用);一阶/二阶切换作为评估认识论关口;von Foerster 跨域呼应落到自我改进的异质性判据;三个对手框架(Pickering 语言转向 / LLM 非动力系统 / homeostasis 静态偏见)按”接受+边界”接入;与 c11/m207/LLM repetition loop/0416/本专题 A02-A04 建立不复述的升级对照。待核实项:von Foerster 1974 原始论文篇名(非 arXiv,本轮未处理)。
- 2026-06-12 内审·arXiv 联网核实:清了 1 个、存疑 0 个。§ reward hacking 真实反例引用 arXiv:2511.18397 经 WebFetch arXiv 确证为真实论文《Natural Emergent Misalignment from Reward Hacking in Production RL》(Anthropic 生产 RL,提交 2025-11),订正误写年份「2024」→「2025」、补论文全名、标已核实;von Foerster 1974 篇名为书目类待核实项,非 arXiv,保持不动。