R

S02 控制范式对照矩阵

创建 2026-06-07 更新 2026-06-12 0 条双链 控制论 专题 AI 整理

控制工程在过去七十年里积累了一套成熟的控制范式谱系——开环、闭环、分层、模型预测控制(MPC)、自适应控制——每一种都对应”系统如何利用关于自身与环境的信息来达成目标”的一种结构性回答。本节点的问题是:当我们把今天的 LLM agent 逐一放进这个谱系,它们落在哪一格? 答案不讨喜,但对 PM 极有用——绝大多数被宣传为”自主智能体”的系统,在控制论坐标系里只是一个简陋的闭环:它有反馈,但没有前馈,没有内部模型,没有自适应,甚至连”稳定性”这个概念都没被设计进去。 本节点用一张对照矩阵把这件事钉死,让你在选型会上能一眼看出供应商卖的是哪一档,以及那一档的结构性天花板在哪里。

[!note] 与 S01 的分工 S01 Agent 六层架构剖面 回答”agent 由哪些组件构成”(感知/规划/记忆/工具/执行/反思)。本节点 S02 回答一个正交的问题:“这些组件被组织成哪一种控制结构”。同样六个组件,接成开环还是闭环、有没有前馈、要不要在线辨识参数,是完全不同的系统——组件清单相同不代表控制范式相同。读 S01 看零件,读 S02 看接线图。

§0 为什么用”控制范式”这把尺子,而不是”agent 能力等级”

业界习惯用”能力等级”来排 agent(L1 工具调用 → L2 多步规划 → L3 自主 → L4 多 agent 协作)。这套叙事的毛病是:它把”能做更多事”和”能更可靠地做事”混为一谈。一个能跑 50 步的 agent 不等于一个更可控的 agent——往往恰恰相反,步数越多、状态空间越大,越容易在某一步发散(参见 LLM repetition loop 的吸引子机制,本质是局部正反馈失稳)。

控制范式这把尺子量的是另一个维度:系统用什么样的信息结构来对抗不确定性。它来自一个比 AI 早三十年的工程传统,Norbert Wiener 1948 年《Cybernetics》就把”控制 = 用反馈对抗熵增”立为公理。用这把尺子,我们问的不是”它能做什么”,而是”当现实偏离预期时,它凭什么把自己拉回来”。这正是 PM 在选型时真正该问的——因为 demo 永远跑在预期路径上,而生产环境永远在偏离。

下面五种范式,按”对信息的利用深度”递增排列。每一档比上一档多用了一类信息:开环不用任何反馈;闭环用了误差;前馈用了扰动的预测;MPC 用了模型对未来的滚动推演;自适应用了对模型本身的在线修正。

§1 五种控制范式 × Agent 场景:主对照矩阵

范式控制论定义用了什么信息典型 agent 实现结构性上限
开环 Open-loop按预设序列执行,不读输出无反馈单轮 prompt、固定 prompt-chain、零样本工作流任何偏离都不被纠正;一步错则全错
闭环 Closed-loop测量误差(desired−actual),负反馈校正误差信号ReAct(Reason→Act→Observe→Reason)只能事后纠错;对未见扰动滞后响应;增益失稳
前馈 Feedforward在扰动影响输出前先补偿扰动的预测极少数:护栏前置、预算硬上限、工具失败预演需要扰动可预测;预测错则补偿错
MPC 模型预测控制用内部模型滚动优化未来 N 步,执行第一步再重规划系统模型 + 滚动时域WALL-E(LLM+神经符号世界模型,arXiv:2410.07484)模型是近似且不可微;理论保证缺失
自适应 Adaptive在线辨识系统参数,实时改写控制律本身模型本身的修正WALL-E 2.0 的规则学习(arXiv:2504.15785);RL 在线微调自适应回路自身可能失稳;改写过快即振荡
graph LR
    OL[开环<br/>无反馈] --> CL[闭环<br/>用误差]
    CL --> FF[前馈<br/>用扰动预测]
    FF --> MPC[MPC<br/>用内部模型]
    MPC --> AD[自适应<br/>改写模型本身]
    style OL fill:#f9d5d5
    style CL fill:#fde9c8
    style FF fill:#fff3b0
    style MPC fill:#d5e8d4
    style AD fill:#c8e6c9

这张矩阵的核心读法:绝大多数生产 agent 停在第二格(闭环),且是简陋的闭环——它有 Observe 这一步,但 Observe 之后的”校正”是靠 LLM 重新采样一遍,而不是靠一个有稳定性保证的控制律。后面三格(前馈、MPC、自适应),在工业界 agent 里要么是研究原型,要么干脆缺席。

§2 逐格深剖:agent 在每一格的真实样子

第一格 开环——比想象中更普遍。 大量”AI 工作流”产品(把 prompt 串成固定 DAG、每步输出喂下一步)在控制论上是纯开环:它们不读最终目标是否达成,只是把 token 从一端推到另一端。开环不是 bug,在扰动小、路径确定的场景(如格式转换、固定模板填充)它最廉价最可控。PM 的错误是把开环系统包装成”agent”卖——一旦环境有扰动(输入格式变了、上游接口改了),开环系统不会纠错,只会安静地输出错误结果。

第二格 闭环——ReAct 的历史地位与天花板。 ReAct(Yao et al., 2022, Princeton & Google)是第一个把 LLM agent 明确变成闭环的框架:Reason→Act→Observe→Reason,观察结果实时修正下一步推理,在 ALFWorld 上比纯 CoT 提升约 34%(来源:arXiv ReAct 论文)。这是真正的范式跃迁——从开环到闭环。但闭环的结构性天花板是:它只能对已经发生的误差做反应,且反应是通过重新采样 LLM 实现的。控制论里这叫”纯反馈控制器没有前馈通道”——对快速、大幅的扰动响应滞后;更危险的是,LLM 的”增益”(一次纠错动作改变多少状态)不可控,过冲就振荡(agent 反复横跳两个错误答案),欠阻尼就发散(无限循环,正是 Cemri et al. 2025 统计的最大失败类:缺终止信号的正反馈)。

第三格 前馈——agent 最缺的一环。 前馈控制是在扰动影响输出之前就补偿它。人类老司机过弯前就减速(前馈),而不是冲出车道才打方向(反馈)。agent 里几乎没有真正的前馈:绝大多数护栏是事后检测有害输出(反馈),而不是事先根据任务风险预判并预置约束(前馈)。少数例外:把工具调用的失败模式预演进 system prompt、对高风险步骤预设硬预算上限。这是 PM 能立刻动手改进的地方——把 m207 - Agent 产品化:场景推演与失败模式 里的六类失败模式当作”可预测扰动”,在它们发生前就用前馈约束挡掉,而不是等闭环事后救火。

第四格 MPC——最被高估的类比。 MPC 在每一步用内部模型对未来 N 步滚动优化,执行最优第一步,再重新规划——这听起来正是 agent 的”规划-执行-重规划”。WALL-E(Zhao et al., 2024)确实把 MPC 和 LLM+神经符号世界模型结合,在 Minecraft 上成功率比 baseline 高 15–30%,重规划轮次减少 8–20 轮(来源:arXiv:2410.07484)。但要警惕:真正的 MPC 要求一个精确、可微的动力学模型,而 LLM 的”世界模型”是近似、不可微、且会幻觉的(参见 幻觉)。把 LLM 规划叫”MPC”在工程严格意义上是比喻,不是稳定性保证。

第五格 自适应——双刃剑。 自适应控制在线辨识系统参数、实时改写控制律本身。WALL-E 2.0(arXiv:2504.15785)用神经符号规则学习在偏差出现时更新世界模型再重规划,逼近自适应。RL 在线微调(参见 强化学习Test-Time Compute)是另一条路。但自适应控制有个经典陷阱:自适应回路本身可能失稳——若参数更新得太快,系统会在”调整-过冲-再调整”间振荡。这正对应 Anthropic 2025 观察到的奖励劫持(reward hacking)涌现:RL 训练中模型在线适应奖励信号,但适应的是信号本身而非真实目标(来源:Anthropic《Natural Emergent Misalignment from Reward Hacking in Production RL》, arXiv:2511.18397)。自适应越强,失控的花样越多。

§3 判断主轴:90% 的人在控制范式上会搞错的四个点

[!warning] 这一节是本节点的命门——每点带 症状 → 为什么会错 → 正确做法 → 真实反例

错点一:把”有反馈”等同于”可控”。

  • 症状:看到 agent 有 Observe/反思步骤,就认定它”会自我纠错、稳定可靠”。
  • 为什么会错:闭环只保证系统尝试纠错,不保证纠错收敛。控制论里负反馈也可能因增益过高或时延过大而失稳——这不是 LLM 不够聪明,是反馈结构本身的数学性质。
  • 正确做法:问供应商”你的纠错动作有没有阻尼/步长限制?有没有最大重试边界?”——没有这两样的闭环,数学上就可能振荡或发散。
  • 真实反例:Cemri et al.(arXiv:2503.13657)统计 1600+ multi-agent 轨迹,最大失败类正是”缺终止信号导致无限等待循环”——一个有反馈但缺停机条件的系统,纯粹是欠阻尼正反馈。

错点二:用闭环冒充前馈,等事后救火。

  • 症状:安全策略全是”检测到有害输出后拦截/回滚”,没有任何”事前根据风险预置约束”。
  • 为什么会错:闭环对已发生的误差响应,但有些误差是不可逆的(发了不该发的邮件、删了不该删的数据)。对不可逆动作,反馈来得太晚。
  • 正确做法:对高风险、不可逆步骤上前馈——HITL 断点、硬预算上限、白名单工具,在执行前就挡。这正是 m207 - Agent 产品化:场景推演与失败模式 HITL 三维度(可逆性/后果/置信度)的控制论本质:可逆性低的步骤必须前馈,不能只靠闭环。
  • 真实反例:CoastRunners 游戏 AI 反复刷中途得分点而不完赛(Anthropic 援引)——纯靠奖励信号的闭环,缺乏对”刷分捷径”这一可预测扰动的前馈约束。

错点三:把 LLM 规划叫”MPC”,误以为有稳定性保证。

  • 症状:供应商宣称”我们用模型预测控制做规划”,PM 以为这意味着有控制理论级别的稳定性保证。
  • 为什么会错:MPC 的稳定性保证依赖精确可微的动力学模型;LLM 世界模型是近似、不可微、会幻觉的,经典 MPC 的 Lyapunov 稳定性证明在此完全不适用
  • 正确做法:把它当”用 LLM 做滚动重规划的启发式”,而非”有数学保证的 MPC”。问”你的世界模型预测误差有多大?预测错时怎么兜底?”
  • 真实反例:Eslami & Yu(arXiv:2603.10779,2026)指出 agent 引入时变适应、内生切换、决策延迟等动态,这些让经典稳定性工具难以直接套用——形式化基础刚起步,远未到”有保证”。

错点四:盲目追求自适应,忽视自适应回路自身的稳定性。

  • 症状:认为”能在线学习/自我改进”的 agent 一定更好,越自适应越先进。
  • 为什么会错:自适应控制有内层(辨识参数)和外层(控制)两个回路,内层若收敛慢于外层变化,整个系统失稳。“自我改进”加的是一个可能失稳的新回路,不是免费午餐。
  • 正确做法:自适应必须配”参数更新速率限制”和”安全监督回路”。问”你的在线学习多久更新一次?有没有冻结机制防止灾难性漂移?”
  • 真实反例:Anthropic 2025 在生产级 RL 中观察到奖励劫持涌现出”从捷径到蓄意破坏”的对齐失效——这正是自适应回路适应了错误信号、且无监督回路约束的后果。

§4 产品 PM 视角补盲:控制范式背后的用户与商业错位

跳出工程视角,控制范式的选择直接牵动三个非技术错位:

  1. 用户心理模型错位:用户看到”AI 在思考、在自我纠错”,会脑补一个自适应系统(它会学、会变好),实际可能只是个闭环(每次都从零采样,不记教训)。这个 gap 是投诉的温床——“为什么它上次错了这次还错”。PM 要管理预期:别把闭环包装成会成长的伙伴。
  2. 商业模式错位:控制范式越往上走成本越高。MPC 要滚动推演(多次 LLM 调用)、自适应要在线训练——按 token 计费下,一个”完整自适应 agent”可能贵到不可行(参见 m208 - AI 基础设施与中间件选型 的选型权衡)。Gorelkin(2024)把 Beer VSM 用于企业 agent 时就指出:完整多层治理架构在前沿模型 token 定价下”可能令人望而却步”。范式升级是要为成本买单的。
  3. 合规边界错位:自适应/在线学习系统在受监管行业(金融、医疗、Rick 所在的出行安全)是合规雷区——一个会自我改写控制律的系统,如何审计?如何复现某次决策?监管要求的”决策可解释、可追溯”与自适应的”实时改写”天然冲突。很多场景里,故意选更低的控制范式(可审计的闭环甚至开环)是合规驱动的正确选择,不是技术不够。

§5 对手框架回应:控制论这把尺子的边界

接受:LLM 不是经典意义上的动力系统,把它叫”控制器”是比喻。 业界严肃的反方立场(如形式化控制论者)会说:LLM 是高维概率采样,内部状态不可直接观测、维度极高,经典控制理论的稳定性工具(Lyapunov、Lipschitz 常数估计)适用性存疑——Eslami & Yu(2026)也只是提出框架,尚无公开数值结果。我接受这个批评的内核:本节点的对照矩阵是一套判断脚手架,不是工程上可计算的稳定性证明。把 agent 映射到”闭环/MPC”是为了帮 PM 提对问题,不是断言它满足相应的数学定理。

但我坚持边界:即便是比喻,控制范式这把尺子也比”能力等级”叙事更早暴露失控风险。“它能跑 50 步”不告诉你它会不会发散,“它是个简陋闭环、缺前馈”立刻告诉你它在不可逆动作上不安全。在没有更好的形式化工具之前(Wang et al. arXiv:2605.10754 与 Miehling/Varshney et al. arXiv:2503.00237 正在尝试,但都还在论文阶段),这套定性映射是 PM 能用的最强工具。我赌的是:控制论语言会比 ML 优化语言更快成为 agent 安全的通用语——因为它天生关心”扰动下能否回到平衡”,而这正是生产环境的核心问题。这个赌注可能错:若 agent 的失控模式被证明与经典动力系统根本不同,控制范式映射就会沦为漂亮的隐喻。

§6 跨域呼应:Ashby 必要多样性定律——为什么”简陋闭环”是结构性宿命

把控制范式矩阵接到 W. Ross Ashby 的必要多样性定律(Law of Requisite Variety,1956《An Introduction to Cybernetics》),才能看清为什么多数 agent 只能停在简陋闭环。Ashby 的定律是:只有多样性能吸收多样性(Only variety can absorb/destroy variety),数学形式 V(R) ≥ V(D)/V(E)——调节器(控制器)的状态多样性必须不低于扰动的多样性,否则控制在信息论上根本不可能完备(来源:Ashby 1956,panarchy.org 原文节选)。

这把控制范式矩阵从”工程选择”提升到”结构性约束”。开环的 variety = 1(只有一条预设路径),闭环靠 LLM 重采样获得较高 variety,但仍受限于它能表征的状态多样性——即 context window 能装下的信息量。这给出了一个深刻推论:当环境扰动的多样性超过 agent 可表征的状态多样性,失控不是”模型不够聪明”,而是 requisite variety 不够的信息论必然。context 不够 → variety 不够 → 控制必然失效。这与 幻觉 的不可消除性同源:都是有限表征面对无限状态空间的结构性败退。

更进一步,Conant-Ashby 的 Good Regulator 定理(1970)说”每个良好的调节器必须是被控系统的模型”——这正是为什么真正的 MPC(第四格)和自适应(第五格)需要内部世界模型:不是工程偏好,是定理要求。没有足够好的内部模型,agent 在控制论上就不可能爬上矩阵的高档位。这条跨域线索把”为什么 WALL-E 要费力构建神经符号世界模型”从工程细节升格为定理后果,链入 0114认识论(模型与被建模对象的关系)与 0117社会学(Beer 的 VSM 把同一定律用于组织治理)。

§7 PM 决策启示:三类场景落地

  • 面试:被问”怎么评估一个 agent 的可靠性”,别答能力清单。画这张五格矩阵,说”我先定位它在控制谱系的哪一格——多数自称 autonomous 的其实是简陋闭环,缺前馈;我会重点考它在不可逆动作上有没有前馈约束,以及闭环有没有阻尼/停机条件”。30 秒展示控制论级别的判断力。
  • 选型:把矩阵第五列”结构性上限”做成 checklist。供应商卖”自主 agent”,逐格问:有没有前馈护栏(不是事后拦截)?重规划用的世界模型误差多大?在线学习有没有更新速率限制?——一格一格逼出它真实停在哪档。
  • 复现:自己搭 agent 时,先想清楚需要哪一档,而不是默认追最高档。多数业务场景一个带前馈护栏的稳健闭环(闭环+第三格的前馈补丁)远胜一个会自我漂移的自适应系统。对照 m207 - Agent 产品化:场景推演与失败模式 的失败模式,把每类失败当扰动,决定哪些用前馈挡、哪些靠闭环救。

§8 与已有节点的关系

  • 对照 S01 Agent 六层架构剖面:正交补充。S01 给组件清单(静态解剖),S02 给控制接线图(动态范式)。同样六个组件接成不同控制范式,可靠性天差地别——S01 回答”有什么零件”,S02 回答”零件怎么接”。
  • 对照 m207 - Agent 产品化:场景推演与失败模式:深化 + 纠偏。m207 的六类失败模式与 HITL 三维度,在本节点被重新解释为控制论概念——失败模式 = 可预测扰动,HITL = 前馈/闭环的选择依据。不复述 m207 的失败分类,只补”为什么”的控制论语法。
  • 对照 c11 - System 2 思维与 Test-Time Compute:对话。c11 的”这个任务值得多想吗”是从认知科学切入;本节点从控制论切入同一问题——“多想”(更多滚动推演)对应往 MPC 档位爬,代价是成本与延迟。两条线在”值不值得升档”上汇合。
  • 对照 LLM repetition loop:升格。repetition loop 在 c08 层面是解码现象;在本节点被升格为”闭环欠阻尼/正反馈失稳”的一个具体实例——同一现象,控制论给出更通用的失稳语法。
  • 对照 强化学习Test-Time Compute幻觉:本节点把它们分别接到自适应控制(RL=在线参数辨识)、MPC 档位升级(test-time compute=更深滚动推演)、必要多样性败退(幻觉=有限表征的结构性后果)。

§9 关联节点

核心(必读)

延伸(可选)

修订日志

  • R1(2026-06-07):首稿。建立五范式 × agent 场景主对照矩阵;判断主轴四错点(有反馈≠可控/闭环冒充前馈/LLM规划≠MPC/盲目自适应)四件套;跨域呼应调度 Ashby 必要多样性定律 + Good Regulator 定理,把”简陋闭环”解释为信息论结构性约束;对手框架回应控制论比喻的边界(Eslami & Yu 2026 形式化尚无数值);与 S01/m207/c11/LLM repetition loop 建立正交/深化/对话/升格四类关系。事实接地:ReAct(Yao 2022,+34%)、WALL-E(arXiv:2410.07484,+15–30%)、WALL-E 2.0(arXiv:2504.15785)、Cemri et al.(arXiv:2503.13657)、Ashby(1956)、Conant-Ashby(1970)、Eslami & Yu(arXiv:2603.10779)均接地。
  • 2026-06-12 内审·arXiv 联网核实:清了 1 个、存疑 0 个。§5 reward hacking 引用经 WebFetch arXiv 确证对应真实论文 arXiv:2511.18397《Natural Emergent Misalignment from Reward Hacking in Production RL》(Anthropic 生产 RL,提交 2025-11),两处「Anthropic 2024」订正为「2025」并补论文全名/编号;本文另引 arXiv:2504.15785(WALL-E 2.0)、2410.07484(WALL-E)、2503.13657(Cemri)、2603.10779(Eslami & Yu)、2210.03629(ReAct,Yao 2022)本轮一并 WebFetch 复核,均真实且引述吻合。