S02 流派架构对照表
S02 流派架构对照表
一句话定义:把 ReAct / Plan-and-Execute / Reflexion / LATS / Multi-Agent / Computer Use 六种主流 Agent 范式映射到 S01 Agent 六层架构剖面 的六层堆栈上,看每个范式”重心层”在哪里——重心决定适用场景,重心冲突决定它们为什么不能简单叠加。
0. 为什么要做这张表
c10/m206/m207 把范式当成”技术列表”列出来——你能记住名字,但你不知道什么时候选哪个、为什么不能全选。
把范式压到六层堆栈上之后,三件事立刻清楚:
- 每个范式在某些层”重投入”,在另一些层”近乎为零”——这是它的 DNA,不是 bug;
- 范式之间的组合是有序的——Computer Use 可以包在 Plan-and-Execute 外面,反过来不行;
- 所谓”流派之争”很多时候不是技术分歧,而是工程哲学分歧(控制 vs 涌现)——后面会展开。
1. 对照矩阵(六层 × 六范式)
强(●●●) / 中(●●○) / 弱(●○○) / 无(○○○)。每格 1-2 句简评。
| 范式 \ 层 | 感知 | 规划 | 记忆 | 工具 | 执行 | 反思 |
|---|---|---|---|---|---|---|
| A03 ReAct (G1) | ●○○ 纯文本输入 | ●○○ 隐式规划(thought 即 plan) | ●○○ 上下文窗口即记忆 | ●●● 工具调用是核心 | ●○○ 简单 while-loop | ○○○ 无显式反思 |
| A05 Plan-and-Execute | ●○○ 同 ReAct | ●●● 显式 plan 树、可审计 | ●●○ plan 状态需持久化 | ●●● 执行子任务必需工具 | ●●○ 状态机 / 重规划逻辑 | ●○○ 重规划即弱反思 |
| A04 Reflexion (G3) | ●○○ 同 ReAct | ●●○ 在 ReAct 基础上多一层 reflection-guided plan | ●●● 反思笔记是长期记忆 | ●●● 工具调用 + 失败可学习 | ●●○ 需要 episodic memory 持久化 | ●●● 显式反思 + 反思笔记 |
| LATS / Tree Search | ●○○ 同 ReAct | ●●● 显式搜索树 + 节点扩展 | ●●● 完整树状态 + 节点 value | ●●● 工具是动作空间 | ●●● 树管理 / 回溯 / 剪枝 | ●●● 节点打分即反思(value 估计) |
| Multi-Agent (A07 Multi-Agent Teams) | ●●○ 多 Agent 各自感知 | ●●● 角色分工式规划 | ●●● 共享 + 私有记忆 | ●●● 每 Agent 各有工具集 | ●●● 消息总线 + 协调者 | ●●○ 反思常委托给 critic agent |
| Computer Use | ●●● 视觉 + DOM 双通道 | ●●○ 中等粒度 plan | ●●○ 屏幕状态需缓存 | ●●● 屏幕动作是工具 | ●●● 高错误率需重试 / 校验 | ●○○ 通常弱反思 |
读法:先看”●●●“列在哪——那是这个范式的”重心层”。再看”●○○“列在哪——那是它要靠组合或外置补足的层。
矩阵表的反共识结论(R3 新增)
从这张表里读出来的最重要的一句话不是”每个范式有自己的重心层”——而是 Multi-Agent 是六层中除感知外全部重投入的范式。
观察矩阵第 5 行:Multi-Agent 在规划、记忆、工具、执行四层都是 ●●●,反思也是 ●●○,只有感知是 ●●○ 而非 ●●●。这意味着 Multi-Agent 的工程成本不是”在某一层多花一份钱”的单点累加,而是”在每一层都多花一份钱”的面状放大——因为每个 agent 都要有自己的规划、记忆、工具集、执行循环。
这正是为什么 Anthropic 在 Building Effective Agents 反复强调”先单 agent”——他们看到的不是”multi-agent 复杂”,而是”multi-agent 在六层架构上有六重成本”。PM 视角下,默认不应该选 Multi-Agent——除非任务确实满足 A07 Multi-Agent Teams § 三的三题判据。
这是矩阵表能给的最大反共识 takeaway——不是”挑重心层最合适的范式”,而是”避开六层全重的范式作为默认”。
2. 每范式的”重心层”如何决定适用场景
2.1 ReAct:工具层独重
ReAct 的全部聪明都在工具层——thought-action-observation 滚动续写本质是”问 LLM:基于你看到的,下一步调哪个工具”。
适用:步骤少(≤ 5)、任务边界清晰、工具集小(≤ 10)的场景。典型——客服 Agent、搜索增强问答、单步代码 lint。
不适用:步骤多(> 10)——上下文爆炸 + 复合错误(c10 § 10.3 数学:单步 95% → 10 步 60%);需要回溯——ReAct 是单向流,回不去。
与 c10 § 10.4 的关系:c10 说”单 Agent + 多工具是最简单的架构”,那就是 ReAct。
2.2 Plan-and-Execute:规划层独重
把”想”和”做”切开——先生成完整 plan,再逐步执行。这是把 A03 ReAct 隐式的 plan 显式化。
适用:步骤多但可预先规划、任务可拆解、需要让人审核 plan(关键 HITL 断点在”规划完毕、执行前”)。典型——研究 Agent、Manus、DeerFlow。
不适用:环境高度动态(plan 还没执行完就 stale)、需要探索式试错(plan 一开始就要 commit 死)。
2.3 Reflexion:反思层独重
在 ReAct 失败后注入”反思笔记”——这一次失败的原因 / 下次如何避免——以 episodic memory 形式存到长期记忆,下次任务时检索回来。
适用:相同任务会重复出现、有训练-推理闭环、单次任务失败成本不大但累积学习价值高。典型——AlphaCode 类竞赛、自动化代码评测改进、长期客户支持知识沉淀。
不适用:一次性任务、任务高度异质(反思笔记无法迁移)、对单次正确率要求极高(反思来不及救火)。
2.4 LATS:规划层 + 反思层 + 执行层三重
把规划做成可回溯的搜索树,每个节点用 value(来自反思打分)指导扩展。本质是 MCTS(蒙特卡洛树搜索)+ LLM。
适用:搜索空间有限可枚举、单步成本不高(可以多 rollout)、对最优解的追求胜过对成本的追求。典型——SWE-bench 上的研究型方案、定理证明、复杂规划问题。
不适用:单步贵(截图任务做不起 tree search)、实时交互场景(响应延迟会炸)、生产环境(成本通常不可接受)。
2.5 Multi-Agent:执行层独重,规划/记忆中重
A07 Multi-Agent Teams 不是技术范式,更像组织范式——通过”角色分工”把单 agent 的认知过载分摊到多个 agent。CrewAI 用”角色 + 任务”语言、AutoGen 用”对话 + GroupChat”语言、DeerFlow 用”研究 / 编码 / 报告”分工。
适用:任务天然可分(研究 + 编码 + 报告)、角色边界稳定、能接受协调开销。典型——研究 Agent(DeerFlow)、复杂内容创作(多角色对话)。
不适用:任务高度耦合(拆了之后不停”互相回灌”)、上下文不能分隔(每个 agent 都要全量上下文 → 成本爆炸)、协调成本超过分工收益。
详见 m208 § 编排框架对比 中关于 CrewAI / LangGraph 的选型。
2.6 Computer Use:感知层重 + 执行层重 + 工具层”用屏幕动作”
把”屏幕”当作通用接口——任何人类能用鼠标键盘做的事,理论上 Agent 都能做。
适用:目标系统无 API(遗留 ERP、老旧 CRM、个人桌面应用)、不可改造的第三方系统、需要”像人一样操作”的演示与回放。典型——Anthropic Computer Use beta、OpenAI Operator、Manus 通用任务。
不适用:有 API 时(成本差 10-100 倍,详见 m209 - 推理成本控制手册)、需要确定性时(屏幕理解错误率比 API 高一个数量级)、对延迟敏感(每步几秒到十几秒)。
m206 已明确:“Computer Use 适合无 API 的遗留系统自动化,不应该作为有 API 情况下的首选。” 本节点提供了这条结论的层级解释——Computer Use 用感知层 + 工具层的高额预算换 API 不可得的能力,能做交易就别做。
3. 范式的组合性:什么能套什么
范式不是互斥的”流派标签”,更像可叠加的”图层”。但叠加是有序的——内层应该比外层粒度更小、决策更短。
3.1 合法组合
| 外层 | 内层 | 实例 |
|---|---|---|
| Plan-and-Execute | ReAct | 主流。先 plan,每个子任务内部用 ReAct 跑工具 |
| Plan-and-Execute | Computer Use | Manus 的核心模式。plan 划阶段,每阶段用浏览器执行 |
| Multi-Agent | ReAct | CrewAI 的每个 worker 内部就是 ReAct |
| Multi-Agent | Reflexion | 高级用法——每个 worker 是 reflexion agent,长期共享反思笔记 |
| LATS | ReAct | LATS 的每个节点”扩展”调用一次 ReAct rollout |
| Reflexion | Plan-and-Execute | 反思笔记里包含”上次哪一步 plan 错了”,下次 plan 时检索 |
3.2 不合法(或难协调)的组合
- ReAct 套 Multi-Agent:单 agent 的 ReAct 循环里临时召唤多 agent,协调开销 > ReAct 本身预算
- Computer Use 套 LATS:屏幕动作不可逆,无法回溯——树搜索的基本假设违反
- Reflexion 套 LATS:两层都重反思,反思反思,循环难收敛
3.3 组合的元规则
- 外层粒度大 / 内层粒度小——plan 是粗粒度结构,ReAct 是细粒度执行。反过来会让外层无法收敛。
- 不可逆动作不能放在可回溯结构里——Computer Use 的”点提交按钮”不能给 LATS 试错。
- 反思层只能有一处——否则陷入”我在反思我的反思”无限递归。
4. 流派之争的本质:控制 vs 涌现
把范式按”显式控制”到”隐式涌现”排序:
显式控制 ←———————————————————→ 隐式涌现
LangGraph Plan-and-Execute ReAct AutoGen GroupChat LATS Tree Search
显式状态图 显式 plan tree 隐式 plan 多 agent 对话涌现 搜索 + value 涌现
LangGraph 在最左——一切边和状态都要画出来;AutoGen 的 GroupChat 偏右——“让几个 agent 讨论,看看会发生什么”;LATS 在最右——把决策权完全交给搜索 + value 估计。
这是工程哲学的两条传统:
- 理性主义控制论:从泰勒制、控制论(Wiener)、操作系统设计、Hashimoto 在 Hashicorp 的工具传统——一切都要可观测、可配置、可重现。落到 Agent 就是 LangGraph / Plan-and-Execute。
- 涌现主义系统论:从复杂适应系统(Holland)、群体智能、多主体仿真传统——少给规则、看会涌现什么。落到 Agent 就是 LATS / AutoGen GroupChat。
这两条传统不只是技术偏好——它们对应对智能本身的两种立场:
- 控制派认为:智能是工程结果,不可控就是不可用。
- 涌现派认为:智能本质上不可完全控制,过度控制等于砍掉它的能力上限。
Polanyi 给控制派的具体认识论挑战(R3 扩展,从装饰升级为论证):这与 Polanyi 默会知识与提示工程的认识论张力 同源——Polanyi 说”我们知道得比我们能说出的更多”。Polanyi 的洞察给控制派一个具体的认识论挑战:当控制派试图把所有”agent 该如何决策”都写进 plan 和 state graph 时,Polanyi 提醒我们”真正高效的判断往往无法被显式化”——老程序员看一眼代码就知道有问题,但说不清为什么;老医生看一眼病人就知道严重程度,但写不进诊断手册。
所以纯控制派 orchestrator(LangGraph)在”高度结构化任务”上是最优(API 流水线、ETL、合规审查这些每一步都可显式化的任务),但在”需要直觉的探索任务”上注定碰壁(写一篇有洞察力的报告、调试一个跨多模块的复杂 bug、设计一个新产品方案)。这就是为什么 Claude Code 即便有 plan mode,仍保留”让模型自由发挥”的余地——它知道把所有判断都显式化是 Polanyi 意义上的认识论傲慢。
对 PM 的具体启示:选 LangGraph 之前先问”我的任务步骤是不是每一步都能写下来”——如果答”不能”,说明你需要给涌现派留位置;如果硬上 LangGraph,会得到一个能跑但永远做不深的系统。
Polanyi 默会知识在 LLM 时代可能被部分内化(R4 新增 — 反 confirmation bias)
R4 修正:本节点 § 4 把 Polanyi 默会知识当成”已被验证的认识论真理”反复使用——这是 echo chamber 倾向。Polanyi 本身是 1958 年的哲学论著,在 LLM 时代的适用性其实需要重新论证:默会知识到底有多少能被 LLM 内化?多少永远漏?这是个开放问题,不是已解决的真理。
LLM 可能正在挑战 Polanyi 的强版本:
- LLM 的 in-context learning 可能就是”显性化默会知识”的工程实现:你给 LLM 5-10 个 examples,它能在没见过的新场景上 generalize—— 这其实是把”过去专家的默会判断”通过 examples 显性化,让 LLM 学到。
- LLM 的 RLHF/DPO 也可能内化部分默会知识:Anthropic Constitutional AI、OpenAI RLHF 都是把”人类的默会偏好”通过 reward model 编码进权重——这与 Polanyi 说的”默会知识不能被显性化”形成张力。
- Hubert Dreyfus(详见 S03 Harness Engineering 全景 § 5.4 R4 新增)其实部分驳斥了 Polanyi:Dreyfus 说 LLM 永远停在 Level 1-2,但他也承认 LLM 在 Level 1-2 已经显著超越早期符号 AI——这意味着默会知识的”Level 1-2 部分”是可以被显性化的(通过 prompting、in-context learning、fine-tuning),只是 Level 3+ 部分不行。
Polanyi 在 LLM 时代需要的修正版本:
- 强版本(Polanyi 原意):默会知识完全不能显性化。
- 弱版本(R4 提议):默会知识可以被部分显性化(Level 1-2 部分),但 Level 3+ 的”直觉判断”和”专家嗅觉”仍无法显性化。LLM 时代的 in-context learning / RLHF 显著扩大了”可显性化部分”,但没有改变”不可显性化部分”的边界。
对本节点 § 4 的具体修正:
- 不再说”Polanyi 给控制派致命挑战”—— 改为”Polanyi 给控制派提供一个边界,但这个边界正在被 LLM 时代的工程实践不断推前”。
- 承认 LangGraph + LLM 的组合可能比纯 LangGraph 解决更多”需要直觉的探索任务”——前提是把直觉的”Level 1-2 部分”通过 prompting/RAG/examples 显性化,让 LLM 学到;只有 Level 3+ 部分仍需要人类介入。
对 PM 的具体启示:
- 在选型 LangGraph vs AutoGen 时,不要把”Polanyi 默会知识” 当成反 LangGraph 的万能论据 —— 这是对 Polanyi 的过度引用。
- 正确做法是问”我的任务的’直觉部分’是 Level 1-2(可通过 examples 显性化)还是 Level 3+(必须人类介入)” —— 答案不同,选型完全反向。Level 1-2 任务选 LangGraph + 好 prompt 就够;Level 3+ 任务必须设计 HITL,任何 orchestrator 都做不到完全自动化。
韦伯科层制 vs 阿伦特复多性也是同一组对照——CrewAI 的”角色 + 任务”是科层制思维(明确职责、自上而下),AutoGen GroupChat 是阿伦特意义上的”复多性涌现”(多个独立行动者在对话中产生新意义)。
参考 范式 章节的库恩讨论——这种工程哲学的两极对立,本质上是同一研究纲领内部的方法论分歧,不是真正的”范式革命”。真正的范式革命是 G5/G6 的”原生 agent 模型”——直接训练 LLM 自带 plan/reflect/tool-use 能力,那时控制 vs 涌现的分歧会被部分悬置。详见 G01 Agent 代际谱系总图 关于 G6 的预测。
5. 选型决策表(PM 直接抄)
| 你的场景特征 | 推荐范式 | 内层 |
|---|---|---|
| 步骤 ≤ 5、单一目标 | ReAct | — |
| 步骤 > 10、可预先 plan、需要人工审核 plan | Plan-and-Execute | ReAct |
| 相似任务重复出现、有学习闭环 | Reflexion | Plan-and-Execute |
| 任务可分(研究 / 编码 / 报告)、角色稳定 | Multi-Agent | ReAct 或 Reflexion |
| 目标系统无 API、必须 GUI 操作 | Plan-and-Execute | Computer Use |
| 学术研究 / 评测刷分 / 不计成本 | LATS | ReAct |
| 不知道选什么 | Plan-and-Execute | ReAct |
最后一行不是开玩笑——P&E + ReAct 是”中庸的好默认”,落地概率最高、debug 最容易、可演进性最强。
与已有节点的关系
- 对 c10 - Agent 技术栈与工具调用:c10 § 10.4 列了三种架构模式(单 Agent + 多工具 / 多 Agent 协作 / MCP),但没做范式矩阵化对比。本节点补缺。
- 对 m207 - Agent 产品化:场景推演与失败模式:m207 给了失败模式分类。本节点告诉你”哪些范式更易在哪一类失败上踩坑”——比如 ReAct 易在”无限循环”、Multi-Agent 易在”雪崩效应”。
- 对 m208 - AI 基础设施与中间件选型:m208 比较了 LangChain / LangGraph / CrewAI / Dify。本节点的范式视角解释了为什么 LangGraph 和 CrewAI 都存在却不互相替代——它们的重心层不同(LangGraph 重执行层的状态图,CrewAI 重规划层的角色分工)。
- 对 S01 Agent 六层架构剖面:S01 给静态分层,S02 把动态范式映射到静态分层上——配套使用。
- 对 Skill 系统的本质:Skill 是 procedural knowledge 的封装,可以看作”反思层的一种制度化”——把过去成功的反思笔记沉淀为可复用模板。
PM 决策启示
面试:被问”ReAct 和 Reflexion 区别是什么”——直接画范式矩阵的两行:ReAct 在反思层是”无”,Reflexion 在反思层是”强”且使用 episodic memory 持久化。然后追问任何一格都能展开。
选型:用第 5 节的决策表当起点,然后用第 3 节的组合规则校验”我打算的组合合法吗”。落地之后用 S01 Agent 六层架构剖面 的接口表逐层 review 实现。
面试反向问”为什么不用 LATS”:说出”单步成本不允许 tree search、生产环境不接受 rollout 多次”——这比说”LATS 太复杂”具体得多,证明你理解它的重心层而非只是听过名字。
架构师转型 PM:你以前讨论”控制 vs 涌现”是讨论操作系统设计或微服务架构。在 Agent 领域这个张力完全可平移——LangGraph 是 Kubernetes 风格的”声明式编排”,AutoGen 是 actor model 风格的”消息涌现”,你的旧 mental model 几乎可以直接用。
与 S01 Agent 六层架构剖面 的对话(R3 新增)
S01 给六层骨架,S02 把六种范式映射到六层。两节点必须配对阅读:
- 看一个 Agent 产品的”骨架”用 S01 § 1 架构图。
- 看一个 Agent 产品”重心层在哪、走的是什么范式”用 S02 § 1 矩阵。
- 看”层间耦合点会不会被该范式踩雷”——回 S01 § 9 三个致命耦合点。例如:Multi-Agent 范式在 S01 § 9 耦合点 1(工具层和执行层)问题被放大 N 倍(N 个 agent × 每个的重试),所以选 Multi-Agent 前必须先把”全局重试预算”做好。
关联节点
核心关联(必读):
- S01 Agent 六层架构剖面——本节点是 S01 范式版的映射
- A07 Multi-Agent Teams——本节点反共识结论”Multi-Agent 六层全重”在 A07 三题判据中落地
- m208 - AI 基础设施与中间件选型——本节点为 m208 提供”为什么 LangGraph 和 CrewAI 都存在”的范式解释
- Polanyi 默会知识与提示工程的认识论张力——§ 4 控制 vs 涌现的认识论根基
- G01 Agent 代际谱系总图——本节点的六种范式对应 G01 的五代
延伸关联(可选):
- 概念卡:Agent、Function Calling、Test-Time Compute、强化学习、幻觉
- 章节:c10 - Agent 技术栈与工具调用、c11 - System 2 思维与 Test-Time Compute、c14 - 模型评估体系与 Goodhart 陷阱、m206 - Agent 产品化:记忆机制与技术进展、m207 - Agent 产品化:场景推演与失败模式、m209 - 推理成本控制手册、m202 - 工程选型决策矩阵
- 同专题:A03 ReAct、A04 Reflexion、A05 Plan-and-Execute、A06 Orchestrator 编排器、A08 MCP 与 A2A 协议族、S03 Harness Engineering 全景
- 公司/产品:Anthropic、OpenAI、Claude、Claude Code、Manus
- 跨域:范式、霸权、Skill 系统的本质、AI概念滥用反思
- 总索引:AI PM 知识图谱·总索引
修订日志
- 2026-06-11 P3.4 校链:修订日志内简写死链
S01补全为真实节点名[S01](/kb/专题-安全对齐与失败/s01-agent-六层架构剖面/) - R3 → R4(2026-05-18):本轮聚焦反方对话训练 + Polanyi 在 LLM 时代的边界承担。修订要点:
- § 4 新增 “Polanyi 默会知识在 LLM 时代可能被部分内化” —— 反 confirmation bias 修订:承认 Polanyi 原版”默会知识完全不能显性化”是强版本,LLM 时代的 in-context learning / RLHF 显著扩大了”可显性化部分”
- § 4 新增 Polanyi 修正版本:默会知识可以被部分显性化(Level 1-2 部分),但 Level 3+ 仍无法显性化 —— 与 Dreyfus 技能分级理论联动(详见 S03 Harness Engineering 全景 § 5.4 R4 新增)
- § 4 给 PM 的具体启示:不要把”Polanyi 默会知识”当成反 LangGraph 的万能论据;问”Level 1-2 还是 Level 3+”
- 引入的对手立场:LLM 时代对 Polanyi 强版本的工程挑战、Dreyfus 技能分级理论(部分驳斥 Polanyi 强版本)
- R2 → R3(2026-05-18):聚焦判断密度提升。本轮修订要点:
- § 1 矩阵表下新增”反共识结论”段(300 字)——“Multi-Agent 是六层全重的范式,PM 默认不应选”——回应 Round 2 [失血-6]
- § 4 Polanyi 段从 50 字装饰扩展到 200 字论证”控制派的认识论挑战”——回应 Round 2 [装饰-6]
- § 4 Polanyi 段加 PM 具体启示”选 LangGraph 前先问’我的任务步骤是不是每一步都能写下来’”
- 新增 § “与 S01 的对话”,与 S01 § 9 致命耦合点联动——回应 Round 2 [对话缺失] 的 S01 ↔ S02 桥
- 关联节点分两档
- R1 → R2(2026-05-18):Round 1 同行评议未针对本节点提出具体修订项,无修订动作。
- 2026-06-12 内审修复:frontmatter 补 final_path 字段(= 本文件在库内实际相对路径)。