S02 流派架构对照表

一句话定义：把 ReAct / Plan-and-Execute / Reflexion / LATS / Multi-Agent / Computer Use 六种主流 Agent 范式映射到 S01 Agent 六层架构剖面的六层堆栈上，看每个范式”重心层”在哪里——重心决定适用场景，重心冲突决定它们为什么不能简单叠加。

0. 为什么要做这张表

c10/m206/m207 把范式当成”技术列表”列出来——你能记住名字，但你不知道什么时候选哪个、为什么不能全选。

把范式压到六层堆栈上之后，三件事立刻清楚：

每个范式在某些层”重投入”，在另一些层”近乎为零”——这是它的 DNA，不是 bug；
范式之间的组合是有序的——Computer Use 可以包在 Plan-and-Execute 外面，反过来不行；
所谓”流派之争”很多时候不是技术分歧，而是工程哲学分歧（控制 vs 涌现）——后面会展开。

1. 对照矩阵（六层 × 六范式）

强（●●●） / 中（●●○） / 弱（●○○） / 无（○○○）。每格 1-2 句简评。

范式 \ 层	感知	规划	记忆	工具	执行	反思
A03 ReAct (G1)	●○○ 纯文本输入	●○○ 隐式规划（thought 即 plan）	●○○ 上下文窗口即记忆	●●● 工具调用是核心	●○○ 简单 while-loop	○○○ 无显式反思
A05 Plan-and-Execute	●○○ 同 ReAct	●●● 显式 plan 树、可审计	●●○ plan 状态需持久化	●●● 执行子任务必需工具	●●○ 状态机 / 重规划逻辑	●○○ 重规划即弱反思
A04 Reflexion (G3)	●○○ 同 ReAct	●●○ 在 ReAct 基础上多一层 reflection-guided plan	●●● 反思笔记是长期记忆	●●● 工具调用 + 失败可学习	●●○ 需要 episodic memory 持久化	●●● 显式反思 + 反思笔记
LATS / Tree Search	●○○ 同 ReAct	●●● 显式搜索树 + 节点扩展	●●● 完整树状态 + 节点 value	●●● 工具是动作空间	●●● 树管理 / 回溯 / 剪枝	●●● 节点打分即反思（value 估计）
Multi-Agent (A07 Multi-Agent Teams)	●●○ 多 Agent 各自感知	●●● 角色分工式规划	●●● 共享 + 私有记忆	●●● 每 Agent 各有工具集	●●● 消息总线 + 协调者	●●○ 反思常委托给 critic agent
Computer Use	●●● 视觉 + DOM 双通道	●●○ 中等粒度 plan	●●○ 屏幕状态需缓存	●●● 屏幕动作是工具	●●● 高错误率需重试 / 校验	●○○ 通常弱反思

读法：先看”●●●“列在哪——那是这个范式的”重心层”。再看”●○○“列在哪——那是它要靠组合或外置补足的层。

矩阵表的反共识结论（R3 新增）

从这张表里读出来的最重要的一句话不是”每个范式有自己的重心层”——而是 Multi-Agent 是六层中除感知外全部重投入的范式。

观察矩阵第 5 行：Multi-Agent 在规划、记忆、工具、执行四层都是 ●●●，反思也是 ●●○，只有感知是 ●●○ 而非 ●●●。这意味着 Multi-Agent 的工程成本不是”在某一层多花一份钱”的单点累加，而是”在每一层都多花一份钱”的面状放大——因为每个 agent 都要有自己的规划、记忆、工具集、执行循环。

这正是为什么 Anthropic 在 Building Effective Agents 反复强调”先单 agent”——他们看到的不是”multi-agent 复杂”，而是”multi-agent 在六层架构上有六重成本”。PM 视角下，默认不应该选 Multi-Agent——除非任务确实满足 A07 Multi-Agent Teams § 三的三题判据。

这是矩阵表能给的最大反共识 takeaway——不是”挑重心层最合适的范式”，而是”避开六层全重的范式作为默认”。

2. 每范式的”重心层”如何决定适用场景

2.1 ReAct：工具层独重

ReAct 的全部聪明都在工具层——thought-action-observation 滚动续写本质是”问 LLM：基于你看到的，下一步调哪个工具”。

适用：步骤少（≤ 5）、任务边界清晰、工具集小（≤ 10）的场景。典型——客服 Agent、搜索增强问答、单步代码 lint。

不适用：步骤多（> 10）——上下文爆炸 + 复合错误（c10 § 10.3 数学：单步 95% → 10 步 60%）；需要回溯——ReAct 是单向流，回不去。

与 c10 § 10.4 的关系：c10 说”单 Agent + 多工具是最简单的架构”，那就是 ReAct。

2.2 Plan-and-Execute：规划层独重

把”想”和”做”切开——先生成完整 plan，再逐步执行。这是把 A03 ReAct 隐式的 plan 显式化。

适用：步骤多但可预先规划、任务可拆解、需要让人审核 plan（关键 HITL 断点在”规划完毕、执行前”）。典型——研究 Agent、Manus、DeerFlow。

不适用：环境高度动态（plan 还没执行完就 stale）、需要探索式试错（plan 一开始就要 commit 死）。

2.3 Reflexion：反思层独重

在 ReAct 失败后注入”反思笔记”——这一次失败的原因 / 下次如何避免——以 episodic memory 形式存到长期记忆，下次任务时检索回来。

适用：相同任务会重复出现、有训练-推理闭环、单次任务失败成本不大但累积学习价值高。典型——AlphaCode 类竞赛、自动化代码评测改进、长期客户支持知识沉淀。

不适用：一次性任务、任务高度异质（反思笔记无法迁移）、对单次正确率要求极高（反思来不及救火）。

2.4 LATS：规划层 + 反思层 + 执行层三重

把规划做成可回溯的搜索树，每个节点用 value（来自反思打分）指导扩展。本质是 MCTS（蒙特卡洛树搜索）+ LLM。

适用：搜索空间有限可枚举、单步成本不高（可以多 rollout）、对最优解的追求胜过对成本的追求。典型——SWE-bench 上的研究型方案、定理证明、复杂规划问题。

不适用：单步贵（截图任务做不起 tree search）、实时交互场景（响应延迟会炸）、生产环境（成本通常不可接受）。

2.5 Multi-Agent：执行层独重，规划/记忆中重

A07 Multi-Agent Teams 不是技术范式，更像组织范式——通过”角色分工”把单 agent 的认知过载分摊到多个 agent。CrewAI 用”角色 + 任务”语言、AutoGen 用”对话 + GroupChat”语言、DeerFlow 用”研究 / 编码 / 报告”分工。

适用：任务天然可分（研究 + 编码 + 报告）、角色边界稳定、能接受协调开销。典型——研究 Agent（DeerFlow）、复杂内容创作（多角色对话）。

不适用：任务高度耦合（拆了之后不停”互相回灌”）、上下文不能分隔（每个 agent 都要全量上下文 → 成本爆炸）、协调成本超过分工收益。

详见 m208 § 编排框架对比中关于 CrewAI / LangGraph 的选型。

2.6 Computer Use：感知层重 + 执行层重 + 工具层”用屏幕动作”

把”屏幕”当作通用接口——任何人类能用鼠标键盘做的事，理论上 Agent 都能做。

适用：目标系统无 API（遗留 ERP、老旧 CRM、个人桌面应用）、不可改造的第三方系统、需要”像人一样操作”的演示与回放。典型——Anthropic Computer Use beta、OpenAI Operator、Manus 通用任务。

不适用：有 API 时（成本差 10-100 倍，详见 m209 - 推理成本控制手册）、需要确定性时（屏幕理解错误率比 API 高一个数量级）、对延迟敏感（每步几秒到十几秒）。

m206 已明确：“Computer Use 适合无 API 的遗留系统自动化，不应该作为有 API 情况下的首选。” 本节点提供了这条结论的层级解释——Computer Use 用感知层 + 工具层的高额预算换 API 不可得的能力，能做交易就别做。

3. 范式的组合性：什么能套什么

范式不是互斥的”流派标签”，更像可叠加的”图层”。但叠加是有序的——内层应该比外层粒度更小、决策更短。

3.1 合法组合

外层	内层	实例
Plan-and-Execute	ReAct	主流。先 plan，每个子任务内部用 ReAct 跑工具
Plan-and-Execute	Computer Use	Manus 的核心模式。plan 划阶段，每阶段用浏览器执行
Multi-Agent	ReAct	CrewAI 的每个 worker 内部就是 ReAct
Multi-Agent	Reflexion	高级用法——每个 worker 是 reflexion agent，长期共享反思笔记
LATS	ReAct	LATS 的每个节点”扩展”调用一次 ReAct rollout
Reflexion	Plan-and-Execute	反思笔记里包含”上次哪一步 plan 错了”，下次 plan 时检索

3.2 不合法（或难协调）的组合

ReAct 套 Multi-Agent：单 agent 的 ReAct 循环里临时召唤多 agent，协调开销 > ReAct 本身预算
Computer Use 套 LATS：屏幕动作不可逆，无法回溯——树搜索的基本假设违反
Reflexion 套 LATS：两层都重反思，反思反思，循环难收敛

3.3 组合的元规则

外层粒度大 / 内层粒度小——plan 是粗粒度结构，ReAct 是细粒度执行。反过来会让外层无法收敛。
不可逆动作不能放在可回溯结构里——Computer Use 的”点提交按钮”不能给 LATS 试错。
反思层只能有一处——否则陷入”我在反思我的反思”无限递归。

4. 流派之争的本质：控制 vs 涌现

把范式按”显式控制”到”隐式涌现”排序：

显式控制 ←———————————————————→ 隐式涌现
LangGraph    Plan-and-Execute    ReAct    AutoGen GroupChat    LATS Tree Search
显式状态图    显式 plan tree      隐式 plan   多 agent 对话涌现   搜索 + value 涌现

LangGraph 在最左——一切边和状态都要画出来；AutoGen 的 GroupChat 偏右——“让几个 agent 讨论，看看会发生什么”；LATS 在最右——把决策权完全交给搜索 + value 估计。

这是工程哲学的两条传统：

理性主义控制论：从泰勒制、控制论（Wiener）、操作系统设计、Hashimoto 在 Hashicorp 的工具传统——一切都要可观测、可配置、可重现。落到 Agent 就是 LangGraph / Plan-and-Execute。
涌现主义系统论：从复杂适应系统（Holland）、群体智能、多主体仿真传统——少给规则、看会涌现什么。落到 Agent 就是 LATS / AutoGen GroupChat。

这两条传统不只是技术偏好——它们对应对智能本身的两种立场：

控制派认为：智能是工程结果，不可控就是不可用。
涌现派认为：智能本质上不可完全控制，过度控制等于砍掉它的能力上限。

Polanyi 给控制派的具体认识论挑战（R3 扩展，从装饰升级为论证）：这与 Polanyi 默会知识与提示工程的认识论张力同源——Polanyi 说”我们知道得比我们能说出的更多”。Polanyi 的洞察给控制派一个具体的认识论挑战：当控制派试图把所有”agent 该如何决策”都写进 plan 和 state graph 时，Polanyi 提醒我们”真正高效的判断往往无法被显式化”——老程序员看一眼代码就知道有问题，但说不清为什么；老医生看一眼病人就知道严重程度，但写不进诊断手册。

所以纯控制派 orchestrator（LangGraph）在”高度结构化任务”上是最优（API 流水线、ETL、合规审查这些每一步都可显式化的任务），但在”需要直觉的探索任务”上注定碰壁（写一篇有洞察力的报告、调试一个跨多模块的复杂 bug、设计一个新产品方案）。这就是为什么 Claude Code 即便有 plan mode，仍保留”让模型自由发挥”的余地——它知道把所有判断都显式化是 Polanyi 意义上的认识论傲慢。

对 PM 的具体启示：选 LangGraph 之前先问”我的任务步骤是不是每一步都能写下来”——如果答”不能”，说明你需要给涌现派留位置；如果硬上 LangGraph，会得到一个能跑但永远做不深的系统。

Polanyi 默会知识在 LLM 时代可能被部分内化(R4 新增 — 反 confirmation bias)

R4 修正:本节点 § 4 把 Polanyi 默会知识当成”已被验证的认识论真理”反复使用——这是 echo chamber 倾向。Polanyi 本身是 1958 年的哲学论著,在 LLM 时代的适用性其实需要重新论证:默会知识到底有多少能被 LLM 内化?多少永远漏?这是个开放问题,不是已解决的真理。

LLM 可能正在挑战 Polanyi 的强版本:

LLM 的 in-context learning 可能就是”显性化默会知识”的工程实现:你给 LLM 5-10 个 examples,它能在没见过的新场景上 generalize—— 这其实是把”过去专家的默会判断”通过 examples 显性化,让 LLM 学到。
LLM 的 RLHF/DPO 也可能内化部分默会知识:Anthropic Constitutional AI、OpenAI RLHF 都是把”人类的默会偏好”通过 reward model 编码进权重——这与 Polanyi 说的”默会知识不能被显性化”形成张力。
Hubert Dreyfus(详见 S03 Harness Engineering 全景 § 5.4 R4 新增)其实部分驳斥了 Polanyi:Dreyfus 说 LLM 永远停在 Level 1-2,但他也承认 LLM 在 Level 1-2 已经显著超越早期符号 AI——这意味着默会知识的”Level 1-2 部分”是可以被显性化的(通过 prompting、in-context learning、fine-tuning),只是 Level 3+ 部分不行。

Polanyi 在 LLM 时代需要的修正版本:

强版本(Polanyi 原意):默会知识完全不能显性化。
弱版本(R4 提议):默会知识可以被部分显性化(Level 1-2 部分),但 Level 3+ 的”直觉判断”和”专家嗅觉”仍无法显性化。LLM 时代的 in-context learning / RLHF 显著扩大了”可显性化部分”,但没有改变”不可显性化部分”的边界。

对本节点 § 4 的具体修正:

不再说”Polanyi 给控制派致命挑战”—— 改为”Polanyi 给控制派提供一个边界,但这个边界正在被 LLM 时代的工程实践不断推前”。
承认 LangGraph + LLM 的组合可能比纯 LangGraph 解决更多”需要直觉的探索任务”——前提是把直觉的”Level 1-2 部分”通过 prompting/RAG/examples 显性化,让 LLM 学到;只有 Level 3+ 部分仍需要人类介入。

对 PM 的具体启示:

在选型 LangGraph vs AutoGen 时,不要把”Polanyi 默会知识” 当成反 LangGraph 的万能论据 —— 这是对 Polanyi 的过度引用。
正确做法是问”我的任务的’直觉部分’是 Level 1-2(可通过 examples 显性化)还是 Level 3+(必须人类介入)” —— 答案不同,选型完全反向。Level 1-2 任务选 LangGraph + 好 prompt 就够;Level 3+ 任务必须设计 HITL,任何 orchestrator 都做不到完全自动化。

韦伯科层制 vs 阿伦特复多性也是同一组对照——CrewAI 的”角色 + 任务”是科层制思维（明确职责、自上而下），AutoGen GroupChat 是阿伦特意义上的”复多性涌现”（多个独立行动者在对话中产生新意义）。

参考范式章节的库恩讨论——这种工程哲学的两极对立，本质上是同一研究纲领内部的方法论分歧，不是真正的”范式革命”。真正的范式革命是 G5/G6 的”原生 agent 模型”——直接训练 LLM 自带 plan/reflect/tool-use 能力，那时控制 vs 涌现的分歧会被部分悬置。详见 G01 Agent 代际谱系总图关于 G6 的预测。

5. 选型决策表（PM 直接抄）

你的场景特征	推荐范式	内层
步骤 ≤ 5、单一目标	ReAct	—
步骤 > 10、可预先 plan、需要人工审核 plan	Plan-and-Execute	ReAct
相似任务重复出现、有学习闭环	Reflexion	Plan-and-Execute
任务可分（研究 / 编码 / 报告）、角色稳定	Multi-Agent	ReAct 或 Reflexion
目标系统无 API、必须 GUI 操作	Plan-and-Execute	Computer Use
学术研究 / 评测刷分 / 不计成本	LATS	ReAct
不知道选什么	Plan-and-Execute	ReAct

最后一行不是开玩笑——P&E + ReAct 是”中庸的好默认”，落地概率最高、debug 最容易、可演进性最强。

与已有节点的关系

对 c10 - Agent 技术栈与工具调用：c10 § 10.4 列了三种架构模式（单 Agent + 多工具 / 多 Agent 协作 / MCP），但没做范式矩阵化对比。本节点补缺。
对 m207 - Agent 产品化：场景推演与失败模式：m207 给了失败模式分类。本节点告诉你”哪些范式更易在哪一类失败上踩坑”——比如 ReAct 易在”无限循环”、Multi-Agent 易在”雪崩效应”。
对 m208 - AI 基础设施与中间件选型：m208 比较了 LangChain / LangGraph / CrewAI / Dify。本节点的范式视角解释了为什么 LangGraph 和 CrewAI 都存在却不互相替代——它们的重心层不同（LangGraph 重执行层的状态图，CrewAI 重规划层的角色分工）。
对 S01 Agent 六层架构剖面：S01 给静态分层，S02 把动态范式映射到静态分层上——配套使用。
对 Skill 系统的本质：Skill 是 procedural knowledge 的封装，可以看作”反思层的一种制度化”——把过去成功的反思笔记沉淀为可复用模板。

PM 决策启示

面试：被问”ReAct 和 Reflexion 区别是什么”——直接画范式矩阵的两行：ReAct 在反思层是”无”，Reflexion 在反思层是”强”且使用 episodic memory 持久化。然后追问任何一格都能展开。

选型：用第 5 节的决策表当起点，然后用第 3 节的组合规则校验”我打算的组合合法吗”。落地之后用 S01 Agent 六层架构剖面的接口表逐层 review 实现。

面试反向问”为什么不用 LATS”：说出”单步成本不允许 tree search、生产环境不接受 rollout 多次”——这比说”LATS 太复杂”具体得多，证明你理解它的重心层而非只是听过名字。

架构师转型 PM：你以前讨论”控制 vs 涌现”是讨论操作系统设计或微服务架构。在 Agent 领域这个张力完全可平移——LangGraph 是 Kubernetes 风格的”声明式编排”，AutoGen 是 actor model 风格的”消息涌现”，你的旧 mental model 几乎可以直接用。

与 S01 Agent 六层架构剖面的对话（R3 新增）

S01 给六层骨架，S02 把六种范式映射到六层。两节点必须配对阅读：

看一个 Agent 产品的”骨架”用 S01 § 1 架构图。
看一个 Agent 产品”重心层在哪、走的是什么范式”用 S02 § 1 矩阵。
看”层间耦合点会不会被该范式踩雷”——回 S01 § 9 三个致命耦合点。例如：Multi-Agent 范式在 S01 § 9 耦合点 1（工具层和执行层）问题被放大 N 倍（N 个 agent × 每个的重试），所以选 Multi-Agent 前必须先把”全局重试预算”做好。

关联节点

核心关联（必读）：

S01 Agent 六层架构剖面——本节点是 S01 范式版的映射
A07 Multi-Agent Teams——本节点反共识结论”Multi-Agent 六层全重”在 A07 三题判据中落地
m208 - AI 基础设施与中间件选型——本节点为 m208 提供”为什么 LangGraph 和 CrewAI 都存在”的范式解释
Polanyi 默会知识与提示工程的认识论张力——§ 4 控制 vs 涌现的认识论根基
G01 Agent 代际谱系总图——本节点的六种范式对应 G01 的五代

延伸关联（可选）：

概念卡：Agent、Function Calling、Test-Time Compute、强化学习、幻觉
章节：c10 - Agent 技术栈与工具调用、c11 - System 2 思维与 Test-Time Compute、c14 - 模型评估体系与 Goodhart 陷阱、m206 - Agent 产品化：记忆机制与技术进展、m207 - Agent 产品化：场景推演与失败模式、m209 - 推理成本控制手册、m202 - 工程选型决策矩阵
同专题：A03 ReAct、A04 Reflexion、A05 Plan-and-Execute、A06 Orchestrator 编排器、A08 MCP 与 A2A 协议族、S03 Harness Engineering 全景
公司/产品：Anthropic、OpenAI、Claude、Claude Code、Manus
跨域：范式、霸权、Skill 系统的本质、AI概念滥用反思
总索引：AI PM 知识图谱·总索引

修订日志

2026-06-11 P3.4 校链：修订日志内简写死链 S01 补全为真实节点名 [S01](/kb/专题-安全对齐与失败/s01-agent-六层架构剖面/)
R3 → R4（2026-05-18）：本轮聚焦反方对话训练 + Polanyi 在 LLM 时代的边界承担。修订要点:
1. § 4 新增 “Polanyi 默会知识在 LLM 时代可能被部分内化” —— 反 confirmation bias 修订:承认 Polanyi 原版”默会知识完全不能显性化”是强版本,LLM 时代的 in-context learning / RLHF 显著扩大了”可显性化部分”
2. § 4 新增 Polanyi 修正版本:默会知识可以被部分显性化(Level 1-2 部分),但 Level 3+ 仍无法显性化 —— 与 Dreyfus 技能分级理论联动(详见 S03 Harness Engineering 全景 § 5.4 R4 新增)
3. § 4 给 PM 的具体启示:不要把”Polanyi 默会知识”当成反 LangGraph 的万能论据;问”Level 1-2 还是 Level 3+”
4. 引入的对手立场:LLM 时代对 Polanyi 强版本的工程挑战、Dreyfus 技能分级理论(部分驳斥 Polanyi 强版本)
R2 → R3（2026-05-18）：聚焦判断密度提升。本轮修订要点：
1. § 1 矩阵表下新增”反共识结论”段（300 字）——“Multi-Agent 是六层全重的范式，PM 默认不应选”——回应 Round 2 [失血-6]
2. § 4 Polanyi 段从 50 字装饰扩展到 200 字论证”控制派的认识论挑战”——回应 Round 2 [装饰-6]
3. § 4 Polanyi 段加 PM 具体启示”选 LangGraph 前先问’我的任务步骤是不是每一步都能写下来’”
4. 新增 § “与 S01 的对话”，与 S01 § 9 致命耦合点联动——回应 Round 2 [对话缺失] 的 S01 ↔ S02 桥
5. 关联节点分两档
R1 → R2（2026-05-18）：Round 1 同行评议未针对本节点提出具体修订项，无修订动作。
2026-06-12 内审修复：frontmatter 补 final_path 字段（= 本文件在库内实际相对路径）。

S02 流派架构对照表

S02 流派架构对照表

0. 为什么要做这张表

1. 对照矩阵（六层 × 六范式）

矩阵表的反共识结论（R3 新增）

2. 每范式的”重心层”如何决定适用场景

2.1 ReAct：工具层独重

2.2 Plan-and-Execute：规划层独重

2.3 Reflexion：反思层独重

2.4 LATS：规划层 + 反思层 + 执行层三重

2.5 Multi-Agent：执行层独重，规划/记忆中重

2.6 Computer Use：感知层重 + 执行层重 + 工具层”用屏幕动作”

3. 范式的组合性：什么能套什么

3.1 合法组合

3.2 不合法（或难协调）的组合

3.3 组合的元规则

4. 流派之争的本质：控制 vs 涌现

Polanyi 默会知识在 LLM 时代可能被部分内化(R4 新增 — 反 confirmation bias)

5. 选型决策表（PM 直接抄）

与已有节点的关系

PM 决策启示

与 S01 Agent 六层架构剖面 的对话（R3 新增）

关联节点

修订日志

与 S01 Agent 六层架构剖面的对话（R3 新增）