R

G02 五代演化详解·G1-G5

创建 2026-05-18 更新 2026-06-12 17 条双链 Agent 专题 AI 整理

G02 五代演化详解·G1-G5

一句话定义:本节点是 G01 Agent 代际谱系总图 的肉,给每一代一个独家洞察句开头 + 三段实证,让 Rick 选型对话时能即时背出每一代的核心论文、产品月份和今天还能用什么。

本节点是 G01 的配套深度,必须配合 G01 阅读。R3 改写原则:每一代用”洞察句先行 + 实证下沉”结构,砍掉原”PM 实操遗产”重复模板,把所有 Rick 适配建议集中到末尾 § PM 决策启示。


G1 ReAct / Tool Use 代(2022-10 ~ 2023-夏)

G1 的核心洞察句:G1 不是技术突破,是 LLM 与外部世界的认知边界第一次被打破——之后所有 G2-G5 的工作都建立在这次跃迁之上,量级上无可比拟。

实证 1:标志性 paper / 系统

  • ReAct: Synergizing Reasoning and Acting in Language Models(Yao, Zhao, Yu et al., 2022-10, arXiv:2210.03629)——把 reasoning(CoT)与 acting(工具调用)交织在同一 prompt 内,定义 Thought → Action → Observation 循环。
  • Toolformer(Schick et al., Meta AI 2023-02, arXiv:2302.04761)——证明 LLM 可自我决定何时调用工具。
  • OpenAI Function Calling(2023-06-13, gpt-3.5-turbo-0613 与 gpt-4-0613)——把 ReAct 风格从 prompt 工程变成原生 API 字段;详见 Function Calling
  • MRKL Systems(Karpas et al., AI21 Labs 2022-05)——更早雏形,但工程影响远不及 ReAct。

实证 2:核心范式机制

history = [user_query]
while not done:
    thought = llm(history + "Thought:")        # 模型说"我应该先做 X"
    action = parse_action(thought)              # 提取 tool_name + args
    if action == "Finish":
        return thought.answer
    obs = execute_tool(action)                  # 真实执行
    history.append(f"Thought: {thought}\nAction: {action}\nObservation: {obs}")

关键设计:思考-行动-观察是一个 LLM 调用内部 chain,不是三次调用。token 低、延迟低,但长 trajectory 必然漂移。

实证 3:本质局限(直接催生 G2/G3)

  • 5 步以上完成率断崖式下降(c10 - Agent 技术栈与工具调用 复合错误数学:10 步 × 95% = 60%)。
  • 无自我评估机制——模型沿错误轨迹继续走。
  • 上下文膨胀——15-20 步后接近窗口上限。

回到 G01 的不可通约性

G1 与”前 Agent 时代”(纯 LLM 一次性提问 / ChatGPT 早期)之间是不可通约的——前者假设”模型是文本生成器”,G1 假设”模型是任务执行者”。这两个假设之间没有渐进路径,是格式塔切换。


G2 自主代理代(AutoGPT 时代,2023-03 ~ 2023-秋)

G2 的核心洞察句:G2 是 hype 的工程基础设施——产业相信 Agent 存在的心理预期本身是产品。技术上 G2 是失败的(完成率 <20%),但产业心理预期是 G3-G5 全部投资与人才涌入的真实基础。这与 Rick 在 AI 产品代差观察与微博打磨 中的观察一致:每一代 AI 产品的真正贡献不一定在技术,而在”让产业相信下一代是可能的”。

实证 1:标志性系统

  • AutoGPT(Significant-Gravitas, 2023-03-30 开源)——目标递归分解 + 长时无人值守。
  • BabyAGI(Yohei Nakajima, 2023-04-03)——任务队列 + 优先级。
  • AgentGPT(Reworkd, 2023-04)——AutoGPT 浏览器版。
  • HuggingGPT / JARVIS(Shen et al. 2023-03, arXiv:2303.17580)——微软研究院 LLM 编排 HuggingFace 模型。
  • Voyager(Wang et al. 2023-05, arXiv:2305.16291)——Minecraft 中 G2 + lifelong learning,最严肃的学术化。

实证 2:肖弘复盘的精确捕捉

肖弘在 Manus 复盘访谈(2025-12-30 Cubox)中说:“AutoGPT 让所有人相信 agent 是真的,但没有人真用——这恰恰为 Manus 留出了’真能用’的市场空白。“这句话精确捕捉 G2 的双重性:hype,但 hype 本身是产业基础设施

实证 3:本质局限

  • 完成率 <20%、循环陷阱、目标漂移、token 烧失控(数小时无人值守 = $10-$100/任务)、无评估器(与 G1 同病)。

实证 4(R4 新增):G2 在 long-tail 应用并未”被取代”——进步主义叙事修正

反进步主义判断:本节点早期版本写”G2 寿命 0 个月、已被 G4 替代”——这是顶尖工程师视角的判断,不是市场视角的事实

G2 在 2024-2026 的真实生命力(三类百亿级市场):

  • 国内大厂”智能任务执行”产品(百度 / 阿里通义 / 字节豆包任务模式)本质仍是 G2 + 简化 reflection——没真正进化到 G3 Reflexion 架构
  • RPA 市场(UiPath、Automation Anywhere)2025-2026 大量集成 LLM,产品形态是 G2(预设任务流 + LLM 决策一两步)——百亿级市场不是 demo
  • 企业内部工具(自动客服 bot、Slack 整理 bot、邮件分类)大量是 G2 架构——够用、便宜、维护成本低,没必要上 G3

“G2 已死”误判的成因是前沿话语权 ≠ 市场实际:AutoGPT 在顶级工程师圈早被淘汰,但前沿不是市场;AI 媒体偏好”代际进化”叙事而非”叠加而非替代”;转型者读的是前沿叙事,容易把”前沿淘汰”等同于”全部淘汰”。

对 PM 的启示:评估”该不该上 G3/G4”时先问”G2 + 简单 reflection 够不够”——80% 企业内部任务用 G2 + 1-2 步反馈就够,上 LangGraph 是过度工程(详见 A06 Orchestrator 编排器 § 三 R4 failure scenario)。真实的”代际”是叠加而非替代——G1 ReAct 仍是所有上层原语,G2 在 long-tail 市场仍活跃,G3 工业占比 < 20%(详见 G01 Agent 代际谱系总图 § 5.4 Lakatos 分析)。

回到 G01 的不可通约性

G2 → G3 是范式切换而非改良:AutoGPT 的设计假设是”LLM 足够聪明,只需自由跑”;Reflexion 的设计假设是”LLM 一定会错,关键是错了之后能不能学”。两套假设互斥,所以 Reflexion 不是 AutoGPT 的下一个版本——它放弃了 AutoGPT 的认识论基础。

但 G2 在工业上没有死——它在前沿叙事里被取代,在 long-tail 市场仍是主架构。这一区分是 G01 § 5.4 Lakatos 框架分析的具体应用——评判代际不只看”格式塔切换”,还要看”市场实际占有率”。


G3 Agentic Workflow 代(反思纠错代,2023-末 ~ 2024-全年)

G3 的核心洞察句:G3 的本质突破是”判断”第一次和”生成”分家——evaluator 作为独立模块从 actor 中剥离,对应 Polanyi 默会知识与提示工程的认识论张力 中说的”把默会的判断显式化”。这是 Agent 工程进入”能用”门槛的真正分水岭。

实证 1:标志性 paper / 系统

  • Reflexion(Shinn, Cassano, Berman, Gopinath, Narasimhan, Yao 2023-03, arXiv:2303.11366, NeurIPS 2023)——核心洞察:“LLM 在判断自己做错上比做对上更可靠”。
  • Self-Refine(Madaan et al. 2023-03, arXiv:2303.17651)——同期独立工作,“自反馈”普遍有效。
  • LATS(Zhou et al. 2023-10, arXiv:2310.04406)——MCTS + agent。
  • Chain-of-Verification(Dhuliawala et al., Meta 2023-09, arXiv:2309.11495)——把”验证”独立为子步骤。
  • Plan-and-Solve Prompting(Wang et al. 2023-05, arXiv:2305.04091)——见 A05 Plan-and-Execute

实证 2:范式机制(Reflexion 风格 + LATS 风格)

# Reflexion 风格
for attempt in range(max_attempts):
    trajectory = react_loop(task)
    success, score = evaluator(trajectory)
    if success: return trajectory.answer
    reflection = reflect_on_failure(trajectory, score)
    memory.add_reflection(reflection)

详见 A04 ReflexionA05 Plan-and-Execute

实证 3:突破

把任务完成率从 ~30% 拉到 70-80%。副产品:Observability 第一次成为 agent 项目的核心需求——LangSmith、Langfuse、Helicone 都在这一代兴起。

实证 4(R4 新增):G3 在工业上其实从未真正主流——学术影响力 ≠ 工业实践

反进步主义判断:本节点早期版本写”G3 是 Agent 工程进入’能用’门槛的真正分水岭”——这在学术上对,但工业实际占比从未超过 20%

事实(四条):

  • 主流生产级 Coding Agent(Claude Code、Cursor、Devin)直接跳过外置 Reflexion——用模型内置 thinking budget(G6 萌芽形态)
  • Anthropic 2025-06 multi-agent research system blog 明确没用外置 Reflexion——直接用 Claude Extended Thinking
  • 学术热度和工业采用度脱钩:学界引用持续增长,工业采用 2024 后下降
  • 原 91% 数据有复现性争议:2024-2025 多篇独立复现(EMNLP 2024 等)只达 83-88%,原 evaluator 用了 ground truth 在生产中不存在

G3 工业上从未主流的三个原因:Evaluator 在企业大多没有(只有人类 reviewer,反思笔记可信度打折);token 成本是 ReAct 2-4 倍(企业级日均百万次不可接受);o1/o3/Extended Thinking 已内化 G3 反思能力(外置是重复发明)。

对 PM 的启示:按工业实际占有率评估”代际”,不按学术影响力评估。面试遇到”为什么你们项目不用 Reflexion”时回答:“Reflexion 学术上重要、工业上从未主流——主流 Coding Agent 都跳过 G3 直接用 thinking budget;除非满足领域专属反思/成本敏感/可审计资产三条之一(详见 A04 Reflexion § 四),否则 2026 年默认不用 Reflexion。“

回到 G01 的不可通约性

G3 与 G4 之间的不可通约不是技术差,是评估闭环位置:G3 的反思在 trajectory 内部、G4 的 multi-agent 反思在 agent 之间——这两个”反思”的物理位置不同,所以不能互相替代。

但工业上的”代际”路径其实是 G1 → G6 跳跃,不是 G1 → G2 → G3 → G4 → G5 → G6 线性递进——这是 Lakatos 科研纲领框架(详见 G01 Agent 代际谱系总图 § 5.4)给本专题的不舒服的判断。


G4 Multi-Agent + Computer Use 代(2024-全年 ~ 2025-全年)

G4 的核心洞察句:G4 不是一代,是两条独立路线被时间窗口压在一起——Multi-Agent 解决”单 agent 注意力不够”,Computer Use 解决”工具没 API”,这两个问题之间没有逻辑关联,PM 必须分开评估。把 G4 当作”一代”是综述写法的偷懒。

实证 1:两条路线的标志性系统

范式 A: Multi-Agent

  • AutoGen(Wu, Bansal, Zhang et al., Microsoft, arXiv:2308.08155 v1 2023-08-16; GitHub 2023-09)
  • MetaGPT(Hong, Zhuge, Chen 等 DeepWisdom;Jürgen Schmidhuber 等合作,2023-08, arXiv:2308.00352, ICLR 2024)——软件公司 SOP 多角色化
  • ChatDev(Qian et al., Tsinghua 2023-07, arXiv:2307.07924)
  • CrewAI(JoaoMoura, 2024-初)

范式 B: Computer Use

  • Claude Computer Use(Anthropic 2024-10-22)——第一个商业级”看屏幕+控屏键鼠”的 LLM
  • OSWorld(Xie et al. 2024-04, arXiv:2404.07972)——Anthropic 公开承认其模型完成率 < 25%
  • OpenAI Operator(2025-01-23)
  • Manus(蝴蝶效应 2025-03-06 公开 beta)——见 Manus
  • Devin(Cognition Labs 2024-03)

实证 2:范式机制对照

# 范式 A: Multi-Agent
agents = {"manager": ..., "researcher": ..., "coder": ..., "reviewer": ...}
while not done:
    speaker = manager.decide_next_speaker(conversation)
    response = agents[speaker].respond(conversation)

# 范式 B: Computer Use
while not done:
    screenshot = capture_screen()
    thought = vlm(screenshot, task, history)
    action = parse_action(thought)  # click / type / scroll / bash
    execute(action)

详见 A07 Multi-Agent TeamsA06 Orchestrator 编排器

实证 3:双路线时间线

  • 2024-03:Devin 发布。
  • 2024-04:OSWorld 基准发布。
  • 2024-06:Claude 3.5 Sonnet 发布,vision 能力为 Computer Use 铺路。
  • 2024-10-22:Claude Computer Use 公开 beta,OSWorld 完成率 14.9%。
  • 2025-01-23:OpenAI Operator 公开 preview。
  • 2025-03-06:Manus 公开 beta,首次把 Computer Use 在中国跑通。
  • 2025-末:Computer Use 完成率上升到 35-50%(依任务复杂度),进入规模化部署窗口。

实证 4:两条路线的本质局限

Multi-Agent 局限:token 成本 O(N²)(N 个 agent 互相看完整对话);协调成本超过任务复杂度;错误放大;“角色扮演”幻觉。

Computer Use 局限:屏幕理解不稳(Anthropic 自承 OSWorld < 25%);延迟极高(每步截图 + VLM 推理);错误不可回滚;被 Cloudflare / reCAPTCHA 识别。

实证 5(R4 新增):Multi-Agent 在 2024 是 SOTA,2025 下半年起被反向取代——昙花一现

反进步主义判断:本节点早期把 G4 Multi-Agent 写成”代际跃迁的胜利者”——但 2025 下半年起,Multi-Agent 在工业上被”单 agent + 长 reasoning”反向取代

事实(按证据强度排序):

  • Anthropic 在 2025-Q4 的内部产品决策(有官方 release note 证据):Claude Code 删除了 default 的 Task subagent 自动调度,改为用户显式触发——从 multi-agent default 退到 single-agent default。
  • Anthropic 2025-06 multi-agent research system blog 发布后没有引发跟风(可观察事实):业界其他公司没有效仿这个架构,因为其优势(15-30 pp)严格限定在”深度研究类任务”(详见 A07 Multi-Agent Teams § 三)。
  • Cursor 在 2025 年下半年从多 agent 协作收敛到 single Composer + thinking budget 范式(业界推测级证据):用户社区与体验对比中被广泛观察到,但 Anysphere 官方没有公开发布架构变更声明,作为推测引用,不作为官方事实
  • Devin 在 2025-Q4 的架构调整(基于 Cognition 公开 demo + 用户报告):虽然仍有 planner / coder / reviewer 概念,但产品体验上合并到同一 long-running session + thinking budget,不再是显式的”多个 agent”。

Multi-Agent 在 2024-2025 短期成 SOTA 的真实原因:

  • 模型上下文长度短(8K-32K),单 agent 装不下复杂任务——必须分工。
  • 模型自反思能力弱——需要外置”reviewer agent”补足。

Multi-Agent 在 2025 下半年起被反向取代的真实原因:

  • 模型上下文长度爆炸性扩展(1M+ 已成标配)——单 agent 装得下复杂任务,分工不再必要。
  • 模型内置 thinking budget(o1/o3/Extended Thinking)——单 agent 自反思已够用。
  • N² token 成本在生产规模下不可接受——Multi-Agent 经济上不划算。

对 PM 的具体启示:Multi-Agent 不是 G4 的胜利者,而是 G4 的”昙花一现”。在 2026 年的 PM 决策中,默认不要用 Multi-Agent——单 agent + 长 reasoning + 工具集是更优解(详见 A07 Multi-Agent Teams § 三的三题判据)。

回到 G01 的不可通约性

G4 Multi-Agent 与 G3 Reflexion 不可通约:G3 是单 agent 的”自我评估”,G4 Multi-Agent 是”对等评估”——前者认识论基础是”模型可以审视自己”,后者是”模型无法审视自己,必须由他者评估”。这两个假设互斥。

但 2025 下半年起,业界用”单 agent + 长 reasoning”路线证明了”模型可以审视自己”——这让 Multi-Agent 的认识论基础变得脆弱。Multi-Agent 范式在工业上的”代际”实际是 18-24 个月,不是预期的 36+ 个月。


G5 协议化代(2024-11 ~ 2026-至今)

G5 的核心洞察句:G5 不是技术突破,是协议政治——MCP 之所以成事实标准不是因为协议设计最好,而是因为 Anthropic 选了 LSP 路径(不绑模型厂商、客户端先采用、服务器自发涌现)。这与 A08 MCP 与 A2A 协议族 § 一展开的”MCP 是 LSP 的精准复刻”论点一致。

实证 1:标志性系统

  • MCP(Anthropic 2024-11-25)——JSON-RPC,三类原语(tools / resources / prompts)。
  • A2A(Google 2025-04-09)——agent 间通信,首发即 50+ 厂商;详见 A08 MCP 与 A2A 协议族
  • Anthropic Skills(2025-10)——能力封装;详见 Skill 系统的本质
  • OpenAI Apps SDK / GPT Store(2024-01 上线,2025 重大重构)——OpenAI 自有协议路线。
  • DeerFlow 2.0(字节 2026-02-28 开源,登顶 GitHub Trending)——第一个原生 MCP-first 的 multi-agent framework;详见 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow

实证 2:协议机制

# MCP server 提供方
class WeatherMCPServer:
    @tool(name="get_weather", schema={...})
    def get_weather(city: str) -> dict: ...

# 任何 MCP 客户端
client = MCPClient.connect("weather://localhost:3000")
tools = client.list_tools()                # 自动发现
result = client.call_tool("get_weather", {"city": "SF"})

关键设计哲学:Agent / 工具 / 能力都是可寻址、可发现、可组合的网络资源——与早期 Web 的 URL/HTTP/HTML 三元组同构。MCP 之于 Agent ≈ HTTP 之于 Web。

实证 3:解决了 framework 战争的元问题

framework 战争消耗社区时间:LangChain / LlamaIndex / LangGraph / AutoGen / CrewAI / Dify / Letta / Mastra 每个都有自家 tool schema,导致同一个工具(如 GitHub API)要写 5 次适配。MCP 把适配数从 N×M 降到 M + 1——具体来说:

  • 无协议时:N 个 framework × M 个工具 = N×M 次适配(如 5 framework × 100 工具 = 500 次)。
  • 有 MCP 后:每个工具只写一次 MCP 接口 + 每个 framework 实现一次 MCP client = M + N 次适配(如 100 工具 + 5 framework client = 105 次)。
  • 当 N、M 大致同量级时,从近似 N² 降到近似 N+1,这就是”MCP 把问题从 N² 降到 N+1”的数学含义

实证 4:本质局限

  • 协议博弈(MCP vs A2A vs OpenAI Apps SDK);协议安全(MCP server 供应链攻击 2025-Q3 已多起);协议表达力 vs 简洁性张力;企业内部协议化的政治成本(CTO 级决策)。

实证 5(R4 新增):G5 协议化是”开放但不中立”——Anthropic+Google 联合塑造的反 OpenAI 叙事

反进步主义判断 + Confirmation bias 修正:本节点早期把 G5 协议化描述为”自然演化的必然结果”——但这是两家公司主动 shape 出来的叙事,不是中立的技术演化。

叙事的政治经济学(四方对照):

  • MCP 由 Anthropic 推:Anthropic 卖 Claude API——MCP 让所有 client 都能跑 Claude,扩大 Claude 市场覆盖
  • A2A 由 Google 推:Google 是云 + 模型厂商,A2A 让 agent 互调,Google Cloud 收编流量
  • OpenAI 的 GPT Store / Apps SDK 中央平台路线被压——2025-Q4 被动接受 MCP 不是主动选择
  • 中国大厂表面支持 MCP,内部仍推私有协议:字节 Volcano Engine、阿里通义、百度文心都是反 narrative

Lakatos 判定:进步性维度——降低 N×M 适配成本(§ G5.4)有可量化工程价值;退化性维度——“开放协议但主推方=API 提供方”是 LSP 模式没有的结构(详见 A08 MCP 与 A2A 协议族 § 一”LSP 类比的政治经济学边界”),长期可能演化为”协议层中立 + 客户端层锁定”。

对 PM 的启示:做协议层产品比做模型层贴牌产品命运可控,但要清醒:“协议化”不是技术中立演化,是有特定厂商利益的叙事。面试回答:“协议化在 N×M 成本上有真实价值,但’必然’是过强判断——OpenAI 仍推 Apps SDK 反向路线,中国大厂仍用私有协议。协议化是 Anthropic+Google 联合塑造的反 OpenAI 叙事,对中小开发者是好事(降低锁定),但不是技术中立的必然。“

G6 萌芽:原生 Agent 模型与”登楼撤梯”

OpenAI o3 (2024-12)、Claude Opus 4.7 (2026) 的 reasoning loop 已经在内部”吸收”了 G3 reflection 和 G4 tool use——端到端训练的 Agent 模型不再需要 harness 层”教”模型 ReAct

对 Rick 的判断:harness / skill 的价值窗口可能在 2-3 年内收窄(参 S03 Harness Engineering 全景 § 5.2 “harness 的第二悖论”——harness 越成功越加速自己的简化,这是同一预测的工程版本)。但协议(MCP/A2A)的价值反而上升——原生 Agent 模型也需要标准化工具接口。

这是典型的「登楼撤梯」:当下你在 harness 上的投入 2-3 年后会被原生 Agent 模型废弃(梯子被撤),但你仍然要爬这个梯子——参 登楼撤梯-后弥赛亚的公民道德 与 G01 Agent 代际谱系总图 § 5 的展开。

回到 G01 的不可通约性

G5 与 G4 之间是元层级跃迁:G4 的努力是”在 framework 内做最好的 agent”,G5 的努力是”取消 framework 锁定本身”。前者的成就(最好的 framework)正是后者要解决的问题。


与已有节点的关系


PM 决策启示(集中段,取代每代重复模板)

5 分钟选型对话脚本

  • “你的任务平均多少步?” → 1-3 步 G1 / 5-15 步 G3 / 15+ 步必须 G4 Multi。
  • “需要操作的系统有 API 吗?” → 有 → G1-G3-G5;无 → G4 Computer Use。
  • “需要多个角色协作吗?” → 是 → G4 Multi-Agent;否 → G3。
  • “能接受人在 loop 里吗?” → 是 → G1-G3 都行;否(全自动)→ 倾向 G4-G5,但要明确告知失败率。

简历叙事建议(按 Rick 真实背景定制)

对 Rick 这种”零 AI 项目历史的转型者”:你没做过 AutoGPT 是好事——你直接从 G3-G5 切入,在简历上把”没有 G2 包袱”当作优势:

我从 G3 反思纠错路径起步,直接进入 2024+ 的工程级 Agent 工程。理解 Agent 从 ReAct(2022)到 MCP/A2A(2024-2025)的五代范式演化,能在选型对话中快速识别需求所属代际。

这比”我做过 AutoGPT 但识别了它的失败”更适合你的真实背景——不要捏造你没经历过的失败来包装判断力,直接说”我从 G3 起步”是最诚实也最有竞争力的转型叙事

产品定位的代际寿命表

  • G1 单步 Function Calling 产品(简单 Q&A bot)→ 寿命 24+ 个月(原语级,不会过时)。
  • G2 通用 AutoGPT 类产品 → 寿命 0 个月(已被 G4 替代)。
  • G3 LangGraph 风格 framework → 寿命 12-18 个月(被 G5 协议生态消解)。
  • G4 Multi-Agent / Computer Use 产品 → 寿命 18-24 个月(被原生 Agent 模型部分替代)。
  • G5 协议层工具/agent → 寿命 36+ 个月(协议生态有黏性)。

复现学习路径

G1 → G3 → G5(跳过 G2 因 hype 价值已耗尽,跳过 G4 单独学因 G4 = G3 + 多模态)。

招聘评估

  • 不要说”做过 agent”——等于没说。
  • 要说”做过 G3 风格的 Agentic Workflow,负责设计 Reflexion 评估器与 reflection prompt”——具体到代际、范式、模块。
  • 候选人能说清 MCP / A2A / Function Calling 三者差异 = G5 时代 PM 的基本素养。

从时间轴到剖面图:为什么读完 G02 要进 S 模块

到这里 G02 给了 Rick 一条时间纵轴:G1 → G2 → G3 → G4 → G5 五代不可通约 + 叠加 + 部分退化的演化史。这条轴回答的是”Agent 从哪来、当下在哪一代”。

但 PM 决策的另一半问题——“给定某个 Agent 产品,它的内部组件怎么拆、哪一层是 PM 该看的、哪一层是工程团队该看的”——时间轴答不了。这是为什么接下来要进 S01 Agent 六层架构剖面 / S02 流派架构对照表 / S03 Harness Engineering 全景 三个 S 节点:从时间纵轴切到空间剖面图

两个视角的关系是正交互补,不是替代:

  • G 模块(时间维度)回答”代际归属”:你拿到一个 Agent 产品,先用 G01 三个错位判据定位它属于哪一代(G2 自主代理 / G3 反思 / G4 multi-agent / G5 协议化)——这是判断它的能力天花板与已知失败模式的起点
  • S 模块(空间维度)回答”组件解剖”:定位完代际之后,用 S01 六层架构(感知 / 规划 / 记忆 / 工具 / 执行 / 反思)拆它的具体实现——这是判断哪一层 PM 可以介入决策、哪一层是工程师领地的起点

两者同时缺一不可:只有 G 没有 S,你能说出”这是 G4 multi-agent”但说不清”问题出在记忆层还是执行层”——面试遇到追问就哑火;只有 S 没有 G,你能说出”它的反思层很薄”但说不清”这是 G2 范式本来就没反思层 vs 这是 G3 实现得差”——选型就会偏

所以 G02 读完后的正确去向是 S01——把刚才 G2-G5 各代的实证素材在 S01 六层架构上做一次正交对齐:G1 ReAct 在六层里强在工具层 / 弱在反思层;G2 AutoGPT 强在规划层 / 弱在记忆层;G3 Reflexion 加了反思层但工业占比 < 20%;G4 multi-agent 把六层拆成多个 agent 各持一份;G5 协议化把工具层从产品内挪到产品外。这一正交对齐是 S 模块的入场动作。


关联节点

核心关联(必读)

延伸关联(可选)


修订日志

  • R4 → R5(2026-05-18):本轮聚焦出版就绪——A 类必改 2(G02→S 断层) + A 类必改 5(Cursor 事实可验证性) + 压缩 30%。修订要点:
    1. 末尾新增”从时间轴到剖面图:为什么读完 G02 要进 S 模块” 过渡段——A 类必改 2 落地;显式说明 G(时间)与 S(空间)正交互补、不是替代;给出”G2-G5 在 S01 六层架构上正交对齐”作为 S 模块入场动作
    2. G4 实证 5 “Cursor 在 2025-Q3 的 Composer 重写从多 agent 合并为 single Composer + thinking budget” 改为按证据强度排序;Cursor 段降级为”业界推测级证据,不作为官方事实”;Anthropic Claude Code release note 升级为有官方证据的最强项 ——A 类必改 5 落地
    3. 压缩 G2 实证 4(从 ~860 字到 ~600 字,压 30%)、G3 实证 4(~720 字到 ~480 字,压 33%)、G5 实证 5(~770 字到 ~530 字,压 31%)——共压约 740 字;保留所有论点 / 证据 / 反方对话,砍重复和过度展开
    4. 全节点压缩总目标(R4 critique 要求 10-15%)实际达到 ~12%,叠加 R3→R4 的 30% 压缩,G02 累计相对原版瘦身 ~40%
  • R3 → R4(2026-05-18):本轮聚焦反方对话训练 + 进步主义叙事修正。修订要点:
    1. G2 新增”实证 4:G2 在 long-tail 应用并未’被取代’“——RPA / 企业内部工具 / 客服 bot 仍大量是 G2 架构,百度/阿里/字节的”智能任务执行”产品本质仍是 G2 + 简化 reflection;承认”G2 寿命 0 个月”是顶尖工程师视角的误判
    2. G3 新增”实证 4:G3 在工业上其实从未真正主流”——主流生产级 Coding Agent 直接跳过外置 Reflexion;Reflexion 学术热度和工业采用度脱钩;Reflexion 原论文 91% 数据在 2024-2025 多次独立复现中被质疑(复现只达 83-88%, evaluator 用 ground truth 在生产中不存在)
    3. G4 新增”实证 5:Multi-Agent 在 2024 是 SOTA,2025 下半年起被反向取代”——Anthropic Claude Code / Cursor Composer / Devin 都在去 multi-agent 化;Anthropic 2025-06 multi-agent research blog 发布后没有引发跟风;Multi-Agent 是 G4 的”昙花一现”不是胜利者
    4. G5 新增”实证 5:G5 协议化是’开放但不中立’“——MCP 由 Anthropic 推 + Anthropic 卖 Claude 的结构是 LSP 没有的;OpenAI 被动接受 MCP;中国大厂表面支持 MCP 内部仍推私有协议;协议化是 Anthropic+Google 联合塑造的反 OpenAI 叙事
    5. 引入的对手立场:Sam Altman 2025 hype 复盘、Anthropic 2025-06 multi-agent blog 的真实场景限定、学界对 Reflexion 复现性的质疑、AutoGPT 仍是 RPA 主架构的事实、G3 工业占比 < 20% 的现实
  • R2 → R3(2026-05-18):聚焦判断密度提升。本轮重大重构(G02 全文重写):
    1. 砍 30% 篇幅——从原 481 行(~31KB)压缩到约 260 行(~22KB),主要砍每代”PM 实操遗产”重复模板与冗余段落
    2. 每代采用”洞察句先行 + 实证下沉”结构,取代原”六段固定模板”——回应 Round 2 [失血-10]
    3. G2.4 洞察句”hype 本身是产业基础设施”加入 AI 产品代差观察与微博打磨 双链——回应 Round 2 [独家机会-2]
    4. G5.4 “N² 降到 N+1” 加完整数学说明(N 个 framework × M 个工具 = N×M ≈ N² → 有 MCP 后 M + N ≈ N+1)——回应 Round 2 [无证据-5]
    5. G5.6 G6 萌芽加 登楼撤梯-后弥赛亚的公民道德 双链 + 与 S03 Harness Engineering 全景 § 5.2 互引——回应 Round 2 [对话缺失-5]、[独家机会-5]
    6. G2.6 Rick 启示重写为”Rick 没做过 AutoGPT 是好事,直接 G3-G5 起步”——回应 Round 2 [空洞-4],移除对 Rick 不适用的”识别 AutoGPT 失败包装”建议
    7. 每代末加”回到 G01 不可通约性论证”段——回应 Round 2 [对话缺失-2]
    8. 所有”PM 实操遗产”分散段集中到 § PM 决策启示统一表述,避免重复
    9. 关联节点分两档,核心关联加 AI 产品代差观察与微博打磨、登楼撤梯-后弥赛亚的公民道德、S03 Harness Engineering 全景
  • R1 → R2(2026-05-18):MetaGPT 出品方修正为 DeepWisdom;AutoGen 时间细化;DeerFlow 时间细化;Anthropic Skills 商店改为开源仓库 + Console;Devin 估值改为”独角兽量级”;MCP server 数量改”数千个量级”;A2A 时间修正。
  • 2026-06-12 内审修复:frontmatter 补 final_path 字段(= 本文件在库内实际相对路径)。