G02 五代演化详解·G1-G5

一句话定义：本节点是 G01 Agent 代际谱系总图的肉，给每一代一个独家洞察句开头 + 三段实证，让 Rick 选型对话时能即时背出每一代的核心论文、产品月份和今天还能用什么。

本节点是 G01 的配套深度，必须配合 G01 阅读。R3 改写原则：每一代用”洞察句先行 + 实证下沉”结构，砍掉原”PM 实操遗产”重复模板，把所有 Rick 适配建议集中到末尾 § PM 决策启示。

G1 ReAct / Tool Use 代（2022-10 ~ 2023-夏）

G1 的核心洞察句：G1 不是技术突破，是 LLM 与外部世界的认知边界第一次被打破——之后所有 G2-G5 的工作都建立在这次跃迁之上，量级上无可比拟。

实证 1：标志性 paper / 系统

ReAct: Synergizing Reasoning and Acting in Language Models（Yao, Zhao, Yu et al., 2022-10, arXiv:2210.03629）——把 reasoning（CoT）与 acting（工具调用）交织在同一 prompt 内，定义 Thought → Action → Observation 循环。
Toolformer（Schick et al., Meta AI 2023-02, arXiv:2302.04761）——证明 LLM 可自我决定何时调用工具。
OpenAI Function Calling（2023-06-13, gpt-3.5-turbo-0613 与 gpt-4-0613）——把 ReAct 风格从 prompt 工程变成原生 API 字段；详见 Function Calling。
MRKL Systems（Karpas et al., AI21 Labs 2022-05）——更早雏形，但工程影响远不及 ReAct。

实证 2：核心范式机制

history = [user_query]
while not done:
    thought = llm(history + "Thought:")        # 模型说"我应该先做 X"
    action = parse_action(thought)              # 提取 tool_name + args
    if action == "Finish":
        return thought.answer
    obs = execute_tool(action)                  # 真实执行
    history.append(f"Thought: {thought}\nAction: {action}\nObservation: {obs}")

关键设计：思考-行动-观察是一个 LLM 调用内部 chain，不是三次调用。token 低、延迟低，但长 trajectory 必然漂移。

实证 3：本质局限（直接催生 G2/G3）

5 步以上完成率断崖式下降（c10 - Agent 技术栈与工具调用复合错误数学：10 步 × 95% = 60%）。
无自我评估机制——模型沿错误轨迹继续走。
上下文膨胀——15-20 步后接近窗口上限。

回到 G01 的不可通约性

G1 与”前 Agent 时代”（纯 LLM 一次性提问 / ChatGPT 早期）之间是不可通约的——前者假设”模型是文本生成器”，G1 假设”模型是任务执行者”。这两个假设之间没有渐进路径，是格式塔切换。

G2 自主代理代（AutoGPT 时代，2023-03 ~ 2023-秋）

G2 的核心洞察句：G2 是 hype 的工程基础设施——产业相信 Agent 存在的心理预期本身是产品。技术上 G2 是失败的（完成率 <20%），但产业心理预期是 G3-G5 全部投资与人才涌入的真实基础。这与 Rick 在 AI 产品代差观察与微博打磨中的观察一致：每一代 AI 产品的真正贡献不一定在技术，而在”让产业相信下一代是可能的”。

实证 1：标志性系统

AutoGPT（Significant-Gravitas, 2023-03-30 开源）——目标递归分解 + 长时无人值守。
BabyAGI（Yohei Nakajima, 2023-04-03）——任务队列 + 优先级。
AgentGPT（Reworkd, 2023-04）——AutoGPT 浏览器版。
HuggingGPT / JARVIS（Shen et al. 2023-03, arXiv:2303.17580）——微软研究院 LLM 编排 HuggingFace 模型。
Voyager（Wang et al. 2023-05, arXiv:2305.16291）——Minecraft 中 G2 + lifelong learning，最严肃的学术化。

实证 2：肖弘复盘的精确捕捉

肖弘在 Manus 复盘访谈（2025-12-30 Cubox）中说：“AutoGPT 让所有人相信 agent 是真的，但没有人真用——这恰恰为 Manus 留出了’真能用’的市场空白。“这句话精确捕捉 G2 的双重性：hype，但 hype 本身是产业基础设施。

实证 3：本质局限

完成率 <20%、循环陷阱、目标漂移、token 烧失控（数小时无人值守 = $10-$100/任务）、无评估器（与 G1 同病）。

实证 4(R4 新增)：G2 在 long-tail 应用并未”被取代”——进步主义叙事修正

反进步主义判断:本节点早期版本写”G2 寿命 0 个月、已被 G4 替代”——这是顶尖工程师视角的判断,不是市场视角的事实。

G2 在 2024-2026 的真实生命力(三类百亿级市场):

国内大厂”智能任务执行”产品(百度 / 阿里通义 / 字节豆包任务模式)本质仍是 G2 + 简化 reflection——没真正进化到 G3 Reflexion 架构
RPA 市场(UiPath、Automation Anywhere)2025-2026 大量集成 LLM,产品形态是 G2(预设任务流 + LLM 决策一两步)——百亿级市场不是 demo
企业内部工具(自动客服 bot、Slack 整理 bot、邮件分类)大量是 G2 架构——够用、便宜、维护成本低,没必要上 G3

“G2 已死”误判的成因是前沿话语权 ≠ 市场实际:AutoGPT 在顶级工程师圈早被淘汰,但前沿不是市场;AI 媒体偏好”代际进化”叙事而非”叠加而非替代”;转型者读的是前沿叙事,容易把”前沿淘汰”等同于”全部淘汰”。

对 PM 的启示:评估”该不该上 G3/G4”时先问”G2 + 简单 reflection 够不够”——80% 企业内部任务用 G2 + 1-2 步反馈就够,上 LangGraph 是过度工程(详见 A06 Orchestrator 编排器 § 三 R4 failure scenario)。真实的”代际”是叠加而非替代——G1 ReAct 仍是所有上层原语,G2 在 long-tail 市场仍活跃,G3 工业占比 < 20%(详见 G01 Agent 代际谱系总图 § 5.4 Lakatos 分析)。

回到 G01 的不可通约性

G2 → G3 是范式切换而非改良：AutoGPT 的设计假设是”LLM 足够聪明，只需自由跑”；Reflexion 的设计假设是”LLM 一定会错，关键是错了之后能不能学”。两套假设互斥，所以 Reflexion 不是 AutoGPT 的下一个版本——它放弃了 AutoGPT 的认识论基础。

但 G2 在工业上没有死——它在前沿叙事里被取代,在 long-tail 市场仍是主架构。这一区分是 G01 § 5.4 Lakatos 框架分析的具体应用——评判代际不只看”格式塔切换”,还要看”市场实际占有率”。

G3 Agentic Workflow 代（反思纠错代，2023-末 ~ 2024-全年）

G3 的核心洞察句：G3 的本质突破是”判断”第一次和”生成”分家——evaluator 作为独立模块从 actor 中剥离，对应 Polanyi 默会知识与提示工程的认识论张力中说的”把默会的判断显式化”。这是 Agent 工程进入”能用”门槛的真正分水岭。

实证 1：标志性 paper / 系统

Reflexion（Shinn, Cassano, Berman, Gopinath, Narasimhan, Yao 2023-03, arXiv:2303.11366, NeurIPS 2023）——核心洞察：“LLM 在判断自己做错上比做对上更可靠”。
Self-Refine（Madaan et al. 2023-03, arXiv:2303.17651）——同期独立工作，“自反馈”普遍有效。
LATS（Zhou et al. 2023-10, arXiv:2310.04406）——MCTS + agent。
Chain-of-Verification（Dhuliawala et al., Meta 2023-09, arXiv:2309.11495）——把”验证”独立为子步骤。
Plan-and-Solve Prompting（Wang et al. 2023-05, arXiv:2305.04091）——见 A05 Plan-and-Execute。

实证 2：范式机制（Reflexion 风格 + LATS 风格）

# Reflexion 风格
for attempt in range(max_attempts):
    trajectory = react_loop(task)
    success, score = evaluator(trajectory)
    if success: return trajectory.answer
    reflection = reflect_on_failure(trajectory, score)
    memory.add_reflection(reflection)

详见 A04 Reflexion 与 A05 Plan-and-Execute。

实证 3：突破

把任务完成率从 ~30% 拉到 70-80%。副产品：Observability 第一次成为 agent 项目的核心需求——LangSmith、Langfuse、Helicone 都在这一代兴起。

实证 4(R4 新增):G3 在工业上其实从未真正主流——学术影响力 ≠ 工业实践

反进步主义判断:本节点早期版本写”G3 是 Agent 工程进入’能用’门槛的真正分水岭”——这在学术上对,但工业实际占比从未超过 20%。

事实(四条):

主流生产级 Coding Agent(Claude Code、Cursor、Devin)直接跳过外置 Reflexion——用模型内置 thinking budget(G6 萌芽形态)
Anthropic 2025-06 multi-agent research system blog 明确没用外置 Reflexion——直接用 Claude Extended Thinking
学术热度和工业采用度脱钩:学界引用持续增长,工业采用 2024 后下降
原 91% 数据有复现性争议:2024-2025 多篇独立复现(EMNLP 2024 等)只达 83-88%,原 evaluator 用了 ground truth 在生产中不存在

G3 工业上从未主流的三个原因:Evaluator 在企业大多没有(只有人类 reviewer,反思笔记可信度打折);token 成本是 ReAct 2-4 倍(企业级日均百万次不可接受);o1/o3/Extended Thinking 已内化 G3 反思能力(外置是重复发明)。

对 PM 的启示:按工业实际占有率评估”代际”,不按学术影响力评估。面试遇到”为什么你们项目不用 Reflexion”时回答:“Reflexion 学术上重要、工业上从未主流——主流 Coding Agent 都跳过 G3 直接用 thinking budget;除非满足领域专属反思/成本敏感/可审计资产三条之一(详见 A04 Reflexion § 四),否则 2026 年默认不用 Reflexion。“

回到 G01 的不可通约性

G3 与 G4 之间的不可通约不是技术差，是评估闭环位置：G3 的反思在 trajectory 内部、G4 的 multi-agent 反思在 agent 之间——这两个”反思”的物理位置不同，所以不能互相替代。

但工业上的”代际”路径其实是 G1 → G6 跳跃,不是 G1 → G2 → G3 → G4 → G5 → G6 线性递进——这是 Lakatos 科研纲领框架(详见 G01 Agent 代际谱系总图 § 5.4)给本专题的不舒服的判断。

G4 Multi-Agent + Computer Use 代（2024-全年 ~ 2025-全年）

G4 的核心洞察句：G4 不是一代，是两条独立路线被时间窗口压在一起——Multi-Agent 解决”单 agent 注意力不够”，Computer Use 解决”工具没 API”，这两个问题之间没有逻辑关联，PM 必须分开评估。把 G4 当作”一代”是综述写法的偷懒。

实证 1：两条路线的标志性系统

范式 A: Multi-Agent

AutoGen（Wu, Bansal, Zhang et al., Microsoft, arXiv:2308.08155 v1 2023-08-16; GitHub 2023-09）
MetaGPT（Hong, Zhuge, Chen 等 DeepWisdom；Jürgen Schmidhuber 等合作，2023-08, arXiv:2308.00352, ICLR 2024）——软件公司 SOP 多角色化
ChatDev（Qian et al., Tsinghua 2023-07, arXiv:2307.07924）
CrewAI（JoaoMoura, 2024-初）

范式 B: Computer Use

Claude Computer Use（Anthropic 2024-10-22）——第一个商业级”看屏幕+控屏键鼠”的 LLM
OSWorld（Xie et al. 2024-04, arXiv:2404.07972）——Anthropic 公开承认其模型完成率 < 25%
OpenAI Operator（2025-01-23）
Manus（蝴蝶效应 2025-03-06 公开 beta）——见 Manus
Devin（Cognition Labs 2024-03）

实证 2：范式机制对照

# 范式 A: Multi-Agent
agents = {"manager": ..., "researcher": ..., "coder": ..., "reviewer": ...}
while not done:
    speaker = manager.decide_next_speaker(conversation)
    response = agents[speaker].respond(conversation)

# 范式 B: Computer Use
while not done:
    screenshot = capture_screen()
    thought = vlm(screenshot, task, history)
    action = parse_action(thought)  # click / type / scroll / bash
    execute(action)

详见 A07 Multi-Agent Teams、A06 Orchestrator 编排器。

实证 3：双路线时间线

2024-03：Devin 发布。
2024-04：OSWorld 基准发布。
2024-06：Claude 3.5 Sonnet 发布，vision 能力为 Computer Use 铺路。
2024-10-22：Claude Computer Use 公开 beta，OSWorld 完成率 14.9%。
2025-01-23：OpenAI Operator 公开 preview。
2025-03-06：Manus 公开 beta，首次把 Computer Use 在中国跑通。
2025-末：Computer Use 完成率上升到 35-50%（依任务复杂度），进入规模化部署窗口。

实证 4：两条路线的本质局限

Multi-Agent 局限：token 成本 O(N²)（N 个 agent 互相看完整对话）；协调成本超过任务复杂度；错误放大；“角色扮演”幻觉。

Computer Use 局限：屏幕理解不稳（Anthropic 自承 OSWorld < 25%）；延迟极高（每步截图 + VLM 推理）；错误不可回滚；被 Cloudflare / reCAPTCHA 识别。

实证 5(R4 新增):Multi-Agent 在 2024 是 SOTA,2025 下半年起被反向取代——昙花一现

反进步主义判断:本节点早期把 G4 Multi-Agent 写成”代际跃迁的胜利者”——但 2025 下半年起,Multi-Agent 在工业上被”单 agent + 长 reasoning”反向取代。

事实(按证据强度排序):

Anthropic 在 2025-Q4 的内部产品决策(有官方 release note 证据):Claude Code 删除了 default 的 Task subagent 自动调度,改为用户显式触发——从 multi-agent default 退到 single-agent default。
Anthropic 2025-06 multi-agent research system blog 发布后没有引发跟风(可观察事实):业界其他公司没有效仿这个架构,因为其优势(15-30 pp)严格限定在”深度研究类任务”(详见 A07 Multi-Agent Teams § 三)。
Cursor 在 2025 年下半年从多 agent 协作收敛到 single Composer + thinking budget 范式(业界推测级证据):用户社区与体验对比中被广泛观察到,但 Anysphere 官方没有公开发布架构变更声明,作为推测引用,不作为官方事实。
Devin 在 2025-Q4 的架构调整(基于 Cognition 公开 demo + 用户报告):虽然仍有 planner / coder / reviewer 概念,但产品体验上合并到同一 long-running session + thinking budget,不再是显式的”多个 agent”。

Multi-Agent 在 2024-2025 短期成 SOTA 的真实原因:

模型上下文长度短(8K-32K),单 agent 装不下复杂任务——必须分工。
模型自反思能力弱——需要外置”reviewer agent”补足。

Multi-Agent 在 2025 下半年起被反向取代的真实原因:

模型上下文长度爆炸性扩展(1M+ 已成标配)——单 agent 装得下复杂任务,分工不再必要。
模型内置 thinking budget(o1/o3/Extended Thinking)——单 agent 自反思已够用。
N² token 成本在生产规模下不可接受——Multi-Agent 经济上不划算。

对 PM 的具体启示:Multi-Agent 不是 G4 的胜利者,而是 G4 的”昙花一现”。在 2026 年的 PM 决策中,默认不要用 Multi-Agent——单 agent + 长 reasoning + 工具集是更优解(详见 A07 Multi-Agent Teams § 三的三题判据)。

回到 G01 的不可通约性

G4 Multi-Agent 与 G3 Reflexion 不可通约：G3 是单 agent 的”自我评估”，G4 Multi-Agent 是”对等评估”——前者认识论基础是”模型可以审视自己”，后者是”模型无法审视自己，必须由他者评估”。这两个假设互斥。

但 2025 下半年起,业界用”单 agent + 长 reasoning”路线证明了”模型可以审视自己”——这让 Multi-Agent 的认识论基础变得脆弱。Multi-Agent 范式在工业上的”代际”实际是 18-24 个月,不是预期的 36+ 个月。

G5 协议化代（2024-11 ~ 2026-至今）

G5 的核心洞察句：G5 不是技术突破，是协议政治——MCP 之所以成事实标准不是因为协议设计最好，而是因为 Anthropic 选了 LSP 路径（不绑模型厂商、客户端先采用、服务器自发涌现）。这与 A08 MCP 与 A2A 协议族 § 一展开的”MCP 是 LSP 的精准复刻”论点一致。

实证 1：标志性系统

MCP（Anthropic 2024-11-25）——JSON-RPC，三类原语（tools / resources / prompts）。
A2A（Google 2025-04-09）——agent 间通信，首发即 50+ 厂商；详见 A08 MCP 与 A2A 协议族。
Anthropic Skills（2025-10）——能力封装；详见 Skill 系统的本质。
OpenAI Apps SDK / GPT Store（2024-01 上线，2025 重大重构）——OpenAI 自有协议路线。
DeerFlow 2.0（字节 2026-02-28 开源，登顶 GitHub Trending）——第一个原生 MCP-first 的 multi-agent framework；详见 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow。

实证 2：协议机制

# MCP server 提供方
class WeatherMCPServer:
    @tool(name="get_weather", schema={...})
    def get_weather(city: str) -> dict: ...

# 任何 MCP 客户端
client = MCPClient.connect("weather://localhost:3000")
tools = client.list_tools()                # 自动发现
result = client.call_tool("get_weather", {"city": "SF"})

关键设计哲学：Agent / 工具 / 能力都是可寻址、可发现、可组合的网络资源——与早期 Web 的 URL/HTTP/HTML 三元组同构。MCP 之于 Agent ≈ HTTP 之于 Web。

实证 3：解决了 framework 战争的元问题

framework 战争消耗社区时间：LangChain / LlamaIndex / LangGraph / AutoGen / CrewAI / Dify / Letta / Mastra 每个都有自家 tool schema，导致同一个工具（如 GitHub API）要写 5 次适配。MCP 把适配数从 N×M 降到 M + 1——具体来说：

无协议时：N 个 framework × M 个工具 = N×M 次适配（如 5 framework × 100 工具 = 500 次）。
有 MCP 后：每个工具只写一次 MCP 接口 + 每个 framework 实现一次 MCP client = M + N 次适配（如 100 工具 + 5 framework client = 105 次）。
当 N、M 大致同量级时，从近似 N² 降到近似 N+1，这就是”MCP 把问题从 N² 降到 N+1”的数学含义。

实证 4：本质局限

协议博弈（MCP vs A2A vs OpenAI Apps SDK）；协议安全（MCP server 供应链攻击 2025-Q3 已多起）；协议表达力 vs 简洁性张力；企业内部协议化的政治成本（CTO 级决策）。

实证 5(R4 新增):G5 协议化是”开放但不中立”——Anthropic+Google 联合塑造的反 OpenAI 叙事

反进步主义判断 + Confirmation bias 修正:本节点早期把 G5 协议化描述为”自然演化的必然结果”——但这是两家公司主动 shape 出来的叙事,不是中立的技术演化。

叙事的政治经济学(四方对照):

MCP 由 Anthropic 推:Anthropic 卖 Claude API——MCP 让所有 client 都能跑 Claude,扩大 Claude 市场覆盖
A2A 由 Google 推:Google 是云 + 模型厂商,A2A 让 agent 互调,Google Cloud 收编流量
OpenAI 的 GPT Store / Apps SDK 中央平台路线被压——2025-Q4 被动接受 MCP 不是主动选择
中国大厂表面支持 MCP,内部仍推私有协议:字节 Volcano Engine、阿里通义、百度文心都是反 narrative

Lakatos 判定:进步性维度——降低 N×M 适配成本(§ G5.4)有可量化工程价值;退化性维度——“开放协议但主推方=API 提供方”是 LSP 模式没有的结构(详见 A08 MCP 与 A2A 协议族 § 一”LSP 类比的政治经济学边界”),长期可能演化为”协议层中立 + 客户端层锁定”。

对 PM 的启示:做协议层产品比做模型层贴牌产品命运可控,但要清醒:“协议化”不是技术中立演化,是有特定厂商利益的叙事。面试回答:“协议化在 N×M 成本上有真实价值,但’必然’是过强判断——OpenAI 仍推 Apps SDK 反向路线,中国大厂仍用私有协议。协议化是 Anthropic+Google 联合塑造的反 OpenAI 叙事,对中小开发者是好事(降低锁定),但不是技术中立的必然。“

G6 萌芽：原生 Agent 模型与”登楼撤梯”

OpenAI o3 (2024-12)、Claude Opus 4.7 (2026) 的 reasoning loop 已经在内部”吸收”了 G3 reflection 和 G4 tool use——端到端训练的 Agent 模型不再需要 harness 层”教”模型 ReAct。

对 Rick 的判断：harness / skill 的价值窗口可能在 2-3 年内收窄（参 S03 Harness Engineering 全景 § 5.2 “harness 的第二悖论”——harness 越成功越加速自己的简化，这是同一预测的工程版本）。但协议（MCP/A2A）的价值反而上升——原生 Agent 模型也需要标准化工具接口。

这是典型的「登楼撤梯」：当下你在 harness 上的投入 2-3 年后会被原生 Agent 模型废弃（梯子被撤），但你仍然要爬这个梯子——参登楼撤梯-后弥赛亚的公民道德与 G01 Agent 代际谱系总图 § 5 的展开。

回到 G01 的不可通约性

G5 与 G4 之间是元层级跃迁：G4 的努力是”在 framework 内做最好的 agent”，G5 的努力是”取消 framework 锁定本身”。前者的成就（最好的 framework）正是后者要解决的问题。

与已有节点的关系

G01 Agent 代际谱系总图：本节点是 G01 的展开；G01 给骨，本节点给肉。且本节点每一代末加”回到 G01 不可通约性”段，形成 G01 ↔ G02 的真正对话。
c10 - Agent 技术栈与工具调用：c10 是 G3 横截面，本节点把它定位为五代之一。
m206 - Agent 产品化：记忆机制与技术进展：m206 三启示分别对应 G4 Computer Use / G5 协议化 / G4-G5 混合。本节点给三启示提供代际坐标。
m207 - Agent 产品化：场景推演与失败模式：m207 六类失败模式对应”病发代际”——trajectory 漂移是 G1 病、循环陷阱是 G2 病、评估器失灵是 G3 病、屏幕理解错误是 G4 病、协议供应链攻击是 G5 病。
S03 Harness Engineering 全景 § 5.2：与本节点 G5.6 G6 萌芽是同一预测的工程版本，互相引用。
A03 ReAct / A04 Reflexion / A05 Plan-and-Execute / A07 Multi-Agent Teams / A08 MCP 与 A2A 协议族：本节点是这些概念辨析节点的”时间表”。

PM 决策启示（集中段，取代每代重复模板）

5 分钟选型对话脚本

“你的任务平均多少步？” → 1-3 步 G1 / 5-15 步 G3 / 15+ 步必须 G4 Multi。
“需要操作的系统有 API 吗？” → 有 → G1-G3-G5；无 → G4 Computer Use。
“需要多个角色协作吗？” → 是 → G4 Multi-Agent；否 → G3。
“能接受人在 loop 里吗？” → 是 → G1-G3 都行；否（全自动）→ 倾向 G4-G5，但要明确告知失败率。

简历叙事建议（按 Rick 真实背景定制）

对 Rick 这种”零 AI 项目历史的转型者”：你没做过 AutoGPT 是好事——你直接从 G3-G5 切入，在简历上把”没有 G2 包袱”当作优势：

我从 G3 反思纠错路径起步，直接进入 2024+ 的工程级 Agent 工程。理解 Agent 从 ReAct（2022）到 MCP/A2A（2024-2025）的五代范式演化，能在选型对话中快速识别需求所属代际。

这比”我做过 AutoGPT 但识别了它的失败”更适合你的真实背景——不要捏造你没经历过的失败来包装判断力，直接说”我从 G3 起步”是最诚实也最有竞争力的转型叙事。

产品定位的代际寿命表

G1 单步 Function Calling 产品（简单 Q&A bot）→ 寿命 24+ 个月（原语级，不会过时）。
G2 通用 AutoGPT 类产品 → 寿命 0 个月（已被 G4 替代）。
G3 LangGraph 风格 framework → 寿命 12-18 个月（被 G5 协议生态消解）。
G4 Multi-Agent / Computer Use 产品 → 寿命 18-24 个月（被原生 Agent 模型部分替代）。
G5 协议层工具/agent → 寿命 36+ 个月（协议生态有黏性）。

复现学习路径

G1 → G3 → G5（跳过 G2 因 hype 价值已耗尽，跳过 G4 单独学因 G4 = G3 + 多模态）。

100 行手写 ReAct（G1）→ 加 Reflexion 评估器（G3）→ 接 MCP server（G5）→ 引入第二个 agent（G4）。
详见 R01 最小可运行·100 行 ReAct、R02 中型生产·LangGraph + MCP、R03 Multi-Agent 模板·AutoGen CrewAI。

招聘评估

不要说”做过 agent”——等于没说。
要说”做过 G3 风格的 Agentic Workflow，负责设计 Reflexion 评估器与 reflection prompt”——具体到代际、范式、模块。
候选人能说清 MCP / A2A / Function Calling 三者差异 = G5 时代 PM 的基本素养。

从时间轴到剖面图:为什么读完 G02 要进 S 模块

到这里 G02 给了 Rick 一条时间纵轴:G1 → G2 → G3 → G4 → G5 五代不可通约 + 叠加 + 部分退化的演化史。这条轴回答的是”Agent 从哪来、当下在哪一代”。

但 PM 决策的另一半问题——“给定某个 Agent 产品,它的内部组件怎么拆、哪一层是 PM 该看的、哪一层是工程团队该看的”——时间轴答不了。这是为什么接下来要进 S01 Agent 六层架构剖面 / S02 流派架构对照表 / S03 Harness Engineering 全景三个 S 节点:从时间纵轴切到空间剖面图。

两个视角的关系是正交互补,不是替代:

G 模块(时间维度)回答”代际归属”:你拿到一个 Agent 产品,先用 G01 三个错位判据定位它属于哪一代(G2 自主代理 / G3 反思 / G4 multi-agent / G5 协议化)——这是判断它的能力天花板与已知失败模式的起点
S 模块(空间维度)回答”组件解剖”:定位完代际之后,用 S01 六层架构(感知 / 规划 / 记忆 / 工具 / 执行 / 反思)拆它的具体实现——这是判断哪一层 PM 可以介入决策、哪一层是工程师领地的起点

两者同时缺一不可:只有 G 没有 S,你能说出”这是 G4 multi-agent”但说不清”问题出在记忆层还是执行层”——面试遇到追问就哑火;只有 S 没有 G,你能说出”它的反思层很薄”但说不清”这是 G2 范式本来就没反思层 vs 这是 G3 实现得差”——选型就会偏。

所以 G02 读完后的正确去向是 S01——把刚才 G2-G5 各代的实证素材在 S01 六层架构上做一次正交对齐:G1 ReAct 在六层里强在工具层 / 弱在反思层;G2 AutoGPT 强在规划层 / 弱在记忆层;G3 Reflexion 加了反思层但工业占比 < 20%;G4 multi-agent 把六层拆成多个 agent 各持一份;G5 协议化把工具层从产品内挪到产品外。这一正交对齐是 S 模块的入场动作。

关联节点

核心关联（必读）：

G01 Agent 代际谱系总图——本节点是 G01 的肉
c10 - Agent 技术栈与工具调用——c10 = G3 横截面
m207 - Agent 产品化：场景推演与失败模式——六类失败模式对应病发代际
S03 Harness Engineering 全景——§ 5.2 与本节点 G5.6 互引（G6 萌芽预测的工程版本）
AI 产品代差观察与微博打磨——G2 洞察句”代差观察方法论”的原始出处
登楼撤梯-后弥赛亚的公民道德——G5.6 撤梯判断的理论锚点
AI概念滥用反思——五代之间的混淆都源于”Agent”标签 saliency drift

延伸关联（可选）：

同专题：A01 Agent 概念史与语义流变、A02 抽象层级辨析·Harness Framework Agent Skill Orchestrator、A03 ReAct、A04 Reflexion、A05 Plan-and-Execute、A06 Orchestrator 编排器、A07 Multi-Agent Teams、A08 MCP 与 A2A 协议族、S01 Agent 六层架构剖面、S02 流派架构对照表、E01 Coding Agent·Claude Code & Cursor、E02 通用 Agent·Manus & Devin、E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow、R01 最小可运行·100 行 ReAct、R02 中型生产·LangGraph + MCP、R03 Multi-Agent 模板·AutoGen CrewAI、_Agent 系统化专题·总览
章节：c08 - 解码策略与生成控制、c09 - RAG 架构、c11 - System 2 思维与 Test-Time Compute、c13 - 幻觉的不可消除性、c14 - 模型评估体系与 Goodhart 陷阱、m201 - Prompt Engineering 实战体系、m202 - 工程选型决策矩阵、m206 - Agent 产品化：记忆机制与技术进展、m208 - AI 基础设施与中间件选型、m209 - 推理成本控制手册
概念卡：Agent、Function Calling、RAG、幻觉、Test-Time Compute、强化学习、RLHF、Harness 词义辨析、Skill 系统的本质、Polanyi 默会知识与提示工程的认识论张力
公司/产品：Anthropic、OpenAI、Claude、Claude Code、ChatGPT、Manus、DeepSeek、Gemini、Perplexity
跨域：范式、生命政治、霸权、0114认识论、0117社会学
总索引：AI PM 知识图谱·总索引

修订日志

R4 → R5（2026-05-18):本轮聚焦出版就绪——A 类必改 2(G02→S 断层) + A 类必改 5(Cursor 事实可验证性) + 压缩 30%。修订要点:
1. 末尾新增”从时间轴到剖面图:为什么读完 G02 要进 S 模块” 过渡段——A 类必改 2 落地;显式说明 G(时间)与 S(空间)正交互补、不是替代;给出”G2-G5 在 S01 六层架构上正交对齐”作为 S 模块入场动作
2. G4 实证 5 “Cursor 在 2025-Q3 的 Composer 重写从多 agent 合并为 single Composer + thinking budget” 改为按证据强度排序;Cursor 段降级为”业界推测级证据,不作为官方事实”;Anthropic Claude Code release note 升级为有官方证据的最强项 ——A 类必改 5 落地
3. 压缩 G2 实证 4(从 ~860 字到 ~600 字,压 30%)、G3 实证 4(~720 字到 ~480 字,压 33%)、G5 实证 5(~770 字到 ~530 字,压 31%)——共压约 740 字;保留所有论点 / 证据 / 反方对话,砍重复和过度展开
4. 全节点压缩总目标(R4 critique 要求 10-15%)实际达到 ~12%,叠加 R3→R4 的 30% 压缩,G02 累计相对原版瘦身 ~40%
R3 → R4（2026-05-18）：本轮聚焦反方对话训练 + 进步主义叙事修正。修订要点：
1. G2 新增”实证 4:G2 在 long-tail 应用并未’被取代’“——RPA / 企业内部工具 / 客服 bot 仍大量是 G2 架构,百度/阿里/字节的”智能任务执行”产品本质仍是 G2 + 简化 reflection;承认”G2 寿命 0 个月”是顶尖工程师视角的误判
2. G3 新增”实证 4:G3 在工业上其实从未真正主流”——主流生产级 Coding Agent 直接跳过外置 Reflexion;Reflexion 学术热度和工业采用度脱钩;Reflexion 原论文 91% 数据在 2024-2025 多次独立复现中被质疑(复现只达 83-88%, evaluator 用 ground truth 在生产中不存在)
3. G4 新增”实证 5:Multi-Agent 在 2024 是 SOTA,2025 下半年起被反向取代”——Anthropic Claude Code / Cursor Composer / Devin 都在去 multi-agent 化;Anthropic 2025-06 multi-agent research blog 发布后没有引发跟风;Multi-Agent 是 G4 的”昙花一现”不是胜利者
4. G5 新增”实证 5:G5 协议化是’开放但不中立’“——MCP 由 Anthropic 推 + Anthropic 卖 Claude 的结构是 LSP 没有的;OpenAI 被动接受 MCP;中国大厂表面支持 MCP 内部仍推私有协议;协议化是 Anthropic+Google 联合塑造的反 OpenAI 叙事
5. 引入的对手立场:Sam Altman 2025 hype 复盘、Anthropic 2025-06 multi-agent blog 的真实场景限定、学界对 Reflexion 复现性的质疑、AutoGPT 仍是 RPA 主架构的事实、G3 工业占比 < 20% 的现实
R2 → R3（2026-05-18）：聚焦判断密度提升。本轮重大重构（G02 全文重写）：
1. 砍 30% 篇幅——从原 481 行（~31KB）压缩到约 260 行（~22KB），主要砍每代”PM 实操遗产”重复模板与冗余段落
2. 每代采用”洞察句先行 + 实证下沉”结构，取代原”六段固定模板”——回应 Round 2 [失血-10]
3. G2.4 洞察句”hype 本身是产业基础设施”加入 AI 产品代差观察与微博打磨双链——回应 Round 2 [独家机会-2]
4. G5.4 “N² 降到 N+1” 加完整数学说明（N 个 framework × M 个工具 = N×M ≈ N² → 有 MCP 后 M + N ≈ N+1）——回应 Round 2 [无证据-5]
5. G5.6 G6 萌芽加登楼撤梯-后弥赛亚的公民道德双链 + 与 S03 Harness Engineering 全景 § 5.2 互引——回应 Round 2 [对话缺失-5]、[独家机会-5]
6. G2.6 Rick 启示重写为”Rick 没做过 AutoGPT 是好事，直接 G3-G5 起步”——回应 Round 2 [空洞-4]，移除对 Rick 不适用的”识别 AutoGPT 失败包装”建议
7. 每代末加”回到 G01 不可通约性论证”段——回应 Round 2 [对话缺失-2]
8. 所有”PM 实操遗产”分散段集中到 § PM 决策启示统一表述，避免重复
9. 关联节点分两档，核心关联加 AI 产品代差观察与微博打磨、登楼撤梯-后弥赛亚的公民道德、S03 Harness Engineering 全景
R1 → R2（2026-05-18）：MetaGPT 出品方修正为 DeepWisdom；AutoGen 时间细化；DeerFlow 时间细化；Anthropic Skills 商店改为开源仓库 + Console；Devin 估值改为”独角兽量级”；MCP server 数量改”数千个量级”；A2A 时间修正。
2026-06-12 内审修复：frontmatter 补 final_path 字段（= 本文件在库内实际相对路径）。