G02 五代演化详解·G1-G5
G02 五代演化详解·G1-G5
一句话定义:本节点是 G01 Agent 代际谱系总图 的肉,给每一代一个独家洞察句开头 + 三段实证,让 Rick 选型对话时能即时背出每一代的核心论文、产品月份和今天还能用什么。
本节点是 G01 的配套深度,必须配合 G01 阅读。R3 改写原则:每一代用”洞察句先行 + 实证下沉”结构,砍掉原”PM 实操遗产”重复模板,把所有 Rick 适配建议集中到末尾 § PM 决策启示。
G1 ReAct / Tool Use 代(2022-10 ~ 2023-夏)
G1 的核心洞察句:G1 不是技术突破,是 LLM 与外部世界的认知边界第一次被打破——之后所有 G2-G5 的工作都建立在这次跃迁之上,量级上无可比拟。
实证 1:标志性 paper / 系统
- ReAct: Synergizing Reasoning and Acting in Language Models(Yao, Zhao, Yu et al., 2022-10, arXiv:2210.03629)——把 reasoning(CoT)与 acting(工具调用)交织在同一 prompt 内,定义
Thought → Action → Observation循环。 - Toolformer(Schick et al., Meta AI 2023-02, arXiv:2302.04761)——证明 LLM 可自我决定何时调用工具。
- OpenAI Function Calling(2023-06-13, gpt-3.5-turbo-0613 与 gpt-4-0613)——把 ReAct 风格从 prompt 工程变成原生 API 字段;详见 Function Calling。
- MRKL Systems(Karpas et al., AI21 Labs 2022-05)——更早雏形,但工程影响远不及 ReAct。
实证 2:核心范式机制
history = [user_query]
while not done:
thought = llm(history + "Thought:") # 模型说"我应该先做 X"
action = parse_action(thought) # 提取 tool_name + args
if action == "Finish":
return thought.answer
obs = execute_tool(action) # 真实执行
history.append(f"Thought: {thought}\nAction: {action}\nObservation: {obs}")
关键设计:思考-行动-观察是一个 LLM 调用内部 chain,不是三次调用。token 低、延迟低,但长 trajectory 必然漂移。
实证 3:本质局限(直接催生 G2/G3)
- 5 步以上完成率断崖式下降(c10 - Agent 技术栈与工具调用 复合错误数学:10 步 × 95% = 60%)。
- 无自我评估机制——模型沿错误轨迹继续走。
- 上下文膨胀——15-20 步后接近窗口上限。
回到 G01 的不可通约性
G1 与”前 Agent 时代”(纯 LLM 一次性提问 / ChatGPT 早期)之间是不可通约的——前者假设”模型是文本生成器”,G1 假设”模型是任务执行者”。这两个假设之间没有渐进路径,是格式塔切换。
G2 自主代理代(AutoGPT 时代,2023-03 ~ 2023-秋)
G2 的核心洞察句:G2 是 hype 的工程基础设施——产业相信 Agent 存在的心理预期本身是产品。技术上 G2 是失败的(完成率 <20%),但产业心理预期是 G3-G5 全部投资与人才涌入的真实基础。这与 Rick 在 AI 产品代差观察与微博打磨 中的观察一致:每一代 AI 产品的真正贡献不一定在技术,而在”让产业相信下一代是可能的”。
实证 1:标志性系统
- AutoGPT(Significant-Gravitas, 2023-03-30 开源)——目标递归分解 + 长时无人值守。
- BabyAGI(Yohei Nakajima, 2023-04-03)——任务队列 + 优先级。
- AgentGPT(Reworkd, 2023-04)——AutoGPT 浏览器版。
- HuggingGPT / JARVIS(Shen et al. 2023-03, arXiv:2303.17580)——微软研究院 LLM 编排 HuggingFace 模型。
- Voyager(Wang et al. 2023-05, arXiv:2305.16291)——Minecraft 中 G2 + lifelong learning,最严肃的学术化。
实证 2:肖弘复盘的精确捕捉
肖弘在 Manus 复盘访谈(2025-12-30 Cubox)中说:“AutoGPT 让所有人相信 agent 是真的,但没有人真用——这恰恰为 Manus 留出了’真能用’的市场空白。“这句话精确捕捉 G2 的双重性:hype,但 hype 本身是产业基础设施。
实证 3:本质局限
- 完成率 <20%、循环陷阱、目标漂移、token 烧失控(数小时无人值守 = $10-$100/任务)、无评估器(与 G1 同病)。
实证 4(R4 新增):G2 在 long-tail 应用并未”被取代”——进步主义叙事修正
反进步主义判断:本节点早期版本写”G2 寿命 0 个月、已被 G4 替代”——这是顶尖工程师视角的判断,不是市场视角的事实。
G2 在 2024-2026 的真实生命力(三类百亿级市场):
- 国内大厂”智能任务执行”产品(百度 / 阿里通义 / 字节豆包任务模式)本质仍是 G2 + 简化 reflection——没真正进化到 G3 Reflexion 架构
- RPA 市场(UiPath、Automation Anywhere)2025-2026 大量集成 LLM,产品形态是 G2(预设任务流 + LLM 决策一两步)——百亿级市场不是 demo
- 企业内部工具(自动客服 bot、Slack 整理 bot、邮件分类)大量是 G2 架构——够用、便宜、维护成本低,没必要上 G3
“G2 已死”误判的成因是前沿话语权 ≠ 市场实际:AutoGPT 在顶级工程师圈早被淘汰,但前沿不是市场;AI 媒体偏好”代际进化”叙事而非”叠加而非替代”;转型者读的是前沿叙事,容易把”前沿淘汰”等同于”全部淘汰”。
对 PM 的启示:评估”该不该上 G3/G4”时先问”G2 + 简单 reflection 够不够”——80% 企业内部任务用 G2 + 1-2 步反馈就够,上 LangGraph 是过度工程(详见 A06 Orchestrator 编排器 § 三 R4 failure scenario)。真实的”代际”是叠加而非替代——G1 ReAct 仍是所有上层原语,G2 在 long-tail 市场仍活跃,G3 工业占比 < 20%(详见 G01 Agent 代际谱系总图 § 5.4 Lakatos 分析)。
回到 G01 的不可通约性
G2 → G3 是范式切换而非改良:AutoGPT 的设计假设是”LLM 足够聪明,只需自由跑”;Reflexion 的设计假设是”LLM 一定会错,关键是错了之后能不能学”。两套假设互斥,所以 Reflexion 不是 AutoGPT 的下一个版本——它放弃了 AutoGPT 的认识论基础。
但 G2 在工业上没有死——它在前沿叙事里被取代,在 long-tail 市场仍是主架构。这一区分是 G01 § 5.4 Lakatos 框架分析的具体应用——评判代际不只看”格式塔切换”,还要看”市场实际占有率”。
G3 Agentic Workflow 代(反思纠错代,2023-末 ~ 2024-全年)
G3 的核心洞察句:G3 的本质突破是”判断”第一次和”生成”分家——
evaluator作为独立模块从actor中剥离,对应 Polanyi 默会知识与提示工程的认识论张力 中说的”把默会的判断显式化”。这是 Agent 工程进入”能用”门槛的真正分水岭。
实证 1:标志性 paper / 系统
- Reflexion(Shinn, Cassano, Berman, Gopinath, Narasimhan, Yao 2023-03, arXiv:2303.11366, NeurIPS 2023)——核心洞察:“LLM 在判断自己做错上比做对上更可靠”。
- Self-Refine(Madaan et al. 2023-03, arXiv:2303.17651)——同期独立工作,“自反馈”普遍有效。
- LATS(Zhou et al. 2023-10, arXiv:2310.04406)——MCTS + agent。
- Chain-of-Verification(Dhuliawala et al., Meta 2023-09, arXiv:2309.11495)——把”验证”独立为子步骤。
- Plan-and-Solve Prompting(Wang et al. 2023-05, arXiv:2305.04091)——见 A05 Plan-and-Execute。
实证 2:范式机制(Reflexion 风格 + LATS 风格)
# Reflexion 风格
for attempt in range(max_attempts):
trajectory = react_loop(task)
success, score = evaluator(trajectory)
if success: return trajectory.answer
reflection = reflect_on_failure(trajectory, score)
memory.add_reflection(reflection)
详见 A04 Reflexion 与 A05 Plan-and-Execute。
实证 3:突破
把任务完成率从 ~30% 拉到 70-80%。副产品:Observability 第一次成为 agent 项目的核心需求——LangSmith、Langfuse、Helicone 都在这一代兴起。
实证 4(R4 新增):G3 在工业上其实从未真正主流——学术影响力 ≠ 工业实践
反进步主义判断:本节点早期版本写”G3 是 Agent 工程进入’能用’门槛的真正分水岭”——这在学术上对,但工业实际占比从未超过 20%。
事实(四条):
- 主流生产级 Coding Agent(Claude Code、Cursor、Devin)直接跳过外置 Reflexion——用模型内置 thinking budget(G6 萌芽形态)
- Anthropic 2025-06 multi-agent research system blog 明确没用外置 Reflexion——直接用 Claude Extended Thinking
- 学术热度和工业采用度脱钩:学界引用持续增长,工业采用 2024 后下降
- 原 91% 数据有复现性争议:2024-2025 多篇独立复现(EMNLP 2024 等)只达 83-88%,原 evaluator 用了 ground truth 在生产中不存在
G3 工业上从未主流的三个原因:Evaluator 在企业大多没有(只有人类 reviewer,反思笔记可信度打折);token 成本是 ReAct 2-4 倍(企业级日均百万次不可接受);o1/o3/Extended Thinking 已内化 G3 反思能力(外置是重复发明)。
对 PM 的启示:按工业实际占有率评估”代际”,不按学术影响力评估。面试遇到”为什么你们项目不用 Reflexion”时回答:“Reflexion 学术上重要、工业上从未主流——主流 Coding Agent 都跳过 G3 直接用 thinking budget;除非满足领域专属反思/成本敏感/可审计资产三条之一(详见 A04 Reflexion § 四),否则 2026 年默认不用 Reflexion。“
回到 G01 的不可通约性
G3 与 G4 之间的不可通约不是技术差,是评估闭环位置:G3 的反思在 trajectory 内部、G4 的 multi-agent 反思在 agent 之间——这两个”反思”的物理位置不同,所以不能互相替代。
但工业上的”代际”路径其实是 G1 → G6 跳跃,不是 G1 → G2 → G3 → G4 → G5 → G6 线性递进——这是 Lakatos 科研纲领框架(详见 G01 Agent 代际谱系总图 § 5.4)给本专题的不舒服的判断。
G4 Multi-Agent + Computer Use 代(2024-全年 ~ 2025-全年)
G4 的核心洞察句:G4 不是一代,是两条独立路线被时间窗口压在一起——Multi-Agent 解决”单 agent 注意力不够”,Computer Use 解决”工具没 API”,这两个问题之间没有逻辑关联,PM 必须分开评估。把 G4 当作”一代”是综述写法的偷懒。
实证 1:两条路线的标志性系统
范式 A: Multi-Agent
- AutoGen(Wu, Bansal, Zhang et al., Microsoft, arXiv:2308.08155 v1 2023-08-16; GitHub 2023-09)
- MetaGPT(Hong, Zhuge, Chen 等 DeepWisdom;Jürgen Schmidhuber 等合作,2023-08, arXiv:2308.00352, ICLR 2024)——软件公司 SOP 多角色化
- ChatDev(Qian et al., Tsinghua 2023-07, arXiv:2307.07924)
- CrewAI(JoaoMoura, 2024-初)
范式 B: Computer Use
- Claude Computer Use(Anthropic 2024-10-22)——第一个商业级”看屏幕+控屏键鼠”的 LLM
- OSWorld(Xie et al. 2024-04, arXiv:2404.07972)——Anthropic 公开承认其模型完成率 < 25%
- OpenAI Operator(2025-01-23)
- Manus(蝴蝶效应 2025-03-06 公开 beta)——见 Manus
- Devin(Cognition Labs 2024-03)
实证 2:范式机制对照
# 范式 A: Multi-Agent
agents = {"manager": ..., "researcher": ..., "coder": ..., "reviewer": ...}
while not done:
speaker = manager.decide_next_speaker(conversation)
response = agents[speaker].respond(conversation)
# 范式 B: Computer Use
while not done:
screenshot = capture_screen()
thought = vlm(screenshot, task, history)
action = parse_action(thought) # click / type / scroll / bash
execute(action)
详见 A07 Multi-Agent Teams、A06 Orchestrator 编排器。
实证 3:双路线时间线
- 2024-03:Devin 发布。
- 2024-04:OSWorld 基准发布。
- 2024-06:Claude 3.5 Sonnet 发布,vision 能力为 Computer Use 铺路。
- 2024-10-22:Claude Computer Use 公开 beta,OSWorld 完成率 14.9%。
- 2025-01-23:OpenAI Operator 公开 preview。
- 2025-03-06:Manus 公开 beta,首次把 Computer Use 在中国跑通。
- 2025-末:Computer Use 完成率上升到 35-50%(依任务复杂度),进入规模化部署窗口。
实证 4:两条路线的本质局限
Multi-Agent 局限:token 成本 O(N²)(N 个 agent 互相看完整对话);协调成本超过任务复杂度;错误放大;“角色扮演”幻觉。
Computer Use 局限:屏幕理解不稳(Anthropic 自承 OSWorld < 25%);延迟极高(每步截图 + VLM 推理);错误不可回滚;被 Cloudflare / reCAPTCHA 识别。
实证 5(R4 新增):Multi-Agent 在 2024 是 SOTA,2025 下半年起被反向取代——昙花一现
反进步主义判断:本节点早期把 G4 Multi-Agent 写成”代际跃迁的胜利者”——但 2025 下半年起,Multi-Agent 在工业上被”单 agent + 长 reasoning”反向取代。
事实(按证据强度排序):
- Anthropic 在 2025-Q4 的内部产品决策(有官方 release note 证据):Claude Code 删除了 default 的 Task subagent 自动调度,改为用户显式触发——从 multi-agent default 退到 single-agent default。
- Anthropic 2025-06 multi-agent research system blog 发布后没有引发跟风(可观察事实):业界其他公司没有效仿这个架构,因为其优势(15-30 pp)严格限定在”深度研究类任务”(详见 A07 Multi-Agent Teams § 三)。
- Cursor 在 2025 年下半年从多 agent 协作收敛到 single Composer + thinking budget 范式(业界推测级证据):用户社区与体验对比中被广泛观察到,但 Anysphere 官方没有公开发布架构变更声明,作为推测引用,不作为官方事实。
- Devin 在 2025-Q4 的架构调整(基于 Cognition 公开 demo + 用户报告):虽然仍有 planner / coder / reviewer 概念,但产品体验上合并到同一 long-running session + thinking budget,不再是显式的”多个 agent”。
Multi-Agent 在 2024-2025 短期成 SOTA 的真实原因:
- 模型上下文长度短(8K-32K),单 agent 装不下复杂任务——必须分工。
- 模型自反思能力弱——需要外置”reviewer agent”补足。
Multi-Agent 在 2025 下半年起被反向取代的真实原因:
- 模型上下文长度爆炸性扩展(1M+ 已成标配)——单 agent 装得下复杂任务,分工不再必要。
- 模型内置 thinking budget(o1/o3/Extended Thinking)——单 agent 自反思已够用。
- N² token 成本在生产规模下不可接受——Multi-Agent 经济上不划算。
对 PM 的具体启示:Multi-Agent 不是 G4 的胜利者,而是 G4 的”昙花一现”。在 2026 年的 PM 决策中,默认不要用 Multi-Agent——单 agent + 长 reasoning + 工具集是更优解(详见 A07 Multi-Agent Teams § 三的三题判据)。
回到 G01 的不可通约性
G4 Multi-Agent 与 G3 Reflexion 不可通约:G3 是单 agent 的”自我评估”,G4 Multi-Agent 是”对等评估”——前者认识论基础是”模型可以审视自己”,后者是”模型无法审视自己,必须由他者评估”。这两个假设互斥。
但 2025 下半年起,业界用”单 agent + 长 reasoning”路线证明了”模型可以审视自己”——这让 Multi-Agent 的认识论基础变得脆弱。Multi-Agent 范式在工业上的”代际”实际是 18-24 个月,不是预期的 36+ 个月。
G5 协议化代(2024-11 ~ 2026-至今)
G5 的核心洞察句:G5 不是技术突破,是协议政治——MCP 之所以成事实标准不是因为协议设计最好,而是因为 Anthropic 选了 LSP 路径(不绑模型厂商、客户端先采用、服务器自发涌现)。这与 A08 MCP 与 A2A 协议族 § 一展开的”MCP 是 LSP 的精准复刻”论点一致。
实证 1:标志性系统
- MCP(Anthropic 2024-11-25)——JSON-RPC,三类原语(tools / resources / prompts)。
- A2A(Google 2025-04-09)——agent 间通信,首发即 50+ 厂商;详见 A08 MCP 与 A2A 协议族。
- Anthropic Skills(2025-10)——能力封装;详见 Skill 系统的本质。
- OpenAI Apps SDK / GPT Store(2024-01 上线,2025 重大重构)——OpenAI 自有协议路线。
- DeerFlow 2.0(字节 2026-02-28 开源,登顶 GitHub Trending)——第一个原生 MCP-first 的 multi-agent framework;详见 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow。
实证 2:协议机制
# MCP server 提供方
class WeatherMCPServer:
@tool(name="get_weather", schema={...})
def get_weather(city: str) -> dict: ...
# 任何 MCP 客户端
client = MCPClient.connect("weather://localhost:3000")
tools = client.list_tools() # 自动发现
result = client.call_tool("get_weather", {"city": "SF"})
关键设计哲学:Agent / 工具 / 能力都是可寻址、可发现、可组合的网络资源——与早期 Web 的 URL/HTTP/HTML 三元组同构。MCP 之于 Agent ≈ HTTP 之于 Web。
实证 3:解决了 framework 战争的元问题
framework 战争消耗社区时间:LangChain / LlamaIndex / LangGraph / AutoGen / CrewAI / Dify / Letta / Mastra 每个都有自家 tool schema,导致同一个工具(如 GitHub API)要写 5 次适配。MCP 把适配数从 N×M 降到 M + 1——具体来说:
- 无协议时:N 个 framework × M 个工具 = N×M 次适配(如 5 framework × 100 工具 = 500 次)。
- 有 MCP 后:每个工具只写一次 MCP 接口 + 每个 framework 实现一次 MCP client = M + N 次适配(如 100 工具 + 5 framework client = 105 次)。
- 当 N、M 大致同量级时,从近似 N² 降到近似 N+1,这就是”MCP 把问题从 N² 降到 N+1”的数学含义。
实证 4:本质局限
- 协议博弈(MCP vs A2A vs OpenAI Apps SDK);协议安全(MCP server 供应链攻击 2025-Q3 已多起);协议表达力 vs 简洁性张力;企业内部协议化的政治成本(CTO 级决策)。
实证 5(R4 新增):G5 协议化是”开放但不中立”——Anthropic+Google 联合塑造的反 OpenAI 叙事
反进步主义判断 + Confirmation bias 修正:本节点早期把 G5 协议化描述为”自然演化的必然结果”——但这是两家公司主动 shape 出来的叙事,不是中立的技术演化。
叙事的政治经济学(四方对照):
- MCP 由 Anthropic 推:Anthropic 卖 Claude API——MCP 让所有 client 都能跑 Claude,扩大 Claude 市场覆盖
- A2A 由 Google 推:Google 是云 + 模型厂商,A2A 让 agent 互调,Google Cloud 收编流量
- OpenAI 的 GPT Store / Apps SDK 中央平台路线被压——2025-Q4 被动接受 MCP 不是主动选择
- 中国大厂表面支持 MCP,内部仍推私有协议:字节 Volcano Engine、阿里通义、百度文心都是反 narrative
Lakatos 判定:进步性维度——降低 N×M 适配成本(§ G5.4)有可量化工程价值;退化性维度——“开放协议但主推方=API 提供方”是 LSP 模式没有的结构(详见 A08 MCP 与 A2A 协议族 § 一”LSP 类比的政治经济学边界”),长期可能演化为”协议层中立 + 客户端层锁定”。
对 PM 的启示:做协议层产品比做模型层贴牌产品命运可控,但要清醒:“协议化”不是技术中立演化,是有特定厂商利益的叙事。面试回答:“协议化在 N×M 成本上有真实价值,但’必然’是过强判断——OpenAI 仍推 Apps SDK 反向路线,中国大厂仍用私有协议。协议化是 Anthropic+Google 联合塑造的反 OpenAI 叙事,对中小开发者是好事(降低锁定),但不是技术中立的必然。“
G6 萌芽:原生 Agent 模型与”登楼撤梯”
OpenAI o3 (2024-12)、Claude Opus 4.7 (2026) 的 reasoning loop 已经在内部”吸收”了 G3 reflection 和 G4 tool use——端到端训练的 Agent 模型不再需要 harness 层”教”模型 ReAct。
对 Rick 的判断:harness / skill 的价值窗口可能在 2-3 年内收窄(参 S03 Harness Engineering 全景 § 5.2 “harness 的第二悖论”——harness 越成功越加速自己的简化,这是同一预测的工程版本)。但协议(MCP/A2A)的价值反而上升——原生 Agent 模型也需要标准化工具接口。
这是典型的「登楼撤梯」:当下你在 harness 上的投入 2-3 年后会被原生 Agent 模型废弃(梯子被撤),但你仍然要爬这个梯子——参 登楼撤梯-后弥赛亚的公民道德 与 G01 Agent 代际谱系总图 § 5 的展开。
回到 G01 的不可通约性
G5 与 G4 之间是元层级跃迁:G4 的努力是”在 framework 内做最好的 agent”,G5 的努力是”取消 framework 锁定本身”。前者的成就(最好的 framework)正是后者要解决的问题。
与已有节点的关系
- G01 Agent 代际谱系总图:本节点是 G01 的展开;G01 给骨,本节点给肉。且本节点每一代末加”回到 G01 不可通约性”段,形成 G01 ↔ G02 的真正对话。
- c10 - Agent 技术栈与工具调用:c10 是 G3 横截面,本节点把它定位为五代之一。
- m206 - Agent 产品化:记忆机制与技术进展:m206 三启示分别对应 G4 Computer Use / G5 协议化 / G4-G5 混合。本节点给三启示提供代际坐标。
- m207 - Agent 产品化:场景推演与失败模式:m207 六类失败模式对应”病发代际”——trajectory 漂移是 G1 病、循环陷阱是 G2 病、评估器失灵是 G3 病、屏幕理解错误是 G4 病、协议供应链攻击是 G5 病。
- S03 Harness Engineering 全景 § 5.2:与本节点 G5.6 G6 萌芽是同一预测的工程版本,互相引用。
- A03 ReAct / A04 Reflexion / A05 Plan-and-Execute / A07 Multi-Agent Teams / A08 MCP 与 A2A 协议族:本节点是这些概念辨析节点的”时间表”。
PM 决策启示(集中段,取代每代重复模板)
5 分钟选型对话脚本
- “你的任务平均多少步?” → 1-3 步 G1 / 5-15 步 G3 / 15+ 步必须 G4 Multi。
- “需要操作的系统有 API 吗?” → 有 → G1-G3-G5;无 → G4 Computer Use。
- “需要多个角色协作吗?” → 是 → G4 Multi-Agent;否 → G3。
- “能接受人在 loop 里吗?” → 是 → G1-G3 都行;否(全自动)→ 倾向 G4-G5,但要明确告知失败率。
简历叙事建议(按 Rick 真实背景定制)
对 Rick 这种”零 AI 项目历史的转型者”:你没做过 AutoGPT 是好事——你直接从 G3-G5 切入,在简历上把”没有 G2 包袱”当作优势:
我从 G3 反思纠错路径起步,直接进入 2024+ 的工程级 Agent 工程。理解 Agent 从 ReAct(2022)到 MCP/A2A(2024-2025)的五代范式演化,能在选型对话中快速识别需求所属代际。
这比”我做过 AutoGPT 但识别了它的失败”更适合你的真实背景——不要捏造你没经历过的失败来包装判断力,直接说”我从 G3 起步”是最诚实也最有竞争力的转型叙事。
产品定位的代际寿命表
- G1 单步 Function Calling 产品(简单 Q&A bot)→ 寿命 24+ 个月(原语级,不会过时)。
- G2 通用 AutoGPT 类产品 → 寿命 0 个月(已被 G4 替代)。
- G3 LangGraph 风格 framework → 寿命 12-18 个月(被 G5 协议生态消解)。
- G4 Multi-Agent / Computer Use 产品 → 寿命 18-24 个月(被原生 Agent 模型部分替代)。
- G5 协议层工具/agent → 寿命 36+ 个月(协议生态有黏性)。
复现学习路径
G1 → G3 → G5(跳过 G2 因 hype 价值已耗尽,跳过 G4 单独学因 G4 = G3 + 多模态)。
- 100 行手写 ReAct(G1)→ 加 Reflexion 评估器(G3)→ 接 MCP server(G5)→ 引入第二个 agent(G4)。
- 详见 R01 最小可运行·100 行 ReAct、R02 中型生产·LangGraph + MCP、R03 Multi-Agent 模板·AutoGen CrewAI。
招聘评估
- 不要说”做过 agent”——等于没说。
- 要说”做过 G3 风格的 Agentic Workflow,负责设计 Reflexion 评估器与 reflection prompt”——具体到代际、范式、模块。
- 候选人能说清 MCP / A2A / Function Calling 三者差异 = G5 时代 PM 的基本素养。
从时间轴到剖面图:为什么读完 G02 要进 S 模块
到这里 G02 给了 Rick 一条时间纵轴:G1 → G2 → G3 → G4 → G5 五代不可通约 + 叠加 + 部分退化的演化史。这条轴回答的是”Agent 从哪来、当下在哪一代”。
但 PM 决策的另一半问题——“给定某个 Agent 产品,它的内部组件怎么拆、哪一层是 PM 该看的、哪一层是工程团队该看的”——时间轴答不了。这是为什么接下来要进 S01 Agent 六层架构剖面 / S02 流派架构对照表 / S03 Harness Engineering 全景 三个 S 节点:从时间纵轴切到空间剖面图。
两个视角的关系是正交互补,不是替代:
- G 模块(时间维度)回答”代际归属”:你拿到一个 Agent 产品,先用 G01 三个错位判据定位它属于哪一代(G2 自主代理 / G3 反思 / G4 multi-agent / G5 协议化)——这是判断它的能力天花板与已知失败模式的起点
- S 模块(空间维度)回答”组件解剖”:定位完代际之后,用 S01 六层架构(感知 / 规划 / 记忆 / 工具 / 执行 / 反思)拆它的具体实现——这是判断哪一层 PM 可以介入决策、哪一层是工程师领地的起点
两者同时缺一不可:只有 G 没有 S,你能说出”这是 G4 multi-agent”但说不清”问题出在记忆层还是执行层”——面试遇到追问就哑火;只有 S 没有 G,你能说出”它的反思层很薄”但说不清”这是 G2 范式本来就没反思层 vs 这是 G3 实现得差”——选型就会偏。
所以 G02 读完后的正确去向是 S01——把刚才 G2-G5 各代的实证素材在 S01 六层架构上做一次正交对齐:G1 ReAct 在六层里强在工具层 / 弱在反思层;G2 AutoGPT 强在规划层 / 弱在记忆层;G3 Reflexion 加了反思层但工业占比 < 20%;G4 multi-agent 把六层拆成多个 agent 各持一份;G5 协议化把工具层从产品内挪到产品外。这一正交对齐是 S 模块的入场动作。
关联节点
核心关联(必读):
- G01 Agent 代际谱系总图——本节点是 G01 的肉
- c10 - Agent 技术栈与工具调用——c10 = G3 横截面
- m207 - Agent 产品化:场景推演与失败模式——六类失败模式对应病发代际
- S03 Harness Engineering 全景——§ 5.2 与本节点 G5.6 互引(G6 萌芽预测的工程版本)
- AI 产品代差观察与微博打磨——G2 洞察句”代差观察方法论”的原始出处
- 登楼撤梯-后弥赛亚的公民道德——G5.6 撤梯判断的理论锚点
- AI概念滥用反思——五代之间的混淆都源于”Agent”标签 saliency drift
延伸关联(可选):
- 同专题:A01 Agent 概念史与语义流变、A02 抽象层级辨析·Harness Framework Agent Skill Orchestrator、A03 ReAct、A04 Reflexion、A05 Plan-and-Execute、A06 Orchestrator 编排器、A07 Multi-Agent Teams、A08 MCP 与 A2A 协议族、S01 Agent 六层架构剖面、S02 流派架构对照表、E01 Coding Agent·Claude Code & Cursor、E02 通用 Agent·Manus & Devin、E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow、R01 最小可运行·100 行 ReAct、R02 中型生产·LangGraph + MCP、R03 Multi-Agent 模板·AutoGen CrewAI、_Agent 系统化专题·总览
- 章节:c08 - 解码策略与生成控制、c09 - RAG 架构、c11 - System 2 思维与 Test-Time Compute、c13 - 幻觉的不可消除性、c14 - 模型评估体系与 Goodhart 陷阱、m201 - Prompt Engineering 实战体系、m202 - 工程选型决策矩阵、m206 - Agent 产品化:记忆机制与技术进展、m208 - AI 基础设施与中间件选型、m209 - 推理成本控制手册
- 概念卡:Agent、Function Calling、RAG、幻觉、Test-Time Compute、强化学习、RLHF、Harness 词义辨析、Skill 系统的本质、Polanyi 默会知识与提示工程的认识论张力
- 公司/产品:Anthropic、OpenAI、Claude、Claude Code、ChatGPT、Manus、DeepSeek、Gemini、Perplexity
- 跨域:范式、生命政治、霸权、0114认识论、0117社会学
- 总索引:AI PM 知识图谱·总索引
修订日志
- R4 → R5(2026-05-18):本轮聚焦出版就绪——A 类必改 2(G02→S 断层) + A 类必改 5(Cursor 事实可验证性) + 压缩 30%。修订要点:
- 末尾新增”从时间轴到剖面图:为什么读完 G02 要进 S 模块” 过渡段——A 类必改 2 落地;显式说明 G(时间)与 S(空间)正交互补、不是替代;给出”G2-G5 在 S01 六层架构上正交对齐”作为 S 模块入场动作
- G4 实证 5 “Cursor 在 2025-Q3 的 Composer 重写从多 agent 合并为 single Composer + thinking budget” 改为按证据强度排序;Cursor 段降级为”业界推测级证据,不作为官方事实”;Anthropic Claude Code release note 升级为有官方证据的最强项 ——A 类必改 5 落地
- 压缩 G2 实证 4(从 ~860 字到 ~600 字,压 30%)、G3 实证 4(~720 字到 ~480 字,压 33%)、G5 实证 5(~770 字到 ~530 字,压 31%)——共压约 740 字;保留所有论点 / 证据 / 反方对话,砍重复和过度展开
- 全节点压缩总目标(R4 critique 要求 10-15%)实际达到 ~12%,叠加 R3→R4 的 30% 压缩,G02 累计相对原版瘦身 ~40%
- R3 → R4(2026-05-18):本轮聚焦反方对话训练 + 进步主义叙事修正。修订要点:
- G2 新增”实证 4:G2 在 long-tail 应用并未’被取代’“——RPA / 企业内部工具 / 客服 bot 仍大量是 G2 架构,百度/阿里/字节的”智能任务执行”产品本质仍是 G2 + 简化 reflection;承认”G2 寿命 0 个月”是顶尖工程师视角的误判
- G3 新增”实证 4:G3 在工业上其实从未真正主流”——主流生产级 Coding Agent 直接跳过外置 Reflexion;Reflexion 学术热度和工业采用度脱钩;Reflexion 原论文 91% 数据在 2024-2025 多次独立复现中被质疑(复现只达 83-88%, evaluator 用 ground truth 在生产中不存在)
- G4 新增”实证 5:Multi-Agent 在 2024 是 SOTA,2025 下半年起被反向取代”——Anthropic Claude Code / Cursor Composer / Devin 都在去 multi-agent 化;Anthropic 2025-06 multi-agent research blog 发布后没有引发跟风;Multi-Agent 是 G4 的”昙花一现”不是胜利者
- G5 新增”实证 5:G5 协议化是’开放但不中立’“——MCP 由 Anthropic 推 + Anthropic 卖 Claude 的结构是 LSP 没有的;OpenAI 被动接受 MCP;中国大厂表面支持 MCP 内部仍推私有协议;协议化是 Anthropic+Google 联合塑造的反 OpenAI 叙事
- 引入的对手立场:Sam Altman 2025 hype 复盘、Anthropic 2025-06 multi-agent blog 的真实场景限定、学界对 Reflexion 复现性的质疑、AutoGPT 仍是 RPA 主架构的事实、G3 工业占比 < 20% 的现实
- R2 → R3(2026-05-18):聚焦判断密度提升。本轮重大重构(G02 全文重写):
- 砍 30% 篇幅——从原 481 行(~31KB)压缩到约 260 行(~22KB),主要砍每代”PM 实操遗产”重复模板与冗余段落
- 每代采用”洞察句先行 + 实证下沉”结构,取代原”六段固定模板”——回应 Round 2 [失血-10]
- G2.4 洞察句”hype 本身是产业基础设施”加入 AI 产品代差观察与微博打磨 双链——回应 Round 2 [独家机会-2]
- G5.4 “N² 降到 N+1” 加完整数学说明(N 个 framework × M 个工具 = N×M ≈ N² → 有 MCP 后 M + N ≈ N+1)——回应 Round 2 [无证据-5]
- G5.6 G6 萌芽加 登楼撤梯-后弥赛亚的公民道德 双链 + 与 S03 Harness Engineering 全景 § 5.2 互引——回应 Round 2 [对话缺失-5]、[独家机会-5]
- G2.6 Rick 启示重写为”Rick 没做过 AutoGPT 是好事,直接 G3-G5 起步”——回应 Round 2 [空洞-4],移除对 Rick 不适用的”识别 AutoGPT 失败包装”建议
- 每代末加”回到 G01 不可通约性论证”段——回应 Round 2 [对话缺失-2]
- 所有”PM 实操遗产”分散段集中到 § PM 决策启示统一表述,避免重复
- 关联节点分两档,核心关联加 AI 产品代差观察与微博打磨、登楼撤梯-后弥赛亚的公民道德、S03 Harness Engineering 全景
- R1 → R2(2026-05-18):MetaGPT 出品方修正为 DeepWisdom;AutoGen 时间细化;DeerFlow 时间细化;Anthropic Skills 商店改为开源仓库 + Console;Devin 估值改为”独角兽量级”;MCP server 数量改”数千个量级”;A2A 时间修正。
- 2026-06-12 内审修复:frontmatter 补 final_path 字段(= 本文件在库内实际相对路径)。