m206. Agent 产品化：记忆机制与 2025 年技术进展

Agent 的底层技术栈（ReAct、Tool Use、Planning、多 Agent、MCP）已在 c10 Agent 技术栈覆盖。本章聚焦Memory 机制和 2025 年的产品化关键进展。

核心洞察：Agent 的差异化往往不在推理能力（由基座模型决定），而在 Memory 系统——它决定了 Agent”记得住什么""记多久""在什么时候想起来”。

2.4.1 Memory 机制设计

短期记忆管理策略

策略	机制	适用场景
全量保留	所有历史完整保留	对话少于 10 轮、context 充裕
滑动窗口	只保留最近 N 轮	简单多轮对话
摘要压缩	LLM 将历史压缩为摘要	长对话、需要保留关键信息
选择性保留	只保留工具调用结果和关键决策点	Agent 多步执行

实操建议：大多数系统用摘要压缩 + 选择性保留的组合——每隔 N 轮做摘要，始终保留工具调用结果（事实性信息压缩容易引发幻觉，不能丢）。

长期记忆架构

用户交互 → 记忆提取器
  → 提取关键事实 / 用户偏好 / 待跟进事项
     ↓
记忆存储层
  ├── 向量数据库：[语义化存储](/kb/基础知识库/embedding/)，支持模糊检索（同 [RAG](/kb/基础知识库/rag/) 检索机制）
  ├── 结构化数据库：确定性存储（偏好设置、历史记录）
  └── 图数据库：关系网络（人物-公司-项目的关联）
     ↓
记忆检索（每次新会话开始时）
  → 根据当前上下文召回相关记忆 → 注入 prompt

长期记忆的四个关键设计决策

① 记什么：明确的偏好 → 记；临时闲聊 → 不记。需要”记忆准入”规则，否则噪声累积会影响后续会话质量。

② 记忆衰减：长期不引用的记忆降低权重，避免过时信息干扰（“用户半年前说过不喜欢 A，但现在已经改变了”）。过时知识是另一种形式的幻觉（c13 时效幻觉）。

③ 记忆冲突：用户在不同时间说了矛盾的话，以最新为准还是主动提醒用户？不同场景下答案不同，需要明确产品策略。

④ 隐私边界：跨会话保留需明确的用户授权。这不只是合规问题，也是信任问题——用户需要知道 Agent “记得什么”。

2.4.2 2025 年 Agent 产品化进展

Browser Agents / Computer Use Agents

以 Anthropic Claude Computer Use、OpenAI Operator、中国的 Manus 为代表，Agent 不再局限于 API 调用，而是可以直接操作浏览器和桌面应用——像人类一样看屏幕、点鼠标、打字。

技术基础：多模态模型（视觉 + 语言）理解屏幕截图，输出鼠标/键盘操作指令。

产品意义：极大扩展了 Agent 可自动化的任务范围——不再需要目标系统提供 API，任何人类能通过 GUI 完成的工作理论上都可以自动化。

当前核心限制：

屏幕理解准确率不够可靠（复杂表单、动态内容理解差）
执行速度远慢于 API 调用
每一步”看屏幕”都消耗大量token（截图的多模态输入成本极高，见 c12 §12.4 图像 token 成本和 m209 成本估算）

PM 的判断：Computer Use 适合无 API 的遗留系统自动化（如内网 ERP、老旧 CRM），不应该作为有 API 情况下的首选。

A2A（Agent-to-Agent）协议

Google 在 2025 年发布的 Agent-to-Agent 协议，定义了不同 Agent 之间的通信标准。

协议	解决什么问题
MCP（Anthropic，见 c10 §10.4）	Agent 如何调用工具（Agent ↔ Tool）
A2A（Google）	Agent 如何和另一个 Agent 协作（Agent ↔ Agent）

产品影响：未来的 Agent 生态可能是多个专精 Agent（来自不同厂商）通过标准协议协作，而非一个超级 Agent 做所有事。类似微服务架构对单体应用的替代。

Coding Agents 的产品化启示

以 Claude Code、Cursor、Windsurf、Devin 为代表的编码 Agent 在 2024–2025 年爆发，给 Agent 产品化提供了重要经验：

三条关键启示：

选”错误成本低 + 验证容易”的场景先落地：代码可以编译/运行来自动验证，失败了重试即可，不会造成不可逆损失。对比金融操作、邮件发送——这些”错误成本高”的场景需要更严格的人工审核门槛。
人机协作远比全自动化更务实：Cursor 的”Tab 补全 + 人类审阅”模式成功的核心，不是 AI 能力有多强，而是把 AI 的贡献放在用户容易验证的粒度上（一行或几行代码）。
环境隔离极其重要：在沙箱中执行，防止不可逆操作。Agent 应该默认在”只读 + 可回滚”的环境中运行，需要写权限时显式确认。

相关概念卡：Agent 与工具调用、Function Calling、RAG、Embedding、幻觉与校准、Tokenization 专题升级：0411 Agent 系统化专题 — 本章的 Browser Agent 三家进入 E02 通用 Agent·Manus & Devin 深度剖解；A2A 进入 A08 MCP 与 A2A 协议族；Coding Agent 三启示进入 E01 Coding Agent·Claude Code & Cursor 上一章：m205 索引运维与评估下一章：m207 Agent 场景推演与兜底

m206 - Agent 产品化：记忆机制与技术进展