m207. Agent 产品化：场景推演、失败模式与评估体系

本章通过完整的商业场景推演，拆解 Agent 在每一步的真实失败风险，并建立系统性的兜底策略体系和评估框架。

2.4.3 商业场景推演：自动化 B2B 销售线索挖掘

任务：给定目标公司列表，Agent 自动完成背景调研 → 决策人识别 → CRM 核查 → 个性化邮件生成 → 发送。

Step 1：感知（接收任务 + 理解上下文）

Step 2：规划（任务分解）

Step 3：工具调用（执行子任务）

Step 4：行动（生成输出 + 外部操作）

Step 5：反思（结果评估 + 策略调整）

关键结论：这个 5 步 Agent，只有 Step 1 是低风险的。每一个高风险步骤都需要专门设计兜底——这是 Agent 产品设计的核心工作，不是工程师的事。复合错误率数学见 c10 §10.3。

失败类型	表现	兜底策略
规划失败	任务分解不合理、遗漏步骤、顺序错误	常见任务用固定 DAG；新任务人工审核规划结果
工具调用失败	参数错误、API 超时、返回值格式异常	Schema 校验 + 超时限制 + 重试降级（最多 2 次）
推理错误	幻觉、张冠李戴、错误的因果推断	关键步骤事实核查；RAG 锚定事实；限制自由推断空间
无限循环	反复重试不成功，陷入死循环	最大步数限制 + 最大token消耗上限
雪崩效应	小错误被后续步骤放大为不可逆损失	Checkpoint 机制，可回退到上一个成功状态重执行
安全越界	Agent 执行了超出授权的操作	权限白名单（只能调用预定义工具）+ 高风险操作显式确认

判断何时设断点的三个维度：

逐步放宽自动化：上线初期所有关键步骤设断点，积累数据后按步骤类型统计通过率，对通过率 > 95% 的步骤类型逐步取消断点。不要从一开始就试图全自动化。

Agent 产品设计的核心不是”如何让 Agent 完全自主”，而是”在哪些环节可以自主、在哪些环节必须引入人类、如何设计两者之间的平滑过渡”。

自主性的增加必须有可量化的质量数据作为支撑，不能靠主观感觉。

Agent 的评估比普通 LLM 复杂：不只是”输出质量好不好”，还有”路径是否高效""失败时能否恢复""成本是否可控”。与 c14 评估体系的 Goodhart 陷阱防御原则相同：不要让单一指标成为优化目标。

成本效率尤其重要：Agent 有时会”兜圈子”——通过 5 次工具调用达成目标，而最优路径只需要 2 次。每次多余的调用都在消耗token和时间。评估路径效率是优化 Agent Planner 的核心数据来源。

标准化评估基准（供参考）：