m207 - Agent 产品化:场景推演与失败模式
m207. Agent 产品化:场景推演、失败模式与评估体系
本章通过完整的商业场景推演,拆解 Agent 在每一步的真实失败风险,并建立系统性的兜底策略体系和评估框架。
2.4.3 商业场景推演:自动化 B2B 销售线索挖掘
任务:给定目标公司列表,Agent 自动完成背景调研 → 决策人识别 → CRM 核查 → 个性化邮件生成 → 发送。
逐步失败风险分析
Step 1:感知(接收任务 + 理解上下文)
- 输入:目标公司列表、产品卖点文档、历史成功案例
- 失败风险:低。结构化输入出错概率小
- 兜底:输入格式校验
Step 2:规划(任务分解)
- Agent 生成执行计划:搜索公司背景 → 识别决策人 → 检查 CRM → 生成邮件 → 发送
- 失败风险:中。可能遗漏关键步骤或顺序不合理
- 兜底:规划审核——Agent 计划先呈现人类确认,再执行。高风险操作(发邮件)设人工断点
Step 3:工具调用(执行子任务)
- 调用 Web Search、LinkedIn API、内部 CRM(均依赖 Function Calling 机制)
- 失败风险:高。搜索不相关、API 超时、选错同名人物、参数拼写错误
- 兜底:结果合理性校验 + 超时限制 + 重试降级(最多 2 次,仍失败则标记”需人工”并跳过)+ 完整日志
Step 4:行动(生成输出 + 外部操作)
- 综合研究结果生成个性化邮件 → 发送
- 失败风险:高。幻觉(张冠李戴)、品牌调性不符、一旦发出不可撤回
- 兜底:必须设人工确认断点。所有邮件先入”待审核”队列。随数据积累和质量提升,逐步放宽自动发送阈值
Step 5:反思(结果评估 + 策略调整)
- 监控回复,分类处理(感兴趣 / 拒绝 / 未回复)
- 失败风险:中。意图误判(把客气拒绝判为感兴趣)
- 兜底:低置信度分类结果标记”需人工判断”
关键结论:这个 5 步 Agent,只有 Step 1 是低风险的。每一个高风险步骤都需要专门设计兜底——这是 Agent 产品设计的核心工作,不是工程师的事。复合错误率数学见 c10 §10.3。
2.4.4 失败模式分类与兜底策略体系
六类系统性失败模式
| 失败类型 | 表现 | 兜底策略 |
|---|---|---|
| 规划失败 | 任务分解不合理、遗漏步骤、顺序错误 | 常见任务用固定 DAG;新任务人工审核规划结果 |
| 工具调用失败 | 参数错误、API 超时、返回值格式异常 | Schema 校验 + 超时限制 + 重试降级(最多 2 次) |
| 推理错误 | 幻觉、张冠李戴、错误的因果推断 | 关键步骤事实核查;RAG 锚定事实;限制自由推断空间 |
| 无限循环 | 反复重试不成功,陷入死循环 | 最大步数限制 + 最大token消耗上限 |
| 雪崩效应 | 小错误被后续步骤放大为不可逆损失 | Checkpoint 机制,可回退到上一个成功状态重执行 |
| 安全越界 | Agent 执行了超出授权的操作 | 权限白名单(只能调用预定义工具)+ 高风险操作显式确认 |
人机协作断点(HITL)设计框架
判断何时设断点的三个维度:
| 维度 | 低风险(自动执行) | 高风险(设断点) |
|---|---|---|
| 操作可逆性 | 只读操作(search、read) | 写操作(send、delete、modify) |
| 错误后果 | 错了重来即可 | 错了有外部影响(已发邮件、已提交表单) |
| 置信度 | 模型输出置信度高且稳定(校准良好) | 模型不确定或历史此类任务失败率高 |
逐步放宽自动化:上线初期所有关键步骤设断点,积累数据后按步骤类型统计通过率,对通过率 > 95% 的步骤类型逐步取消断点。不要从一开始就试图全自动化。
核心设计原则
Agent 产品设计的核心不是”如何让 Agent 完全自主”,而是”在哪些环节可以自主、在哪些环节必须引入人类、如何设计两者之间的平滑过渡”。
自主性的增加必须有可量化的质量数据作为支撑,不能靠主观感觉。
2.4.5 Agent 评估体系
Agent 的评估比普通 LLM 复杂:不只是”输出质量好不好”,还有”路径是否高效""失败时能否恢复""成本是否可控”。与 c14 评估体系 的 Goodhart 陷阱防御原则相同:不要让单一指标成为优化目标。
| 评估维度 | 指标 | 说明 |
|---|---|---|
| 任务完成率 | 成功率(%) | 完全正确完成任务的比例 |
| 步骤效率 | 实际步骤 / 最优步骤 | 是否走了弯路 |
| 工具调用准确率 | 正确调用 / 总调用 | 工具选择和参数是否正确 |
| 错误恢复率 | 自修正成功 / 错误总数 | 自行恢复能力 |
| 人工介入率 | 需人工 / 总任务 | 自动化程度(目标是逐步降低) |
| 端到端延迟 | 从提交到完成的总时间 | 包含所有中间步骤 |
| 成本效率 | 总token / 成功任务数 | 单任务平均成本(见 m209 §2.6.6) |
成本效率尤其重要:Agent 有时会”兜圈子”——通过 5 次工具调用达成目标,而最优路径只需要 2 次。每次多余的调用都在消耗token和时间。评估路径效率是优化 Agent Planner 的核心数据来源。
标准化评估基准(供参考):
- SWE-bench:代码任务(GitHub issues 修复)
- WebArena:网页操作任务
- GAIA:通用助手任务
- τ-bench:工具使用评估
相关概念卡:Agent 与工具调用、Function Calling、幻觉与校准、RAG、Tokenization 专题升级:0411 Agent 系统化专题 — 本章失败模式分类被 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow + R03 Multi-Agent 模板·AutoGen CrewAI 实例化,复合错误数学在 E02 通用 Agent·Manus & Devin 升级为”70% 是数学约束不是工程问题” 上一章:m206 Agent 记忆与进展 下一章:m208 AI 基础设施选型