R

m207 - Agent 产品化:场景推演与失败模式

创建 2026-05-18 更新 2026-05-18 13 条双链 共创

m207. Agent 产品化:场景推演、失败模式与评估体系

本章通过完整的商业场景推演,拆解 Agent 在每一步的真实失败风险,并建立系统性的兜底策略体系和评估框架。

2.4.3 商业场景推演:自动化 B2B 销售线索挖掘

任务:给定目标公司列表,Agent 自动完成背景调研 → 决策人识别 → CRM 核查 → 个性化邮件生成 → 发送。

逐步失败风险分析

Step 1:感知(接收任务 + 理解上下文)

  • 输入:目标公司列表、产品卖点文档、历史成功案例
  • 失败风险:。结构化输入出错概率小
  • 兜底:输入格式校验

Step 2:规划(任务分解)

  • Agent 生成执行计划:搜索公司背景 → 识别决策人 → 检查 CRM → 生成邮件 → 发送
  • 失败风险:。可能遗漏关键步骤或顺序不合理
  • 兜底:规划审核——Agent 计划先呈现人类确认,再执行。高风险操作(发邮件)设人工断点

Step 3:工具调用(执行子任务)

  • 调用 Web Search、LinkedIn API、内部 CRM(均依赖 Function Calling 机制)
  • 失败风险:。搜索不相关、API 超时、选错同名人物、参数拼写错误
  • 兜底:结果合理性校验 + 超时限制 + 重试降级(最多 2 次,仍失败则标记”需人工”并跳过)+ 完整日志

Step 4:行动(生成输出 + 外部操作)

  • 综合研究结果生成个性化邮件 → 发送
  • 失败风险:幻觉(张冠李戴)、品牌调性不符、一旦发出不可撤回
  • 兜底:必须设人工确认断点。所有邮件先入”待审核”队列。随数据积累和质量提升,逐步放宽自动发送阈值

Step 5:反思(结果评估 + 策略调整)

  • 监控回复,分类处理(感兴趣 / 拒绝 / 未回复)
  • 失败风险:。意图误判(把客气拒绝判为感兴趣)
  • 兜底:低置信度分类结果标记”需人工判断”

关键结论:这个 5 步 Agent,只有 Step 1 是低风险的。每一个高风险步骤都需要专门设计兜底——这是 Agent 产品设计的核心工作,不是工程师的事。复合错误率数学见 c10 §10.3

2.4.4 失败模式分类与兜底策略体系

六类系统性失败模式

失败类型表现兜底策略
规划失败任务分解不合理、遗漏步骤、顺序错误常见任务用固定 DAG;新任务人工审核规划结果
工具调用失败参数错误、API 超时、返回值格式异常Schema 校验 + 超时限制 + 重试降级(最多 2 次)
推理错误幻觉、张冠李戴、错误的因果推断关键步骤事实核查;RAG 锚定事实;限制自由推断空间
无限循环反复重试不成功,陷入死循环最大步数限制 + 最大token消耗上限
雪崩效应小错误被后续步骤放大为不可逆损失Checkpoint 机制,可回退到上一个成功状态重执行
安全越界Agent 执行了超出授权的操作权限白名单(只能调用预定义工具)+ 高风险操作显式确认

人机协作断点(HITL)设计框架

判断何时设断点的三个维度

维度低风险(自动执行)高风险(设断点)
操作可逆性只读操作(search、read)写操作(send、delete、modify)
错误后果错了重来即可错了有外部影响(已发邮件、已提交表单)
置信度模型输出置信度高且稳定(校准良好模型不确定或历史此类任务失败率高

逐步放宽自动化:上线初期所有关键步骤设断点,积累数据后按步骤类型统计通过率,对通过率 > 95% 的步骤类型逐步取消断点。不要从一开始就试图全自动化。

核心设计原则

Agent 产品设计的核心不是”如何让 Agent 完全自主”,而是”在哪些环节可以自主、在哪些环节必须引入人类、如何设计两者之间的平滑过渡”。

自主性的增加必须有可量化的质量数据作为支撑,不能靠主观感觉。

2.4.5 Agent 评估体系

Agent 的评估比普通 LLM 复杂:不只是”输出质量好不好”,还有”路径是否高效""失败时能否恢复""成本是否可控”。与 c14 评估体系 的 Goodhart 陷阱防御原则相同:不要让单一指标成为优化目标。

评估维度指标说明
任务完成率成功率(%)完全正确完成任务的比例
步骤效率实际步骤 / 最优步骤是否走了弯路
工具调用准确率正确调用 / 总调用工具选择和参数是否正确
错误恢复率自修正成功 / 错误总数自行恢复能力
人工介入率需人工 / 总任务自动化程度(目标是逐步降低)
端到端延迟从提交到完成的总时间包含所有中间步骤
成本效率token / 成功任务数单任务平均成本(见 m209 §2.6.6

成本效率尤其重要:Agent 有时会”兜圈子”——通过 5 次工具调用达成目标,而最优路径只需要 2 次。每次多余的调用都在消耗token和时间。评估路径效率是优化 Agent Planner 的核心数据来源。

标准化评估基准(供参考):

  • SWE-bench:代码任务(GitHub issues 修复)
  • WebArena:网页操作任务
  • GAIA:通用助手任务
  • τ-bench:工具使用评估

相关概念卡:Agent 与工具调用Function Calling幻觉与校准RAGTokenization 专题升级:0411 Agent 系统化专题 — 本章失败模式分类被 E03 Multi-Agent 框架·AutoGen & CrewAI & DeerFlow + R03 Multi-Agent 模板·AutoGen CrewAI 实例化,复合错误数学在 E02 通用 Agent·Manus & Devin 升级为”70% 是数学约束不是工程问题” 上一章:m206 Agent 记忆与进展 下一章:m208 AI 基础设施选型