m202. 工程选型决策矩阵

面对一个业务需求，PM 首先需要做的是选择技术路径：Prompt Engineering、RAG、微调、还是 Agent？这个决策不是”哪个最厉害”，而是”在当前约束下哪个最合适”。

2.2.1 四种基础手段的本质差异

维度	Prompt Engineering	RAG	微调（SFT/LoRA）	Agent
本质	推理时通过文本指令塑造模型行为	推理时动态注入外部知识	训练时改变模型权重分布	推理时编排多步骤执行流
知识来源	预训练知识 + prompt 中显式提供	外部知识库实时检索	内化到模型权重中	外部工具 + 模型推理
生效时间	即时	即时（需索引构建前置）	训练周期（小时到天）	即时（需工具集成前置）
单次请求成本	低	中（检索 + 生成）	低（推理成本同基座模型）	高（多次调用）
前期投入	极低	中	高	中高
可控性	概率性	取决于检索质量	高（行为模式写入权重）	低（多步骤复合不确定性，见 c10 §10.3）

关键区分：

需要”知道什么” → RAG
需要”像谁一样说/想” → 微调（SFT/LoRA）
需要”执行一个多步骤任务流” → Agent
其他 → 先试 Prompt Engineering

2.2.2 五维决策矩阵

维度一：数据安全性

约束	可选方案
数据不能离开内网	本地部署模型；排除云端 API
数据可过云但不持久化	API 可用，但不能做云端微调；RAG 可用
无特殊要求	所有方案可选

维度二：知识更新频率

更新频率	推荐方案	原因
实时/每日	RAG（唯一可行）	微调不可能每天重训
每周/月	RAG 为主 + 定期索引重建	—
几乎不变	微调可行	行为模式稳定内化

经验判断：超过 20% 的答案在一个月内会变 → 不应依赖微调注入知识，依赖微调注入的知识随时间过时会引发幻觉。

维度三：领域专业深度

专业程度	推荐方案
通用知识	Prompt Engineering 足够
中等专业度	RAG + 领域文档
高度专业（需要模型”像专家一样思考”）	必须微调

维度四：成本预算

单次请求成本排序（低到高）： Prompt Engineering < 微调后推理 ≈ RAG < Agent

前期投入排序（低到高）： Prompt Engineering < RAG < Agent < 微调

隐性成本常被低估：

RAG 的持续维护（索引更新、Embedding 模型升级）
Agent 的调试和兜底机制（每个失败场景都需要设计 fallback）
SFT 的数据标注（高质量标注的人力成本往往超过计算成本）

维度五：延迟容忍度

延迟要求	可选方案
实时（< 2s）	Prompt Engineering 或微调后直接推理
准实时（2–10s）	RAG 完全可行；简单 Agent 可行
异步（> 10s）	所有方案可选

2.2.3 典型组合模式与演进路径

演进原则：先用最轻量的手段验证，确认不够后再逐步升级。

模式 A：RAG + Prompt Engineering（最常见起步方案）

适用场景：知识库问答、客服、文档助手。覆盖 80% 的 AI 产品 MVP。

步骤：

设计 System Prompt（角色、格式、防御性约束，防御幻觉）
构建文档索引（Embedding + 向量数据库）
Few-shot 示例优化边界 case 处理

模式 B：RAG + LoRA 微调

适用场景：需要特定输出风格 + 需检索实时知识。

精妙之处：LoRA 管”怎么说”（领域语气、格式偏好），RAG 管”说什么”（实时知识），两者正交互补，互不干扰，也不会触发灾难性遗忘。

模式 C：Agent + RAG + Prompt Engineering

适用场景：复杂工作流（如：搜集信息 → 分析 → 撰写报告 → 发送邮件）。

风险提示：链路最长，任何一环出错都可能雪崩（见 m207 失败模式）。在采用此模式前，先确认单独的 RAG 或 Prompt 方案无法解决需求。

模式 D：模型路由 + 多模型组合（2025 年新兴模式）

适用场景：成本敏感的高并发产品。

用小模型处理简单请求，大模型处理复杂请求，推理模型（基于Test-Time Compute）处理数学/代码。详细实现见 m209 §2.6.3 模型路由。

决策速查流程

业务需求
    ↓
数据安全要求严格？
  是 → 只能本地部署模型（见 [m208 模型服务层](/kb/工程化与落地架构/m208-ai-基础设施与中间件选型/)）
  否 ↓
知识更新频率高（每日）？
  是 → [RAG](/kb/基础知识库/rag/)（见 [m203](/kb/工程化与落地架构/m203-rag-生产环境-embedding-与文档解析/)–[m205](/kb/工程化与落地架构/m205-rag-生产环境-索引运维与评估体系/)）
  否 ↓
需要改变模型说话方式/领域行为模式？
  是 → 微调（[SFT](/kb/基础知识库/sft/)/[LoRA](/kb/基础知识库/lora/)）（见 [m210 数据工程](/kb/工程化与落地架构/m210-数据工程流实操/)）
  否 ↓
任务需要多步骤工具调用？
  是 → [Agent](/kb/基础知识库/agent/)（见 [m206](/kb/工程化与落地架构/m206-agent-产品化-记忆机制与技术进展/)–[m207](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/)）
  否 → Prompt Engineering（先验证，不够再升级）

相关概念卡：RAG、Agent、SFT、LoRA、灾难性遗忘、Embedding、幻觉上一章：m201 Prompt Engineering 下一章：m203 RAG：Embedding 与文档解析

m202 - 工程选型决策矩阵