m202 - 工程选型决策矩阵
m202. 工程选型决策矩阵
面对一个业务需求,PM 首先需要做的是选择技术路径:Prompt Engineering、RAG、微调、还是 Agent?这个决策不是”哪个最厉害”,而是”在当前约束下哪个最合适”。
2.2.1 四种基础手段的本质差异
| 维度 | Prompt Engineering | RAG | 微调(SFT/LoRA) | Agent |
|---|---|---|---|---|
| 本质 | 推理时通过文本指令塑造模型行为 | 推理时动态注入外部知识 | 训练时改变模型权重分布 | 推理时编排多步骤执行流 |
| 知识来源 | 预训练知识 + prompt 中显式提供 | 外部知识库实时检索 | 内化到模型权重中 | 外部工具 + 模型推理 |
| 生效时间 | 即时 | 即时(需索引构建前置) | 训练周期(小时到天) | 即时(需工具集成前置) |
| 单次请求成本 | 低 | 中(检索 + 生成) | 低(推理成本同基座模型) | 高(多次调用) |
| 前期投入 | 极低 | 中 | 高 | 中高 |
| 可控性 | 概率性 | 取决于检索质量 | 高(行为模式写入权重) | 低(多步骤复合不确定性,见 c10 §10.3) |
关键区分:
2.2.2 五维决策矩阵
维度一:数据安全性
| 约束 | 可选方案 |
|---|---|
| 数据不能离开内网 | 本地部署模型;排除云端 API |
| 数据可过云但不持久化 | API 可用,但不能做云端微调;RAG 可用 |
| 无特殊要求 | 所有方案可选 |
维度二:知识更新频率
| 更新频率 | 推荐方案 | 原因 |
|---|---|---|
| 实时/每日 | RAG(唯一可行) | 微调不可能每天重训 |
| 每周/月 | RAG 为主 + 定期索引重建 | — |
| 几乎不变 | 微调可行 | 行为模式稳定内化 |
经验判断:超过 20% 的答案在一个月内会变 → 不应依赖微调注入知识,依赖微调注入的知识随时间过时会引发幻觉。
维度三:领域专业深度
| 专业程度 | 推荐方案 |
|---|---|
| 通用知识 | Prompt Engineering 足够 |
| 中等专业度 | RAG + 领域文档 |
| 高度专业(需要模型”像专家一样思考”) | 必须微调 |
维度四:成本预算
单次请求成本排序(低到高): Prompt Engineering < 微调后推理 ≈ RAG < Agent
前期投入排序(低到高): Prompt Engineering < RAG < Agent < 微调
隐性成本常被低估:
维度五:延迟容忍度
| 延迟要求 | 可选方案 |
|---|---|
| 实时(< 2s) | Prompt Engineering 或微调后直接推理 |
| 准实时(2–10s) | RAG 完全可行;简单 Agent 可行 |
| 异步(> 10s) | 所有方案可选 |
2.2.3 典型组合模式与演进路径
演进原则:先用最轻量的手段验证,确认不够后再逐步升级。
模式 A:RAG + Prompt Engineering(最常见起步方案)
适用场景:知识库问答、客服、文档助手。覆盖 80% 的 AI 产品 MVP。
步骤:
模式 B:RAG + LoRA 微调
适用场景:需要特定输出风格 + 需检索实时知识。
精妙之处:LoRA 管”怎么说”(领域语气、格式偏好),RAG 管”说什么”(实时知识),两者正交互补,互不干扰,也不会触发灾难性遗忘。
模式 C:Agent + RAG + Prompt Engineering
适用场景:复杂工作流(如:搜集信息 → 分析 → 撰写报告 → 发送邮件)。
风险提示:链路最长,任何一环出错都可能雪崩(见 m207 失败模式)。在采用此模式前,先确认单独的 RAG 或 Prompt 方案无法解决需求。
模式 D:模型路由 + 多模型组合(2025 年新兴模式)
适用场景:成本敏感的高并发产品。
用小模型处理简单请求,大模型处理复杂请求,推理模型(基于Test-Time Compute)处理数学/代码。详细实现见 m209 §2.6.3 模型路由。
决策速查流程
业务需求
↓
数据安全要求严格?
是 → 只能本地部署模型(见 [m208 模型服务层](/kb/工程化与落地架构/m208-ai-基础设施与中间件选型/))
否 ↓
知识更新频率高(每日)?
是 → [RAG](/kb/基础知识库/rag/)(见 [m203](/kb/工程化与落地架构/m203-rag-生产环境-embedding-与文档解析/)–[m205](/kb/工程化与落地架构/m205-rag-生产环境-索引运维与评估体系/))
否 ↓
需要改变模型说话方式/领域行为模式?
是 → 微调([SFT](/kb/基础知识库/sft/)/[LoRA](/kb/基础知识库/lora/))(见 [m210 数据工程](/kb/工程化与落地架构/m210-数据工程流实操/))
否 ↓
任务需要多步骤工具调用?
是 → [Agent](/kb/基础知识库/agent/)(见 [m206](/kb/工程化与落地架构/m206-agent-产品化-记忆机制与技术进展/)–[m207](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/))
否 → Prompt Engineering(先验证,不够再升级)
相关概念卡:RAG、Agent、SFT、LoRA、灾难性遗忘、Embedding、幻觉 上一章:m201 Prompt Engineering 下一章:m203 RAG:Embedding 与文档解析