R

m202 - 工程选型决策矩阵

创建 2026-05-13 更新 2026-05-18 12 条双链 共创

m202. 工程选型决策矩阵

面对一个业务需求,PM 首先需要做的是选择技术路径:Prompt Engineering、RAG、微调、还是 Agent?这个决策不是”哪个最厉害”,而是”在当前约束下哪个最合适”。

2.2.1 四种基础手段的本质差异

维度Prompt EngineeringRAG微调(SFT/LoRAAgent
本质推理时通过文本指令塑造模型行为推理时动态注入外部知识训练时改变模型权重分布推理时编排多步骤执行流
知识来源预训练知识 + prompt 中显式提供外部知识库实时检索内化到模型权重中外部工具 + 模型推理
生效时间即时即时(需索引构建前置)训练周期(小时到天)即时(需工具集成前置)
单次请求成本中(检索 + 生成)低(推理成本同基座模型)高(多次调用)
前期投入极低中高
可控性概率性取决于检索质量高(行为模式写入权重)低(多步骤复合不确定性,见 c10 §10.3

关键区分

  • 需要”知道什么” → RAG
  • 需要”像谁一样说/想” → 微调(SFT/LoRA
  • 需要”执行一个多步骤任务流” → Agent
  • 其他 → 先试 Prompt Engineering

2.2.2 五维决策矩阵

维度一:数据安全性

约束可选方案
数据不能离开内网本地部署模型;排除云端 API
数据可过云但不持久化API 可用,但不能做云端微调;RAG 可用
无特殊要求所有方案可选

维度二:知识更新频率

更新频率推荐方案原因
实时/每日RAG(唯一可行)微调不可能每天重训
每周/月RAG 为主 + 定期索引重建
几乎不变微调可行行为模式稳定内化

经验判断:超过 20% 的答案在一个月内会变 → 不应依赖微调注入知识,依赖微调注入的知识随时间过时会引发幻觉

维度三:领域专业深度

专业程度推荐方案
通用知识Prompt Engineering 足够
中等专业度RAG + 领域文档
高度专业(需要模型”像专家一样思考”)必须微调

维度四:成本预算

单次请求成本排序(低到高): Prompt Engineering < 微调后推理 ≈ RAG < Agent

前期投入排序(低到高): Prompt Engineering < RAG < Agent < 微调

隐性成本常被低估

  • RAG 的持续维护(索引更新、Embedding 模型升级)
  • Agent 的调试和兜底机制(每个失败场景都需要设计 fallback)
  • SFT 的数据标注(高质量标注的人力成本往往超过计算成本)

维度五:延迟容忍度

延迟要求可选方案
实时(< 2s)Prompt Engineering 或微调后直接推理
准实时(2–10s)RAG 完全可行;简单 Agent 可行
异步(> 10s)所有方案可选

2.2.3 典型组合模式与演进路径

演进原则:先用最轻量的手段验证,确认不够后再逐步升级。

模式 A:RAG + Prompt Engineering(最常见起步方案)

适用场景:知识库问答、客服、文档助手。覆盖 80% 的 AI 产品 MVP。

步骤:

  1. 设计 System Prompt(角色、格式、防御性约束,防御幻觉
  2. 构建文档索引(Embedding + 向量数据库)
  3. Few-shot 示例优化边界 case 处理

模式 B:RAG + LoRA 微调

适用场景:需要特定输出风格 + 需检索实时知识。

精妙之处LoRA 管”怎么说”(领域语气、格式偏好),RAG 管”说什么”(实时知识),两者正交互补,互不干扰,也不会触发灾难性遗忘

模式 C:Agent + RAG + Prompt Engineering

适用场景:复杂工作流(如:搜集信息 → 分析 → 撰写报告 → 发送邮件)。

风险提示:链路最长,任何一环出错都可能雪崩(见 m207 失败模式)。在采用此模式前,先确认单独的 RAG 或 Prompt 方案无法解决需求。

模式 D:模型路由 + 多模型组合(2025 年新兴模式)

适用场景:成本敏感的高并发产品。

用小模型处理简单请求,大模型处理复杂请求,推理模型(基于Test-Time Compute)处理数学/代码。详细实现见 m209 §2.6.3 模型路由


决策速查流程

业务需求

数据安全要求严格?
  是 → 只能本地部署模型(见 [m208 模型服务层](/kb/工程化与落地架构/m208-ai-基础设施与中间件选型/))
  否 ↓
知识更新频率高(每日)?
  是 → [RAG](/kb/基础知识库/rag/)(见 [m203](/kb/工程化与落地架构/m203-rag-生产环境-embedding-与文档解析/)–[m205](/kb/工程化与落地架构/m205-rag-生产环境-索引运维与评估体系/))
  否 ↓
需要改变模型说话方式/领域行为模式?
  是 → 微调([SFT](/kb/基础知识库/sft/)/[LoRA](/kb/基础知识库/lora/))(见 [m210 数据工程](/kb/工程化与落地架构/m210-数据工程流实操/))
  否 ↓
任务需要多步骤工具调用?
  是 → [Agent](/kb/基础知识库/agent/)(见 [m206](/kb/工程化与落地架构/m206-agent-产品化-记忆机制与技术进展/)–[m207](/kb/工程化与落地架构/m207-agent-产品化-场景推演与失败模式/))
  否 → Prompt Engineering(先验证,不够再升级)

相关概念卡:RAGAgentSFTLoRA灾难性遗忘Embedding幻觉 上一章:m201 Prompt Engineering 下一章:m203 RAG:Embedding 与文档解析