多模型分层
多模型分层
把不同任务路由到不同等级模型的工程策略:简单任务给小/快/便宜模型,复杂任务才升级到大/慢/贵模型。是 2024 年随着 Claude / OpenAI / Google / DeepSeek 等同时提供 Opus/Sonnet/Haiku / GPT-5/o3-pro/o3-mini / Gemini Pro/Flash 等多档型号后,AI 应用层最重要的成本-性能优化范式。也是 Claude Code 等 IDE Agent、企业 RAG、客服 Agent、搜索增强等多种产品形态的标准架构。
核心问题
- 现实条件:同一家厂商提供 3–5 个能力 / 速度 / 价格成阶梯的模型;不同任务对模型能力的需求差异 3–10 倍;用户期望”快 + 准 + 便宜”三件齐全
- 天真做法:所有任务都用旗舰大模型 → 成本爆炸、延迟过高
- 多模型分层做法:用一个调度层 (router) 根据任务特征选择合适等级的模型,把整体成本压缩 50–90%,同时保持关键任务质量
常见分层范式
- 二层(快 + 重)
- 快模型层:路由判断、关键词抽取、简单总结、格式转换、确定性任务
- 重模型层:复杂推理、长 horizon 规划、跨文档分析、最终答案生成
- 代表实现:Claude Code 的 Sonnet/Haiku 混合调度;Cursor 早期的 GPT-4 / GPT-3.5 切换
- 三层(路由 + 主力 + 旗舰)
- 路由层(最小模型 / 规则):判断任务类型,决定 routing
- 主力层(中等模型):承担 80% 任务量
- 旗舰层(最大模型):只用于难任务或主力层失败时的 fallback
- 代表实现:企业 RAG 平台的”GPT-4o-mini 路由 → GPT-4o 主答 → o1 兜底”
- 能力专精分层(横向)
- 推理时计算分层(reasoning effort)
- 同一模型在不同任务下使用不同 thinking budget:Claude 4.7 的 thinking on/off、o3 的 reasoning effort high/medium/low
- 代表实现:OpenAI o3 的”自动选择推理深度”路由、Claude 的 extended thinking 控制
关键设计决策
- 路由器是什么形态?
- 规则路由(关键词、任务长度、用户类别):稳定可控但泛化弱
- 小模型路由(用一个 Haiku / GPT-4o-mini 做分类):泛化强但增加一跳延迟
- 学习型路由(基于历史 (prompt, model, outcome) 数据训练专门 router):成熟产品才负担得起
- fallback 机制:主模型失败 / 信心低 / 超时 → 升级到大模型;常用启发式包括”答案太短""模型主动声明不确定""结构化输出 schema 失败”
- 缓存友好性:Prompt Caching 在每个模型上是独立的缓存空间,频繁切换模型会丢失 cache 命中。设计时倾向”路由器选定后整轮使用一个模型”,而不是”每次推理临时选模型”
- 观测性:必须记录 (任务类型, 选中的模型, 实际成本, 用户满意度) 元组以做 A/B;缺乏这类观测的多模型路由很快退化为”猜测式调度”
实际收益与坑
- 典型收益:成本 30–70% 下降、p50 延迟 30–50% 下降;旗舰模型质量”几乎不可感”地下降
- 常见坑一:路由判断本身不准
- 简单关键词分类无法识别”看起来短但需要长推理”的任务,把硬任务路由到小模型 → 用户拿到错误答案
- 常见坑二:小模型自信地犯错
- 小模型在边界情况下不会 abstain,而是”自信地胡说”,比大模型的”不知道”更难恢复
- 常见坑三:fallback 链过长
- “小 → 中 → 大 → 大+thinking” 链路设计听起来稳,但实际延迟和成本可能超过直接用大模型
- 常见坑四:用户期待错配
- 付费用户认为”我付了钱就应该用最强模型”——多模型分层在 B2C 产品里需要透明告知或绕开(如 Perplexity 显示用了哪个模型)
产品形态案例
- Claude Code:Opus 主对话、Sonnet 默认编码、Haiku 用于轻任务,user 可以 /fast 切换;并通过 SubAgent / Skill 体系把任务路由具象化
- Cursor:Composer 用大模型、Chat 用中模型、autocomplete 用小型自研模型,分层粒度细
- 企业 RAG:embedding 用 Voyage / OpenAI text-embedding-3-small;rerank 用专门 Cohere/Voyage rerank;最终答案用旗舰
- Perplexity:Pro Search 让用户选 Claude / GPT / Sonar,免费用户固定走自研 + 中等模型
- OpenRouter / Helicone:把多模型路由作为基础设施服务出售给开发者
对 Rick 的价值
- AI PM 的核心架构能力:在 通往 AI PM 之路 的能力坐标里,“如何设计成本/质量可控的多模型系统”是 2025 后 PM 区分度最高的硬技能之一。比单模型 prompt engineering 更上一层。
- 理解 Claude Code / Cursor 等 IDE Agent 的设计哲学:这些产品的工程实现高度依赖多模型分层;理解它就能反推产品决策(为什么 Claude Code 自动选模型?为什么有 /fast?为什么 Skill 系统存在?)
- 评估”AI 产品 unit economics”的钥匙:Rick 在 〔私人记录〕 中观察 Microsoft Copilot 落地差,部分原因是巨型组织难以做精细的多模型路由——它们倾向”all-in 最强模型”。多模型分层能力差距是大公司 vs AI native 创业公司在产品体验上的隐性分水岭。
- 个人工作流参考:Rick 自己日常使用 Claude Code 时也在做隐式多模型分层(什么时候用 Opus、什么时候 /fast、什么时候用 SubAgent),这一概念帮助把直觉显性化为方法论。
关联节点
- 模型生态:Claude Claude Opus Claude Sonnet Claude Code OpenAI ChatGPT Gemini DeepSeek Perplexity
- 工程基础:Prompt Caching Function Calling Agent KV Cache
- 产品议题:m205 - AI 产品形态:从工具到 Agent m206 - Agent 产品化:记忆机制与技术进展 c14 - 模型评估体系与 Goodhart 陷阱
- 职业议题:通往 AI PM 之路 〔私人记录〕
- 相关概念:reasoning model、推理时算力 scaling、c11 - 推理模型与 Long CoT
来源 / 证据池
- 工程实践:Anthropic 工程博客、Cursor / Cline / Claude Code 开源讨论
- 学术:FrugalGPT (Stanford 2023, arXiv:2305.05176) 提出 LLM cascade 的早期形式化
- 行业分析:Stratechery、Latent Space、SemiAnalysis 关于推理时算力经济学的系列文章
- Rick 库内:〔私人记录〕 〔私人记录〕